6月14日,第六屆WGDC大會(huì)在北京國家會(huì)議中心隆重開幕。大會(huì)由空間信息產(chǎn)業(yè)創(chuàng)新創(chuàng)業(yè)服務(wù)平臺(tái)泰伯主辦,秉承不斷引領(lǐng)和促進(jìn)空間信息技術(shù)創(chuàng)新與變革的宗旨,WGDC已走過五個(gè)年頭,如今已成為全球最具前瞻性的跨界創(chuàng)新風(fēng)向標(biāo)。
在本屆大會(huì)的衛(wèi)星+大數(shù)據(jù)峰會(huì)上,華浩科技副總裁張敏做了主題演講,以下為演講實(shí)錄。(內(nèi)容未經(jīng)本人審核):
這次我演講的主要題目是衛(wèi)星大數(shù)據(jù)的實(shí)踐思考,我這里說到兩個(gè)字,“實(shí)踐”??梢哉f比起李院士、徐主任,我們更傾向的是一線人員。我在這里說四個(gè)方面,第一個(gè)是衛(wèi)星大數(shù)據(jù)的行業(yè)變革,我認(rèn)為變革應(yīng)該很快就會(huì)到來;第二個(gè)是行業(yè)技術(shù)的發(fā)展;第三個(gè)是本身大數(shù)據(jù)的生產(chǎn)實(shí)驗(yàn);第四個(gè)是我們的思考。
這個(gè)片子我可以很簡單的過一遍,剛才李院士和徐文主任說的非常明確了,我們的衛(wèi)星在預(yù)測(cè),到達(dá)2020年我們國家衛(wèi)星數(shù)量肯定達(dá)到100顆以上,經(jīng)歷的發(fā)展時(shí)間會(huì)越來越短,同時(shí)觀測(cè)頻率越來越高,分辨率越來越高,初始精率越來越高,以及觀測(cè)技術(shù)手段也越來越高。前段時(shí)間我們跟COE中心的一線工程師在聊,它的觀測(cè)質(zhì)量非常高,包括一軌內(nèi)的立體成像、多維觀測(cè),現(xiàn)在這些技術(shù)已經(jīng)慢慢變得成熟。
我相信會(huì)帶來這幾個(gè)方面的變化,第一個(gè)是國產(chǎn)衛(wèi)星數(shù)據(jù)應(yīng)用份額越來越高,它會(huì)倒逼來自國外的衛(wèi)星影象數(shù)據(jù)資源的大降價(jià)。數(shù)據(jù)越來越多也越來越大,有一些新發(fā)射的衛(wèi)星,它可以達(dá)到60公里乘60公里,分辨率到1米,出來的結(jié)果一景數(shù)據(jù)就是40個(gè)G,這樣的數(shù)據(jù)量如何應(yīng)對(duì),普通的軟件還能做這樣的數(shù)據(jù)嗎?
發(fā)射衛(wèi)星已經(jīng)不再是高端的事情,它應(yīng)該是一個(gè)已經(jīng)快要普及化的商業(yè)應(yīng)用了。我們國家有航天部門在主導(dǎo)這件事情的整體發(fā)展,事實(shí)上有商業(yè)公司包括政府,都在強(qiáng)烈要求發(fā)衛(wèi)星,這個(gè)資源已經(jīng)變得越來越重要。但是,真正衛(wèi)星專業(yè)的應(yīng)用,專業(yè)的門檻非常高,而且需要的知識(shí)體系非常多,很多人不懂,覺得發(fā)衛(wèi)星之后就是應(yīng)用了,實(shí)際上從衛(wèi)星發(fā)射上天到連條連側(cè)在軌運(yùn)營,以及到數(shù)據(jù)的定位、定資環(huán)節(jié)相當(dāng)多、問題也非常多。一體化的服務(wù),事實(shí)上是用戶最終的訴求,數(shù)據(jù)從下載衛(wèi)星到應(yīng)用,看似這條實(shí)踐非常簡單,事實(shí)上非常難做到。
我認(rèn)為有三大轉(zhuǎn)變,第一個(gè)經(jīng)營價(jià)值的轉(zhuǎn)變,原來可能是靠賣數(shù)據(jù)來掙錢,現(xiàn)在慢慢會(huì)轉(zhuǎn)變?yōu)閼?yīng)用服務(wù)的增值,第二個(gè)是生產(chǎn)模式,我相信衛(wèi)星數(shù)據(jù)的生產(chǎn)在不久的將來會(huì)變成無成本化生產(chǎn),基本上做到自動(dòng)化無人員干預(yù)、無成本投入的運(yùn)營模式,最終就會(huì)逼我們形成產(chǎn)品形態(tài)的轉(zhuǎn)變,由零級(jí)數(shù)據(jù)一直到最后的高級(jí)產(chǎn)品,這條線會(huì)越來越短,而且投入越來越少。
對(duì)于行業(yè)的技術(shù)發(fā)展,我們認(rèn)為有這樣幾個(gè)方面,第一個(gè)是衛(wèi)星的地面站,建了很多的地面站系統(tǒng),現(xiàn)在的訴求是向衛(wèi)星大數(shù)據(jù)中心方向發(fā)展,地面站系統(tǒng)和衛(wèi)星中心最大的區(qū)別在哪里?地面站系統(tǒng)僅僅就是一個(gè)系統(tǒng),大數(shù)據(jù)中心更多的是擴(kuò)展數(shù)據(jù)的橫向擴(kuò)展模式。
第二個(gè)是數(shù)據(jù)處理由人海戰(zhàn)術(shù)轉(zhuǎn)向智能化生產(chǎn),最早些年很多的數(shù)據(jù)生產(chǎn)都是由人來完成的,包括我們國家的涉及到衛(wèi)星的數(shù)據(jù)生產(chǎn),都是很多人工,包括我也去很多測(cè)繪局,大家在做地理衛(wèi)星檢測(cè)的時(shí)候photoshop人工一點(diǎn)點(diǎn)的去修。這種方式將來一定會(huì)發(fā)生重大的轉(zhuǎn)變,全部交由計(jì)算機(jī)完成的技術(shù)發(fā)展。另外就是衛(wèi)星的設(shè)計(jì)、制造、發(fā)射、測(cè)控運(yùn)營、數(shù)據(jù)的生產(chǎn)處理、管理、以及發(fā)布共享、應(yīng)用分析之間的深度融合,這個(gè)觀點(diǎn)和李院士的觀點(diǎn)是完全相同的,組建一個(gè)綜合化的應(yīng)用服務(wù)系統(tǒng)。
目前的行業(yè)壁壘有哪些?有七點(diǎn);
第一個(gè)千景以上洲際規(guī)模的高精度區(qū)網(wǎng)平差,取代如何修正衛(wèi)星解決精度問題,衛(wèi)星在天上下來的數(shù)據(jù),不是一直以來精度很高,可以通過算法能夠讓數(shù)據(jù)產(chǎn)生更高的精度;
第二個(gè)是無色差的融合,多光譜全色之間怎么樣保持光譜,保持光譜特性的融合;
第三個(gè)是大規(guī)模數(shù)據(jù)的整體計(jì)算效率,幾百景能做,幾千景行不行,幾萬景行不行,幾十萬景行不行,做過的說行,沒做過的覺得行,是差得很遠(yuǎn)的;
第四個(gè)基于三線陣或者是異軌立體影像DSM的匹配技術(shù),主要涉及到的是匹配的精度、速度,另外是錯(cuò)誤率、含噪率;
第五個(gè)是DOM/DSM全自動(dòng)去云技術(shù),去云技術(shù)我也見過很多了,有人基于深度學(xué)習(xí)的去云,有人基于紋理分析的去云,效果都不是那么完美;
第六個(gè)是基于深度學(xué)習(xí)的矢量提取,我也見了很多人在做,有些已經(jīng)做得比較好了,包括像水域提取、植被提取、道路提取、房屋提取;
第七個(gè)是極端數(shù)據(jù)的處理技術(shù),極端數(shù)據(jù)應(yīng)該說是在非常規(guī)條件下得到的數(shù)據(jù),但是必須又非要做出成果這樣條件下的數(shù)據(jù)技術(shù)。
最后得到什么?實(shí)時(shí)地圖服務(wù),它涵蓋了所有的影像,從衛(wèi)星上下來應(yīng)該直接進(jìn)入到地圖,中間最好不要超過10分鐘,除了影像實(shí)時(shí)地圖以后,地圖上的每一個(gè)像素能夠溯源,像素來源于哪一顆衛(wèi)星,來自于什么時(shí)間拍攝的,參數(shù)是什么,能夠做到溯源,只有這樣才能在地圖上得到更多的信息。
第二,時(shí)空大數(shù)據(jù)服務(wù),提的很多,但是資源還是不夠,真正數(shù)據(jù)資源多的也沒見到這樣的服務(wù)。時(shí)空大數(shù)據(jù)服務(wù)最關(guān)鍵的結(jié)點(diǎn)是配的要準(zhǔn),建議時(shí)空緯度的時(shí)候配的一定要準(zhǔn)。第三個(gè)就是智能信息提取,第四個(gè)是在線的定制成果服務(wù),總體來講以時(shí)間和效率來趕上衛(wèi)星大數(shù)據(jù)的處理手段,以達(dá)到成本降低和數(shù)據(jù)持續(xù)更新的能力。
這里面有一些思考,第一個(gè)問題,數(shù)據(jù)成果的強(qiáng)制接邊,導(dǎo)致數(shù)據(jù)信息位置嚴(yán)重失真。比如說我們做數(shù)據(jù)生產(chǎn),到了影像的接邊,兩者影像之間做完以后路對(duì)不上,怎么辦?修一修,photoshop拽一拽,我們拿這張土再做土地量測(cè)的時(shí)候要么多了2%,要么少了2%,問題在哪兒?數(shù)據(jù)成果的強(qiáng)制接邊該不該做?我們的思考是什么?
第一擴(kuò)大趨于網(wǎng)平差的規(guī)模,在很多的測(cè)繪單位在做測(cè)繪生產(chǎn)的時(shí)候往往是什么,小區(qū)域網(wǎng)的平差平完之后網(wǎng)與網(wǎng)之間再接邊,接邊的時(shí)候很痛苦,到底是你對(duì)了還是我對(duì)了,大家都說自己對(duì)了,到底誰對(duì)了呢?photoshop去一去。不同的分辨率采用合理的控制資料,不得不說的一點(diǎn),我們的衛(wèi)星高分辨率影像已經(jīng)越來越多了,從高分2號(hào)的一米到現(xiàn)在最新高景1號(hào)的0.5米,它所需要的DEM的控制資料,往往大家在做的時(shí)候是不太關(guān)注地形的,實(shí)際上這個(gè)地形是完全有要求,精度上影響很大。另外,還可以通過大數(shù)據(jù)深度學(xué)習(xí)的方法,進(jìn)一步提高初始衛(wèi)星的絕對(duì)精度。
第二個(gè)不同季節(jié)的調(diào)色,我們做圖的時(shí)候見過這樣一個(gè)經(jīng)歷,明明是冬天非要把它改成綠色,這個(gè)很痛苦也很難難調(diào),但是photoshop很強(qiáng)大,確實(shí)能調(diào)成綠色,但是它對(duì)嗎?該不該去調(diào)它,如果說數(shù)據(jù)量足夠的多,不能建立一年12張這樣的圖,我們不去調(diào)色,包括已經(jīng)做到在軌輻射性表,不需要做大量的調(diào)色。第三條是系統(tǒng)建設(shè)逃不了原有技術(shù)的束縛,割裂建設(shè)。我們自己是這樣做的,必須深入到專業(yè)領(lǐng)域當(dāng)中去,要非常細(xì),每一個(gè)環(huán)節(jié)我們的誤差、錯(cuò)誤,是否能夠驗(yàn)證對(duì)得上。另外是各種新技術(shù)的應(yīng)用,我經(jīng)常跟百度、阿里不是我們行業(yè)的人在聊天,他們給了我很多新的想法和思想。
看看我們的大數(shù)據(jù)實(shí)踐,拿這幾個(gè)方面來說,第一個(gè)是天繪衛(wèi)星,這是一個(gè)很小的測(cè)區(qū),有202景,應(yīng)該是202組,606景數(shù)據(jù)組成的,最高匹配的自由程度達(dá)到了148度的子配匹配重疊度。它是多年的數(shù)據(jù)累在一起,形成一個(gè)縱向疊加的高度,在這樣的程度上,要做到什么結(jié)果呢?能否做到無控,能不能用歷史的數(shù)據(jù)做到對(duì)影像數(shù)據(jù)無控提高它的精度,做到5米量級(jí)左右,也有一系列遺留的問題。這是利用大量的重疊數(shù)據(jù)做出來的,中間關(guān)于去河道等等,基本上都是全自動(dòng)完成的。這個(gè)是在國家測(cè)繪中心做的ZY3號(hào),做的控制網(wǎng)的去網(wǎng)平差,可以達(dá)到平面兩米二,高是3.4。這是它的水域的效果,水域的紋理相當(dāng)不穩(wěn)定。這是在一個(gè)工業(yè)區(qū)地面的效果,分辨率為6米。這個(gè)是不久前剛剛做的基于洲際的,整個(gè)印度,中間還缺了一部分?jǐn)?shù)據(jù),總量是1039組,共計(jì)3052景,資源三號(hào)的三線陣數(shù)據(jù)做了一個(gè)整網(wǎng)平差,利用的控制資料就是Google的五米影像,這個(gè)是全球側(cè)組的生產(chǎn)工藝了。平差精度基本上能夠做到兩米左右,而且這里面有一個(gè)點(diǎn),一臺(tái)計(jì)算機(jī),現(xiàn)在大家都說云,一臺(tái)計(jì)算機(jī)38個(gè)小時(shí)可以把3000多G所有的平臺(tái)截面匹配全自動(dòng)完成,它做到的匹配的重疊數(shù),主要的重疊數(shù)以三個(gè)重疊點(diǎn)為主,4-8度相對(duì)來說都比較高,兩度可能是在邊緣的地區(qū),只有兩景以上,最高的能達(dá)到26度。
在這種高強(qiáng)度的連接下,這是全自動(dòng)匹配的DSM,而且洲際的一千多景以上的匹配,一臺(tái)計(jì)算機(jī)用了4.5天,一臺(tái)工作站我們就完成了。按照這個(gè)算法我們中國區(qū)的DSM也就是一星期左右,這是一些效果圖。另外是極端情況下的,全球側(cè)圖所面臨的很重要的問題,伊朗地區(qū)沙漠地區(qū)的DSM的制作,挑了一景沙漠地區(qū)的影像DSM的生產(chǎn),可以看到沙丘以及沙丘紋理特殊的地形地貌。剛才提到的如何能夠很好的抑制匹配噪聲,在弱小紋理的情況下達(dá)到很干凈的成果出來,這就是一個(gè)很關(guān)鍵的問題。
衛(wèi)星遙感最大的問題就是云,因?yàn)樗械男l(wèi)星都是在云上,而不是在云下,如何把云的干擾降到最低,也是我們?cè)谒械臄?shù)據(jù)生產(chǎn)和計(jì)算過程當(dāng)中,一個(gè)非常重要的問題,否則它帶來的問題是大量的人工去修補(bǔ)。還有是河流,能否保持真實(shí)的地貌把河面提出來,這是很關(guān)鍵的問題。
做了一些實(shí)驗(yàn),基于這樣的DSM能否做到提取高精度的等高線,等高線是否替代傳統(tǒng)的測(cè)繪要求,做了大量的實(shí)驗(yàn),甚至把等高線放到立體下去觀測(cè),跟立體模型的匹配程度,還有是極端情況下的,整個(gè)一張圖都是海島,海域上有很多的云,在這種情況下怎么做配準(zhǔn),以及多光譜和全色之間的差距非常大,內(nèi)部有形變,在這樣的情況下如何形成高精度的配準(zhǔn)。另外是高分4號(hào)的區(qū)域網(wǎng)平差,在剛剛做的時(shí)候相當(dāng)水土不服,后來經(jīng)過調(diào)整以后,高分4號(hào)不管是在高緯還是低唯,可以達(dá)到一個(gè)平差結(jié)果,這些結(jié)果在某一些條件下甚至比國外軟件都要好。
最后給大家提出我們的想法,這個(gè)想法也是一些思考,衛(wèi)星大數(shù)據(jù)要建設(shè)這個(gè)數(shù)據(jù)中心首先是什么,要想拓展從衛(wèi)星到應(yīng)用,中間數(shù)據(jù)成果的加工,高級(jí)產(chǎn)品生產(chǎn)技術(shù)就必須涵蓋,怎么辦呢?我們?cè)谶@里做了一個(gè)很簡單的想法,首先采取多結(jié)點(diǎn)分布式存儲(chǔ),存儲(chǔ)和計(jì)算放在一起,前端采用可視化終端,你想看到生成的結(jié)果是什么,打開電腦就可以看到,覺得可以了,想生產(chǎn)了就生產(chǎn),生產(chǎn)完了之后轉(zhuǎn)入實(shí)時(shí)動(dòng)態(tài)的共享,這是非常簡單的邏輯,做起來就相當(dāng)復(fù)雜了。
會(huì)涉及到幾個(gè)關(guān)鍵技術(shù),第一個(gè)是快速生產(chǎn)的解決方案,用戶要得到大量的成果,最關(guān)鍵的問題是快速,因?yàn)槲覀冃l(wèi)星大數(shù)據(jù)的特征是什么,是它的數(shù)據(jù)非常非常大,前一陣我跟商業(yè)大數(shù)據(jù)聊,有500億條記錄,我說數(shù)據(jù)量多大?也就幾百兆,一條數(shù)據(jù)就有多少個(gè)字節(jié),他只需要知道這些數(shù)據(jù),就做一些聚合、分類、分析,另外就是圖表的輸出。我們不知道,幾百個(gè)G對(duì)我們來說也就是幾十張片子,比如像高分1號(hào)的數(shù)據(jù)出來就是四五個(gè)G的一張圖,如果說幾百張這樣的圖,很快就上去了。像剛才印度的區(qū)域3052景,數(shù)據(jù)容量是3個(gè)T多一點(diǎn),這么多的數(shù)據(jù)要把成果做出來,這完全是不一樣的。
第二個(gè)是分布式存儲(chǔ),這里面無外乎就是Hadoop、MongoDB這些東西如何用?很多人跟我提過我要用Hadoop去做分布處理,最終的需求在哪里,為什么用它做,這里面有很多的思考和關(guān)鍵點(diǎn)。
第三個(gè),實(shí)時(shí)可視化解決用戶的可見的需求,原來傳統(tǒng)的所有數(shù)據(jù)制作,如果不能做到實(shí)時(shí)可視化,那么生產(chǎn)效率一定會(huì)降低,做完了才能知道結(jié)果是什么樣的,能不能做之前就能夠就能夠把空3的精度在圖上量完了,不是說看空3的結(jié)果,不是看空3的平差報(bào)告,不是的,這樣節(jié)省很多中間的存儲(chǔ)、處理環(huán)節(jié)等等。
第四個(gè)標(biāo)準(zhǔn)化鑲嵌,解決成果數(shù)據(jù)源的溯源需求,為大數(shù)據(jù)應(yīng)用奠定基礎(chǔ),后面的實(shí)時(shí)地圖提供基礎(chǔ),這是很好的客戶伙伴給我們提供的訴求。另外一個(gè)就是實(shí)時(shí)在線處理,它的技術(shù)難點(diǎn)有五條,第一個(gè)是廣域網(wǎng)(洲際范圍)內(nèi)的高精度平差,針對(duì)平差可以提出更多的想法,這里面關(guān)鍵點(diǎn)是異常處理,很多人都在問我算的結(jié)果多好,平差精度零點(diǎn)幾,出來的結(jié)果就是不對(duì)?為什么?你可能把連接點(diǎn)都刪掉,連接關(guān)系都丟失了,平差結(jié)果不好。但是你怎么檢查呢?能不能把這些東西檢查出來呈現(xiàn)在我們的問題,關(guān)鍵的技術(shù)點(diǎn)在這。另外是符合全球廣域特征的勻光、勻色,不是由人來引領(lǐng)的,是地球自己引領(lǐng)的,應(yīng)該是什么樣的光譜應(yīng)該是有特征的,而不是主管把它弄成什么樣的顏色,我見過已經(jīng)把道路都弄成淺綠色的,這些完全不太合適。另外就是批量生產(chǎn)過程中的網(wǎng)絡(luò)傳輸優(yōu)化,這一點(diǎn)不言而喻,還有像快速的金字塔創(chuàng)建、快速正射技術(shù)、快捷融合技術(shù)、快捷鑲嵌線生成技術(shù)以及集成,包括影像技術(shù)的快速統(tǒng)計(jì)等等。
對(duì)于像這種存儲(chǔ),像Hadoop、MongoDB它可以提供多節(jié)點(diǎn)、大內(nèi)存、高性能、高存儲(chǔ)。到底怎么用它?MongoDB或者photoshop里面不要只存影像數(shù)據(jù),要存更多的數(shù)據(jù),比如說金字塔數(shù)據(jù)、光色表、ITC參數(shù)、紋理信息、云判信息、平差后的成果信息等等,有很多這樣的信息,可以存很多東西。用這種方法來提高整體的數(shù)據(jù)生產(chǎn)效率,把原來數(shù)據(jù)僅僅用于存儲(chǔ),變成數(shù)據(jù)由存儲(chǔ)到存儲(chǔ)+計(jì)算的模式。這里面包括類似于實(shí)時(shí)可視化平差、實(shí)時(shí)可視化融合、實(shí)時(shí)可視化的校正、鑲嵌等等。
最后提一點(diǎn)廣域極限平差的思考,這里面提了一個(gè)想法,或者說是一個(gè)概念。殘差大的點(diǎn)該不該刪?這是一個(gè)很簡單的問題,有人說該刪,有人說不該刪,當(dāng)我的匹配非??煽康臅r(shí)候,匹配出來的點(diǎn)正確的時(shí)候仍然殘差大,該不該刪?我在很多的測(cè)繪單位、生產(chǎn)單位、做軟件的研究人員問這個(gè)問題,大家一味的追求你的殘差很小、空差機(jī)構(gòu)好,殊不知他把殘差大的一刪,把好的點(diǎn)留下來,剩下的放回去,結(jié)果不言而喻。該不該分區(qū)平差再接邊?這是一個(gè)很嚴(yán)肅的問題,如果做到全球一張網(wǎng),是最好的,不需要再接邊了。另外一個(gè)是連接點(diǎn)越多越好,連接點(diǎn)我認(rèn)為越多越好,但是能不能算過來。我們?cè)谟《冗@個(gè)測(cè)區(qū)做連接點(diǎn)的時(shí)候,最終留下的是68萬,事實(shí)上匹出來的點(diǎn)在過程計(jì)算當(dāng)中應(yīng)該達(dá)到了1.3億個(gè)點(diǎn)左右。最后平差的結(jié)果僅僅只體現(xiàn)精度嗎?
我認(rèn)為平差的結(jié)果還有很多信息可以值得我們深入挖掘,它不僅僅體現(xiàn)的只是平差、只是精度,它有更多的信息在里面。我提幾個(gè)點(diǎn),第一,基于超海量的點(diǎn)建立超緯方程這樣的實(shí)現(xiàn)思路,建立方程緯度,片子越多,點(diǎn)就越多,得到誤差方程的緯數(shù)就會(huì)最大,在一臺(tái)計(jì)算機(jī)上能不能解決這個(gè)問題。
第二,如果利用海量的同名點(diǎn)做深度分析,比如說密度分析、連接剛性分析、符合性分析等能否得到更多的信息,比如說每一個(gè)影像、每一部分的誤差,甚至是每一個(gè)影像紋理的質(zhì)量等等。
最一提一個(gè)云中心管理方案的思考,我們也有很多客戶的支持,第一個(gè)是準(zhǔn)實(shí)時(shí)更新的“衛(wèi)星遙感一張圖”,這個(gè)目標(biāo)離我們的目標(biāo)實(shí)現(xiàn)越來越近。第二個(gè)是衛(wèi)星遙感時(shí)空大數(shù)據(jù)平臺(tái),里面含有所有時(shí)期的DOM/DSM/DEM/DLG,在這個(gè)基礎(chǔ)上的共享發(fā)布服務(wù)、行業(yè)應(yīng)用分析等等,以及在這樣的環(huán)境平臺(tái)上可以構(gòu)建深度學(xué)習(xí)的海量樣板庫和在線學(xué)習(xí)系統(tǒng)等等。
{{item.content}}