
6月15日下午,在WGDC2018人工智能遙感解譯大會(huì)上,商湯科技高級(jí)研究員李聰做了專題演講,以下為演講實(shí)錄。
主持人:各位來賓,下午好,感謝大家撥冗蒞臨WGDC2018商湯科技專場(chǎng)。商湯科技是全球領(lǐng)先的人工智能平臺(tái)公司,秉持著堅(jiān)持原創(chuàng),讓AI引領(lǐng)人類進(jìn)步的理念,與我們共同來探討人工智能遙感影像解譯方案。
地球是我們賴以生存的美麗家園,人類自誕生以來就沒有停止過對(duì)這顆美麗藍(lán)色星球的探索,從盤古開天到滄海桑田,那些傳說中記載著人類文明以來我們對(duì)地球的認(rèn)知,現(xiàn)代文明的發(fā)展,遙感技術(shù)的進(jìn)步,讓冰冷而陌生的地理物質(zhì)變得溫?zé)岫煜?。進(jìn)入人工智能時(shí)代,我們更加愿意擁抱新技術(shù),用更加自動(dòng)化的數(shù)據(jù)處理與分析能力。下面有請(qǐng)商湯科技高級(jí)研究員李聰,為大家介紹人工智能機(jī)器視覺是如何解讀遙感大數(shù)據(jù)的。
李聰:
謝謝大家,感謝大家的耐心等待。我是商湯科技的算法研究員,主要負(fù)責(zé)深度學(xué)習(xí)技術(shù)遙感方面的應(yīng)用,今天由我來為大家分享一些基于深度學(xué)習(xí)技術(shù)在遙感領(lǐng)域中取得的技術(shù)成果。
首先,對(duì)我們公司進(jìn)行簡(jiǎn)要的介紹。我們公司到目前成立還不足四年,但我們?cè)谌斯ぶ悄芸蒲屑夹g(shù)里面有了20年的科研積淀,目前員工超過1700名。人工智能方面的博士超過150名,我們公司在今年上半年已經(jīng)獲得了累計(jì)超過12億美元的融資,在人工智能領(lǐng)域目前累計(jì)融資全球最大。同時(shí),我們的技術(shù)也在各個(gè)行業(yè)里有了深入的應(yīng)用,比如金融、智慧城市、智能手機(jī)、AR芯片、無人駕駛等方面。
能取得上述的成績(jī)離不開我們公司在以下三個(gè)方面的堅(jiān)實(shí)的工作,首先是我們有深度學(xué)習(xí)平臺(tái)Parrots,是我們自主研發(fā)的,擁有自主知識(shí)產(chǎn)權(quán),面對(duì)我們現(xiàn)在超大規(guī)模的網(wǎng)絡(luò)、超大數(shù)據(jù)的學(xué)習(xí)以及復(fù)雜關(guān)聯(lián)應(yīng)用網(wǎng)絡(luò)方面有突出的優(yōu)勢(shì)。為了加快深度學(xué)習(xí)模型的訓(xùn)練,算法的迭代優(yōu)化,我們還有深度學(xué)習(xí)超算中心。我們深耕多個(gè)領(lǐng)域進(jìn)行AI原創(chuàng)技術(shù)的研發(fā)與積累,目前希望打造中國(guó)的人工智能時(shí)代的國(guó)家電網(wǎng)。目前我們已經(jīng)在14個(gè)垂直行業(yè)里面與700多個(gè)國(guó)內(nèi)外知名企業(yè)進(jìn)行了深度學(xué)習(xí),并且在市場(chǎng)占有率上居于首位。這是我們的自主原創(chuàng)的深度學(xué)習(xí)平臺(tái)Parrots,我們有自主知識(shí)產(chǎn)權(quán),不必?fù)?dān)心受制于人。我們可分布式的訓(xùn)練必不可少,我們也對(duì)底層代碼進(jìn)行深度優(yōu)化,提升了運(yùn)算效率,降低能耗。為了應(yīng)對(duì)復(fù)雜的需求,我們的平臺(tái)同時(shí)支持復(fù)雜關(guān)聯(lián)應(yīng)用模型的快速便捷的部署跟搭建,具有高度的可伸縮特性。這是我們目前擁有的GPU超算集群,目前擁有超過8000塊GPU卡,在多地搭建了10個(gè)GPU集群,最大的連接規(guī)模超過800塊GPU卡。
我們的技術(shù)也在計(jì)算機(jī)視覺里面多項(xiàng)全球的賽事獲得了驗(yàn)證,參賽隊(duì)伍有IT知名企業(yè),還有科研院校。我們的任務(wù)包括分割檢測(cè)、分類識(shí)別、跟蹤、場(chǎng)景深度估計(jì)等多個(gè)任務(wù)。在6月1號(hào)結(jié)束的CVPR上,在土地分類的任務(wù)中我們也取得了冠軍。完成該比賽的只是我們一名大四的實(shí)習(xí)生,這其中離不開他自身的努力,當(dāng)然也離不開我們前面提到的軟硬件的基礎(chǔ),和我們各項(xiàng)技術(shù)的積累。
后面通過兩個(gè)案例更具體的介紹一下基于深度學(xué)習(xí)技術(shù)在遙感解譯方面的應(yīng)用。我們是以光學(xué)遙感影像的解譯為主,先介紹兩個(gè)方向,一個(gè)是分割,另一個(gè)是檢測(cè)。分割的主要技術(shù),現(xiàn)在處理的主要是在土地利用類型分類的問題上,具體應(yīng)用到遙感場(chǎng)景的時(shí)候會(huì)有這樣幾個(gè)問題,首先遙感場(chǎng)景里面對(duì)的待分類的地類有分布廣的特性,通常在圖像上有大面積的分布,比如說圖中的耕地、水體、林地等地類。然后相比起通用場(chǎng)景下的分割,我們遙感場(chǎng)景里的地類缺少結(jié)構(gòu)信息,比如說我們右邊的這幾個(gè)場(chǎng)景,如果說我們想對(duì)人體進(jìn)行分割的時(shí)候,我們會(huì)知道人會(huì)有頭部、四肢這樣的結(jié)構(gòu)信息,如果我們?nèi)ミM(jìn)行一個(gè)車的識(shí)別跟分割的時(shí)候,知道車有車輪、車箱、車頭這些部件,右圖建筑物的分割,我們知道如果來分割一個(gè)矩形物體,然后外面有好多的窗戶的部件,可能是建筑物??赡茉谖覀冞b感場(chǎng)景中就缺少這些必要的結(jié)構(gòu)信息。還有傳統(tǒng)的解譯方法主要有兩類,一個(gè)是面向像素,一個(gè)是面向?qū)ο?。但是由于我們遙感場(chǎng)景里面的問題多樣性,場(chǎng)景的復(fù)雜,如何去設(shè)計(jì)更好的特征進(jìn)行特征的選取和融合,以達(dá)到更好的解譯效果。這是一個(gè)非常關(guān)鍵的問題,我們以6月1號(hào)結(jié)束的比賽里面,土地利用類型分類的具體任務(wù),給大家介紹一下我們的解決思路。
首先我們搭建了一個(gè)網(wǎng)絡(luò),主要有三部分組成,也分別針對(duì)于剛才提到的三個(gè)問題進(jìn)行了充分的剖析和優(yōu)化。首先第一個(gè)是我們建立了Backbone,這個(gè)Backbone是滿足我們處理大區(qū)域圖像的訴求,應(yīng)對(duì)了我們前面提到的遙感場(chǎng)景里面的分布網(wǎng)絡(luò)特性。第二個(gè)部分是我們多使用了道路信息,讓它作為一個(gè)輔助類增加結(jié)構(gòu)信息,以輔助大類之間準(zhǔn)確性的判斷,后面會(huì)有具有的效果。第三個(gè)部件是我們?cè)O(shè)計(jì)的深度融合模塊,這個(gè)模塊會(huì)使不同層次的信息進(jìn)行深度融合,同時(shí)保證了整個(gè)網(wǎng)絡(luò)梯度信息回傳,能提升細(xì)節(jié),又能優(yōu)化模型訓(xùn)練,最后實(shí)現(xiàn)更精準(zhǔn)的分類效果。
經(jīng)過這三個(gè)模塊,我們的模型就能達(dá)到很好的分類效果,最終在我們的原始指標(biāo)上提升20%以上,同時(shí)取得第一名的成績(jī)。
為了證明模型的穩(wěn)定性,還同時(shí)將我們?cè)O(shè)計(jì)優(yōu)化的網(wǎng)絡(luò)應(yīng)用到了一個(gè)建筑物提取的任務(wù)上,我們使用了跟spaceNet challenge建筑物提取的數(shù)據(jù)集一樣的,我們跟之前的指標(biāo)進(jìn)行了比較,可以看到總體指標(biāo)上我們已經(jīng)取得了大幅度的提升,超過5%。尤其是在這些比較困難的城市上,提升幅度已經(jīng)超過了10%。如果大家對(duì)深度學(xué)習(xí)在分割任務(wù)上比較了解的話,在通用場(chǎng)景下mask-rcnn是一個(gè)穩(wěn)定的模型,我們發(fā)現(xiàn)各個(gè)城市已經(jīng)取得了優(yōu)于mask-rcnn的精度,下面給大家看一下我們的效果。首先我們用前面的網(wǎng)絡(luò)提出來一個(gè)關(guān)于建筑物的概率圖,然后進(jìn)行矢量轉(zhuǎn)換,疊加到原始影像上,就出現(xiàn)了右邊這個(gè)具體的效果。前面的具體的任務(wù)主要是介紹一下深度學(xué)習(xí)技術(shù)的成果,后面一個(gè)就是目標(biāo)檢測(cè)的問題。
目標(biāo)檢測(cè)同樣有三個(gè)自己的特點(diǎn),首先我們的遙感影像通常數(shù)據(jù)特別大,1萬×1萬,甚至更大?,F(xiàn)在深度學(xué)習(xí)的目標(biāo)檢測(cè)通常是在一個(gè)尺寸比較固定的小圖上處理的,比如說500×500的大小,所以在處理大圖的時(shí)候要把它裁成若干個(gè)小圖,一下子就會(huì)多達(dá)幾千個(gè),普通網(wǎng)絡(luò)的處理效率簡(jiǎn)直就沒法忍受了。另一個(gè)是遙感場(chǎng)景里的目標(biāo),通常尺寸比較小,大部分集中在幾個(gè)像素到幾十個(gè)像素之間,如何保證這么小的目標(biāo)有比較高的召回,不遺漏我們需要檢測(cè)到的目標(biāo)是非常核心的問題。另外一個(gè)問題,當(dāng)我們保證關(guān)注的目標(biāo)不被漏檢的時(shí)候,是不是可能會(huì)導(dǎo)致產(chǎn)生特別多的虛警,保證高召回跟高虛警的目標(biāo)就變成了特別需要關(guān)注的問題。
我們以大圖像上的飛機(jī)檢測(cè)給大家做個(gè)介紹。首先我們整個(gè)網(wǎng)絡(luò)有四個(gè)子模塊構(gòu)成,前面介紹的兩個(gè)是特征提取的小網(wǎng)絡(luò)跟分類的子網(wǎng)絡(luò),這兩個(gè)網(wǎng)絡(luò)是為了進(jìn)行圖像處理的提速,就是前面說的要處理幾千個(gè)小圖像,會(huì)優(yōu)化每一次的處理效率。另外一個(gè)目標(biāo)檢測(cè)的子網(wǎng)絡(luò),主要是針對(duì)于前面提到的特別小的目標(biāo)設(shè)計(jì)的,我們既要保證我們的小目標(biāo)能夠被高效的召回,同時(shí)又不引入特別多的虛警。另外一個(gè)就是為了加強(qiáng)大家在具體用我們模型時(shí)候的用戶體驗(yàn),我們會(huì)對(duì)模型的虛警進(jìn)行進(jìn)一步的優(yōu)化,這個(gè)優(yōu)化是結(jié)合在通用場(chǎng)景里面大家常用的多任務(wù)聯(lián)合訓(xùn)練的思路,將飛機(jī)的關(guān)鍵點(diǎn)檢測(cè)子網(wǎng)絡(luò)融合到其中,同時(shí)這個(gè)子網(wǎng)絡(luò)還有一個(gè)優(yōu)勢(shì),如果我們的數(shù)據(jù)里還有坐標(biāo)和分辨率的信息,那我們也能夠提供準(zhǔn)確的飛機(jī)的方位信息,輔助我們后面進(jìn)行更深層次的飛行型號(hào)識(shí)別的任務(wù)。通過總共四個(gè)子模塊的優(yōu)化,就實(shí)現(xiàn)了在大尺寸的遙感影像上對(duì)小目標(biāo)的高精度的檢測(cè)。
首先我們介紹一下特征提取小網(wǎng)絡(luò)。我們對(duì)模型的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了深度的優(yōu)化,同時(shí)對(duì)參數(shù)量進(jìn)行了極大的壓縮。這次給大家展示的具體的實(shí)踐效果,所使用的網(wǎng)絡(luò),我們的模型參數(shù)僅有39萬。大量的網(wǎng)絡(luò)參數(shù)壓縮也會(huì)顯著降低內(nèi)存消耗,提升整個(gè)小圖的處理效率,為我們大圖的CPU平臺(tái)的處理提供了可能。
第二,我們?cè)O(shè)計(jì)分類子網(wǎng)絡(luò),要對(duì)大圖下的小圖進(jìn)行處理,后續(xù)的流程就是做子網(wǎng)絡(luò)的很多的任務(wù),比如說關(guān)鍵點(diǎn)檢測(cè)。有的時(shí)候小圖上沒有飛機(jī),我們沒有進(jìn)行后面的兩個(gè)操作,所以我們?cè)黾恿朔诸惖淖泳W(wǎng)絡(luò),只判斷這個(gè)小圖上有沒有,有的時(shí)候才處理,所以可以節(jié)省后面兩個(gè)子網(wǎng)絡(luò)的時(shí)間,節(jié)省的時(shí)間大概在20%到30%之間,同時(shí)我們也不需要單獨(dú)設(shè)計(jì)的特征提取,我們后面的三個(gè)子網(wǎng)絡(luò)都是共享前面特征小網(wǎng)絡(luò)里面的特征。
我們?cè)倬唧w介紹一下目標(biāo)檢測(cè)子網(wǎng)絡(luò)。這里面讓我們考慮兩個(gè)內(nèi)容,首先是在小目標(biāo)檢測(cè)上關(guān)于anchor的正對(duì)性優(yōu)化設(shè)計(jì)。經(jīng)過我們的優(yōu)化極大的提升我們對(duì)小目標(biāo)的召回。
下面是另外一個(gè)問題,我們有了這個(gè)小目標(biāo)的召回之后,我們?cè)趺茨鼙WC我們的小目標(biāo)召回出來的都是正確的,而不是說把其他的類似于飛機(jī)的東西都檢測(cè)出來了。我們就設(shè)計(jì)了一個(gè)多尺度的特征提取跟融合方案。比如說小飛機(jī),發(fā)現(xiàn)旁邊還有一個(gè)檢測(cè)清晰度更高的飛機(jī),當(dāng)前這個(gè)目標(biāo)就很有可能被預(yù)測(cè)成飛機(jī),是這樣的關(guān)聯(lián)。通過這兩部分,我們就能既提高小目標(biāo)的召回,有能有效的抑制它的虛警。
我們想對(duì)前面做出來的關(guān)于目標(biāo)的檢測(cè)做出來的更進(jìn)一步的虛警,實(shí)際的應(yīng)用中大家會(huì)發(fā)現(xiàn)在飛機(jī)上,其實(shí)你特別容易檢測(cè)出來一些類似于飛機(jī)的東西,當(dāng)成一個(gè)正樣本,導(dǎo)致你最終的結(jié)果有好多的虛警。我們就設(shè)計(jì)了一個(gè)關(guān)鍵點(diǎn)檢測(cè)的子網(wǎng)絡(luò),這對(duì)我們一開始獲得的初步的飛機(jī)檢測(cè)結(jié)果,進(jìn)行關(guān)鍵點(diǎn)的檢測(cè),用幾何信息判斷是不是真正的飛機(jī)。
下面是機(jī)場(chǎng)的具體的效果,設(shè)計(jì)了不同顏色、不同尺寸,甚至有一些高度上的重疊對(duì)象。正常情況下我們會(huì)拿到一張?zhí)貏e大的影像,也是我們普通的影像,對(duì)兩萬×兩萬左右的影像,除了飛機(jī)場(chǎng)很多情況下都有飛機(jī),只是大家不太關(guān)注。通過我們的算法也能很高效的給機(jī)場(chǎng)外的小飛機(jī)進(jìn)行高精度的檢測(cè)。
前面我們通過土地利用類型分類和建筑物的提取,加上最后在目標(biāo)檢測(cè)方面的一個(gè)飛機(jī)檢測(cè)具體的案例,介紹了我們部分遙感應(yīng)用上的探索。其實(shí)我們現(xiàn)在已經(jīng)取得了很多的技術(shù)成果,到目前為止已經(jīng)有了關(guān)于技術(shù)的20多個(gè)發(fā)明專利,而且其中絕大部分的技術(shù)已經(jīng)被成功的應(yīng)用到了我們具體的業(yè)務(wù)場(chǎng)景里,關(guān)于這一部分一會(huì)兒我們的產(chǎn)品負(fù)責(zé)人會(huì)進(jìn)行更細(xì)致的介紹。我的演講內(nèi)容就是這些,再次感謝大家的光臨。如果大家對(duì)深度學(xué)習(xí)技術(shù)的遙感方面的應(yīng)用比較感興趣,也特別期待大家會(huì)后進(jìn)行深層次的交流。特別希望我們商湯科技利用自己的技術(shù)和我們的努力,真正能夠?yàn)檫b感技術(shù)的應(yīng)用奉獻(xiàn)一份自己的力量,謝謝大家。
{{item.content}}