6月14日,第六屆WGDC大會在北京國家會議中心隆重開幕。大會由空間信息產(chǎn)業(yè)創(chuàng)新創(chuàng)業(yè)服務平臺泰伯主辦,秉承不斷引領和促進空間信息技術創(chuàng)新與變革的宗旨,WGDC已走過五個年頭,如今已成為全球最具前瞻性的跨界創(chuàng)新風向標。
在本屆大會的衛(wèi)星+大數(shù)據(jù)峰會上, 河海大學地理信息科學與工程研究所所長、地球科學與工程學院副教授張曉祥、云游九州聯(lián)合創(chuàng)始人、中科院西光所大數(shù)據(jù)應用工程中心副主任李振宇、佳格天地聯(lián)合創(chuàng)始人兼產(chǎn)品副總裁、原NASA國家實驗室數(shù)據(jù)科學家顧竹、商湯科技高級研究員、香港中文大學計算機視覺博士石建萍共同參與了圓桌討論,以下為演講實錄。(內(nèi)容未經(jīng)本人審核):
張曉祥(主持):今天請到的三位嘉賓,李振宇博士正在做數(shù)據(jù)的獲取;石建萍博士是在做數(shù)據(jù)的分析;顧竹博士做的是農(nóng)業(yè)的大數(shù)據(jù)遙感,從數(shù)據(jù)的獲取到數(shù)據(jù)的分析。他們都有很多的建樹,分享他們的觀點。請三位嘉賓講個人的情況,你們公司的產(chǎn)品能不能做一些簡要的介紹。
李振宇:我們現(xiàn)在做的東西比較偏門,主要是解決什么問題呢?現(xiàn)在的數(shù)據(jù)越來越多,已經(jīng)超過我們能夠管理的極限了,這里邊所需要變化的是什么呢?我們的數(shù)據(jù)管理模式要發(fā)生很大的變化才能適應這種方式,原來我們是遍布管理,然后下載使用,其實只管理了文件的目錄,而并沒有管理文件的內(nèi)容,所謂大數(shù)據(jù)應用或者機器學習當中,這個模式是不可以的,我們是怎么來解決這個問題的,換一種思路先構建了一個覆蓋全球的32級的網(wǎng)格體系,這是作為一個基本的空間框架,我們?yōu)樗械臄?shù)據(jù)來建統(tǒng)一的網(wǎng)格索引,或者理解為我用網(wǎng)格存儲所有的信息,包括遙感信息。
這樣存儲了以后,我下面任何的應用,上面的分析也好,搜索也好,我都面向網(wǎng)格,而不面向文件,這樣的話未來我們說大數(shù)據(jù)也好,機器學習、人工智能也好,頂層的數(shù)據(jù)組織變得有了一種新的模式,才能夠適應現(xiàn)在越來越多的數(shù)據(jù)獲取的頻度,目前我們做的產(chǎn)品是一個一體機,在現(xiàn)在能解決什么問題呢?比如說像唐主任剛才講的那么多的問題,快速的檢索,里邊有哪些數(shù)據(jù)就出來了;第二個可以在線來分發(fā),看到了這個數(shù)據(jù),我可以免簽讓你快速看到;第三個你要是要這個數(shù)據(jù),可以畫一個框原始數(shù)據(jù)可以下載下來;第四個任何的遙感分析完全可以在線,不需要面向文件,所有的直接面向網(wǎng)格分析。
石建萍:我們公司是一家人工智能型服務的公司,我們想要做到的是幫助各行各業(yè)提升他使用人工智能獲取信息的能力,目前有非常多成功的行業(yè),主要的三大行業(yè),安防監(jiān)控、互聯(lián)網(wǎng)金融驗證、身份驗證平臺、手機和娛樂化的服務,剛才沒有講到的,我們在手機和娛樂化上也做了非常多的工作,最近一些很火的APP,包括直播廠商用的人臉識別的功能,大部分都是我們提供的。整個技術本身并不分行業(yè),我們也在發(fā)掘非常多很有潛力的下一代的人工智能行業(yè),這些行業(yè)大部分是勞動力集群的行業(yè),需要大量的數(shù)據(jù)理解和信息提取功能,未來包括有無人駕駛的行業(yè),包括智慧醫(yī)療、遙感行業(yè),我們也是希望在這些行業(yè)中能夠幫助他們把數(shù)據(jù)價值提取出來,提供數(shù)據(jù)理解和數(shù)據(jù)分析。
顧竹:簡單說一下佳格公司,我們幾個人是在美國回來,之前在航天部、農(nóng)業(yè)部做了很多關于大數(shù)據(jù)、遙感、氣象方面的工作,科研類的工作、工程類的工作都做了很多,我們在灣曲,在硅谷,我們周圍也很多的互聯(lián)網(wǎng)公司,我們也看到他們成功的把各種各樣的互聯(lián)網(wǎng)技術應用到商業(yè)上,取得了很大的商業(yè)成功。
回過頭來看,您做地理信息業(yè)做了很多年,在上世紀八十年代,這其實是我們?nèi)祟愒谶M行數(shù)據(jù)抽象時候非常大的進步,人類在認知世界的時候是以柵格形式認識的,圖片也好,畫畫也好,都是山格。一張遙感影象非常大,幾十兆、幾百兆,我們地理信息界的人就已經(jīng)想到了如何解決大數(shù)據(jù)的存儲、分析與管理的問題。但是,我們經(jīng)過這么多年發(fā)現(xiàn),突然認識到地理信息可以取得商業(yè)成功,這個時候傳統(tǒng)的地理信息界,傳統(tǒng)的遙感界被放在后面了,或者說覺得我們有點落后了,我們一直在思考這個問題,如何把已有的模型、算法也可以專業(yè)化,我們是可以站在最前面,甚至是打敗facebook,我們的技術層面不比他們差。
也是經(jīng)過很長時間的討論放棄了以前的工作,回來以后做更多有關遙感數(shù)據(jù)商業(yè)應用的工作,遙感數(shù)據(jù)需要大量的處理,存儲包括算法,剛才您提到的數(shù)據(jù)管理系統(tǒng),綜合所有的技術主要面向農(nóng)業(yè)與環(huán)境做更多的應用,找了很多的應用場景,比如說估產(chǎn),比如說健康狀況的分析,比如說作物的分類與展示,遙感系統(tǒng)里面這些不算是新東西,但是我們用更快、更準、更迅速的方便,比如說提供SaaS服務,讓大家迅速獲取這些數(shù)據(jù),而不是停留在實驗室和數(shù)據(jù)庫里,讓數(shù)據(jù)活起來,從中獲得商業(yè)利益。
我說一下一個小故事,是我當時進公司的面試,我的上司問我深度學習能在遙感影像里面有什么應用?深度學習可以抓抽象概念,現(xiàn)實世界數(shù)據(jù)變得很多,淺層的算法沒有辦法抓住抽象的東西,會被一些細碎的特征干擾,它的效率不高;深度學習的好處就是可以抓住很多抽象的東西,比如說房屋,這個地球上的房屋有各種各樣的形狀,包括像CCTV的形狀,鳥巢的形狀,會場的形狀,有各種各樣房屋的形狀,不可能窮盡每一個房屋的形狀告訴機器,深度學習是幫助我們進行這么一個層面的操作,通過深度學習,把所有的大棚數(shù)出來,我們數(shù)過汽車、玉米、火龍果,各種各樣這樣的應用很多很廣泛。
張曉祥:我們對未來有一些思考,三位專家原來做的是數(shù)據(jù)的存儲管理,還有做數(shù)據(jù)的應用、提取,第三個是做數(shù)據(jù)的挖掘,考慮上下游的整合,做數(shù)據(jù)的往上面延伸,石博士是做技術提取層面的,往上游或者下游延伸,這方面能不能分享一下您的感受。
李振宇:可以先理解一下人工智能和大數(shù)據(jù)的關系,人工智能是什么?是一個有無限潛能的嬰兒,怎么能長大呢?大數(shù)據(jù)就是奶粉,吃了這些奶粉它才能夠長大,人工智能要想做好必須有大量的數(shù)據(jù)供它來用?,F(xiàn)在的問題是什么呢?
有大量的空間數(shù)據(jù)沒有被很好的管理好、組織好,到人工智能的通道是不通的,或者是有很多障礙是不好跨越的。這個問題一個是從政策的層面、產(chǎn)業(yè)合作的層面,有一定的問題,但是我們更多的覺得是技術本身,也是存在問題的。還有第二個概念,原來搞空間的人,80%的信息是空間信息,實際上不對,世界上百分之百的信息都是空間和時間信息,沒有空間、沒有時間就不存在信息。
那就涉及到一個問題了,在人工智能當中,所有的數(shù)據(jù)都應該是我的數(shù)據(jù)源,自己搞空間信息的人,自己搞一個跟別人不一樣的東西,數(shù)據(jù)格式都不認識,怎么把空間數(shù)據(jù)和我們認為的非空間數(shù)據(jù)把它很好的整合到一起。同時更重要的是我們怎么能把各種各樣認為是空間數(shù)據(jù)的,把他們整合到一起,能夠供給機器學習,作為它的奶粉,遙感數(shù)據(jù)作為奶粉的話遠遠不夠,還得吃菜、吃肉,這個人才能茁壯成長,這里面從我們的角度考慮,在大數(shù)據(jù)時代我們要有一種新的時空數(shù)據(jù)模型,這種時空數(shù)據(jù)模型應該是什么?
獨立于任何的具體數(shù)據(jù)之外而存在的,就像我們買一個空的柜子,這個柜子放蔬菜也可以,放衣服也可以,放什么都可以,我們必須有這樣一個新的模型來承載這樣的數(shù)據(jù),而我們現(xiàn)在就在努力的做這個的研發(fā),取得了一點的進展,未來還要跟大家一起合作。只有把數(shù)據(jù)組織的問題解決了,上邊所有的學習、成長可能會變得更好一些。
張曉祥:李總選擇了專注做數(shù)據(jù),以后數(shù)據(jù)生產(chǎn)不需要人了,我也這樣認為,最近十年我就沒怎么搞數(shù)據(jù),我認為沒有太多機會了,要搞分析建模,想聽一下專門搞分析提取的石博士的意見。
石建萍:我們現(xiàn)在做的技術模塊和算法,在做的一件事情就是幫助人或者代替人去看圖、理解圖、提取其中的信息,目前在遙感行業(yè)有非常多的工作、信息提取的工作,還是靠人去手動看的,這個過程中首先它非常耗精力和人力,準確率在工作非常多的情況下也很難保證,處理的數(shù)據(jù)也是有限的。
在這個過程中有非常大的機會,機器達到一個點,性能匹配人或者是基本接近人超過人的水平的時候,機器可以用我們的算法幫助提升生產(chǎn)效率。未來有幾個層次,目前的算法起輔助的作用,幫助人驗證,人再做二次復查;下一個層級,體系工作由機器完成,這個階段我們需要針對機器,現(xiàn)在能做到的程度,或者說現(xiàn)在的一些特性去重新對整個標準輸出、中間環(huán)節(jié)做一些調(diào)整,現(xiàn)在大部分是基于人工解義的方案,這些原則機器的算法不太容易達到的話,需要上下游整個做配合。
在這個階段之后,未來當我們有這樣一個機器去做數(shù)據(jù)理解的能力后,未來大部分信息流通的方式并不是在原始數(shù)據(jù)上,而是在數(shù)據(jù)理解加工層面之后的信息上。其實我們現(xiàn)在有非常多的算法是做在手機端,可以在手機端做非常多的圖像任務,包括人臉識別、關鍵點的分析,特效的處理都可以在手機端完成。
未來這樣的算法可以放在衛(wèi)星端或者是機構上,其他的客戶買到的信息就是提取過的信息,可以讓整個產(chǎn)業(yè)速度加快。在之后,假如說我們有了這樣的平臺,未來可以聯(lián)合多方的數(shù)據(jù)再去做更深入信息化的理解,我們真的能從大數(shù)據(jù)中分析出非常有意思的發(fā)現(xiàn)了。
張曉祥:用手機端就可以處理遙感大數(shù)據(jù),以前我非常開心的是下載數(shù)據(jù),我的第一個電腦才600多兆的硬盤,裝W要300兆,可以下載無數(shù)的東西方到電腦里,很少使用,不太方便。有的時候未來是一種數(shù)據(jù)不動、軟件動,爬到數(shù)據(jù)端去做,做完了之后再返回,這是非常有意思的。請顧博士介紹一下上下游的整合方面。
顧竹:說到整合的話,我們應用端是最著急的,客戶的需求永遠都是你明天就給我,或者下午就給我,我們需要的是非常強勁的數(shù)據(jù)管理以及非??焖俚臄?shù)據(jù)分析,這也是我們一起可以去合作做的事情。比如說,現(xiàn)在我們有一些政府部門,他們需要做違規(guī)建設的產(chǎn)品,建筑在遙感影像里面是直接一類,做完就好了,但是建筑是不是違規(guī),我現(xiàn)在還沒有想到一個很好的辦法從遙感影像上看,建筑是不是違規(guī),是不是加了一層,不知道,這是客戶真實的應用場景,如何通過遙感數(shù)據(jù)、無人機數(shù)據(jù)發(fā)展更智能或者多樣化的算法解決這樣的問題,給我們提出了很大的挑戰(zhàn)。
農(nóng)業(yè)方面需要長期的持續(xù)數(shù)據(jù),做農(nóng)業(yè)的大數(shù)據(jù)分析,長期的持續(xù)數(shù)據(jù)需要非常好的管理系統(tǒng)去做,我指定了時間、指定了范圍,我如何在時光數(shù)據(jù)庫里面快速的進行運算,把結果拿出來,同時這個結果還可以做到統(tǒng)計、展現(xiàn),這都是我們需要去解決的問題,我們面臨一個很好的時代,大家在開源,在共享,我們有各種各樣代碼的集散地,可以去分享我們的知識,這是我們的好機會,抓住這個機會把遙感數(shù)據(jù)的應用做下去。
張曉祥:謝謝顧竹博士,他講到了開源的問題,很多的程序我們有時候沒有想到,那么多網(wǎng)上有很多雷鋒,有很多數(shù)據(jù)非常好,從數(shù)據(jù)獲取、存儲,通過開元的東西做到實驗成果,有90%以上都是這樣的,都說是自己開發(fā)的,我覺得很多東西都是開元的,科研需要很多人協(xié)助,我們都在巨人身上在做。從個人的角度,都有不同的理解。
第三個問題,這次論壇,流體,我今天也非常榮幸,如果我們過幾秒鐘有一個的話,這個數(shù)據(jù)怎么辦?我們現(xiàn)在要實時監(jiān)控,馬路上監(jiān)控拍到你超速不超速,高分4號天空掛了一個燈籠,每時每刻監(jiān)控中國的發(fā)展,這個數(shù)據(jù)是巨量的,我們到幾個月、幾天,現(xiàn)在幾個小時,氣象局幾個小時,現(xiàn)在是及秒鐘,實時來做的話數(shù)據(jù)太多了,時空一體化的數(shù)據(jù)方面,對未來的展望。對環(huán)境污染、海洋、河流、湖泊。
李振宇:從我們的角度看,我們整個遙感影像獲取能力,中國到2020年是30分鐘一次,2030年10分鐘一次,這已經(jīng)很恐怖了,我們一年出四期,一天就無數(shù)期,按照傳統(tǒng)的模式來處理和使用數(shù)據(jù),根本行不同,最多有2%的數(shù)據(jù)用過、看過,大部分數(shù)據(jù)都沒有看過。怎么解決這個問題從衛(wèi)星的角度,星地的聯(lián)合,你從地面要知道你的需求,發(fā)射到星上,星上可以控制,第二個是星上處理或者是機上處理,把星上有些東西處理好的,或者在星上認為不好的數(shù)據(jù)就不要往下傳了。
第二個是數(shù)據(jù)組織上,現(xiàn)在的問題是這個數(shù)據(jù)來了以后,要經(jīng)過好多的流程才可以,漫長讓所有的數(shù)據(jù)堵在那根本出不來,像張總剛才講的華浩的機器的處理,一定是一個方向,面對機器處理和機器的識別,從我們的角度講,就是數(shù)據(jù)組織和IT基礎架構,要有一個非常大的架構,有一家做大數(shù)據(jù)的公司,一天要處理10T的實時數(shù)據(jù),在大數(shù)據(jù)當中有5%的計算和95%的IO,其實計算能力很多,關鍵是數(shù)據(jù)抓不到,從我們的角度問怎么解決,從IT存儲的角度怎么構建,另外一個,空間數(shù)據(jù),空間數(shù)據(jù)有自己的特點,怎么適應IT的頂層架構做你的分布,比如說上層的手續(xù),非??斓牟还苁翘幚恚眉此?,才能解決一條產(chǎn)業(yè)鏈上的問題。
張曉祥:李總還是配菜環(huán)節(jié),做菜環(huán)節(jié)請石博士分享一下。
石建萍:監(jiān)控行業(yè),衛(wèi)星相當于一個駕在天上的衛(wèi)星攝像頭,這些數(shù)據(jù)大部分也是一個死數(shù)據(jù),現(xiàn)在一般碰到重案要案的時候才會有警力一個一個查數(shù)據(jù),看嫌疑人做了什么事情,對于普通的案件根本不會有人幫你做這個事情,即使這個數(shù)據(jù)已經(jīng)存在里邊了。
現(xiàn)在的解決方案,我們幫整個行業(yè)把數(shù)據(jù)的存儲方式,從原始視頻的方式變成了結構化的信息方式,我們存儲之后,比如說監(jiān)控視頻里面有多少個行人、車輛,他們的屬性是什么樣的,白色行人在時間點上過了這個地方,下次獲取信息的時候就不需要所有的視頻再逐個的看,只需要有一個快速的檢索方式就可以了,現(xiàn)在在做的工作就是和地方的公安局嘗試在我們的系統(tǒng)中不僅有基本屬性的知識,我們配合人臉識別的算法和攝像頭的位置、時空信息,自動的把其中的一個人和到下一個攝像頭的做關聯(lián),希望在未來達到電視劇里看到的狀態(tài),輸入一串身分證號,就可以知道人在什么時間段走到什么地方,這也是我們一直努力的。
對遙感方面,還是有一些不一樣的點,天上的衛(wèi)星覆蓋面積和周期有很多事情很難做,第二個衛(wèi)星的分辨率會有一些特別細節(jié)的東西是看不到的,我們也希望上下游一起推動,把信息化和自動化理解的平臺搭建起來。
張曉祥:剛才是配菜環(huán)節(jié)和做菜環(huán)節(jié),吃菜的時候不同的人有不同的需要,怎么按照需要做,這是應用層面的,請顧博士分享一下。
顧竹:在我這個層面我的觀點是,我一定都不著急這個事,只要有人在那吃菜,自然就會有人去配菜和做菜,現(xiàn)在我們有開元,從我的經(jīng)驗來講你的市場和需求擺在那,像李總就開始做這樣的工作了,自然有人把這些東西整理做出來,我們回顧一下,因為這是需求的驅(qū)動,而不是我們坐在那拍腦袋說做一個這樣的東西出來,肯定不是,是需求倒逼。
數(shù)據(jù)全堵在那,是因為我們有很多的環(huán)節(jié)需要人,我們在談的人工智能,這些數(shù)據(jù)將來也都是人工智能去處理的,像石總剛才提到的監(jiān)控數(shù)據(jù)一直都有,每秒都有大量的數(shù)據(jù)過來,到時候自然會有人工智能,訓練出人工智能幫我們挑選敏感的,剔除掉不必要的數(shù)據(jù),這個過程也是可以人工智能化的,這需要更多人的經(jīng)驗。到以后我們把挑選數(shù)據(jù)和選取數(shù)據(jù)的經(jīng)驗讓機器去學。
觀眾提問:人工智能+遙感大數(shù)據(jù)的下一場革命,我覺得人工智能進入了遙感,和它的技術融合肯定有一些改變的,革命可能革的就是傳統(tǒng)做遙感的傳統(tǒng)企業(yè),從您的角度,目前還沒有加入人工智能的傳統(tǒng)遙感企業(yè),他們應該怎么辦?如果他們想有一些人工智能的基因或者轉(zhuǎn)型,他們應該怎么做?
石建萍:現(xiàn)在這個時間段沒有一家公司會把所有的技術做完備,比如說我們在做系統(tǒng)的方面,不會從GPO的環(huán)節(jié)開始做,會依賴其他的公司做,對于下游的應用,對于我們這樣一家公司,沒有辦法把所有的應用領域研究的非常好,或者有非常深入的接觸,我們也會依賴下游的公司一起去做行業(yè)的突破,在這個點上來說,我們是一家技術的提供商,我們應該一起去開拓這個市場,而不是有這樣大規(guī)模的競爭。
在現(xiàn)在這個時間點,需要整體一起培育這個市場,讓這個市場有人工智能的概念,明白大量的數(shù)據(jù)其實是可以通過算法做自動的處理。教育市場的過程中,其實需要大家一起努力,不是一家公司努力就可以完成的事情。
觀眾提問:我想請問一下,現(xiàn)在的數(shù)據(jù)越來越多,無論是光學或者SAR,衛(wèi)星遙感數(shù)據(jù)我們也做了深度學習,也跟很多單位合作過,獲取的結果不是太理想,剛才看到石老師的土地類型,因為土地類型非常多,有十大類,26小類,我們提取的精度是在什么樣的條件下,在什么樣的條件下獲取到精度,準確率是多少,虛擬率是多少,有沒有大面積的走向光學化的應用,結合起來讓它使用落地。
石建萍:我們現(xiàn)在在做的案例,基本希望在光學化的方向做,也做了非常多具體案例的點,在云雪識別上精度達到95%以上,包括檢測率都可以達到,對于水體的識別也可以達到這樣的精度,對于飛機鍵盤的檢測針對不同的數(shù)據(jù)和應用條件有偏差,非常多算法,和整個數(shù)據(jù)的針對算法?,F(xiàn)在人工智能的算法推像是用有幾個階段,大家要達成共識。
第一個階段是人工智能輔助,假如說現(xiàn)在想要得到一個非常高精度的,非常漂亮的頂圖,應該去在這個層面上有大量的數(shù)據(jù)和算法的積累,應該是可以達到的,在下面的一個階段,我們共同的去磨合出一套新的數(shù)據(jù)格式,或者信息存儲的格式,或者是信息的表達方式。
張曉祥:稍微總結一下今天的論壇,邀請三位嘉賓分享他們對人工智能遙感數(shù)據(jù)的理解,包括他們企業(yè)的產(chǎn)品,對上下游產(chǎn)業(yè)的整合,包括他們現(xiàn)在比較流行的流態(tài)數(shù)據(jù)的管理,它可能真正是一場革命,最近我做了一些功課,在IT領域,對我們的行業(yè)沖擊非常大,我們沒有意識到太多新的技術,有谷歌的橫空出世完全促進了行業(yè)的進步,有一些官員還不太愿意公開數(shù)據(jù)。在人工智能領域后來我也想了一些事情,我們這個行業(yè),遙感衛(wèi)星這個行業(yè),看上去感覺很高大上、很高科技,我覺得我們90%的工作實際上是勞動力的工作,這個領域的發(fā)展真正對90%的層面有一些沖擊,現(xiàn)在要做一些準備,真的過來以后對行業(yè)低端領域的企業(yè)有沖擊,這是我個人的一些看法。
李振宇:非常同意張老師說的,如果講地理信息產(chǎn)業(yè)是一個巨大的沖擊,相當部分的人要失業(yè),因為大家都認為遙感影像會成為空間數(shù)據(jù)的主要來源,而大量的人還在做自主,那個東西越來越少,因為跟不上,十分鐘一次,你那個一年一次,沒有意義了,及早準備還是需要的。
顧竹:我也很同意您剛才說的,確實有很多的勞動密集型的工作,對我們來說也是一個機會,咱們有很多的地方可以探索,可以通過,從我的角度上我也不擔心,這些人力會有更多的地方去工作。
石建萍:兩個方面,第一,人工智能本身需要人來教機器是一個什么東西,我們公司也有三百多人的團隊做體力活,告訴機器什么地方是什么這樣的一個事情,未來每一次技術的突破和產(chǎn)業(yè)的變革,都會催生非常多新的就業(yè)機會和新的發(fā)展,比如現(xiàn)在不需要非常多的人去做非??菰锏氖虑椋覀冊谧龊芏嗪芨呒壍氖虑?,我們覺得未來肯定會有更多的機會等我們。
張曉祥:再回到主題、李開復、庫克,他們主題的演講并不是說人工智能有多么可怕,我們中國的產(chǎn)業(yè),咱們國家做一帶一路,很多外國人做的都是中國人的事情,叫地理事情,中國人很能忍耐,是很枯燥的,我覺得還是一個機會,是一個危機,也是機會,未來這個領域可能會帶來行業(yè)逐步往上提升,這樣就真正高大上了。非常高興跟大家交流到這里。
{{item.content}}