以下是佳格大數(shù)據(jù)產(chǎn)品副總裁顧竹,演講主題為“遙感大數(shù)據(jù)的商業(yè)運(yùn)用”。(該演講實(shí)錄中出現(xiàn)大量英文,正在于演講人確認(rèn)中,請(qǐng)諒解)
顧竹:謝謝大家,我很榮幸有這個(gè)機(jī)會(huì)為大家介紹一下我們佳格公司,包括我們回國以后做了城市、農(nóng)業(yè)方面的工作。我們團(tuán)隊(duì)包括我在內(nèi)是從美國航空航天局回來的,我們當(dāng)時(shí)在那里做一些關(guān)于衛(wèi)星影像觀測(cè)的一些工作。
剛才聽了幾位專家包括張總等說了我們國內(nèi)的智慧城市,包括GIS方面發(fā)展的技術(shù),我們的一些技術(shù)已經(jīng)不輸給硅谷了,包括數(shù)據(jù)的梳理、存儲(chǔ)等方面都是在前列的。之前我們的一些數(shù)據(jù)處理方式包括使用FTP的存儲(chǔ),現(xiàn)在對(duì)于大數(shù)據(jù)處理方面,大家都很熟悉的有(Hadoop)、(spark)?,F(xiàn)在處于一個(gè)計(jì)算機(jī)技術(shù)爆發(fā)的階段,有很多的開源和共享的東西,大家可以在這個(gè)上面做很多之前沒有辦法做的事。
這個(gè)是2016年1月份我們統(tǒng)計(jì)過的整個(gè)世界范圍內(nèi)大家都開始接觸大數(shù)據(jù)的一些公司,包括(esri),之前老的公司(oracle)都開始對(duì)大數(shù)據(jù)進(jìn)行一些涉足。我們?yōu)槭裁磿?huì)有GIS,為什么會(huì)有矢量數(shù)據(jù)?其實(shí)在上世紀(jì)八十年代,我覺得包括像美國航天航空局等等這樣的公司,我們已經(jīng)在接觸大數(shù)據(jù),或者說我們已經(jīng)接觸海量的數(shù)據(jù)了,為什么這樣說呢?上世紀(jì)八十年代大家的存儲(chǔ)方式是什么?是1.4寸的軟盤,當(dāng)時(shí)的一張地圖是幾百兆甚至是上G的,那個(gè)時(shí)候我們遙感影像就是1個(gè)G的。我們?cè)趺礃幼鲭娮拥貓D呢?GIS怎么樣生存呢?我們想出了一個(gè)辦法,就是實(shí)時(shí)矢量化,我們把一個(gè)幾百萬像素才能描述的河流抽象成一個(gè)點(diǎn),我們把一個(gè)房屋抽象成一個(gè)四邊形。我們當(dāng)時(shí)都在計(jì)算機(jī)這些人之前的,我們當(dāng)時(shí)就知道如何應(yīng)用最簡單的方式把最復(fù)雜的地表數(shù)據(jù)抽象成我們可以存儲(chǔ)處理的數(shù)據(jù),也就是我們大家一直使用的矢量數(shù)據(jù)。
我們現(xiàn)在有更多的方式比如說(spark),他們有更多的開源的分布式的處理方法或者是方案?,F(xiàn)在列出了幾個(gè)最火的互聯(lián)網(wǎng)公司,像谷歌、蘋果,他們?cè)谡腥说臅r(shí)候,我是把他們招的一些普通程序員的要求列出來,大家可以看到,谷歌會(huì)要求你(postgis),蘋果會(huì)要求你(GDAL)。在硅谷這幾個(gè)最先進(jìn)的或者說大的互聯(lián)網(wǎng)廠商,他們實(shí)際產(chǎn)品的開發(fā)中已經(jīng)少不了GIS了,GIS是他們非常重要的組成部分。
數(shù)據(jù)用來做什么?比如說一個(gè)很經(jīng)典的例子,星巴克為什么總是比其他地方會(huì)冷一點(diǎn),為什么?因?yàn)槟阌X得冷你就會(huì)買一杯咖啡,喝了會(huì)暖起來。這個(gè)道理很容易理解,星巴克使用這種商業(yè)模式或者是方式刺激大家去消費(fèi),那么是得多冷?你們不能太冷,那樣的話大家就不愿意走進(jìn)來。那么這個(gè)溫度是怎么樣調(diào)的?而且在中國和美國的星巴克的溫度是不是一樣的?不知道,那么我們?cè)趺醋觯看髷?shù)據(jù)。
數(shù)據(jù)就是人類對(duì)于事件或者說對(duì)于事件存儲(chǔ),最簡單的是結(jié)繩記事,你做一個(gè)事就打一個(gè)結(jié),但是您回過頭來想這個(gè)是什么事的時(shí)候,你又想不起來。人的思維方式就是這么簡單,二進(jìn)制的計(jì)算機(jī)方式和數(shù)字沒有多大的區(qū)別,其實(shí)我們也是這樣的思維方式了。
這么多的數(shù)據(jù)表達(dá)方式里面,你看了以后會(huì)最直接最快的表達(dá)?我認(rèn)為是圖畫,你在看到的時(shí)候可以把信息獲取到,圖畫是最直接、最切合人表達(dá)的一種處理方式。
大家都說大數(shù)據(jù)時(shí)代,更多時(shí)候我們是走進(jìn)一個(gè)圖的時(shí)代。上世紀(jì)八十年代我們發(fā)明出GIS的時(shí)候,是因?yàn)槲覀兊募夹g(shù)限制,是因?yàn)槲覀兇鎯?chǔ)能力的限制,我們沒有辦法去存儲(chǔ)一個(gè)衛(wèi)星影像,我們是用了矢量的方式去替代。現(xiàn)在云存儲(chǔ)、固定存儲(chǔ),我們有各種各樣的方式進(jìn)行存儲(chǔ),而且是越來越快。這個(gè)時(shí)候我們想,我們?yōu)槭裁床换貧w到最直接的切合人表達(dá)的方式。這是我一直考慮的問題,舉個(gè)簡單的例子,像dos的系統(tǒng),雖然我之前用,現(xiàn)在卻無法用。每一個(gè)操作你要去敲那一行的命令行,那個(gè)時(shí)候以后,比爾蓋茨就變成了世界首富,為什么?它把這些打開、復(fù)制都用圖像化來表示。
還有一個(gè)例子就是大家經(jīng)常說的表情包,為什么大家愿意用表情呢?因?yàn)楸砬楦鼙任淖直磉_(dá)你的感情和思維。你用文字很難敘述一個(gè)尷尬的表情或者是一個(gè)被雷到的表情。這就是為什么現(xiàn)在表情這么多,為什么現(xiàn)在BBS上,你要說什么事,你要表達(dá)什么不如直接放一張圖。
之前為什么大家不用圖像?因?yàn)槲覀儗?duì)圖像的認(rèn)知能力太差了。比如說你給計(jì)算機(jī)看一萬張?zhí)O果的圖片,看完以后你再給計(jì)算機(jī)看你咬過一口,計(jì)算機(jī)會(huì)說這個(gè)不是蘋果,因?yàn)槟愕男螤钌习l(fā)生了變化。但是給人來看的話,他絕對(duì)不會(huì)說咬了一口就不是蘋果了。為什么之前計(jì)算機(jī)的認(rèn)知能力那么的差?因?yàn)樗鼪]有形成一個(gè)抽象的概念。不管這個(gè)蘋果怎么樣變,紅的、綠的,咬了一口,人在看的時(shí)候不會(huì)出錯(cuò)的,它一定是蘋果,我們有蘋果的抽象的概念,蘋果怎么樣變,我們的判斷是不會(huì)受影響的。計(jì)算機(jī)不一樣的,我在形狀、顏色、味道任何一個(gè)東西不一樣,都會(huì)有判斷。
如何解決這個(gè)問題,我們就用深度的曲線。比如說你車在前面開,前面飄來一個(gè)塑料袋,你肯定不停的。但是如果是一個(gè)兔子的話,你肯定會(huì)停止。但是塑料袋和兔子的圖像是差不多的,是無法捕捉清楚的,所以我們首先做的是認(rèn)知世界,深度學(xué)習(xí)也是這樣的,我們先通過圖像把世界認(rèn)知出來,分析出來。計(jì)算機(jī)不知道怎么樣玩,這個(gè)像極了人的學(xué)習(xí)方式,因?yàn)槟悴恍枰ソ桃粋€(gè)孩子去奪子彈,你只要告訴他,你停在這里,子彈過來把你打爆了,你就失敗了,這個(gè)像極了人。這個(gè)是人工智能正在往前走或者是我們正在做的事。他們的出發(fā)點(diǎn)都是一樣的,我們都去處理圖像,因?yàn)閳D像數(shù)據(jù)是我們未來更多要接觸的東西。
ALPHAGO的意義,人看到圍棋圖片的時(shí)候,你不用去管他怎么學(xué)這個(gè)東西,我們讓它去看這張圖片,它自然尋找中間的感覺,它自然知道下一步怎么樣做。說了這么多,回到我們公司正在做的事,我們做的是環(huán)境大數(shù)據(jù),有很多的包括氣象、土地、污染、降溫等等的數(shù)據(jù)。
整個(gè)環(huán)境大數(shù)據(jù)里面,什么樣的數(shù)據(jù)是最全面最典型的?我們說是衛(wèi)星影像數(shù)據(jù)、遙感數(shù)據(jù)。技術(shù)上是覆蓋全球的,你在衛(wèi)星影像 上可以看到這個(gè)地球上的任何東西,這個(gè)世界上任何東西都是可以通過衛(wèi)星影像獲取的。
我們?cè)诳葱l(wèi)星影像或者是遙感數(shù)據(jù)的時(shí)候我們會(huì)獲得什么?Skybox這個(gè)公司,它最后被谷歌收購了,他跟谷歌說,我可以做到計(jì)算全球的原油儲(chǔ)量。全球的原油儲(chǔ)量70%到90%都在這個(gè)海港儲(chǔ)存里面,它通過這張圖就說服谷歌收購它。技術(shù)很簡單,但是我們可以通過它去做成。
我們通過自己的深度學(xué)習(xí)對(duì)地表做一些深入的分析,這里是對(duì)農(nóng)田的分析,大家接觸過或者聽說過,國家進(jìn)行農(nóng)田的土地調(diào)查。中國的土地是非常破碎的,不像美國是一塊平整的。通過我們的計(jì)算方式很短時(shí)間內(nèi)把所有的地塊自動(dòng)劃分出來,通過地塊自動(dòng)識(shí)別每一塊天地上的紋理、方向,包括它種植的作物種類,一個(gè)小時(shí)內(nèi)可以處理,基本上是3000×3000的數(shù)據(jù)。
我們現(xiàn)在做分類,遙感影像做分類大家都熟知的,之前大家做矢量化都是用人工去做的,用機(jī)器學(xué)習(xí)的方式去做自動(dòng)化,有一點(diǎn)困難。我們現(xiàn)在用的方式,我們的精確度可以達(dá)到95%到97%。這個(gè)技術(shù)正在發(fā)展,我們會(huì)有更多的技術(shù)或者是解決方案出來,幫助我們把之前的一些矢量化工作解放出來。
不知道大家是否看得出來這個(gè)是什么。這個(gè)是山東某個(gè)市的市郊,這個(gè)是蔬菜大棚的生產(chǎn)基地。大家可以看一下壽光是在這里,整個(gè)大棚的面積是壽光市的十倍,我們?nèi)司褪怯羞@樣的能力把整個(gè)地表都能夠改變,全世界都知道中國人這么厲害。我當(dāng)時(shí)看這個(gè)地圖以為是一個(gè)云,誰知道是大棚。因?yàn)檫@個(gè)涉及到產(chǎn)量預(yù)估方面的東西,怎么樣做呢?傳統(tǒng)的方式去數(shù),但是無法數(shù),用傳統(tǒng)的機(jī)器解決方式也做不了,因?yàn)樗牟馁|(zhì)不一樣,它的太陽光輻射是不一樣的。我們通過深度學(xué)習(xí)的方法,我們可以做到98%的精確度,我們可以在四個(gè)小時(shí)之內(nèi)前部數(shù)完,數(shù)字就不說了,這個(gè)是客戶的數(shù)字。這個(gè)數(shù)據(jù)非??孔V,而且速度非常的快。
我們會(huì)通過衛(wèi)星、無人機(jī)做可視化的數(shù)據(jù)分析,大家在為每一個(gè)城市、每一個(gè)鄉(xiāng)鎮(zhèn)、每一個(gè)人畫屬性,我們通過每一個(gè)城市的特點(diǎn)因地制宜地差異化進(jìn)行發(fā)展,進(jìn)行提升。所有這些數(shù)據(jù)的搜集都與環(huán)境的數(shù)據(jù)分不開。我們?nèi)绾尉C合這些環(huán)境的數(shù)據(jù)做更多的事,這個(gè)是佳格正在做的,也是希望在座的各位能夠讓我們學(xué)習(xí)到更多的東西,謝謝大家對(duì)佳格的理解。謝謝!
{{item.content}}