2017年 6月13日,由泰伯網(wǎng)主辦、主題為“空間大數(shù)據(jù)的崛起”的WGDC2017,在北京國(guó)家會(huì)議中心盛大開幕。大會(huì)由空間信息產(chǎn)業(yè)創(chuàng)新創(chuàng)業(yè)服務(wù)平臺(tái)泰伯主辦,秉承不斷引領(lǐng)和促進(jìn)空間信息技術(shù)創(chuàng)新與變革的宗旨,WGDC已走過六個(gè)年頭,如今成為全球最具前瞻性的跨界創(chuàng)新風(fēng)向標(biāo)。
14日,空間大數(shù)據(jù)+人工智能峰會(huì)(極??v橫專場(chǎng))開幕。峰會(huì)上,來(lái)自GeoHey·極海的夏君天發(fā)表了以“GeoHey·極海一站式地理云平臺(tái)的行業(yè)實(shí)踐”為題的精彩演講。以下為演講實(shí)錄(未經(jīng)本人核實(shí)):
夏君天:大家好,我在極海是負(fù)責(zé)商業(yè)咨詢,今天想給大家分享幾個(gè)項(xiàng)目的實(shí)例,這張logo墻上落了很重要的一個(gè)客戶,因?yàn)楦麄兊谋C軈f(xié)定非常的強(qiáng),沒有辦法把他們的名字放上來(lái)。所以今天,我會(huì)用一些模擬的數(shù)據(jù)把這個(gè)案例帶給大家。
剛才我同事講到說,人工智能是一個(gè)很古老的概念,但是到近年在技術(shù)發(fā)展支持下才迎來(lái)他的井噴,其實(shí)位置智能也是一樣的,如果說我們還停留在數(shù)據(jù)找不到,或者質(zhì)量差,沒有辦法去滿足傳統(tǒng)分析模型的要求這個(gè)階段,那就沒有辦法再往后談應(yīng)用了。所以我們首先需要的就是今天我同事也反復(fù)提到的這些新時(shí)代的技術(shù)儲(chǔ)備,來(lái)搭建起這個(gè)橋梁。這個(gè)橋梁它通向哪里?位置智能我們這么談,它到底是不是一個(gè)真命題呢?我們來(lái)看看技術(shù)先行者的美國(guó)。因?yàn)槲抑纴?lái)GeoHey這邊工作之前就是在美國(guó)做地理信息建模的工作,那邊這個(gè)行業(yè)的發(fā)展已經(jīng)是非常驚人了,這幾個(gè)數(shù)字是來(lái)自幾年前波斯頓咨詢集團(tuán)的一份權(quán)威的行業(yè)報(bào)告。地理信息服務(wù),年產(chǎn)值達(dá)到了百億美元的級(jí)別。為什么他能做到這么大的規(guī)模,而且還在持續(xù)的增長(zhǎng),就是因?yàn)樵谶@幾十年中很多分析優(yōu)化的方法已經(jīng)探索成熟,而且已經(jīng)被無(wú)數(shù)次證實(shí)了,它能在各個(gè)行業(yè)中提決策的支持。
在這里,我強(qiáng)調(diào)決策的支持,具體來(lái)說,是比如我這個(gè)產(chǎn)品要不要進(jìn)入一個(gè)城市?我這個(gè)地產(chǎn)項(xiàng)目如果說在這兒開發(fā)能夠帶來(lái)多少的收益,或者我這個(gè)城市想修一條地鐵線,怎么樣設(shè)置線路,能在最大程度上疏解城市的交通。為什么強(qiáng)調(diào)決策,因?yàn)槲覀冏鲆徽臼降钠脚_(tái)用戶可以查詢可以展示,這些都是在效率提升的層面上,以前我們做得到,而現(xiàn)在我們做的更快,更加方便,這本身是一件非常有價(jià)值的事情。但是與此同時(shí),我們還想到下一個(gè)層面去做以前做不到的事情,也就是人工智能的引入。現(xiàn)在這張圖是我們做城市板塊分析的截圖,我可以去查詢比較每一個(gè)板塊上各個(gè)維度的信息,而人工智能給它增加的是什么呢?是通過機(jī)器來(lái)學(xué)習(xí)所有這些信息,按我們現(xiàn)在的數(shù)據(jù)量,有幾百個(gè)維度,我能去提取出它的特征,能預(yù)測(cè),所以這些板塊對(duì)銀行業(yè)務(wù)的需求有多少,它對(duì)煙草銷售的需求有多少,從而做網(wǎng)點(diǎn)布局做優(yōu)化的時(shí)候我們就能基于這個(gè)數(shù)據(jù)準(zhǔn)確的給出結(jié)論了。
這些項(xiàng)目我們現(xiàn)在實(shí)際中在做,加入人工智能之后,任何一個(gè)位置,除了有原始信息,提煉一個(gè)標(biāo)簽然后再到提煉一個(gè)預(yù)測(cè)的結(jié)果。我接下來(lái)講的案例幫沃爾瑪做選址的項(xiàng)目,之所以找到我們也是一個(gè)挺有意思的項(xiàng)目,剛才提到在美國(guó)地理信息這個(gè)行業(yè)現(xiàn)在的發(fā)展,作為一家美國(guó)公司,沃爾瑪他們覺得要選址就必須做位置智能,覺得在中國(guó)大家為什么不這樣做呢?
其實(shí)為什么不做原因也很簡(jiǎn)單。這張圖大概說明了在美國(guó),效果很好的位置智能市場(chǎng)細(xì)分的模型是怎么建立的。它先要把人群細(xì)分,比如這組代表的就是中產(chǎn)有孩子的家庭,平均三個(gè)人他們住在獨(dú)棟的房子里面已經(jīng)30多歲,另外這一組年輕躁動(dòng),收入中產(chǎn),兩個(gè)人住在公寓里,不到30歲,他們真的把人群劃分到這么細(xì)致的程度,都把街區(qū)上都標(biāo)識(shí)出,到底哪些人群住在這里。我是做快餐的,我只要建立關(guān)聯(lián),知道我的顧客是來(lái)自哪個(gè)人群,我知道去哪兒開店或者去哪兒宣傳我的店。所以沃爾瑪高層他們的想法也是一樣的,他們對(duì)于自己的客群有定位,然后碰到了瓶頸,去哪兒找這些人呢?比如我要不要去天津開店,如何開,開幾家,在哪兒,在中國(guó),他們習(xí)慣用的數(shù)據(jù)是沒有的,前一半已有客群的畫像只能依靠自己去希望掃街,發(fā)問卷。后一半潛在客群的尋找更加難做通。后來(lái)沃爾瑪找到我們,利用極海這邊地理大數(shù)據(jù)和機(jī)器模型的算法,能不能做出類似于美國(guó)那樣的分析,于是我們幫他們做了這件事情。
這張圖依然說的是人群的事兒,你會(huì)發(fā)現(xiàn)它的描述方法變了,我沒法直接的知道在這個(gè)街區(qū)里面家庭的年收入是多少萬(wàn)美元,就像剛才看到的數(shù)據(jù)。用什么代替它呢,比如用房?jī)r(jià)靠譜嗎?我們最初以為房?jī)r(jià)對(duì)人群指控性是非常高的,我們把它交給機(jī)器學(xué)習(xí),反而淘汰了。拿北京為例,四環(huán)以里,這些人一直住在這兒,可是房?jī)r(jià)已經(jīng)高到什么程度了?在沃爾瑪他們想關(guān)心人群的購(gòu)買力,最終模型發(fā)現(xiàn)什么樣的指標(biāo)重要呢?比如說這個(gè)街區(qū)有兩家干洗店還有三家品牌咖啡廳,機(jī)器學(xué)習(xí)告訴我們說,這個(gè)街區(qū)的人是我們的潛在客群。
另外一個(gè),有兩家寵用品物店,街地面還有一個(gè)還有嬰兒孕托,機(jī)器發(fā)現(xiàn)他們也是潛在客群,他們的會(huì)員轉(zhuǎn)化率比上一個(gè)街區(qū)還要更高。我們最終類似這樣的方式做出了中國(guó)數(shù)據(jù)特色的機(jī)器學(xué)習(xí)模型,能夠找到每個(gè)街區(qū)里面通過這種特征,它能產(chǎn)生多少商用店的潛在的客戶。
這張圖是我們模型效果和傳統(tǒng)分析的對(duì)比,橫軸上一共10幾家的商店,縱軸是他的會(huì)員數(shù),藍(lán)色的兩條線是商圈內(nèi)的會(huì)員數(shù)字,深藍(lán)是實(shí)際的數(shù)值,淺藍(lán)是我們模型數(shù)值的數(shù)值。黃色的線通過我們的機(jī)器學(xué)習(xí)模型來(lái)預(yù)測(cè),依然在每家店的商圈內(nèi),但是他想說的是最大的會(huì)員潛力是多少。意思如果他都不嫌遠(yuǎn),每家街區(qū)邊上都有一家店,轉(zhuǎn)化成會(huì)員的數(shù)字是多少?潛力數(shù)字比實(shí)際數(shù)字也高不了多少。A店和B店他們之間差異非常大,我們這邊作為技術(shù)的提供方,最開始只是看機(jī)器算出來(lái)的數(shù),最后我們雙方做解讀的時(shí)候他們發(fā)現(xiàn)我們的結(jié)果非常對(duì),B點(diǎn)這個(gè)城市他們本來(lái)懷疑可能城市的潛力已經(jīng)開發(fā)盡了,所以他們覺得剩余的潛力不大了。A的城市他們本來(lái)能預(yù)期,能像旁邊那個(gè)高點(diǎn),最高的這一家城市一樣好,可是實(shí)際上,他的表現(xiàn)差了好多。根據(jù)我們的模型告訴他,上線確實(shí)也是有那么高,因?yàn)檎麄€(gè)城市都是國(guó)際化,這里人有太多購(gòu)買進(jìn)口商品的選擇了,也可能因?yàn)檫@個(gè)城市的人開車比較少,所以稍微遠(yuǎn)一點(diǎn)不一定到商店買東西了。灰色的線,很中規(guī)中矩的一個(gè)數(shù)值,黃色的預(yù)測(cè)是在我們機(jī)器學(xué)習(xí)精度夠的情況下得到的大膽的分析,也是很慶幸的得到了客戶的認(rèn)可。
下面說另一個(gè)例子,剛才的模型可以認(rèn)為對(duì)靜態(tài)人群的分析,我把北京劃分成兩千個(gè)街區(qū),按每個(gè)街區(qū)我計(jì)算你的居民對(duì)某一個(gè)行業(yè)的需求,這個(gè)例子則是動(dòng)態(tài)研究的分析,想象一下,如果我想考慮的目標(biāo)不是說三個(gè)會(huì)員店,而是普通的沃爾瑪購(gòu)物超市,紅色的圓就是一家一家的超市,如果有人每天下班路過我的店門口是不是他成為我顧客的機(jī)會(huì)就會(huì)特別高呢?在方案設(shè)計(jì)模型選擇的階段對(duì)需求場(chǎng)景的認(rèn)識(shí)非常關(guān)鍵,大多數(shù)人都是周末從家里開著車集中采購(gòu)大量的商品,所以我們關(guān)心的就是這些人住在哪兒,他開車過去有多遠(yuǎn),對(duì)于普通的沃爾瑪超市很多人就是下班路過,他去買點(diǎn)菜,買點(diǎn)日用品,不會(huì)大老遠(yuǎn)的開車過去,就要追蹤他們?nèi)粘R苿?dòng)的軌跡。
在這里我們接入的從移動(dòng)設(shè)備軌跡點(diǎn),上面的圖顯示每個(gè)城市每天接入的數(shù)據(jù)的條數(shù),多的時(shí)候達(dá)到上千萬(wàn)的級(jí)別,最后通過大數(shù)據(jù)的建模識(shí)別出每個(gè)設(shè)備工作日的朝九晚五在哪里?他通常的軌跡是什么樣子的?我就可以看哪些軌跡會(huì)經(jīng)過這附近,然后我去追蹤他住在哪兒,在哪兒上班,我可以非常有針對(duì)性的宣傳,去搞活動(dòng),去投放廣告,這類項(xiàng)目我們現(xiàn)在驗(yàn)證也是非常的成功。
回到這張圖,舉一個(gè)我們自己覺得挺有意思的例子,在東邊我們分析北京東四環(huán)的超市,發(fā)現(xiàn)很多周邊的人流來(lái)自通州,這很好理解,還有相當(dāng)?shù)娜肆魉麄冏≡陧樍x,但是數(shù)據(jù)告訴我們說,確實(shí)順義那邊很多人會(huì)南下來(lái)上班,成為了我們的潛在客群。所以我可能真的想到那邊宣傳我的店。
之前說的居住人群模型,人流模型,其實(shí)可以把他們都想象成是人工智能平臺(tái)的組建,發(fā)散一下評(píng)估一個(gè)位置適不適合開一家新的沃爾瑪超市,我可以先用人流模型定位路過的人住在哪兒,然后這些模型看這些人是什么樣的群體,有多大的轉(zhuǎn)化率,包括其他分析,像是新店和老店的競(jìng)爭(zhēng),一個(gè)城市的市場(chǎng)容量等等,我們建過模型,提供解決方案,還是去落到最早說的去支持決策。
行業(yè)應(yīng)用里面的事情需要繼續(xù)探索各方的需求,在技術(shù)口不斷豐富可用的數(shù)據(jù)和模型算法的基礎(chǔ)上,我們?cè)谄脚_(tái)中拓展越來(lái)越多的場(chǎng)景。我這部分就結(jié)束了,待會(huì)兒龍老師從用戶的角度談一談我們的平臺(tái)在規(guī)劃里面的實(shí)踐。謝謝。
{{item.content}}