6月11日,北京國家會議中心,以“融合 開放 智能”為主題的2014地理信息開發(fā)者大會(WGDC2014)在此拉開帷幕。地理信息開發(fā)者大會自2012年起開始舉辦,三年時間里,伴隨著中國地理信息產(chǎn)業(yè)的快速發(fā)展,已經(jīng)成為地理信息領(lǐng)域最具影響力的技術(shù)創(chuàng)新盛會,與跨界融合、國際交流的重要平臺。
在6月12日的地圖客開發(fā)者-高德地圖專場,高德LBS開放平臺與大數(shù)據(jù)融合部總經(jīng)理田密發(fā)表了題為《大數(shù)據(jù):從理論到實(shí)踐》的演講。以下是演講實(shí)錄(根據(jù)現(xiàn)場速記整理,未經(jīng)演講本人審核,如有疏漏,請諒解并及時與3sNews聯(lián)系):
大家上午好,我是來自高德的田密,今天非常榮幸和各位同行、朋友分享下做數(shù)據(jù)的經(jīng)驗(yàn)。
首先給大家看一下我們地圖服務(wù)的架構(gòu),地圖服務(wù)最常見的是三個服務(wù),分別是定位、搜索、導(dǎo)航。三個服務(wù)其實(shí)下面都有數(shù)據(jù),比如說我們做定位的話,我們需要找到航拍的數(shù)據(jù),搜索的話需要找到POI的數(shù)據(jù),導(dǎo)航的話需要道路和實(shí)時交通的數(shù)據(jù)。這些數(shù)據(jù)經(jīng)過我們的摸索變成服務(wù)之后,在網(wǎng)上我們把地圖封裝起來,并提供各種各樣的接口,像SDK、API等等。再往上找到我們的導(dǎo)航,還支持其他的APP,像生活A(yù)PP等等。其實(shí)可以看到,做地圖服務(wù),你有什么樣的數(shù)據(jù)就可以做到什么樣的服務(wù)。我今天會著重講一下地圖最核心,最根本的POI數(shù)據(jù),我們把POI分為三種,叫做基礎(chǔ)、深度和動態(tài)。POI基礎(chǔ)數(shù)據(jù)是指名稱、地址、電話、坐標(biāo),這是基本的數(shù)據(jù)。POI深度是指附加的信息,像評論、圖片、星級等等。動態(tài)是指POI的一些操作,比如說訂酒店、買團(tuán)購,訂電影票等等。
其實(shí)像高德最傳統(tǒng)的是靠實(shí)采數(shù)據(jù)。剛剛說到這是非常艱苦的活,但是也有不少需求出現(xiàn)以后,實(shí)采數(shù)據(jù)不能滿足用戶的需求,我們?nèi)フ曳浅6嗟臄?shù)據(jù)的來源。然后有來源以后,還必須有自動化的,實(shí)時的處理機(jī)制,才能夠讓數(shù)據(jù)留在我們庫里面去展現(xiàn)使用。第一部分是我們逐一看看數(shù)據(jù)的來源。
最傳統(tǒng)的是剛才我們說的實(shí)采,包括車采、步采等等,到現(xiàn)在這也是一個最基礎(chǔ)的體力工作,也是一個最重要的保證。我們也可以通過一些圖象識別技術(shù)提升我們采集和處理的效果。然后隨之還要實(shí)現(xiàn)人工驗(yàn)證,就是說并不是所有地方都可以找到,我們可以去驗(yàn)證,比如說通過打周邊的電話核實(shí),通過街景圖去核實(shí),通過互聯(lián)網(wǎng)的搜索結(jié)果或者是官網(wǎng),以及其他的論壇核實(shí),這些數(shù)據(jù)的確有,但是我們?nèi)币恍┤斯?biāo)點(diǎn),這個實(shí)采驗(yàn)證是我們數(shù)據(jù)最主要的補(bǔ)充渠道,尤其是對于基礎(chǔ)的數(shù)據(jù)。
剛剛說這兩個是我們高德自己做的,其實(shí)也是做到有限的點(diǎn),比如說實(shí)采會采到路邊比較大的點(diǎn),但室內(nèi)的點(diǎn)我們采不到,我們會通過各種各樣的合作,我們在哪一個領(lǐng)域找多少家來源,合作方去采集它的數(shù)據(jù)。所以我們最主要的目的是三點(diǎn):一個是補(bǔ)充我們基礎(chǔ)數(shù)據(jù),像剛才說的大的點(diǎn)在哪,但是室內(nèi)的點(diǎn)我們通過合作去接入。比如說偏零售的點(diǎn),我們?nèi)プ鳇c(diǎn)的接入。另外是擴(kuò)充我們深度數(shù)據(jù),我們有一些基礎(chǔ)的數(shù)據(jù),但是上面的圖片和積累的特色,每一個合作方會做得更加專業(yè),更加詳細(xì)。另外是提供動態(tài)數(shù)據(jù),比如說酒店和機(jī)票等等都是通過合作方接入的,基于合作本身我們不會做太多的擴(kuò)展。
還有用戶反饋,這是比較重要的一環(huán),我們的定位和實(shí)時交通,其實(shí)是非常依賴于用戶的反饋的,我們可以把用戶反饋分為主動和被動,被動反饋就是說在用戶知情的情況下,用服務(wù)的功能自動回傳,主動反饋是主動發(fā)起傳回,用戶信息上傳的信息做一個校準(zhǔn),比如說智能交通的,把你的軌跡回傳回來,然后輔助高德的數(shù)據(jù)校準(zhǔn)。但是POI的數(shù)據(jù)比較少,用戶點(diǎn)了POI之后,并不是說POI一定好,我們需要做信息的挖據(jù),點(diǎn)開POI以后,要做下單,這是有利的反饋。另外是用戶反饋場景,這個量不大,所以現(xiàn)在我們必須要把高德對數(shù)據(jù)中擴(kuò)大它的使用場景,這樣的話從更多的場景功能拿到更多的反饋。比如說我們把POI和新浪微博打通,你在微博上反饋的情況我們都可以拿到。比如說我們把數(shù)據(jù)和阿里打通,阿里里面的操作,比如說優(yōu)惠券和游戲,會迅速的進(jìn)到我們高德里邊來。比如說我們和小米合作,這樣的話小米打電話的時候就知道這個數(shù)據(jù)來自哪一個POI,我們把數(shù)據(jù)給到搜索,也會有結(jié)合。我們把數(shù)據(jù)會傳下去,會收取更多的用戶反饋。
眾包這個詞大家不會陌生,而且用得越來越多,而且這也適合來做。比如說我們現(xiàn)在做一個眾包的財(cái)富軟件,我們叫做尋寶,其實(shí)這里邊已經(jīng)有很多的組件了,比如說我們采門址、路牌等等,我們花少量的錢,一個點(diǎn),或者是一個門檻花幾毛錢,請用戶幫我們拍照,傳回來。用戶順手做了,還能賺到一點(diǎn)的錢,裝備也很簡單,這些用戶量是非常泛的,比如說我們門址,通過這個方式獲取了上千萬的門址的量,POI的反饋也有幾萬,算下來全年是過千萬的量,這個方法是很有效的渠道。但是有一個特點(diǎn),眾包你會發(fā)現(xiàn)其實(shí)中小城市參與比較多,一個是大城市可能我們本身覆蓋比較不錯,中小城市我們覆蓋比較弱,這些報酬對中小城市的用戶來說更加有吸引力吧,你會發(fā)現(xiàn)眾包的反饋還是蠻好的,是對我們高德采集量的一個補(bǔ)充。另外采集量很高,但是也有作弊,這需要我們在做眾包清理的時候要有比較完善的機(jī)制,另外還要有審核和挖掘??傮w來說這個渠道的話,其實(shí)是蠻有效率的渠道。其實(shí)也可以開個玩笑,現(xiàn)在很多的用戶是拿著一個手機(jī),裝上高德和百度的APP,采集數(shù)據(jù)來賺錢,這其實(shí)也是挺有意思的。
剛才說這個眾包,或者是客戶反饋我們會說到UPC的數(shù)據(jù),我們回到BPC,就是商戶的反饋,商戶做他的標(biāo)注,把連鎖店的信息做完善,然后通過地圖發(fā)布活動,像打折促銷啊。但是這個模式目前還需要培養(yǎng)。一個是商務(wù)操作,上次看到一個界面的操作,不知道怎么樣把自己的地圖做準(zhǔn)確,怎么樣發(fā)布用戶信息。另外是從意圖上發(fā)布信息能帶來的好處是疑惑的,他們不覺得地圖是一個很好的渠道。所以我們現(xiàn)在的做法是和阿里動線,阿里本身就是做商務(wù)的活動,阿里在商務(wù)上去做發(fā)布是非常自然。做阿里動線之后,阿里可以實(shí)時獲取到的,所以我們這種模式的話效果會更好。
然后再有一點(diǎn)就是說我們的云圖,這個云圖其實(shí)我在之前很多的講了很多,我主要是講講這個原形,我們關(guān)注從高德自己采,合作方拿,UPC,BPC,你會發(fā)現(xiàn)這個數(shù)據(jù)還是不全,我們中國的數(shù)據(jù)量幾千萬,但是離全還是有很大的距離。很多的用戶和開發(fā)者自己手上有很好的私有數(shù)據(jù),但是可能是一個不太方便開放,一個方面可能是覺得還需要有清洗。我們高德提供一個產(chǎn)品,你可以非常方便的把你私有數(shù)據(jù),我們給你提供存儲、搜索需要的能力,你可以很方便的把數(shù)據(jù)傳上來,然后基于這個做成自己的APP。數(shù)據(jù)傳上來以后我們進(jìn)行評估,如果你數(shù)據(jù)優(yōu)勢的話我們可以談合作,把你的數(shù)據(jù)融到我們高德母庫中,你數(shù)傳上以后可以利用高德母庫中的導(dǎo)航進(jìn)行清洗,達(dá)到一個雙向的過程。當(dāng)然這個云庫在使用中也有更多的拓展。
另外是抓取挖掘,我們抓取是談到了很好的幾家,這個領(lǐng)域非常的潮,也有一些小分析合作方,我們通過抓一次都搞定了,抓結(jié)果之后我們做了一個挖掘,其實(shí)很多的反饋,其實(shí)散落在互聯(lián)網(wǎng)上,因?yàn)楫吘拐f在地圖上只有很小一部分,我們合作了各種的微博,各種的小米手機(jī)也是一部分,還有可能大量的散落的數(shù)據(jù)來挖掘,然后通過挖掘來做字段來輔助我們搜索和導(dǎo)航。
這是講的第一個部分。第二個部分是講說我們說有這么多來源,搜集數(shù)據(jù)上來以后怎么樣處理,數(shù)據(jù)處理更難,采集的話是參差不齊,如何清洗、過濾、排重、融合,還要保證實(shí)時的更新和出錯,這是一個難題。這個圖挺丑的,一看就知道是開發(fā)者畫的,蠻不錯的,大家看左上角,有一個數(shù)據(jù)輸入,有很多的數(shù)據(jù)來源,我們把數(shù)據(jù)做格式化的解析、規(guī)范化再往下走,然后進(jìn)入我們的準(zhǔn)入平臺,這個數(shù)據(jù)質(zhì)量怎么樣,有沒有資格流入到高德母庫中,王下走,然后走到最后我們有聚合,你來了以后跟我們的數(shù)據(jù)是重復(fù)的,重復(fù)的話就在已有的,如果不是重復(fù)的,我們就新增一個。聚合以后是融合,你這個點(diǎn)已經(jīng)有,進(jìn)來以后不會新增,但是會帶好更多的屬性和字段,我們會往下融合的,豐富已有的數(shù)據(jù),這是我們的數(shù)據(jù)融合。然后我們把數(shù)據(jù)落地,然后資料發(fā)布,給我們高德的應(yīng)用方,高德的內(nèi)部或者是外部的應(yīng)用方。同時再往上右上來看,這個數(shù)據(jù)有離線的挖掘,包括容錯,反饋到數(shù)據(jù)中來揭露一些信息。這是我們高德數(shù)據(jù)處理的框架。
我們看看框架中比較重要的核心點(diǎn),第一個是POI存儲,這個量級比較大,有的做幾百億的級別,我們高德的庫也是億的級別,這個量比較大,但是更新非常頻繁。這個東西其實(shí)因?yàn)楹芏嗟淖侄?,很多的點(diǎn),我們?nèi)ゲ僮鳎缓笪覀儠鲆恍└拢幸粋€點(diǎn)從反饋到更新,非常久的更新,這個對數(shù)據(jù)庫非常高,沒有說哪一個好,哪一個布哈,我們也是在做常識。我們最后用了IDB,其實(shí)是非常簡單的數(shù)據(jù)庫,就是一個查詢,沒有說所有,所以說反而讀寫的時候效率非常高。這個數(shù)據(jù)壓縮相對比較好,我們可以比較容易的把這個商業(yè)數(shù)據(jù)壓縮完了以后打到經(jīng)濟(jì)中去。數(shù)據(jù)處理之后呢進(jìn)入預(yù)處理,處理是一個準(zhǔn)確活了,從地址切分到字段補(bǔ)全、規(guī)范化,再到生態(tài)統(tǒng)一ID。然后是數(shù)據(jù)的準(zhǔn)入,這個數(shù)據(jù)的來源是多種多樣了,來源的坐標(biāo)可能是缺失或者是不準(zhǔn),我們對坐標(biāo)進(jìn)行重新的校準(zhǔn),然后把一些涉密的東西過濾掉,這是我們的準(zhǔn)入,說到準(zhǔn)入最核心的一點(diǎn)是坐標(biāo)計(jì)算。只能說地圖變成坐標(biāo),我們把整個的物理的世界,現(xiàn)實(shí)的世界,映射到線上虛擬世界上來,我們的物理世界也是地址,多少多少號,什么什么對面或者是什么范圍內(nèi),這些地理的描述要影射到基本的坐標(biāo),才能參與到我們所有的服務(wù)。其實(shí)這個做計(jì)算是各大地圖廠商非常核心的一個能力,其實(shí)這個能力依賴完備準(zhǔn)確的庫,這個通過測繪是非常難以覆蓋全的,這一點(diǎn)有很好的優(yōu)勢,比如說我們舉兩點(diǎn),一點(diǎn)是我們通過眾包,如果實(shí)采門址就是幾百萬,我們通過眾包以后數(shù)據(jù)量增加很多。另外是我們跟阿里合作,阿里每天有大約億級別的運(yùn)單數(shù)據(jù),運(yùn)單的話有很詳細(xì)的地址,這樣的話會有坐標(biāo),這是一個非常好的來源,這個對我們做計(jì)算有非常好的輔助的作用。我們高德這個方面有蠻大的優(yōu)勢,有了這個以后,我們做結(jié)算其實(shí)主要是分塊,這一塊就不詳細(xì)講了。
另外一個非常核心的是叫做聚合,剛才說了來一個新點(diǎn)子的話,這個庫里已經(jīng)有了,我們實(shí)踐出來,不做的話我們還有質(zhì)量庫,搜很多的類似的點(diǎn),其實(shí)是一樣的,做狠的話,本來不是同一個點(diǎn),做狠了,發(fā)現(xiàn)有缺失,這個能力也是非常核心的。我們把它分為兩種,在線和離線,在線的話做聚合,離線的話,你有一些數(shù)據(jù)是變化的,定期的,比如說一兩天,把所有的數(shù)據(jù)重新做一下,變化的數(shù)據(jù)干掉。然后還有一些算法在里邊做支撐。
剛才說到了融合,就是把多個POI選擇一個,設(shè)一個最佳的POI接口。比如說我們像記數(shù)據(jù),像電話有很多的來源,我們根據(jù)計(jì)算、時間選擇一個優(yōu)質(zhì)的最權(quán)威的融合數(shù)據(jù)。比如說深度比如說評論和標(biāo)簽,我們會做一個融合,這個融合發(fā)生沖突的話,我們基本上選擇最好的,比如說動態(tài)數(shù)據(jù),剛才我們說的酒店數(shù)據(jù),我們有十幾家的酒店,每個酒店都有不同的行情和報價。我們對這個數(shù)據(jù)就可以把它做一個二次的,根據(jù)每一個酒店的價格和房情,按照最優(yōu)惠的排在最前邊,每一個子頻道的聚合的服務(wù),比如說酒店的聚合,電影院的聚合,旅游的聚合等等,其實(shí)會發(fā)現(xiàn)整個生活輔助都可以覆蓋到,這個基本數(shù)據(jù)也是使得地圖不僅僅是查詢的東西,更多的是服務(wù)入口。
融合算法這是剛才說的,根據(jù)不同的優(yōu)先級和時間來做的優(yōu)化,這個不講了。
然后數(shù)據(jù)其實(shí)最頭疼的不是說收回來,還是說數(shù)據(jù)的孵化,很多的采集是正確的,引證也有正確的,但是突然的倒閉了,或者是突然冒出一個新增的,怎么樣把迅速的點(diǎn)反饋到我們的庫里邊來,這很難的點(diǎn)。第二個是說自采數(shù)據(jù)還合作,來自于合作等等多個地方的。我們會做大量的數(shù)據(jù)挖掘和人工的核實(shí),才能夠把數(shù)據(jù)做出來。比如說舉一個小例子,一個電話,很有可能店關(guān)門了,這個時候電話就有問題。比如說這個點(diǎn)關(guān)門了,我們就知道,通過實(shí)采更新,比如說三個月,半年才能捕捉到下一個星期,我們通過反饋,比如說用戶在點(diǎn)這個評論,在這個百度百科,在新浪微博中提到了任何相關(guān)的關(guān)門、搬遷這樣的字段的話,我們會抓回來,然后進(jìn)行審核。比如說我覺得這個經(jīng)驗(yàn)很可能關(guān)門了,我們就用戶區(qū)隨便拍一張新的照片,看看是不是等等通過多種方式去做數(shù)據(jù)的糾錯。
數(shù)據(jù)處理的因子挖掘,我們通過各種計(jì)算方法計(jì)算他的可信度,有很多的信息我們不可能過去看到,對數(shù)據(jù)的可信度主要是對數(shù)據(jù)的重要度,比如說街邊的美食,地圖上做渲染,能體現(xiàn)到地圖上是少量的幾個字,然后通過Rank來挖掘,把重要的信息放在地圖上。數(shù)據(jù)的熱度主要是商業(yè)價值的體現(xiàn),比如說POI的用的點(diǎn)非常多,下單非常多,使用非常高,有很好的商業(yè)價值,這對我們做商業(yè)變現(xiàn)有很好的依據(jù)。
最后是講數(shù)據(jù)的如何分享,我們數(shù)據(jù)做數(shù)據(jù),我們不藏私,我們做開放,分為三個層次,開放數(shù)據(jù),開放服務(wù),開放組件,開放數(shù)據(jù)是最低級的做法,對非常緊密的戰(zhàn)略伙伴做分享。其實(shí)我們最主要是做開放服務(wù)和組件,主要是我們地圖的服務(wù),API的開放,我們做很多的工作,通過我們API的搜索開放使用,通過API上取得數(shù)據(jù),然后我們再往上我們希望把服務(wù)做成組件,比如說話提供接口的時候,還要拿到數(shù)據(jù),自己去分享,做界面的展現(xiàn),自己下單等等的流程。我們其實(shí)是想更進(jìn)一步的把服務(wù)分成組件,各種界面,然后APP直接嵌入進(jìn)去,做主要的開發(fā)。所以我們開放服務(wù)是授意開放人去開放應(yīng)用。比如說通過我們的API獲得高德的所有的數(shù)據(jù),搜索云圖,可以很簡單的上傳的一個功能,傳到高德地圖上來,通過數(shù)據(jù)檢索以后給你提供展示,只要有數(shù)據(jù),數(shù)據(jù)馬上會變成服務(wù)。
我們是通過地圖的APP的端,通過云圖的云端兩個合起來來做,開發(fā)者非常方便的構(gòu)建自己的應(yīng)用。開放組建支持移動應(yīng)用變現(xiàn),比如說有很好的,流量很好,你嵌入廣告就可以賺,你可以放廣告,也可以放入口,入口就潛入我們高德的組件,這樣的話就非常方便的提供組件的查詢功能,通過點(diǎn)擊的話,可以方便的去搜索,去看詳情,去下單,甚至是去支付,形成一個閉環(huán),只要有流量,就可以通過某一個組建獲取分成。這也是說高德希望把我們服務(wù)和數(shù)據(jù),開放的方法去貢獻(xiàn)給大家,加速大家移動的LBS的開發(fā)和移動的變現(xiàn),這是我們高德對數(shù)據(jù)分享的理解,OK,就講到這里,謝謝大家。
{{item.content}}