777精品久无码人妻蜜桃,国产日本精品视频在线观看 ,国产亚洲99久久精品熟女av,brazzersvideosex欧美最新版,人人爽人人人爽人人爽

分享
Scan me 分享到微信

高德田密:大數據——從理論到實踐

在6月12日的地圖客開發(fā)者-高德地圖專場,高德LBS開放平臺與大數據融合部總經理田密發(fā)表了題為《大數據:從理論到實踐》的演講。

  6月11日,北京國家會議中心,以“融合 開放 智能”為主題的2014地理信息開發(fā)者大會(WGDC2014)在此拉開帷幕。地理信息開發(fā)者大會自2012年起開始舉辦,三年時間里,伴隨著中國地理信息產業(yè)的快速發(fā)展,已經成為地理信息領域最具影響力的技術創(chuàng)新盛會,與跨界融合、國際交流的重要平臺。

  在6月12日的地圖客開發(fā)者-高德地圖專場,高德LBS開放平臺與大數據融合部總經理田密發(fā)表了題為《大數據:從理論到實踐》的演講。以下是演講實錄(根據現場速記整理,未經演講本人審核,如有疏漏,請諒解并及時與3sNews聯系):

  大家上午好,我是來自高德的田密,今天非常榮幸和各位同行、朋友分享下做數據的經驗。

  首先給大家看一下我們地圖服務的架構,地圖服務最常見的是三個服務,分別是定位、搜索、導航。三個服務其實下面都有數據,比如說我們做定位的話,我們需要找到航拍的數據,搜索的話需要找到POI的數據,導航的話需要道路和實時交通的數據。這些數據經過我們的摸索變成服務之后,在網上我們把地圖封裝起來,并提供各種各樣的接口,像SDK、API等等。再往上找到我們的導航,還支持其他的APP,像生活APP等等。其實可以看到,做地圖服務,你有什么樣的數據就可以做到什么樣的服務。我今天會著重講一下地圖最核心,最根本的POI數據,我們把POI分為三種,叫做基礎、深度和動態(tài)。POI基礎數據是指名稱、地址、電話、坐標,這是基本的數據。POI深度是指附加的信息,像評論、圖片、星級等等。動態(tài)是指POI的一些操作,比如說訂酒店、買團購,訂電影票等等。

  其實像高德最傳統(tǒng)的是靠實采數據。剛剛說到這是非常艱苦的活,但是也有不少需求出現以后,實采數據不能滿足用戶的需求,我們去找非常多的數據的來源。然后有來源以后,還必須有自動化的,實時的處理機制,才能夠讓數據留在我們庫里面去展現使用。第一部分是我們逐一看看數據的來源。

  最傳統(tǒng)的是剛才我們說的實采,包括車采、步采等等,到現在這也是一個最基礎的體力工作,也是一個最重要的保證。我們也可以通過一些圖象識別技術提升我們采集和處理的效果。然后隨之還要實現人工驗證,就是說并不是所有地方都可以找到,我們可以去驗證,比如說通過打周邊的電話核實,通過街景圖去核實,通過互聯網的搜索結果或者是官網,以及其他的論壇核實,這些數據的確有,但是我們缺一些人工標點,這個實采驗證是我們數據最主要的補充渠道,尤其是對于基礎的數據。

  剛剛說這兩個是我們高德自己做的,其實也是做到有限的點,比如說實采會采到路邊比較大的點,但室內的點我們采不到,我們會通過各種各樣的合作,我們在哪一個領域找多少家來源,合作方去采集它的數據。所以我們最主要的目的是三點:一個是補充我們基礎數據,像剛才說的大的點在哪,但是室內的點我們通過合作去接入。比如說偏零售的點,我們去做點的接入。另外是擴充我們深度數據,我們有一些基礎的數據,但是上面的圖片和積累的特色,每一個合作方會做得更加專業(yè),更加詳細。另外是提供動態(tài)數據,比如說酒店和機票等等都是通過合作方接入的,基于合作本身我們不會做太多的擴展。

  還有用戶反饋,這是比較重要的一環(huán),我們的定位和實時交通,其實是非常依賴于用戶的反饋的,我們可以把用戶反饋分為主動和被動,被動反饋就是說在用戶知情的情況下,用服務的功能自動回傳,主動反饋是主動發(fā)起傳回,用戶信息上傳的信息做一個校準,比如說智能交通的,把你的軌跡回傳回來,然后輔助高德的數據校準。但是POI的數據比較少,用戶點了POI之后,并不是說POI一定好,我們需要做信息的挖據,點開POI以后,要做下單,這是有利的反饋。另外是用戶反饋場景,這個量不大,所以現在我們必須要把高德對數據中擴大它的使用場景,這樣的話從更多的場景功能拿到更多的反饋。比如說我們把POI和新浪微博打通,你在微博上反饋的情況我們都可以拿到。比如說我們把數據和阿里打通,阿里里面的操作,比如說優(yōu)惠券和游戲,會迅速的進到我們高德里邊來。比如說我們和小米合作,這樣的話小米打電話的時候就知道這個數據來自哪一個POI,我們把數據給到搜索,也會有結合。我們把數據會傳下去,會收取更多的用戶反饋。

  眾包這個詞大家不會陌生,而且用得越來越多,而且這也適合來做。比如說我們現在做一個眾包的財富軟件,我們叫做尋寶,其實這里邊已經有很多的組件了,比如說我們采門址、路牌等等,我們花少量的錢,一個點,或者是一個門檻花幾毛錢,請用戶幫我們拍照,傳回來。用戶順手做了,還能賺到一點的錢,裝備也很簡單,這些用戶量是非常泛的,比如說我們門址,通過這個方式獲取了上千萬的門址的量,POI的反饋也有幾萬,算下來全年是過千萬的量,這個方法是很有效的渠道。但是有一個特點,眾包你會發(fā)現其實中小城市參與比較多,一個是大城市可能我們本身覆蓋比較不錯,中小城市我們覆蓋比較弱,這些報酬對中小城市的用戶來說更加有吸引力吧,你會發(fā)現眾包的反饋還是蠻好的,是對我們高德采集量的一個補充。另外采集量很高,但是也有作弊,這需要我們在做眾包清理的時候要有比較完善的機制,另外還要有審核和挖掘??傮w來說這個渠道的話,其實是蠻有效率的渠道。其實也可以開個玩笑,現在很多的用戶是拿著一個手機,裝上高德和百度的APP,采集數據來賺錢,這其實也是挺有意思的。

  剛才說這個眾包,或者是客戶反饋我們會說到UPC的數據,我們回到BPC,就是商戶的反饋,商戶做他的標注,把連鎖店的信息做完善,然后通過地圖發(fā)布活動,像打折促銷啊。但是這個模式目前還需要培養(yǎng)。一個是商務操作,上次看到一個界面的操作,不知道怎么樣把自己的地圖做準確,怎么樣發(fā)布用戶信息。另外是從意圖上發(fā)布信息能帶來的好處是疑惑的,他們不覺得地圖是一個很好的渠道。所以我們現在的做法是和阿里動線,阿里本身就是做商務的活動,阿里在商務上去做發(fā)布是非常自然。做阿里動線之后,阿里可以實時獲取到的,所以我們這種模式的話效果會更好。

  然后再有一點就是說我們的云圖,這個云圖其實我在之前很多的講了很多,我主要是講講這個原形,我們關注從高德自己采,合作方拿,UPC,BPC,你會發(fā)現這個數據還是不全,我們中國的數據量幾千萬,但是離全還是有很大的距離。很多的用戶和開發(fā)者自己手上有很好的私有數據,但是可能是一個不太方便開放,一個方面可能是覺得還需要有清洗。我們高德提供一個產品,你可以非常方便的把你私有數據,我們給你提供存儲、搜索需要的能力,你可以很方便的把數據傳上來,然后基于這個做成自己的APP。數據傳上來以后我們進行評估,如果你數據優(yōu)勢的話我們可以談合作,把你的數據融到我們高德母庫中,你數傳上以后可以利用高德母庫中的導航進行清洗,達到一個雙向的過程。當然這個云庫在使用中也有更多的拓展。

  另外是抓取挖掘,我們抓取是談到了很好的幾家,這個領域非常的潮,也有一些小分析合作方,我們通過抓一次都搞定了,抓結果之后我們做了一個挖掘,其實很多的反饋,其實散落在互聯網上,因為畢竟說在地圖上只有很小一部分,我們合作了各種的微博,各種的小米手機也是一部分,還有可能大量的散落的數據來挖掘,然后通過挖掘來做字段來輔助我們搜索和導航。

  這是講的第一個部分。第二個部分是講說我們說有這么多來源,搜集數據上來以后怎么樣處理,數據處理更難,采集的話是參差不齊,如何清洗、過濾、排重、融合,還要保證實時的更新和出錯,這是一個難題。這個圖挺丑的,一看就知道是開發(fā)者畫的,蠻不錯的,大家看左上角,有一個數據輸入,有很多的數據來源,我們把數據做格式化的解析、規(guī)范化再往下走,然后進入我們的準入平臺,這個數據質量怎么樣,有沒有資格流入到高德母庫中,王下走,然后走到最后我們有聚合,你來了以后跟我們的數據是重復的,重復的話就在已有的,如果不是重復的,我們就新增一個。聚合以后是融合,你這個點已經有,進來以后不會新增,但是會帶好更多的屬性和字段,我們會往下融合的,豐富已有的數據,這是我們的數據融合。然后我們把數據落地,然后資料發(fā)布,給我們高德的應用方,高德的內部或者是外部的應用方。同時再往上右上來看,這個數據有離線的挖掘,包括容錯,反饋到數據中來揭露一些信息。這是我們高德數據處理的框架。

  我們看看框架中比較重要的核心點,第一個是POI存儲,這個量級比較大,有的做幾百億的級別,我們高德的庫也是億的級別,這個量比較大,但是更新非常頻繁。這個東西其實因為很多的字段,很多的點,我們去操作,然后我們會做一些更新,有一個點從反饋到更新,非常久的更新,這個對數據庫非常高,沒有說哪一個好,哪一個布哈,我們也是在做常識。我們最后用了IDB,其實是非常簡單的數據庫,就是一個查詢,沒有說所有,所以說反而讀寫的時候效率非常高。這個數據壓縮相對比較好,我們可以比較容易的把這個商業(yè)數據壓縮完了以后打到經濟中去。數據處理之后呢進入預處理,處理是一個準確活了,從地址切分到字段補全、規(guī)范化,再到生態(tài)統(tǒng)一ID。然后是數據的準入,這個數據的來源是多種多樣了,來源的坐標可能是缺失或者是不準,我們對坐標進行重新的校準,然后把一些涉密的東西過濾掉,這是我們的準入,說到準入最核心的一點是坐標計算。只能說地圖變成坐標,我們把整個的物理的世界,現實的世界,映射到線上虛擬世界上來,我們的物理世界也是地址,多少多少號,什么什么對面或者是什么范圍內,這些地理的描述要影射到基本的坐標,才能參與到我們所有的服務。其實這個做計算是各大地圖廠商非常核心的一個能力,其實這個能力依賴完備準確的庫,這個通過測繪是非常難以覆蓋全的,這一點有很好的優(yōu)勢,比如說我們舉兩點,一點是我們通過眾包,如果實采門址就是幾百萬,我們通過眾包以后數據量增加很多。另外是我們跟阿里合作,阿里每天有大約億級別的運單數據,運單的話有很詳細的地址,這樣的話會有坐標,這是一個非常好的來源,這個對我們做計算有非常好的輔助的作用。我們高德這個方面有蠻大的優(yōu)勢,有了這個以后,我們做結算其實主要是分塊,這一塊就不詳細講了。

  另外一個非常核心的是叫做聚合,剛才說了來一個新點子的話,這個庫里已經有了,我們實踐出來,不做的話我們還有質量庫,搜很多的類似的點,其實是一樣的,做狠的話,本來不是同一個點,做狠了,發(fā)現有缺失,這個能力也是非常核心的。我們把它分為兩種,在線和離線,在線的話做聚合,離線的話,你有一些數據是變化的,定期的,比如說一兩天,把所有的數據重新做一下,變化的數據干掉。然后還有一些算法在里邊做支撐。

  剛才說到了融合,就是把多個POI選擇一個,設一個最佳的POI接口。比如說我們像記數據,像電話有很多的來源,我們根據計算、時間選擇一個優(yōu)質的最權威的融合數據。比如說深度比如說評論和標簽,我們會做一個融合,這個融合發(fā)生沖突的話,我們基本上選擇最好的,比如說動態(tài)數據,剛才我們說的酒店數據,我們有十幾家的酒店,每個酒店都有不同的行情和報價。我們對這個數據就可以把它做一個二次的,根據每一個酒店的價格和房情,按照最優(yōu)惠的排在最前邊,每一個子頻道的聚合的服務,比如說酒店的聚合,電影院的聚合,旅游的聚合等等,其實會發(fā)現整個生活輔助都可以覆蓋到,這個基本數據也是使得地圖不僅僅是查詢的東西,更多的是服務入口。

  融合算法這是剛才說的,根據不同的優(yōu)先級和時間來做的優(yōu)化,這個不講了。

  然后數據其實最頭疼的不是說收回來,還是說數據的孵化,很多的采集是正確的,引證也有正確的,但是突然的倒閉了,或者是突然冒出一個新增的,怎么樣把迅速的點反饋到我們的庫里邊來,這很難的點。第二個是說自采數據還合作,來自于合作等等多個地方的。我們會做大量的數據挖掘和人工的核實,才能夠把數據做出來。比如說舉一個小例子,一個電話,很有可能店關門了,這個時候電話就有問題。比如說這個點關門了,我們就知道,通過實采更新,比如說三個月,半年才能捕捉到下一個星期,我們通過反饋,比如說用戶在點這個評論,在這個百度百科,在新浪微博中提到了任何相關的關門、搬遷這樣的字段的話,我們會抓回來,然后進行審核。比如說我覺得這個經驗很可能關門了,我們就用戶區(qū)隨便拍一張新的照片,看看是不是等等通過多種方式去做數據的糾錯。

  數據處理的因子挖掘,我們通過各種計算方法計算他的可信度,有很多的信息我們不可能過去看到,對數據的可信度主要是對數據的重要度,比如說街邊的美食,地圖上做渲染,能體現到地圖上是少量的幾個字,然后通過Rank來挖掘,把重要的信息放在地圖上。數據的熱度主要是商業(yè)價值的體現,比如說POI的用的點非常多,下單非常多,使用非常高,有很好的商業(yè)價值,這對我們做商業(yè)變現有很好的依據。

  最后是講數據的如何分享,我們數據做數據,我們不藏私,我們做開放,分為三個層次,開放數據,開放服務,開放組件,開放數據是最低級的做法,對非常緊密的戰(zhàn)略伙伴做分享。其實我們最主要是做開放服務和組件,主要是我們地圖的服務,API的開放,我們做很多的工作,通過我們API的搜索開放使用,通過API上取得數據,然后我們再往上我們希望把服務做成組件,比如說話提供接口的時候,還要拿到數據,自己去分享,做界面的展現,自己下單等等的流程。我們其實是想更進一步的把服務分成組件,各種界面,然后APP直接嵌入進去,做主要的開發(fā)。所以我們開放服務是授意開放人去開放應用。比如說通過我們的API獲得高德的所有的數據,搜索云圖,可以很簡單的上傳的一個功能,傳到高德地圖上來,通過數據檢索以后給你提供展示,只要有數據,數據馬上會變成服務。

  我們是通過地圖的APP的端,通過云圖的云端兩個合起來來做,開發(fā)者非常方便的構建自己的應用。開放組建支持移動應用變現,比如說有很好的,流量很好,你嵌入廣告就可以賺,你可以放廣告,也可以放入口,入口就潛入我們高德的組件,這樣的話就非常方便的提供組件的查詢功能,通過點擊的話,可以方便的去搜索,去看詳情,去下單,甚至是去支付,形成一個閉環(huán),只要有流量,就可以通過某一個組建獲取分成。這也是說高德希望把我們服務和數據,開放的方法去貢獻給大家,加速大家移動的LBS的開發(fā)和移動的變現,這是我們高德對數據分享的理解,OK,就講到這里,謝謝大家。

喜歡您正在閱讀的內容嗎?歡迎免費訂閱泰伯每周精選電郵。 立即訂閱

參與評論

【登錄后才能評論哦!點擊

  • {{item.username}}

    {{item.content}}

    {{item.created_at}}
    {{item.support}}
    回復{{item.replynum}}
    {{child.username}} 回復 {{child.to_username}}:{{child.content}}

更多精選文章推薦