777精品久无码人妻蜜桃,国产日本精品视频在线观看 ,国产亚洲99久久精品熟女av,brazzersvideosex欧美最新版,人人爽人人人爽人人爽

分享
Scan me 分享到微信

百度科學(xué)家眼中的復(fù)雜中國

近兩年來大數(shù)據(jù)的處境可謂冰火兩重天:對于普通人而言,它們好像是一團(tuán)迷霧般的存在,可能一不小心就會成為信息泄露的“元兇”;在唯利是圖的商人眼里,它們就只是打開滾滾財(cái)富之門的

  

百度大數(shù)據(jù)實(shí)驗(yàn)室時(shí)空數(shù)據(jù)挖掘小組

  編者按:簡單來說,時(shí)空大數(shù)據(jù)(Spatial-temporal big data)就是典型的時(shí)間和空間有關(guān)聯(lián)的數(shù)據(jù),具體到百度而言,主要是用戶的搜索、定位和移動軌跡數(shù)據(jù)。

  由于百度在中國互聯(lián)網(wǎng)行業(yè)所處的位置,專注時(shí)空大數(shù)據(jù)的百度科學(xué)家們擁有一定的優(yōu)勢。吳海山所帶領(lǐng)的時(shí)空數(shù)據(jù)挖掘小組屬于百度大數(shù)據(jù)實(shí)驗(yàn)室,所做課題旨在用大數(shù)據(jù)技術(shù)解決社會、經(jīng)濟(jì)等問題,具有強(qiáng)烈的跨界屬性和現(xiàn)實(shí)意義。對于吳海山及其團(tuán)隊(duì)而言,這是他們工作的意義所在。然而,百度近期連遭輿論風(fēng)暴,即便是與商業(yè)無關(guān)的科學(xué)家也會因此而承受心理壓力。

  作為百度一員,吳海山在朋友圈吐露的心聲令DT君印象深刻:“……谷歌走之后百度一直沒能在用戶體驗(yàn)上做出出色的成績,以及大家對網(wǎng)絡(luò)審查的痛恨。對于后者,我們都無能為力的,但是對于前者,真心希望百度通過這次事件,能用技術(shù)、產(chǎn)品和運(yùn)營,打造出讓用戶真心佩服的產(chǎn)品和體驗(yàn)來。”他希望,“通過數(shù)據(jù)和技術(shù),來為推動國家和社會的積極變化貢獻(xiàn)我們微薄的力量。”

  

 百度資深數(shù)據(jù)科學(xué)家吳海山

  自互聯(lián)網(wǎng)誕生以來,大數(shù)據(jù)的幽靈就一直徘徊在虛擬空間的上空。無數(shù)看不見的0和1與來自真實(shí)的風(fēng)沙雨雪共同塑造了我們正在生活的這個世界。如同兩個互相糾纏的量子,每個互聯(lián)網(wǎng)公民的一舉一動都會跨越“次元壁障”影響到真實(shí)世界,反之亦然——這就是大數(shù)據(jù)的力量。

  然而,近兩年來大數(shù)據(jù)的處境可謂冰火兩重天:對于普通人而言,它們好像是一團(tuán)迷霧般的存在,可能一不小心就會成為信息泄露的“元兇”;在唯利是圖的商人眼里,它們就只是打開滾滾財(cái)富之門的金鑰匙。那么,當(dāng)我們談?wù)摯髷?shù)據(jù)的時(shí)候到底在談?wù)撌裁?

  也許專注于將理想照進(jìn)現(xiàn)實(shí)的數(shù)據(jù)科學(xué)家們會帶來一個與眾不同的視角。在他們眼里,大數(shù)據(jù)所扮演的角色更多是改善人類生活、提升商業(yè)價(jià)值的工具,甚至可以用來改變世界。其中,聚焦于時(shí)間和空間交互作用的時(shí)空大數(shù)據(jù),是最有潛力成為人類社會智能助理的一個類別。

  為此,DeepTech深科技專訪了百度大數(shù)據(jù)實(shí)驗(yàn)室(Big Data Lab,BDL)的資深數(shù)據(jù)科學(xué)家吳海山。他的研究方向就是“時(shí)空數(shù)據(jù)挖掘”,目前正在領(lǐng)導(dǎo)自己的小組進(jìn)行一個名為MobiMetrics的研究項(xiàng)目。通俗來講,MobiMetrics的意思就是說,就是用移動設(shè)備產(chǎn)生的大數(shù)據(jù)去測量整個社會系統(tǒng)。如果把系統(tǒng)里的每個人都看成是一個粒子,那么他的運(yùn)動會對整個系統(tǒng)造成什么樣的影響?這里蘊(yùn)含著非常值得深挖的信息。

  大數(shù)據(jù)背后的“中國動力學(xué)”

  在吳海山看來,時(shí)空數(shù)據(jù)挖掘的工作至關(guān)重要,透過它們就可能看到一個更加真實(shí)的中國。

  這位青年學(xué)者有著跨界色彩鮮明的學(xué)術(shù)背景:2011年,從復(fù)旦大學(xué)計(jì)算機(jī)學(xué)院獲得博士學(xué)位,畢業(yè)后加入IBM中國研究院,進(jìn)行商業(yè)數(shù)據(jù)分析與優(yōu)化的相關(guān)研究;2012年底,加入美國普林斯頓大學(xué)Couzin Lab任博士后研究員,從事計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)和復(fù)雜生物系統(tǒng)的交叉學(xué)科研究。用他自己的話說,他在加入百度之前的主要研究的是作為復(fù)雜系統(tǒng)存在的魚群、鳥群。

  2014年對于吳海山而言是一個具有特別意義的年份。這一年的春運(yùn)期間,百度推出了“百度遷徙”,這是業(yè)界首個以“人群遷徙”為主題的大數(shù)據(jù)可視化項(xiàng)目。該項(xiàng)目利用百度地圖LBS開放平臺,對其擁有的位置數(shù)據(jù)進(jìn)行計(jì)算分析,實(shí)現(xiàn)了全程、動態(tài)、即時(shí)、直觀地展現(xiàn)中國春節(jié)前后人口大遷徙的軌跡與特征。

  當(dāng)時(shí)吳海山一看到這個項(xiàng)目就覺得太有意思了。在他看來,地圖并不是地圖,而是反映中國社會和經(jīng)濟(jì)發(fā)展的鏡子,這正是他要研究的對象,數(shù)據(jù)只是工具。當(dāng)今中國經(jīng)濟(jì)高速發(fā)展,社會急劇變化,大量具有社會研究價(jià)值的互聯(lián)網(wǎng)數(shù)據(jù)產(chǎn)生。這就意味著,大量中國特色的問題可以通過大數(shù)據(jù)的研究來解決。

  他給DT君展示了一個被稱為“百度點(diǎn)亮中國”的項(xiàng)目。在百度地圖上,來自用戶的定位數(shù)據(jù)化為一個個亮點(diǎn)散落著,整個中國好像被人為亮點(diǎn)了一般。亮點(diǎn)密集度高的地方就亮一些,密集度低的地方就暗淡一些,而明亮程度也是隨著時(shí)間的不同而交替變化的。以山東平原為例,春節(jié)期間由于很多人返鄉(xiāng),明顯要更加明亮一些,反之則會變暗。

  

 百度大數(shù)據(jù)點(diǎn)亮中國

  “整個中國就像呼吸一樣,山川湖泊的形狀都出來了,連臺灣都亮了!”吳海山由衷地感嘆,“在從事這項(xiàng)工作之前,我從沒有這么看過中國;當(dāng)我看到之后,自己也被震撼了。”

  假如留在國外的話,是無接觸到這些大數(shù)據(jù)資源的。

  同年9月,吳海山加入作為百度研究院三大實(shí)驗(yàn)室之一的百度大數(shù)據(jù)實(shí)驗(yàn)室,并組建了時(shí)空大數(shù)據(jù)挖掘研究團(tuán)隊(duì),其成員的專業(yè)包括但不限于計(jì)算機(jī)科學(xué)、建筑科學(xué)、交通科學(xué)、地理科學(xué)和經(jīng)濟(jì)學(xué)。這些跨界研究者共同致力于通過機(jī)器學(xué)習(xí)、人類動力學(xué)、計(jì)算社會學(xué)、復(fù)雜網(wǎng)絡(luò)和計(jì)量經(jīng)濟(jì)學(xué)等交叉學(xué)科的融合,開展基于百度移動搜索數(shù)據(jù)和定位數(shù)據(jù)研究。

  在科學(xué)研究層面上,該團(tuán)隊(duì)近期開展的研究就是MobiMetrics,即,嘗試通過時(shí)空大數(shù)據(jù)量化世界上最為復(fù)雜的系統(tǒng)之一——中國。他們先后開展了中國鬼城量化分析與檢測、基于外灘踩踏事件分析的人群實(shí)時(shí)預(yù)警系統(tǒng)、中國貧困分析和精準(zhǔn)扶貧研究、數(shù)據(jù)驅(qū)動的宏觀經(jīng)濟(jì)量化和對沖投資決策等。

  “雖然我們的研究方向是MobiMetrics,但實(shí)際上這個課題的學(xué)術(shù)名字是China Dynamics(中國動力學(xué))。”吳海山介紹說,“中國就是一個復(fù)雜的系統(tǒng),相比其他國家,它有更加獨(dú)特的動力學(xué)在里面。通過數(shù)據(jù)去洞察這個大系統(tǒng)背后的機(jī)制是非常有意思的。”

  不難看出,時(shí)空數(shù)據(jù)挖掘團(tuán)隊(duì)所進(jìn)行的研究均由問題驅(qū)動,具有強(qiáng)烈的現(xiàn)實(shí)意義和實(shí)用價(jià)值。這與吳海山的大數(shù)據(jù)觀有直接關(guān)系。他認(rèn)為,拋開問題而談大數(shù)據(jù)是沒有意義的,“好比一堆沙子,如果不用于實(shí)際建筑就仍然只是一堆沙子”。

  基于這種理念,該團(tuán)隊(duì)最有名的研究大概要數(shù)對中國“鬼城”的量化分析與檢測了。

  “鬼城”之迷

  起初,“鬼城”作為一個噱頭性極強(qiáng)的概念為人們所熟知。2010年,《時(shí)代》雜志刊登一組鄂爾多斯市康巴什地區(qū)的照片:那里佇立著大量的嶄新民居,還有被設(shè)計(jì)成文化地標(biāo)的壯觀建筑群,然而卻人跡罕至,遂稱之為 ghost city。自那之后,中國“鬼城”問題見諸世界各大媒體,甚至有美劇將鄂爾多斯設(shè)定成一個隱藏著不能說秘密的地方。這種現(xiàn)象引起了吳海山團(tuán)隊(duì)的興趣。

  2015年,《Ghost Cities of China》一書的作者Wade Shepard將“鬼城”定義為:一種能量嚴(yán)重不足的新型發(fā)展?fàn)顟B(tài),一個人口和商業(yè)機(jī)構(gòu)嚴(yán)重少于其原本所能容納的體量的地方。從這個角度上說,住宅空置率就成為最簡單直接的“鬼城”衡量標(biāo)準(zhǔn)。然而,盡管很多媒體都報(bào)道過某些中國城市的住宅類房屋空置的區(qū)域(下稱“住空區(qū)”),但稱這些地區(qū)為“鬼城”是不準(zhǔn)確的,因?yàn)檫@類報(bào)道的結(jié)論通常以圖片呈現(xiàn)或者統(tǒng)計(jì)亮燈率的方法得出,因準(zhǔn)確率低、無法驗(yàn)證而備受質(zhì)疑。那么,中國“鬼城”的真實(shí)面目是怎樣的呢?又如何高效地進(jìn)行研究呢?

  吳海山團(tuán)隊(duì)的“利器”就是時(shí)空大數(shù)據(jù)。如今,人們廣泛應(yīng)用的智能移動設(shè)備都具有位置感知功能,可產(chǎn)生大量個人軌跡數(shù)據(jù),可覆蓋極大的時(shí)空尺度,擁有超高的分辨率。通過這些時(shí)空大數(shù)據(jù),研究者可以從微觀的角度來觀察城市動力學(xué)(包括人類的遷移和區(qū)域之間的互動),也就是說,可以使用每個個體所產(chǎn)生的數(shù)據(jù)來感知人們的生活環(huán)境。這就“社會感知”概念的由來。

  具體到這項(xiàng)研究上,首先要確定數(shù)據(jù)的性質(zhì):一是使用百度定位技術(shù)APP的數(shù)據(jù),一是相關(guān)住宅區(qū)域的興趣點(diǎn)(POI,Point of Interests)數(shù)據(jù)。定位數(shù)據(jù)的信息包括用戶ID、經(jīng)緯度、時(shí)間點(diǎn)。其中,用戶ID全部匿名化,以保證隱私安全。POI數(shù)據(jù)包括該地點(diǎn)的名稱、經(jīng)緯度和類別(普通住宅還是別墅)。這些高精度的數(shù)據(jù)所覆蓋的時(shí)間長度為2014年9月8日至2015年4月22日,每日的數(shù)據(jù)量可達(dá)數(shù)十億;地理范圍的廣度為全國。這些數(shù)據(jù)特性可以在一定程度上反映出人口密集度,即該研究的重點(diǎn)。

  然后,通過這些數(shù)據(jù)再去發(fā)現(xiàn)并界定住空區(qū)。這不光要看當(dāng)?shù)鼐幼∪丝冢€要計(jì)算兩個變量:用戶的具體住宅地點(diǎn)和住宅區(qū)的位置。在這里,吳海山他們采用了一種叫作DBSCAN的算法確認(rèn)用戶具體的住宅地點(diǎn)。同時(shí),利用POI數(shù)據(jù)區(qū)分出房屋類別,把那些一公里內(nèi)有別墅的住宅區(qū)的POI數(shù)據(jù)剔除出去,因?yàn)榭拷鼊e墅的人口密度本來就低于普通住宅樓,再加上那些別墅很有可能是剛剛建成的,本來也沒什么人居住。

  完成了上述兩步之后,研究人員將全國劃分為數(shù)個100m×100m的網(wǎng)格進(jìn)行人口統(tǒng)計(jì)。具體方法是,以每個小區(qū)的POI數(shù)據(jù)點(diǎn)為中心,挑選出5×5個(共25個)網(wǎng)格,再從中挑出人口最多的6個。如果這6個網(wǎng)格里的人口數(shù)量之和小于300人,即推斷為住空區(qū)。同時(shí),吳海山的團(tuán)隊(duì)還把和的值設(shè)定為大于60,以排除新建住宅區(qū)。實(shí)際上,這些被發(fā)現(xiàn)的住空區(qū)就是我們平時(shí)所說的“鬼城”。

  值得注意的是,這些通過大數(shù)據(jù)發(fā)現(xiàn)的“鬼城”并不能被稱為ghost city,更確切的名稱應(yīng)該是ghost town。因?yàn)樽】諈^(qū)只存在于一個城市的某些區(qū)域,并非覆蓋整個城市。這項(xiàng)結(jié)論是吳海山團(tuán)隊(duì)在該研究中的一個十分重要的成果,完全顛覆了人們對“鬼城”的認(rèn)知。

  僅僅找出“鬼城”所在地還不算結(jié)束。那么,為什么擁有大量住空區(qū)的城市就是“鬼城”?為找到真正的原因,研究人員以山東乳山(旅游景點(diǎn))和康巴什(城區(qū))作為案例,進(jìn)一步分析了當(dāng)?shù)氐娜丝谧兓?、?工分離現(xiàn)象以及人群遷徙。這一部分揭示出的真相最終成就了該研究的另一個重大成果,即不同原因?qū)е碌牟煌悇e“鬼城”現(xiàn)象。

  康巴什是一個新城區(qū),之前隸屬于鄂爾多斯東勝區(qū)。2006年,鄂爾多斯市政府從東勝搬到康巴什??蛋褪驳貐^(qū)擁有豐富的煤礦資源和其他自然資源,這使得該地經(jīng)濟(jì)迅猛發(fā)展起來。當(dāng)它越來越富裕時(shí),政府開始雄心勃勃地建設(shè)新城區(qū)。大量資本被投入到房地產(chǎn)上,投資需求大大增加,遠(yuǎn)高于居住需求。因此,那里雖然一座座高樓拔地而起,卻鮮有人居住。而乳山則是一個旅游城市,擁有長達(dá)21公里風(fēng)景秀麗的海岸線,當(dāng)?shù)厝嗣疄?ldquo;銀灘”。因此該地區(qū)的大部分房地產(chǎn)是季節(jié)性住宅,人們購買是為了度假。

  在比較了這兩類有同樣巨大的住空區(qū)、成因卻完全不同的兩個城市的時(shí)空大數(shù)據(jù)之后,研究人員發(fā)現(xiàn)了一些有趣的現(xiàn)象。例如,康巴什的人口變化周期以周為單位,而乳山不是;當(dāng)康巴什的人口下降時(shí),乳山的人口卻在增加。我們可以理解為,這兩個城市的功能不同,康巴什主要是工作地點(diǎn),而乳山則主要是度假地點(diǎn)。

  

乳山居民的住-工分離現(xiàn)象,方框內(nèi)為銀灘住空區(qū),紅點(diǎn)代表住宅區(qū),藍(lán)點(diǎn)代表工作地。

  此外,這些數(shù)據(jù)還凸顯了“鬼城”所在地住-工分離的現(xiàn)實(shí)。例如,乳山銀灘的工作場所明顯少于市中心,相應(yīng)地,居住人口也少于市中心。這也說明,一個新建的城市,盡管漂亮整潔,但并不能天然地吸引人們遷入,因?yàn)榛A(chǔ)設(shè)施和工作機(jī)會要比建筑本身來得更加重要,那些才是留住居民的關(guān)鍵。正如Wade Shepard所說,建造一個新城市容易,但要讓它真正運(yùn)轉(zhuǎn)起來則需要長久的努力。

  最終,研究人員選出了20個擁有大量住空區(qū)的城市,民眾可前往以下網(wǎng)址查看:http://bdl.baidu.com/ghostcity/。看得出,中國的“鬼城”大多分布于東部的二三線城市,具體來看,又基本都分布在城市的邊緣地帶或者新建城區(qū)。例如著名的鄂爾多斯“鬼城”就是一個新建城區(qū)——康巴什新區(qū)。還有天津?yàn)I海新區(qū)、鄭州鄭東新區(qū)、沈陽全運(yùn)村等。這一類“鬼城”都是由于城市規(guī)劃不合理或者過于超前造成的,還有一類“鬼城”位于旅游景區(qū)的城市,旅游淡季到來時(shí)就會出現(xiàn)“季節(jié)性空城”,如山東乳山、江蘇如皋、海南瓊海等。這兩類“鬼城”的真實(shí)性也都被媒體報(bào)道或當(dāng)?shù)匦旁打?yàn)證過。

  當(dāng)然,由于成因不同,“鬼城”并非一成不變。隨著當(dāng)?shù)亟?jīng)濟(jì)的發(fā)展和政府的適當(dāng)引導(dǎo),有些“鬼城”也能變活。例如鄭東新區(qū),如今已經(jīng)通了地鐵,居民也在增加。

  目前公布出來的并非全部實(shí)際存在的“鬼城”,這個名單也未作排名,因?yàn)檠芯咳藛T擔(dān)心數(shù)據(jù)過于敏感,有可能會對房地產(chǎn)行業(yè)或者宏觀經(jīng)濟(jì)投資者產(chǎn)生影響。據(jù)吳海山介紹,目前該研究的精度仍然不夠,有些寫字樓可能也會被誤當(dāng)作居民樓而被計(jì)算進(jìn)去。在將來更進(jìn)一步的工作中,研究人員會把更多數(shù)據(jù),比如路網(wǎng)信息、衛(wèi)星圖像數(shù)據(jù)等,也加入進(jìn)去,并與大學(xué)或者政府的城市規(guī)劃研究類機(jī)構(gòu)合作,深挖“鬼城”的成因和解決辦法。

  事實(shí)上,由于“鬼城”一詞與西方對中國的誤讀有關(guān),從這個意義上講,百度的這項(xiàng)研究難能可貴,研究者希望世界看到一個更加客觀真實(shí)的中國??上У氖牵瑖鴥?nèi)媒體報(bào)道大多也只將目光聚焦在了“鬼城”數(shù)量上,這大概是另一種形式的“誤讀”。

  假如有辦法預(yù)知未來

  誠如研究者所希望的,“鬼城”這類的研究可以對決策者有用。但對于普通人而言,“看懂中國”是一個稍嫌宏大的命題,而日常生活中與自己息息相關(guān)的時(shí)空大數(shù)據(jù)則更為重要,后者也是吳海山團(tuán)隊(duì)的重點(diǎn)關(guān)注領(lǐng)域。相比之下,這方面的研究更具商業(yè)和實(shí)用價(jià)值,甚至可能在某些突發(fā)性危急狀況中拯救生命。

  要知道,這并不是夸張。很多人應(yīng)該還對2014年的12月31日發(fā)生在上海外灘的踩踏事件記憶猶新。在那場悲劇中,共死亡36人,受傷49人。事后總結(jié),踩踏事件之所以會發(fā)生的一個重要的原因就是,原燈光秀改變場地,但人們并不知道,而且對該地的人流量、人群密度和移動方向估計(jì)錯誤。與此同時(shí),相關(guān)公共服務(wù)機(jī)構(gòu)也沒有對可能發(fā)生的情況做出預(yù)判,毫無準(zhǔn)備。

  悲劇發(fā)生過,人們唏噓不已。假如有辦法預(yù)知未來,悲劇也許就可以避免,或者至少能夠減少傷亡。

  

2014年12月31日晚23:00-24:00間,上海外灘的人群密度。

  這次事件之后,吳海山帶領(lǐng)自己的團(tuán)隊(duì)一直在進(jìn)行人群聚集的有關(guān)研究,最新的成果就是今年3月份剛剛發(fā)布的一個全新算法,可做到提前兩小時(shí)預(yù)測局部區(qū)域內(nèi)的人群密集程度,并發(fā)出預(yù)警。據(jù)吳海山介紹,做這項(xiàng)研究的初衷是想看看如何在公共安全領(lǐng)域應(yīng)用時(shí)空大數(shù)據(jù),以提升公共安全服務(wù)。

  對于任何機(jī)構(gòu)而言,預(yù)防大規(guī)模群體性危急事件發(fā)生都是很大的挑戰(zhàn),它有賴于對人群動向的正確預(yù)測。盡管現(xiàn)在已經(jīng)有研究試圖通過對個人的時(shí)空軌跡建模而做出相關(guān)預(yù)測,但大多都聚焦在日常通勤的時(shí)空軌跡上。而通常大規(guī)模的人群異常是由非常規(guī)的人群聚集性活動導(dǎo)致的,如大型慶典、宗教集會和體育賽事等。一般人們參與這類活動是非常規(guī)的,隨機(jī)性很強(qiáng),彼時(shí)的行為特征與日常通勤不可同日而語。正因?yàn)槿绱?,目前沒有特別好的辦法對非常規(guī)群體性活動進(jìn)行預(yù)測。

  這項(xiàng)有關(guān)人流預(yù)警的研究與眾不同之處就在于,其將重心放在隨機(jī)狀態(tài)下人群聚集時(shí)的行為特征。百度的方法受一個日常習(xí)慣的啟發(fā),即為了規(guī)劃出行路線,人們會提前在百度地圖上搜索一下。這樣,通過分析一個時(shí)間段內(nèi)(通常是一個小時(shí))、一個特定區(qū)域里,百度地圖上的查詢數(shù)與用戶的定位數(shù)之間的關(guān)系,就可以推斷人群密度是否超過警戒線。

  之所以未采用攝像頭的視頻數(shù)據(jù),吳海山解釋說,是因?yàn)橐曨l數(shù)據(jù)準(zhǔn)確率比較低,太容易受環(huán)境影響,同時(shí)實(shí)時(shí)的視頻數(shù)據(jù)也不適于預(yù)測之用,相比之下來自百度地圖的數(shù)據(jù)則是“超前的”。

  研究者發(fā)現(xiàn),踩踏發(fā)生的那天晚上外灘出現(xiàn)了三個異常情況:一是四處驚跑的人群密度高于其他區(qū)域,二是人群密度高于平時(shí),三是人流方向混亂。特別最后一種情況是非常明顯的危險(xiǎn)信號。

  隨后,研究者又選擇了另外三個地點(diǎn)作為案例,以確保百度地圖數(shù)據(jù)的通用性。這三個地點(diǎn)分別是北京工人體育館、故宮、北京西站,其各自對應(yīng)的POI數(shù)據(jù)的類別屬性分別是大型公共活動舉辦地、地標(biāo)建筑、交通樞紐。

  

人流預(yù)警模型的十大重要時(shí)空特征排名

  結(jié)果證實(shí),特定時(shí)間段內(nèi)特定區(qū)域的地圖查詢數(shù)與定位數(shù)之間具有強(qiáng)大的相關(guān)性。也就是說,地圖搜索行為在某種意義上是一種非常好的人群行為指示器和預(yù)測器。據(jù)此,研究者設(shè)計(jì)了一個專門針對大規(guī)模群體危急事件的預(yù)警模型,并列出了該模型的十大重要時(shí)空特征,排在前兩位的分別是PN1(一小時(shí)前定位)和MQ1(一小時(shí)前查詢數(shù))。這也符合我們的直覺。

  不過,對于科學(xué)家而言,自己的工作永遠(yuǎn)值得精益求精。吳海山覺得目前的研究仍然有一些缺憾。“定位數(shù)據(jù)只是采樣,視頻數(shù)據(jù)則可能準(zhǔn)確測量出每平方米的人數(shù)。”他表示,“(要想準(zhǔn)確預(yù)測)最理想的狀態(tài)是,將來能夠?qū)崿F(xiàn)不同大數(shù)據(jù)來源的連通互動,例如來自政府機(jī)構(gòu)的各個攝像頭數(shù)據(jù)——我雖然不知道外灘具體有多少人,但我可以看到地鐵站有多少人。”

  全新的智能出行助理

  盡管時(shí)空大數(shù)據(jù)具有無比強(qiáng)大的功能,能在諸多領(lǐng)域發(fā)揮作用,人們心里依然有一個隱憂,那就是數(shù)據(jù)安全。最常見的,就是隱私信息的泄露。在上述百度大數(shù)據(jù)實(shí)驗(yàn)室的研究中,最重要、也最敏感的就是定位數(shù)據(jù),它們能否泄露個人隱私?

  吳海山解釋說,研究中使用的定位數(shù)據(jù)全部是匿名化的,而且是一種聚合性質(zhì)的數(shù)據(jù),研究人員并不能看到單個用戶的位置信息,完全不涉及個人的身份識別,也與監(jiān)控?zé)o關(guān)。此外,這些數(shù)據(jù)在百度內(nèi)部的使用權(quán)限也非常之高。

  更重要的是,用戶可以選擇是否打開移動設(shè)備的定位功能,這意味著是否要通過開放權(quán)限來獲得更好的服務(wù)。從本質(zhì)上看,這是一種交換關(guān)系。那么問題來了:你愿意通過這種交換獲得更好的服務(wù)嗎?先別忙著回答,吳海山團(tuán)隊(duì)曾經(jīng)做過的一項(xiàng)有關(guān)智能出行助理的研究也許會帶來啟發(fā)。

  我們已經(jīng)知道,人們出行之前有在地圖上查詢目的地以規(guī)劃路線或者實(shí)時(shí)導(dǎo)航的習(xí)慣,日積月累這些使用痕跡就會被保存在地圖應(yīng)用的日志里。通過分析這些數(shù)據(jù),就能理解用戶的實(shí)時(shí)位置屬性,甚至可以預(yù)測將來他們是否真的會去到所查詢的那個地方。為了證實(shí)由查詢導(dǎo)向的用戶活動是可預(yù)測的,研究者共采用了65億條GPS位置記錄,歷時(shí)3個月。就我們所知,這是首次在如此大的規(guī)模和范圍上進(jìn)行的基于時(shí)空數(shù)據(jù)的出行預(yù)測研究。

  研究者發(fā)現(xiàn),約25%的查詢目的地會在30分鐘內(nèi)被到訪,50%會在2小時(shí)內(nèi)被到訪,81%會在一天之內(nèi)被到訪,95%會在一個星期內(nèi)被到訪。與此同時(shí),超過50%的查詢目的地在位于50公里以外的用戶家中或工作場所,而在家進(jìn)行查詢的頻率要高于工作地點(diǎn)2倍多(分別為23%和9.4%),這說明用戶更傾向于在家或附近的地方開始導(dǎo)航。

  這樣的結(jié)果意味著什么呢?試想如下場景:

  你在智能手機(jī)的地圖應(yīng)用上搜索一家新餐廳的位置,因?yàn)槟阌?jì)劃在那里與自己的朋友會合;兩小時(shí)后,你在該地圖應(yīng)用提供的導(dǎo)航服務(wù)幫助下,開車從辦公室去往這家餐廳;接著,你通過在社交應(yīng)用上“簽到”(check-in)分享了自己的實(shí)時(shí)位置;晚飯后,你在地圖上查詢另外一個城市的機(jī)場和賓館,因?yàn)榧倨隈R上到了,你可能想去那里旅游。

  這其實(shí)是十分典型的智能出行助理的工作模式,目前我們可以在各個專門應(yīng)用中體驗(yàn)到它所帶來的便利。然而,當(dāng)你進(jìn)行每一個操作時(shí),那些移動應(yīng)用都經(jīng)你允許捕獲了你的實(shí)時(shí)位置信息,并提供了優(yōu)質(zhì)服務(wù)。假如你拒絕向服務(wù)商開放自己位置權(quán)限的話,則會是另一番場景了。這時(shí)候,再重新思考一下最開始提出的那個問題:你接受這種交換關(guān)系嗎?

  當(dāng)然,選擇權(quán)仍然在用戶手中。隨著大眾數(shù)據(jù)素養(yǎng)的不斷提升,不久的將來會有越來越多的人愿意把大數(shù)據(jù)看成是智能助理,把自己看作是它的主人,而不是像現(xiàn)在這樣憂慮隱私信息的泄露。至于互聯(lián)網(wǎng)公司的數(shù)據(jù)道德,又是另外一個話題了。

  在這項(xiàng)出行預(yù)測的研究基礎(chǔ)上,吳海山和他的團(tuán)隊(duì)正在構(gòu)想一種全新的基于時(shí)空大數(shù)據(jù)的人工智能出行助理。相比目前已知的應(yīng)用,這位看不見的AI集多種功能于一身,更強(qiáng)大,也更貼心,無需主人動一手指頭,就能提前猜中他的心思,并做好所有準(zhǔn)備。未來,它也許會帶來更多你意想不到的驚喜。

  目前該項(xiàng)目還在研發(fā)中,細(xì)節(jié)還未能公布,讓我們拭目以待!(來源|DeepTech深科技 文|李芳)

     如果您對您所在行業(yè)有很深認(rèn)知,也想在我們的平臺上說點(diǎn)什么,我們歡迎您來投稿!

喜歡您正在閱讀的內(nèi)容嗎?歡迎免費(fèi)訂閱泰伯每周精選電郵。 立即訂閱

參與評論

【登錄后才能評論哦!點(diǎn)擊

  • {{item.username}}

    {{item.content}}

    {{item.created_at}}
    {{item.support}}
    回復(fù){{item.replynum}}
    {{child.username}} 回復(fù) {{child.to_username}}:{{child.content}}

更多精選文章推薦