在位于世界各地的微軟研究實驗室里,一些非常深刻的思想家正在思考有關(guān)大數(shù)據(jù)的課題。其中就包括微軟杰出科學家兼微軟雷德蒙研究院聯(lián)合院長Eric Horvitz。最近,他憑借自己對“不確定性及有限資源情境下的決策型計算機制”的研究而當選為美國國家工程院院士。
他認為,未來的機器在大量數(shù)據(jù)的武裝下,可以成為“大有裨益的終身數(shù)碼伴侶”,它知道你想要或需要的是什么(是比薩餅還是藥物),你想去哪里(是夏威夷,還是選擇最不堵車的路線去看球賽),而且往往還能以您的名義飽蘸激情投入工作。
數(shù)據(jù)的捕獲、存儲、解讀和利用可以提供各種尺度上的深刻見解——無論在高科技領(lǐng)域還是日常生活中,Horvitz表示。
“當今世界上,能夠用于預測建模、可視化和發(fā)現(xiàn)新事物的大規(guī)模有效數(shù)據(jù)分析正在成為許多領(lǐng)域取得成功的核心要素。”
微軟新聞中心最近采訪了Horvitz,請他談?wù)勎④浹芯吭?MSR)是如何投入時間和人力從事大數(shù)據(jù)和機器智能領(lǐng)域研發(fā),并且取得了哪些突破,同時也請他發(fā)表一下對這些領(lǐng)域未來發(fā)展的看法。
問:您為什么認為眼下大數(shù)據(jù)已經(jīng)成為一個時髦詞匯了呢?
Horvitz:時髦詞匯的產(chǎn)生有各種各樣的原因。對于大數(shù)據(jù)而言,我認為是幾個因素共同導致了這一朗朗上口的詞匯的普遍使用。其中之一是人們在不同領(lǐng)域采集到的數(shù)據(jù)量之大,達到了前所未有的程度;而傳感、存儲和網(wǎng)絡(luò)等計算機科學領(lǐng)域也在不斷前行。人們需要收集大量數(shù)據(jù),一部分原因在于許多人類活動已經(jīng)轉(zhuǎn)向了網(wǎng)絡(luò),各種交易和事件數(shù)據(jù)的收集變得十分容易,而且能夠?qū)崟r同步收集。
這些活動包括電子商務(wù)、通過道路上的傳感器記錄汽車行駛狀況、利用位置數(shù)據(jù)提供智能手機服務(wù),以及醫(yī)療保健。在醫(yī)療領(lǐng)域,基因組研究的突飛猛進和醫(yī)院臨床數(shù)據(jù)捕獲將越來越多的GB級乃至TB級患者數(shù)據(jù)輸送到數(shù)據(jù)庫中——即便如此,我們?nèi)蕴幱谏镝t(yī)藥信息學發(fā)展的早期階段。與以前相比,存儲也已變得非常便宜。過去,我們嘗嘗說“或許有一天會出現(xiàn)TB級的數(shù)據(jù)”。
而現(xiàn)在,即使你的孩子也可借助一個小小的驅(qū)動器,隨身攜帶TB級的數(shù)據(jù)去學校上課。在計算方面,我們用于處理數(shù)據(jù)的計算程序也取得了進步,并且出現(xiàn)了許多有趣的用途——例如利用數(shù)據(jù)建立預測模型等。舉個例子,我們可以利用數(shù)據(jù),對計算機用戶的不斷變化的意圖或興趣進行實時預測,并學習識別用戶的手勢。我們可以借助患者數(shù)據(jù)來預測病人出院后再度入院的可能性。
問:微軟研究院的機器學習研究與該領(lǐng)域的其他機構(gòu)有何不同?
Horvitz:微軟研究院是眾所周知的開放型研究實驗室,我們鼓勵研究者自由發(fā)表研究結(jié)果和進展。這一點吸引了最優(yōu)秀和最聰明的人才。在MSR,人們的研究動力來自現(xiàn)實世界里層出不窮的有趣挑戰(zhàn)。他們還可以訪問大量的數(shù)據(jù)資源——更誘人的是,他們有機會把自己最棒的想法交托到數(shù)百萬人的手中付諸實用。在我們這里,專攻機器學習的研究人員是世界各地從事機器智能研究的巨大群體的組成部分。除了機器學習之外,我們的研究工作還包括機器感知、自動推理和決策。機器學習已經(jīng)滲透到了微軟研究院的DNA中,而且也是研究院最早確立的幾個關(guān)鍵性優(yōu)先研究領(lǐng)域之一。
今天,在我們實驗室里從事機器學習研究的人員已經(jīng)構(gòu)成了一股強大的知識力量。其中包括從事核心原理及應(yīng)用的深刻思想家團隊。在劍橋、北京、班加羅爾、硅谷、新英格蘭和紐約市,我們還有許多其他團隊也在從事機器學習研究??傊?,這些小組已經(jīng)構(gòu)成了世界上最大的機器學習研究團隊之一。
問:在MSR的機器學習研究努力中,有哪些成果已經(jīng)被運用到了微軟的產(chǎn)品中?
Horvitz:有許多的努力成果應(yīng)被納入微軟的產(chǎn)品和服務(wù)中。這些成績中有許多要歸功于MSR研究員與產(chǎn)品團隊之間異常密切的合作關(guān)系。舉個例子,微軟研究院承擔了學習如何對事項進行排名的核心工作。這項工作形成了必應(yīng)搜索在響應(yīng)用戶查詢需求時對搜索結(jié)果進行排名的核心方法。MSR在視覺系統(tǒng)領(lǐng)域的研究也是眾所周知的——機器不僅可以看到,而且還可以識別出它們所看到的東西——此外還有語音識別和翻譯。當你使用必應(yīng)語音搜索或必應(yīng)翻譯時,你就是在利用MSR所提供的核心機器學習研究成果。
我們的劍橋團隊之所以名聞遐邇,是因為他們找到了對圖像進行分割和分類的方法,這項有價值的創(chuàng)新工作成為Kinect的關(guān)鍵驅(qū)動力之一,讓它能夠識別房間里的人以及他們的手勢。
MSR著稱于世的還有機器學習研究在生物醫(yī)藥信息學和臨床醫(yī)療等方面的應(yīng)用。在雷德蒙實驗室,我們已經(jīng)投入了大量精力研究如何利用來自醫(yī)院的大量臨床數(shù)據(jù)建立預測模型,以指導醫(yī)院的管理決策。這些系統(tǒng)目前已經(jīng)應(yīng)用到我們周邊的醫(yī)院,旨在提高它們的醫(yī)療服務(wù)水平。另一項應(yīng)用是必應(yīng)地圖和必應(yīng)路線,它能提供北美地區(qū)72個城市的車流量敏感型路線指引。必應(yīng)路線使用了MSR所研發(fā)的方法,表明我們能夠從交通歷史數(shù)據(jù)中學習,并預測更大城市區(qū)域內(nèi)所有街道上的實時交通流量。機器學習甚至出現(xiàn)在Windows操作系統(tǒng)的深處。MSR與Windows產(chǎn)品團隊合作,開發(fā)一個實時的預提取系統(tǒng),并應(yīng)用于Windows 7和Windows 8。Windows能夠不斷地學習用戶的活動模式,然后預測他的下一步動作——這樣會讓操作系統(tǒng)變得更快。
問:這種廣泛機器智能研究的目標是什么?
Horvitz:方向和目標是非常寬泛的,從機器學習基礎(chǔ)科學的探索,到了解如何以最佳方式處理特定類型的數(shù)據(jù),再到執(zhí)行特定任務(wù)。我們還在探索和開發(fā)更有效率和更強大的工具,以支持機器學習的工程實踐。在這個方面,我們一直在探索和開發(fā)某些工具和方法,讓非專業(yè)人士或半專業(yè)認識也能夠自主開發(fā)預測模型并進行數(shù)據(jù)分析,進而出色完成手頭工作。這是一個非常有意思的挑戰(zhàn)——把能力交付到最終用戶的手中——通常情況下,這種分析能力只掌握在機器學習專家和統(tǒng)計師的手中。
問:這聽起來像是一項艱巨的挑戰(zhàn)。你們打算從哪里入手,讓大眾也能享用機器智能?
Horvitz:在機器學習領(lǐng)域,人們已開發(fā)了許多算法的程序,而其中每一種通常都會附帶某些用于對其方法進行調(diào)試的“撥桿”和“旋鈕”,使之能夠針對手頭的數(shù)據(jù)和任務(wù)。目前的問題是,究竟哪種方法才最適用于特定的數(shù)據(jù)集和學習任務(wù)。對原始數(shù)據(jù)清理、提煉和匿名化,使它們易于處理和分析——這也是挑戰(zhàn)之一。機器學習領(lǐng)域有多種危險區(qū)域,而各種新工具則可以幫助人們具體指明自己希望學習的內(nèi)容,以及如何驗證其建立的模型所作預測的準確性。此時就需要有決策系統(tǒng),其核心在于如何根據(jù)這些預測,引導人們的行動和政策。我們正在努力創(chuàng)建一些新工具,用于指導數(shù)據(jù)收集、分析和測試——并且同時為最終用戶提供有關(guān)可視化和決策的深刻見解。
問:在機器學習領(lǐng)域還有哪些其他的障礙?
Horvitz:我們一直在應(yīng)對的一大挑戰(zhàn)是開發(fā)某種可以理解和翻譯談話內(nèi)容的機器。有時候,準確度的微小進步都會對系統(tǒng)能力產(chǎn)生很大影響。近日在中國天津,(MSR首席研究官)里克·拉希德當著大批觀眾的面演示了從英文到漢語普通話的實時翻譯能力。他先做即興發(fā)言,接著由機器對他的講話進行翻譯,然后再用他自己的音色把譯文重現(xiàn)出來——這樣,他就能夠?qū)崟r地說普通話了。他所用的翻譯管道包含了多種技術(shù),但從某個角度上看,最突出、最令人訝異的創(chuàng)新則體現(xiàn)在對談話內(nèi)容進行語音識別的準確程度得到了驚人的提升。這是過去幾年間剛剛出現(xiàn)的新生事物,而這也恰恰是MSR從新的方向進行機器學習研究和實驗所取得的成果。
問:那么微軟研究院將主攻大數(shù)據(jù)課題的哪些方面?
Horvitz:目前存在著許多有趣并且前景可觀的研究方向。我不得不說,這是一個著實令人興奮的機會——而且我們正處在一個激動人心的時代。放眼更長遠的未來,我預計更廣泛意義上的機器學習和機器智能將為我們提供改弦更張的科研新工具,而且在未來幾十年間,許多突破將會在人類與機器學習以及推理工具的協(xié)作中誕生。我們將有機會從大量數(shù)據(jù)中學習新的東西,其中包括借助自動學習工具對數(shù)據(jù)進行挖掘,從而揭開醫(yī)療衛(wèi)生領(lǐng)域的某些奧秘——其中一些工具甚至可以識別因果關(guān)系,即A實際上導致了B。
另一個方向是把幾種技術(shù)編織在一起——包括機器學習、語音識別、自然語言理解、機器視覺和決策,創(chuàng)建一些系統(tǒng),使之能夠像聰明的合作者,以各種新的方式對人類的智慧加以補充。
另一方面,我們在網(wǎng)上搜索和檢索的新途徑研究中也將獲得很多機會。我們還將另辟蹊徑,運用機器學習技術(shù),從海量人口數(shù)據(jù)中擷取有用的信號。例如在最近的工作中,我們開發(fā)了一種新的方法,可以從匿名化的搜索日志中發(fā)現(xiàn)有關(guān)藥物副作用的線索。我相信,這種以數(shù)據(jù)為中心的方法將會通過多種多樣的途徑改變這個世界,并在醫(yī)療、教育、科學和商業(yè)等領(lǐng)域產(chǎn)生影響。
問:假設(shè)您是Jules Verne,您能否預言這項研究對未來意味著什么?
Horvitz:展望了未來,我相信總有機會構(gòu)建這樣一些系統(tǒng),它們將成為人類大有裨益的終身數(shù)字伴侶,能夠深刻理解你想要做什么、你想去哪里,你想學習什么,你需要怎樣才可以保持健康,你擅長以及不擅長什么,并且能夠以你的名義連續(xù)工作,為你提供協(xié)助和配合。幾個方面的研究工作已經(jīng)讓我們窺見了廣闊可能性的端倪。
問:當初您為什么要涉足這個領(lǐng)域?
Horvitz:我一直很想理解人類的心理,我的好奇心驅(qū)使我從生物學轉(zhuǎn)入物理學,接著又投身信息與計算科學。除了核心探索之外,多年來我一直樂此不疲地將學習和決策的原理應(yīng)用于現(xiàn)實世界,并以此創(chuàng)造價值——與此同時,它又與思維系統(tǒng)這一宏觀課題保持在某種關(guān)聯(lián)。我與“神級”的同事們一起研究原理及其應(yīng)用,并從中獲得了巨大的樂趣。在微軟研究院這樣的地方,我們每個人心理都有一個誘人的“杠桿”,而其支點則在遙遠的地平線上。我們的下一個創(chuàng)新想法或許真的可以影響到微軟的產(chǎn)品和服務(wù),進而撬動整個地球。
問:這正是你們的日常工作,對吧?
Horvitz:(笑)沒錯。不過,我一直很認真對待這個問題,我們并不是在開玩笑。
問:《哈佛商業(yè)評論》已經(jīng)斷言,數(shù)據(jù)科學家是“最性感的職位”,您怎么看?
Horvitz:這很不錯。您可能會說,從某種角度上看,多年來計算機科學和其他工程技術(shù)領(lǐng)域一直不受待見,是因為人們面臨職業(yè)選擇時一直在尋找“崇高事業(yè)”——例如在醫(yī)療保健和法律等。但我相信,計算科學正在成為我們這個時代的“崇高事業(yè)”,因為計算促成了許多其他事物,從航空航天到醫(yī)療科學,從法律到政府管理。
{{item.content}}