當(dāng)你下一次運行 Facebook 時,無論是網(wǎng)頁版還是 App,你可以仔細想一下,個人頁面刷新、家庭相冊瀏覽等這些操作會需要多少計算量,然后再乘以十億用戶,而且每一天都如此。
這不僅是運營一家「財富500強」(第242位)的社交網(wǎng)絡(luò)公司,也是在運營異常龐大的支撐各種服務(wù)的計算基礎(chǔ)架構(gòu),包括處理器、存儲器以及知道用戶各種需求的軟件。
Facebook 為全世界五分之一人口提供服務(wù),而且去年年底,全球32億人口中有超過一半的人成為了互聯(lián)網(wǎng)戶。此時,這不是一個不理性的問題:地球上有足夠多的人來驅(qū)動這樣一張巨型網(wǎng)絡(luò)嗎?
回答是否定的,至少是負擔(dān)不起的。這就是 Facebook 求助人工智能的原因。
五年前,F(xiàn)acebook 推出 Open Computer 硬件倡議,他們這么做的原因是為用戶提供 News Feed 服務(wù)的成本完全就是產(chǎn)品銷售成本,即便對于這樣一個當(dāng)時擁有7.4億用戶的網(wǎng)站。因此,打造公司自己的計算基礎(chǔ)架構(gòu),讓博文發(fā)布更快,成本更低,成為公司的基礎(chǔ)需求。
Facebook 表示,公司已經(jīng)從對 Open Compute 的投資中節(jié)省了超過20億美元。但在互聯(lián)網(wǎng)領(lǐng)域,五年就是一個世代,如今每個科技巨頭都在設(shè)法征服另一個難題。雖然他們可以低成本的提供內(nèi)容服務(wù),但在數(shù)十億博文中,要搞清楚推送哪類內(nèi)容依然有很大挑戰(zhàn)。因此,就像 Facebook 五年前通過 Open Compute 計劃開始重新搭建硬件產(chǎn)業(yè)一樣,最近,公司也創(chuàng)造了一個管理人工智能的內(nèi)部平臺,如此一來,就能精準(zhǔn)推送你想看的內(nèi)容。而且,公司也希望將這個「機器學(xué)習(xí)」平臺規(guī)?;?。(「機器學(xué)習(xí)」是一種人工智能類型,能讓計算機在沒有預(yù)編程的前提下學(xué)習(xí)如何運行。)
「我們正試著打造超過 15 億個人工智能代理(AI agents)——為每個使用 Facebook 或公司其他產(chǎn)品的每一個人服務(wù)。」新近成立的機器學(xué)習(xí)應(yīng)用組負責(zé)人 Joaquin Candela 說,「那我們應(yīng)該怎么做到呢?」
Candela 說,你要從以前的勝利中汲取靈感。Facebook 的基礎(chǔ)架構(gòu)團隊也是機器學(xué)習(xí)應(yīng)用團隊的靈感之源。
「我們傾向?qū)⒅T如存儲、網(wǎng)絡(luò)設(shè)計以及計算視為理所當(dāng)然的事情,」他說,「當(dāng)視頻小組做直播視頻時,人們并沒有意識到這件事的量級。這很愚蠢。而基礎(chǔ)架構(gòu)小組就是在那個地方傳遞魔力——將不可能變?yōu)榭赡?。我們需要對人工智能做同樣的事情。也需要將人工智能變成你們認為理所當(dāng)然的工程結(jié)構(gòu)中的一部分,如此完整的一部分?!?/p>
去年九月,F(xiàn)acebook 成立了機器學(xué)習(xí)應(yīng)用團隊(Applied Machine Learning team)。團隊負責(zé)運行一個覆蓋全公司的機器學(xué)習(xí)內(nèi)部平臺,叫做 FBLearner Flow ,這個平臺就相當(dāng)于人工智能領(lǐng)域的 Open Computer ,不過最大的區(qū)別在于:它并不會依托于開源硬件來提供給世界。公司說,如果沒有 Facebook 手頭數(shù)據(jù),這個平臺本質(zhì)上沒啥用。
FBLearner Flow 結(jié)合了幾個機器學(xué)習(xí)模型并用于處理幾十億數(shù)據(jù)點,這些數(shù)據(jù)點來自網(wǎng)站15億用戶的活動,并能對數(shù)千件事情進行預(yù)測:圖片中有哪位用戶,哪些可能是垃圾信息。FBLearner Flow 模型創(chuàng)造的算法有助于界定什么樣的內(nèi)容出現(xiàn)在你的動態(tài)消息中,以及你會看到什么樣的廣告。
基于以上內(nèi)容,我們會很容易得出結(jié)論:Facebook 使用人工智能會讓公司13,000雇員中的某些人失去工作。「但現(xiàn)實并沒有什么變化,」公司 CTO Mike Schroepfer 說。人工智能恰恰是在幫助公司提升工程師的能力。他說,「我們能做之前無法做到的事情?!?/p>
Applied Machine Learning 主任 Joaquin Quiñonero Candela
在 Schroepfer 看來,F(xiàn)acebook 經(jīng)常能夠發(fā)現(xiàn)那些好機會,即便自己還沒有能力去征服——至少在人類力量的范圍內(nèi)還無法解決。看一下公司最近發(fā)起的一項新功能,為視覺受損人提供圖片說明(以讓其「看到」圖片)。如果公司雇人手動為上傳到網(wǎng)絡(luò)的每張圖片內(nèi)容做標(biāo)記,成本會非常高,也無法規(guī)?;?,當(dāng)然也不可能期待用戶自己來做這個事情。但不管對于視覺受損人士,還是對于 Facebook,這些信息都是有用的。現(xiàn)在通過使用 FBLearner Flow 平臺上的計算機視覺模型,一臺計算機就能自動梳理數(shù)十億張圖片并給照片加上標(biāo)簽,并實現(xiàn)了較為理想的準(zhǔn)確率。
「它正在讓新應(yīng)用成為可能,特別是規(guī)?;鉀Q問題?!筍chroepfer 說。Facebook 使用這種基于機器學(xué)習(xí)的辦法來翻譯 News Feed 博文;在用戶看到之前監(jiān)測到網(wǎng)站不合適的內(nèi)容;在打造 M 過程中,公司通過人與機器的結(jié)合去打造一個私人助理。
Facebook 并非唯一一家實驗人工智能的大型互聯(lián)網(wǎng)公司。谷歌、亞馬遜、微軟和百度都在相關(guān)技術(shù)上注入重資。隨著我們將更多的日常生活托付給數(shù)字王國,這一點將變得越來越明顯:那些建造了我們所依賴(日常信息、社交和多媒體等)的網(wǎng)站的那些人已經(jīng)無法勝任后續(xù)工作了,讓機器登場。
自上個月起,大約有750 名Facebook 工程師和 40 個不同產(chǎn)品團隊正在使用 FBLearner Flow 平臺。公司希望截至到六月底,會有 1000 名工程師使用這個平臺。Facebook 最終想要建立一個對非工程師人員來說也非常容易使用的機器學(xué)習(xí)工具,盡管距離這一目標(biāo)還很遙遠。
機器學(xué)習(xí)迅速變成最火的人工智能形式,也是人工智能的——隨著新計算技術(shù)出現(xiàn),近期,這個有著幾十年歷史的科幻電影的標(biāo)配歷經(jīng)了一次重生——組成部件。隨著計算機系統(tǒng)越來越大、越來越復(fù)雜,很明顯的是:它已不足以支撐計算機如何詮釋數(shù)據(jù)的硬編規(guī)則(hard-code rules)。依據(jù)圣經(jīng)的勸告去教一個人釣魚——或者在這種情況下,教計算機如何詮釋自己的數(shù)據(jù),要更加容易得多。
計算機學(xué)家使用各樣的工具教計算機學(xué)習(xí)。如今絕大多數(shù)努力集中在「監(jiān)督學(xué)習(xí)」上,研究人員以現(xiàn)有的數(shù)據(jù)集為基礎(chǔ)建立一個機器學(xué)習(xí)算法,用來訓(xùn)練計算機。比如,教計算機識別面部,你最好用不同面部數(shù)據(jù)庫訓(xùn)練它,計算機就能學(xué)會如何分辨不同的人臉。機器學(xué)習(xí)的圣杯是「無監(jiān)督學(xué)習(xí)」,計算機只得到數(shù)據(jù)類,自己建立模型對數(shù)據(jù)進行分類。換言之,不同于直接給計算機學(xué)習(xí)的人臉圖像,計算機得到圖像后要把相似數(shù)據(jù)聚類,從中推導(dǎo)出問題圖片上的圖像是否是人臉。
無監(jiān)督學(xué)習(xí)就是人類學(xué)習(xí)的方式,而且 Facebook 已經(jīng)直言不諱得表明,自己努力教授計算機通識。大部分工作都由Facebook 人工智能研究室(Facebook Artificial Intelligence Research,FAIR)團進行。FAIR成立于 2013 年底,是一個進行基礎(chǔ)研究的地方。它與應(yīng)用機器學(xué)習(xí)團隊相對獨立存在,盡管這里進行的一些研究在 FBLearner Flow 上找到了用武之地。
Facebook 的 CTO Mike Schroepfer
就像 Candela 解釋的那樣,你可以把 AML 團隊視為 FAIR 的商業(yè)化部門。這里的深度科學(xué)慢慢滲入到服務(wù)于十憶用戶的產(chǎn)品中。除了它做不到的時候。Schroepfer 說,在這里,并不是所有的研究都要將深度科學(xué)運用到某個產(chǎn)品中,盡管他警告說,F(xiàn)AIR(有 50 位研究人員)和 AML (雇傭了 100 位研究人員)已經(jīng)自己支付了費用。
比如,在自家翻譯模型的支持下,F(xiàn)acebook 現(xiàn)在每天使用機器學(xué)習(xí)翻譯20億條 News Feed 條目,不再依賴微軟必應(yīng)的翻譯服務(wù)。Facebook 也使用 AML 團隊的平臺,在衛(wèi)星圖像上應(yīng)用計算機視覺模型繪制人口密度地圖,最終確定發(fā)展中國家的哪些地方需要寬帶服務(wù)。而且在視頻添加說明的嘗試已被證明是越來越受歡迎的,因為分享和點贊增加了 15%,瀏覽時間增加了 40%。
這些是 Facebook AML 團隊最新成果中的一部分,但是,他們已經(jīng)在建立機器學(xué)習(xí)算法上花了十年時間:2016 年,他們第一次嘗試在 News Feed 上使用深度學(xué)習(xí)。
「News Feed 是我們第一次為用戶嘗試這項艱難的工作」Schroepfer 說。這是初步的嘗試,Schroepfer 表示,但即使這樣,F(xiàn)acebook 雇傭再多的編輯人員也不能滿足百萬用戶所需的 News Feeds。
從此,這家公司對機器學(xué)習(xí)的使用日趨先進。但是,直到去年六月份Facebook 圖片分享服務(wù) Moment 發(fā)布,公司才真正開始公開討論對機器學(xué)習(xí)的深入研究如何正在影響新產(chǎn)品。Moments 使用了 Facebook 圖像識別模型,能讓用戶創(chuàng)造面向選定組群開放的私人相冊,比如,只對照片中的人公開。
產(chǎn)品發(fā)布時,F(xiàn)acebook 說它的圖像識別模型識別人臉準(zhǔn)確率高達 98%,即使不是正對相機的面部圖像。它還表示,模型能在 5 秒內(nèi),從 8 億圖片中識別出某張圖片中的人。
人們對此感到害怕。本來是想以一種半隱私的方式輕松分享圖片,結(jié)果惹惱了許多用戶。這一功能迫使用戶面對這樣一個不安的事實:Facebook 能從 十億多的用戶中識別出他們,而且速度還快的不正常。Facebook 甚至不能在歐洲發(fā)布這一功能,因為觸及有關(guān)隱私和面部識別技術(shù)的相關(guān)法規(guī)。
對隱私的擔(dān)心顯露出機器學(xué)習(xí)利他主義的陰暗一面。數(shù)據(jù)驅(qū)動下的功能,讓 Facebook 的產(chǎn)品用起來更方便。但是,它們也讓公司得以維系用戶對平臺的持續(xù)使用,這也反過來讓其賣出更多、更有效的廣告。
為此 Facebook 每天要進行數(shù)十萬億次的查詢,以便能每秒做出六百萬個預(yù)測。Facebook 用數(shù)十億個數(shù)據(jù)點來訓(xùn)練支撐其 News Feed 的算法。這家公司每十五分鐘到兩小時就更新一次它的學(xué)習(xí)模型,以便能對當(dāng)下事件作出快速反應(yīng)。
當(dāng)一臺電腦能從語法上分析那么多的信息并作出判斷時,這也是令人不安地提醒我們,我們數(shù)字生活的每個方面都正在被它以向廣告商、研究人員甚至政府展示我們私下想法和行動的方式分割、切片再切塊。同樣棘手的是,機器學(xué)習(xí)算法還有可能會犯錯。
而且這些都還不能解釋這一事實:許多人甚至還不知道,機器學(xué)習(xí)算法正在改變他們對產(chǎn)品的體驗。一個人沒有看到自己的News Feed 中的某個內(nèi)容的原因或許在于算法把這個內(nèi)容過濾了。2014 年,麻省理工學(xué)院的一項研究發(fā)現(xiàn),62.5% 的研究參與者都沒有意識到 Facebook 過濾了他們的 News Feed 。
「最好的人工智能算法能泛化,他們能預(yù)測你想要什么,但它們從來都不是完美的,」Candela 說。這也是 Schroepfer 之所以相信 Facebook 距離「把一切都交給人工智能技術(shù)」還很遙遠的理由之一。
「我認為,你仍要人處在決策環(huán)中,」Schroepfer 說?!肝覀冋跒樗藙?chuàng)造產(chǎn)品,而我很難相信機器能計算出其他人想要什么,哪怕是使用這些高級科技?!?/p>
Schroepfer 說,這一工作都是為了打造一個社交網(wǎng)絡(luò),能夠更好地預(yù)期用戶想要看到什么或體驗。如果你這一天過得很糟糕,他希望 Facebook 能給你看一段詼諧的小貓視頻。如果你有一星期都沒和你母親聊過天,他希望 Facebook 能識別出這一點并主動為你推送一些關(guān)于她的生活的信息更新。
「Facebook 當(dāng)下的問題是,關(guān)于你想要什么,你告訴我們的東西還不夠多。」Schroepfer 說?!肝覀冊谂Σ聹y你想要什么。問題的一部分是,我們不知道該問你什么,而當(dāng)你告訴我們你想要什么的時候,我們也不確定對此該做些什么。因為我們的系統(tǒng)還沒有真正在這方面安排好、優(yōu)化好?!?/p>
應(yīng)用機器學(xué)習(xí)( Applied Machine Learning)團隊的建立為創(chuàng)建這樣的系統(tǒng)提供了機會。同時,F(xiàn)AIR 團隊也提供了機會讓我們能建立關(guān)于「如何讓機器去學(xué)習(xí)」的更好理解。
Facebook 做出了以這種方式在人工智能研究方面高歌猛進的決定,與競爭者們相比,它這么做有些不同尋常。
例如,微軟旗下的研究院擁有一支龐大的人工智能研究隊伍,但微軟并沒有把這方面的努力移交給一個商業(yè)化團隊,再讓這商業(yè)化團隊把它轉(zhuǎn)化成供內(nèi)部使用的產(chǎn)品。相反,研究人員會直接與產(chǎn)品團隊的人一起工作,建立使用深度學(xué)習(xí)的工具或新的服務(wù)。
據(jù)微軟研究院院長 Peter Lee 說,在對外方面,微軟正在試圖建立一個為機器學(xué)習(xí)提供服務(wù)的平臺,并通過它的云計算平臺 Azure 把這些服務(wù)提供給客戶。
不過,Lee 和 Facebook 的 Schroepfer 在這一點上是一致的:機器學(xué)習(xí)和人工智能正在使公司們能創(chuàng)建一些新的產(chǎn)品,這些產(chǎn)品在過去曾因太耗費時間或資源而無法實現(xiàn)。
從微軟跳槽到 Facebook 的 Candela 說, 他有意要在 Facebook 努力創(chuàng)造出一個不一樣的組織結(jié)構(gòu),因為他感到當(dāng)他還在微軟時,好想法無法在組織中快速散播。每一個新發(fā)明或新人工智能算法都被封閉在其所在的團隊里。他說,F(xiàn)acebook 正在努力抵抗這種習(xí)氣。
然而, 卡耐基梅隆大學(xué)計算機科學(xué)院院長 Andrew Moore 懷疑,像 FBLearner Flow 這樣的人工智能平臺真的能在一個組織中得到廣泛應(yīng)用。他說,大部分的機器學(xué)習(xí)模型都無法泛化。
「對機器學(xué)習(xí)來說,有一個陷阱,據(jù)我所知還沒有哪家大公司未曾掉入這個陷阱。」他說?!缚雌饋斫⒁粋€平臺來支持機器學(xué)習(xí)算法似乎是很有用的,然而你會發(fā)現(xiàn),每個使用機器學(xué)習(xí)的應(yīng)用程序都需要調(diào)用不同的應(yīng)用程序才能使用機器學(xué)習(xí)。因此,在機器學(xué)習(xí)平臺的建造者和那些試圖用平臺來制造產(chǎn)品的客戶之間常常存在著斷裂。」
到現(xiàn)在為止,F(xiàn)acebook 仍然樂于付出這些努力,而且這些努力似乎也在它的新產(chǎn)品中帶來了回報。隨著更多的決策交給算法決定,這家公司有許多事情需要調(diào)整。不過,這個綜合一切的項目已經(jīng)改變了這家公司衡量其成功的方式。
例如,F(xiàn)acebook 發(fā)起的實名政策要求人們在其網(wǎng)站上使用真名,而這令跨性別者(他們可能并不認同他們出生時的名字)、美國原住民的后代(他們的名字不太容易用西方格式表示)和遭受侵犯虐待者(他們需要保留更多的隱私)感到不安。然而,當(dāng)時 Facebook 的算法很難分析這些名字以適應(yīng)這些需求。
Schroepfer 告訴我們,如今 Facebook 用與過去不同的方式來劃分它的數(shù)據(jù),從而確保規(guī)模較小的人群沒有在取平均(averaging)的過程中被遺失。Schroepfer 說,F(xiàn)acebook 還組織了面向重點群體和直接用戶反饋的對新產(chǎn)品的質(zhì)性評估。「現(xiàn)在,當(dāng)我們要發(fā)起什么項目,但事先卻不理解怎樣的改變才能更好的為人服務(wù),這樣的情況已經(jīng)極少發(fā)生了。 」
這只是一條漫長道路的開端。毫無疑問人工智能技術(shù)正在使電腦變得更高效,并使我們能夠在前所未見的超大尺度上建立各種系統(tǒng)。人工智能正在幫助 Facebook 擴展它的社交網(wǎng)絡(luò)的范圍和性能,同時并未影響它產(chǎn)生利潤。如果幸運的話,這些技術(shù)也將幫助我們更好地學(xué)習(xí)如何與機器一起生活。(來源|機器之心)
{{item.content}}