“你吃什么，你就是什么，而我們正在給算法模型喂垃圾食品”

　　在最近的一次談話中，F(xiàn)acebook人工智能研究科學(xué)家Moustapha Cissé告訴我，“你吃什么，你就是什么，而我們正在給算法模型喂垃圾食品”。

　　如果你不知道食物中有什么，你就很難合理飲食。同理，如果你不理解訓(xùn)練數(shù)據(jù)的原理，就不能訓(xùn)練出偏差更小的模型。

　　這就是為什么最近的論文“給數(shù)據(jù)集創(chuàng)建數(shù)據(jù)手冊(cè)” https://arxiv.org/abs/1803.09010 如此有趣的原因。在這篇論文中，來(lái)自微軟研究的Timnit Gebru及其同事與來(lái)自其他學(xué)術(shù)研究機(jī)構(gòu)的合著者們?yōu)閿?shù)據(jù)集提出了相當(dāng)于食物營(yíng)養(yǎng)標(biāo)簽的標(biāo)準(zhǔn)。

　　很多機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型，大多傾向于使用像ImageNet或COCO 這樣的公共數(shù)據(jù)集，或是私人創(chuàng)造的數(shù)據(jù)集，這些數(shù)據(jù)集能夠?qū)⒂?xùn)練數(shù)據(jù)集的內(nèi)容、偏差和其他相關(guān)素材傳輸給有興趣的用戶是非常重要的。

　　“數(shù)據(jù)手冊(cè)”這篇論文探討了使用標(biāo)準(zhǔn)化數(shù)據(jù)手冊(cè)，將這些信息傳遞給數(shù)據(jù)集、商業(yè)化API和預(yù)構(gòu)建模型用戶的方案。除了能協(xié)助用戶交流數(shù)據(jù)偏差外，作者還指出這種數(shù)據(jù)手冊(cè)能夠提升信息的透明度，并為數(shù)據(jù)的可靠性背書。

　　除了潛在的倫理問(wèn)題外，當(dāng)使用第三方數(shù)據(jù)進(jìn)行訓(xùn)練的模型不能充分歸納到不同語(yǔ)境時(shí)，隱藏的數(shù)據(jù)偏差會(huì)造成部署系統(tǒng)的不可預(yù)測(cè)性，甚至失敗。當(dāng)然，最好的選擇是收集第一方數(shù)據(jù)，并使用由該領(lǐng)域里具有專業(yè)知識(shí)和深刻見解的專家們構(gòu)建和訓(xùn)練的模型。

　　廣泛可用的公共數(shù)據(jù)集、更易上手的機(jī)器學(xué)習(xí)工具，能便捷訪問(wèn)的人工智能API和預(yù)購(gòu)建模型促進(jìn)AI民主化，使得越來(lái)越多的開發(fā)人員將AI技術(shù)運(yùn)用到他們的應(yīng)用中。作者建議，為AI數(shù)據(jù)集和工具創(chuàng)建數(shù)據(jù)手冊(cè)可以為那些沒有專長(zhǎng)領(lǐng)域的工程師提供基礎(chǔ)的信息，有助于減少由數(shù)據(jù)集誤用引發(fā)的問(wèn)題。

　　信息安全公司Terbium實(shí)驗(yàn)室的CTO Clare Gollnick，在與我們討論科學(xué)和人工智能中的再現(xiàn)性危機(jī)時(shí)，提出了類似觀點(diǎn)。她擔(dān)心開發(fā)人員往往把重心放在用更深層、更復(fù)雜的模型解決問(wèn)題，而當(dāng)這些模型被應(yīng)用到生產(chǎn)中時(shí)，通常會(huì)遇到泛化的問(wèn)題。相反地，她發(fā)現(xiàn)，當(dāng)研究人員利用該領(lǐng)域里現(xiàn)有的專業(yè)知識(shí)和深刻見解去解決AI問(wèn)題時(shí)，成果將更為穩(wěn)健。

　　Gebru和合作者在論文中指出，AI尚未經(jīng)受以往伴隨著新興行業(yè)（如汽車、醫(yī)藥和電氣行業(yè)）發(fā)展而逐步完善的安全法規(guī)的檢驗(yàn)。文中提到：

　　當(dāng)汽車首次在美國(guó)出現(xiàn)時(shí)，沒有車速限制、停車標(biāo)志、交通信號(hào)燈、駕駛員教育，與安全帶或醉酒駕駛有關(guān)的規(guī)定。因此，1900年代早期，碰撞、超速和魯莽駕駛造成了許多人員傷亡。

　　幾十年來(lái)，汽車及其它行業(yè)都在不斷地修改完善旨在保護(hù)公共利益的法規(guī)，同時(shí)其自身的技術(shù)革新也沒有停滯。論文認(rèn)為，是時(shí)候開始考慮為AI制定相關(guān)的法律法規(guī)了，特別是當(dāng)我們開始將其用于健康和公共部門等高風(fēng)險(xiǎn)實(shí)踐中時(shí)。歐洲即將出臺(tái)的通用數(shù)據(jù)保護(hù)條例（GDPR）就將處理這些問(wèn)題。

　　論文提出的“數(shù)據(jù)手冊(cè)”來(lái)源于電氣組件相關(guān)的概念。每一個(gè)售出的電子組件都附帶相應(yīng)的“數(shù)據(jù)手冊(cè)”，上面列出了組件的功能、特性、運(yùn)行電壓、物理細(xì)節(jié)等。當(dāng)用戶需要在購(gòu)買前了解某個(gè)零件的性能，以及誤操作情況下可能出現(xiàn)的反應(yīng)時(shí)，這些數(shù)據(jù)手冊(cè)就能提供用戶所需的支持。

　　作者建議，數(shù)據(jù)集或API的提供方應(yīng)該附帶一份“數(shù)據(jù)手冊(cè)”來(lái)解決一系列標(biāo)準(zhǔn)化問(wèn)題，這份“數(shù)據(jù)手冊(cè)”應(yīng)該包含以下主題：

　　數(shù)據(jù)集創(chuàng)建的動(dòng)機(jī)

　　數(shù)據(jù)集的組成

　　數(shù)據(jù)收集過(guò)程

　　數(shù)據(jù)預(yù)處理

　　數(shù)據(jù)的分布

　　數(shù)據(jù)的維護(hù)

　　法律和倫理方面的考慮

　　對(duì)于上面所列主題的具體詳解，可以參照該論文；它還包含了一系列補(bǔ)充細(xì)節(jié)，并為Wild數(shù)據(jù)集中的UMAS Labeled Faces 提供示例“數(shù)據(jù)手冊(cè)”。這是一個(gè)完整全面、易于使用，并將具有影響力的模型。

　　這樣的“數(shù)據(jù)手冊(cè)”允許用戶了解他們使用的數(shù)據(jù)的優(yōu)點(diǎn)和局限性，并防止出現(xiàn)諸如偏差和過(guò)度擬合之類的問(wèn)題。同時(shí)，“數(shù)據(jù)手冊(cè)”還能全方位的促使數(shù)據(jù)集的創(chuàng)作者和用戶對(duì)數(shù)據(jù)源進(jìn)行不同角度的思考，并理解數(shù)據(jù)其實(shí)并非‘事實(shí)上’的存在，而是需要謹(jǐn)慎對(duì)待和維護(hù)的具有生命力的資源。

　　雖然我不是個(gè)電氣工程師，但是我非常欣賞這個(gè)有趣的想法。

　　注：

　　本文由【友盟+】翻譯

　　原作者：SAMCHARRINGTON

　　原文鏈接：https://venturebeat.com/2018/05/02/datasheets-could-be-the-solution-to-biased-ai/