777精品久无码人妻蜜桃,国产日本精品视频在线观看 ,国产亚洲99久久精品熟女av,brazzersvideosex欧美最新版,人人爽人人人爽人人爽

分享
Scan me 分享到微信

Facebook田淵棟:第四局AlphaGo敗招的分析

人工智能還是有缺陷的。

  

        第四局李世石的78手L11挖被大家譽(yù)為“神之一手”,在DarkForest的策略網(wǎng)絡(luò)輸出里排第31位,而J11靠排第10位。因此我覺得可能是AlphaGo沒有算到這一步。如果對(duì)方下了一手機(jī)器沒算到的棋,則蒙特卡羅(MCTS)搜索樹會(huì)清空,然后重新開始搜索,不應(yīng)該會(huì)太快做出結(jié)論。李喆六段告訴我K10這一手是秒下,那有可能是時(shí)間管理子系統(tǒng)在搜索樹清空時(shí)有程序上的漏洞,因此過早地將搜索結(jié)果返回了。MCTS在一開始搜索的時(shí)候,因?yàn)槟M次數(shù)不夠多,每步的勝率方差非常大,所以返回一個(gè)不夠好的著法如K10是很正常的(在DarkForest里面這著排在前四)。這個(gè)比較容易修正。

  另一種可能是,AlphaGo的估值網(wǎng)絡(luò)出了問題。因?yàn)楣乐稻W(wǎng)絡(luò)的權(quán)重是0.5,而不管快速走子從一個(gè)局面開始重復(fù)了多少次,它的權(quán)值也是0.5。對(duì)于一個(gè)局面,估值網(wǎng)絡(luò)只得到一個(gè)數(shù),而從這個(gè)局面往下走子,走多后會(huì)得到很多個(gè)數(shù),統(tǒng)計(jì)上應(yīng)該更為重要,但是AlphaGo不是這樣想的,兩邊各自算得勝率后直接對(duì)半平均了。所以如果估值網(wǎng)絡(luò)對(duì)某個(gè)局面得到的結(jié)果不對(duì),則會(huì)極大地影響對(duì)該局面的勝率估計(jì)。注意這里得到很多個(gè)數(shù)的原因是按照文章,葉結(jié)點(diǎn)在積累了一定盤數(shù)后(40)才展開,而不是第一次訪問就展開,以提高DCNN的效率。DarkForest沒有用到估值網(wǎng)絡(luò),在L11的挖之后正確地返回了L12和L10這兩個(gè)應(yīng)手,據(jù)李喆六段說,都是正確的應(yīng)手,這間接支持了這個(gè)推斷。AlphaGo在87手之后才意識(shí)到自己已經(jīng)大大落后,可能也是由于同樣的問題,比如說把右邊的黑大龍看成活的。

  那為什么估值網(wǎng)絡(luò)會(huì)出問題呢?可能是用于訓(xùn)練估值網(wǎng)絡(luò)的自學(xué)習(xí)(Self-Play)的樣本分布有盲點(diǎn)。為了提高樣本生成速度,AlphaGo的自學(xué)習(xí)樣本是通過用兩個(gè)純粹的DCNN互搏來生成的(完全沒有搜索),而DCNN下出來的棋因?yàn)槭羌兡J阶R(shí)別,一個(gè)大問題是死活不正確,經(jīng)常是在死棋里面下子。如果黑白兩方都犯了死活不分的毛病,然后一方比如說白僥幸勝了,那估值網(wǎng)絡(luò)就會(huì)認(rèn)為方才白的死棋局面是好的。這樣估值網(wǎng)絡(luò)就會(huì)染上同樣毛病,在中盤復(fù)雜的對(duì)殺局面中判斷失誤。若是這種情況就不好處理,AlphaGo下一局可能還會(huì)有同樣的問題。這里可以看到,電腦本身也不是靠窮舉來下棋的,圍棋畢竟太復(fù)雜,每一步都要剪枝,離當(dāng)前局面近的仔細(xì)剪(用DCNN),離當(dāng)前局面遠(yuǎn)的快速剪(快速走子),直到終局得到勝負(fù)為止。剪枝的好壞直接關(guān)系到棋力的高低,DCNN只是一個(gè)有大局觀的非常好的剪枝手段,它的盲點(diǎn)也會(huì)通過敗著反映出來。

  關(guān)于DCNN+MCTS打劫。首先因?yàn)镸CTS是全局估計(jì)分?jǐn)?shù)的,劫爭(zhēng)本身和其它局面在程序看來沒有本質(zhì)區(qū)別,都只是一步棋而已。劫的特殊性在DarkForest上表現(xiàn)為碰到有劫可提的情況時(shí),DCNN經(jīng)常會(huì)以非常高的概率(0.8以上)返回提劫這一手??赡艿脑蚴?,劫點(diǎn)是作為單獨(dú)的特征輸入的,所以DCNN學(xué)習(xí)到了它和輸出(提劫)的強(qiáng)關(guān)聯(lián)性。這樣在MCTS搜索時(shí)會(huì)強(qiáng)烈偏向這一手。這在很多情況下是正確的,但有時(shí)劫很小可以不予理會(huì),或者碰到兩個(gè)或者多個(gè)劫需要放棄一個(gè),那“遇劫必提”的偏向性就會(huì)給搜索帶來麻煩。有時(shí)連環(huán)劫電腦反復(fù)提就是這個(gè)原因。AlphaGo可能會(huì)有這個(gè)問題,或者是反向的問題(比如說提劫概率很小),這樣在下棋時(shí)大家就會(huì)感覺到它在避免開劫,或者在含劫的變化中計(jì)算失誤。

  關(guān)于地平線效應(yīng)(Horizon Effect)。國(guó)象的AI里面會(huì)有這個(gè)效應(yīng),比如說只搜索10步,計(jì)算到別人的后被自己的后吃了結(jié)束,然后用簡(jiǎn)單的加和法估計(jì)下盤面發(fā)現(xiàn)自己多個(gè)后特別爽,覺得這個(gè)分支特別好。其實(shí)再往下走一步自己的后也被別人吃了,或者掉入陷阱,這樣就誤算盤面價(jià)值。但是圍棋因?yàn)槊看文M都是走到底的,可能前30步是用DCNN,之后就是用快速走子,雖然走子質(zhì)量上有差距,但是大方向上不會(huì)錯(cuò),所以地平線效應(yīng)在某種程度上是減弱了。而且這次AlphaGo的失誤在20步以內(nèi),應(yīng)該還在DCNN的范圍里面,所以地平線效應(yīng)的可能性比較低。

  應(yīng)大家要求,這里放Game3的勝率,李世石毫無機(jī)會(huì)。

  Game4的還沒空全跑,以下是關(guān)鍵的一段。注意DarkForest只是5d,所以沒有及早看出來黑掛了也是正常的。

  編者一起放上作者的DarkForest對(duì)AlphaGo和李世石前兩局每步的勝率估計(jì):

  首先說明一下每個(gè)數(shù)據(jù)點(diǎn)是DF在當(dāng)前局面下給出最優(yōu)應(yīng)手,同時(shí)給出的勝率。(文|田淵棟)

    如果您對(duì)您所在行業(yè)有很深認(rèn)知,也想在我們的平臺(tái)上說點(diǎn)什么,我們歡迎您來投稿!

喜歡您正在閱讀的內(nèi)容嗎?歡迎免費(fèi)訂閱泰伯每周精選電郵。 立即訂閱

參與評(píng)論

【登錄后才能評(píng)論哦!點(diǎn)擊

  • {{item.username}}

    {{item.content}}

    {{item.created_at}}
    {{item.support}}
    回復(fù){{item.replynum}}
    {{child.username}} 回復(fù) {{child.to_username}}:{{child.content}}

更多精選文章推薦