AI提供的落子勝率可以直接比較大小嗎

時間：2020-05-13 17:57:01

關(guān)鍵字： AI 人工智能 ALPHAGO 模型

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀] AI不是圍棋上帝，因此AI提供的各落子點勝率，其實是一個概率分布; 概率分布間的比較不遵從加減乘除法則，而需要通過“顯著性檢驗”來完成; 兩著棋勝率差距小于1%，說明二者勝率完全

AI不是圍棋上帝，因此AI提供的各落子點勝率，其實是一個概率分布;

概率分布間的比較不遵從加減乘除法則，而需要通過“顯著性檢驗”來完成;

兩著棋勝率差距小于1%，說明二者勝率完全相同;兩著棋勝率差距大于5%，才說明二者勝率有區(qū)別;

相較于勝率，AI提供的新落子點背后的相關(guān)變化圖和思路，才是棋手最需要學(xué)習(xí)的東西;

人類的圍棋對弈并不“封閉”，許多與人有關(guān)的因素才是制勝關(guān)鍵;

保持思考，比跟誰學(xué)、學(xué)什么都重要。

成王敗寇是自古以來人類歷史的不變鐵律。

從AlphaGo的橫空出世到今天各路AI的八仙過海，當(dāng)人機(jī)大戰(zhàn)的結(jié)果漸失懸念，職業(yè)棋手的權(quán)威性向AI的不斷轉(zhuǎn)移，自然成為了無可避免的必然趨勢。這種趨勢帶來的直接后果就是：越來越多的棋手，無論棋力高低，都開始選擇AI程序作為圍棋陪練甚至圍棋教練，并將AI推薦的著法奉若神明。

遙想數(shù)十年前，當(dāng)剛剛起步的中國圍棋第一次接受來自日本圍棋全新的技術(shù)體系和戰(zhàn)略思想的沖擊和洗禮，棋界大多數(shù)人對高高在上的日本職業(yè)九段的每一句棋評也都如獲至寶。時隔多年，人們?足跪拜的對象從職業(yè)九段變成了AI軟件，可臉上的深信不疑是何等神似。這或許就是歷史的本質(zhì)罷。

筆者無意從文化或道德層面對AI軟件介入圍棋學(xué)習(xí)進(jìn)行評批判。相反，筆者也認(rèn)為：合理適度地學(xué)習(xí)和借鑒AI提供的著法和思路，是今日棋手理應(yīng)享有且不容錯過的人工智能時代的巨大紅利?？墒?，筆者想說：凡事都逃不開“過猶不及”四字。許多棋手（特別是水平相對較低的業(yè)余棋迷）對AI程序的盲目崇拜和無條件服從，是有內(nèi)在的邏輯問題的。這其中，最容易被大眾誤解的一點就是：AI程序提供的落子勝率，是不能夠進(jìn)行直接的相互比較的。

為使解釋盡可能通俗易懂，請讀者先完成下面這道看起來很簡單的數(shù)學(xué)選擇題。

［單選題］如上圖，當(dāng)前局面頭緒眾多，復(fù)雜難解。使用某AI程序用分析模式跑一遍后，該程序給出了A-E五個可能的選點，每個選點的勝率值如下：A（54.1%），B（54.0%），C（53.7%），D（53.6%），E（47.5%）。假設(shè)此款A(yù)I程序棋力足夠強(qiáng)大，給出的各落子點勝率值與真實情況完全一致;那么，下列說法中正確的是（）。

A。選點A的勝率（54.1%）最高，因此選點A是當(dāng)前局面下的最善一手。

B。選點A的勝率（54.1%）大于選點B的勝率（54.0%），這說明：下在A明顯比下在B好。

C。選點A的勝率（54.1%）大于選點E的勝率（47.5%），這說明：下在A明顯比下在E好。

D。 AI還達(dá)不到圍棋上帝的高度，所以這些落子點和各自勝率值都毫無意義。

本題的正確答案是C。解題思路如下：

1。人工智能不是圍棋上帝。

在知曉一切的圍棋上帝眼中，任何一著棋的勝率都只有兩種可能：0%（輸）和100%（贏）。這應(yīng)該很好理解，因為當(dāng)貼目規(guī)則和當(dāng)前局面棋子分布確定后，執(zhí)黑和執(zhí)白的兩位圍棋上帝在之后必然會“默契地”下出棋局接下來唯一的“最優(yōu)解”。

正因今天的硬件水平不足以支持人工智能程序窮舉接下來局面的一切變化并最終得到“最優(yōu)解”，科學(xué)家們在今天的圍棋AI中引入了“勝率”這個巧妙的切入角度和全新的評估方式。雖不知局部的最優(yōu)解何在，但通過卷積、剪枝等深度學(xué)習(xí)的具體技術(shù)，我們可以給每一著棋按律“賦值”：經(jīng)過人工規(guī)則篩選后的有限變化（可能是幾十萬或幾百萬個）中，有多少個變化終局結(jié)果為己方獲勝，便有多少百分比體現(xiàn)在其具體的勝率賦值中。從便于大眾理解的邏輯來講，人工智能的所謂“勝率”，依舊是一個簡化版的窮舉過程。因此，“該落子點的勝率是54.1%”這句話，其實表達(dá)的意思是：從當(dāng)前局面下開始進(jìn)行有一定邏輯規(guī)律的100萬次試次（例）后，有54.1萬次的最終結(jié)果是黑方取勝。

正因上述缺陷的存在，圍棋AI提出的落子勝率存在不可避免的天然缺陷。只要在哪怕幾十手后棋盤另一側(cè)的局部絞殺中出現(xiàn)任何一個看似細(xì)微的計算錯誤，AI對各處落子的勝率估計便立時要產(chǎn)生翻天覆地的變化。事實證明，除AlphaGo Master版本外，市面上常見的幾乎所有圍棋AI都存在各種各樣的死活bug（或稱人類棋手世界觀中的“誤算”），而其中的任何一個都可能對AI對當(dāng)前局面的評估和判斷造成難以估量的偏移和錯位。

2。題干中的勝率

“54.1”從本質(zhì)上講并不是一個阿拉伯?dāng)?shù)字，而是一個龐大的概率分布。

當(dāng)讀者理解圍棋AI中所謂“勝率”的含義，就為接下來的比較過程打下邏輯基礎(chǔ)。A、B兩著棋的勝率54.1%和54.0%之所以不能進(jìn)行直接比較，便是因為所謂的“54.1”或“54.0”并不是一個單純的阿拉伯?dāng)?shù)字，而分別代表著兩著棋以后各自進(jìn)行的一百萬次試次得到的結(jié)果——一個由1或0（即勝或負(fù)）組成的龐大集合。54.1和54.0這兩個數(shù)字分別對各自代表的兩個集合進(jìn)行了某個維度的歸納總結(jié)，但這顯然不能代表這個由一百萬個數(shù)字組成的集合的全部屬性。

3。兩個概率分布之間的比較，不適用加減乘除四則運(yùn)算。

當(dāng)我們想對兩個各自由一百萬個數(shù)字組成的集合進(jìn)行差別比較時，單純的加減乘除四則運(yùn)算是遠(yuǎn)遠(yuǎn)不夠的。在統(tǒng)計學(xué)中，“顯著性檢驗”是人們最常用的衡量兩個分布間是否存在差異的計算方法。在這里，筆者想嘗試用盡可能通俗易懂的語言來向沒有統(tǒng)計學(xué)背景的讀者解釋“顯著性檢驗”的基本含義：

（1）由于我們不是上帝，所以我們收集到的數(shù)據(jù)、看到的這一百萬個勝負(fù)結(jié)果，其實只是無窮多個變化中的一小部分;

（2）正因我們收集到的數(shù)據(jù)有限或不全面，所以我們以之來推斷這手棋是“好棋”還是“壞棋”，這個判斷是有可能出錯的。舉例來說，如果局部一共有一億種變化，其中有9900萬種變化的結(jié)果都是白勝，只有100萬種變化的結(jié)果是黑勝;但是，由于程序的此次隨機(jī)恰好“不小心”只抽取了那一百萬種黑勝的變化。那么我們根據(jù)手上“一百萬個變化都是黑勝”而做出的“這個局部這樣下黑棋好”的結(jié)論，與一億種變化的整體樣本的分布就產(chǎn)生了巨大的差別。

（3）“顯著性檢驗”就是一種衡量我們“出錯可能”的檢驗辦法。例如，通過具體參數(shù)的設(shè)置，我們可以調(diào)整顯著性水平p=。05，這表示：雖然我沒有辦法保證我做出的判斷一定正確，但我有95%的把握說我的判斷是正確的。

不光圍棋AI，人類科學(xué)的幾乎每個方面都會涉及顯著性檢驗的問題。人類總以自身有限的能力和數(shù)據(jù)去嘗試推斷世界龐大的運(yùn)行規(guī)律，因此時刻都需要審視自己犯“管中窺豹”這類錯誤的可能。今天的科學(xué)界往往以p=。05作為通行的顯著性水平，這意味著：只要我們能保證實際生活中95%的情況都與我們掌握的樣本情況一致，我們就可以宣布自身的研究成果是“正確的”。

（4）顯著性檢驗的具體計算方法不是簡單地加減乘除，它涉及一個包含多項統(tǒng)計參數(shù)的復(fù)雜計算模型。（筆者很難用有限的篇幅徹底展開有關(guān)顯著性檢驗的全部知識，有興趣的讀者可自行查閱相關(guān)統(tǒng)計教材。此處從略。）如果樣本數(shù)據(jù)成功通過該模型的檢驗，我們就可以做出以下判斷：這兩組數(shù)據(jù)之間，的確存在明顯的區(qū)別。反之，如果沒有通過這個模型的檢驗，我們就會做出這樣的判斷：這兩組數(shù)據(jù)之間，不存在明顯的區(qū)別。

4。那么，兩手棋勝率差距多大才能達(dá)到顯著性水平？

接下來，我們需要解決“當(dāng)兩手棋的勝率之差大到什么程度，我們就能下定決心宣布：這兩手棋的勝率的確有區(qū)別”這個問題。正如前文所述，顯著性水平的設(shè)置、樣本量和效應(yīng)量等許多參數(shù)都會影響顯著性檢驗的結(jié)果，但經(jīng)過大量經(jīng)驗和相關(guān)練習(xí)，筆者可以總結(jié)出一個非常粗略的“圍棋AI勝率判別標(biāo)準(zhǔn)”：

對于目前市面上常見圍棋AI的變化數(shù)量級、顯著性水平和效應(yīng)量而言，

落子勝率差在1%以內(nèi)，說明“兩手棋的勝率肯定沒有區(qū)別，請你大膽任意選擇其一”;

落子勝率差在1%-5%之間，說明“由于AI能力所限，這個問題的答案它也不知道;你可以在實際對局中試一試，但AI覺得這兩手棋可能會有區(qū)別”;

落子勝率差大于5%，說明“兩手棋的勝率肯定存在明顯區(qū)別，高勝率落點肯定比低勝率落點好”。

所以，A（54.1%）和B（54.0%）雖然從字面的數(shù)學(xué)上多了0.1%，但從統(tǒng)計學(xué)意義上講，兩個分布是完全相等的。這在圍棋中意味著，AI認(rèn)為，接下來黑棋下在A位或B位，勝率是完全一樣的。

細(xì)心的讀者可能已經(jīng)忽然意識到上述判斷標(biāo)準(zhǔn)在AlphaGo

教學(xué)工具中的具體應(yīng)用。在推薦的許多落子點中，有些落子點是用綠色標(biāo)注的，有些落子點是用紫色標(biāo)注的。這樣的設(shè)置其實就是一個非常明顯的顯著性水平的常用實例：兩個均為綠色標(biāo)注的落子點雖然各自勝率小有差別，但從統(tǒng)計學(xué)意義上講它們 “勝率完全一樣”;而如果兩個落子點中一個為綠色、另一個為紫色，就說明“AlphaGo認(rèn)為，綠色落子點比紫色落子點勝率高”。

因此，對于AlphaGo 教學(xué)工具而言，讀者只需要通過落子點顏色就可以判斷各落子點間的勝率差異。而對于那些UI沒做得這么好的圍棋AI，讀者就可以通過上文的“圍棋AI勝率判別標(biāo)準(zhǔn)”，對該AI推薦的各落子點勝率的差別有一個大致的感受和估測。

5。勝率并不是衡量一著棋好壞的決定因素。后續(xù)變化才是。

市面上主流的各款圍棋AI中，筆者目前最喜歡天壤的界面：因為在最近更新的版本中，天壤不僅會給出幾種彼此勝率接近的落子點，還會直接標(biāo)明該落子點的后續(xù)五手變化。

勝率只是AI衡量落子點好壞的指標(biāo)之一，而人類棋手能否從AI推薦的著法中取得收益，直接取決于對其后續(xù)變化掌握的多少。以前文的選擇題為例，選點A的勝率看起來還不錯，但只有棋手完全掌握其后續(xù)變化，才能在自己的對局中將這個“高勝率”轉(zhuǎn)化為實際的對局優(yōu)勢。如下圖，

黑只有通過這般的正確應(yīng)對，才能保證54.1%這個勝率的有效性。如果黑錯選了3位長的方向，或是在白14位尖封時退縮，那么先前的落點A勝率立時就要大幅下降，在對局中的實際效果甚至還遠(yuǎn)遠(yuǎn)不如掌握了D位落子后續(xù)變化的結(jié)果。通過AI從勝率角度切入得到的全新思路和變化，彌補(bǔ)人類棋手因思維慣性或思維定勢帶來的局限和空白，或許才是人類能夠從許多高級AI看似“不知所云”的奇怪著法中，學(xué)習(xí)到的最寶貴的東西罷。

因此，筆者想奉勸那些稍有落差便驚為天人如獲至寶愛不釋手不容置喙的棋迷朋友：不學(xué)習(xí)AI天馬行空背后的邏輯和變化，永遠(yuǎn)只是葉公好龍;除了可能在與其他棋迷朋友喝酒吹逼時狐假虎威地稍占上風(fēng)外，你將失去的，或許是這個時代最好的圍棋老師帶給你對圍棋的全新理解和認(rèn)知。

死記硬背學(xué)不好圍棋，死記硬背更學(xué)不好AI的圍棋。

6。人類眼中的最善一手，與上帝眼中的最善一手差別很大。

當(dāng)關(guān)于勝率的討論更進(jìn)一步，許多職業(yè)棋手已經(jīng)開始進(jìn)行全新的思考。用職業(yè)棋手的“黑話”來講：

如果說圍棋AI從技術(shù)層面提供的勝率是目（是目：在對局中很重要，可能影響最終的對局結(jié)果），那么：

贏多贏少是不是目？

對局時間是不是目？

變化多少是不是目？

給不是圍棋上帝的對方制造更多犯錯的可能，是不是目？

影響人類對局的因素實在太多，追求局部“最優(yōu)解”或許是個別求道派的終極追求，但顯然未必是大多數(shù)棋手唯一的考量標(biāo)準(zhǔn)：

復(fù)雜的接觸戰(zhàn)中，當(dāng)棋手已經(jīng)看清局部的全部關(guān)鍵變化，是選擇勝率稍高的穩(wěn)健落子以確保自身不犯錯誤，還是選擇勝率稍低的激進(jìn)落子以爭取在局部獲得盡可能多的利益，為之后全盤的收束提供更多的退讓空間？

在時限較短（特別是沒有讀秒的包干制比賽）的對局中，棋手是選擇花三十分鐘全力算出局部最優(yōu)解，還是通過五分鐘的簡單計算得到一個已經(jīng)相對滿意的變化、并將剩下的時間投入到后半盤更加白熱化的斗爭中？

當(dāng)前形勢的優(yōu)劣會不會影響棋手對于各種變化的選擇？當(dāng)局面優(yōu)勢明顯時，勝率相對較低卻簡單粗暴的落子變化，會不會比勝率最高、但要求棋手局部應(yīng)對必須精準(zhǔn)無誤的落子變化更保險？當(dāng)局勢已非，勝率最低但局面相對最混亂的落子變化，會不會因為給對手提供了更多犯錯可能，而更容易最終達(dá)成翻盤目的？

究竟是誰最早提出 “圍棋是封閉式的博弈”，并在現(xiàn)今成為棋界大眾的共識？太多經(jīng)典對局都無數(shù)次地證明，棋手在對局中追求的往往不是“最優(yōu)解”，而是“滿意解”。具備一定棋力的棋手在比賽中，一定要考慮到上述各種非圍棋技術(shù)層面的問題，才能在所謂“斗智斗勇”中占據(jù)上風(fēng)，并最終取得對局的勝利。這些更廣義層面的博弈，絕非老師僅僅“照本宣科”就可以一股腦填鴨式傳給弟子的知識;只有通過經(jīng)年累月的反復(fù)推敲和思考，才能形成自己的認(rèn)識。局部的新變化固然要努力學(xué)習(xí)，但在實際對局中究竟應(yīng)該選擇哪一種變化，絕不是簡單的勝率比較就可以草率敲定。一切最終又回到同一個落腳點：不斷拋棄成見、不斷努力求索的深入思考，才是棋手安身立命之根本。

當(dāng)理清了這些思路，再回過頭去看文初的選擇題，讀者朋友們能否對四個選項的描述有更加清晰的認(rèn)識呢？

你看，看似簡單的一道數(shù)學(xué)選擇題，都可以展開幾千字的延伸和探討。在學(xué)習(xí)所謂“人類智慧的最高峰”的圍棋時，單單記住一個勝率和結(jié)論，會不會同樣淺顯了一點？

當(dāng)我們看到AlphaGo這個像星空一樣浩瀚的落子勝率分布圖時，單純死板地記住“應(yīng)對天元時‘占小目’比‘占星’好”和“碰天元勝率比小飛掛天元高0.4個百分點”，會不會太暴殄天物了一點？對于那些愿意展開深入思考的頂尖職業(yè)棋手而言，這樣一個簡單的勝率分布圖帶來的啟發(fā)，或許就能在未來的某天為人類棋手開辟一個嶄新的世界;親手將這些美好的可能拒之門外，會不會太可惜了一點？

不論是向職業(yè)棋手問道還是向圍棋AI取經(jīng)，筆者始終覺得：使自己產(chǎn)生以前沒有過的思考，才是圍棋予人最重要的成長。