解讀AlphaZero：一種人類從未見過的智慧

時間：2020-06-15 15:45:01

關(guān)鍵字： AI alphago 人工智能

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀] 在圍棋上打敗天下無敵手之后，DeepMind旗下的Alpha家族開始深入探究所有棋類，其中就包括國際象棋、日本將軍棋。 2018年12月初，在AlphaZero誕生一周年之際，《自然》雜

在圍棋上打敗天下無敵手之后，DeepMind旗下的Alpha家族開始深入探究所有棋類，其中就包括國際象棋、日本將軍棋。

2018年12月初，在AlphaZero誕生一周年之際，《自然》雜志以封面文發(fā)布了AlphaZero經(jīng)過同行審議的完整論文，Deepmind創(chuàng)始人兼CEO哈薩比斯親自執(zhí)筆了這一論文。

AlphaGo Zero發(fā)布于2017年10月，而起真正受到重視是在去年12月初發(fā)布的《科學(xué)》雜志上，論文顯示，AlphaGo Zero在三天內(nèi)自學(xué)了三種不同的棋類游戲，包括國際象棋、圍棋和日本將軍棋，而且無需人工干預(yù)。這一成果震驚了國際象棋世界，幾個小時內(nèi)，AlphaGo Zero就成為了世界上最好的棋類玩家。

眾所周知，在國際象棋方面，IBM的深藍(lán)在20年前就打敗了國際象棋大師，而后續(xù)的Stockfish和Komodo這些國際象棋程序也早已獨霸國際象棋世界。在AlphaGo Zero發(fā)布之后，很多人質(zhì)疑了其在國際象棋領(lǐng)域的價值。而本次的完整論文，對一些人認(rèn)為機器算法下國際象棋沒有價值的論調(diào)提出了幾個措辭頗為嚴(yán)厲的批評。這是因為，在過去的12個月里，AlphaZero清楚展示了人類從未見過的一種智慧。

下面，就讓我們通過論文來分析下AlphaZero到底。

深藍(lán)、Stockfish和Komodo雖然能贏人類，但不能真正理解棋局

文章指出，在過去的二十年里，用機器算法下國際象棋已經(jīng)取得了很大進步。1997年，IBM公司的國際象棋程序“深藍(lán)”（Deep Blue）在一場六局的比賽中擊敗了當(dāng)時的人類世界冠軍卡斯帕羅夫（Garry Kasparov）?，F(xiàn)在看來，這一成就并不神秘。深藍(lán)每秒可以計算2億個位置。它從不疲倦，從不在計算中出錯，也從不會忘記片刻之前的想法。

無論結(jié)果是好是壞，“深藍(lán)”都像一臺真正的機器，粗暴而物質(zhì)化。它的計算能力遠(yuǎn)超過卡斯帕羅夫，但卻無法真正從思維上超越他。在第一局的比賽中，深藍(lán)貪婪地接受了卡斯帕羅夫用車換一名主教的犧牲，卻在16步之后輸了比賽?，F(xiàn)在，諸如Stockfish和Komodo等當(dāng)前世界上最強的國際象棋程序仍然在以這種方式下棋。它們喜歡吃掉對手的棋子；它們防守像鋼鐵一樣強悍。但是，盡管這些國際象棋程序要比任何人類棋手強大得多，但并沒有真正理解棋局本身的意義。

經(jīng)過幾十年的發(fā)展，人類大師關(guān)于棋類游戲的經(jīng)驗都被作為復(fù)雜的評估工具編進程序中，表明在下棋中該尋求什么樣的有利位置以及避免陷入什么樣的不利境地。比如，王的安全性，棋子的活動、兵形、中心控制，以及如何平衡利弊。但以往很多國際象棋程序卻天生無視這些原則，給人留下的印象是野蠻粗暴的，這些程序速度快得驚人，但卻完全缺乏洞察力。

| AlphaGo Zero不僅打敗了人類和所有程序，還擁有洞察力

所有這些都隨著機器學(xué)習(xí)的興起而改變。AlphaZero通過與自己對弈并根據(jù)經(jīng)驗更新神經(jīng)網(wǎng)絡(luò)，從而發(fā)現(xiàn)了國際象棋的原理，并迅速成為史上最好的棋手。它不僅能夠輕而易舉地?fù)魯∷凶顝姶蟮娜祟惼迨?，還能擊敗當(dāng)時的計算機國際象棋世界冠軍Stockfish。在與Stockfish進行的100場比賽中，AlphaZero取得28勝72平的好成績。它沒有輸?shù)粢粓霰荣悺?/p>

最令人不可思議的是，AlphaZero似乎表達(dá)出一種天然的洞察力。它具備浪漫而富有攻擊性的風(fēng)格，以一種直觀而優(yōu)美的方式發(fā)揮著電腦所沒有的作用。它會玩花招，冒險。在其中幾局中，它使Stockfish癱瘓并玩弄它。當(dāng)AlphaZero在第10局進行進攻時，它把自己的皇后佯退到棋盤的角落里，遠(yuǎn)離Stockfish的國王。通常來說，這并不是攻擊皇后應(yīng)該被放置的地方。

然而，這種奇怪的撤退行為充滿了惡意，不管Stockfish如何應(yīng)對，它都注定要失敗。經(jīng)過數(shù)十億次殘酷的計算后，AlphaZero幾乎是在等待Stockfish意識到，自己的處境是多么無望，就像一頭被擊敗的公牛面對斗牛士一樣平靜落敗。大師們從未見過這樣的機器。AlphaZero擁有精湛的技藝，同時也擁有機器的力量。這是人類第一次瞥見一種令人敬畏的新型智能。

很明顯，AlphaZero獲勝靠的是更聰明的思維，而不是更快的思維。它每秒只計算6萬個位置，而Stockfish會計算6千萬個。它更明智，知道該思考什么，該忽略什么?？ㄋ古亮_夫在《科學(xué)》雜志文章附帶的一篇評論中寫道，AlphaZero通過自主發(fā)現(xiàn)國際象棋的原理，開發(fā)出一種“反映游戲真相”的玩法，而不是“程序員式的優(yōu)先級和偏見”。

| 除了棋類，AlphaZero還能做什么？

現(xiàn)在的問題是，機器學(xué)習(xí)能否幫助人類發(fā)現(xiàn)所關(guān)心問題的真相？比如像癌癥和意識、免疫系統(tǒng)之謎、基因組之謎等科學(xué)和醫(yī)學(xué)尚未解決的重大問題。

早期跡象令人鼓舞。去年8月份，《自然醫(yī)學(xué)》上的兩篇文章探討了機器學(xué)習(xí)如何應(yīng)用于醫(yī)學(xué)診斷。在一項研究中，DeepMind研究人員與倫敦莫爾菲爾德眼科醫(yī)院（Moorfields Eye Hospital）的臨床醫(yī)生合作，開發(fā)出一種深度學(xué)習(xí)算法，可以準(zhǔn)確地對各種視網(wǎng)膜病變進行分類。

另一篇文章也涉及一種機器學(xué)習(xí)算法，其能夠確定急診室病人的CT掃描是否顯現(xiàn)出中風(fēng)、顱內(nèi)出血或其他重要神經(jīng)疾病的跡象。對于中風(fēng)患者來說，每一分鐘都很重要;治療耽誤的時間越長，結(jié)果就越糟。新算法的準(zhǔn)確性堪比人類專家，而且比人類專家快150倍。一個更快的診斷有助于醫(yī)生對最緊急病例進行快速分類，并由人類放射科醫(yī)生進行復(fù)查。

然而令人沮喪的是，機器學(xué)習(xí)算法還無法清晰表達(dá)它們的想法。我們不知道它們?nèi)绾蔚贸鼋Y(jié)論，所以也就無從確定能否信任機器。AlphaZero似乎已經(jīng)發(fā)現(xiàn)了一些有關(guān)國際象棋的重要原則，但它無法與我們分享這種洞察力。作為人類，我們想要的不僅僅是答案，我們想要的是洞察力。從現(xiàn)在起，這將成為我們與電腦互動交流的開始。

事實上，這一情況在數(shù)學(xué)領(lǐng)域中早有耳聞。四色映射定理就是這樣一個長期存在的數(shù)學(xué)問題。該定理指出在一定的合理約束條件下，有關(guān)相鄰國家的任何地圖都可以只使用四種顏色進行著色，這樣相鄰兩個國家的顏色就不會相同。

雖然人們最終在計算機幫助下于1977年證明了四色映射定理，但是沒有人能夠檢驗論證中的所有步驟。從那以后，這個定理的證明得到了驗證和簡化，但仍有一些部分需要進行蠻力計算。這種發(fā)展使許多數(shù)學(xué)家感到惱火。他們不需要確認(rèn)四色定理是正確的，但他們想知道為什么這是真的，但是證明沒有幫助。

暢想未來：通用算法何時到來？

但是設(shè)想有一天，也許就在不久的將來，AlphaZero已經(jīng)發(fā)展成為一種更通用的解決問題算法，其將擁有至高無上的洞察力，它能夠拿出漂亮的證據(jù)，就像AlphaZero與Stockfish對弈時一樣優(yōu)雅，而且每一個證明都會揭示為什么定理是正確的。

對于人類數(shù)學(xué)家和科學(xué)家來說，這一天將標(biāo)志著一個新時代的到來。機器的速度越來越快，相比之下人類神經(jīng)元卻以毫秒級的速度緩慢運轉(zhuǎn)，我們再也跟不上機器的理解速度，人類洞察力的黎明可能很快就會變成黃昏。

無論是基因調(diào)控或癌癥，還是免疫系統(tǒng)的編排，抑或是亞原子粒子的運動，其中或許還存在有待于發(fā)現(xiàn)的更深層模式。假設(shè)這些模式需要超越人類的更高智能來預(yù)測，而AlphaZero的繼任者又能夠識別并理解它們，那么在我們?nèi)祟惪磥硭惴ň拖袷且粋€神諭。

或許未來，我們不再明白為什么計算機的結(jié)論總是正確的，但我們可以通過實驗和觀察來檢驗它的計算和預(yù)測?？茖W(xué)將把我們的角色降低到旁觀者的角色，在驚奇和困惑中目瞪口呆。

也許最終我們不再糾結(jié)于人類自身關(guān)于洞察力的匱乏。畢竟機器算法將能夠治愈我們所有的疾病，解決我們所有的科學(xué)問題，并讓我們所有的一切順利前行。在我們作為智人存在的最初30萬年時間里，我們在沒有多少洞察力的情況下一樣生存得相當(dāng)好。我們將自豪地回憶起人類洞察力的黃金時代，這段幾千年的輝煌插曲就發(fā)生在我們不理解的過去和我們不可思議的未來之間。

| Alpha家族高手煉成記

Alpha家族系列出自DeepMind公司，這家公司是2010年由杰米斯·哈薩比斯，謝恩·列格和穆斯塔法·蘇萊曼創(chuàng)立的。在2014年，DeepMind榮獲了劍橋大學(xué)計算機實驗室的“年度公司”獎項。2014年1月26日，Google宣布收購DeepMind科技，收購的價格大概為4億美元。

顯然，DeepMind真正被全球熟知是在第一次人機大戰(zhàn)之后，從2016年的那場對弈之后，DeepMind旗下的圍棋AI就開始了超神之路。

2016年1月27日，AlphaGo在沒有任何讓子的情況下，以5:0完勝歐洲圍棋冠軍、職業(yè)二段選手樊麾。在圍棋人工智能領(lǐng)域，實現(xiàn)了一次史無前例的突破。計算機程序能在不讓子的情況下，在完整的圍棋競技中擊敗專業(yè)選手，這是第一次。

2016年3月，阿爾法圍棋與圍棋世界冠軍、職業(yè)九段棋手李世石進行圍棋人機大戰(zhàn)，以4比1的總比分獲勝，舉世嘩然，人工智能概念開始被大眾熟知。

2016年末2017年初，該程序在中國棋類網(wǎng)站上以“大師”（Master）為注冊賬號與中日韓數(shù)十位圍棋高手進行快棋對決，連續(xù)60局無一敗績；

2017年5月，在中國烏鎮(zhèn)圍棋峰會上，阿爾法圍棋以3比0的總比分戰(zhàn)勝排名世界第一的世界圍棋冠軍柯潔。在這次圍棋峰會期間的2017年5月26日，阿爾法圍棋還戰(zhàn)勝了由陳耀燁、唐韋星、周睿羊、時越、羋昱廷五位世界冠軍組成的圍棋團隊。在柯潔與阿爾法圍棋的人機大戰(zhàn)之后，阿爾法圍棋團隊宣布阿爾法圍棋將不再參加圍棋比賽。

2017年10月18日，DeepMind團隊公布了最強版AlphaGo ，代號AlphaGo Zero。它的獨門秘籍是“自學(xué)成才”。而且，是從一張白紙開始，零基礎(chǔ)學(xué)習(xí)，在短短3天內(nèi)，成為頂級高手。經(jīng)過短短3天的自我訓(xùn)練，AlphaGo Zero就強勢打敗了此前戰(zhàn)勝李世石的舊版AlphaGo，戰(zhàn)績是100:0的。

2017年12月5日，AlphaGo Zero迎來升級，這個被稱為AlphaZero的程序在三天內(nèi)自學(xué)了三種不同的棋類游戲，包括國際象棋、圍棋和日本的將軍棋，無需人工干預(yù)，一篇描述這一成就的論文今年12月初在《科學(xué)》雜志發(fā)表。在AlphaZero之外，DeepMind在醫(yī)療領(lǐng)域還打造了一個名為AlphaFold的AI系統(tǒng)，它能夠應(yīng)對當(dāng)今生物學(xué)中最大的挑戰(zhàn)之一：模擬蛋白質(zhì)的形狀。

2018年12月，AlphaGo Zero登上《自然》雜志封面，完整論文首次公開。