雖然AlphaGo給我們帶來了極大的震撼,但也不是不可戰(zhàn)勝的。我抱著必勝的信念而來,絕不會說人機大戰(zhàn)勝負無所謂這樣的話,我會全力以赴,爭取打破AlphaGo的不敗戰(zhàn)績!”4月10日,20歲的圍棋天才,被認為當今全球人類圍棋第一人的柯潔九段在新聞發(fā)布會上說。
柯潔(右一)。
近日,中國圍棋協(xié)會與浙江省體育局共同舉辦新聞發(fā)布會宣布,5月23日至27日將在烏鎮(zhèn)舉辦“中國烏鎮(zhèn)·圍棋峰會”。屆時AlphaGo將與中國頂尖棋手以及來自人工智能界的專家齊聚一堂,共同探索圍棋與人工智能背后的深遠奧秘。
一年前,世人共同見證了人工智能領(lǐng)域的一個重大里程碑: AlphaGo戰(zhàn)勝了傳奇圍棋選手李世石。
事實上,人工智能的加入并沒有像一些人所擔心的那樣使這項游戲式微,反而讓人類棋手變得更加強大而富有創(chuàng)造力。盡管圍棋可能是歷史上被研究、推敲得最為透徹的一項游戲,許多職業(yè)棋手以及業(yè)余愛好者仍然是通過對AlphaGo創(chuàng)新著法的深入研究,學到了嶄新的知識和策略。
“AlphaGo下棋讓人感覺更自由一些,沒有什么著法是完全不能下的?,F(xiàn)在大家都更多地在嘗試以前沒有下過的一些下法。”周睿羊九段曾表示。
圖為:柯潔(最右)與聶衛(wèi)平(右二),樊麾(站立者)和古力(最左)于去年在北京聶衛(wèi)平圍棋道場,憑記憶復盤 AlphaGo與李世石第一局的開局。
此次“中國烏鎮(zhèn)·圍棋峰會”旨在通過頂尖人類棋手與極具創(chuàng)造性的人工智能對手之間的合作,使人們得到關(guān)于圍棋和人工智能的更多新啟示。
據(jù)主辦方介紹,此次峰會特別設(shè)計了AlphaGo與中國頂尖棋手的三種比賽形式,具體包括:首先,人機配對賽:中國職業(yè)棋手將與另一名職業(yè)棋手對弈。每一方棋手都將有AlphaGo作為自己的隊友與他們交替落子,真正體現(xiàn)共同學習的真諦。
其次,團隊賽:由五位中國頂尖棋手組隊與 AlphaGo進行對弈,共同測試 AlphaGo在面對組合風格時所展現(xiàn)的創(chuàng)造力和適應性。
第三,柯潔對陣 AlphaGo:AlphaGo 與世界排名第一的棋手柯潔進行的三番棋對弈將成為萬眾所矚目的焦點??聺崟? AlphaGo的能力推向甚至超越極限。
柯潔是金立智能手機的品牌文化大使。金立認為,圍棋,并不在于計較一子一目的得失,更需要放眼全局的取舍和戰(zhàn)略,是一種長距離的“超級續(xù)航”般的較量。圍棋表達了一種靜默的思考,充滿了寵辱不驚的氣度,是人類智慧的杰作。圍棋人工智能的最高水平與人類最高水平之間的對決,比賽本身的意義就已非同凡響。人工智能代表著科技的未來,也是人類的未來,人機之戰(zhàn),是人類智慧的延伸,是人類對極限、對未來的一次勇敢探索。金立支持柯潔勇戰(zhàn)AlphaGo。
除動人心魄的比賽之外,峰會還將舉辦一場有關(guān)人工智能未來的論壇。來自人工智能的頂尖專家將共同探索AlphaGo如何為圍棋這項古老的游戲帶來了全新的認知,并進一步探討人工智能與機器學習是如何幫助人類為世界上一些重大難題帶來解決方案。
據(jù)介紹,AlphaGo背后的部分機器學習方法已經(jīng)被應用到實際生活中,并在一些重大問題中發(fā)揮了作用,比如減少能源使用。機器學習技術(shù)也已經(jīng)開始應用于一系列醫(yī)療研究項目中。
延伸閱讀
AlphaGo是什么?
AlphaGo 是第一個擊敗人類職業(yè)圍棋選手、第一個戰(zhàn)勝世界冠軍的電子計算機程序,是圍棋史上最具實力的選手之一。2016 年 3 月,在全世界超過一億觀眾的關(guān)注下,AlphaGo經(jīng)過5局對弈,最終以 4 比 1 的總比分戰(zhàn)勝了圍棋世界冠軍李世石,這場比賽成為了人工智能領(lǐng)域的一個重要里程碑。過去曾有專家預測,人工智能需要十年的時間才可能戰(zhàn)勝人類職業(yè)選手,在這場比賽后,AlphaGo憑借其“充滿創(chuàng)意而又機智”的下法,躋身圍棋界最高職業(yè)稱號——職業(yè)九段行列,成為歷史上首個獲得這一榮譽的非人類棋手。 近期,AlphaGo的升級版本以"Master / Magister"的稱謂與世界頂級的圍棋選手進行了60場線上快棋賽,并取得了全勝的出色戰(zhàn)績。
AlphaGo如何訓練?
一直以來,圍棋就被認為是傳統(tǒng)游戲中,對人工智能而言最具挑戰(zhàn)性的項目。這不僅是因為圍棋包含了龐大的搜索空間,更是因為對于落子位置的評估難度已遠遠超過了簡單的啟發(fā)式算法。 為應對圍棋的復雜性,AlphaGo采用了一種新穎的機器學習技術(shù),結(jié)合了監(jiān)督學習和強化學習的優(yōu)勢。通過訓練形成一個策略網(wǎng)絡(luò)(policy network),將棋盤上的局勢作為輸入信息,并對所有可行的落子位置生成一個概率分布。然后,訓練出一個價值網(wǎng)絡(luò)(value network)對自我對弈進行預測,以 -1(對手的絕對勝利)到1(AlphaGo的絕對勝利)的標準,預測所有可行落子位置的結(jié)果。這兩個網(wǎng)絡(luò)自身都十分強大,而 AlphaGo將這兩種網(wǎng)絡(luò)整合進基于概率的蒙特卡羅樹搜索(MCTS)中,實現(xiàn)了它真正的優(yōu)勢。最后,新版的AlphaGo 產(chǎn)生大量自我對弈棋局,為下一代版本提供了訓練數(shù)據(jù),此過程循環(huán)往復。
AlphaGo 如何決定落子?
在獲取棋局信息后,AlphaGo 會根據(jù)策略網(wǎng)絡(luò)(policy network)探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。在分配的搜索時間結(jié)束時,模擬過程中被系統(tǒng)最頻繁考察的位置將成為 AlphaGo 的最終選擇。在經(jīng)過先期的全盤探索和過程中對最佳落子的不斷揣摩后,AlphaGo的搜索算法就能在其計算能力之上加入近似人類的直覺判斷。