AlphaGo首勝柯潔后,AlphaGo之父分享AI愿景
北京時間5月24日消息,圍棋峰會進(jìn)入第二天,在今日舉行的人工智能高峰論壇上,DeepMind創(chuàng)始人杰米斯.哈薩比斯(Demis Hassabis)發(fā)表了演講,介紹了AlphaGo的研發(fā)過程,以及AlphaGo意味著什么。
AlphaGo是DeepMind公司打造了人工智能系統(tǒng),DeepMind在2010年于倫敦創(chuàng)立,在2014年加入Google。據(jù)哈薩比斯介紹,DeepMind參與了谷歌人工智能的“阿波羅計劃”,另外還還打造了研發(fā)科學(xué)的新方式。
“DeepMind的愿景是研究何為AI,然后再用智能解決所有問題,即我們怎樣提出有效的建議去解決問題,我們最終希望建立通用人工智能。”哈薩比斯說到。
據(jù)哈薩比斯透露,AlphaGo打造的通用學(xué)習(xí)機(jī)器有兩個特性,一個是“學(xué)習(xí)”,即非程序預(yù)設(shè),可以自主學(xué)習(xí)原始材料。另一個是通用性,即同一個系統(tǒng)可以執(zhí)行多種任務(wù)。“一系列的算法和系統(tǒng)能夠做系列的任務(wù),這些任務(wù)可能是前所未見的。”哈薩比斯表示,通用的強(qiáng)人工智能,與現(xiàn)在弱人工智能不一樣,目前弱人工智能都是預(yù)設(shè)的,其實IBM在上世紀(jì)90年代設(shè)計的國際象棋程序也是預(yù)設(shè)的預(yù)設(shè)的人工智能,“它是通過蠻力搜索,機(jī)器被動的接受這個程序,不能自我學(xué)習(xí)。”哈薩比斯說到。
DeepMind希望打造強(qiáng)化學(xué)習(xí)框架,哈薩比斯稱,強(qiáng)化學(xué)習(xí)框架就是讓“智能體”深處在一個真實/虛擬的環(huán)境中,去完成一個特定的目標(biāo)。為了完成這項任務(wù),智能體可以觀察環(huán)境,這其中有視覺、聽覺、觸覺等觀察方式。在這個之后,在頭腦中設(shè)置一個想法,然后采取行動,踐行計劃。在實時的觀察中就可以行動的。“如果能解決這個問題,其實強(qiáng)人工智能就已經(jīng)實現(xiàn)了,這與人這一智能體觀察學(xué)習(xí)的方式是一樣的。”哈薩比斯表示。
哈薩比斯提到了雅達(dá)利智能體,這是DeepMind在AlphaGo之前(三年前)研發(fā)的AI程序,通過2600測試臺,測試百余款八十年代的八位元雅達(dá)利游戲。當(dāng)時的雅達(dá)利智能體僅僅輸入原始像素(~30),目標(biāo)是利用深度強(qiáng)化學(xué)習(xí),玩好雅達(dá)利游戲。
AlphaGo目前成為DeepMind最新的人工智能系統(tǒng)。哈薩比斯稱,雖然AlphaGo是玩圍棋的,但是它也可以做其他東西。
為什么計算機(jī)下圍棋非常困難?這是因為其復(fù)雜程度讓窮舉搜索都難以解決,這個難題包括兩個方面,一是“不可能”寫出評估程序以決定輸贏,另一個是搜索空間太過龐大。
在哈薩比斯看來,更困難的是圍棋不像象棋等游戲靠計算,而是靠直覺。“圍棋中沒有等級概念,所有棋子都一樣,圍棋是筑防游戲,因此需要盤算未來。你在下棋的過程中,是棋盤在心中,必須要預(yù)測未來。小小一個棋子可撼動全局,牽一發(fā)動全身。圍棋'妙手'如受天啟。”哈薩比斯如此解釋圍棋中的直覺。
在技術(shù)上,AlphaGo用到了兩種網(wǎng)絡(luò):策略網(wǎng)絡(luò)和估值網(wǎng)絡(luò),這些技術(shù)去年在《Nature》上發(fā)表,并啟發(fā)了很多研究者設(shè)計自己的人工智能系統(tǒng)。
哈薩比斯回憶到,此后我們進(jìn)行了測試,2016年我們讓AlphaGo與李世石對弈,最后AlphaGo以4:1戰(zhàn)勝了李世石,“這一刻我們等了十年,真的是十年磨一劍。”李世石感慨到。
AlphaGo吸引了2.8億的觀眾,3.5萬篇的報道,棋盤銷售在西方增加了10倍。哈薩比斯回憶了其中(AlphaGo對弈李世石)的精彩之處,分別是第二局第37步棋令人驚嘆,它讓我們思考:幾千年來,你人類都低估了第5條線下子的價值。另外,還有第四局絕倫的第78著,他贏得了一盤。李世石說,“我認(rèn)為這給圍棋引入了新思路,我感覺找到了繼續(xù)玩圍棋的新理由。”
哈薩比斯稱,很多藝術(shù)都是主觀,AlphaGo把圍棋看做了一個客觀的藝術(shù),每一步都會分析有什么影響。“因此,我給直覺的定義是,通過體驗獲得初步感知,無法表達(dá)出來,可通過行為確認(rèn)其存在和正誤。”哈薩比斯表示,AlphaGo已經(jīng)可以模仿人的直覺,而且具備創(chuàng)造力,通過組合已有知識或獨(dú)特想法的能力。所以AlphaGo已經(jīng)有了直覺和創(chuàng)造力,不過這些能力目前僅僅局限在圍棋上。
在這之后,DeepMind希望彌補(bǔ)AlphaGo知識的空白,之后便發(fā)布了新的版本“Master”,在網(wǎng)上進(jìn)行對局,也獲得了很大的勝利。柯潔在與Master對弈后感嘆到,人類數(shù)千年的實戰(zhàn)演練進(jìn)化,計算機(jī)卻告訴我們?nèi)祟惾际清e的。哈薩比斯稱,“20世紀(jì)三四十年代,吳清源給圍棋帶來了革命性的力量。我相信AlphaGo也能開啟一個圍棋新時代。棋類程序講戰(zhàn)術(shù),AlphaGo講戰(zhàn)略。”
“我們離最優(yōu)還有多遠(yuǎn),怎樣才是完美的棋局?3000年的對弈不足以找到最佳棋局。AlphaGo讓我們可探尋這些奧秘。”哈薩比斯說到。
圍棋之外,哈薩比斯希望將人工智能運(yùn)用到各種各樣的領(lǐng)域。哈薩比斯稱,“人機(jī)合作可以達(dá)到1+1>2的效果,人類的智慧將被人工智能放大。人工智能和AlphaGo都是工具,就像哈勃望遠(yuǎn)鏡一樣,可以推進(jìn)人類文明的進(jìn)步。”哈薩比斯稱,無數(shù)其他領(lǐng)域也將遭到組合轟炸,強(qiáng)人工智能也是我們探索的最好工具,比如將AI用到材料設(shè)計、新藥研制上,還有現(xiàn)實生活中的應(yīng)用,如醫(yī)療、智能手機(jī)、教育等。
目前,DeepMind已經(jīng)非常成功的將AlphaGo用到了數(shù)據(jù)中心的優(yōu)化中,結(jié)果顯示可以節(jié)省50%的電能。
最后,哈薩比斯總結(jié)到,信息過載和系統(tǒng)冗余是巨大挑戰(zhàn),我們希望利用AI找到元解決方案。“我們的目標(biāo)是實現(xiàn)人工智能科學(xué),或人工智能輔助科學(xué),當(dāng)然AI要有倫理和責(zé)任的約束??傊?,人工智能技術(shù)可以幫助我們更好的探索人腦的奧秘。