下棋下不過AI,打撲克也不行
近日,兩個(gè)人工智能程序成功證明了自己,機(jī)器也可以懂得什么時(shí)候跟牌什么時(shí)候棄牌。它們首次在十分普及的紙牌游戲——德州撲克——中戰(zhàn)勝了人類的專業(yè)玩家。本周,其中一個(gè)AI的幕后團(tuán)隊(duì),深度堆棧(DeepStack),向我們透露一些成功背后的秘密——這可能是AI從航空安全系統(tǒng)走向商務(wù)談判的沖鋒號(hào)。
各種博弈游戲中AI的統(tǒng)治地位由來已久,比如象棋,比如去年讓人類僥幸贏了一盤的阿爾法狗,但在撲克領(lǐng)域AI一直表現(xiàn)的挺糟糕。深度堆棧的研究人員將新的算法和深度機(jī)器學(xué)習(xí)結(jié)合起來,終于打破了他們連敗的局面。深度學(xué)習(xí)是計(jì)算機(jī)科學(xué)中一種模仿人類大腦的方法,使得機(jī)器可以自學(xué)。
"這是一種尺度可調(diào)的處理復(fù)雜信息的方法,可以在短時(shí)間內(nèi)做出優(yōu)化的決定,甚至比人類還好。"Murray Campbell說道,他是紐約IBM公司的研究員,曾經(jīng)最好的象棋AI,深藍(lán),的創(chuàng)造人之一。
象棋和圍棋有一個(gè)重要的共同點(diǎn),也是AI的首要優(yōu)勢(shì):他們都是完美信息博弈。這意味著雙方都完全了解對(duì)方在做什么——這在設(shè)計(jì)AI時(shí)有巨大的幫助。德州撲克中的跟牌卻不相同,此時(shí)玩家要面對(duì)兩張具有隨機(jī)性的未知底牌。每輪公共牌后玩家要做出適當(dāng)?shù)男袆?dòng),押注、跟注或棄牌。因?yàn)橛螒蚓捅旧淼牟淮_定性以及初始底牌未知,不像象棋,可以從當(dāng)前盤面以及對(duì)手所有可能的步驟中推算最優(yōu)策略。玩德州撲克需要某種我們稱之為直覺的東西。
傳統(tǒng)博弈類AI原理可簡(jiǎn)述為盡可能深地計(jì)算所有可能的步驟并利用算法將過去已有的對(duì)戰(zhàn)數(shù)據(jù)排序分析。缺點(diǎn)在于,為了壓縮可用數(shù)據(jù),有時(shí)會(huì)把一些無效策略組合起來,加拿大Alberta大學(xué)的計(jì)算機(jī)教授Michael Bowling說到。
他們團(tuán)隊(duì)的AI規(guī)避了只計(jì)算前幾步而不去計(jì)算全局即輕易判斷的方法。程序在獲得新的信息之后會(huì)不斷調(diào)整算法。當(dāng)AI需要比對(duì)手先行動(dòng),而此時(shí)沒有新的信息來做判斷,深度學(xué)習(xí)就發(fā)揮作用了。
神經(jīng)網(wǎng)絡(luò),是一種把深度學(xué)習(xí)獲取的知識(shí)加以歸納的系統(tǒng)。通過訓(xùn)練其在博弈中的行為可以幫助限定算法需要考慮的潛在情況。這使得AI的反應(yīng)可以更為迅速而準(zhǔn)確,Bowling說到。為了訓(xùn)練深度堆棧的神經(jīng)網(wǎng)絡(luò),研究人員讓其解了超過一千萬局隨機(jī)生成的牌局。
去年研究人員為測(cè)試深度堆棧,安排它與國際撲克聯(lián)合會(huì)選出的33名專業(yè)撲克玩家對(duì)戰(zhàn)。在4周的時(shí)間里,程序共演算了44852局一對(duì)一無限注德州撲克,這是一種雙玩家無下注上限的版本。通過公式估算其中非策略、偶然獲勝的比例后,最終深度堆棧的勝率為486mbb每局,1mbb定義是每局獲勝需要押注的千分之一。這是專業(yè)選手一般認(rèn)為很大的利潤率的10倍,該團(tuán)隊(duì)的結(jié)果已在science上報(bào)道。
這項(xiàng)結(jié)果呼應(yīng)了幾周前大獲成功的Libratus,一款由Carnegie Mellon 大學(xué)設(shè)計(jì)的撲克AI。經(jīng)過長達(dá)20天,共約120000手牌的激戰(zhàn),AI戰(zhàn)勝了4位人類頂尖的德州撲克玩家。兩個(gè)團(tuán)隊(duì)都聲稱其AI在德州撲克的優(yōu)勢(shì)已經(jīng)在統(tǒng)計(jì)上確認(rèn)了。不同之處在于Libratus缺少深度學(xué)習(xí)的過程而需要更多的計(jì)算資源,它的算法每次都對(duì)游戲進(jìn)行完整的運(yùn)算。而深度堆棧在筆記本電腦上就可以跑,Bowling說。
雖然目前還不知道這兩個(gè)AI誰是德州撲克王中王——暫時(shí)也沒有安排兩個(gè)對(duì)戰(zhàn)的計(jì)劃——雙方團(tuán)隊(duì)都在把系統(tǒng)加以改造以適用于更加復(fù)雜的實(shí)際問題中,像是安保和談判。Bowling正試圖將其應(yīng)用在公共運(yùn)輸信譽(yù)系統(tǒng)中優(yōu)化查票機(jī)制。
研究者還很關(guān)注該技術(shù)在商業(yè)上的影響。由于其可以在非完美信息下作決斷, 可以幫助房子的買家在知道所有競(jìng)價(jià)前預(yù)測(cè)競(jìng)標(biāo)價(jià)格,制定抵押計(jì)劃。其它的完美信息系統(tǒng),例如阿爾法狗就沒辦法做到這一點(diǎn),因?yàn)槿狈?duì)其他競(jìng)標(biāo)數(shù)量和大小等的限制條件。
當(dāng)然,距離深度堆棧能夠完全模仿復(fù)雜的人類決策還有很多年,Bowling說。機(jī)器還要學(xué)會(huì)在不知道游戲規(guī)則的情況下如何做決策,好比如果AI沒有提前進(jìn)行神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)。
Campbell同意這一點(diǎn),打撲克是比下棋復(fù)雜不少了,但要能處理一團(tuán)亂麻的現(xiàn)實(shí)世界還要繼續(xù)努力。