剛顛覆了圍棋，人工智能又要攻陷德州撲克

時間：2017-01-11 12:14:19

關(guān)鍵字：人工智能德州撲克新鮮事 deepstack

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]谷歌旗下DeepMind研發(fā)的阿爾法狗(AlphaGo)剛以“Master”的名義戰(zhàn)勝了“當今圍棋第一人”柯潔，宣告人工智能針對人類的又一輪勝利，引起軒然大波。緊接著，人工智能在撲克游戲中的捷報似乎又已經(jīng)發(fā)出。

谷歌旗下DeepMind研發(fā)的阿爾法狗(AlphaGo)剛以“Master”的名義戰(zhàn)勝了“當今圍棋第一人”柯潔，宣告人工智能針對人類的又一輪勝利，引起軒然大波。緊接著，人工智能在撲克游戲中的捷報似乎又已經(jīng)發(fā)出。

據(jù)報道，來自加拿大和捷克的10位科學(xué)家近日在預(yù)印本網(wǎng)站arXiv上載了一篇題為《DeepStack：無限注德?lián)涞膶I(yè)級人工智能玩家》的論文，介紹了一種能在一對一無限注德州撲克中擊敗人類玩家的新算法DeepStack。

在過去的20年里，我們見證了許多游戲領(lǐng)域在人工智能面前紛紛“淪陷”，比如深藍攻陷象棋，阿爾法狗60次擊敗各路圍棋選手，而在撲克領(lǐng)域，2008年，來自阿爾伯塔大學(xué)的團隊也曾對人類挑戰(zhàn)成功，不過是在有限制德?lián)鋵﹃嚿稀?/p>

而之所以在撲克類游戲中，人工智能的進展不大，主要是撲克類游戲的不確定性。而圍棋等棋類游戲是完美信息游戲，也就是說，所有玩家在游戲中能獲得的確定性信息是對稱的。

在棋類游戲的對陣中，人工智能可以憑借自己的計算優(yōu)勢，看到所有棋盤上的棋子，人類玩家的每一步落棋，都能被人工智能計算出所有的可能性。

但是，人類生活中還要面臨更多非完美信息的情景，正如計算機之父馮·諾依曼所說，

“現(xiàn)實世界與此不同，現(xiàn)實世界包含有很多賭注、一些欺騙的戰(zhàn)術(shù)，還涉及你會思考別人會認為你將做什么。”

德州撲克就是這樣一種包含了欺騙、推測的非完美信息游戲，人工智能并不知道發(fā)牌員發(fā)出的下一張牌是什么，也不知道對手握的什么牌，只能掌握自己手上的牌，通過這種非對稱的信息與對手進行博弈。

因此，雖然一對一無限注德?lián)溆螒蛑邪?0的160次方個決策點，要少于圍棋，但它對人工智能的推理能力提出了更高的要求。在創(chuàng)新工場《人工智能戰(zhàn)略展望會》上，李開復(fù)表示，“我們?nèi)魏蔚墓ぷ魅绻f不經(jīng)過，超過五秒鐘的思考，都是做不過機器的。”

而當人工智能被培養(yǎng)出了類似人的“直覺”，如今這項有時需要經(jīng)過50秒思考的游戲，或許也將在人工智能面前失守。

加拿大和捷克的合作團隊開發(fā)出了新算法DeepStack。在運用深度學(xué)習，反復(fù)自我博弈之后，DeepStack學(xué)會了在每一個具體情境出現(xiàn)時進行推理。這非常接近人類玩家的“牌感”，即在當前情境下對個人牌面大小的感覺，并作出相應(yīng)的決策。

而通過這種“直覺”，DeepStack已經(jīng)取得了超出人類數(shù)十倍的成績。該團隊邀請了來自17個國家的33名專業(yè)撲克選手挑戰(zhàn)DeepStack，在2016年11月7日到12月12日之間共進行了44852次較量。DeepStack成為了首個在一對一無限注德?lián)渲袘?zhàn)勝人類玩家的人工智能，并且平均勝率達到了492mbb/g(milli-big-blinds per game，一般職業(yè)玩家認為50mbb/g是個門檻)。

不過暫時不用擔心的是，DeepStack目前的成績僅限于一對一無限制級對陣中，多人參與的德州撲克，人工智能還是有心無力的。