人工智能技術(shù)怎樣變得更強

時間：2020-05-20 19:42:01

關(guān)鍵字： AI 人工智能技術(shù) ALPHAGO 機器學(xué)習(xí)

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀] 大數(shù)據(jù)為什么不夠聰明？比概率語言更強大的思考工具是什么？科幻電影中的強人工智能到底怎樣實現(xiàn)？如何讓智能機器像人一樣思考？搞清楚因果關(guān)系才能撥云見日。圖靈獎得主、“貝葉斯網(wǎng)絡(luò)之父”朱迪亞

大數(shù)據(jù)為什么不夠聰明？比概率語言更強大的思考工具是什么？科幻電影中的強人工智能到底怎樣實現(xiàn)？如何讓智能機器像人一樣思考？搞清楚因果關(guān)系才能撥云見日。

圖靈獎得主、“貝葉斯網(wǎng)絡(luò)之父”朱迪亞·珀爾（Judea Pearl）的重磅力作《為什么：關(guān)于因果關(guān)系的新科學(xué)》中就為我們解答了這些問題。

人工智能領(lǐng)域中的大多數(shù)問題都是決策問題。1939 年，統(tǒng)計學(xué)家亞伯拉罕·沃德撰文指出參數(shù)估計和假設(shè)檢驗都是統(tǒng)計決策問題，甚至計劃把整個統(tǒng)計學(xué)納入統(tǒng)計決策理論的框架。損失函數(shù)是統(tǒng)計決策的起點，給定了損失函數(shù)，貝葉斯學(xué)派將始終如一地選擇期望損失最小的決策，有或沒有觀測數(shù)據(jù)時都是如此。頻率派則需要預(yù)先制定決策規(guī)則，基于損失函數(shù)和樣本定義一個風(fēng)險函數(shù)，然后根據(jù)某些原則（如極大極小原則、貝葉斯風(fēng)險原則等）來選擇最優(yōu)的決策。

如果決策是基于被動接受的觀測數(shù)據(jù)，那么它就處于因果關(guān)系之梯的第一層級，強烈地依賴于觀測數(shù)據(jù)，因而難免帶有偏頗。而有了第二層級的利器——干預(yù)，決策就可以不受觀察樣本的束縛，把一些樣本無法反映的事實揭露出來。簡而言之，達(dá)到第二層級的 AI 將具有主動實施行動來分析因果效應(yīng)的能力，這種能力使得決策行為更加智能化。

第三層級的反事實推理允許機器擁有“想象能力”。反事實推理考慮的是一個假想世界，是無法通過直接觀測數(shù)據(jù)進(jìn)行推理的，必須借助一個因果模型。

因果關(guān)系之梯

時至今日，深度學(xué)習(xí)依然是 AI 的熱點方法，甚至有人將之盲目地等同于 AI。其實，機器學(xué)習(xí)的方法多如牛毛，深度學(xué)習(xí)只是滄海一粟。理論上可以證明，人工智能即便在因果關(guān)系之梯的最低層級做到極致，也無法躍升到干預(yù)層面，更不可能進(jìn)入反事實的世界。

作為處在因果關(guān)系之梯最低層級的機器學(xué)習(xí)技術(shù)，大數(shù)據(jù)分析就是多變量統(tǒng)計分析，深度學(xué)習(xí)就是隱層多了一些的神經(jīng)網(wǎng)絡(luò)而已，理論上沒有太多新意。珀爾教授認(rèn)為大數(shù)據(jù)分析和深度學(xué)習(xí)（甚至多數(shù)傳統(tǒng)的機器學(xué)習(xí)）都處于因果關(guān)系之梯的第一層級，因為它們的研究對象還是相關(guān)關(guān)系而非因果關(guān)系。

珀爾并沒有貶低處于因果關(guān)系之梯最低層級的相關(guān)性分析，他只是在提醒我們不要滿足于這個高度，還要繼續(xù)向上攀登。不同層級之間也可以形成合作，例如，在實踐中，深度學(xué)習(xí)可用于擬合強化學(xué)習(xí)中的策略，二者強強聯(lián)手，成為“深度強化學(xué)習(xí)”，后者曾作為核心技術(shù)之一在 AlphaGo（“阿爾法狗”）那里大放異彩。

眾所周知，這輪 AI 的爆發(fā)在很大程度上得益于算力的提升，例如，深度學(xué)習(xí)就是人工神經(jīng)網(wǎng)絡(luò)借助算力的“卷土重來”，把數(shù)據(jù)驅(qū)動的方法推向了一個巔峰。人們甚至產(chǎn)生了一個幻覺 ——“所有科學(xué)問題的答案都藏于數(shù)據(jù)之中，有待巧妙的數(shù)據(jù)挖掘技巧來揭示”。珀爾教授批判了這種思潮，他將因果模型置于更高的位置，把數(shù)學(xué)或統(tǒng)計建模的榮耀重新歸還給了相應(yīng)領(lǐng)域的專家。我們希望，未來的機器學(xué)習(xí)可以不再靠煉金術(shù)士的碰運氣而獲得成功，隨著知識推理和計算越發(fā)受到關(guān)注，可解釋 AI 將從關(guān)于因果關(guān)系的新科學(xué)中汲取更多的力量，甚至可以闖進(jìn)反事實的世界。

DeepMind 研發(fā)的 AlphaGo 圍棋程序在 2016 年首次打敗了人類頂尖圍棋高手李世石，次年橫掃所有人類高手取得全勝（包括以 3∶0 戰(zhàn)勝柯潔）。聶衛(wèi)平（九段）稱它的水平為“至少二十段”。AlphaGo 采用深度強化學(xué)習(xí)和蒙特卡羅樹搜索，其最終版本 AlphaGo Zero 僅需要 3 天便可自我訓(xùn)練至戰(zhàn)勝李世石的水平。2017 年，DeepMind 宣布 AlphaGo“退役”，不再參加任何圍棋比賽。

在棋類游戲中，圍棋所包含的巨大的搜索空間（其狀態(tài)數(shù)遠(yuǎn)遠(yuǎn)超過整個宇宙中的原子數(shù)）一直是機器學(xué)習(xí)未能攻克的難題，甚至一度被認(rèn)為在近期內(nèi)是不可能被 AI 解決的。AlphaGo 的成功不僅讓人們看到了強化學(xué)習(xí)和隨機模擬技術(shù)（也稱“蒙特卡羅”技術(shù)）的魅力，也讓深度學(xué)習(xí)變得更加炙手可熱。冷靜之余，人們認(rèn)識到 AlphaGo 的算法更適用于大規(guī)模概率空間的智能搜索，其環(huán)境和狀態(tài)都是可模擬的。DeepMind 的創(chuàng)始人德米斯·哈薩比斯表示，對于那些環(huán)境難以模擬的決策問題（如自動駕駛），這些算法也無能為力。珀爾在《為什么》第十章也談?wù)摿?AlphaGo，他認(rèn)為缺乏可解釋性是它的硬傷。

拿強化學(xué)習(xí)來說，它不同于有監(jiān)督學(xué)習(xí)（supervised learning）和無監(jiān)督學(xué)習(xí)（unsupervised learning），是基于馬爾科夫決策過程發(fā)展起來的第三類機器學(xué)習(xí)方法——智能體通過與環(huán)境互動變得越來越“聰明”。強化學(xué)習(xí)和因果推斷都尋求策略（policy），其中，行動之間是有因果關(guān)系的，但因果推斷更開放一些，它可以利用數(shù)據(jù)之外的知識來推斷策略的效果。強化學(xué)習(xí)允許推斷干預(yù)的結(jié)果，因此能攀上因果關(guān)系之梯的第二層級。通過模擬環(huán)境，強化學(xué)習(xí)無須從現(xiàn)實世界獲取觀測數(shù)據(jù)來訓(xùn)練模型，所以也有可能產(chǎn)生反事實從而登上因果關(guān)系之梯的第三層級。盡管目前的強化學(xué)習(xí)很少用到先驗知識，我們?nèi)院芎闷鎻娀瘜W(xué)習(xí)和因果推斷的理論聯(lián)系。

未來人工智能的發(fā)展也有“綜合”的趨勢。譬如，語音、圖像、視頻數(shù)據(jù)等都可以轉(zhuǎn)換成文字，而 AI 技術(shù)則能幫助我們加深對數(shù)據(jù)的理解。同時，借助 AI 技術(shù)（包括因果推斷）更好地理解數(shù)據(jù)也能助力模型訓(xùn)練并改進(jìn)應(yīng)用效果。同理，因果論和現(xiàn)有的機器學(xué)習(xí)等 AI 技術(shù)有沒有可能聯(lián)手互惠互利？例如，因果推斷所考慮的變量越多，對計算的挑戰(zhàn)就越大，那么，基于蒙特卡羅方法的近似計算是否能其助一臂之力？機器學(xué)習(xí)能否幫助和改進(jìn)因果建模？這些問題都有待深入的研究。

因果的形式化理論，不僅解決了困擾統(tǒng)計學(xué)家很多年的一些悖論，更重要的是，（1）利用“干預(yù)”讓人類和機器擺脫了被動觀察，從而轉(zhuǎn)向主動地去探索因果關(guān)系，以便做出更好的決策;（2）利用“反事實推理”擴展了想象的空間，從而擺脫了現(xiàn)實世界的束縛。這兩點突破實現(xiàn)了因果革命，并分別構(gòu)成了因果關(guān)系之梯的第二層級和第三層級的內(nèi)容。沿著因果關(guān)系之梯，機器便有望擁有強人工智能。

來源：明日情報