人工智能技術(shù)怎樣變得更強
大數(shù)據(jù)為什么不夠聰明?比概率語言更強大的思考工具是什么?科幻電影中的強人工智能到底怎樣實現(xiàn)?如何讓智能機器像人一樣思考?搞清楚因果關(guān)系才能撥云見日。
圖靈獎得主、“貝葉斯網(wǎng)絡(luò)之父”朱迪亞·珀爾(Judea Pearl)的重磅力作 《為什么:關(guān)于因果關(guān)系的新科學(xué)》 中就為我們解答了這些問題。
人工智能領(lǐng)域中的大多數(shù)問題都是決策問題。1939 年,統(tǒng)計學(xué)家亞伯拉罕·沃德撰文指出參數(shù)估計和假設(shè)檢驗都是統(tǒng)計決策問題,甚至計劃把整個統(tǒng)計學(xué)納入統(tǒng)計決策理論的框架。損失函數(shù)是統(tǒng)計決策的起點,給定了損失函數(shù),貝葉斯學(xué)派將始終如一地選擇期望損失最小的決策,有或沒有觀測數(shù)據(jù)時都是如此。頻率派則需要預(yù)先制定決策規(guī)則,基于損失函數(shù)和樣本定義一個風(fēng)險函數(shù),然后根據(jù)某些原則(如極大極小原則、貝葉斯風(fēng)險原則等)來選擇最優(yōu)的決策。
如果決策是基于被動接受的觀測數(shù)據(jù),那么它就處于因果關(guān)系之梯的第一層級,強烈地依賴于觀測數(shù)據(jù),因而難免帶有偏頗。而有了第二層級的利器——干預(yù),決策就可以不受觀察樣本的束縛,把一些樣本無法反映的事實揭露出來。簡而言之,達(dá)到第二層級的 AI 將具有主動實施行動來分析因果效應(yīng)的能力,這種能力使得決策行為更加智能化。
第三層級的反事實推理允許機器擁有“想象能力”。反事實推理考慮的是一個假想世界,是無法通過直接觀測數(shù)據(jù)進(jìn)行推理的,必須借助一個因果模型。
因果關(guān)系之梯
時至今日,深度學(xué)習(xí)依然是 AI 的熱點方法,甚至有人將之盲目地等同于 AI。其實,機器學(xué)習(xí)的方法多如牛毛,深度學(xué)習(xí)只是滄海一粟。理論上可以證明,人工智能即便在因果關(guān)系之梯的最低層級做到極致,也無法躍升到干預(yù)層面,更不可能進(jìn)入反事實的世界。
作為處在因果關(guān)系之梯最低層級的機器學(xué)習(xí)技術(shù),大數(shù)據(jù)分析就是多變量統(tǒng)計分析,深度學(xué)習(xí)就是隱層多了一些的神經(jīng)網(wǎng)絡(luò)而已,理論上沒有太多新意。珀爾教授認(rèn)為大數(shù)據(jù)分析和深度學(xué)習(xí)(甚至多數(shù)傳統(tǒng)的機器學(xué)習(xí))都處于因果關(guān)系之梯的第一層級,因為它們的研究對象還是相關(guān)關(guān)系而非因果關(guān)系。
珀爾并沒有貶低處于因果關(guān)系之梯最低層級的相關(guān)性分析,他只是在提醒我們不要滿足于這個高度,還要繼續(xù)向上攀登。不同層級之間也可以形成合作,例如,在實踐中,深度學(xué)習(xí)可用于擬合強化學(xué)習(xí)中的策略,二者強強聯(lián)手,成為“深度強化學(xué)習(xí)”,后者曾作為核心技術(shù)之一在 AlphaGo(“阿爾法狗”)那里大放異彩。
眾所周知,這輪 AI 的爆發(fā)在很大程度上得益于算力的提升,例如,深度學(xué)習(xí)就是人工神經(jīng)網(wǎng)絡(luò)借助算力的“卷土重來”,把數(shù)據(jù)驅(qū)動的方法推向了一個巔峰。人們甚至產(chǎn)生了一個幻覺 ——“所有科學(xué)問題的答案都藏于數(shù)據(jù)之中,有待巧妙的數(shù)據(jù)挖掘技巧來揭示”。珀爾教授批判了這種思潮,他將因果模型置于更高的位置,把數(shù)學(xué)或統(tǒng)計建模的榮耀重新歸還給了相應(yīng)領(lǐng)域的專家。我們希望,未來的機器學(xué)習(xí)可以不再靠煉金術(shù)士的碰運氣而獲得成功,隨著知識推理和計算越發(fā)受到關(guān)注,可解釋 AI 將從關(guān)于因果關(guān)系的新科學(xué)中汲取更多的力量,甚至可以闖進(jìn)反事實的世界。
DeepMind 研發(fā)的 AlphaGo 圍棋程序在 2016 年首次打敗了人類頂尖圍棋高手李世石,次年橫掃所有人類高手取得全勝(包括以 3∶0 戰(zhàn)勝柯潔)。聶衛(wèi)平(九段)稱它的水平為“至少二十段”。AlphaGo 采用深度強化學(xué)習(xí)和蒙特卡羅樹搜索,其最終版本 AlphaGo Zero 僅需要 3 天便可自我訓(xùn)練至戰(zhàn)勝李世石的水平。2017 年,DeepMind 宣布 AlphaGo“退役”, 不再參加任何圍棋比賽。
在棋類游戲中,圍棋所包含的巨大的搜索空間(其狀態(tài)數(shù)遠(yuǎn)遠(yuǎn)超過整個宇宙中的原子數(shù))一直是機器學(xué)習(xí)未能攻克的難題,甚至一度被認(rèn)為在近期內(nèi)是不可能被 AI 解決的。AlphaGo 的成功不僅讓人們看到了強化學(xué)習(xí)和隨機模擬技術(shù)(也稱“蒙特卡羅”技術(shù))的魅力,也讓深度學(xué)習(xí)變得更加炙手可熱。冷靜之余,人們認(rèn)識到 AlphaGo 的算法更適用于大規(guī)模概率空間的智能搜索,其環(huán)境和狀態(tài)都是可模擬的。DeepMind 的創(chuàng)始人德米斯·哈薩比斯表示,對于那些環(huán)境難以模擬的決策問題(如自動駕駛),這些算法也無能為力。珀爾在《為什么》第十章也談?wù)摿?AlphaGo,他認(rèn)為缺乏可解釋性是它的硬傷。
拿強化學(xué)習(xí)來說,它不同于有監(jiān)督學(xué)習(xí)(supervised learning)和無監(jiān)督學(xué)習(xí)(unsupervised learning),是基于馬爾科夫決策過程發(fā)展起來的第三類機器學(xué)習(xí)方法——智能體通過與環(huán)境互動變得越來越“聰明”。強化學(xué)習(xí)和因果推斷都尋求策略(policy),其中,行動之間是有因果關(guān)系的,但因果推斷更開放一些,它可以利用數(shù)據(jù)之外的知識來推斷策略的效果。強化學(xué)習(xí)允許推斷干預(yù)的結(jié)果,因此能攀上因果關(guān)系之梯的第二層級。通過模擬環(huán)境,強化學(xué)習(xí)無須從現(xiàn)實世界獲取觀測數(shù)據(jù)來訓(xùn)練模型,所以也有可能產(chǎn)生反事實從而登上因果關(guān)系之梯的第三層級。盡管目前的強化學(xué)習(xí)很少用到先驗知識,我們?nèi)院芎闷鎻娀瘜W(xué)習(xí)和因果推斷的理論聯(lián)系。
未來人工智能的發(fā)展也有“綜合”的趨勢。譬如,語音、圖像、視頻數(shù)據(jù)等都可以轉(zhuǎn)換成文字,而 AI 技術(shù)則能幫助我們加深對數(shù)據(jù)的理解。同時,借助 AI 技術(shù)(包括因果推斷)更好地理解數(shù)據(jù)也能助力模型訓(xùn)練并改進(jìn)應(yīng)用效果。同理,因果論和現(xiàn)有的機器學(xué)習(xí)等 AI 技術(shù)有沒有可能聯(lián)手互惠互利?例如,因果推斷所考慮的變量越多,對計算的挑戰(zhàn)就越大,那么,基于蒙特卡羅方法的近似計算是否能其助一臂之力?機器學(xué)習(xí)能否幫助和改進(jìn)因果建模?這些問題都有待深入的研究。
因果的形式化理論,不僅解決了困擾統(tǒng)計學(xué)家很多年的一些悖論,更重要的是,(1)利用“干預(yù)”讓人類和機器擺脫了被動觀察,從而轉(zhuǎn)向主動地去探索因果關(guān)系,以便做出更好的決策;(2)利用“反事實推理”擴展了想象的空間,從而擺脫了現(xiàn)實世界的束縛。這兩點突破實現(xiàn)了因果革命,并分別構(gòu)成了因果關(guān)系之梯的第二層級和第三層級的內(nèi)容。沿著因果關(guān)系之梯,機器便有望擁有強人工智能。
來源:明日情報