機(jī)器人在未來將可能擁有跟人一樣的意識
人工智能正以多種方式進(jìn)入我們的生活——手機(jī)智能助手幫助我們完成一系列基礎(chǔ)任務(wù),智能家電能自動打掃我們的房屋,地圖導(dǎo)航指揮著我們該駛向何方。
在未來的幾年中,無論是在家中還是在其他環(huán)境中,機(jī)器人都可以通過多種方式為人類用戶提供幫助。為了更直觀,機(jī)器人應(yīng)該能夠遵循自然語言的命令和說明,因?yàn)檫@使用戶可以像與其他人一樣與他們進(jìn)行通信。
可解釋性AI(XAI)是人工智能研究的一個(gè)分支,它的關(guān)注點(diǎn)在于如何提升人工智能之于人類的可信任度。要實(shí)現(xiàn)機(jī)器人和人一起和諧工作的愿景,可信度發(fā)揮著至關(guān)重要的作用。XAI便致力于開發(fā)讓人類感覺值得信賴的人工智能系統(tǒng),以促進(jìn)它們更好地融入人類社會。
考慮到這一點(diǎn),麻省理工學(xué)院的大腦、思維和機(jī)器中心的研究人員最近開發(fā)了一種基于采樣的機(jī)器人計(jì)劃程序,可以訓(xùn)練該程序來理解自然語言命令的序列。他們開發(fā)的系統(tǒng)發(fā)表在arXiv上預(yù)先發(fā)表的一篇論文中,該系統(tǒng)將深度神經(jīng)網(wǎng)絡(luò)與基于采樣的計(jì)劃程序結(jié)合在一起。
進(jìn)行這項(xiàng)研究的研究人員之一安德烈·巴布(Andrei Barbu)表示:“出于安全考慮,并且因?yàn)檎Z言是詢問您想要的東西的最便捷界面,確保我們家中的未來機(jī)器人能夠理解我們是非常重要的?!?“我們的工作結(jié)合了三方面的研究:機(jī)器人計(jì)劃,深度網(wǎng)絡(luò)以及我們自己的機(jī)器如何理解語言的工作??傮w目標(biāo)是僅給機(jī)器人提供一些句子含義的示例,并使其遵循新的命令,從未聽過的新句子?!?/p>
Barbu和他的同事進(jìn)行的這項(xiàng)研究的深遠(yuǎn)目標(biāo)是更好地理解肢體語言交流。實(shí)際上,雖然現(xiàn)在已經(jīng)很好地理解了語音交流背后的功能和機(jī)制,但大多數(shù)在動物和人類之間進(jìn)行的交流都是非語言的。更好地理解肢體語言可能會導(dǎo)致開發(fā)更有效的機(jī)器人與人之間交流的策略。因此,麻省理工學(xué)院的研究人員一直在探索將句子翻譯成機(jī)器人動作的可能性,反之亦然。他們最近的研究是朝這個(gè)方向邁出的第一步。
進(jìn)行這項(xiàng)研究的另一位研究員郭延齡(Yen-Ling Kuo)表示:“機(jī)器人規(guī)劃人員在探索機(jī)器人可以做什么然后讓機(jī)器人執(zhí)行動作方面非常了不起?!?“我們的作品需要一個(gè)句子,將其分解成小塊,這些小塊被翻譯成小的網(wǎng)絡(luò),然后重新組合在一起?!?/p>
就像語言是由可以按照語法規(guī)則組合成句子的單詞組成的一樣,由Barbu,Kuo和他們的同事Boris Katz開發(fā)的網(wǎng)絡(luò)由經(jīng)過培訓(xùn)的,可以理解單個(gè)概念的較小網(wǎng)絡(luò)組成。當(dāng)組合在一起時(shí),這些規(guī)則網(wǎng)絡(luò)可以發(fā)現(xiàn)并代表整個(gè)句子的含義。
無獨(dú)有偶,加州大學(xué)洛杉磯分校的研究團(tuán)隊(duì)最近也在嘗試讓機(jī)器人向人類用戶解釋它的行動的內(nèi)容和目標(biāo),并證明這么做是有效的。有趣的是,可信賴度最高的智能自我解釋形式,與性能最佳的學(xué)習(xí)算法并不對應(yīng)??梢姡瑱C(jī)器人的XAI能力并不相同——我們不能只單獨(dú)優(yōu)化它的性能或自我解釋的能力。這要求在設(shè)計(jì)機(jī)器人的過程中既要考慮良好的性能,又要考慮到可信賴度高的自我解釋形式。
用戶演示、機(jī)器學(xué)習(xí)、任務(wù)表現(xiàn)和解釋能力的關(guān)系圖
機(jī)器人如何才能做到最高效率地執(zhí)行用戶指定的任務(wù)?用戶又應(yīng)如何回應(yīng)機(jī)器人的自我解釋行為呢?為了回答這兩個(gè)問題,加州大學(xué)洛杉磯分校的研究團(tuán)隊(duì)決定做一個(gè)實(shí)驗(yàn),他們嘗試讓機(jī)器人學(xué)習(xí)如何擰開藥瓶的瓶蓋。實(shí)驗(yàn)中,一個(gè)研究人員戴著一個(gè)有觸覺記憶系統(tǒng)的手套,當(dāng)他打開瓶子時(shí),手套會記錄下人手的姿勢和力量。這能幫助機(jī)器人通過象征性信息和觸覺信息來了解人類的行為。
象征性信息是指有意義的行為動作,比如抓取的動作。觸覺信息指的是與身體姿勢和動作相關(guān)的感覺,例如手指合攏的感覺信息。機(jī)器人在吸收了象征性信息后,會對完成打開瓶子的任務(wù)所需的步驟序列進(jìn)行編碼。在接觸觸覺信息后,機(jī)器人將形成一種觸覺模型,該模型幫助機(jī)器人“想象”著自己處于人類用戶的視角,并試著預(yù)測人類在這種場合會采取什么行動。
?
?
事實(shí)證明,當(dāng)把象征性信息和觸覺信息結(jié)合在一起輸入系統(tǒng)時(shí),機(jī)器人能夠達(dá)到自身的最佳性能。與單獨(dú)分開輸入這兩種信息相比,同時(shí)獲得這兩種信息的機(jī)器人在依照步驟來執(zhí)行任務(wù)和通過夾持器進(jìn)行實(shí)時(shí)感知方面表現(xiàn)得更好。也就是說,要讓機(jī)器人高效率地執(zhí)行任務(wù),共同輸入這兩項(xiàng)信息是必不可少的。
象征性信息的總結(jié)和語法符號推導(dǎo)過程示意圖
而MIT研究人員開發(fā)的新型機(jī)器人計(jì)劃器,則更為深入的闡述了這一實(shí)驗(yàn)原理,它具有兩個(gè)關(guān)鍵組成部分。第一個(gè)是遞歸的分層深度神經(jīng)網(wǎng)絡(luò),它控制計(jì)劃者如何探索周圍的環(huán)境,同時(shí)還預(yù)測何時(shí)計(jì)劃的路徑很可能實(shí)現(xiàn)給定的目標(biāo),并分別估計(jì)機(jī)器人可能進(jìn)行的每個(gè)動作的有效性。第二個(gè)是經(jīng)常在機(jī)器人技術(shù)研究中使用的基于采樣的計(jì)劃程序,稱為快速探索隨機(jī)樹(RRT)。
MIT團(tuán)隊(duì)的Barbu解釋說:“我們計(jì)劃人員的主要優(yōu)勢在于,它幾乎不需要培訓(xùn)數(shù)據(jù)?!?“如果你想教一個(gè)機(jī)器人,你不會在家中給它提供數(shù)以千計(jì)的例子,但是有幾個(gè)例子是非常合理的。訓(xùn)練機(jī)器人應(yīng)該采取與訓(xùn)練狗一樣的動作?!?/p>
盡管過去的研究還探索了通過口頭命令引導(dǎo)機(jī)器人的方法,但其中介紹的技術(shù)通常僅適用于離散環(huán)境,在這種環(huán)境中,機(jī)器人只能執(zhí)行有限的動作。另一方面,研究人員開發(fā)的計(jì)劃程序可以支持與周圍環(huán)境的各種交互,即使它們涉及到機(jī)器人從未遇到過的物體。
對此,加州大學(xué)洛杉磯分校研究人員考慮的是,既然機(jī)器人能夠理解自己要做的任務(wù),它又該怎么向人類用戶解釋它的行為呢?這種自我解釋真的能促進(jìn)人類對機(jī)器人的信任嗎?因此在他們的實(shí)驗(yàn)中,團(tuán)隊(duì)為人類添加了自我解釋的流程:在機(jī)器人完成打開藥瓶的任務(wù)后,它需用文本記錄的形式提供了一個(gè)任務(wù)執(zhí)行總結(jié)。團(tuán)隊(duì)邀請了150名參與者,分成五組,觀察機(jī)器人執(zhí)行打開藥瓶的任務(wù)的過程。
任務(wù)完成后,機(jī)器人給其中四組提供不同的任務(wù)解釋——基于象征性信息的解釋文本能詳細(xì)說明每個(gè)步驟的動作內(nèi)容,基于觸覺信息的解釋文本則著重于說明機(jī)械手臂夾持的位置和姿勢,總結(jié)性的解釋文本則將象征性信息和觸覺信息結(jié)合在一起,而第五組的參與者只能觀看機(jī)器人開瓶子的視頻,沒有得到任何文本反饋。
A)解釋面板實(shí)物;B)象征性解釋文本;C)觸覺說明文本;D)文字說明總結(jié)
MIT團(tuán)隊(duì)發(fā)現(xiàn),同時(shí)提供象征性和觸覺信息的文本解釋最能培養(yǎng)機(jī)器人與人類之間的信任。有趣的是,完全基于觸覺信息的解釋文本在增強(qiáng)人機(jī)之間的信賴感方面并無貢獻(xiàn),這表明人類更喜歡機(jī)器人逐步解釋它們工作的內(nèi)容。
MIT的Kuo對此的解釋是:“當(dāng)我們的網(wǎng)絡(luò)混亂時(shí),計(jì)劃者需要負(fù)責(zé)接管工作,弄清楚該怎么做,然后網(wǎng)絡(luò)下次可以接手該做什么時(shí)就可以接管?!?“我們的模型是由零件組成的,這也賦予了它另一個(gè)令人希望的特性:可解釋性。”
當(dāng)他們無法完成給定的任務(wù)時(shí),許多現(xiàn)有的機(jī)器學(xué)習(xí)模型將無法提供有關(guān)出了什么問題以及遇到的問題的信息。這使得開發(fā)人員更難識別模型的缺點(diǎn)并有針對性地更改其架構(gòu)。另一方面,由Barbu,Kuo和Katz創(chuàng)建的機(jī)器人計(jì)劃器的深度學(xué)習(xí)組件逐步展示了其推理能力,闡明了所處理的每個(gè)單詞傳達(dá)的關(guān)于世界的信息以及它如何將分析結(jié)果結(jié)合在一起。這使研究人員能夠找出導(dǎo)致其過去無法成功完成給定操作的問題,并進(jìn)行體系結(jié)構(gòu)更改以確保其在將來的嘗試中能夠成功。
Barbu說:“我們對機(jī)器人可以在很少的人類幫助下快速學(xué)習(xí)語言并快速學(xué)習(xí)新單詞的觀點(diǎn)感到非常興奮?!?“通常,深度學(xué)習(xí)被認(rèn)為是非常耗費(fèi)數(shù)據(jù)的;這項(xiàng)工作強(qiáng)化了這樣一種觀念,即當(dāng)您建立正確的原則(組成性)并讓代理執(zhí)行有意義的動作時(shí),他們不需要那么多的數(shù)據(jù)。”
MIT研究人員通過一系列實(shí)驗(yàn)評估了規(guī)劃器的性能,同時(shí)還將其性能與現(xiàn)有RRT模型的性能進(jìn)行了比較。在這些測試中,計(jì)劃人員成功地獲取了單詞的含義,并使用所學(xué)的知識來表示以前從未遇到過的句子序列,其表現(xiàn)優(yōu)于與之相比的所有模型。
將來,由這組研究人員開發(fā)的模型可以為能夠更有效地處理和遵循自然語言命令的機(jī)器人的開發(fā)提供信息。目前,他們的計(jì)劃者允許機(jī)器人處理和執(zhí)行簡單的指令,例如“撿起桌子上的盤子”,但仍無法捕捉到更復(fù)雜的指令的含義,例如“當(dāng)玩具落在盤子上時(shí)撿起娃娃”地板并清潔它。因此,MIT的Barbu,Kuo和Katz目前正在嘗試擴(kuò)大機(jī)器人可以理解的句子范圍。
Kuo說:“我們的長期未來目標(biāo)是探索逆向計(jì)劃的思想?!?“這意味著,如果我們可以將語言轉(zhuǎn)變?yōu)闄C(jī)器人動作,那么我們也可以觀察動作并詢問機(jī)器人'當(dāng)他們這樣做時(shí),人們在想什么?” 我們希望這將成為解鎖機(jī)器人肢體語言的關(guān)鍵。”
這兩項(xiàng)研究最有趣的結(jié)果是,機(jī)器人的良好性能與讓它們博取人類信任的因素是完全不同的。這也突顯了未來人工智能和機(jī)器人研究領(lǐng)域的重要目標(biāo):專注于追求機(jī)器性能和自我解釋能力,而不厚己薄彼。
XAI能力并非兩個(gè)可以實(shí)現(xiàn)互補(bǔ)的因素,因此在構(gòu)建AI系統(tǒng)時(shí),兩者都是需要著重考慮的首要目標(biāo)。這項(xiàng)工作也是系統(tǒng)研究人機(jī)關(guān)系發(fā)展前景的關(guān)鍵環(huán)節(jié),若研究人員能從中得出具有突破性的成就,那么,未來研究中更具挑戰(zhàn)性的一環(huán)將是從“我相信機(jī)器人做X”到“我相信機(jī)器人”。
機(jī)器人要想在人們的日常生活中占有一席之地,必須先獲得人類的信任。了解機(jī)器人如何提供有助于增進(jìn)人類的信賴度的自我解釋文本,是使人類和機(jī)器人能夠共同工作、和睦相處的重要一步。