機(jī)器人在未來將可能擁有跟人一樣的意識

時(shí)間：2020-05-01 17:54:01

關(guān)鍵字：機(jī)器人模型觸覺信息 MIT

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 人工智能正以多種方式進(jìn)入我們的生活——手機(jī)智能助手幫助我們完成一系列基礎(chǔ)任務(wù)，智能家電能自動打掃我們的房屋，地圖導(dǎo)航指揮著我們該駛向何方。在未來的幾年中，無論是在家中還是在其他環(huán)境中，

人工智能正以多種方式進(jìn)入我們的生活——手機(jī)智能助手幫助我們完成一系列基礎(chǔ)任務(wù)，智能家電能自動打掃我們的房屋，地圖導(dǎo)航指揮著我們該駛向何方。

在未來的幾年中，無論是在家中還是在其他環(huán)境中，機(jī)器人都可以通過多種方式為人類用戶提供幫助。為了更直觀，機(jī)器人應(yīng)該能夠遵循自然語言的命令和說明，因?yàn)檫@使用戶可以像與其他人一樣與他們進(jìn)行通信。

可解釋性AI（XAI）是人工智能研究的一個(gè)分支，它的關(guān)注點(diǎn)在于如何提升人工智能之于人類的可信任度。要實(shí)現(xiàn)機(jī)器人和人一起和諧工作的愿景，可信度發(fā)揮著至關(guān)重要的作用。XAI便致力于開發(fā)讓人類感覺值得信賴的人工智能系統(tǒng)，以促進(jìn)它們更好地融入人類社會。

考慮到這一點(diǎn)，麻省理工學(xué)院的大腦、思維和機(jī)器中心的研究人員最近開發(fā)了一種基于采樣的機(jī)器人計(jì)劃程序，可以訓(xùn)練該程序來理解自然語言命令的序列。他們開發(fā)的系統(tǒng)發(fā)表在arXiv上預(yù)先發(fā)表的一篇論文中，該系統(tǒng)將深度神經(jīng)網(wǎng)絡(luò)與基于采樣的計(jì)劃程序結(jié)合在一起。

進(jìn)行這項(xiàng)研究的研究人員之一安德烈·巴布（Andrei Barbu）表示：“出于安全考慮，并且因?yàn)檎Z言是詢問您想要的東西的最便捷界面，確保我們家中的未來機(jī)器人能夠理解我們是非常重要的?！?“我們的工作結(jié)合了三方面的研究：機(jī)器人計(jì)劃，深度網(wǎng)絡(luò)以及我們自己的機(jī)器如何理解語言的工作?？傮w目標(biāo)是僅給機(jī)器人提供一些句子含義的示例，并使其遵循新的命令，從未聽過的新句子?！?/p>

Barbu和他的同事進(jìn)行的這項(xiàng)研究的深遠(yuǎn)目標(biāo)是更好地理解肢體語言交流。實(shí)際上，雖然現(xiàn)在已經(jīng)很好地理解了語音交流背后的功能和機(jī)制，但大多數(shù)在動物和人類之間進(jìn)行的交流都是非語言的。更好地理解肢體語言可能會導(dǎo)致開發(fā)更有效的機(jī)器人與人之間交流的策略。因此，麻省理工學(xué)院的研究人員一直在探索將句子翻譯成機(jī)器人動作的可能性，反之亦然。他們最近的研究是朝這個(gè)方向邁出的第一步。

進(jìn)行這項(xiàng)研究的另一位研究員郭延齡（Yen-Ling Kuo）表示：“機(jī)器人規(guī)劃人員在探索機(jī)器人可以做什么然后讓機(jī)器人執(zhí)行動作方面非常了不起?！?“我們的作品需要一個(gè)句子，將其分解成小塊，這些小塊被翻譯成小的網(wǎng)絡(luò)，然后重新組合在一起?！?/p>

就像語言是由可以按照語法規(guī)則組合成句子的單詞組成的一樣，由Barbu，Kuo和他們的同事Boris Katz開發(fā)的網(wǎng)絡(luò)由經(jīng)過培訓(xùn)的，可以理解單個(gè)概念的較小網(wǎng)絡(luò)組成。當(dāng)組合在一起時(shí)，這些規(guī)則網(wǎng)絡(luò)可以發(fā)現(xiàn)并代表整個(gè)句子的含義。

無獨(dú)有偶，加州大學(xué)洛杉磯分校的研究團(tuán)隊(duì)最近也在嘗試讓機(jī)器人向人類用戶解釋它的行動的內(nèi)容和目標(biāo)，并證明這么做是有效的。有趣的是，可信賴度最高的智能自我解釋形式，與性能最佳的學(xué)習(xí)算法并不對應(yīng)?？梢姡瑱C(jī)器人的XAI能力并不相同——我們不能只單獨(dú)優(yōu)化它的性能或自我解釋的能力。這要求在設(shè)計(jì)機(jī)器人的過程中既要考慮良好的性能，又要考慮到可信賴度高的自我解釋形式。

用戶演示、機(jī)器學(xué)習(xí)、任務(wù)表現(xiàn)和解釋能力的關(guān)系圖

機(jī)器人如何才能做到最高效率地執(zhí)行用戶指定的任務(wù)？用戶又應(yīng)如何回應(yīng)機(jī)器人的自我解釋行為呢？為了回答這兩個(gè)問題，加州大學(xué)洛杉磯分校的研究團(tuán)隊(duì)決定做一個(gè)實(shí)驗(yàn)，他們嘗試讓機(jī)器人學(xué)習(xí)如何擰開藥瓶的瓶蓋。實(shí)驗(yàn)中，一個(gè)研究人員戴著一個(gè)有觸覺記憶系統(tǒng)的手套，當(dāng)他打開瓶子時(shí)，手套會記錄下人手的姿勢和力量。這能幫助機(jī)器人通過象征性信息和觸覺信息來了解人類的行為。

象征性信息是指有意義的行為動作，比如抓取的動作。觸覺信息指的是與身體姿勢和動作相關(guān)的感覺，例如手指合攏的感覺信息。機(jī)器人在吸收了象征性信息后，會對完成打開瓶子的任務(wù)所需的步驟序列進(jìn)行編碼。在接觸觸覺信息后，機(jī)器人將形成一種觸覺模型，該模型幫助機(jī)器人“想象”著自己處于人類用戶的視角，并試著預(yù)測人類在這種場合會采取什么行動。
?

事實(shí)證明，當(dāng)把象征性信息和觸覺信息結(jié)合在一起輸入系統(tǒng)時(shí)，機(jī)器人能夠達(dá)到自身的最佳性能。與單獨(dú)分開輸入這兩種信息相比，同時(shí)獲得這兩種信息的機(jī)器人在依照步驟來執(zhí)行任務(wù)和通過夾持器進(jìn)行實(shí)時(shí)感知方面表現(xiàn)得更好。也就是說，要讓機(jī)器人高效率地執(zhí)行任務(wù)，共同輸入這兩項(xiàng)信息是必不可少的。

象征性信息的總結(jié)和語法符號推導(dǎo)過程示意圖

而MIT研究人員開發(fā)的新型機(jī)器人計(jì)劃器，則更為深入的闡述了這一實(shí)驗(yàn)原理，它具有兩個(gè)關(guān)鍵組成部分。第一個(gè)是遞歸的分層深度神經(jīng)網(wǎng)絡(luò)，它控制計(jì)劃者如何探索周圍的環(huán)境，同時(shí)還預(yù)測何時(shí)計(jì)劃的路徑很可能實(shí)現(xiàn)給定的目標(biāo)，并分別估計(jì)機(jī)器人可能進(jìn)行的每個(gè)動作的有效性。第二個(gè)是經(jīng)常在機(jī)器人技術(shù)研究中使用的基于采樣的計(jì)劃程序，稱為快速探索隨機(jī)樹（RRT）。

MIT團(tuán)隊(duì)的Barbu解釋說：“我們計(jì)劃人員的主要優(yōu)勢在于，它幾乎不需要培訓(xùn)數(shù)據(jù)?！?“如果你想教一個(gè)機(jī)器人，你不會在家中給它提供數(shù)以千計(jì)的例子，但是有幾個(gè)例子是非常合理的。訓(xùn)練機(jī)器人應(yīng)該采取與訓(xùn)練狗一樣的動作?！?/p>

盡管過去的研究還探索了通過口頭命令引導(dǎo)機(jī)器人的方法，但其中介紹的技術(shù)通常僅適用于離散環(huán)境，在這種環(huán)境中，機(jī)器人只能執(zhí)行有限的動作。另一方面，研究人員開發(fā)的計(jì)劃程序可以支持與周圍環(huán)境的各種交互，即使它們涉及到機(jī)器人從未遇到過的物體。

對此，加州大學(xué)洛杉磯分校研究人員考慮的是，既然機(jī)器人能夠理解自己要做的任務(wù)，它又該怎么向人類用戶解釋它的行為呢？這種自我解釋真的能促進(jìn)人類對機(jī)器人的信任嗎？因此在他們的實(shí)驗(yàn)中，團(tuán)隊(duì)為人類添加了自我解釋的流程：在機(jī)器人完成打開藥瓶的任務(wù)后，它需用文本記錄的形式提供了一個(gè)任務(wù)執(zhí)行總結(jié)。團(tuán)隊(duì)邀請了150名參與者，分成五組，觀察機(jī)器人執(zhí)行打開藥瓶的任務(wù)的過程。

任務(wù)完成后，機(jī)器人給其中四組提供不同的任務(wù)解釋——基于象征性信息的解釋文本能詳細(xì)說明每個(gè)步驟的動作內(nèi)容，基于觸覺信息的解釋文本則著重于說明機(jī)械手臂夾持的位置和姿勢，總結(jié)性的解釋文本則將象征性信息和觸覺信息結(jié)合在一起，而第五組的參與者只能觀看機(jī)器人開瓶子的視頻，沒有得到任何文本反饋。

A）解釋面板實(shí)物；B）象征性解釋文本；C）觸覺說明文本；D）文字說明總結(jié)

MIT團(tuán)隊(duì)發(fā)現(xiàn)，同時(shí)提供象征性和觸覺信息的文本解釋最能培養(yǎng)機(jī)器人與人類之間的信任。有趣的是，完全基于觸覺信息的解釋文本在增強(qiáng)人機(jī)之間的信賴感方面并無貢獻(xiàn)，這表明人類更喜歡機(jī)器人逐步解釋它們工作的內(nèi)容。

MIT的Kuo對此的解釋是：“當(dāng)我們的網(wǎng)絡(luò)混亂時(shí)，計(jì)劃者需要負(fù)責(zé)接管工作，弄清楚該怎么做，然后網(wǎng)絡(luò)下次可以接手該做什么時(shí)就可以接管?！?“我們的模型是由零件組成的，這也賦予了它另一個(gè)令人希望的特性：可解釋性。”

當(dāng)他們無法完成給定的任務(wù)時(shí)，許多現(xiàn)有的機(jī)器學(xué)習(xí)模型將無法提供有關(guān)出了什么問題以及遇到的問題的信息。這使得開發(fā)人員更難識別模型的缺點(diǎn)并有針對性地更改其架構(gòu)。另一方面，由Barbu，Kuo和Katz創(chuàng)建的機(jī)器人計(jì)劃器的深度學(xué)習(xí)組件逐步展示了其推理能力，闡明了所處理的每個(gè)單詞傳達(dá)的關(guān)于世界的信息以及它如何將分析結(jié)果結(jié)合在一起。這使研究人員能夠找出導(dǎo)致其過去無法成功完成給定操作的問題，并進(jìn)行體系結(jié)構(gòu)更改以確保其在將來的嘗試中能夠成功。

Barbu說：“我們對機(jī)器人可以在很少的人類幫助下快速學(xué)習(xí)語言并快速學(xué)習(xí)新單詞的觀點(diǎn)感到非常興奮?！?“通常，深度學(xué)習(xí)被認(rèn)為是非常耗費(fèi)數(shù)據(jù)的；這項(xiàng)工作強(qiáng)化了這樣一種觀念，即當(dāng)您建立正確的原則（組成性）并讓代理執(zhí)行有意義的動作時(shí)，他們不需要那么多的數(shù)據(jù)。”

MIT研究人員通過一系列實(shí)驗(yàn)評估了規(guī)劃器的性能，同時(shí)還將其性能與現(xiàn)有RRT模型的性能進(jìn)行了比較。在這些測試中，計(jì)劃人員成功地獲取了單詞的含義，并使用所學(xué)的知識來表示以前從未遇到過的句子序列，其表現(xiàn)優(yōu)于與之相比的所有模型。

將來，由這組研究人員開發(fā)的模型可以為能夠更有效地處理和遵循自然語言命令的機(jī)器人的開發(fā)提供信息。目前，他們的計(jì)劃者允許機(jī)器人處理和執(zhí)行簡單的指令，例如“撿起桌子上的盤子”，但仍無法捕捉到更復(fù)雜的指令的含義，例如“當(dāng)玩具落在盤子上時(shí)撿起娃娃”地板并清潔它。因此，MIT的Barbu，Kuo和Katz目前正在嘗試擴(kuò)大機(jī)器人可以理解的句子范圍。

Kuo說：“我們的長期未來目標(biāo)是探索逆向計(jì)劃的思想?！?“這意味著，如果我們可以將語言轉(zhuǎn)變?yōu)闄C(jī)器人動作，那么我們也可以觀察動作并詢問機(jī)器人'當(dāng)他們這樣做時(shí)，人們在想什么？” 我們希望這將成為解鎖機(jī)器人肢體語言的關(guān)鍵。”

這兩項(xiàng)研究最有趣的結(jié)果是，機(jī)器人的良好性能與讓它們博取人類信任的因素是完全不同的。這也突顯了未來人工智能和機(jī)器人研究領(lǐng)域的重要目標(biāo)：專注于追求機(jī)器性能和自我解釋能力，而不厚己薄彼。

XAI能力并非兩個(gè)可以實(shí)現(xiàn)互補(bǔ)的因素，因此在構(gòu)建AI系統(tǒng)時(shí)，兩者都是需要著重考慮的首要目標(biāo)。這項(xiàng)工作也是系統(tǒng)研究人機(jī)關(guān)系發(fā)展前景的關(guān)鍵環(huán)節(jié)，若研究人員能從中得出具有突破性的成就，那么，未來研究中更具挑戰(zhàn)性的一環(huán)將是從“我相信機(jī)器人做X”到“我相信機(jī)器人”。

機(jī)器人要想在人們的日常生活中占有一席之地，必須先獲得人類的信任。了解機(jī)器人如何提供有助于增進(jìn)人類的信賴度的自我解釋文本，是使人類和機(jī)器人能夠共同工作、和睦相處的重要一步。