百度提出交互式學(xué)習(xí)方法:讓機(jī)器在對(duì)話中學(xué)會(huì)自然語(yǔ)言
自然語(yǔ)言處理一直是人工智能發(fā)展道路上面臨的巨大挑戰(zhàn)。此前,大多數(shù)研究都是讓機(jī)器學(xué)習(xí)模型在大量已標(biāo)記數(shù)據(jù)集上進(jìn)行訓(xùn)練的。最近,百度研究院人員提出了一種全新的方法,研究人員讓人工智能系統(tǒng)通過(guò)與「教師」的口語(yǔ)對(duì)話來(lái)學(xué)習(xí)自然語(yǔ)言和知識(shí)。這種類似嬰兒學(xué)習(xí)語(yǔ)言過(guò)程的方法展現(xiàn)出了很大的潛力。機(jī)器之心對(duì)該文及其研究論文摘要進(jìn)行了編譯,原文鏈接見(jiàn)文末。
四月上旬,百度研究團(tuán)隊(duì)通過(guò)由虛擬教師(a virtual teacher)發(fā)出自然語(yǔ)言指令,成功地教會(huì)了人工智能代理(agent)在迷宮中導(dǎo)航(參閱:用自然語(yǔ)言教育人工智能:百度新算法發(fā)展出 zero-shot 學(xué)習(xí)能力)。今天,百度研究團(tuán)隊(duì)又很高興地宣布,通過(guò)與虛擬老師之間的交互,其人工智能代理成功地學(xué)會(huì)了說(shuō)話。
說(shuō)話,以及其他人類基本能力,在創(chuàng)建通用人工智能的道路上不可或缺。盡管今天與機(jī)器進(jìn)行簡(jiǎn)單的交談很常見(jiàn),但是百度研究團(tuán)隊(duì)教機(jī)器說(shuō)話的方法與傳統(tǒng)方法大不相同。
百度的人工智能代理以一種類似于嬰兒互動(dòng)的方式學(xué)習(xí)說(shuō)話。相反,傳統(tǒng)方法依賴于有監(jiān)督訓(xùn)練,使用包含大量預(yù)搜集訓(xùn)練集的靜態(tài)語(yǔ)料庫(kù),難以捕捉到語(yǔ)言學(xué)習(xí)過(guò)程中的動(dòng)態(tài)交互屬性。結(jié)果,通過(guò)傳統(tǒng)方法訓(xùn)練的系統(tǒng)主要反映了數(shù)據(jù)集中的行為,適應(yīng)性和泛化能力有限。百度的人工智能代理通過(guò)交互學(xué)習(xí)說(shuō)話,旨在獲取語(yǔ)言學(xué)習(xí)與理解能力而不僅僅是捕捉到數(shù)據(jù)之中的統(tǒng)計(jì)模式。
當(dāng)一個(gè)嬰兒學(xué)習(xí)說(shuō)話時(shí),他與人產(chǎn)生交互,并通過(guò)模仿和反饋進(jìn)行學(xué)習(xí)。嬰兒最初通過(guò)模仿其會(huì)話者來(lái)產(chǎn)生言語(yǔ)行為,掌握字句生成的技巧。嬰兒也會(huì)向其父母發(fā)出聲音,并根據(jù)父母的糾正和鼓勵(lì)調(diào)節(jié)其言語(yǔ)行為。
研究概述百度研究人員提出了一種基于自然語(yǔ)言學(xué)習(xí)的交互式方法,其中人工智能代理通過(guò)與虛擬教師(教授者)交互、獲得反饋來(lái)學(xué)習(xí)自然語(yǔ)言,從而學(xué)習(xí)和提高自然語(yǔ)言技能以達(dá)到參與對(duì)話的程度。在這里,沒(méi)有帶標(biāo)簽數(shù)據(jù)形式的監(jiān)督學(xué)習(xí)來(lái)引導(dǎo)學(xué)習(xí)者;取而代之的是,系統(tǒng)必須通過(guò)不斷嘗試說(shuō)來(lái)學(xué)習(xí)說(shuō)話,而教授者會(huì)提供口頭反饋(如是/否)和非口頭反饋(如點(diǎn)頭/微笑)。
下圖顯示了訓(xùn)練中幾種不同形式的對(duì)話。在一開始,代理只能生成無(wú)意義的句子,它只能在純粹對(duì)話中提升自己的技能。而到了最后,代理可以正確運(yùn)用自然語(yǔ)言回答教授者提出的問(wèn)題。
另一方面的實(shí)驗(yàn)進(jìn)一步證明了新方法具備學(xué)習(xí)自然語(yǔ)言的能力。研究人員證明訓(xùn)練后的人工智能代理可以回答由已知知識(shí)或問(wèn)題中的概念組成,但經(jīng)過(guò)重組后形成的全新問(wèn)題。例如,在訓(xùn)練中,「avocado,east」組合從未出現(xiàn)在問(wèn)答中;而 orange 僅被描述過(guò),從未被教授者問(wèn)到過(guò)。而在測(cè)試中,代理可以回答有關(guān)在「east」的「avocado」的問(wèn)題,或有關(guān)「orange」的問(wèn)題,如上圖所示。
百度的研究人員表示,他們會(huì)在未來(lái)進(jìn)一步增加語(yǔ)言學(xué)習(xí)環(huán)境的復(fù)雜性,以訓(xùn)練出更為復(fù)雜的語(yǔ)言行為。另外,他們還計(jì)劃探索機(jī)器學(xué)習(xí)系統(tǒng)的知識(shí)建模與快速學(xué)習(xí),讓人工智能代理能夠與人類進(jìn)行自然交互,并讓它可以從物理世界中進(jìn)行有效的學(xué)習(xí)。
論文:Listen, Interact and Talk: Learning to Speak via InteracTIon
論文鏈接:https://arxiv.org/abs/1705.09906
摘要:人工智能的一個(gè)長(zhǎng)期目標(biāo)是構(gòu)建一種可與人類進(jìn)行自然語(yǔ)言交互的代理。然而,目前的大部分自然語(yǔ)言學(xué)習(xí)的研究都依賴大量帶注釋標(biāo)簽的數(shù)據(jù)集以進(jìn)行訓(xùn)練,這導(dǎo)致人工智能代理的任務(wù)變成了外部數(shù)據(jù)集的統(tǒng)計(jì)學(xué)抓取。由于訓(xùn)練數(shù)據(jù)本質(zhì)上是由標(biāo)注者對(duì)知識(shí)進(jìn)行的靜態(tài)表述,人工智能代理經(jīng)過(guò)學(xué)習(xí)后的適應(yīng)性和拓展性受到了限制。此外,這種訓(xùn)練方法與人類學(xué)習(xí)自然語(yǔ)言的過(guò)程非常不同,后者是一個(gè)交流的過(guò)程,通過(guò)說(shuō)話和獲得反饋來(lái)進(jìn)行。
在本論文中,我們提出了一種交互形式的自然語(yǔ)言學(xué)習(xí)方法。其中,人工智能代理通過(guò)與教授者(teacher)用自然語(yǔ)言互相交流,從而在談話中學(xué)習(xí)和提高語(yǔ)言技能。為了達(dá)成這個(gè)目標(biāo),我們構(gòu)建了一個(gè)包含模仿和強(qiáng)化學(xué)習(xí)方法的模型,用以比較句子和教授者的反饋。我們進(jìn)行了實(shí)驗(yàn),證明了這種方法的有效性。