百度提出交互式學(xué)習(xí)方法：讓機(jī)器在對(duì)話中學(xué)會(huì)自然語(yǔ)言

時(shí)間：2020-08-10 20:15:02

關(guān)鍵字：機(jī)器學(xué)習(xí) 百度

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 自然語(yǔ)言處理一直是人工智能發(fā)展道路上面臨的巨大挑戰(zhàn)。此前，大多數(shù)研究都是讓機(jī)器學(xué)習(xí)模型在大量已標(biāo)記數(shù)據(jù)集上進(jìn)行訓(xùn)練的。最近，百度研究院人員提出了一種全新的方法，研究人員讓人工

自然語(yǔ)言處理一直是人工智能發(fā)展道路上面臨的巨大挑戰(zhàn)。此前，大多數(shù)研究都是讓機(jī)器學(xué)習(xí)模型在大量已標(biāo)記數(shù)據(jù)集上進(jìn)行訓(xùn)練的。最近，百度研究院人員提出了一種全新的方法，研究人員讓人工智能系統(tǒng)通過(guò)與「教師」的口語(yǔ)對(duì)話來(lái)學(xué)習(xí)自然語(yǔ)言和知識(shí)。這種類似嬰兒學(xué)習(xí)語(yǔ)言過(guò)程的方法展現(xiàn)出了很大的潛力。機(jī)器之心對(duì)該文及其研究論文摘要進(jìn)行了編譯，原文鏈接見(jiàn)文末。

四月上旬，百度研究團(tuán)隊(duì)通過(guò)由虛擬教師（a virtual teacher）發(fā)出自然語(yǔ)言指令，成功地教會(huì)了人工智能代理（agent）在迷宮中導(dǎo)航（參閱：用自然語(yǔ)言教育人工智能：百度新算法發(fā)展出 zero-shot 學(xué)習(xí)能力）。今天，百度研究團(tuán)隊(duì)又很高興地宣布，通過(guò)與虛擬老師之間的交互，其人工智能代理成功地學(xué)會(huì)了說(shuō)話。

說(shuō)話，以及其他人類基本能力，在創(chuàng)建通用人工智能的道路上不可或缺。盡管今天與機(jī)器進(jìn)行簡(jiǎn)單的交談很常見(jiàn)，但是百度研究團(tuán)隊(duì)教機(jī)器說(shuō)話的方法與傳統(tǒng)方法大不相同。

百度的人工智能代理以一種類似于嬰兒互動(dòng)的方式學(xué)習(xí)說(shuō)話。相反，傳統(tǒng)方法依賴于有監(jiān)督訓(xùn)練，使用包含大量預(yù)搜集訓(xùn)練集的靜態(tài)語(yǔ)料庫(kù)，難以捕捉到語(yǔ)言學(xué)習(xí)過(guò)程中的動(dòng)態(tài)交互屬性。結(jié)果，通過(guò)傳統(tǒng)方法訓(xùn)練的系統(tǒng)主要反映了數(shù)據(jù)集中的行為，適應(yīng)性和泛化能力有限。百度的人工智能代理通過(guò)交互學(xué)習(xí)說(shuō)話，旨在獲取語(yǔ)言學(xué)習(xí)與理解能力而不僅僅是捕捉到數(shù)據(jù)之中的統(tǒng)計(jì)模式。

當(dāng)一個(gè)嬰兒學(xué)習(xí)說(shuō)話時(shí)，他與人產(chǎn)生交互，并通過(guò)模仿和反饋進(jìn)行學(xué)習(xí)。嬰兒最初通過(guò)模仿其會(huì)話者來(lái)產(chǎn)生言語(yǔ)行為，掌握字句生成的技巧。嬰兒也會(huì)向其父母發(fā)出聲音，并根據(jù)父母的糾正和鼓勵(lì)調(diào)節(jié)其言語(yǔ)行為。

研究概述

百度研究人員提出了一種基于自然語(yǔ)言學(xué)習(xí)的交互式方法，其中人工智能代理通過(guò)與虛擬教師（教授者）交互、獲得反饋來(lái)學(xué)習(xí)自然語(yǔ)言，從而學(xué)習(xí)和提高自然語(yǔ)言技能以達(dá)到參與對(duì)話的程度。在這里，沒(méi)有帶標(biāo)簽數(shù)據(jù)形式的監(jiān)督學(xué)習(xí)來(lái)引導(dǎo)學(xué)習(xí)者；取而代之的是，系統(tǒng)必須通過(guò)不斷嘗試說(shuō)來(lái)學(xué)習(xí)說(shuō)話，而教授者會(huì)提供口頭反饋（如是/否）和非口頭反饋（如點(diǎn)頭/微笑）。

下圖顯示了訓(xùn)練中幾種不同形式的對(duì)話。在一開始，代理只能生成無(wú)意義的句子，它只能在純粹對(duì)話中提升自己的技能。而到了最后，代理可以正確運(yùn)用自然語(yǔ)言回答教授者提出的問(wèn)題。

另一方面的實(shí)驗(yàn)進(jìn)一步證明了新方法具備學(xué)習(xí)自然語(yǔ)言的能力。研究人員證明訓(xùn)練后的人工智能代理可以回答由已知知識(shí)或問(wèn)題中的概念組成，但經(jīng)過(guò)重組后形成的全新問(wèn)題。例如，在訓(xùn)練中，「avocado，east」組合從未出現(xiàn)在問(wèn)答中；而 orange 僅被描述過(guò)，從未被教授者問(wèn)到過(guò)。而在測(cè)試中，代理可以回答有關(guān)在「east」的「avocado」的問(wèn)題，或有關(guān)「orange」的問(wèn)題，如上圖所示。

百度的研究人員表示，他們會(huì)在未來(lái)進(jìn)一步增加語(yǔ)言學(xué)習(xí)環(huán)境的復(fù)雜性，以訓(xùn)練出更為復(fù)雜的語(yǔ)言行為。另外，他們還計(jì)劃探索機(jī)器學(xué)習(xí)系統(tǒng)的知識(shí)建模與快速學(xué)習(xí)，讓人工智能代理能夠與人類進(jìn)行自然交互，并讓它可以從物理世界中進(jìn)行有效的學(xué)習(xí)。

論文：Listen， Interact and Talk： Learning to Speak via InteracTIon

論文鏈接：https://arxiv.org/abs/1705.09906

摘要：人工智能的一個(gè)長(zhǎng)期目標(biāo)是構(gòu)建一種可與人類進(jìn)行自然語(yǔ)言交互的代理。然而，目前的大部分自然語(yǔ)言學(xué)習(xí)的研究都依賴大量帶注釋標(biāo)簽的數(shù)據(jù)集以進(jìn)行訓(xùn)練，這導(dǎo)致人工智能代理的任務(wù)變成了外部數(shù)據(jù)集的統(tǒng)計(jì)學(xué)抓取。由于訓(xùn)練數(shù)據(jù)本質(zhì)上是由標(biāo)注者對(duì)知識(shí)進(jìn)行的靜態(tài)表述，人工智能代理經(jīng)過(guò)學(xué)習(xí)后的適應(yīng)性和拓展性受到了限制。此外，這種訓(xùn)練方法與人類學(xué)習(xí)自然語(yǔ)言的過(guò)程非常不同，后者是一個(gè)交流的過(guò)程，通過(guò)說(shuō)話和獲得反饋來(lái)進(jìn)行。

在本論文中，我們提出了一種交互形式的自然語(yǔ)言學(xué)習(xí)方法。其中，人工智能代理通過(guò)與教授者（teacher）用自然語(yǔ)言互相交流，從而在談話中學(xué)習(xí)和提高語(yǔ)言技能。為了達(dá)成這個(gè)目標(biāo)，我們構(gòu)建了一個(gè)包含模仿和強(qiáng)化學(xué)習(xí)方法的模型，用以比較句子和教授者的反饋。我們進(jìn)行了實(shí)驗(yàn)，證明了這種方法的有效性。