人類語言非常復(fù)雜 科學(xué)家嘗試讓機(jī)器人自行上網(wǎng)查找資料
對于機(jī)器人來說,像人一樣從語句中獲取信息是很難的。因而在訓(xùn)練機(jī)器人之前,通常會有篩選培訓(xùn)資料的過程,方便機(jī)器人在被喂入數(shù)據(jù)后,比較容易在大量資料中找到模塊化的信息。
這種培訓(xùn)方式,對于計(jì)算機(jī)技術(shù)比較合適,只需要時(shí)間累積,但對于人們常用的語言來說,卻是個(gè)麻煩。
這跟人們的表達(dá)方式有關(guān)系。賓夕法尼亞大學(xué)計(jì)算機(jī)和信息科學(xué)的助理教授 Chris Callison-Burch 稱:“自然語言的諸多難點(diǎn)之一在于,你可以用很多不同的方式來表達(dá)同樣的信息,而抓住所有的這些變化,就是建立一個(gè)復(fù)雜模型過程中面臨的挑戰(zhàn)之一。”
說的直白點(diǎn),就是人類所用的語言比較復(fù)雜,不能直接用作機(jī)器人的培訓(xùn)資料。
但 Regina Barzilay 等 3 位麻省理工學(xué)院研究人員最近想到了一個(gè)新角度,他們想讓機(jī)器人自己從網(wǎng)上尋找信息,像人一樣找更多資料做信息的補(bǔ)充。對于研究來說,這樣做的好處最直接的是可以減少前期的人力成本。
簡單來說,他們使用了人工智能的一種技術(shù)——強(qiáng)化學(xué)習(xí),做了兩個(gè)應(yīng)用場景的測試。其一是在美國槍擊案的新聞中找資料,包括槍擊地點(diǎn)、傷亡人數(shù);另外一個(gè)則是搜集食品造假事件的相似性,包括食品種類、食品造假的類型和地點(diǎn)。
每個(gè)測試都只使用 300 份新聞。但在測試中,麻省理工學(xué)院培訓(xùn)的機(jī)器人每分析 1 篇文章,它都會從網(wǎng)上找 9、10 篇新聞作為相關(guān)資料進(jìn)行分析,以補(bǔ)充原本資料的不足。其中的困難之處在于,讓機(jī)器人判斷兩篇新聞描述了同一件事,并且從多份資料中提取數(shù)據(jù)。
論文中舉了一個(gè)謀殺案的案例,下面是 3 個(gè)新聞中摘出來的片段:
警官在周一公布稱,一對夫婦和四個(gè)小孩死在他們位于南達(dá)科他州的家里,他們的家發(fā)生了火災(zāi),他們顯然是死于入室謀殺......一份官方聲明稱,Scott Westerhuis 的死因是“疑似自殺性質(zhì)的獵槍槍擊”。
官方稱,一個(gè)南達(dá)科他州家庭的 6 名成員被發(fā)現(xiàn)死在了火災(zāi)燒毀的家中,他們死于槍擊,其中有一例死亡懷疑是自殺。
AG Jackle 稱,所有的證據(jù)都支持他基于 9 月份的初步發(fā)現(xiàn)做的推理:Scott Westerhuis 用一把獵槍槍殺了他的妻子和孩子,點(diǎn)燃了他的房子,然后用獵槍自殺。
最終,他們培訓(xùn)的機(jī)器人需要在網(wǎng)上找到類似下面 2 篇那樣的新聞,并且挖出這兩個(gè)信息:開搶的人是 Scott Westerhuis,以及死亡人數(shù)是 6 人。
在兩項(xiàng)測試中,麻省理工學(xué)院開發(fā)的系統(tǒng)能根據(jù)那些與目標(biāo)信息相關(guān)的詞匯進(jìn)行搜索,例如槍擊案的兇手通常會跟“警方(police)”、“(idenTIfied)“ 、”逮捕(arrested)“ 等詞匯有關(guān)系,從而判斷具體的人。
麻省理工學(xué)院的研究員稱,他們用這種新技術(shù)做數(shù)據(jù)整理,準(zhǔn)確率要比以往的篩選方式高出 10%。不過,對于普通人來說,這種新技術(shù)看起來有趣的一點(diǎn)是,它讓機(jī)器人的工作方式更接近于人類的思考方式:獲取一個(gè)信息后,用更多的信息補(bǔ)充它。