優(yōu)勢和缺點同樣明顯的Alexa未來將會走向何方

時間：2018-12-27 10:44:01

關鍵字： alexa 亞馬遜自學習 nlu 遷移學習

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]2018年，亞馬遜Alexa語音助手取得的進步更多來自于廣度而不是深度。記得，亞馬遜在2014年秋季推出了第一款AI人工智能音響Echo時，當時很多人都不了解Echo的運行機制是怎樣的。從2014年到

2018年，亞馬遜Alexa語音助手取得的進步更多來自于廣度而不是深度。記得，亞馬遜在2014年秋季推出了第一款AI人工智能音響Echo時，當時很多人都不了解Echo的運行機制是怎樣的。從2014年到2018年，Echo以及Alexa驅動的智能設備，已經漸漸褪去神秘感，遍布人們日常生活中的每一個角落。

亞馬遜語音助手Alexa的可用國家數量已經增加了一倍之多，取得規(guī)模上的較大收益。對于初級用戶而言，可以利用Alexa學習法語和西班牙語?，F階段，有超過2萬8千臺智能設備與Alexa展開合作，是今年年初合作設備數量的6倍之多。Alexa內置入100多種不同的產品、設備中。還記得1999年首次出售的大嘴比利·巴斯Big Mouth Billy Bass嗎？這條會轉頭、可以搖動尾巴、張嘴唱歌的魚，在今年已經可以兼容Alexa了。

Alexa在2018年的發(fā)展路徑，時刻影響、定義著2019年乃至更遠將來的發(fā)展趨勢。Alexa正在悄悄、微妙地發(fā)生著一些改變，這些改變大眾平時可能根本沒有注意、察覺到。

技術與改變

在過去的一年中，Alexa get到了很多新技能。舉例來講，Alexa可以根據上下文，從一個查詢轉移到下一個查詢，激活后續(xù)問題，無需重復喚醒單詞。用戶可以根據自己的需求，要求Alexa在同一個請求中執(zhí)行多項操作，在Alexa應用程序中召喚一個技能，且無需知道確切的名稱。

這些小的調整并不可見，但累積后，量變引起質變。用戶與機器的交流，變得更加柔和、順暢，比一年前更加自然。亞馬遜不斷引入、完善機器學習技術。在人類語言專家的幫助下，通過系統(tǒng)識別中的主動學習功能，大大降低了錯誤率。

亞馬遜Alexa的副總裁兼首席科學家Rohit Prasad表示，主動學習已經融入進亞馬遜的每個渠道中，包括語音識別和自然語言理解?！斑@些使得亞馬遜的所有機器學習模型更加完善?！?/p>

近年來，數據表示已經成為一項重要的研究課題。自然語言理解（NLU）系統(tǒng)很少輸入原始文本，而是采用嵌入形式。數據表示保留文本的語義信息，而不是以持續(xù)、確定的方式呈現。采用嵌入式改善特殊的NLU任務已經被多次應用。

今年IEEE語言技術峰會上，亞馬遜展示了專門針對Alexa NLU的數據表示方案。數據顯示，在一些關鍵任務的技能選擇上，以及在數千種技能中，該方案將技能選擇錯誤率降低了40%。在Alexa的NLU系統(tǒng)中，用戶語言經過了更加細粒度的分類。

首先，對話領域或者對話主題的分類，例如，音樂、天氣。其次，根據潛在的意圖，或者用戶所希望的對話分類。比如，音樂領域中，可能是搜索、播放、下載等指令。最后，根據詞語位置類型進行分類。例如，播放AA唱的XX歌曲，AA屬于歌手名字，XX屬于歌曲名字。

亞馬遜數據表示方案通過領域、意圖、位置三個方面形成了一個比較自然的層次結構。通過一系列語言位置，將語言串聯起來來界定用戶意圖，一系列的意圖構成了域。亞馬遜已經訓練了覆蓋17個域在內的24.6萬個語言神經網絡。該網絡首先生成一個位置表示（注：slot representation），然后生成意圖表示（intent representation），最后產生域表示（domain representation）。

在訓練期間，神經網絡需要評估怎樣準確地對域分類，其目的在于表達（注：representation）而不是分類（classification）。評估有效地執(zhí)行了表示的層次結構，即確保語言位置和意圖不會丟失域所必須的任何信息。網絡輸入時，首先會通過一個“去詞匯化器”，即用一個特定的語言位置值代替，例如，播放Drake的Nice for What，變?yōu)椴シ鸥枋值母枨?。這個過程由單獨的NLU系統(tǒng)處理。網絡分類的目的在于分類表示的最佳方法，而不是進行分類。

注：架構圖，如何產生意圖，聚合意圖，產生域表示

去詞匯化的語句傳遞進入嵌入層，該層采用現成的嵌入網絡。網絡將單詞轉換成固定長度的向量—數字串。比如，在高緯空間中的空間坐標，將有相似意義的單詞聚集在一起。特定的詞語通過去詞匯化器，由網絡以簡單的標準嵌入，但語言位置的理解會有所不同。通過訓練表示網絡。算法對訓練數據進行梳理，以識別每個語言位置采用的可能值。比如，天氣領域天氣狀況相關的語言位置，可能包括風、暴雨、雪、暴雪等等。

具有相似詞語含義的嵌入詞彼此空間位置接近，平均嵌入層的幾個相關詞匯可以捕獲其空間位置的接近性。在訓練以前，去詞匯化的位置被簡單的嵌入，作為平均的可能值。訓練過程中，可以修改嵌入網絡的設置，根據語言位置、意圖、域的特性情況進行調整，基本原則仍為對向量進行分組。

去詞匯化話語嵌入后傳遞到雙向長短期記憶網絡。長短期記憶LSTMs按順序處理數據，并在其之前的輸出中，處理給定的輸出因子。LSTM在NLU中被廣泛使用，因為它可以根據在句子中的位置來學習解釋單詞。融合LSTM(bi-LSTM)是處理從前到后和從后到前相同輸入序列的一種LSTM。

bi-LSTM的輸出是一個向量，用作意圖表示。意圖向量通過單個網絡層，該網絡層產生域表示。為了評估表示方案，亞馬遜將編碼輸入到兩種技術選擇系統(tǒng)中。當使用原始文本作為輸入時，系統(tǒng)準確率為90%，亞馬遜則將準確率提高到94%。

為了證明其表示成功依賴于分類類別的分層嵌套，將設計的三個不同系統(tǒng)進行比較，通過融合LSTM編碼的去詞匯化輸入學習域和意圖嵌入。三個系統(tǒng)顯示原始文本的改進，均不能匹配分層系統(tǒng)?！皬谋举|講，通過深度學習，亞馬遜對大量領域進行了建模，并將學習轉移到新的領域或者新的技能?！盧ohit Prasad說。

最近，亞馬遜推出了遷移學習，該項目屬于亞馬遜未來戰(zhàn)略的一部分。機器學習的改進最直接的影響就是使得系統(tǒng)錯誤率較去年減少25%。此外，今年12月，亞馬遜啟動了機器的自學習，系統(tǒng)可以聯系上下文線索進行修正。Rohit Prasad舉例說，用戶對Echo說玩XM Chill請求失敗時，可以通過說播放Sirius 53頻道繼續(xù)收聽。對于Alexa而言，XM Chill和Sirius 53頻道的意義是相同且獨立的?！皬碾[藏式反饋中學習?！?/p>

現狀與未來

“當兩個人開始說話時，很容易感受、理解到對方的情緒，系統(tǒng)卻對此無能為力。人們正在努力地開發(fā)能夠使得系統(tǒng)更加成熟，更能夠理解對話如何發(fā)展的人性化能力?！笨▋然仿〈髮W語音識別專家Alex Rudnicky說。

今年秋天，亞馬遜的一項技術專利顯示，Alexa可以識別用戶的情緒并做出相應的反應。Rohit Prasad表示，Alexa的最終目標是遠程會話功能，根據要求對給定的問題作出不同的反應，當然，成為一個理解語音、語調微妙差別的語音助手還有很長的一段路需要走。Alex Rudnicky認為人類的五大情緒中，憤怒最容易辨別成功。

現階段，亞馬遜在穩(wěn)定版本中擁有7萬項技能，從測試、游戲再到冥想，是兩年前的7倍之多。隨著Alexa設備的增加，其技能也在不斷地改善。Alexa可以很好的預測人們的意圖，不過更多Alexa用戶并不了解其潛在的用途，廚房、鬧鈴成為用途最多的場景。另一方面，開發(fā)者也沒有更多的精力、動力研究用戶更多的潛在應用場景。

事實上，語音助手除了直接表現出的使用需求之外，還擁有很多潛力。更多人使用Alexa收聽美國國家公共電臺、檢查天氣。2016年Alexa推出過互動幻想的游戲，算法顯然難以提醒用戶Alexa其它潛在功能的存在。

“如果我們向用戶介紹新技能、新功能，與用戶正在做的事情高度相關，那么，結果是好的。值得注意的是，這些推薦需要適當的時機，適當的內容。否則，會造成信息過載?！盩oni Reid說。Canalys數據顯示，2018年Q3Echo出貨量為630萬臺，谷歌僅次之，出貨量為590臺。盡管谷歌起步較晚，但谷歌已經成為亞馬遜不能忽視的競爭對手。

從市場體量來看，不包括第三方設備，Alexa在使用數量、用戶基數上占據了主導地位。但谷歌的優(yōu)勢依舊明顯，Canalys分析師Vincent Thielke表示，谷歌擁有多年的人工智能積累，Alexa則是從頭開始。谷歌在人工智能領域絕對領先，所以很容易趕超亞馬遜。

Android、Android Auto、WearOS，可以為谷歌助手提供更多土壤。亞馬遜曾在2014推出Fire Phone，失敗較為慘烈，所以在移動端口，亞馬遜的選擇極其有限。在汽車領域的較好表現，不能抵消其在原生項目集成方面落后于谷歌、蘋果。

不可否認的是，亞馬遜Alexa增長趨勢絲毫沒有放緩的跡象。優(yōu)勢和缺點同樣明顯的Alexa未來將會走向何方，只有Alexa知道答案。