亞馬遜的AI語音識(shí)別錯(cuò)誤率降低了6.2%
據(jù) Loup Ventures 不久前發(fā)布的2019年語音助理智商測試的結(jié)果,通過對(duì)每個(gè)人工智能系統(tǒng)的800個(gè)相同問題的測試,谷歌助手再次引領(lǐng)了這一潮流,與去年一樣,100%完全理解了被問到的問題,并正確回答了其中的92.9%,比去年的85.5%的正確率要高。
相比之下,蘋果的Siri在理解水平和正確回答水平這兩方面的能力也都有提升,從去年的99%理解水平上升到今年的99.8%,同時(shí)在正確回答水平方面,從78.5%上升到2019年的83.1%。盡管亞馬遜的Alexa再次位居第三,但今年也算是取得了重大進(jìn)展,理解了99.9%的問題,并正確回答了79.8%的問題,比去年的Siri表現(xiàn)要好。近日,據(jù)外媒報(bào)道,亞馬遜通過人工智能將實(shí)時(shí)語音識(shí)別錯(cuò)誤率降低了6.2%,可以算是一個(gè)不小的進(jìn)步。
據(jù)了解,自動(dòng)語音識(shí)別系統(tǒng)是將語音轉(zhuǎn)換為文本,如Alexa的核心系統(tǒng),其中一個(gè)組件是一個(gè)模型,它預(yù)測哪個(gè)單詞將出現(xiàn)在一系列單詞之后。它們通常是基于n-gram語言模型,這意味著它們可以算出給定過去n-1個(gè)單詞的下一個(gè)單詞出現(xiàn)的概率。
N-Gram是基于一個(gè)假設(shè):第n個(gè)詞出現(xiàn)與前n-1個(gè)詞相關(guān),而與其他任何詞不相關(guān)。(這也是隱馬爾可夫當(dāng)中的假設(shè))整個(gè)句子出現(xiàn)的概率就等于各個(gè)詞出現(xiàn)的概率乘積,各個(gè)詞的概率可以通過語料中統(tǒng)計(jì)計(jì)算得到。但是,像遞歸神經(jīng)網(wǎng)絡(luò)這樣的體系結(jié)構(gòu)就比較難以融入實(shí)時(shí)系統(tǒng),由于其學(xué)習(xí)長期依賴關(guān)系的能力,通常被用于語音識(shí)別,并且常常難以從多個(gè)語料庫中獲取數(shù)據(jù)。
這就是為什么亞馬遜Alexa科研人員要研究能使得這種人工智能模型在語音識(shí)別中更實(shí)用的技術(shù)的原因。在奧地利格拉茨舉行的2019年Interspeech會(huì)議上,計(jì)劃發(fā)表的一篇博客和論文《ASR的可伸縮多語料庫神經(jīng)語言模型》中,聲稱他們可以將單詞識(shí)別錯(cuò)誤率比基線降低6.2%。
神經(jīng)語言模型(NLM)在自動(dòng)語音識(shí)別(ASR)和其他任務(wù)中的表現(xiàn)優(yōu)于傳統(tǒng)的N-gram語言模型。然而,要在實(shí)際的大規(guī)模ASR系統(tǒng)中使用NLM,還需要解決一些挑戰(zhàn)。在一些解決方案中,從異源語料庫中訓(xùn)練NLM,限制潛伏期影響和處理二次通過重測器中的個(gè)性化偏差。
研究人員通過建立領(lǐng)域內(nèi)和領(lǐng)域外訓(xùn)練數(shù)據(jù)集的傳統(tǒng)模型來解決數(shù)據(jù)稀缺的問題,這些模型是線性組合的,他們給每個(gè)語料庫分配了一個(gè)分?jǐn)?shù)來衡量其與域內(nèi)數(shù)據(jù)的相關(guān)性,這決定了為補(bǔ)充數(shù)據(jù)集選擇樣本的可能性。
然后他們應(yīng)用了遷移學(xué)習(xí)transfer learning,即機(jī)器學(xué)習(xí)的一種,就是把為任務(wù) A 開發(fā)的模型作為初始點(diǎn),重新使用在為任務(wù) B 開發(fā)模型的過程中。遷移學(xué)習(xí)是通過從已學(xué)習(xí)的相關(guān)任務(wù)中轉(zhuǎn)移知識(shí)來改進(jìn)學(xué)習(xí)的新任務(wù),雖然大多數(shù)機(jī)器學(xué)習(xí)算法都是為了解決單個(gè)任務(wù)而設(shè)計(jì)的,但是促進(jìn)遷移學(xué)習(xí)的算法的開發(fā)是機(jī)器學(xué)習(xí)人員持續(xù)關(guān)注的話題。遷移學(xué)習(xí)對(duì)人類來說很常見,例如,我們可能會(huì)發(fā)現(xiàn)學(xué)習(xí)識(shí)別蘋果可能有助于識(shí)別梨,或者學(xué)習(xí)彈奏電子琴可能有助于學(xué)習(xí)鋼琴。
接下來,研究人員將數(shù)據(jù)通過一個(gè)帶有n-gram語言模型的語音識(shí)別器傳遞,以使用人工智能模型來改進(jìn)其預(yù)測。為了將傳統(tǒng)模型拒絕人工智能模型考慮的假設(shè)的風(fēng)險(xiǎn)降到最低,他們使用人工智能模型生成合成數(shù)據(jù),為一次通過模型提供訓(xùn)練數(shù)據(jù)。
訓(xùn)練數(shù)據(jù)中的樣本是成對(duì)的詞匯,而不是單個(gè)詞匯,這是一個(gè)稱為噪聲對(duì)比估計(jì)的方案的一部分,其中一個(gè)成對(duì)詞匯是真正的目標(biāo),而另一個(gè)詞匯是隨機(jī)選擇的。該模型的任務(wù)是通過直接估計(jì)目標(biāo)詞匯的概率來學(xué)習(xí)區(qū)分。
最后,研究人員量化了人工智能模型的權(quán)重,以進(jìn)一步提高其效率。量化考慮特定變量可以接受的全部值范圍,并將其拆分為固定數(shù)量的間隔,這樣一個(gè)間隔內(nèi)的所有值都近似于一個(gè)數(shù)字。據(jù)研究人員透露,由于量化,人工智能模型在50%的情況下使得語音處理時(shí)間增加不超過65毫秒,在90%的情況下增加不超過285毫秒。