IBM語音識別創(chuàng)造新世界紀錄華為歐洲專利申請躍升第二位

時間：2020-08-12 18:09:01

關鍵字： IBM 專利華為語音識別

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 編者按：據(jù)國外媒體報道，微軟的語音識別有了重大突破，這一技術在對話中的詞的識別水平上已經(jīng)達到了人類水平。最新消息，現(xiàn)在IBM宣布創(chuàng)造新的業(yè)界紀錄：5.5%的錯誤率。這是對非常困難的語音識別任務：

編者按：據(jù)國外媒體報道，微軟的語音識別有了重大突破，這一技術在對話中的詞的識別水平上已經(jīng)達到了人類水平。最新消息，現(xiàn)在IBM宣布創(chuàng)造新的業(yè)界紀錄：5.5%的錯誤率。這是對非常困難的語音識別任務：紀錄人與人之間日常對話如“買汽車”，計算出來的結果。同時，在物聯(lián)網(wǎng)和移動通訊領域，三星、英特爾、蘋果、華為都在部署不同的專利，最新華為在歐洲的專利申請創(chuàng)新高。小編整理最新的報道給大家分享。

3月10日消息，據(jù)IBM官網(wǎng)報道，人們在說話時，對方每聽20個單詞都會漏掉或聽錯1-2個單詞。在5分鐘的對話中，可能會聽錯80個單詞。但我們多數(shù)人在聽懂說話上沒有問題。然而，電腦就不一樣了。去年，IBM宣布在自然對話環(huán)境中的語音識別上取得重大成就：開發(fā)出單詞錯誤率為6.9%的系統(tǒng)。

此后，該公司不斷取得進步。現(xiàn)在IBM宣布創(chuàng)造新的業(yè)界紀錄：5.5%的錯誤率。這是對非常困難的語音識別任務：紀錄人與人之間日常對話如“買汽車”，計算出來的結果。這種紀錄的語料庫被稱為“SWITCHBOARD”，20多年來一直用于檢驗語音識別系統(tǒng)。

IBM研究人員在實現(xiàn)這個突破時，專注于應用深度學習技術，將LSTM（長短期記憶）和WaveNet語言模型與三個強大的聲學模型結合起來。在被使用的3個聲學模型中，前2個為雙向6層LSTM，其中一個為多特征輸入，另一個有對話多任務學習能力。最后一個模型有個獨特的地方，其不僅能從積極的例子中學習，也能利用消極的例子，因此會變得越來越聰明，在重復出現(xiàn)類似說話風格時表現(xiàn)更好。

實現(xiàn)人類同等水準——錯誤率與2個人說話相當——長期以來都是行業(yè)的終極目標。行業(yè)里的其他人也在努力追趕IBM的紀錄，一些人最近聲稱達到5.9%。在達到今天的成就過程中，IBM發(fā)現(xiàn)人類同等水準應該是錯誤率為5.1%。在確定這個數(shù)字上，IBM與合作伙伴Appen合作再現(xiàn)人類水平的結果。雖然IBM實現(xiàn)了5.5%的錯誤率是一次大的突破，但發(fā)現(xiàn)人類同等水準是5.1%證明科技要達到與人類相同水平還有一段距離。

在研究中，IBM聯(lián)系了不同的行業(yè)專家，讓他們對此事發(fā)表意見。蒙特利爾大學MILA實驗室的主任Yoshua Bengio認同IBM還有很多工作要做才能實現(xiàn)人類同等水準。IBM意識到，發(fā)現(xiàn)人類同等水準的標準比原先想象更復雜。