語音識別的下一段路應該怎么走

時間：2020-05-21 20:39:02

關鍵字：語音識別信道噪音安防

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 分享一：提高語音識別魯棒性的三種途徑近二十年，語音識別技術取得顯著進步，但識別的魯棒性問題一直阻礙著語音技術的進一步發(fā)展。對于語音識別和聲紋識別來說，該如何提升影響準確率的系統(tǒng)魯棒性？

分享一：提高語音識別魯棒性的三種途徑

近二十年，語音識別技術取得顯著進步，但識別的魯棒性問題一直阻礙著語音技術的進一步發(fā)展。對于語音識別和聲紋識別來說，該如何提升影響準確率的系統(tǒng)魯棒性？快商通首席科學家李海洲教授表示，想要從根本上提升識別準確率，可以從三個方面考慮。

首先，專用系統(tǒng)轉(zhuǎn)換為通用系統(tǒng)。

語音識別從實驗室走向應用，環(huán)境適應性一直是不容忽視的問題。實驗室中訓練良好的引擎，一旦處于負責的噪聲環(huán)境，其識別準確率便會急劇下降。這些噪聲主要來自于信道偏差，環(huán)境噪音，被污染的測試數(shù)據(jù)與訓練數(shù)據(jù)的不匹配等。

因此，想要提高識別準確率，需將目前針對某單一環(huán)境的專用系統(tǒng)升級為通用系統(tǒng)，提高識別引擎的自我學習能力，才能使其適應不同環(huán)境的差異性。

第二，擴展獲取語音信息的渠道。

假設三種場景：面對面交流、視頻交流、電話語音交流，人在哪種情況下能聽得最清楚？毫無疑問是面對面交流，這種場景下溝通，人們可以看到對方的表情、手勢，而這些信息也將輔助聽覺獲取更多的信息。

人類從單一的渠道獲取信息尚且會有偏差的可能，機器亦然。李教授認為，未來將會形成語音、視覺等多渠道的技術手段，來幫助語音識別和聲紋識別進行準確率的提升。

第三，從語音語言處理走向語音語言理解。

人們普遍認為，語音識別是將聲音變?yōu)槲淖?。但在快商通首席科學家李海洲教授的理解里，語音識別的初衷是讓機器聽懂人類說話，并不一定需要將聲音轉(zhuǎn)化為文字。就像人與人之間的交流，并不需要先將對方說的語音轉(zhuǎn)換成文字。

機器無法直接聽懂人類的語言，所以需要將語音轉(zhuǎn)為文字來輔助，但如果希望技術有更近一層的突破，我們需要將精力放于語音識別的后半段路——從語音語言處理走向語音語言理解。

分享二：中國人工智能應用落地的三大優(yōu)勢

第四次工業(yè)革命即將來臨，世界各國已經(jīng)認識到人工智能是未來國家之間競爭的關鍵賽場，因而紛紛爭奪這一輪科技革命的制高點。對于中國而言，人工智能的發(fā)展是一個歷史性的戰(zhàn)略機遇，政府創(chuàng)造土壤，企業(yè)奮起發(fā)力，中國在AI領域的實力與發(fā)展優(yōu)勢不斷被世界認可。

基于多年海外經(jīng)歷培養(yǎng)出的國際化視角，結(jié)合專業(yè)判斷能力，快商通首席科學家李海洲教授總結(jié)出中國人工智能應用落地的三大優(yōu)勢。

政府推動：在我國，人工智能連續(xù)三年被寫入總理政府工作報告，并成為促進新興產(chǎn)業(yè)加快發(fā)展的新動能。政府的推動與總體規(guī)劃，完善了人工智能基礎設施的建設，并使得各科技企業(yè)的技術能夠穩(wěn)步落地。

數(shù)據(jù)優(yōu)勢：人工智能的發(fā)展需要與深度學習和大數(shù)據(jù)緊密結(jié)合，中國在數(shù)據(jù)資源這一方面的優(yōu)勢，是毋庸置疑的。僅僅在日常生活中，中國近14億的人口就能產(chǎn)生比全球其他國家更多的數(shù)據(jù)。這讓深度學習有一個用武之地。

企業(yè)環(huán)境：自2012年深度學習取得重大突破，中國人工智能企業(yè)如雨后春筍般生長，激烈的競爭環(huán)境下，企業(yè)家們必須兼具創(chuàng)新與奮斗精神，才能在大浪淘沙中適者生存。再這樣的情況下，中國人工智能技術的創(chuàng)業(yè)環(huán)境積極向上，為優(yōu)質(zhì)的技術和企業(yè)家創(chuàng)造了健康的創(chuàng)業(yè)土壤。

來源：安防知識網(wǎng)