(文章來源:數碼猴子)
隨著AloT物聯網產業(yè)的縱深發(fā)展,智能語音交互技術也成為應用最普遍的交互技術。除了最常用的智能手機外,智能音箱、智能家居、智能機器人等眾多智能終端設備的語音應用不斷涌現,使得智能語音技術成為智能設備交互的主要手段。
語音識別作為人工智能發(fā)展最早、且率先商業(yè)化的技術,近幾年來隨著機器深度學習技術的突破,識別準確率大幅提升、人機交互的距離也在提升。但是,技術的推進是無止境的,行業(yè)專家表示:想要讓語音識別更加準確,需要解決兩方面的問題:一方面,在語音增強、麥克風陣列以及說話人分離等多項技術領域持續(xù)投入,并結合后端語義,促進對上下文的理解,從而提升識別效果;另一方面,需要從產品設計上進行優(yōu)化,比如通過進一步交互,使語音識別變得更為準確。對芯片設計原廠來講,應該研發(fā)出更高端的主控芯片,在聲音前處理方面有更加優(yōu)秀的表現,讓拾音的距離和效率都能大幅提升。
炬芯科技作為全國領先的聲音前處理技術芯片原廠,掌握聲音前處理核心技術。聽到和聽懂的第一步在于準確的獲取用戶的聲音(即拾音),否則無論云端的虛擬助手多么智能,也是盲人摸象。小編最近走訪炬芯科技得知,拾音其實分為遠場拾音(3 到 5 米)和近場拾音(1 米內)。
比如,以Siri為代表的智能手機就是近場拾音,采用的是單麥克風,可在近距離、低噪聲的情況下拾取符合語音識別需求的聲音。但是一旦將智能手機放在有噪聲的較遠的距離,Siri的識別率就會直線下降,單麥克風的局限就凸顯了出來。不僅如此,由于噪聲、混響等因素的存在,遠場拾音還要與遠講語音識別算法相匹配,才能真正做到“聽清和聽懂”。
聲音的前處理技術,是聲音沒有進入傳輸、沒有存儲之前的處理。聲音前處理目的,就是讓聲音的存儲、傳輸效率更高,識別率更好。聲音的“聽到”主要依托的是麥克風。主要形式為單個麥克風或麥克風陣列(多個麥克風按照一定規(guī)則排列,在特定空間對聲音進行獲取和處理)。而基于麥克風的語音信號處理算法則是讓聲音“聽懂”的關鍵。麥克風陣列是語音交互的第一步,簡單來講,麥克風陣列是由2個及以上麥克風按一定規(guī)則排列組成,在特定空間對聲音進行獲取和處理的錄音系統,在智能音箱落地中有關鍵作用。麥克風+算法,在不同的環(huán)境下排列組合,最終達到“聽到”和“聽懂”。
? ? ? ?