掌握聲音前處理核心技術，讓語音交互更智能

時間：2020-05-11 22:30:01

關鍵字：語音交互核心技術語音識別麥克風陣列

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] （文章來源：數碼猴子）隨著AloT物聯網產業(yè)的縱深發(fā)展，智能語音交互技術也成為應用最普遍的交互技術。除了最常用的智能手機外，智能音箱、智能家居、智能機器人等眾多智能終端設備的語音應用不

（文章來源：數碼猴子）

隨著AloT物聯網產業(yè)的縱深發(fā)展，智能語音交互技術也成為應用最普遍的交互技術。除了最常用的智能手機外，智能音箱、智能家居、智能機器人等眾多智能終端設備的語音應用不斷涌現，使得智能語音技術成為智能設備交互的主要手段。

語音識別作為人工智能發(fā)展最早、且率先商業(yè)化的技術，近幾年來隨著機器深度學習技術的突破，識別準確率大幅提升、人機交互的距離也在提升。但是，技術的推進是無止境的，行業(yè)專家表示：想要讓語音識別更加準確，需要解決兩方面的問題：一方面，在語音增強、麥克風陣列以及說話人分離等多項技術領域持續(xù)投入，并結合后端語義，促進對上下文的理解，從而提升識別效果；另一方面，需要從產品設計上進行優(yōu)化，比如通過進一步交互，使語音識別變得更為準確。對芯片設計原廠來講，應該研發(fā)出更高端的主控芯片，在聲音前處理方面有更加優(yōu)秀的表現，讓拾音的距離和效率都能大幅提升。

炬芯科技作為全國領先的聲音前處理技術芯片原廠，掌握聲音前處理核心技術。聽到和聽懂的第一步在于準確的獲取用戶的聲音（即拾音），否則無論云端的虛擬助手多么智能，也是盲人摸象。小編最近走訪炬芯科技得知，拾音其實分為遠場拾音（3 到 5 米）和近場拾音（1 米內）。

比如，以Siri為代表的智能手機就是近場拾音，采用的是單麥克風，可在近距離、低噪聲的情況下拾取符合語音識別需求的聲音。但是一旦將智能手機放在有噪聲的較遠的距離，Siri的識別率就會直線下降，單麥克風的局限就凸顯了出來。不僅如此，由于噪聲、混響等因素的存在，遠場拾音還要與遠講語音識別算法相匹配，才能真正做到“聽清和聽懂”。

聲音的前處理技術，是聲音沒有進入傳輸、沒有存儲之前的處理。聲音前處理目的，就是讓聲音的存儲、傳輸效率更高，識別率更好。聲音的“聽到”主要依托的是麥克風。主要形式為單個麥克風或麥克風陣列（多個麥克風按照一定規(guī)則排列，在特定空間對聲音進行獲取和處理）。而基于麥克風的語音信號處理算法則是讓聲音“聽懂”的關鍵。麥克風陣列是語音交互的第一步，簡單來講，麥克風陣列是由2個及以上麥克風按一定規(guī)則排列組成，在特定空間對聲音進行獲取和處理的錄音系統，在智能音箱落地中有關鍵作用。麥克風+算法，在不同的環(huán)境下排列組合，最終達到“聽到”和“聽懂”。
? ? ? ?