語音識別如何處理工作語音識別功能三個處理階段

時間：2020-07-28 11:39:01

關鍵字： hmi 嵌入式語音識別

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 當今的消費者對技術的要求日益提升，這一點在用于與設備進行互動的界面技術上體現得尤為明顯。人們對包括手機、車載電子、家用網絡和辦公環(huán)境下的設備要求越來越高，要求它們能夠融入更易操作的、更直觀的用戶

當今的消費者對技術的要求日益提升，這一點在用于與設備進行互動的界面技術上體現得尤為明顯。人們對包括手機、車載電子、家用網絡和辦公環(huán)境下的設備要求越來越高，要求它們能夠融入更易操作的、更直觀的用戶界面，以更貼切反映人與人之間的互動關系。

在每一個新的產品周期中，設計人員都倍感壓力，要設計出操作更加精確、用戶界面更加直觀的產品。近年來，繼觸屏技術逐漸普及到包括電話、平板電腦、顯示器、銷售點解決方案、ATM和查詢機等設備之后，語音識別技術正在快速成為驅動產品創(chuàng)新與運用的下一代用戶界面技術。語音識別，甚至是手勢與影像識別，成為各種工作與個人設備的標準配備只是個時間問題。由于語音識別技術在某種程度上受制于嵌入式應用的發(fā)展，因此其至今仍然處于發(fā)展的初期。然而，語音識別交互界面技術將最終被廣泛采用，這是技術發(fā)展的大勢所趨。汽車工業(yè)已經在計劃引入更多具備更強嵌入式語音識別功能的尖端模塊。

語音識別技術之所以發(fā)展緩慢，部分是由于用戶界面越直觀，其所需的處理能力與內存就呈指數級別上升，這反過來促進了閃存技術的創(chuàng)新發(fā)展。正如大多數設計人員所熟知的那樣，用戶界面越直觀，其所需的技術平臺與設計就越復雜。用戶界面技術將消耗更多的計算能力與閃存，才能在達到高性能的處理能力的同時，保持最佳用戶體驗。一種解決方案是采用專門的硬件，即具有下一代閃存能力、集成了邏輯與靈活軟件算法的專用協處理器。這些協處理器能夠作為獨立的硬件加速器分擔主應用處理器的負擔，從而獲得市場上最高水平的用戶體驗。

人機交互界面的演進

自從電腦鼠標問世以來，HMI（人機交互）技術取得了長足進步。用戶界面的創(chuàng)新從歷史上看可歸功于新器件的成功運用，例如，從老款移動電話的實體按鍵變?yōu)橹悄苁謾C的觸屏。打造具有吸引力的用戶界面極具挑戰(zhàn)性，需要相當復雜的系統來創(chuàng)造功能性強、易于訪問、邏輯清晰與令人愉悅的用戶體驗。這種復雜系統對高可靠性、高性能硬件提在處理能力和閃存帶寬方面要求較高。由于終端產品的核心功能創(chuàng)新已接近成熟，消費者們正日益將產品的工業(yè)設計與用戶界面作為標準來做出購買決定。生產商也注意到了這一變化，而閃存生產商與設計人員也在市場的壓力下，加快創(chuàng)新以回應市場的要求。語音識別正是下一波人機交互技術創(chuàng)新的焦點之所在。

語音識別如何處理工作

在先進的HMI技術正日益成為許多消費電子產品事實上標準的同時，高性能處理能力對嵌入式系統而言正變得的更為關鍵?？傮w而言，語音識別功能可被細分為三個處理階段：

第一個階段是聲音處理階段，這通常會占用不到5%的處理能力，即系統將捕獲的聲音信號從模擬信息轉化為數字信息。這同時也是過濾、抑制噪聲和回聲消除的階段，將話筒聲音與錯誤捕獲的雜音區(qū)分開來。經過處理后的信號以數字聲音流的形式輸出，每一段聲音都如同指紋一樣是獨一無二的。第二個階段為匹配階段，即系統將這些聲音信號與“語音庫”，即聲學模型進行匹配。這種匹配階段被稱作聲學打分，會占用系統處理帶寬的50%到70%。第二階段產生的聲學得分將作為輸入信息進入第三個階段，即系統通過搜索語言與詞典模型，將這些聲學信號轉譯為文字信息。這一階段會占用30%到50%的處理能力。

一般說來，整個處理過程由一個CPU負責，而這個處理器也同時需要負責處理若干其他的任務。由于語音識別非常占用計算能力與閃存空間，因此在一個嵌入式解決方案共享資源會導致無法接受的延遲，或者限制了帶寬處理日益增加的軟件模型的能力。為了取得更高的精確性，軟件模型的大小正在日益膨脹。

為何為HMI處理過程配備專門的硬件？

由于HMI（如語音識別）處理過程中繁重的存儲與運算帶寬限制，這種多任務共享一個CPU資源的方式常常以犧牲某些終端用戶體驗為代價。

例如，在語音識別中，在共享資源的嵌入式系統條件下，設計人員必須在速度與精確性之間進行取舍。更大的聲學模型能實現更高的精確性，不過卻要有更大的處理能力才能避免無法接受的延遲響應速度。另外，由于用戶提升了他們對語音處理界面的期望，例如希望界面能夠區(qū)分性別、噪音、對話、口音以及多語言等，這種功能豐富的語音模塊的大小則會呈指數級別與日俱增，而可靠性高、可快速訪問的內存對這種日益提升的性能而言將變得更加重要。不幸的是，如今資源共享、資源限制型的硬件平臺并不能為目前最大型的聲學模型提供可接受的處理能力。因此，業(yè)內目前只能退而求其次，開發(fā)出壓縮版的聲學模型，僅能在最低程度可接受的響應時間內提供最低程度可接受的精確性。

為了克服這個缺點，業(yè)界最近已經開發(fā)出了一套解決方案：一款能夠提升處理能力，加速某些語音識別處理階段的專用硬件協處理器。這類解決方案的第一個代表就是Spansion語音協處理器。Spansion語音協處理器負責語音識別的聲學評分階段，從而分擔了CPU的負荷，最多能減少50%的響應延遲。此外，Spansion語音協處理器能夠為當今最大的聲學模型提供足夠大的處理能力，最大能達到目前我們常見聲學模型的10倍。采用這種解決方案能徹底解決延遲性與精確性的取舍問題，而在基于資源共享平臺的嵌入式語音識別解決方案中，這是個重大的設計問題。

這幾類專用的用戶界面協處理器運用先進的閃存技術，實現一系列應用的瞬間響應、高可靠性與高性能。

先進的HMI看起來將會是什么樣子的？

雖然語音識別代表了嵌入式系統HMI當下發(fā)展的潮流，目前，在為自然語言理解、圖像識別或情緒感知等功能提供先進的HMI方面，我們僅僅邁出了一小步。然而，近年來閃存技術的發(fā)展，正不斷地推動著整個行業(yè)向著更新穎、更富創(chuàng)造性的發(fā)展高度。專用的硬件與先進的閃存和邏輯器件結合，能為功能更豐富、更強大的軟件模型的運行提供基礎，逐步引領我們更加接近未來更尖端的HMI技術。隨著閃存創(chuàng)新步伐的不斷向前推進，我們也將更有能力設計出功能更豐富、更貼近自然的界面，最終改善用戶體驗。

消費者對最佳用戶體驗的追求，不斷地鞭策著我們開創(chuàng)新的架構。因此，正是用戶不斷推動著閃存技術的不斷創(chuàng)新并向前高速發(fā)展。如今，下一個技術發(fā)展的前沿與挑戰(zhàn)是提供更加豐富的用戶體驗，在先進的閃存技術與專用硬件的助力下獲得更強大的語音識別能力。