探境科技發(fā)布基于AI降噪算法的語音識別解決方案

時間：2020-05-11 16:12:01

關鍵字：神經(jīng)網(wǎng)絡語音識別降噪算法 AI

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] AI芯片創(chuàng)企探境科技發(fā)布用于語音識別降噪的高計算強度神經(jīng)網(wǎng)絡（HONN），并提出了增強識別一體化的端到端識別流程。HONN在遠場和高噪聲等環(huán)境下的識別率明顯優(yōu)于DNN。此前在今年9月，

AI芯片創(chuàng)企探境科技發(fā)布用于語音識別降噪的高計算強度神經(jīng)網(wǎng)絡（HONN），并提出了增強識別一體化的端到端識別流程。HONN在遠場和高噪聲等環(huán)境下的識別率明顯優(yōu)于DNN。

此前在今年9月，探境發(fā)布通用型語音AI芯片音旋風611，智東西曾對該芯片及內(nèi)部存儲優(yōu)先架構（SFA）做詳細報道。（探境推全球首款通用型語音AI芯片，2美元、已量產(chǎn)，圖像芯片年底見）

現(xiàn)場，探境宣布升級語音解決方案，實現(xiàn)在線離線一體化，并展示了探境語音產(chǎn)品全矩陣及端云一體的全棧式平臺化發(fā)展戰(zhàn)略。

據(jù)介紹，到目前為止，探境語音識別方案已實現(xiàn)百萬級產(chǎn)品出貨，今年營收已經(jīng)破千萬元。

探境共有30家合作伙伴，所涉及智能家居品類豐富，從燈具到熱水器、垃圾筒、凈化器應有盡有。

一、語音/圖像芯片雙線并行，展示語音產(chǎn)品全矩陣

探境科技2017年成立，去年完成上億元A輪融資，覆蓋芯片、軟件、算法、系統(tǒng)全棧式技術能力，能提供Turn-key整體方案，既有面向家具、玩具、智能穿戴等場景的語音系列解決方案，也有面向圖像場景下有安防、新零售、輔助駕駛等方面的圖像解決方案。

探境科技目前在全球有6個研發(fā)中心，分別在北京、上海、深圳、合肥、杭州、美國硅谷。員工接近200人，其中150人是研發(fā)人員，其骨干研發(fā)人員平均工作經(jīng)驗約15年，其中有50人擁有碩士、博士學歷。

今年9月，探境面向智能家居市場發(fā)布離在線一體語音識別芯片音旋風611，稱它是目前市面上綜合性能最好、性價比最高的一款離在線語音方案，已在多家客戶的產(chǎn)品中得到應用并收獲良好客戶口碑。

音旋風611支持多達200條命令詞，可覆蓋大部分生活場景，喚醒率不低于99%，識別率超過97%，誤喚醒率低于24小時1次，幾乎在眨眼之間就能完成識別，在10米范圍之內(nèi)，都可以正常喚醒與識別。

探境已構建整個產(chǎn)品矩陣，從低功耗到旗艦產(chǎn)品全面覆蓋，除了單麥和雙麥的611和612，還有支持降噪的631、可用于可穿戴設備的超低功耗311、可用于智能家居的精簡命令詞321。

其旗艦產(chǎn)品是711/712，主要面對高端自然語言識別的場景，比現(xiàn)在采用命令詞的方式，有更大的體驗和升級。

總體而言，探境打造的全棧式語音解決方案，主要有五個特點：語音識別體驗好、功耗低、超高性價比、易集成、端云一體化。

由于目前存在一些在線連接的需求，探境會將離線和在線一起提供給大家，做一個整體的解決方案。

另外，探境的圖像芯片目前已流片成功，能效比是目前已知全球最高圖像推理性能，達到800IPS/W。

二、AI算法二次升級，魯棒性和抗噪能力更強

在家居環(huán)境下，語音識別主要面臨幾個挑戰(zhàn)：一是在遠場、高噪聲等苛刻場景下信噪比低，二是非穩(wěn)態(tài)的噪聲影響，三是難以處理多聲源問題。

如圖是探境語音識別的的簡化版框圖，一般包括兩個環(huán)節(jié)：一是降噪處理和語音識別，二是為語音專門設計的高計算強度神經(jīng)網(wǎng)絡HONN。

1、基于深度學習的降噪算法

不同于傳統(tǒng)降噪算法，探境的降噪算法是基于深度學習的AI降噪算法，不僅可以處理常見的穩(wěn)態(tài)噪聲，還能很好地處理一些非穩(wěn)態(tài)的噪聲和突發(fā)性的噪聲。

為驗證該算法的識別有效性，探境將一批信噪比在3dB左右的語音數(shù)據(jù)，送到一家知名互聯(lián)網(wǎng)公司的云端識別引擎做了測試，降噪后比降噪前的識別率能夠提升30%以上。

2、設計新型語音識別網(wǎng)絡

算力決定識別率的上限，趨向于用復雜度高的模型做聲學建模。

參數(shù)數(shù)量相同的條件下，提高計算強度能提高模型的算力需求，卷積能提取聲音信號符合人類生理感知的本質(zhì)特征。

參考計算機視覺中的最新進展，探境科技設計了用于語音識別的高計算強度神經(jīng)網(wǎng)絡（HONN），來對聲學建模單元進行升級。

傳統(tǒng)語音識別算法多使用全連接（DNN/DTNN），探境HONN增加了卷積的操作次數(shù)，將每一個處理單元變成了立體的，減少了DNN/TDNN中全連接的次數(shù)，同時信息量和計算密度遠超傳統(tǒng)DNN/DTNN方法。這帶來更深維度的識別，從而顯著提升性能。

HONN的參數(shù)量約是傳統(tǒng)DNN算法的五分之一，所需存儲比DNN低，但模型復雜度幾乎是DNN的4倍。

與存儲的需求剛好相反，高強度計算神經(jīng)網(wǎng)絡的算力需求量超過106MOPS，而DNN只有個位數(shù)的計算強度，相差了30倍。

在安靜環(huán)境下，兩種方法的差異并不明顯，但一旦降低信噪比，HONN的在遠場和高噪聲等環(huán)境下的識別率明顯優(yōu)于DNN。

3、端到端一體化建模識別是當前的前沿算法

為消除各模塊間的不適配，端到端處理一體化優(yōu)化成發(fā)展方向。

傳統(tǒng)麥克風陣列處理+ASR流程存在如下四個缺點：

（1）DOA依賴于單麥喚醒詞檢測，使用場景受限；

（2）兩個環(huán)節(jié)優(yōu)化目標不一致，降噪與識別可能不適配；

（3）對硬件要求高，提高BOM成本；

（4）無法處理干擾源與目標聲源方向接近時的狀況。

為了解決這些問題，探境提出了增強識別一體化的端到端識別流程。

在這個流程中，探境放棄用傳統(tǒng)數(shù)字信號處理算法做語音增強，而采用了一套基于神經(jīng)網(wǎng)絡的AI算法做信號增強，處理算法所有的參數(shù)都是和神經(jīng)網(wǎng)絡一起訓練的，以降低最后的識別錯誤率。

其喚醒、識別均依賴于增強后的信號，喚醒率高，不會出現(xiàn)信號增強依賴于單麥喚醒的情況。

信號增強與識別模塊整體的優(yōu)化目標也是一致的，是為了降低識別錯誤率，所以不會出現(xiàn)不適配的情況。

在訓練過程中，探境加入注意力模型和注意力機制，建模效率高，可增強干擾/目標信號方向接近時的識別率。

探境采用FCSP方法處理雙麥數(shù)據(jù)，投影矩陣通過端到端的學習得到，降噪識別完全匹配，整套流程由數(shù)據(jù)驅(qū)動，訓練數(shù)據(jù)中覆蓋了各種距離、角度和麥克風配置的數(shù)據(jù)，因此不會出現(xiàn)不匹配的情況，對硬件的要求更低。

端到端處理算法是當前較為前沿的處理算法，最近兩年，國內(nèi)外一些大廠都在采用基于端到端的方法做增強識別一體的處理。

例如，亞馬遜可學習的空間濾波方法能將識別錯誤率相對降低15%，谷歌Factored Model in Frequency方法能將識別錯誤率相對降低16%，而探境的頻域復數(shù)子空間投影（FCSP）具有超強抗噪性能，可將識別錯誤率相對降低20%。

在高噪聲環(huán)境下，在信噪比3dB左右，其信噪比依然接近97%；在信噪比接近0dB時，其信噪比依然接近93%。

三、支撐超強算法背后：打破存儲墻問題的創(chuàng)新芯片架構

相比傳統(tǒng)降噪（Beamforming）+DNN方法，探境的AI信號處理+HONN方法對MIC和配套電路的要求更低，同時在高噪聲環(huán)境下的識別率和同等參數(shù)量下的算力需求都更高。

為什么探境采用這種算法，而其他友商不這么做呢？主要有兩個原因：

首先，做這一算法需要熟悉語音、圖像、神經(jīng)網(wǎng)絡、信號處理等各模塊，對算法研發(fā)實力和實現(xiàn)能力均有很高的要求。

其次，探境做的是高強度計算神經(jīng)網(wǎng)絡，國內(nèi)很多語音識別芯片是基于DSP或MCU的，算力非常有限，無法支撐這套算法框架。

探境創(chuàng)造性地研發(fā)了存儲優(yōu)先架構（SFA），解決存儲帶寬要求大、存儲功耗高、數(shù)據(jù)復用等問題對計算性能的影響。探境SFA架構可帶來超高能效比，數(shù)據(jù)訪問可降低10-100倍，存儲子系統(tǒng)功耗下降10倍以上，28nm工藝系統(tǒng)能效超過2TOPS/W。

SFA不僅是適配于終端，也適配于云端推理和訓練，可以組合成各種不同的產(chǎn)品形態(tài)。它具有高能耗比、良好易用性和通用性的特點。

探境科技CEO魯勇表示，SFA的AI芯片架構是真正符合商業(yè)應用的AI芯片架構。

其一，采用成熟設計方案。僅在系統(tǒng)層面做架構更新，無需對底層器件進行修改設計，符合成本結構，不會在芯片內(nèi)部集成大量的存儲以完成高性能。其商業(yè)化路徑也很快。

其二，通用性高。SFA可支持TDNN、CNN和RNN等任意神經(jīng)網(wǎng)絡的，面向眾多場景。

其三，易用性高。探境提供零基礎用戶可使用的工具鏈，用戶學習成本低，模型移植簡單。

探境音旋風611的NPU，本地有效算力非常高，通用性非常好，可以支持CNN、RNN以及HONN等復雜度高的識別模型，也可以支持端到端的處理，可以完美支持FCSP+HONN算法框架。

基于雙麥算法，探境對語音芯片進行再升級，推出了音旋風612語音識別方案。

相比傳統(tǒng)語音芯片，探境音旋風612有如下三個特點：

（1）降低了對多麥的信號處理，無形中節(jié)省了硬件成本；

（2）在高噪聲環(huán)境下識別率高；

（3）有效算力更高。

在聲壓超過85dB的高噪聲環(huán)境下，音旋風612的識別依然毫無壓力。