探境科技發(fā)布基于AI降噪算法的語音識別解決方案
AI芯片創(chuàng)企探境科技發(fā)布用于語音識別降噪的高計算強度神經(jīng)網(wǎng)絡(HONN),并提出了增強識別一體化的端到端識別流程。HONN在遠場和高噪聲等環(huán)境下的識別率明顯優(yōu)于DNN。
此前在今年9月,探境發(fā)布通用型語音AI芯片音旋風611,智東西曾對該芯片及內(nèi)部存儲優(yōu)先架構(SFA)做詳細報道。(探境推全球首款通用型語音AI芯片,2美元、已量產(chǎn),圖像芯片年底見)
現(xiàn)場,探境宣布升級語音解決方案,實現(xiàn)在線離線一體化,并展示了探境語音產(chǎn)品全矩陣及端云一體的全棧式平臺化發(fā)展戰(zhàn)略。
據(jù)介紹,到目前為止,探境語音識別方案已實現(xiàn)百萬級產(chǎn)品出貨,今年營收已經(jīng)破千萬元。
探境共有30家合作伙伴,所涉及智能家居品類豐富,從燈具到熱水器、垃圾筒、凈化器應有盡有。
一、語音/圖像芯片雙線并行,展示語音產(chǎn)品全矩陣
探境科技2017年成立,去年完成上億元A輪融資,覆蓋芯片、軟件、算法、系統(tǒng)全棧式技術能力,能提供Turn-key整體方案,既有面向家具、玩具、智能穿戴等場景的語音系列解決方案,也有面向圖像場景下有安防、新零售、輔助駕駛等方面的圖像解決方案。
探境科技目前在全球有6個研發(fā)中心,分別在北京、上海、深圳、合肥、杭州、美國硅谷。員工接近200人,其中150人是研發(fā)人員,其骨干研發(fā)人員平均工作經(jīng)驗約15年,其中有50人擁有碩士、博士學歷。
今年9月,探境面向智能家居市場發(fā)布離在線一體語音識別芯片音旋風611,稱它是目前市面上綜合性能最好、性價比最高的一款離在線語音方案,已在多家客戶的產(chǎn)品中得到應用并收獲良好客戶口碑。
音旋風611支持多達200條命令詞,可覆蓋大部分生活場景,喚醒率不低于99%,識別率超過97%,誤喚醒率低于24小時1次,幾乎在眨眼之間就能完成識別,在10米范圍之內(nèi),都可以正常喚醒與識別。
探境已構建整個產(chǎn)品矩陣,從低功耗到旗艦產(chǎn)品全面覆蓋,除了單麥和雙麥的611和612,還有支持降噪的631、可用于可穿戴設備的超低功耗311、可用于智能家居的精簡命令詞321。
其旗艦產(chǎn)品是711/712,主要面對高端自然語言識別的場景,比現(xiàn)在采用命令詞的方式,有更大的體驗和升級。
總體而言,探境打造的全棧式語音解決方案,主要有五個特點:語音識別體驗好、功耗低、超高性價比、易集成、端云一體化。
由于目前存在一些在線連接的需求,探境會將離線和在線一起提供給大家,做一個整體的解決方案。
另外,探境的圖像芯片目前已流片成功,能效比是目前已知全球最高圖像推理性能,達到800IPS/W。
二、AI算法二次升級,魯棒性和抗噪能力更強
在家居環(huán)境下,語音識別主要面臨幾個挑戰(zhàn):一是在遠場、高噪聲等苛刻場景下信噪比低,二是非穩(wěn)態(tài)的噪聲影響,三是難以處理多聲源問題。
如圖是探境語音識別的的簡化版框圖,一般包括兩個環(huán)節(jié):一是降噪處理和語音識別,二是為語音專門設計的高計算強度神經(jīng)網(wǎng)絡HONN。
1、基于深度學習的降噪算法
不同于傳統(tǒng)降噪算法,探境的降噪算法是基于深度學習的AI降噪算法,不僅可以處理常見的穩(wěn)態(tài)噪聲,還能很好地處理一些非穩(wěn)態(tài)的噪聲和突發(fā)性的噪聲。
為驗證該算法的識別有效性,探境將一批信噪比在3dB左右的語音數(shù)據(jù),送到一家知名互聯(lián)網(wǎng)公司的云端識別引擎做了測試,降噪后比降噪前的識別率能夠提升30%以上。
2、設計新型語音識別網(wǎng)絡
算力決定識別率的上限,趨向于用復雜度高的模型做聲學建模。
參數(shù)數(shù)量相同的條件下,提高計算強度能提高模型的算力需求,卷積能提取聲音信號符合人類生理感知的本質(zhì)特征。
參考計算機視覺中的最新進展,探境科技設計了用于語音識別的高計算強度神經(jīng)網(wǎng)絡(HONN),來對聲學建模單元進行升級。
傳統(tǒng)語音識別算法多使用全連接(DNN/DTNN),探境HONN增加了卷積的操作次數(shù),將每一個處理單元變成了立體的,減少了DNN/TDNN中全連接的次數(shù),同時信息量和計算密度遠超傳統(tǒng)DNN/DTNN方法。這帶來更深維度的識別,從而顯著提升性能。
HONN的參數(shù)量約是傳統(tǒng)DNN算法的五分之一,所需存儲比DNN低,但模型復雜度幾乎是DNN的4倍。
與存儲的需求剛好相反,高強度計算神經(jīng)網(wǎng)絡的算力需求量超過106MOPS,而DNN只有個位數(shù)的計算強度,相差了30倍。
在安靜環(huán)境下,兩種方法的差異并不明顯,但一旦降低信噪比,HONN的在遠場和高噪聲等環(huán)境下的識別率明顯優(yōu)于DNN。
3、端到端一體化建模識別是當前的前沿算法
為消除各模塊間的不適配,端到端處理一體化優(yōu)化成發(fā)展方向。
傳統(tǒng)麥克風陣列處理+ASR流程存在如下四個缺點:
(1)DOA依賴于單麥喚醒詞檢測,使用場景受限;
(2)兩個環(huán)節(jié)優(yōu)化目標不一致,降噪與識別可能不適配;
(3)對硬件要求高,提高BOM成本;
(4)無法處理干擾源與目標聲源方向接近時的狀況。
為了解決這些問題,探境提出了增強識別一體化的端到端識別流程。
在這個流程中,探境放棄用傳統(tǒng)數(shù)字信號處理算法做語音增強,而采用了一套基于神經(jīng)網(wǎng)絡的AI算法做信號增強,處理算法所有的參數(shù)都是和神經(jīng)網(wǎng)絡一起訓練的,以降低最后的識別錯誤率。
其喚醒、識別均依賴于增強后的信號,喚醒率高,不會出現(xiàn)信號增強依賴于單麥喚醒的情況。
信號增強與識別模塊整體的優(yōu)化目標也是一致的,是為了降低識別錯誤率,所以不會出現(xiàn)不適配的情況。
在訓練過程中,探境加入注意力模型和注意力機制,建模效率高,可增強干擾/目標信號方向接近時的識別率。
探境采用FCSP方法處理雙麥數(shù)據(jù),投影矩陣通過端到端的學習得到,降噪識別完全匹配,整套流程由數(shù)據(jù)驅(qū)動,訓練數(shù)據(jù)中覆蓋了各種距離、角度和麥克風配置的數(shù)據(jù),因此不會出現(xiàn)不匹配的情況,對硬件的要求更低。
端到端處理算法是當前較為前沿的處理算法,最近兩年,國內(nèi)外一些大廠都在采用基于端到端的方法做增強識別一體的處理。
例如,亞馬遜可學習的空間濾波方法能將識別錯誤率相對降低15%,谷歌Factored Model in Frequency方法能將識別錯誤率相對降低16%,而探境的頻域復數(shù)子空間投影(FCSP)具有超強抗噪性能,可將識別錯誤率相對降低20%。
在高噪聲環(huán)境下,在信噪比3dB左右,其信噪比依然接近97%;在信噪比接近0dB時,其信噪比依然接近93%。
三、支撐超強算法背后:打破存儲墻問題的創(chuàng)新芯片架構
相比傳統(tǒng)降噪(Beamforming)+DNN方法,探境的AI信號處理+HONN方法對MIC和配套電路的要求更低,同時在高噪聲環(huán)境下的識別率和同等參數(shù)量下的算力需求都更高。
為什么探境采用這種算法,而其他友商不這么做呢?主要有兩個原因:
首先,做這一算法需要熟悉語音、圖像、神經(jīng)網(wǎng)絡、信號處理等各模塊,對算法研發(fā)實力和實現(xiàn)能力均有很高的要求。
其次,探境做的是高強度計算神經(jīng)網(wǎng)絡,國內(nèi)很多語音識別芯片是基于DSP或MCU的,算力非常有限,無法支撐這套算法框架。
探境創(chuàng)造性地研發(fā)了存儲優(yōu)先架構(SFA),解決存儲帶寬要求大、存儲功耗高、數(shù)據(jù)復用等問題對計算性能的影響。探境SFA架構可帶來超高能效比,數(shù)據(jù)訪問可降低10-100倍,存儲子系統(tǒng)功耗下降10倍以上,28nm工藝系統(tǒng)能效超過2TOPS/W。
SFA不僅是適配于終端,也適配于云端推理和訓練,可以組合成各種不同的產(chǎn)品形態(tài)。它具有高能耗比、良好易用性和通用性的特點。
探境科技CEO魯勇表示,SFA的AI芯片架構是真正符合商業(yè)應用的AI芯片架構。
其一,采用成熟設計方案。僅在系統(tǒng)層面做架構更新,無需對底層器件進行修改設計,符合成本結構,不會在芯片內(nèi)部集成大量的存儲以完成高性能。其商業(yè)化路徑也很快。
其二,通用性高。SFA可支持TDNN、CNN和RNN等任意神經(jīng)網(wǎng)絡的,面向眾多場景。
其三,易用性高。探境提供零基礎用戶可使用的工具鏈,用戶學習成本低,模型移植簡單。
探境音旋風611的NPU,本地有效算力非常高,通用性非常好,可以支持CNN、RNN以及HONN等復雜度高的識別模型,也可以支持端到端的處理,可以完美支持FCSP+HONN算法框架。
基于雙麥算法,探境對語音芯片進行再升級,推出了音旋風612語音識別方案。
相比傳統(tǒng)語音芯片,探境音旋風612有如下三個特點:
(1)降低了對多麥的信號處理,無形中節(jié)省了硬件成本;
(2)在高噪聲環(huán)境下識別率高;
(3)有效算力更高。
在聲壓超過85dB的高噪聲環(huán)境下,音旋風612的識別依然毫無壓力。
結語:語音算法升級的價值在于提升用戶體驗
語音產(chǎn)品解決方案的價值與產(chǎn)品用戶體驗密切相關,軟硬協(xié)同已經(jīng)成為兼顧高算力、低功耗、低成本所必備的要素,探境通過研發(fā)創(chuàng)新SFA架構解決芯片性能和成本問題,通過算法升級來提升用戶體驗。
探境科技技術副總裁李同治表示,做C端消費類產(chǎn)品,用戶體驗是根本,產(chǎn)品用戶體驗好了,消費者才買單。探境的這次算法升級,可明顯提升用戶體驗,讓消費者滿意,從而讓合作伙伴、B端客戶、探境一起受益。