打破智能語音技術(shù)瓶頸,炬芯用芯發(fā)展交互新體驗
(文章來源:IT168)
談到智能語音,早已不是什么新鮮的事情,國外有蘋果Siri,微軟小娜,Google Assistant,亞馬遜的Alexa這樣的智能語音大咖。國內(nèi)有靈犀助手(科大訊飛),小度(百度),小愛同學(xué)(小米)這樣的后來跟進者。
首次接觸智能語音的用戶,會覺得很神奇,覺得這東西怎么可以如此智能。而對于經(jīng)常使用的老用戶來說,智能語音助手的雞肋日益顯現(xiàn),因為現(xiàn)階段的智能語音基本都是采用數(shù)據(jù)庫匹配的原則,對于云端數(shù)據(jù)庫中沒有的知識,智能語音也只能“呵呵”了。想必大家都還記得,雷軍同志在2019年的發(fā)布會上,演示小愛智能音箱時出現(xiàn)的多次“車禍”現(xiàn)場。不難看出的是,智能語音設(shè)備的拾音技術(shù)依然收外界許多因素干擾,進步和優(yōu)化空間巨大。但,對于技術(shù)來說,我們應(yīng)該永遠(yuǎn)懷著寬容和理解的態(tài)度去對待,因為任何一門技術(shù)都是一個不斷積累和迭代的過程。
對于大部分人來說,目前接觸體驗最多的智能語音硬件應(yīng)該只有智能音箱和智能機器人。只有通過智能硬件與云端數(shù)據(jù)中心的默契配合,才有可能讓智能語音交互形成完整通路。語音交互的大致流程可分為:聲音采集—》降噪—》語音喚醒—》語音轉(zhuǎn)文字—》語義理解—》回復(fù)文字和指令—》文字轉(zhuǎn)聲音—》播放聲音。以下天貓精靈智能音箱為例,將語音交互完整步驟做逐步分解。
1.用戶說“天貓精靈,今天天氣怎么樣?”;2、“天貓精靈”被語音喚醒模塊接收到,并判斷為喚醒詞,然后通過AI芯片和硬件拾取和記錄“今天天氣怎么樣”這段語音,并發(fā)送給云端服務(wù)器;3、服務(wù)器把收集到的電腦信號,再次轉(zhuǎn)化成文字“今天天氣怎么樣”,交給語義理解服務(wù)器;語義理解服務(wù)器把“今天天氣怎么樣”這段文字,拆解成“事件=查詢天氣,時間=今天”這段控制指令回傳給設(shè)備。4、設(shè)備根據(jù)時間和本機地理位置,找天氣服務(wù)器查詢天氣,并獲得天氣的的文本數(shù)據(jù)“今天要下雨”;5、設(shè)備把“今天要下雨”這幾個字發(fā)給文字轉(zhuǎn)聲音的服務(wù)器,服務(wù)器返回“今天要下雨”這段聲音,由設(shè)備喇叭播放出來。
毋庸置疑的是,以上五個步驟都是由智能音箱的硬件和云端的數(shù)據(jù)中心配合完成的,硬件只要負(fù)責(zé)聲音的拾取和傳達,云端則用豐富的數(shù)據(jù)資源去匹配用戶的需求,二者缺一不可。相對來說,聲音前處理技術(shù)則是智能硬件最最重要的部分,主要體現(xiàn)降噪和拾音效果兩方面,喚醒以及與機器對話的時候都需要拾音,而且拾音還有近距離和遠(yuǎn)距離之說,如果連最基本的聲音都沒有聽清和聽懂,談何后面的數(shù)據(jù)傳達和解析呢。
聲音的前處理技術(shù),是聲音沒有進入傳輸、沒有存儲之前的處理。聲音前處理目的,就是讓聲音的存儲、傳輸效率更高,識別率更好。聲音的后處理技術(shù),是聲音經(jīng)過存儲之后進行播放的同時處理。是對音源例如 MP3 等媒體解碼播放的聲音進音效增強處理。如何將人的聲音有效傳達至機器,讓機器“聽到”、“聽清”且“聽懂”? “聽懂”之后又改如何與云端的數(shù)據(jù)進行精準(zhǔn)匹配,最終反饋給用戶真正想要的需求動作?
這將是智能語音聲音前處理技術(shù)和聲音后處理技術(shù)應(yīng)該思考和努力解決的問題。國內(nèi)耕耘聲音20余年,在聲音前處理技術(shù)方面已經(jīng)處于領(lǐng)先地位的國產(chǎn)芯片原廠炬芯科技從2018年開始就在核心主推的雙麥克風(fēng)陣列智能語音芯片,已經(jīng)在各大品牌智能音箱、早教機器人、繪本機器人、物聯(lián)網(wǎng)中控等產(chǎn)品上完美落地,強大的聲音前處理技術(shù)為完美智能語音體驗保駕護航。
目前,國家正在加快人工智能的產(chǎn)業(yè)布局,發(fā)布多項利好政策促進人工智能產(chǎn)業(yè)發(fā)展;5G時代的來臨更是為人工智能的發(fā)展培育了一片物聯(lián)網(wǎng)沃土。我們可以預(yù)見,智能語音作為下一代人機交互的新入口,將率先在這片人工智能的沃土上生根發(fā)力,推動整個產(chǎn)業(yè)的茁壯成長。如想讓讓智能語音產(chǎn)品做到真正的聰明,智能硬件(包括主控芯片和各種IC)和語音助手(云端數(shù)據(jù)中心)都需要再升級,不斷打通人和機器之間對話的技術(shù)壁壘,讓人與機器中間的溝通變成真正的“面對面”溝通。
? ? ?