當(dāng)前位置:首頁 > 消費電子 > 音視頻及家電
[導(dǎo)讀] (文章來源:IT168) 談到智能語音,早已不是什么新鮮的事情,國外有蘋果Siri,微軟小娜,Google Assistant,亞馬遜的Alexa這樣的智能語音大咖。國內(nèi)有靈犀助手(科大

(文章來源:IT168)

談到智能語音,早已不是什么新鮮的事情,國外有蘋果Siri,微軟小娜,Google Assistant,亞馬遜的Alexa這樣的智能語音大咖。國內(nèi)有靈犀助手(科大訊飛),小度(百度),小愛同學(xué)(小米)這樣的后來跟進者。

首次接觸智能語音的用戶,會覺得很神奇,覺得這東西怎么可以如此智能。而對于經(jīng)常使用的老用戶來說,智能語音助手的雞肋日益顯現(xiàn),因為現(xiàn)階段的智能語音基本都是采用數(shù)據(jù)庫匹配的原則,對于云端數(shù)據(jù)庫中沒有的知識,智能語音也只能“呵呵”了。想必大家都還記得,雷軍同志在2019年的發(fā)布會上,演示小愛智能音箱時出現(xiàn)的多次“車禍”現(xiàn)場。不難看出的是,智能語音設(shè)備的拾音技術(shù)依然收外界許多因素干擾,進步和優(yōu)化空間巨大。但,對于技術(shù)來說,我們應(yīng)該永遠(yuǎn)懷著寬容和理解的態(tài)度去對待,因為任何一門技術(shù)都是一個不斷積累和迭代的過程。

對于大部分人來說,目前接觸體驗最多的智能語音硬件應(yīng)該只有智能音箱和智能機器人。只有通過智能硬件與云端數(shù)據(jù)中心的默契配合,才有可能讓智能語音交互形成完整通路。語音交互的大致流程可分為:聲音采集—》降噪—》語音喚醒—》語音轉(zhuǎn)文字—》語義理解—》回復(fù)文字和指令—》文字轉(zhuǎn)聲音—》播放聲音。以下天貓精靈智能音箱為例,將語音交互完整步驟做逐步分解。

1.用戶說“天貓精靈,今天天氣怎么樣?”;2、“天貓精靈”被語音喚醒模塊接收到,并判斷為喚醒詞,然后通過AI芯片和硬件拾取和記錄“今天天氣怎么樣”這段語音,并發(fā)送給云端服務(wù)器;3、服務(wù)器把收集到的電腦信號,再次轉(zhuǎn)化成文字“今天天氣怎么樣”,交給語義理解服務(wù)器;語義理解服務(wù)器把“今天天氣怎么樣”這段文字,拆解成“事件=查詢天氣,時間=今天”這段控制指令回傳給設(shè)備。4、設(shè)備根據(jù)時間和本機地理位置,找天氣服務(wù)器查詢天氣,并獲得天氣的的文本數(shù)據(jù)“今天要下雨”;5、設(shè)備把“今天要下雨”這幾個字發(fā)給文字轉(zhuǎn)聲音的服務(wù)器,服務(wù)器返回“今天要下雨”這段聲音,由設(shè)備喇叭播放出來。

毋庸置疑的是,以上五個步驟都是由智能音箱的硬件和云端的數(shù)據(jù)中心配合完成的,硬件只要負(fù)責(zé)聲音的拾取和傳達,云端則用豐富的數(shù)據(jù)資源去匹配用戶的需求,二者缺一不可。相對來說,聲音前處理技術(shù)則是智能硬件最最重要的部分,主要體現(xiàn)降噪和拾音效果兩方面,喚醒以及與機器對話的時候都需要拾音,而且拾音還有近距離和遠(yuǎn)距離之說,如果連最基本的聲音都沒有聽清和聽懂,談何后面的數(shù)據(jù)傳達和解析呢。

聲音的前處理技術(shù),是聲音沒有進入傳輸、沒有存儲之前的處理。聲音前處理目的,就是讓聲音的存儲、傳輸效率更高,識別率更好。聲音的后處理技術(shù),是聲音經(jīng)過存儲之后進行播放的同時處理。是對音源例如 MP3 等媒體解碼播放的聲音進音效增強處理。如何將人的聲音有效傳達至機器,讓機器“聽到”、“聽清”且“聽懂”? “聽懂”之后又改如何與云端的數(shù)據(jù)進行精準(zhǔn)匹配,最終反饋給用戶真正想要的需求動作?

這將是智能語音聲音前處理技術(shù)和聲音后處理技術(shù)應(yīng)該思考和努力解決的問題。國內(nèi)耕耘聲音20余年,在聲音前處理技術(shù)方面已經(jīng)處于領(lǐng)先地位的國產(chǎn)芯片原廠炬芯科技從2018年開始就在核心主推的雙麥克風(fēng)陣列智能語音芯片,已經(jīng)在各大品牌智能音箱、早教機器人、繪本機器人、物聯(lián)網(wǎng)中控等產(chǎn)品上完美落地,強大的聲音前處理技術(shù)為完美智能語音體驗保駕護航。

目前,國家正在加快人工智能的產(chǎn)業(yè)布局,發(fā)布多項利好政策促進人工智能產(chǎn)業(yè)發(fā)展;5G時代的來臨更是為人工智能的發(fā)展培育了一片物聯(lián)網(wǎng)沃土。我們可以預(yù)見,智能語音作為下一代人機交互的新入口,將率先在這片人工智能的沃土上生根發(fā)力,推動整個產(chǎn)業(yè)的茁壯成長。如想讓讓智能語音產(chǎn)品做到真正的聰明,智能硬件(包括主控芯片和各種IC)和語音助手(云端數(shù)據(jù)中心)都需要再升級,不斷打通人和機器之間對話的技術(shù)壁壘,讓人與機器中間的溝通變成真正的“面對面”溝通。
? ? ?

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉