當(dāng)前位置:首頁 > 智能硬件 > 智能硬件
[導(dǎo)讀]2019年4月26日,由意法半導(dǎo)體主辦的2019年STM32中國峰會(huì)在深圳舉行,出門問問工程VP李勤受邀出席大會(huì)AIoT沙龍,并在人工智能與計(jì)算分會(huì)場發(fā)表了演講,分享了出門問問在嵌入式系統(tǒng)上的智能語音交互方案和經(jīng)驗(yàn)。

2019年4月26日,由意法半導(dǎo)體主辦的2019年STM32中國峰會(huì)在深圳舉行,出門問問工程VP李勤受邀出席大會(huì)AIoT沙龍,并在人工智能與計(jì)算分會(huì)場發(fā)表了演講,分享了出門問問在嵌入式系統(tǒng)上的智能語音交互方案和經(jīng)驗(yàn)。

 

深耕萬億級(jí)的AIoT市場

在上午主會(huì)場的AIoT沙龍環(huán)節(jié),李勤與微軟首席技術(shù)顧問管震、移遠(yuǎn)通信高級(jí)副總裁張棟、意法半導(dǎo)體大中華暨南亞區(qū)AMS市場及應(yīng)用高級(jí)總監(jiān)吳衛(wèi)東共同探討了對于人工智能物聯(lián)網(wǎng)的看法。

李勤表示,中國的AIoT市場是一個(gè)萬億級(jí)的市場。而其中,AI可穿戴將是重要的增長極,將在未來5年保持高速的增長態(tài)勢。按照公開數(shù)據(jù),預(yù)計(jì)在未來5年內(nèi),全球Wearable IoT的市場規(guī)模會(huì)達(dá)到424億美元,達(dá)到平均每年30%的復(fù)合增長率。

芯片、算法和傳感器的深度集成是AIoT核心的技術(shù)之一。未來,算法和芯片的深度融合是一大挑戰(zhàn),即算法去為芯片優(yōu)化,芯片為算法優(yōu)化。這也是出門問問的優(yōu)勢所在,可以發(fā)揮全棧式的AI語音交互算法能力,以及芯片、算法、產(chǎn)品端的深度整合和系統(tǒng)集成能力,賦能給其他合作伙伴。

 

將芯片、傳感器和AI算法深度集成

在下午的人工智能與計(jì)算分會(huì)場上,李勤深入地分析了出門問問作為一家AI技術(shù)公司是如何做嵌入式系統(tǒng)上的智能語音交互方案的。

李勤指出,AI可穿戴技術(shù)的核心是人機(jī)交互的過程,而人機(jī)交互涉及到多種傳感器融合技術(shù)以及語音交互技術(shù)。多種傳感器融合技術(shù)包括拾音麥克風(fēng)、運(yùn)動(dòng)傳感器(例如加速度器,陀螺儀)、骨傳導(dǎo)麥克風(fēng)、心率傳感器、觸摸及反饋等,只有把多種傳感器融合在一起,才能給用戶提供更好的體驗(yàn)。

而語音交互是所有人機(jī)交互方式中最重要的一個(gè),在合適的場景下極為高效。它有著不可替代的優(yōu)勢,例如解放雙手和雙眼;指向明確,語義直達(dá)目標(biāo),縮短整個(gè)的使用路徑;自然語言交互,簡單人性化,學(xué)習(xí)成本低,不用記固定命令詞;對設(shè)備的大小沒有特別要求。但當(dāng)然,語音交互也面臨一些挑戰(zhàn),例如受環(huán)境影響比較大,前端信號(hào)處理的挑戰(zhàn)大,受硬件和結(jié)構(gòu)的限制,返回結(jié)果的展示形式單一等。

未來3年,AI可穿戴市場將迎來高速發(fā)展,整體規(guī)模預(yù)計(jì)達(dá)到10億設(shè)備量級(jí),保持30%的高年均增長速度。相應(yīng)的,未來市場對芯片和傳感器的需求都會(huì)大量增加。

在高速增長的過程中,AI可穿戴同樣面臨許多迭代技術(shù)挑戰(zhàn),包括設(shè)備的小型化設(shè)計(jì)、低功耗優(yōu)化等等,在算法上需要大量針對性的優(yōu)化支持。例如,在地鐵嘈雜環(huán)境下使用耳機(jī)通話,要利用算法實(shí)現(xiàn)環(huán)境降噪處理;為實(shí)現(xiàn)設(shè)備更低功耗,需要提高代碼效率并對芯片進(jìn)行優(yōu)化;協(xié)調(diào)運(yùn)動(dòng)、心率等大量傳感器為用戶提供有用的信息,也需要算法優(yōu)化來攻克。

發(fā)言中,李勤還指出AIoT的產(chǎn)品一定是設(shè)備端到云端的整體系統(tǒng)。而出門問問采用將芯片、傳感器和AI算法結(jié)合的整體戰(zhàn)略,發(fā)揮端到端的完整技術(shù)棧,將端上和云上的計(jì)算融合,以及產(chǎn)品和系統(tǒng)集成經(jīng)驗(yàn)的競爭優(yōu)勢。另外,出門問問還在開展與芯片廠商的深度合作,實(shí)現(xiàn)算法根據(jù)使用場景做優(yōu)化,算法針對芯片的代碼優(yōu)化,結(jié)合系統(tǒng)集成和產(chǎn)品驗(yàn)證,提供整套技術(shù)方案。這意味著產(chǎn)品廠商不用在算法開發(fā)和系統(tǒng)集成工作上消耗企業(yè)資源,可以集中精力定義和開發(fā)產(chǎn)品。

智能手表AI運(yùn)動(dòng)算法TicMotion

在TicWatch智能手表上,出門問問研發(fā)了AI運(yùn)動(dòng)算法TicMotion,自動(dòng)識(shí)別和記錄用戶健走、跑步、騎行、游泳時(shí)的各項(xiàng)運(yùn)動(dòng)數(shù)據(jù)。該算法基于深度學(xué)習(xí)的算法架構(gòu),支持手勢姿態(tài)識(shí)別、睡眠健康等功能,可運(yùn)行在MCU、DSP或AP芯片上。在意法半導(dǎo)體的STM32F412芯片上,實(shí)現(xiàn)16MHz時(shí)鐘頻率下的0.13 MIPS執(zhí)行效率。

 

智能手表語音交互算法

針對智能手表的語音交互,出門問問研發(fā)了基于深度神經(jīng)網(wǎng)絡(luò)的AI語音算法,旗下的出門問問語音助手是谷歌Wear OS官方合作的中文語音助手。

 

出門問問在智能手表上,擁有單麥和雙麥的音頻降噪算法,語音信號(hào)壓縮和BLE語音傳輸,支持語音喚醒詞,支持直接命令詞的識(shí)別。這些算法也是基于深度學(xué)習(xí),但卻是超低功耗的,只需要超低的內(nèi)存需求和計(jì)算力便可以運(yùn)行。例如,喚醒詞和命令詞模型只有20KB,只需占用50KB左右的內(nèi)存,在意法半導(dǎo)體的STM32F469芯片上實(shí)現(xiàn)了36MIPS的執(zhí)行效率。

智能耳機(jī)交互算法TicHear

針對智能耳機(jī)的交互,出門問問自主研發(fā)了TicHear語音交互算法,能夠有效地屏蔽和抑制環(huán)境噪音和干擾,實(shí)現(xiàn)小型可穿戴設(shè)備語音喚醒及直接命令詞控制。

 

而之所以開發(fā)TicHear,是因?yàn)槌鲩T問問發(fā)現(xiàn)在TWS智能耳機(jī)上還有很多技術(shù)難點(diǎn)沒有解決。

一是耳機(jī)面向的是復(fù)雜的需求和使用場景。在需求上,人們需要用耳機(jī)聽音樂、打電話、做語音交互。在使用場景上,耳機(jī)的使用環(huán)境非常復(fù)雜多變,基本是走到哪兒戴到哪兒,即使是在地鐵、馬路邊、商場等嘈雜環(huán)境,耳機(jī)也要能夠穩(wěn)定可靠的工作。這些都對算法地性能提出了極高的要求。

二是耳機(jī)的快捷智能控制。對于智能耳機(jī)來說,需要有一些常用的直接語音控制命令,尤其在雙手都不方便的時(shí)候,能夠快捷地用語音來實(shí)現(xiàn)接聽電話、控制音量、切換下一首歌等功能。

三是如何對耳機(jī)“說”清楚。過去兩年,主動(dòng)降噪耳機(jī)在市場上熱銷,但它解決的只是“聽”清楚的問題,在你聽音樂的時(shí)候/做飛機(jī)的時(shí)候,有效實(shí)現(xiàn)周圍環(huán)境噪音的屏蔽效果。但在實(shí)際的使用中,如何讓你打電話、做語音交互的時(shí)候,實(shí)現(xiàn)更清晰的聲音傳遞,還是一個(gè)有待解決地問題。

另外,智能耳機(jī)也面臨諸多的技術(shù)挑戰(zhàn),例如佩戴舒適性、體積大小,與電池容量、待機(jī)時(shí)間之間不可調(diào)和的矛盾,對芯片和算法低功耗的要求高;系統(tǒng)集成、算法開發(fā)的高復(fù)雜度;內(nèi)存空間和算力的資源限制等。

面對用戶痛點(diǎn)和技術(shù)挑戰(zhàn),出門問問選擇創(chuàng)造性的解決問題,采取將硬件結(jié)構(gòu)設(shè)計(jì)和算法設(shè)計(jì)相結(jié)合;與芯片、系統(tǒng)供應(yīng)商深度合作;把核心算法的代碼用匯編重寫以提高運(yùn)行效率等措施,給客戶提供一套完整的解決方案。

具體來說,在音頻信號(hào)處理上,TicHear算法進(jìn)行了雙麥的波束成形,做定向拾音和降噪的深度優(yōu)化,可以抑制最高20dB的環(huán)境噪音,僅占用20KB的內(nèi)存,并在高通QCC5100系列芯片上實(shí)現(xiàn)15MIPS的執(zhí)行效率。

在語音交互算法上,TicHear支持語音喚醒詞,支持10個(gè)左右直接命令詞的識(shí)別,并且基于深度學(xué)習(xí)的算法,實(shí)現(xiàn)了超低功耗和超低內(nèi)存占用。將喚醒詞和命令詞做到大約20KB的模型大小和50KB總的內(nèi)存占用,在高通QCC5100系列芯片上實(shí)現(xiàn)10MIPS的執(zhí)行效率。同時(shí),TicHear可和手機(jī)軟件配合開發(fā),支持二次喚醒驗(yàn)證、內(nèi)容和服務(wù)的查詢、喚醒詞和語音查詢一起說出等功能,提供更好的用戶體驗(yàn)。

 

李勤向現(xiàn)場觀眾展示了出門問問雙麥信號(hào)處理算法,該算法能夠有效地屏蔽環(huán)境噪音和干擾,清晰采集語音信號(hào)。如圖所示,上方的聲音波形圖是在馬路邊場景所采集的原始聲音信號(hào),下方的聲音波形圖是經(jīng)過出門問問雙麥信號(hào)處理算法處理后的聲音信號(hào),可以清晰的看到已將環(huán)境噪音降低20db左右,幾乎可以忽略不計(jì),經(jīng)過算法處理后的聲音信號(hào),極大地提高了語音識(shí)別的準(zhǔn)確率和喚醒率。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動(dòng)力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉