思必馳 CTO 周偉達:語音技術(shù)優(yōu)先服務(wù)于 AIoT | CCF-GAIR 2019
記者按:7 月 12 日-7 月 14 日,2019 第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)于深圳正式召開。峰會由中國計算機學(xué)會(CCF)主辦,記者、香港中文大學(xué)(深圳)承辦,深圳市人工智能與機器人研究院協(xié)辦,得到了深圳市政府的大力指導(dǎo),是國內(nèi)人工智能和機器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級交流博覽盛會,旨在打造國內(nèi)人工智能領(lǐng)域極具實力的跨界交流合作平臺。
當(dāng)下,智能語音技術(shù)成為下一代人機交互新模式已經(jīng)得到了業(yè)界的認可,智能交互、就近喚醒、全雙工成為當(dāng)下語音技術(shù)中前沿技術(shù)探討點。在 CCF-GAIR 2019 “5G + AIoT”專場上,思必馳 CTO 周偉達帶來了關(guān)于語音交互技術(shù)的演講,演講主題為《語音交互技術(shù)在 IoT 方向的應(yīng)用與挑戰(zhàn)》。
思必馳 CTO 周偉達
演講中,周偉達指出,智能語音當(dāng)下面臨的挑戰(zhàn)主要有三點,即低功耗、遠場交互和高噪聲、全場景智能交互。
首先,在低功耗方面,周偉達在演講中提到低功耗算法、低功耗芯片以及軟硬一體的方案。演講結(jié)束后,周偉達接受了記者的采訪時也強調(diào)了低功耗。他認為:“低功耗是語音技術(shù)發(fā)展的一個方向,它是一個涉及到語音交互的全鏈條,從前端的信號處理到語音合成,再通過揚聲器的播放,每個環(huán)節(jié)都要實現(xiàn)低功耗?!?/strong>
另外,關(guān)于軟硬結(jié)合的行業(yè)創(chuàng)新點,周偉達在采訪中表示,一方面是 AI 計算的加速,涉及到在現(xiàn)有平臺上植入算法去加速運算;另一方面是芯片的創(chuàng)新。他說道:“ AI 芯片會打破傳統(tǒng)的馮諾依曼的組件構(gòu)架,然后把數(shù)據(jù)和指令從外部輸入進來,還要有計算完再輸入出去的架構(gòu)。有可能數(shù)據(jù)和計算是放在一起來做的,所以我們覺得會是一些革命性的技術(shù)突破?!?/p>
對于遠場交互和高噪聲的挑戰(zhàn),周偉達在演講中提出了麥克風(fēng)陣列、降噪、多模態(tài)交互、全雙工系統(tǒng)等解決方案。另外,解決智能語音在全場景智能交互的挑戰(zhàn)中,周偉達提出了多設(shè)備聯(lián)動機制,通過正面喚醒、就近喚醒、語義選擇、多模態(tài)直視喚醒等方案,以解決家居場景中的多設(shè)備智能喚醒難題。
關(guān)于全雙工的語音系統(tǒng),周偉達在采訪中做了補充,他說道,思必馳首先希望提升的是人機交互的自然度,主要著力于兩個方面,一方面是處理降噪,提升 VAD;另一方面是完整意圖判斷。不僅如此,全雙工技術(shù)在未來除了要提升自然度,還要提高智能;其中包括感知智能和認知智能。
除了演講中提及的三大挑戰(zhàn),語音交互在 IoT 領(lǐng)域的應(yīng)用中,隱私安全也是一個值得關(guān)注的問題。對此,周偉達在采訪中表示,隱私保護是最基礎(chǔ)的,行業(yè)要發(fā)展,就必須保護隱私,尊重隱私。
目前,思必馳不僅聚焦語音技術(shù),而且自研 AI 芯片,周偉達接受采訪時說道,要把語音技術(shù)產(chǎn)業(yè)做起來,思必馳要做更多的事情。其實,思必馳最早主要投入于 AI 算法中,為了技術(shù)落地以及給客戶提供更好的服務(wù),思必馳在不斷地提供多個層面的解決方案。
值得注意的是,本次演講的專場主題為“5G + AIoT”,關(guān)于 5G 的進步發(fā)展對 IoT 的影響,周偉達在采訪中表示:“未來接入 5G 之后,戶內(nèi)設(shè)備訪問數(shù)據(jù)的能力會更加流暢,更加快速。”
對于戶外設(shè)備,例如車載設(shè)備、地鐵售票機等,周偉達認為,語音交互速度能夠得到快速提升。將來,在帶有語音交互設(shè)備的購票機上,大約會有 70% 的用戶會選擇語音購票,而不是用按鍵或者是用觸屏。通過 5G 聯(lián)網(wǎng)之后,未來戶外設(shè)備會提供越來越多便捷的服務(wù)。
以下是周偉達在 CCF-GAIR 大會上的演講內(nèi)容,記者對其進行了不改變原意的編輯整理:
思必馳創(chuàng)建于 2007 年,這十幾年間一直在 AI,特別是語音交互方面從事技術(shù)研發(fā),以及技術(shù)和內(nèi)容的服務(wù)。
語音技術(shù)在 IoT 領(lǐng)域面臨的挑戰(zhàn)一、低功耗。我們要在耳機設(shè)備上做語音交互,做 Always on listening,這對功耗的要求非常高,這部分技術(shù)后面會做詳細的介紹。
二、遠場和高噪聲?,F(xiàn)在我拿著麥克風(fēng)是近場的麥克風(fēng)語音采集,在智能家居環(huán)境中,不可能總持著一個麥克風(fēng),或是帶著麥克風(fēng)跟設(shè)備進行語音交互。在智能音箱、智能電視和各種智能家電以及在各種戶外場景中,我們希望人可以脫離手持麥克風(fēng),可以跟設(shè)備進行自然的、智能的語音交互。
那么,在遠場的語音交互中,面臨的問題有哪些呢?
低的信噪比。在遠場的語音交互中,因為與麥克風(fēng)距離很遠,面臨的第一個問題就是低的信噪比。
低的信回比。如果本機播放音樂和合成音跟你交互,本機的混響會回到本機設(shè)備,因此,面臨的第二個問題就是低的信回比。
環(huán)境噪音干擾。除了本機發(fā)出的聲音,我們在音箱上面臨著電視的干擾、或是周圍很多人群聊天的干擾。在賣場場景中,遇到的最大問題是:封閉的賣場里兩排電視上下平著過去,一個房間三面墻都著放著電視,這些電視都是開著給大家做演示,同時有大量的購買者參觀,主講人、促銷人如何在這樣的場景里演示,包括給大家展示語音交互的體驗?這樣的場景里挑戰(zhàn)非常大,外界的干擾是對目標(biāo)人聲有很大的干擾。因此,第三個問題就是非常低的信號和干擾的功率比。
遠場交互。無論在今天這樣的環(huán)境還是家居環(huán)境,甚至是開放環(huán)境,混響時間 60dB 非常長。在空曠的場景里,要把后面的混響消除掉,得到人跟人交互清晰的語音,這樣的挑戰(zhàn)也是非常大的。
三、全場景的智能交互。IoT 應(yīng)用的設(shè)備五花八門,我們目前在 IoT 領(lǐng)域涉及的設(shè)備場景有 100 多個,搭載思必馳語音技術(shù)的產(chǎn)品眾多。那么,面臨的問題是什么?語音技術(shù)現(xiàn)在還不能做到非常通用的語音識別,很多語音識別跟背后的語音模型帶來的領(lǐng)域知識需要定制。
通常情況下,日常的交流是沒問題的,現(xiàn)在的機器對這種問題很容易解決。但是當(dāng)我們面臨一些特殊的專業(yè)名詞,面臨一些外來語,中文加上英文時,對于這樣的語言模型,機器需要定制、需要輸入熱詞。
那么,如何方便開發(fā)者、客戶進行人機語音交互的技能定制,這是我們面臨從實驗室單個設(shè)備、單個產(chǎn)品技術(shù)的優(yōu)化走向市場化、規(guī)?;木薮筇魬?zhàn)。
如何做到低功耗?現(xiàn)在行業(yè)內(nèi)的解決方法基本上是“算法+硬件”。一個芯片的功耗取決于芯片的供應(yīng)、芯片的面積、芯片的主屏,我們要嚴格的篩選這幾個部分。當(dāng)然,在行業(yè)內(nèi)有不少專業(yè)的公司專注做低功耗的芯片。
如何在硬件上做到多分級和復(fù)用?其實,在很多場景下,人和機器大多數(shù)時間是沒交互的,那么,我們能不能在安靜的場景下降頻處理、降級處理呢?
在語音出現(xiàn)的場景中,我們用 VAD 檢測以后語音開始采樣、開始做之后的語音監(jiān)聽。當(dāng)人們?nèi)拘阉?,有目的性、有目?biāo)的與機器設(shè)備交互的時候,我們能夠監(jiān)測到人的意圖:他是跟機器交互,而不是跟其他人、其他場景聊天。在這種情況下,要做到低功耗需要分級處理、降頻處理。
低功耗的處理需要從算法上解決目前硬件解決不了的問題。我們需要有模擬的 VAD。以前大部分的 VAD 是麥克風(fēng)采樣完以后會用 VAD 的算法檢測語音,這一塊我們能檢測的是:是否有聲音啟動系統(tǒng)?
還有,設(shè)備為了響應(yīng)人的交互需求,在白天晚上都是在監(jiān)控。在極安靜的情況下,設(shè)備是 Sleep 狀態(tài),在晚上安靜的場景下,設(shè)備也應(yīng)該和人一樣休息。在這一部分,我們應(yīng)用了硬件模擬 VAD,是從麥克風(fēng)信號下來以后,監(jiān)測周圍聲音場景能量的強弱。
其次是數(shù)字硬件的 VAD,我們要解決的問題是,在有聲音的環(huán)境中,這個聲音有可能是噪聲、有可能是人聲或是其他設(shè)備的聲音,需要用數(shù)字信號經(jīng)過算法處理檢測是不是人聲。如果這個時候檢測出人聲,說明麥克風(fēng)已經(jīng)觀察到人聲。如果不做緩存處理,后面做語音喚醒、聲紋識別的時候,數(shù)據(jù)已經(jīng)丟失掉了。所以,在采樣的時候一定要做 buffer,要做緩存,把人的語音完整保留下來。
之后,我們要結(jié)合一級信號處理和一級喚醒,這是做初始目標(biāo)的識別。檢測人的時候,旁邊會有很多的干擾聲音,要做到低功耗,首先要做第一級簡單處理,再做二級高精度處理,然后是人的聲紋判斷和監(jiān)測,再做本地識別。在這整個過程中,本來是復(fù)雜的算法一次搞定。但是為了滿足低功耗的要求,我們逐級提升計算性能,逐級把極少的場景啟用高功耗,大部分場景保持低功耗。
在 IoT 領(lǐng)域,低功耗問題的解決需要“硬件+算法”。其實,我們是從算法的需求定義芯片,這一部分深聰智能 CTO 朱總(記者(公眾號:記者)注:深聰智能 CTO 朱澄宇,深聰智能是思必馳與中芯國際下屬投資公司中芯聚源成立的合資公司)將在 AI 芯片專場會進行詳細介紹,關(guān)于芯片上如何做到低功耗的語音檢測、語音喚醒、語音信號處理。
遠場、高噪聲難題如何解決?隨著智能音箱以及智能電視等各種智能設(shè)備的推出,對于遠場信號處理,行業(yè)內(nèi)普遍采用麥克風(fēng)陣列技術(shù)。思必馳的麥克風(fēng)陣列主要有環(huán)形六麥,環(huán)形四麥、線性四麥、雙麥陣列,在思必馳實驗室里,最多的麥克風(fēng)陣列是三十二麥,即使置于大型會議室里,都能夠針對每個人做精細地監(jiān)測。
另外,在開放的環(huán)境中,我們已經(jīng)實現(xiàn)了分布式的麥克風(fēng)陣列。針對設(shè)備的麥克風(fēng)陣列,環(huán)形四麥、環(huán)形六麥相對來說是短間距的。但分布式麥克風(fēng)陣列不會受空間的約束,不會受麥克風(fēng)震源間距的約束,它是開放形態(tài),而且可以在空間里隨便布置麥克風(fēng)。
關(guān)于降噪,戶外穿戴式的場景中面臨的主要問題是降風(fēng)噪。我們和許多快遞公司、物流合作,將語音喚醒、語音聲紋識別做到耳機里??爝f小哥在外快速騎行時,無論是下單、送單都需要進行通話,風(fēng)會直接吹著麥克風(fēng),遇到的典型問題是風(fēng)噪。那么,如何解決風(fēng)噪的問題?思必馳從硬件、軟件、結(jié)構(gòu)幾方面,很好地對風(fēng)噪進行抑制。
當(dāng)算法解決不了的時候,在耳機上,不光通過空氣傳播采集語音,而且通過振動或是觸感。大家知道,除了空氣麥克風(fēng)、骨傳感麥克風(fēng),現(xiàn)在還有肌膚接觸麥克風(fēng),通過振動采集人的語音。如何把接觸傳播和空氣傳播兩種不同性質(zhì)采集單元結(jié)合在一起做降噪處理和融合呢?目前,思必馳正在嘗試這樣的技術(shù)。
人和人的交互,我們的第一反應(yīng)是直視,可能是直達聲、就近反應(yīng)。有一個場景大家可以體會到,如果單獨靠語音監(jiān)聽,我們打電話的過程中的交互往往比面對面的交互不自然,原因是什么?
人們在僅憑聽覺時,經(jīng)常會在電話里搶話或是互相等話,我說完等著你反應(yīng),而且我不知道你什么時候能反應(yīng)。在這樣的場景中,真正的智能交互是多模態(tài)的交互,除了語音之外,要配合其他的傳感器,特別是視覺。
在智能交互中,雖然大部分機器的語音識別做得越來越好,支持的技能越來越多,但是人與機器的交互,和人與人的交互之間還有差距,具體有哪些方面呢?
首先是自然度?,F(xiàn)在人和機器的交互,特別是成年人和機器交互時,大家懷疑機器的技能。人和設(shè)備交互的時候是命令式的,希望話說完機器就能快速響應(yīng),人是非常強勢的。但是,現(xiàn)在已經(jīng)出現(xiàn)了一些人們把機器當(dāng)成人看的場景。說幾個典型的場景:在兒童教育中,兒童會把平常不敢跟父母說的話說給機器聽,與機器聊天、談心,這是因為對話技術(shù)做得越來越自然。
人機對話技術(shù)遇到的問題是交互的自然度,這個自然度包含哪些方面?首先,人和機器交互的時候,機器該停不停,它不能預(yù)測這句話人的意圖是否表達完整,依然在監(jiān)聽,有噪聲就不會停。第二個是不該停的時候反而停了,人們在說話期間停頓了一下,機器卻認為人們說話結(jié)束了,作出相應(yīng),表達我不理解你的意思。
針對這些場景,單點的技術(shù)是容易解決的,人聲的檢測、VAD的檢測以及語音識別判斷句子的完整性、意圖的完整性。最大的難度是整個的系統(tǒng)架構(gòu),從前端采集的信號處理到意圖判斷,如果判斷延遲過高,機器響應(yīng)是跟不上人的節(jié)奏的。
在智能響應(yīng)方面,我們已經(jīng)接近于人類交互的節(jié)奏,很好理解對方的意圖,可以接話、可以響應(yīng)?,F(xiàn)在思必馳系統(tǒng)的集成更多會把語音信號的處理、識別往本地移,加速這個過程,有些場景已經(jīng)實現(xiàn)了人跟機器的自然交互。
以上是我提到的自然交互的兩個方面,另外還有人打斷機器對話,以及機器能自然的接話。人聽完一段機器語音,播出的時候已經(jīng)理解了,有些時候人會非常強勢地說:“你趕緊給我閉嘴,我要說下一個意圖?!边@個時候人經(jīng)常會打斷機器。
還有一種場景,在 Google 去年的 Duplex 發(fā)布會中,全世界人鼓掌聲最響的時候是機器打電話給餐館預(yù)定位置、預(yù)定時間,中間有一個細節(jié),對方餐館服務(wù)人員說:“你要預(yù)定幾人的位置?”,后面沒說完“你是幾點到?”,這兩句話的中間有短暫的停頓,這個時候機器以“嗯哼”進行了響應(yīng)。就是這個“嗯哼”,全世界的耳朵都亮了。這是什么原因呢?
在人的意圖沒有表達完整的時候,機器要這么短的時間內(nèi)要響應(yīng),將“嗯哼”在 300 毫秒內(nèi)決策完響應(yīng)出去,對整個系統(tǒng)的架構(gòu)挑戰(zhàn)非常大。今后,我們也希望人機交互能夠做到更智能:智能地打斷、智能地糾正、抗干擾。
全場景的語音交互:多設(shè)備聯(lián)動+DUI 平臺隨著單臺智能設(shè)備在家庭里普及,很多家庭已經(jīng)出現(xiàn)的多臺智能設(shè)備。當(dāng)出現(xiàn)兩臺智能設(shè)備的時候,如果還用語音喚醒去交互,是反人類的產(chǎn)品設(shè)計。那為什么要用反人類的產(chǎn)品在這樣的產(chǎn)品里用呢?難點是,我們做語音交互設(shè)備的時候,如果設(shè)備一直在監(jiān)聽不用喚醒,設(shè)備經(jīng)常會誤判。雖然識別沒問題,但是會誤導(dǎo)設(shè)備與人交互,做誤判以后會導(dǎo)致人的體驗很差。
在這兒,我們需要解決多設(shè)備交互、多設(shè)備聯(lián)動。比如說,在家居里有多個設(shè)備,能不能實現(xiàn)正面喚醒?能不能實現(xiàn)就近喚醒?或是就近交互?
另外,語義選擇就是通過設(shè)備監(jiān)聽人說話,判斷當(dāng)前人是不是跟設(shè)備說話,是否跟機器覆蓋的規(guī)模、意圖相吻合。
最后,多模態(tài)視覺交互就是通過視覺設(shè)備、紅外設(shè)備,感受到人對機器有表情的交流、眨眼的交流。用多模態(tài)判斷出人是與機器交流,機器才會做出相應(yīng)。
面對多場景應(yīng)用,在思必馳 DUI 平臺上,用戶可以實現(xiàn)語義、對話、內(nèi)容、技能的定制。人機語音交互要經(jīng)歷多個環(huán)節(jié),即識別、語義理解、對話管理、語音合成、內(nèi)容服務(wù),這些工作都是在后臺進行。真正要開發(fā)一個好的技能,涉及到每個模塊的優(yōu)化。
思必馳剛開始服務(wù)于 IoT,配合客戶做第一個場景設(shè)備花了一年半的時間。對于這樣的技術(shù),實驗室可以做到,個人做 Demo 也可以做到,但是真正要做到產(chǎn)業(yè)化、市場化的時候,思必馳面臨的最大問題是:能不能做成客戶可快速開發(fā)和定制?
思必馳做的 DUI 平臺,如果客戶優(yōu)選我們的標(biāo)準(zhǔn)功能加簡單定制,7 分鐘可以完成;如果是客戶全定制,一天可以完成一個技能。
人機語音交互最主要的目的是實現(xiàn)信息資源、內(nèi)容的獲取,去實現(xiàn)定票、聽音樂、看電視功能的操作,這是最直接的剛需需求。要實現(xiàn)這些操作,后臺需要非常豐富的內(nèi)容資源。關(guān)于這些內(nèi)容資源,思必馳無論在互聯(lián)網(wǎng),或者是移動互聯(lián)網(wǎng),在行業(yè)內(nèi)有很多的內(nèi)容提供商。
這在人機語音交互、AIoT 里有什么特殊的呢?以前,我們無論是通過手機,還是 PC 聽音樂,都可以瀏覽喜歡的歌手、喜歡的歌曲,還可以中間聽一半或者快速切歌。想象一個音箱設(shè)備,沒有屏幕,只有語音交互,那么,要如何快速獲取你想要的內(nèi)容呢?
現(xiàn)在最全的音樂庫大約有三千兩百多萬首歌,一個人經(jīng)常聽的音樂最多 1000 首,那么,如何在三千兩百多萬首歌中獲取你經(jīng)常聽的 1000 首歌曲,讓你在閑暇時光,或者比較累的時候聽的歌就是你想要的音樂,想看的電視就是你沒有看過又是你喜歡的、同一品類的高質(zhì)量大片呢?這是智能設(shè)備上高質(zhì)量的內(nèi)容源服務(wù),不僅是內(nèi)容源擺在那兒自己選,而且是給你推薦符合你喜好的,很廣泛的內(nèi)容、最關(guān)注的內(nèi)容。
在 AIoT 中,除了單個設(shè)備需要智能以外,我們還需要打通全屋智能。思必馳的 DUI 平臺上,我們已經(jīng)為開發(fā)者打通智能家居各種互聯(lián)協(xié)議,目前已經(jīng)打通 20 多個協(xié)議,可以和其他的智能設(shè)備平臺實現(xiàn)互聯(lián),互相調(diào)用信息,互相共享信息。
針對多場景的應(yīng)用,我們希望為開發(fā)者提供最便捷的通用方案選擇。目前思必馳在 IoT 方向為開發(fā)者提供標(biāo)準(zhǔn)、全面的解決方案有幾大類:
家居語音解決方案。為各種智能家居設(shè)備,例如為冰箱、空調(diào)、洗衣機、控制面板、電腦、小家電、廚電、衛(wèi)生間電器提供了解決方案。
我們?yōu)楦鞣N智能手機、智能手環(huán)、智能手表、智能平板提供了低功耗的戶外場景語音解決方案。
我們?yōu)閮和惞适聶C、機器、手表、學(xué)習(xí)平板、編程機器人提供完整的解決方案。
我們?yōu)楦鞣N企業(yè)會議系統(tǒng)、提高辦公效率的遠場語音采集、信號處理、語音增強、通話音質(zhì)改善,包括發(fā)布會現(xiàn)場的語音采集抗混響、抗嘯叫,語音實時轉(zhuǎn)寫、語音會議摘要提取,實時翻譯等提供方案。
思必馳全部的語音技術(shù)優(yōu)先服務(wù)于 AIoT,我們堅信好的語音技術(shù)一定能服務(wù)到每一位普通的觀眾、普通的用戶,只有讓每一位用戶真正體驗到自然度、體驗到交互的方便性、信息獲取的便捷度,每一位用戶才會真正接受語音交互技術(shù)在設(shè)備中的應(yīng)用。
我們將會在本次峰會后,在「AI投研邦」上線CCF GAIR 2019 峰會完整視頻與各大主題專場白皮書,包括機器人前沿專場、智能交通專場、智慧城市專場、AI芯片專場、AI金融專場、AI醫(yī)療專場、智慧教育專場等?!窤I投研邦」會員們可免費觀看全年峰會視頻與研報內(nèi)容,掃碼進入會員頁面了解更多。峰會期間專享立減399元福利,可進入頁面直接領(lǐng)取,或私信助教小慕(微信:moocmm)咨詢。(最后一天50個名額,速搶。)