日前,據(jù)科技市場研究企業(yè) Canalys 發(fā)布的第二季度全球智能音箱市場報告,百度繼今年上一季度超越阿里后,再度超越該行業(yè)的“雙寡頭”之一谷歌,成為全球第二大智能音箱供應商。
圖源:Canalys 報告
在智能音箱這一賽道,相比其他頭部廠商,百度入局稍晚,如今卻能力壓群雄取得一系列亮眼成績。百度系智能音箱作為 C 端可體驗產(chǎn)品,普通用戶對其音質、聽感等各方面都有較為直觀的感受,而所有優(yōu)質體驗的背后,百度在智能語音技術上的積累可謂功不可沒。從智能音箱的遠場語音識別、對話交互技術甚至產(chǎn)品硬件技術,百度始終堅持“親力親為”,為智能音箱積淀了一整套完善一體的技術儲備和解決方案,從而為小度智能音箱的體驗提供了強大的后盾支持。
“百度發(fā)布SMLTA模型,帶來語音技術世界級突破”、“小度智能音箱首度落地完全意義上的全雙工連續(xù)交互技術”,無論是語音喚醒、語音交互,還是遠場信號處理、聲學技術乃至產(chǎn)品硬件技術,百度都給智能語音技術領域帶來過不少驚艷的突破創(chuàng)新,得到 C 端用戶的認可,經(jīng)過市場的檢驗,這也是對百度在智能語音技術一系列突破性進展的最好回響。
除了在智能語音領域有著整體全面的技術布局,在每一項語音技術上,百度更是在不斷深耕。下面,AI 科技評論將聚焦智能音箱這一遠場語音識別產(chǎn)品的關鍵性技術,主要從語音喚醒算法、語音交互模式、遠場信號處理、語音聲學技術以及產(chǎn)品硬件技術五個維度,來對百度蓄力爆發(fā)的小度智能音箱背后的黑科技進行揭秘。
語音喚醒算法:誤喚醒控制從手工調節(jié)到海量數(shù)據(jù)訓練驅動
人要跟智能音箱進行對話,第一道關卡便是語音喚醒,因而語音喚醒對于后續(xù)的整個用戶體驗而言,至關重要。然而在智能音箱這一遠場語音識別載體中,而技術本身,外部環(huán)境對于語音喚醒質量的高低有著非常直接的影響。例如當外部噪音很大時,誤喚醒等問題就非常突出了。
而百度,除了面臨所有智能音箱產(chǎn)品都面臨的此類挑戰(zhàn)外,還存在其內部獨有的喚醒技術難點。包括,第一,“小度小度”作為百度智能音箱的喚醒詞,雖朗朗上口,但它相對于市面上其他音箱常用的“你好xx”、“xx同學”技術上更不容易控制誤報率;第二,百度的產(chǎn)品矩陣豐富,更使得喚醒技術所面臨的外部環(huán)境更加復雜多變,因而對喚醒的精度和誤報的控制提出了更高的挑戰(zhàn)。
針對這些挑戰(zhàn)和技術難點,百度首先從算法層面實現(xiàn)了語音喚醒技術的突破,即將誤喚醒的控制由對著測試集手工調節(jié)變成了海量數(shù)據(jù)訓練驅動的過程,并具體從兩個方面提升了模型的建模能力:
第一,利用大量容易獲得的無標注負例數(shù)據(jù),以及有限的有標注正例數(shù)據(jù),索負樣本的描述和挖掘方法、正樣本的加噪擴充以及構造海量的訓練樣例;
第二,探索新的模型學習策略,采用聚焦學習的方法,讓有限體積的模型能夠從海量的數(shù)據(jù)中高效地學習有用的知識,同時簡化系統(tǒng)的流程。
不僅如此,百度還直接從喚醒技術的維度對小度智能音箱的語音喚醒功能進行優(yōu)化和改進,研發(fā)出了一套純端到端的聲學模型/決策模型的二級喚醒技術,能夠兼顧高召回率和極低的誤報率。其中,聲學模型還采用粗粒度的喚醒詞音節(jié)作為建模單元,引入海量負例數(shù)據(jù)優(yōu)化,利用喚醒詞音節(jié)尖峰搜索代替了維特比解碼,大幅度提高了聲學模型的檢出效果;而決策模型則采用了深層卷積網(wǎng)絡,可對喚醒詞進行整詞置信估計,同時實現(xiàn)了高喚醒召回、低誤報率和較低的資源占用。
語音交互模式:首度落地完全意義上的全雙工連續(xù)交互技術
“每輪對話之前,都要喚醒一次”,這是當下市面上多數(shù)智能音箱的常態(tài),也是人們在使用智能音箱期間的最大槽點之一。人們對于智能音箱“像人與人一樣交流”的憧憬要想實現(xiàn),首要條件之一就是要能夠做到:持續(xù)對話。
在智能音箱的連續(xù)交互能力上,百度為小度智能音箱研發(fā)的全雙工免喚醒能力的表現(xiàn),非常出色。這項能力組合應用了語音語義聯(lián)合的尾點檢測技術、全雙工語音識別技術、置信度技術和語音語義一體化技術,在實現(xiàn)“一次對話,多輪交互”的同時,還能快速響應,并良好地區(qū)分用戶交互意圖。
實際在連續(xù)交互能力上,國外早已有 Google home 智能音箱實現(xiàn)了 Continued Conversation 的功能、Amazon echo 智能音箱實現(xiàn)了 Follow Up的功能,國內亦有小雅音箱可實現(xiàn)多次交互功能,但這些,都不是完全意義上的全雙工連續(xù)交互。
百度,則是首家在智能音箱行業(yè)應用全雙工連續(xù)交互技術的企業(yè)。
遠場信號處理:回聲消除等多重突破性技術齊頭并進
對于遠場語音識別而言,遠場信號處理技術貫穿了整個語音交互的過程,技術的強弱將持續(xù)影響到整個語音交互體驗。而這實際上是最容易受到外界環(huán)境干擾的環(huán)節(jié),因而對于如何更好地對這項技術進行完善,需要實際落地到非常具體的場景和問題中去找答案。
多通道回聲消除技術:播放音樂時也能接收用戶命令
當我們在大聲唱歌的同時,如果遠處有個人在沖你大聲說話,你能不能聽清他說什么?智能音箱同樣也會遇到這樣的問題,因為人離設備的麥克風的距離往往很遠而設備自身揚聲器離麥克風的距離很近,所以當用戶在智能音箱在播放音樂時下達語音命令,往往得不到準確回復,甚至得不到回復。
在這一場景下,回聲消除技術就非常重要了。對此百度研發(fā)出了能夠根據(jù)硬件與環(huán)境自適應的多通道回聲消除技術,以及音量自適應的兩級后處理和雙模式下(回聲和非回聲模式)的噪音抑制技術,確保在任意音量下,回聲都能被很好地消除以及說話人的聲音能被很好地保留,在確保語音喚醒的精度、降低回聲殘余引起的誤喚醒的情況下,還能在全雙工連續(xù)交互技術的加持下實現(xiàn)高精準的語音交互成功率。
噪音抑制與增益控制技術:可自適應感知聲場環(huán)境抑制噪聲
我們一般都將音箱放置在家里的哪個位置?回答一般是電視柜、床頭柜、書桌等靠近墻邊、墻角的地方,這就帶來了聲音遮擋、反射問題等一眾問題,會大大加劇智能音箱判斷說話人在哪以及誰才是說話人的難度。
智能音箱只有擁有硬核的降噪能力,才能應對這一場景中的問題?;谝延卸说蕉诉h場語音交互的整體解決方案所具備的遠場信號處理與聲學模型的優(yōu)勢,百度主要從兩個方面來提高智能音箱在此場景下的降噪效果:一方面,研發(fā)了語音解混響、聲源定位、場景分析、干擾抑制及聲場自適應的噪音抑制與增益控制技術;另一方面,利用喚醒與識別模型反饋的語音特征信息,為聲源定位提供準確的說話人后驗信息,與此同時由遠場信號處理為喚醒與識別模型提供多維信號決策信息。
除了回聲消除、降噪等常規(guī)的遠場信號處理技術優(yōu)化,百度作為一家占據(jù)了巨大市場份額,并擁有多個產(chǎn)品品類的智能音箱廠商,對于用戶體驗的關注可謂非常周到,因而即便在一些非常特殊的場景和細節(jié)問題上,也不遺余力地從技術上進行優(yōu)化:
例如考慮到用戶在家中同時擁有多臺小度智能音箱產(chǎn)品,會出現(xiàn)在喚醒小度時出現(xiàn)多臺智能音箱設備同時響應的問題,百度研發(fā)了多設備協(xié)同交互技術,可準確判斷用戶距離不同設備的遠近,從而智能選擇距離用戶最新的設備進行響應;而針對智能音箱的麥克風拾音孔出現(xiàn)堵塞、進水等問題,則從0到1研發(fā)了麥克風異常的實時監(jiān)測技術,并在算法中加入抗風險的冗余模塊,即使設備麥克風在出問題的情況下,依然可以實現(xiàn)高精度語音交互,同時將麥克風異常上報服務端,為產(chǎn)品售后及維修提供可靠信息。
語音聲學設計:首創(chuàng) Deep Peak 2、SMLTA 兩大突破性模型
深度尖峰技術Deep Peak 2 模型
去年初,百度發(fā)布的 “深度尖峰技術Deep Peak 2 模型”在行業(yè)內引起的廣泛關注,而百度智能音箱在該模型的加持下,無論是在解碼速度還是語音識別的效率和準確性上,都已實現(xiàn)了行業(yè)領先。
Deep Peak 2 模型,其全稱為基于 LSTM 和 CTC 的上下文無關音素組合建模,該模型通過聲學模型學習和語言信息學習相分離的訓練方法,使用音素組合來保留最重要的音素連接特性,從而避免了上下文無關建模時的過擬合問題。
進一步講,該模型基于音節(jié)建模的核心優(yōu)勢在于,音節(jié)是人發(fā)音的邏輯單元,軌跡明確,是存在完整軌跡的最小單元,而不同音素之間的分界線非常模糊,容易讓網(wǎng)絡“困惑”。同時,音節(jié)的時長比狀態(tài)和音素都要長,相比更不易受背景噪聲、信道、場景、說話人等音素的影響,因此 Deep Peak2模型對數(shù)據(jù)多樣性的兼容性更好。同時,比起粒度更大的建模單元,例如詞,建模單元的數(shù)目適中,其建模單元也不會過大,能顯著帶來更快的解碼速度。
后續(xù),百度更針對現(xiàn)實場景中對于中英文混雜語音識別的需求,研發(fā)了基于Deep Peak2的中英文統(tǒng)一建模的音節(jié)模型,采用上下文無關的音節(jié)對中英文統(tǒng)一建模的方法,語音系統(tǒng)可通過中英文系統(tǒng)識別語音指令,并直接輸出中英文識別結果和中文識別結果,融合后返回給用戶。
Deep Peak 2 模型的再度進化:世界首個上線的端到端建模的SMLTA 模型
Deep Peak 2 模型之后,百度再度通過引入局部注意力和多級注意力,首創(chuàng)基于注意力 (Attention)模型的端到端 SMLTA模型(流式多級的截斷注意力模型),成功解決了高頻查詢的高精度要求問題。
需要注意的是,雖然學術界對于將多注意力模型引入智能語音任務中的嘗試不少,然而此前一直都尚未成功應用到工業(yè)界的商用智能語音服務中,因而百度提出的SMLTA模型,是工業(yè)界大規(guī)模使用注意力模型進行語音識別的首例。
從技術層面來看,SMLTA模型所實現(xiàn)的創(chuàng)新,可以用四個點來概括:截斷、流式、多級、基于CTC & 注意力。下面我們逐個來看。
SMLTA模型可以看成是讓 DeepPeak2 通過結合注意力機制來獲取更大范圍和更有層次的上下文信息,其中的“流式”表示可以直接對語音的小片段(而不是必須整句),進行一個片段一個片段地增量解碼;“多級”表示堆疊多層注意力模型;而最后的“截斷”則表示利用 CTC 模型的尖峰信息,把語音切割成一個一個小片段,使得注意力模型建模和解碼都可以在這些小片段上展開,進而能夠克服傳統(tǒng)注意力模型在大范圍內進行注意力建模帶來精度不佳的問題。
進一步,考慮到CTC模型得到的尖峰的描述信息存在一定的插入和刪除錯誤,容易造成截斷得到的子塊邊界的不準確性,進而影響系統(tǒng)的識別性能。為此,百度在該模型中又創(chuàng)新性地提出兩級Attention結構對截斷的子塊特征進行逐級篩選,最后再經(jīng)過解碼器的LSTM模型輸出最后的概率分布。
圖:基于CTC尖峰截斷的流式多層注意力模型工作原理圖
據(jù)悉,與目前業(yè)內最好的基于CTC模型的語音識別系統(tǒng)相比,SMLTA基于截斷的端到端語音識別建模方法,讓語音識別錯誤率的下降幅度達15%以上。
產(chǎn)品硬件技術:相同的價位,更佳的語音和音質體驗
而除了語音識別技術,在當下的智能音箱市場,一款音箱要成為“好賣”的音箱,其中一個非常重要的因素就是性價比。如何將智能音箱的成本降到盡可能低,并擁有比同價位的競品更加出色的音質,同時還能夠有效控制住音頻失真確保喚醒識別率呢?
以百度音質、聽感最好的大金剛系列智能音箱為例,百度在硬件技術層面率先做了以下嘗試:
首先,在喇叭選型+音腔設計上,百度智能音箱選用了兩只規(guī)格更大的2英寸全頻喇叭,加兩片91mm*51mm被動低音輻射器,經(jīng)過將零件巧妙地布局在有限的音箱空間中,音腔容積達到了400CC,有力地保證了音效的全面輸出。
其次,在結構設計上,百度智能音箱采用了創(chuàng)新的設計思路,其中以整體外觀為例,零指示燈環(huán)與黑色外殼融為一體,通過模具注塑一次成型,實現(xiàn)了外觀的零縫隙、零段差,并減少了整機的零件數(shù)量,有效降低了整機的成本。
同時,在電路設計上,百度智能音箱選用單電路板硬件設計方案、硬件PCB設計,并申請了相關專利,是國內主流智能音箱產(chǎn)品中首創(chuàng)性的單電路板設計方案。而該單板方案的優(yōu)勢是集成度高,可降低生產(chǎn)組裝成本,并減少單板占整機內部空間,從而留出空間加大音腔,提升音質的基礎。
AI科技評論總結
整體而言,智能語音作為AI 領域相對比較成熟的細分方向,近年來在產(chǎn)品落地方面也都走在其他技術的前面。但這些技術具體落地到某個具體場景或特殊場景中時,面臨的挑戰(zhàn)依舊巨大。如何不斷優(yōu)化智能語音技術,并實現(xiàn)技術的大規(guī)模產(chǎn)品落地,依舊是該領域需要大力探索的主題。
而這正是百度等智能語音廠商正在做、并且擅長做的事情。以百度提出的SMLTA 模型為例,這是全世界范圍內首個基于注意力技術的在線語音識別服務的大規(guī)模上線,在發(fā)布之際不僅引起了工業(yè)界的廣泛關注,更成為了學術界的大事件。正如我們在上文中也提到的,在此前已經(jīng)有很多專家和學者嘗試在語音識別任務中引入注意力模型,然而這種嘗試一直無法走出實驗室。因而百度所取得的這項突破性進展,無論對百度自身的技術布局而言,還是對整個智能語音領域而言,都意義重大。
未來,智能音箱要想取得更加明顯的體驗提升,背后技術的突破創(chuàng)新是繞不開的一個話題。百度語音技術團隊不斷在攻堅克難,算法迭代創(chuàng)新,并善于將之應用在落地產(chǎn)品中。就在前不久,百度語音首席架構師賈磊的回歸,又將為百度語音技術帶來怎樣的變化和突破?拭目以待。