(文章來源:雷鋒網(wǎng))
據(jù)科技市場研究企業(yè) Canalys 發(fā)布的第二季度全球智能音箱市場報告,百度繼今年上一季度超越阿里后,再度超越該行業(yè)的“雙寡頭”之一谷歌,成為全球第二大智能音箱供應(yīng)商。
在智能音箱這一賽道,相比其他頭部廠商,百度入局稍晚,如今卻能力壓群雄取得一系列亮眼成績。百度系智能音箱作為 C 端可體驗產(chǎn)品,普通用戶對其音質(zhì)、聽感等各方面都有較為直觀的感受,而所有優(yōu)質(zhì)體驗的背后,百度在智能語音技術(shù)上的積累可謂功不可沒。從智能音箱的遠場語音識別、對話交互技術(shù)甚至產(chǎn)品硬件技術(shù),百度始終堅持“親力親為”,為智能音箱積淀了一整套完善一體的技術(shù)儲備和解決方案,從而為小度智能音箱的體驗提供了強大的后盾支持。
“百度發(fā)布SMLTA模型,帶來語音技術(shù)世界級突破”、“小度智能音箱首度落地完全意義上的全雙工連續(xù)交互技術(shù)”,無論是語音喚醒、語音交互,還是遠場信號處理、聲學(xué)技術(shù)乃至產(chǎn)品硬件技術(shù),百度都給智能語音技術(shù)領(lǐng)域帶來過不少驚艷的突破創(chuàng)新,得到 C 端用戶的認可,經(jīng)過市場的檢驗,這也是對百度在智能語音技術(shù)一系列突破性進展的最好回響。
除了在智能語音領(lǐng)域有著整體全面的技術(shù)布局,在每一項語音技術(shù)上,百度更是在不斷深耕。下面,AI 科技評論將聚焦智能音箱這一遠場語音識別產(chǎn)品的關(guān)鍵性技術(shù),主要從語音喚醒算法、語音交互模式、遠場信號處理、語音聲學(xué)技術(shù)以及產(chǎn)品硬件技術(shù)五個維度,來對百度蓄力爆發(fā)的小度智能音箱背后的黑科技進行揭秘。
人要跟智能音箱進行對話,第一道關(guān)卡便是語音喚醒,因而語音喚醒對于后續(xù)的整個用戶體驗而言,至關(guān)重要。然而在智能音箱這一遠場語音識別載體中,而技術(shù)本身,外部環(huán)境對于語音喚醒質(zhì)量的高低有著非常直接的影響。例如當外部噪音很大時,誤喚醒等問題就非常突出了。
而百度,除了面臨所有智能音箱產(chǎn)品都面臨的此類挑戰(zhàn)外,還存在其內(nèi)部獨有的喚醒技術(shù)難點。包括,第一,“小度小度”作為百度智能音箱的喚醒詞,雖朗朗上口,但它相對于市面上其他音箱常用的“你好xx”、“xx同學(xué)”技術(shù)上更不容易控制誤報率;第二,百度的產(chǎn)品矩陣豐富,更使得喚醒技術(shù)所面臨的外部環(huán)境更加復(fù)雜多變,因而對喚醒的精度和誤報的控制提出了更高的挑戰(zhàn)。
針對這些挑戰(zhàn)和技術(shù)難點,百度首先從算法層面實現(xiàn)了語音喚醒技術(shù)的突破,即將誤喚醒的控制由對著測試集手工調(diào)節(jié)變成了海量數(shù)據(jù)訓(xùn)練驅(qū)動的過程,并具體從兩個方面提升了模型的建模能力:“每輪對話之前,都要喚醒一次”,這是當下市面上多數(shù)智能音箱的常態(tài),也是人們在使用智能音箱期間的最大槽點之一。人們對于智能音箱“像人與人一樣交流”的憧憬要想實現(xiàn),首要條件之一就是要能夠做到:持續(xù)對話。
在智能音箱的連續(xù)交互能力上,百度為小度智能音箱研發(fā)的全雙工免喚醒能力的表現(xiàn),非常出色。這項能力組合應(yīng)用了語音語義聯(lián)合的尾點檢測技術(shù)、全雙工語音識別技術(shù)、置信度技術(shù)和語音語義一體化技術(shù),在實現(xiàn)“一次對話,多輪交互”的同時,還能快速響應(yīng),并良好地區(qū)分用戶交互意圖。
據(jù)悉,與目前業(yè)內(nèi)最好的基于CTC模型的語音識別系統(tǒng)相比,SMLTA基于截斷的端到端語音識別建模方法,讓語音識別錯誤率的下降幅度達15%以上。而除了語音識別技術(shù),在當下的智能音箱市場,一款音箱要成為“好賣”的音箱,其中一個非常重要的因素就是性價比。如何將智能音箱的成本降到盡可能低,并擁有比同價位的競品更加出色的音質(zhì),同時還能夠有效控制住音頻失真確保喚醒識別率呢?
整體而言,智能語音作為AI 領(lǐng)域相對比較成熟的細分方向,近年來在產(chǎn)品落地方面也都走在其他技術(shù)的前面。但這些技術(shù)具體落地到某個具體場景或特殊場景中時,面臨的挑戰(zhàn)依舊巨大。如何不斷優(yōu)化智能語音技術(shù),并實現(xiàn)技術(shù)的大規(guī)模產(chǎn)品落地,依舊是該領(lǐng)域需要大力探索的主題。
未來,智能音箱要想取得更加明顯的體驗提升,背后技術(shù)的突破創(chuàng)新是繞不開的一個話題。百度語音技術(shù)團隊不斷在攻堅克難,算法迭代創(chuàng)新,并善于將之應(yīng)用在落地產(chǎn)品中。就在前不久,百度語音首席架構(gòu)師賈磊的回歸,又將為百度語音技術(shù)帶來怎樣的變化和突破?拭目以待。