銷量連續(xù)全國(guó)第一 小度智能音箱仍在研究人工智能VS人工智障
8月15日,根據(jù)Strategy Analytics智能音箱和屏幕(SSS)研究服務(wù)今天發(fā)布的最新研究報(bào)告顯示,2019年Q2智能音箱的全球銷量持續(xù)飆升,達(dá)到3030萬臺(tái),同比翻倍。其中百度小度智能音箱出貨量470萬臺(tái)居全球第三,超過阿里巴巴和小米,排名國(guó)內(nèi)第一,與2018年相比,小度智能音箱銷量增長(zhǎng)高達(dá)38倍。
Strategy Analytics數(shù)據(jù)
這已經(jīng)不是第一份報(bào)告顯示小度智能音箱的飛速增長(zhǎng)。2019年第一季度,包括Canalys、IDC,Stra tegy Analytics在內(nèi)的多家調(diào)研機(jī)構(gòu)的數(shù)據(jù)均顯示,小度智能音箱市場(chǎng)份額已升至國(guó)內(nèi)第一,全球第三。
百度入局智能音箱領(lǐng)域時(shí)間并不長(zhǎng),從2018年3月正式發(fā)布有屏音箱小度在家,迄今為止不到2年時(shí)間。小度智能音箱何以在競(jìng)爭(zhēng)激烈的國(guó)內(nèi)市場(chǎng)迅速崛起?
百度首席架構(gòu)師、SLG首席技術(shù)官朱凱華和我們聊了聊小度智能音箱背后的技術(shù)故事。
智能音箱區(qū)別于傳統(tǒng)音箱的突出特征就是可以和人進(jìn)行語音交互互動(dòng)。在朱凱華看來,百度智能音箱的優(yōu)勢(shì)在于很好的實(shí)現(xiàn)了對(duì)話式交互的用戶體驗(yàn)。
朱凱華介紹,擁有良好的對(duì)話式交互,需要解決“聽清、聽懂和滿足”三個(gè)問題。聽清,要求音箱在嘈雜環(huán)境內(nèi)(不論是外部嘈雜,還是音箱本身大聲放音時(shí))能準(zhǔn)確的被倍喚醒、并把用戶的聲音轉(zhuǎn)為文字。
而能聽懂,則是對(duì)音箱智能性的更高要求。聽懂,意味著要能準(zhǔn)確的把文字理解為用戶意圖,人工智能和人工智障,一字之差,說出的是用戶體驗(yàn)的天壤之別。
朱凱華表示:“智能和智障的區(qū)別,很大部分是要做好‘知之為知之,不知為不知’。在理解的時(shí)候快速給答案,不理解時(shí)給出合理澄清,不裝懂不插科打諢。‘智障’很大部分是不懂而瞎說引起用戶抵觸。”
朱凱華現(xiàn)場(chǎng)使用小度演示了真正的智能音箱在遇到這方面難題的解決方案:當(dāng)他對(duì)小度說“我想聽….”的時(shí)候,小度的回答是,“你想聽什么呢?”當(dāng)他再次說出“我想聽劉德華的歌”時(shí),小度響應(yīng)并播放了劉德華的歌曲。
朱凱華介紹,這只是小度“聽懂”方面的一個(gè)小例子,但這樣的能力卻已經(jīng)要高于市面上的絕大部分產(chǎn)品。小度的聽懂在于,當(dāng)它獲得模糊需求(不清晰指令)的時(shí)候,它會(huì)嘗試分析和校對(duì)自己的指定,以便更準(zhǔn)確地滿足用戶的需求。
除了上述聽清、聽懂需要的人工智能技術(shù)保障外,對(duì)話式交互第三個(gè)要素“滿足”,則需要有豐富的信息、內(nèi)容和服務(wù)來滿足用戶。簡(jiǎn)言之,也就是音箱聽清聽懂了用戶的需求,還需要能滿足用戶需求的能力,這需要設(shè)備有完備的知識(shí)和技能服務(wù)。
“現(xiàn)在流行的垃圾分類話題,比如濕紙巾是什么垃圾,小度也能給出答案。”朱凱華介紹,因?yàn)樾《缺晨堪俣仁畠|級(jí)的知識(shí)圖譜、百億級(jí)的搜索請(qǐng)求和萬億級(jí)的網(wǎng)頁(yè)內(nèi)容,同時(shí)構(gòu)建了33000+平臺(tái)開發(fā)者、2400+優(yōu)秀技能的生態(tài),是知識(shí)和技能最完備的平臺(tái)。
不過,現(xiàn)在的小度已經(jīng)不滿足于現(xiàn)有的語音交互的智能程度。
在今年7月的百度AI開發(fā)者大會(huì)上,百度公司董事長(zhǎng)兼CEO李彥宏啟動(dòng)了小度在家“極客模式”開始了與智能音箱的連續(xù)對(duì)話聊天,并介紹了一個(gè)極具技術(shù)流的的名詞“全雙工免喚醒”功能。
搭載“全雙工免喚醒”功能的小度智能音箱,可以和用戶進(jìn)行連續(xù)聊天,不需要每次都呼喚“小度小度“喚醒。這種人機(jī)交互模式無疑更加“自然”,離真正意義上的“智能”更進(jìn)一步。
體驗(yàn)進(jìn)步一小步,背后是科技人員努力的一大步。要真正做好“全雙工免喚醒”絕非易事。
試想,在人聲嘈雜的環(huán)境里,機(jī)器如何準(zhǔn)備識(shí)別你的這句話是針對(duì)它說的,還是對(duì)其他人員說的?這對(duì)“智能”性程度提出了更高要求。此前市面上有其他品牌展示過相關(guān)技術(shù)的演示,但工業(yè)化量產(chǎn),目前只有小度率先推出。
對(duì)此,朱凱華表示,能夠首先推出全雙工免喚醒,有3個(gè)必要條件:具備軟件和硬件結(jié)合的能力;語音識(shí)別和語義理解結(jié)合、端到端的識(shí)別和理解整合的深度優(yōu)化能力;和對(duì)所有技術(shù)能夠進(jìn)行深度整合的能力。
目前小度“全雙工免喚醒”功能已在小度有屏音箱產(chǎn)品和有燈帶的音箱產(chǎn)品上上線,主要應(yīng)用于音樂和有聲內(nèi)容場(chǎng)景。朱凱華透露,該功能很快將拓展至更多場(chǎng)景使用。
對(duì)于語音交互技術(shù)和智能家居的未來發(fā)展,朱凱華認(rèn)為,從人之間的交流方式來看,輸出信息帶寬最大的是語音,輸入是視覺。未來的交互方式一定是視覺和語音相結(jié)合方式。智能家居時(shí)代要求設(shè)備間有良好的感知與協(xié)同能力,多模態(tài)交互將是必然趨勢(shì)。不過,科技不停地向前發(fā)展,在技術(shù)落地的過程中一定會(huì)有各種不同的產(chǎn)品形態(tài),但最核心的是技術(shù)能力有沒有更好地在階段時(shí)間內(nèi)滿足用戶的需求。