語(yǔ)音識(shí)別成智能家居新星的三個(gè)關(guān)鍵因素
語(yǔ)音操作躍居智能家庭人機(jī)接口新星。亞馬遜(Amazon)語(yǔ)音助手Alexa無(wú)孔不入穿梭于2017年國(guó)際消費(fèi)電子展(CES)大展,隨處可見(jiàn)的電視、冰箱、空調(diào)和洗衣機(jī)等智慧家電,甚至是陪伴型機(jī)器人皆已導(dǎo)入語(yǔ)音操作功能,堪稱(chēng)智能家庭的殺手級(jí)應(yīng)用。
工研院通訊系統(tǒng)研究部經(jīng)理葉恒芬表示,相較于2016年的CES展會(huì),大多智慧家庭還是圍繞著以手機(jī)作為控制中樞,遙控家中大小各種智能裝置的局面。繼Amazon于2016年開(kāi)放出Alexa應(yīng)用程序編程接口(API)后,吸引各大廠商相繼導(dǎo)入語(yǔ)音識(shí)別功能。至今,Alexa已具備七千項(xiàng)技能,一百八十家供貨商在此平臺(tái)開(kāi)發(fā)出商品,極可能成為跨平臺(tái)統(tǒng)一的呼叫方式。
葉恒芬分析,語(yǔ)音接口成長(zhǎng)的驅(qū)動(dòng)因素主要有三點(diǎn),一、語(yǔ)音識(shí)別錯(cuò)誤率的下降,語(yǔ)音識(shí)別若在85%以下,則不符合導(dǎo)入產(chǎn)品的標(biāo)準(zhǔn),語(yǔ)音識(shí)別率需達(dá)95%以上才具備應(yīng)用于終端終置資格,以現(xiàn)階段來(lái)說(shuō),目前的語(yǔ)音識(shí)別率已高達(dá)97~98%以上,與人類(lèi)辨識(shí)語(yǔ)言的準(zhǔn)確率相似;二、行動(dòng)語(yǔ)音助理使用量提高,現(xiàn)在很多的語(yǔ)音請(qǐng)求來(lái)自于行動(dòng)裝置,以美國(guó)用戶而言,目前已有20%的手機(jī)用戶以語(yǔ)音型式發(fā)起數(shù)據(jù)服務(wù)的請(qǐng)求,舉例來(lái)說(shuō),Google Now的語(yǔ)音搜尋成長(zhǎng)達(dá)35倍之多;三、語(yǔ)音平臺(tái)的API開(kāi)放,設(shè)備、內(nèi)容與應(yīng)用程序相繼導(dǎo)入,使得語(yǔ)音計(jì)算將有機(jī)會(huì)成為物聯(lián)網(wǎng)裝置主流的輸入型態(tài)。
事實(shí)上,在智慧家庭領(lǐng)域已陸續(xù)出現(xiàn)以人工智能(AI)芯片為基礎(chǔ),結(jié)合語(yǔ)音和影像辨識(shí)技術(shù)的功能,以提高物與物之間溝通(Device to Device)的創(chuàng)新,例如樂(lè)金(LG)已有多項(xiàng)家電產(chǎn)品導(dǎo)入語(yǔ)音、影像辨識(shí)為基礎(chǔ)的深度學(xué)習(xí)算法,并與開(kāi)放網(wǎng)絡(luò)基金會(huì)(ONF)、Google和Amazon策略合作,以提高產(chǎn)品互操作性。
然而,當(dāng)前的語(yǔ)音識(shí)別系統(tǒng)大多還會(huì)受到背景噪音的干擾,說(shuō)話的腔調(diào)、方式甚至是不同品牌設(shè)備連結(jié)等因素,也會(huì)影響語(yǔ)音識(shí)別的準(zhǔn)確率。有鑒于此,葉恒芬認(rèn)為,下一階段語(yǔ)音識(shí)別精進(jìn)的方向,可朝降低背景噪音干擾、自然辨識(shí)說(shuō)話者語(yǔ)調(diào)和某些專(zhuān)用術(shù)語(yǔ)(Lingo)的辨識(shí)與學(xué)習(xí)發(fā)展。
工研院產(chǎn)經(jīng)中心電子與系統(tǒng)研究組零組件研究部經(jīng)理林澤民補(bǔ)充,除了語(yǔ)音識(shí)別功能之外,NVIDIA CO-Pilot具備語(yǔ)音、臉部識(shí)別與唇形辨識(shí)三合一的多重辨識(shí)能力,可更加精準(zhǔn)辨別用戶表達(dá)的指令,這種多重辨識(shí)的人機(jī)接口技術(shù),強(qiáng)化識(shí)別的準(zhǔn)確性與安全性,將成為未來(lái)人機(jī)接口發(fā)展的趨勢(shì)。