語音識別市場競爭激烈,亞馬遜崛起與微軟衰落形成反差
(文章來源:神小無)
語音識別是一種可以識別口語單詞的技術(shù),然后可以將其轉(zhuǎn)換為文本。語音識別的一個(gè)子集是語音識別,這是一種基于語音識別人的技術(shù)。全球五家頂尖科技公司Amazon,Microsoft,Google和Apple已通過Google Home,Amazon Echo和Siri等服務(wù)在各種設(shè)備上提供此功能。
隨著市場上許多語音識別產(chǎn)品的推出,我們決定研究語音識別的業(yè)務(wù)含義。通過研究這些公司的語音識別技術(shù),我們嘗試為讀者解答以下問題:語音識別如何驅(qū)動(dòng)這些公司的商業(yè)價(jià)值?他們?yōu)槭裁匆顿Y語音識別?幾年后這項(xiàng)技術(shù)會(huì)是什么樣?我們從一些背景開始,探討技術(shù)巨頭如何以及為何開發(fā)語音識別技術(shù)。其次是來自亞馬遜,微軟,谷歌和蘋果的語音識別技術(shù)的衰落。
技術(shù)公司正在意識到對語音識別技術(shù)的興趣,并正在努力使語音識別成為大多數(shù)產(chǎn)品的標(biāo)準(zhǔn)。這些公司的目標(biāo)之一可能是使語音助手圍繞上下文和內(nèi)容更加準(zhǔn)確地講話和答復(fù)。研究表明,具有語音識別功能的虛擬助手的使用量預(yù)計(jì)將在明年繼續(xù)增長,從2017年的6050萬在美國增加到2018年的6240萬。到2019年,有6660萬美國人使用語音或語音識別技術(shù)。
為了建立強(qiáng)大的語音識別體驗(yàn),其背后的人工智能必須變得更好,以應(yīng)對口音和背景噪音等挑戰(zhàn)。如今,自然語言處理和神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展極大地改善了語音和語音技術(shù),以至于今天據(jù)說與人類同等。例如,在2017年,該公司記錄的Microsoft語音技術(shù)的單詞錯(cuò)誤率達(dá)到5.1%,而Google報(bào)告說它已將其錯(cuò)誤率降低到4.9%。
研究公司Research and Markets報(bào)告說,到2023年,語音識別市場的價(jià)值將達(dá)到180億美元。隨著語音識別技術(shù)變得越來越大,該研究估計(jì)它可以應(yīng)用于從電話到冰箱再到汽車的所有領(lǐng)域。在拉斯維加斯舉行的CES 2017年度展會(huì)上可以看到其中的一瞥,那里推出或宣布了帶有語音的新設(shè)備。盡管所有應(yīng)用程序都具有非常相似的功能和集成機(jī)會(huì),但我們已根據(jù)我們研究的重點(diǎn)將它們歸類為每個(gè)應(yīng)用程序的主要關(guān)注領(lǐng)域。
直到最近,亞馬遜的語音虛擬助手Alexa僅在亞馬遜生產(chǎn)的商業(yè)產(chǎn)品上可用。但是,Amazon Web Services已將語音助手提供給其他公司。亞馬遜與英特爾合作推出了Alexa語音服務(wù)設(shè)備軟件開發(fā)套件,該套件可允許第三方公司將Alexa功能嵌入其設(shè)備。此次合作是亞馬遜“ Alexa Everywhere”戰(zhàn)略的結(jié)果,該公司表示,該戰(zhàn)略旨在使各種智能和可穿戴設(shè)備的制造商都能普遍使用Alexa背后的技術(shù)。
在拉斯維加斯舉行的CES 2018上,索尼,TiVo和海信發(fā)布了集成Alexa的智能家居技術(shù),使客戶能夠通過語音控制電視?;荻?,三角洲,LG和海爾等家用電器制造商還增加了Alexa的語音識別技能,以幫助人們控制房屋的各個(gè)方面,從電視,微波爐到空調(diào)裝置和水龍頭。根據(jù)Amazon Alexa網(wǎng)站的數(shù)據(jù),Alexa可以控制來自2500多個(gè)品牌的13,000多種智能家居設(shè)備。
包括其他公司的產(chǎn)品在內(nèi),Alexa現(xiàn)在擁有30,000種技能。盡管蘋果擁有Siri,谷歌將其未命名的虛擬助手內(nèi)置在智能手機(jī)和揚(yáng)聲器中,但亞馬遜將Alexa集成到了智能揚(yáng)聲器Echo中。亞馬遜沒有透露最終的銷售數(shù)字,F(xiàn)orrester預(yù)測到2017年底將售出2200萬個(gè)Echo單元。Forrester稱,達(dá)到這個(gè)銷售數(shù)字將使Echo成為美國最大的語音助手。
作為虛擬助手,亞馬遜聲稱亞馬遜提供的Alexa for Business可以幫助專業(yè)人士管理日程安排,跟蹤任務(wù)并設(shè)置提醒。當(dāng)集成到會(huì)議控制臺等設(shè)備中時(shí),該應(yīng)用程序可以通過發(fā)言人的聲音控制會(huì)議室設(shè)置。支持Alexa的設(shè)備還可以在較小的會(huì)議室中充當(dāng)音頻會(huì)議設(shè)備,或者在較大的會(huì)議室中充當(dāng)控制設(shè)備。
羅技將Alexa內(nèi)置到其Harmony遠(yuǎn)程裝置中,以控制家庭娛樂系統(tǒng)和智能家居設(shè)備。當(dāng)客戶說出簡單的命令(例如“ Alexa,打開電視”或“ Alexa,播放DVD”)時(shí),將激活遠(yuǎn)程單元。然后,Alexa將請求發(fā)送給Harmony,后者通過紅外將請求中繼到家用設(shè)備,藍(lán)牙或IP。
據(jù)亞馬遜稱,原型團(tuán)隊(duì)由羅技公司的一名高級軟件架構(gòu)師組成,他花了兩個(gè)小時(shí)將Alexa集成到Harmony中。一旦原型準(zhǔn)備就緒,羅技(Logitech)的團(tuán)隊(duì)就準(zhǔn)備了發(fā)射所需的技能。根據(jù)羅技(Logitech)的數(shù)據(jù),亞馬遜報(bào)告說,從原型開發(fā)到生產(chǎn)級技能的過程不到兩周。在此案例研究中未提供其他詳細(xì)信息或編號。
在更基本的層面上,亞馬遜還提供自動(dòng)語音識別(ASR)服務(wù)Transcribe,使開發(fā)人員能夠向其應(yīng)用程序添加語音到文本功能。一旦語音功能集成到應(yīng)用程序中,最終用戶就可以分析音頻文件,然后接收轉(zhuǎn)錄語音的文本文件。Google Assistant是谷歌的語音虛擬助手,其技能包括諸如通過Google Pay發(fā)送和請求付款或?qū)?u>Pixel 手機(jī)進(jìn)行故障排除之類的任務(wù)。
在Android或iOS手機(jī),智能手表,Pixelbook筆記本電腦,Android智能電視/顯示器和Android自動(dòng)啟用的汽車等設(shè)備上都可以使用Assistant。當(dāng)需要在諸如庫之類的地方保持安靜時(shí),用戶還可以在Assistant中鍵入命令。Google Assistant為兒童和家庭提供了50種與語音相關(guān)的游戲。
隨身攜帶的Google智能揚(yáng)聲器包括Home。谷歌聲稱該揚(yáng)聲器可與來自150多個(gè)品牌的5,000多個(gè)智能家居設(shè)備配合使用,例如咖啡機(jī),電燈和恒溫器,其中包括索尼,飛利浦,LG和東芝。據(jù)報(bào)道,在2018年第一季度,谷歌售出了320萬臺其Home和Home Mini設(shè)備,超過了Alexa支持的Echo設(shè)備(250萬臺)。兩家公司都沒有發(fā)布官方數(shù)據(jù)。
為了使Assistant更加普及,Google通過AcTIons打開了軟件開發(fā)工具包,該工具包允許開發(fā)人員在支持人工智能的自己的產(chǎn)品中建立聲音。谷歌最近還啟動(dòng)了Assistant Investments計(jì)劃,該計(jì)劃投資于致力于提高語音和輔助技術(shù)(無論是硬件還是軟件)的初創(chuàng)公司,并專注于旅游,游戲或酒店業(yè)。
根據(jù)該計(jì)劃,谷歌將在技術(shù),業(yè)務(wù)開發(fā)和產(chǎn)品潛在客戶方面提供支持。初創(chuàng)公司還將獲得對Assistant的新功能和計(jì)劃的首次訪問; Google產(chǎn)品(包括Google Cloud)的信用; 以及潛在的聯(lián)合營銷機(jī)會(huì)。Google的另一種語音識別產(chǎn)品是由AI驅(qū)動(dòng)的云語音到文本工具,開發(fā)人員可以通過深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)算法將音頻轉(zhuǎn)換為文本。該工具可使用120種語言,支持語音命令和控制,轉(zhuǎn)錄來自呼叫中心的音頻,處理實(shí)時(shí)流或預(yù)先錄制的音頻。
? ? ?