人工智能發(fā)聲 將引領(lǐng)市場演變和轉(zhuǎn)型
硅基麥克風(fēng)的出現(xiàn)重塑了音頻領(lǐng)域。市場研究公司Yole Development相信,在未來幾年,人工智能將引領(lǐng)市場演變和轉(zhuǎn)型。
語音交互是自然的,這就是為什么它正在成為人機交互的主要接口。基于語音的個人助理(VPA)在智能手機、智能音箱、智能手表、無線耳機、汽車、智能電視及其遙控器中越來越受歡迎?,F(xiàn)在甚至垃圾桶都集成了語音識別。而真正的價值在于高音頻質(zhì)量和對麥克風(fēng)周圍環(huán)境的理解。
對于Yole development來說,音頻是下一個被人工智能(AI)滲透的領(lǐng)域。
人工智能如何發(fā)聲
基于語音的虛擬個人語音助理(VPA)是當(dāng)今音頻行業(yè)的主要驅(qū)動力?;谝纛l系統(tǒng)的傳統(tǒng)組件,如音頻編解碼器、麥克風(fēng)、揚聲器和音頻放大器,他們都在使用人工智能來計算和分析語音數(shù)據(jù)。例如計算支持復(fù)雜的音頻功能,如語音識別和源定位。它可以在云中執(zhí)行,也可以在消費設(shè)備的邊緣處執(zhí)行。這些分析在云中執(zhí)行需要很高的處理能力和訪問大量數(shù)據(jù),。
Yole光電和傳感部門的技術(shù)和市場分析師Dimitrios Damianos表示:“人工智能的附加價值是用于自然語言處理,聲音是與機器互動的一種更自然的方式。你不需要使用鍵盤和雙手,你只需要發(fā)聲即可。然而,為了理解用戶在說什么,他們的語言以及他們的意思需要進(jìn)行大量的處理?!叭斯ぶ悄苷谠黾咏獯a的價值,并幫助我們與設(shè)備溝通?!?/p>
當(dāng)被問及VPA的快速滲透時,Damianos將其歸因于其便捷性和效率。當(dāng)然,“我們相信和看到的是,像谷歌、蘋果、Facebook、亞馬遜和微軟(統(tǒng)稱為GAFAM)這樣的大型科技公司試圖推動這些VPA,因為它們提取的數(shù)據(jù)有真正的價值?!?/p>
Yole公司MEMS和傳感器部門的技術(shù)和市場分析師Alexis Debray:對于用戶來說,音頻比圖像更容易被接受。他們認(rèn)為音頻“不那么具有侵入性,所以這是GAFAM從人們那里收集數(shù)據(jù)的好方法,GAFAM的主要業(yè)務(wù)就是數(shù)據(jù)。一些公司利用數(shù)據(jù)做生意,而另一些公司利用隱私和設(shè)置技術(shù)來確保用戶的隱私。例如,蘋果公司就宣揚隱私,并使之成為強大的營銷資產(chǎn)。
Damianos說到:對大型科技公司來說,它們的實際價值是盡可能多地從環(huán)境中提取信息,這意味著VPA不僅會傾聽用戶的聲音,還會傾聽他們周圍的環(huán)境,并了解他們的環(huán)境。例如,“如果你在廚房里,麥克風(fēng)可以聽到刀架在柜臺上的聲音,立刻就知道你在廚房里,并給出一個菜譜?!边@就是情景人工智能。
人工智能對話之后的下一個階段很可能是完全感知,虛擬助手,無論是智能揚聲器還是智能手表,都可以像人類一樣與用戶交流。Damianos介紹,完全的意識是概念性的,并帶有問號。“我們還不知道時間軸,但可能會在人工智能對話之后的5到6年。這將取決于人工智能的發(fā)展和該領(lǐng)域公司的發(fā)展。
雖然這些一直監(jiān)聽的系統(tǒng)可以在汽車人機界面中挽救生命,但它們也引起了人們對用戶隱私保護(hù)的擔(dān)憂。為了防止可能的誤用,Debray強調(diào),數(shù)據(jù)處理應(yīng)該盡可能快地進(jìn)行,并盡可能靠近麥克風(fēng)?!半x麥克風(fēng)越近,隱私泄露的可能性就越小?!?/p>
隱私包含多個維度,因為用戶可能希望隱藏自己的性別、年齡或情緒。展望未來,Debray表示,他有信心麥克風(fēng)、ASIC或應(yīng)用處理器領(lǐng)域的參與者將開發(fā)出確保用戶隱私的技術(shù)。麥克風(fēng)可以消除聲音中的情緒,只呈現(xiàn)音頻數(shù)據(jù)。
Yole分析師預(yù)計,GAFAM將繼續(xù)占據(jù)主導(dǎo)地位,因為目前它們對分析的作用至關(guān)重要,但傳感器制造商顯然渴望在邊緣加入人工智能,并將音頻分析業(yè)務(wù)從云端分流出去。Damianos:“傳感器制造商希望增加他們的收入,并從音頻市場中分一杯羹。這不是一場來自大公司一方的戰(zhàn)斗。這是傳感器公司的一場戰(zhàn)斗?!?/p>
Alexis Debray:“傳感器公司確實在追求多樣化的戰(zhàn)略,“試圖向價值鏈移動,變得更加一體化?!?/p>
在最近的一次采訪中,Vesper Technologies Inc.首席執(zhí)行長Matt Crowley曾表示,Vesper正在尋求提高其壓電MEMS麥克風(fēng)的智能化程度?!拔覀兿嘈?,在未來,我們將在傳感器中嵌入一些與人工智能配對的傳感器。它將能夠?qū)W習(xí)人類和動物如何使用他們的感官——不僅僅是視覺、聽覺、味覺、嗅覺和觸覺,還有動作或溫度——來了解他們的環(huán)境。我們的長期愿景是,這些物體將使用多種仿生傳感器來了解它們的環(huán)境,并盡可能做出最佳反應(yīng)?!?/p>
此外,英飛凌(Infineon AG)也改變了自己的商業(yè)模式,從銷售麥克風(fēng)模類產(chǎn)品轉(zhuǎn)向銷售Goertek和AAC等公司的產(chǎn)品,再到銷售成套的MEMS麥克風(fēng)。從一個MEMS麥克風(fēng)制造商到一個做制造、封裝、測試和銷售的綜合播放器。“這是戰(zhàn)略上的變化……這可能意味著,他們看到了VPA的動向,希望在這個市場上找到自己的定位?!?/p>
同樣,美國樓氏電子Knowles,今天的領(lǐng)導(dǎo)者,擁有MEMS麥克風(fēng)市場39%的份額,最近從Ams AG收購了MEMS麥克風(fēng)ASIC設(shè)計部門。這是引入混合信號電路設(shè)計知識產(chǎn)權(quán)的一種方式,同時也是應(yīng)對來自中國公司如Goertek和AAC日益激烈的競爭的一種方式。
MEMS麥克風(fēng)為音質(zhì)提供有力支持
全球音頻市場繼續(xù)其增長軌跡?;谡Z音的VPA需要更好的信噪比(SNR),以便在嘈雜的環(huán)境中準(zhǔn)確地捕捉人的聲音,因此MEMS麥克風(fēng)面臨著新的市場機遇。
據(jù)Yole稱,全球麥克風(fēng)、麥克風(fēng)和音頻芯片消費市場的年化增長率將達(dá)到6.6%,從2018年的141億美元增長到2024年的208億美元。便宜,小巧,易于集成,麥克風(fēng)被廣泛采用,并達(dá)到很高的音量。Damianos:“我們使用了大約60億個麥克風(fēng),”目前麥克風(fēng)市場規(guī)模為17億美元,預(yù)計到2024年,其復(fù)合年增長率將達(dá)到3%,達(dá)到20億美元。
MEMS麥克風(fēng)市場目前約占總市場的70%,將從2018年的12億美元增長到2024年的16億美元。主要的驅(qū)動市場包括智能手機、智能音箱以及可聽設(shè)備(如無線耳機)。Damianos 介紹:“在過去的幾年里,智能音箱和可聽設(shè)備的市場經(jīng)歷了爆炸性的增長。到2024年,智能音箱中的MEMS麥克風(fēng)的復(fù)合年增長率將達(dá)到13%,達(dá)到12億只。到2024年,無線耳機的復(fù)合年增長率將達(dá)到29%,達(dá)到13億部。
2019年智能手機用戶20%的人機互動將使用語音助理
各大手機平臺也在積極投入,讓虛擬個人語音助理(VPA)的功能日益強大,甚至連蘋果Siri都會唱PPAP,研究機構(gòu)Gartner表示,相關(guān)技術(shù)進(jìn)展將促使用戶更常使用VPA,預(yù)計到2019年,智能型手機用戶20%的人機互動,都將使用VPA。
Gartner還公布了2016年第四季的行動應(yīng)用調(diào)查,在中國、英國與美國調(diào)查了3021名手機用戶,發(fā)現(xiàn)美國有42%、英國有32%用戶在過去三個月內(nèi)使用過VPA功能,英美平均每天至少使用一次的用戶達(dá)37%。
有54%受訪的英美用戶過去三個月使用過蘋果的Siri,Google Now的過去三個月使用率在美國則為48%、英國41%。Gartner表示,隨著更多新功能的出現(xiàn)、更多語系支持,以及越來越多機種支持VPA,這類接口的使用率將會逐步成長。
Gartner表示,VPA的成長,會和同時間快速發(fā)展的「會話商務(wù)(conversaTIonal commerce)」相互加持,且不僅是語音識別為中心,通訊軟件語對話功能亦將扮演重要角色,例如Facebook Messenger的新商務(wù)功能便可讓用戶透過對話訂購商品、呼叫Uber等,此外,騰訊的微信發(fā)展出的支付功能也已經(jīng)成為該通訊服務(wù)的重要功能。
Gartner表示,中國是目前全球會話商務(wù)最成熟的市場,以通訊平臺為核心的市場發(fā)展?fàn)顩r已經(jīng)促使傳統(tǒng)商業(yè)進(jìn)行變革。微軟的Cortana也正整合入Skype,Cortana則負(fù)責(zé)扮演第三方服務(wù)提供商與消費者之間、以對話呈現(xiàn)的互動平臺,協(xié)助用戶進(jìn)行機票、飯店預(yù)訂等商務(wù)活動。
除了語音,Gartner亦預(yù)測現(xiàn)在是移動電話主流互動接口的觸控功能,將不再是消費者唯一仰賴的接口,語音語動作(gesture)的重要性將會在消費性裝置上大增,預(yù)期到2020年將有70億臺個人設(shè)備、13億個穿戴式裝置與57億個其他類消費性物聯(lián)網(wǎng)終端裝置,將會僅有基本,或完全沒有觸控設(shè)計(Zero-Touch UI),使用傳感器針對周邊環(huán)境進(jìn)行情境信息搜集,如語音、環(huán)境、生物特征、移動與動作等信息,將會成為新型態(tài)UI的重要設(shè)計依據(jù)。
與此同時,據(jù)Yole稱,目前價值91億美元的微型揚聲器市場,預(yù)計在2024年將以3%的復(fù)合年增長率達(dá)到109億美元。
Damianos :“這似乎是一個適度的增長,但在2018年和2019年,智能手機市場放緩,可能是因為智能手機越來越貴,用戶在升級之前等待的時間更長。以前你每1.5年換一次手機,現(xiàn)在是每2.5年換一次,而且還在增加, “我們預(yù)計麥克風(fēng)和微型揚聲器市場將會下滑。事實上,“可聽設(shè)備和智能音箱的爆炸式增長抵消了這種差異。VPA正在推動所有這些設(shè)備中麥克風(fēng)和揚聲器的集成化?!?/p>
Damianos總結(jié)道,時間在變化。