語音識別產(chǎn)業(yè)未來會發(fā)展成什么樣
(文章來源:36氪)
當語音產(chǎn)業(yè)需求四處開花的同時,行業(yè)的發(fā)展速度反過來會受限于平臺服務商的供給能力。跳出具體案例來看,行業(yè)下一步發(fā)展的本質(zhì)邏輯是:在具體每個點的投入產(chǎn)出是否達到一個普遍接受的界限。
離這個界限越近,行業(yè)就越會接近滾雪球式發(fā)展的臨界點,否則整體增速就會相對平緩。不管是家居、酒店、金融、教育或者其他場景,如果解決問題都是非常高投入并且長周期的事情,那對此承擔成本的一方就會猶豫,這相當于試錯成本過高。如果投入后,沒有可感知的新體驗或者銷量促進,那對此承擔成本的一方也會猶豫,顯然這會影響值不值得上的判斷。而這兩個事情,歸根結底都必須由平臺方解決,產(chǎn)品方或者解決方案方對此無能為力,這是由智能語音交互的基礎技術特征所決定。
從核心技術來看,整個語音交互鏈條有五項單點技術:喚醒、麥克風陣列、語音識別、自然語言處理、語音合成,其它技術點比如聲紋識別、哭聲檢測等數(shù)十項技術通用性略弱,但分別出現(xiàn)在不同的場景下,并會在特定場景下成為關鍵??雌饋黻P聯(lián)的技術已經(jīng)相對龐雜,但切換到商業(yè)視角我們就會發(fā)現(xiàn),找到這些技術距離打造一款體驗上佳的產(chǎn)品仍然有絕大距離。
所有語音交互產(chǎn)品都是端到端打通的產(chǎn)品,如果每家廠商都從這些基礎技術來打造產(chǎn)品,那就每家都要建立自己云服務穩(wěn)定,確保響應速度,適配自己所選擇的硬件平臺,逐項整合具體的內(nèi)容(比如音樂、有聲讀物)。這從產(chǎn)品方或者解決方案商的視角來看是不可接受的。這時候就會催生相應的平臺服務商,它要同時解決技術、內(nèi)容接入和工程細節(jié)等問題,最終達成試錯成本低、體驗卻足夠好的目標。
平臺服務并不需要閉門造車,平臺服務的前提是要有能屏蔽產(chǎn)品差異的操作系統(tǒng),這是 AI+IOT 的特征,也是有所參照的,亞馬遜過去近 10 年里是同步著手做兩件事:一個是持續(xù)推出面向終端用戶的產(chǎn)品,比如 Echo,Echo Show等;一個是把所有產(chǎn)品所內(nèi)置的系統(tǒng) Alexa 進行平臺化,面向設備端和技能端同步開放SDK和調(diào)試發(fā)布平臺。雖然 Google Assistant 號稱單點技術更為領先,但從各方面的結果來看 Alexa 是當之無愧的最為領先的系統(tǒng)平臺,可惜的是 Alexa 并不支持中文以及相應的后臺服務。
國內(nèi)則缺乏亞馬遜這種統(tǒng)治力的系統(tǒng)平臺提供商,當前的平臺提供商分為兩個陣營:一類是以百度、阿里、訊飛、小米、騰訊為代表的傳統(tǒng)互聯(lián)網(wǎng)或者上市公司;一類是以聲智等為代表的新興人工智能公司。新興的人工智能公司相比傳統(tǒng)公司產(chǎn)品和服務上的歷史包袱更輕,因此在平臺服務上反倒是可以主推一些更為面向未來、有特色的基礎服務,比如兼容性方面新興公司做的會更加徹底,這種兼容性對于一套產(chǎn)品同時覆蓋國內(nèi)國外市場是相當有利的。
類比過去的 Android,語音交互的平臺提供商們其實面臨更大的挑戰(zhàn),發(fā)展過程可能會更加的曲折。過去經(jīng)常被提到的操作系統(tǒng)的概念在智能語音交互背景下事實上正被賦予新的內(nèi)涵,它日益被分成兩個不同但必須緊密結合的部分。
這兩邊在操作上,屬性具有巨大差異。解決前者需要參與到傳統(tǒng)的產(chǎn)品生產(chǎn)制造鏈條中去,而解決后者則更像應用商店的開發(fā)者。這里面蘊含著巨大的挑戰(zhàn)和機遇。在過去功能型操作系統(tǒng)的打造過程中,國內(nèi)的程序員們更多的是使用者的角色,但智能型操作系統(tǒng)雖然也可以參照其他,但這次必須自己來從頭打造完整的系統(tǒng)。(國外巨頭不管在中文相關的技術上還是內(nèi)容整合上事實上都非常薄弱,不存在侵略國內(nèi)市場的可能性)
隨著平臺服務商兩邊的問題解決的越來越好,基礎的計算模式則會逐漸發(fā)生改變,人們的數(shù)據(jù)消費模式會與今天不同。個人的計算設備(當前主要是手機、筆記本、Pad)會根據(jù)不同場景進一步分化。比如在車上、家里、酒店、工作場景、路上、業(yè)務辦理等會根據(jù)地點和業(yè)務進行分化。但分化的同時背后的服務則是統(tǒng)一的,每個人可以自由的根據(jù)場景做設備的遷移,背后的服務雖然會針對不同的場景進行優(yōu)化,但在個人偏好這樣的點上則是統(tǒng)一的。
人與數(shù)字世界的接口,在現(xiàn)在越來越統(tǒng)一于具體的產(chǎn)品形態(tài)(比如手機),但隨著智能型系統(tǒng)的出現(xiàn),這種統(tǒng)一則會越來越統(tǒng)一于系統(tǒng)本身。作為結果這會帶來數(shù)據(jù)化程度的持續(xù)加深,我們越來越接近一個百分百數(shù)據(jù)化的世界。