語音識別技術(shù)在數(shù)字化生活中的應(yīng)用及發(fā)展
(文章來源:捷思奇)
? ? ?? 語音識別領(lǐng)域已經(jīng)開始從研發(fā)轉(zhuǎn)為應(yīng)用,研發(fā)比的是標(biāo)準(zhǔn)環(huán)境下純粹的算法誰更有優(yōu)勢,而應(yīng)用比較的是在真實場景下誰的技術(shù)更能產(chǎn)生優(yōu)異的用戶體驗,而一旦在真實場景下的體驗,語音識別便失去獨立存在的價值,更多作為產(chǎn)品體驗的一個環(huán)節(jié)而存在。
智能音箱,以一種井噴式的發(fā)展出現(xiàn)在大眾面前,市場銷量以及智能音箱的 AI 屬性,促使 2016 年下半年,國內(nèi)各大巨頭幾乎是同時轉(zhuǎn)變態(tài)度,積極打造自己的智能音箱 。但在 2019 年之后則開始進(jìn)入市場萎縮的階段,人們關(guān)注的焦點也不再是單純的技術(shù)指標(biāo),而是回歸到體驗,更為一般的、純粹的商業(yè)視角。然而卻因為技術(shù)瓶頸的限制,客戶的體驗感覺并未如預(yù)期,智能音箱在遠(yuǎn)場環(huán)境中使用的效果也沒達(dá)到消費者的期待。
智能音箱淪為網(wǎng)路聽歌、聽書的平臺,更有眾里換他千百度,只收到請再說一次的回應(yīng);這與開發(fā)智能音箱的初衷出現(xiàn)非常大的差距,而讓智能音箱淪為玩具,確實也讓市場對于智能音箱的發(fā)展產(chǎn)生很大的質(zhì)疑。目前發(fā)展較為成功的應(yīng)用大多局限于語音翻譯機,而智能家居上利用語音作為控制上的應(yīng)用僅止于產(chǎn)品演示,離真正的實用化還有萬里之遙;畢竟環(huán)境因素與遠(yuǎn)場語音識別技術(shù),不管硬體還是軟體都還尚未到達(dá)成熟可以商業(yè)化的程度,這更阻礙市場的發(fā)展。
當(dāng)語音產(chǎn)業(yè)尋求下一個發(fā)展契機的同時,行業(yè)的發(fā)展速度反過來會受限于平臺服務(wù)商的供給能力而導(dǎo)致整體發(fā)展速度變緩。從整體市場發(fā)展來看,行業(yè)下一步發(fā)展的本質(zhì)思維是:在具體每個語音識別產(chǎn)品的投入產(chǎn)出是否達(dá)到一個普遍接受的應(yīng)用,離這個越近,行業(yè)就越會接近蓬勃發(fā)展,否則整體增速就會相對平緩。然而不管是智能家居、酒店、金融、教育或者其他場景,如果解決問題的投入資金與時間過于漫長,那對投資方的考量就會增加更多猶豫。如果投入后,沒有可感知的新體驗或者銷量促進(jìn),那對此投資方也會興趣缺缺,這會直接影響值不值投資的判斷。
從核心技術(shù)來看,整個語音技術(shù)有五點技術(shù):喚醒、麥克風(fēng)陣列、語音識別、自然語言處理、語音合成;這些AI芯片與軟件算法相對來說復(fù)雜程度非常的高,但從商業(yè)角度來看我們就會發(fā)現(xiàn),想要找到這些技術(shù)的不足點打造一款體驗良好的產(chǎn)品,仍然存在著非常大的技術(shù)門檻 。所有語音交互產(chǎn)品都是端點對端點應(yīng)用的產(chǎn)品,如果每家廠商都從這些基礎(chǔ)技術(shù)來打造產(chǎn)品,那就每家都要建立自己云服務(wù)系統(tǒng),確保響應(yīng)速度,調(diào)試自己所選擇的硬件平臺,逐項整合具體的內(nèi)容。
國內(nèi)則缺乏系統(tǒng)整合的平臺提供商,當(dāng)前的平臺提供商分為兩種:一種是傳統(tǒng)互聯(lián)網(wǎng)或者上市公司;一類是以語音識別技術(shù)為主的新興人工智能公司。新興的人工智能公司相比傳統(tǒng)公司產(chǎn)品和服務(wù)上的歷史包袱更輕,因此在平臺服務(wù)上反倒是可以主推一些更為面向未來、有特色的基礎(chǔ)服務(wù),比如兼容性方面新興公司做的會更加徹底,這種兼容性對于一套產(chǎn)品同時覆蓋全球市場是相對更加有利的。
人與數(shù)字世界的接口,在現(xiàn)在越來越統(tǒng)一于具體的產(chǎn)品形態(tài)(比如手機),但隨著智能型系統(tǒng)的出現(xiàn),這種統(tǒng)一則會越來越統(tǒng)一于系統(tǒng)本身,而相對的周邊傳感器與執(zhí)行器的開發(fā),可將整個系統(tǒng)更加完善、更接近人內(nèi)的言行與思考模式,這樣的結(jié)果會帶來數(shù)字化程度更高,越來越接近數(shù)字化的生活。
? ? ?