硅谷風(fēng)投Andreessen Horowitz (a16z) 的合伙人本·伊萬斯 (Benedict Evans) 近日在其博客文章中表示,智能手機的創(chuàng)新時代已經(jīng)終結(jié),但是現(xiàn)在沒人能說語音界面或人工智能就一定會成為下一個“爆發(fā)點”。他還在文章中詳細(xì)分析了語音界面目前面臨的發(fā)展挑戰(zhàn)。
iPhone 6的設(shè)計已經(jīng)延續(xù)了三年 (之前的每一代iPhone設(shè)計蘋果只使用兩年),今年秋季蘋果預(yù)計會發(fā)布新一代的iPhone,但是也不過就是“又一部” iPhone而已。想必到時候我們又會聽到許多諸如“蘋果創(chuàng)新已死”的聲音。安卓也是如此,最新發(fā)布的O版本里大的新特性不多,外界仍舊是那個論調(diào)——“創(chuàng)新已死”。
實際上,智能手機的創(chuàng)新時代已經(jīng)結(jié)束了。在a16z,我們將其總結(jié)為新技術(shù)產(chǎn)品的S型曲線 (如圖)。90年代的個人電腦產(chǎn)品就經(jīng)歷了同樣的S曲線,PC現(xiàn)在的發(fā)展幾乎停滯 (虎嗅編輯: 看一看聯(lián)想電腦就知道了),智能手機也正在或即將面臨同樣的狀況。雖然智能手機的攝像頭性能會變得更強,芯片速度會變得更快,但是關(guān)于智能手機的戰(zhàn)爭已經(jīng)結(jié)束了。
也就是說,沒有人會再問“誰會贏得這場戰(zhàn)爭”之類的問題。蘋果和谷歌贏了,勝局已定,就像1995年個人電腦操作系統(tǒng)領(lǐng)域的微軟一樣。現(xiàn)在面臨的問題是,全球有25億智能手機用戶,并且會在幾年內(nèi)發(fā)展到50億的規(guī)模,下一個S型曲線會是那一種技術(shù)產(chǎn)品?會是語音助手嗎?不太可能。雖然亞馬遜可能已經(jīng)買出了上千萬臺Echo,谷歌也推出了Google Home產(chǎn)品,但是語音助手仍舊有太多問題要解決。
我們還是先看看為什么最近一段時間關(guān)于語音助手的討論比較多吧。首先是語音識別技術(shù)的效果已經(jīng)和過去大不一樣了,從2012至今,語音識別技術(shù)的錯誤率已經(jīng)從33% 降到了5% 以下。雖然5% 仍舊不是一個足夠好的效果,但是已經(jīng)開始逐漸被用戶接受了。另外,從美國市場來看,四大科技公司 (Google、Apple、Facebook和Amazon) 里面,后兩家公司是沒有自己硬件平臺的。所以亞馬遜會力推Echo,F(xiàn)acebook也在極力推動人工智能方面的產(chǎn)品。
那么當(dāng)下的語音助手產(chǎn)品是否會出現(xiàn)S型曲線的爆發(fā)呢?不太可能。
如果仔細(xì)來看目前語音技術(shù)產(chǎn)品的應(yīng)用,不難發(fā)現(xiàn)從本質(zhì)上,它仍舊只是作為一個語音命令界面來使用,也就是將語音轉(zhuǎn)化為文字 (而且這個過程的識別率仍有待提高),實際的系統(tǒng)命令操作,依然是舊有的模式。打個比方,就是用戶可以用語音輸入來填一個對話框,但是解決方案的本質(zhì)仍舊在對話框后面,語音只是一個尚不完善的界面。
但是現(xiàn)在的某些語音助手產(chǎn)品卻在做一件有誤導(dǎo)的事:科技公司讓用戶覺得只要對著語音助手說話,它們就能聽懂,做到一切。
實際情況是,在語音界面背后真正的“對話框”,只有那么幾十種 (最多50種),也就是說,即便用戶的自然語言命令能夠成功被識別,“對話框”能夠完成的操作也是很有限的。當(dāng)然,有人也會說科技公司會不斷增加語音助手能夠做的事情,或許未來能夠增加到上百種。但是站在用戶的角度,使用語音助手就面臨這樣一個“窘境”:我需要先知道它能做什么,否則我對著它說了半天也是白說——這還是在能夠成功識別的情況下。
從用戶體驗的角度來講,這增加了使用這種產(chǎn)品的難度,不但沒有獲得方便,而且還增加了負(fù)擔(dān)??紤]到目前的語音助手產(chǎn)品大多時候只能夠做一些簡單的操作,那么用戶實際上沒有必要繞這么一圈,只需要點幾下屏幕就可以了。觸控操作也是大多數(shù)用戶已經(jīng)建立起使用習(xí)慣的方式。
我們不妨將語音助手和智能手表的使用情景做一下比較。這兩款產(chǎn)品能夠做的事情,你的智能手機都可以完成,但是這兩款產(chǎn)品在特定情景下讓用戶操作更便捷 (只要你能想起來使用它們),比如設(shè)置鬧鐘或者匯率換算。但是只有在用戶清楚了解這些特定情景的情況下,便捷性才會體現(xiàn)出來。否則的話,用戶最便捷的選擇其實是掏出手機,點幾下屏幕。
語音助手產(chǎn)品在使用場景不多的時候,無法確保有效的使用結(jié)果,這增加了用戶的成本。而且,語音識別率仍舊有待提高。不過,對于一些特定且簡單的用戶操作來說 (比如開關(guān)燈) ,像亞馬遜Echo這樣的產(chǎn)品的確更有優(yōu)勢。也就是說,雖然從理論上來講語音助手能做的事情很多,但其實只有一兩個功能才是最適合這種產(chǎn)品的。
有些人希望把語音技術(shù)做成下一個爆發(fā)性的產(chǎn)品,可以理解。尤其是考慮到智能手機正在逐漸向PC靠攏。但是語音技術(shù)是否能夠迎來 S型曲線的爆發(fā),非常令人懷疑。