新的車(chē)載語(yǔ)音,真的很神奇
掃描二維碼
隨時(shí)隨地手機(jī)看文章
語(yǔ)音平臺(tái)有機(jī)會(huì)成為物聯(lián)網(wǎng)時(shí)代下新的“操作系統(tǒng)”,連接全新的產(chǎn)業(yè)生態(tài)。
越來(lái)越多的人開(kāi)始確信,語(yǔ)音的徹底主流化已經(jīng)不是一個(gè)需要討論的問(wèn)題,只是一個(gè)時(shí)間和習(xí)慣轉(zhuǎn)移的問(wèn)題。
語(yǔ)音交互的價(jià)值,在過(guò)去幾年的發(fā)展中,逐步走出單純“控制方式”的狹隘理解,并成為業(yè)內(nèi)人眼中的“新入口”,有機(jī)會(huì) 連接全新的產(chǎn)業(yè)生態(tài)。
作為被連接的核心硬件之一,汽車(chē)領(lǐng)域語(yǔ)音交互平臺(tái)的爭(zhēng)奪戰(zhàn)也已進(jìn)入白熱化狀態(tài)。車(chē)載環(huán)境,極有可能優(yōu)先成為用戶(hù)固化語(yǔ)音交互操作習(xí)慣最典型場(chǎng)景。
競(jìng)爭(zhēng)仍在繼續(xù)。然而,隨著核心技術(shù)的產(chǎn)業(yè)環(huán)境的推進(jìn),關(guān)于車(chē)載語(yǔ)音交互平臺(tái)的競(jìng)爭(zhēng),已經(jīng)從自然語(yǔ)言處理(NLP)+自然語(yǔ)言理解(NLU)引擎能力的競(jìng)爭(zhēng),衍生向數(shù)據(jù)和計(jì)算能力+資源整合能力的下一步競(jìng)爭(zhēng)。
在這個(gè)過(guò)程中,誰(shuí)將勝出?
語(yǔ)音平臺(tái)有望成為“新操作系統(tǒng)”
2014年11月6日,亞馬遜第一款智能音箱Echo在官網(wǎng)悄然上線(xiàn)。借助產(chǎn)品本身的軟硬件實(shí)力,智能家居配套設(shè)備的逐漸成熟,以及開(kāi)發(fā)者針對(duì)Alexa平臺(tái)開(kāi)發(fā)的數(shù)千種服務(wù),Echo短期內(nèi)名聲大噪,在不到兩年的時(shí)間內(nèi)實(shí)現(xiàn)了超過(guò)千萬(wàn)臺(tái)的銷(xiāo)量。
今年6月,蘋(píng)果開(kāi)發(fā)者大會(huì)期間,蘋(píng)果公司CEO蒂姆·庫(kù)克正式揭開(kāi)了HomePod的面紗,這款?yuàn)檴檨?lái)遲的語(yǔ)音智能音箱,承載了蘋(píng)果對(duì)抗亞馬遜Echo的期望。
蒂姆·庫(kù)克很清楚,表面看起來(lái)一場(chǎng)智能音箱“卡位戰(zhàn)”的背后有著更深層的競(jìng)爭(zhēng):在人工智能(AI)迅速發(fā)展的大背景下,語(yǔ)音平臺(tái)有機(jī)會(huì)成為物聯(lián)網(wǎng)時(shí)代下新的“操作系統(tǒng)”,連接全新的產(chǎn)業(yè)生態(tài),包括各類(lèi)服務(wù)應(yīng)用、各類(lèi)硬件。
各類(lèi)硬件中,除了智能家居設(shè)備外,汽車(chē)產(chǎn)品對(duì)語(yǔ)音平臺(tái)的需求最顯而易見(jiàn)。并且,由于目前用戶(hù)所習(xí)慣的點(diǎn)擊、滑動(dòng)等觸摸型交互方式在車(chē)載環(huán)境下存在潛在安全隱患且并不完全好用,因此語(yǔ)音這一天然適應(yīng)車(chē)載環(huán)境的交互方式,成為車(chē)內(nèi)固定操作習(xí)慣的可能性非常之大。
目前,包括美國(guó)語(yǔ)音技術(shù)巨頭Nuance、國(guó)內(nèi)相關(guān)公司科大訊飛、云之聲、思必馳、出門(mén)問(wèn)問(wèn)等等,均在車(chē)載語(yǔ)音交互領(lǐng)域進(jìn)行探索和布局。例如,在去年阿里上汽的首款產(chǎn)品榮威RX5上,Nuance的車(chē)載語(yǔ)音交互系統(tǒng)得到搭載、科大訊飛與奇瑞自2015年起始終在密切合作、出門(mén)問(wèn)問(wèn)與大眾汽車(chē)集團(tuán)(中國(guó))成立合資公司。一時(shí)間,車(chē)載語(yǔ)音交互站上了時(shí)代的風(fēng)口。
亞馬遜第一款智能音箱Echo
車(chē)聯(lián)網(wǎng)支撐車(chē)載語(yǔ)音交互發(fā)展
事實(shí)上,車(chē)載語(yǔ)音交互的發(fā)展,與車(chē)聯(lián)網(wǎng)近些年的快速發(fā)展密不可分。
在業(yè)內(nèi)常用的定義中,中國(guó)車(chē)聯(lián)網(wǎng)如今走過(guò)了三個(gè)典型發(fā)展歷程:
第一階段:以最初的Onstar、Gbook為代表,核心是圍繞呼叫心中的導(dǎo)航等功能。
第二階段:前裝+后裝的“亂戰(zhàn)階段”,前裝淺嘗輒止,后裝見(jiàn)縫插針,一時(shí)間車(chē)聯(lián)網(wǎng)概念開(kāi)始廣泛傳播,但真正好用的產(chǎn)品不多。
第三階段:以阿里上汽合資為代表,車(chē)廠合資模式下的資源產(chǎn)品深度開(kāi)發(fā)和資源強(qiáng)強(qiáng)整合,開(kāi)始在實(shí)際使用層面落地一些好用的前裝車(chē)聯(lián)網(wǎng)產(chǎn)品和服務(wù)。
對(duì)應(yīng)來(lái)看,車(chē)載語(yǔ)音交互也經(jīng)歷過(guò)三個(gè)發(fā)展階段,如果用體驗(yàn)層面的關(guān)鍵詞來(lái)描述:
第一階段好像“吐字”:例如當(dāng)時(shí)出租車(chē)報(bào)價(jià)器中一個(gè)字一個(gè)字的播報(bào),是固定程序的單向輸出,并不是真正意義上的車(chē)在語(yǔ)音交互。
第二階段在于“識(shí)別”:用戶(hù)在這一階段可以進(jìn)行語(yǔ)音輸入,但總被一件事情困擾,系統(tǒng)常常“聽(tīng)不太清、聽(tīng)不太懂”。
第三階段則是“可用”:語(yǔ)音系統(tǒng)開(kāi)始聽(tīng)得清也聽(tīng)得懂,并且用戶(hù)能夠通過(guò)該系統(tǒng)體驗(yàn)一些服務(wù)。
不難看出,車(chē)載語(yǔ)音交互目前的發(fā)展階段與車(chē)聯(lián)網(wǎng)整體的發(fā)展階段處于平行位置,位于起步初期,從“可用”到“好用”的過(guò)程中。值得注意的是,和以往任何時(shí)間節(jié)點(diǎn)都不同,隨著人工智能相關(guān)技術(shù)的迅速發(fā)展、產(chǎn)業(yè)鏈資源的整合意愿增強(qiáng)、用戶(hù)行為習(xí)慣的逐步養(yǎng)成,車(chē)載語(yǔ)音交互體驗(yàn)正在進(jìn)入提升快車(chē)道。
量產(chǎn)車(chē)搭載語(yǔ)音交互產(chǎn)品的比例逐年提升
優(yōu)質(zhì)車(chē)載語(yǔ)音交互體驗(yàn)是怎樣的?
云之聲CEO黃偉曾和車(chē)云談起蘋(píng)果Siri,過(guò)去大家都把Siri想象語(yǔ)音助理,助理應(yīng)該什么都會(huì)做,什么都能做,但實(shí)際上它做的并不好,“希望用一個(gè)相對(duì)來(lái)說(shuō)有限的人工智能解決非常開(kāi)放的需求,這本身很難做到”。
但是,隨著時(shí)間的推移和技術(shù)的發(fā)展,用戶(hù)在車(chē)內(nèi)這一“相對(duì)比較封閉的開(kāi)放環(huán)境中的開(kāi)放需求”,將很快被滿(mǎn)足。在研發(fā)層面,各方考慮的早已不是如何讓系統(tǒng)更清晰的識(shí)別用戶(hù)的語(yǔ)音指令,而是如何更好的接受指令、更細(xì)的理解指令、更快的做出反饋。
更重要的是,越來(lái)越多的相關(guān)開(kāi)發(fā)者意識(shí)到,語(yǔ)音只是工具,需要連接相應(yīng)的服務(wù)和應(yīng)用。這些服務(wù)和應(yīng)用為語(yǔ)音而生,目的不是推給用戶(hù)一堆信息,讓用戶(hù)自己尋找答案,而是直接幫助用戶(hù)把事情辦成。
車(chē)內(nèi)語(yǔ)音系統(tǒng),正在成為一位真正的“助理”。一些實(shí)際的成果也正在落地。
去年底,科大訊飛發(fā)布智能車(chē)機(jī)系統(tǒng)——飛魚(yú)助理。該系統(tǒng)搭載的語(yǔ)音交互支持多輪對(duì)話(huà)和中途打斷,不用多次喚醒就能調(diào)用導(dǎo)航、音樂(lè)、撥打電話(huà)等功能??拼笥嶏w智能汽車(chē)事業(yè)部負(fù)責(zé)人劉俊峰向車(chē)云展示了兩個(gè)場(chǎng)景。
場(chǎng)景一、聯(lián)系上下文對(duì)話(huà)。
用戶(hù):“我想聽(tīng)甜蜜蜜”
系統(tǒng):請(qǐng)欣賞鄧麗君演唱的《甜蜜蜜》
用戶(hù):“試一試鹿晗唱的”
系統(tǒng):請(qǐng)欣賞鹿晗演唱的《甜蜜蜜》
用戶(hù):“我想聽(tīng)他和陶喆合唱的”
系統(tǒng):“請(qǐng)欣賞鹿晗陶喆的合唱歌曲《請(qǐng)到長(zhǎng)城來(lái)滑雪》”
場(chǎng)景二、語(yǔ)音糾錯(cuò)和隨時(shí)打斷。
用戶(hù):打電話(huà)給黃老師
系統(tǒng):好的,即將為您接通……(數(shù)秒等待后接通“訊飛黃老師”)
用戶(hù):(打斷)不對(duì),是黃昕黃老師
系統(tǒng):好的,即將為您接通黃昕(數(shù)秒等待后接通“黃昕”)
用戶(hù):確定
在車(chē)云看來(lái),上述場(chǎng)景相比現(xiàn)有車(chē)載語(yǔ)音產(chǎn)品而言,主要優(yōu)化點(diǎn)在于“接收信息+反饋信息”層面,這屬于產(chǎn)品優(yōu)化的第一層。
在進(jìn)一步的發(fā)展中,隨著基礎(chǔ)能力的提升,服務(wù)的整合能力將成為關(guān)鍵能力,車(chē)載語(yǔ)音系統(tǒng)不僅可以聽(tīng)懂、反饋,更可以“預(yù)判+執(zhí)行”。 語(yǔ)音交互只是手段,不是目的,交互的目的是為了讓機(jī)器更好地完成任務(wù)。
目前,在博泰集團(tuán)最新一代的車(chē)機(jī)產(chǎn)品中,基于周邊服務(wù)的整合,語(yǔ)音系統(tǒng)已經(jīng)可以開(kāi)始預(yù)判用戶(hù)的需求,并幫助用戶(hù)實(shí)現(xiàn)需求。具體而言,例如用戶(hù)語(yǔ)音搜索目的地電影院,那么系統(tǒng)除了快速?gòu)棾鲭娪霸和扑]、結(jié)合導(dǎo)航時(shí)間進(jìn)行場(chǎng)次推薦外,還能直接幫助訂票、選位。
再以一個(gè)場(chǎng)景舉例:
用戶(hù):“幫我找個(gè)新街口附近看電影的地方”
系統(tǒng):“為你找到如下影院……請(qǐng)問(wèn)要選哪一個(gè)?”
用戶(hù):“萬(wàn)達(dá)那個(gè)”
系統(tǒng):“即將導(dǎo)航至南京萬(wàn)達(dá)國(guó)際電影院……為你推薦近期的高分影片,《戰(zhàn)狼2》9.5分,萬(wàn)達(dá)國(guó)際電影院最近的場(chǎng)次17:10開(kāi)始,票價(jià)35元,根據(jù)當(dāng)前路況正好可以趕到,是否需要提前訂票選座?”
用戶(hù):“好的,我要最后一排中間的2個(gè)位置”
系統(tǒng):“該場(chǎng)次最后一排中間區(qū)域已滿(mǎn),更換為倒數(shù)第二排中間2個(gè)位置可以嗎?”
用戶(hù):“也行”
系統(tǒng):“支付成功,萬(wàn)達(dá)國(guó)際電影院4號(hào)廳9排6號(hào)與7號(hào),訂票信息與取票二維碼已發(fā)送至手機(jī),到達(dá)影院后可以用二維碼在自動(dòng)取票機(jī)上快速取票,祝你觀影愉快”
這當(dāng)然還不是全部。當(dāng)語(yǔ)音系統(tǒng)與汽車(chē)本身結(jié)合更緊密時(shí),還會(huì)帶來(lái)其他層面的想象力。例如用戶(hù)直接通過(guò)語(yǔ)音控制車(chē)輛,設(shè)定車(chē)內(nèi)空調(diào)的溫度、開(kāi)關(guān)天窗、啟動(dòng)汽車(chē)、開(kāi)關(guān)車(chē)門(mén)等等。當(dāng)然,這需要車(chē)企層面更高的開(kāi)放度。目前,大眾、福特、現(xiàn)代、寶馬等公司均已不同深度的嘗試引用亞馬遜Alexa語(yǔ)音服務(wù)運(yùn)用。
核心競(jìng)爭(zhēng)點(diǎn)在于數(shù)據(jù)和計(jì)算能力
上文提到了車(chē)載語(yǔ)音系統(tǒng)在未來(lái)不久能聽(tīng)懂,反饋,亦可以“預(yù)判+執(zhí)行”。那么一個(gè)問(wèn)題隨之而來(lái),想要做好這些,車(chē)載語(yǔ)音系統(tǒng)需要提升哪些核心能力?
車(chē)云將該問(wèn)題拋給了多位語(yǔ)音行業(yè)的專(zhuān)家,各方給出的結(jié)論比較一致——前期在于自然語(yǔ)言處理(NLP)+自然語(yǔ)言理解(NLU)引擎的能力,后期在于數(shù)據(jù)和計(jì)算能力+資源整合能力的提升。
更具體的說(shuō),NLP+ NLU引擎的搭建,能夠幫助系統(tǒng)聽(tīng)清并聽(tīng)懂大部分的語(yǔ)音,但語(yǔ)音太過(guò)復(fù)雜,同樣的句子甚至在不同的情景下都可以表達(dá)不同的意思,這就需要系統(tǒng)不斷的錄入數(shù)據(jù),自學(xué)習(xí),并擁有極強(qiáng)的計(jì)算能力以處理大數(shù)據(jù)。此外,就好像上文提及,語(yǔ)音交互只是手段,不是目的,交互的目的是為了機(jī)器更好地完成任務(wù),因此與亞馬遜Alexa平臺(tái)一樣,車(chē)載語(yǔ)音交互平臺(tái)同樣需要整合各種為語(yǔ)音而生的原生服務(wù)及應(yīng)用。
這讓車(chē)云想起阿里上汽打造榮威RX5的例子。阿里巴巴技術(shù)委員會(huì)主席王堅(jiān)曾告訴車(chē)云,實(shí)際上YunOS操作系統(tǒng)做的最成功的事情,是作為重要的載體和介質(zhì),把阿里云的計(jì)算能力帶上了車(chē),包括CPU的運(yùn)算能力,還包括存儲(chǔ)能力、傳感能力等等。這是最底層的能力,也是最重要的能力。
上汽與阿里的合作從效果上看非常成功。圖為:阿里巴巴董事局主席馬云(右)、上汽集團(tuán)董事長(zhǎng)陳虹(左)
事實(shí)上,王堅(jiān)在車(chē)載系統(tǒng)上的思考,和業(yè)內(nèi)現(xiàn)階段業(yè)內(nèi)在車(chē)載語(yǔ)音交互上的思考,異曲同工。
以博泰的思考為例。7月6日,博泰與百度達(dá)成合作,將在DuerOS開(kāi)放平臺(tái)、百度云,以及阿波羅計(jì)劃方面建立深度合作關(guān)系。博泰集團(tuán)創(chuàng)始人及董事長(zhǎng)應(yīng)宜倫明確表示,此次合作的一個(gè)關(guān)鍵點(diǎn),就在車(chē)載語(yǔ)音交互層面。
一方面,基于百度云的強(qiáng)計(jì)算能力,車(chē)載語(yǔ)音交互產(chǎn)品可以實(shí)現(xiàn)實(shí)時(shí)更改與聆聽(tīng),速度提升多倍。打個(gè)比方,如果此前是一臺(tái)計(jì)算機(jī)包辦“輸入、理解、輸出”工作,那么計(jì)算能力提升后,則是三臺(tái)計(jì)算機(jī),一臺(tái)“輸入”,一臺(tái)“理解”,一臺(tái)“輸出”,三臺(tái)平行處理。
另一方面,百度最寶貴的資源就是數(shù)據(jù),其中一些對(duì)于出行而言有很大價(jià)值,包括個(gè)人習(xí)慣和生活經(jīng)驗(yàn)等,如果將這些數(shù)據(jù)進(jìn)行結(jié)構(gòu)化,緩存到可以被快速調(diào)用的云端區(qū)域。假設(shè)用戶(hù)在車(chē)內(nèi)通過(guò)語(yǔ)音提出相關(guān)問(wèn)題,則這些數(shù)據(jù)便可實(shí)時(shí)發(fā)揮價(jià)值。這可以被定義為車(chē)載語(yǔ)音平臺(tái)聽(tīng)清、聽(tīng)懂后,直接解決問(wèn)題的能力。
過(guò)去常有人說(shuō),車(chē)載語(yǔ)音交互技術(shù)發(fā)展將會(huì)是一個(gè)緩慢發(fā)展過(guò)程?,F(xiàn)在看來(lái),至少這一進(jìn)程比預(yù)期來(lái)得要快。并且,隨著核心競(jìng)爭(zhēng)點(diǎn)的逐步轉(zhuǎn)移,聚焦在車(chē)載語(yǔ)音交互的領(lǐng)域,大玩家之間聯(lián)盟只會(huì)越來(lái)越緊密。