當(dāng)前位置:首頁(yè) > 嵌入式 > 嵌入式軟件
[導(dǎo)讀]語(yǔ)音:人機(jī)交互的新革命

語(yǔ)言的創(chuàng)造是人類(lèi)的一個(gè)拐點(diǎn),最初,語(yǔ)言是控制桿,它將我們的思想轉(zhuǎn)化為工具。后來(lái),我們適應(yīng)工具,把我們的表達(dá)轉(zhuǎn)化成TA的語(yǔ)言。今天,我們正在讓工具生命化,變成耳提面命的助手。這個(gè)漫長(zhǎng)故事的核心在于:我們與工具如何互動(dòng)。蘋(píng)果iPhone 4S的發(fā)布著實(shí)讓Siri火了一把,人機(jī)交互的革命史又翻開(kāi)了新的篇章,但是Siri并不完美,尤其對(duì)于國(guó)人來(lái)說(shuō),不支持中文是最大的不足,不過(guò)這也給其他廠(chǎng)商留下了機(jī)會(huì),其中科大訊飛的語(yǔ)音技術(shù)最為搶眼,也使其成為了這場(chǎng)人機(jī)交互新革命有力的推動(dòng)者之一。

前谷歌中國(guó)的高級(jí)研究員、《浪潮之巔》的作者吳軍老師在微博里半開(kāi)玩笑半地說(shuō):“語(yǔ)音識(shí)別(在產(chǎn)品上)忽悠人從90年代開(kāi)始,大約每十年一個(gè)周期,最后的結(jié)果相同,就是大家發(fā)現(xiàn)這是個(gè)玩具,而不是工具。第一波人長(zhǎng)大了,走了,對(duì)科技不敏感了,第二波人當(dāng)時(shí)還在上中小學(xué),沒(méi)上過(guò)當(dāng),現(xiàn)在趕著來(lái)試一試。如此反復(fù)。不過(guò)我相信最后有一次不再是忽悠人,但是不是現(xiàn)在這一次?”

語(yǔ)音技術(shù)+移動(dòng)終端=?

換個(gè)角度,在PC時(shí)代,為什么語(yǔ)音就從來(lái)沒(méi)有成為過(guò)主流的人機(jī)交互方式?

雖然代表性的產(chǎn)品如IBM的ViaVoice已經(jīng)達(dá)到了很高的識(shí)別水平。中文識(shí)別的準(zhǔn)確率達(dá)到了95%以上,還能識(shí)別多種方言,每分鐘輸入150字。但它并沒(méi)有能成為一款打動(dòng)大眾消費(fèi)者的產(chǎn)品。

中國(guó)最大的語(yǔ)音技術(shù)廠(chǎng)商科大訊飛,長(zhǎng)期只能在一個(gè)幾十億規(guī)模的B2B市場(chǎng)里打拼。在機(jī)器合成語(yǔ)音市場(chǎng),訊飛流暢、達(dá)到播音員水準(zhǔn)的語(yǔ)音產(chǎn)品已經(jīng)占到了70%以上的份額。今天大多數(shù)企業(yè)客戶(hù)服務(wù)中心的人工語(yǔ)音服務(wù),都是采用科大訊飛的技術(shù)。

但這又怎樣?PC是一個(gè)固定的環(huán)境,人們?cè)缫呀?jīng)習(xí)慣了鍵盤(pán)+鼠標(biāo)的交互方式。大多數(shù)人已經(jīng)習(xí)慣于鍵盤(pán)打字而不是講話(huà),因此,語(yǔ)音控制面臨Dvorak鍵盤(pán)布局同樣的應(yīng)用障礙。當(dāng)簡(jiǎn)單的老式QWERTY鍵盤(pán)供貨充足并且工作的很好的時(shí)候,為什么要學(xué)習(xí)使用Dvorak鍵盤(pán)呢?

更要命的是,任何一款語(yǔ)音識(shí)別軟件都需要大量的訓(xùn)練以便識(shí)別用戶(hù)的語(yǔ)音特征,來(lái)提高準(zhǔn)確性。有多少人會(huì)天天對(duì)著一臺(tái)電腦喃喃自語(yǔ)呢?

語(yǔ)音技術(shù)更廣泛的普及需要兩件事情:更好更方便的應(yīng)用和主要使用語(yǔ)音的生活場(chǎng)景。而移動(dòng)互聯(lián)網(wǎng)的勃興正好滿(mǎn)足了這些條件:

第一, 智能終端屏幕較小,手指輸入的準(zhǔn)確率和速度都要低于PC,這是移動(dòng)互聯(lián)網(wǎng)必須要面對(duì)的物理局限。

第二, 移動(dòng)互聯(lián)網(wǎng)終端有眾多的傳感器,就像人的感官,為人機(jī)交互和生活化應(yīng)用創(chuàng)造了條件。

第三, 移動(dòng)互聯(lián)網(wǎng)使得語(yǔ)音識(shí)別公司采集海量語(yǔ)料成為可能,通過(guò)應(yīng)用可以讓交互更頻繁,加快機(jī)器學(xué)習(xí)速度,改進(jìn)用戶(hù)體驗(yàn)。

所以,當(dāng)siri遇到iPhone,奇妙的化學(xué)作用發(fā)生了,一個(gè)沉寂幾十年的雞肋技術(shù)活了。

用戶(hù)到底要什么?

我老媽從來(lái)沒(méi)有理解過(guò)智能手機(jī),她只會(huì)打電話(huà),不會(huì)發(fā)短信,更不用說(shuō)其它應(yīng)用。直到我的安卓手機(jī)裝上了訊飛語(yǔ)音輸入法。當(dāng)我對(duì)著手機(jī)說(shuō)出“吃葡萄不吐皮”的繞口令,并發(fā)出短信之時(shí),她拿著自己500塊錢(qián)的諾基亞問(wèn)我:“我這個(gè)上面能用嗎?”

這就是用戶(hù)的需求,當(dāng)然是最原始的那一種。

你如果看過(guò)好萊塢大導(dǎo)演斯皮爾伯格的電影《A I》,相信會(huì)對(duì)人工智能有一定了解,通過(guò)人工智能技術(shù),機(jī)器人可以把“對(duì)話(huà)、自然語(yǔ)言理解、視覺(jué)、演說(shuō)、機(jī)器學(xué)習(xí)、制定計(jì)劃、理性思考、服務(wù)代表全部融合到一起”。Siri的技術(shù)正源自人工智能。事實(shí)上,Siri讓我們看到了人機(jī)互動(dòng)的一種全新可能。語(yǔ)言,從來(lái)都被看做是人類(lèi)特有的技能,而一夕之間,一部手機(jī)擁有了這樣的能力,科幻變成現(xiàn)實(shí)的日子呼之欲出。

更重要的是,當(dāng)機(jī)器有一天能夠真正理解人類(lèi)的語(yǔ)言,并做出回應(yīng),世界打開(kāi)了無(wú)限的想象空間。

說(shuō)一個(gè)人名,手機(jī)就會(huì)從冗長(zhǎng)的通訊錄中找到他;語(yǔ)音操控汽車(chē)、語(yǔ)音搜索地圖、語(yǔ)音尋找酒店;未來(lái),在辦公室里對(duì)手機(jī)說(shuō)一句話(huà),家里的廚房就開(kāi)始烹飪……

好吧,我承認(rèn)我的想象力還不夠豐富。

“移動(dòng)互聯(lián)網(wǎng)融入了人們的生活,人們可以在任何時(shí)間任何地點(diǎn)接入互聯(lián)網(wǎng),也可以享受互聯(lián)網(wǎng)輔助的各種生活服務(wù)。在移動(dòng)互聯(lián)網(wǎng)時(shí)代,互聯(lián)網(wǎng)服務(wù)和生活服務(wù)的界限在消失。”名叫采銅的專(zhuān)業(yè)人士在知乎網(wǎng)站上回答“Siri會(huì)不會(huì)是一個(gè)革命?”時(shí)認(rèn)為:“在服務(wù)互聯(lián)網(wǎng)化的時(shí)代,語(yǔ)音將解放人們的雙手,降低了移動(dòng)互聯(lián)網(wǎng)的使用門(mén)檻,讓輸入更便捷,服務(wù)效率更高,從而成為“移動(dòng)互聯(lián)網(wǎng)發(fā)展的一個(gè)里程碑”。

下這樣的結(jié)論也許還為時(shí)略早。但看看中國(guó)大公司們的動(dòng)作吧。騰訊在微信中推出語(yǔ)音消息、搜狐和新浪在微博中嵌入語(yǔ)音微博服務(wù),百度發(fā)布語(yǔ)音搜素、大眾點(diǎn)評(píng)的語(yǔ)音訂餐……

這說(shuō)明什么?只有一種可能:趨勢(shì)。

想想我們?nèi)祟?lèi)自己吧,我們能夠克服自己基因中的惰性嗎?

誰(shuí)更懂中文?

我們有理由著迷于Siri,無(wú)論是因?yàn)檎{(diào)戲它的樂(lè)趣,還是因?yàn)閷?duì)蘋(píng)果的崇拜。

但創(chuàng)新工廠(chǎng)的創(chuàng)始人李開(kāi)復(fù)老師坦言:“分析蘋(píng)果Siri:1)語(yǔ)音識(shí)別夠精確,但語(yǔ)義理解困難,2)語(yǔ)義理解靠自然語(yǔ)言分析不夠,需要海量語(yǔ)料和反饋?zhàn)詣?dòng)學(xué)習(xí),3)Siri可用度不足,蘋(píng)果利用“調(diào)戲”獲取語(yǔ)料,學(xué)習(xí)后可提升可用度,4)防噪仍是問(wèn)題,蘋(píng)果靠4S特殊硬件,5)應(yīng)用結(jié)合困難,適合蘋(píng)果封閉系統(tǒng),6)用戶(hù)對(duì)助手有“人智慧”的過(guò)高期望。”

所以,新iPad上還只有語(yǔ)音輸入技術(shù),沒(méi)有Siri。

更何況,我們還不得不面對(duì)一個(gè)繞不開(kāi)的問(wèn)題:它目前不會(huì)講中文。

不要忘記了那些美國(guó)互聯(lián)網(wǎng)巨頭在中國(guó)的失敗,亞馬遜、谷歌、Groupon,還有根本進(jìn)不來(lái)的“非死不可”(Facebook)和推特。只有懂中國(guó)話(huà),才有成功的可能,這是中國(guó)留給驕傲巨頭們的教訓(xùn),語(yǔ)言更是如此。

算算中文里僅一個(gè)“我”有多少種說(shuō)法吧。這樣的段子在網(wǎng)上很容易找到。面對(duì)全世界最復(fù)雜的語(yǔ)言——中文,您相信一家美國(guó)公司能在短時(shí)間內(nèi)攻克嗎?反正我是不信的。

Siri代表了語(yǔ)音交互技術(shù)的一個(gè)方向,但它不一定是中文語(yǔ)音識(shí)別的未來(lái)。

那么我們現(xiàn)在創(chuàng)業(yè)做一家中國(guó)的Siri怎么樣?創(chuàng)新工廠(chǎng)的李開(kāi)復(fù)老師在微博上提出了四點(diǎn)質(zhì)疑:1)智能手機(jī)主界面是手觸,語(yǔ)音助手解決了什么真正用戶(hù)需求和痛處?2)如何克服后臺(tái)海量數(shù)據(jù)學(xué)習(xí)技術(shù)門(mén)檻?全球只有一個(gè)公司有這個(gè)技術(shù)。3)應(yīng)用誰(shuí)開(kāi)發(fā)?自己開(kāi)發(fā)難擴(kuò)張,用別人的應(yīng)用整合不佳影響體驗(yàn),4)語(yǔ)音服務(wù)器和帶寬成本較大,如何克服?

你能接住他這又一盆冷水嗎?

“語(yǔ)音技術(shù)是一個(gè)典型的交叉科學(xué),涉及到很多方面,不是說(shuō)有錢(qián)就能做的,是有相當(dāng)高的門(mén)檻。你可以去APP下載一個(gè)我們的軟件體驗(yàn)一下”??拼笥嶏w副總江濤坦言。

作為A股上市公司,訊飛起家于商業(yè)應(yīng)用。而更多普通人認(rèn)識(shí)訊飛,還是從訊飛語(yǔ)音輸入法開(kāi)始的。在沒(méi)有大規(guī)模推廣的情況下,安卓版訊飛輸入法的下載量已經(jīng)突破千萬(wàn)次,達(dá)到了與QQ輸入法、百度輸入法相同的數(shù)量級(jí)。在蘋(píng)果主導(dǎo)的iOS平臺(tái)上,用語(yǔ)音發(fā)短信的訊飛口訊也一直名列APP排行榜前列。

訊飛憑什么?

語(yǔ)音識(shí)別技術(shù)的核心競(jìng)爭(zhēng)力在于識(shí)別率,這是毋庸置疑的事情。訊飛有效利用了自己在國(guó)內(nèi)的先發(fā)優(yōu)勢(shì),率先推出了語(yǔ)音云服務(wù),將數(shù)據(jù)的上下行打通。在推出訊飛語(yǔ)音輸入法的同時(shí),與騰訊、新浪、點(diǎn)評(píng)等第三方公司展開(kāi)技術(shù)合作,積累了2500萬(wàn)以上的用戶(hù)。

用戶(hù)體驗(yàn)語(yǔ)音服務(wù)的最初動(dòng)力是好玩兒,而非實(shí)用。Siri的調(diào)戲其實(shí)同樣意在快速擴(kuò)充語(yǔ)音數(shù)據(jù)庫(kù),提高機(jī)器識(shí)別率。據(jù)科大訊飛副總裁江濤介紹,在語(yǔ)音云推出的一年時(shí)間里,訊飛的系統(tǒng)識(shí)別率從60%提高到了85%,日常用語(yǔ)識(shí)別率超過(guò)95%。這也是移動(dòng)互聯(lián)網(wǎng)帶來(lái)的改變。

科大訊飛目前通過(guò)兩種方式來(lái)培育語(yǔ)音識(shí)別業(yè)務(wù),一是開(kāi)發(fā)自身的產(chǎn)品訊飛口訊和訊飛語(yǔ)音輸入法,發(fā)展語(yǔ)音云、豐富數(shù)據(jù)庫(kù),公司語(yǔ)音輸入法目前對(duì)標(biāo)準(zhǔn)普通話(huà)的識(shí)別正確率已提升到95%以上;二是向應(yīng)用軟件開(kāi)發(fā)商們開(kāi)放語(yǔ)音云平臺(tái)接入,目前包括挖財(cái)在內(nèi)的理財(cái)記賬軟件、凱立德在內(nèi)的地圖軟件,都已內(nèi)置了科大訊飛的語(yǔ)音識(shí)別功能。

經(jīng)過(guò)一年半的低調(diào)完善,現(xiàn)在訊飛即將發(fā)布新的語(yǔ)音云系統(tǒng)。更重要的是,訊飛要免費(fèi)打開(kāi)自己的云接口,讓更多開(kāi)發(fā)者來(lái)免費(fèi)使用開(kāi)發(fā)應(yīng)用。本次發(fā)布的新系統(tǒng)加入了大量個(gè)性化服務(wù),比如方言識(shí)別、注冊(cè)用戶(hù)的個(gè)性化語(yǔ)言識(shí)別等。

新一代的語(yǔ)音產(chǎn)品不可能僅僅滿(mǎn)足于簡(jiǎn)單的搜索和語(yǔ)音識(shí)別。它能夠自主分析用戶(hù)發(fā)出的口語(yǔ)指令,并給出確切的回應(yīng)和指導(dǎo),完全不需要用戶(hù)預(yù)選學(xué)習(xí)使用方法。換句話(huà)說(shuō),它將是具有“人智慧”的語(yǔ)音助手。

從一家B2B的產(chǎn)品公司,到一家提供云服務(wù)的B2C產(chǎn)品公司,這是科大訊飛的一次質(zhì)變。

回到李開(kāi)復(fù)四問(wèn)中的第二問(wèn),他也許錯(cuò)了。世界上邁過(guò)了后臺(tái)海量數(shù)據(jù)學(xué)習(xí)技術(shù)門(mén)檻的公司并非只有一家。所以,有沒(méi)有必要去做一家中國(guó)的Siri其實(shí)是一個(gè)假問(wèn)題,一定意義上說(shuō),Siri才是美國(guó)的訊飛(訊飛成立于1999年,而Siri不過(guò)是蘋(píng)果收購(gòu)的產(chǎn)物)。

2012年,對(duì)TA說(shuō)?


 

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀(guān)點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專(zhuān)欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車(chē)的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車(chē)技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車(chē)工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車(chē)。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車(chē) 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶(hù)希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱(chēng),數(shù)字世界的話(huà)語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱(chēng)"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉