當前位置:首頁 > 芯聞號 > 充電吧
[導讀]語言的創(chuàng)造是人類的一個拐點,最初,語言是控制桿,它將我們的思想轉化為工具。后來,我們適應工具,把我們的表達轉化成TA的語言。今天,我們正在讓工具生命化,變成耳提面命的助手。這個漫長故事的核心在于:我們與

語言的創(chuàng)造是人類的一個拐點,最初,語言是控制桿,它將我們的思想轉化為工具。后來,我們適應工具,把我們的表達轉化成TA的語言。今天,我們正在讓工具生命化,變成耳提面命的助手。這個漫長故事的核心在于:我們與工具如何互動。蘋果iPhone 4S的發(fā)布著實讓Siri火了一把,人機交互的革命史又翻開了新的篇章,但是Siri并不完美,尤其對于國人來說,不支持中文是最大的不足,不過這也給其他廠商留下了機會,其中科大訊飛的語音技術最為搶眼,也使其成為了這場人機交互新革命有力的推動者之一。

前谷歌中國的高級研究員、《浪潮之巔》的作者吳軍老師在微博里半開玩笑半地說:“語音識別(在產品上)忽悠人從90年代開始,大約每十年一個周期,最后的結果相同,就是大家發(fā)現這是個玩具,而不是工具。第一波人長大了,走了,對科技不敏感了,第二波人當時還在上中小學,沒上過當,現在趕著來試一試。如此反復。不過我相信最后有一次不再是忽悠人,但是不是現在這一次?”

語音技術+移動終端=?

換個角度,在PC時代,為什么語音就從來沒有成為過主流的人機交互方式?

雖然代表性的產品如IBM的ViaVoice已經達到了很高的識別水平。中文識別的準確率達到了95%以上,還能識別多種方言,每分鐘輸入150字。但它并沒有能成為一款打動大眾消費者的產品。

中國最大的語音技術廠商科大訊飛,長期只能在一個幾十億規(guī)模的B2B市場里打拼。在機器合成語音市場,訊飛流暢、達到播音員水準的語音產品已經占到了70%以上的份額。今天大多數企業(yè)客戶服務中心的人工語音服務,都是采用科大訊飛的技術。

但這又怎樣?PC是一個固定的環(huán)境,人們早已經習慣了鍵盤+鼠標的交互方式。大多數人已經習慣于鍵盤打字而不是講話,因此,語音控制面臨Dvorak鍵盤布局同樣的應用障礙。當簡單的老式QWERTY鍵盤供貨充足并且工作的很好的時候,為什么要學習使用Dvorak鍵盤呢?

更要命的是,任何一款語音識別軟件都需要大量的訓練以便識別用戶的語音特征,來提高準確性。有多少人會天天對著一臺電腦喃喃自語呢?

語音技術更廣泛的普及需要兩件事情:更好更方便的應用和主要使用語音的生活場景。而移動互聯(lián)網的勃興正好滿足了這些條件:

第一, 智能終端屏幕較小,手指輸入的準確率和速度都要低于PC,這是移動互聯(lián)網必須要面對的物理局限。

第二, 移動互聯(lián)網終端有眾多的傳感器,就像人的感官,為人機交互和生活化應用創(chuàng)造了條件。

第三, 移動互聯(lián)網使得語音識別公司采集海量語料成為可能,通過應用可以讓交互更頻繁,加快機器學習速度,改進用戶體驗。

所以,當siri遇到iPhone,奇妙的化學作用發(fā)生了,一個沉寂幾十年的雞肋技術活了。

用戶到底要什么?

我老媽從來沒有理解過智能手機,她只會打電話,不會發(fā)短信,更不用說其它應用。直到我的安卓手機裝上了訊飛語音輸入法。當我對著手機說出“吃葡萄不吐皮”的繞口令,并發(fā)出短信之時,她拿著自己500塊錢的諾基亞問我:“我這個上面能用嗎?”

這就是用戶的需求,當然是最原始的那一種。

你如果看過好萊塢大導演斯皮爾伯格的電影《A I》,相信會對人工智能有一定了解,通過人工智能技術,機器人可以把“對話、自然語言理解、視覺、演說、機器學習、制定計劃、理性思考、服務代表全部融合到一起”。Siri的技術正源自人工智能。事實上,Siri讓我們看到了人機互動的一種全新可能。語言,從來都被看做是人類特有的技能,而一夕之間,一部手機擁有了這樣的能力,科幻變成現實的日子呼之欲出。

更重要的是,當機器有一天能夠真正理解人類的語言,并做出回應,世界打開了無限的想象空間。

說一個人名,手機就會從冗長的通訊錄中找到他;語音操控汽車、語音搜索地圖、語音尋找酒店;未來,在辦公室里對手機說一句話,家里的廚房就開始烹飪……

好吧,我承認我的想象力還不夠豐富。

“移動互聯(lián)網融入了人們的生活,人們可以在任何時間任何地點接入互聯(lián)網,也可以享受互聯(lián)網輔助的各種生活服務。在移動互聯(lián)網時代,互聯(lián)網服務和生活服務的界限在消失。”名叫采銅的專業(yè)人士在知乎網站上回答“Siri會不會是一個革命?”時認為:“在服務互聯(lián)網化的時代,語音將解放人們的雙手,降低了移動互聯(lián)網的使用門檻,讓輸入更便捷,服務效率更高,從而成為“移動互聯(lián)網發(fā)展的一個里程碑”。

下這樣的結論也許還為時略早。但看看中國大公司們的動作吧。騰訊在微信中推出語音消息、搜狐和新浪在微博中嵌入語音微博服務,百度發(fā)布語音搜素、大眾點評的語音訂餐……

這說明什么?只有一種可能:趨勢。

想想我們人類自己吧,我們能夠克服自己基因中的惰性嗎?

誰更懂中文?

我們有理由著迷于Siri,無論是因為調戲它的樂趣,還是因為對蘋果的崇拜。

但創(chuàng)新工廠的創(chuàng)始人李開復老師坦言:“分析蘋果Siri:1)語音識別夠精確,但語義理解困難,2)語義理解靠自然語言分析不夠,需要海量語料和反饋自動學習,3)Siri可用度不足,蘋果利用“調戲”獲取語料,學習后可提升可用度,4)防噪仍是問題,蘋果靠4S特殊硬件,5)應用結合困難,適合蘋果封閉系統(tǒng),6)用戶對助手有“人智慧”的過高期望。”

所以,新iPad上還只有語音輸入技術,沒有Siri。

更何況,我們還不得不面對一個繞不開的問題:它目前不會講中文。

不要忘記了那些美國互聯(lián)網巨頭在中國的失敗,亞馬遜、谷歌、Groupon,還有根本進不來的“非死不可”(Facebook)和推特。只有懂中國話,才有成功的可能,這是中國留給驕傲巨頭們的教訓,語言更是如此。

算算中文里僅一個“我”有多少種說法吧。這樣的段子在網上很容易找到。面對全世界最復雜的語言——中文,您相信一家美國公司能在短時間內攻克嗎?反正我是不信的。

Siri代表了語音交互技術的一個方向,但它不一定是中文語音識別的未來。

那么我們現在創(chuàng)業(yè)做一家中國的Siri怎么樣?創(chuàng)新工廠的李開復老師在微博上提出了四點質疑:1)智能手機主界面是手觸,語音助手解決了什么真正用戶需求和痛處?2)如何克服后臺海量數據學習技術門檻?全球只有一個公司有這個技術。3)應用誰開發(fā)?自己開發(fā)難擴張,用別人的應用整合不佳影響體驗,4)語音服務器和帶寬成本較大,如何克服?

你能接住他這又一盆冷水嗎?

“語音技術是一個典型的交叉科學,涉及到很多方面,不是說有錢就能做的,是有相當高的門檻。你可以去APP下載一個我們的軟件體驗一下”??拼笥嶏w副總江濤坦言。

作為A股上市公司,訊飛起家于商業(yè)應用。而更多普通人認識訊飛,還是從訊飛語音輸入法開始的。在沒有大規(guī)模推廣的情況下,安卓版訊飛輸入法的下載量已經突破千萬次,達到了與QQ輸入法、百度輸入法相同的數量級。在蘋果主導的iOS平臺上,用語音發(fā)短信的訊飛口訊也一直名列APP排行榜前列。

訊飛憑什么?

語音識別技術的核心競爭力在于識別率,這是毋庸置疑的事情。訊飛有效利用了自己在國內的先發(fā)優(yōu)勢,率先推出了語音云服務,將數據的上下行打通。在推出訊飛語音輸入法的同時,與騰訊、新浪、點評等第三方公司展開技術合作,積累了2500萬以上的用戶。

用戶體驗語音服務的最初動力是好玩兒,而非實用。Siri的調戲其實同樣意在快速擴充語音數據庫,提高機器識別率。據科大訊飛副總裁江濤介紹,在語音云推出的一年時間里,訊飛的系統(tǒng)識別率從60%提高到了85%,日常用語識別率超過95%。這也是移動互聯(lián)網帶來的改變。

科大訊飛目前通過兩種方式來培育語音識別業(yè)務,一是開發(fā)自身的產品訊飛口訊和訊飛語音輸入法,發(fā)展語音云、豐富數據庫,公司語音輸入法目前對標準普通話的識別正確率已提升到95%以上;二是向應用軟件開發(fā)商們開放語音云平臺接入,目前包括挖財在內的理財記賬軟件、凱立德在內的地圖軟件,都已內置了科大訊飛的語音識別功能。

經過一年半的低調完善,現在訊飛即將發(fā)布新的語音云系統(tǒng)。更重要的是,訊飛要免費打開自己的云接口,讓更多開發(fā)者來免費使用開發(fā)應用。本次發(fā)布的新系統(tǒng)加入了大量個性化服務,比如方言識別、注冊用戶的個性化語言識別等。

新一代的語音產品不可能僅僅滿足于簡單的搜索和語音識別。它能夠自主分析用戶發(fā)出的口語指令,并給出確切的回應和指導,完全不需要用戶預選學習使用方法。換句話說,它將是具有“人智慧”的語音助手。

從一家B2B的產品公司,到一家提供云服務的B2C產品公司,這是科大訊飛的一次質變。

回到李開復四問中的第二問,他也許錯了。世界上邁過了后臺海量數據學習技術門檻的公司并非只有一家。所以,有沒有必要去做一家中國的Siri其實是一個假問題,一定意義上說,Siri才是美國的訊飛(訊飛成立于1999年,而Siri不過是蘋果收購的產物)。

2012年,對TA說?


 

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或將催生出更大的獨角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據媒體報道,騰訊和網易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數據產業(yè)博覽會開幕式在貴陽舉行,華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數據產業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經營業(yè)績穩(wěn)中有升 落實提質增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數字經濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現場 NVI技術創(chuàng)新聯(lián)...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉