7月9日消息,據(jù)國外媒體報道,蘋果正在測試Dragon Dictation語音輸入功能的本地離線版本,在未來的iOS設備中將可能增加離線語音輸入功能。而在去年的谷歌I/O大會上,谷歌發(fā)布了Android4.1系統(tǒng),其中就增加了離線語音輸入功能。蘋果引入該項Android已有的功能,旨在讓iOS7生態(tài)系統(tǒng)更加完善。
Dragon Dictation是由著名的語音識別軟件公司Nuance開發(fā)的,適用于iPhone,iPad和 iPod touch用戶的一款語音識別應用軟件,能將用戶的語音轉換成文字。目前的DragonDictation在進行語音輸入時,iOS系統(tǒng)會利用軟件將語音上傳至云端,然后將其轉變成文本。這種方式需要互聯(lián)網(wǎng)連接且大多數(shù)情況下需要長時間載入,對用戶來說使用并不方便。
離線語音輸入功能將提高智能語音技術體驗
語音輸入需要流量,如果普通話不太標準也會受影響,同時還存在吵鬧環(huán)境中無法有效識別的問題。離線語音輸入功能引入iOS7,iOS設備將不需要網(wǎng)絡連接就可以直接處理和轉換語音,這將會大大加快語音輸入郵件、短信、筆記的速度。
業(yè)內(nèi)人士猜測,蘋果可能會將該技術從Dragon Dictation轉至Siri,從而使得該語音助手更加快速地回應特定請求。如果Dragon Dictation能和Siri相結合的話,將極大的提高Siri的響應速度和削弱對網(wǎng)絡的依賴,而使智能語音技術體驗大幅度提高。
智能語音技術與傳統(tǒng)的語音識別有所不同。傳統(tǒng)的語音識別是將用戶所說的語音正確的識別轉化為文本,比較有代表性的即為Google的Voice Search。而智能語音技術就是在傳統(tǒng)語音識別的基礎上更進一步,對進行了語義的理解,并根據(jù)用戶語音的意圖進行回答,讓機器像人一樣“能聽會說”的技術,它帶來了人機交互的根本性變革。
那么智能語音技術是如何做到語義識別的?
在如上圖所示的智能語音技術原理中,用戶語音首先被語音識別服務轉換為文字,發(fā)送至云端服務器對語音識別所獲得文字進行語義和語法的識別判斷,以“我想在辦公室附近找個浪漫點的地方吃意大利菜”為例,智能語音技術在獲得文本后,根據(jù)其語法模型進行語法分析,得出此為一個“主語+謂語+賓語+副詞”的句法結構。其中,主語為“我”,即用戶,“想找一個浪漫的地方”說明用戶希望找一個地方,此地方的特征是“浪漫”, “意大利菜”說明用戶的目的是吃飯,而且是意大利食品,并且用戶要求“辦公室附近”。
根據(jù)這些關鍵信息,智能語音技術按照算法,判斷用戶可能是在尋找一個在自己附近的浪漫的意大利餐廳。之后,利用服務提供商的搜索引擎搜索,并將結果的文字按照語法進行整合,形成回答。
智能語音技術日益重要 前景廣闊 多家公司進場PK
隨著智能終端、無線網(wǎng)絡的廣泛普及,在移動互聯(lián)網(wǎng)時代,智能語音技術的重要性日益顯現(xiàn)。
Strategy Analytics的統(tǒng)計表明,2012年,中國原始設備制造商(OEM)所提供的具備語音人機接口的信息娛樂和車載信息通信系統(tǒng)(telematics)的出貨量達到300萬臺,并預期在2018年達到2000萬臺。在北美和歐洲市場,帶語音交互功能的車載設備應用已很普及。
福特SYNC系統(tǒng),即專為手機和數(shù)字媒體播放器配備的福特車載多媒體通信娛樂系統(tǒng),是目前車載系統(tǒng)中采用語音交互技術的成功的案例。搭載SYNC系統(tǒng)后,配合汽車中控臺上的顯示屏,可通過語音控制、兼容并操控便攜式通信/娛樂設備等方式,讓駕駛者在開車過程中更輕松,便捷地實現(xiàn)諸如語音撥號、語音播出短信內(nèi)容、語音控制音樂播放等功能。
而汽車業(yè)之外,移動互聯(lián)網(wǎng)終端大概是目前最熱衷采用智能語音技術的一類產(chǎn)品了。2011年10月,蘋果率先推出了智能語音助理應用Siri,并在2012年6月發(fā)布的IOS6中支持中文服務;Google公司也在其安卓智能手機操作系統(tǒng)中推出了Google Now智能語音搜索及問答服務;微軟公司已經(jīng)利用DNNS(深度神經(jīng)網(wǎng)絡)改進語音識別系統(tǒng),將Windows Phone系統(tǒng)的語音識別引擎速度提高1倍,將詞匯錯誤率降低了15%。
除了智能語音識別,我們再來看看語音輸入法的歷史。語音輸入應用到手機上還是訊飛輸入法的首創(chuàng)。
2010年10月,訊飛語音云發(fā)布,并推出了訊飛語音輸入法Android平臺的第一個版本,拉開了移動互聯(lián)網(wǎng)語音應用熱潮的序幕;
2011年7月,谷歌在谷歌拼音輸入法(Android)中加入了中文語音輸入功能;
2012年5月,百度手機輸入法v3.0版本發(fā)布,新增了語音輸入功能;
2012年6月,蘋果召開新聞發(fā)布會,介紹最新的IOS 6中加入了中文語音輸入功能。
現(xiàn)在,幾乎每一家手機廠商都試圖將語音技術融于其移動產(chǎn)品、應用和服務中。這其中最主要的一個原因就是這類終端設備外型小巧,觸摸輸入很不方便,這種情況下,語音交互就變成了一種非常必要的人機溝通的補充方式。
語音識別需謹慎 范圍要界定好
去年10月,蘋果公司Siri中文版被爆“涉黃”,用戶可使用語音指令查詢到附近的“三陪”信息。蘋果公司在面對公眾壓力兩周之后做出反應,從搜索源頭屏蔽了相關內(nèi)容,使用戶無法搜再出“涉黃”信息。
“Tits &Glass”是Google Glass上首款色情應用,上線幾小時后就被下架,Google還專門為其修改了開發(fā)者政策,禁止 Google Glass應用出現(xiàn)成人內(nèi)容,但這款應用沒多久后在Google Glass上重新上架,只是用戶不再能直接分享圖片給你的Google+ 好友。而Google Glass在使用中一般只展示圖片和標題,大部分密集文字內(nèi)容都是通過智能語音朗讀來完成,這就對色情應用提供了土壤,使其可能被濫用。
語音識別功能雖然逐漸智能化人性化,但是發(fā)展范圍研發(fā)公司一定要做合理的限定,避免技術被濫用。