智能語音識別大熱但需合理限定避免濫用[圖]

時間：2013-07-09 08:52:00

關鍵字：語音識別智能語音語音技術 GOOGLE

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]7月9日消息，據(jù)國外媒體報道，蘋果正在測試Dragon Dictation語音輸入功能的本地離線版本，在未來的iOS設備中將可能增加離線語音輸入功能。而在去年的谷歌I/O大會上，谷歌發(fā)布了Android4.1系統(tǒng)，其中就增加了離線語音

7月9日消息，據(jù)國外媒體報道，蘋果正在測試Dragon Dictation語音輸入功能的本地離線版本，在未來的iOS設備中將可能增加離線語音輸入功能。而在去年的谷歌I/O大會上，谷歌發(fā)布了Android4.1系統(tǒng)，其中就增加了離線語音輸入功能。蘋果引入該項Android已有的功能，旨在讓iOS7生態(tài)系統(tǒng)更加完善。

Dragon Dictation是由著名的語音識別軟件公司Nuance開發(fā)的，適用于iPhone，iPad和 iPod touch用戶的一款語音識別應用軟件，能將用戶的語音轉換成文字。目前的DragonDictation在進行語音輸入時，iOS系統(tǒng)會利用軟件將語音上傳至云端，然后將其轉變成文本。這種方式需要互聯(lián)網(wǎng)連接且大多數(shù)情況下需要長時間載入，對用戶來說使用并不方便。

離線語音輸入功能將提高智能語音技術體驗

語音輸入需要流量，如果普通話不太標準也會受影響，同時還存在吵鬧環(huán)境中無法有效識別的問題。離線語音輸入功能引入iOS7，iOS設備將不需要網(wǎng)絡連接就可以直接處理和轉換語音，這將會大大加快語音輸入郵件、短信、筆記的速度。

業(yè)內(nèi)人士猜測，蘋果可能會將該技術從Dragon Dictation轉至Siri，從而使得該語音助手更加快速地回應特定請求。如果Dragon Dictation能和Siri相結合的話，將極大的提高Siri的響應速度和削弱對網(wǎng)絡的依賴，而使智能語音技術體驗大幅度提高。

智能語音技術與傳統(tǒng)的語音識別有所不同。傳統(tǒng)的語音識別是將用戶所說的語音正確的識別轉化為文本，比較有代表性的即為Google的Voice Search。而智能語音技術就是在傳統(tǒng)語音識別的基礎上更進一步，對進行了語義的理解，并根據(jù)用戶語音的意圖進行回答，讓機器像人一樣“能聽會說”的技術，它帶來了人機交互的根本性變革。

那么智能語音技術是如何做到語義識別的？

在如上圖所示的智能語音技術原理中，用戶語音首先被語音識別服務轉換為文字，發(fā)送至云端服務器對語音識別所獲得文字進行語義和語法的識別判斷，以“我想在辦公室附近找個浪漫點的地方吃意大利菜”為例，智能語音技術在獲得文本后，根據(jù)其語法模型進行語法分析，得出此為一個“主語+謂語+賓語+副詞”的句法結構。其中，主語為“我”，即用戶，“想找一個浪漫的地方”說明用戶希望找一個地方，此地方的特征是“浪漫”, “意大利菜”說明用戶的目的是吃飯，而且是意大利食品，并且用戶要求“辦公室附近”。

根據(jù)這些關鍵信息，智能語音技術按照算法，判斷用戶可能是在尋找一個在自己附近的浪漫的意大利餐廳。之后，利用服務提供商的搜索引擎搜索，并將結果的文字按照語法進行整合，形成回答。

智能語音技術日益重要前景廣闊多家公司進場PK

隨著智能終端、無線網(wǎng)絡的廣泛普及，在移動互聯(lián)網(wǎng)時代，智能語音技術的重要性日益顯現(xiàn)。

Strategy Analytics的統(tǒng)計表明，2012年，中國原始設備制造商(OEM)所提供的具備語音人機接口的信息娛樂和車載信息通信系統(tǒng)(telematics)的出貨量達到300萬臺，并預期在2018年達到2000萬臺。在北美和歐洲市場，帶語音交互功能的車載設備應用已很普及。

福特SYNC系統(tǒng)，即專為手機和數(shù)字媒體播放器配備的福特車載多媒體通信娛樂系統(tǒng)，是目前車載系統(tǒng)中采用語音交互技術的成功的案例。搭載SYNC系統(tǒng)后，配合汽車中控臺上的顯示屏，可通過語音控制、兼容并操控便攜式通信/娛樂設備等方式，讓駕駛者在開車過程中更輕松，便捷地實現(xiàn)諸如語音撥號、語音播出短信內(nèi)容、語音控制音樂播放等功能。

而汽車業(yè)之外，移動互聯(lián)網(wǎng)終端大概是目前最熱衷采用智能語音技術的一類產(chǎn)品了。2011年10月，蘋果率先推出了智能語音助理應用Siri，并在2012年6月發(fā)布的IOS6中支持中文服務；Google公司也在其安卓智能手機操作系統(tǒng)中推出了Google Now智能語音搜索及問答服務；微軟公司已經(jīng)利用DNNS（深度神經(jīng)網(wǎng)絡）改進語音識別系統(tǒng)，將Windows Phone系統(tǒng)的語音識別引擎速度提高1倍，將詞匯錯誤率降低了15%。

除了智能語音識別，我們再來看看語音輸入法的歷史。語音輸入應用到手機上還是訊飛輸入法的首創(chuàng)。

2010年10月，訊飛語音云發(fā)布，并推出了訊飛語音輸入法Android平臺的第一個版本，拉開了移動互聯(lián)網(wǎng)語音應用熱潮的序幕；

2011年7月，谷歌在谷歌拼音輸入法(Android)中加入了中文語音輸入功能；

2012年5月，百度手機輸入法v3.0版本發(fā)布，新增了語音輸入功能；

2012年6月，蘋果召開新聞發(fā)布會，介紹最新的IOS 6中加入了中文語音輸入功能。

現(xiàn)在，幾乎每一家手機廠商都試圖將語音技術融于其移動產(chǎn)品、應用和服務中。這其中最主要的一個原因就是這類終端設備外型小巧，觸摸輸入很不方便，這種情況下，語音交互就變成了一種非常必要的人機溝通的補充方式。

語音識別需謹慎 范圍要界定好

去年10月，蘋果公司Siri中文版被爆“涉黃”，用戶可使用語音指令查詢到附近的“三陪”信息。蘋果公司在面對公眾壓力兩周之后做出反應，從搜索源頭屏蔽了相關內(nèi)容，使用戶無法搜再出“涉黃”信息。

“Tits &Glass”是Google Glass上首款色情應用，上線幾小時后就被下架，Google還專門為其修改了開發(fā)者政策，禁止 Google Glass應用出現(xiàn)成人內(nèi)容，但這款應用沒多久后在Google Glass上重新上架，只是用戶不再能直接分享圖片給你的Google+ 好友。而Google Glass在使用中一般只展示圖片和標題，大部分密集文字內(nèi)容都是通過智能語音朗讀來完成，這就對色情應用提供了土壤，使其可能被濫用。

語音識別功能雖然逐漸智能化人性化，但是發(fā)展范圍研發(fā)公司一定要做合理的限定，避免技術被濫用。