安卓語音識別新后臺出世 神經(jīng)網(wǎng)絡或打破語言障礙
一提到 Android 最新版本 Jelly Bean ,我們可能會馬上想到“黃油計劃”。“黃油計劃”改變了人們對 Android 系統(tǒng)卡頓的看法,算是 Android 發(fā)展的一個里程碑。不過,Google 在開發(fā) Jelly Bean 時候還進行了另一項同樣重大工程,就是語音識別后端的改進?!哆B線》雜志對此進行了報道,并談到了神經(jīng)網(wǎng)絡的一些發(fā)展。
安卓語音識別新后臺出世 神經(jīng)網(wǎng)絡或打破語言障礙" width="400" height="233" />
從 Jelly Bean 開始,Google 語音識別開始使用神經(jīng)網(wǎng)絡。這是一個像人腦一樣的學習系統(tǒng)。 Google 神經(jīng)網(wǎng)絡系統(tǒng),可能會讓你想起 1000 臺電腦找出一只貓的往事。那是 Google 進行的一場有趣試驗。Google 工程師 Jeff Dean 表示,Google 已經(jīng)神經(jīng)網(wǎng)絡的算法運用到了許多產品中,比如圖片搜索、Google 街景,而 Jelly Bean 的語音識別對于神經(jīng)網(wǎng)絡的運用最為凸顯。
推動這次改變的人是 Vicent Vanhoucke——Google 的研究科學家。他表示,成效是巨大的,“我們只是改變了模式,就取得了如此大的進步,這有些讓人驚奇”。他說,與以前的軟件版本相比,新的語音識別錯誤率降低了 25%,并使得人們更樂意使用語音命令了。
通過神經(jīng)網(wǎng)絡,研究員們能夠分析大量的模型。關于語音識別上,他們需要分析語音的頻譜圖,并預測新的模型具有什么含義。神經(jīng)網(wǎng)絡是多層的,Google 的軟件首先會挑出語音的個別部分,即組成單詞的聲母和韻母,然后使用這些信息來進行復雜的猜測。神經(jīng)網(wǎng)絡不同的連接層增加了判斷的準確率。
神經(jīng)網(wǎng)絡并非新鮮名詞,但是它的快速發(fā)展卻是近幾年的事情。多倫多大學的計算機科學教授 Geoffrey Hinton 說,多層分析非常困難,但從 2006 年開始,出現(xiàn)了兩個重要的改變。一是他和自己的團隊發(fā)現(xiàn)了繪制深層神經(jīng)網(wǎng)絡的更好方法,二是低價圖形處理器的出現(xiàn),研究人員可以更快更省錢地處理大量的計算。
除 Google 以外,微軟和 IBM 也在研究神經(jīng)網(wǎng)絡。去年,微軟的首席研究官 Rick Rahsid 展示了基于神經(jīng)網(wǎng)絡的語音處理軟件。在演示中,Rashid 說完一句英語后會停頓一下,微軟的軟件翻譯他的話,然后把中文播放給聽眾。那個軟件甚至能夠調整語調,使翻譯后的語音聽起來像是 Rashid 的聲音。
Rashid 認為,這是一項非常有前途的技術,“我希望在一些年后,我們能夠打破人們之間的語言障礙。個人來說,我覺得這會帶來一個更好的世界”。
在未來更好的世界里,你的上司很可能是一個機器人。