安卓語音識別新后臺 神經(jīng)網(wǎng)絡(luò)或打破語言障礙
一提到 Android 最新版本 Jelly Bean ,我們可能會馬上想到“黃油計劃”。“黃油計劃”改變了人們對 Android 系統(tǒng)卡頓的看法,算是 Android 發(fā)展的一個里程碑。不過,Google 在開發(fā) Jelly Bean 時候還進行了另一項同樣重大工程,就是語音識別后端的改進?!哆B線》雜志對此進行了報道,并談到了神經(jīng)網(wǎng)絡(luò)的一些發(fā)展。
從 Jelly Bean 開始,Google 語音識別開始使用神經(jīng)網(wǎng)絡(luò)。這是一個像人腦一樣的學(xué)習(xí)系統(tǒng)。 Google 神經(jīng)網(wǎng)絡(luò)系統(tǒng),可能會讓你想起 1000 臺電腦找出一只貓的往事。那是 Google 進行的一場有趣試驗。Google 工程師 Jeff Dean 表示,Google 已經(jīng)神經(jīng)網(wǎng)絡(luò)的算法運用到了許多產(chǎn)品中,比如圖片搜索、Google 街景,而 Jelly Bean 的語音識別對于神經(jīng)網(wǎng)絡(luò)的運用最為凸顯。
推動這次改變的人是 Vicent Vanhoucke——Google 的研究科學(xué)家。他表示,成效是巨大的,“我們只是改變了模式,就取得了如此大的進步,這有些讓人驚奇”。他說,與以前的軟件版本相比,新的語音識別錯誤率降低了 25%,并使得人們更樂意使用語音命令了。
通過神經(jīng)網(wǎng)絡(luò),研究員們能夠分析大量的模型。關(guān)于語音識別上,他們需要分析語音的頻譜圖,并預(yù)測新的模型具有什么含義。神經(jīng)網(wǎng)絡(luò)是多層的,Google 的軟件首先會挑出語音的個別部分,即組成單詞的聲母和韻母,然后使用這些信息來進行復(fù)雜的猜測。神經(jīng)網(wǎng)絡(luò)不同的連接層增加了判斷的準(zhǔn)確率。
神經(jīng)網(wǎng)絡(luò)并非新鮮名詞,但是它的快速發(fā)展卻是近幾年的事情。多倫多大學(xué)的計算機科學(xué)教授 Geoffrey Hinton 說,多層分析非常困難,但從 2006 年開始,出現(xiàn)了兩個重要的改變。一是他和自己的團隊發(fā)現(xiàn)了繪制深層神經(jīng)網(wǎng)絡(luò)的更好方法,二是低價圖形處理器的出現(xiàn),研究人員可以更快更省錢地處理大量的計算。
除 Google 以外,微軟和 IBM 也在研究神經(jīng)網(wǎng)絡(luò)。去年,微軟的首席研究官 Rick Rahsid 展示了基于神經(jīng)網(wǎng)絡(luò)的語音處理軟件。在演示中,Rashid 說完一句英語后會停頓一下,微軟的軟件翻譯他的話,然后把中文播放給聽眾。那個軟件甚至能夠調(diào)整語調(diào),使翻譯后的語音聽起來像是 Rashid 的聲音。
Rashid 認為,這是一項非常有前途的技術(shù),“我希望在一些年后,我們能夠打破人們之間的語言障礙。個人來說,我覺得這會帶來一個更好的世界”。
在未來更好的世界里,你的上司很可能是一個機器人。