安卓語音識(shí)別新后臺(tái) 神經(jīng)網(wǎng)絡(luò)或打破語言障礙
掃描二維碼
隨時(shí)隨地手機(jī)看文章
一提到 Android 最新版本 Jelly Bean ,我們可能會(huì)馬上想到“黃油計(jì)劃”。“黃油計(jì)劃”改變了人們對(duì) Android 系統(tǒng)卡頓的看法,算是 Android 發(fā)展的一個(gè)里程碑。不過,Google 在開發(fā) Jelly Bean 時(shí)候還進(jìn)行了另一項(xiàng)同樣重大工程,就是語音識(shí)別后端的改進(jìn)?!哆B線》雜志對(duì)此進(jìn)行了報(bào)道,并談到了神經(jīng)網(wǎng)絡(luò)的一些發(fā)展。
從 Jelly Bean 開始,Google 語音識(shí)別開始使用神經(jīng)網(wǎng)絡(luò)。這是一個(gè)像人腦一樣的學(xué)習(xí)系統(tǒng)。 Google 神經(jīng)網(wǎng)絡(luò)系統(tǒng),可能會(huì)讓你想起 1000 臺(tái)電腦找出一只貓的往事。那是 Google 進(jìn)行的一場有趣試驗(yàn)。Google 工程師 Jeff Dean 表示,Google 已經(jīng)神經(jīng)網(wǎng)絡(luò)的算法運(yùn)用到了許多產(chǎn)品中,比如圖片搜索、Google 街景,而 Jelly Bean 的語音識(shí)別對(duì)于神經(jīng)網(wǎng)絡(luò)的運(yùn)用最為凸顯。
推動(dòng)這次改變的人是 Vicent Vanhoucke——Google 的研究科學(xué)家。他表示,成效是巨大的,“我們只是改變了模式,就取得了如此大的進(jìn)步,這有些讓人驚奇”。他說,與以前的軟件版本相比,新的語音識(shí)別錯(cuò)誤率降低了 25%,并使得人們更樂意使用語音命令了。
通過神經(jīng)網(wǎng)絡(luò),研究員們能夠分析大量的模型。關(guān)于語音識(shí)別上,他們需要分析語音的頻譜圖,并預(yù)測新的模型具有什么含義。神經(jīng)網(wǎng)絡(luò)是多層的,Google 的軟件首先會(huì)挑出語音的個(gè)別部分,即組成單詞的聲母和韻母,然后使用這些信息來進(jìn)行復(fù)雜的猜測。神經(jīng)網(wǎng)絡(luò)不同的連接層增加了判斷的準(zhǔn)確率。
神經(jīng)網(wǎng)絡(luò)并非新鮮名詞,但是它的快速發(fā)展卻是近幾年的事情。多倫多大學(xué)的計(jì)算機(jī)科學(xué)教授 Geoffrey Hinton 說,多層分析非常困難,但從 2006 年開始,出現(xiàn)了兩個(gè)重要的改變。一是他和自己的團(tuán)隊(duì)發(fā)現(xiàn)了繪制深層神經(jīng)網(wǎng)絡(luò)的更好方法,二是低價(jià)圖形處理器的出現(xiàn),研究人員可以更快更省錢地處理大量的計(jì)算。
除 Google 以外,微軟和 IBM 也在研究神經(jīng)網(wǎng)絡(luò)。去年,微軟的首席研究官 Rick Rahsid 展示了基于神經(jīng)網(wǎng)絡(luò)的語音處理軟件。在演示中,Rashid 說完一句英語后會(huì)停頓一下,微軟的軟件翻譯他的話,然后把中文播放給聽眾。那個(gè)軟件甚至能夠調(diào)整語調(diào),使翻譯后的語音聽起來像是 Rashid 的聲音。
Rashid 認(rèn)為,這是一項(xiàng)非常有前途的技術(shù),“我希望在一些年后,我們能夠打破人們之間的語言障礙。個(gè)人來說,我覺得這會(huì)帶來一個(gè)更好的世界”。
在未來更好的世界里,你的上司很可能是一個(gè)機(jī)器人。