谷歌用AI合成語音:真人難以辨別瑕疵
掃描二維碼
隨時(shí)隨地手機(jī)看文章
12月29日消息,谷歌本月推出了一款名為“Tacotron 2”的全新文字轉(zhuǎn)語音系統(tǒng),它具有驚人的發(fā)音準(zhǔn)確性,且實(shí)際文本閱讀效果幾乎同真人聲音無法區(qū)分。
谷歌用AI合成語音(圖片來自baidu)
“Tacotron 2”其實(shí)已經(jīng)是谷歌的第二代類似技術(shù),它由兩個(gè)深度神經(jīng)網(wǎng)絡(luò)組成。目前,該系統(tǒng)只進(jìn)行了英語女聲的訓(xùn)練(如要需要它發(fā)出男性聲音的話,谷歌則需要對(duì)其進(jìn)行重新“培訓(xùn)”)。
谷歌的研究人員表示,“Tacotron 2”完全可以準(zhǔn)確發(fā)音一些非常復(fù)雜的單詞和人名,并根據(jù)標(biāo)點(diǎn)符號(hào)的不同而有所區(qū)分,甚至能夠完美地講完一段繞口令。舉例來說,“Tacotron2”會(huì)默認(rèn)在讀到大寫單詞的時(shí)候加重語氣,也能夠處理少量的人為打字錯(cuò)誤。
“Tacotron 2”上所謂“語音合成技術(shù)”又稱文本轉(zhuǎn)語音(TTS)是如今很多移動(dòng)產(chǎn)品和應(yīng)用上不可或缺的技術(shù)模塊,例如語音交互應(yīng)用、導(dǎo)航、語音控制以及為視力障礙者設(shè)計(jì)的產(chǎn)品中都需要語音合成技術(shù)的支持。在此之前很長一段時(shí)間內(nèi),語音合成技術(shù)都是采用拼接方式,需要記錄大量語料才能進(jìn)行語音合成。這樣的方法不僅前期需要處理大量數(shù)據(jù),而且一旦說話人有所改變就需要重新記錄和處理,所以業(yè)界一直在尋找可以實(shí)時(shí)生成語音的方式。