谷歌用AI合成語音：真人難以辨別瑕疵

時(shí)間：2017-12-29 11:49:53

關(guān)鍵字： 2 谷歌 tacotron 文字轉(zhuǎn)語音系統(tǒng)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]12月29日消息，谷歌本月推出了一款名為“Tacotron 2”的全新文字轉(zhuǎn)語音系統(tǒng)，它具有驚人的發(fā)音準(zhǔn)確性，且實(shí)際文本閱讀效果幾乎同真人聲音無法區(qū)分。

12月29日消息，谷歌本月推出了一款名為“Tacotron 2”的全新文字轉(zhuǎn)語音系統(tǒng)，它具有驚人的發(fā)音準(zhǔn)確性，且實(shí)際文本閱讀效果幾乎同真人聲音無法區(qū)分。

谷歌用AI合成語音(圖片來自baidu)

“Tacotron 2”其實(shí)已經(jīng)是谷歌的第二代類似技術(shù)，它由兩個(gè)深度神經(jīng)網(wǎng)絡(luò)組成。目前，該系統(tǒng)只進(jìn)行了英語女聲的訓(xùn)練(如要需要它發(fā)出男性聲音的話，谷歌則需要對(duì)其進(jìn)行重新“培訓(xùn)”)。

谷歌的研究人員表示，“Tacotron 2”完全可以準(zhǔn)確發(fā)音一些非常復(fù)雜的單詞和人名，并根據(jù)標(biāo)點(diǎn)符號(hào)的不同而有所區(qū)分，甚至能夠完美地講完一段繞口令。舉例來說，“Tacotron2”會(huì)默認(rèn)在讀到大寫單詞的時(shí)候加重語氣，也能夠處理少量的人為打字錯(cuò)誤。

“Tacotron 2”上所謂“語音合成技術(shù)”又稱文本轉(zhuǎn)語音(TTS)是如今很多移動(dòng)產(chǎn)品和應(yīng)用上不可或缺的技術(shù)模塊，例如語音交互應(yīng)用、導(dǎo)航、語音控制以及為視力障礙者設(shè)計(jì)的產(chǎn)品中都需要語音合成技術(shù)的支持。在此之前很長一段時(shí)間內(nèi)，語音合成技術(shù)都是采用拼接方式，需要記錄大量語料才能進(jìn)行語音合成。這樣的方法不僅前期需要處理大量數(shù)據(jù)，而且一旦說話人有所改變就需要重新記錄和處理，所以業(yè)界一直在尋找可以實(shí)時(shí)生成語音的方式。