不認(rèn)字也沒(méi)事兒,谷歌AI直接用音頻翻音頻
在我們的世界里,谷歌翻譯是這樣的:
一直被調(diào)戲的翻譯娘
在谷歌的世界里,谷歌翻譯是這樣的:
西語(yǔ)英語(yǔ):你不問(wèn),就不會(huì)知道了
請(qǐng)注意,視頻里的文字只是為了便于觀賞,才存在的。
而AI在翻譯語(yǔ)音的時(shí)候,不把西語(yǔ)的音頻轉(zhuǎn)成文本,也不生成任何英語(yǔ)的文本,直接產(chǎn)出了英文音頻。和標(biāo)答一字不差。
這是谷歌團(tuán)隊(duì)的最新成果,想法大膽而有效。
仿佛在雙語(yǔ)環(huán)境里出生的小朋友,還沒(méi)識(shí)字,就能把爸爸說(shuō)的話翻譯給媽媽。
怎么會(huì)不用看文本?
這個(gè)翻譯模型,名字叫做S2ST(全稱Speech-to-Speech Translation) 。
不看文本只靠聽(tīng),背后的原理是把一種語(yǔ)音的聲譜圖(Spectrogram) ,映射到另一種語(yǔ)音的聲譜圖上。
那么,聲譜圖什么樣?
下圖就是 (西語(yǔ)) “你好么,嘿,我是威廉,你怎么樣啊?”的聲譜圖。
橫軸是時(shí)間,縱軸是Mel頻率
然后是目標(biāo),英文的聲譜圖。
AI只要從大量的成對(duì)數(shù)據(jù)里,學(xué)懂英文和西語(yǔ)的聲譜映射關(guān)系,就算不識(shí)別人類說(shuō)的是什么字,依然能當(dāng)上翻譯員。
當(dāng)然,一個(gè)完整的翻譯模型,并沒(méi)有上面說(shuō)的這么簡(jiǎn)單,它由三個(gè)部分組成:
一是基于注意力的序列到序列 (seq2seq) 神經(jīng)網(wǎng)絡(luò)。就是下圖的藍(lán)色部分,它負(fù)責(zé)生成目標(biāo)聲譜圖,這只是第一步,還不是音頻;
二是一個(gè)聲碼器(Vocoder) 。下圖的紅色部分,它會(huì)把聲譜圖轉(zhuǎn)換成時(shí)域波形 (Time-Domain Waveforms) ,這已經(jīng)是帶有時(shí)間順序的正經(jīng)聲波了;
三是個(gè)可選的附加功能,原本說(shuō)話人的編碼器。綠色部分,經(jīng)過(guò)它的加工,翻譯出的英文,和原本的西語(yǔ),聽(tīng)上去就像同一個(gè)人發(fā)出來(lái)的。
當(dāng)然,藍(lán)色部分還是主角。
里面的編碼器 (左) ,是8層雙向LSTM堆起來(lái)的;而解碼器 (Spectrogram Decoder) ,團(tuán)隊(duì)說(shuō)要選4-6層LSTM的,深一點(diǎn)效果比較好。
成功了
模型是用人類自發(fā)的對(duì)話 (比如打電話的語(yǔ)音) 端到端訓(xùn)練出來(lái)的,一起來(lái)看看成果吧。
第一題,短語(yǔ)。“克蘭菲爾德大學(xué)的新員工”,翻譯和標(biāo)答一字不差。
原文:nuevos empleados de Cranfield University
標(biāo)答:New hires at Cranfield University
第二題,句子。“看看這個(gè)國(guó)家上下,你看到了什么”,依然和標(biāo)答一致。
原文:Por lo tanto, mirar alrededor del país y lo que ves.
標(biāo)答:So, look around the country and whatdoyou see?
對(duì)手表現(xiàn)怎樣?借助轉(zhuǎn)換文本來(lái)翻譯的AI,缺了個(gè)“do”字:
第三題,帶從句的句子。“我的表 (堂) 兄弟姐妹們小的時(shí)候,我照顧過(guò)他們也教過(guò)他們,有過(guò)一些這樣的經(jīng)歷。”
原文:Tengo cierta experiencia en cuidar y ense?ar a mis primos cuando eran jóvenes.
標(biāo)答:I’ve got some experience in looking after and teaching my cousins when they were young.
照顧(TakingCare of) 有缺失,其他部分對(duì)比標(biāo)答是完整的。
再看對(duì)手,“照顧 (Care) ”和“教 (Teach) ”都用了動(dòng)詞原形,語(yǔ)法不是很嚴(yán)格:
肉眼看過(guò)之后,再讓S2ST和先轉(zhuǎn)換文本再翻譯的AI對(duì)比一下BLEU分。
在“Conversational”大數(shù)據(jù)集上,S2ST的BLEU分比對(duì)手差了6分:42.7比48.7。
的確還有一些差距,但畢竟對(duì)手依靠了文本,算是開(kāi)卷考了。
這樣說(shuō)來(lái),直接跳過(guò)文本的想法,雖然聽(tīng)起來(lái)有些飄,但結(jié)果證明是可行的。
所以,谷歌團(tuán)隊(duì)說(shuō),大有可為啊。