當(dāng)前位置:首頁(yè) > 智能硬件 > 智能硬件
[導(dǎo)讀]而AI在翻譯語(yǔ)音的時(shí)候,不把西語(yǔ)的音頻轉(zhuǎn)成文本,也不生成任何英語(yǔ)的文本,直接產(chǎn)出了英文音頻。和標(biāo)答一字不差。

在我們的世界里,谷歌翻譯是這樣的:

一直被調(diào)戲的翻譯娘

在谷歌的世界里,谷歌翻譯是這樣的:

西語(yǔ)英語(yǔ):你不問(wèn),就不會(huì)知道了

請(qǐng)注意,視頻里的文字只是為了便于觀賞,才存在的。

而AI在翻譯語(yǔ)音的時(shí)候,不把西語(yǔ)的音頻轉(zhuǎn)成文本,也不生成任何英語(yǔ)的文本,直接產(chǎn)出了英文音頻。和標(biāo)答一字不差。

這是谷歌團(tuán)隊(duì)的最新成果,想法大膽而有效。

 

 

仿佛在雙語(yǔ)環(huán)境里出生的小朋友,還沒(méi)識(shí)字,就能把爸爸說(shuō)的話翻譯給媽媽。

怎么會(huì)不用看文本?

這個(gè)翻譯模型,名字叫做S2ST(全稱Speech-to-Speech Translation) 。

不看文本只靠聽(tīng),背后的原理是把一種語(yǔ)音的聲譜圖(Spectrogram) ,映射到另一種語(yǔ)音的聲譜圖上。

那么,聲譜圖什么樣?

下圖就是 (西語(yǔ)) “你好么,嘿,我是威廉,你怎么樣啊?”的聲譜圖。

橫軸是時(shí)間,縱軸是Mel頻率

然后是目標(biāo),英文的聲譜圖。

AI只要從大量的成對(duì)數(shù)據(jù)里,學(xué)懂英文和西語(yǔ)的聲譜映射關(guān)系,就算不識(shí)別人類說(shuō)的是什么字,依然能當(dāng)上翻譯員。

當(dāng)然,一個(gè)完整的翻譯模型,并沒(méi)有上面說(shuō)的這么簡(jiǎn)單,它由三個(gè)部分組成:

一是基于注意力的序列到序列 (seq2seq) 神經(jīng)網(wǎng)絡(luò)。就是下圖的藍(lán)色部分,它負(fù)責(zé)生成目標(biāo)聲譜圖,這只是第一步,還不是音頻;

二是一個(gè)聲碼器(Vocoder) 。下圖的紅色部分,它會(huì)把聲譜圖轉(zhuǎn)換成時(shí)域波形 (Time-Domain Waveforms) ,這已經(jīng)是帶有時(shí)間順序的正經(jīng)聲波了;

三是個(gè)可選的附加功能,原本說(shuō)話人的編碼器。綠色部分,經(jīng)過(guò)它的加工,翻譯出的英文,和原本的西語(yǔ),聽(tīng)上去就像同一個(gè)人發(fā)出來(lái)的。

 

 

當(dāng)然,藍(lán)色部分還是主角。

里面的編碼器 (左) ,是8層雙向LSTM堆起來(lái)的;而解碼器 (Spectrogram Decoder) ,團(tuán)隊(duì)說(shuō)要選4-6層LSTM的,深一點(diǎn)效果比較好。

成功了

模型是用人類自發(fā)的對(duì)話 (比如打電話的語(yǔ)音) 端到端訓(xùn)練出來(lái)的,一起來(lái)看看成果吧。

第一題,短語(yǔ)。“克蘭菲爾德大學(xué)的新員工”,翻譯和標(biāo)答一字不差。

原文:nuevos empleados de Cranfield University

標(biāo)答:New hires at Cranfield University

第二題,句子。“看看這個(gè)國(guó)家上下,你看到了什么”,依然和標(biāo)答一致。

原文:Por lo tanto, mirar alrededor del país y lo que ves.

標(biāo)答:So, look around the country and whatdoyou see?

對(duì)手表現(xiàn)怎樣?借助轉(zhuǎn)換文本來(lái)翻譯的AI,缺了個(gè)“do”字:

 

 

第三題,帶從句的句子。“我的表 (堂) 兄弟姐妹們小的時(shí)候,我照顧過(guò)他們也教過(guò)他們,有過(guò)一些這樣的經(jīng)歷。”

原文:Tengo cierta experiencia en cuidar y ense?ar a mis primos cuando eran jóvenes.

標(biāo)答:I’ve got some experience in looking after and teaching my cousins when they were young.

照顧(TakingCare of) 有缺失,其他部分對(duì)比標(biāo)答是完整的。

再看對(duì)手,“照顧 (Care) ”和“教 (Teach) ”都用了動(dòng)詞原形,語(yǔ)法不是很嚴(yán)格:

 

 

肉眼看過(guò)之后,再讓S2ST和先轉(zhuǎn)換文本再翻譯的AI對(duì)比一下BLEU分。

在“Conversational”大數(shù)據(jù)集上,S2ST的BLEU分比對(duì)手差了6分:42.7比48.7。

 

 

的確還有一些差距,但畢竟對(duì)手依靠了文本,算是開(kāi)卷考了。

這樣說(shuō)來(lái),直接跳過(guò)文本的想法,雖然聽(tīng)起來(lái)有些飄,但結(jié)果證明是可行的。

所以,谷歌團(tuán)隊(duì)說(shuō),大有可為啊。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉