當(dāng)前位置:首頁(yè) > 公眾號(hào)精選 > AI科技大本營(yíng)
[導(dǎo)讀]編譯?|禾木木出品|?AI科技大本營(yíng)(ID:rgznai100)語(yǔ)言交流是人類互動(dòng)一種自然的方式,隨著語(yǔ)音技術(shù)的發(fā)展,我們可以與設(shè)備以及未來的虛擬世界進(jìn)行互動(dòng),由此虛擬體驗(yàn)將于我們的現(xiàn)實(shí)世界融為一體。然而,語(yǔ)音技術(shù)僅適用于全世界數(shù)千種語(yǔ)言中的一小部分?;谟邢迾?biāo)記數(shù)據(jù)的少樣本學(xué)習(xí)...


編譯 | 禾木木出品 | AI科技大本營(yíng)(ID:rgznai100)語(yǔ)言交流是人類互動(dòng)一種自然的方式,隨著語(yǔ)音技術(shù)的發(fā)展,我們可以與設(shè)備以及未來的虛擬世界進(jìn)行互動(dòng),由此虛擬體驗(yàn)將于我們的現(xiàn)實(shí)世界融為一體。
然而,語(yǔ)音技術(shù)僅適用于全世界數(shù)千種語(yǔ)言中的一小部分。基于有限標(biāo)記數(shù)據(jù)的少樣本學(xué)習(xí),甚至無人監(jiān)督的語(yǔ)音識(shí)別是有幫助的,但這些方法的成功取決于自監(jiān)督模型的質(zhì)量。近日,Meta 正式發(fā)布 XLS-R ——一套用于各類語(yǔ)音任務(wù)的新型自監(jiān)督模型。XLS-R 由海量公共數(shù)據(jù)訓(xùn)練而成,能夠?qū)鹘y(tǒng)多語(yǔ)言模型的語(yǔ)言支持量增加兩倍以上。而 XLS-R 作為元宇宙社交中必不可少的一環(huán),可以幫助母語(yǔ)不同的人在元宇宙中直接對(duì)話。為了能夠通過單一模型實(shí)現(xiàn)對(duì)多種語(yǔ)言的理解,Meta 對(duì) XLS-R 進(jìn)行了微調(diào),使它能夠執(zhí)行語(yǔ)音識(shí)別、語(yǔ)音翻譯和語(yǔ)言識(shí)別等功能。XLS-R 在 BABEL、CommonVoice 以及 VoxPopuli 語(yǔ)音識(shí)別基準(zhǔn)測(cè)試,CoVoST-2 的外語(yǔ)到英文翻譯基準(zhǔn)測(cè)試,以及 VoxLingua107 語(yǔ)言識(shí)別基準(zhǔn)測(cè)試中都有了先進(jìn)的水平。為了進(jìn)一步使這些能夠被廣泛地訪問,Meta 與 Hugging Face 聯(lián)手發(fā)布了模型在 Github 上。https://huggingface.co/spaces/facebook/XLS-R-2B-22-16


XLS-R 工作原理


XLS-R 基于 wav2vec 2.0 訓(xùn)練集上接受了超過 436,000 小時(shí)的公開語(yǔ)音錄音訓(xùn)練,這是對(duì)語(yǔ)音表示進(jìn)行自監(jiān)督學(xué)習(xí)的方法。這樣的訓(xùn)練量已經(jīng)達(dá)到去年發(fā)布的最好的模型 XLSR-53 的 10 倍。利用從會(huì)議記錄到有聲讀物等不同來源的語(yǔ)音數(shù)據(jù),XLS-R 的語(yǔ)言已擴(kuò)展到 128 種,涵蓋的語(yǔ)言數(shù)量是錢袋模型的近2.5倍。Meta 在4種主要多語(yǔ)言語(yǔ)音識(shí)別測(cè)試中對(duì) XLS-R 做出評(píng)估,發(fā)現(xiàn)在測(cè)試的 37 種語(yǔ)言中,它的表現(xiàn)超越先前的模型工作;具體來說,在 BABEL 的 5 種語(yǔ)言、CommonVoice 的 10 種語(yǔ)言、MLS 的 8 種語(yǔ)言和 VoxPopuli 的 14 種語(yǔ)言上進(jìn)行了嘗試。BABEL 上的單詞錯(cuò)誤率基準(zhǔn)測(cè)試結(jié)果。XLS-R 較前代模型實(shí)現(xiàn)了顯著改進(jìn)。Meta 還評(píng)估了語(yǔ)音翻譯模型,將錄音直接翻譯成另一種語(yǔ)言。為了打造一套能夠執(zhí)行多種任務(wù)的模型, Meta 同時(shí)在 CoVoST-2 基準(zhǔn)測(cè)試的數(shù)個(gè)不同翻譯方向上對(duì) XLS-R 進(jìn)行了微調(diào)。最后結(jié)果是能夠在英語(yǔ)與多達(dá) 21 種語(yǔ)言之間實(shí)現(xiàn)內(nèi)容互譯。在使用 XLS-R 對(duì)英語(yǔ)以外的其他語(yǔ)言進(jìn)行編碼時(shí),獲得了顯著的改進(jìn),這也是多語(yǔ)言語(yǔ)音表達(dá)領(lǐng)域的一次突破。XLS-R 在低資源語(yǔ)言學(xué)習(xí)中實(shí)現(xiàn)了顯著改進(jìn),例如印尼語(yǔ)到英語(yǔ)的翻譯,其中 BLEU 準(zhǔn)確率平均翻了一番。BLEU 指標(biāo)的提升是指模型給出的自動(dòng)翻譯結(jié)果與處理同一內(nèi)容的人工翻譯結(jié)果間重合度更高,代表著模型在改進(jìn)口語(yǔ)翻譯能力方面邁出了一大步。以 BLEU 指標(biāo)衡量的自動(dòng)語(yǔ)音翻譯準(zhǔn)確率,其中較高值表示 XLS-R 從高資源語(yǔ)言(例如法語(yǔ)、德語(yǔ))、中資源語(yǔ)言(例如俄語(yǔ)、葡萄牙語(yǔ))或低資源語(yǔ)言(例如泰米爾語(yǔ)、土耳其語(yǔ))語(yǔ)音記錄翻譯至英語(yǔ)時(shí)的準(zhǔn)確率。



結(jié)語(yǔ)

XLS-R 表明,擴(kuò)展跨語(yǔ)言預(yù)訓(xùn)練可以進(jìn)一步提高低資源語(yǔ)言的性能。它不僅提高了語(yǔ)音識(shí)別的性能,還能將外語(yǔ)到英語(yǔ)的語(yǔ)音翻譯的準(zhǔn)確性提高了一倍以上。XLS-R 是朝著能夠理解多種不同語(yǔ)言單一模型邁出的重要一步,它是所知道的利用公共數(shù)據(jù)進(jìn)行多語(yǔ)言預(yù)訓(xùn)練的最大努力。Meta 相信這個(gè)方向?qū)⑹箼C(jī)器學(xué)習(xí)應(yīng)用程序更好地理解所有人類語(yǔ)音并促進(jìn)進(jìn)一步研究,使語(yǔ)音技術(shù)在全球范圍內(nèi)更容易使用,尤其是在服務(wù)欠缺的人群中。Meta 將通過不斷開發(fā)新方法來從較少的監(jiān)督中學(xué)習(xí),并將方法擴(kuò)展到全球 7,000 多種語(yǔ)言,實(shí)現(xiàn)算法的持續(xù)更新。參考鏈接:https://ai.facebook.com/blog/xls-r-self-supervised-speech-processing-for-128-languages/




本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

濟(jì)南2022年10月14日 /美通社/ -- 近日,浪潮新基建成功通過CMMI(軟件能力成熟度集成模型)三級(jí)認(rèn)證并正式獲得資質(zhì)證書。繼2021年組建后,僅一年時(shí)間就斬獲全球軟件領(lǐng)域最權(quán)威的認(rèn)證之一,標(biāo)志著浪潮新基建在技術(shù)...

關(guān)鍵字: 軟件 新基建 智慧城市 模型

北京2022年10月13日 /美通社/ -- 近日,中科寒武紀(jì)科技股份有限公司(以下簡(jiǎn)稱"寒武紀(jì)")的思元370系列智能加速卡與浪潮AIStation智能業(yè)務(wù)生產(chǎn)創(chuàng)新平臺(tái)完成兼容性適配認(rèn)證,...

關(guān)鍵字: STATION 加速卡 AI 模型

蘇州2022年10月13日 /美通社/ -- 北京時(shí)間2022年10月13日,開拓藥業(yè)(股票代碼:9939.HK),一家專注于潛在同類首創(chuàng)和同類最佳創(chuàng)新藥物研發(fā)及產(chǎn)業(yè)化的生物制藥公司,宣布其聯(lián)合美國(guó)德克薩斯大學(xué)...

關(guān)鍵字: 模型 LM EMI PD

(全球TMT2022年10月11日訊)近日,昆侖芯(北京)科技有限公司的第二代云端通用人工智能計(jì)算處理器昆侖芯2代AI芯片及AI加速卡與飛槳完成III級(jí)兼容性測(cè)試,兼容性表現(xiàn)良好。 產(chǎn)品兼容性證明 本次...

關(guān)鍵字: 人工智能 加速卡 處理器 模型

來見識(shí)下這位95后的手工大神。據(jù)媒體報(bào)道,山東青島一女生耗時(shí)一個(gè)月,使用10斤巧克力,復(fù)刻了《武林外傳》里的小院,堪稱神還原。女孩介紹,大大小小的物件超過200件,每一個(gè)小物件都是用巧克力、翻糖和糯米紙做的,模型長(zhǎng)度大概...

關(guān)鍵字: 模型

北京2022年9月27日 /美通社/ -- 近期,為助力中小企業(yè)創(chuàng)新發(fā)展,承接"828 B2B企業(yè)節(jié)"成就好生意,成為好企業(yè)的愿景。軟通動(dòng)力著力打造了"917轉(zhuǎn)型"企動(dòng)日主題峰會(huì),會(huì)上發(fā)布了一系列新品和解決方案,面向多個(gè)...

關(guān)鍵字: DM 數(shù)字化 大數(shù)據(jù) 模型

濟(jì)南2022年9月23日 /美通社/ -- 近日,浪潮城市信息模型( CIM)基礎(chǔ)平臺(tái)V1.0正式發(fā)布。該產(chǎn)品綜合應(yīng)用數(shù)字孿生、物聯(lián)網(wǎng)、5G、區(qū)塊鏈、大數(shù)據(jù)等技術(shù),實(shí)現(xiàn)城市治理各環(huán)節(jié)全程管控、智能協(xié)同,強(qiáng)化城市...

關(guān)鍵字: 模型 智慧城市 指揮調(diào)度 BSP

(全球TMT2022年9月23日訊)近日,浪潮城市信息模型(CIM)基礎(chǔ)平臺(tái)V1.0正式發(fā)布。該產(chǎn)品綜合應(yīng)用數(shù)字孿生、物聯(lián)網(wǎng)、5G、區(qū)塊鏈、大數(shù)據(jù)等技術(shù),實(shí)現(xiàn)城市治理各環(huán)節(jié)全程管控、智能協(xié)同,強(qiáng)化城市全生命周期管理,助...

關(guān)鍵字: 模型 編碼 大數(shù)據(jù) 區(qū)塊鏈

深圳2022年9月16日 /美通社/ -- 針對(duì)聯(lián)邦學(xué)習(xí)全局模型的版權(quán)保護(hù)問題,微眾銀行AI團(tuán)隊(duì)聯(lián)合上海交通大學(xué)在人工智能學(xué)術(shù)期刊《IEEE模式分析與機(jī)器智能匯刊》(IEEE T-PAMI,IEEE Trans...

關(guān)鍵字: 模型 IP 神經(jīng)網(wǎng)絡(luò) IEEE

上海2022年9月6日 /美通社/ -- 9月3日上午,《"東數(shù)西算"戰(zhàn)略下綠色智算中心產(chǎn)業(yè)發(fā)展研究報(bào)告》重磅發(fā)布。該報(bào)告由國(guó)家信息中心與燧原科技深度合作,聯(lián)合慶陽(yáng)市人民政府、之江實(shí)驗(yàn)室、中國(guó)能建共同...

關(guān)鍵字: 數(shù)字經(jīng)濟(jì) 安防 模型 編寫

AI科技大本營(yíng)

113 篇文章

關(guān)注

發(fā)布文章

編輯精選

技術(shù)子站

關(guān)閉