目前,人工智能的語言識別能力已經(jīng)有了飛躍。就像谷歌DeepMind,它的唇語識別”能力已經(jīng)超越人類,這項技能未來可幫助聽力障礙人士與他人進行溝通。
谷歌通過測試發(fā)現(xiàn),AI在語言理解能力方面又有了進步,可以更準確的讀懂唇語。同時,多語言神經(jīng)機器翻譯的翻譯質(zhì)量也有了顯著的提高。
谷歌母公司Alphabet下屬的DeepMind部門和牛津大學(xué)的研究者使用新聞視頻對其AI系統(tǒng)進行訓(xùn)練。用于訓(xùn)練的視頻總長超過5000小時,語句超過118,000句。視頻取材自BBC電視臺自2010年至2015年間播出的節(jié)目。訓(xùn)練完畢后,研究人員使用該系統(tǒng)對2016年3月~9月間播出的口語節(jié)目進行測試。測試結(jié)果發(fā)現(xiàn),系統(tǒng)通過“觀看”說話者嘴部動作便可以準確識別出整個句子。比如“我們知道這里也會有數(shù)百位記者”。(We know there will be hundreds of journalists here as well)
給予相同的視頻素材,專業(yè)的唇語識別專家能夠達到12.4%的正確率。而AI系統(tǒng)識別正確率是46.8%。
前不久谷歌開始在“谷歌翻譯”中運用神經(jīng)機器翻譯技術(shù),能夠識別準確地識別句子而不再僅僅是單詞翻譯?,F(xiàn)在谷歌宣稱使用多語言神經(jīng)機器翻譯技術(shù)后,谷歌翻譯的翻譯效果將再上一層樓。
谷歌在博客中稱:“我們提出的結(jié)構(gòu)無需改變基本的GNMT系統(tǒng),而是在開頭使用一個額外的‘token’來指定所需的目標語言翻譯。”除了能夠提高翻譯質(zhì)量,新的方法還支持“Zero-Shot Translation”,即在沒有已知數(shù)據(jù)的情況下,能夠?qū)]有見過的語言進行翻譯。
雖然這些研究成果產(chǎn)生實際影響還有待時日,但不得不說這些技術(shù)創(chuàng)舉讓人十分印象深刻。