與大眾認知相反,英語其實并不是全球使用人數(shù)最多的語言,甚至連第二名都排不上。事實上,排在第一位的是漢語,第二是西班牙語,西日耳曼語排在第三位,接下來是印地語、阿拉伯語、葡萄牙語、孟加拉語和俄語。
更令人意想不到的是,Google Assistant、蘋果的 Siri、亞馬遜的 Alexa和微軟的 Cortana 雖然已經(jīng)無比強大,但其實只能識別這些語言當中相對較少的一部分。直到今年秋天,三星的Bixby才可以識別德語、法語、意大利語和西班牙語,而這些語言的全球使用總?cè)藬?shù)高達6.16億人。Cortana 更是花了好幾年時間才精通西班牙語、法語和葡萄牙語。
為什么識別新語言的進度如此緩慢?究其原因,主要還是訓練語音識別算法的技術進度緩慢,事實上,AI語音助手比我們表面看起來的要復雜得多。
為什么支持一門新語言如此艱難?
給語音助手添加語言支持是一個多管齊下的過程,這需要在語音識別和語音合成方面進行大量的研發(fā)。就語音識別而言,首先要將語音轉(zhuǎn)換成文本,接下來再進行自然語言處理。
如今,大多數(shù)語音識別系統(tǒng)都借助于深度神經(jīng)網(wǎng)絡(deep neural networks)來預測音素,或感知區(qū)分不同的聲音單位(例如,英語單詞 pad、pat 和 bad 中的 p、b和 d)。以前的自動語音識別(ASR)技術依賴于手工調(diào)整的統(tǒng)計模型來計算單詞組合在短語中出現(xiàn)的概率,而深度神經(jīng)網(wǎng)絡則不同,它可以將聲音(以分段譜圖或聲音頻率譜的表示形式)轉(zhuǎn)換成字符。這不僅降低了錯誤率,而且在很大程度上替代了人工監(jiān)督。
但是,只進行基礎的語言理解是不夠的。如果沒有本地化,語音助手就無法了解不同語言所承載的文化的特性。Next IT 首席技術創(chuàng)新官 Joe Dumoulin 在接受 Ars Technica 采訪時表示,為一門新語言構(gòu)建一個查詢理解模塊需要30至90天,具體時間取決于該模塊需要涵蓋多少意圖。即便是谷歌和亞馬遜推出的市場銷量領先的智能音箱,也很難聽懂帶有某些口音的語言。由 Vocalize.ai 進行的一項測試發(fā)現(xiàn),蘋果的 HomePod 和亞馬遜的 Echo 只能捕捉到78%的中文單詞,對英語和印度語的識別率則為94%。
不同語言的語法結(jié)構(gòu)差異很大。例如,在英語中,形容詞通常出現(xiàn)在名詞之前,副詞可以出現(xiàn)在名詞之前,也可以出現(xiàn)在名詞之后。如果有人說“starfish”并且讓語音助手來識別的話,很容易將“star”與“fish”理解為形容詞或單個名詞。語言里含有各種術語,語音助手必須能適應并學會辨別不同的習慣用語。
學一門語言已經(jīng)夠難了。亞馬遜 Alexa AI 部門的研究人員在2018年8月描述了實際使用中的一個典型問題。在與助手聊天過程中,用戶經(jīng)常在連續(xù)的問題中調(diào)用多個語音應用程序。這些應用程序需要重復調(diào)用變量—;—;例如“town”和“city”。如果有人問了方向,接著又問了一個關于餐館位置的問題,一個訓練有素的語音助手需要能夠弄清楚在回答這個問題時應該參考哪條線索。然后,語音助手在分析之后必須做出準確回應,其中的技術難度非常大。
各大語音助手支持的語言種類有哪些?
1. Google Assistant
今年1月,Google Assistant 新增了20多種語言,在各大語音助手中,它所能理解的語言數(shù)量位居榜首。目前,Google Assistant 已經(jīng)在80個國家的近30種語言中被廣泛使用,而在2017年,這一數(shù)字僅為8種語言和14個國家。其目前支持的語言包括:
阿拉伯語(埃及、沙特阿拉伯)、孟加拉語、中文(繁體)、丹麥語、荷蘭語、英語(澳大利亞、加拿大、印度、印度尼西亞、愛爾蘭、菲律賓、新加坡、泰國、英國、美國)、法語(加拿大、法國)、德語(奧地利、德國)、古吉拉特語、北印度語、印尼語、埃納德語、意大利語、日語、韓語、馬拉雅拉姆語、馬拉地語、挪威語、波蘭語、葡萄牙語(巴西)、俄語、西班牙語(阿根廷、智利、哥倫比亞、秘魯)、瑞典語、泰米爾語、泰盧固語、泰語、土耳其語、烏爾都語
2. 蘋果 Siri
直到今年1月,蘋果的 Siri 在支持語言的廣度方面一直領先于 Google Assistant。目前,它支持36個國家的21種語言,其中包括:
阿拉伯語、中文(普通話、上海話和廣東話)、丹麥語、荷蘭語、英語、芬蘭語、法語、德語、希伯來語、意大利語、日語、韓語、馬來語、挪威語、葡萄牙語、俄語、西班牙語、瑞典語、泰語、土耳其語
Siri在澳大利亞和英國也有獨特的本地化語音功能,畫外音藝術家 Karen Jacobsen 曾在澳大利亞語中提供臺詞和短語,前科技記者 Jon Briggs 則提供了他的聲音。
3.微軟 Cortana
Cortana于2013年4月在微軟的 Build developer 大會上首次亮相,后來又通過與亞馬遜的合作,在 Windows 10、耳機、智能揚聲器、Android、iOS、Xbox One,甚至 Alexa 上發(fā)布。Cortana 支持的語言可能不及谷歌 Assistant 和 Siri 那么多。盡管如此,六年來它已經(jīng)取得了長足的進步。以下是它能識別的語言:
中文(簡體)、英語(澳大利亞、加拿大、新西蘭、印度、英國、美國)、法語(加拿大、法國)、德語、意大利語、日語、葡萄牙語(巴西)、墨西哥語、西班牙語
和 Siri 一樣,Cortana 也進行了廣泛的本地化處理。
4.亞馬遜 Alexa
Alexa 可以在41個國家的150多種產(chǎn)品上使用,但它理解的語言是語音助手中最少的,包括:
英語(澳大利亞、加拿大、印度、英國和美國)、法語(加拿大、法國)、德語、日語、墨西哥語、西班牙語
公平地說,亞馬遜已經(jīng)煞費苦心地在新的地區(qū)進行本地化處理。Alexa 去年進入印度市場后,推出了一種“全新的英語語音”,能聽懂當?shù)匕l(fā)音,并能用當?shù)匕l(fā)音交談。
亞馬遜正在通過眾包的方式逐步擴展語言支持種類,有超過1萬名工程師正在研究其 NLP 協(xié)議棧的各種組件。去年,亞馬遜發(fā)布了一項名為“Cleo”的游戲化功能,用于獎勵那些用當?shù)卣Z言和方言(如普通話、印地語、泰米爾語、馬拉地語、卡納達語、孟加拉語、泰盧谷語和古吉拉特邦語)重復短語的用戶。
5.三星 Bixby
三星的 Bixby 內(nèi)置在三星的旗艦和中端 Galaxy 智能手機系列以及即將推出的 Galaxy 家庭智能揚聲器中。Bixby 在全球200個市場上都有銷售,但只支持這些國家的少數(shù)幾種語言:
英語、中文、德語、法語、意大利語、韓語、西班牙語
三星在歷史上曾因 NLP 技術不完善而受挫。《華爾街日報》在2017年3月報道稱,三星被迫推遲了英文版Bixby 的發(fā)布,因為 Bixby 無法理解某些語法。