當前位置:首頁 > 智能硬件 > 人工智能AI
[導讀] 據(jù)連線雜志報道,知名語音識別公司科大訊飛卷入的“AI同傳造假”風波依然還在發(fā)酵,引發(fā)了人們關(guān)于AI實時翻譯技術(shù)的更多關(guān)注。不久前,谷歌悄悄改變了Pixel Buds耳機的支持頁面,并寫道:“所有

據(jù)連線雜志報道,知名語音識別公司科大訊飛卷入的“AI同傳造假”風波依然還在發(fā)酵,引發(fā)了人們關(guān)于AI實時翻譯技術(shù)的更多關(guān)注。不久前,谷歌悄悄改變了Pixel Buds耳機的支持頁面,并寫道:“所有經(jīng)過Google Assistant優(yōu)化的耳機和安卓手機,現(xiàn)在都可以使用谷歌翻譯。”此前,這一功能僅限于Pixel Buds耳機和Pixel手機用戶。盡管谷歌并未大張旗鼓地宣布這個消息,但這個小小的調(diào)整卻值得注意。

要知道其中原因,首先我們來了解下谷歌耳機的歷史。谷歌去年推出了無線耳機Pixel Buds,此前該公司曾大肆宣傳過這款產(chǎn)品,稱其是一款革命性的工具,支持實時翻譯功能。只要輕敲Pixel Buds,說“幫我說”,它就會打開你手機上的谷歌翻譯應(yīng)用。現(xiàn)在,Pixel手機也同樣支持這個功能。

接著,你可以說出句子,谷歌翻譯會在手機上將其翻譯成目標語言,并進行轉(zhuǎn)錄,然后讀出來。理論上,谷歌的新技術(shù)甚至會讓口譯翻譯們擔心丟掉工作。這款產(chǎn)品在舞臺上的實時翻譯演示獲得了巨大成功,但當其開始發(fā)貨時,人們對其似乎產(chǎn)生了懷疑:翻譯的質(zhì)量沒有達到公眾的預(yù)期。

科技網(wǎng)站Tech Insider用十種不同的語言對實時翻譯功能進行了測試。它成功地翻譯了些基本問題,比如“最近的醫(yī)院在哪里”,但當句子變得更復(fù)雜,或者說話人有口音時,翻譯就會出現(xiàn)錯誤。評論員們得出的結(jié)論是,實時翻譯似乎有點兒“欺騙嫌疑”,Google Assistant需要努力理解對它說出的話。

消費技術(shù)資深分析師丹尼爾·格里森(Daniel Gleeson)說:“掌握自然語言是非常困難的。對于谷歌來說,這將是個巨大的成就,而他們實現(xiàn)這個目標的那一天,可以自豪地大聲說出來?!被蛟S有些人可能會說,這可能也是Pixel Buds支持頁面更新的信息被隱藏起來的原因。

谷歌的問題不在于翻譯過程本身,事實上,該公司在過去幾年始終在提升其翻譯應(yīng)用水平。2016年,谷歌將其谷歌翻譯轉(zhuǎn)換為基于深度學習的人工智能(AI)驅(qū)動系統(tǒng)。在此之前,該工具將每個單獨的單詞分別翻譯,并應(yīng)用語言學規(guī)則使句子在語法上保持正確,從而導致了我們非常熟悉的、支離破碎的翻譯效果。另一方面,神經(jīng)網(wǎng)絡(luò)則將句子作為一個整體來考慮,并根據(jù)之前訓練過的大量文本數(shù)據(jù)來猜測正確的輸出結(jié)果。通過機器學習,這些系統(tǒng)能夠考慮句子的上下文,從而提供更準確的翻譯。

整合機器學習是Google Brain團隊的任務(wù),該團隊是谷歌專門致力于深度學習研發(fā)的部門。Google Brain還將神經(jīng)網(wǎng)絡(luò)應(yīng)用到另一個工具上,這是實時翻譯的關(guān)鍵,但這似乎也導致其容易在語音識別上犯錯。實際上,Google Assistant經(jīng)過了數(shù)小時的語音培訓,它會使用機器學習工具來識別模式,并最終正確地識別出被要求翻譯的內(nèi)容。

那么,如果谷歌在某種程度上成功地將神經(jīng)網(wǎng)絡(luò)應(yīng)用到文本-文本的翻譯中,為什么Google Assistant仍然不能使用相同的技術(shù)精準地進行語音識別呢?劍橋大學自然語言處理研究人員馬西基·霍瓦特(Matic Horvat)說,這一切都歸結(jié)于用來訓練神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)集。

霍瓦特說:“系統(tǒng)能夠適應(yīng)它們所得到的訓練數(shù)據(jù)集。當你把它介紹給它從未聽過的東西時,語音識別的質(zhì)量就會下降。例如,如果你的訓練數(shù)據(jù)集是會話語音,那么在繁忙的環(huán)境中識別語音效果就不會太好?!?/p>

干擾是任何致力于提高語音識別技術(shù)的計算機科學家的克星。去年,谷歌通過其數(shù)字新聞創(chuàng)新基金會向倫敦初創(chuàng)企業(yè)Trint投資1.5億歐元,該公司在自動語音轉(zhuǎn)錄方面處于領(lǐng)先地位,盡管其算法與谷歌不同。然而,Trint的算法在處理基本的干擾問題上并沒有表現(xiàn)得更好。

事實上,Trint的公司網(wǎng)站專門用了長長的篇幅來介紹如何在安靜環(huán)境中記錄演講內(nèi)容。該公司聲稱,其操作存在5%至10%的誤差,但它明確表示,這適用于安靜環(huán)境的錄音。Trint首席執(zhí)行官杰夫·科夫曼(Jeff Kofman)說:“最大的挑戰(zhàn)是向我們的用戶解釋,我們的表現(xiàn)只能和他們給我們的音頻一樣好。在有回聲、噪音甚至重音的情況下,算法就會出錯?!?/p>

現(xiàn)場演講所帶來的挑戰(zhàn)意味著,在創(chuàng)建神經(jīng)網(wǎng)絡(luò)的過程中,訓練過程是成本最高、耗時最長的部分。而像谷歌對Pixel Buds所做的那樣,只在有限數(shù)量的設(shè)備上支持實時翻譯,當然無助于系統(tǒng)學習。實際上,它處理的語音越多,它可以向算法中添加的數(shù)據(jù)就越多,機器就越能學會識別不熟悉的語音模式。

對于消費技術(shù)資深分析師格里森來說,這是谷歌將該功能擴展到更多硬件的原因之一。他表示:“語音識別中最棘手的問題之一,就是收集足夠的特定口音、俗語、習語數(shù)據(jù),所有這些都是高度區(qū)域化的。將這個功能僅用于Pixel上,永遠不會讓谷歌接觸到那些區(qū)域化數(shù)據(jù),進而也無法處理足夠多的數(shù)據(jù)。”

然而,積累數(shù)據(jù)也有不利的一面。表現(xiàn)最好的神經(jīng)網(wǎng)絡(luò)是那些擁有最多數(shù)據(jù)的網(wǎng)絡(luò),但由于數(shù)據(jù)需要在CPU上處理,CPU的壓力也會隨著信息量的增多而增加。這類CPU還遠未達到與移動設(shè)備完美集成的程度,使得實時語音處理在今天依然無法成為現(xiàn)實。實際上,每次使用Google Assistant時,語音信息都會被發(fā)送到數(shù)據(jù)中心進行外部處理,然后再發(fā)送回用戶的手機上。這些計算工作都不是在本地完成的,因為現(xiàn)有的手機無法存儲神經(jīng)網(wǎng)絡(luò)處理語音所需的龐大數(shù)據(jù)。

霍瓦特說,雖然Google Assistant能夠相當快地完成這一過程,但距離實時語音識別還有很長的路要走。該公司目前面臨的挑戰(zhàn)之一是,如何在手機中整合神經(jīng)網(wǎng)絡(luò)處理,以提高實時翻譯等功能的無縫性。事實上,開發(fā)人員已經(jīng)在致力于開發(fā)適合于高效處理神經(jīng)網(wǎng)絡(luò)的小型外部芯片,這種芯片可以集成到手機中。例如,本月早些時候,華為宣布了一種AI芯片,該公司聲稱其可以在幾分鐘內(nèi)訓練好神經(jīng)網(wǎng)絡(luò)算法。

雖然谷歌有自己的芯片Edge TPU,但它是為企業(yè)用戶而不是智能手機設(shè)計的。對霍瓦特來說,這是它的致命弱點:作為一家軟件公司,谷歌對制造商沒有多少控制權(quán),無法確保開發(fā)出一種產(chǎn)品,使所有安卓設(shè)備都能使用本地神經(jīng)網(wǎng)絡(luò)處理,與蘋果截然不同。

在不久的將來,谷歌可能被迫采取更小的步驟來改進其語音識別技術(shù)。雖然實時翻譯引來了許多批評,但對于行業(yè)分析師、Counterpoint物聯(lián)網(wǎng)、移動和生態(tài)系統(tǒng)研究主管尼爾·沙赫(Neil Shah)來說,擴展它有益于谷歌參與競爭:“谷歌已經(jīng)獲得20億安卓用戶。隨著越來越多的用戶開始在安卓手機上使用最新的語音交互,它能夠比競爭對手更快地擴大規(guī)模,并接受大量輸入數(shù)據(jù)流的訓練?!?/p>

格里森所也贊同這種看法。無論對實時翻譯的評論是否堅持溫和嘲諷的基調(diào),谷歌的舉動最終都會帶來顯著的改進。就像所有的AI產(chǎn)品一樣,這個工具同樣需要學習,它進入市場的過程還沒有完成。格里森表示:“人們可能會說,谷歌的實時翻譯運作方式與承諾的不一樣,但這是其實現(xiàn)目標的唯一途徑?!笨谧g翻譯現(xiàn)在不必擔心他們會立馬丟掉工作。

本文來源:網(wǎng)易科技

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉