當前位置:首頁 > 芯聞號 > 充電吧
[導讀]萬萬沒想到,雷鋒網(wǎng)編輯花一塊錢試用一個經(jīng)由xx部批準的合法“國際瀏覽器”的目的竟然是看海外版霸道總裁文。 說起來真的有點“羞恥”,畢竟我已經(jīng)不是愛幻想的18歲少女,而是飽經(jīng)生活折騰的社畜。 事情是這樣

萬萬沒想到,雷鋒網(wǎng)編輯花一塊錢試用一個經(jīng)由xx部批準的合法“國際瀏覽器”的目的竟然是看海外版霸道總裁文。

說起來真的有點“羞恥”,畢竟我已經(jīng)不是愛幻想的18歲少女,而是飽經(jīng)生活折騰的社畜。

事情是這樣的,前幾天,閱文集團與國內(nèi)人工智能公司彩云科技合作的 30 部 AI 翻譯網(wǎng)文作品上線了閱文旗下海外門戶起點國際(Webnovel)。

AI 也來插手網(wǎng)文翻譯,看來,繼AI PK速記員,AI 換臉“威脅”演員之后,在我們的精神文化生活中,AI 又觸達了一個領域。

這 30 部依靠 AI 走向國際化的網(wǎng)文就是我前面提到的霸道總裁文,還是女頻向的。

emmm,放眼望去,《豪門謀妻》《豪門千金重生之賺大錢》《喬先生撩妻上癮》。。。部部散發(fā)著無法抵擋的總裁魅力。

試水

雖然霸總網(wǎng)文看上去不是什么陽春白雪,但它的譯文卻是“精品”。

如果翻譯質(zhì)量以滿分 100 分為計,AI 翻譯的這些作品可以達到 80~ 85 分,相當于專業(yè)翻譯的級別。

彩云科技的運營負責人張可馨稱,合作推出的這 30 本AI 翻譯的網(wǎng)文屬于現(xiàn)代言情品類,是現(xiàn)在比較受歡迎以及好翻譯的品種,非常適合拿來作為 AI 翻譯網(wǎng)文出海的第一步測試。

在這次合作中,閱文提供語料、修改詞表、用戶的反饋,彩云進行語料訓練,詞表提取和模型部署,安排得妥妥當當。

起點國際與“彩云小譯”合作的 AI 翻譯模型針對普通難度的文本, 翻譯速度能夠達到人工的千倍,同時,在翻譯質(zhì)量把控上,閱文集團的編輯和智能技術團隊聯(lián)合彩云小譯的算法工程師對 AI 模型進行集中性的“專項訓練”,既往優(yōu)秀的譯本、經(jīng)典網(wǎng)文原作、標準核心詞庫都是 AI 學習的語料。

此外,網(wǎng)傳“雙方在訓練 AI 模型時還加入了‘翻譯風格’的選項,方便精準進行男頻、女頻,甚至不同品類作品風格的呈現(xiàn)。面對不同的風格要求,AI 能夠?qū)⑼痪湓捰枚喾N不同的譯法進行差異化呈現(xiàn)。

這是個讓人眼前一亮的功能,雷鋒網(wǎng)了解到,目前這個功能尚未正式上線,是一個“正在調(diào)教中的模塊”。

技術難點

剩下的“分”缺在哪里?

正如人類譯者的翻譯能力受自身知識面的限制一樣,AI 模型能達到的能力范圍也受到語料范圍的限制。語料中少見但比較淺白的表述,AI 可以根據(jù)自己學到的語料“猜”出正確的翻譯,但遇到比較迂回的表述,如一個語料中從未出現(xiàn)過的成語,AI 猜錯的可能性就會變大。

彩云科技算法工程師毛詩倩提到,例如:“燃燈如豆”, 指的是燈的火焰很小,而不是火焰像豆子。如果語料中沒有出現(xiàn)過這個詞語,那么AI 就只能翻譯出字面意思。

公開資料稱,閱文團隊基于自然語言理解技術進行網(wǎng)文內(nèi)容深入挖掘,通過對大量網(wǎng)文內(nèi)容和優(yōu)質(zhì)社區(qū)內(nèi)容的清洗、訓練和標注,使得機器更好地理解網(wǎng)文內(nèi)容,建立閱文自己的內(nèi)容大腦。

基于閱文內(nèi)容大腦,閱文智能可以提取網(wǎng)文的一些專有名詞,同時可以自動識別角色(人名)、場景(地名)、升級體系等結(jié)構(gòu)化信息,構(gòu)建整體網(wǎng)文的知識圖譜?;谶@些信息的補充,目前 AI 翻譯能夠較好地翻譯網(wǎng)文特殊領域中的詞、句、段落,包括作品中的人名、地名以及類似“金丹”這種網(wǎng)文作品特色核心元素詞等專有名詞,并識別出各種代詞指代的對象,盡可能避免傳統(tǒng)機翻中的“一詞多譯”、“張冠李戴”等現(xiàn)象。

看來,閱文在試圖給合作伙伴的 AI 模型“喂”更足的語料。

在構(gòu)建這個 AI 模型的過程中,毛詩倩遇到了三個難點:

第一,正確補全句子結(jié)構(gòu)。

文學作品中有些句子結(jié)構(gòu)復雜或缺省成分,AI 需要自己找到正確出主賓的關系。

“還是早點回家吧”

AI 看到這句話,可能會有點懵逼,必須使勁找尋主語是 I 還是 You。

第二,人名指代統(tǒng)一。

一個人物可能會有多種稱呼。比如一個角色可能大名叫“七月,同時還有“小七”、“月月”等好幾個昵稱,AI 需要知道這些稱謂都是指向同一個人,否則翻譯出三個在英文中看起來沒什么關聯(lián)的名字,AI 沒有懵逼,但讀者會瞬間懵逼。

(講真,像我們這種神經(jīng)大條的讀者,可能肉身看文遇到這種情況也會“臉盲”。)

AI 還要知道角色的性別,以便正確使用人稱代詞。

舉個“霸總文”的例子:

冷半夏整個人依靠在顧瑾白的懷里,蒼白的臉上帶著放大的笑意,看向冷可欣,口型比劃:你完了!

Leng Banxia leaned against Gu Jinbai's embrace. Her pale face carried a magnified smile as she looked at Leng Kexin. She mouthed, "you're done for!“

上面加粗的部分就是在 AI 知道冷半夏是女性的基礎上才能正確翻譯的結(jié)果。

第三,文風統(tǒng)一。

上一句是言情小說文風,下一句變成科幻小說文風,讀者就會分分鐘出戲。AI 需要保證一部作品翻譯風格統(tǒng)一,并且符合這個作品本身的品類。

AI 翻譯還有進步的空間。

毛詩倩稱,在 transformer 模型的基礎上,目前可以引入對抗訓練、模型蒸餾等改進技術,以及利用非對齊語料預訓練改進翻譯質(zhì)量的工作,如 BERT、MASS 等,但目前的所有翻譯模型本質(zhì)上都是基于大數(shù)據(jù)的擬合,機器還沒辦法像人類一樣真正理解文本。

AI 的強大助力

盡管 AI 翻譯暫時無法像人類一樣“機智”,但對于網(wǎng)文出海這個領域而言,已經(jīng)產(chǎn)生了非常大的推動力。

艾瑞咨詢發(fā)布的《2019年中國網(wǎng)絡文學出海研究報告》稱,海外網(wǎng)文讀者對網(wǎng)文翻譯質(zhì)量比較滿意,但更新速度還需提升。

在這個背景下,能達到 85 分的 AI 翻譯不得不說是一個滿足需求的好辦法。

看到這種需求后,國內(nèi)內(nèi)容平臺閱文、掌閱都加緊對網(wǎng)文出海的布局。在閱文和彩云科技共同推出 AI 翻譯的 30 部試水網(wǎng)文作品之前,成立于 2017 年 11 月的公司推文科技在 9 個月的數(shù)據(jù)積累后,于 2018 年 7 月推出了網(wǎng)絡文學人工智能翻譯系統(tǒng)。

推文科技今年 3 月已完成由 Wifi 萬能鑰匙、連尚文學、聯(lián)想之星參與的 1000 萬Pre-A輪融資,同樣依靠具備內(nèi)容資源的平臺朝網(wǎng)文出海進軍。

按照推文科技接受小飯桌的采訪中所言,1000 字的翻譯,人工需要 1 小時,AI 單芯片只需要 1 秒。成本也降低到原來的1%, 100 萬字的專業(yè)譯者翻譯需要 20 萬元,AI 只需要不到 1000 元。

毛詩倩對雷鋒網(wǎng)肯定了這種說法,他稱:“只要錢足夠多,買更多的顯卡部署翻譯模型,速度可以無限大,即使是一張顯卡,它翻譯速度也是人類的千倍?!?/p>

雷鋒網(wǎng)發(fā)現(xiàn),在 AI 翻譯網(wǎng)文出海上,推文科技和彩云科技目前只進行中譯英,但這只是語料多少的問題,張可馨說,要做到 85 分的準確率,需要大量語料,很多小語種的語料比較難收集。

在語料充足(幾千萬句)的情況下,基本上幾個月之內(nèi)就可以訓練出一個 AI 翻譯的特定語種類型。

不過,有意思的是,這位對 AI 翻譯網(wǎng)文模型無比熟練的毛詩倩是一個海歸男性算法工程師,他并沒有月讀 300 本網(wǎng)文。

海外卻有無數(shù)人在等待他的 AI 小伙伴翻譯網(wǎng)文。

本站聲明: 本文章由作者或相關機構(gòu)授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉