當(dāng)前位置:首頁 > 芯聞號 > 充電吧
[導(dǎo)讀]7月8日消息,全球自然語言處理領(lǐng)域(NLP)頂級學(xué)術(shù)會議 ACL 2020 今年在線舉辦,來自創(chuàng)新工場大灣區(qū)人工智能研究院的2篇論文入選,這兩篇論文均聚焦中文分詞領(lǐng)域。 這兩篇論文分別是《Improv

7月8日消息,全球自然語言處理領(lǐng)域(NLP)頂級學(xué)術(shù)會議 ACL 2020 今年在線舉辦,來自創(chuàng)新工場大灣區(qū)人工智能研究院的2篇論文入選,這兩篇論文均聚焦中文分詞領(lǐng)域。

這兩篇論文分別是《Improving Chinese Word Segmentation with Wordhood Memory Networks》和《Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-way Attentions of Auto-analyzed Knowledge》,由華盛頓大學(xué)博士研究生、創(chuàng)新工場實習(xí)生田元賀,創(chuàng)新工場大灣區(qū)人工智能研究院執(zhí)行院長宋彥,創(chuàng)新工場科研合伙人張潼,創(chuàng)新工場CTO兼人工智能工程院執(zhí)行院長王詠剛等人創(chuàng)作。

這兩篇論文各自提出了“鍵-值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型”和“基于雙通道注意力機(jī)制的分詞及詞性標(biāo)注模型”,將外部知識(信息)創(chuàng)造性融入分詞及詞性標(biāo)注模型,有效剔除了分詞“噪音”誤導(dǎo),大幅度提升了分詞及詞性標(biāo)注效果,將該領(lǐng)域近年來廣泛使用的數(shù)據(jù)集上的分?jǐn)?shù)全部刷至新高。

今天,創(chuàng)新工場大灣區(qū)人工智能研究院執(zhí)行院長宋彥向媒體分享了這兩篇入選論文的研究內(nèi)容。宋彥本人有超過15年的NLP領(lǐng)域的科研經(jīng)驗。

據(jù)宋彥介紹,中文分詞和詞性標(biāo)注是中文自然語言處理的兩個基本任務(wù)。近年來,隨著預(yù)訓(xùn)練模型的提出,有一些人提出質(zhì)疑是否還有必要進(jìn)行中文分詞的處理,對此我們提出了不同的意見,尤其考慮到詞匯級別的信息依然是中文信息處理最重要的基礎(chǔ)。一個例子就是,雖然BERT大行其道,但是在中文上基于全詞覆蓋 (whole word masking)的預(yù)訓(xùn)練模型比直接使用單字編碼的效果更好。

而創(chuàng)新工場的這兩篇文章用記憶神經(jīng)網(wǎng)絡(luò)的方式記錄對分詞結(jié)果有影響的 n元組,并引入對詞性標(biāo)注有影響的句法知識,將分詞結(jié)果和自動獲得的知識銜接起來,既發(fā)揮了神經(jīng)網(wǎng)絡(luò)的優(yōu)勢,也把知識的優(yōu)勢用上,實現(xiàn)了分詞技術(shù)上小而有效的改進(jìn)和突破。

“鍵-值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型” 刷新中文分詞歷史性能

宋彥介紹,通常而言,中文語言因其特殊性,在分詞時面臨著兩個主要難點。

一是歧義問題,由于中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。例如,“部分居民生活水平”,其正確的切分應(yīng)為“部分/居民/生活/水平”,但存在“分居”、“民生”等歧義詞?!八麖男W(xué)電腦技術(shù)”,正確的分詞是:他/從小/學(xué)/電腦技術(shù),但也存在“小學(xué)”這種歧義詞。

二是未登錄詞問題。未登錄詞指的是不在詞表,或者是模型在訓(xùn)練的過程中沒有遇見過的詞。例如經(jīng)濟(jì)、醫(yī)療、科技等科學(xué)領(lǐng)域的專業(yè)術(shù)語或者社交媒體上的新詞,或者是人名。這類問題在跨領(lǐng)域分詞任務(wù)中尤其明顯。

對此,《Improving Chinese Word Segmentation with Wordhood Memory Networks》論文提出了基于鍵-值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型。

該模型利用n元組(即一個由連續(xù)n個字組成的序列,比如“居民”是一個2元組,“生活水平”是一個4元組)提供的每個字的構(gòu)詞能力,通過加(降)權(quán)重實現(xiàn)特定語境下的歧義消解。并通過非監(jiān)督方法構(gòu)建詞表,實現(xiàn)對特定領(lǐng)域的未標(biāo)注文本的利用,進(jìn)而提升對未登錄詞的識別。

例如,在“部分居民生活水平”這句話中,到底有多少可能成為詞的組塊?單字可成詞,如“民”;每兩個字的組合可能成詞,如“居民”;甚至四個字的組合也可能成詞,例如“居民生活”。

把這些可能成詞的組合全部找到以后,加入到該分詞模型中。通過神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)哪些詞對于最后完整表達(dá)句意的幫助更大,進(jìn)而分配不同的權(quán)重。像“部分”、“居民”、“生活”、“水平”這些詞都會被突出出來,但“分居”、“民生”這些詞就會被降權(quán)處理,從而預(yù)測出正確的結(jié)果。

鍵-值記憶神經(jīng)網(wǎng)絡(luò)分詞模型

在“他從小學(xué)電腦技術(shù)” 這句話中,對于有歧義的部分“從小學(xué)”(有“從/小學(xué)”和“從小/學(xué)”兩種分法),該模型能夠?qū)Α皬男 焙汀皩W(xué)”分配更高的權(quán)重,而對錯誤的n元組—;—;“小學(xué)”分配較低的權(quán)重。

為了檢驗該模型的分詞效果,論文進(jìn)行了嚴(yán)格的標(biāo)準(zhǔn)實驗和跨領(lǐng)域?qū)嶒灐?/p>

實驗結(jié)果顯示,該模型在5個數(shù)據(jù)集(MSR、PKU、AS、CityU、CTB6)上的表現(xiàn),刷新最好成績(F值越高,性能越好)。

宋彥表示,與前人的模型進(jìn)行比較發(fā)現(xiàn),該模型在所有數(shù)據(jù)集上的表現(xiàn)均超過了之前的工作,“把中文分詞領(lǐng)域廣泛使用的標(biāo)準(zhǔn)數(shù)據(jù)集上的性能全部刷到了新高。”

和前人工作的比較

在跨領(lǐng)域?qū)嶒炛?,論文使用網(wǎng)絡(luò)博客數(shù)據(jù)集(CTB7)測試。實驗結(jié)果顯示,在整體F值以及未登陸詞的召回率上都有比較大提升。

基于雙通道注意力機(jī)制的分詞及詞性標(biāo)注模型“有效剔除噪音誤導(dǎo)

第二篇論文《Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-way Attentions of Auto-analyzed Knowledge》提供了一種基于雙通道注意力機(jī)制的分詞及詞性標(biāo)注模型。

宋彥介紹,中文分詞和詞性標(biāo)注是兩個不同的任務(wù)。詞性標(biāo)注是在已經(jīng)切分好的文本中,給每一個詞標(biāo)注其所屬的詞類,例如動詞、名詞、代詞、形容詞。詞性標(biāo)注對后續(xù)的句子理解有重要的作用。

在詞性標(biāo)注中,歧義仍然是個老大難的問題。例如,對于“他要向全班同學(xué)報告書上的內(nèi)容”中,“報告書”的正確的切分和標(biāo)注應(yīng)為“報告_VV/書_N”。但由于“報告書”本身也是一個常見詞,一般的工具可能會將其標(biāo)注為“報告書_NN”。

利用句法知識進(jìn)行正確的詞性標(biāo)注

句法標(biāo)注本身需要大量的時間和人力成本。在以往的標(biāo)注工作中,使用外部自動工具獲取句法知識是主流方法。在這種情況下,如果模型不能識別并正確處理帶有雜音的句法知識,很可能會被不準(zhǔn)確的句法知識誤導(dǎo),做出錯誤的預(yù)測。

例如,在句子“他馬上功夫很好”中,“馬”和“上”應(yīng)該分開(正確的標(biāo)注應(yīng)為“馬_NN/上_NN”)。但按照一般的句法知識,卻可能得到不準(zhǔn)確的切分及句法關(guān)系,如“馬上”。

斯坦福大學(xué)的自動句法分析工具結(jié)果,分成了“馬上”

針對這一問題,創(chuàng)新工場的論文提出了一個基于雙通道注意力機(jī)制的分詞及詞性標(biāo)注模型。

該模型將中文分詞和詞性標(biāo)注視作聯(lián)合任務(wù),可一體化完成。模型分別對自動獲取的上下文特征和句法知識加權(quán),預(yù)測每個字的分詞和詞性標(biāo)簽,不同的上下文特征和句法知識在各自所屬的注意力通道內(nèi)進(jìn)行比較、加權(quán),從而識別特定語境下不同上下文特征和句法知識的貢獻(xiàn)。

這樣一來,那些不準(zhǔn)確的,對模型預(yù)測貢獻(xiàn)小的上下文特征和句法知識就能被識別出來,并被分配小的權(quán)重,從而避免模型被這些有噪音的信息誤導(dǎo)。

基于“雙通道注意力機(jī)制”的分詞及詞性標(biāo)注

即便在自動獲取的句法知識不準(zhǔn)確的時候,該模型仍能有效識別并利用這種知識。例如,將前文有歧義、句法知識不準(zhǔn)確的句子(“他馬上功夫很好”),輸入該雙通道注意力模型后,便得到了正確的分詞和詞性標(biāo)注結(jié)果。

分詞及詞性標(biāo)注實例

為了測試該模型的性能,論文在一般領(lǐng)域和跨領(lǐng)域分別進(jìn)行了實驗。

一般領(lǐng)域?qū)嶒灲Y(jié)果顯示,該模型在5個數(shù)據(jù)集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)的表現(xiàn)(F值)均超過前人的工作,也大幅度超過了斯坦福大學(xué)的 CoreNLP 工具,和伯克利大學(xué)的句法分析器。

即使是在與CTB詞性標(biāo)注規(guī)范不同的UD數(shù)據(jù)集中,該模型依然能吸收不同標(biāo)注帶來的知識,并使用這種知識,得到更好的效果。

該模型在所有數(shù)據(jù)集上均超過了之前的工作

CTB5(CTB5是使用最多的中文分詞和詞性標(biāo)注的數(shù)據(jù)集)結(jié)果

而在跨領(lǐng)域的實驗中,和斯坦福大學(xué)的 CoreNLP 工具相比,該模型也有近10個百分點的提升。

跨領(lǐng)域分詞實驗(對話測試集)的結(jié)果

宋彥總結(jié)道,“從技術(shù)創(chuàng)新的角度,我們的貢獻(xiàn)主要有兩點。一是在現(xiàn)有技術(shù)的基礎(chǔ)上,建立了一個一體化的模型框架,使用非監(jiān)督方法構(gòu)建詞表,并把知識(信息)融入進(jìn)來,使用更高層次的句法知識,來幫助詞性標(biāo)注,起到'他山之石,可以攻玉’的效果。二是主動吸收和分辨不同的外部知識(信息)。通過鍵-值記憶神經(jīng)網(wǎng)絡(luò)和雙通道注意力機(jī)制,進(jìn)行動態(tài)權(quán)重的分配,能夠有效分辨知識,區(qū)分哪些是有效的,哪些是無效的。雖然這些知識是自動獲取的、不準(zhǔn)確的,但‘三個臭皮匠,頂個諸葛亮’,經(jīng)過有效利用,總能湊出一些有用的信息。如何實現(xiàn)模型的主動吸收和分辨,就變得更加重要?!?/p>

一直以來,創(chuàng)新工場致力于銜接科技創(chuàng)新和行業(yè)賦能,做嫁接科研和產(chǎn)業(yè)應(yīng)用的橋梁,為行業(yè)改造業(yè)務(wù)流程、提升業(yè)務(wù)效率。對中文分詞技術(shù)的研究也是如此。

在宋彥看來,中文分詞和詞性標(biāo)注是最底層的應(yīng)用,對于接下來的應(yīng)用和任務(wù)處理非常重要。例如對于文本分類、情感分析,文本摘要、機(jī)器翻譯等,分詞都是不可或缺的基本“元件”。

“在工業(yè)場景使用的時候,跨領(lǐng)域的模型能力是一個非常直接的訴求。”宋彥強(qiáng)調(diào)。

宋彥以搜索引擎的廣告系統(tǒng)為例向介紹,論文提及的新模型可以有效地實現(xiàn)廣告在不同領(lǐng)域進(jìn)行內(nèi)容匹配的冷啟動。“以現(xiàn)有模型,比方說在新聞領(lǐng)域?qū)W到的模型,如果碰到一個體育領(lǐng)域的廣告,那么這個時候其中很多詞會沒辦法正確切分出來。但是在使用我們的模型時候,在新領(lǐng)域進(jìn)行廣告內(nèi)容推薦,可以講新領(lǐng)域的知識和事先準(zhǔn)備的關(guān)鍵詞等,加入我們的模型,從而把目標(biāo)文本中一些比較有效的關(guān)鍵詞,通過更好的分詞結(jié)果呈現(xiàn)出來,而這些關(guān)鍵詞,可能會匹配到用戶輸入的一些詞,或者說用戶在特定的網(wǎng)頁瀏覽背景下面他所碰到的一些內(nèi)容。所以如果分詞結(jié)果正確,就能夠有效的把這兩部分內(nèi)的內(nèi)容銜接,使得用戶在搜索的時候,得到的廣告內(nèi)容跟搜索結(jié)果是匹配的。”

目前,這兩篇論文的工具都已經(jīng)開源。

分詞工具: https://github.com/SVAIGBA/WMSeg

分詞及詞性標(biāo)注工具: https://github.com/SVAIGBA/TwASP

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉