創(chuàng)新工場(chǎng)兩篇論文入選ACL2020 中文分詞和詞性標(biāo)注新模型性能創(chuàng)新高

時(shí)間：2020-07-29 11:44:01

關(guān)鍵字：創(chuàng)新工場(chǎng) 論文 acl2020

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]7月8日消息，全球自然語(yǔ)言處理領(lǐng)域（NLP）頂級(jí)學(xué)術(shù)會(huì)議 ACL 2020 今年在線舉辦，來(lái)自創(chuàng)新工場(chǎng)大灣區(qū)人工智能研究院的2篇論文入選，這兩篇論文均聚焦中文分詞領(lǐng)域。這兩篇論文分別是《Improv

7月8日消息，全球自然語(yǔ)言處理領(lǐng)域（NLP）頂級(jí)學(xué)術(shù)會(huì)議 ACL 2020 今年在線舉辦，來(lái)自創(chuàng)新工場(chǎng)大灣區(qū)人工智能研究院的2篇論文入選，這兩篇論文均聚焦中文分詞領(lǐng)域。

這兩篇論文分別是《Improving Chinese Word Segmentation with Wordhood Memory Networks》和《Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-way Attentions of Auto-analyzed Knowledge》，由華盛頓大學(xué)博士研究生、創(chuàng)新工場(chǎng)實(shí)習(xí)生田元賀，創(chuàng)新工場(chǎng)大灣區(qū)人工智能研究院執(zhí)行院長(zhǎng)宋彥，創(chuàng)新工場(chǎng)科研合伙人張潼，創(chuàng)新工場(chǎng)CTO兼人工智能工程院執(zhí)行院長(zhǎng)王詠剛等人創(chuàng)作。

這兩篇論文各自提出了“鍵-值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型”和“基于雙通道注意力機(jī)制的分詞及詞性標(biāo)注模型”，將外部知識(shí)（信息）創(chuàng)造性融入分詞及詞性標(biāo)注模型，有效剔除了分詞“噪音”誤導(dǎo)，大幅度提升了分詞及詞性標(biāo)注效果，將該領(lǐng)域近年來(lái)廣泛使用的數(shù)據(jù)集上的分?jǐn)?shù)全部刷至新高。

今天，創(chuàng)新工場(chǎng)大灣區(qū)人工智能研究院執(zhí)行院長(zhǎng)宋彥向媒體分享了這兩篇入選論文的研究?jī)?nèi)容。宋彥本人有超過(guò)15年的NLP領(lǐng)域的科研經(jīng)驗(yàn)。

據(jù)宋彥介紹，中文分詞和詞性標(biāo)注是中文自然語(yǔ)言處理的兩個(gè)基本任務(wù)。近年來(lái)，隨著預(yù)訓(xùn)練模型的提出，有一些人提出質(zhì)疑是否還有必要進(jìn)行中文分詞的處理，對(duì)此我們提出了不同的意見(jiàn)，尤其考慮到詞匯級(jí)別的信息依然是中文信息處理最重要的基礎(chǔ)。一個(gè)例子就是，雖然BERT大行其道，但是在中文上基于全詞覆蓋（whole word masking）的預(yù)訓(xùn)練模型比直接使用單字編碼的效果更好。

而創(chuàng)新工場(chǎng)的這兩篇文章用記憶神經(jīng)網(wǎng)絡(luò)的方式記錄對(duì)分詞結(jié)果有影響的 n元組，并引入對(duì)詞性標(biāo)注有影響的句法知識(shí)，將分詞結(jié)果和自動(dòng)獲得的知識(shí)銜接起來(lái)，既發(fā)揮了神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)，也把知識(shí)的優(yōu)勢(shì)用上，實(shí)現(xiàn)了分詞技術(shù)上小而有效的改進(jìn)和突破。

“鍵-值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型” 刷新中文分詞歷史性能

宋彥介紹，通常而言，中文語(yǔ)言因其特殊性，在分詞時(shí)面臨著兩個(gè)主要難點(diǎn)。

一是歧義問(wèn)題，由于中文存在大量歧義，一般的分詞工具在切分句子時(shí)可能會(huì)出錯(cuò)。例如，“部分居民生活水平”，其正確的切分應(yīng)為“部分/居民/生活/水平”，但存在“分居”、“民生”等歧義詞。“他從小學(xué)電腦技術(shù)”，正確的分詞是：他/從小/學(xué)/電腦技術(shù)，但也存在“小學(xué)”這種歧義詞。

二是未登錄詞問(wèn)題。未登錄詞指的是不在詞表，或者是模型在訓(xùn)練的過(guò)程中沒(méi)有遇見(jiàn)過(guò)的詞。例如經(jīng)濟(jì)、醫(yī)療、科技等科學(xué)領(lǐng)域的專業(yè)術(shù)語(yǔ)或者社交媒體上的新詞，或者是人名。這類問(wèn)題在跨領(lǐng)域分詞任務(wù)中尤其明顯。

對(duì)此，《Improving Chinese Word Segmentation with Wordhood Memory Networks》論文提出了基于鍵-值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型。

該模型利用n元組（即一個(gè)由連續(xù)n個(gè)字組成的序列，比如“居民”是一個(gè)2元組，“生活水平”是一個(gè)4元組）提供的每個(gè)字的構(gòu)詞能力，通過(guò)加（降）權(quán)重實(shí)現(xiàn)特定語(yǔ)境下的歧義消解。并通過(guò)非監(jiān)督方法構(gòu)建詞表，實(shí)現(xiàn)對(duì)特定領(lǐng)域的未標(biāo)注文本的利用，進(jìn)而提升對(duì)未登錄詞的識(shí)別。

例如，在“部分居民生活水平”這句話中，到底有多少可能成為詞的組塊？單字可成詞，如“民”；每?jī)蓚€(gè)字的組合可能成詞，如“居民”；甚至四個(gè)字的組合也可能成詞，例如“居民生活”。

把這些可能成詞的組合全部找到以后，加入到該分詞模型中。通過(guò)神經(jīng)網(wǎng)絡(luò)，學(xué)習(xí)哪些詞對(duì)于最后完整表達(dá)句意的幫助更大，進(jìn)而分配不同的權(quán)重。像“部分”、“居民”、“生活”、“水平”這些詞都會(huì)被突出出來(lái)，但“分居”、“民生”這些詞就會(huì)被降權(quán)處理，從而預(yù)測(cè)出正確的結(jié)果。

鍵-值記憶神經(jīng)網(wǎng)絡(luò)分詞模型

在“他從小學(xué)電腦技術(shù)” 這句話中，對(duì)于有歧義的部分“從小學(xué)”（有“從/小學(xué)”和“從小/學(xué)”兩種分法），該模型能夠?qū)Α皬男　焙汀皩W(xué)”分配更高的權(quán)重，而對(duì)錯(cuò)誤的n元組—;—;“小學(xué)”分配較低的權(quán)重。

為了檢驗(yàn)該模型的分詞效果，論文進(jìn)行了嚴(yán)格的標(biāo)準(zhǔn)實(shí)驗(yàn)和跨領(lǐng)域?qū)嶒?yàn)。

實(shí)驗(yàn)結(jié)果顯示，該模型在5個(gè)數(shù)據(jù)集（MSR、PKU、AS、CityU、CTB6）上的表現(xiàn)，刷新最好成績(jī)（F值越高，性能越好）。

宋彥表示，與前人的模型進(jìn)行比較發(fā)現(xiàn)，該模型在所有數(shù)據(jù)集上的表現(xiàn)均超過(guò)了之前的工作，“把中文分詞領(lǐng)域廣泛使用的標(biāo)準(zhǔn)數(shù)據(jù)集上的性能全部刷到了新高?！?/p>

和前人工作的比較

在跨領(lǐng)域?qū)嶒?yàn)中，論文使用網(wǎng)絡(luò)博客數(shù)據(jù)集（CTB7）測(cè)試。實(shí)驗(yàn)結(jié)果顯示，在整體F值以及未登陸詞的召回率上都有比較大提升。

”基于雙通道注意力機(jī)制的分詞及詞性標(biāo)注模型“有效剔除噪音誤導(dǎo)

第二篇論文《Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-way Attentions of Auto-analyzed Knowledge》提供了一種基于雙通道注意力機(jī)制的分詞及詞性標(biāo)注模型。

宋彥介紹，中文分詞和詞性標(biāo)注是兩個(gè)不同的任務(wù)。詞性標(biāo)注是在已經(jīng)切分好的文本中，給每一個(gè)詞標(biāo)注其所屬的詞類，例如動(dòng)詞、名詞、代詞、形容詞。詞性標(biāo)注對(duì)后續(xù)的句子理解有重要的作用。

在詞性標(biāo)注中，歧義仍然是個(gè)老大難的問(wèn)題。例如，對(duì)于“他要向全班同學(xué)報(bào)告書(shū)上的內(nèi)容”中，“報(bào)告書(shū)”的正確的切分和標(biāo)注應(yīng)為“報(bào)告_VV/書(shū)_N”。但由于“報(bào)告書(shū)”本身也是一個(gè)常見(jiàn)詞，一般的工具可能會(huì)將其標(biāo)注為“報(bào)告書(shū)_NN”。

利用句法知識(shí)進(jìn)行正確的詞性標(biāo)注

句法標(biāo)注本身需要大量的時(shí)間和人力成本。在以往的標(biāo)注工作中，使用外部自動(dòng)工具獲取句法知識(shí)是主流方法。在這種情況下，如果模型不能識(shí)別并正確處理帶有雜音的句法知識(shí)，很可能會(huì)被不準(zhǔn)確的句法知識(shí)誤導(dǎo)，做出錯(cuò)誤的預(yù)測(cè)。

例如，在句子“他馬上功夫很好”中，“馬”和“上”應(yīng)該分開(kāi)（正確的標(biāo)注應(yīng)為“馬_NN/上_NN”）。但按照一般的句法知識(shí)，卻可能得到不準(zhǔn)確的切分及句法關(guān)系，如“馬上”。

斯坦福大學(xué)的自動(dòng)句法分析工具結(jié)果，分成了“馬上”

針對(duì)這一問(wèn)題，創(chuàng)新工場(chǎng)的論文提出了一個(gè)基于雙通道注意力機(jī)制的分詞及詞性標(biāo)注模型。

該模型將中文分詞和詞性標(biāo)注視作聯(lián)合任務(wù)，可一體化完成。模型分別對(duì)自動(dòng)獲取的上下文特征和句法知識(shí)加權(quán)，預(yù)測(cè)每個(gè)字的分詞和詞性標(biāo)簽，不同的上下文特征和句法知識(shí)在各自所屬的注意力通道內(nèi)進(jìn)行比較、加權(quán)，從而識(shí)別特定語(yǔ)境下不同上下文特征和句法知識(shí)的貢獻(xiàn)。

這樣一來(lái)，那些不準(zhǔn)確的，對(duì)模型預(yù)測(cè)貢獻(xiàn)小的上下文特征和句法知識(shí)就能被識(shí)別出來(lái)，并被分配小的權(quán)重，從而避免模型被這些有噪音的信息誤導(dǎo)。

基于“雙通道注意力機(jī)制”的分詞及詞性標(biāo)注

即便在自動(dòng)獲取的句法知識(shí)不準(zhǔn)確的時(shí)候，該模型仍能有效識(shí)別并利用這種知識(shí)。例如，將前文有歧義、句法知識(shí)不準(zhǔn)確的句子（“他馬上功夫很好”），輸入該雙通道注意力模型后，便得到了正確的分詞和詞性標(biāo)注結(jié)果。

分詞及詞性標(biāo)注實(shí)例

為了測(cè)試該模型的性能，論文在一般領(lǐng)域和跨領(lǐng)域分別進(jìn)行了實(shí)驗(yàn)。

一般領(lǐng)域?qū)嶒?yàn)結(jié)果顯示，該模型在5個(gè)數(shù)據(jù)集（CTB5，CTB6，CTB7，CTB9，Universal Dependencies）的表現(xiàn)（F值）均超過(guò)前人的工作，也大幅度超過(guò)了斯坦福大學(xué)的 CoreNLP 工具，和伯克利大學(xué)的句法分析器。

即使是在與CTB詞性標(biāo)注規(guī)范不同的UD數(shù)據(jù)集中，該模型依然能吸收不同標(biāo)注帶來(lái)的知識(shí)，并使用這種知識(shí)，得到更好的效果。

該模型在所有數(shù)據(jù)集上均超過(guò)了之前的工作

CTB5（CTB5是使用最多的中文分詞和詞性標(biāo)注的數(shù)據(jù)集）結(jié)果

而在跨領(lǐng)域的實(shí)驗(yàn)中，和斯坦福大學(xué)的 CoreNLP 工具相比，該模型也有近10個(gè)百分點(diǎn)的提升。

跨領(lǐng)域分詞實(shí)驗(yàn)（對(duì)話測(cè)試集）的結(jié)果

宋彥總結(jié)道，“從技術(shù)創(chuàng)新的角度，我們的貢獻(xiàn)主要有兩點(diǎn)。一是在現(xiàn)有技術(shù)的基礎(chǔ)上，建立了一個(gè)一體化的模型框架，使用非監(jiān)督方法構(gòu)建詞表，并把知識(shí)（信息）融入進(jìn)來(lái)，使用更高層次的句法知識(shí)，來(lái)幫助詞性標(biāo)注，起到'他山之石，可以攻玉’的效果。二是主動(dòng)吸收和分辨不同的外部知識(shí)（信息）。通過(guò)鍵-值記憶神經(jīng)網(wǎng)絡(luò)和雙通道注意力機(jī)制，進(jìn)行動(dòng)態(tài)權(quán)重的分配，能夠有效分辨知識(shí)，區(qū)分哪些是有效的，哪些是無(wú)效的。雖然這些知識(shí)是自動(dòng)獲取的、不準(zhǔn)確的，但‘三個(gè)臭皮匠，頂個(gè)諸葛亮’，經(jīng)過(guò)有效利用，總能湊出一些有用的信息。如何實(shí)現(xiàn)模型的主動(dòng)吸收和分辨，就變得更加重要?！?/p>

一直以來(lái)，創(chuàng)新工場(chǎng)致力于銜接科技創(chuàng)新和行業(yè)賦能，做嫁接科研和產(chǎn)業(yè)應(yīng)用的橋梁，為行業(yè)改造業(yè)務(wù)流程、提升業(yè)務(wù)效率。對(duì)中文分詞技術(shù)的研究也是如此。

在宋彥看來(lái)，中文分詞和詞性標(biāo)注是最底層的應(yīng)用，對(duì)于接下來(lái)的應(yīng)用和任務(wù)處理非常重要。例如對(duì)于文本分類、情感分析，文本摘要、機(jī)器翻譯等，分詞都是不可或缺的基本“元件”。

“在工業(yè)場(chǎng)景使用的時(shí)候，跨領(lǐng)域的模型能力是一個(gè)非常直接的訴求?！彼螐?qiáng)調(diào)。

宋彥以搜索引擎的廣告系統(tǒng)為例向介紹，論文提及的新模型可以有效地實(shí)現(xiàn)廣告在不同領(lǐng)域進(jìn)行內(nèi)容匹配的冷啟動(dòng)?！耙袁F(xiàn)有模型，比方說(shuō)在新聞?lì)I(lǐng)域?qū)W到的模型，如果碰到一個(gè)體育領(lǐng)域的廣告，那么這個(gè)時(shí)候其中很多詞會(huì)沒(méi)辦法正確切分出來(lái)。但是在使用我們的模型時(shí)候，在新領(lǐng)域進(jìn)行廣告內(nèi)容推薦，可以講新領(lǐng)域的知識(shí)和事先準(zhǔn)備的關(guān)鍵詞等，加入我們的模型，從而把目標(biāo)文本中一些比較有效的關(guān)鍵詞，通過(guò)更好的分詞結(jié)果呈現(xiàn)出來(lái)，而這些關(guān)鍵詞，可能會(huì)匹配到用戶輸入的一些詞，或者說(shuō)用戶在特定的網(wǎng)頁(yè)瀏覽背景下面他所碰到的一些內(nèi)容。所以如果分詞結(jié)果正確，就能夠有效的把這兩部分內(nèi)的內(nèi)容銜接，使得用戶在搜索的時(shí)候，得到的廣告內(nèi)容跟搜索結(jié)果是匹配的?！?/p>

目前，這兩篇論文的工具都已經(jīng)開(kāi)源。

分詞工具： https://github.com/SVAIGBA/WMSeg

分詞及詞性標(biāo)注工具： https://github.com/SVAIGBA/TwASP