當前位置:首頁 > 智能硬件 > 智能硬件
[導讀]0 引 言 語句改寫是在不改變原語句表達意思的條件下的另一種表達方式,其技術可以應用到信息檢索、問答系統(tǒng)、自動文摘以及機器翻譯等系統(tǒng)中,并能夠有效地提高相應系統(tǒng)的性能。 有關句改寫方面的研究資料有

0 引 言
    語句改寫是在不改變原語句表達意思的條件下的另一種表達方式,其技術可以應用到信息檢索、問答系統(tǒng)、自動文摘以及機器翻譯等系統(tǒng)中,并能夠有效地提高相應系統(tǒng)的性能。
    有關句改寫方面的研究資料有很多,如漢語語句改寫,對語句改寫語料庫的構(gòu)筑、改寫規(guī)則抽出及改寫句的生成等進行了綜述,并介紹了采用外國名著的多個中文譯本進行句子對齊,獲得句子的改寫實例從而構(gòu)建改寫語料庫的研究。文獻將語句改寫應用于漢語口語的機器翻譯中,采用基于句子分析和語言生成技術的方法對口語句子進行了改寫。關于英語和日語的語句改寫研究,如文獻從語料庫中抽取用于改寫研究的改寫句子語料,注重于改寫語料庫資源的構(gòu)筑研究,對改寫句的生成涉較少。文獻則采用一種近似于無指導的學習方法將日語中的名詞短語改寫為動詞短語或是相關的從句,這種方法幾乎不需要手工干預,而且易于實現(xiàn)機器學習。文獻實現(xiàn)了對英語的改寫,把被改寫句中一系列不間斷的單詞事先編碼后映射到模板中,將從模板語法中抽取出的改寫規(guī)則遞歸的運用到改寫句的生成中,這種方法要求改寫句子的長度一般在5~12個單詞內(nèi)。
    由于漢語缺乏嚴格的形態(tài)變化,既不像英語有詞序、時態(tài)、人稱、詞尾變化等可參考,又不像日語有格助詞和詞尾變化等幫助決定句子的語法結(jié)構(gòu)和時態(tài),語序和虛詞是漢語表達的重要手段。所以漢語語句改寫的研究要相對困難。本文在對語句的語法結(jié)構(gòu)進行分析的基礎上使用基于模板的方法對幾種具有特殊結(jié)構(gòu)的漢語語句的改寫進行了研究。通過模板的抽出,可以積累改寫語料為后續(xù)研究提供資源。


l 基于模板的語句改寫方法
    該文采用基于模板的語句改寫方法,方法中的模板分為實例化模板和規(guī)則化模板。實例化模板是針對句子結(jié)構(gòu)比較復雜的特殊句型設計的,鑒于這種特殊語句很難使用規(guī)則模板進行描述,而實例模板能夠更好地體現(xiàn)其句子特性,并使模板匹配更加準確;規(guī)則化模板是由標志句子結(jié)構(gòu)的關鍵詞和其他的變項組成,語言知識的精細度高于規(guī)則并具有規(guī)則的抽象化特性。
    這里涉及改寫內(nèi)容主要是:句子結(jié)構(gòu)的變換,利用單句的特殊句式改變句子的結(jié)構(gòu)達到改寫的目的。
1.1 模板獲取分析
    漢語語法結(jié)構(gòu)的分析是模板建立的關鍵。漢語語言表達要求細致,語言中的同一個意義可以用不同的句法格式來表達,這就造成大量的同義句式存在。在進行語句分析中對于不同的詞類區(qū)別對待,將動詞、助詞、介詞、和虛詞保留,通過用變量來替代其他的一些實詞構(gòu)筑句子改寫模板。以例句1為例進行說明。
    例句1:我丟了辦公室的兩把鑰匙。
    在保持基本表達意思不變的情況下,在不同的場合根據(jù)不同的表達需要有不同的表達形式,即可用不同的句式來表示。表1中的四種句式可以用來表達例句1的意思。
    表1中的四種句式互為改寫句式。除A句式外,其他三種句式還可以因表達的需要而在內(nèi)部格式上有所變化,從而生成更多的改寫語句(見表2)。

可見例句1的改寫句達10余種,可對應抽出10種句式的改寫模板。
    根據(jù)漢語句子的結(jié)構(gòu)特點可以劃分出漢語句子的基本句型,通過對所有句型的分析歸納總結(jié)出能被改寫的幾類句型。對漢語中很難歸納到某種句型的特殊句式,通過分析最后歸納出存現(xiàn)句、倒裝句、名詞謂語句、雙重否定句、反問句、特指問句、選擇問句、“把”字句、“被”字句、“比”字句等在句子結(jié)構(gòu)上可以變換的句式。這些句式的轉(zhuǎn)換主要是主題的轉(zhuǎn)移,非常規(guī)語序大都是修辭的需要引起的。這些變化都多少會影響句子的感情色彩,但句子所要傳遞的信息沒有改變。為了說明和處理方便,在此僅介紹存現(xiàn)句。
1.2 存現(xiàn)句的模板獲取過程
    存現(xiàn)句是表示什么地方存在、出現(xiàn)或消失什么人或事物的句子式。從結(jié)構(gòu)上來說存現(xiàn)句由三部分組成:句首是表示處所或時間的詞或短語,中間是動詞或動詞短語,句末是名詞或名詞短語。存現(xiàn)句是一個歧義句式,既可以表示存在、表示靜態(tài),又可以表示活動、表示動態(tài)。因此同一個意思可以用不同的句式表達。下面通過例子給出了存現(xiàn)句的語句改寫模板的抽出過程。
    例:墻上掛著一幅畫。
    →(有)一幅畫在墻上掛著。
    →(有)一幅畫掛在墻上。
    對應如下變換關系的句法結(jié)構(gòu)框架:

    Np+V+著+N
    →(有)+N+V+在+Np
    在此,Np表示句首方處所結(jié)構(gòu);V表示動詞或動詞短語;N表示句末名詞性結(jié)構(gòu)。
    在原句式中,“掛”和“畫”是動作和受事關系,“墻上”表示存在的處所;在變換式中,“掛”和“畫”仍是動作和受事的關系,“墻上”仍表示“畫”的存在的處所。三者在共現(xiàn)詞之間的語義關系上保持不變。
    通過對存現(xiàn)句的句子結(jié)構(gòu)分析得出各種句法結(jié)構(gòu)框架,進一步進行抽象化,就得到了改寫模板。分別以s,f,t表示處所、方位和時間的品詞標記,則每種結(jié)構(gòu)都會有(s)處所詞,(f)方位詞,(t)時間詞。將其分離出來,作為該類模板的關鍵詞結(jié)構(gòu)。對于有介詞的句式,將介詞保留或是變換成另一種形式。合并名詞短語,形容詞短語等非關鍵成分,就得到了如下的改寫模板:

其他幾種句式比如倒裝句、名詞謂語句、雙重否定句、反問句、特指問句、選擇問句、“把”字句、“被”字句、“比”字句等的改寫模板的抽取過程與上述存現(xiàn)句的類似。


2 改寫的處理過程
    模板匹配是基于模板方法的改寫系統(tǒng)的關鍵,基本思想是實現(xiàn)一個具有少數(shù)關鍵詞常項、任意多個變項的模板匹配算法,把原語句中的任意符號串結(jié)構(gòu)自動替換成目標語句中的符號串結(jié)構(gòu)。在具有關鍵項、約束項、任意變項的模板匹配算法的基礎上,可以利用按照一定的層次結(jié)構(gòu)組織存貯的模板,實現(xiàn)從原語句到目標語句的自動改寫。在此關鍵項是指抽出的所有模板共通的關鍵詞,而約束項是指所有抽出模板中除關鍵項之外的關鍵詞。在進行語句改寫時對將要進行改寫的語句抽出其結(jié)構(gòu)框架,計算它與改寫模板的相似度以決定與之相匹配的改寫模板,計算式如式(1),式(2)所示。
    關鍵項相似度和約束項相似度計算:

則待改寫句與模板的相似度計算:

式中:SKW為待改寫句與模板對應的關鍵項個數(shù);RW為待改寫句與模板對應的約束項個數(shù);TKW為模板中所含關鍵項個數(shù);TRW為模板中所含約束項個數(shù);KWS為待改寫句與模板的關鍵項相似度;RWS為待改寫句與模板的約束項相似度;TemSim為待改寫句與模板的相似度;α,β是加權參數(shù)由預備試驗獲得。通過式(1),式(2)的計算獲得待改寫句與模板的相似度值,滿足設定的相似度閾值的模板用于改寫。


3 語句改寫實驗及考察
3.1 實驗數(shù)據(jù)及結(jié)果
    實驗使用了從中學課文中收集的約300個句子,模板庫中模板總數(shù)為196個。語句改寫的輸入內(nèi)容是使用分詞系統(tǒng)得到的分詞和詞性標注過的句子。改寫結(jié)果的正誤判斷通過手工進行。判斷的基準分為改寫正確和改寫錯誤。改寫正確:改寫句沒有錯誤、表達意思不變或錯誤較少及表達意思基本不變;改寫錯誤:信息缺失、語序混亂及表達意思改變。
    采用評價函數(shù)對抽出模板及其語句改寫的效果進行評價,公式如下:

式中:CPR為正確改寫率;TCR為模板覆蓋率;CPN為正確改寫數(shù)目;PST為改寫句子總數(shù);IST為輸入句子總數(shù)。由式(3)對實驗結(jié)果評價得到在被改寫句中改寫正確率為74.71%,模板覆蓋率為66.34%。
3.2 實驗結(jié)果的考察
    在被改寫的語句中隨機抽取200句,其中錯誤改寫句為49句。通過對改寫錯誤句子進行考察,獲得造成改寫誤差的不同原因。在改寫錯誤中由于分詞和詞性標注錯誤而導致改寫的錯誤約占19.23%,而由于待改寫句修飾成分過和多句子過長,則分詞后的詞匯信息單元過多,超出了模板所能描述的程度,出現(xiàn)的錯誤改寫率占38.46%。模板匹配錯誤而導致的改寫錯誤有:模板抽出的錯誤和相似度計算不夠精確而導致的錯誤的匹配分別占15.38 9/6和26.93%。由此可見對于較長的句子需要對抽出模板的方法進一步探討,此外相似度計算也有進一步改進的必要。


4 結(jié) 語
    通過考察句子的語法結(jié)構(gòu),抽出句子的結(jié)構(gòu)框架從而進行了語句改寫模板的構(gòu)造。對待改寫句則通過計算改寫句與相應模板的框架中包含的關鍵項和約束項的相似度進行模板的匹配。通過對小規(guī)模數(shù)據(jù)進行的實驗及考察給出了針對幾種特殊結(jié)構(gòu)的句子的改寫效果。錯誤分析指出了改寫方法及處理細節(jié)上存在的問題,在今后的研究中計劃針對抽取模板的細化、相似度計算方法的改進、擴大對不同結(jié)構(gòu)語句的模板的抽取范圍和進行較大規(guī)模數(shù)據(jù)的實驗考察等方面進行探討。

本站聲明: 本文章由作者或相關機構(gòu)授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉