當(dāng)前位置:首頁 > 智能硬件 > 人工智能AI
[導(dǎo)讀] CNN是目前自然語言處理中和RNN并駕齊驅(qū)的兩種最常見的深度學(xué)習(xí)模型。圖1展示了在NLP任務(wù)中使用CNN模型的典型網(wǎng)絡(luò)結(jié)構(gòu)。一般而言,輸入的字或者詞用Word Embedding的方式表達(dá),這樣

CNN是目前自然語言處理中和RNN并駕齊驅(qū)的兩種最常見的深度學(xué)習(xí)模型。圖1展示了在NLP任務(wù)中使用CNN模型的典型網(wǎng)絡(luò)結(jié)構(gòu)。一般而言,輸入的字或者詞用Word Embedding的方式表達(dá),這樣本來一維的文本信息輸入就轉(zhuǎn)換成了二維的輸入結(jié)構(gòu),假設(shè)輸入X包含m個(gè)字符,而每個(gè)字符的Word Embedding的長度為d,那么輸入就是m*d的二維向量。

 

圖1 自然語言處理中CNN模型典型網(wǎng)絡(luò)結(jié)構(gòu)

這里可以看出,因?yàn)镹LP中的句子長度是不同的,所以CNN的輸入矩陣大小是不確定的,這取決于m的大小是多少。卷積層本質(zhì)上是個(gè)特征抽取層,可以設(shè)定超參數(shù)F來指定設(shè)立多少個(gè)特征抽取器(Filter),對(duì)于某個(gè)Filter來說,可以想象有一個(gè)k*d大小的移動(dòng)窗口從輸入矩陣的第一個(gè)字開始不斷往后移動(dòng),其中k是Filter指定的窗口大小,d是Word Embedding長度。對(duì)于某個(gè)時(shí)刻的窗口,通過神經(jīng)網(wǎng)絡(luò)的非線性變換,將這個(gè)窗口內(nèi)的輸入值轉(zhuǎn)換為某個(gè)特征值,隨著窗口不斷往后移動(dòng),這個(gè)Filter對(duì)應(yīng)的特征值不斷產(chǎn)生,形成這個(gè)Filter的特征向量。這就是卷積層抽取特征的過程。每個(gè)Filter都如此操作,形成了不同的特征抽取器。Pooling 層則對(duì)Filter的特征進(jìn)行降維操作,形成最終的特征。一般在Pooling層之后連接全聯(lián)接層神經(jīng)網(wǎng)絡(luò),形成最后的分類過程。

可見,卷積和Pooling是CNN中最重要的兩個(gè)步驟。下面我們重點(diǎn)介紹NLP中CNN模型常見的Pooling操作方法。

|CNN中的Max Pooling Over TIme操作

MaxPooling Over TIme是NLP中CNN模型中最常見的一種下采樣操作。意思是對(duì)于某個(gè)Filter抽取到若干特征值,只取其中得分最大的那個(gè)值作為Pooling層保留值,其它特征值全部拋棄,值最大代表只保留這些特征中最強(qiáng)的,而拋棄其它弱的此類特征。

CNN中采用Max Pooling操作有幾個(gè)好處:首先,這個(gè)操作可以保證特征的位置與旋轉(zhuǎn)不變性,因?yàn)椴徽撨@個(gè)強(qiáng)特征在哪個(gè)位置出現(xiàn),都會(huì)不考慮其出現(xiàn)位置而能把它提出來。對(duì)于圖像處理來說這種位置與旋轉(zhuǎn)不變性是很好的特性,但是對(duì)于NLP來說,這個(gè)特性其實(shí)并不一定是好事,因?yàn)樵诤芏郚LP的應(yīng)用場合,特征的出現(xiàn)位置信息是很重要的,比如主語出現(xiàn)位置一般在句子頭,賓語一般出現(xiàn)在句子尾等等,這些位置信息其實(shí)有時(shí)候?qū)τ诜诸惾蝿?wù)來說還是很重要的,但是Max Pooling 基本把這些信息拋掉了。

其次,MaxPooling能減少模型參數(shù)數(shù)量,有利于減少模型過擬合問題。因?yàn)榻?jīng)過Pooling操作后,往往把2D或者1D的數(shù)組轉(zhuǎn)換為單一數(shù)值,這樣對(duì)于后續(xù)的ConvoluTIon層或者全聯(lián)接隱層來說無疑單個(gè)Filter的參數(shù)或者隱層神經(jīng)元個(gè)數(shù)就減少了。

再者,對(duì)于NLP任務(wù)來說,Max Pooling有個(gè)額外的好處;在此處,可以把變長的輸入X整理成固定長度的輸入。因?yàn)镃NN最后往往會(huì)接全聯(lián)接層,而其神經(jīng)元個(gè)數(shù)是需要事先定好的,如果輸入是不定長的那么很難設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)。前文說過,CNN模型的輸入X長度是不確定的,而通過Pooling 操作,每個(gè)Filter固定取1個(gè)值,那么有多少個(gè)Filter,Pooling層就有多少個(gè)神經(jīng)元,這樣就可以把全聯(lián)接層神經(jīng)元個(gè)數(shù)固定住(如圖2所示),這個(gè)優(yōu)點(diǎn)也是非常重要的。

 

圖2. Pooling層神經(jīng)元個(gè)數(shù)等于Filters個(gè)數(shù)

但是,CNN模型采取MaxPooling Over TIme也有一些值得注意的缺點(diǎn):首先就如上所述,特征的位置信息在這一步驟完全丟失。在卷積層其實(shí)是保留了特征的位置信息的,但是通過取唯一的最大值,現(xiàn)在在Pooling層只知道這個(gè)最大值是多少,但是其出現(xiàn)位置信息并沒有保留;另外一個(gè)明顯的缺點(diǎn)是:有時(shí)候有些強(qiáng)特征會(huì)出現(xiàn)多次,比如我們常見的TF.IDF公式,TF就是指某個(gè)特征出現(xiàn)的次數(shù),出現(xiàn)次數(shù)越多說明這個(gè)特征越強(qiáng),但是因?yàn)镸ax Pooling只保留一個(gè)最大值,所以即使某個(gè)特征出現(xiàn)多次,現(xiàn)在也只能看到一次,就是說同一特征的強(qiáng)度信息丟失了。這是Max Pooling Over Time典型的兩個(gè)缺點(diǎn)。

其實(shí),我們常說“危機(jī)危機(jī)”,對(duì)這個(gè)詞匯樂觀的解讀是“危險(xiǎn)就是機(jī)遇”。同理,發(fā)現(xiàn)模型的缺點(diǎn)是個(gè)好事情,因?yàn)閯?chuàng)新往往就是通過改進(jìn)模型的缺點(diǎn)而引發(fā)出來的。那么怎么改進(jìn)Pooling層的機(jī)制能夠緩解上述問題呢?下面兩個(gè)常見的改進(jìn)Pooling機(jī)制就是干這個(gè)事情的。

|K-Max Pooling

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動(dòng)力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉