小規(guī)模任務(wù)的神經(jīng)網(wǎng)絡(luò)應(yīng)用
在過去10-15年中,人工神經(jīng)網(wǎng)絡(luò)領(lǐng)域的發(fā)展迅速。典型的應(yīng)用是圖像處理、聲音等領(lǐng)域的高維數(shù)據(jù).然而,在機器學(xué)習(xí)中,系統(tǒng)輸入的數(shù)據(jù)量很小的任務(wù)很少:例如,異常事件建模、處理人工收集的分析數(shù)據(jù)、分析低頻傳感器的信號等。在這種情況下,一個重要階段是對系統(tǒng)訓(xùn)練有素的特點("特點")進行認真的工作,特別是從現(xiàn)有的基本特點中產(chǎn)生新的特點,這將能夠提高設(shè)計系統(tǒng)的性能質(zhì)量。手動方法通常用于這種生成,但是一個好的選擇是使用神經(jīng)網(wǎng)絡(luò),它不僅能夠?qū)W習(xí)基本的數(shù)學(xué)運算,而且能夠識別輸入數(shù)據(jù)中極其復(fù)雜的模式。
本文介紹了利用多層神經(jīng)網(wǎng)絡(luò)生成小維度數(shù)據(jù)背景下的附加特征的經(jīng)驗,其中基本特征的數(shù)量從十幾個到二十個不等。兩個數(shù)據(jù)集用于培訓(xùn)模型:真實數(shù)據(jù)集(記錄器的數(shù)據(jù))和合成數(shù)據(jù)集(生成數(shù)據(jù)),用于培訓(xùn)神經(jīng)網(wǎng)絡(luò),以便隨后產(chǎn)生額外的特征。
任務(wù)和數(shù)據(jù)說明
機器學(xué)習(xí)系統(tǒng)設(shè)計的基本任務(wù)是預(yù)測工業(yè)電氣裝置故障,這是由于線圈之間非臨界微故障的累積。故障在性質(zhì)上是零星的,是由于當其他設(shè)備打開或關(guān)閉時,出現(xiàn)高壓載波和脈沖噪聲引起的。
為了研究這一因素,將記錄器連接到電路的測試段;它在每個時間點的線圈的兩個控制點以50千赫茲的頻率記錄電位。隨后以半自動方式處理了記錄員提供的資料,結(jié)果獲得了一個培訓(xùn)樣本,其中說明了在一次設(shè)備換班(8小時)操作期間登記的微型故障的統(tǒng)計數(shù)字。
對問題的初步分析表明,由于系統(tǒng)的不對稱性,不同極性的故障以不同的方式影響系統(tǒng)的可靠性,而且它們之間有相當大的補償。因此,選擇以下標準作為目標變量:如果平衡(即:,在1-2型和2-1型轉(zhuǎn)換期間注冊的微故障數(shù)量之間的差異超過預(yù)設(shè)閾值T,那么分類器應(yīng)該在相反情況下生成1,在0。對于第一階段的研究,為閾值T選擇了一個零值,因為這提供了一個很好的類平衡。
下面您將從下表中列出的收集數(shù)據(jù)集中找到一些功能。
除了兩個基本的目標特征(從記錄器處理的數(shù)據(jù))之外,還計算了其他特征----根據(jù)經(jīng)驗規(guī)則和積累的經(jīng)驗作出的專家估計。表中僅包括那些通過了初步變異測試的特征。
野外的描述
u1線圈1號試驗點的絕對電位的平均值,平均值超過一個換檔(8小時)。
u2對2號線圈也一樣。
埃普_根據(jù)經(jīng)驗規(guī)則,專家評估某一轉(zhuǎn)移的微觀細目總數(shù)("1-2"類和"2-1"類)。
埃普_B總余額也是如此(事件數(shù)"1-2"減去"2-1")。
exp_pb1專家概率估計,微觀收支平衡將超過t閾值.
exp_pb2同樣的,平衡。
??怂筥pb0同樣,對于平衡=t(對于某些類型的裝置,這種情況很可能發(fā)生)。
y目標變量:
· 1,如果"1-2"類和"2-1"類事件之間的總平衡超過t閾值。
· 0,在相反的情況下。
在所收集的數(shù)據(jù)集中共有1376項觀測結(jié)果,根據(jù)確保從培訓(xùn)樣本到測試樣本不存在信息"泄漏"的時間順序原則,將其分為兩個部分。
樣品記錄號
培訓(xùn)和驗證部分1040
試驗部分336
為了評估模型的性能質(zhì)量,所選的度量是接收機工作特性曲線下的等面積。這個指標允許在不選擇觸發(fā)閾值的情況下對分類質(zhì)量進行估計(不同于其他標準指標:精確度、精確度、召回率、F1)。
客觀特征的可視化
無花果。1顯示訓(xùn)練樣本中兩個主要特征----U1和U2----坐標中各點的映射。點的顏色對應(yīng)于類(紅色-0,水-1)。
從各點的分布情況來看,這一分類任務(wù)顯然相當困難。
圖1點圖繪制
模式1:通過原始特征的方法
作為一個基礎(chǔ)模型,它決定使用邏輯回歸與特征的正?;?。這一選擇的原因是,對于這個任務(wù),良好的模型校準是非常重要的,選擇性的方法在決策樹(隨機林,XG提高,lgbm等)上很受歡迎。)與邏輯回歸相比,孤立的校準不太好。
模型的訓(xùn)練結(jié)果如圖所示.2(測試樣品的ROC曲線)和圖。3(特征空間U1、U2的分類輪廓以及訓(xùn)練樣本中的點)。
所得值 0.5532 在整個等離子體參數(shù)中,超過0.5的值,這相當于隨機猜測,也就是說,盡管有復(fù)雜的數(shù)據(jù)集,模型還是能夠從數(shù)據(jù)中提取有用的模式。
圖2試驗樣品的ROC曲線
圖3分類輪廓
模型2:添加額外的手動生成功能
根據(jù)經(jīng)驗規(guī)則,假設(shè)一個額外的特征,即U1-U2的潛在差異,可以幫助提高模型的質(zhì)量。在添加了這個特征之后,我們得到了如圖所示的結(jié)果.4.如你所見,質(zhì)量指標在一定程度上有所改進 0.5535 .
除此之外,還測試了第一階和第二階的多項式特征,但它們并沒有導(dǎo)致模型質(zhì)量的提高。
圖4ROC曲線
模型3:使用神經(jīng)網(wǎng)絡(luò)生成附加功能
除了上面描述的手動生成功能之外,還有一種方法是使用人工神經(jīng)網(wǎng)絡(luò),其優(yōu)點是它們可以學(xué)習(xí)一種相當復(fù)雜的功能,難以或無法用分析方法描述。在我們的例子中,正是這種情況:在非確定性條件下,最好使用一個額外的特征來描述兩個離散的概率過程之間的平衡,這些過程的參數(shù)由U1和U2特征設(shè)定。
為了實現(xiàn)這一方法,從10000個實例中生成了一個綜合數(shù)據(jù)集,其中隨機值被輸入到獨立的Poisson進程的輸入X1和X2參數(shù)中,目標變量被計算為二進制條件:如果進程1中的事件數(shù)量與進程2中的事件數(shù)量之間的平衡為正數(shù),那么目標變量為1,否則為0。
在這一合成樣本上訓(xùn)練了一個簡單的完全連接的神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)如圖所示。5.
圖5架構(gòu)
此外,在訓(xùn)練有素的神經(jīng)網(wǎng)絡(luò)的幫助下,另外生成了一個特征欄--分別用于訓(xùn)練和測試樣本。
在對基本模型(邏輯回歸與標準化)進行訓(xùn)練后,對測試樣品進行了UCROC測量。 0.5539 ,即結(jié)果比模型2要好。
結(jié)論和觀點
無花果。6載有上述三種方法的學(xué)習(xí)質(zhì)量簡表。
圖6簡表
得到的結(jié)果表明,調(diào)查中的問題比較復(fù)雜.盡管如此,已達到的質(zhì)量指標使我們能夠在實際情況下使用這一系統(tǒng)來預(yù)測預(yù)防性維修的時間,避免設(shè)備故障。
對這些方法的仔細檢查表明,最好的選擇是使用單獨的合成數(shù)據(jù)集對小型神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,然后利用該數(shù)據(jù)集在主要訓(xùn)練和測試樣本中生成額外的特征。
今后,最好嘗試在決策樹上使用算法,而不是邏輯回歸,采取額外的措施來校準發(fā)布的估計。此外,研究神經(jīng)網(wǎng)絡(luò)的不同架構(gòu),從它們代表各種復(fù)雜功能的能力來看,也是有意義的。
一般而言,這些組合系統(tǒng)(標準的機器學(xué)習(xí)算法+豐富特征的淺神經(jīng)網(wǎng)絡(luò))應(yīng)當用于那些由于輸入數(shù)據(jù)之間隱藏的互聯(lián)而不能很好地工作的簡單方法,而深神經(jīng)網(wǎng)絡(luò)由于數(shù)據(jù)的小維度而不適用的任務(wù)。例如設(shè)備故障預(yù)測系統(tǒng)、異常檢測、信用評分和其他類似任務(wù)。