數(shù)據(jù)挖掘技術(shù)在信息安全證據(jù)處理中的應(yīng)用

時間：2021-10-18 00:16:53

關(guān)鍵字：信息安全數(shù)據(jù)挖掘證據(jù) 規(guī)范化

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]摘要：為了有效解決信息安全證據(jù)獲取和證據(jù)規(guī)范化等難題，文章從數(shù)據(jù)挖掘的角度，闡述了如何搜集、處理信息安全在搜索潛在威脅時的證據(jù)，給出了如何獲取證據(jù)以及證據(jù)的規(guī)范化表示的基本思路，從而增強了信息網(wǎng)絡(luò)的安全信任屬性。

引言

隨著現(xiàn)代化計算機技術(shù)的不斷發(fā)展與進步，社會逐步進入網(wǎng)絡(luò)化和信息化的時代，網(wǎng)絡(luò)時代信息的有效收集、提取、存儲與分析等勢必也會與網(wǎng)絡(luò)產(chǎn)生千絲萬縷的聯(lián)系，但是，現(xiàn)階段網(wǎng)絡(luò)信息的安全性受到很大的挑戰(zhàn)，對網(wǎng)絡(luò)信息監(jiān)督與控制已是迫在眉睫。數(shù)據(jù)挖掘技術(shù)可以及時有效地發(fā)現(xiàn)信息本身的特征及不同信息系統(tǒng)之間的關(guān)系，進而追蹤信息發(fā)展,可以有效地實現(xiàn)對信息的監(jiān)督與控制。在計算機網(wǎng)絡(luò)系統(tǒng)中,會有很多包含信息安全的證據(jù)被隱藏于文本文件或者音頻、視頻等文件中。而網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)恰好可以針對證據(jù)的這類特點對數(shù)據(jù)進行分析與整理，發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系及數(shù)據(jù)本身所存在的某些特征，進而對信息安全進行有效監(jiān)督與控制。

1數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘是人工智能與數(shù)據(jù)庫技術(shù)相結(jié)合的產(chǎn)物，是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的卻又潛在有用的信息和知識的過程。根據(jù)數(shù)據(jù)挖掘的目標(biāo)，采用人工智能、集合論、統(tǒng)計學(xué)等方法，應(yīng)用相應(yīng)的數(shù)據(jù)挖掘算法，分析數(shù)據(jù)并通過可視化工具表述獲得模式或規(guī)則。它使數(shù)據(jù)存儲技術(shù)進入一個更高級階段，它不僅利用了傳統(tǒng)的數(shù)據(jù)庫的存儲功能，對歷史數(shù)據(jù)進行查詢和遍歷，而且還能夠找出歷史數(shù)據(jù)之間的內(nèi)在聯(lián)系，掘出數(shù)據(jù)庫中大量數(shù)據(jù)背后隱藏著的許多重要信息。這些信息是關(guān)于數(shù)據(jù)的整體特征的描述及對發(fā)展趨勢的預(yù)測，在決策生成中具有重要的參考價值。數(shù)據(jù)挖掘作為一門交叉學(xué)科，把人們對數(shù)據(jù)的應(yīng)用從低層次的簡單查詢，提升到從數(shù)據(jù)中挖掘知識，提供決策支持。該技術(shù)所能發(fā)現(xiàn)的知識可以劃分為如下幾種模型：關(guān)聯(lián)模型、回歸模型、分類模型以及序列模型等。

1.1關(guān)聯(lián)模型

關(guān)聯(lián)模型主要用于分析不同事件之間的關(guān)聯(lián)性，即一個事件發(fā)生的同時，另一個事件也經(jīng)常發(fā)生。關(guān)聯(lián)模型中所關(guān)注的重點是那些有實用價值的關(guān)聯(lián)發(fā)生的事件。其主要依據(jù)是事件發(fā)生的概率和條件概率應(yīng)該符合一定的統(tǒng)計意義。關(guān)聯(lián)的規(guī)則是形如X一Y的蘊涵式，表示數(shù)據(jù)庫中滿足x條件的記錄必定也滿足Y的條件。其中x和Y分別稱為關(guān)聯(lián)規(guī)則的先導(dǎo)(LHS)和后繼(RHS)。

1.2回歸模型

回歸模型主要是用于分析一個變量(被解釋變量)關(guān)于另一個(些)變量(解釋變量)的具體依賴關(guān)系的計算方法和理論。從一組樣本數(shù)據(jù)出發(fā)，確定變量之間的數(shù)學(xué)關(guān)系式對這些關(guān)系式的可信程度進行各種統(tǒng)計檢驗，并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著，哪些不顯著。利用所求的關(guān)系式，根據(jù)一個或幾個變量的取值來預(yù)測或控制另一個特定變量的取值，并給出這種預(yù)測或控制的精確程度。

1.3分類模型

分類模型主要是通過分析具有類別的樣本的特點，得到?jīng)Q定樣本屬于各種類別的規(guī)則或方法。利用這些規(guī)則和方法對未知類別的樣本分類時應(yīng)該具有一定的準(zhǔn)確度。其主要方法有基于統(tǒng)計學(xué)的貝葉斯方法、神經(jīng)網(wǎng)絡(luò)方法、決策樹方法等。

1.4序列模型

序列模型主要是在多個序列組成的數(shù)據(jù)集合中，設(shè)定一個最小支持度閾值，挖掘相對時間出現(xiàn)頻率較高，即子序列出現(xiàn)的頻率不低于給定的最小支持度閾值的模式。序列模式挖掘的對象以及結(jié)果都是有序排列的，即數(shù)據(jù)集中的每個序列在時間或空間上是有序的，輸出結(jié)果也是有序的。

2數(shù)據(jù)挖掘技術(shù)在信息安全中的應(yīng)用

信息安全的威脅無處不在，圖1所示給出了信息網(wǎng)絡(luò)所遭遇的較大威脅。隨著云計算和移動互聯(lián)讓IT產(chǎn)業(yè)發(fā)生巨變,這將不可避免地帶來信息安全產(chǎn)業(yè)的變革。以APT為代表的下一代安全威脅帶給業(yè)界前所未有的挑戰(zhàn)，基于社會工程學(xué)的攻擊方式也令人防不勝防，傳統(tǒng)的安全防護手段已經(jīng)不足以抵抗這些新的威脅。

數(shù)據(jù)挖掘技術(shù)在信息安全證據(jù)處理中的應(yīng)用

圖1 信息網(wǎng)絡(luò)所遭遇的大威脅

目前，網(wǎng)絡(luò)信息安全的監(jiān)督與控制手段主要集中在多種工具的綜合利用上，通過多元化的收集工具對信息進行收集,并在此基礎(chǔ)上采用一定的計算機算法對數(shù)據(jù)進行綜合處理,之后將信息進行歸類，提取需要的信息。這一信息收集處理過程與數(shù)據(jù)挖掘技術(shù)結(jié)合，使得整個過程分為數(shù)據(jù)的采集、預(yù)處理、挖掘、結(jié)果四部分，程序變得相對簡單。但如果與互聯(lián)網(wǎng)相連接，則會衍生出多種技術(shù)的綜合使用，比如針對某一特定網(wǎng)站或者數(shù)據(jù)庫的捜索等。通過網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)和信息處理分析與歸類技術(shù)對互聯(lián)網(wǎng)所收集的信息與數(shù)據(jù)進行整理存儲，再以某種特定算法對數(shù)據(jù)進行分析，之后找出數(shù)據(jù)的基本特征和數(shù)據(jù)之間的某種關(guān)系，從而為相關(guān)方面的決策提供建議。

2.1數(shù)據(jù)挖掘在信息安全證據(jù)獲取中的應(yīng)用

證據(jù)的獲取主要是對包括圖片、文本、視頻、音頻等在內(nèi)的多種數(shù)據(jù)形式進行信息的收集。要獲取全面可靠、劃分粒度適中、滿足應(yīng)用的證據(jù)是信息安全證據(jù)評估的基礎(chǔ)。包含網(wǎng)絡(luò)信息安全的各種證據(jù)包含在各種應(yīng)用協(xié)議報文的巨大網(wǎng)絡(luò)流量中。證據(jù)獲取要全面、實時、真實可靠，盡量不影響網(wǎng)絡(luò)的正常流量。目前，可用于獲取證據(jù)的方法有以下幾種［3］：

利用網(wǎng)絡(luò)流量檢測與分析工具，如Bandwidthd，它可以獲得每個網(wǎng)關(guān)的各種協(xié)議的詳細(xì)IP流量，查看網(wǎng)絡(luò)狀態(tài)，如數(shù)據(jù)包的傳輸和接收速率等。

利用目前已有的入侵檢測系統(tǒng)，如RealSecur,可以獲得訪問次數(shù)、操作時延，用戶入侵概率等。還有著名的KDD99網(wǎng)絡(luò)入侵檢測數(shù)據(jù)等。

利用審計跟蹤系統(tǒng)產(chǎn)生的系統(tǒng)事件記錄和用戶行為記錄，包括系統(tǒng)日志、審計記錄、應(yīng)用程序日志、網(wǎng)絡(luò)管理日志截獲的用戶數(shù)據(jù)包及相應(yīng)的操作記錄等。

專門的數(shù)據(jù)采集工具，如Cisc。的NetFlowMonitor，NetScout公司的NetScout網(wǎng)絡(luò)性能管理產(chǎn)品，可獲得不同用戶對帶寬的占用等。

根據(jù)協(xié)議標(biāo)準(zhǔn)(如RMON、SNMP等)自己開發(fā)軟件獲取信息安全證據(jù)。

根據(jù)獲取證據(jù)的行為方式，證據(jù)可分為主動獲取和被動獲取證據(jù)。主動獲取如IP分組的平均傳輸延遲，可用ping命令主動探測；而被動獲取證據(jù)是根據(jù)用戶的實際行為所產(chǎn)生的影響獲得證據(jù)，如用戶占用的存儲資源。

2.2數(shù)據(jù)挖掘在信息安全證據(jù)預(yù)處理中的應(yīng)用

在獲得證據(jù)后，還要進行“清理”，即剔除冗余的、無效的證據(jù)，將無序的、雜亂的證據(jù)整理成有序的、完備的證據(jù)，并進行規(guī)范化表示，為信息安全證據(jù)評估奠定堅實的基礎(chǔ)。證據(jù)的規(guī)范化表示有兩種方式：

2.2.1百分比和二進制表示證據(jù)的規(guī)范化表示

在百分比和二進制表示的證據(jù)其范圍本身都在［0,1］范圍內(nèi)，當(dāng)它們是正向遞增時不需要改變，但當(dāng)它們是正向遞減

值時，通過公式et=1/et將它們改變成正向遞增值。

2.2.2具體值表示證據(jù)的規(guī)范;化表示

對于正向遞增的具體值可以通過et=把它轉(zhuǎn)化成［0,1］范圍內(nèi)的正向遞增值，其中etmax是et范圍內(nèi)的最大值。對于正向遞減的具體值可以通過et=把它轉(zhuǎn)化為［0,1］范圍的正向遞增值。

2.3信息安全證據(jù)庫挖掘?qū)傩苑治?

經(jīng)過前期數(shù)據(jù)獲取與預(yù)處理之后，生成統(tǒng)一的證據(jù)庫,之后便需要對這些證據(jù)進行數(shù)據(jù)挖掘?qū)傩苑治觯源_定從模型庫中選擇相對應(yīng)的模型，從算法庫中選取要采用的算法。預(yù)處理后的證據(jù)庫具有以下兩個性質(zhì)：

原始證據(jù)的客觀性使得信息安全的主觀判斷具有客觀依據(jù)，同時，也為具有主觀特殊性的信任信息共享提供了可能性。

證據(jù)的規(guī)范化處理解決了證據(jù)的范圍、單調(diào)性和方向性不一致問題，因為即使兩個原始證據(jù)有組合的意義，但如果兩個證據(jù)值范圍差別很大的話，權(quán)重組合會導(dǎo)致大的數(shù)據(jù)淹沒小的數(shù)據(jù)。

另外，要提高證據(jù)挖掘的整體準(zhǔn)確性與針對性，還需要不斷進行挖掘方法的試錯，通過試錯來找到最好的算法，也就是我們所熟悉的挖掘訓(xùn)練。這個過程主要表現(xiàn)如下：首先從證據(jù)庫中抽取一部分?jǐn)?shù)據(jù)作為訓(xùn)練樣本，之后從算法庫中選取某種算法，從模型庫中選取某種模型，將數(shù)據(jù)挖掘的結(jié)果與參照集進行一定的對比。如果結(jié)合與要求相符，則開始正式的挖掘，反之，則需要重新選擇。

3結(jié)語

信息安全的實質(zhì)就是要保護信息系統(tǒng)或信息網(wǎng)絡(luò)中的信息資源免受各種類型的威脅、干擾和破壞，即保證信息的安全性。通過網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)，可以有效解決信息安全在證據(jù)獲取和處理分類上所遇到難題，生成規(guī)范的證據(jù)庫。結(jié)合挖掘模型庫和挖掘算法，可以有效發(fā)現(xiàn)信息網(wǎng)絡(luò)中潛在的威脅因素，提高信息網(wǎng)絡(luò)的安全指數(shù)。

20211018_616c4c4218ece__數(shù)據(jù)挖掘技術(shù)在信息安全證據(jù)處理中的應(yīng)用