數(shù)據(jù)挖掘技術(shù)在信息安全證據(jù)處理中的應(yīng)用
掃描二維碼
隨時(shí)隨地手機(jī)看文章
引言
隨著現(xiàn)代化計(jì)算機(jī)技術(shù)的不斷發(fā)展與進(jìn)步,社會(huì)逐步進(jìn)入網(wǎng)絡(luò)化和信息化的時(shí)代,網(wǎng)絡(luò)時(shí)代信息的有效收集、提取、存儲(chǔ)與分析等勢必也會(huì)與網(wǎng)絡(luò)產(chǎn)生千絲萬縷的聯(lián)系,但是,現(xiàn)階段網(wǎng)絡(luò)信息的安全性受到很大的挑戰(zhàn),對網(wǎng)絡(luò)信息監(jiān)督與控制已是迫在眉睫。數(shù)據(jù)挖掘技術(shù)可以及時(shí)有效地發(fā)現(xiàn)信息本身的特征及不同信息系統(tǒng)之間的關(guān)系,進(jìn)而追蹤信息發(fā)展,可以有效地實(shí)現(xiàn)對信息的監(jiān)督與控制。在計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)中,會(huì)有很多包含信息安全的證據(jù)被隱藏于文本文件或者音頻、視頻等文件中。而網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)恰好可以針對證據(jù)的這類特點(diǎn)對數(shù)據(jù)進(jìn)行分析與整理,發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系及數(shù)據(jù)本身所存在的某些特征,進(jìn)而對信息安全進(jìn)行有效監(jiān)督與控制。
1數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘是人工智能與數(shù)據(jù)庫技術(shù)相結(jié)合的產(chǎn)物,是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的卻又潛在有用的信息和知識(shí)的過程。根據(jù)數(shù)據(jù)挖掘的目標(biāo),采用人工智能、集合論、統(tǒng)計(jì)學(xué)等方法,應(yīng)用相應(yīng)的數(shù)據(jù)挖掘算法,分析數(shù)據(jù)并通過可視化工具表述獲得模式或規(guī)則。它使數(shù)據(jù)存儲(chǔ)技術(shù)進(jìn)入一個(gè)更高級階段,它不僅利用了傳統(tǒng)的數(shù)據(jù)庫的存儲(chǔ)功能,對歷史數(shù)據(jù)進(jìn)行查詢和遍歷,而且還能夠找出歷史數(shù)據(jù)之間的內(nèi)在聯(lián)系,掘出數(shù)據(jù)庫中大量數(shù)據(jù)背后隱藏著的許多重要信息。這些信息是關(guān)于數(shù)據(jù)的整體特征的描述及對發(fā)展趨勢的預(yù)測,在決策生成中具有重要的參考價(jià)值。數(shù)據(jù)挖掘作為一門交叉學(xué)科,把人們對數(shù)據(jù)的應(yīng)用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖掘知識(shí),提供決策支持。該技術(shù)所能發(fā)現(xiàn)的知識(shí)可以劃分為如下幾種模型:關(guān)聯(lián)模型、回歸模型、分類模型以及序列模型等。
1.1關(guān)聯(lián)模型
關(guān)聯(lián)模型主要用于分析不同事件之間的關(guān)聯(lián)性,即一個(gè)事件發(fā)生的同時(shí),另一個(gè)事件也經(jīng)常發(fā)生。關(guān)聯(lián)模型中所關(guān)注的重點(diǎn)是那些有實(shí)用價(jià)值的關(guān)聯(lián)發(fā)生的事件。其主要依據(jù)是事件發(fā)生的概率和條件概率應(yīng)該符合一定的統(tǒng)計(jì)意義。關(guān)聯(lián)的規(guī)則是形如X一Y的蘊(yùn)涵式,表示數(shù)據(jù)庫中滿足x條件的記錄必定也滿足Y的條件。其中x和Y分別稱為關(guān)聯(lián)規(guī)則的先導(dǎo)(LHS)和后繼(RHS)。
1.2回歸模型
回歸模型主要是用于分析一個(gè)變量(被解釋變量)關(guān)于另一個(gè)(些)變量(解釋變量)的具體依賴關(guān)系的計(jì)算方法和理論。從一組樣本數(shù)據(jù)出發(fā),確定變量之間的數(shù)學(xué)關(guān)系式對這些關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn),并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些不顯著。利用所求的關(guān)系式,根據(jù)一個(gè)或幾個(gè)變量的取值來預(yù)測或控制另一個(gè)特定變量的取值,并給出這種預(yù)測或控制的精確程度。
1.3分類模型
分類模型主要是通過分析具有類別的樣本的特點(diǎn),得到?jīng)Q定樣本屬于各種類別的規(guī)則或方法。利用這些規(guī)則和方法對未知類別的樣本分類時(shí)應(yīng)該具有一定的準(zhǔn)確度。其主要方法有基于統(tǒng)計(jì)學(xué)的貝葉斯方法、神經(jīng)網(wǎng)絡(luò)方法、決策樹方法等。
1.4序列模型
序列模型主要是在多個(gè)序列組成的數(shù)據(jù)集合中,設(shè)定一個(gè)最小支持度閾值,挖掘相對時(shí)間出現(xiàn)頻率較高,即子序列出現(xiàn)的頻率不低于給定的最小支持度閾值的模式。序列模式挖掘的對象以及結(jié)果都是有序排列的,即數(shù)據(jù)集中的每個(gè)序列在時(shí)間或空間上是有序的,輸出結(jié)果也是有序的。
2數(shù)據(jù)挖掘技術(shù)在信息安全中的應(yīng)用
信息安全的威脅無處不在,圖1所示給出了信息網(wǎng)絡(luò)所遭遇的較大威脅。隨著云計(jì)算和移動(dòng)互聯(lián)讓IT產(chǎn)業(yè)發(fā)生巨變,這將不可避免地帶來信息安全產(chǎn)業(yè)的變革。以APT為代表的下一代安全威脅帶給業(yè)界前所未有的挑戰(zhàn),基于社會(huì)工程學(xué)的攻擊方式也令人防不勝防,傳統(tǒng)的安全防護(hù)手段已經(jīng)不足以抵抗這些新的威脅。
圖1 信息網(wǎng)絡(luò)所遭遇的大威脅
目前,網(wǎng)絡(luò)信息安全的監(jiān)督與控制手段主要集中在多種工具的綜合利用上,通過多元化的收集工具對信息進(jìn)行收集,并在此基礎(chǔ)上采用一定的計(jì)算機(jī)算法對數(shù)據(jù)進(jìn)行綜合處理,之后將信息進(jìn)行歸類,提取需要的信息。這一信息收集處理過程與數(shù)據(jù)挖掘技術(shù)結(jié)合,使得整個(gè)過程分為數(shù)據(jù)的采集、預(yù)處理、挖掘、結(jié)果四部分,程序變得相對簡單。但如果與互聯(lián)網(wǎng)相連接,則會(huì)衍生出多種技術(shù)的綜合使用,比如針對某一特定網(wǎng)站或者數(shù)據(jù)庫的捜索等。通過網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)和信息處理分析與歸類技術(shù)對互聯(lián)網(wǎng)所收集的信息與數(shù)據(jù)進(jìn)行整理存儲(chǔ),再以某種特定算法對數(shù)據(jù)進(jìn)行分析,之后找出數(shù)據(jù)的基本特征和數(shù)據(jù)之間的某種關(guān)系,從而為相關(guān)方面的決策提供建議。
2.1數(shù)據(jù)挖掘在信息安全證據(jù)獲取中的應(yīng)用
證據(jù)的獲取主要是對包括圖片、文本、視頻、音頻等在內(nèi)的多種數(shù)據(jù)形式進(jìn)行信息的收集。要獲取全面可靠、劃分粒度適中、滿足應(yīng)用的證據(jù)是信息安全證據(jù)評估的基礎(chǔ)。包含網(wǎng)絡(luò)信息安全的各種證據(jù)包含在各種應(yīng)用協(xié)議報(bào)文的巨大網(wǎng)絡(luò)流量中。證據(jù)獲取要全面、實(shí)時(shí)、真實(shí)可靠,盡量不影響網(wǎng)絡(luò)的正常流量。目前,可用于獲取證據(jù)的方法有以下幾種[3]:
利用網(wǎng)絡(luò)流量檢測與分析工具,如Bandwidthd,它可以獲得每個(gè)網(wǎng)關(guān)的各種協(xié)議的詳細(xì)IP流量,查看網(wǎng)絡(luò)狀態(tài),如數(shù)據(jù)包的傳輸和接收速率等。
利用目前已有的入侵檢測系統(tǒng),如RealSecur,可以獲得訪問次數(shù)、操作時(shí)延,用戶入侵概率等。還有著名的KDD99網(wǎng)絡(luò)入侵檢測數(shù)據(jù)等。
利用審計(jì)跟蹤系統(tǒng)產(chǎn)生的系統(tǒng)事件記錄和用戶行為記錄,包括系統(tǒng)日志、審計(jì)記錄、應(yīng)用程序日志、網(wǎng)絡(luò)管理日志截獲的用戶數(shù)據(jù)包及相應(yīng)的操作記錄等。
專門的數(shù)據(jù)采集工具,如Cisc。的NetFlowMonitor,NetScout公司的NetScout網(wǎng)絡(luò)性能管理產(chǎn)品,可獲得不同用戶對帶寬的占用等。
根據(jù)協(xié)議標(biāo)準(zhǔn)(如RMON、SNMP等)自己開發(fā)軟件獲取信息安全證據(jù)。
根據(jù)獲取證據(jù)的行為方式,證據(jù)可分為主動(dòng)獲取和被動(dòng)獲取證據(jù)。主動(dòng)獲取如IP分組的平均傳輸延遲,可用ping命令主動(dòng)探測;而被動(dòng)獲取證據(jù)是根據(jù)用戶的實(shí)際行為所產(chǎn)生的影響獲得證據(jù),如用戶占用的存儲(chǔ)資源。
2.2數(shù)據(jù)挖掘在信息安全證據(jù)預(yù)處理中的應(yīng)用
在獲得證據(jù)后,還要進(jìn)行“清理”,即剔除冗余的、無效的證據(jù),將無序的、雜亂的證據(jù)整理成有序的、完備的證據(jù),并進(jìn)行規(guī)范化表示,為信息安全證據(jù)評估奠定堅(jiān)實(shí)的基礎(chǔ)。證據(jù)的規(guī)范化表示有兩種方式:
2.2.1百分比和二進(jìn)制表示證據(jù)的規(guī)范化表示
在百分比和二進(jìn)制表示的證據(jù)其范圍本身都在[0,1]范圍內(nèi),當(dāng)它們是正向遞增時(shí)不需要改變,但當(dāng)它們是正向遞減
值時(shí),通過公式et=1/et將它們改變成正向遞增值。
2.2.2具體值表示證據(jù)的規(guī)范;化表示
對于正向遞增的具體值可以通過et=把它轉(zhuǎn)化成[0,1]范圍內(nèi)的正向遞增值,其中etmax是et范圍內(nèi)的最大值。對于正向遞減的具體值可以通過et=把它轉(zhuǎn)化為[0,1]范圍的正向遞增值。
2.3信息安全證據(jù)庫挖掘?qū)傩苑治?
經(jīng)過前期數(shù)據(jù)獲取與預(yù)處理之后,生成統(tǒng)一的證據(jù)庫,之后便需要對這些證據(jù)進(jìn)行數(shù)據(jù)挖掘?qū)傩苑治?,以確定從模型庫中選擇相對應(yīng)的模型,從算法庫中選取要采用的算法。預(yù)處理后的證據(jù)庫具有以下兩個(gè)性質(zhì):
原始證據(jù)的客觀性使得信息安全的主觀判斷具有客觀依據(jù),同時(shí),也為具有主觀特殊性的信任信息共享提供了可能性。
證據(jù)的規(guī)范化處理解決了證據(jù)的范圍、單調(diào)性和方向性不一致問題,因?yàn)榧词箖蓚€(gè)原始證據(jù)有組合的意義,但如果兩個(gè)證據(jù)值范圍差別很大的話,權(quán)重組合會(huì)導(dǎo)致大的數(shù)據(jù)淹沒小的數(shù)據(jù)。
另外,要提高證據(jù)挖掘的整體準(zhǔn)確性與針對性,還需要不斷進(jìn)行挖掘方法的試錯(cuò),通過試錯(cuò)來找到最好的算法,也就是我們所熟悉的挖掘訓(xùn)練。這個(gè)過程主要表現(xiàn)如下:首先從證據(jù)庫中抽取一部分?jǐn)?shù)據(jù)作為訓(xùn)練樣本,之后從算法庫中選取某種算法,從模型庫中選取某種模型,將數(shù)據(jù)挖掘的結(jié)果與參照集進(jìn)行一定的對比。如果結(jié)合與要求相符,則開始正式的挖掘,反之,則需要重新選擇。
3結(jié)語
信息安全的實(shí)質(zhì)就是要保護(hù)信息系統(tǒng)或信息網(wǎng)絡(luò)中的信息資源免受各種類型的威脅、干擾和破壞,即保證信息的安全性。通過網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù),可以有效解決信息安全在證據(jù)獲取和處理分類上所遇到難題,生成規(guī)范的證據(jù)庫。結(jié)合挖掘模型庫和挖掘算法,可以有效發(fā)現(xiàn)信息網(wǎng)絡(luò)中潛在的威脅因素,提高信息網(wǎng)絡(luò)的安全指數(shù)。
20211018_616c4c4218ece__數(shù)據(jù)挖掘技術(shù)在信息安全證據(jù)處理中的應(yīng)用