當(dāng)前位置:首頁 > 物聯(lián)網(wǎng) > 《物聯(lián)網(wǎng)技術(shù)》雜志
[導(dǎo)讀]摘要:為了有效解決信息安全證據(jù)獲取和證據(jù)規(guī)范化等難題,文章從數(shù)據(jù)挖掘的角度,闡述了如何搜集、處理信息安全在搜索潛在威脅時(shí)的證據(jù),給出了如何獲取證據(jù)以及證據(jù)的規(guī)范化表示的基本思路,從而增強(qiáng)了信息網(wǎng)絡(luò)的安全信任屬性。

引言

隨著現(xiàn)代化計(jì)算機(jī)技術(shù)的不斷發(fā)展與進(jìn)步,社會(huì)逐步進(jìn)入網(wǎng)絡(luò)化和信息化的時(shí)代,網(wǎng)絡(luò)時(shí)代信息的有效收集、提取、存儲(chǔ)與分析等勢必也會(huì)與網(wǎng)絡(luò)產(chǎn)生千絲萬縷的聯(lián)系,但是,現(xiàn)階段網(wǎng)絡(luò)信息的安全性受到很大的挑戰(zhàn),對網(wǎng)絡(luò)信息監(jiān)督與控制已是迫在眉睫。數(shù)據(jù)挖掘技術(shù)可以及時(shí)有效地發(fā)現(xiàn)信息本身的特征及不同信息系統(tǒng)之間的關(guān)系,進(jìn)而追蹤信息發(fā)展,可以有效地實(shí)現(xiàn)對信息的監(jiān)督與控制。在計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)中,會(huì)有很多包含信息安全的證據(jù)被隱藏于文本文件或者音頻、視頻等文件中。而網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)恰好可以針對證據(jù)的這類特點(diǎn)對數(shù)據(jù)進(jìn)行分析與整理,發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系及數(shù)據(jù)本身所存在的某些特征,進(jìn)而對信息安全進(jìn)行有效監(jiān)督與控制。

1數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘是人工智能與數(shù)據(jù)庫技術(shù)相結(jié)合的產(chǎn)物,是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的卻又潛在有用的信息和知識(shí)的過程。根據(jù)數(shù)據(jù)挖掘的目標(biāo),采用人工智能、集合論、統(tǒng)計(jì)學(xué)等方法,應(yīng)用相應(yīng)的數(shù)據(jù)挖掘算法,分析數(shù)據(jù)并通過可視化工具表述獲得模式或規(guī)則。它使數(shù)據(jù)存儲(chǔ)技術(shù)進(jìn)入一個(gè)更高級階段,它不僅利用了傳統(tǒng)的數(shù)據(jù)庫的存儲(chǔ)功能,對歷史數(shù)據(jù)進(jìn)行查詢和遍歷,而且還能夠找出歷史數(shù)據(jù)之間的內(nèi)在聯(lián)系,掘出數(shù)據(jù)庫中大量數(shù)據(jù)背后隱藏著的許多重要信息。這些信息是關(guān)于數(shù)據(jù)的整體特征的描述及對發(fā)展趨勢的預(yù)測,在決策生成中具有重要的參考價(jià)值。數(shù)據(jù)挖掘作為一門交叉學(xué)科,把人們對數(shù)據(jù)的應(yīng)用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖掘知識(shí),提供決策支持。該技術(shù)所能發(fā)現(xiàn)的知識(shí)可以劃分為如下幾種模型:關(guān)聯(lián)模型、回歸模型、分類模型以及序列模型等。

1.1關(guān)聯(lián)模型

關(guān)聯(lián)模型主要用于分析不同事件之間的關(guān)聯(lián)性,即一個(gè)事件發(fā)生的同時(shí),另一個(gè)事件也經(jīng)常發(fā)生。關(guān)聯(lián)模型中所關(guān)注的重點(diǎn)是那些有實(shí)用價(jià)值的關(guān)聯(lián)發(fā)生的事件。其主要依據(jù)是事件發(fā)生的概率和條件概率應(yīng)該符合一定的統(tǒng)計(jì)意義。關(guān)聯(lián)的規(guī)則是形如X一Y的蘊(yùn)涵式,表示數(shù)據(jù)庫中滿足x條件的記錄必定也滿足Y的條件。其中x和Y分別稱為關(guān)聯(lián)規(guī)則的先導(dǎo)(LHS)和后繼(RHS)。

1.2回歸模型

回歸模型主要是用于分析一個(gè)變量(被解釋變量)關(guān)于另一個(gè)(些)變量(解釋變量)的具體依賴關(guān)系的計(jì)算方法和理論。從一組樣本數(shù)據(jù)出發(fā),確定變量之間的數(shù)學(xué)關(guān)系式對這些關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn),并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些不顯著。利用所求的關(guān)系式,根據(jù)一個(gè)或幾個(gè)變量的取值來預(yù)測或控制另一個(gè)特定變量的取值,并給出這種預(yù)測或控制的精確程度。

1.3分類模型

分類模型主要是通過分析具有類別的樣本的特點(diǎn),得到?jīng)Q定樣本屬于各種類別的規(guī)則或方法。利用這些規(guī)則和方法對未知類別的樣本分類時(shí)應(yīng)該具有一定的準(zhǔn)確度。其主要方法有基于統(tǒng)計(jì)學(xué)的貝葉斯方法、神經(jīng)網(wǎng)絡(luò)方法、決策樹方法等。

1.4序列模型

序列模型主要是在多個(gè)序列組成的數(shù)據(jù)集合中,設(shè)定一個(gè)最小支持度閾值,挖掘相對時(shí)間出現(xiàn)頻率較高,即子序列出現(xiàn)的頻率不低于給定的最小支持度閾值的模式。序列模式挖掘的對象以及結(jié)果都是有序排列的,即數(shù)據(jù)集中的每個(gè)序列在時(shí)間或空間上是有序的,輸出結(jié)果也是有序的。

2數(shù)據(jù)挖掘技術(shù)在信息安全中的應(yīng)用

信息安全的威脅無處不在,圖1所示給出了信息網(wǎng)絡(luò)所遭遇的較大威脅。隨著云計(jì)算和移動(dòng)互聯(lián)讓IT產(chǎn)業(yè)發(fā)生巨變,這將不可避免地帶來信息安全產(chǎn)業(yè)的變革。以APT為代表的下一代安全威脅帶給業(yè)界前所未有的挑戰(zhàn),基于社會(huì)工程學(xué)的攻擊方式也令人防不勝防,傳統(tǒng)的安全防護(hù)手段已經(jīng)不足以抵抗這些新的威脅。

數(shù)據(jù)挖掘技術(shù)在信息安全證據(jù)處理中的應(yīng)用

圖1  信息網(wǎng)絡(luò)所遭遇的大威脅

目前,網(wǎng)絡(luò)信息安全的監(jiān)督與控制手段主要集中在多種工具的綜合利用上,通過多元化的收集工具對信息進(jìn)行收集,并在此基礎(chǔ)上采用一定的計(jì)算機(jī)算法對數(shù)據(jù)進(jìn)行綜合處理,之后將信息進(jìn)行歸類,提取需要的信息。這一信息收集處理過程與數(shù)據(jù)挖掘技術(shù)結(jié)合,使得整個(gè)過程分為數(shù)據(jù)的采集、預(yù)處理、挖掘、結(jié)果四部分,程序變得相對簡單。但如果與互聯(lián)網(wǎng)相連接,則會(huì)衍生出多種技術(shù)的綜合使用,比如針對某一特定網(wǎng)站或者數(shù)據(jù)庫的捜索等。通過網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)和信息處理分析與歸類技術(shù)對互聯(lián)網(wǎng)所收集的信息與數(shù)據(jù)進(jìn)行整理存儲(chǔ),再以某種特定算法對數(shù)據(jù)進(jìn)行分析,之后找出數(shù)據(jù)的基本特征和數(shù)據(jù)之間的某種關(guān)系,從而為相關(guān)方面的決策提供建議。

2.1數(shù)據(jù)挖掘在信息安全證據(jù)獲取中的應(yīng)用

證據(jù)的獲取主要是對包括圖片、文本、視頻、音頻等在內(nèi)的多種數(shù)據(jù)形式進(jìn)行信息的收集。要獲取全面可靠、劃分粒度適中、滿足應(yīng)用的證據(jù)是信息安全證據(jù)評估的基礎(chǔ)。包含網(wǎng)絡(luò)信息安全的各種證據(jù)包含在各種應(yīng)用協(xié)議報(bào)文的巨大網(wǎng)絡(luò)流量中。證據(jù)獲取要全面、實(shí)時(shí)、真實(shí)可靠,盡量不影響網(wǎng)絡(luò)的正常流量。目前,可用于獲取證據(jù)的方法有以下幾種[3]:

利用網(wǎng)絡(luò)流量檢測與分析工具,如Bandwidthd,它可以獲得每個(gè)網(wǎng)關(guān)的各種協(xié)議的詳細(xì)IP流量,查看網(wǎng)絡(luò)狀態(tài),如數(shù)據(jù)包的傳輸和接收速率等。

利用目前已有的入侵檢測系統(tǒng),如RealSecur,可以獲得訪問次數(shù)、操作時(shí)延,用戶入侵概率等。還有著名的KDD99網(wǎng)絡(luò)入侵檢測數(shù)據(jù)等。

利用審計(jì)跟蹤系統(tǒng)產(chǎn)生的系統(tǒng)事件記錄和用戶行為記錄,包括系統(tǒng)日志、審計(jì)記錄、應(yīng)用程序日志、網(wǎng)絡(luò)管理日志截獲的用戶數(shù)據(jù)包及相應(yīng)的操作記錄等。

專門的數(shù)據(jù)采集工具,如Cisc。的NetFlowMonitor,NetScout公司的NetScout網(wǎng)絡(luò)性能管理產(chǎn)品,可獲得不同用戶對帶寬的占用等。

根據(jù)協(xié)議標(biāo)準(zhǔn)(如RMON、SNMP等)自己開發(fā)軟件獲取信息安全證據(jù)。

根據(jù)獲取證據(jù)的行為方式,證據(jù)可分為主動(dòng)獲取和被動(dòng)獲取證據(jù)。主動(dòng)獲取如IP分組的平均傳輸延遲,可用ping命令主動(dòng)探測;而被動(dòng)獲取證據(jù)是根據(jù)用戶的實(shí)際行為所產(chǎn)生的影響獲得證據(jù),如用戶占用的存儲(chǔ)資源。

2.2數(shù)據(jù)挖掘在信息安全證據(jù)預(yù)處理中的應(yīng)用

在獲得證據(jù)后,還要進(jìn)行“清理”,即剔除冗余的、無效的證據(jù),將無序的、雜亂的證據(jù)整理成有序的、完備的證據(jù),并進(jìn)行規(guī)范化表示,為信息安全證據(jù)評估奠定堅(jiān)實(shí)的基礎(chǔ)。證據(jù)的規(guī)范化表示有兩種方式:

2.2.1百分比和二進(jìn)制表示證據(jù)的規(guī)范化表示

在百分比和二進(jìn)制表示的證據(jù)其范圍本身都在[0,1]范圍內(nèi),當(dāng)它們是正向遞增時(shí)不需要改變,但當(dāng)它們是正向遞減

值時(shí),通過公式et=1/et將它們改變成正向遞增值。

2.2.2具體值表示證據(jù)的規(guī)范;化表示

對于正向遞增的具體值可以通過et=把它轉(zhuǎn)化成[0,1]范圍內(nèi)的正向遞增值,其中etmax是et范圍內(nèi)的最大值。對于正向遞減的具體值可以通過et=把它轉(zhuǎn)化為[0,1]范圍的正向遞增值。

2.3信息安全證據(jù)庫挖掘?qū)傩苑治?

經(jīng)過前期數(shù)據(jù)獲取與預(yù)處理之后,生成統(tǒng)一的證據(jù)庫,之后便需要對這些證據(jù)進(jìn)行數(shù)據(jù)挖掘?qū)傩苑治?,以確定從模型庫中選擇相對應(yīng)的模型,從算法庫中選取要采用的算法。預(yù)處理后的證據(jù)庫具有以下兩個(gè)性質(zhì):

原始證據(jù)的客觀性使得信息安全的主觀判斷具有客觀依據(jù),同時(shí),也為具有主觀特殊性的信任信息共享提供了可能性。

證據(jù)的規(guī)范化處理解決了證據(jù)的范圍、單調(diào)性和方向性不一致問題,因?yàn)榧词箖蓚€(gè)原始證據(jù)有組合的意義,但如果兩個(gè)證據(jù)值范圍差別很大的話,權(quán)重組合會(huì)導(dǎo)致大的數(shù)據(jù)淹沒小的數(shù)據(jù)。

另外,要提高證據(jù)挖掘的整體準(zhǔn)確性與針對性,還需要不斷進(jìn)行挖掘方法的試錯(cuò),通過試錯(cuò)來找到最好的算法,也就是我們所熟悉的挖掘訓(xùn)練。這個(gè)過程主要表現(xiàn)如下:首先從證據(jù)庫中抽取一部分?jǐn)?shù)據(jù)作為訓(xùn)練樣本,之后從算法庫中選取某種算法,從模型庫中選取某種模型,將數(shù)據(jù)挖掘的結(jié)果與參照集進(jìn)行一定的對比。如果結(jié)合與要求相符,則開始正式的挖掘,反之,則需要重新選擇。

3結(jié)語

信息安全的實(shí)質(zhì)就是要保護(hù)信息系統(tǒng)或信息網(wǎng)絡(luò)中的信息資源免受各種類型的威脅、干擾和破壞,即保證信息的安全性。通過網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù),可以有效解決信息安全在證據(jù)獲取和處理分類上所遇到難題,生成規(guī)范的證據(jù)庫。結(jié)合挖掘模型庫和挖掘算法,可以有效發(fā)現(xiàn)信息網(wǎng)絡(luò)中潛在的威脅因素,提高信息網(wǎng)絡(luò)的安全指數(shù)。

20211018_616c4c4218ece__數(shù)據(jù)挖掘技術(shù)在信息安全證據(jù)處理中的應(yīng)用

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動(dòng)力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉