引 言
無線傳感器網絡是計算、通信和傳感器技術相結合的產物。數量眾多的傳感器節(jié)點采集觀測區(qū)域的熱、光、聲音、速度以及圖像等信號,在無線傳感器網絡中通過無線信道通信實現(xiàn)信息共享與合作處理,從而將監(jiān)控到的溫度、物種、氣候變化、壓力、方向、速度等傳遞給用戶[1]。
無線傳感器網絡是信息感知和采集領域的一場深刻變革, 目前已在國防、交通、醫(yī)療、反恐、環(huán)境監(jiān)控以及自然災害預防等領域投入應用[2],今后憑借其得天獨厚的優(yōu)勢必將給人類的生產和生活帶來深遠影響。
無線傳感器網絡與傳統(tǒng)的Ad-hoc 網絡差別明顯,主要表現(xiàn)在以數據為中心;節(jié)點數量眾多、密度大;節(jié)點能量、計算、存儲等能力受限 ;節(jié)點可靠性差 ;數據冗余度高;采用多對一通信模式等。
1 無線傳感器網絡中的數據特征
無線傳感器網絡中的數據常含有大量冗余信息,即使采用專業(yè)的數據分析方法也難以解釋數據的含義。受所部署地理位置的影響,無線傳感器網絡中的數據常常還包含噪聲, 很難將其和 真正的 數據分開。此外,除非將無線傳感器網絡中的數據與時間和位置信息關聯(lián),否則無意義。
相對于傳統(tǒng)數據而言,無線傳感器網絡中的數據具有其獨有的特征,主要表現(xiàn)在三個方面。
1.1 數據流特征
無線傳感器網絡中的數據自動生成,以多路、連續(xù)、時變的方式傳輸 [3],隨著時間的推移而增加,且數據總量可能非常龐大。這些數據具有顯式的時間戳或者隱式的到達時間,是形式按時間排序的數據流。
1.2 強時空相關性
無線傳感器網絡通常按照一定密度進行部署,以便使傳感器覆蓋整個監(jiān)測區(qū)域。因此,大部分無線傳感器網絡中各節(jié)點間的讀數會表現(xiàn)出時間和空間上的相關性。這種強時空相關性使得某一時刻某個傳感器節(jié)點的讀數不僅對下一時刻觀測到的讀數具有高度預測指示性,還對附近節(jié)點的讀數具有指示性。利用強時空相關性可以估計丟失或損壞的數據、監(jiān)測偏值、提高傳感器數據的質量、進行數據抑制、減少網絡中的數據傳輸,從而降低能耗。但強時空相關性也會帶來大量的冗余數據。
1.3 噪聲
無線傳感器網絡中傳感器的設計目標是低功耗和低成本。但會導致傳感器的精度受限,加之傳感器通常部署在嚴酷的環(huán)境中,會受到潛在的環(huán)境干擾。因此,傳感器數據通常含有錯誤(由傳感器功能引起)和噪聲(由其他環(huán)境干擾引起),在把它們存儲到數據庫之前,應先對其進行清理。
2 無線傳感器網絡中數據融合的意義
數據融合是一種多源數據處理技術,在無線傳感器網絡中數據融合的核心理念就是收集數據時,基于傳感器節(jié)點的軟硬件技術對所采集數據做進一步處理,刪除冗余信息,為節(jié)點所需傳輸的數據 瘦身 ,同時處理多個不同節(jié)點的數據, 使匯聚節(jié)點能夠收集到比單個節(jié)點更加有效、更能滿足用戶需求的數據信息,從而實現(xiàn)提高資源利用率、延長網絡壽命的目的。數據融合對無線傳感器網絡具有十分重要的意義,主要體現(xiàn)在三個方面。
2.1 節(jié)約通信帶寬和能量
通過數據融合可以在網內對冗余數據進行處理,即刪除冗余信息,使要傳輸的數據在可以滿足應用所需的前提下盡可能的少。由于傳感器節(jié)點傳輸數據消耗的能量高于計算所消耗能量幾個數量級,因此在網內數據融合過程中消耗一定的計算資源來節(jié)約通信帶寬,不但可以提高傳輸效率,還可以通過降低節(jié)點的能量消耗延長整個無線傳感器網絡的生命周期。
2.2 提高信息準確度
通過數據融合技術對監(jiān)測同一對象的多個傳感器節(jié)點所采集的數據進行綜合,可以使最終獲得的數據精度和可信度處于一個較高的水平。因為比鄰傳感器節(jié)點幾乎監(jiān)測同一區(qū)域, 其所獲數據差異性較小。如果個別節(jié)點出現(xiàn)數據錯誤或誤差較大,可以通過網內數據融合將其過濾掉。
2.3 提高數據收集效率
通過數據融合可以減少需要傳輸的數據量,從而有效減輕網絡中的數據堵塞,減少傳輸過程中的數據沖突和碰撞, 也使數據傳輸延遲處于較低水平,從而提高整個網絡無線信道的利用率。
3 數據融合過程
無線傳感器網絡的數據融合過程包括預處理、數據挖掘和后處理。圖 1 所示為從原始數據提取信息的全過程。
3.1 數據預處理
無線傳感器網絡中的節(jié)點數據通常包含噪聲、偏值和丟 失值。如圖 2 所示,引起這些數據質量問題的原因包括傳感 器內部誤差 ;傳感器部署所處的嚴酷環(huán)境 ;無線傳輸過程中 數據的損毀和丟失。數據預處理包括數據清理、丟失值恢復、 網內整合以及偏值檢測、數據壓縮、維數壓縮和數據預測等。
3.1.1 數據清理
目前已有多種方法用于傳感器數據清理,包括貝葉斯理 論、神經網絡、小波、卡爾曼濾波和加權移動平均。由于計算 能力有限,無線傳感器網絡很難實現(xiàn)貝葉斯理論、神經網絡和 小波方法??柭鼮V波和加權移動平均兩種方法相對可行。
Zhuang 等人提出了一種基于傳感器數據清理的智能加權移動平均方法[4]。該方法包括以下三個步驟:
(1) 通過預測范圍找出重要數值 ;
(2) 通過對單一傳感器節(jié)點進行節(jié)點測試和鄰居測試來增加重要數值的置信度;
(3) 在匯聚節(jié)點執(zhí)行加權移動平均算法。
這種方法采用卡爾曼濾波和線性回歸進行范圍預測。在預測范圍內的值被稱為 重要值 ,并在第二步中計算其置信度。最后,在匯聚節(jié)點結合時間平均和空間平均進行移動加權平均。
3.1.2 丟失值恢復
對于解決網絡數據丟失的問題,傳統(tǒng)的方法是在接收方向發(fā)送方發(fā)送一個重傳請求之前,等待一個預定義的時間周期,或者發(fā)送方沒有收到來自接收方的確認,則自動重傳數據包。使用這種方法主要有兩個缺點,即增加傳感器功耗,增加由查詢產生的結果延遲。因此,在處理傳感器數據丟失的現(xiàn)有研究中,重點是使用與丟失的傳感器數據有關的傳感器中的可用數據來估計或恢復丟失的數據。
目前已經提出了多種估計方法,如最大期望算法、關聯(lián) 規(guī)則算法和信任傳播算法。最大期望算法是一種使完整數據 似然性收斂到局部極大值的通用方法,即觀測的數據和丟失 的數據似然性?!癊”步計算節(jié)點丟失值的期望或可能性 p(Y|X, θ),其中 X 表示觀測的數據,Y 表示丟失值,θ 表示統(tǒng)計模型 參數。根據丟失值的期望,“M”步計算使完整數據似然性最 大的期望值為 θ。
3.1.3 網內數據整合
大量冗余數據可能會放緩或混淆知識發(fā)現(xiàn)過程。冗余數據的網內整合可以減少整個無線傳感器網絡的數據流,從而使用最少的資源提取最具代表性的數據,這樣可以有效降低功耗。因此,傳感器數據預處理研究的一個分支是關注WSN 的傳感器數據壓縮。
最簡單的情況是,當原始數據大于預定義的閾值時,求出原始數據的平均值并記錄該平均值。如下所列為結構化查詢語言SQL 中的平均整合查詢語句,AVG 為傳感器采集的平均溫度值。如果該平均值大于閾值,則通過 Having AVG , 發(fā)送平均值,采樣周期為 30 s。
SELECT AVG(temperature),F(xiàn)ROM Sensors
WHERE floor=6
HAVING AVG(tempreature)> threshold
SAMPLE PERIOD 30s
Akcan 和Br?nnimann 提出了一種加權網內采樣算法來獲得確定性更小、更典型的樣本而非原始冗余數據 [5]。與隨機采樣相比,加權采樣的優(yōu)勢在于它可以保證每個節(jié)點的數據都有相同的機會歸屬最終樣本,而獨立于其網絡來源。
Santini 和R?mer 提出的基于預測數據壓縮的策略不是有選擇的對網絡節(jié)點進行采樣,而是將預測方法部署在傳感器和匯聚節(jié)點[6]。這樣,傳感器只需發(fā)送偏離預期值的數據。具體方法如下:
在匯聚節(jié)點和傳感器節(jié)點運用預測模型 G來獲得下一時刻傳感器讀數的估計值 Xt+1=G(Xt)。
在傳感器節(jié)點,如果|Xt+1- Xt+1|>ε,就向匯聚節(jié)點發(fā)送實際傳感器讀數。其中,Xt+1為下一時刻傳感器的實際讀數,ε 為容忍誤差。
匯聚節(jié)點使用傳感器讀數的估計值。
3.2 傳感器數據挖掘
無線傳感器網絡中的數據挖掘是將傳統(tǒng)的數據挖掘算法,如主分量分析(Principal Component Analysis,PCA)、神經網絡、貝葉斯網絡、回歸分析和聚類方法等應用到無線傳感器網絡,避免原始數據的直接傳輸,減少傳輸中的數據量。Catterall等首次將SOM 神經網絡引入無線傳感器網絡的網內數據處理中[7],Kulakov等對此做了進一步研究[8],提出了兩種神經網絡數據挖掘結構:
1)簇頭收集各傳感器節(jié)點的數據, 然后執(zhí)行 Fuzzy ART算法進行分類;
2)各傳感器節(jié)點執(zhí)行 FuzzyART算法對自己收集的數據分類,將初步結果傳送到簇頭。
回歸分析是無線傳感器網絡中的一種網內數據處理框架。通過將數據投影成低緯表示,可以精確表示原始數據的結構, 同時有效減少網內的數據量。具體方法是使用線性回歸來完成投影,即數據用函數的帶權線性組合來近似。Wu 等將貝葉斯網絡引入無線傳感器網絡的網內數據處理 [9],在目標追蹤和數據推斷等方面取得了比較好的結果。
無線傳感器數據挖掘主要致力于分布式網內數據挖掘。大多數研究人員提出將層次化網絡拓撲結構用于傳感器數據挖掘。Bontempi 等提出了一種用于傳感器數據挖掘的二層結構[10],而這是一種傳感器數據挖掘的自適應模塊化結構,如圖 3所示。
底層由用虛線表示的匯聚節(jié)點構成,完成用黑點表示的相鄰傳感器節(jié)點的聚合。匯聚后的信號被送到上一層進行數據挖掘。在這里要完成的感知任務有分類、回歸和預測等。該結構在WSN 拓撲中引入了匯聚節(jié)點層,每個匯聚節(jié)點都作為一些傳感器節(jié)點的簇頭。
3.3 傳感器數據后處理
數據后處理包括模式評估、模型評估、數據可視化和表示等。通過這一步可以把傳感器數據挖掘的結果和特定應用進行關聯(lián)。數據可視化可以基于計算機圖形、統(tǒng)計方法或基于用戶交互技術。
4結 語
隨著廉價且強大的傳感器、通信系統(tǒng)和信息技術實用性的不斷提升,在一些主流領域,無線傳感器網絡數據融合技術已日漸成熟,能夠提供已被苛刻應用所驗證一致、強大的方法和算法庫,通過挖掘其內在潛能,進行新產品的研究和開發(fā)就具備了良好的基礎,開發(fā)周期將會大大縮短,涉及的風險也會隨之降低。
未來無線傳感器網絡數據融合技術必將大顯身手,特別是在要將物理或技術方面的傳感器數據與定量的上下文信息進行融合的領域。如將通信與分布式數據融合體系緊密聯(lián)系在一起的融合驅動通信,將可用的量化非傳感器信息與傳感器數據通過上下文數據集成進行融合從而形成綜合數據庫,將聯(lián)想推理、合理的協(xié)商妥協(xié)、專家知識和態(tài)勢評估等融入無線傳感器網絡數據融合的人工輔助系統(tǒng),為了應付跨區(qū)域復雜地形以及 非對稱 對手的網絡中心作戰(zhàn)以及利用無線電臺、電視或移動電話基站等潛在發(fā)射站對目標進行照射,形成無處不在的被動監(jiān)視網絡。