基于分布式實時計算框架的電能量數據異常特征提取
引言
電能量采集和計費系統(tǒng)是智能電網運營支持的子系統(tǒng),是電網經濟運行、科學調度和考核結算的基礎。目前,我國電能計量數據的采集主要由智能電表、電能量數據監(jiān)測設備、電能量數據治理設備等完成,由于系統(tǒng)缺陷、設備故障和人為因素等原因,容易發(fā)生采集數據異常情況。針對電能量數據異常報警的傳統(tǒng)解決方法是在當天24:00將接收到的全天整點電量數據存儲在數據庫中,然后通過查詢數據庫中原始電量數據進行相關的公式數據和平衡數據的計算,再由這些計算結果分析統(tǒng)計是否存在用電數據異常。整個過程中,獲得的公式數據結果都是滯后的,對于大量存在的電量實時數據,傳統(tǒng)的架構方式并不適用。如何實現(xiàn)對電能量異常數據的在線預警,及時解決影響電能量數據安全的隱患,將是我國電網設計與發(fā)展過程中急需解決的問題。
1分布式實時計算框架
目前分布式計算框架主要包括Hadoop的Map/Reduce、sparkstreaming和storm,這些框架的發(fā)展極大地提高了系統(tǒng)的計算和存儲能力。其中Hadoop由于處理延時問題,無法滿足實時性要求較高的業(yè)務需求,一般用于離線的計算任務處理:sparkstreaming是現(xiàn)在常用的流式計算框架,支持多種數據源的接入,具有高吞吐量和容錯機制,可以實時將不同的數據源的數據經過處理之后將結果輸出到外部文件系統(tǒng)或數據庫中。storm也是常用的流式計算框架,在實時計算功能中,它具有更可靠的事務機制和可靠性機制,而且可以動態(tài)調整實時計算程序的并行度,以最大限度利用集群資源。sparkstreaming在吞吐量上比storm更優(yōu)秀,storm在實時延遲度上比sparkstreaming強大,前者是純實時,后者是準實時。同時,storm的事務機制、健壯性/容錯性、動態(tài)調整并行度等特性,都要比sparkstreaming更加優(yōu)秀。而sparkstreaming可以與sparkCore、sparksOL無縫整合,也就意味著對實時處理出來的中間數據,可以在程序中無縫進行延遲批處理、交互式查詢等操作。
傳統(tǒng)的電能量數據預警系統(tǒng)主要通過將監(jiān)測數據與標準數據指標進行對比,當采集到的數據超過標準數據指標范圍時,則發(fā)出預警信號,及時通知故障維護人員進行處理,加強設備維護與安全防范。
2預警系統(tǒng)軟件設計
預警系統(tǒng)軟件采用分布式大數據框架為基礎,使用Java語言編程開發(fā),整體可分為三層,每個層中再向下詳細劃分為多個模塊、多個子流程,各模塊間相互作用、相互聯(lián)系,形成基于網絡拓撲結構的在線分析系統(tǒng),即軟件運行網絡。預警系統(tǒng)軟件設計如圖1所示。
從圖1可以看出,預警系統(tǒng)軟件主要分為三個層次,包括數據采集層、數據傳輸層、數據分析層。數據采集層通過定時讀取數據庫的離線數據、實時解析處理交互的文件(CIM/E格式)數據、實時處理采集的通信報文數據,將數據進行壓縮處理后寫入分布式消息總線:分布式消息總線包括數據生產者與數據消費者兩部分,數據采集層是消息總線的數據生產者,數據分析層監(jiān)聽并消費數據:數據分析層將消費數據推入storm分布式計算框架,根據建立的異常數據識別模型拓撲,進行在線計算。為加快計算速度,設計了用于吞吐靜態(tài)數據的分布式緩存。數據在整個分析過程的流轉無需存盤,分析結果作為計算的末端節(jié)點存入數據庫。拓撲鐘的每一個計算節(jié)點形成小的運行任務,通過劃分模塊和層次的方法,將系統(tǒng)軟件各組成部分進行清晰規(guī)劃,形成軟件運行的操作網絡系統(tǒng)。預警結果的具體監(jiān)測與預警流程主要通過業(yè)務應用層,利用電腦語言與算法,協(xié)同各部分之間的工作,對相應數據形成異常特征庫,通過歷史數據查詢功能,可以獲取需要的預警結果。
電能量是否異常是由母線電量報表判斷,且電能量異常需要在不一樣的電壓等級下對其進行判別。例如河南省對電量不平衡率給出的標準是:在220kV以及110kV的線路環(huán)境下,正常的不平衡率為±2%。計算標準不平衡率的方法為:
標準不平衡率=(總輸出電量-總輸入電量)/總輸入電量
其中,總輸入和總輸出的電量都代表在同一電壓等級下母線當中所產生的總的電量輸入以及輸出??傒敵鲭娏恳簿褪窃谔囟ǖ臅r間點上,在設定的電壓等級基礎母線上,每一條出線總共輸出的電能量:總輸入電量代表的就是在特定的電壓等級以及時間點下,每一條進線輸入的總電能量。
根據上述方法可知標準電能量值,將采集的數據與之對比,當得出的結果大于正常值,平臺就會編輯預警信息,通過3種信息發(fā)布方式發(fā)布預警信息。
3電能量數據異常特征數據庫
電能量數據異常特征數據挖掘庫,通過抽取調度EMS系統(tǒng)數據、TMR系統(tǒng)數據、用電信息數據,通過各類數據指標細分模型,對電網模型、量測數據、電能量數據、平衡數據等多方面的電量異常特征進行大數據挖掘、聚類分析,根據各類計量關口考核指標的貢獻度、電量變化趨勢、異常偏差程度等情況,將異常分為模型類、數據類、平衡類、維護類等四大類,如表1所示,并針對不同的維度,分析其異常數據的特征,提供差異化、個性化服務。
表1中的異常類型與系統(tǒng)設計的修復功能軟件功能模塊建立關聯(lián),其中:
(1)模型類異常對應模型管理與參數維護的編輯模塊:
(2)數據類異常對應數據重處理、數據召測、數據編輯、電表輪換、倍率變更、參數編輯等功能模塊:
(3)平衡類異常對應計算配置、模型維護、重計算等功能模塊:
(4)維護類異常對應底層平臺的操作維護界面,包括啟停服務、日志定位等功能。
通過發(fā)現(xiàn)異常標記入庫到對應數據消缺的閉環(huán)治理流程,建立起一套插件化的數據治理體系。不斷迭代優(yōu)化異常識別與處理能力,為業(yè)務系統(tǒng)提供可靠的數據質量保障。
4基于實時數據驅動的電量異常在線分析檢測流程
目前基于分布式實時計算框架的電能量數據異常特征提取在線預警系統(tǒng)已經實現(xiàn)基于TMR的采集電量數據、基于EMS系統(tǒng)的EMS一CIME文件和基于營銷系統(tǒng)的事件消息的實時驅動,系統(tǒng)在線計算相關電量公式數據和平衡數據,通過校驗數據的合理性和對平衡結果的分析,判斷電能量異常的數據,并實時推送到預警服務端。
圖2是分布式實時計算框架下,基于TMR的日凍結采集電量數據的在線預警實時處理流程,圖3是基于EMS系統(tǒng)的EMS一CIME文件的在線預警實時處理流程,圖4是基于營銷系統(tǒng)的事件消息的在線預警實時處理流程。
5結語
為避免電能安全事故的發(fā)生,實現(xiàn)電能量數據異常特征提取在線預警功能,提出了基于分布式實時計算框架的電能量數據異常特征提取在線預警系統(tǒng)設計理念,對電能量數據異常特征提取在線預警系統(tǒng)的軟硬件設備進行了分析,為目前正在應用的預警系統(tǒng)提供了參考與改進建議。