基于分布式實(shí)時(shí)計(jì)算框架的電能量數(shù)據(jù)異常特征提取
引言
電能量采集和計(jì)費(fèi)系統(tǒng)是智能電網(wǎng)運(yùn)營支持的子系統(tǒng),是電網(wǎng)經(jīng)濟(jì)運(yùn)行、科學(xué)調(diào)度和考核結(jié)算的基礎(chǔ)。目前,我國電能計(jì)量數(shù)據(jù)的采集主要由智能電表、電能量數(shù)據(jù)監(jiān)測設(shè)備、電能量數(shù)據(jù)治理設(shè)備等完成,由于系統(tǒng)缺陷、設(shè)備故障和人為因素等原因,容易發(fā)生采集數(shù)據(jù)異常情況。針對(duì)電能量數(shù)據(jù)異常報(bào)警的傳統(tǒng)解決方法是在當(dāng)天24:00將接收到的全天整點(diǎn)電量數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫中,然后通過查詢數(shù)據(jù)庫中原始電量數(shù)據(jù)進(jìn)行相關(guān)的公式數(shù)據(jù)和平衡數(shù)據(jù)的計(jì)算,再由這些計(jì)算結(jié)果分析統(tǒng)計(jì)是否存在用電數(shù)據(jù)異常。整個(gè)過程中,獲得的公式數(shù)據(jù)結(jié)果都是滯后的,對(duì)于大量存在的電量實(shí)時(shí)數(shù)據(jù),傳統(tǒng)的架構(gòu)方式并不適用。如何實(shí)現(xiàn)對(duì)電能量異常數(shù)據(jù)的在線預(yù)警,及時(shí)解決影響電能量數(shù)據(jù)安全的隱患,將是我國電網(wǎng)設(shè)計(jì)與發(fā)展過程中急需解決的問題。
1分布式實(shí)時(shí)計(jì)算框架
目前分布式計(jì)算框架主要包括Hadoop的Map/Reduce、sparkstreaming和storm,這些框架的發(fā)展極大地提高了系統(tǒng)的計(jì)算和存儲(chǔ)能力。其中Hadoop由于處理延時(shí)問題,無法滿足實(shí)時(shí)性要求較高的業(yè)務(wù)需求,一般用于離線的計(jì)算任務(wù)處理:sparkstreaming是現(xiàn)在常用的流式計(jì)算框架,支持多種數(shù)據(jù)源的接入,具有高吞吐量和容錯(cuò)機(jī)制,可以實(shí)時(shí)將不同的數(shù)據(jù)源的數(shù)據(jù)經(jīng)過處理之后將結(jié)果輸出到外部文件系統(tǒng)或數(shù)據(jù)庫中。storm也是常用的流式計(jì)算框架,在實(shí)時(shí)計(jì)算功能中,它具有更可靠的事務(wù)機(jī)制和可靠性機(jī)制,而且可以動(dòng)態(tài)調(diào)整實(shí)時(shí)計(jì)算程序的并行度,以最大限度利用集群資源。sparkstreaming在吞吐量上比storm更優(yōu)秀,storm在實(shí)時(shí)延遲度上比sparkstreaming強(qiáng)大,前者是純實(shí)時(shí),后者是準(zhǔn)實(shí)時(shí)。同時(shí),storm的事務(wù)機(jī)制、健壯性/容錯(cuò)性、動(dòng)態(tài)調(diào)整并行度等特性,都要比sparkstreaming更加優(yōu)秀。而sparkstreaming可以與sparkCore、sparksOL無縫整合,也就意味著對(duì)實(shí)時(shí)處理出來的中間數(shù)據(jù),可以在程序中無縫進(jìn)行延遲批處理、交互式查詢等操作。
傳統(tǒng)的電能量數(shù)據(jù)預(yù)警系統(tǒng)主要通過將監(jiān)測數(shù)據(jù)與標(biāo)準(zhǔn)數(shù)據(jù)指標(biāo)進(jìn)行對(duì)比,當(dāng)采集到的數(shù)據(jù)超過標(biāo)準(zhǔn)數(shù)據(jù)指標(biāo)范圍時(shí),則發(fā)出預(yù)警信號(hào),及時(shí)通知故障維護(hù)人員進(jìn)行處理,加強(qiáng)設(shè)備維護(hù)與安全防范。
2預(yù)警系統(tǒng)軟件設(shè)計(jì)
預(yù)警系統(tǒng)軟件采用分布式大數(shù)據(jù)框架為基礎(chǔ),使用Java語言編程開發(fā),整體可分為三層,每個(gè)層中再向下詳細(xì)劃分為多個(gè)模塊、多個(gè)子流程,各模塊間相互作用、相互聯(lián)系,形成基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的在線分析系統(tǒng),即軟件運(yùn)行網(wǎng)絡(luò)。預(yù)警系統(tǒng)軟件設(shè)計(jì)如圖1所示。
從圖1可以看出,預(yù)警系統(tǒng)軟件主要分為三個(gè)層次,包括數(shù)據(jù)采集層、數(shù)據(jù)傳輸層、數(shù)據(jù)分析層。數(shù)據(jù)采集層通過定時(shí)讀取數(shù)據(jù)庫的離線數(shù)據(jù)、實(shí)時(shí)解析處理交互的文件(CIM/E格式)數(shù)據(jù)、實(shí)時(shí)處理采集的通信報(bào)文數(shù)據(jù),將數(shù)據(jù)進(jìn)行壓縮處理后寫入分布式消息總線:分布式消息總線包括數(shù)據(jù)生產(chǎn)者與數(shù)據(jù)消費(fèi)者兩部分,數(shù)據(jù)采集層是消息總線的數(shù)據(jù)生產(chǎn)者,數(shù)據(jù)分析層監(jiān)聽并消費(fèi)數(shù)據(jù):數(shù)據(jù)分析層將消費(fèi)數(shù)據(jù)推入storm分布式計(jì)算框架,根據(jù)建立的異常數(shù)據(jù)識(shí)別模型拓?fù)?進(jìn)行在線計(jì)算。為加快計(jì)算速度,設(shè)計(jì)了用于吞吐靜態(tài)數(shù)據(jù)的分布式緩存。數(shù)據(jù)在整個(gè)分析過程的流轉(zhuǎn)無需存盤,分析結(jié)果作為計(jì)算的末端節(jié)點(diǎn)存入數(shù)據(jù)庫。拓?fù)溏姷拿恳粋€(gè)計(jì)算節(jié)點(diǎn)形成小的運(yùn)行任務(wù),通過劃分模塊和層次的方法,將系統(tǒng)軟件各組成部分進(jìn)行清晰規(guī)劃,形成軟件運(yùn)行的操作網(wǎng)絡(luò)系統(tǒng)。預(yù)警結(jié)果的具體監(jiān)測與預(yù)警流程主要通過業(yè)務(wù)應(yīng)用層,利用電腦語言與算法,協(xié)同各部分之間的工作,對(duì)相應(yīng)數(shù)據(jù)形成異常特征庫,通過歷史數(shù)據(jù)查詢功能,可以獲取需要的預(yù)警結(jié)果。
電能量是否異常是由母線電量報(bào)表判斷,且電能量異常需要在不一樣的電壓等級(jí)下對(duì)其進(jìn)行判別。例如河南省對(duì)電量不平衡率給出的標(biāo)準(zhǔn)是:在220kV以及110kV的線路環(huán)境下,正常的不平衡率為±2%。計(jì)算標(biāo)準(zhǔn)不平衡率的方法為:
標(biāo)準(zhǔn)不平衡率=(總輸出電量-總輸入電量)/總輸入電量
其中,總輸入和總輸出的電量都代表在同一電壓等級(jí)下母線當(dāng)中所產(chǎn)生的總的電量輸入以及輸出。總輸出電量也就是在特定的時(shí)間點(diǎn)上,在設(shè)定的電壓等級(jí)基礎(chǔ)母線上,每一條出線總共輸出的電能量:總輸入電量代表的就是在特定的電壓等級(jí)以及時(shí)間點(diǎn)下,每一條進(jìn)線輸入的總電能量。
根據(jù)上述方法可知標(biāo)準(zhǔn)電能量值,將采集的數(shù)據(jù)與之對(duì)比,當(dāng)?shù)贸龅慕Y(jié)果大于正常值,平臺(tái)就會(huì)編輯預(yù)警信息,通過3種信息發(fā)布方式發(fā)布預(yù)警信息。
3電能量數(shù)據(jù)異常特征數(shù)據(jù)庫
電能量數(shù)據(jù)異常特征數(shù)據(jù)挖掘庫,通過抽取調(diào)度EMS系統(tǒng)數(shù)據(jù)、TMR系統(tǒng)數(shù)據(jù)、用電信息數(shù)據(jù),通過各類數(shù)據(jù)指標(biāo)細(xì)分模型,對(duì)電網(wǎng)模型、量測數(shù)據(jù)、電能量數(shù)據(jù)、平衡數(shù)據(jù)等多方面的電量異常特征進(jìn)行大數(shù)據(jù)挖掘、聚類分析,根據(jù)各類計(jì)量關(guān)口考核指標(biāo)的貢獻(xiàn)度、電量變化趨勢、異常偏差程度等情況,將異常分為模型類、數(shù)據(jù)類、平衡類、維護(hù)類等四大類,如表1所示,并針對(duì)不同的維度,分析其異常數(shù)據(jù)的特征,提供差異化、個(gè)性化服務(wù)。
表1中的異常類型與系統(tǒng)設(shè)計(jì)的修復(fù)功能軟件功能模塊建立關(guān)聯(lián),其中:
(1)模型類異常對(duì)應(yīng)模型管理與參數(shù)維護(hù)的編輯模塊:
(2)數(shù)據(jù)類異常對(duì)應(yīng)數(shù)據(jù)重處理、數(shù)據(jù)召測、數(shù)據(jù)編輯、電表輪換、倍率變更、參數(shù)編輯等功能模塊:
(3)平衡類異常對(duì)應(yīng)計(jì)算配置、模型維護(hù)、重計(jì)算等功能模塊:
(4)維護(hù)類異常對(duì)應(yīng)底層平臺(tái)的操作維護(hù)界面,包括啟停服務(wù)、日志定位等功能。
通過發(fā)現(xiàn)異常標(biāo)記入庫到對(duì)應(yīng)數(shù)據(jù)消缺的閉環(huán)治理流程,建立起一套插件化的數(shù)據(jù)治理體系。不斷迭代優(yōu)化異常識(shí)別與處理能力,為業(yè)務(wù)系統(tǒng)提供可靠的數(shù)據(jù)質(zhì)量保障。
4基于實(shí)時(shí)數(shù)據(jù)驅(qū)動(dòng)的電量異常在線分析檢測流程
目前基于分布式實(shí)時(shí)計(jì)算框架的電能量數(shù)據(jù)異常特征提取在線預(yù)警系統(tǒng)已經(jīng)實(shí)現(xiàn)基于TMR的采集電量數(shù)據(jù)、基于EMS系統(tǒng)的EMS一CIME文件和基于營銷系統(tǒng)的事件消息的實(shí)時(shí)驅(qū)動(dòng),系統(tǒng)在線計(jì)算相關(guān)電量公式數(shù)據(jù)和平衡數(shù)據(jù),通過校驗(yàn)數(shù)據(jù)的合理性和對(duì)平衡結(jié)果的分析,判斷電能量異常的數(shù)據(jù),并實(shí)時(shí)推送到預(yù)警服務(wù)端。
圖2是分布式實(shí)時(shí)計(jì)算框架下,基于TMR的日凍結(jié)采集電量數(shù)據(jù)的在線預(yù)警實(shí)時(shí)處理流程,圖3是基于EMS系統(tǒng)的EMS一CIME文件的在線預(yù)警實(shí)時(shí)處理流程,圖4是基于營銷系統(tǒng)的事件消息的在線預(yù)警實(shí)時(shí)處理流程。
5結(jié)語
為避免電能安全事故的發(fā)生,實(shí)現(xiàn)電能量數(shù)據(jù)異常特征提取在線預(yù)警功能,提出了基于分布式實(shí)時(shí)計(jì)算框架的電能量數(shù)據(jù)異常特征提取在線預(yù)警系統(tǒng)設(shè)計(jì)理念,對(duì)電能量數(shù)據(jù)異常特征提取在線預(yù)警系統(tǒng)的軟硬件設(shè)備進(jìn)行了分析,為目前正在應(yīng)用的預(yù)警系統(tǒng)提供了參考與改進(jìn)建議。