基于電力大數(shù)據(jù)的用戶(hù)用電行為分析
掃描二維碼
隨時(shí)隨地手機(jī)看文章
大數(shù)據(jù)的處理過(guò)程比較復(fù)雜,需要從不同類(lèi)型的數(shù)據(jù)中"去粗存精""去冗分類(lèi)",最終獲得有價(jià)值的信息,整個(gè)過(guò)程需要經(jīng)過(guò)多個(gè)處理階段。如今大數(shù)據(jù)處理模型中比較經(jīng)典的是UsamaFayyad等設(shè)計(jì)的多階段處理模型,其中包含了數(shù)據(jù)采集、預(yù)處理、數(shù)據(jù)管理與存儲(chǔ)以及數(shù)據(jù)分析等各個(gè)環(huán)節(jié)步驟。通常情況下,可以將大數(shù)據(jù)采集分為基礎(chǔ)支撐層以及智能感知層。大數(shù)據(jù)采集技術(shù)主要包含感知技術(shù)、智能識(shí)別技術(shù)、大數(shù)據(jù)接入和傳輸技術(shù)以及大數(shù)據(jù)壓縮技術(shù)等。
所謂的大數(shù)據(jù)預(yù)處理是指對(duì)大數(shù)據(jù)進(jìn)行抽取、分辨并予以清洗等操作。因得到的數(shù)據(jù)可能類(lèi)型以及結(jié)構(gòu)比較多,所以抽取數(shù)據(jù)的過(guò)程是將復(fù)雜的數(shù)據(jù)轉(zhuǎn)化成便于處理的或者是單一的結(jié)構(gòu),以便對(duì)其快速地進(jìn)行分析處理,對(duì)于大數(shù)據(jù)中沒(méi)有利用價(jià)值的內(nèi)容,需要對(duì)其進(jìn)行"去噪"處理。對(duì)大數(shù)據(jù)進(jìn)行存儲(chǔ)及處理時(shí),需要用到儲(chǔ)存器將采集所得的數(shù)據(jù)存儲(chǔ)起來(lái),并建立對(duì)應(yīng)的數(shù)據(jù)庫(kù),同時(shí)開(kāi)展管理以及調(diào)用工作,解決大數(shù)據(jù)可表示、可存儲(chǔ)等方面的問(wèn)題。大數(shù)據(jù)的存儲(chǔ)及管理技術(shù)包含了大數(shù)據(jù)的數(shù)據(jù)組織技術(shù)、存儲(chǔ)技術(shù)、數(shù)據(jù)庫(kù)技術(shù)和可視化技術(shù)等方面的關(guān)鍵技術(shù)。
目前比較常用的大數(shù)據(jù)存儲(chǔ)和管理方法主要有Tachyon、OFs(Ouant二castFilesystem)、HDFs(HadoopDistributedFilesystem)和ClusterFs等,其中HDFs是一種能夠支持Hadoop計(jì)算框架的分布式大數(shù)據(jù)存儲(chǔ)系統(tǒng),具備可擴(kuò)展性、容錯(cuò)性以及高并發(fā)性,同時(shí)能夠在廉價(jià)的服務(wù)器設(shè)備上運(yùn)行,是目前使用比較廣泛的大數(shù)據(jù)存儲(chǔ)系統(tǒng)。所謂數(shù)據(jù)挖掘是指"數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD)",在此過(guò)程中,前面的幾個(gè)步驟都是為開(kāi)展數(shù)據(jù)分析工作做好相應(yīng)的準(zhǔn)備。而數(shù)據(jù)挖掘過(guò)程是提取隱藏其中的潛在知識(shí)以及信息的過(guò)程。以往所用到的數(shù)據(jù)分析方法主要分為統(tǒng)計(jì)法、機(jī)器學(xué)習(xí)法、數(shù)據(jù)庫(kù)法以及神經(jīng)網(wǎng)絡(luò)法等。盡管可以將以往的分析方法應(yīng)用到大數(shù)據(jù)領(lǐng)域,但是在集合規(guī)模比較大的數(shù)據(jù)時(shí)具有一定的局限性,這時(shí)候就需要使用云計(jì)算技術(shù),在多臺(tái)計(jì)算機(jī)上分解大數(shù)據(jù)的挖掘任務(wù),以此有效增強(qiáng)數(shù)據(jù)的挖掘效率。大數(shù)據(jù)處理的最后一個(gè)環(huán)節(jié)是知識(shí)成果的展示和使用。如果難以正確顯示數(shù)據(jù)分析所得的結(jié)果,就會(huì)對(duì)決策者產(chǎn)生誤導(dǎo)。作為大數(shù)據(jù)最有力的展示方式,數(shù)據(jù)可視化技術(shù)可以分為基于圖像的可視化技術(shù)和基于集合、圖標(biāo)的可視化技術(shù)等。目前大數(shù)據(jù)技術(shù)正逐漸廣泛應(yīng)用于智慧城市建設(shè)、在線社交網(wǎng)絡(luò)、智慧醫(yī)療健康以及智能電網(wǎng)等各個(gè)方面。
2基于電力大數(shù)據(jù)的用戶(hù)用電行為分析
目前,比較常用的用戶(hù)用電行為分析方法是聚類(lèi)分析
法。行業(yè)中普遍使用的聚類(lèi)分析方法為基于k二means的聚類(lèi)算法。k二means算法有效解決了經(jīng)典的聚類(lèi)問(wèn)題,處理問(wèn)題快速、簡(jiǎn)單,這種方法雖然具有一定的高效性以及伸縮性,但是用這種方法所得的聚類(lèi)結(jié)果對(duì)初值的敏感度比較高,初值不同所產(chǎn)生的結(jié)果也不同,如果初值選擇不合理,就會(huì)導(dǎo)致聚類(lèi)結(jié)果出現(xiàn)偏差,因此面對(duì)用電數(shù)據(jù)比較大的電力用戶(hù)時(shí),這種方法并不適用。
模糊聚類(lèi)算法中使用比較廣泛的是模糊C均值聚類(lèi)算法,這種方法能夠通過(guò)對(duì)目標(biāo)函數(shù)予以?xún)?yōu)化獲取每個(gè)樣本點(diǎn)對(duì)不同類(lèi)中心的隸屬度,樣本點(diǎn)隸屬的判斷需要以實(shí)現(xiàn)樣本數(shù)據(jù)分類(lèi)為目標(biāo)。但是,使用模糊C均值類(lèi)算法對(duì)離散數(shù)據(jù)點(diǎn)集合進(jìn)行處理時(shí),無(wú)法處理類(lèi)型比較特殊的數(shù)據(jù),無(wú)法對(duì)數(shù)據(jù)是否具備聚類(lèi)結(jié)構(gòu)進(jìn)行判斷,并且在選擇初始值時(shí)具有較強(qiáng)的依賴(lài)性。一些學(xué)者提出了以云計(jì)算為基礎(chǔ)的電力大數(shù)據(jù)聚類(lèi)問(wèn)題的計(jì)算方法,這種方法能夠同時(shí)處理大量數(shù)據(jù),并且速度也比較快,但是在具體使用過(guò)程中,因Hadoop讀寫(xiě)比較頻繁,而且包含的數(shù)據(jù)量比較大,很容易產(chǎn)生性能方面的問(wèn)題。對(duì)于大數(shù)據(jù)用戶(hù)用電行為,使用經(jīng)典聚類(lèi)算法進(jìn)行分析的時(shí)候存在問(wèn)題,因此出現(xiàn)了很多改進(jìn)算法,比如,以云計(jì)算為基礎(chǔ)的k二means算法、以sparkR為基礎(chǔ)的并行化k二means算法等。對(duì)電力大數(shù)據(jù)用戶(hù)的用電行為進(jìn)行分析的時(shí)候,使用云計(jì)算k二means算法有利于開(kāi)發(fā)大規(guī)模的數(shù)據(jù)并對(duì)其進(jìn)行處理,還能夠顯著提升處理能力,使數(shù)據(jù)處理更加高效。運(yùn)用云計(jì)算,能夠在數(shù)據(jù)庫(kù)中存儲(chǔ)海量的電力大數(shù)據(jù),并且借助k二means計(jì)算模型高效分析數(shù)據(jù)。圖1為基于云計(jì)算k二means聚類(lèi)算法的用戶(hù)用電行為分析框架圖。
目前,在電力大數(shù)據(jù)平臺(tái)中比較常用的電力大數(shù)據(jù)用戶(hù)用電行為分析方法是以云計(jì)算為基礎(chǔ)的k二means算法。以sparkR為基礎(chǔ)的并行化k二means算法能夠有效解決設(shè)備性能問(wèn)題以及頻繁讀寫(xiě)可能存在的錯(cuò)誤情況,其將Hadoop的電力大數(shù)據(jù)群作為數(shù)據(jù)引擎,再運(yùn)用k二means算法充分發(fā)揮了大數(shù)據(jù)R語(yǔ)言以及大數(shù)據(jù)內(nèi)存計(jì)算的特征,有效提升了數(shù)據(jù)分析能力。圖2為基于SparkR并行化k二means算法的用戶(hù)行為分析框架圖,可以將整個(gè)過(guò)程大體分為數(shù)據(jù)計(jì)算、清洗以及用戶(hù)用電行為的聚類(lèi)分析。
和傳統(tǒng)的用戶(hù)用電行為分析相比較,以電力大數(shù)據(jù)為基礎(chǔ)的用戶(hù)用電行為分析的準(zhǔn)確性更高,且能夠有效提升用戶(hù)用電設(shè)備的使用效率。圖3為兩種用戶(hù)用電行為分析方式的對(duì)比圖。
由圖3可知,以電力大數(shù)據(jù)為基礎(chǔ)的用戶(hù)用電行為分析的理論支持更加科學(xué),可以更加準(zhǔn)確地預(yù)測(cè)各種行為,能夠有效提升設(shè)備的使用效率,并且降低不必要的電力消耗。
3結(jié)語(yǔ)
總而言之,電力行業(yè)的數(shù)據(jù)價(jià)值高且數(shù)據(jù)量比較大,提高數(shù)據(jù)的利用率能夠有效提升電力企業(yè)的營(yíng)利水平,無(wú)論將其應(yīng)用于行業(yè)內(nèi)還是行業(yè)外,都會(huì)帶來(lái)新的發(fā)展機(jī)遇。與此同時(shí),這在一定程度上挑戰(zhàn)了大數(shù)據(jù)的認(rèn)知水平,如何有效處理這些數(shù)據(jù),并從中獲取更有價(jià)值的信息,最終將其轉(zhuǎn)化成優(yōu)化的服務(wù)決策以及管理模式是決定大數(shù)據(jù)價(jià)值能否得以體現(xiàn)的關(guān)鍵。