基于多元協(xié)變量和隨機森林算法的寧夏用電量預(yù)測
引言
電力資源是社會經(jīng)濟與民生發(fā)展的戰(zhàn)略支撐性資源之一,電網(wǎng)系統(tǒng)面向全國各種用電用戶提供可變的標(biāo)準(zhǔn)電能。由于當(dāng)前各行各業(yè)對電能的依賴性增強,加之居民生活水平提高產(chǎn)生了更大的電能消費需求,用電量具有多結(jié)構(gòu)化、變化復(fù)雜的特點,這對準(zhǔn)確預(yù)測用電量提出了挑戰(zhàn)。用電量預(yù)測能為電力供需負(fù)荷平衡、電力供應(yīng)調(diào)配提供信息基礎(chǔ),對減少供電成本、提高電能質(zhì)量具有重要意義。
近年來,隨機森林方法在分類和回歸問題中得到了廣泛應(yīng)用,該算法能處理高維數(shù)據(jù),并檢測維度間的相互關(guān)系,通過自主學(xué)習(xí)、高維映射、容錯、記憶等手段大量挖掘隱含信息,得出用電量變化的內(nèi)在規(guī)律。
鑒于此,本文以寧夏用電量為算例,采用RF方法構(gòu)建電量預(yù)測模型,并檢驗該模型的優(yōu)越性,以期為電力大數(shù)據(jù)挖掘和智能電網(wǎng)建設(shè)提供參考依據(jù)。
1算法原理
1.1隨機森林原理
隨機森林(RandomForest,RF)是集成多棵決策樹模型(h(X,9k),k=1,2,…)而形成的融合算法[5]。該算法借助隨機子空間和自助聚集理論,運用bootstrap方法從全部特征變量屬性中進(jìn)行隨機等概率地放回抽樣,對每個bootstrap樣本構(gòu)建決策樹,通過打分尋找得分最高結(jié)果作為分類或回歸的結(jié)果。其先利用bootstrap抽樣從原始訓(xùn)練集7=((x1,y1),(x2,y2),…,(xn,yn))中抽取n個樣本,記作訓(xùn)練集7t,進(jìn)行k次抽樣,則有k個獨立樣本形成的訓(xùn)練集(7t,t=1,2,…,k)。然后對各bootstrap訓(xùn)練集構(gòu)建決策樹組合模型,對于單棵樹,從隨機選擇的m個屬性中選出最優(yōu)屬性進(jìn)行分裂。生成的單棵樹模型即為獨立領(lǐng)域的專家,組合k棵樹中得分最高的類別即為預(yù)測的結(jié)果。
1.2多元協(xié)變量獲取
單純以歷史用電量信息作為前向預(yù)測的依據(jù),在模型迭代過程中其依賴的信息較少,可能會損失局部預(yù)測的細(xì)節(jié)信息,進(jìn)而影響模型精度。而采用多元協(xié)變量為輸入變量,以不同維度因子的變化特征描述用電量的時序變化趨勢,既能夠保證模型預(yù)測所需要的豐富的特征信息,還能夠確保模型穩(wěn)定性。結(jié)合前人的研究經(jīng)驗,從經(jīng)濟發(fā)展、人口、社會需求、自然環(huán)境等方面考慮,給出了相關(guān)的備選變量,如表1所示。
1.3數(shù)據(jù)來源與處理
指標(biāo)數(shù)據(jù)的時間域為2000一2017年,從《寧夏統(tǒng)計年鑒》和《中國統(tǒng)計年鑒》中提取指標(biāo)原始數(shù)據(jù)(表1)。采用MicrosoftExce12016軟件進(jìn)行數(shù)據(jù)整理,Rstudio1.0進(jìn)行建模預(yù)測分析,采用絕對平均誤差(MAE)和均方根誤差(RMSE)對模型精度進(jìn)行評價。
2應(yīng)用實例
2.1變量設(shè)置與參數(shù)優(yōu)選
以2000一2011年的數(shù)據(jù)為訓(xùn)練樣本,2012一2017年的數(shù)據(jù)為檢測樣本,兩類樣本中解釋變量作為輸入值,用電量數(shù)據(jù)作為輸出值,在Rstudio1.0平臺上調(diào)用RandomForest程序包進(jìn)行編程實現(xiàn)。RF模型存在ntree和mtry兩個敏感參數(shù),其中ntree影響著模型泛化、收斂速率,mtry主要對節(jié)點分裂屬性賦值起重要作用。通常認(rèn)為,mtry最優(yōu)取值為變量的方根值,而ntree的篩選通常采用網(wǎng)格搜索法進(jìn)行。多次試驗表明,mtry為5時模型錯誤率相對較小,進(jìn)而確定mtry為5。隨著ntree的變化,模型錯誤率表現(xiàn)如圖1所示,可知當(dāng)其為200以后,模型錯誤率較小而平穩(wěn),遂設(shè)置ntree為500。
2.2預(yù)測結(jié)果與精度比較
圖2和表2分別為RF算法計算得到的訓(xùn)練和測試樣本的預(yù)測結(jié)果,為比較算法優(yōu)越性,另使用RBF(徑向基神經(jīng)網(wǎng)絡(luò))、SVM(支持向量機)實施建模預(yù)測。由圖可知,3種不同算法均能夠較好擬合用電量變化,訓(xùn)練樣本各年份用電量預(yù)測的MAE介于2.33~45.38億kw·h之間,表明訓(xùn)練模型精度可靠。訓(xùn)練模型統(tǒng)計顯示,RF、SVM、RBF訓(xùn)練模型的MAE依次為7.02億kw·h、7.72億kw·h、8.86億kw·h。測試結(jié)果表明,基于RF的預(yù)測結(jié)果最優(yōu),其MAE僅為9.20億kw·h,RMSE為10.57億kw·h,而基于SVM和RBF的預(yù)測結(jié)果的MAE和RMSE分別為22.39億kw·h、25.57億kw·h和13.24億kw·h、14.04億kw·h。綜合來看,基于RF的用電量預(yù)測模型精度高、預(yù)測效果良好。
2.3解釋變量重要性分析
RF算法通過袋外數(shù)據(jù)的誤差表征變量特征,其值越大,表明該變量對模型的重要性越大。由圖3可知,平均氣溫、雨日數(shù)、人均GDP、工業(yè)產(chǎn)值電耗、人均用電量、第一產(chǎn)業(yè)用電量、GDP的分值最大,其重要性分值在4~5.53之間,表明其對模型精度具有重要影響:無霜期、極端低溫天數(shù)、8月份平均氣溫、第三產(chǎn)業(yè)用電總量、1月份相對濕度和第二產(chǎn)業(yè)用電總量的重要性分值最小,介于0~1.03之間,說明其對模型增益效果較低:其他變量的重要性分值介于2~4之間,它們對模型精度的影響性一般。
3結(jié)論
以多元協(xié)變量為基礎(chǔ)構(gòu)建中長期用電量的預(yù)測模型,根據(jù)模型運行結(jié)果,得出結(jié)論如下:
(1)RF算法能夠較好地擬合2000一2017年寧夏年度用電量變化,訓(xùn)練誤差與預(yù)測誤差均較小、精度可靠,表明預(yù)測方案應(yīng)用性較好:
(2)多元協(xié)變量之間關(guān)聯(lián)復(fù)雜,而RF能排除多維數(shù)組間共線性影響,擬合其與用電量之間的線性、非線性關(guān)系,并識別各協(xié)變量對模型精度的影響:
(3)隨機森林集合了多個弱分類器,較于傳統(tǒng)RBF和SVM算法其具有一定的優(yōu)勢,在建模過程中模型參量調(diào)試簡易,模型穩(wěn)定性高。