基于RF和深度學(xué)習(xí)的中長(zhǎng)期用電量預(yù)測(cè)研究
掃描二維碼
隨時(shí)隨地手機(jī)看文章
引言
中長(zhǎng)期用電量預(yù)測(cè)是智能電網(wǎng)建設(shè)的重要內(nèi)容之一,對(duì)電網(wǎng)系統(tǒng)規(guī)劃與資源合理配置具有重要意義。目前針對(duì)用電量的預(yù)測(cè)方法可分為自回歸模型、統(tǒng)計(jì)學(xué)方法(多元回歸、主成分等)、高階數(shù)學(xué)模型)灰色系統(tǒng)、系統(tǒng)動(dòng)力學(xué)等:和智能模型(BP、RBF神經(jīng)網(wǎng)絡(luò),支持向量機(jī)等)。相較而言,傳統(tǒng)方法操作簡(jiǎn)單、模型直觀可視化,但其預(yù)測(cè)精度易受數(shù)據(jù)噪聲影響,具有不確定性。智能模型對(duì)高維非線性、非結(jié)構(gòu)化問(wèn)題具有良好的自適應(yīng)能力,能夠通過(guò)自主學(xué)習(xí)、高維映射、容錯(cuò)、記憶等手段大量挖掘隱含信息,得出用電量變化的內(nèi)在規(guī)律。智能模型中的深度學(xué)習(xí)算法通過(guò)增加網(wǎng)絡(luò)層次結(jié)構(gòu),在語(yǔ)音識(shí)別、機(jī)器視覺(jué)、自動(dòng)駕駛等領(lǐng)域獲得良好應(yīng)用。遂本文擬以寧夏為案例,闡釋基于RF與DBN的用電量預(yù)測(cè)模型構(gòu)建方法及其有效性。
1算法原理
1.1DBN網(wǎng)絡(luò)原理
深度信念網(wǎng)絡(luò)(DBN)是深度學(xué)習(xí)的一種典型學(xué)習(xí)框架,是由GeoffreyHinton提出的經(jīng)若干個(gè)受限玻爾茲曼機(jī)(RBM)單元堆疊而成的一種生成模型。而單獨(dú)的RBM是由隱含層、顯示層上下雙向嵌套構(gòu)成的,當(dāng)多個(gè)RBM堆疊時(shí),前一個(gè)RBM的輸出層作為后一個(gè)RBM單元的輸入層,通過(guò)訓(xùn)練其神經(jīng)元間的權(quán)重,構(gòu)建整個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)關(guān)系。訓(xùn)練過(guò)程如下:
(1)利用對(duì)比散度算法進(jìn)行權(quán)值初始化,運(yùn)用Hinton的研究經(jīng)驗(yàn)將初始系數(shù)賦值為1時(shí),權(quán)值如下:
式中,a、ó分別為顯示層b、隱含層h的偏置向量:w為權(quán)重。
(2)將初始化權(quán)值矩陣賦值X給顯示層b,從而計(jì)算它使隱含層神經(jīng)元被開(kāi)啟的概率:
(3)生成一個(gè)[0,1]區(qū)間上的隨機(jī)數(shù)rj,并確定其權(quán)值如下:
(4)根據(jù)隱含層h的輸入值,通過(guò)計(jì)算概率后重構(gòu)其對(duì)應(yīng)的顯示層,進(jìn)行GibbS抽樣:
(5)生成一個(gè)[0,1]區(qū)間上的隨機(jī)數(shù)bj,并運(yùn)用GibbS進(jìn)行抽取:
(6)再次用重構(gòu)之后顯示層神經(jīng)元計(jì)算隱含層神經(jīng)元被開(kāi)啟的概率,即:
(7)通過(guò)前述過(guò)程得到新的權(quán)重與偏置:
(8)通過(guò)RBM使得訓(xùn)練數(shù)據(jù)生成的似然分布具有因子形式,再運(yùn)用前向傳播算法進(jìn)行監(jiān)督訓(xùn)練[5]。
1.2RF算法原理
隨機(jī)森林(RF)是Breiman等[4]集成N棵分類回歸樹(shù)而形成的融合算法,其基于隨機(jī)子空間理論和自助聚集法對(duì)隨機(jī)向量(X,Y)進(jìn)行隨機(jī)選取并進(jìn)行樹(shù)形生長(zhǎng)成為決策樹(shù)。設(shè)X、Y分別為獨(dú)立隨機(jī)向量(X,Y)中隨機(jī)子集中的輸入、輸出向量,對(duì)于預(yù)測(cè)樣本的輸出存在泛化誤差,待其構(gòu)成決策樹(shù)后節(jié)點(diǎn)的屬性變量值由隨機(jī)選中的幾個(gè)屬性子集中產(chǎn)生。對(duì)于測(cè)試的樣本,隨機(jī)森林通過(guò)自助聚集讓每棵樹(shù)進(jìn)行投票,票數(shù)最高類別即為輸出結(jié)果,即:
式中,P)λ)為隨機(jī)森林組合模型結(jié)果:pi為單棵樹(shù)分類模型:I為指示函數(shù)。
Gini系數(shù)是變量重要性度量方法之一,其分值越高,表明該變量重要性越大,公式如下:
2用電量數(shù)據(jù)與建模過(guò)程
2.1數(shù)據(jù)選取
以寧夏1980一2016年的全年用電量數(shù)據(jù)為建模目標(biāo)變量進(jìn)行預(yù)測(cè)。中長(zhǎng)期用電量變化不僅受限于電力系統(tǒng)自身能效供給能力,還受用電需求、天氣等多因素綜合影響,因此從多層面構(gòu)建用電量的解釋指標(biāo)因子能夠更精確模擬其變化趨勢(shì)。結(jié)合多位學(xué)者的研究經(jīng)驗(yàn)[4-5],從社會(huì)經(jīng)濟(jì)、人口、能耗、天氣等方面選取了33項(xiàng)因子作為解釋變量,如表1所示。
2.2基于RF一DBN的電量求解流程
依據(jù)用電量與其解釋變量之間的關(guān)系構(gòu)建預(yù)測(cè)模型如下:
(1)采用極差法消除量綱差異。
(2)以解釋變量為輸入因子,用電量為輸出,基于RStudiol.l軟件的randomforeSt程序包進(jìn)行RF算法模型訓(xùn)練,應(yīng)用varimportance函數(shù)計(jì)算各變量的Gini系數(shù)值和移除該變量之后模型精度損失量。
(3)根據(jù)RF對(duì)各變量重要性的排序以及模型總體精度,識(shí)別重要性指標(biāo)。
(4)將篩選出來(lái)的重要變量用作DBN網(wǎng)絡(luò)結(jié)構(gòu)中的輸入,并實(shí)施網(wǎng)絡(luò)訓(xùn)練。
(5)采用平均絕對(duì)誤差MAE和均方根誤差RMSE對(duì)模型精度予以評(píng)價(jià)。
3算例分析
3﹒1變量選擇結(jié)果
RF對(duì)各變量的重要性進(jìn)行了排序,由圖1可知各變量的Gini值介于2.07~9.56之間,其中年平均濕度、第三產(chǎn)業(yè)人口數(shù)等5個(gè)變量的系數(shù)值高于7.50,且其誤差增益值介于0.3~0.4之間,均遠(yuǎn)高于其他變量,說(shuō)明其是預(yù)測(cè)模型中的最重要變量。其次是8月份相對(duì)濕度、第一產(chǎn)業(yè)人口數(shù)、裝機(jī)容量等14個(gè)解釋變量,其Gini值介于5.73~7.24之間,相應(yīng)的模型誤差增益值為0.14~0.27。而第三產(chǎn)業(yè)GDP等變量的Gini系數(shù)值相對(duì)偏小,僅介于2.07~5.04,并且其誤差增益值為-0.5~0之間,表明這些變量對(duì)模型精度具有減弱效應(yīng)。由此,確定年平均濕度等20個(gè)變量為重要變量,在建立用電量預(yù)測(cè)模型時(shí)應(yīng)當(dāng)優(yōu)選,而其他為冗余變量,應(yīng)當(dāng)排除。
3.2模型結(jié)構(gòu)優(yōu)化
DBN模型中每一層RBM的隱含神經(jīng)元個(gè)數(shù)對(duì)模型泛化能力影響較大,采用逐層枚舉法調(diào)試。設(shè)定隱含神經(jīng)元寬度為[0,100],根據(jù)MAE的大小搜尋最佳值。由于RBM運(yùn)行結(jié)果具有隨機(jī)性,故采用50次運(yùn)行結(jié)果MAE的平均值進(jìn)行衡量,如圖2所示。由圖可知,當(dāng)?shù)谝粚覴BM的隱含神經(jīng)元取值在40~60之間時(shí),MAE值明顯偏小,當(dāng)其為52時(shí)MAE為0.72%。第二層RBM的隱含神經(jīng)元數(shù)在20~30之間模型擬合較好,其最佳值為26,此時(shí)MAE為0.56%。第三層RBM隱含神經(jīng)元數(shù)為31時(shí),MAE值最小,僅為0.85%。
3.3模型預(yù)測(cè)解析
以1980一2000年的數(shù)據(jù)為訓(xùn)練集,2001一2016年的為驗(yàn)證集進(jìn)行深度學(xué)習(xí)訓(xùn)練。為比較不同建模方案效果,運(yùn)用SVM和RF算法模擬了經(jīng)變量選擇和未經(jīng)選擇后的效果,如表2所示。結(jié)果表明,不同方案下訓(xùn)練模型產(chǎn)生的MAE介于2.014~3.438億kw·h之間,RMSE為1.011~1.709億kw·h,相對(duì)于全年用電量來(lái)說(shuō)極其微小,表明訓(xùn)練模型精度較高。
從算法來(lái)看,基于DBN的訓(xùn)練集、驗(yàn)證集的誤差均小于RF和SVM算法的誤差,說(shuō)明DBN網(wǎng)絡(luò)能夠很好地解釋高維數(shù)據(jù)線性、非線性關(guān)系,從而實(shí)現(xiàn)用電量變化趨勢(shì)精確擬合;從變量選擇來(lái)看,未經(jīng)RF變量篩選方案下的DBN、RF和SVM訓(xùn)練集合驗(yàn)證集的誤差均高于經(jīng)變量選擇的方案,表明本文提出的變量篩選方法有助于提高預(yù)測(cè)精度、增強(qiáng)模型可靠性。
4結(jié)語(yǔ)
為提升中長(zhǎng)期用電量預(yù)測(cè)可靠性,本文提出了基于RF變量選擇與DBN深度學(xué)習(xí)的預(yù)測(cè)方案。RF算法對(duì)變量的重要性排序過(guò)程是無(wú)偏最優(yōu)的,據(jù)此識(shí)別的重要解釋變量既能反映用電量變化信息,還能簡(jiǎn)化電量預(yù)測(cè)模型結(jié)構(gòu)、提升訓(xùn)練速率和泛化能力。DBN以多層RBM為基礎(chǔ)將歷史電量信息前饋于預(yù)測(cè)期內(nèi),保留了電量的序貫變化規(guī)律,其預(yù)測(cè)性能較優(yōu)于RF和SVM等回歸模型。