程度亦存在差異。利用互信息理論對(duì)與 用戶用電相關(guān)的社會(huì)經(jīng)濟(jì)因素進(jìn)行分析和排序,可以揭示與精確用電量預(yù)測最相關(guān)的因 素,并準(zhǔn)確剔除對(duì)用電量預(yù)測貢獻(xiàn)較少的因素,從而降低用電量預(yù)測建模的復(fù)雜度并提高 預(yù)測精度。
[0071 ] 本實(shí)施例中,5360家用戶所屬行業(yè)涵蓋工業(yè),交通運(yùn)輸、倉儲(chǔ)和郵政業(yè),商業(yè)、住宿 和餐飲業(yè)等8大類行業(yè)。將上海市該8類行業(yè)的行業(yè)總產(chǎn)值、行業(yè)利潤總額、行業(yè)固定資產(chǎn)投 資和行業(yè)景氣指數(shù),共4X8 = 32種因素,作為用戶用電量潛在關(guān)聯(lián)因素。
[0072] 在5360家用戶中制造類企業(yè)所占比重較大,上述制造類企業(yè)共涵蓋制造業(yè)下屬的 20個(gè)子行業(yè)。將這20個(gè)子行業(yè)在上海市的主要產(chǎn)品產(chǎn)量、主要原材料價(jià)格指數(shù)、主要產(chǎn)品出 廠價(jià)格指數(shù)、主要產(chǎn)品出口價(jià)格指數(shù)和產(chǎn)品庫存量,共5X20 = 100種因素,也作為用戶用電 量潛在關(guān)聯(lián)因素。
[0073] 此外,還要考慮與用戶所處區(qū)域相關(guān)的因素,如常住人口數(shù)、人均可支配收入、社 會(huì)消費(fèi)品零售總額、總⑶P、生產(chǎn)價(jià)格指數(shù)、居民消費(fèi)價(jià)格指數(shù)、第一與第二和第三產(chǎn)業(yè)⑶P、 進(jìn)出口貿(mào)易額、固定資產(chǎn)投資額、商務(wù)樓宇面積、房地產(chǎn)新開工面積、土地交易價(jià)格、道路總 里程數(shù)、電力價(jià)格指數(shù)、月平均氣溫和季節(jié)指標(biāo),共18種因素。將上述32+100+18 = 150種因 素作為用戶用電量潛在關(guān)聯(lián)因素,構(gòu)建潛在關(guān)聯(lián)因素?cái)?shù)據(jù)集。
[0074]本實(shí)施例中,以圖5中第20個(gè)用戶群體(屬于年用電量-快速增長型、月用電量-單 峰型、負(fù)荷特性指標(biāo)-第二類)為例,說明用電關(guān)聯(lián)因素辨識(shí)及用電量預(yù)測建模的全過程。 [0075]所述的步驟S2中,如圖6所示,用戶用電行為強(qiáng)關(guān)聯(lián)因素辨識(shí)過程具體包含以下步 驟:
[0076]步驟S2.1、在用電量關(guān)聯(lián)因素的識(shí)別和篩選過程中,將第20個(gè)用戶群體中253個(gè)用 戶的月度用電量數(shù)據(jù)作為解釋變量,150種潛在關(guān)聯(lián)因素的月度數(shù)據(jù)作為條件變量,分析解 釋變量與條件變量之間的互信息從而反映用電量與關(guān)聯(lián)因素之間的關(guān)聯(lián)關(guān)系。
[0077]步驟S2.2、對(duì)各個(gè)變量進(jìn)行變量域離散化處理,即把各個(gè)變量的數(shù)值序列轉(zhuǎn)化為 概率分布區(qū)間。離散化后,解釋變量X和條件變量γ之間的互信息可由下式得出:
[0078]
(2)
[0079] 其中,Μ為解釋變量X和條件變量Y所有取值的個(gè)數(shù)和;Ni為解釋變量X的區(qū)間數(shù)量; Mi為解釋變量X落在第i個(gè)區(qū)間的數(shù)值個(gè)數(shù);Nj為條件變量Y的區(qū)間數(shù)量;P(y u)為條件變量Y 落在第u個(gè)區(qū)間的概率;Muv為當(dāng)條件變量Y落在第u個(gè)區(qū)間時(shí),解釋變量)(恰好落在第v個(gè)區(qū)間 的數(shù)值個(gè)數(shù);
[0080] 步驟S2.3、對(duì)于用戶群體Gk(k=l,…,n),假設(shè)其中p個(gè)用戶的用電量數(shù)據(jù)序列構(gòu) 成數(shù)據(jù)集乂^{心,心,"_義},1種潛在關(guān)聯(lián)因素的數(shù)據(jù)序列構(gòu)成數(shù)據(jù)集¥^出』 2,"_,丫1}, 則Gk(k=l,-_,n)中各用戶用電量與各潛在關(guān)聯(lián)因素之間的互信息可表示為:
[0081] (3)
[0082]其中,XiEXD,YjeYD。實(shí)例中將第20個(gè)用戶群體中253個(gè)用戶的月度用電量數(shù)據(jù)作 為解釋變量,150種潛在關(guān)聯(lián)因素的月度數(shù)據(jù)作為條件變量,分析解釋變量與條件變量之間 的互信息,部分結(jié)果如圖7所示,在圖7中,每行代表一個(gè)用戶,每列代表一種潛在關(guān)聯(lián)因素, 每個(gè)色塊的顏色深淺表示用戶用電量與潛在關(guān)聯(lián)因素的互信息值,色塊顏色越深則互信息 值越大,說明用戶用電量與該因素的關(guān)聯(lián)程度越高。如果只分析單個(gè)用戶的用電量與各潛 在關(guān)聯(lián)因素之間的互信息值,可以發(fā)現(xiàn)每一行的色塊分布都存在個(gè)性化差異;若將眾多用 戶的分析結(jié)果進(jìn)行整合,則能從色塊圖的整體顏色深淺分布中捕獲關(guān)于用電量與各因素關(guān) 聯(lián)關(guān)系的共性特征,進(jìn)而確定影響該用戶群體用電量的強(qiáng)關(guān)聯(lián)因素。
[0083] Y」與Xi,X2,…,XP之間互信息的平均值,即平均互信息,可以表示為:
[0084]
(4)
[0085] 根據(jù)式(4)求得各因素與用戶用電量的平均互信息,并選取列表中排名前15的強(qiáng) 關(guān)聯(lián)因素,結(jié)果見表2:
[0086]表2關(guān)聯(lián)因素的平均互信息值
[0087]
[0088] 在表2中,15種強(qiáng)關(guān)聯(lián)因素包括:用戶所在區(qū)域的GDP(Y4)、居民消費(fèi)價(jià)格指數(shù) (¥6)、第二產(chǎn)業(yè)60?(¥8)、道路總里程數(shù)(¥15)、電力出廠價(jià)格指數(shù)(¥16),以及季節(jié)指標(biāo) (Y18);交通運(yùn)輸、倉儲(chǔ)和郵政業(yè)的行業(yè)固定資產(chǎn)投資(Y25);交通運(yùn)輸、電氣、電子設(shè)備制造 業(yè)的行業(yè)總產(chǎn)值(Y31)、行業(yè)利潤總額(Y32)、行業(yè)固定資產(chǎn)投資(Y33),以及行業(yè)景氣指數(shù) (Y34);信息傳輸、計(jì)算機(jī)服務(wù)和軟件業(yè)的行業(yè)利潤總額(Y36)和行業(yè)固定資產(chǎn)投資(Y37); 電力、燃?xì)饧八纳a(chǎn)和供應(yīng)業(yè)的行業(yè)固定資產(chǎn)投資(Y41)和行業(yè)景氣指數(shù)(Y42)。由表2可 知,第20個(gè)用戶群體的用電量與交通運(yùn)輸、電氣、電子設(shè)備制造業(yè)的多種因素(Y3UY32、 Y33、Y34)關(guān)聯(lián)性較強(qiáng),且受固定資產(chǎn)投資類因素(¥25、¥33、¥37、¥41)的影響較大。
[0089] 所述的步驟S3中,在獲得多種關(guān)聯(lián)因素的基礎(chǔ)上,利用隨機(jī)森林算法對(duì)各用戶群 體開展用電量預(yù)測建模。首先,對(duì)用戶群體Gk(k=l,…,η),利用Bootstrap方法從原始訓(xùn)練 樣本集Sk(k= 1,…,η)中隨機(jī)抽取多個(gè)訓(xùn)練樣本子集,對(duì)每個(gè)子集分別進(jìn)行決策樹建模,然 后利用測試集對(duì)各決策樹進(jìn)行測試,綜合多棵決策樹的測試結(jié)果,通過投票得出最終的用 電量預(yù)測模型。
[0090] 本實(shí)施例中,以15種強(qiáng)關(guān)聯(lián)因素的月度數(shù)據(jù)作為輸入,以第20個(gè)用戶群體的總用 電量月度數(shù)據(jù)作為為輸出,形成原始訓(xùn)練樣本集,進(jìn)而建立基于隨機(jī)森林算法的用電量預(yù) 測模型。采用隨機(jī)森林算法進(jìn)行用電量預(yù)測時(shí),若預(yù)測值超過了訓(xùn)練樣本集的數(shù)值范圍,預(yù) 測精度會(huì)大打折扣。為保證預(yù)測的穩(wěn)定性,本文將強(qiáng)關(guān)聯(lián)因素和月用電量數(shù)據(jù)轉(zhuǎn)化為月度 同比增長率,作為預(yù)測模型的輸入和輸出。
[0091] 所述的步驟S3中,如圖8所示,用戶用電量預(yù)測過程具體包含以下步驟:
[0092] 步驟S3.1、訓(xùn)練樣本子集的隨機(jī)選取:原始訓(xùn)練樣本集Sk由兩類數(shù)據(jù)構(gòu)成:一類為 Gk中用戶總用電量時(shí)序數(shù)據(jù),作為預(yù)測模型的輸出;另一類為與之對(duì)應(yīng)的Μ種關(guān)聯(lián)因素的時(shí) 序數(shù)據(jù),作為預(yù)測模型的輸入。實(shí)例中利用Bootstrap方法從S2Q中隨機(jī)選取w個(gè)訓(xùn)練樣本子 集,用于構(gòu)建w棵分類回歸樹(classification and regression tree,CART)。
[0093] 步驟33.2、041^決策樹構(gòu)建:對(duì)每一個(gè)訓(xùn)練樣本子集,以611^系數(shù)最小為原則,采 用CART算法生成一棵決策樹,共生成w棵決策樹,從而形成"森林"。為保證決策樹構(gòu)建時(shí)的 隨機(jī)性,避免過擬合問題,在每一棵決策樹構(gòu)建時(shí),從Μ種用戶用電量關(guān)聯(lián)因素中隨機(jī)選取F 種作為隨機(jī)特征變量,參與決策樹節(jié)點(diǎn)分裂過程,其中F取小于等于log2(M+l)的最大正整 數(shù)。實(shí)例中每棵決策樹生成時(shí)隨機(jī)選取l〇g 2(15+l) =4種強(qiáng)關(guān)聯(lián)因素作為隨機(jī)特征變量,參 與節(jié)點(diǎn)分裂過程。
[0094] 步驟S3.3、投票產(chǎn)生用電量預(yù)測結(jié)果:當(dāng)w棵CART決策樹構(gòu)建完成后,利用測試集 數(shù)據(jù)進(jìn)行仿真。將測試集中與用電量Y k相關(guān)的關(guān)聯(lián)因素?cái)?shù)據(jù)Xk作為輸入,得到各決策樹模型 的預(yù)測結(jié)果序列{fkl(Xk),fk2(Xk),…,f kw(Xk)}?;陔S機(jī)森林算法的預(yù)測模型最終輸出的 用電量預(yù)測結(jié)果采用投票方式產(chǎn)生:
[0095]
(5)
[0096]其中:Fk為面向用戶群體Gk的用電量組合預(yù)測模型;fkl為單棵決策樹預(yù)測模型;I (〇)為示性函數(shù)。將各用戶群體的用電量預(yù)測模型Fk進(jìn)行線性組合,即可得到全體用戶的總 用電量預(yù)測模型。
[0097]本實(shí)施例中,利用隨機(jī)森林模型進(jìn)行預(yù)測,在得到用電量月度同比增長率的基礎(chǔ) 上,以上一年同期的月用電量為基準(zhǔn)得到該月用電量預(yù)測值。為比較不同模型的預(yù)測能力, 基于相同的訓(xùn)練樣本集,建立支持向量機(jī)(support vector machine,SVM)預(yù)測模型,并與 隨機(jī)森林模型的預(yù)測結(jié)果進(jìn)行對(duì)比,結(jié)果見表3。
[0098] 表3不同模型的預(yù)測結(jié)果比對(duì) [0099]