[0100]表3中列出了第20個用戶群體在某6個月(對應(yīng)表中的組別)的實際用電量以及SVM 模型和隨機(jī)森林模型的預(yù)測值。在6組數(shù)據(jù)中,除第6組外,隨機(jī)森林模型的絕對百分誤差 (absolute percentage error,APE)均小于SVM模型;從整體上看,隨機(jī)森林模型的MAPE明 顯小于SVM模型,具有更高的預(yù)測精度。
[0101]綜上所述,本發(fā)明提出了一種在電力大數(shù)據(jù)環(huán)境下的用戶用電關(guān)聯(lián)因素辨識及用 電量預(yù)測方法。通過面向海量用戶的用電特性子空間聚類分析方法,結(jié)合用電特性多維評 價指標(biāo)及特征向量,對用戶用電特性數(shù)據(jù)集進(jìn)行子空間劃分,采用自上而下的子空間搜索 策略提取出多種子空間用電模式,并根據(jù)用電模式的差異性對用戶進(jìn)行多維度解析和群體 劃分,從而拓展了現(xiàn)有的用戶用電行為分析方法。同時運用互信息理論對不同用戶群體的 用電關(guān)聯(lián)因素進(jìn)行判別,挖掘出各種潛在關(guān)聯(lián)因素和用戶用電量之間的關(guān)聯(lián)關(guān)系,以強(qiáng)關(guān) 聯(lián)因素數(shù)據(jù)作為輸入建立基于隨機(jī)森林算法的用戶用電量組合預(yù)測模型,實現(xiàn)了用電預(yù)測 全過程的數(shù)據(jù)驅(qū)動,從而為用戶用電強(qiáng)關(guān)聯(lián)因素的篩選以及用電預(yù)測建模提供了一種新思 路。
[0102] 盡管本發(fā)明的內(nèi)容已經(jīng)通過上述優(yōu)選實施例作了詳細(xì)介紹,但應(yīng)當(dāng)認(rèn)識到上述的 描述不應(yīng)被認(rèn)為是對本發(fā)明的限制。在本領(lǐng)域技術(shù)人員閱讀了上述內(nèi)容后,對于本發(fā)明的 多種修改和替代都將是顯而易見的。因此,本發(fā)明的保護(hù)范圍應(yīng)由所附的權(quán)利要求來限定。
【主權(quán)項】
1. 一種大數(shù)據(jù)環(huán)境下用戶用電關(guān)聯(lián)因素辨識及用電量預(yù)測方法,其特征在于,包含W 下步驟: 步驟S1、建立多維評價指標(biāo)體系對用戶用電特性進(jìn)行表征,并根據(jù)不同用戶的用電特 性,在多維評價指標(biāo)數(shù)據(jù)的各個子空間中分別開展模糊C均值聚類,提取用戶的多樣化用電 模式,從而實現(xiàn)基于用電模式判別的用戶精細(xì)化分類; 步驟S2、運用互信息理論對用戶用電量數(shù)據(jù)與潛在關(guān)聯(lián)因素數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,辨識 與用戶用電行為存在強(qiáng)關(guān)聯(lián)關(guān)系的因素; 步驟S3、根據(jù)各類用戶的用電量數(shù)據(jù)及其強(qiáng)關(guān)聯(lián)因素數(shù)據(jù),面向各數(shù)據(jù)樣本開展基于 隨機(jī)森林算法的預(yù)測建模及參數(shù)尋優(yōu),對各用戶群體的用電量進(jìn)行預(yù)測。2. 如權(quán)利要求1所述的大數(shù)據(jù)環(huán)境下用戶用電關(guān)聯(lián)因素辨識及用電量預(yù)測方法,其特 征在于,所述的步驟Sl中,實現(xiàn)用戶精細(xì)化分類包含W下步驟: 步驟SI. 1、針對不同用戶使用包含時序與非時序數(shù)據(jù)的用戶用電特性多維評價指標(biāo): :戸/ = {"fl,巧2,….,.巧心,屬,佑…,爲(wèi).,打:,污,.*',於>]' € :戸。' .1 勺 (1) 其中:ati,at2,…,Qtu和氏1,氏2,…,Ptv是時序特征向量,分別代表用戶年用電量和月用 電量時間序列數(shù)據(jù);丫 1,丫 2,…,丫 W是非時序特征向量,包括年最大負(fù)荷利用小時數(shù)丫 1、負(fù) 荷密度丫 2、典型日平均負(fù)荷率丫 3、季不均衡系數(shù)丫 4, W及峰谷電量比丫 5等負(fù)荷特性指標(biāo) 數(shù)據(jù); 步驟Sl . 2、基于"自上而下"的子空間聚類捜索策略,建立用電特性多維度解析模型,根 據(jù)數(shù)據(jù)類型和指標(biāo)含義的不同,將用電特性數(shù)據(jù)集Vd劃分為3個子空間b、L2和L3,并相應(yīng)地 將原特征向量Vc進(jìn)行拆分,在各子空間中,分別W年用電量時間序列V。、月用電量時間序列 %,W及負(fù)荷特性數(shù)據(jù)Vy作為特征向量,利用模糊C均值算法進(jìn)行聚類; 步驟SI. 3、在Vd的3個子空間和L3中,通過模糊C均值聚類分別發(fā)現(xiàn)r、s和t個簇,從 子空間^、L2和L3中分別取出1個簇進(jìn)行融合,所形成的全空間簇可W確定1種用戶用電模 式,在全空間中,根據(jù)簇的不同,將全體用戶的用電特性定義為r XsXt種用電模式,根據(jù)用 電模式的不同將用戶進(jìn)行分組,分為n = rXsXt個群體,即Gi(i,= l,…,n),從而實現(xiàn)了對 用戶的精細(xì)化分類。3. 如權(quán)利要求1所述的大數(shù)據(jù)環(huán)境下用戶用電關(guān)聯(lián)因素辨識及用電量預(yù)測方法,其特 征在于,所述的步驟S2中,辨識用戶用電行為的關(guān)聯(lián)因素包含W下步驟: 步驟S2.1、將各個用戶的用電量數(shù)據(jù)序列作為解釋變量X,各潛在關(guān)聯(lián)因素數(shù)據(jù)序列作 為條件變量Y,其中Y和X之間的互信息大小反映了潛在關(guān)聯(lián)因素與用電量之間的關(guān)聯(lián)程度; 步驟S2.2、對各個變量進(jìn)行變量域離散化處理,即把各個變量的數(shù)值序列轉(zhuǎn)化為概率 分布區(qū)間,離散化后,解釋變量X和條件變量Y之間的互信息可由下式得出:(2) 其中:M為解釋變量X和條件變量Y所有取值的個數(shù)和;Ni為解釋變量X的區(qū)間數(shù)量;Mi為 解釋變量X落在第i個區(qū)間的數(shù)值個數(shù);為條件變量Y的區(qū)間數(shù)量;P(yu)為條件變量Y落在 第U個區(qū)間的概率;Muv為當(dāng)條件變量Y落在第U個區(qū)間時,解釋變量對合好落在第V個區(qū)間的數(shù) 值個數(shù); 步驟S2.3、分析各用戶用電量與各潛在關(guān)聯(lián)因素之間的互信息,對于用戶群體Gk(k = 1,…,n),假設(shè)其中P個用戶的用電量數(shù)據(jù)序列構(gòu)成數(shù)據(jù)集Xd=化,X2,…,Xp},l種潛在關(guān)聯(lián) 因素的數(shù)據(jù)序列構(gòu)成數(shù)據(jù)集Yd = {Yi,Y2,…,Yi},則Gk化=1,…,n)中各用戶用電量與各潛在 關(guān)聯(lián)因素之間的互信息可表示為:(3)其中:XiEXd,Yj EYDaYj與Xi ,X2,…,Xp之間互f目息的平均值,即平均互f目息,可W表不 為: (4) 對用戶群體Gk化=1,…,n),可利用平均互信息評價潛在關(guān)聯(lián)因素 Yj與用戶用電量之間 的關(guān)聯(lián)關(guān)系強(qiáng)弱:平均互信息越大,二者之間的關(guān)聯(lián)性越強(qiáng),對平均互信息大于O的關(guān)聯(lián)因 素進(jìn)行排序,形成關(guān)聯(lián)因素列表,選取列表中排名靠前的強(qiáng)關(guān)聯(lián)因素,與用戶用電量數(shù)據(jù)一 起構(gòu)建訓(xùn)練樣本集Sk化=1,…,n),用于用戶群體Gk化=1,…,n)的用電量預(yù)測建模。4.如權(quán)利要求1所述的大數(shù)據(jù)環(huán)境下用戶用電關(guān)聯(lián)因素辨識及用電量預(yù)測方法,其特 征在于,所述的步驟S3中,利用隨機(jī)森林算法對用戶用電量進(jìn)行預(yù)測包含W下步驟: 步驟S3.1、隨機(jī)選取訓(xùn)練樣本子集: 原始訓(xùn)練樣本集Sk由兩類數(shù)據(jù)構(gòu)成:一類為Gk中用戶總用電量時序數(shù)據(jù),作為預(yù)測模型 的輸出;另一類為與之對應(yīng)的M種關(guān)聯(lián)因素的時序數(shù)據(jù),作為預(yù)測模型的輸入;利用 Bootstrap抽樣方法從Sk中隨機(jī)選取W個訓(xùn)練樣本子集Ski,Sk2, '''Skw,用于構(gòu)建W棵分類回歸 樹; 步驟S3.2、構(gòu)建CART決策樹: 對每一個訓(xùn)練樣本子集,WGini系數(shù)最小為原則,采用CART算法生成一棵決策樹,共生 成W棵決策樹,在每一棵決策樹構(gòu)建時,從M種用戶用電量關(guān)聯(lián)因素中隨機(jī)選取F種作為隨機(jī) 特征變量,參與決策樹節(jié)點分裂過程,其中F取小于等于log2(M+l)的最大正整數(shù),決策樹的 棵數(shù)W需根據(jù)預(yù)測結(jié)果進(jìn)行調(diào)整; 步驟S3.3、投票產(chǎn)生用電量預(yù)測結(jié)果: 當(dāng)W棵CART決策樹構(gòu)建完成后,利用測試集數(shù)據(jù)進(jìn)行仿真,將測試集中與用電量化相關(guān) 的關(guān)聯(lián)因素數(shù)據(jù)Xk作為輸入,得到各決策樹模型的預(yù)測結(jié)果序列Ukl(Xk),fk2(Xk),…,fkw (Xk)},基于隨機(jī)森林算法的預(yù)測模型最終輸出的用電量預(yù)測結(jié)果采用投票方式產(chǎn)生:(5) 其中:Fk為面向用戶群體Gk的用電量組合預(yù)測模型;fki為單棵決策樹預(yù)測模型;I(O)為 示性函數(shù),將各用戶群體的用電量預(yù)測模型Fk進(jìn)行線性組合,即可得到全體用戶的總用電 量預(yù)測模型。
【專利摘要】一種大數(shù)據(jù)環(huán)境下用戶用電關(guān)聯(lián)因素辨識及用電量預(yù)測方法,針對與用電量預(yù)測相關(guān)的大數(shù)據(jù)種類多、體量大、維度高和生成速度快等特點,在研究用戶用電特性評價指標(biāo)的基礎(chǔ)上,運用海量用戶用電特性子空間聚類分析方法,挖掘用戶多種用電模式,拓展現(xiàn)有的用電行為分析方法,同時根據(jù)不同用電模式對用戶進(jìn)行群體劃分,并利用互信息矩陣從區(qū)域及行業(yè)經(jīng)濟(jì)數(shù)據(jù)、氣候條件,以及電力價格等方面辨識與用戶群體用電量相關(guān)聯(lián)的因素,構(gòu)建基于隨機(jī)森林算法的用電量大數(shù)據(jù)預(yù)測模型,實現(xiàn)了用電預(yù)測全過程的數(shù)據(jù)驅(qū)動,并且可以規(guī)避用電模式差異性為用電量預(yù)測帶來的不利影響,具有較高的預(yù)測精度,適用于大數(shù)據(jù)的分析處理。
【IPC分類】G06Q50/06, G06Q10/04
【公開號】CN105512768
【申請?zhí)枴緾N201510934200
【發(fā)明人】王林童, 趙騰, 張焰, 楊增輝, 蘇運
【申請人】上海交通大學(xué), 國網(wǎng)上海市電力公司
【公開日】2016年4月20日
【申請日】2015年12月14日