本發(fā)明涉及一種負(fù)荷分類的
技術(shù)領(lǐng)域:
,具體涉及一種基于負(fù)荷曲線距離和形狀的負(fù)荷分類方法。
背景技術(shù):
:科學(xué)準(zhǔn)確的負(fù)荷分類方法可以節(jié)約國(guó)家對(duì)電力工業(yè)的基建投資,提高發(fā)電設(shè)備的熱效率,降低燃料消耗,降低發(fā)電成本,增加電力系統(tǒng)運(yùn)行的安全穩(wěn)定性和提高供電質(zhì)量,有利于電力設(shè)備的檢修工作;同時(shí)是做好電力規(guī)劃、生產(chǎn)、運(yùn)行工作的重要基礎(chǔ),也是制定相關(guān)政策的重要參考;為電網(wǎng)生產(chǎn)運(yùn)行、電網(wǎng)規(guī)劃、提高電網(wǎng)精細(xì)化管理水平,積極推進(jìn)創(chuàng)新工作的提供技術(shù)指引?,F(xiàn)階段負(fù)荷快速增長(zhǎng),但電力負(fù)荷特性的分析仍處于較粗淺的階段,對(duì)分類負(fù)荷特性研究不深入,對(duì)其變化規(guī)律掌握不精準(zhǔn),未能形成有效的統(tǒng)計(jì)、分析系統(tǒng),不能對(duì)負(fù)荷預(yù)測(cè)、電網(wǎng)規(guī)劃、經(jīng)濟(jì)調(diào)度、電力市場(chǎng)等提供有效的技術(shù)支持和指導(dǎo)。針對(duì)目前電力負(fù)荷分類研究工作已經(jīng)取得的成果和存在的問(wèn)題,提出了一種基于負(fù)荷曲線距離和形狀的分類方法。技術(shù)實(shí)現(xiàn)要素:針對(duì)K-means聚類算法的局限性,本文從聚類數(shù)目的確定、初始類中心的選擇、相似性度量以及迭代過(guò)程上作改進(jìn),一種基于負(fù)荷曲線距離和形狀的負(fù)荷分類方法。為解決上述技術(shù)問(wèn)題,本發(fā)明所采取的技術(shù)方案如下:一種基于負(fù)荷曲線距離和形狀的負(fù)荷分類方法,該方法實(shí)現(xiàn)步驟如下:S1:對(duì)用戶負(fù)荷數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,用K-means聚類法對(duì)專變用戶進(jìn)行聚類,分別選不同的k,找出最佳聚類數(shù)目時(shí)各類的類中心;S2:選取電網(wǎng)每周工作日的平均總負(fù)荷曲線為樣本,用主成分分析法對(duì)樣本計(jì)算各屬性的權(quán)重;S3:將K-means聚類法得到的類中心作為初始類中心,分別計(jì)算每個(gè)樣本,計(jì)算每個(gè)樣本Xi到類中心的距離,若則直接將Xi歸到距離最近的類中,否則計(jì)算Xi與arg(d1)、arg(d2)類中心的形狀相似性Tij,將Xi歸入曲線形狀最相似的類中;S4:用類均值更新類中心;S5:重復(fù)步驟S3,直至類中心不再變化,即可得到負(fù)荷分類。優(yōu)選的,步驟S1中所述的數(shù)據(jù)預(yù)處理采用個(gè)案剔除法進(jìn)行異常數(shù)據(jù)處理,即將異常個(gè)案剔除;在這種方法中如果任何一個(gè)變量含有缺失數(shù)據(jù)的話,就把相對(duì)應(yīng)的個(gè)案從分析中剔除;經(jīng)過(guò)初步梳理剔除后采用極差歸一化方法來(lái)進(jìn)行數(shù)據(jù)的歸一化處理,將xi的值映射到區(qū)間[a,b]中的xi′,即使得xi′轉(zhuǎn)化成了無(wú)量綱的數(shù)據(jù),計(jì)算式為:i=1,2,···,n其中max(X)=max(x1,x2,···,xn),min(X)=min(x1,x2,···,xn);本方法中a=0,b=1,所以歸一化后的數(shù)值取值范圍均0—1之間,極差歸一化將保持原始數(shù)據(jù)值之間的聯(lián)系。優(yōu)選的,關(guān)于步驟S1中所述k值,AIC(AkaikeInformationCriterion,赤池信息量準(zhǔn)則)是一個(gè)基于信息論的指標(biāo),它可以權(quán)衡失真率與模型復(fù)雜度;對(duì)于K-means聚類算法,AIC可以采用如下形式,即目標(biāo)函數(shù)最優(yōu)k值取值:其中RSS為衡量的是樣本和它們的簇原型之間的偏離程度:優(yōu)選的,步驟S2中所述的主成分分析法是指從所研究的全部屬性中,通過(guò)探討相關(guān)的內(nèi)部依賴結(jié)構(gòu),將有關(guān)主要信息集中在幾個(gè)主成分上,再用貢獻(xiàn)率確定各主成分的權(quán)重,從而得到綜合得分模型,綜合得分模型中各屬性系數(shù)的絕對(duì)值即為該屬性的權(quán)重;數(shù)學(xué)表示為:設(shè)X=(X1,X2,···,Xn)′是n維隨機(jī)向量,且D(X)=∑,∑的特征值為λ1≥λ2≥···≥λn≥0,a1,a2,···,an為相應(yīng)的單位正交特征向量,則X的第i主成分為:Zi=ai′X,i=1,2,···,n;主成分分析的目的之一是為了簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu),故在實(shí)際應(yīng)用中不用n個(gè)主成分,而選用m個(gè)主成分,通常取m,使累計(jì)貢獻(xiàn)率達(dá)到70%以上;主成分Zi的貢獻(xiàn)率為m的主成分的累計(jì)貢獻(xiàn)率為則綜合得分模型為:優(yōu)選的,步驟S3中所述的K-means聚類法首先從n個(gè)數(shù)據(jù)對(duì)象任意選擇k個(gè)對(duì)象作為初始聚類中心,對(duì)于所剩下其它對(duì)象,則根據(jù)它們與這些聚類中心的相似度即距離,分別將它們分配給與其最相似的即聚類中心所代表的聚類;然后再計(jì)算每個(gè)所獲新聚類的聚類中心即該聚類中所有對(duì)象的均值,并且不斷重復(fù)這一過(guò)程直到標(biāo)準(zhǔn)測(cè)度函數(shù)開始收斂為止。優(yōu)選的,步驟S3中,Tij的計(jì)算方法采用公式Tij=1-rij,其中rij為相關(guān)系數(shù),用來(lái)衡量曲線形狀的相似性,rij的計(jì)算公式為:優(yōu)選的,本方法采用一種判定方法,對(duì)聚類結(jié)果,找出一些誤分的樣本,分別計(jì)算這些樣本對(duì)應(yīng)的以及形狀相似性,找出誤分的臨界值作為α的值;這里是與所有類中心距離的最小值,是與所有類中心距離的次小值;dij為樣本Xi與Xj的加權(quán)歐氏距離,其中ω1,ω2,···,ω24為參數(shù);dij的公式為:本發(fā)明從聚類數(shù)目的確定、初始類中心的選擇、相似性度量以及迭代過(guò)程上作改進(jìn),形成一種基于負(fù)荷曲線距離和形狀的負(fù)荷分類方法,該方法具有效率高、精準(zhǔn)度高等特點(diǎn)。附圖說(shuō)明圖1為本發(fā)明實(shí)施例中基于負(fù)荷曲線距離和形狀的方法分類結(jié)果圖;圖2為本發(fā)明實(shí)施例中K-means聚類法得到的典型負(fù)荷分類結(jié)果圖;圖3為本發(fā)明的流程示意圖。具體實(shí)施方式針對(duì)K-means聚類算法的局限性,本文從聚類數(shù)目的確定、初始類中心的選擇、相似性度量以及迭代過(guò)程上作改進(jìn),一種基于負(fù)荷曲線距離和形狀的負(fù)荷分類方法。為解決上述技術(shù)問(wèn)題,本發(fā)明所采取的技術(shù)方案如下:如圖3所示本發(fā)明的流程示意圖,一種基于負(fù)荷曲線距離和形狀的負(fù)荷分類方法,步驟如下:S1:對(duì)用戶負(fù)荷數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,用K-means聚類法對(duì)專變用戶進(jìn)行聚類,分別選不同的k,找出最佳聚類數(shù)目時(shí)各類的類中心;S2:選取電網(wǎng)每周工作日的平均總負(fù)荷曲線為樣本,用主成分分析法對(duì)樣本計(jì)算各屬性的權(quán)重;S3:將K-means聚類法得到的類中心作為初始類中心,分別計(jì)算每個(gè)樣本計(jì)算每個(gè)樣本Xi到類中心的距離,若則之間將Xi歸到距離最近的類中,否則計(jì)算Xi與arg(d1)、arg(d2)類中心的形狀相似性Tij,將Xi歸入曲線形狀最相似的類中。S4:用類均值更新類中心。S5:重復(fù)步驟S3,直至類中心不再變化,即可得到負(fù)荷分類。所述的數(shù)據(jù)預(yù)處理采用個(gè)案剔除法進(jìn)行異常數(shù)據(jù)處理,即將異常個(gè)案剔除。在這種方法中如果任何一個(gè)變量含有缺失數(shù)據(jù)的話,就把相對(duì)應(yīng)的個(gè)案從分析中剔除。如果缺失值所占比例比較小的話,這一方法十分有效。經(jīng)過(guò)初步剔除后采用極差歸一化方法來(lái)進(jìn)行數(shù)據(jù)的歸一化處理,將xi的值映射到區(qū)間[a,b]中的xi′,即使得xi′轉(zhuǎn)化成了無(wú)量綱的數(shù)據(jù),即:i=1,2,···,n其中max(X)=max(x1,x2,···,xn),min(X)=min(x1,x2,···,xn)。本方法中a=0,b=1,所以歸一化后的數(shù)值取值范圍均0—1之間。極差歸一化將保持原始數(shù)據(jù)值之間的聯(lián)系。所述的K-means聚類法首先從n個(gè)數(shù)據(jù)對(duì)象任意選擇k個(gè)對(duì)象作為初始聚類中心,對(duì)于所剩下其它對(duì)象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類。然后再計(jì)算每個(gè)所獲新聚類的聚類中心(該聚類中所有對(duì)象的均值),并且不斷重復(fù)這一過(guò)程直到標(biāo)準(zhǔn)測(cè)度函數(shù)開始收斂為止。所述的AIC(AkaikeInformationCriterion,赤池信息量準(zhǔn)則)是一個(gè)基于信息論的指標(biāo),它可以權(quán)衡失真率與模型復(fù)雜度。對(duì)于K-means聚類算法,AIC可以采用如下形式,即目標(biāo)函數(shù)最優(yōu)k值取值:其中RSS為衡量的是樣本和它們的簇原型之間的偏離程度:所述的主成分分析法是從所研究的全部屬性中,通過(guò)探討相關(guān)的內(nèi)部依賴結(jié)構(gòu),將有關(guān)主要信息集中在幾個(gè)主成分上,再用貢獻(xiàn)率確定各主成分的權(quán)重,從而得到綜合得分模型,綜合得分模型中各屬性系數(shù)的絕對(duì)值即為該屬性的權(quán)重。設(shè)X=(X1,X2,···,Xn)′是n維隨機(jī)向量,且D(X)=∑,∑的特征值為λ1≥λ2≥···≥λn≥0,a1,a2,···,an為相應(yīng)的單位正交特征向量,則X的第i主成分為:Zi=ai′X,i=1,2,···,n。主成分分析的目的之一是為了簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu),故在實(shí)際應(yīng)用中一般絕對(duì)不用n個(gè)主成分,而選用m個(gè)主成分,通常取m,使累計(jì)貢獻(xiàn)率達(dá)到70%以上。主成分Zi的貢獻(xiàn)率為m的主成分的累計(jì)貢獻(xiàn)率為則綜合得分模型為:所述的α值的確定和優(yōu)化是難點(diǎn),本方法采用一種人為的判定方法,對(duì)聚類結(jié)果,人工的找出一些誤分的樣本,分別計(jì)算這些樣本對(duì)應(yīng)的以及形狀相似性,找出誤分的臨界值作為α的值。這里是與所有類中心距離的最小值,是與所有類中心距離的次小值。所述Tij的計(jì)算方法采用公式Tij=1-rij,其中rij為相關(guān)系數(shù),用來(lái)衡量曲線形狀的相似性,rij的計(jì)算公式為:i,j=1,2,···,M。所述dij為樣本Xi與Xj的加權(quán)歐氏距離,其中ω1,ω2,···,ω24為參數(shù)。dij的公式為:實(shí)施例,一種基于負(fù)荷曲線距離和形狀的負(fù)荷分類方法:本方法實(shí)例用到的數(shù)據(jù)來(lái)自某電網(wǎng)2010年7月和8月專變用戶的數(shù)據(jù)以及2008年1月至2011年8月總負(fù)荷的數(shù)據(jù),數(shù)據(jù)都是每1小時(shí)一個(gè)采樣。專變用戶數(shù)據(jù)含29788個(gè)樣本,包括大宗工業(yè)、普通工業(yè)、商業(yè)、住宅、稻田排管、農(nóng)業(yè)生產(chǎn)、非工業(yè)、工地臨時(shí)和學(xué)校9種用電類型,另外還包括對(duì)應(yīng)的變電站,數(shù)據(jù)所包含的字段有用戶ID、用電類型、所屬變電站、所屬區(qū)局、0點(diǎn)負(fù)荷值、1點(diǎn)負(fù)荷值、...、23點(diǎn)負(fù)荷值。采用個(gè)案剔除法進(jìn)行異常數(shù)據(jù)處理,即將異常個(gè)案剔除。在這種方法中如果任何一個(gè)變量含有缺失數(shù)據(jù)的話,就把相對(duì)應(yīng)的個(gè)案從分析中剔除。如果缺失值所占比例比較小的話,這一方法十分有效。經(jīng)過(guò)異常數(shù)據(jù)處理后的專變用戶有17915個(gè),數(shù)據(jù)質(zhì)量較高,適合用來(lái)負(fù)荷分類。表1異常用戶數(shù)據(jù)處理情況該電網(wǎng)主要是以大宗工業(yè)、商業(yè)、非工業(yè)為主;臨時(shí)工地、農(nóng)業(yè)生產(chǎn)、稻田灌溉等類型的平均負(fù)荷率高,但三者的負(fù)荷占比很少,所以這三者的負(fù)荷曲線對(duì)總負(fù)荷曲線的影響不大。大宗工業(yè)平均負(fù)荷占比為45%。大宗工業(yè)平均負(fù)荷占比很高,所以選擇對(duì)大宗工業(yè)用戶進(jìn)行負(fù)荷分類。采用極差歸一化方法來(lái)進(jìn)行數(shù)據(jù)的歸一化處理,對(duì)標(biāo)準(zhǔn)化后的負(fù)荷數(shù)據(jù)先用K-means聚類法聚類,選取不同k值,得到的誤差平法和如表2所示,根據(jù)AIC準(zhǔn)則可知,k=3是最合適的類數(shù),選取k=3時(shí)各類的類中心作為初始類中心輸入。表2K-means聚類分析不同聚類數(shù)目的誤差平方和kRSSRSS+2nk36265.16337.146153.86537.856001.26481.265901.66477.6接下來(lái)對(duì)電網(wǎng)總負(fù)荷樣本數(shù)據(jù)進(jìn)行主成分分析,數(shù)據(jù)按年、月、星期取平均得到的數(shù)據(jù)為樣本,數(shù)據(jù)格式同專變用戶負(fù)荷數(shù)據(jù)。表3方差貢獻(xiàn)率表成分特征值方差貢獻(xiàn)率累計(jì)貢獻(xiàn)率123.26696.94%96.94%20.5332.22%99.16%從表3可看出,第一主成分的貢獻(xiàn)率高達(dá)96.94%,所以取一個(gè)主成分就足夠了,根據(jù)表4可得到第一個(gè)主成分的表達(dá)式,由于只有一個(gè)主成分,所以方差貢獻(xiàn)率與累計(jì)方差貢獻(xiàn)率的比值為1,則第一個(gè)主成分的表達(dá)式即為綜合得分模型的表達(dá)式,也即表4中各指標(biāo)對(duì)應(yīng)的值為歐氏距離的權(quán)重。表4特征向量表運(yùn)用基于負(fù)荷曲線距離和形狀的分類方法、K-means聚類法和模糊C均值聚類法分別對(duì)大宗工業(yè)進(jìn)行負(fù)荷分類,選取相同的聚類數(shù)目,選取平均指標(biāo)適應(yīng)值(MIA)和類內(nèi)平方和與類間方差比值(WCBCR)為評(píng)估聚類效果的指標(biāo),其中M為聚類類數(shù),Nj為第j類的樣本數(shù),Wl為第l類的類中心坐標(biāo),Ωl為第l類樣本構(gòu)成的集合。不同分類方法的指標(biāo)值如表5所示。表5三種方法的聚類效果對(duì)比聚類方法MIA值WCBCR值K-means聚類525.8模糊C均值聚類455.2基于負(fù)荷曲線距離和形狀的聚類364.9MIA和WCBCR的值都是越小說(shuō)明聚類效果越好,則顯然基于負(fù)荷曲線距離和形狀的分類方法聚類效果比另外兩種都要好。究其原因,一方面是因?yàn)槌跏碱愔行牟煌?,另一方面是相似性度量的不同,二者的綜合帶來(lái)了不一樣的結(jié)果。為了直觀的比較三種方法的聚類效果,現(xiàn)畫出各種方法得到的典型負(fù)荷曲線圖,基于負(fù)荷曲線距離和形狀的分類方法得到的典型負(fù)荷曲線如圖1及表6,K-means聚類法得到的典型負(fù)荷曲線如圖2及表7,聚類過(guò)程都用C++編程實(shí)現(xiàn),在本例子中,基于負(fù)荷曲線距離和形狀的分類方法的參數(shù)α=0.9時(shí)達(dá)到最優(yōu)。表6基于負(fù)荷曲線距離和形狀的方法分類結(jié)果表表7K-means聚類法得到的典型負(fù)荷分類表從兩種方法的分類結(jié)果圖可看出,基于負(fù)荷曲線距離和形狀的分類方法分類效果是最好的;K-means聚類法得到的第一類用戶和第二類用戶距離比較接近,即類間差異不那么明顯;根據(jù)最好的結(jié)果可知,各類用戶呈現(xiàn)如下特點(diǎn):第一類負(fù)荷曲線呈現(xiàn)早峰、午峰和晚峰的三峰形態(tài),晚上7點(diǎn)到22點(diǎn)之間也會(huì)有較高的負(fù)荷,用戶數(shù)占比37.7%;第二類負(fù)荷曲線呈現(xiàn)早峰和午峰的雙峰形態(tài),晚上用電負(fù)荷較小,此類用戶峰谷差率較低,用戶數(shù)占比為18%;此類用戶主要由三班制工作用戶組成,負(fù)荷曲線波動(dòng)較小,沒(méi)有明顯的峰谷晚上一直到深夜的負(fù)荷都沒(méi)有太大的下降,此類用戶數(shù)占比44.3%。當(dāng)前第1頁(yè)1 2 3