本發(fā)明涉及故障診斷,尤其涉及一種基于ga與xgboost-rf堆疊算法的電力傳輸系統(tǒng)故障分類(lèi)方法。
背景技術(shù):
1、現(xiàn)今故障診斷技術(shù)在電力系統(tǒng)中越來(lái)越重要,電力系統(tǒng)由許多復(fù)雜的動(dòng)態(tài)器件組成,而這些器件會(huì)經(jīng)常受到各種類(lèi)型的干擾從而產(chǎn)生故障,能夠快速獲取故障信息并對(duì)其進(jìn)行處理對(duì)維護(hù)電力系統(tǒng)有著重大意義。隨著計(jì)算機(jī)存儲(chǔ)容量的提高和運(yùn)算速度的提升,數(shù)據(jù)驅(qū)動(dòng)的方法已經(jīng)成為了故障診斷領(lǐng)域中最流行的技術(shù);在過(guò)去的幾十年里,有許多方法,如主成分分析法(pca),偏最小二乘法(pls)被應(yīng)用于故障診斷,但他們基本都不可以應(yīng)用于故障分類(lèi),故障分類(lèi)旨在確定檢測(cè)到的故障類(lèi)型,這對(duì)于設(shè)計(jì)一個(gè)良好的工業(yè)系統(tǒng)具有重要意義。
2、目前,有許多機(jī)器學(xué)習(xí)方法被用于故障分類(lèi),在機(jī)器學(xué)習(xí)算法中,這可以被認(rèn)為是一個(gè)多類(lèi)分類(lèi)問(wèn)題。但目前的研究多以單一算法進(jìn)行的故障分類(lèi)為主。對(duì)于電力傳輸系統(tǒng)中的故障分類(lèi)問(wèn)題,很難設(shè)計(jì)一個(gè)單一的分類(lèi)器在不同情況下達(dá)到期望的性能。例如,支持向量機(jī)(svm)方法不擅長(zhǎng)處理多類(lèi)問(wèn)題,對(duì)缺失數(shù)據(jù)敏感。人工神經(jīng)網(wǎng)絡(luò)(ann)方法難以解釋?zhuān)矣性S多參數(shù)需要調(diào)整。集成學(xué)習(xí)方法通過(guò)多個(gè)模型的投票或取平均值來(lái)克服單一模型的缺點(diǎn),同時(shí)提高故障分類(lèi)的性能。然而,集成學(xué)習(xí)中的三種方法也有各自的優(yōu)缺點(diǎn),如bagging的代表算法隨機(jī)森林(rf)由于它的兩個(gè)特點(diǎn):訓(xùn)練集的有放回抽樣和樹(shù)的每個(gè)節(jié)點(diǎn)的特征的隨機(jī)選擇從而讓它在分類(lèi)和回歸方面都比其他集成機(jī)器學(xué)習(xí)方法具有更優(yōu)越的性能,但模型易過(guò)擬合;boosting的代表算法極限梯度提升(xgboost)將gradientboosting算法中的目標(biāo)函數(shù)通過(guò)二階泰勒展開(kāi),正則化項(xiàng)展開(kāi),合并系數(shù)等操作進(jìn)行了進(jìn)一步的擴(kuò)展使得運(yùn)算速度提升巨大,但對(duì)數(shù)據(jù)過(guò)于敏感;而stacking通過(guò)將不同的模型堆疊的方式雖然能有效提升性能指標(biāo),但相對(duì)的運(yùn)算時(shí)間更長(zhǎng)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種基于ga與xgboost-rf堆疊算法的電力傳輸系統(tǒng)故障分類(lèi)方法,以克服上述技術(shù)問(wèn)題。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:
3、一種基于ga與xgboost-rf堆疊算法的電力傳輸系統(tǒng)故障分類(lèi)方法,包括以下步驟:
4、s1:獲取電力傳輸系統(tǒng)的故障特征數(shù)據(jù)集;
5、所述故障特征數(shù)據(jù)集包括原特征數(shù)據(jù)與原故障標(biāo)簽;
6、所述原特征數(shù)據(jù)包括收集的電力傳輸系統(tǒng)故障狀態(tài)下電機(jī)兩端的三相電壓數(shù)據(jù)與三相電流數(shù)據(jù);
7、s2:將極限梯度提升算法xgboost的精確度函數(shù)作為適應(yīng)度函數(shù),采用二進(jìn)制編碼遺傳算法ga對(duì)故障特征數(shù)據(jù)集中的原特征數(shù)據(jù)進(jìn)行特征數(shù)據(jù)選取,獲取優(yōu)化特征子集;
8、s3:將優(yōu)化特征子集隨機(jī)劃分并獲取數(shù)據(jù)訓(xùn)練集與數(shù)據(jù)測(cè)試集;
9、s4:將極限梯度提升算法xgboost作為基學(xué)習(xí)器,隨機(jī)森林算法rf作為元學(xué)習(xí)器,以獲取xgboost-rf堆疊算法模型;
10、通過(guò)數(shù)據(jù)訓(xùn)練集對(duì)xgboost-rf堆疊算法模型進(jìn)行算法訓(xùn)練并預(yù)測(cè),獲取優(yōu)化xgboost-rf堆疊算法模型;
11、所述算法預(yù)測(cè)訓(xùn)練包括采用五折交叉驗(yàn)證方法,根據(jù)數(shù)據(jù)訓(xùn)練集對(duì)基學(xué)習(xí)器進(jìn)行訓(xùn)練并預(yù)測(cè),以獲取預(yù)測(cè)故障標(biāo)簽并將其作為新的特征數(shù)據(jù)放入優(yōu)化特征子集中,進(jìn)而獲取新數(shù)據(jù)集;
12、采用十折交叉驗(yàn)證方法,根據(jù)新數(shù)據(jù)集對(duì)元學(xué)習(xí)器進(jìn)行訓(xùn)練并預(yù)測(cè),且基于用于決策樹(shù)分支節(jié)點(diǎn)劃分的基尼系數(shù)作為電力傳輸系統(tǒng)故障分類(lèi)的概率指標(biāo)獲取rf決策樹(shù)模型;
13、s5:將數(shù)據(jù)測(cè)試集輸入至所述優(yōu)化xgboost-rf堆疊算法模型,以獲取電力傳輸系統(tǒng)故障分類(lèi)結(jié)果。
14、進(jìn)一步的,所述s2具體包括以下步驟:
15、s21:采用二進(jìn)制編碼遺傳算法ga對(duì)故障特征數(shù)據(jù)集中的原特征數(shù)據(jù)進(jìn)行編碼,且將編碼后的原特征數(shù)據(jù)作為遺傳算法ga的初始種群的種群個(gè)體;
16、s22:采用極限梯度提升算法xgboost的用于故障分類(lèi)的精確度函數(shù),作為遺傳算法ga中用于種群個(gè)體的適應(yīng)度值計(jì)算與特征選取結(jié)果性能評(píng)價(jià)的適應(yīng)度函數(shù);
17、s23:獲取初始種群中各種群個(gè)體的精確度函數(shù)值,并將當(dāng)前最優(yōu)精確度函數(shù)值對(duì)應(yīng)的最優(yōu)種群個(gè)體作為下一代種群個(gè)體;
18、s24:對(duì)除去最優(yōu)種群個(gè)體的初始種群中的其余種群個(gè)體進(jìn)行選擇、交叉以及變異遺傳算子運(yùn)算,以獲取下一代種群個(gè)體
19、并根據(jù)通過(guò)選擇、交叉以及變異遺傳算子運(yùn)算獲取的下一代種群個(gè)體,與最優(yōu)種群個(gè)體獲取新的種群;
20、并將新的種群作為初始種群;
21、s25:重復(fù)執(zhí)行步驟s23至s24,直至達(dá)到預(yù)設(shè)最大迭代次數(shù);
22、則將當(dāng)前最優(yōu)精確度函數(shù)值對(duì)應(yīng)的種群個(gè)體作為選取的特征數(shù)據(jù),并根據(jù)選取的特征數(shù)據(jù)獲取優(yōu)化特征子集。
23、進(jìn)一步的,s4中采用五折交叉驗(yàn)證方法,根據(jù)數(shù)據(jù)訓(xùn)練集對(duì)基學(xué)習(xí)器進(jìn)行訓(xùn)練并預(yù)測(cè),具體包括以下步驟:
24、s41:采用五折交叉驗(yàn)證方法,根據(jù)數(shù)據(jù)訓(xùn)練集劃分為第一訓(xùn)練集與第一測(cè)試集;
25、s42:基于極限梯度提升算法xgboost構(gòu)建第一初始決策樹(shù)模型,并根據(jù)所述第一訓(xùn)練集獲取xgboost決策樹(shù)模型;
26、s43:將所述第一測(cè)試集輸入至xgboost決策樹(shù)模型,獲取電力傳輸系統(tǒng)的預(yù)測(cè)故障標(biāo)簽。
27、進(jìn)一步的,所述初始決策樹(shù)模型的構(gòu)建方法,具體為
28、s421:設(shè)定xgboost第t個(gè)決策樹(shù)的目標(biāo)函數(shù)為
29、
30、式中:n表示樣本的數(shù)量且樣本i=1,2,……n;表示模型的損失函數(shù),即樣本真實(shí)值和預(yù)測(cè)值之間的損失;yi表示樣本i的實(shí)際值;表示前t棵決策樹(shù)共同對(duì)樣本i的預(yù)測(cè)值;ω(ft)表示第t棵樹(shù)復(fù)雜度的正則化系數(shù),且t表示當(dāng)前樹(shù)的深度;ω表示葉子結(jié)點(diǎn)的節(jié)點(diǎn)值;γ、λ表示用來(lái)控制正則化系數(shù)的懲罰力度的超參數(shù);
31、s422:根據(jù)boosting的原理,得到前t棵決策樹(shù)共同對(duì)樣本i的預(yù)測(cè)值的表達(dá)式為:
32、
33、式中:ft(xi)表示第t棵樹(shù)對(duì)樣本i的預(yù)測(cè)值;
34、s423:根據(jù)s422將所述xgboost第t個(gè)決策樹(shù)的目標(biāo)函數(shù)改寫(xiě)為
35、
36、并使用二階泰勒公式對(duì)該目標(biāo)函數(shù)進(jìn)行展開(kāi),則:
37、
38、式中:gi與hi分別代表一階導(dǎo)數(shù)與二階導(dǎo)數(shù),且
39、s424:以最小化目標(biāo)函數(shù)為目的根據(jù)通過(guò)二階泰勒公式展開(kāi)后的目標(biāo)函數(shù),獲取優(yōu)化目標(biāo)函數(shù);
40、
41、s425:將ft(xi)被定義為其中,表示樣本i在葉子結(jié)點(diǎn)上的權(quán)重值;并根據(jù)正則化系數(shù)將優(yōu)化目標(biāo)函數(shù)改寫(xiě)為
42、
43、式中:ij={i|q(xi)=j(luò)}代表第q棵決策樹(shù)在葉子結(jié)點(diǎn)j上的取值;ωj即為的變形形式;
44、令則將優(yōu)化目標(biāo)函數(shù)再次改寫(xiě)為:
45、
46、s426:對(duì)再次改寫(xiě)的優(yōu)化目標(biāo)函數(shù)進(jìn)行求導(dǎo),并令其為0,則獲取葉子結(jié)點(diǎn)權(quán)值的最優(yōu)解ωj*為
47、
48、根據(jù)葉子結(jié)點(diǎn)權(quán)值的最優(yōu)解ωj*,構(gòu)建用于評(píng)價(jià)分類(lèi)器對(duì)預(yù)測(cè)出結(jié)果的可靠程度的信息增益函數(shù)其表達(dá)式為
49、
50、s427:根據(jù)信息增益函數(shù)獲取每個(gè)葉子結(jié)點(diǎn)在分割時(shí)的增益值gain,以根據(jù)增益值gain獲取初始決策樹(shù)模型,其表達(dá)式為
51、
52、式中:θr表示該值被劃分為右子樹(shù)時(shí)的目標(biāo)函數(shù)最優(yōu)值,且θ=g,h;θl表示該值被劃分為右子樹(shù)時(shí)的目標(biāo)函數(shù)最優(yōu)值;hl,gl表示劃分到左子樹(shù)時(shí)的hj,gj值;hr,gr表示劃分到右子樹(shù)時(shí)的hj,gj值,即:表示新的左子葉的分?jǐn)?shù),表示新的右子葉的分?jǐn)?shù),表示原來(lái)葉子的分?jǐn)?shù),γ表示新增葉子的正則系數(shù)。
53、進(jìn)一步的,s4中所述用于決策樹(shù)分支節(jié)點(diǎn)劃分的基尼系數(shù)的表達(dá)式為
54、
55、式中:α表示采用十折交叉驗(yàn)證方法將新數(shù)據(jù)集劃分使用的特征;di表示將新數(shù)據(jù)集劃分后的子樣本集;d表示新數(shù)據(jù)集;k表示故障類(lèi)別,且k=1,2,3,…,k;pk表示第k個(gè)故障類(lèi)別的概率。
56、有益效果:本發(fā)明提供了一種基于ga與xgboost-rf堆疊算法的電力傳輸系統(tǒng)故障分類(lèi)方法,將極限梯度提升算法xgboost作為基學(xué)習(xí)器,隨機(jī)森林算法rf作為元學(xué)習(xí)器獲取xgboost-rf堆疊算法模型,通過(guò)采用了集成學(xué)習(xí)中的堆疊方法將兩個(gè)算法模型進(jìn)行組合,成功突破了算法的性能限制,從而能對(duì)故障進(jìn)行更精確的分類(lèi);針對(duì)集成學(xué)習(xí)的計(jì)算時(shí)間緩慢的問(wèn)題,通過(guò)在基學(xué)習(xí)器訓(xùn)練的過(guò)程中額外加入了遺傳算法進(jìn)行特征選擇,即將極限梯度提升算法xgboost的精確度函數(shù)作為適應(yīng)度函數(shù),采用二進(jìn)制編碼遺傳算法ga對(duì)故障特征數(shù)據(jù)集中的原特征數(shù)據(jù)進(jìn)行特征數(shù)據(jù)選取,獲取優(yōu)化特征子集,選擇出的優(yōu)化特征子集在基學(xué)習(xí)器與元學(xué)習(xí)器上都有非常良好的表現(xiàn),并且由于特征數(shù)量的減少,從而在提高了精確度的同時(shí)減少了整體算法模型的計(jì)算時(shí)間,使整體的堆疊算法模型在時(shí)間與精度上達(dá)到了平衡。