本發(fā)明涉及電廠設(shè)備安全等級(jí)評(píng)測(cè)分類領(lǐng)域,具體涉及一種設(shè)備安全等級(jí)分類方法。
背景技術(shù):
火電廠設(shè)備的運(yùn)行狀態(tài),對(duì)火電廠的安全運(yùn)行具有至關(guān)重要的作用。實(shí)時(shí)地實(shí)現(xiàn)火電廠設(shè)備安全等級(jí)分類,可以判斷設(shè)備當(dāng)前安全狀態(tài)、輔助預(yù)測(cè)電廠設(shè)備中存在的潛在風(fēng)險(xiǎn),以及判斷可能導(dǎo)致的危險(xiǎn),從而實(shí)施合理可行的安全對(duì)策措施,指導(dǎo)事故預(yù)防??梢?jiàn),實(shí)現(xiàn)對(duì)設(shè)備的狀態(tài)進(jìn)行客觀的安全等級(jí)分類,是完善設(shè)備故障診斷體系的前提,是輔助檢修的重要手段,也是實(shí)現(xiàn)設(shè)備狀態(tài)檢測(cè)的重要組成部分。因此,形成一套科學(xué)的火電廠設(shè)備安全等級(jí)評(píng)價(jià)方法,對(duì)火電廠設(shè)備狀態(tài)進(jìn)行安全等級(jí)分類,具有重要的現(xiàn)實(shí)意義。
安全分類屬于安全評(píng)價(jià)的范疇,常用的安全評(píng)價(jià)的方法主要有三種:
1、定性評(píng)價(jià)
定性評(píng)價(jià)方法,對(duì)系統(tǒng)中各種危險(xiǎn)因素的嚴(yán)重程度進(jìn)行“定性”、“量化”,實(shí)現(xiàn)對(duì)系統(tǒng)的危險(xiǎn)性進(jìn)行全面分析。其中量化值表示系統(tǒng)危險(xiǎn)的嚴(yán)重程度,常用的量化方法例如:逐項(xiàng)賦值評(píng)分法,簡(jiǎn)稱評(píng)分法。評(píng)分法根據(jù)評(píng)價(jià)對(duì)象,確定安全評(píng)價(jià)的項(xiàng)目以及各個(gè)項(xiàng)的危險(xiǎn)重要程度,逐項(xiàng)分析,最終確定總分。
該方法依賴專家的知識(shí)和經(jīng)驗(yàn)來(lái)確定各項(xiàng)的重要程度,在實(shí)際應(yīng)用中具有很大的局限性,一方面各項(xiàng)的權(quán)重很難確認(rèn),且權(quán)重系統(tǒng)很難得到公眾的認(rèn)可;另一方面各項(xiàng)權(quán)重的確認(rèn)需要大量人力、物力的投入。
2、定量評(píng)價(jià)
定量評(píng)價(jià)方法用精確的數(shù)學(xué)方法求得系統(tǒng)的事故概率,將事故概率與一定的安全指標(biāo)進(jìn)行比較評(píng)價(jià)系統(tǒng)的安全水平。其中一種技術(shù)為計(jì)算事故概率,典型案例:1972年麻省理工學(xué)院拉斯姆教授組織70位專家花費(fèi)一年時(shí)間,耗資300萬(wàn)美元,對(duì)核電站進(jìn)行安全評(píng)價(jià)。另一種技術(shù)為層次分析法(analytichierarchyprocess,ahp),將復(fù)雜決策問(wèn)題分解成層次結(jié)構(gòu),通過(guò)分析各影響、組成因素的重要程度來(lái)進(jìn)行評(píng)價(jià)。
通過(guò)計(jì)算事故概率的技術(shù)實(shí)現(xiàn)系統(tǒng)定量評(píng)價(jià),缺陷顯而易見(jiàn):投入巨大且廣泛應(yīng)用性弱。對(duì)于使用ahp方法實(shí)現(xiàn)系統(tǒng)的定量評(píng)價(jià),《關(guān)于ahp中判斷矩陣矯正方法的研究》(系統(tǒng)工程理論與時(shí)間,1997年第17卷第6期)中提出,在實(shí)際應(yīng)用時(shí)該方法依賴經(jīng)驗(yàn)和技巧進(jìn)行修正,缺乏相應(yīng)的科學(xué)理論和方法。
3、模糊評(píng)價(jià)
模糊評(píng)價(jià)方法基本思想屬于定性評(píng)價(jià),仍要依靠人腦處理模糊概念的能力,依靠專家群體的知識(shí)和經(jīng)驗(yàn)。采用模糊數(shù)學(xué)方法,利用模糊矩陣等方式實(shí)現(xiàn)對(duì)子系統(tǒng)和多因素的綜合評(píng)價(jià)。
模糊評(píng)價(jià)方法仍需依靠專家的知識(shí)和經(jīng)驗(yàn),在實(shí)際應(yīng)用中具有很大的局限性。
我國(guó)電力行業(yè)的安全評(píng)價(jià)工作目前尚處于起步階段。1995年,我國(guó)結(jié)合電力企業(yè)安全管理的經(jīng)驗(yàn),引入安全評(píng)價(jià)體系制定了針對(duì)火電廠的安全檢測(cè)表及安全評(píng)價(jià)標(biāo)準(zhǔn),《中國(guó)華北電力集團(tuán)公司監(jiān)察部》(火力發(fā)電廠安全性評(píng)價(jià),中國(guó)電力出版社,1995)。該評(píng)價(jià)標(biāo)準(zhǔn)現(xiàn)已廣泛應(yīng)用于火電廠安全評(píng)價(jià)中,但是此標(biāo)準(zhǔn)體系只針對(duì)電廠的大修情況,而對(duì)于火電廠實(shí)時(shí)的評(píng)價(jià),目前國(guó)內(nèi)外尚處于起步階段,造成了無(wú)法實(shí)時(shí)實(shí)現(xiàn)設(shè)備的安全等級(jí)分類。
針對(duì)以上現(xiàn)象,亟需發(fā)明一種新的方法,實(shí)時(shí)地實(shí)現(xiàn)設(shè)備的安全等級(jí)評(píng)價(jià),從而輔助發(fā)現(xiàn)設(shè)備的潛在風(fēng)險(xiǎn),預(yù)測(cè)設(shè)備的危險(xiǎn)程度,為提前維修提供基礎(chǔ)保障。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種智能可靠的設(shè)備狀態(tài)安全等級(jí)分類技術(shù)。本發(fā)明在smote算法的基礎(chǔ)上,通過(guò)多次抽樣技術(shù),改善樣本分布,解決了分類樣本的不平衡問(wèn)題、降低樣本的不平衡率。本發(fā)明基于svm分類器,建立多維指標(biāo)的特征與設(shè)備安全等級(jí)的復(fù)雜非線性關(guān)系,建立設(shè)備的安全等級(jí)分類模型。由于svm在數(shù)據(jù)不平衡的情況下效果不理想,本發(fā)明在數(shù)據(jù)處理層面進(jìn)行改進(jìn),降低數(shù)據(jù)的不平衡率,發(fā)揮了支持向量機(jī)模型的優(yōu)勢(shì)。
本發(fā)明提供了一種設(shè)備安全等級(jí)分類方法,依次包括如下步驟:
1)訓(xùn)練安全分類模型,包括如下步驟;
步驟1.1:綜合處理設(shè)備在不同時(shí)間下已有的專家評(píng)價(jià)結(jié)果,得到設(shè)備不同工況下的安全等級(jí),從而建立設(shè)備安全等級(jí)庫(kù);
步驟1.2:選取訓(xùn)練數(shù)據(jù),提取安全特征;
步驟1.3:對(duì)提取完安全特征的訓(xùn)練數(shù)據(jù)進(jìn)行樣本smote抽樣;
步驟1.4:對(duì)抽樣處理后的樣本進(jìn)行預(yù)處理;
步驟1.5:采用非線性支持向量機(jī)分類模型在預(yù)處理后的訓(xùn)練數(shù)據(jù)的基礎(chǔ)上建立設(shè)備的安全等級(jí)分類模型;
2)實(shí)時(shí)預(yù)測(cè)設(shè)備安全等級(jí),包括如下步驟:
步驟2.1:檢測(cè)設(shè)備運(yùn)行,實(shí)時(shí)獲取設(shè)備的實(shí)時(shí)運(yùn)行數(shù)據(jù);
步驟2.2:提取實(shí)時(shí)運(yùn)行數(shù)據(jù)的安全特征向量y=(y1,y2,...ym),其由m維數(shù)指標(biāo)構(gòu)成,維數(shù)與訓(xùn)練數(shù)據(jù)一致;
步驟2.3:對(duì)提取的實(shí)時(shí)運(yùn)行數(shù)據(jù)采用與步驟1)中的步驟4一致的數(shù)據(jù)預(yù)處理方式進(jìn)行預(yù)處理,得到預(yù)處理后的實(shí)時(shí)運(yùn)行數(shù)據(jù);
步驟2.4:基于預(yù)處理后的實(shí)時(shí)運(yùn)行數(shù)據(jù),使用訓(xùn)練好的安全等級(jí)多分類器,預(yù)測(cè)實(shí)時(shí)數(shù)據(jù)安全等級(jí)分類。
進(jìn)一步地,步驟1.1具體步驟為:
(1)設(shè)定設(shè)備安全等級(jí):
每個(gè)設(shè)備的安全等級(jí)分為3個(gè)類別,安全類別分別為:a類,b類,c類,其中安全級(jí)別大小關(guān)系為:
a<b<c
a類代表該設(shè)備不安全,b類代表該設(shè)備處于基本安全狀態(tài),c類代表該設(shè)備非常安全;
(2)獲取設(shè)備的安全等級(jí):
獲取設(shè)備在各個(gè)時(shí)刻下由n個(gè)專家評(píng)定的安全等級(jí),假設(shè)時(shí)刻t下,設(shè)備的安全等級(jí)評(píng)價(jià)結(jié)果如下式所示,為安全等級(jí)評(píng)價(jià)向量,其中l(wèi)i代表第i個(gè)專家對(duì)該設(shè)備的評(píng)價(jià)結(jié)果;
l=(l1,l2,...li...ln)(li∈(a,b,c)
將評(píng)價(jià)結(jié)果轉(zhuǎn)化為數(shù)值形式,建立安全等級(jí)和數(shù)值間的一一映射關(guān)系,即
((a->1),(b->2),(c->3))
(3)標(biāo)記設(shè)備的安全類型:
通過(guò)如下公式對(duì)安全等級(jí)評(píng)價(jià)向量進(jìn)行計(jì)算,將n個(gè)專家的評(píng)價(jià)結(jié)果進(jìn)行平均化并取整,得到時(shí)刻t下設(shè)備的安全類型數(shù)值s',并根據(jù)安全等級(jí)和數(shù)值間的映射關(guān)系式得到安全等級(jí)標(biāo)記,然后標(biāo)記設(shè)備在t時(shí)刻的安全類型:
其中round函數(shù)為對(duì)變量進(jìn)行四舍五入取整;
通過(guò)上述步驟(1)-(3)標(biāo)記各個(gè)設(shè)備在不同時(shí)刻下的安全等級(jí),建立設(shè)備的安全等級(jí)庫(kù)。
進(jìn)一步地,步驟1.2具體步驟為:
(1)選取訓(xùn)練數(shù)據(jù)
查詢?cè)O(shè)備安全等級(jí)庫(kù),選取有安全標(biāo)記的設(shè)備作為研究對(duì)象,并獲取相關(guān)的歷史數(shù)據(jù)作為訓(xùn)練數(shù)據(jù);
(2)提取設(shè)備安全特征
提取訓(xùn)練數(shù)據(jù)的安全特征,構(gòu)建設(shè)備安全特征向量;選取與設(shè)備安全運(yùn)行相關(guān)的關(guān)鍵參數(shù),通過(guò)專家法計(jì)算指標(biāo),構(gòu)建表征設(shè)備安全的特征空間,其中t時(shí)刻下設(shè)備的特征向量為:x=(x1,x2,...xm),其代表m維數(shù)指標(biāo)構(gòu)成的安全特征。
進(jìn)一步地,步驟1.3具體步驟為:
(1)計(jì)算兩類樣本的不平衡率:
計(jì)算少數(shù)類和多數(shù)類樣本的比例,得到樣本的不平衡率imbalancerate,用來(lái)衡量樣本的不平衡情況,imbalancerate計(jì)算公式如下,num1為少數(shù)類樣本數(shù)目,num2為多數(shù)類樣本數(shù)目:
(2)判斷不平衡率是否超過(guò)閾值:
設(shè)定不平衡率的閾值θ1,判定樣本是否不平衡,若不平衡率大于閾值,說(shuō)明樣本平衡不需抽樣;否則說(shuō)明樣本不平衡,需進(jìn)行抽樣,進(jìn)行步驟(3);
(3)對(duì)樣本中的少數(shù)類樣本進(jìn)行smote抽樣:
選定少數(shù)類樣本中的目標(biāo)樣本,假定某目標(biāo)為樣本s,搜索其m近鄰樣本,在近鄰中隨機(jī)選擇k個(gè)樣本n1,n2,...nk,在樣本s與k個(gè)樣本間進(jìn)行隨機(jī)插值,構(gòu)造如下所示的樣本,作為少數(shù)類樣本的新樣本,假設(shè)隨機(jī)選擇的樣本為ni,則新的樣本yi為:
其中
(4)抽樣結(jié)束判斷。
進(jìn)一步地,步驟1.4具體步驟為:
對(duì)抽樣處理后的樣本進(jìn)行預(yù)處理為數(shù)據(jù)集歸一化處理,對(duì)于數(shù)據(jù)集的各個(gè)維數(shù)數(shù)據(jù),采用如下公式進(jìn)行歸一化處理后將數(shù)據(jù)統(tǒng)一歸一到[0,1]之間的數(shù)據(jù)范圍內(nèi),消除不同維數(shù)數(shù)據(jù)的數(shù)量級(jí)差別,避免因數(shù)據(jù)數(shù)量級(jí)差別較大而產(chǎn)生的誤差:
其中,x代表原始樣本的某維度,xmin代表該維度數(shù)據(jù)的最小值,xmax代表該維度數(shù)據(jù)的最大值,x'為樣本歸一化處理后的數(shù)據(jù)。
進(jìn)一步地,步驟1.5中所述建立設(shè)備的安全等級(jí)分類模型通過(guò)一對(duì)多方式構(gòu)建分類器svm1,一對(duì)一的方式構(gòu)建svm2,設(shè)備的安全狀態(tài)為a、b以及c類型,步驟如下:
(1)構(gòu)建svm1
通過(guò)一對(duì)多方式構(gòu)建分類器svm1區(qū)分a與非a類,即將a類樣本作為一類,而b類和c類當(dāng)做另外一類,構(gòu)建分類器svm1;
(2)構(gòu)建svm2
為了區(qū)分b類和c類,需要建立b類、c類的二分類器,則直接通過(guò)一對(duì)一的方式構(gòu)建svm2;
對(duì)于任意給定的設(shè)備特征向量,首先使用分類器svm1,判斷是屬于a類還是非a類,若是a類,則得到樣本的預(yù)測(cè)結(jié)果a;否則,則繼續(xù)使用分類器svm2,判斷是b類還是c類。
進(jìn)一步地,步驟2.4的具體步驟為將歸一化后的實(shí)時(shí)數(shù)據(jù)代入訓(xùn)練好的兩個(gè)svm分類器,若分類器svm1預(yù)測(cè)y為a類,則預(yù)測(cè)y的安全等級(jí)結(jié)果a,否則,將其帶入svm2進(jìn)一步分類,若分類器svm2預(yù)測(cè)y為b類,則得到y(tǒng)的安全等級(jí)結(jié)果為b類,否則,則得到y(tǒng)的安全等級(jí)結(jié)果為c類。
本發(fā)明的設(shè)備安全等級(jí)分類方法,可以實(shí)現(xiàn):
1.本發(fā)明能實(shí)時(shí)評(píng)估、預(yù)測(cè)設(shè)備的安全狀態(tài),方便追蹤設(shè)備的健康運(yùn)行狀況,實(shí)時(shí)掌握、知曉設(shè)備是否存在危險(xiǎn)以及危險(xiǎn)程度,輔助設(shè)備安全運(yùn)行、提高設(shè)備的可靠性。
2.本發(fā)明通過(guò)smote方法抽樣避免了樣本不平衡問(wèn)題帶來(lái)的分類器模型性能差、甚至無(wú)用的問(wèn)題,克服了傳統(tǒng)的機(jī)械復(fù)制樣本帶來(lái)的過(guò)擬合問(wèn)題,提高了分類器模型的準(zhǔn)確率和實(shí)用性。
3.本發(fā)明建立的安全等級(jí)模型為基于多參數(shù)的非線性模型,挖掘了設(shè)備指標(biāo)對(duì)設(shè)備安全性的影響作用,揭示指標(biāo)與設(shè)備安全之間隱含的復(fù)雜因果關(guān)系和條件關(guān)系,從而實(shí)現(xiàn)設(shè)備的安全等級(jí)分類。
4.本發(fā)明降低了人工參與力度,人工只集中在前期建立設(shè)備安全等級(jí)庫(kù),改變了人工跟蹤設(shè)備狀態(tài)進(jìn)行評(píng)價(jià)以實(shí)現(xiàn)安全等級(jí)分類的方式,一旦完成建模,便,可實(shí)時(shí)、自動(dòng)實(shí)現(xiàn)設(shè)備安全等級(jí)評(píng)估。
5.本發(fā)明采用多次循環(huán)抽樣的方法進(jìn)行樣本抽樣,在數(shù)據(jù)處理層面進(jìn)行改進(jìn)樣本數(shù)目,循環(huán)方式抽樣相比單次抽樣,能產(chǎn)生更多新的樣本,且更好地平衡樣本之間的不平衡率。
6.本發(fā)明構(gòu)建的安全分類模型為基于支持向量算法建立的非線性模分類模型的,相比神經(jīng)網(wǎng)絡(luò)算法,準(zhǔn)確率、泛華能力以及運(yùn)算速度等方面具有優(yōu)勢(shì)。
附圖說(shuō)明
圖1為訓(xùn)練安全分類模型的步驟流程圖
圖2為基于smote的抽樣算法流程圖
圖3為建立多分類器的結(jié)構(gòu)示意圖
圖4為實(shí)時(shí)預(yù)測(cè)設(shè)備安全等級(jí)的流程圖
具體實(shí)施方式
下面詳細(xì)說(shuō)明本發(fā)明的具體實(shí)施,有必要在此指出的是,以下實(shí)施只是用于本發(fā)明的進(jìn)一步說(shuō)明,不能理解為對(duì)本發(fā)明保護(hù)范圍的限制,該領(lǐng)域技術(shù)熟練人員根據(jù)上述本發(fā)明內(nèi)容對(duì)本發(fā)明做出的一些非本質(zhì)的改進(jìn)和調(diào)整,仍然屬于本發(fā)明的保護(hù)范圍。
本發(fā)明是一種實(shí)時(shí)評(píng)估、預(yù)測(cè)設(shè)備安全等級(jí)分類的方法,它基于設(shè)備歷史數(shù)據(jù),結(jié)合了smote和svm,建立設(shè)備安全等級(jí)庫(kù),構(gòu)建表征設(shè)備安全的特征,使用smote循環(huán)抽樣的方法改進(jìn)樣本的不平衡情況,采用svm分類算法建立特征向量與安全等級(jí)之間的關(guān)系,實(shí)現(xiàn)設(shè)備的安全分類。該方法主要包括訓(xùn)練安全分類模型和實(shí)時(shí)預(yù)測(cè)設(shè)備安全等級(jí)兩個(gè)過(guò)程。
圖1為本發(fā)明訓(xùn)練安全分類模型的流程圖,整個(gè)訓(xùn)練過(guò)程主要包括以下步驟:
步驟1:建立設(shè)備安全等級(jí)庫(kù)。
綜合處理設(shè)備在不同時(shí)間下已有的專家評(píng)價(jià)結(jié)果,得到設(shè)備不同工況下的安全等級(jí),從而建立設(shè)備安全等級(jí)庫(kù)。
(1)設(shè)定設(shè)備安全等級(jí)
每個(gè)設(shè)備的安全等級(jí)分為3個(gè)類別,安全類別分別為:a類,b類,c類。其中安全級(jí)別大小關(guān)系為:
a<b<c(1)
a類代表該設(shè)備不安全,b類代表該設(shè)備處于基本安全狀態(tài),c類代表該設(shè)備非常安全。
(2)獲取設(shè)備的安全等級(jí)
獲取設(shè)備在各個(gè)時(shí)刻下由n個(gè)專家評(píng)定的安全等級(jí)。假設(shè)時(shí)刻t下,設(shè)備的安全等級(jí)評(píng)價(jià)結(jié)果如式(2)所示,為安全等級(jí)評(píng)價(jià)向量,其中l(wèi)i代表第i個(gè)專家對(duì)該設(shè)備的評(píng)價(jià)結(jié)果。
l=(l1,l2,...li...ln)(li∈(a,b,c)(2)
為了便于計(jì)算,將評(píng)價(jià)結(jié)果轉(zhuǎn)化為數(shù)值形式,建立安全等級(jí)和數(shù)值間的一一映射關(guān)系,即
((a->1),(b->2),(c->3))(3)
(3)標(biāo)記設(shè)備的安全類型
通過(guò)如下公式(4)對(duì)安全等級(jí)評(píng)價(jià)向量進(jìn)行計(jì)算,將n個(gè)專家的評(píng)價(jià)結(jié)果進(jìn)行平均化并取整,得到時(shí)刻t下設(shè)備的安全類型數(shù)值s',并根據(jù)安全等級(jí)和數(shù)值間的映射關(guān)系式(3)得到安全等級(jí)標(biāo)記,然后標(biāo)記設(shè)備在t時(shí)刻的安全類型。
其中round函數(shù)為對(duì)變量進(jìn)行四舍五入取整。
通過(guò)以上過(guò)程,標(biāo)記各個(gè)設(shè)備在不同時(shí)刻下的安全等級(jí),建立設(shè)備的安全等級(jí)庫(kù)。
優(yōu)選地,設(shè)備安全等級(jí)分類的方法,采用對(duì)專家評(píng)價(jià)結(jié)果平均化的思路,消除不同專家評(píng)價(jià)結(jié)果不一致的現(xiàn)象。
步驟2:選取訓(xùn)練數(shù)據(jù)、提取安全特征。
(1)選取訓(xùn)練數(shù)據(jù)
查詢?cè)O(shè)備安全等級(jí)庫(kù),選取有安全標(biāo)記的設(shè)備作為研究對(duì)象,并獲取相關(guān)的歷史數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。
(2)提取設(shè)備安全特征
提取訓(xùn)練數(shù)據(jù)的安全特征,構(gòu)建設(shè)備安全特征向量。選取與設(shè)備安全運(yùn)行相關(guān)的關(guān)鍵參數(shù),通過(guò)專家法計(jì)算指標(biāo),構(gòu)建表征設(shè)備安全的特征空間。t時(shí)刻下設(shè)備的特征向量為:x=(x1,x2,...xm),其代表m維數(shù)指標(biāo)構(gòu)成的安全特征。
步驟3:樣本smote。
對(duì)提取完特征的訓(xùn)練數(shù)據(jù)進(jìn)行樣本smote抽樣。smote算法的優(yōu)點(diǎn)是:增加新的不存在的樣本,而非隨機(jī)復(fù)制樣本,在一定程度上避免分類器過(guò)度擬合。對(duì)少數(shù)類樣本在鄰居樣本中進(jìn)行線性插值產(chǎn)生新的少數(shù)樣本,降低樣本在數(shù)量上的不平衡。
圖2為本發(fā)明基于smote的抽樣算法流程圖,具體步驟如下:
(1)計(jì)算兩類樣本的不平衡率。
計(jì)算少數(shù)類和多數(shù)類樣本的比例,得到樣本的不平衡率imbalancerate,用來(lái)衡量樣本的不平衡情況。imbalancerate計(jì)算公式如下,num1為少數(shù)類樣本數(shù)目,num2為多數(shù)類樣本數(shù)目。
(2)判斷不平衡率是否超過(guò)閾值。
設(shè)定不平衡率的閾值θ1,判定樣本是否不平衡。若不平衡率大于閾值,說(shuō)明樣本平衡不需抽樣;否則說(shuō)明樣本不平衡,需進(jìn)行抽樣,進(jìn)行步驟(3)。
優(yōu)選地,本發(fā)明根據(jù)設(shè)定的樣本不平衡率閾值自動(dòng)判斷是否進(jìn)行抽樣,有利于降低人工成本。
(3)對(duì)少數(shù)類抽樣。
對(duì)樣本中的少數(shù)類樣本進(jìn)行smote抽樣。具體方法為:選定少數(shù)類樣本中的目標(biāo)樣本,假定某目標(biāo)為樣本s,搜索其m近鄰樣本,在近鄰中隨機(jī)選擇k個(gè)樣本n1,n2,...nk,在樣本s與k個(gè)樣本間進(jìn)行隨機(jī)插值,構(gòu)造如下所示的樣本,作為少數(shù)類樣本的新樣本。例如隨機(jī)選擇的樣本為ni,則新的樣本yi為:
其中
(4)抽樣結(jié)束判斷。
對(duì)新的樣本集合采用步驟(1)、步驟(2),計(jì)算新樣本集合的不平衡率,并判斷新樣本集合不平衡率是否超閾值。統(tǒng)計(jì)抽樣的循環(huán)次數(shù),并判斷抽樣次數(shù)是否超過(guò)閾值θ2。即抽樣結(jié)束的條件為:不平衡率超過(guò)閾值,且循環(huán)次數(shù)超過(guò)閾值。若滿足以上條件則結(jié)束抽樣,否則轉(zhuǎn)入步驟(3)進(jìn)行抽樣并不斷循環(huán)判斷是否結(jié)束抽樣。
優(yōu)選地,本發(fā)明設(shè)置了循環(huán)進(jìn)行smote抽樣的設(shè)置,根據(jù)上一次抽樣的結(jié)果,判定是否進(jìn)行下一次抽樣,使用多次抽樣,有利于產(chǎn)生更多的新樣本,有利于平衡樣本,有利于避免分類器過(guò)擬合的風(fēng)險(xiǎn)。
優(yōu)選地,本發(fā)明在對(duì)少數(shù)類樣本中選擇近鄰與其進(jìn)行插值時(shí),只搜索與少數(shù)類樣本標(biāo)記相同的樣本作為鄰居樣本,而非搜索所有樣本,目的是避免異類樣本插值帶來(lái)的噪聲樣本、“歧義樣本”。
優(yōu)選地,若第一次抽樣,將少數(shù)類中的所有樣本都作為目標(biāo)樣本,然后進(jìn)行smote抽樣;非第一次抽樣時(shí),采用無(wú)放回抽樣的方式得到目標(biāo)樣本,有效避免產(chǎn)生重復(fù)樣本,且有效避免過(guò)多的產(chǎn)生少數(shù)類樣本。
步驟4:數(shù)據(jù)預(yù)處理。
對(duì)抽樣處理后的樣本進(jìn)行預(yù)處理,本發(fā)明中主要的預(yù)處理工作為數(shù)據(jù)集歸一化處理。對(duì)于數(shù)據(jù)集的各個(gè)維數(shù)數(shù)據(jù),歸一化后將數(shù)據(jù)統(tǒng)一歸一到同一數(shù)據(jù)范圍內(nèi),例如采用如公式(7)所示的方式將數(shù)據(jù)歸一到[0,1]之間的數(shù)。消除不同維數(shù)數(shù)據(jù)的數(shù)量級(jí)差別,避免因數(shù)據(jù)數(shù)量級(jí)差別較大而產(chǎn)生的誤差。
其中,x代表原始樣本的某維度,xmin代表該維度數(shù)據(jù)的最小值,xmax代表該維度數(shù)據(jù)的最大值,x'為樣本歸一化處理后的數(shù)據(jù)。
通過(guò)歸一化工作,將訓(xùn)練數(shù)據(jù)抽樣后的樣本數(shù)據(jù)各個(gè)維度歸一化到同一數(shù)據(jù)范圍,便于建立分類模型。
步驟5:訓(xùn)練安全等級(jí)多分類器。
在處理后的訓(xùn)練數(shù)據(jù)上建立設(shè)備的安全等級(jí)分類模型,用來(lái)區(qū)分設(shè)備的安全狀態(tài)為a、b以及c類型。由此可見(jiàn)設(shè)備的安全等級(jí)分類問(wèn)題屬于多分類問(wèn)題,因此要建立多分類模型。
支持向量機(jī)算法是最基礎(chǔ)的機(jī)器學(xué)習(xí)算法,能有效處理小樣本、非線性等問(wèn)題,相比神經(jīng)網(wǎng)路算法,在速度、穩(wěn)定性以及泛化能力等方面具有優(yōu)越性。設(shè)備安全等級(jí)涉及設(shè)備的多個(gè)指標(biāo),指標(biāo)間關(guān)系復(fù)雜,由于支持向量機(jī)在解復(fù)雜問(wèn)題等方面的一系列的優(yōu)勢(shì),因此采用支持向量機(jī)分類算法來(lái)構(gòu)建分類面,最終實(shí)現(xiàn)設(shè)備的安全等級(jí)分類。
本發(fā)明中采用非線性支持向量機(jī)分類模型,使用的核函數(shù)為高斯核,具體的模型求解和構(gòu)建過(guò)程在本發(fā)明中不再詳述。
傳統(tǒng)的svm多分類器構(gòu)建方法通常有兩種方法:一對(duì)多svm分類(one-against-therest),一對(duì)一svm分類(one-against-one)。
一對(duì)多svm分類方法中:對(duì)p類多分類問(wèn)題,將其中的一類作為一類,其余的p-1類皆看作另外一類,則將p分類問(wèn)題轉(zhuǎn)化為二分類問(wèn)題。
本方法的優(yōu)點(diǎn)為:訓(xùn)練的分類器數(shù)目少,與類別數(shù)目成正比,一般為p個(gè)。缺點(diǎn)為:在訓(xùn)練每個(gè)分類器過(guò)程中,所有的樣本都要參與分類器的訓(xùn)練,訓(xùn)練時(shí)間長(zhǎng);除此之外本方法易出現(xiàn)樣本不平衡的情況。
一對(duì)一svm分類方法:對(duì)p類多分類問(wèn)題,兩兩組合構(gòu)建二分類器。該方法的優(yōu)點(diǎn)為:每個(gè)分類器訓(xùn)練過(guò)程中,只有兩類樣本參與,單個(gè)分類器的訓(xùn)練時(shí)間短。缺點(diǎn)為:分類器數(shù)目多,一般為
由此可見(jiàn)兩種svm解決多分類的方法都存在一定的缺陷,因此為了提高模型的運(yùn)行效率,本發(fā)明中改變了使用傳統(tǒng)的一對(duì)多svm分類方法或是一對(duì)一svm分類方法的方式,本發(fā)明使用兩種方式相互結(jié)合的方式,只需要構(gòu)建兩個(gè)分類器,便實(shí)現(xiàn)模型訓(xùn)練功能。本發(fā)明中通過(guò)一對(duì)多方式構(gòu)建分類器svm1,一對(duì)一的方式構(gòu)建svm2,步驟如下:
(1)構(gòu)建svm1
由于a類樣本表征與b、c類樣本表征有明顯不同,因此首先構(gòu)建一個(gè)分類器用來(lái)區(qū)分a類與非a類,通過(guò)一對(duì)多方式構(gòu)建分類器svm1區(qū)分a與非a類,即將a類樣本作為一類,而b類和c類當(dāng)做另外一類,構(gòu)建分類器svm1。
(2)構(gòu)建svm2
為了區(qū)分b類和c類,需要建立b類、c類的二分類器,則直接通過(guò)一對(duì)一的方式構(gòu)建svm2。
對(duì)于任意給定的設(shè)備特征向量,首先使用分類器svm1,判斷是屬于a類還是非a類,若是a類,則得到樣本的預(yù)測(cè)結(jié)果a;否則,則繼續(xù)使用分類器svm2,判斷是b類還是c類。
優(yōu)選地,本發(fā)明中采用以上結(jié)合一對(duì)多、一對(duì)一方式的方法實(shí)現(xiàn)svm多分類器,既能減少分類器數(shù)目,又能降低模型的訓(xùn)練時(shí)間。
傳統(tǒng)的數(shù)據(jù)處理步驟是先進(jìn)行數(shù)據(jù)預(yù)處理工作,再進(jìn)行樣本抽樣。
優(yōu)選到,本發(fā)明先進(jìn)行數(shù)據(jù)預(yù)處理工作,再進(jìn)行樣本抽樣。若采用公式(7)對(duì)樣本數(shù)據(jù)預(yù)處理,將樣本歸一化到[0,1]范圍后,對(duì)樣本進(jìn)行抽樣,有可能新樣本數(shù)據(jù)會(huì)超出[0,1],需要在新樣本集合上再次進(jìn)行歸一化,導(dǎo)致了重復(fù)工作,因此本發(fā)明中先對(duì)樣本進(jìn)行預(yù)處理,再進(jìn)行樣本抽樣工作。
圖4為本發(fā)明實(shí)時(shí)預(yù)測(cè)設(shè)備安全等級(jí)的流程圖,實(shí)時(shí)運(yùn)行過(guò)程包括以下步驟:
步驟1:獲取實(shí)時(shí)運(yùn)行數(shù)據(jù),提取安全特征。
檢測(cè)設(shè)備運(yùn)行,實(shí)時(shí)獲取設(shè)備的實(shí)時(shí)運(yùn)行數(shù)據(jù)。提取實(shí)時(shí)數(shù)據(jù)的安全特征向量,y=(y1,y2,...ym),其由m維數(shù)指標(biāo)構(gòu)成,維數(shù)與訓(xùn)練數(shù)據(jù)一致。
步驟2:數(shù)據(jù)預(yù)處理。
同訓(xùn)練數(shù)據(jù)一樣,對(duì)提取完特征的實(shí)時(shí)運(yùn)行數(shù)據(jù)進(jìn)行相同的歸一化處理工作,采用公式(7)將實(shí)時(shí)運(yùn)行數(shù)據(jù)各個(gè)維度的數(shù)值進(jìn)行歸一化。需要特別注意的是,為了保持實(shí)時(shí)運(yùn)行數(shù)據(jù)和訓(xùn)練數(shù)據(jù)數(shù)值范圍的一致性,各個(gè)維度的最大值、最小值統(tǒng)一采用訓(xùn)練數(shù)據(jù)歸一化后各個(gè)維度的最大值、最小值。
步驟3:使用訓(xùn)練好的安全等級(jí)多分類器,預(yù)測(cè)實(shí)時(shí)數(shù)據(jù)安全等級(jí)分類。
將歸一化后的實(shí)時(shí)數(shù)據(jù)代入訓(xùn)練好的兩個(gè)svm分類器,若分類器svm1預(yù)測(cè)y為a類,則預(yù)測(cè)y的安全等級(jí)結(jié)果a,否則,將其帶入svm2進(jìn)一步分類,若分類器svm2預(yù)測(cè)y為b類,則得到y(tǒng)的安全等級(jí)結(jié)果為b類,否則,則得到y(tǒng)的安全等級(jí)結(jié)果為c類。
實(shí)施例
本實(shí)施例以某火力發(fā)電廠7#機(jī)組的再熱蒸汽溫度控制為檢測(cè)對(duì)象。再熱蒸汽溫度控制的安全與否對(duì)保證機(jī)組安全、有效運(yùn)行具有重要作用,其相關(guān)結(jié)構(gòu)復(fù)雜,相關(guān)影響因素多,符合本發(fā)明所針對(duì)的多元非線性、復(fù)雜的特點(diǎn)。通過(guò)本實(shí)施例的詳細(xì)闡述,進(jìn)一步說(shuō)明本發(fā)明的實(shí)施過(guò)程。
本發(fā)明實(shí)施例對(duì)某電廠再熱蒸汽溫度控制的安全等級(jí)分類的步驟如下:
訓(xùn)練再熱蒸汽溫度控制分類模型的過(guò)程:
步驟1:建立再熱蒸汽溫度控制安全等級(jí)庫(kù)。
綜合處理再熱蒸汽溫度控制已有的專家評(píng)價(jià)結(jié)果,對(duì)專家評(píng)價(jià)結(jié)果平均化得到再熱蒸汽溫度控制不同工況下的安全等級(jí)標(biāo)記,共計(jì)樣本共4380條,建立再熱蒸汽溫度控制的安全等級(jí)庫(kù)。
步驟2:選取訓(xùn)練數(shù)據(jù)、提取安全特征。
從再熱蒸汽溫度控制安全等級(jí)庫(kù)中,選取有安全標(biāo)記的部分樣本作為訓(xùn)練樣本,隨機(jī)選取總樣本的2/3共計(jì)22920條作為訓(xùn)練樣本。與該電廠的再熱蒸汽溫度安全性相關(guān)的關(guān)鍵參數(shù)有60個(gè),例如高溫再熱器出口溫度,過(guò)熱器測(cè)煙氣擋板輸出,空預(yù)期入口煙氣氧量等測(cè)點(diǎn)。通過(guò)專家知識(shí)將測(cè)點(diǎn)數(shù)據(jù)進(jìn)行加工計(jì)算指標(biāo)得到25維的向量,形成設(shè)備的安全特征。
步驟3:對(duì)訓(xùn)練樣本采用smote算法。
對(duì)提取特征后的訓(xùn)練數(shù)據(jù)進(jìn)行smote抽樣。其中k=5,m=3,其他閾值參數(shù)θ1=0.5,θ2=5。
對(duì)于svm1二分類器,用于區(qū)分a類和b、c類,a類作為一類,b和c類作為另外一類。對(duì)原始樣本集合tsmote抽樣時(shí),要將b類和c類作為一類來(lái)處理,抽樣后得到樣本集合t1。
對(duì)于svm2二分類器,主要區(qū)分b類和c類,對(duì)b類和c類樣本上進(jìn)行smote抽樣。需要注意對(duì)b類和c類的原始樣本t抽樣,而非在t1的基礎(chǔ)上進(jìn)行抽樣,本發(fā)明之所以采取此種設(shè)計(jì),目的是減輕、避免抽樣帶來(lái)的樣本噪聲問(wèn)題。
由于a類和b、c類有明顯的不同,因此我們重點(diǎn)描述b、c類分類所涉及的工作,樣本抽樣工作亦以b、c類樣本的抽樣工作為主進(jìn)行描述。b、c類樣本抽樣的具體步驟如下:
(1)分析原始樣本的b、c類樣本,通過(guò)使用公式(5)計(jì)算得到b、c類樣本的不平衡率imbalancerate=0.11,其中c類樣本為少數(shù)類樣本。
(2)判斷樣本是否平衡。imbalancerate小于θ1,則表明樣本存在不平衡,需進(jìn)行抽樣。
(3)對(duì)c類樣本進(jìn)行抽樣。采用smote算法對(duì)c類樣本進(jìn)行抽樣,計(jì)算c類樣本目標(biāo)樣本的m近鄰,并從m近鄰中選擇符合條件的鄰居進(jìn)行插值,得到新樣本集合,并計(jì)算樣本集合的不平衡率。
其中首次抽樣后的到新樣本集合的不平衡率為imbalancerate=0.33。
(4)抽樣結(jié)束判斷。判斷樣本的不平衡率以及抽樣次數(shù)均是否符合條件閾值,若不符合則繼續(xù)進(jìn)行循環(huán)抽樣。
通過(guò)循環(huán)抽樣,最終得到新樣本集合t2,計(jì)算其平衡率為imbalancerate=0.61,可見(jiàn)其滿足樣本平衡的條件。
步驟4:對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理工作。
對(duì)抽樣后的訓(xùn)練數(shù)據(jù)按照公式(7)進(jìn)行歸一化,將各參數(shù)值全部映射到[01]的區(qū)間內(nèi)。
步驟5:訓(xùn)練安全等級(jí)多分類器。
具體的安全等級(jí)多分類器的構(gòu)建參見(jiàn)圖3所示的分類器構(gòu)建流程圖。建立區(qū)分再熱蒸汽溫度安全的分類模型svm1和svm2,其中svm1和svm2分類模型采用高斯核作為核函數(shù)。
再熱氣溫控制a類作為一類,b和c類作為一類,對(duì)抽樣后樣本t1構(gòu)建分類器svm1;將b、c類分別作為不同的類,對(duì)抽樣后樣本t2構(gòu)建分類器svm2。
通過(guò)以上安全分類器構(gòu)建,則涵蓋了安全特征與安全分類的復(fù)雜關(guān)系,可實(shí)時(shí)地實(shí)現(xiàn)預(yù)測(cè)、評(píng)估再熱氣溫控制的安全類型。具體的實(shí)時(shí)運(yùn)行過(guò)程見(jiàn)實(shí)時(shí)運(yùn)行過(guò)程的流程圖4。
本發(fā)明中為了有效驗(yàn)證、展示本發(fā)明的有效性,從安全等級(jí)庫(kù)中選擇再熱氣溫控制有安全標(biāo)記樣本的進(jìn)行測(cè)試。
測(cè)試再熱蒸汽溫度控制模型的過(guò)程:
測(cè)試過(guò)程可參照運(yùn)行過(guò)程的流程圖4,測(cè)試過(guò)程與實(shí)時(shí)運(yùn)行最大的不同是,測(cè)試樣本具有真實(shí)的安全類型標(biāo)記,可根據(jù)模型的預(yù)測(cè)結(jié)果與真實(shí)結(jié)果對(duì)比,統(tǒng)計(jì)分類模型的分類準(zhǔn)確率。具體過(guò)程如下:
步驟1:選取測(cè)試數(shù)據(jù),提取安全特征。
訓(xùn)練再熱氣溫控制安全分類模型時(shí)使用了有標(biāo)記樣本的2/3,則使用剩余的1/3樣本共計(jì)11460條可作為測(cè)試樣本。
對(duì)測(cè)試樣本采用與訓(xùn)練樣本相同的處理方式,提取測(cè)試樣本的安全特征。樣本的安全特征維數(shù)同訓(xùn)練樣本相同,皆為25維。
步驟2:數(shù)據(jù)預(yù)處理。
對(duì)特征提取后的測(cè)試樣本進(jìn)行歸一化處理將數(shù)值范圍皆歸一化到[0,1]。
步驟3:預(yù)測(cè)樣本安全類型。
使用訓(xùn)練好的再熱氣溫控制安全分類模型,svm1和svm2評(píng)估、預(yù)測(cè)樣本的安全類型。
步驟4:計(jì)算分類器的準(zhǔn)確率。
通過(guò)對(duì)比測(cè)試樣本的預(yù)測(cè)安全類標(biāo)記和真實(shí)標(biāo)記,通過(guò)分類器的準(zhǔn)確率,包括某一類的分類準(zhǔn)確率以及總體測(cè)試樣本的分類準(zhǔn)確率。分類準(zhǔn)確率越高,表明分類器的性能越好。
以下表格展示、對(duì)比了不進(jìn)行抽樣構(gòu)建分類器的測(cè)試結(jié)果,以及采用本發(fā)明方法的測(cè)試結(jié)果,結(jié)果如表所示。若不進(jìn)行抽樣,a類和b類樣本的預(yù)測(cè)準(zhǔn)確率均為0%,由此可見(jiàn)所有的測(cè)試樣本均被預(yù)測(cè)為c,這主要是由樣本嚴(yán)重不平衡造成的分類器不準(zhǔn)確。
本發(fā)明中測(cè)試得到的a類、b類和c類的準(zhǔn)確率分別為97%,92.3%以及94.6%,統(tǒng)計(jì)總體樣本的準(zhǔn)確率為94.46%,準(zhǔn)確率符合業(yè)內(nèi)認(rèn)可和行業(yè)要求。
盡管為了說(shuō)明的目的,已描述了本發(fā)明的示例性實(shí)施方式,但是本領(lǐng)域的技術(shù)人員將理解,不脫離所附權(quán)利要求中公開(kāi)的發(fā)明的范圍和精神的情況下,可以在形式和細(xì)節(jié)上進(jìn)行各種修改、添加和替換等的改變,而所有這些改變都應(yīng)屬于本發(fā)明所附權(quán)利要求的保護(hù)范圍,并且本發(fā)明要求保護(hù)的產(chǎn)品各個(gè)部門和方法中的各個(gè)步驟,可以以任意組合的形式組合在一起。因此,對(duì)本發(fā)明中所公開(kāi)的實(shí)施方式的描述并非為了限制本發(fā)明的范圍,而是用于描述本發(fā)明。相應(yīng)地,本發(fā)明的范圍不受以上實(shí)施方式的限制,而是由權(quán)利要求或其等同物進(jìn)行限定。