本發(fā)明屬于水力發(fā)電異常檢測(cè),特別是涉及一種基于transformer的水輪發(fā)電機(jī)組異常指標(biāo)預(yù)測(cè)方法。
背景技術(shù):
1、在水電站日常運(yùn)維管理中,水輪發(fā)電機(jī)組的實(shí)時(shí)數(shù)據(jù)進(jìn)行異常監(jiān)測(cè)有著至關(guān)重要的作用,可以有效避免水輪發(fā)電機(jī)組的安全隱患進(jìn)一步擴(kuò)大,并且在指導(dǎo)機(jī)組進(jìn)行狀態(tài)檢修等方面也有重要意義。水輪發(fā)電機(jī)組的故障通常發(fā)生在軸系、輪葉、導(dǎo)葉、軸承等部位,主要故障包括油箱油位升降、油溫升高、軸瓦平均溫度升高等。自十九世紀(jì)開始,統(tǒng)計(jì)學(xué)領(lǐng)域就開始對(duì)數(shù)據(jù)中的異常檢測(cè)展開研究。通過(guò)對(duì)時(shí)序序列進(jìn)行模式識(shí)別,從中挖掘異常序列片段特征并輸出異常片段或報(bào)警信息。異常特征通常包含異常點(diǎn)、離群點(diǎn)、錯(cuò)誤值等類型,其中異常點(diǎn)和離群點(diǎn)是常見的時(shí)序異常檢測(cè)目標(biāo)。
2、目前的方法在大規(guī)模時(shí)序數(shù)據(jù)中包含較少的異常點(diǎn)或離群點(diǎn)檢測(cè)問(wèn)題時(shí)通常表現(xiàn)不足,并且需要標(biāo)注大量異常片段樣本序列,增加了人力成本。而基于生成式gan生成對(duì)抗網(wǎng)絡(luò)的方法則能夠在無(wú)監(jiān)督的場(chǎng)景下,通過(guò)對(duì)大規(guī)模數(shù)據(jù)集進(jìn)行序列特征建模,從而很好地發(fā)現(xiàn)少量異常片段,在實(shí)現(xiàn)高精度異常報(bào)警的同時(shí),降低人力標(biāo)注成本;因此,需要設(shè)計(jì)一種基于transformer的水輪發(fā)電機(jī)組異常指標(biāo)預(yù)測(cè)方法來(lái)解決上述問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種基于transformer的水輪發(fā)電機(jī)組異常指標(biāo)預(yù)測(cè)方法,該方法旨在解決現(xiàn)有技術(shù)中的水輪發(fā)電機(jī)組實(shí)時(shí)數(shù)據(jù)異常監(jiān)測(cè)技術(shù)中,由于數(shù)據(jù)中的異常值樣本過(guò)少導(dǎo)致的檢測(cè)效果不佳的問(wèn)題,可以通過(guò)生成式gan生成對(duì)抗網(wǎng)來(lái)構(gòu)建大規(guī)模數(shù)據(jù)集的序列特征,從而提升缺少異常值樣本時(shí)的檢測(cè)精度。
2、為實(shí)現(xiàn)上述技術(shù)效果,本發(fā)明所采用的技術(shù)方案是:
3、一種基于transformer的水輪發(fā)電機(jī)組異常指標(biāo)預(yù)測(cè)方法,包括以下步驟:
4、s1,數(shù)據(jù)采集:
5、采集水輪發(fā)電機(jī)組多個(gè)維度的監(jiān)測(cè)指標(biāo),監(jiān)測(cè)指標(biāo)包括溫度、電流、電壓、水壓、水流量、油壓和振幅;
6、進(jìn)一步地,根據(jù)水輪發(fā)電機(jī)組的工作原理,可以推斷單一組件各項(xiàng)指標(biāo)間以及各個(gè)組件不同指標(biāo)間必然存在隱含的關(guān)聯(lián)性,與關(guān)鍵指標(biāo)存在隱含關(guān)聯(lián)性的其他指標(biāo)存在相似異常屬性,重復(fù)監(jiān)測(cè)會(huì)導(dǎo)致系統(tǒng)處理壓力過(guò)大,負(fù)載增加,浪費(fèi)計(jì)算資源、降低監(jiān)測(cè)實(shí)時(shí)性;因此,僅需要對(duì)關(guān)鍵監(jiān)測(cè)指標(biāo)進(jìn)行異常分析即可,而不與其他與關(guān)鍵指標(biāo)存在隱含關(guān)系的指標(biāo)進(jìn)行檢測(cè);
7、s2,缺失值處理:
8、對(duì)采集到的監(jiān)測(cè)指標(biāo)數(shù)據(jù)缺失值比例進(jìn)行統(tǒng)計(jì),按系統(tǒng)實(shí)際存儲(chǔ)行為完成缺失值填充;
9、進(jìn)一步地,缺失值對(duì)降維分析和模型訓(xùn)練均有很大影響,同時(shí),由于待分析的監(jiān)測(cè)數(shù)據(jù)均為數(shù)值型數(shù)據(jù),不存在分類指標(biāo)或文本類型指標(biāo)數(shù)據(jù),因此需要按系統(tǒng)實(shí)際存儲(chǔ)行為完成缺失值填充;
10、s3,降維分析:
11、針對(duì)水輪發(fā)電機(jī)組數(shù)據(jù),由于同一部件存在多種相關(guān)監(jiān)測(cè)指標(biāo),互相關(guān)程度極高;同時(shí)原始時(shí)序數(shù)據(jù)包含重要序列周期信息;如果對(duì)水輪發(fā)電機(jī)組數(shù)據(jù)采用pca降維算法,會(huì)將原始數(shù)據(jù)序列特征映射到新的特征空間中,導(dǎo)致原始序列特有的周期等特征丟失,模型無(wú)法學(xué)習(xí)合理的序列特征,影響最終序列重建效果;因此采用隨機(jī)森林算法,結(jié)合特征互相關(guān)性矩陣對(duì)原始多個(gè)維度的特征進(jìn)行篩選,最終保留10個(gè)維度的特征信息作為建模數(shù)據(jù)輸入;
12、s4,構(gòu)建transformer模型,生成對(duì)抗網(wǎng)絡(luò)gan,將transformer模型作為生成對(duì)抗網(wǎng)絡(luò)gan的生成器,從而構(gòu)建transgan預(yù)測(cè)模型;
13、s5,通過(guò)迭代訓(xùn)練,使預(yù)測(cè)模型收斂于最優(yōu)狀態(tài);通過(guò)構(gòu)建的預(yù)測(cè)模型對(duì)采集的水輪發(fā)電機(jī)組多個(gè)維度的監(jiān)測(cè)數(shù)據(jù)進(jìn)行異常值預(yù)測(cè)。
14、優(yōu)選地,步驟s2中,按系統(tǒng)實(shí)際存儲(chǔ)行為完成缺失值填充包括:
15、根據(jù)實(shí)際水電系統(tǒng)數(shù)據(jù)寫入規(guī)則進(jìn)行缺失值填充,避免在插值過(guò)程中引入額外的人為誤差,波動(dòng)幅值一般源于環(huán)境噪聲或探測(cè)器電子學(xué)噪聲;如果傳入的監(jiān)測(cè)指標(biāo)值與上一時(shí)刻非空的指標(biāo)值相同,則錄入空值,否則錄入當(dāng)前值;若為空值,則迭代回溯;因此填充時(shí)可以直接將前一時(shí)刻數(shù)據(jù)值直接替換當(dāng)前時(shí)刻缺失值,無(wú)須通過(guò)傳統(tǒng)的補(bǔ)充平均值、補(bǔ)零等方式填充。
16、優(yōu)選地,步驟s4中,構(gòu)建transformer模型時(shí),transformer模型包括編碼器和解碼器;編碼器的輸入為編碼的時(shí)序特征向量以及對(duì)應(yīng)的位置編碼向量,經(jīng)過(guò)多頭注意力機(jī)制和前向神經(jīng)網(wǎng)絡(luò)進(jìn)行多層次編碼,輸出低維度編碼向量,低維度編碼向量包含時(shí)序特征序列的重要特征編碼信息;
17、解碼器包含編碼的時(shí)序特征向量、位置編碼向量以及編碼網(wǎng)絡(luò)獲得的編碼向量三個(gè)維度的輸入信息。
18、優(yōu)選地,多頭注意力機(jī)制具體為:
19、;
20、式中,表示注意力機(jī)制中的自主性提示,即查詢向量;和表示鍵向量和值向量;softmax表示線性激活函數(shù),t表示向量的轉(zhuǎn)置;是鍵的維度。
21、優(yōu)選地,步驟s4中,生成對(duì)抗網(wǎng)絡(luò)gan包括:
22、gan由生成器和判別器雙路架構(gòu)構(gòu)成,生成器網(wǎng)絡(luò)用于從任意輸入生成目標(biāo),并使該目標(biāo)不斷逼近真實(shí)目標(biāo);判別器網(wǎng)絡(luò)輸入生成目標(biāo)和真實(shí)目標(biāo),最大化兩者之間的差異,分辨兩者的不同;
23、判別器的損失函數(shù)為:
24、;
25、生成器的損失函數(shù)為:
26、;
27、訓(xùn)練聯(lián)合損失函數(shù)為:
28、;
29、式中,為生成器;為判別器;為真實(shí)數(shù)據(jù);為隨機(jī)噪聲;表示在給定的真實(shí)數(shù)據(jù)分布中計(jì)算判別器分類的期望值;表示從純?cè)胍魯?shù)據(jù)中生成的數(shù)據(jù),經(jīng)過(guò)判別器判別真假的期望值;
30、訓(xùn)練聯(lián)合損失函數(shù)通過(guò)聯(lián)合交叉熵?fù)p失形式計(jì)算誤差,將誤差通過(guò)反向傳播算法,用于更新網(wǎng)絡(luò)參數(shù),通過(guò)迭代訓(xùn)練,預(yù)測(cè)模型最終收斂于最優(yōu)的生成模型和最優(yōu)的判別器。
31、進(jìn)一步地,基于gan網(wǎng)絡(luò)架構(gòu)的特殊性,其對(duì)抗性訓(xùn)練方式能夠方便地應(yīng)用于需要無(wú)監(jiān)督學(xué)習(xí)的場(chǎng)景中;當(dāng)大規(guī)模數(shù)據(jù)中存在大量正樣本和極少量負(fù)樣本時(shí),生成器將從大部分正樣本中學(xué)習(xí)到正常序列分布特征,同時(shí)判別器能夠通過(guò)上述損失函數(shù)通過(guò)反向傳播更新參數(shù)的方法不斷提升生成器對(duì)正常樣本的重建能力;水輪發(fā)電機(jī)組數(shù)據(jù)在很大程度上具備上述屬性,較大比例時(shí)間內(nèi)機(jī)組均處于正常工作狀態(tài),而異常報(bào)警的發(fā)生頻次較低,采用gan網(wǎng)絡(luò)架構(gòu)處理水輪發(fā)電機(jī)組異常數(shù)據(jù)能夠降低負(fù)樣本篩選和標(biāo)注工作。
32、步驟s5中,通過(guò)迭代訓(xùn)練,使預(yù)測(cè)模型收斂于最優(yōu)狀態(tài)包括:
33、訓(xùn)練聯(lián)合損失函數(shù)通過(guò)聯(lián)合交叉熵?fù)p失形式計(jì)算誤差,將誤差通過(guò)反向傳播算法,用于更新網(wǎng)絡(luò)參數(shù),通過(guò)迭代訓(xùn)練,預(yù)測(cè)模型最終收斂于最優(yōu)的生成器和最優(yōu)的判別器。
34、本發(fā)明的有益效果如下:
35、1,本發(fā)明通過(guò)隨機(jī)森林算法來(lái)進(jìn)行數(shù)據(jù)降維分析,從而篩選多個(gè)維度的特征,避免了傳統(tǒng)技術(shù)采用的pca降維算法時(shí),由于的監(jiān)測(cè)指標(biāo)之間互相關(guān)聯(lián)性過(guò)強(qiáng),原始數(shù)據(jù)序列特征映射到新的特征空間中,導(dǎo)致原始序列特有的周期等特征丟失,模型無(wú)法學(xué)習(xí)合理的序列特征,影響最終序列重建效果的問(wèn)題。
36、2,本發(fā)明通過(guò)引入gan網(wǎng)絡(luò)架構(gòu)進(jìn)行對(duì)抗性訓(xùn)練,當(dāng)大規(guī)模數(shù)據(jù)中存在大量正樣本和極少量負(fù)樣本時(shí),生成器將從大部分正樣本中學(xué)習(xí)到正常序列分布特征,同時(shí)判別器能夠通過(guò)上述損失函數(shù)通過(guò)反向傳播更新參數(shù)的方法不斷提升生成器對(duì)正常樣本的重建能力。而水輪發(fā)電機(jī)組數(shù)據(jù)在很大程度上具備上述屬性,較大比例時(shí)間內(nèi)機(jī)組均處于正常工作狀態(tài),而異常報(bào)警的發(fā)生頻次較低,采用gan網(wǎng)絡(luò)架構(gòu)處理水輪發(fā)電機(jī)組異常數(shù)據(jù)能夠降低負(fù)樣本篩選和標(biāo)注工作。