基于lda主題模型的往復(fù)機(jī)械異常檢測(cè)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于設(shè)備故障檢測(cè)領(lǐng)域,涉及針對(duì)往復(fù)機(jī)械的異常檢測(cè)方法,具體是一種 基于LDA主題模型的往復(fù)機(jī)械異常檢測(cè)方法。
【背景技術(shù)】
[0002] 往復(fù)機(jī)械是流程工業(yè)重要設(shè)備之一,應(yīng)用廣泛,尤其在煉油、化工、輸氣管道行業(yè) 中起著至關(guān)重要的作用。由于結(jié)構(gòu)復(fù)雜,振動(dòng)激勵(lì)源多,故障檢測(cè)準(zhǔn)確率低,重大事故頻發(fā)。 一旦發(fā)生故障,輕則影響生產(chǎn),重則機(jī)毀人亡,因此如何對(duì)往復(fù)機(jī)械進(jìn)行實(shí)時(shí)智能狀態(tài)監(jiān) 測(cè),及時(shí)發(fā)現(xiàn)異常,成為當(dāng)前研究的熱點(diǎn)。
[0003] 目前國(guó)內(nèi)往復(fù)機(jī)械的故障檢測(cè)主要集中在氣閥故障,對(duì)往復(fù)機(jī)械其他重大故障異 常檢測(cè)方法的研究相對(duì)較少,且異常檢測(cè)方法主要包括支持向量機(jī),神經(jīng)網(wǎng)絡(luò)等,這些方法 雖然在往復(fù)機(jī)械異常檢測(cè)方面取得了一些成果,但是還存在很多不足,比如,這些方法沒(méi)有 很好的從故障機(jī)理出發(fā),使檢測(cè)準(zhǔn)確率較低;檢測(cè)過(guò)程需要較大的數(shù)據(jù)量,而很多故障數(shù)據(jù) 樣本缺乏等,因此往復(fù)機(jī)械異常檢測(cè)一直是故障檢測(cè)領(lǐng)域的難點(diǎn)。
[0004] 近年來(lái),隨著機(jī)器學(xué)習(xí)的發(fā)展,LDA主題模型受到越來(lái)越多的關(guān)注,該方法目前主 要用于文本分類和檢索,且取得了很好的效果。因此,將LDA主題模型與往復(fù)機(jī)械異常檢測(cè) 相結(jié)合,研發(fā)了一種基于主題模型的往復(fù)機(jī)械異常檢測(cè)方法,該方法適用于往復(fù)機(jī)械多種 故障的異常檢測(cè),包括活塞桿斷裂,拉缸,撞缸,大頭瓦磨損等重大故障。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的是克服現(xiàn)有技術(shù)缺點(diǎn),將主題模型與狀態(tài)監(jiān)測(cè)技術(shù)相結(jié)合,提供一 套全新的,智能的,實(shí)時(shí)的,準(zhǔn)確的往復(fù)機(jī)械異常檢測(cè)方法。該方法首次將主題模型用于往 復(fù)機(jī)械異常檢測(cè),能夠在不停車的情況下應(yīng)用實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù),監(jiān)測(cè)往復(fù)機(jī)械運(yùn)行狀態(tài),準(zhǔn)確 率高,適用于往復(fù)機(jī)械異常檢測(cè)。
[0006] 本發(fā)明公開(kāi)了一種基于主題模型的往復(fù)機(jī)械異常檢測(cè)方法,具體步驟為: 步驟1采集機(jī)組正常工況振動(dòng)數(shù)據(jù)和實(shí)時(shí)運(yùn)行振動(dòng)數(shù)據(jù):通過(guò)安裝在往復(fù)機(jī)械上的加 速度傳感器采集往復(fù)機(jī)械實(shí)時(shí)振動(dòng)數(shù)據(jù)和正常工況振動(dòng)數(shù)據(jù);
[0007] 步驟2提取數(shù)據(jù)特征集:當(dāng)往復(fù)機(jī)械組發(fā)生異常時(shí),一般振動(dòng)數(shù)據(jù)也會(huì)同時(shí)發(fā)生變 化,因此可應(yīng)用振動(dòng)數(shù)據(jù)對(duì)往復(fù)機(jī)械進(jìn)行異常檢測(cè);將振動(dòng)數(shù)據(jù)帶入特征值計(jì)算公式,求解 特征值。主要提取了如下特征值:波形的均值、峰值、方根幅值、均方值、有效峰值、標(biāo)準(zhǔn)差、 歪度指標(biāo)、峭度指標(biāo)、峰值指標(biāo)、裕度指標(biāo)、波形指標(biāo)、脈沖指標(biāo)、小波包分解后各個(gè)頻帶的 能量值、峰值和峰峰值。
[0008] 步驟3特征集預(yù)處理:特征集預(yù)處理主要包括對(duì)特征值進(jìn)行歸一化和離散化處理。 數(shù)據(jù)離散化是將正常工況數(shù)據(jù)歸一化后,計(jì)算每種特征值的均值μ和方差設(shè)定每種特征 值的報(bào)警值Α和危險(xiǎn)值04 =以+2*〇,0 =以+4*〇,依據(jù)報(bào)警值4和危險(xiǎn)值0將每種特征劃分為詞 庫(kù)中的3個(gè)詞1,2,3,特征對(duì)應(yīng)的特征值小于等于報(bào)警值A(chǔ)時(shí),定義該特征為1;大于報(bào)警線A, 小于等于危險(xiǎn)線D時(shí),定義該特征為2;大于危險(xiǎn)線D時(shí),定義該特征為3。將每個(gè)特征離散化 的結(jié)果進(jìn)行聯(lián)合,得到一個(gè)離散化后的特征集W。
[0009]步驟4設(shè)定主題模型個(gè)數(shù)T:確定最優(yōu)T的簡(jiǎn)單方法就是用不同的T重復(fù)實(shí)驗(yàn),當(dāng)分 類正確率最優(yōu)時(shí),即正常數(shù)據(jù)集的JS距離在報(bào)警線以下的比例,和故障數(shù)據(jù)集JS距離在報(bào) 警線以上的比例值最大,認(rèn)為此時(shí)的T是模型數(shù)的最佳選擇。通過(guò)試驗(yàn)確定主題模型為6-10 時(shí)效果較好。
[0010]步驟5構(gòu)造數(shù)據(jù)集:選擇8組以上(含8組)離散化后的特征集作為一個(gè)數(shù)據(jù)集。
[0011] 步驟6訓(xùn)練主題模型,計(jì)算主題分布:將機(jī)組正常數(shù)據(jù)數(shù)據(jù)集輸入主題模型程序, 建立正常工況主題模型,并計(jì)算主題模型的主題分布|。采用Gibbs采樣方法計(jì)算主題模型 參數(shù),α、β是主題模型語(yǔ)料庫(kù)級(jí)模型參數(shù),需要提前設(shè)置。α初始值為50/Τ,β初始值為0.01,T 為主題模型數(shù)。 將每個(gè)數(shù)據(jù)集離散化后的特征集W輸入主題模型程序,得到正常工況數(shù)據(jù)主題模型,并 計(jì)算主題模型的主題分布^。主題模型由一個(gè)或多個(gè)主題組成,每個(gè)主題為詞庫(kù)中多個(gè)詞 的聯(lián)合概率分布p,一個(gè)或多個(gè)主題出現(xiàn)的聯(lián)合概率分布為4。
[0012] 步驟7預(yù)測(cè)實(shí)時(shí)運(yùn)行數(shù)據(jù)主題分布:用步驟6)中計(jì)算得到的主題預(yù)測(cè)實(shí)時(shí)運(yùn)行數(shù) 據(jù)主題分布g。將步驟6中計(jì)算得到的主題模型參數(shù),包括每個(gè)主題出現(xiàn)的詞匯和詞匯的聯(lián) 合概率分布,輸入至主題分布預(yù)測(cè)程序,得到實(shí)時(shí)運(yùn)行數(shù)據(jù)的主題分布$。
[0013] 步驟8計(jì)算實(shí)時(shí)運(yùn)行數(shù)據(jù)和正常數(shù)據(jù)主題分布的JS距離:將主題分布Θ4Ρ主題分 布02代入JS距離計(jì)算公式,計(jì)算實(shí)時(shí)運(yùn)行數(shù)據(jù)和正常數(shù)據(jù)主題分布的JS距離,并將正常數(shù) 據(jù)JS距離最大值設(shè)為報(bào)警線。計(jì)算運(yùn)行數(shù)據(jù)和正常數(shù)據(jù)主題分布的JS距離,并將正常數(shù)據(jù) JS距離最大值設(shè)為報(bào)警線。JS距離計(jì)算公式如下: D 人士 /=| 氣 將上述公式帶入下式,得到JS距離。 > 1 > Ο Λ- 0 > Θ + Θ D,、咚 4) = (心 ~(心 γ)] 其中0^和02」分別為機(jī)組正常工況數(shù)據(jù)的主題分布值|和運(yùn)行采集的實(shí)時(shí)數(shù)據(jù)的主題 分布值4:中」個(gè)主題出現(xiàn)的概率值,即5=(44.2,4~".4/),在 =(心,爲(wèi)2,%一·^ 設(shè)定的主題數(shù)。
[0014] 本發(fā)明首次將主題模型用于往復(fù)機(jī)械異常檢測(cè),該方法在往復(fù)機(jī)械工作狀態(tài)下即 可進(jìn)彳丁異常檢測(cè),具有實(shí)時(shí)性強(qiáng),準(zhǔn)確率尚等特點(diǎn)。
[0015] 本發(fā)明的第一方面,公開(kāi)了用于往復(fù)機(jī)械異常檢測(cè)的聯(lián)合特征值;
[0016] 本發(fā)明的第二方面,公開(kāi)了特征值離散化方法。
[0017] 本發(fā)明的第三方面,公開(kāi)了基于主題模型的往復(fù)機(jī)械異常檢測(cè)流程。
[0018]本發(fā)明的第四方面,公開(kāi)了主題分布JS離散度計(jì)算方法。
【附圖說(shuō)明】
[0019]圖1:異常檢測(cè)流程圖 圖2:振動(dòng)波形 圖3:特征值圖 圖4:歸一化特征集圖 圖5:離散化結(jié)果圖 圖6 JS距離(1-14組為正常數(shù)據(jù))
【具體實(shí)施方式】
[0020] 下面將結(jié)合附圖對(duì)本發(fā)明的具體的異常檢測(cè)流程做進(jìn)一步說(shuō)明。
[0021] 如圖1所示,本發(fā)明具體的流程如下所示: 1、采集機(jī)組正常工況振動(dòng)數(shù)據(jù)和實(shí)時(shí)運(yùn)行振動(dòng)數(shù)據(jù):通過(guò)往復(fù)機(jī)械在線監(jiān)測(cè)系統(tǒng),應(yīng) 用加速度傳感器采集往復(fù)機(jī)械實(shí)時(shí)振動(dòng)數(shù)據(jù)和正常工況下的實(shí)時(shí)運(yùn)行振動(dòng)數(shù)據(jù);
[0022] 2、提取數(shù)據(jù)特征集:當(dāng)往復(fù)機(jī)械組發(fā)生異常時(shí),一般振動(dòng)數(shù)據(jù)也會(huì)同時(shí)發(fā)生變化, 因此可應(yīng)用振動(dòng)數(shù)據(jù)對(duì)往復(fù)機(jī)械進(jìn)行異常檢測(cè);將振動(dòng)數(shù)據(jù)帶入特征值計(jì)算公式,求解特 征集。主要提取了如下特征值:波形的均值、峰值、方根幅值、均方值、有效峰值、標(biāo)準(zhǔn)差、歪 度指標(biāo)、峭度指標(biāo)、峰值指標(biāo)、裕度指標(biāo)、波形指標(biāo)、脈沖指標(biāo)、小波包分解后各個(gè)頻帶的能 量值、峰值和峰峰值。
[0023] 3、特征集預(yù)處理:特征集預(yù)處理主要包括對(duì)特征值進(jìn)行歸一化和離散化處理。數(shù) 據(jù)離散化是將正常工況數(shù)據(jù)歸一化后,計(jì)算每種特征值的均值μ和方差設(shè)定每種特征值 的報(bào)警值Α和危險(xiǎn)值D,Α = μ+2*σ,? = μ+4*σ,依據(jù)報(bào)警值Α和危險(xiǎn)值D將每種特征劃分為詞庫(kù) 中的3個(gè)詞1,2,3,特征對(duì)應(yīng)的特征值小于等于報(bào)警值A(chǔ)時(shí),定義該特征為1;大于報(bào)警線A,小 于等于危險(xiǎn)線D時(shí),定義該特征為2;大于危險(xiǎn)線D時(shí),定義該特征為3。將每個(gè)特征離散化的 結(jié)果進(jìn)行聯(lián)合,得到一個(gè)離散化后的特征集W。
[0024] 4、設(shè)定主題模型個(gè)數(shù)T:確定最優(yōu)T的簡(jiǎn)單方法就是用不同的T重復(fù)實(shí)驗(yàn),當(dāng)分類正 確率最優(yōu)時(shí),即正常數(shù)據(jù)集的JS距離在報(bào)警線以下的比例,和故障數(shù)據(jù)集JS距離在報(bào)警線 以上的比例值最大,認(rèn)為此時(shí)的T是模型數(shù)的最佳選擇。通過(guò)試驗(yàn)確定主題模型為6-10時(shí)效 果較好。
[0025] 5、構(gòu)造數(shù)據(jù)集:選擇8組以上(含8組)離散化后的特征集作為一個(gè)數(shù)據(jù)集。
[0026] 6、訓(xùn)練主題模型,計(jì)算主題分布:將機(jī)組正常數(shù)據(jù)數(shù)據(jù)集輸入主題模型程序,建立 正常工況主題模型,并計(jì)算主題模型的主題分布g。采用Gibbs采樣方法計(jì)算主題模型參 數(shù),α、β是主題模型語(yǔ)料庫(kù)級(jí)模型參數(shù),需要提前設(shè)置。α初始值為50/Τ,β初始值為0.01,T為 主題模型數(shù)。 將每個(gè)數(shù)據(jù)集離散化后的特征集W輸入主題模型程序,得到正常工