技術(shù)領(lǐng)域:
本發(fā)明申請涉及一種失衡數(shù)據(jù)下物流設(shè)備異常檢測領(lǐng)域,尤其涉及一種基于核熵成分分析失衡數(shù)據(jù)下物流設(shè)備異常檢測方法。
背景技術(shù):
:
目前,隨著經(jīng)濟社會的高速發(fā)展,信息化建設(shè)的不斷深入,物流逐步在現(xiàn)代社會中占據(jù)極為重要的地位?,F(xiàn)代綠色物流給人們的生活帶來便利,為國家的經(jīng)濟發(fā)展做出巨大貢獻。物流機械裝備是物流的運作基礎(chǔ)和發(fā)展關(guān)鍵。高效安全的物流裝備可以提高作業(yè)效率和技術(shù)水平。傳送帶作為物流機械裝備中的重要組成部分,是用來在企業(yè)內(nèi)部及企業(yè)之間進行物料傳遞搬運的設(shè)備,極大提高了物流業(yè)的工作效率。傳送設(shè)備在長期頻繁使用過程中可能會出現(xiàn)跑偏、零件損壞等故障問題,從而降低物料傳輸?shù)臏?zhǔn)確性,增加運作風(fēng)險,影響服務(wù)質(zhì)量和物流工作的安全。軸承作為傳送設(shè)備的重要組成部件,它的工況直接影響了整個傳送設(shè)備的運行狀態(tài)。據(jù)統(tǒng)計傳送設(shè)備發(fā)生的故障中60%都是由軸承損壞導(dǎo)致。意外的失敗可能會造成巨大的經(jīng)濟損失,甚至導(dǎo)致傷亡事故。因此如何能實時在線檢測其運行狀態(tài),如何能早期準(zhǔn)確診斷出其軸承故障,如何能保障其安全穩(wěn)定的運行是提升物流裝備自動化水平、實現(xiàn)物流高效可靠運作的關(guān)鍵。
主成分分析(principalcomponentanalysis,pca)是降低維度的一個典型方法,它可以從高維、受噪聲干擾和線性相關(guān)數(shù)據(jù)中提取代表性特征,將原始高維數(shù)據(jù)集投影到較低維空間,同時保持數(shù)據(jù)方差最大化,因此被廣泛應(yīng)用于故障診斷領(lǐng)域。pca雖然可以保證提取線性特征,具有比原始變量更加優(yōu)越的性質(zhì),但同時可能會損失一些有用的非線性特征。由于大多數(shù)工業(yè)系統(tǒng)是非線性和非穩(wěn)態(tài)的,因此非線性數(shù)據(jù)需要非線性的方法。其中,核主成分分析(kernelprincipalcomponentanalysis,kpca)方法是最突出的。kpca通過使用內(nèi)核技巧,將原始數(shù)據(jù)空間隱含地映射到高維特征空間,通過核空間映射將原本數(shù)據(jù)間的非線性相關(guān)轉(zhuǎn)換成線性相關(guān),再經(jīng)過pca變換處理實現(xiàn)降維,但是kpca方法沒有考慮到原始數(shù)據(jù)的全局結(jié)構(gòu)特征。核熵成分分析(kernelentropycomponentanalysis,keca)作為一種新算法,在有效保持原始數(shù)據(jù)流行結(jié)構(gòu)特征的基礎(chǔ)上實現(xiàn)數(shù)據(jù)降維。keca嘗試通過基于內(nèi)核的密度估計器來維持原始數(shù)據(jù)集renyi二次熵的最大估計。keca與上面兩個算法的根本不同在于:一方面,keca不需要選擇最大特征值和相應(yīng)的特征向量;另一方面,維度降低維護了原始數(shù)據(jù)renyi熵的內(nèi)在結(jié)構(gòu)。此外,keca通常能生成具有不同角度結(jié)構(gòu)的變換數(shù)據(jù)集,這意味著即使是非線性相關(guān)輸入數(shù)據(jù)集也能通過keca生成高維核特征空間中具有不同角度方向的數(shù)據(jù)集。終上所述,keca算法更適合應(yīng)用于數(shù)據(jù)降維及特征區(qū)分問題,因此,本發(fā)明引用keca算法進行數(shù)據(jù)降維及特征提取。對于分類方法的選取,支持向量機(supportvectormachine,svm)算法雖然對均衡數(shù)據(jù)集具有良好的分類能力,但是在處理不均衡數(shù)據(jù)集時訓(xùn)練所得的最優(yōu)分類超平面會向少數(shù)類偏移,從而容易錯分少數(shù)類,即容易錯分異常樣本點。由于本發(fā)明所研究的物流設(shè)備異常檢測問題是一個不均衡數(shù)據(jù)的分類問題,支持向量數(shù)據(jù)描述(supportvectordatadescription,svdd)算法作為種單類分類方法,不依賴異常訓(xùn)練樣本,非常適合異常樣本缺失的故障檢測問題。因此,本發(fā)明采用svdd算法。
技術(shù)實現(xiàn)要素:
:
本發(fā)明目的是提供一種基于核熵成分分析失衡數(shù)據(jù)下物流設(shè)備異常檢測方法。
上述的目的通過以下的技術(shù)方案實現(xiàn):
1、一種基于核熵成分分析失衡數(shù)據(jù)下物流設(shè)備異常檢測方法。其特征在于:該方法包括以下步驟:
(1)利用安裝在物流傳送設(shè)備軸承外環(huán)部位上的振動加速傳感器采集振動信號,其中采樣頻率為12k;
(2)對步驟(1)獲取的傳送設(shè)備軸承振動信號分別按時間序列間隔化分段處理,得到采樣點數(shù)為1024,訓(xùn)練樣本個數(shù)為nt的振動信號片段集合
(3)對步驟(2)獲取的訓(xùn)練樣本振動信號片段集合
(4)對步驟(3)獲取的訓(xùn)練樣本振動信號的小波包節(jié)點系數(shù)集合
(5)對步驟(4)獲取的訓(xùn)練樣本振動信號的高維頻譜特征集合
(6)對步驟(5)獲取的訓(xùn)練樣本低維特征集合
(7)對于待測試的新樣本,首先通過步驟(2)、(3)、(4)得到新樣本高維特征集合
(8)對步驟(7)獲取的新樣本低維特征集合x′keca∈r2×1,輸入到訓(xùn)練好的svdd檢測器中,用svdd算法實現(xiàn)新樣本的模式分類,分析分類器輸出的結(jié)果,得到軸承的工作狀態(tài),實現(xiàn)滾動軸承故障檢測并提出警告,以便于工作人員采取相應(yīng)的措施。
2、根據(jù)權(quán)利要求1所述的基于核熵成分分析失衡數(shù)據(jù)下物流設(shè)備異常檢測方法,其特征在于,步驟(4)中利用小波包分解變換提取關(guān)于小波包節(jié)點的熵(ewpn)和相對能量(rewpn)高維頻譜特征。ewpn表示小波包節(jié)點歸一化系數(shù)的不確定性,rewpn表示小波包節(jié)點的歸一化能量。對于給定的樣本xi,i=1,2,…,nt,第m個小波包節(jié)點的第j個小波包系數(shù)被定義為
其中,
3、根據(jù)權(quán)利要求1所述的基于核熵成分分析失衡數(shù)據(jù)下物流設(shè)備異常檢測方法,其特征在于,步驟(5)的核熵成分分析通過將原始高維觀測空間投影到低維特征空間以獲得低維特征。作為一種d維數(shù)據(jù)變換,降維方式考慮到全局結(jié)構(gòu)特征,嘗試通過基于內(nèi)核密度估計器來維持輸入數(shù)據(jù)集的renyi二次熵,并選擇對renyi二次熵貢獻最大的d個keca坐標(biāo)構(gòu)成ud,然后將φ(x)投影到ud。其中,φ(·)是keca的高維核空間的投影函數(shù),d代表要投影的低維空間的維數(shù),ud是keca軸的子集。因此,所得到的keca表達式為:
其中,dd=diag(λ1,λ2,…,λd),ed=(e1,e2,…,ed),λi,ei分別為核矩陣k=φtφ對應(yīng)于
其中,d2=diag(λ1,λ2),e2=(e1,e2)。
4、根據(jù)權(quán)利要求1所述的基于核熵成分分析失衡數(shù)據(jù)下物流設(shè)備異常檢測方法,其特征在于,步驟(6)使用的svdd檢測器,利用拉格朗日對偶問題的求解來求得svdd檢測器的各個參數(shù):
其中,a代表超球體的圓心,r代表超球體的半徑,nb表示在分類間隔界面上的訓(xùn)練樣本點數(shù)目,
5、根據(jù)權(quán)利要求1所述的基于核熵成分分析失衡數(shù)據(jù)下物流設(shè)備異常檢測方法,其特征在于,步驟(7)由于keca在核空間中選擇主成分,由φ′代表的xnew投影在選擇的主成分構(gòu)成的ud產(chǎn)生:
其中,k′=φ′tφ。本發(fā)明投影到d=2低維空間以獲取低維特征,所得到xnew的keca表達式為:
其中,d2=diag(λ1,λ2),e2=(e1,e2)。
6、根據(jù)權(quán)利要求1所述的基于核熵成分分析失衡數(shù)據(jù)下物流設(shè)備異常檢測方法,其特征在于,步驟(8)對于提取低維特征的新樣本x′keca∈r2×1,輸入到訓(xùn)練好的svdd檢測器中,構(gòu)造決策函數(shù)對新樣本進行分類:
我們變換一下,引用高斯核函數(shù)
本發(fā)明的有益效果:
1、本發(fā)明的失衡數(shù)據(jù)下物流設(shè)備異常檢測方法,是運用不同于pca與kpca算法的核熵成分分析算法來實現(xiàn)坐標(biāo)投影變換。keca通常能生成具有不同角度結(jié)構(gòu)的變換數(shù)據(jù)集,這意味著即使是非線性相關(guān)輸入數(shù)據(jù)集也能通過keca生成高維核特征空間中具有不同角度方向的數(shù)據(jù)集。而且keca嘗試通過基于內(nèi)核的密度估計器來維持原始數(shù)據(jù)集renyi二次熵的最大估計,考慮到全局分布特點,是保持原始數(shù)據(jù)流行結(jié)構(gòu)特征的降維方法。
2、本發(fā)明的失衡數(shù)據(jù)下物流設(shè)備異常檢測方法,考慮到現(xiàn)代工業(yè)軸承振動信號都是不穩(wěn)定的,小波包分解變換能夠?qū)Σ环€(wěn)定信號進行細致分析,將高頻和低頻信號從原始信號中分解出來,因此本發(fā)明采用wpd變換提取訓(xùn)練樣本及測試樣本的高維頻譜信息。本研究中通過利用wpd變換提取的故障特征,包括能真實反映出軸承故障多樣性的小波包節(jié)點的熵(ewpn)和小波包節(jié)點的相對能量(rewpn)。
3、本發(fā)明的失衡數(shù)據(jù)下物流設(shè)備異常檢測方法,對訓(xùn)練樣本及測試樣本的特征分類方法采用svdd算法,而不是支持向量機。我們知道在現(xiàn)實應(yīng)用領(lǐng)域中往往很多類別數(shù)據(jù)并不均衡,數(shù)據(jù)集中某個類別的樣本數(shù)可能會遠多于另一個類別。我們研究的物流設(shè)備故障診斷問題就是一個不均衡數(shù)據(jù)分類問題,正常樣本的數(shù)目都遠遠多于異常樣本,即正常樣本點數(shù)目遠遠大于故障樣本點數(shù)目。因此,svdd解決了svm處理不均衡數(shù)據(jù)的缺陷。
附圖說明:
附圖1是本發(fā)明的實施3中一個正常樣本的時域信息與經(jīng)過fft變換的頻譜信息圖。
附圖2是本發(fā)明的實施3中一個內(nèi)圈故障樣本的時域信息與經(jīng)過fft變換的頻譜信息圖。
附圖3是本發(fā)明的實施3中一個外圈故障樣本的時域信息與經(jīng)過fft變換的頻譜信息圖。
附圖4是本發(fā)明的實施3中一個滾動體故障樣本的時域信息與經(jīng)過fft變換的頻譜信息圖。
附圖5是本發(fā)明的實施3中一個正常樣本、一個內(nèi)圈故障樣本、一個外圈故障樣本與一個滾動體故障樣本分別通過小波包分解變換得到的16個ewpn和16個rewpn條形圖。
附圖6是本發(fā)明的實施3中pca、kpca、keca三種降維算法分別選取50個內(nèi)圈故障樣本和50個正常樣本在3維特征空間的特征區(qū)分顯著情況對比圖。
附圖7是本發(fā)明的實施3中pca、kpca、keca三種降維算法分別選取50個外圈故障樣本和50個正常樣本在3維特征空間的特征區(qū)分顯著情況對比圖。
附圖8是本發(fā)明的實施3中pca、kpca、keca三種降維算法分別選取50個滾動體故障樣本和50個正常樣本在3維特征空間的特征區(qū)分顯著情況對比圖。
附圖9是本發(fā)明的實施3中keca降維算法將外圈故障樣本與內(nèi)圈故障樣本投影至3維空間后,選取50個外圈故障樣本與50個內(nèi)圈故障樣本的特征區(qū)分顯著情況圖。
附圖10是本發(fā)明的實施3中keca降維算法將內(nèi)圈故障樣本與滾動體故障樣本投影至3維空間后,選取50個內(nèi)圈故障樣本與50個滾動體故障樣本的特征區(qū)分顯著情況圖。
附圖11是本發(fā)明的實施3中keca降維算法將外圈故障樣本與滾動體故障樣本投影至3維空間后,選取50個外圈故障樣本與50個滾動體故障樣本的特征區(qū)分顯著情況圖。
附圖12是本發(fā)明的實施3中內(nèi)圈故障檢測precision-recall性能隨正常訓(xùn)練樣本個數(shù)從50到500的變化趨勢圖。
附圖13是本發(fā)明的實施3中外圈故障檢測precision-recall性能隨正常訓(xùn)練樣本個數(shù)從50到500的變化趨勢圖。
附圖14是本發(fā)明的實施3中滾動體故障檢測precision-recall性能隨正常訓(xùn)練樣本個數(shù)從50到500的變化趨勢圖。
附圖15是本發(fā)明的實施3中通過改變高斯核函數(shù)的半徑參數(shù)σ′值,滾動體故障precision-recall性能隨σ′值變化趨勢圖。
附圖16是本發(fā)明的實施3中keca+svdd、pca+svdd、kpca+svdd三種算法的內(nèi)圈故障隨著正常訓(xùn)練樣本個數(shù)從50到500的f-measure性能變化趨勢圖。
附圖17是本發(fā)明的實施3中keca+svdd、pca+svdd、kpca+svdd三種算法的外圈故障隨著正常訓(xùn)練樣本個數(shù)從50到500的f-measure性能變化趨勢圖。
附圖18是本發(fā)明的實施3中keca+svdd、pca+svdd、kpca+svdd三種算法的滾動體故障隨著正常訓(xùn)練樣本個數(shù)從50到500的f-measure性能變化趨勢圖。
具體實施方式:
實施例1:
一種基于核熵成分分析失衡數(shù)據(jù)下物流設(shè)備異常檢測方法,所述的核熵成分分析(keca)包括如下具體步驟:
renyi二次熵定義為:
h(x)=-log(∫p2(x)dx)
這里,p(x)是概率函數(shù)產(chǎn)生數(shù)據(jù)集或樣本x=x1,x2,…,xn。由于對數(shù)函數(shù)的單調(diào)性,只需考慮積分函數(shù)v(p)=∫p2(x)dx=e{p(x)}.為了估計v(p),應(yīng)用了
利用樣本均值估計代替期望,可以得到以下估計:
其中,k=φtφ是n×n的核矩陣,矩陣k的元素(i,j)是kσ(xi,xj),1是n×1向量(所有元素都為1)??梢哉f從一致樣本集得到的renyi熵估計完全依賴于相應(yīng)的核矩陣。將相應(yīng)的核矩陣k=φtφ分解為k=edet,來估計renyi二次熵。其中,d=diag(λ1,λ2,…,λn),e=(e1,e2,λ,en)。λi,ei分別為核矩陣k=φtφ的特征值和特征向量??傻茫?/p>
上式稱為熵估計。該式說明某特征值,特征向量會對熵估計的貢獻更大。keca作為一種d維數(shù)據(jù)變換,嘗試通過基于內(nèi)核的估計器來維持輸入數(shù)據(jù)集renyi二次熵貢獻最大的d個keca坐標(biāo)構(gòu)成ud,然后將φ(x)投影到ud。其中,d代表要投影的低維空間的維數(shù),ud是keca軸的子集。注意:與kpca不同的是keca不是必須取最大d個特征值對應(yīng)的特征向量。因此,所得到的keca表達式為:
其中,dd=diag(λ1,λ2,…,λd),ed=(e1,e2,…,ed),dd和ed分別存儲著核矩陣k=edet對應(yīng)
由于keca在核空間中選擇主成分,由φ′代表的新樣本投影在選擇的主成分構(gòu)成的ud產(chǎn)生:
其中,k′=φ′tφ。
實施例2:
一種基于核熵成分分析失衡數(shù)據(jù)下物流設(shè)備異常檢測方法,所述的經(jīng)過keca降維投影處理后的正常樣本集合對svdd檢測器進行訓(xùn)練,引入核函數(shù)和相應(yīng)核函數(shù)參數(shù),這里建議核函數(shù)為高斯核函數(shù),高斯核半徑σ′=0.5,得到svdd檢測器的各個參數(shù)求法包括如下具體步驟:
svdd數(shù)學(xué)模型如下:
約束條件為:
(xi-a)t(xi-a)≤r2,i=1,2,…,n
其中r代表超球體的半徑,a代表圓心,n代表所有訓(xùn)練樣本的個數(shù)。求解包含所有訓(xùn)練樣本xi的最小超球體。構(gòu)造拉格朗日函數(shù):
利用kkt條件:
可以推得:
可以推得:
然后還有互補松弛條件:
λi(xi2-2axi+a2-r2)=0,i=1,2,…,n
λi≥0
帶入拉格朗日函數(shù)中,得到:
得原對偶問題:
約束條件:
λi≥0,i=1,2,…,n
求解上述問題,得到λi,就可以求出半徑和球心,
我們令
我們變換一下,
其中,nb表示在分類間隔上的訓(xùn)練樣本點數(shù)目,xs表示在分類間隔上的正常樣本點,即支持向量,k(xi,xj),k(xs,xi)為高斯核函數(shù),λi、λj為拉格朗日乘子,i,j=1,2,…,nt。
在硬間隔最大化時,根據(jù)kkt條件中的對偶互補松弛條件λi(xi2-2axi+a2-r2)=0,i=1,2,…,n。如果λi>0,則有[xi2-2axi+a2-r2]=0,表示此樣本點是正常樣本點,且是支持向量,在間隔界面上。否則,如果λi=0,則有[xi2-2axi+a2-r2]<0,表示此樣本點是在分類間隔界面內(nèi)的正常樣本點。
對于待測試新樣本x′,構(gòu)造決策函數(shù)對待測試樣本進行分類:
我們同樣變換一下,
實施例3:
為了驗證基于核熵成分分析失衡數(shù)據(jù)下物流設(shè)備異常檢測方法,在提取訓(xùn)練樣本特征參數(shù)和分類不均衡數(shù)據(jù)的能力,我們進行了以下實驗。其中實驗數(shù)據(jù)均來源于美國casewesternreserveuniversity的電氣工程實驗室,利用安裝在感應(yīng)電動機輸出軸的支撐軸承上端機殼上的振動加速傳感器來收集振動信號,采樣頻率為12k。實驗?zāi)M了滾動軸承的四種運行狀態(tài):1正常狀態(tài);2內(nèi)圈故障;3外圈故障;4滾動體故障。實驗環(huán)境:windows7操作系統(tǒng),cpu:inteli7,3.4g處理器,仿真軟件為matlab2010b。本發(fā)明對收集的振動信號分別按時間序列間隔化分段處理,得到采樣點數(shù)為1024,樣本數(shù)各為1000個的四種類型振動信號片段集合d∈r4×1024×1000。圖1、2、3、4、分別為一個正常樣本、一個內(nèi)圈故障樣本、一個外圈故障樣本、一個滾動體故障樣本的時域信息與經(jīng)過fft變換的頻譜信息圖。
由于上述四種類型樣本振動信號時頻信息的連續(xù)性與不可分性,無法作為特征實現(xiàn)故障檢測。為此,本發(fā)明利用小波包分解變換來提取四種類型樣本振動信號的高維頻譜特征。實驗中首先利用小波包分解變換對每個訓(xùn)練樣本時域信號進行小波包分解,分解為4層,分別得到16個小波包節(jié)點。其中,小波函數(shù)采用的是db2小波。得到四種不同類型樣本振動信號的小波包分解系數(shù)集合c∈r4×(16×64)×1000。然后對獲取的四種不同類型樣本振動信號的小波包分解系數(shù)集合c∈r4×(16×64)×1000,分別求每個小波包節(jié)點的熵(ewpn)和相對能量(rewpn)。對于給定的樣本x,第m個小波包節(jié)點的第j個小波包系數(shù)被定義為
其中,
其中,
圖5分別為一個正常樣本、一個內(nèi)圈故障樣本、一個外圈故障樣本與一個滾動體故障樣本通過小波包分解得到的16個ewpn和16個rewpn條形圖。
由于通過小波包分解變換得到的四種不同類型振動信號高維頻譜特征集合x∈r4×32×1000維度高且不同類型樣本間區(qū)分能力不強,為此,本發(fā)明為了獲得四種不同類型樣本振動信號的較低維特征集合,采用keca方法來實現(xiàn)數(shù)據(jù)降維,方法見實施例1。
為了驗證本發(fā)明運用的keca降維算法對正常樣本與故障樣本間的特征區(qū)分能力,實驗中利用keca、pca、kpca方法分別將樣本高維頻譜特征集合xn,xi,xo,xb投影至d=3低維特征空間,得到三種降維方法對應(yīng)的訓(xùn)練樣本低維特征集合
為了驗證本發(fā)明運用的keca算法對不同類型故障特征的區(qū)分能力,實驗中將
為了驗證本發(fā)明運用的svdd分類算法處理失衡數(shù)據(jù)的分類能力,實驗中從
準(zhǔn)確率(precision)=tp/(tp+fp)
召回率(recall)=tp/(tp+fn)
其中,tp(turepositive)指使用分類算法將原本屬于正類的樣本正確的預(yù)測為正類的樣本數(shù);fp(falsenegative)指使用分類算法將原本屬于反類的樣本錯誤的預(yù)測為正類的樣本數(shù);fn(falsenegative)指使用分類算法將原本屬于正類的樣本錯誤的預(yù)測為反類的樣本數(shù)。一般來說準(zhǔn)確率和召回率彼此互相影響,準(zhǔn)確率高、則召回率較低,召回率高、則準(zhǔn)確率較低。實驗中通過改變正常樣本點個數(shù)來觀察本發(fā)明運用的svdd算法的內(nèi)圈故障檢測precision-recall性能變化趨勢,外圈故障檢測precision-recall性能變化趨勢,以及滾動體故障檢測precision-recall性能變化趨勢,其中正常樣本個數(shù)從50到500等間隔變化,間隔為50,結(jié)果如圖12,13,14所示。由圖12、圖13可以看出,隨著正常訓(xùn)練樣本的逐漸增加,內(nèi)圈故障和外圈故障不僅召回率逐步增加而且精度保持不變,由圖14可以看出隨著正常樣本個數(shù)的增加,滾動體故障的召回率逐步增加,準(zhǔn)確率緩慢下降。通過上述實驗可以驗證,本發(fā)明運用的svdd分類方法不僅能有效處理不均衡數(shù)據(jù)集的分類問題,而且綜合分類能力隨著正常樣本個數(shù)的增加也有所提升。
為了驗證本發(fā)明運用的svdd分類算法所選取的高斯核半徑參數(shù)σ′=0.5的有效性與合理性,實驗從
上述實驗發(fā)現(xiàn),p和r指標(biāo)彼此相互影響,為了能綜合體現(xiàn)分類算法對不均衡數(shù)據(jù)的分類性能,接下來的實驗采用precision和recall加權(quán)調(diào)和平均的綜合評價指標(biāo)(f-measure,f)。f-measure定義如下:
當(dāng)參數(shù)β=1,就是最常見的f1,也即
可知f1綜合了p和r的結(jié)果,當(dāng)f1較高時則能說明實驗方法比較有效。
為了驗證本發(fā)明提出的keca+svdd方法處理失衡數(shù)據(jù)下物流設(shè)備異常檢測的性能,實驗將keca+svdd、pca+svdd、kpca+svdd三種算法的分類效果進行對比,參數(shù)同上。實驗部分首先從