本發(fā)明涉及一種基于L3CRSC對譜聚類鄰接矩陣的構(gòu)造及其應(yīng)用。
背景技術(shù):
1、基于譜聚類的非監(jiān)督的數(shù)據(jù)辨識是近年來研究熱點,其關(guān)鍵任務(wù)是構(gòu)建鄰接矩陣。本文提出一個新的基于譜聚類無監(jiān)督辨識算法,叫做局部約束的隱空間低秩子空間聚類(L3CRSC)。利用隱空間低秩表示系數(shù)構(gòu)建鄰接矩陣,并將其輸入到譜聚類當(dāng)中實現(xiàn)不同類數(shù)據(jù)特征的分離與識別。不同于傳統(tǒng)的LRR算法,我們是通過分離原始數(shù)據(jù)獲得干凈的字典矩陣,并利用該字典進(jìn)行低秩系數(shù)的學(xué)習(xí)。為了更好的處理高維特征,我們用隱空間低秩表示算法,更新得到隱空間下的有效字典與矩陣。同時,本文提出一種新的構(gòu)建隱空間映射矩陣的方法,即映射前后保留數(shù)據(jù)的局部幾何結(jié)構(gòu)一致。在人工數(shù)據(jù)集的仿真實驗中得到L3CRSC可以有效的揭示原始非線性數(shù)據(jù)的本質(zhì)結(jié)構(gòu),在真實軸承故障數(shù)據(jù)的識別中,本文方法可以有效的分離不同類型的故障特征,提高了識別準(zhǔn)確性,為后期的故障診斷提供了保障。
2、故障數(shù)據(jù)的辨識是軸承故障診斷的重要工作,當(dāng)在軸承的運行中同時發(fā)生兩種以上的故障,這些故障往往相互耦合,從而增加了故障辨識的難度。并且這些故障往往具有非線性與非平穩(wěn)的特性。通常情況下,我們從時域、頻域和時頻域中提取故障特性并進(jìn)行辨 識。
3、傳統(tǒng)的故障辨識過程通常是將穿過低維子空間的故障樣本點根據(jù)已有的樣本標(biāo)簽,將其劃分在對應(yīng)的組內(nèi)。然而我們現(xiàn)在面臨的一個情況:這些觀測到的樣本點并不帶標(biāo)簽,例如,未知的軸承故障。近幾年,子空間分割是一個比較流行的無監(jiān)督識別方法,它對每一個樣本點根據(jù)它與其它樣本點的幾何位置關(guān)系,將其分配在對應(yīng)的組內(nèi)。子空間分割的常用方法分為:線性代數(shù)法,迭代法,統(tǒng)計法,譜聚類法。其中,譜聚類法在模式識別和運動分割中有較廣泛的應(yīng)用。這種方法首先建立鄰接度矩陣A并將其轉(zhuǎn)化為Laplace矩陣,其矩陣內(nèi)的元素衡量了兩個樣本點之間的相似性(尤其當(dāng)矩陣元素為1時則認(rèn)為樣本點i和j在同一個子空間內(nèi))然后我們對該Laplace子空間進(jìn)行特征分解。最后運用k-means算法對特征向量進(jìn)行聚類。因此,構(gòu)建鄰接度矩陣是整個譜聚類的核心工作。
4、理想的鄰接度矩陣具有對角塊結(jié)構(gòu),這意味著屬于同一類的樣本點聚集在同一子空間內(nèi)。利用混合相似度準(zhǔn)則構(gòu)建鄰近度矩陣,該準(zhǔn)則是將不同類型的信息融合在一起來評定兩個樣本點之間的相似性。MarioBeauchemin從樣本分布密度的角度衡量了非均勻分布樣本點之間的相似性。但是該方法在處理螺旋形分布數(shù)據(jù)時依然存在較多的問題。AmirBabaeian用曲率約束的距離代替?zhèn)鹘y(tǒng)歐式距離來選擇每一個樣本點的近鄰點,該方法有效的揭示了分布在多個流形上的樣本點的本質(zhì)幾何結(jié)構(gòu)。然而,上述方法都需要設(shè)置一個關(guān)于距離或者密度的函數(shù),因此鄰接度矩陣的好壞受函數(shù) 形式的影響,從而進(jìn)一步?jīng)Q定了聚類性能的高低。
5、基于稀疏和低秩表示系數(shù)構(gòu)建鄰接度矩陣在近些年來得到了重點的關(guān)注?;谙∈璞硎镜淖V聚類算法首先由Elhamifar提出,與此同時,給出了求解稀疏表示系數(shù)的優(yōu)化過程。他們指出,一個樣本點可以由和它同一子空間上的點進(jìn)行線性和妨射變換來表示。而處于不同子空間的點可通過稀疏優(yōu)化的方式相互分離。然而該方法存在一個問題,即鄰接度矩陣過于稀疏時,會造成子空間的過分割現(xiàn)象。這是因為它僅僅強調(diào)了樣本空間的局部稀疏。低秩表示這一概念是由G.liu第一次提出的,這種方法強調(diào)了樣本點的聚集特性。他們指出原始的數(shù)據(jù)可以由低秩表示系數(shù)線性重構(gòu),并且由這些低秩表示系數(shù)組成的鄰接度矩陣具有較好的分塊結(jié)構(gòu),這使得該矩陣更加適合用于聚類。然而LRR需要滿足一定的條件才可以獲得較好的效果:例如,它需要子空間之間相互獨立,樣本點需要充分采樣。另外,LRR由于用原始數(shù)據(jù)作字典,使它對噪聲點也較為敏感。
6、針對上述問題,一些學(xué)者做出相應(yīng)改進(jìn)研究。MahdiSoltanolkotabi等人提出了稀疏性回歸策略,在噪聲和離群點中最優(yōu)化稀疏系數(shù),并在該策略下將子空間有效的恢復(fù)了出來。其它研究者提出利用原始字典增強LRR或者SSC的對角塊特性。例如,Chong You提出利用正交匹配原則獲得稀疏表示的最優(yōu)正則項;Kewe Tang等人重點對獨立子空間的分割做了相應(yīng)的研究,并提出結(jié)構(gòu)約束性的LRR算法。這種方法降低了噪聲和離群點對優(yōu)化低秩表示系數(shù)的影響。除了優(yōu)化正則化項之外,另一些研究者關(guān)注如何 從噪聲與離群點中得到有效字典。Ehsan Elhamifar等人提出字典矩陣也應(yīng)該保持稀疏性結(jié)構(gòu),通過這種約束,使得噪聲和離群點有效的抑制。但當(dāng)噪聲過大時,其字典表現(xiàn)的過于稀疏,降低空間分割的可靠性??紤]到此問題,Ren′e Vidal等人提出用分解的方法構(gòu)建字典矩陣,其思想是:一個干凈的,自表達(dá)的字典矩陣可以從原始矩陣中分離出。同時,他們提供了一種聚類算法,用于對分布在多個子空間的受污染的數(shù)據(jù)進(jìn)行聚類。在人臉識別的實驗中,該方法獲得了最高的識別率。
7、故障數(shù)據(jù)往往分布在一系列的互不關(guān)聯(lián)或者相互重疊的高維子空間內(nèi),直接利用該特征值計算相應(yīng)表示系數(shù)并構(gòu)造鄰接矩陣,會造成對角塊結(jié)構(gòu)的退化。另外,尋找到一種架構(gòu)同時對特征進(jìn)行分離與降維是提高空間分割可靠性的必要措施。針對這一問題,G.liu等人提出了隱空間低秩表示的概念,他們強調(diào)分布在隱空間的樣本點與觀測樣本點對于恢復(fù)低秩系數(shù)同樣重要,用來解決LRR中的非充分采樣問題。Bin Gan等人用隱空間的低秩表示模型來獲取特征并建立了基于稀疏表示的腫瘤分類器。MingYin等人引入了雙圖正則化隱空間LRR算法,強調(diào)恢復(fù)低秩表示系數(shù)的同時保留隱空間與特征空間的幾何結(jié)構(gòu)。Vishal M.Patel等人對原有的SSC算法進(jìn)行了拓展,提出新的非線性隱空間SSC算法。該算法通過核變換的方式優(yōu)化得到映射矩陣P,并將非線性數(shù)據(jù)投影到低維隱空間,并恢復(fù)出該低維隱空間下的稀疏表示系數(shù),但是其分割效果受核函數(shù)的影響較大,且計算復(fù)雜度高。Lai Wei等人利用局部約束化的LRR獲得隱空 間下的最優(yōu)低秩表示系數(shù),有效的保留了數(shù)據(jù)的全局和局部結(jié)構(gòu),同時他們對提出算法與魯棒性稀疏編碼方法之間的關(guān)系做了闡述。然而該算法用PCA方法將原始數(shù)據(jù)直接投影到隱空間,這對于某些非線性數(shù)據(jù)效果較差。
技術(shù)實現(xiàn)要素:
本發(fā)明要解決的技術(shù)問題是提供一種有效的分離不同類型的故障特征,提高了識別準(zhǔn)確性,為后期的故障診斷提供了保障的基于L3CRSC對譜聚類鄰接矩陣的構(gòu)造方法。
為解決上述問題,本發(fā)明采用如下技術(shù)方案:
一種基于L3CRSC對譜聚類鄰接矩陣的構(gòu)造方法,其特征在于:包括魯棒性低秩表達(dá)模型:
s.t.Z=ZT
傳統(tǒng)的低秩表達(dá)模型利用原始數(shù)據(jù)作字典,使得其算法對噪聲和離群點較為敏感。因此研究者們構(gòu)建出一種新的模型來獲得最優(yōu)的低秩表示系數(shù),原始的數(shù)據(jù)矩陣D可以分解為干凈的字典矩陣A,噪聲G和離群點E的疊加,其中干凈的字典矩陣A用來恢復(fù)低秩系數(shù)Z。式中第二項和第三項是用來降低離群點和噪聲對算法的影響。同時對Z進(jìn)行對稱的約束,保證其具有完整的對角塊結(jié)構(gòu)。對該模型的優(yōu)化算法如下:
D‐E=UΣVT
其中Λ=diag(λ1,λ2,λ3……λn)可以由∑=diag(σ1,σ2……σn)得到:
這是一個分段多項式,為了保證結(jié)果的連續(xù)性與平滑性,我們對上式做逆變換。
是多項閾值操作,σ*是相關(guān)閾值。由上述表達(dá)式可以看出字典矩陣A和低秩矩陣Z都可以由新的奇異值λ進(jìn)行重構(gòu)。而離群點E可以通過A和D求解,其關(guān)系滿足下式:
-γ(D-A-E)+λ1sign(E)=0
因此我們對該模型進(jìn)行求解:
(U,∑,V)=SVD(D-E)
A=UPγ,v(∑)VT
基于隱空間的低秩表示模型
LRR算法要求樣本均勻分布在多個子空間上,同時所有的子空間相互獨立。真實的數(shù)據(jù)往往難以滿足。因此直接在高維原始空間求取低秩表示系數(shù)會造成誤差,同時增加計算的復(fù)雜度。受到稀疏性降維算法的啟發(fā),構(gòu)造一個合適的低維子空間,并在該子空間內(nèi)更新字典和系數(shù)矩陣,為實現(xiàn)同時進(jìn)行聚類與降維提供了可能。
隱空間的低秩表達(dá)模型
以上表達(dá)式是隱空間低秩表示模型,P是隱空間的映射矩陣,通過線性映射的方法,將原始數(shù)據(jù)投影到低維的隱空間中去。上述模型由三部分構(gòu)成,前兩項用于隱空間構(gòu)建低秩表達(dá)系數(shù),采用的是PCA的形式。第三項是保證映射前后數(shù)據(jù)信息不丟失,λa是調(diào)整因子(取值范圍:0-1)。對于非線性數(shù)據(jù)而言,直接采用PCA的形式會造成較大的誤差,因此本文提出局部約束的隱空間低秩表達(dá)模型,理論上證明,非線性數(shù)據(jù)的局部結(jié)構(gòu)近似為線性,通過保留局部結(jié)構(gòu)的幾何特性,(如相鄰兩個樣本點的歐式距離在線性映射前后不變),來對數(shù)據(jù)進(jìn)行低維隱空間的投影。
局部約束的魯棒性隱空間LRR算法
s.t PTADATP=I
模型中的前三項用于在原始數(shù)據(jù)中抽取干凈的數(shù)據(jù)作為字典矩陣,這相當(dāng)于去噪的過程,同時減小對原有數(shù)據(jù)結(jié)構(gòu)的破壞,然后 優(yōu)化得到在該字典下的低秩表達(dá)系數(shù)。最后三項是本文提出的基于隱空間的最優(yōu)低秩表示約束式。由之前得到的初始字典矩陣和低秩表達(dá)系數(shù)輸入到約束式中,對其進(jìn)行更新。L是Laplace矩陣,其求取過程如下:
L=D-W
基于局部結(jié)構(gòu)保持構(gòu)建隱空間的方法是一種有效處理非線性數(shù)據(jù)的方法,假設(shè)Wij是衡量兩個數(shù)據(jù)相似程度的因子,為關(guān)于兩個樣本點歐式距離的指數(shù)函數(shù)。由于局部鄰域為近似線性,在該鄰域內(nèi),原始高維空間中相距較近的樣本點在低維隱空間中依然相鄰的結(jié)構(gòu),即局部鄰域內(nèi)的相似樣本點間的距離在隱空間中依然保持最小。模型的約束條件保證位于同一子空間上的樣本點的相似性最大(對角線元素和為1)。首先我們利用KNN篩選出每個樣本點的k個鄰域點,并計算樣本點到鄰域點的歐式距離;然后我們利用上式構(gòu)建Laplace矩陣,并保持低維投影后相鄰樣本點間的相似性最大。
本發(fā)明的有益效果為:新的魯棒性方法去學(xué)習(xí)低秩表示系數(shù),不同于傳統(tǒng)的LRR算法,我們利用分解的思想從原始信號出提取出干凈的數(shù)據(jù)作為字典,得到最優(yōu)的低秩表示系數(shù)。然后我們提出了局部約束的隱空間LRR算法,通過保持原始高維數(shù)據(jù)的局部幾何特性,將原始數(shù)據(jù)投影到低維隱空間中,并在該隱空間中更新字典和低秩系數(shù)。通過對人工數(shù)據(jù)集和真實軸承故障數(shù)據(jù)的辨識實驗,本 文的算法取得了最優(yōu)的辨識效果,為進(jìn)一步的故障診斷提供了保障。
附圖說明
圖1為本發(fā)明一種基于L3CRSC對譜聚類鄰接矩陣的構(gòu)造方法的魯棒性低秩表達(dá)模型的求解流程算法流程圖;
圖2為本發(fā)明一種基于L3CRSC對譜聚類鄰接矩陣的構(gòu)造方法的基于不同子空間分割法構(gòu)建鄰接矩陣的效果圖對比圖;
圖3為本發(fā)明一種基于L3CRSC對譜聚類鄰接矩陣的構(gòu)造方法的軸承不同狀態(tài)的時域振動圖;
圖4為本發(fā)明一種基于L3CRSC對譜聚類鄰接矩陣的構(gòu)造方法的不同子空間分割法對故障信號在三維空間的聚類效果。
具體實施方式
如圖1所示,一種基于L3CRSC對譜聚類鄰接矩陣的構(gòu)造方法,其特征在于:包括魯棒性低秩表達(dá)模型:
s.t.Z=ZT
傳統(tǒng)的低秩表達(dá)模型利用原始數(shù)據(jù)作字典,使得其算法對噪聲和離群點較為敏感。因此研究者們構(gòu)建出一種新的模型來獲得最優(yōu)的低秩表示系數(shù),原始的數(shù)據(jù)矩陣D可以分解為干凈的字典矩陣A,噪聲G和離群點E的疊加,其中干凈的字典矩陣A用來恢復(fù)低秩系數(shù)Z。式中第二項和第三項是用來降低離群點和噪聲對算法的影響。同時對Z進(jìn)行對稱的約束,保證其具有完整的對角塊結(jié)構(gòu)。對該模型的優(yōu)化算法如下:
D-E=U∑VT
其中Λ=diag(λ1,λ2,λ3……λn)可以由∑=diag(σ1,σ2……σn)得到:
這是一個分段多項式,為了保證結(jié)果的連續(xù)性與平滑性,我們對上式做逆變換。
是多項閾值操作,σ*是相關(guān)閾值。由上述表達(dá)式可以看出字典矩陣A和低秩矩陣Z都可以由新的奇異值λ進(jìn)行重構(gòu)。而離群點E可以通過A和D求解,其關(guān)系滿足下式:
-γ(D-A-E)+λ1sign(E)=0
因此我們對該模型進(jìn)行求解:
(U,∑,V)=SVD(D-E)
A=UPγ,v(∑)VT
基于隱空間的低秩表示模型
LRR算法要求樣本均勻分布在多個子空間上,同時所有的子空間相互獨立。真實的數(shù)據(jù)往往難以滿足。因此直接在高維原始空間求取低秩表示系數(shù)會造成誤差,同時增加計算的復(fù)雜度。受到稀疏性降維算法的啟發(fā),構(gòu)造一個合適的低維子空間,并在該子空間內(nèi)更新字典和系數(shù)矩陣,為實現(xiàn)同時進(jìn)行聚類與降維提供了可能。
隱空間的低秩表達(dá)模型
以上表達(dá)式是隱空間低秩表示模型,P是隱空間的映射矩陣,通過線性映射的方法,將原始數(shù)據(jù)投影到低維的隱空間中去。上述模型由三部分構(gòu)成,前兩項用于隱空間構(gòu)建低秩表達(dá)系數(shù),采用的是PCA的形式。第三項是保證映射前后數(shù)據(jù)信息不丟失,λa是調(diào)整因子(取值范圍:0-1)。對于非線性數(shù)據(jù)而言,直接采用PCA的形式會造成較大的誤差,因此本文提出局部約束的隱空間低秩表達(dá)模型,理論上證明,非線性數(shù)據(jù)的局部結(jié)構(gòu)近似為線性,通過保留局部結(jié)構(gòu)的幾何特性,(如相鄰兩個樣本點的歐式距離在線性映射前后不變),來對數(shù)據(jù)進(jìn)行低維隱空間的投影。
局部約束的魯棒性隱空間LRR算法
s.t PTADATP=I
模型中的前三項用于在原始數(shù)據(jù)中抽取干凈的數(shù)據(jù)作為字典矩陣,這相當(dāng)于去噪的過程,同時減小對原有數(shù)據(jù)結(jié)構(gòu)的破壞,然后優(yōu)化得到在該字典下的低秩表達(dá)系數(shù)。最后三項是本文提出的基于隱空間的最優(yōu)低秩表示約束式。由之前得到的初始字典矩陣和低秩表達(dá)系數(shù)輸入到約束式中,對其進(jìn)行更新。L是Laplace矩陣,其求取過程如下:
L=D-W
基于局部結(jié)構(gòu)保持構(gòu)建隱空間的方法是一種有效處理非線性數(shù)據(jù)的方法,假設(shè)Wij是衡量兩個數(shù)據(jù)相似程度的因子,為關(guān)于兩個樣本點歐式距離的指數(shù)函數(shù)。由于局部鄰域為近似線性,在該鄰域內(nèi),原始高維空間中相距較近的樣本點在低維隱空間中依然相鄰的結(jié)構(gòu),即局部鄰域內(nèi)的相似樣本點間的距離在隱空間中依然保持最小。模型的約束條件保證位于同一子空間上的樣本點的相似性最大(對角線元素和為1)。首先我們利用KNN篩選出每個樣本點的k個鄰域點,并計算樣本點到鄰域點的歐式距離;然后我們利用上式構(gòu)建Laplace矩陣,并保持低維投影后相鄰樣本點間的相似性最大。
實驗例:
人工數(shù)據(jù)集的數(shù)據(jù)識別效果
首先我們構(gòu)建四個人造數(shù)據(jù)集,其中數(shù)據(jù)點分布在四個獨立的子空間上{Si,i=1:4},{Ci,i=1:4}是四個這些空間的基向量,其中Ci+1=RCi,1<i<4.其中Ci為100*4的矩陣,確保每個子空間的本征維度為4。然后我們用Xi=CiWi從每個子空間上采樣30個點,然后構(gòu)建一個數(shù)據(jù)矩陣100*120的數(shù)據(jù)矩陣[X1;X2;X3;X4],其本征維度為16。
LRR和SSC分別是經(jīng)典的子空間分割算法;LS3C是PCA正則化構(gòu)造隱空間的SSC算法;
NLS3C利用核PCA正則化構(gòu)造隱空間的SSC;LSRC是魯棒性LRR算法;latLRR是核PCA正則化構(gòu)造隱空間的LRR;LSRSC是PCA正則化構(gòu)建隱空間的局部約束的LRR算法;L3CRSC是本文提出的算法。
由圖2中可以看出基于本文方法構(gòu)建的鄰接矩陣的對角塊結(jié)構(gòu)非常清晰,下面列出基于各自鄰接矩陣進(jìn)行譜聚類的識別率。
真實的故障軸承數(shù)據(jù)識別效果
在本次實驗中,我們安裝四個Rexnord ZA-2115雙列軸承,其轉(zhuǎn)速固定在2000rpm。軸承的徑向載荷為6000lbs,所有的軸承經(jīng)過潤滑,其流量和溫度受油循環(huán)系統(tǒng)的調(diào)控。從裝在油循環(huán)系統(tǒng)的反饋管的磁性螺栓中收集油的殘渣,以此作為軸承發(fā)生故障的證據(jù)。
我們利用傳感器實時監(jiān)控軸承的運行狀態(tài),傳感器數(shù)據(jù)反映了軸承的振動信息,一般軸承的故障分為內(nèi)圈故障、外圈故障、轉(zhuǎn)子故障等,這些故障往往是由于軸承表面的裂紋,或者轉(zhuǎn)子不對中導(dǎo)致 轉(zhuǎn)角的偏差所致,表現(xiàn)在振動的時域譜上為一系列小的沖擊脈沖,因此,這些脈沖信號可以作為辨別故障類型的重要特征。
圖3反映了軸承的不同狀態(tài)的時域振動圖:(a)外圈故障;(b)內(nèi)圈故障;(c)轉(zhuǎn)子故障;(d)正常狀態(tài)
由圖4中可以看出基于本文方法L3CRSC得到的鄰接矩陣與譜聚 類(spectrum clustering,SC)相結(jié)合的方法可以有效的將不同類型的故障數(shù)據(jù)有效的分離開,而不產(chǎn)生混疊。原始的譜聚類算法將所有的故障信號相互混疊在一起,基于LRR和SSC與譜聚類相結(jié)合的算法,能有效的將某一類故障有效的分離出(如外圈故障),NLS3C與譜聚類的效果則更加明顯。
本發(fā)明的有益效果為:新的魯棒性方法去學(xué)習(xí)低秩表示系數(shù),不同于傳統(tǒng)的LRR算法,我們利用分解的思想從原始信號出提取出干凈的數(shù)據(jù)作為字典,得到最優(yōu)的低秩表示系數(shù)。然后我們提出了局部約束的隱空間LRR算法,通過保持原始高維數(shù)據(jù)的局部幾何特性,將原始數(shù)據(jù)投影到低維隱空間中,并在該隱空間中更新字典和低秩系數(shù)。通過對人工數(shù)據(jù)集和真實軸承故障數(shù)據(jù)的辨識實驗,本文的算法取得了最優(yōu)的辨識效果,為進(jìn)一步的故障診斷提供了保障。
以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何不經(jīng)過創(chuàng)造性勞動想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。