本發(fā)明屬于圖結(jié)構(gòu)數(shù)據(jù)處理,尤其涉及一種多源異構(gòu)儀器儀表數(shù)據(jù)融合及異常檢測的方法和系統(tǒng)。
背景技術(shù):
1、隨著工業(yè)4.0和物聯(lián)網(wǎng)(iot)技術(shù)的快速發(fā)展,工業(yè)生產(chǎn)過程中使用的儀器儀表種類和數(shù)量急劇增加。這些儀器儀表通常來自不同的制造商,具有不同的通信協(xié)議和數(shù)據(jù)格式,形成了多源異構(gòu)數(shù)據(jù)。如何有效地融合這些多源異構(gòu)數(shù)據(jù),提取有價(jià)值的信息,成為當(dāng)前工業(yè)數(shù)據(jù)分析領(lǐng)域的一個(gè)重要挑戰(zhàn)。
2、傳統(tǒng)的數(shù)據(jù)異常檢測方法主要依賴于數(shù)據(jù)專家和業(yè)務(wù)專家等人力資源進(jìn)行排查。近年來,隨著數(shù)據(jù)科學(xué)的進(jìn)步和人工智能技術(shù)的發(fā)展,基于數(shù)據(jù)挖掘和智能優(yōu)化算法的異常檢測方法不斷涌現(xiàn)。wang等人采用了多種聚類算法,通過分析電表收集的平均損失、損耗變化效率等記錄,檢測電表非技術(shù)損失,并對各種聚類算法的檢測效果進(jìn)行了對比分析;buzau等人基于用電行為差異,使用結(jié)合長期和短期記憶網(wǎng)絡(luò)(lstm)以及多層感知器(mlp)的混合深度神經(jīng)網(wǎng)絡(luò)進(jìn)行異常檢測,結(jié)果顯示其精度高于其他分類器;針對時(shí)序數(shù)據(jù)的關(guān)聯(lián)性,chahla等人同樣提出了一種基于長短期記憶網(wǎng)絡(luò)(lstm)的異常檢測方法,用于從時(shí)間序列數(shù)據(jù)中進(jìn)行異常搜索,并通過觀測數(shù)據(jù)的預(yù)測誤差和統(tǒng)計(jì)策略來進(jìn)行異常檢測。
3、通過上述分析,現(xiàn)有技術(shù)存在的問題及缺陷為:隨著各專業(yè)領(lǐng)域的數(shù)據(jù)化建設(shè)規(guī)模不斷擴(kuò)大,傳統(tǒng)方法在處理海量、實(shí)時(shí)、異構(gòu)的儀器儀表數(shù)據(jù)異常檢測方面效果比較低。主要包括:(1)預(yù)處理復(fù)雜,不同儀器儀表的數(shù)據(jù)格式和通信協(xié)議各異,數(shù)據(jù)預(yù)處理過程復(fù)雜且耗時(shí);(2)特征工程依賴專家知識,難以自動(dòng)化實(shí)現(xiàn)批處理操作,且容易遺漏重要特征,可擴(kuò)展性差;(3)數(shù)據(jù)融合效果有限,傳統(tǒng)方法難以充分利用多源數(shù)據(jù)之間的關(guān)聯(lián)信息。
4、而現(xiàn)有的智能優(yōu)化異常檢測算法雖然取得了不錯(cuò)的檢測效果,但是可能會忽略掉特定維度的某些重要信息,缺乏在異構(gòu)數(shù)據(jù)環(huán)境下高效管理儀器儀表拓?fù)潢P(guān)系的手段,無法實(shí)現(xiàn)復(fù)雜邏輯數(shù)據(jù)管理的智能化以及儀器儀表數(shù)據(jù)脈絡(luò)關(guān)系的可視化和清晰化。
技術(shù)實(shí)現(xiàn)思路
1、為克服相關(guān)技術(shù)中存在的問題,本發(fā)明公開實(shí)施例提供了一種多源異構(gòu)儀器儀表數(shù)據(jù)融合及異常檢測的方法和系統(tǒng),具體涉及一種基于圖神經(jīng)網(wǎng)絡(luò)模型的多源異構(gòu)儀器儀表數(shù)據(jù)融合及異常檢測框架。
2、所述技術(shù)方案如下:多源異構(gòu)儀器儀表數(shù)據(jù)融合及異常檢測的方法,該方法包括:
3、s1,通過定義異構(gòu)儀器儀表數(shù)據(jù)網(wǎng)絡(luò)圖,將不同儀器儀表的數(shù)據(jù)表示為圖結(jié)構(gòu);
4、s2,儀表節(jié)點(diǎn)數(shù)據(jù)相似性學(xué)習(xí):利用圖卷積神經(jīng)網(wǎng)絡(luò),從鄰居節(jié)點(diǎn)中學(xué)習(xí)每個(gè)節(jié)點(diǎn)的低維嵌入向量,捕捉節(jié)點(diǎn)之間的隱含依賴關(guān)系,實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的深度融合;
5、s3,儀器儀表時(shí)間序列數(shù)據(jù)的表示學(xué)習(xí):采用transformer模型對儀器儀表時(shí)間序列數(shù)據(jù)進(jìn)行表示學(xué)習(xí),通過對歷史數(shù)據(jù)的上下文信息進(jìn)行學(xué)習(xí),利用多頭注意力機(jī)制捕捉時(shí)間序列數(shù)據(jù)中的重要特征,并結(jié)合圖注意力網(wǎng)絡(luò)的輸出,完成對儀器儀表數(shù)據(jù)的全局信息和歷史信息的融合表示;
6、s4,異常檢測:通過將圖注意力網(wǎng)絡(luò)的輸出向量經(jīng)過變換計(jì)算異常檢測的概率,并采用交叉熵?fù)p失函數(shù)進(jìn)行圖卷積神經(jīng)網(wǎng)絡(luò)、transformer模型和圖注意力網(wǎng)絡(luò)模型的端到端訓(xùn)練。
7、在步驟s1中,定義異構(gòu)儀器儀表數(shù)據(jù)網(wǎng)絡(luò)圖,包括:
8、定義一個(gè)異構(gòu)儀器儀表數(shù)據(jù)網(wǎng)絡(luò),作為一個(gè)異構(gòu)儀器儀表數(shù)據(jù)網(wǎng)絡(luò)圖g=(v,e,a,x),其中,v∈rn表示圖g的儀表節(jié)點(diǎn)空間,r為實(shí)數(shù)域,n表示儀表節(jié)點(diǎn)數(shù)量;e表示圖g的邊;a∈rn*n為圖g的鄰接矩陣;對于兩個(gè)儀表節(jié)點(diǎn)vi,vj∈v,如果邊eij∈e,則aij=1,否則aij=0,aij為鄰接矩陣a第i行第j列的數(shù)值;x∈rn*m表示儀表節(jié)點(diǎn)的屬性信息,m是屬性信息的維度。
9、在步驟s2中,儀表節(jié)點(diǎn)數(shù)據(jù)相似性學(xué)習(xí),包括:
10、獲取異構(gòu)儀器儀表數(shù)據(jù)網(wǎng)絡(luò)圖后,采用圖卷積神經(jīng)網(wǎng)絡(luò)gcn通過卷積和聚合算子從鄰居儀器儀表節(jié)點(diǎn)上學(xué)習(xí)每個(gè)儀表節(jié)點(diǎn)的低維嵌入向量;
11、在第i-1層使用非負(fù)矩陣分解方法nnmf將圖卷積神經(jīng)網(wǎng)絡(luò)gcn網(wǎng)絡(luò)每一層輸出的hi分解為2個(gè)低維矩陣;其中,hi表示的是gcn第i層網(wǎng)絡(luò)的輸出,也是第i+1層的網(wǎng)絡(luò)輸入;
12、將每一層的低維向量進(jìn)行拼接,并通過單隱層感知機(jī)mlp映射到n維,并輸出。
13、進(jìn)一步,圖卷積神經(jīng)網(wǎng)絡(luò)gcn中,各層的卷積操作如下:
14、
15、其中,hi+1表示gcn第i+1層網(wǎng)絡(luò)的輸出,δ表示激活函數(shù),表示的對角偏置矩陣,表示對角矩陣第i行第j列的值;表示圖g鄰接矩陣與對角偏置矩陣之和,a表示圖g的鄰接矩陣,i表示的是對角偏置矩陣;wi表示第i層網(wǎng)絡(luò)的變換參數(shù)集合。
16、進(jìn)一步,在第i-1層使用非負(fù)矩陣分解方法nnmf將gcn網(wǎng)絡(luò)每一層輸出的hi分解為2個(gè)低維矩陣的表達(dá)式為:
17、hi=uivi,s.t.ui≥0,vi≥0
18、其中,ui∈rn*d,li表示第i層輸出維度,d是nnmf方法的輸出維度,ui表示hi更低維度的表示向量,vi表示hi矩陣分解的另一部分;
19、通過單隱層感知機(jī)mlp映射到m維,最終的輸出表示為:
20、hi′=mlp(‖u0‖‖u1‖…‖ui-1‖)
21、其中,‖·‖表示特征拼接,hi′表示gcn網(wǎng)絡(luò)最終的輸出向量,mlp()表示多層感知機(jī)模型,u0表示第0層經(jīng)過矩陣分解的低維表示向量,u1表示第1層經(jīng)過矩陣分解的低維表示向量,ui-1表示第i-1層經(jīng)過矩陣分解的低維表示向量。
22、在步驟s3中,儀器儀表時(shí)間序列數(shù)據(jù)的表示學(xué)習(xí)包括:
23、基于某個(gè)時(shí)間窗口的歷史數(shù)據(jù),利用transformer注意力模型對儀表數(shù)據(jù)進(jìn)行上下文信息學(xué)習(xí);計(jì)算過程如下:
24、q,k,v=embedding(x)
25、
26、headi=attention(qwiq,kwik,vwiv)
27、multihead(q,k,v)=concat(head1,…,headn)wo
28、其中,均為transformer模型參數(shù)向量;得到多頭注意力向量表示后再進(jìn)一步得到transformer的輸出τ:q表示transformer模型的query矩陣,k表示transformer模型的key矩陣,v表示transformer模型的value矩陣,embedding(x)表示儀器節(jié)點(diǎn)特征x的映射模型,attention()表示transformer模型的注意力計(jì)算操作,softmax()表示softmax數(shù)學(xué)計(jì)算操作,r表示矩陣轉(zhuǎn)置操作,dk表示transformer中k矩陣的維度,headi表示transformer模型第i個(gè)輸出頭,wi表示transformer模型第i層的w矩陣,multihead()表示transformer模型的多個(gè)輸出頭計(jì)算操作,concat()表示向量拼接操作,head1表示transformer模型的第1個(gè)輸出頭,headn表示transformer模型的第n個(gè)輸出頭,wo表示transformer模型輸出層的矩陣表示;
29、h1=ln(mutlihead(q,k,v)+x)
30、h2=ffn(h1)
31、τ=ln(h1+h2)
32、其中,ln(·)表示層歸一化方法,ffn(·)表示前饋神經(jīng)網(wǎng)絡(luò)層,h1,h2均為中間結(jié)果的數(shù)學(xué)代號,h1表示transformer中進(jìn)行層歸一化操作后的計(jì)算結(jié)果,h2表示經(jīng)過前饋神經(jīng)網(wǎng)絡(luò)計(jì)算后的輸出結(jié)果。
33、在步驟s3中,利用多頭注意力機(jī)制捕捉時(shí)間序列數(shù)據(jù)中的重要特征,并結(jié)合圖注意力網(wǎng)絡(luò)的輸出,完成對儀器儀表數(shù)據(jù)的全局信息和歷史信息的融合表示,包括:
34、對于步驟s2中得到的關(guān)系矩陣,每一行表示為每個(gè)儀表節(jié)點(diǎn)的特征向量:h={h1,…,hn};對每個(gè)節(jié)點(diǎn)的特征向量進(jìn)行線性變換,得到新的特征向量:
35、
36、其中,h表示所有n個(gè)特征向量的集合,表示第i個(gè)特征向量經(jīng)過線性變換得到的結(jié)果,表示這i個(gè)經(jīng)過變換后得到的新的特征向量的集合,w為線性變換矩陣;引入圖注意力網(wǎng)絡(luò)gat,基于節(jié)點(diǎn)i,j的特征向量和τ得到融合全局信息的表示輸出oi:
37、
38、其中,leakyrelu(·)表示一種激活函數(shù),表示gat計(jì)算過程中的注意力權(quán)重,k表示圖注意力網(wǎng)絡(luò)gat層數(shù),αij表示第o個(gè)節(jié)點(diǎn)和第j個(gè)節(jié)點(diǎn)之間的注意力權(quán)重,keakyrelu()表示深度學(xué)習(xí)領(lǐng)域一種廣為人知的激活函數(shù),exp()表示指數(shù)計(jì)算操作,表示除了i,j外的某一個(gè)節(jié)點(diǎn)的特征向量,σ表示神經(jīng)網(wǎng)絡(luò)中的非線性映射函數(shù),ni表示第i個(gè)節(jié)點(diǎn)的所有相鄰節(jié)點(diǎn),wk表示第k個(gè)節(jié)點(diǎn)的融合權(quán)重,τj表示第j個(gè)節(jié)點(diǎn)transformer的輸出。
39、在步驟s4中,異常檢測,包括:
40、將圖注意力網(wǎng)絡(luò)gat的輸出向量oi經(jīng)過線性變換(wyx+by)和softmax層輸出:
41、y=softmax(wyoi+by)
42、其中,y表示softmax的預(yù)測輸出,即該節(jié)點(diǎn)是否為異常的概率,softmax()表示數(shù)值計(jì)算中softmax計(jì)算操作,wy表示異常檢測模塊的線性模型權(quán)重,by表示線性模型偏置;
43、并采用交叉熵?fù)p失函數(shù)計(jì)算模型損失:
44、
45、其中,n表示樣本量,yi表示模型輸出的異常檢測概率,yi′表示真實(shí)情況,0為正常,1為異常。
46、本發(fā)明的另一目的在于提供一種多源異構(gòu)儀器儀表數(shù)據(jù)融合及異常檢測系統(tǒng),該系統(tǒng)實(shí)施所述的多源異構(gòu)儀器儀表數(shù)據(jù)融合及異常檢測的方法,該系統(tǒng)包括:
47、異構(gòu)儀器儀表數(shù)據(jù)網(wǎng)絡(luò)圖定義模塊,用于通過定義異構(gòu)儀器儀表數(shù)據(jù)網(wǎng)絡(luò)圖,將不同儀器儀表的數(shù)據(jù)表示為圖結(jié)構(gòu);
48、儀表節(jié)點(diǎn)數(shù)據(jù)相似性學(xué)習(xí)模塊,用于利用圖卷積神經(jīng)網(wǎng)絡(luò),從鄰居節(jié)點(diǎn)中學(xué)習(xí)每個(gè)節(jié)點(diǎn)的低維嵌入向量,捕捉節(jié)點(diǎn)之間的隱含依賴關(guān)系,實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的深度融合;
49、儀器儀表時(shí)間序列數(shù)據(jù)的表示學(xué)習(xí)模塊,用于采用transformer模型對儀器儀表時(shí)間序列數(shù)據(jù)進(jìn)行表示學(xué)習(xí),通過對歷史數(shù)據(jù)的上下文信息進(jìn)行學(xué)習(xí),利用多頭注意力機(jī)制捕捉時(shí)間序列數(shù)據(jù)中的重要特征,并結(jié)合圖注意力網(wǎng)絡(luò)的輸出,完成對儀器儀表數(shù)據(jù)的全局信息和歷史信息的融合表示;
50、異常檢測模塊,用于通過將圖注意力網(wǎng)絡(luò)的輸出向量經(jīng)過變換計(jì)算異常檢測的概率,并采用交叉熵?fù)p失函數(shù)進(jìn)行模型訓(xùn)練。
51、進(jìn)一步,所述多源異構(gòu)儀器儀表數(shù)據(jù)融合及異常檢測系統(tǒng)搭載在工業(yè)生產(chǎn)領(lǐng)域不同智能儀器儀表數(shù)據(jù)融合及異常檢測上應(yīng)用。
52、結(jié)合上述的所有技術(shù)方案,本發(fā)明所具備的有益效果為:本發(fā)明用于儀器儀表異常數(shù)據(jù)檢測,能夠有效地捕捉數(shù)據(jù)之間的復(fù)雜關(guān)系,具有較強(qiáng)的表達(dá)能力。本發(fā)明通過定義異構(gòu)儀器儀表數(shù)據(jù)網(wǎng)絡(luò)圖,將不同儀器儀表的數(shù)據(jù)表示為圖結(jié)構(gòu),并利用圖卷積神經(jīng)網(wǎng)絡(luò)技術(shù),從鄰居節(jié)點(diǎn)中學(xué)習(xí)每個(gè)節(jié)點(diǎn)的低維嵌入向量,捕捉節(jié)點(diǎn)之間的隱含依賴關(guān)系,實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的深度融合。
53、對于儀器儀表時(shí)間序列數(shù)據(jù)的表示學(xué)習(xí):本發(fā)明采用transformer模型對儀器儀表的時(shí)間序列數(shù)據(jù)進(jìn)行表示學(xué)習(xí)。通過對歷史數(shù)據(jù)的上下文信息進(jìn)行學(xué)習(xí),利用多頭注意力機(jī)制(multi-head?attention)捕捉時(shí)間序列數(shù)據(jù)中的重要特征,并結(jié)合圖神經(jīng)網(wǎng)絡(luò)的輸出,實(shí)現(xiàn)對儀器儀表數(shù)據(jù)的全局信息和歷史信息的融合表示。
54、本發(fā)明提供一種基于圖神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)融合的異常檢測方法:通過將圖注意力網(wǎng)絡(luò)的輸出向量經(jīng)過變換計(jì)算異常檢測的概率,并采用交叉熵?fù)p失函數(shù)進(jìn)行模型訓(xùn)練。該方法能夠自動(dòng)化地處理多源異構(gòu)數(shù)據(jù),減少對人工操作的依賴,提高異常檢測的準(zhǔn)確性和效率。