本發(fā)明屬于人工智能,具體涉及一種基于自然語言處理的核電廠相似設(shè)備智能匹配方法。
背景技術(shù):
1、在核電行業(yè),幾十年的運行過程中積累了大量的設(shè)備運行與維護(hù)數(shù)據(jù)。由于計算機科學(xué)的發(fā)展與計算能力的進(jìn)步,如何更有效地應(yīng)用這些數(shù)據(jù)并且以更具成本效益的方式確保電廠安全和維持高水平的能力成為了一個關(guān)鍵的問題。其中,預(yù)維策略的優(yōu)化是利用人工智能提升設(shè)備可靠性的重要方向,而相似設(shè)備的匹配則是其中的關(guān)鍵技術(shù)問題之一。
2、目前的核電廠相似設(shè)備匹配策略均為簡單地基于規(guī)則直接進(jìn)行篩選與查找,但由于數(shù)據(jù)規(guī)模較大、數(shù)據(jù)質(zhì)量不佳且不同電廠不同時期物料編碼規(guī)則不盡相同等諸多原因,相似設(shè)備匹配效果往往不能滿足需求,無法支撐預(yù)維策略優(yōu)化等后續(xù)重要相關(guān)任務(wù)與研究。
3、近年來,自然語言處理(nature?language?processing)作為人工智能發(fā)展的一個重要研究方向,已經(jīng)在多個應(yīng)用領(lǐng)域取得了優(yōu)秀的成績。將nlp技術(shù)用于核電廠設(shè)備表征的計算上,可以實現(xiàn)智能化的設(shè)備自動匹配,但由于已有的nlp模型缺乏核電行業(yè)專業(yè)詞典,直接應(yīng)用已有nlp模型存在匹配精度低的問題,且并沒有對實際應(yīng)用問題的針對性優(yōu)化,仍然無法滿足實際應(yīng)用的需求。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是提供一種基于自然語言處理的核電廠相似設(shè)備智能匹配方法,能夠解決利用nlp方法實現(xiàn)高精度的核電廠相似設(shè)備匹配的問題。
2、本發(fā)明的技術(shù)方案如下:一種基于自然語言處理的核電廠相似設(shè)備智能匹配方法,包括如下步驟:
3、步驟1:針對每臺核電設(shè)備收集相關(guān)信息;
4、步驟2:針對所有收集到的相關(guān)信息的文本進(jìn)行分段;
5、步驟3:構(gòu)建cbow模型;
6、步驟4:根據(jù)步驟2中構(gòu)建好的詞表與霍夫曼樹訓(xùn)練cbow模型;
7、步驟5:cbow模型訓(xùn)練完成后得到詞匯表示,將每個字段的表示求和平均后計算wmd,并根據(jù)σ值構(gòu)建圖拓?fù)浣Y(jié)構(gòu);
8、步驟6:對構(gòu)建好的圖拓?fù)浣Y(jié)構(gòu)進(jìn)行dropedge操作,得到對應(yīng)的增強圖結(jié)構(gòu);
9、步驟7:構(gòu)建gcl模型;
10、步驟8:將原圖和增強圖多批次輸入到構(gòu)建的gcl模型中,每一層使用gat計算節(jié)點表示,并將關(guān)鍵特征,包括設(shè)備編碼、設(shè)備名稱或者制造商名稱與學(xué)得的表示進(jìn)行復(fù)制拼接操作;
11、步驟9:根據(jù)輸出的圖表示計算對比損失,由同一個圖增強出來的圖結(jié)構(gòu)的表示相互靠近,不同的圖增強出來的圖結(jié)構(gòu)的表示相互遠(yuǎn)離,反向傳播更新模型參數(shù);
12、步驟10:根據(jù)模型學(xué)習(xí)到的設(shè)備嵌入,利用余弦相似度計算兩兩設(shè)備之間的相似程度,作為最終相似設(shè)備匹配的結(jié)果。
13、步驟1中所述的相關(guān)信息包括電廠、機組、系統(tǒng)、設(shè)備名稱、設(shè)備描述、制造商、設(shè)備編碼、設(shè)備類型、設(shè)備分級。
14、步驟2中所有收集到的相關(guān)信息,包括某設(shè)備的相關(guān)信息,所述的相關(guān)信息包含多個字段,將某設(shè)備的某字段下面的文本即構(gòu)成一段,對每一段文本進(jìn)行分詞,并統(tǒng)計詞頻、構(gòu)建詞表,根據(jù)詞表構(gòu)建霍夫曼樹。
15、步驟3中cbow模型包括輸入層,映射層和輸出層,輸入層輸入的內(nèi)容為前后詞的表示,經(jīng)過映射層映射后,輸出層的內(nèi)容為中心詞的概率分布,根據(jù)輸出的概率分布和實際中心詞的差為損失函數(shù),得到初始cbow模型結(jié)構(gòu)。
16、步驟4中cbow模型的詞向量表示采用one-hot方法,學(xué)習(xí)率初始設(shè)為0.025,前后詞個數(shù)也即窗口大小設(shè)為5,忽略最小詞頻設(shè)為1,通過損失函數(shù)計算反向傳播更新權(quán)重參數(shù),得到訓(xùn)練好的cbow模型。
17、6.如權(quán)利要求1所述的一種基于自然語言處理的核電廠相似設(shè)備智能匹配方法,其特征在于:步驟5中σ為算法中的超參數(shù),用于定義圖結(jié)構(gòu)的疏密程度,初始σ值設(shè)定為0.5。
18、步驟6中dropedge的α值設(shè)定為0.05。
19、步驟7中隨機采樣一批圖結(jié)構(gòu)及相應(yīng)的增強圖,構(gòu)建隱藏層,通過圖卷積計算最終輸出每個圖的表示,并構(gòu)建對比損失函數(shù)。
20、本發(fā)明的有益效果在于:本發(fā)明提出一種全新的eq2vec方法,是一種基于cbow算法學(xué)習(xí)核電設(shè)備詞匯數(shù)據(jù)、利用詞移距離wmd構(gòu)圖、引入圖注意力gat與關(guān)鍵特征拼接技術(shù)以創(chuàng)新圖對比學(xué)習(xí)方法gcl進(jìn)行智能相似設(shè)備匹配的技術(shù)方案,成本更低、速度更快、精度更高、魯棒性更強。cbow算法解決了核電設(shè)備專業(yè)詞匯向量化的問題,詞移距離(wmd)構(gòu)圖解決了核電設(shè)備多字段信息結(jié)構(gòu)化的問題,圖注意力神經(jīng)網(wǎng)絡(luò)(gat)和特征拼接解決了高效學(xué)習(xí)重要字段嵌入問題,圖數(shù)據(jù)增強和對比學(xué)習(xí)(gcl)解決了缺乏有效數(shù)據(jù)標(biāo)簽問題。最終eq2vec方法實現(xiàn)了性能更優(yōu)的相似設(shè)備匹配結(jié)果。
1.一種基于自然語言處理的核電廠相似設(shè)備智能匹配方法,其特征在于,包括如下步驟:
2.如權(quán)利要求1所述的一種基于自然語言處理的核電廠相似設(shè)備智能匹配方法,其特征在于:步驟1中所述的相關(guān)信息包括電廠、機組、系統(tǒng)、設(shè)備名稱、設(shè)備描述、制造商、設(shè)備編碼、設(shè)備類型、設(shè)備分級。
3.如權(quán)利要求1所述的一種基于自然語言處理的核電廠相似設(shè)備智能匹配方法,其特征在于:步驟2中所有收集到的相關(guān)信息,包括某設(shè)備的相關(guān)信息,所述的相關(guān)信息包含多個字段,將某設(shè)備的某字段下面的文本即構(gòu)成一段,對每一段文本進(jìn)行分詞,并統(tǒng)計詞頻、構(gòu)建詞表,根據(jù)詞表構(gòu)建霍夫曼樹。
4.如權(quán)利要求1所述的一種基于自然語言處理的核電廠相似設(shè)備智能匹配方法,其特征在于:步驟3中cbow模型包括輸入層,映射層和輸出層,輸入層輸入的內(nèi)容為前后詞的表示,經(jīng)過映射層映射后,輸出層的內(nèi)容為中心詞的概率分布,根據(jù)輸出的概率分布和實際中心詞的差為損失函數(shù),得到初始cbow模型結(jié)構(gòu)。
5.如權(quán)利要求1所述的一種基于自然語言處理的核電廠相似設(shè)備智能匹配方法,其特征在于:步驟4中cbow模型的詞向量表示采用one-hot方法,學(xué)習(xí)率初始設(shè)為0.025,前后詞個數(shù)也即窗口大小設(shè)為5,忽略最小詞頻設(shè)為1,通過損失函數(shù)計算反向傳播更新權(quán)重參數(shù),得到訓(xùn)練好的cbow模型。
6.如權(quán)利要求1所述的一種基于自然語言處理的核電廠相似設(shè)備智能匹配方法,其特征在于:步驟5中σ為算法中的超參數(shù),用于定義圖結(jié)構(gòu)的疏密程度,初始σ值設(shè)定為0.5。
7.如權(quán)利要求1所述的一種基于自然語言處理的核電廠相似設(shè)備智能匹配方法,其特征在于:步驟6中dropedge的α值設(shè)定為0.05。
8.如權(quán)利要求1所述的一種基于自然語言處理的核電廠相似設(shè)備智能匹配方法,其特征在于:步驟7中隨機采樣一批圖結(jié)構(gòu)及相應(yīng)的增強圖,構(gòu)建隱藏層,通過圖卷積計算最終輸出每個圖的表示,并構(gòu)建對比損失函數(shù)。