一種用于機(jī)械故障診斷知識(shí)圖譜構(gòu)造的實(shí)體抽取方法與流程

文檔序號(hào)：40392042發(fā)布日期：2024-12-20 12:15閱讀：4來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種用于機(jī)械故障診斷知識(shí)圖譜構(gòu)造的實(shí)體抽取方法與流程

本發(fā)明屬于機(jī)械故障診斷，特別涉及一種用于機(jī)械故障診斷知識(shí)圖譜構(gòu)造的實(shí)體抽取方法。

背景技術(shù)：

1、為實(shí)現(xiàn)對(duì)機(jī)械設(shè)備的狀態(tài)分析、故障預(yù)判、風(fēng)險(xiǎn)評(píng)估、維保優(yōu)化等安全運(yùn)行需求，往往需要收集設(shè)備的各方面信息，對(duì)其進(jìn)行整合、篩選，最終提取出其中的關(guān)鍵信息來(lái)對(duì)設(shè)備進(jìn)行分析。

2、知識(shí)圖譜是一種用圖模型來(lái)描述知識(shí)和建模世界萬(wàn)物之間的關(guān)聯(lián)關(guān)系的技術(shù)方法，知識(shí)圖譜的構(gòu)建涉及知識(shí)建模、實(shí)體抽取、關(guān)系抽取、知識(shí)融合、圖存儲(chǔ)、關(guān)系推理等多方面的技術(shù)，實(shí)體抽取是其中的一個(gè)關(guān)鍵技術(shù)，能否準(zhǔn)確提取需要的實(shí)體將直接影響后續(xù)知識(shí)建模時(shí)的數(shù)據(jù)質(zhì)量和數(shù)量。同時(shí)，知識(shí)圖譜的實(shí)體抽取過(guò)程實(shí)際上是一個(gè)將非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化的過(guò)程，通過(guò)傳統(tǒng)的算法來(lái)實(shí)現(xiàn)具有一定的難度。隨著transformer架構(gòu)的提出，越來(lái)越多基于其結(jié)構(gòu)的大模型在自然語(yǔ)言處理領(lǐng)域有了更好的效果，特別是在其基礎(chǔ)上設(shè)計(jì)了雙向結(jié)構(gòu)的bert模型，能夠在實(shí)體抽取領(lǐng)域有不錯(cuò)的性能提升。但是目前基于bert的方法仍存在一些問(wèn)題，?例如下述論文：david?s,?carrell,?robert?e,?schoen,daniel?a,?leffler,?et?al.?challenges?in?adapting?existing?clinical?naturallanguage?processing?systems?to?multiple,?diverse?health?care?settings.journal?of?the?american?medical?informatics?association?:?jamia.?2017，?以及，祁鵬年等.?基于深度學(xué)習(xí)的中文命名實(shí)體識(shí)別研究綜述.?小型微型計(jì)算機(jī)系統(tǒng).?2023;44(09):1857-68，是基于英文的提取，對(duì)于中文的命名實(shí)體識(shí)別需要對(duì)算法進(jìn)行改進(jìn)，面對(duì)比較寬泛和抽象的任務(wù)，在實(shí)際專(zhuān)業(yè)領(lǐng)域中應(yīng)用效果還有待提高。

3、同時(shí)，目前算法主要是以一些較為綜合的評(píng)價(jià)指標(biāo)作為標(biāo)準(zhǔn)，但在實(shí)際操作中不同的應(yīng)用場(chǎng)景往往有不同的需求，也需要從不同的角度對(duì)模型進(jìn)行評(píng)價(jià)和優(yōu)化。

技術(shù)實(shí)現(xiàn)思路

1、針對(duì)上述缺點(diǎn)，本發(fā)明提供了一種用于機(jī)械故障診斷知識(shí)圖譜構(gòu)造的實(shí)體抽取方法。

2、為解決上述問(wèn)題，本發(fā)明采用如下技術(shù)方案實(shí)現(xiàn)：

3、一種用于機(jī)械故障診斷知識(shí)圖譜構(gòu)造的實(shí)體抽取方法，包括如下步驟：

4、步驟s1：構(gòu)建機(jī)械故障診斷語(yǔ)料數(shù)據(jù)庫(kù)，并將其劃分為訓(xùn)練集和測(cè)試集；

5、步驟s2：構(gòu)建融合bert-bilstm-crf模型、數(shù)據(jù)增強(qiáng)模塊和對(duì)抗訓(xùn)練模塊的機(jī)械故障診斷知識(shí)圖譜命名實(shí)體識(shí)別模型ebbc-dam-patm，并對(duì)其進(jìn)行訓(xùn)練測(cè)試，得到訓(xùn)練后的ebbc-dam-patm模型；

6、步驟s3：利用訓(xùn)練好的ebbc-dam-patm模型進(jìn)行命名實(shí)體識(shí)別；

7、步驟s4：利用neo4j圖數(shù)據(jù)庫(kù)將提取得到的實(shí)體字構(gòu)建成知識(shí)圖譜。

8、進(jìn)一步優(yōu)化，所述步驟s1包括如下步驟：

9、步驟s1.1：抽取機(jī)械設(shè)備實(shí)際運(yùn)行過(guò)程中的運(yùn)行日志、維護(hù)記錄以及相關(guān)的操作手冊(cè)和教學(xué)書(shū)籍中的文本信息；

10、步驟s1.2：將抽取得到的文本信息進(jìn)行初步篩選，得到語(yǔ)料數(shù)據(jù)庫(kù)；

11、步驟s1.3：通過(guò)人工操作對(duì)語(yǔ)料數(shù)據(jù)庫(kù)中的每個(gè)文本信息打上標(biāo)簽，生成對(duì)應(yīng)的標(biāo)簽序列，標(biāo)簽序列中的每一個(gè)字母對(duì)應(yīng)文本序列中的一個(gè)字；

12、步驟s1.4：將打好標(biāo)簽序列的文本信息按照7：3劃分為訓(xùn)練集和測(cè)試集用。

13、進(jìn)一步優(yōu)化，所述步驟s2中，數(shù)據(jù)增強(qiáng)模塊對(duì)輸入的文本信息進(jìn)行如下處理：

14、步驟s2.1：?設(shè)置可調(diào)閾值 h，依據(jù)每個(gè)字在文本中的位置，計(jì)算其重要性分?jǐn)?shù)，比對(duì)和可調(diào)閾值 h，對(duì)的字進(jìn)行刪除操作，重要性分?jǐn)?shù)計(jì)算公式如下：

15、???????????????????(1)

16、其中，為當(dāng)前字在文本中的位置，為距離當(dāng)前字最近的實(shí)體字的位置，和為可調(diào)參數(shù)；tanh()為雙曲正切函數(shù)。

17、步驟s2.2：計(jì)算閾值，作為控制文本信息中數(shù)據(jù)增強(qiáng)策略的參數(shù)，具體公式如下：

18、????????????????（2）

19、其中，為所需提取的實(shí)體字種類(lèi)數(shù)，當(dāng)提取實(shí)體字種類(lèi)增加，提取任務(wù)的復(fù)雜度也會(huì)相應(yīng)提升，所需的數(shù)據(jù)量也更多。、、分別為系數(shù)。

20、步驟s2.3：根據(jù)文本信息中的數(shù)據(jù)行數(shù)和閾值計(jì)算概率，再依據(jù)概率對(duì)實(shí)體字進(jìn)行隨機(jī)替代，概率計(jì)算公式如下：

21、??????????????????（3）

22、其中，l為文本信息中的數(shù)據(jù)行數(shù)，為閾值。

23、步驟s2.4：將步驟s2.1處理后的文本信息和步驟s2.3處理后的文本信息相結(jié)合，通過(guò)以句為單位交替穿插生成最終增強(qiáng)后的文本數(shù)據(jù)。交替穿插具體為：經(jīng)過(guò)步驟s2.1處理后的文本信息中的第1句、經(jīng)過(guò)步驟s2.3處理后的文本信息中的第1句、經(jīng)步驟s2.1處理后的文本信息中的第2句、經(jīng)步驟s2.3處理后的文本信息中的中的第2句…，按著這種方式穿插結(jié)合。

24、進(jìn)一步優(yōu)化，所述步驟s2.3，基于概率將訓(xùn)練集中對(duì)應(yīng)的實(shí)體詞替換為隨機(jī)漢字，具體為：首先，基于之前的標(biāo)簽序列找到每句文本中對(duì)應(yīng)的實(shí)體字；其次，在(0,1)范圍內(nèi)生成一個(gè)隨機(jī)數(shù)，當(dāng)，則不對(duì)該字進(jìn)行操作，反之則用一個(gè)隨機(jī)漢字覆蓋它。

25、進(jìn)一步優(yōu)化，述步驟s2中，機(jī)械故障診斷知識(shí)圖譜命名實(shí)體識(shí)別模型ebbc-dam-patm是在bert-bilstm-crf模型基礎(chǔ)上增加了數(shù)據(jù)增強(qiáng)模塊和退化pgd對(duì)抗訓(xùn)練模塊；bert-bilstm-crf模型是由bert層、bilstm層和crf層串聯(lián)而成，對(duì)文本進(jìn)行如下處理：

26、bert是基于transformer?編碼器結(jié)構(gòu)的雙向語(yǔ)言網(wǎng)絡(luò)，先由bert的分詞器將文本序列轉(zhuǎn)化為對(duì)應(yīng)的id序列進(jìn)行輸入，再由模型將其轉(zhuǎn)化為[1,n,768]的詞向量序列，提取其中的語(yǔ)義信息，n為文本序列長(zhǎng)度。

27、bilstm層是一種通過(guò)將兩個(gè)方向相反的長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)合得到的一個(gè)可以同時(shí)捕捉序列中前向和后向信息的網(wǎng)絡(luò)。輸出一個(gè)[1,n,768]詞向量序列，進(jìn)一步提取上下文的關(guān)系信息，n為文本序列長(zhǎng)度。

28、crf層是一種常用于結(jié)構(gòu)化預(yù)測(cè)任務(wù)的概率網(wǎng)絡(luò)，根據(jù)輸入的詞向量序列計(jì)算每個(gè)字對(duì)應(yīng)為實(shí)體或非實(shí)體的條件概率，根據(jù)概率判斷句中每個(gè)字是否為實(shí)體詞，每句話(huà)形成對(duì)應(yīng)的標(biāo)簽序列作為輸出。

29、進(jìn)一步優(yōu)化，退化pgd對(duì)抗訓(xùn)練模塊在傳統(tǒng)pgd對(duì)抗訓(xùn)練的基礎(chǔ)上減少其迭代次數(shù)，大幅降低計(jì)算開(kāi)支，對(duì)抗訓(xùn)練的具體步驟為：

30、首先，在bert層的嵌入層輸出中加入一個(gè)擾動(dòng) r，嵌入層輸出和擾動(dòng) r都為[1,n,768]的矩陣，通過(guò)對(duì)應(yīng)元素相加得到結(jié)果；

31、其次，先在內(nèi)部循環(huán)中采用投影梯度下降算法對(duì)擾動(dòng) r會(huì)進(jìn)行次更新迭代，公式如下：

32、????????????????（4）

33、其中，表示投影算子，表示步長(zhǎng)，設(shè)置為0.4，表示梯度；表示第k次迭代時(shí)的最優(yōu)解，通過(guò)對(duì)其進(jìn)行一步迭代再將所得解投影到由表示的可行集上，產(chǎn)生第k+1個(gè)最優(yōu)解，實(shí)際更新擾動(dòng)時(shí)可行集為長(zhǎng)度為1的球形空間。

34、其中， t為當(dāng)前迭代輪次，r為總迭代輪次，表示向下取整，m為原始pgd對(duì)擾動(dòng)的迭代次數(shù)；

35、第一輪訓(xùn)練時(shí)會(huì)對(duì)擾動(dòng)進(jìn)行m次迭代，之后每輪訓(xùn)練對(duì)擾動(dòng)的迭代次數(shù)逐步衰減，直到最后一輪訓(xùn)練只對(duì)擾動(dòng)進(jìn)行一次迭代更新。

36、所述內(nèi)部循環(huán)擾動(dòng)r的更新過(guò)程如下：

37、1）、進(jìn)入內(nèi)部循環(huán)前會(huì)先備份模型的各層參數(shù)；

38、2）、進(jìn)入循環(huán)后，模型會(huì)進(jìn)行訓(xùn)練，更新模型參數(shù)；

39、3）、通過(guò)梯度反向傳播得到bert嵌入層的梯度，利用投影梯度下降法更新擾動(dòng)r；

40、4）、將2）、3）步循環(huán)次后跳出內(nèi)部循環(huán)，將模型參數(shù)還原到第一步中備份的狀態(tài)，只保留次更新后的擾動(dòng)r。

41、然后跳出循環(huán)將更新后的擾動(dòng)r加入bert嵌入層再進(jìn)行一次模型訓(xùn)練，更新模型參數(shù)并保留；以上一次訓(xùn)練完成后，擾動(dòng)r會(huì)重新進(jìn)入下一次訓(xùn)練，以此反復(fù)r次，最終實(shí)現(xiàn)對(duì)抗訓(xùn)練的效果。每一輪次訓(xùn)練中又會(huì)擾動(dòng)進(jìn)行多次迭代更新，這個(gè)更新次數(shù)隨訓(xùn)練輪次而衰減，直到最后一輪訓(xùn)練只對(duì)擾動(dòng)進(jìn)行單次更新迭代。

42、退化pgd對(duì)抗訓(xùn)練相較于原始pgd對(duì)抗訓(xùn)練其迭代更新次數(shù)更少，小于原始pgd對(duì)抗迭代更新次數(shù)的一半。具體原因如下：?原始pgd由于退化pgd對(duì)抗訓(xùn)練迭代更新次數(shù)如公式（5），可得退化pgd對(duì)抗訓(xùn)練的額外計(jì)算開(kāi)支小于原始pgd對(duì)抗訓(xùn)練的額外計(jì)算開(kāi)支的一半，具體如公式（6），m：

43、???????（6）

44、由于每一次迭代更新的計(jì)算開(kāi)支差別不大，且這里強(qiáng)調(diào)了額外計(jì)算開(kāi)支，所以本技術(shù)中所述的退化pgd對(duì)抗訓(xùn)練模塊，相較于原始的pgd對(duì)抗可以節(jié)省50%以上由對(duì)抗訓(xùn)練而產(chǎn)生的額外計(jì)算開(kāi)支。

45、進(jìn)一步優(yōu)化，所述步驟s4中，利用neo4j圖數(shù)據(jù)庫(kù)將提取得到的實(shí)體字構(gòu)建成知識(shí)圖譜，將提取到的實(shí)體字作為知識(shí)圖譜中的節(jié)點(diǎn)，并用相對(duì)應(yīng)的關(guān)系將節(jié)點(diǎn)連接起來(lái)，形成一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)，即知識(shí)圖譜。知識(shí)圖譜的網(wǎng)絡(luò)結(jié)構(gòu)使其能夠把與機(jī)械設(shè)備相關(guān)的信息，如：結(jié)構(gòu)關(guān)系、故障原因、故障現(xiàn)象、解決措施、位置信息等，全部以節(jié)點(diǎn)和關(guān)系的方式組合在一張圖中，并可以根據(jù)查詢(xún)語(yǔ)句快速找出具體的某個(gè)節(jié)點(diǎn)和與之相關(guān)的節(jié)點(diǎn)，幫助進(jìn)行機(jī)械故障的排查和診斷。

46、與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果是：

47、1、本發(fā)明所述的退化pgd對(duì)抗訓(xùn)練模塊相較于原始pgd對(duì)抗可以節(jié)省50%以上由對(duì)抗訓(xùn)練而產(chǎn)生的額外計(jì)算開(kāi)支，同時(shí)依舊能起到很好的效果。

48、2、本發(fā)明所述的數(shù)據(jù)增強(qiáng)模塊能夠依據(jù)數(shù)據(jù)量的多少自適應(yīng)地進(jìn)行數(shù)據(jù)增強(qiáng)，減輕樣本不平衡的問(wèn)題并緩解模型的過(guò)擬合。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：慶光蔚,周前飛,丁樹(shù)慶,馮月貴,胡建中,王會(huì)方,張軍,米涌,金嚴(yán),肖昀,陳嘉華,許飛云
技術(shù)所有人：南京市特種設(shè)備安全監(jiān)督檢驗(yàn)研究院
我是此專(zhuān)利的發(fā)明人

上一篇：一種膠囊濾棒多功能燈盒裝置的制作方法
上一篇：一種火焰原子分光光度計(jì)自動(dòng)進(jìn)樣器的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種用于機(jī)械故障診斷知識(shí)圖譜構(gòu)造的實(shí)體抽取方法與流程