電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法、訓(xùn)練方法、介質(zhì)和設(shè)備與流程

文檔序號：40275876發(fā)布日期：2024-12-11 13:10閱讀：9來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法、訓(xùn)練方法、介質(zhì)和設(shè)備與流程

本發(fā)明涉及，尤其是涉及一種電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法、訓(xùn)練方法、介質(zhì)和設(shè)備。

背景技術(shù)：

1、隨著工業(yè)化與信息化的深度融合，以及智能化、物聯(lián)網(wǎng)、大數(shù)據(jù)等信息技術(shù)的飛速發(fā)展，電網(wǎng)領(lǐng)域的信息和數(shù)據(jù)呈指數(shù)級增長。在這一背景下，電網(wǎng)領(lǐng)域的關(guān)鍵詞抽取變得至關(guān)重要。關(guān)鍵詞抽取技術(shù)可以幫助從大量電網(wǎng)數(shù)據(jù)中提取關(guān)鍵信息，用于監(jiān)測、管理和優(yōu)化電網(wǎng)運(yùn)營，還能識別互聯(lián)網(wǎng)上的數(shù)據(jù)泄露和潛在威脅。

2、然而，目前通用的關(guān)鍵詞抽取方法在面對電網(wǎng)領(lǐng)域的特定需求時，表現(xiàn)出效果不佳的缺陷，難以準(zhǔn)確抽取出電網(wǎng)領(lǐng)域特征并識別出專業(yè)詞匯。

技術(shù)實現(xiàn)思路

1、基于此，有必要提供電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法、訓(xùn)練方法、介質(zhì)和設(shè)備，以解決難以準(zhǔn)確抽取出電網(wǎng)領(lǐng)域特征并識別出專業(yè)詞匯的問題。

2、一種電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型的訓(xùn)練方法，所述方法包括：

3、獲取電網(wǎng)領(lǐng)域詞典，并基于所述電網(wǎng)領(lǐng)域詞典構(gòu)造電網(wǎng)領(lǐng)域偽數(shù)據(jù)集；

4、將所述電網(wǎng)領(lǐng)域偽數(shù)據(jù)集輸入預(yù)訓(xùn)練語言模型進(jìn)行初步調(diào)整，獲取調(diào)整后的電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型；

5、獲取電網(wǎng)領(lǐng)域內(nèi)的第一文本數(shù)據(jù)集，對所述第一文本數(shù)據(jù)集進(jìn)行預(yù)處理以得到目標(biāo)文本數(shù)據(jù)集；

6、將所述目標(biāo)文本數(shù)據(jù)集輸入電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型進(jìn)行二次調(diào)整，獲取調(diào)整后的電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型。

7、在其中一個實施例中，所述基于所述電網(wǎng)領(lǐng)域詞典構(gòu)造電網(wǎng)領(lǐng)域偽數(shù)據(jù)集，包括：

8、隨機(jī)抽取所述電網(wǎng)領(lǐng)域詞典中的預(yù)設(shè)k個電網(wǎng)領(lǐng)域術(shù)語構(gòu)造偽句子級文本；

9、標(biāo)注所述偽句子級文本中的所有電網(wǎng)領(lǐng)域關(guān)鍵詞，將所述電網(wǎng)領(lǐng)域關(guān)鍵詞的首字符以第一字符的形式表示，將所述電網(wǎng)領(lǐng)域關(guān)鍵詞的非首字符以第二字符的形式表示，以得到所述電網(wǎng)領(lǐng)域偽數(shù)據(jù)集。

10、在其中一個實施例中，所述將所述電網(wǎng)領(lǐng)域偽數(shù)據(jù)集輸入預(yù)訓(xùn)練語言模型進(jìn)行初步調(diào)整，獲取調(diào)整后的電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型，包括：

11、將所述電網(wǎng)領(lǐng)域偽數(shù)據(jù)集輸入預(yù)訓(xùn)練語言模型的隱藏層進(jìn)行特征提取，以得到第一文本特征；

12、使用線性函數(shù)將所述第一文本特征映射到標(biāo)簽域中，以得到第一文本標(biāo)簽預(yù)測值；其中，標(biāo)簽域由k個電網(wǎng)領(lǐng)域術(shù)語構(gòu)成；

13、將所述第一文本標(biāo)簽預(yù)測值輸入預(yù)訓(xùn)練語言模型的條件隨機(jī)場層，以對文本標(biāo)簽預(yù)測值中的標(biāo)簽轉(zhuǎn)移概率進(jìn)行建模且基于標(biāo)簽轉(zhuǎn)移概率計算標(biāo)簽評分，并基于評分最大原則輸出標(biāo)簽序列；

14、采用交叉熵?fù)p失函數(shù)基于輸出的標(biāo)簽序列與對應(yīng)真實標(biāo)簽之間的差距，進(jìn)行梯度計算并更新模型，獲取調(diào)整后的電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型。

15、在其中一個實施例中，所述對所述第一文本數(shù)據(jù)集進(jìn)行預(yù)處理以得到目標(biāo)文本數(shù)據(jù)集，包括：

16、去除所述第一文本數(shù)據(jù)集中的噪音，并以預(yù)設(shè)的文本長度進(jìn)行切分，以得到第二文本數(shù)據(jù)集；

17、標(biāo)注所述第二文本數(shù)據(jù)集中的所有電網(wǎng)領(lǐng)域關(guān)鍵詞，將所述電網(wǎng)領(lǐng)域關(guān)鍵詞的首字符以第四字符的形式表示，將所述電網(wǎng)領(lǐng)域關(guān)鍵詞的非首字符以第五字符的形式表示，將所述第二文本數(shù)據(jù)集中除所述電網(wǎng)領(lǐng)域關(guān)鍵詞外的字符用以第六字符的形式表示，以得到目標(biāo)文本數(shù)據(jù)集。

18、在其中一個實施例中，所述將所述目標(biāo)文本數(shù)據(jù)集輸入電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型進(jìn)行二次調(diào)整，獲取調(diào)整后的電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型，包括：

19、將所述目標(biāo)文本數(shù)據(jù)集輸入電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型的隱藏層進(jìn)行特征提取，以得到第二文本特征；

20、將所述第二文本特征輸入電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型的雙向長短記憶網(wǎng)絡(luò)提取全局特征，且輸入電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型的卷積神經(jīng)網(wǎng)絡(luò)提取局部特征，且融合所述全局特征集局部特征，以得到融合特征；

21、使用線性函數(shù)將所述融合特征映射到標(biāo)簽域中，以得到第二文本標(biāo)簽預(yù)測值；

22、將所述第二文本標(biāo)簽預(yù)測值輸入預(yù)訓(xùn)練語言模型的條件隨機(jī)場層，以對文本標(biāo)簽預(yù)測值中的標(biāo)簽轉(zhuǎn)移概率進(jìn)行建模且基于標(biāo)簽轉(zhuǎn)移概率計算標(biāo)簽評分，并基于評分最大原則輸出預(yù)測標(biāo)簽序列；

23、采用交叉熵?fù)p失函數(shù)基于輸出的預(yù)測標(biāo)簽序列與對應(yīng)的真實標(biāo)簽之間的差距，進(jìn)行梯度計算并更新模型，獲取調(diào)整后的電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型。

24、一種電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法，所述方法：

25、獲取待抽取數(shù)據(jù)集，將所述待抽取數(shù)據(jù)集輸入電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型，獲取輸出的目標(biāo)標(biāo)簽序列；其中，所述電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型通過上述電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型的訓(xùn)練方法訓(xùn)練得到。

26、基于所述目標(biāo)標(biāo)簽序列抽取所述待抽取數(shù)據(jù)集中的電網(wǎng)領(lǐng)域關(guān)鍵詞，以得到電網(wǎng)領(lǐng)域關(guān)鍵詞列表。

27、一種計算機(jī)可讀存儲介質(zhì)，存儲有計算機(jī)程序，所述計算機(jī)程序被處理器執(zhí)行時，使得所述處理器執(zhí)行電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法的步驟。

28、一種終端設(shè)備，包括存儲器和處理器，所述存儲器存儲有計算機(jī)程序，所述計算機(jī)程序被所述處理器執(zhí)行時，使得所述處理器執(zhí)行電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法的步驟。

29、本發(fā)明提供了電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法、訓(xùn)練方法、介質(zhì)和設(shè)備，在訓(xùn)練階段先獲取電網(wǎng)領(lǐng)域詞典并構(gòu)建電網(wǎng)領(lǐng)域偽數(shù)據(jù)集，再將偽數(shù)據(jù)集輸入預(yù)訓(xùn)練語言模型，進(jìn)行初步調(diào)整，獲得調(diào)整后的電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型。接著獲取電網(wǎng)領(lǐng)域的第一文本數(shù)據(jù)集，對其進(jìn)行預(yù)處理，得到目標(biāo)文本數(shù)據(jù)集，最后將目標(biāo)文本數(shù)據(jù)集輸入調(diào)整后的預(yù)訓(xùn)練模型，進(jìn)行二次調(diào)整，獲得最終的電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型。在應(yīng)用階段，將待抽取數(shù)據(jù)集輸入訓(xùn)練好的電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型，獲取目標(biāo)標(biāo)簽序列，并基于目標(biāo)標(biāo)簽序列從待抽取數(shù)據(jù)集中抽取電網(wǎng)領(lǐng)域關(guān)鍵詞，得到關(guān)鍵詞列表。本發(fā)明克服了通用關(guān)鍵詞抽取方法在電網(wǎng)領(lǐng)域應(yīng)用時效果不佳的問題，提供了一種高效、精準(zhǔn)的電網(wǎng)領(lǐng)域關(guān)鍵詞抽取解決方案。

技術(shù)特征：

1.一種電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型的訓(xùn)練方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于所述電網(wǎng)領(lǐng)域詞典構(gòu)造電網(wǎng)領(lǐng)域偽數(shù)據(jù)集，包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述將所述電網(wǎng)領(lǐng)域偽數(shù)據(jù)集輸入預(yù)訓(xùn)練語言模型進(jìn)行初步調(diào)整，獲取調(diào)整后的電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型，包括：

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述對所述第一文本數(shù)據(jù)集進(jìn)行預(yù)處理以得到目標(biāo)文本數(shù)據(jù)集，包括：

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述將所述目標(biāo)文本數(shù)據(jù)集輸入電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型進(jìn)行二次調(diào)整，獲取調(diào)整后的電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型，包括：

6.一種電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法，其特征在于，所述方法：

7.一種計算機(jī)可讀存儲介質(zhì)，其特征在于，存儲有計算機(jī)程序，所述計算機(jī)程序被處理器執(zhí)行時，使得所述處理器執(zhí)行如權(quán)利要求1-6任一項所述方法的步驟。

8.一種終端設(shè)備，其特征在于，包括存儲器和處理器，所述存儲器存儲有計算機(jī)程序，所述計算機(jī)程序被所述處理器執(zhí)行時，使得所述處理器執(zhí)行如權(quán)利要求1-6任一項所述方法的步驟。

技術(shù)總結(jié)
本發(fā)明公開了一種電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法、訓(xùn)練方法、介質(zhì)和設(shè)備，在訓(xùn)練階段先獲取電網(wǎng)領(lǐng)域詞典并構(gòu)建電網(wǎng)領(lǐng)域偽數(shù)據(jù)集，再將偽數(shù)據(jù)集輸入預(yù)訓(xùn)練語言模型，進(jìn)行初步調(diào)整，獲得調(diào)整后的電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型。接著獲取電網(wǎng)領(lǐng)域的第一文本數(shù)據(jù)集，對其進(jìn)行預(yù)處理，得到目標(biāo)文本數(shù)據(jù)集，最后將目標(biāo)文本數(shù)據(jù)集輸入調(diào)整后的預(yù)訓(xùn)練模型，進(jìn)行二次調(diào)整，獲得最終的電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型。在應(yīng)用階段，將待抽取數(shù)據(jù)集輸入訓(xùn)練好的電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型，獲取目標(biāo)標(biāo)簽序列，并基于目標(biāo)標(biāo)簽序列從待抽取數(shù)據(jù)集中抽取電網(wǎng)領(lǐng)域關(guān)鍵詞，得到關(guān)鍵詞列表。本發(fā)明提供了一種高效、精準(zhǔn)的電網(wǎng)領(lǐng)域關(guān)鍵詞抽取解決方案。

技術(shù)研發(fā)人員：蘇蒙,朱華,黃翔,于虹,李杰
受保護(hù)的技術(shù)使用者：云南電網(wǎng)有限責(zé)任公司電力科學(xué)研究院
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/10

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蘇蒙,朱華,黃翔,于虹,李杰
技術(shù)所有人：云南電網(wǎng)有限責(zé)任公司電力科學(xué)研究院
我是此專利的發(fā)明人

上一篇：一種用于圍墻工程中的砌筑設(shè)備的制作方法
上一篇：一種鑄造件打磨設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法、訓(xùn)練方法、介質(zhì)和設(shè)備與流程

電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法、訓(xùn)練方法、介質(zhì)和設(shè)備與流程