本發(fā)明涉及,尤其是涉及一種電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法、訓(xùn)練方法、介質(zhì)和設(shè)備。
背景技術(shù):
1、隨著工業(yè)化與信息化的深度融合,以及智能化、物聯(lián)網(wǎng)、大數(shù)據(jù)等信息技術(shù)的飛速發(fā)展,電網(wǎng)領(lǐng)域的信息和數(shù)據(jù)呈指數(shù)級增長。在這一背景下,電網(wǎng)領(lǐng)域的關(guān)鍵詞抽取變得至關(guān)重要。關(guān)鍵詞抽取技術(shù)可以幫助從大量電網(wǎng)數(shù)據(jù)中提取關(guān)鍵信息,用于監(jiān)測、管理和優(yōu)化電網(wǎng)運(yùn)營,還能識別互聯(lián)網(wǎng)上的數(shù)據(jù)泄露和潛在威脅。
2、然而,目前通用的關(guān)鍵詞抽取方法在面對電網(wǎng)領(lǐng)域的特定需求時,表現(xiàn)出效果不佳的缺陷,難以準(zhǔn)確抽取出電網(wǎng)領(lǐng)域特征并識別出專業(yè)詞匯。
技術(shù)實現(xiàn)思路
1、基于此,有必要提供電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法、訓(xùn)練方法、介質(zhì)和設(shè)備,以解決難以準(zhǔn)確抽取出電網(wǎng)領(lǐng)域特征并識別出專業(yè)詞匯的問題。
2、一種電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型的訓(xùn)練方法,所述方法包括:
3、獲取電網(wǎng)領(lǐng)域詞典,并基于所述電網(wǎng)領(lǐng)域詞典構(gòu)造電網(wǎng)領(lǐng)域偽數(shù)據(jù)集;
4、將所述電網(wǎng)領(lǐng)域偽數(shù)據(jù)集輸入預(yù)訓(xùn)練語言模型進(jìn)行初步調(diào)整,獲取調(diào)整后的電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型;
5、獲取電網(wǎng)領(lǐng)域內(nèi)的第一文本數(shù)據(jù)集,對所述第一文本數(shù)據(jù)集進(jìn)行預(yù)處理以得到目標(biāo)文本數(shù)據(jù)集;
6、將所述目標(biāo)文本數(shù)據(jù)集輸入電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型進(jìn)行二次調(diào)整,獲取調(diào)整后的電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型。
7、在其中一個實施例中,所述基于所述電網(wǎng)領(lǐng)域詞典構(gòu)造電網(wǎng)領(lǐng)域偽數(shù)據(jù)集,包括:
8、隨機(jī)抽取所述電網(wǎng)領(lǐng)域詞典中的預(yù)設(shè)k個電網(wǎng)領(lǐng)域術(shù)語構(gòu)造偽句子級文本;
9、標(biāo)注所述偽句子級文本中的所有電網(wǎng)領(lǐng)域關(guān)鍵詞,將所述電網(wǎng)領(lǐng)域關(guān)鍵詞的首字符以第一字符的形式表示,將所述電網(wǎng)領(lǐng)域關(guān)鍵詞的非首字符以第二字符的形式表示,以得到所述電網(wǎng)領(lǐng)域偽數(shù)據(jù)集。
10、在其中一個實施例中,所述將所述電網(wǎng)領(lǐng)域偽數(shù)據(jù)集輸入預(yù)訓(xùn)練語言模型進(jìn)行初步調(diào)整,獲取調(diào)整后的電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型,包括:
11、將所述電網(wǎng)領(lǐng)域偽數(shù)據(jù)集輸入預(yù)訓(xùn)練語言模型的隱藏層進(jìn)行特征提取,以得到第一文本特征;
12、使用線性函數(shù)將所述第一文本特征映射到標(biāo)簽域中,以得到第一文本標(biāo)簽預(yù)測值;其中,標(biāo)簽域由k個電網(wǎng)領(lǐng)域術(shù)語構(gòu)成;
13、將所述第一文本標(biāo)簽預(yù)測值輸入預(yù)訓(xùn)練語言模型的條件隨機(jī)場層,以對文本標(biāo)簽預(yù)測值中的標(biāo)簽轉(zhuǎn)移概率進(jìn)行建模且基于標(biāo)簽轉(zhuǎn)移概率計算標(biāo)簽評分,并基于評分最大原則輸出標(biāo)簽序列;
14、采用交叉熵?fù)p失函數(shù)基于輸出的標(biāo)簽序列與對應(yīng)真實標(biāo)簽之間的差距,進(jìn)行梯度計算并更新模型,獲取調(diào)整后的電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型。
15、在其中一個實施例中,所述對所述第一文本數(shù)據(jù)集進(jìn)行預(yù)處理以得到目標(biāo)文本數(shù)據(jù)集,包括:
16、去除所述第一文本數(shù)據(jù)集中的噪音,并以預(yù)設(shè)的文本長度進(jìn)行切分,以得到第二文本數(shù)據(jù)集;
17、標(biāo)注所述第二文本數(shù)據(jù)集中的所有電網(wǎng)領(lǐng)域關(guān)鍵詞,將所述電網(wǎng)領(lǐng)域關(guān)鍵詞的首字符以第四字符的形式表示,將所述電網(wǎng)領(lǐng)域關(guān)鍵詞的非首字符以第五字符的形式表示,將所述第二文本數(shù)據(jù)集中除所述電網(wǎng)領(lǐng)域關(guān)鍵詞外的字符用以第六字符的形式表示,以得到目標(biāo)文本數(shù)據(jù)集。
18、在其中一個實施例中,所述將所述目標(biāo)文本數(shù)據(jù)集輸入電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型進(jìn)行二次調(diào)整,獲取調(diào)整后的電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型,包括:
19、將所述目標(biāo)文本數(shù)據(jù)集輸入電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型的隱藏層進(jìn)行特征提取,以得到第二文本特征;
20、將所述第二文本特征輸入電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型的雙向長短記憶網(wǎng)絡(luò)提取全局特征,且輸入電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型的卷積神經(jīng)網(wǎng)絡(luò)提取局部特征,且融合所述全局特征集局部特征,以得到融合特征;
21、使用線性函數(shù)將所述融合特征映射到標(biāo)簽域中,以得到第二文本標(biāo)簽預(yù)測值;
22、將所述第二文本標(biāo)簽預(yù)測值輸入預(yù)訓(xùn)練語言模型的條件隨機(jī)場層,以對文本標(biāo)簽預(yù)測值中的標(biāo)簽轉(zhuǎn)移概率進(jìn)行建模且基于標(biāo)簽轉(zhuǎn)移概率計算標(biāo)簽評分,并基于評分最大原則輸出預(yù)測標(biāo)簽序列;
23、采用交叉熵?fù)p失函數(shù)基于輸出的預(yù)測標(biāo)簽序列與對應(yīng)的真實標(biāo)簽之間的差距,進(jìn)行梯度計算并更新模型,獲取調(diào)整后的電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型。
24、一種電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法,所述方法:
25、獲取待抽取數(shù)據(jù)集,將所述待抽取數(shù)據(jù)集輸入電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型,獲取輸出的目標(biāo)標(biāo)簽序列;其中,所述電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型通過上述電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型的訓(xùn)練方法訓(xùn)練得到。
26、基于所述目標(biāo)標(biāo)簽序列抽取所述待抽取數(shù)據(jù)集中的電網(wǎng)領(lǐng)域關(guān)鍵詞,以得到電網(wǎng)領(lǐng)域關(guān)鍵詞列表。
27、一種計算機(jī)可讀存儲介質(zhì),存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時,使得所述處理器執(zhí)行電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法的步驟。
28、一種終端設(shè)備,包括存儲器和處理器,所述存儲器存儲有計算機(jī)程序,所述計算機(jī)程序被所述處理器執(zhí)行時,使得所述處理器執(zhí)行電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法的步驟。
29、本發(fā)明提供了電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法、訓(xùn)練方法、介質(zhì)和設(shè)備,在訓(xùn)練階段先獲取電網(wǎng)領(lǐng)域詞典并構(gòu)建電網(wǎng)領(lǐng)域偽數(shù)據(jù)集,再將偽數(shù)據(jù)集輸入預(yù)訓(xùn)練語言模型,進(jìn)行初步調(diào)整,獲得調(diào)整后的電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型。接著獲取電網(wǎng)領(lǐng)域的第一文本數(shù)據(jù)集,對其進(jìn)行預(yù)處理,得到目標(biāo)文本數(shù)據(jù)集,最后將目標(biāo)文本數(shù)據(jù)集輸入調(diào)整后的預(yù)訓(xùn)練模型,進(jìn)行二次調(diào)整,獲得最終的電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型。在應(yīng)用階段,將待抽取數(shù)據(jù)集輸入訓(xùn)練好的電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型,獲取目標(biāo)標(biāo)簽序列,并基于目標(biāo)標(biāo)簽序列從待抽取數(shù)據(jù)集中抽取電網(wǎng)領(lǐng)域關(guān)鍵詞,得到關(guān)鍵詞列表。本發(fā)明克服了通用關(guān)鍵詞抽取方法在電網(wǎng)領(lǐng)域應(yīng)用時效果不佳的問題,提供了一種高效、精準(zhǔn)的電網(wǎng)領(lǐng)域關(guān)鍵詞抽取解決方案。
1.一種電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型的訓(xùn)練方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述電網(wǎng)領(lǐng)域詞典構(gòu)造電網(wǎng)領(lǐng)域偽數(shù)據(jù)集,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述將所述電網(wǎng)領(lǐng)域偽數(shù)據(jù)集輸入預(yù)訓(xùn)練語言模型進(jìn)行初步調(diào)整,獲取調(diào)整后的電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述第一文本數(shù)據(jù)集進(jìn)行預(yù)處理以得到目標(biāo)文本數(shù)據(jù)集,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述目標(biāo)文本數(shù)據(jù)集輸入電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型進(jìn)行二次調(diào)整,獲取調(diào)整后的電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型,包括:
6.一種電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法,其特征在于,所述方法:
7.一種計算機(jī)可讀存儲介質(zhì),其特征在于,存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時,使得所述處理器執(zhí)行如權(quán)利要求1-6任一項所述方法的步驟。
8.一種終端設(shè)備,其特征在于,包括存儲器和處理器,所述存儲器存儲有計算機(jī)程序,所述計算機(jī)程序被所述處理器執(zhí)行時,使得所述處理器執(zhí)行如權(quán)利要求1-6任一項所述方法的步驟。