国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法、訓(xùn)練方法、介質(zhì)和設(shè)備與流程

      文檔序號:40275876發(fā)布日期:2024-12-11 13:10閱讀:9來源:國知局
      電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法、訓(xùn)練方法、介質(zhì)和設(shè)備與流程

      本發(fā)明涉及,尤其是涉及一種電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法、訓(xùn)練方法、介質(zhì)和設(shè)備。


      背景技術(shù):

      1、隨著工業(yè)化與信息化的深度融合,以及智能化、物聯(lián)網(wǎng)、大數(shù)據(jù)等信息技術(shù)的飛速發(fā)展,電網(wǎng)領(lǐng)域的信息和數(shù)據(jù)呈指數(shù)級增長。在這一背景下,電網(wǎng)領(lǐng)域的關(guān)鍵詞抽取變得至關(guān)重要。關(guān)鍵詞抽取技術(shù)可以幫助從大量電網(wǎng)數(shù)據(jù)中提取關(guān)鍵信息,用于監(jiān)測、管理和優(yōu)化電網(wǎng)運(yùn)營,還能識別互聯(lián)網(wǎng)上的數(shù)據(jù)泄露和潛在威脅。

      2、然而,目前通用的關(guān)鍵詞抽取方法在面對電網(wǎng)領(lǐng)域的特定需求時,表現(xiàn)出效果不佳的缺陷,難以準(zhǔn)確抽取出電網(wǎng)領(lǐng)域特征并識別出專業(yè)詞匯。


      技術(shù)實現(xiàn)思路

      1、基于此,有必要提供電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法、訓(xùn)練方法、介質(zhì)和設(shè)備,以解決難以準(zhǔn)確抽取出電網(wǎng)領(lǐng)域特征并識別出專業(yè)詞匯的問題。

      2、一種電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型的訓(xùn)練方法,所述方法包括:

      3、獲取電網(wǎng)領(lǐng)域詞典,并基于所述電網(wǎng)領(lǐng)域詞典構(gòu)造電網(wǎng)領(lǐng)域偽數(shù)據(jù)集;

      4、將所述電網(wǎng)領(lǐng)域偽數(shù)據(jù)集輸入預(yù)訓(xùn)練語言模型進(jìn)行初步調(diào)整,獲取調(diào)整后的電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型;

      5、獲取電網(wǎng)領(lǐng)域內(nèi)的第一文本數(shù)據(jù)集,對所述第一文本數(shù)據(jù)集進(jìn)行預(yù)處理以得到目標(biāo)文本數(shù)據(jù)集;

      6、將所述目標(biāo)文本數(shù)據(jù)集輸入電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型進(jìn)行二次調(diào)整,獲取調(diào)整后的電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型。

      7、在其中一個實施例中,所述基于所述電網(wǎng)領(lǐng)域詞典構(gòu)造電網(wǎng)領(lǐng)域偽數(shù)據(jù)集,包括:

      8、隨機(jī)抽取所述電網(wǎng)領(lǐng)域詞典中的預(yù)設(shè)k個電網(wǎng)領(lǐng)域術(shù)語構(gòu)造偽句子級文本;

      9、標(biāo)注所述偽句子級文本中的所有電網(wǎng)領(lǐng)域關(guān)鍵詞,將所述電網(wǎng)領(lǐng)域關(guān)鍵詞的首字符以第一字符的形式表示,將所述電網(wǎng)領(lǐng)域關(guān)鍵詞的非首字符以第二字符的形式表示,以得到所述電網(wǎng)領(lǐng)域偽數(shù)據(jù)集。

      10、在其中一個實施例中,所述將所述電網(wǎng)領(lǐng)域偽數(shù)據(jù)集輸入預(yù)訓(xùn)練語言模型進(jìn)行初步調(diào)整,獲取調(diào)整后的電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型,包括:

      11、將所述電網(wǎng)領(lǐng)域偽數(shù)據(jù)集輸入預(yù)訓(xùn)練語言模型的隱藏層進(jìn)行特征提取,以得到第一文本特征;

      12、使用線性函數(shù)將所述第一文本特征映射到標(biāo)簽域中,以得到第一文本標(biāo)簽預(yù)測值;其中,標(biāo)簽域由k個電網(wǎng)領(lǐng)域術(shù)語構(gòu)成;

      13、將所述第一文本標(biāo)簽預(yù)測值輸入預(yù)訓(xùn)練語言模型的條件隨機(jī)場層,以對文本標(biāo)簽預(yù)測值中的標(biāo)簽轉(zhuǎn)移概率進(jìn)行建模且基于標(biāo)簽轉(zhuǎn)移概率計算標(biāo)簽評分,并基于評分最大原則輸出標(biāo)簽序列;

      14、采用交叉熵?fù)p失函數(shù)基于輸出的標(biāo)簽序列與對應(yīng)真實標(biāo)簽之間的差距,進(jìn)行梯度計算并更新模型,獲取調(diào)整后的電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型。

      15、在其中一個實施例中,所述對所述第一文本數(shù)據(jù)集進(jìn)行預(yù)處理以得到目標(biāo)文本數(shù)據(jù)集,包括:

      16、去除所述第一文本數(shù)據(jù)集中的噪音,并以預(yù)設(shè)的文本長度進(jìn)行切分,以得到第二文本數(shù)據(jù)集;

      17、標(biāo)注所述第二文本數(shù)據(jù)集中的所有電網(wǎng)領(lǐng)域關(guān)鍵詞,將所述電網(wǎng)領(lǐng)域關(guān)鍵詞的首字符以第四字符的形式表示,將所述電網(wǎng)領(lǐng)域關(guān)鍵詞的非首字符以第五字符的形式表示,將所述第二文本數(shù)據(jù)集中除所述電網(wǎng)領(lǐng)域關(guān)鍵詞外的字符用以第六字符的形式表示,以得到目標(biāo)文本數(shù)據(jù)集。

      18、在其中一個實施例中,所述將所述目標(biāo)文本數(shù)據(jù)集輸入電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型進(jìn)行二次調(diào)整,獲取調(diào)整后的電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型,包括:

      19、將所述目標(biāo)文本數(shù)據(jù)集輸入電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型的隱藏層進(jìn)行特征提取,以得到第二文本特征;

      20、將所述第二文本特征輸入電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型的雙向長短記憶網(wǎng)絡(luò)提取全局特征,且輸入電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型的卷積神經(jīng)網(wǎng)絡(luò)提取局部特征,且融合所述全局特征集局部特征,以得到融合特征;

      21、使用線性函數(shù)將所述融合特征映射到標(biāo)簽域中,以得到第二文本標(biāo)簽預(yù)測值;

      22、將所述第二文本標(biāo)簽預(yù)測值輸入預(yù)訓(xùn)練語言模型的條件隨機(jī)場層,以對文本標(biāo)簽預(yù)測值中的標(biāo)簽轉(zhuǎn)移概率進(jìn)行建模且基于標(biāo)簽轉(zhuǎn)移概率計算標(biāo)簽評分,并基于評分最大原則輸出預(yù)測標(biāo)簽序列;

      23、采用交叉熵?fù)p失函數(shù)基于輸出的預(yù)測標(biāo)簽序列與對應(yīng)的真實標(biāo)簽之間的差距,進(jìn)行梯度計算并更新模型,獲取調(diào)整后的電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型。

      24、一種電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法,所述方法:

      25、獲取待抽取數(shù)據(jù)集,將所述待抽取數(shù)據(jù)集輸入電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型,獲取輸出的目標(biāo)標(biāo)簽序列;其中,所述電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型通過上述電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型的訓(xùn)練方法訓(xùn)練得到。

      26、基于所述目標(biāo)標(biāo)簽序列抽取所述待抽取數(shù)據(jù)集中的電網(wǎng)領(lǐng)域關(guān)鍵詞,以得到電網(wǎng)領(lǐng)域關(guān)鍵詞列表。

      27、一種計算機(jī)可讀存儲介質(zhì),存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時,使得所述處理器執(zhí)行電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法的步驟。

      28、一種終端設(shè)備,包括存儲器和處理器,所述存儲器存儲有計算機(jī)程序,所述計算機(jī)程序被所述處理器執(zhí)行時,使得所述處理器執(zhí)行電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法的步驟。

      29、本發(fā)明提供了電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法、訓(xùn)練方法、介質(zhì)和設(shè)備,在訓(xùn)練階段先獲取電網(wǎng)領(lǐng)域詞典并構(gòu)建電網(wǎng)領(lǐng)域偽數(shù)據(jù)集,再將偽數(shù)據(jù)集輸入預(yù)訓(xùn)練語言模型,進(jìn)行初步調(diào)整,獲得調(diào)整后的電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型。接著獲取電網(wǎng)領(lǐng)域的第一文本數(shù)據(jù)集,對其進(jìn)行預(yù)處理,得到目標(biāo)文本數(shù)據(jù)集,最后將目標(biāo)文本數(shù)據(jù)集輸入調(diào)整后的預(yù)訓(xùn)練模型,進(jìn)行二次調(diào)整,獲得最終的電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型。在應(yīng)用階段,將待抽取數(shù)據(jù)集輸入訓(xùn)練好的電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型,獲取目標(biāo)標(biāo)簽序列,并基于目標(biāo)標(biāo)簽序列從待抽取數(shù)據(jù)集中抽取電網(wǎng)領(lǐng)域關(guān)鍵詞,得到關(guān)鍵詞列表。本發(fā)明克服了通用關(guān)鍵詞抽取方法在電網(wǎng)領(lǐng)域應(yīng)用時效果不佳的問題,提供了一種高效、精準(zhǔn)的電網(wǎng)領(lǐng)域關(guān)鍵詞抽取解決方案。



      技術(shù)特征:

      1.一種電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型的訓(xùn)練方法,其特征在于,所述方法包括:

      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述電網(wǎng)領(lǐng)域詞典構(gòu)造電網(wǎng)領(lǐng)域偽數(shù)據(jù)集,包括:

      3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述將所述電網(wǎng)領(lǐng)域偽數(shù)據(jù)集輸入預(yù)訓(xùn)練語言模型進(jìn)行初步調(diào)整,獲取調(diào)整后的電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型,包括:

      4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述第一文本數(shù)據(jù)集進(jìn)行預(yù)處理以得到目標(biāo)文本數(shù)據(jù)集,包括:

      5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述目標(biāo)文本數(shù)據(jù)集輸入電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型進(jìn)行二次調(diào)整,獲取調(diào)整后的電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型,包括:

      6.一種電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法,其特征在于,所述方法:

      7.一種計算機(jī)可讀存儲介質(zhì),其特征在于,存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時,使得所述處理器執(zhí)行如權(quán)利要求1-6任一項所述方法的步驟。

      8.一種終端設(shè)備,其特征在于,包括存儲器和處理器,所述存儲器存儲有計算機(jī)程序,所述計算機(jī)程序被所述處理器執(zhí)行時,使得所述處理器執(zhí)行如權(quán)利要求1-6任一項所述方法的步驟。


      技術(shù)總結(jié)
      本發(fā)明公開了一種電網(wǎng)領(lǐng)域關(guān)鍵詞抽取方法、訓(xùn)練方法、介質(zhì)和設(shè)備,在訓(xùn)練階段先獲取電網(wǎng)領(lǐng)域詞典并構(gòu)建電網(wǎng)領(lǐng)域偽數(shù)據(jù)集,再將偽數(shù)據(jù)集輸入預(yù)訓(xùn)練語言模型,進(jìn)行初步調(diào)整,獲得調(diào)整后的電網(wǎng)領(lǐng)域預(yù)訓(xùn)練模型。接著獲取電網(wǎng)領(lǐng)域的第一文本數(shù)據(jù)集,對其進(jìn)行預(yù)處理,得到目標(biāo)文本數(shù)據(jù)集,最后將目標(biāo)文本數(shù)據(jù)集輸入調(diào)整后的預(yù)訓(xùn)練模型,進(jìn)行二次調(diào)整,獲得最終的電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型。在應(yīng)用階段,將待抽取數(shù)據(jù)集輸入訓(xùn)練好的電網(wǎng)領(lǐng)域關(guān)鍵詞抽取模型,獲取目標(biāo)標(biāo)簽序列,并基于目標(biāo)標(biāo)簽序列從待抽取數(shù)據(jù)集中抽取電網(wǎng)領(lǐng)域關(guān)鍵詞,得到關(guān)鍵詞列表。本發(fā)明提供了一種高效、精準(zhǔn)的電網(wǎng)領(lǐng)域關(guān)鍵詞抽取解決方案。

      技術(shù)研發(fā)人員:蘇蒙,朱華,黃翔,于虹,李杰
      受保護(hù)的技術(shù)使用者:云南電網(wǎng)有限責(zé)任公司電力科學(xué)研究院
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/10
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1