国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于增強(qiáng)CRF層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法與流程

      文檔序號(hào):40382892發(fā)布日期:2024-12-20 12:05閱讀:4來(lái)源:國(guó)知局
      一種基于增強(qiáng)CRF層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法與流程

      本發(fā)明涉及文本語(yǔ)義分析領(lǐng)域,尤其涉及一種基于增強(qiáng)crf層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法。


      背景技術(shù):

      1、bert是一種預(yù)訓(xùn)練語(yǔ)言模型,通過(guò)在大量文本數(shù)據(jù)上的無(wú)監(jiān)督學(xué)習(xí),能夠捕捉豐富的語(yǔ)言特征和上下文信息。條件隨機(jī)場(chǎng)(crf)是一種統(tǒng)計(jì)模型,用于序列數(shù)據(jù)的標(biāo)注任務(wù),能夠考慮標(biāo)簽之間的依賴關(guān)系,提高序列標(biāo)注的準(zhǔn)確性;bert-crf模型結(jié)合了bert的上下文表示能力和條件隨機(jī)場(chǎng)(crf)的序列標(biāo)注能力,廣泛應(yīng)用于中文命名實(shí)體識(shí)別任務(wù),但是,現(xiàn)有技術(shù)中,由于bert-crf模型未進(jìn)行有效的捕捉標(biāo)簽序列間的復(fù)雜依賴關(guān)系的訓(xùn)練,使得模型在語(yǔ)義要素識(shí)別任務(wù)上的適應(yīng)性和泛化能力的表現(xiàn)不盡人意。

      2、中國(guó)專利公開(kāi)號(hào)cn110083831a公布了一種基于bert-bigru-crf的中文命名實(shí)體識(shí)別方法,方法包括三個(gè)階段,第一階段預(yù)處理海量文本語(yǔ)料,預(yù)訓(xùn)練bert語(yǔ)言模型;第二階段預(yù)處理命名實(shí)體識(shí)別語(yǔ)料,利用訓(xùn)練好的bert語(yǔ)言模型對(duì)命名實(shí)體識(shí)別語(yǔ)料進(jìn)行編碼;第三階段將編碼后的語(yǔ)料輸入bigru+crf模型中進(jìn)行訓(xùn)練,利用訓(xùn)練好的模型對(duì)待識(shí)別語(yǔ)句進(jìn)行命名實(shí)體識(shí)別。由此可見(jiàn),上述技術(shù)方案存在以下問(wèn)題:模型未進(jìn)行有效的捕捉標(biāo)簽序列間的復(fù)雜依賴關(guān)系的訓(xùn)練,使得模型在語(yǔ)義要素識(shí)別任務(wù)上的適應(yīng)性和泛化能力的表現(xiàn)差。


      技術(shù)實(shí)現(xiàn)思路

      1、為此,本發(fā)明提供一種基于增強(qiáng)crf層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法,用以克服現(xiàn)有技術(shù)中模型在語(yǔ)義要素識(shí)別任務(wù)上的適應(yīng)性和泛化能力的表現(xiàn)差的問(wèn)題。

      2、為實(shí)現(xiàn)上述目的,本發(fā)明提供一種基于增強(qiáng)crf層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法,包括:

      3、步驟s1,針對(duì)樣本庫(kù)進(jìn)行樣本篩選分析以獲取若干訓(xùn)練樣本;

      4、步驟s2,針對(duì)單個(gè)訓(xùn)練樣本,根據(jù)預(yù)設(shè)策略函數(shù)對(duì)訓(xùn)練樣本進(jìn)行語(yǔ)義要素提取以獲得標(biāo)簽序列;

      5、步驟s3,計(jì)算標(biāo)簽序列對(duì)應(yīng)的累計(jì)折扣獎(jiǎng)勵(lì);

      6、步驟s4,采用預(yù)設(shè)目標(biāo)函數(shù)獲取標(biāo)簽序列對(duì)應(yīng)的概率獎(jiǎng)勵(lì)期望值,采用預(yù)設(shè)梯度公式進(jìn)行梯度計(jì)算,并且針對(duì)模型參數(shù)進(jìn)行參數(shù)更新;

      7、步驟s5,根據(jù)預(yù)設(shè)探索策略確定是否重新選擇標(biāo)簽;

      8、步驟s6,重復(fù)步驟s2至s5,且在預(yù)設(shè)停止條件下,停止模型訓(xùn)練學(xué)習(xí)。

      9、進(jìn)一步地,所述預(yù)設(shè)策略函數(shù)為π(a|s;θ),其中,s為給定狀態(tài),a為選擇下一個(gè)標(biāo)簽的概率,θ為模型參數(shù)。

      10、進(jìn)一步地,累計(jì)折扣獎(jiǎng)勵(lì)為r,r的計(jì)算公式為:

      11、,

      12、其中,n為當(dāng)前時(shí)間步數(shù),為折扣因子,0<<1,為第t個(gè)時(shí)間步對(duì)應(yīng)的即時(shí)獎(jiǎng)勵(lì),t≤n。

      13、進(jìn)一步地,所述預(yù)設(shè)目標(biāo)函數(shù)為:

      14、。

      15、進(jìn)一步地,所述預(yù)設(shè)梯度公式為:

      16、;

      17、其中,b為基準(zhǔn)函數(shù)。

      18、進(jìn)一步地,所述預(yù)設(shè)探索策略包括:

      19、檢測(cè)當(dāng)前執(zhí)行概率ε;

      20、若執(zhí)行概率ε小于預(yù)設(shè)執(zhí)行概率,則隨機(jī)選擇重新選擇未使用標(biāo)簽;

      21、若執(zhí)行概率ε大于或等于預(yù)設(shè)執(zhí)行概率,則選擇當(dāng)前標(biāo)簽記為最佳標(biāo)簽;

      22、其中,執(zhí)行概率ε的計(jì)算公式為:

      23、;

      24、其中,m為迭代次數(shù),λ為衰減率,?min為最小探索概率,?max為最大探索概率。

      25、進(jìn)一步地,預(yù)設(shè)調(diào)整條件下,針對(duì)模型動(dòng)作均勻狀態(tài)進(jìn)行檢測(cè),并且當(dāng)模型動(dòng)作均勻狀態(tài)處于預(yù)設(shè)模型動(dòng)作均勻狀態(tài)時(shí),針對(duì)預(yù)設(shè)目標(biāo)函數(shù)進(jìn)行轉(zhuǎn)換;

      26、轉(zhuǎn)換后的預(yù)設(shè)目標(biāo)函數(shù)為:

      27、;

      28、其中,,α為正則化系數(shù),。

      29、進(jìn)一步地,所述正則化系數(shù)的取值根據(jù)獎(jiǎng)勵(lì)參數(shù)值進(jìn)行確定;

      30、所述正則化系數(shù)與損失波動(dòng)值為負(fù)相關(guān)關(guān)系。

      31、進(jìn)一步地,所述樣本篩選分析包括:

      32、隨機(jī)選擇預(yù)設(shè)數(shù)量的待選擇樣本;

      33、針對(duì)樣本特征豐富度進(jìn)行檢測(cè);

      34、若樣本特征豐富度處于第一預(yù)設(shè)樣本特征豐富度范圍,則針對(duì)訓(xùn)練樣本的數(shù)量進(jìn)行增大調(diào)節(jié);

      35、若樣本特征豐富度處于第二預(yù)設(shè)樣本特征豐富度范圍,則判定訓(xùn)練樣本滿足訓(xùn)練需求。

      36、進(jìn)一步地,所述樣本特征豐富度根據(jù)各待選擇樣本的特殊領(lǐng)域文本分割參考值以及特殊領(lǐng)域文本字符數(shù)量進(jìn)行確定。

      37、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于,本發(fā)明技術(shù)方案中通過(guò)增強(qiáng)的crf層優(yōu)化策略能夠有效地捕捉標(biāo)簽序列間的復(fù)雜依賴關(guān)系,提高模型在語(yǔ)義要素識(shí)別任務(wù)上的表現(xiàn),不僅提升了模型的學(xué)習(xí)能力,還增強(qiáng)了最終學(xué)習(xí)得到的模型適應(yīng)性和泛化能力,通過(guò)訓(xùn)練來(lái)優(yōu)化和微調(diào)模型參數(shù),實(shí)現(xiàn)了模型對(duì)特殊領(lǐng)域文本語(yǔ)義要素的識(shí)別效果的提高,顯著提高了特殊領(lǐng)域文本語(yǔ)義要素識(shí)別的準(zhǔn)確性和魯棒性,尤其提高了針對(duì)長(zhǎng)篇幅或多模態(tài)內(nèi)容的處理能力。

      38、進(jìn)一步地,本發(fā)明中折扣因子對(duì)應(yīng)應(yīng)用有調(diào)節(jié)方式,可以根據(jù)訓(xùn)練樣本依賴參考值針對(duì)折扣因子進(jìn)行調(diào)節(jié),從而使得折扣因子的取值,更加符合實(shí)際工作場(chǎng)景,降低短時(shí)決策的識(shí)別誤差,進(jìn)而提高本發(fā)明模型訓(xùn)練精度。

      39、進(jìn)一步地,本發(fā)明中預(yù)設(shè)目標(biāo)函數(shù)表示的是執(zhí)行動(dòng)作在狀態(tài)下的對(duì)數(shù)概率與獲得的累積獎(jiǎng)勵(lì)的乘積的期望值,這里的對(duì)數(shù)概率用于確保概率值的非負(fù)性,并且使得梯度計(jì)算更加穩(wěn)定,本發(fā)明能夠優(yōu)化策略參數(shù),以在長(zhǎng)期博弈訓(xùn)練中獲得最大的累積獎(jiǎng)勵(lì)。

      40、進(jìn)一步地,所述正則化系數(shù)的取值根據(jù)獎(jiǎng)勵(lì)參數(shù)值進(jìn)行確定;所述正則化系數(shù)與損失波動(dòng)值為負(fù)相關(guān)關(guān)系,正則化系數(shù)的取值更加符合實(shí)際場(chǎng)景,使得正則化系數(shù)的取值能夠滿足模型學(xué)習(xí)的需求。



      技術(shù)特征:

      1.一種基于增強(qiáng)crf層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法,其特征在于,包括:

      2.根據(jù)權(quán)利要求1所述的基于增強(qiáng)crf層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法,其特征在于,所述預(yù)設(shè)策略函數(shù)為π(a|s;θ),其中,s為給定狀態(tài),a為選擇下一個(gè)標(biāo)簽的概率,θ為模型參數(shù)。

      3.根據(jù)權(quán)利要求2所述的基于增強(qiáng)crf層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法,其特征在于,所述累計(jì)折扣獎(jiǎng)勵(lì)為r,r的計(jì)算公式為:

      4.根據(jù)權(quán)利要求3所述的基于增強(qiáng)crf層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法,其特征在于,所述預(yù)設(shè)目標(biāo)函數(shù)為:

      5.根據(jù)權(quán)利要求4所述的基于增強(qiáng)crf層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法,其特征在于,所述預(yù)設(shè)梯度公式為:

      6.根據(jù)權(quán)利要求5所述的基于增強(qiáng)crf層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法,其特征在于,所述預(yù)設(shè)探索策略包括:

      7.根據(jù)權(quán)利要求6所述的基于增強(qiáng)crf層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法,其特征在于,預(yù)設(shè)調(diào)整條件下,針對(duì)模型動(dòng)作均勻狀態(tài)進(jìn)行檢測(cè),并且當(dāng)模型動(dòng)作均勻狀態(tài)處于預(yù)設(shè)模型動(dòng)作均勻狀態(tài)時(shí),針對(duì)預(yù)設(shè)目標(biāo)函數(shù)進(jìn)行轉(zhuǎn)換;

      8.根據(jù)權(quán)利要求7所述的基于增強(qiáng)crf層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法,其特征在于,所述正則化系數(shù)的取值根據(jù)獎(jiǎng)勵(lì)參數(shù)值進(jìn)行確定;

      9.根據(jù)權(quán)利要求8所述的基于增強(qiáng)crf層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法,其特征在于,所述樣本篩選分析包括:

      10.根據(jù)權(quán)利要求9所述的基于增強(qiáng)crf層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法,其特征在于,所述樣本特征豐富度根據(jù)各待選擇樣本的特殊領(lǐng)域文本分割參考值以及特殊領(lǐng)域文本字符數(shù)量進(jìn)行確定。


      技術(shù)總結(jié)
      本發(fā)明涉及文本語(yǔ)義分析領(lǐng)域,尤其涉及一種基于增強(qiáng)CRF層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法,包括:針對(duì)樣本庫(kù)進(jìn)行樣本篩選分析以獲取若干訓(xùn)練樣本;針對(duì)單個(gè)訓(xùn)練樣本,根據(jù)預(yù)設(shè)策略函數(shù)對(duì)訓(xùn)練樣本進(jìn)行語(yǔ)義要素提取以獲得標(biāo)簽序列;計(jì)算標(biāo)簽序列對(duì)應(yīng)的累計(jì)折扣獎(jiǎng)勵(lì);采用預(yù)設(shè)目標(biāo)函數(shù)獲取標(biāo)簽序列對(duì)應(yīng)的概率獎(jiǎng)勵(lì)期望值,采用預(yù)設(shè)梯度公式進(jìn)行梯度計(jì)算,并且針對(duì)模型參數(shù)進(jìn)行參數(shù)更新;根據(jù)預(yù)設(shè)探索策略確定是否重新選擇標(biāo)簽;在預(yù)設(shè)停止條件下,停止模型訓(xùn)練學(xué)習(xí);本發(fā)明提高了模型有效地捕捉標(biāo)簽序列間的復(fù)雜依賴關(guān)系的能力,進(jìn)而提高模型在語(yǔ)義要素識(shí)別任務(wù)上的準(zhǔn)確性和魯棒性,以及提高了處理長(zhǎng)篇幅文本的能力。

      技術(shù)研發(fā)人員:楊阿華,樊昀,鄭瑾,王強(qiáng),王鐵兵,邱松
      受保護(hù)的技術(shù)使用者:中國(guó)人民解放軍63921部隊(duì)
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/19
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1