国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      文本處理方法、裝置、電子設(shè)備及存儲介質(zhì)與流程

      文檔序號:40402626發(fā)布日期:2024-12-20 12:26閱讀:4來源:國知局
      文本處理方法、裝置、電子設(shè)備及存儲介質(zhì)與流程

      本申請涉及文本處理領(lǐng)域,尤其涉及一種文本處理方法、裝置、電子設(shè)備及存儲介質(zhì)。


      背景技術(shù):

      1、nlp(natural?language?processing,自然語言處理)是計算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向,它研究能實現(xiàn)人與計算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。在將采用了nlp技術(shù)的機(jī)器學(xué)習(xí)模型投入特定領(lǐng)域的下游任務(wù)之前,往往需要獲取該特定領(lǐng)域中的訓(xùn)練數(shù)據(jù)以對模型進(jìn)行訓(xùn)練。訓(xùn)練數(shù)據(jù)的質(zhì)量越高,模型的訓(xùn)練效果越好。因此,在文本處理領(lǐng)域,如何提高訓(xùn)練數(shù)據(jù)的數(shù)據(jù)質(zhì)量成為研究的熱點問題。


      技術(shù)實現(xiàn)思路

      1、本申請實施例提供了一種文本處理方法、裝置、電子設(shè)備及存儲介質(zhì),可以在構(gòu)建訓(xùn)練數(shù)據(jù)時提高數(shù)據(jù)質(zhì)量。

      2、第一方面,本申請實施例提供了一種文本處理方法,包括:

      3、對待處理文本進(jìn)行信息抽取處理,得到所述待處理文本中目標(biāo)角色的語句元素;

      4、根據(jù)所述目標(biāo)角色的語句元素進(jìn)行聚類處理,得到所述待處理文本的聚類數(shù)據(jù);

      5、對所述聚類數(shù)據(jù)進(jìn)行評價處理,并根據(jù)評價結(jié)果從所述聚類數(shù)據(jù)中篩選得到用于進(jìn)行模型訓(xùn)練的訓(xùn)練數(shù)據(jù)。

      6、第二方面,本申請實施例提供了一種文本處理裝置,包括:

      7、抽取單元,用于對待處理文本進(jìn)行信息抽取處理,得到所述待處理文本中目標(biāo)角色的語句元素;

      8、聚類單元,用于根據(jù)所述目標(biāo)角色的語句元素進(jìn)行聚類處理,得到所述待處理文本的聚類數(shù)據(jù);

      9、篩選單元,對所述聚類數(shù)據(jù)進(jìn)行評價處理,并根據(jù)評價結(jié)果從所述聚類數(shù)據(jù)中篩選得到用于進(jìn)行模型訓(xùn)練的訓(xùn)練數(shù)據(jù)。

      10、第三方面,本申請實施例提供了一種電子設(shè)備,包括:處理器;以及,被配置為存儲計算機(jī)可執(zhí)行指令的存儲器,所述計算機(jī)可執(zhí)行指令在被執(zhí)行時使所述處理器執(zhí)行如第一方面所述的文本處理方法。

      11、第四方面,本申請實施例提供了一種計算機(jī)可讀存儲介質(zhì),用于存儲計算機(jī)可執(zhí)行指令,所述計算機(jī)可執(zhí)行指令在被處理器執(zhí)行時實現(xiàn)如第一方面所述的文本處理方法。

      12、第五方面,本申請實施例提供了一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如第一方面所述的文本處理方法。

      13、可以看出,在本申請實施例中,首先,對待處理文本進(jìn)行信息抽取處理,得到待處理文本中目標(biāo)角色的語句元素;然后,根據(jù)目標(biāo)角色的語句元素進(jìn)行聚類處理,得到待處理文本的聚類數(shù)據(jù);最后,對聚類數(shù)據(jù)進(jìn)行評價處理,并根據(jù)評價結(jié)果從聚類數(shù)據(jù)中篩選得到用于進(jìn)行模型訓(xùn)練的訓(xùn)練數(shù)據(jù)。通常,聚類指的是將相似度高的數(shù)據(jù)分為一組,在本申請實施例中,通過從待處理文本中抽取目標(biāo)角色的語句元素并聚類,可以使得聚類數(shù)據(jù)中因相似度高被分為一組的數(shù)據(jù)對應(yīng)同一目標(biāo)角色,與不考慮語句元素屬于哪個角色直接對待處理文本聚類相比,更有利于降低聚類時分組失誤的概率,提高聚類的準(zhǔn)確性,又訓(xùn)練數(shù)據(jù)是從聚類數(shù)據(jù)中篩選得到的,故提高聚類的準(zhǔn)確性有利于提高訓(xùn)練數(shù)據(jù)的質(zhì)量。



      技術(shù)特征:

      1.一種文本處理方法,其特征在于,包括:

      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對待處理文本進(jìn)行信息抽取處理,得到所述待處理文本中目標(biāo)角色的語句元素,包括:

      3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述文本處理模型包括語句元素抽取模型和角色識別模型;所述通過文本處理模型對所述待處理文本進(jìn)行信息抽取處理,得到所述待處理文本中屬于所述目標(biāo)角色的語句元素,包括:

      4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述待處理文本包括第一待處理文本和第二待處理文本;所述抽取結(jié)果包括第一待處理文本中語句元素的抽取結(jié)果和所述第二待處理文本中語句元素的抽取結(jié)果;所述將所述待處理文本輸入所述語句元素抽取模型進(jìn)行抽取處理,得到所述待處理文本中語句元素的抽取結(jié)果之后,所述方法還包括:

      5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述將所述待處理文本中語句元素的抽取結(jié)果輸入關(guān)系識別模型進(jìn)行關(guān)系識別,得到所述第一待處理文本和所述第二待處理文本之間的關(guān)系識別結(jié)果,包括:

      6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述聚類數(shù)據(jù)進(jìn)行評價處理,包括:

      7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述目標(biāo)角色的語句元素進(jìn)行聚類處理,得到所述待處理文本的聚類數(shù)據(jù),包括:

      8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述聚類數(shù)據(jù)包括待評價語句;所述對所述聚類數(shù)據(jù)進(jìn)行評價處理,包括:

      9.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述對所述聚類數(shù)據(jù)進(jìn)行文本增強(qiáng)處理,包括:

      10.一種文本處理裝置,其特征在于,包括:

      11.一種電子設(shè)備,其特征在于,包括:

      12.一種計算機(jī)可讀存儲介質(zhì),其特征在于,所述計算機(jī)可讀存儲介質(zhì)用于存儲計算機(jī)可執(zhí)行指令,所述計算機(jī)可執(zhí)行指令在被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至9中任一項所述的文本處理方法。

      13.一種計算機(jī)程序產(chǎn)品,其特征在于,包括計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至9任一項所述的文本處理方法。


      技術(shù)總結(jié)
      本申請實施例提供了文本處理方法、裝置、電子設(shè)備及存儲介質(zhì),該方法包括:對待處理文本進(jìn)行信息抽取處理,得到待處理文本中目標(biāo)角色的語句元素;根據(jù)目標(biāo)角色的語句元素進(jìn)行聚類處理,得到待處理文本的聚類數(shù)據(jù);對聚類數(shù)據(jù)進(jìn)行評價處理,并根據(jù)評價結(jié)果從聚類數(shù)據(jù)中篩選得到用于進(jìn)行模型訓(xùn)練的訓(xùn)練數(shù)據(jù)。以此,可以在構(gòu)建訓(xùn)練數(shù)據(jù)時提高數(shù)據(jù)質(zhì)量。

      技術(shù)研發(fā)人員:白安琪
      受保護(hù)的技術(shù)使用者:馬上消費金融股份有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/19
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1