本申請涉及文本處理領(lǐng)域,尤其涉及一種文本處理方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、nlp(natural?language?processing,自然語言處理)是計算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向,它研究能實現(xiàn)人與計算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。在將采用了nlp技術(shù)的機(jī)器學(xué)習(xí)模型投入特定領(lǐng)域的下游任務(wù)之前,往往需要獲取該特定領(lǐng)域中的訓(xùn)練數(shù)據(jù)以對模型進(jìn)行訓(xùn)練。訓(xùn)練數(shù)據(jù)的質(zhì)量越高,模型的訓(xùn)練效果越好。因此,在文本處理領(lǐng)域,如何提高訓(xùn)練數(shù)據(jù)的數(shù)據(jù)質(zhì)量成為研究的熱點問題。
技術(shù)實現(xiàn)思路
1、本申請實施例提供了一種文本處理方法、裝置、電子設(shè)備及存儲介質(zhì),可以在構(gòu)建訓(xùn)練數(shù)據(jù)時提高數(shù)據(jù)質(zhì)量。
2、第一方面,本申請實施例提供了一種文本處理方法,包括:
3、對待處理文本進(jìn)行信息抽取處理,得到所述待處理文本中目標(biāo)角色的語句元素;
4、根據(jù)所述目標(biāo)角色的語句元素進(jìn)行聚類處理,得到所述待處理文本的聚類數(shù)據(jù);
5、對所述聚類數(shù)據(jù)進(jìn)行評價處理,并根據(jù)評價結(jié)果從所述聚類數(shù)據(jù)中篩選得到用于進(jìn)行模型訓(xùn)練的訓(xùn)練數(shù)據(jù)。
6、第二方面,本申請實施例提供了一種文本處理裝置,包括:
7、抽取單元,用于對待處理文本進(jìn)行信息抽取處理,得到所述待處理文本中目標(biāo)角色的語句元素;
8、聚類單元,用于根據(jù)所述目標(biāo)角色的語句元素進(jìn)行聚類處理,得到所述待處理文本的聚類數(shù)據(jù);
9、篩選單元,對所述聚類數(shù)據(jù)進(jìn)行評價處理,并根據(jù)評價結(jié)果從所述聚類數(shù)據(jù)中篩選得到用于進(jìn)行模型訓(xùn)練的訓(xùn)練數(shù)據(jù)。
10、第三方面,本申請實施例提供了一種電子設(shè)備,包括:處理器;以及,被配置為存儲計算機(jī)可執(zhí)行指令的存儲器,所述計算機(jī)可執(zhí)行指令在被執(zhí)行時使所述處理器執(zhí)行如第一方面所述的文本處理方法。
11、第四方面,本申請實施例提供了一種計算機(jī)可讀存儲介質(zhì),用于存儲計算機(jī)可執(zhí)行指令,所述計算機(jī)可執(zhí)行指令在被處理器執(zhí)行時實現(xiàn)如第一方面所述的文本處理方法。
12、第五方面,本申請實施例提供了一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如第一方面所述的文本處理方法。
13、可以看出,在本申請實施例中,首先,對待處理文本進(jìn)行信息抽取處理,得到待處理文本中目標(biāo)角色的語句元素;然后,根據(jù)目標(biāo)角色的語句元素進(jìn)行聚類處理,得到待處理文本的聚類數(shù)據(jù);最后,對聚類數(shù)據(jù)進(jìn)行評價處理,并根據(jù)評價結(jié)果從聚類數(shù)據(jù)中篩選得到用于進(jìn)行模型訓(xùn)練的訓(xùn)練數(shù)據(jù)。通常,聚類指的是將相似度高的數(shù)據(jù)分為一組,在本申請實施例中,通過從待處理文本中抽取目標(biāo)角色的語句元素并聚類,可以使得聚類數(shù)據(jù)中因相似度高被分為一組的數(shù)據(jù)對應(yīng)同一目標(biāo)角色,與不考慮語句元素屬于哪個角色直接對待處理文本聚類相比,更有利于降低聚類時分組失誤的概率,提高聚類的準(zhǔn)確性,又訓(xùn)練數(shù)據(jù)是從聚類數(shù)據(jù)中篩選得到的,故提高聚類的準(zhǔn)確性有利于提高訓(xùn)練數(shù)據(jù)的質(zhì)量。
1.一種文本處理方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對待處理文本進(jìn)行信息抽取處理,得到所述待處理文本中目標(biāo)角色的語句元素,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述文本處理模型包括語句元素抽取模型和角色識別模型;所述通過文本處理模型對所述待處理文本進(jìn)行信息抽取處理,得到所述待處理文本中屬于所述目標(biāo)角色的語句元素,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述待處理文本包括第一待處理文本和第二待處理文本;所述抽取結(jié)果包括第一待處理文本中語句元素的抽取結(jié)果和所述第二待處理文本中語句元素的抽取結(jié)果;所述將所述待處理文本輸入所述語句元素抽取模型進(jìn)行抽取處理,得到所述待處理文本中語句元素的抽取結(jié)果之后,所述方法還包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述將所述待處理文本中語句元素的抽取結(jié)果輸入關(guān)系識別模型進(jìn)行關(guān)系識別,得到所述第一待處理文本和所述第二待處理文本之間的關(guān)系識別結(jié)果,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述聚類數(shù)據(jù)進(jìn)行評價處理,包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述目標(biāo)角色的語句元素進(jìn)行聚類處理,得到所述待處理文本的聚類數(shù)據(jù),包括:
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述聚類數(shù)據(jù)包括待評價語句;所述對所述聚類數(shù)據(jù)進(jìn)行評價處理,包括:
9.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述對所述聚類數(shù)據(jù)進(jìn)行文本增強(qiáng)處理,包括:
10.一種文本處理裝置,其特征在于,包括:
11.一種電子設(shè)備,其特征在于,包括:
12.一種計算機(jī)可讀存儲介質(zhì),其特征在于,所述計算機(jī)可讀存儲介質(zhì)用于存儲計算機(jī)可執(zhí)行指令,所述計算機(jī)可執(zhí)行指令在被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至9中任一項所述的文本處理方法。
13.一種計算機(jī)程序產(chǎn)品,其特征在于,包括計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至9任一項所述的文本處理方法。