本發(fā)明涉及計(jì)算機(jī),尤其涉及一種文本語(yǔ)料評(píng)分方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、在問(wèn)答模型訓(xùn)練過(guò)程中,文本語(yǔ)料的質(zhì)量對(duì)于最終模型訓(xùn)練效果起到關(guān)鍵性作用。若收集到的文本語(yǔ)料質(zhì)量參差不齊,會(huì)極大的影響模型的訓(xùn)練效果。
2、為提升模型訓(xùn)練效果,目前常用的文本語(yǔ)料評(píng)分方式為人工標(biāo)注,不僅效率低,還會(huì)花費(fèi)大量人力成本。因此,如何高效的確定大量文本語(yǔ)料中每個(gè)文本語(yǔ)料的語(yǔ)料質(zhì)量,對(duì)于保證模型訓(xùn)練效果十分重要。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供了一種文本語(yǔ)料評(píng)分方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),以解決人工篩選文本語(yǔ)料效率低的問(wèn)題。
2、根據(jù)本發(fā)明的一方面,提供了一種文本語(yǔ)料評(píng)分方法,包括:
3、響應(yīng)于獲取到待評(píng)分文本,對(duì)所述待評(píng)分文本進(jìn)行文本分割,得到最小評(píng)分單元;
4、針對(duì)每個(gè)最小評(píng)分單元,分別采用至少兩個(gè)啟發(fā)式過(guò)濾器進(jìn)行過(guò)濾,得到每個(gè)最小評(píng)分單元的綜合過(guò)濾結(jié)果;所述綜合過(guò)濾結(jié)果中包括每個(gè)啟發(fā)式過(guò)濾器針對(duì)所述最小評(píng)分單元的局部過(guò)濾結(jié)果;
5、基于所述綜合過(guò)濾結(jié)果和每個(gè)啟發(fā)式過(guò)濾器的權(quán)重,確定最小評(píng)分單元的單元質(zhì)量分?jǐn)?shù);
6、基于每個(gè)最小評(píng)分單元的單元質(zhì)量分?jǐn)?shù),確定所述待評(píng)分文本的綜合質(zhì)量分?jǐn)?shù)。
7、根據(jù)本發(fā)明的另一方面,提供了一種文本語(yǔ)料評(píng)分裝置,包括:
8、文本分割模塊,用于響應(yīng)于獲取到待評(píng)分文本,對(duì)所述待評(píng)分文本進(jìn)行文本分割,得到最小評(píng)分單元;
9、過(guò)濾結(jié)果確定模塊,用于針對(duì)每個(gè)最小評(píng)分單元,分別采用至少兩個(gè)啟發(fā)式過(guò)濾器進(jìn)行過(guò)濾,得到每個(gè)最小評(píng)分單元的綜合過(guò)濾結(jié)果;所述綜合過(guò)濾結(jié)果中包括每個(gè)啟發(fā)式過(guò)濾器針對(duì)所述最小評(píng)分單元的局部過(guò)濾結(jié)果;
10、單元質(zhì)量分?jǐn)?shù)確定模塊,用于基于所述綜合過(guò)濾結(jié)果和每個(gè)啟發(fā)式過(guò)濾器的權(quán)重,確定最小評(píng)分單元的單元質(zhì)量分?jǐn)?shù);
11、綜合質(zhì)量分?jǐn)?shù)確定模塊,用于基于每個(gè)最小評(píng)分單元的單元質(zhì)量分?jǐn)?shù),確定所述待評(píng)分文本的綜合質(zhì)量分?jǐn)?shù)。
12、根據(jù)本發(fā)明的另一方面,提供了一種電子設(shè)備,所述電子設(shè)備包括:
13、至少一個(gè)處理器;以及
14、與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,
15、所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行本發(fā)明任一實(shí)施例所述的文本語(yǔ)料評(píng)分方法。
16、根據(jù)本發(fā)明的另一方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)指令,所述計(jì)算機(jī)指令用于使處理器執(zhí)行時(shí)實(shí)現(xiàn)本發(fā)明任一實(shí)施例所述的文本語(yǔ)料評(píng)分方法。
17、根據(jù)本發(fā)明的另一方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)本公開(kāi)任一實(shí)施例的文本語(yǔ)料評(píng)分方法。
18、本發(fā)明實(shí)施例的技術(shù)方案,響應(yīng)于獲取到待評(píng)分文本,對(duì)待評(píng)分文本進(jìn)行文本分割,得到最小評(píng)分單元,進(jìn)而針對(duì)每個(gè)最小評(píng)分單元,分別采用至少兩個(gè)啟發(fā)式過(guò)濾器進(jìn)行過(guò)濾,得到每個(gè)最小評(píng)分單元的綜合過(guò)濾結(jié)果,基于綜合過(guò)濾結(jié)果和每個(gè)啟發(fā)式過(guò)濾器的權(quán)重,確定最小評(píng)分單元的單元質(zhì)量分?jǐn)?shù),最終基于每個(gè)最小評(píng)分單元的單元質(zhì)量分?jǐn)?shù),確定待評(píng)分文本的綜合質(zhì)量分?jǐn)?shù),通過(guò)多個(gè)啟發(fā)式過(guò)濾器的權(quán)重和過(guò)濾結(jié)果來(lái)對(duì)最小評(píng)分單元進(jìn)行評(píng)分,并根據(jù)最小評(píng)分單元的質(zhì)量分?jǐn)?shù)來(lái)計(jì)算待評(píng)分文本的質(zhì)量分?jǐn)?shù),解決了人工篩選文本語(yǔ)料效率低的問(wèn)題,提高了文本語(yǔ)料的質(zhì)量判定效率。
19、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本發(fā)明的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本發(fā)明的范圍。本發(fā)明的其它特征將通過(guò)以下的說(shuō)明書(shū)而變得容易理解。
1.一種文本語(yǔ)料評(píng)分方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在對(duì)所述待評(píng)分文本進(jìn)行文本分割之前,還包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,基于每個(gè)啟發(fā)式過(guò)濾器關(guān)聯(lián)的文本語(yǔ)料子集的驗(yàn)證困惑度,以及原始文本語(yǔ)料集合的驗(yàn)證困惑度,確定每個(gè)啟發(fā)式過(guò)濾器的權(quán)重,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,最小評(píng)分單元的單元質(zhì)量分?jǐn)?shù)計(jì)算方式如下:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述待評(píng)分文本的綜合質(zhì)量分?jǐn)?shù)計(jì)算方式如下:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,最小評(píng)分單元在待評(píng)分文本中所占權(quán)重計(jì)算方式如下:
7.根據(jù)權(quán)利要求1-6任一所述的方法,其特征在于,所述啟發(fā)式過(guò)濾器包括文本復(fù)雜性過(guò)濾器、單詞重復(fù)比率過(guò)濾器、文本語(yǔ)法過(guò)濾器、文本長(zhǎng)度過(guò)濾器、情感分析過(guò)濾器、主題一致性過(guò)濾器、邏輯連貫性過(guò)濾器、用詞多樣性過(guò)濾器、文化敏感性過(guò)濾器、文本可讀性過(guò)濾器、信息密度過(guò)濾器、信息時(shí)效性過(guò)濾器、信息準(zhǔn)確性過(guò)濾器以及語(yǔ)義清洗度過(guò)濾器中的至少一項(xiàng)。
8.一種文本語(yǔ)料評(píng)分裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括:
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)指令,所述計(jì)算機(jī)指令用于使處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述的文本語(yǔ)料評(píng)分方法。