本發(fā)明涉及文字處理領(lǐng)域,特別是涉及一種文本數(shù)據(jù)的分類方法及裝置。
背景技術(shù):
1、在數(shù)據(jù)安全背景下,企業(yè)存在對短文本數(shù)據(jù)分類需求,根據(jù)業(yè)務(wù)需要,首先對數(shù)據(jù)集做少量數(shù)據(jù)類別標(biāo)注工作,并編寫正則表達(dá)式。正則表達(dá)式包括各個分類下的短文本數(shù)據(jù)的組合,將正則表達(dá)式應(yīng)用至剩余數(shù)據(jù)中,可以對短文本數(shù)據(jù)的組合進(jìn)行分類,以達(dá)到快速標(biāo)注的目的。隨業(yè)務(wù)和數(shù)據(jù)集增加,表達(dá)式的編寫工作難度變得很大,在人工對短文本數(shù)據(jù)進(jìn)行批注時往往會存在效率較低的問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是提供一種文本數(shù)據(jù)的分類方法及裝置,無需人工對文本數(shù)據(jù)進(jìn)行手動劃分,而是采用分類模型進(jìn)行劃分,分類模型是基于正則表達(dá)式對當(dāng)前文本數(shù)據(jù)進(jìn)行分類,正則表達(dá)式包括類別對應(yīng)的詞語的組合,采用正則表達(dá)式判斷更加準(zhǔn)確。
2、為解決上述技術(shù)問題,本發(fā)明提供了一種文本數(shù)據(jù)的分類方法,包括:
3、獲取當(dāng)前文本數(shù)據(jù),所述當(dāng)前文本數(shù)據(jù)包括多個詞語;
4、對所述當(dāng)前文本數(shù)據(jù)中的多個詞語分別進(jìn)行分詞提取;
5、將提取后的當(dāng)前文本數(shù)據(jù)中的詞語輸入至分類模型中,得到所述分類模型基于當(dāng)前文本數(shù)據(jù)中的詞語及正則表達(dá)式輸出的所述當(dāng)前文本數(shù)據(jù)對應(yīng)的類別,所述正則表達(dá)式為預(yù)先確定的各個類別對應(yīng)的詞語的組合。
6、另一方面,對所述當(dāng)前文本數(shù)據(jù)中的多個詞語分別進(jìn)行分詞提取之后,還包括:
7、將所述當(dāng)前文本數(shù)據(jù)中除所述詞語外的剩余內(nèi)容去除,所述剩余內(nèi)容包括停頓詞及標(biāo)點(diǎn)符號。
8、另一方面,還包括:
9、獲取歷史文本數(shù)據(jù)及所述歷史文本數(shù)據(jù)對應(yīng)的類別;
10、對所述歷史文本數(shù)據(jù)中的多個詞語進(jìn)行分詞提??;
11、將所述歷史文本數(shù)據(jù)中除提取到的詞語外的剩余內(nèi)容去除;
12、基于所述歷史文本數(shù)據(jù)中提取到的詞語及所述歷史文本數(shù)據(jù)對應(yīng)的類別構(gòu)建決策樹;
13、根據(jù)所述決策樹確定正則表達(dá)式,以便所述分類模型根據(jù)所述正則表達(dá)式對輸入的文本數(shù)據(jù)進(jìn)行分類。
14、另一方面,基于所述歷史文本數(shù)據(jù)中提取到的詞語及所述歷史文本數(shù)據(jù)對應(yīng)的分類構(gòu)建決策樹,包括:
15、在所有歷史文本數(shù)據(jù)包括的所有詞語中確定作為決策樹的根節(jié)點(diǎn)的詞語;
16、在除所述根節(jié)點(diǎn)外剩余的所有詞語中選擇所述根節(jié)點(diǎn)的子節(jié)點(diǎn);
17、在除所述根節(jié)點(diǎn)及所述根節(jié)點(diǎn)的節(jié)點(diǎn)外剩余的所有詞語中選擇所述根節(jié)點(diǎn)的子節(jié)點(diǎn)的子節(jié)點(diǎn)或其他決策樹的根節(jié)點(diǎn);
18、在包括所述子節(jié)點(diǎn)對應(yīng)的詞語的歷史文本數(shù)據(jù)的類別與不包括所述子節(jié)點(diǎn)對應(yīng)的詞語的歷史文本數(shù)據(jù)的類別相同時,確定所述子節(jié)點(diǎn)為葉子節(jié)點(diǎn)。
19、另一方面,在所有歷史文本數(shù)據(jù)包括的所有詞語中確定作為決策樹的根節(jié)點(diǎn)的詞語,包括:
20、依次以所有歷史文本數(shù)據(jù)包括的所有詞語為基準(zhǔn)確定所述歷史文本數(shù)據(jù)的基尼指數(shù);
21、確定所述基尼指數(shù)取最小值時對應(yīng)的詞語為第一個決策樹的根節(jié)點(diǎn)。
22、另一方面,在除所述根節(jié)點(diǎn)外剩余的所有詞語中選擇所述根節(jié)點(diǎn)的子節(jié)點(diǎn),包括:
23、在包括所述根節(jié)點(diǎn)的詞語的子集中確定對應(yīng)基尼指數(shù)最小的詞語,作為所述根節(jié)點(diǎn)的第一個子節(jié)點(diǎn);
24、在不包括所述根節(jié)點(diǎn)的詞語的子集中確定對應(yīng)基尼指數(shù)最小的詞語,作為所述根節(jié)點(diǎn)的第二個子節(jié)點(diǎn)。
25、另一方面,在除所述根節(jié)點(diǎn)及所述根節(jié)點(diǎn)的節(jié)點(diǎn)外剩余的所有詞語中選擇所述根節(jié)點(diǎn)的子節(jié)點(diǎn)的子節(jié)點(diǎn)或其他決策樹的根節(jié)點(diǎn),包括:
26、判斷當(dāng)前決策樹的深度是否大于預(yù)設(shè)深度;
27、若當(dāng)前決策樹的深度不大于所述預(yù)設(shè)深度,則將除所述根節(jié)點(diǎn)及所述根節(jié)點(diǎn)的節(jié)點(diǎn)外剩余的所有詞語中確定對應(yīng)的基尼指數(shù)最小的詞語,作為所述根節(jié)點(diǎn)的子節(jié)點(diǎn)的子節(jié)點(diǎn);
28、若當(dāng)前決策樹的深度大于所述預(yù)設(shè)深度,則將除所述根節(jié)點(diǎn)及所述根節(jié)點(diǎn)的節(jié)點(diǎn)外剩余的所有詞語中確定對應(yīng)的基尼指數(shù)最小的詞語,作為其他決策樹的根節(jié)點(diǎn),并返回在除所述根節(jié)點(diǎn)外剩余的所有詞語中選擇所述根節(jié)點(diǎn)的子節(jié)點(diǎn)的步驟。
29、另一方面,根據(jù)所述決策樹確定正則表達(dá)式之后,還包括:
30、輸入測試文本數(shù)據(jù)至所述分類模型中,得到所述分類模型輸出的所述測試文本數(shù)據(jù)對應(yīng)的類別;
31、判斷所述分類模型輸出的所述測試文本數(shù)據(jù)對應(yīng)的類別與實(shí)際所述測試文本數(shù)據(jù)對應(yīng)的類別是否相同;
32、若不相同,則對所述決策樹進(jìn)行糾偏;
33、若相同,則進(jìn)入獲取當(dāng)前文本數(shù)據(jù)的步驟。
34、另一方面,所述正則表達(dá)式的表達(dá)規(guī)范為:
35、當(dāng)a詞語與b詞語同時出現(xiàn)時,確定所述正則表達(dá)式為a&b;
36、當(dāng)a詞語或b詞語出現(xiàn)時,確定所述正則表達(dá)式為a|b;
37、當(dāng)a詞語不出現(xiàn)且b詞語出現(xiàn)時,確定所述正則表達(dá)式為(!a)&b。
38、為解決上述技術(shù)問題,本發(fā)明還提供了一種文本數(shù)據(jù)的分類裝置,包括:
39、存儲器,用于存儲計算機(jī)程序;
40、處理器,用于執(zhí)行所述計算機(jī)程序時實(shí)現(xiàn)上述的文本數(shù)據(jù)的分類方法的步驟。
41、本申請?zhí)峁┝艘环N文本數(shù)據(jù)的分類方法及裝置,涉及文字處理領(lǐng)域,包括獲取當(dāng)前文本數(shù)據(jù),當(dāng)前文本數(shù)據(jù)包括多個詞語;對當(dāng)前文本數(shù)據(jù)中的多個詞語分別進(jìn)行分詞提取;將提取后的當(dāng)前文本數(shù)據(jù)輸入至分類模型中,得到分類模型基于當(dāng)前文本數(shù)據(jù)中的詞語及預(yù)先確定的正則表達(dá)式輸出的當(dāng)前文本數(shù)據(jù)對應(yīng)的類別。無需人工對文本數(shù)據(jù)進(jìn)行手動劃分,而是采用分類模型進(jìn)行劃分,分類模型是基于正則表達(dá)式對當(dāng)前文本數(shù)據(jù)進(jìn)行分類,正則表達(dá)式包括類別對應(yīng)的詞語的組合,采用正則表達(dá)式判斷更加準(zhǔn)確。
1.一種文本數(shù)據(jù)的分類方法,其特征在于,包括:
2.如權(quán)利要求1所述的文本數(shù)據(jù)的分類方法,其特征在于,對所述當(dāng)前文本數(shù)據(jù)中的多個詞語分別進(jìn)行分詞提取之后,還包括:
3.如權(quán)利要求1所述的文本數(shù)據(jù)的分類方法,其特征在于,還包括:
4.如權(quán)利要求3所述的文本數(shù)據(jù)的分類方法,其特征在于,基于所述歷史文本數(shù)據(jù)中提取到的詞語及所述歷史文本數(shù)據(jù)對應(yīng)的分類構(gòu)建決策樹,包括:
5.如權(quán)利要求4所述的文本數(shù)據(jù)的分類方法,其特征在于,在所有歷史文本數(shù)據(jù)包括的所有詞語中確定作為決策樹的根節(jié)點(diǎn)的詞語,包括:
6.如權(quán)利要求4所述的文本數(shù)據(jù)的分類方法,其特征在于,在除所述根節(jié)點(diǎn)外剩余的所有詞語中選擇所述根節(jié)點(diǎn)的子節(jié)點(diǎn),包括:
7.如權(quán)利要求5所述的文本數(shù)據(jù)的分類方法,其特征在于,在除所述根節(jié)點(diǎn)及所述根節(jié)點(diǎn)的節(jié)點(diǎn)外剩余的所有詞語中選擇所述根節(jié)點(diǎn)的子節(jié)點(diǎn)的子節(jié)點(diǎn)或其他決策樹的根節(jié)點(diǎn),包括:
8.如權(quán)利要求3所述的文本數(shù)據(jù)的分類方法,其特征在于,根據(jù)所述決策樹確定正則表達(dá)式之后,還包括:
9.如權(quán)利要求1至8任一項(xiàng)所述的文本數(shù)據(jù)的分類方法,其特征在于,所述正則表達(dá)式的表達(dá)規(guī)范為:
10.一種文本數(shù)據(jù)的分類裝置,其特征在于,包括: