国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種文本數(shù)據(jù)的分類方法及裝置與流程

      文檔序號:40180733發(fā)布日期:2024-12-03 11:28閱讀:8來源:國知局
      一種文本數(shù)據(jù)的分類方法及裝置與流程

      本發(fā)明涉及文字處理領(lǐng)域,特別是涉及一種文本數(shù)據(jù)的分類方法及裝置。


      背景技術(shù):

      1、在數(shù)據(jù)安全背景下,企業(yè)存在對短文本數(shù)據(jù)分類需求,根據(jù)業(yè)務(wù)需要,首先對數(shù)據(jù)集做少量數(shù)據(jù)類別標(biāo)注工作,并編寫正則表達(dá)式。正則表達(dá)式包括各個分類下的短文本數(shù)據(jù)的組合,將正則表達(dá)式應(yīng)用至剩余數(shù)據(jù)中,可以對短文本數(shù)據(jù)的組合進(jìn)行分類,以達(dá)到快速標(biāo)注的目的。隨業(yè)務(wù)和數(shù)據(jù)集增加,表達(dá)式的編寫工作難度變得很大,在人工對短文本數(shù)據(jù)進(jìn)行批注時往往會存在效率較低的問題。


      技術(shù)實(shí)現(xiàn)思路

      1、本發(fā)明的目的是提供一種文本數(shù)據(jù)的分類方法及裝置,無需人工對文本數(shù)據(jù)進(jìn)行手動劃分,而是采用分類模型進(jìn)行劃分,分類模型是基于正則表達(dá)式對當(dāng)前文本數(shù)據(jù)進(jìn)行分類,正則表達(dá)式包括類別對應(yīng)的詞語的組合,采用正則表達(dá)式判斷更加準(zhǔn)確。

      2、為解決上述技術(shù)問題,本發(fā)明提供了一種文本數(shù)據(jù)的分類方法,包括:

      3、獲取當(dāng)前文本數(shù)據(jù),所述當(dāng)前文本數(shù)據(jù)包括多個詞語;

      4、對所述當(dāng)前文本數(shù)據(jù)中的多個詞語分別進(jìn)行分詞提取;

      5、將提取后的當(dāng)前文本數(shù)據(jù)中的詞語輸入至分類模型中,得到所述分類模型基于當(dāng)前文本數(shù)據(jù)中的詞語及正則表達(dá)式輸出的所述當(dāng)前文本數(shù)據(jù)對應(yīng)的類別,所述正則表達(dá)式為預(yù)先確定的各個類別對應(yīng)的詞語的組合。

      6、另一方面,對所述當(dāng)前文本數(shù)據(jù)中的多個詞語分別進(jìn)行分詞提取之后,還包括:

      7、將所述當(dāng)前文本數(shù)據(jù)中除所述詞語外的剩余內(nèi)容去除,所述剩余內(nèi)容包括停頓詞及標(biāo)點(diǎn)符號。

      8、另一方面,還包括:

      9、獲取歷史文本數(shù)據(jù)及所述歷史文本數(shù)據(jù)對應(yīng)的類別;

      10、對所述歷史文本數(shù)據(jù)中的多個詞語進(jìn)行分詞提??;

      11、將所述歷史文本數(shù)據(jù)中除提取到的詞語外的剩余內(nèi)容去除;

      12、基于所述歷史文本數(shù)據(jù)中提取到的詞語及所述歷史文本數(shù)據(jù)對應(yīng)的類別構(gòu)建決策樹;

      13、根據(jù)所述決策樹確定正則表達(dá)式,以便所述分類模型根據(jù)所述正則表達(dá)式對輸入的文本數(shù)據(jù)進(jìn)行分類。

      14、另一方面,基于所述歷史文本數(shù)據(jù)中提取到的詞語及所述歷史文本數(shù)據(jù)對應(yīng)的分類構(gòu)建決策樹,包括:

      15、在所有歷史文本數(shù)據(jù)包括的所有詞語中確定作為決策樹的根節(jié)點(diǎn)的詞語;

      16、在除所述根節(jié)點(diǎn)外剩余的所有詞語中選擇所述根節(jié)點(diǎn)的子節(jié)點(diǎn);

      17、在除所述根節(jié)點(diǎn)及所述根節(jié)點(diǎn)的節(jié)點(diǎn)外剩余的所有詞語中選擇所述根節(jié)點(diǎn)的子節(jié)點(diǎn)的子節(jié)點(diǎn)或其他決策樹的根節(jié)點(diǎn);

      18、在包括所述子節(jié)點(diǎn)對應(yīng)的詞語的歷史文本數(shù)據(jù)的類別與不包括所述子節(jié)點(diǎn)對應(yīng)的詞語的歷史文本數(shù)據(jù)的類別相同時,確定所述子節(jié)點(diǎn)為葉子節(jié)點(diǎn)。

      19、另一方面,在所有歷史文本數(shù)據(jù)包括的所有詞語中確定作為決策樹的根節(jié)點(diǎn)的詞語,包括:

      20、依次以所有歷史文本數(shù)據(jù)包括的所有詞語為基準(zhǔn)確定所述歷史文本數(shù)據(jù)的基尼指數(shù);

      21、確定所述基尼指數(shù)取最小值時對應(yīng)的詞語為第一個決策樹的根節(jié)點(diǎn)。

      22、另一方面,在除所述根節(jié)點(diǎn)外剩余的所有詞語中選擇所述根節(jié)點(diǎn)的子節(jié)點(diǎn),包括:

      23、在包括所述根節(jié)點(diǎn)的詞語的子集中確定對應(yīng)基尼指數(shù)最小的詞語,作為所述根節(jié)點(diǎn)的第一個子節(jié)點(diǎn);

      24、在不包括所述根節(jié)點(diǎn)的詞語的子集中確定對應(yīng)基尼指數(shù)最小的詞語,作為所述根節(jié)點(diǎn)的第二個子節(jié)點(diǎn)。

      25、另一方面,在除所述根節(jié)點(diǎn)及所述根節(jié)點(diǎn)的節(jié)點(diǎn)外剩余的所有詞語中選擇所述根節(jié)點(diǎn)的子節(jié)點(diǎn)的子節(jié)點(diǎn)或其他決策樹的根節(jié)點(diǎn),包括:

      26、判斷當(dāng)前決策樹的深度是否大于預(yù)設(shè)深度;

      27、若當(dāng)前決策樹的深度不大于所述預(yù)設(shè)深度,則將除所述根節(jié)點(diǎn)及所述根節(jié)點(diǎn)的節(jié)點(diǎn)外剩余的所有詞語中確定對應(yīng)的基尼指數(shù)最小的詞語,作為所述根節(jié)點(diǎn)的子節(jié)點(diǎn)的子節(jié)點(diǎn);

      28、若當(dāng)前決策樹的深度大于所述預(yù)設(shè)深度,則將除所述根節(jié)點(diǎn)及所述根節(jié)點(diǎn)的節(jié)點(diǎn)外剩余的所有詞語中確定對應(yīng)的基尼指數(shù)最小的詞語,作為其他決策樹的根節(jié)點(diǎn),并返回在除所述根節(jié)點(diǎn)外剩余的所有詞語中選擇所述根節(jié)點(diǎn)的子節(jié)點(diǎn)的步驟。

      29、另一方面,根據(jù)所述決策樹確定正則表達(dá)式之后,還包括:

      30、輸入測試文本數(shù)據(jù)至所述分類模型中,得到所述分類模型輸出的所述測試文本數(shù)據(jù)對應(yīng)的類別;

      31、判斷所述分類模型輸出的所述測試文本數(shù)據(jù)對應(yīng)的類別與實(shí)際所述測試文本數(shù)據(jù)對應(yīng)的類別是否相同;

      32、若不相同,則對所述決策樹進(jìn)行糾偏;

      33、若相同,則進(jìn)入獲取當(dāng)前文本數(shù)據(jù)的步驟。

      34、另一方面,所述正則表達(dá)式的表達(dá)規(guī)范為:

      35、當(dāng)a詞語與b詞語同時出現(xiàn)時,確定所述正則表達(dá)式為a&b;

      36、當(dāng)a詞語或b詞語出現(xiàn)時,確定所述正則表達(dá)式為a|b;

      37、當(dāng)a詞語不出現(xiàn)且b詞語出現(xiàn)時,確定所述正則表達(dá)式為(!a)&b。

      38、為解決上述技術(shù)問題,本發(fā)明還提供了一種文本數(shù)據(jù)的分類裝置,包括:

      39、存儲器,用于存儲計算機(jī)程序;

      40、處理器,用于執(zhí)行所述計算機(jī)程序時實(shí)現(xiàn)上述的文本數(shù)據(jù)的分類方法的步驟。

      41、本申請?zhí)峁┝艘环N文本數(shù)據(jù)的分類方法及裝置,涉及文字處理領(lǐng)域,包括獲取當(dāng)前文本數(shù)據(jù),當(dāng)前文本數(shù)據(jù)包括多個詞語;對當(dāng)前文本數(shù)據(jù)中的多個詞語分別進(jìn)行分詞提取;將提取后的當(dāng)前文本數(shù)據(jù)輸入至分類模型中,得到分類模型基于當(dāng)前文本數(shù)據(jù)中的詞語及預(yù)先確定的正則表達(dá)式輸出的當(dāng)前文本數(shù)據(jù)對應(yīng)的類別。無需人工對文本數(shù)據(jù)進(jìn)行手動劃分,而是采用分類模型進(jìn)行劃分,分類模型是基于正則表達(dá)式對當(dāng)前文本數(shù)據(jù)進(jìn)行分類,正則表達(dá)式包括類別對應(yīng)的詞語的組合,采用正則表達(dá)式判斷更加準(zhǔn)確。



      技術(shù)特征:

      1.一種文本數(shù)據(jù)的分類方法,其特征在于,包括:

      2.如權(quán)利要求1所述的文本數(shù)據(jù)的分類方法,其特征在于,對所述當(dāng)前文本數(shù)據(jù)中的多個詞語分別進(jìn)行分詞提取之后,還包括:

      3.如權(quán)利要求1所述的文本數(shù)據(jù)的分類方法,其特征在于,還包括:

      4.如權(quán)利要求3所述的文本數(shù)據(jù)的分類方法,其特征在于,基于所述歷史文本數(shù)據(jù)中提取到的詞語及所述歷史文本數(shù)據(jù)對應(yīng)的分類構(gòu)建決策樹,包括:

      5.如權(quán)利要求4所述的文本數(shù)據(jù)的分類方法,其特征在于,在所有歷史文本數(shù)據(jù)包括的所有詞語中確定作為決策樹的根節(jié)點(diǎn)的詞語,包括:

      6.如權(quán)利要求4所述的文本數(shù)據(jù)的分類方法,其特征在于,在除所述根節(jié)點(diǎn)外剩余的所有詞語中選擇所述根節(jié)點(diǎn)的子節(jié)點(diǎn),包括:

      7.如權(quán)利要求5所述的文本數(shù)據(jù)的分類方法,其特征在于,在除所述根節(jié)點(diǎn)及所述根節(jié)點(diǎn)的節(jié)點(diǎn)外剩余的所有詞語中選擇所述根節(jié)點(diǎn)的子節(jié)點(diǎn)的子節(jié)點(diǎn)或其他決策樹的根節(jié)點(diǎn),包括:

      8.如權(quán)利要求3所述的文本數(shù)據(jù)的分類方法,其特征在于,根據(jù)所述決策樹確定正則表達(dá)式之后,還包括:

      9.如權(quán)利要求1至8任一項(xiàng)所述的文本數(shù)據(jù)的分類方法,其特征在于,所述正則表達(dá)式的表達(dá)規(guī)范為:

      10.一種文本數(shù)據(jù)的分類裝置,其特征在于,包括:


      技術(shù)總結(jié)
      本發(fā)明公開了一種文本數(shù)據(jù)的分類方法及裝置,涉及文字處理領(lǐng)域,包括獲取當(dāng)前文本數(shù)據(jù),當(dāng)前文本數(shù)據(jù)包括多個詞語;對當(dāng)前文本數(shù)據(jù)中的多個詞語分別進(jìn)行分詞提??;將提取后的當(dāng)前文本數(shù)據(jù)輸入至分類模型中,得到分類模型基于當(dāng)前文本數(shù)據(jù)中的詞語及預(yù)先確定的正則表達(dá)式輸出的當(dāng)前文本數(shù)據(jù)對應(yīng)的類別。無需人工對文本數(shù)據(jù)進(jìn)行手動劃分,而是采用分類模型進(jìn)行劃分,分類模型是基于正則表達(dá)式對當(dāng)前文本數(shù)據(jù)進(jìn)行分類,正則表達(dá)式包括類別對應(yīng)的詞語的組合,采用正則表達(dá)式判斷更加準(zhǔn)確。

      技術(shù)研發(fā)人員:盧紅波,秦坤,肖威
      受保護(hù)的技術(shù)使用者:杭州安恒信息技術(shù)股份有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/2
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1