国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種文檔分類的方法及裝置的制造方法_2

      文檔序號(hào):9865655閱讀:來(lái)源:國(guó)知局
      施例提供的一種文檔分類的裝置的示意圖;
      [0054]圖4是本發(fā)明一實(shí)施例提供的另一種文檔分類的裝置的示意圖。
      【具體實(shí)施方式】
      [0055]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例,基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
      [0056]如圖1所示,本發(fā)明實(shí)施例提供了一種文檔分類的方法,該方法可以包括以下步驟:
      [0057]S1:獲取多個(gè)訓(xùn)練文檔,確定每個(gè)訓(xùn)練文檔對(duì)應(yīng)的類別;
      [0058]S2:根據(jù)每個(gè)類別對(duì)應(yīng)的訓(xùn)練文檔,確定每個(gè)類別的特征向量,所述特征向量包括:在對(duì)應(yīng)的當(dāng)前類別中出現(xiàn)的詞串,每個(gè)詞串出現(xiàn)在當(dāng)前類別的出現(xiàn)概率;
      [0059]S3:獲取當(dāng)前待分類文檔,從當(dāng)前待分類文檔中,提取當(dāng)前待分類文檔的匹配特征向量,所述匹配特征向量包括:當(dāng)前待分類文檔中出現(xiàn)的待匹配詞串;
      [0060]S4:根據(jù)所述匹配特征向量中的待匹配詞串和每個(gè)類別的特征向量中的出現(xiàn)概率,確定所述匹配特征向量與每個(gè)類別的特征向量的相似度;
      [0061 ] S5:將相似度最高的特征向量對(duì)應(yīng)的類別作為所述當(dāng)前待分類文檔的類別。
      [0062]本發(fā)明實(shí)施例提供的一種文檔分類的方法,通過(guò)訓(xùn)練文檔對(duì)每種類別進(jìn)行訓(xùn)練,得到每種類別對(duì)應(yīng)的特征向量,確定待分類文檔的匹配特征向量與每種類別的特征向量的相似度,確定與匹配特征向量相似度最高的特征向量對(duì)應(yīng)的類別作為待分類文檔的類別,當(dāng)分類結(jié)果不能達(dá)到用戶要求時(shí),可以通過(guò)調(diào)整訓(xùn)練文檔來(lái)更新特征向量,使得分類結(jié)果能夠更加符合用戶需求,能夠更加靈活地進(jìn)行文檔分類。
      [0063]在一種可能的實(shí)現(xiàn)方式中,所述S2,包括:
      [0064]將每個(gè)類別對(duì)應(yīng)的訓(xùn)練文檔處理成純文本文檔,對(duì)每個(gè)訓(xùn)練文檔對(duì)應(yīng)的純文本文檔進(jìn)行分詞,獲得每個(gè)訓(xùn)練文檔對(duì)應(yīng)的多個(gè)單詞;
      [0065]將每個(gè)訓(xùn)練文檔中相鄰的預(yù)設(shè)值個(gè)單詞組成詞串,確定每個(gè)詞串對(duì)應(yīng)的類別的出現(xiàn)概率;
      [0066]根據(jù)每個(gè)類別對(duì)應(yīng)的訓(xùn)練文檔中的每個(gè)詞串在對(duì)應(yīng)的類別的出現(xiàn)概率,確定每個(gè)類別的特征向量。
      [0067]這里的訓(xùn)練文檔可以是網(wǎng)頁(yè),為了便于提取詞串,需要對(duì)訓(xùn)練文檔進(jìn)行預(yù)處理,處理成純文本文檔,處理過(guò)程可以包括:提取主要文本內(nèi)容、去掉空格、特殊符號(hào)等。然后,通過(guò)對(duì)純文本文檔進(jìn)行分詞,得到多個(gè)單詞。舉例來(lái)說(shuō),“一種文檔分類的方法”經(jīng)過(guò)分詞后,可以得到“一種” “文檔” “分類” “的” “方法”這接個(gè)單詞。而詞串是由單詞組成的,當(dāng)預(yù)設(shè)值為2時(shí),詞串是有2個(gè)單詞組成的,例如:“一種文檔” “文檔分類”都可以作為詞串。在計(jì)算每個(gè)詞串出現(xiàn)在當(dāng)前類別的出現(xiàn)概率時(shí),可以通過(guò)以下方式實(shí)現(xiàn):確定當(dāng)前類別中出現(xiàn)的所有詞串出現(xiàn)的出現(xiàn)次數(shù),確定當(dāng)前類別中出現(xiàn)的所有詞串的總次數(shù);將當(dāng)前詞串的出現(xiàn)次數(shù)除以總次數(shù),確定當(dāng)前詞串的出現(xiàn)概率。舉例來(lái)說(shuō),對(duì)于類別C中,有兩篇訓(xùn)練文檔A和B,訓(xùn)練文檔A中有詞串A、詞串B、詞串C,在訓(xùn)練文檔A中的出現(xiàn)次數(shù)分別是2、3、4;訓(xùn)練文檔B中有詞串A、詞串B,在訓(xùn)練文檔B中的出現(xiàn)次數(shù)分別是5、7 ;詞串A在類別C中的出現(xiàn)次數(shù)為2+5=7,詞串B在類別C中的出現(xiàn)次數(shù)為3+7= 10,詞串C在類別C中的出現(xiàn)次數(shù)為4,當(dāng)前類別中出現(xiàn)的所有詞串的總次數(shù)為7+10+4 = 21,詞串A的出現(xiàn)概率為7/21。
      [0068]在一種可能的實(shí)現(xiàn)方式中,所述S3,包括:
      [0069]將當(dāng)前待分類文檔處理成純文本文檔,對(duì)當(dāng)前待分類文檔對(duì)應(yīng)的純文本文檔進(jìn)行分詞,獲得當(dāng)前待分類文檔對(duì)應(yīng)的多個(gè)單詞;
      [0070]將當(dāng)前待分類文檔中相鄰的所述預(yù)設(shè)值個(gè)單詞組成詞串;
      [0071]根據(jù)當(dāng)前待分類文檔中的詞串確定所述匹配特征向量。
      [0072]在該實(shí)現(xiàn)方式中,進(jìn)行分詞時(shí),可以采用與步驟S2中的分詞方法一樣的方法,這樣可以使得分類結(jié)果更加準(zhǔn)確。這里的預(yù)設(shè)值與步驟S2中的預(yù)設(shè)值是一樣的,這樣才能在每個(gè)類別的特征向量中找到相匹配的詞串。這里,組成詞串的方式與步驟S2中的方式可以相同。
      [0073]在一種可能的實(shí)現(xiàn)方式中,所述S4,包括:
      [0074]根據(jù)每個(gè)類別的特征向量,確定每個(gè)所述待匹配詞串在每個(gè)類別的出現(xiàn)概率;
      [0075]針對(duì)每個(gè)類別,確定所述當(dāng)前待分類文檔的所有待匹配詞串在當(dāng)前類別的出現(xiàn)概率之和,將當(dāng)前類別對(duì)應(yīng)的出現(xiàn)概率之和作為當(dāng)前類別對(duì)應(yīng)的相似度。
      [0076]舉例來(lái)說(shuō),有兩個(gè)類別分別是類別A和類別B,類別A的特征向量中包括:詞串A、詞串B、詞串C,詞串A出現(xiàn)在類別A的出現(xiàn)概率是0.2,詞串B出現(xiàn)在類別A的出現(xiàn)概率是0.3,詞串C出現(xiàn)在類別A的出現(xiàn)概率是0.5。類別B的特征向量中包括:詞串C、詞串D,詞串C出現(xiàn)在類另IjB的出現(xiàn)概率是0.2,詞串D出現(xiàn)在類別B的出現(xiàn)概率是0.8。待分類文檔A對(duì)應(yīng)的待匹配詞串有詞串A、詞串C、詞串E。詞串A在類別A和類別B的出現(xiàn)概率分別是0.2和O,詞串C在類別A和類別B的出現(xiàn)概率分別是0.5和0.2,詞串E在類別A和類別B的出現(xiàn)概率均是O。針對(duì)類別A,確定待分類文檔A的所有待匹配詞串在類別A的出現(xiàn)概率之和為:詞串A在類別A的出現(xiàn)概率+詞串C在類別A的出現(xiàn)概率+詞串E在類別A的出現(xiàn)概率=0.7;確定待分類文檔A的所有待匹配詞串在類別B的出現(xiàn)概率之和為:詞串A在類別B的出現(xiàn)概率+詞串C在類別B的出現(xiàn)概率+詞串E在類別B的出現(xiàn)概率= 0.2??梢?,匹配特征向量與類別A的特征向量的相似度為0.7,匹配特征向量與類別B的特征向量的相似度為0.2,所以,待分類文檔A屬于類別A。
      [0077]為了滿足用戶對(duì)分類準(zhǔn)確率的要求,可以在對(duì)待分類文檔進(jìn)行分類之前,對(duì)每個(gè)類別的特征向量進(jìn)行測(cè)試。在一種可能的實(shí)現(xiàn)方式中,在所述S2之后,在所述S3之前,還包括:
      [0078]Al:獲取多個(gè)測(cè)試文檔,確定每個(gè)測(cè)試文檔的實(shí)際類別;
      [0079]A2:從每個(gè)測(cè)試文檔中,獲取待測(cè)試詞串;
      [0080]A3:根據(jù)每個(gè)類別的特征向量,確定每個(gè)待測(cè)試詞串在每個(gè)類別的出現(xiàn)概率;
      [0081]A4:針對(duì)每個(gè)類別,確定所述當(dāng)前測(cè)試文檔的所有待測(cè)試詞串在當(dāng)前類別的出現(xiàn)概率之和;
      [0082]A5:將出現(xiàn)概率之和最大的類別作為所述當(dāng)前測(cè)試文檔對(duì)應(yīng)的匹配類別;
      [0083]A6:根據(jù)每個(gè)測(cè)試文檔的匹配類別和每個(gè)測(cè)試文檔的實(shí)際類別,確定每個(gè)類別對(duì)應(yīng)的分類準(zhǔn)確率;
      [0084]A7:分別判斷每個(gè)類別對(duì)應(yīng)的分類準(zhǔn)確率是否大于等于預(yù)設(shè)準(zhǔn)確率閾值,如果是,則執(zhí)行步驟S3,否則,執(zhí)行步驟AS;
      [0085]AS:將所述多個(gè)測(cè)試文檔作為所述訓(xùn)練文檔,執(zhí)行步驟SI。
      [0086]在該實(shí)現(xiàn)方式中,可以獲取某個(gè)類別的測(cè)試文檔,對(duì)某個(gè)類別進(jìn)行測(cè)試,每個(gè)類別的預(yù)設(shè)準(zhǔn)確率閾值可以根據(jù)需要設(shè)置。通過(guò)該實(shí)現(xiàn)方式,可以通過(guò)測(cè)試文檔對(duì)特征向量進(jìn)行測(cè)試,當(dāng)某個(gè)類別不能達(dá)到要求時(shí),可以將測(cè)試文檔作為訓(xùn)練文檔,再對(duì)該類別進(jìn)行訓(xùn)練。
      [0087]在該實(shí)現(xiàn)方式中,在計(jì)算每個(gè)類別對(duì)應(yīng)的分類準(zhǔn)確率時(shí),分別判斷每個(gè)測(cè)試文檔的匹配類別是否與其實(shí)際類別相同,如果相同,則確定當(dāng)前測(cè)試文檔分類準(zhǔn)確,否則,確定當(dāng)前測(cè)試文檔分類錯(cuò)誤。確定每個(gè)實(shí)際類別中測(cè)試文檔的總數(shù)A,確定每個(gè)實(shí)際類別中分類準(zhǔn)確的測(cè)試文檔的數(shù)量B,每個(gè)類別對(duì)應(yīng)的分類準(zhǔn)確率為:B/A。舉例來(lái)說(shuō),有10篇測(cè)試文檔的實(shí)際類別為類別A,在進(jìn)行分類后,這10篇測(cè)試文檔有8篇的匹配類別為類別A,也就是,針對(duì)類別A,有8篇是分類準(zhǔn)確的,確定出類別A對(duì)應(yīng)的分類準(zhǔn)確率為:8/10 = 0.8。其中,預(yù)設(shè)準(zhǔn)確率閾值可以設(shè)置為80%。
      [0088]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖及具體實(shí)施例對(duì)本發(fā)
      當(dāng)前第2頁(yè)1 2 3 4 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1