一種文檔分類的方法及裝置的制造方法_2

文檔序號(hào)：9865655閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種文檔分類的方法及裝置的制造方法

施例提供的一種文檔分類的裝置的示意圖；
[0054]圖4是本發(fā)明一實(shí)施例提供的另一種文檔分類的裝置的示意圖。
【具體實(shí)施方式】
[0055]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例，基于本發(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。
[0056]如圖1所示，本發(fā)明實(shí)施例提供了一種文檔分類的方法，該方法可以包括以下步驟:
[0057]S1:獲取多個(gè)訓(xùn)練文檔，確定每個(gè)訓(xùn)練文檔對(duì)應(yīng)的類別；
[0058]S2:根據(jù)每個(gè)類別對(duì)應(yīng)的訓(xùn)練文檔，確定每個(gè)類別的特征向量，所述特征向量包括:在對(duì)應(yīng)的當(dāng)前類別中出現(xiàn)的詞串，每個(gè)詞串出現(xiàn)在當(dāng)前類別的出現(xiàn)概率；
[0059]S3:獲取當(dāng)前待分類文檔，從當(dāng)前待分類文檔中，提取當(dāng)前待分類文檔的匹配特征向量，所述匹配特征向量包括:當(dāng)前待分類文檔中出現(xiàn)的待匹配詞串；
[0060]S4:根據(jù)所述匹配特征向量中的待匹配詞串和每個(gè)類別的特征向量中的出現(xiàn)概率，確定所述匹配特征向量與每個(gè)類別的特征向量的相似度；
[0061 ] S5:將相似度最高的特征向量對(duì)應(yīng)的類別作為所述當(dāng)前待分類文檔的類別。
[0062]本發(fā)明實(shí)施例提供的一種文檔分類的方法，通過(guò)訓(xùn)練文檔對(duì)每種類別進(jìn)行訓(xùn)練，得到每種類別對(duì)應(yīng)的特征向量，確定待分類文檔的匹配特征向量與每種類別的特征向量的相似度，確定與匹配特征向量相似度最高的特征向量對(duì)應(yīng)的類別作為待分類文檔的類別，當(dāng)分類結(jié)果不能達(dá)到用戶要求時(shí)，可以通過(guò)調(diào)整訓(xùn)練文檔來(lái)更新特征向量，使得分類結(jié)果能夠更加符合用戶需求，能夠更加靈活地進(jìn)行文檔分類。
[0063]在一種可能的實(shí)現(xiàn)方式中，所述S2，包括:
[0064]將每個(gè)類別對(duì)應(yīng)的訓(xùn)練文檔處理成純文本文檔，對(duì)每個(gè)訓(xùn)練文檔對(duì)應(yīng)的純文本文檔進(jìn)行分詞，獲得每個(gè)訓(xùn)練文檔對(duì)應(yīng)的多個(gè)單詞；
[0065]將每個(gè)訓(xùn)練文檔中相鄰的預(yù)設(shè)值個(gè)單詞組成詞串，確定每個(gè)詞串對(duì)應(yīng)的類別的出現(xiàn)概率；
[0066]根據(jù)每個(gè)類別對(duì)應(yīng)的訓(xùn)練文檔中的每個(gè)詞串在對(duì)應(yīng)的類別的出現(xiàn)概率，確定每個(gè)類別的特征向量。
[0067]這里的訓(xùn)練文檔可以是網(wǎng)頁(yè)，為了便于提取詞串，需要對(duì)訓(xùn)練文檔進(jìn)行預(yù)處理，處理成純文本文檔，處理過(guò)程可以包括:提取主要文本內(nèi)容、去掉空格、特殊符號(hào)等。然后，通過(guò)對(duì)純文本文檔進(jìn)行分詞，得到多個(gè)單詞。舉例來(lái)說(shuō)，“一種文檔分類的方法”經(jīng)過(guò)分詞后，可以得到“一種” “文檔” “分類” “的” “方法”這接個(gè)單詞。而詞串是由單詞組成的，當(dāng)預(yù)設(shè)值為2時(shí)，詞串是有2個(gè)單詞組成的，例如:“一種文檔” “文檔分類”都可以作為詞串。在計(jì)算每個(gè)詞串出現(xiàn)在當(dāng)前類別的出現(xiàn)概率時(shí)，可以通過(guò)以下方式實(shí)現(xiàn):確定當(dāng)前類別中出現(xiàn)的所有詞串出現(xiàn)的出現(xiàn)次數(shù)，確定當(dāng)前類別中出現(xiàn)的所有詞串的總次數(shù);將當(dāng)前詞串的出現(xiàn)次數(shù)除以總次數(shù)，確定當(dāng)前詞串的出現(xiàn)概率。舉例來(lái)說(shuō)，對(duì)于類別C中，有兩篇訓(xùn)練文檔A和B，訓(xùn)練文檔A中有詞串A、詞串B、詞串C，在訓(xùn)練文檔A中的出現(xiàn)次數(shù)分別是2、3、4;訓(xùn)練文檔B中有詞串A、詞串B，在訓(xùn)練文檔B中的出現(xiàn)次數(shù)分別是5、7 ;詞串A在類別C中的出現(xiàn)次數(shù)為2+5=7，詞串B在類別C中的出現(xiàn)次數(shù)為3+7= 10，詞串C在類別C中的出現(xiàn)次數(shù)為4，當(dāng)前類別中出現(xiàn)的所有詞串的總次數(shù)為7+10+4 = 21，詞串A的出現(xiàn)概率為7/21。
[0068]在一種可能的實(shí)現(xiàn)方式中，所述S3，包括:
[0069]將當(dāng)前待分類文檔處理成純文本文檔，對(duì)當(dāng)前待分類文檔對(duì)應(yīng)的純文本文檔進(jìn)行分詞，獲得當(dāng)前待分類文檔對(duì)應(yīng)的多個(gè)單詞；
[0070]將當(dāng)前待分類文檔中相鄰的所述預(yù)設(shè)值個(gè)單詞組成詞串；
[0071]根據(jù)當(dāng)前待分類文檔中的詞串確定所述匹配特征向量。
[0072]在該實(shí)現(xiàn)方式中，進(jìn)行分詞時(shí)，可以采用與步驟S2中的分詞方法一樣的方法，這樣可以使得分類結(jié)果更加準(zhǔn)確。這里的預(yù)設(shè)值與步驟S2中的預(yù)設(shè)值是一樣的，這樣才能在每個(gè)類別的特征向量中找到相匹配的詞串。這里，組成詞串的方式與步驟S2中的方式可以相同。
[0073]在一種可能的實(shí)現(xiàn)方式中，所述S4，包括:
[0074]根據(jù)每個(gè)類別的特征向量，確定每個(gè)所述待匹配詞串在每個(gè)類別的出現(xiàn)概率；
[0075]針對(duì)每個(gè)類別，確定所述當(dāng)前待分類文檔的所有待匹配詞串在當(dāng)前類別的出現(xiàn)概率之和，將當(dāng)前類別對(duì)應(yīng)的出現(xiàn)概率之和作為當(dāng)前類別對(duì)應(yīng)的相似度。
[0076]舉例來(lái)說(shuō)，有兩個(gè)類別分別是類別A和類別B，類別A的特征向量中包括:詞串A、詞串B、詞串C，詞串A出現(xiàn)在類別A的出現(xiàn)概率是0.2，詞串B出現(xiàn)在類別A的出現(xiàn)概率是0.3，詞串C出現(xiàn)在類別A的出現(xiàn)概率是0.5。類別B的特征向量中包括:詞串C、詞串D，詞串C出現(xiàn)在類另IjB的出現(xiàn)概率是0.2，詞串D出現(xiàn)在類別B的出現(xiàn)概率是0.8。待分類文檔A對(duì)應(yīng)的待匹配詞串有詞串A、詞串C、詞串E。詞串A在類別A和類別B的出現(xiàn)概率分別是0.2和O，詞串C在類別A和類別B的出現(xiàn)概率分別是0.5和0.2，詞串E在類別A和類別B的出現(xiàn)概率均是O。針對(duì)類別A，確定待分類文檔A的所有待匹配詞串在類別A的出現(xiàn)概率之和為:詞串A在類別A的出現(xiàn)概率+詞串C在類別A的出現(xiàn)概率+詞串E在類別A的出現(xiàn)概率=0.7;確定待分類文檔A的所有待匹配詞串在類別B的出現(xiàn)概率之和為:詞串A在類別B的出現(xiàn)概率+詞串C在類別B的出現(xiàn)概率+詞串E在類別B的出現(xiàn)概率= 0.2?？梢?，匹配特征向量與類別A的特征向量的相似度為0.7，匹配特征向量與類別B的特征向量的相似度為0.2，所以，待分類文檔A屬于類別A。
[0077]為了滿足用戶對(duì)分類準(zhǔn)確率的要求，可以在對(duì)待分類文檔進(jìn)行分類之前，對(duì)每個(gè)類別的特征向量進(jìn)行測(cè)試。在一種可能的實(shí)現(xiàn)方式中，在所述S2之后，在所述S3之前，還包括:
[0078]Al:獲取多個(gè)測(cè)試文檔，確定每個(gè)測(cè)試文檔的實(shí)際類別；
[0079]A2:從每個(gè)測(cè)試文檔中，獲取待測(cè)試詞串；
[0080]A3:根據(jù)每個(gè)類別的特征向量，確定每個(gè)待測(cè)試詞串在每個(gè)類別的出現(xiàn)概率；
[0081]A4:針對(duì)每個(gè)類別，確定所述當(dāng)前測(cè)試文檔的所有待測(cè)試詞串在當(dāng)前類別的出現(xiàn)概率之和；
[0082]A5:將出現(xiàn)概率之和最大的類別作為所述當(dāng)前測(cè)試文檔對(duì)應(yīng)的匹配類別；
[0083]A6:根據(jù)每個(gè)測(cè)試文檔的匹配類別和每個(gè)測(cè)試文檔的實(shí)際類別，確定每個(gè)類別對(duì)應(yīng)的分類準(zhǔn)確率；
[0084]A7:分別判斷每個(gè)類別對(duì)應(yīng)的分類準(zhǔn)確率是否大于等于預(yù)設(shè)準(zhǔn)確率閾值，如果是，則執(zhí)行步驟S3，否則，執(zhí)行步驟AS;
[0085]AS:將所述多個(gè)測(cè)試文檔作為所述訓(xùn)練文檔，執(zhí)行步驟SI。
[0086]在該實(shí)現(xiàn)方式中，可以獲取某個(gè)類別的測(cè)試文檔，對(duì)某個(gè)類別進(jìn)行測(cè)試，每個(gè)類別的預(yù)設(shè)準(zhǔn)確率閾值可以根據(jù)需要設(shè)置。通過(guò)該實(shí)現(xiàn)方式，可以通過(guò)測(cè)試文檔對(duì)特征向量進(jìn)行測(cè)試，當(dāng)某個(gè)類別不能達(dá)到要求時(shí)，可以將測(cè)試文檔作為訓(xùn)練文檔，再對(duì)該類別進(jìn)行訓(xùn)練。
[0087]在該實(shí)現(xiàn)方式中，在計(jì)算每個(gè)類別對(duì)應(yīng)的分類準(zhǔn)確率時(shí)，分別判斷每個(gè)測(cè)試文檔的匹配類別是否與其實(shí)際類別相同，如果相同，則確定當(dāng)前測(cè)試文檔分類準(zhǔn)確，否則，確定當(dāng)前測(cè)試文檔分類錯(cuò)誤。確定每個(gè)實(shí)際類別中測(cè)試文檔的總數(shù)A，確定每個(gè)實(shí)際類別中分類準(zhǔn)確的測(cè)試文檔的數(shù)量B，每個(gè)類別對(duì)應(yīng)的分類準(zhǔn)確率為:B/A。舉例來(lái)說(shuō)，有10篇測(cè)試文檔的實(shí)際類別為類別A，在進(jìn)行分類后，這10篇測(cè)試文檔有8篇的匹配類別為類別A，也就是，針對(duì)類別A，有8篇是分類準(zhǔn)確的，確定出類別A對(duì)應(yīng)的分類準(zhǔn)確率為:8/10 = 0.8。其中，預(yù)設(shè)準(zhǔn)確率閾值可以設(shè)置為80%。
[0088]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面結(jié)合附圖及具體實(shí)施例對(duì)本發(fā)

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2 3 4

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文檔分類方法相關(guān)技術(shù)

射線裝置分類辦法相關(guān)技術(shù)

射線裝置分類相關(guān)技術(shù)

文檔分類相關(guān)技術(shù)

文檔分類管理相關(guān)技術(shù)

我的世界分類裝置相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種文檔分類的方法及裝置的制造方法_2