Xml文件分類方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種XML文件分類方法及系統(tǒng),該方法包括:對訓(xùn)練語料集合中的訓(xùn)練XML文件進行預(yù)處理,所述預(yù)處理包括:抽取鏈接信息、壓縮文件樹、篩選文件特征、以及計算文件特征值;抽取處理后的訓(xùn)練語料集合中的閉合頻繁子樹;分別構(gòu)建基于所述閉合頻繁子樹的SLVM文件向量模型和基于鏈接信息的SLVM文件向量模型;基于所述SLVM文件向量模型利用SVM算法對待測XML文件進行分類。利用本發(fā)明,可以實現(xiàn)對XML文件的自動分類,提高分類效果。
【專利說明】XML文件分類方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)字出版【技術(shù)領(lǐng)域】,具體而言,涉及一種XML文件分類方法及系統(tǒng)。
【背景技術(shù)】
[0002] 目前,互聯(lián)網(wǎng)已經(jīng)形成了一個巨大的XML格式的數(shù)據(jù)構(gòu)成的數(shù)據(jù)倉庫,蘊含了豐 富的信息,因此,對XML文檔的挖掘已經(jīng)成為快速有效地從互聯(lián)網(wǎng)上獲取信息的最佳途徑 之一。
[0003] XML (可擴展標記語言)文件屬于半結(jié)構(gòu)化文件,采用樹形嵌套結(jié)構(gòu)保存內(nèi)容信息, 這種樹形結(jié)構(gòu)有時候?qū)τ诮?jīng)典的數(shù)據(jù)挖掘算法來說過于復(fù)雜。
[0004] 為此,針對XML文件的數(shù)據(jù)特點,現(xiàn)有技術(shù)采用對XML文件進行分類的方法,以簡 化數(shù)據(jù)挖掘算法的復(fù)雜度。目前,主要有以下幾種相關(guān)技術(shù):
[0005] 1.首先對XML文件建模,再使用XML文件模型描述整篇XML文件。該技術(shù)在減少 結(jié)構(gòu)信息損失的前提下盡可能地簡化XML文件模型,通常將XML文件表述為層次結(jié)構(gòu)模型 或者擴展的向量空間模型。然而其在將樹簡化為層次并且使用相似度計算方法計算時,將 原來可能并不存在的相關(guān)性引入了模型。從語義上看,兩個不存在嵌套關(guān)系的XML元素僅 僅因為在XML樹結(jié)構(gòu)中的層次相鄰而關(guān)聯(lián)在了一起。這種模型與原XML文件語義上的不一 致性可能會影響之后分類和聚類的效果。
[0006] 2.不對XML文件的樹形結(jié)構(gòu)進行簡化和壓縮,利用樹編輯距離作為比較標準,直 接進行樹形結(jié)構(gòu)上的比較??稍赬ML語料中標簽之間順序不是很明確的情況下,這種方法 不僅不能提高分類效果,反而會對分類結(jié)果造成不良影響。
[0007] 3.提取結(jié)構(gòu)信息中頻繁出現(xiàn)的局部結(jié)構(gòu)信息,包括元素、父子關(guān)系、兄弟關(guān)系,路 徑、子樹等。然而XML文件結(jié)構(gòu)由樹結(jié)構(gòu)轉(zhuǎn)化為路徑這種一維結(jié)構(gòu),會有很多結(jié)構(gòu)信息的損 失,例如XML文件通常都會包含的并列結(jié)構(gòu)信息在這種基于子路徑的模型中就不能表示出 來。于是隨之出現(xiàn)了基于頻繁子項的分類算法,如基于頻繁路徑、基于頻繁子樹的分類算 法,可是隨著文件樹節(jié)點的增加以及文件大小的增加,頻繁項抽取的數(shù)量也呈指數(shù)量級的 增加,分類效率會急劇降低。
[0008] 針對結(jié)構(gòu)化文件分類的以上描述,單獨基于文件建模、編輯距離、頻繁子項的方法 都不能很好地進行自動分類。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明實施例提供一種XML文件分類方法及系統(tǒng),以實現(xiàn)對XML文件的自動分類, 提高分類效果。
[0010] 一種XML文件分類方法,包括:
[0011] 對訓(xùn)練語料集合中的訓(xùn)練XML文件進行預(yù)處理,所述預(yù)處理包括:抽取鏈接信息、 壓縮文件樹、篩選文件特征、以及計算文件特征值;
[0012] 抽取處理后的訓(xùn)練語料集合中的閉合頻繁子樹;
[0013] 分別構(gòu)建基于所述閉合頻繁子樹的SLVM文件向量模型和基于鏈接信息的SLVM文 件向量模型;
[0014] 基于所述SLVM文件向量模型利用SVM算法對待測XML文件進行分類。
[0015] 一種XML文件分類系統(tǒng),包括:
[0016] 預(yù)處理單元,用于對訓(xùn)練語料集合中的訓(xùn)練XML文件進行預(yù)處理,所述預(yù)處理包 括:抽取鏈接信息、壓縮文件樹、篩選文件特征、以及計算文件特征值;
[0017] 抽取單元,用于抽取處理后的訓(xùn)練語料集合中的閉合頻繁子樹;
[0018] 模型構(gòu)建單元,用于分別構(gòu)建基于所述閉合頻繁子樹的SLVM文件向量模型和基 于鏈接信息的SLVM文件向量模型;
[0019] 分類單元,用于基于所述SLVM文件向量模型利用SVM算法對待測XML文件進行分 類。
[0020] 本發(fā)明實施例提供的XML文件分類方法及系統(tǒng),對訓(xùn)練語料集合中的訓(xùn)練XML文 件進行預(yù)處理,抽取處理后的訓(xùn)練語料集合中的閉合頻繁子樹;分別構(gòu)建基于所述閉合頻 繁子樹的SLVM文件向量模型和基于鏈接信息的SLVM文件向量模型;基于所述SLVM文件向 量模型利用SVM算法對待測XML文件進行分類。本發(fā)明實施例可以針對大規(guī)模XML文件, 實現(xiàn)對XML文件的自動分類,并提高分類效果。
【專利附圖】
【附圖說明】
[0021] 圖1是本發(fā)明實施例XML文件分類方法的流程圖;
[0022] 圖2是XML文件集合中文件之間的鏈接關(guān)系示意圖;
[0023] 圖3是本發(fā)明實施例中文件樹的示意圖;
[0024] 圖4是本發(fā)明實施例中基于SLVM文件向量模型對待測XML文件進行分類的一種 流程圖;
[0025] 圖5是本發(fā)明實施例中基于SLVM文件向量模型對待測XML文件進行分類的另一 種流程圖;
[0026] 圖6是本發(fā)明實施例XML文件分類系統(tǒng)的結(jié)構(gòu)示意圖;
[0027] 圖7是本發(fā)明實施例XML文件分類系統(tǒng)中預(yù)處理單元的一種結(jié)構(gòu)示意圖;
[0028] 圖8是本發(fā)明實施例XML文件分類系統(tǒng)中抽取單元的一種結(jié)構(gòu)示意圖;
[0029] 圖9是本發(fā)明實施例XML文件分類系統(tǒng)中分類單元的一種結(jié)構(gòu)示意圖;
[0030] 圖10是本發(fā)明實施例XML文件分類系統(tǒng)中分類單元的另一種結(jié)構(gòu)示意圖。
【具體實施方式】
[0031] 下面將參考附圖并結(jié)合實施例,進一步詳細說明本發(fā)明。
[0032] 針對現(xiàn)有技術(shù)中的問題,本發(fā)明實施例提供一種XML文件分類方法和裝置,針對 大規(guī)模XML文件(通常指XML文件數(shù)量在十萬個以上),實現(xiàn)對XML文件的自動分類,并提高 分類效率及分類效果。
[0033] 如圖1所示,是本發(fā)明實施例XML文件分類方法的流程圖,包括以下步驟:
[0034] 步驟101,對訓(xùn)練語料集合中的訓(xùn)練XML文件進行預(yù)處理。
[0035] 對訓(xùn)練XML文件的預(yù)處理主要包括:抽取鏈接信息、壓縮文件樹、篩選文件特征, 計算文件特征值等。
[0036] 具體地,可以通過抽取所述訓(xùn)練XML文件中的鏈接信息(鏈接信息是指:XML文件 中有一些鏈接,通過點擊這些鏈接,可以訪問對應(yīng)的XML文件)來獲取訓(xùn)練語料集合中訓(xùn)練 XML文件間的鏈接關(guān)系。
[0037] 如圖2所示,示出了一個集合大小為6的XML文件集合中,文件之間的鏈接關(guān)系。
[0038] 從圖中可以得到文件間的鏈出鏈入關(guān)系,其中:
[0039] 鏈出關(guān)系為:
[0040] a)文件1的鏈出文件是文件2和3 ;
[0041] b)文件2的鏈出文件是文件5 ;
[0042] c)文件3的鏈出文件是文件4、5和6 ;
[0043] d)文件6的鏈出文件是文件3和5。
[0044] 鏈入關(guān)系為:
[0045] a)文件2的鏈入文件是文件1 ;
[0046] b)文件3的鏈入文件是文件1和6 ;
[0047] c)文件4的鏈入文件是文件3 ;
[0048] d)文件5的鏈出文件是文件2、3和6。
[0049] e)文件6的鏈出文件是文件3。
[0050] 所述文件樹是指每個XML文件都可以通過一個樹形結(jié)構(gòu)來表示,這個樹形結(jié)構(gòu)叫 文件樹。
[0051] 如,對于下面所示的XML文檔,其對應(yīng)的文件樹如圖3所示。
[0052] <?xml verston=" 1.0" encoding="UTF-8,'?> <!- generated by CLiX/Wiki2XML [MPI-Inf, MMCi@UdS] $LastChangedRevision: 92 S on 17.04.2009 04:39:08[mciao0825]-> <!DOCTYPE article SYSTEM M/articie.dtd"> <article xmlns:xlink="http://wvvvv.w3.org/1999/xlink">
[0053] 〈header〉 <ti 11 e>Porta i: Luth eran i sni/box -foote r</t i 11 e> <id> 18330000</id> <revision> <id>224158557</id> <1:imestamp>2008-07-07T 16:14:22Z</timesl:amp> 〈contributor〉 <usemame>John Carter</usemame> <id>3358555</id> 〈/contributor〉 </revision> </header> 〈/article〉
[0054] 在圖3所示的上述XML文件對應(yīng)的文件樹中,葉子節(jié)點是每個XML元素的內(nèi)容,非 葉子節(jié)點是XML文檔的標簽。
[0055] 在本發(fā)明實施例中,壓縮文件樹的過程如下:
[0056] (1)抽取訓(xùn)練語料集合中所有訓(xùn)練XML文件中的標簽。
[0057] (2)計算所述標簽與每個類的相關(guān)性。
[0058] 具體地,比如對于文件類別C,將訓(xùn)練語料集合中所有訓(xùn)練XML文件分為兩類:C類 和非C類,采用卡方的方法,計算每個標簽與類C之間的相關(guān)性。
[0059] (3)剔除相關(guān)性低于設(shè)定的相關(guān)性閾值的標簽。
[0060] 所述相關(guān)性閾值的設(shè)定可以根據(jù)實際需要來選擇,比如,相關(guān)性閾值可以設(shè)置為 時 0· 5。
[0061] (4)將被剔除的標簽所包含的文本內(nèi)容合并到文件樹中所述標簽的父節(jié)點中。
[0062] (5)合并所述文件樹中路徑一致的節(jié)點。
[0063] 所述篩選文件特征的處理過程是為了去除一些冗余,減少影響分類效果的噪音。
[0064] 在本發(fā)明實施例中,所述篩選文件特征的過程如下:
[0065] (1)剔除所述訓(xùn)練XML文件中的停用詞,停用詞是指一些非常普遍存在的詞,比如 說英文中的the、an、that等,中文中的這個、那個、的、了等。去除這些停用詞可以提高效果 和程序的執(zhí)行效率。
[0066] (2 )抽取所述訓(xùn)練XML文件中的特征詞,特征詞是指XML文件中開始標簽和結(jié)束標 簽之間的文本內(nèi)容。
[0067] (3)根據(jù)所述特征詞與類的對應(yīng)關(guān)系,計算所述特征詞的分值。具體地,可以采用 互信息方式計算所述特征詞的分值。
[0068] (4)剔除分值低于設(shè)定的分值閾值的特征詞。
[0069] 所述分值閾值的設(shè)定可以根據(jù)實際需要來選擇,比如,比如分值閾值可以是0. 5。 所述計算文件特征值具體是指計算XML文件特征的IDF值。
[0070] IDF是指反文檔頻率(Inverse Document Frequency),如果包含某詞語的文檔越 少,則說明該詞語具有很好的區(qū)分類別的能力,IDF的計算公式如下:
[0071] IDF(j)=l+log2(N/df(tj))
[0072] 公式中的df(tp表示出現(xiàn)詞條\的文檔總數(shù),N表示文檔集合中文檔的個數(shù)。
[0073] 步驟102,抽取處理后的訓(xùn)練語料集合中的閉合頻繁子樹。
[0074] 具體地,可以包括以下步驟:
[0075] (1)設(shè)置最小支持度(支持度是關(guān)聯(lián)規(guī)則中的一個參數(shù),在計算頻繁項的時候,頻 繁項的頻繁程度即為支持度),利用頻繁子樹抽取算法對處理后的訓(xùn)練語料集合中的XML文 件進行頻繁子樹抽取。
[0076] (2)根據(jù)所述最小支持度從抽取得到的頻繁子樹中獲取閉合頻繁子樹。
[0077] 所謂閉合頻繁子樹是指:若T是頻繁子樹,并且它的任意超樹的支持度都小于T的 支持度,則稱T為閉合頻繁子樹。
[0078] (3)計算每個閉合頻繁子樹相對于每個類的卡方值;
[0079] (4)對于每個類保留最相關(guān)(卡方值越高越相關(guān))的固定數(shù)目(比如,可以設(shè)為200) 的閉合頻繁子樹。
[0080] 步驟103,分別構(gòu)建基于所述閉合頻繁子樹的SLVM (結(jié)構(gòu)鏈接向量模型)文件向量 模型和基于鏈接信息的SLVM文件向量模型。
[0081] 需要說明的是,在本發(fā)明實施例中,可以采用相同的方法構(gòu)建基于閉合頻繁子樹 的SLVM文件向量模型和基于鏈接信息的SLVM文件向量模型,具體的構(gòu)建過程將在下面分 別說明。
[0082] 構(gòu)建基于所述閉合頻繁子樹的SLVM文件向量模型可以包括以下步驟:
[0083] (1)對處理后的訓(xùn)練語料集合中的XML文件,抽取所述XML文件包含的閉合頻繁子 樹對應(yīng)的文本內(nèi)容。
[0084] (2)將每個閉合頻繁子樹對應(yīng)的文本內(nèi)容表示成一個一維向量,向量上的特征值 為每個詞的TF*IDF值。
[0085] 在向量空間模型中,常用的權(quán)重的計算方法是TF_IDF[2°]權(quán)值計算方法。TF-IDF 的主要思想是:如果某個詞語在一篇文檔中出現(xiàn)的頻率高,并且在其他文章中很少出現(xiàn), 則該詞語具有很好的類別區(qū)分的能力。TF是指詞頻(Term Frequency),即詞語在文檔中 出現(xiàn)的頻率,用來反映詞語對文檔的重要程度。IDF是指反文檔頻率(Inverse Document Frequency),如果包含某詞語的文檔越少,則說明該詞語具有很好的區(qū)分類別的能力。 TF-IDF的計算公式如下所示。
[0086]
【權(quán)利要求】
1. 一種XML文件分類方法,其特征在于,包括: 對訓(xùn)練語料集合中的訓(xùn)練XML文件進行預(yù)處理,所述預(yù)處理包括:抽取鏈接信息、壓縮 文件樹、篩選文件特征、以及計算文件特征值; 抽取處理后的訓(xùn)練語料集合中的閉合頻繁子樹; 分別構(gòu)建基于所述閉合頻繁子樹的SLVM文件向量模型和基于鏈接信息的SLVM文件向 量模型; 基于所述SLVM文件向量模型利用SVM算法對待測XML文件進行分類。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述抽取鏈接信息包括: 抽取訓(xùn)練XML文件中的鏈接信息,并獲取訓(xùn)練XML文件間的鏈接關(guān)系。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述壓縮文件樹包括: 抽取所述訓(xùn)練XML文件中的標簽; 計算所述標簽與每個類別的相關(guān)性; 剔除相關(guān)性低于設(shè)定的相關(guān)性閾值的標簽; 將被剔除的標簽所包含的文本內(nèi)容合并到所述訓(xùn)練XML文件對應(yīng)的文件樹中所述標 簽的父節(jié)點中; 合并所述文件樹中路徑一致的節(jié)點。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述篩選文件特征包括: 剔除所述訓(xùn)練XML文件中的停用詞; 抽取所述訓(xùn)練XML文件中的特征詞; 根據(jù)所述特征詞與類的對應(yīng)關(guān)系,計算所述特征詞的分值; 剔除分值低于設(shè)定的分值閾值的特征詞。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述抽取處理后的訓(xùn)練語料集合中的閉 合頻繁子樹包括: 對處理后的訓(xùn)練語料集合中的XML文件進行頻繁子樹抽取; 根據(jù)設(shè)置的最小支持度從抽取得到的頻繁子樹中獲取閉合頻繁子樹; 計算每個閉合頻繁子樹相對于每個類的卡方值; 對于每個類保留最相關(guān)的固定數(shù)目的閉合頻繁子樹。
6. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述構(gòu)建基于所述閉合頻繁子樹的SLVM 文件向量模型包括: 對處理后的訓(xùn)練語料集合中的XML文件,抽取所述XML文件包含的閉合頻繁子樹對應(yīng) 的文本內(nèi)容; 將每個閉合頻繁子樹對應(yīng)的文本內(nèi)容表示成一個一維向量,向量上的特征值為每個詞 的 TF*IDF 值; 由多個所述一維向量組成基于閉合頻繁子樹的SLVM文件向量模型。
7. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述構(gòu)建立基于鏈接信息的SLVM文件向 量模型包括: 根據(jù)處理后的訓(xùn)練語料集合中的XML文件中的鏈接信息所指向的XML文件的類建立文 本向量,所述文本向量中的每一維特征值為所述XML文件的鏈出文件屬于對應(yīng)類的概率; 由多個所述一維向量組成基于鏈接信息的SLVM文件向量模型。
8. 根據(jù)權(quán)利要求1至7任一項所述的方法,其特征在于,所述基于所述SLVM文件向量 模型利用SVM算法對待測XML文件進行分類包括: 設(shè)置基于閉合頻繁子樹的SVM分類器的參數(shù); 將所述基于閉合頻繁子樹的SLVM文件向量模型作為SVM分類器的輸入,對SVM分類器 進行訓(xùn)練,得到對應(yīng)每個文件類別的第一分類模型; 利用所述第一分類模型對待測的XML文件進行預(yù)測,得到所述XML文件相對于每個文 件類別的第一得分; 設(shè)置基于鏈接信息的SVM分類器的參數(shù); 將所述基于鏈接信息的SLVM文件向量模型作為SVM分類器的輸入,對SVM分類器進行 訓(xùn)練,得到對應(yīng)每個文件類別的第二分類模型; 利用所述第二分類模型對待測的XML文件進行預(yù)測,得到所述XML文件相對于每個文 件類別的第二得分; 對相對于每個文件類別的第一得分和第二得分進行加權(quán),得到所述XML文件相對于每 個文件類別的總得分; 如果所述總得分大于設(shè)定的第一閾值,則所述XML文件屬于所述總得分對應(yīng)的文件類 別。
9. 根據(jù)權(quán)利要求1至7任一項所述的方法,其特征在于,所述基于所述SLVM文件向量 模型利用SVM算法對待測XML文件進行分類包括: 設(shè)置基于閉合頻繁子樹和鏈接信息的SVM分類器的參數(shù); 將所述基于鏈接信息的SLVM文件向量模型和基于閉合頻繁子樹的SLVM文件向量模型 合并形成新的SLVM文件模型,作為SVM分類器的輸入,對SVM分類器進行訓(xùn)練,得到對應(yīng)每 個文件類別的第三分類模型; 利用所述第三分類模型對待測的XML文件進行預(yù)測,得到所述XML文件相對于每個文 件類別的第三得分; 如果所述第三得分大于設(shè)定的第二閾值,則所述XML文件屬于所述總得分對應(yīng)的文件 類別。
10. -種XML文件分類系統(tǒng),其特征在于,包括: 預(yù)處理單元,用于對訓(xùn)練語料集合中的訓(xùn)練XML文件進行預(yù)處理,所述預(yù)處理包括:抽 取鏈接信息、壓縮文件樹、篩選文件特征、以及計算文件特征值; 抽取單元,用于抽取處理后的訓(xùn)練語料集合中的閉合頻繁子樹; 模型構(gòu)建單元,用于分別構(gòu)建基于所述閉合頻繁子樹的SLVM文件向量模型和基于鏈 接信息的SLVM文件向量模型; 分類單元,用于基于所述SLVM文件向量模型利用SVM算法對待測XML文件進行分類。
11. 根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述預(yù)處理單元包括: 鏈接信息抽取子單元,用于抽取訓(xùn)練XML文件中的鏈接信息,并獲取訓(xùn)練XML文件間的 鏈接關(guān)系。 壓縮子單元,用于抽取所述訓(xùn)練XML文件中的標簽;計算所述標簽與每個類別的相關(guān) 性;剔除相關(guān)性低于設(shè)定的相關(guān)性閾值的標簽;將被剔除的標簽所包含的文本內(nèi)容合并到 所述訓(xùn)練XML文件對應(yīng)的文件樹中所述標簽的父節(jié)點中;合并所述文件樹中路徑一致的節(jié) 占- ^ \\\ ? 篩選子單元,用于剔除所述訓(xùn)練XML文件中的停用詞;抽取所述訓(xùn)練XML文件中的特征 詞; 分值計算子單元,用于根據(jù)所述特征詞與類的對應(yīng)關(guān)系,計算所述特征詞的分值; 所述篩選子單元,還用于剔除分值低于設(shè)定的分值閾值的特征詞。
12. 根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述抽取單元包括: 頻繁子樹抽取子單元,用于對處理后的訓(xùn)練語料集合中的XML文件進行頻繁子樹抽 取; 閉合頻繁子樹獲取子單元,用于根據(jù)設(shè)置的最小支持度從抽取得到的頻繁子樹中獲取 閉合頻繁子樹; 卡方值計算子單元,用于計算每個閉合頻繁子樹相對于每個類的卡方值; 選擇子單元,用于對于每個類保留最相關(guān)的固定數(shù)目的閉合頻繁子樹。
13. 根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述模型構(gòu)建單元包括:第一模型構(gòu)建 單元和第二模型構(gòu)建單元; 所述第一模型構(gòu)建單元,用于對處理后的訓(xùn)練語料集合中的XML文件,抽取所述XML文 件包含的閉合頻繁子樹對應(yīng)的文本內(nèi)容;將每個閉合頻繁子樹對應(yīng)的文本內(nèi)容表示成一個 一維向量,向量上的特征值為每個詞的TF*IDF值;由多個所述一維向量組成基于閉合頻繁 子樹的SLVM文件向量模型; 所述第二模型構(gòu)建單元,用于根據(jù)處理后的訓(xùn)練語料集合中的XML文件中的鏈接信息 所指向的XML文件的類建立文本向量,所述文本向量中的每一維特征值為所述XML文件的 鏈出文件屬于對應(yīng)類的概率;由多個所述一維向量組成基于鏈接信息的SLVM文件向量模 型。
14. 根據(jù)權(quán)利要求10至13任一項所述的系統(tǒng),其特征在于,所述分類單元包括: 參數(shù)設(shè)置子單元,用于設(shè)置基于閉合頻繁子樹的SVM分類器的參數(shù)、以及基于鏈接信 息的SVM分類器的參數(shù); 第一分類器訓(xùn)練子單元,用于將所述基于閉合頻繁子樹的SLVM文件向量模型作為SVM 分類器的輸入,對SVM分類器進行訓(xùn)練,得到對應(yīng)每個文件類別的第一分類模型; 第二分類器訓(xùn)練子單元,用于將所述基于鏈接信息的SLVM文件向量模型作為SVM分類 器的輸入,對SVM分類器進行訓(xùn)練,得到對應(yīng)每個文件類別的第二分類模型; 計算子單元,用于利用所述第一分類模型對待測的XML文件進行預(yù)測,得到所述XML 文件相對于每個文件類別的第一得分,并利用所述第二分類模型對待測的XML文件進行預(yù) 測,得到所述XML文件相對于每個文件類別的第二得分; 加權(quán)子單元,用于對相對于每個文件類別的第一得分和第二得分進行加權(quán),得到所述 XML文件相對于每個文件類別的總得分; 判斷子單元,用于在所述總得分大于設(shè)定的第一閾值時,確定所述XML文件屬于所述 總得分對應(yīng)的文件類別。
15. 根據(jù)權(quán)利要求10至13任一項所述的系統(tǒng),其特征在于,所述分類單元包括: 設(shè)置子單元,用于設(shè)置基于閉合頻繁子樹和鏈接信息的SVM分類器的參數(shù); 分類器訓(xùn)練子單元,用于將所述基于鏈接信息的SLVM文件向量模型和基于閉合頻繁 子樹的SLVM文件向量模型合并形成新的SLVM文件模型,作為SVM分類器的輸入,對SVM分 類器進行訓(xùn)練,得到對應(yīng)每個文件類別的第三分類模型; 預(yù)測子單元,用于利用所述第三分類模型對待測的XML文件進行預(yù)測,得到所述XML文 件相對于每個文件類別的第三得分; 確定子單元,用于在所述第三得分大于設(shè)定的第二閾值時,確定所述XML文件屬于所 述總得分對應(yīng)的文件類別。
【文檔編號】G06F17/30GK104281573SQ201310272209
【公開日】2015年1月14日 申請日期:2013年7月1日 優(yōu)先權(quán)日:2013年7月1日
【發(fā)明者】王松林, 楊建武, 洪毅虹 申請人:北京大學(xué), 北大方正集團有限公司, 北京北大方正電子有限公司