Xml文件分類方法及系統(tǒng)的制作方法

文檔序號：6505218閱讀：157來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

Xml文件分類方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種XML文件分類方法及系統(tǒng)，該方法包括：對訓(xùn)練語料集合中的訓(xùn)練XML文件進行預(yù)處理，所述預(yù)處理包括：抽取鏈接信息、壓縮文件樹、篩選文件特征、以及計算文件特征值；抽取處理后的訓(xùn)練語料集合中的閉合頻繁子樹；分別構(gòu)建基于所述閉合頻繁子樹的SLVM文件向量模型和基于鏈接信息的SLVM文件向量模型；基于所述SLVM文件向量模型利用SVM算法對待測XML文件進行分類。利用本發(fā)明，可以實現(xiàn)對XML文件的自動分類，提高分類效果。
【專利說明】XML文件分類方法及系統(tǒng)

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)字出版【技術(shù)領(lǐng)域】，具體而言，涉及一種XML文件分類方法及系統(tǒng)。

【背景技術(shù)】
[0002] 目前，互聯(lián)網(wǎng)已經(jīng)形成了一個巨大的XML格式的數(shù)據(jù)構(gòu)成的數(shù)據(jù)倉庫，蘊含了豐富的信息，因此，對XML文檔的挖掘已經(jīng)成為快速有效地從互聯(lián)網(wǎng)上獲取信息的最佳途徑之一。
[0003] XML (可擴展標記語言)文件屬于半結(jié)構(gòu)化文件，采用樹形嵌套結(jié)構(gòu)保存內(nèi)容信息，這種樹形結(jié)構(gòu)有時候?qū)τ诮?jīng)典的數(shù)據(jù)挖掘算法來說過于復(fù)雜。
[0004] 為此，針對XML文件的數(shù)據(jù)特點，現(xiàn)有技術(shù)采用對XML文件進行分類的方法，以簡化數(shù)據(jù)挖掘算法的復(fù)雜度。目前，主要有以下幾種相關(guān)技術(shù)：
[0005] 1.首先對XML文件建模，再使用XML文件模型描述整篇XML文件。該技術(shù)在減少結(jié)構(gòu)信息損失的前提下盡可能地簡化XML文件模型，通常將XML文件表述為層次結(jié)構(gòu)模型或者擴展的向量空間模型。然而其在將樹簡化為層次并且使用相似度計算方法計算時，將原來可能并不存在的相關(guān)性引入了模型。從語義上看，兩個不存在嵌套關(guān)系的XML元素僅僅因為在XML樹結(jié)構(gòu)中的層次相鄰而關(guān)聯(lián)在了一起。這種模型與原XML文件語義上的不一致性可能會影響之后分類和聚類的效果。
[0006] 2.不對XML文件的樹形結(jié)構(gòu)進行簡化和壓縮，利用樹編輯距離作為比較標準，直接進行樹形結(jié)構(gòu)上的比較?？稍赬ML語料中標簽之間順序不是很明確的情況下，這種方法不僅不能提高分類效果，反而會對分類結(jié)果造成不良影響。
[0007] 3.提取結(jié)構(gòu)信息中頻繁出現(xiàn)的局部結(jié)構(gòu)信息，包括元素、父子關(guān)系、兄弟關(guān)系，路徑、子樹等。然而XML文件結(jié)構(gòu)由樹結(jié)構(gòu)轉(zhuǎn)化為路徑這種一維結(jié)構(gòu)，會有很多結(jié)構(gòu)信息的損失，例如XML文件通常都會包含的并列結(jié)構(gòu)信息在這種基于子路徑的模型中就不能表示出來。于是隨之出現(xiàn)了基于頻繁子項的分類算法，如基于頻繁路徑、基于頻繁子樹的分類算法，可是隨著文件樹節(jié)點的增加以及文件大小的增加，頻繁項抽取的數(shù)量也呈指數(shù)量級的增加，分類效率會急劇降低。
[0008] 針對結(jié)構(gòu)化文件分類的以上描述，單獨基于文件建模、編輯距離、頻繁子項的方法都不能很好地進行自動分類。

【發(fā)明內(nèi)容】

[0009] 本發(fā)明實施例提供一種XML文件分類方法及系統(tǒng)，以實現(xiàn)對XML文件的自動分類，提高分類效果。
[0010] 一種XML文件分類方法，包括：
[0011] 對訓(xùn)練語料集合中的訓(xùn)練XML文件進行預(yù)處理，所述預(yù)處理包括：抽取鏈接信息、壓縮文件樹、篩選文件特征、以及計算文件特征值；
[0012] 抽取處理后的訓(xùn)練語料集合中的閉合頻繁子樹；
[0013] 分別構(gòu)建基于所述閉合頻繁子樹的SLVM文件向量模型和基于鏈接信息的SLVM文件向量模型；
[0014] 基于所述SLVM文件向量模型利用SVM算法對待測XML文件進行分類。
[0015] 一種XML文件分類系統(tǒng)，包括：
[0016] 預(yù)處理單元，用于對訓(xùn)練語料集合中的訓(xùn)練XML文件進行預(yù)處理，所述預(yù)處理包括：抽取鏈接信息、壓縮文件樹、篩選文件特征、以及計算文件特征值；
[0017] 抽取單元，用于抽取處理后的訓(xùn)練語料集合中的閉合頻繁子樹；
[0018] 模型構(gòu)建單元，用于分別構(gòu)建基于所述閉合頻繁子樹的SLVM文件向量模型和基于鏈接信息的SLVM文件向量模型；
[0019] 分類單元，用于基于所述SLVM文件向量模型利用SVM算法對待測XML文件進行分類。
[0020] 本發(fā)明實施例提供的XML文件分類方法及系統(tǒng)，對訓(xùn)練語料集合中的訓(xùn)練XML文件進行預(yù)處理，抽取處理后的訓(xùn)練語料集合中的閉合頻繁子樹；分別構(gòu)建基于所述閉合頻繁子樹的SLVM文件向量模型和基于鏈接信息的SLVM文件向量模型；基于所述SLVM文件向量模型利用SVM算法對待測XML文件進行分類。本發(fā)明實施例可以針對大規(guī)模XML文件，實現(xiàn)對XML文件的自動分類，并提高分類效果。

【專利附圖】

【附圖說明】
[0021] 圖1是本發(fā)明實施例XML文件分類方法的流程圖；
[0022] 圖2是XML文件集合中文件之間的鏈接關(guān)系示意圖；
[0023] 圖3是本發(fā)明實施例中文件樹的示意圖；
[0024] 圖4是本發(fā)明實施例中基于SLVM文件向量模型對待測XML文件進行分類的一種流程圖；
[0025] 圖5是本發(fā)明實施例中基于SLVM文件向量模型對待測XML文件進行分類的另一種流程圖；
[0026] 圖6是本發(fā)明實施例XML文件分類系統(tǒng)的結(jié)構(gòu)示意圖；
[0027] 圖7是本發(fā)明實施例XML文件分類系統(tǒng)中預(yù)處理單元的一種結(jié)構(gòu)示意圖；
[0028] 圖8是本發(fā)明實施例XML文件分類系統(tǒng)中抽取單元的一種結(jié)構(gòu)示意圖；
[0029] 圖9是本發(fā)明實施例XML文件分類系統(tǒng)中分類單元的一種結(jié)構(gòu)示意圖；
[0030] 圖10是本發(fā)明實施例XML文件分類系統(tǒng)中分類單元的另一種結(jié)構(gòu)示意圖。

【具體實施方式】
[0031] 下面將參考附圖并結(jié)合實施例，進一步詳細說明本發(fā)明。
[0032] 針對現(xiàn)有技術(shù)中的問題，本發(fā)明實施例提供一種XML文件分類方法和裝置，針對大規(guī)模XML文件(通常指XML文件數(shù)量在十萬個以上)，實現(xiàn)對XML文件的自動分類，并提高分類效率及分類效果。
[0033] 如圖1所示，是本發(fā)明實施例XML文件分類方法的流程圖，包括以下步驟：
[0034] 步驟101，對訓(xùn)練語料集合中的訓(xùn)練XML文件進行預(yù)處理。
[0035] 對訓(xùn)練XML文件的預(yù)處理主要包括：抽取鏈接信息、壓縮文件樹、篩選文件特征，計算文件特征值等。
[0036] 具體地，可以通過抽取所述訓(xùn)練XML文件中的鏈接信息(鏈接信息是指：XML文件中有一些鏈接，通過點擊這些鏈接，可以訪問對應(yīng)的XML文件）來獲取訓(xùn)練語料集合中訓(xùn)練 XML文件間的鏈接關(guān)系。
[0037] 如圖2所示，示出了一個集合大小為6的XML文件集合中，文件之間的鏈接關(guān)系。
[0038] 從圖中可以得到文件間的鏈出鏈入關(guān)系，其中：
[0039] 鏈出關(guān)系為：
[0040] a)文件1的鏈出文件是文件2和3 ;
[0041] b)文件2的鏈出文件是文件5 ;
[0042] c)文件3的鏈出文件是文件4、5和6 ;
[0043] d)文件6的鏈出文件是文件3和5。
[0044] 鏈入關(guān)系為：
[0045] a)文件2的鏈入文件是文件1 ;
[0046] b)文件3的鏈入文件是文件1和6 ;
[0047] c)文件4的鏈入文件是文件3 ;
[0048] d)文件5的鏈出文件是文件2、3和6。
[0049] e)文件6的鏈出文件是文件3。
[0050] 所述文件樹是指每個XML文件都可以通過一個樹形結(jié)構(gòu)來表示，這個樹形結(jié)構(gòu)叫文件樹。
[0051] 如，對于下面所示的XML文檔，其對應(yīng)的文件樹如圖3所示。
[0052] <?xml verston=" 1.0" encoding="UTF-8,'?> <!- generated by CLiX/Wiki2XML [MPI-Inf, MMCi@UdS] $LastChangedRevision: 92 S on 17.04.2009 04:39:08[mciao0825]-> <!DOCTYPE article SYSTEM M/articie.dtd"> <article xmlns:xlink="http://wvvvv.w3.org/1999/xlink">
[0053] 〈header〉 <ti 11 e>Porta i: Luth eran i sni/box -foote r</t i 11 e> <id> 18330000</id> <revision> <id>224158557</id> <1:imestamp>2008-07-07T 16:14:22Z</timesl:amp> 〈contributor〉 <usemame>John Carter</usemame> <id>3358555</id> 〈/contributor〉 </revision> </header> 〈/article〉
[0054] 在圖3所示的上述XML文件對應(yīng)的文件樹中，葉子節(jié)點是每個XML元素的內(nèi)容，非葉子節(jié)點是XML文檔的標簽。
[0055] 在本發(fā)明實施例中，壓縮文件樹的過程如下：
[0056] (1)抽取訓(xùn)練語料集合中所有訓(xùn)練XML文件中的標簽。
[0057] (2)計算所述標簽與每個類的相關(guān)性。
[0058] 具體地，比如對于文件類別C，將訓(xùn)練語料集合中所有訓(xùn)練XML文件分為兩類：C類和非C類，采用卡方的方法，計算每個標簽與類C之間的相關(guān)性。
[0059] (3)剔除相關(guān)性低于設(shè)定的相關(guān)性閾值的標簽。
[0060] 所述相關(guān)性閾值的設(shè)定可以根據(jù)實際需要來選擇，比如，相關(guān)性閾值可以設(shè)置為時 0· 5。
[0061] (4)將被剔除的標簽所包含的文本內(nèi)容合并到文件樹中所述標簽的父節(jié)點中。
[0062] (5)合并所述文件樹中路徑一致的節(jié)點。
[0063] 所述篩選文件特征的處理過程是為了去除一些冗余，減少影響分類效果的噪音。
[0064] 在本發(fā)明實施例中，所述篩選文件特征的過程如下：
[0065] (1)剔除所述訓(xùn)練XML文件中的停用詞，停用詞是指一些非常普遍存在的詞，比如說英文中的the、an、that等，中文中的這個、那個、的、了等。去除這些停用詞可以提高效果和程序的執(zhí)行效率。
[0066] (2 )抽取所述訓(xùn)練XML文件中的特征詞，特征詞是指XML文件中開始標簽和結(jié)束標簽之間的文本內(nèi)容。
[0067] (3)根據(jù)所述特征詞與類的對應(yīng)關(guān)系，計算所述特征詞的分值。具體地，可以采用互信息方式計算所述特征詞的分值。
[0068] (4)剔除分值低于設(shè)定的分值閾值的特征詞。
[0069] 所述分值閾值的設(shè)定可以根據(jù)實際需要來選擇，比如，比如分值閾值可以是0. 5。所述計算文件特征值具體是指計算XML文件特征的IDF值。
[0070] IDF是指反文檔頻率（Inverse Document Frequency)，如果包含某詞語的文檔越少，則說明該詞語具有很好的區(qū)分類別的能力，IDF的計算公式如下：
[0071] IDF(j)=l+log2(N/df(tj))
[0072] 公式中的df(tp表示出現(xiàn)詞條\的文檔總數(shù)，N表示文檔集合中文檔的個數(shù)。
[0073] 步驟102,抽取處理后的訓(xùn)練語料集合中的閉合頻繁子樹。
[0074] 具體地，可以包括以下步驟：
[0075] (1)設(shè)置最小支持度(支持度是關(guān)聯(lián)規(guī)則中的一個參數(shù)，在計算頻繁項的時候，頻繁項的頻繁程度即為支持度)，利用頻繁子樹抽取算法對處理后的訓(xùn)練語料集合中的XML文件進行頻繁子樹抽取。
[0076] (2)根據(jù)所述最小支持度從抽取得到的頻繁子樹中獲取閉合頻繁子樹。
[0077] 所謂閉合頻繁子樹是指：若T是頻繁子樹，并且它的任意超樹的支持度都小于T的支持度，則稱T為閉合頻繁子樹。
[0078] (3)計算每個閉合頻繁子樹相對于每個類的卡方值；
[0079] (4)對于每個類保留最相關(guān)(卡方值越高越相關(guān))的固定數(shù)目（比如，可以設(shè)為200) 的閉合頻繁子樹。
[0080] 步驟103,分別構(gòu)建基于所述閉合頻繁子樹的SLVM (結(jié)構(gòu)鏈接向量模型)文件向量模型和基于鏈接信息的SLVM文件向量模型。
[0081] 需要說明的是，在本發(fā)明實施例中，可以采用相同的方法構(gòu)建基于閉合頻繁子樹的SLVM文件向量模型和基于鏈接信息的SLVM文件向量模型，具體的構(gòu)建過程將在下面分別說明。
[0082] 構(gòu)建基于所述閉合頻繁子樹的SLVM文件向量模型可以包括以下步驟：
[0083] (1)對處理后的訓(xùn)練語料集合中的XML文件，抽取所述XML文件包含的閉合頻繁子樹對應(yīng)的文本內(nèi)容。
[0084] (2)將每個閉合頻繁子樹對應(yīng)的文本內(nèi)容表示成一個一維向量，向量上的特征值為每個詞的TF*IDF值。
[0085] 在向量空間模型中，常用的權(quán)重的計算方法是TF_IDF[2°]權(quán)值計算方法。TF-IDF 的主要思想是：如果某個詞語在一篇文檔中出現(xiàn)的頻率高，并且在其他文章中很少出現(xiàn)，則該詞語具有很好的類別區(qū)分的能力。TF是指詞頻（Term Frequency)，即詞語在文檔中出現(xiàn)的頻率，用來反映詞語對文檔的重要程度。IDF是指反文檔頻率（Inverse Document Frequency)，如果包含某詞語的文檔越少，則說明該詞語具有很好的區(qū)分類別的能力。 TF-IDF的計算公式如下所示。
[0086]

【權(quán)利要求】
1. 一種XML文件分類方法，其特征在于，包括：對訓(xùn)練語料集合中的訓(xùn)練XML文件進行預(yù)處理，所述預(yù)處理包括：抽取鏈接信息、壓縮文件樹、篩選文件特征、以及計算文件特征值；抽取處理后的訓(xùn)練語料集合中的閉合頻繁子樹；分別構(gòu)建基于所述閉合頻繁子樹的SLVM文件向量模型和基于鏈接信息的SLVM文件向量模型；基于所述SLVM文件向量模型利用SVM算法對待測XML文件進行分類。
2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述抽取鏈接信息包括：抽取訓(xùn)練XML文件中的鏈接信息，并獲取訓(xùn)練XML文件間的鏈接關(guān)系。
3. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述壓縮文件樹包括：抽取所述訓(xùn)練XML文件中的標簽；計算所述標簽與每個類別的相關(guān)性；剔除相關(guān)性低于設(shè)定的相關(guān)性閾值的標簽；將被剔除的標簽所包含的文本內(nèi)容合并到所述訓(xùn)練XML文件對應(yīng)的文件樹中所述標簽的父節(jié)點中；合并所述文件樹中路徑一致的節(jié)點。
4. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述篩選文件特征包括：剔除所述訓(xùn)練XML文件中的停用詞；抽取所述訓(xùn)練XML文件中的特征詞；根據(jù)所述特征詞與類的對應(yīng)關(guān)系，計算所述特征詞的分值；剔除分值低于設(shè)定的分值閾值的特征詞。
5. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述抽取處理后的訓(xùn)練語料集合中的閉合頻繁子樹包括：對處理后的訓(xùn)練語料集合中的XML文件進行頻繁子樹抽取；根據(jù)設(shè)置的最小支持度從抽取得到的頻繁子樹中獲取閉合頻繁子樹；計算每個閉合頻繁子樹相對于每個類的卡方值；對于每個類保留最相關(guān)的固定數(shù)目的閉合頻繁子樹。
6. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述構(gòu)建基于所述閉合頻繁子樹的SLVM 文件向量模型包括：對處理后的訓(xùn)練語料集合中的XML文件，抽取所述XML文件包含的閉合頻繁子樹對應(yīng) 的文本內(nèi)容；將每個閉合頻繁子樹對應(yīng)的文本內(nèi)容表示成一個一維向量，向量上的特征值為每個詞的 TF*IDF 值；由多個所述一維向量組成基于閉合頻繁子樹的SLVM文件向量模型。
7. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述構(gòu)建立基于鏈接信息的SLVM文件向量模型包括：根據(jù)處理后的訓(xùn)練語料集合中的XML文件中的鏈接信息所指向的XML文件的類建立文本向量，所述文本向量中的每一維特征值為所述XML文件的鏈出文件屬于對應(yīng)類的概率；由多個所述一維向量組成基于鏈接信息的SLVM文件向量模型。
8. 根據(jù)權(quán)利要求1至7任一項所述的方法，其特征在于，所述基于所述SLVM文件向量模型利用SVM算法對待測XML文件進行分類包括：設(shè)置基于閉合頻繁子樹的SVM分類器的參數(shù)；將所述基于閉合頻繁子樹的SLVM文件向量模型作為SVM分類器的輸入，對SVM分類器進行訓(xùn)練，得到對應(yīng)每個文件類別的第一分類模型；利用所述第一分類模型對待測的XML文件進行預(yù)測，得到所述XML文件相對于每個文件類別的第一得分；設(shè)置基于鏈接信息的SVM分類器的參數(shù)；將所述基于鏈接信息的SLVM文件向量模型作為SVM分類器的輸入，對SVM分類器進行訓(xùn)練，得到對應(yīng)每個文件類別的第二分類模型；利用所述第二分類模型對待測的XML文件進行預(yù)測，得到所述XML文件相對于每個文件類別的第二得分；對相對于每個文件類別的第一得分和第二得分進行加權(quán)，得到所述XML文件相對于每個文件類別的總得分；如果所述總得分大于設(shè)定的第一閾值，則所述XML文件屬于所述總得分對應(yīng)的文件類別。
9. 根據(jù)權(quán)利要求1至7任一項所述的方法，其特征在于，所述基于所述SLVM文件向量模型利用SVM算法對待測XML文件進行分類包括：設(shè)置基于閉合頻繁子樹和鏈接信息的SVM分類器的參數(shù)；將所述基于鏈接信息的SLVM文件向量模型和基于閉合頻繁子樹的SLVM文件向量模型合并形成新的SLVM文件模型，作為SVM分類器的輸入，對SVM分類器進行訓(xùn)練，得到對應(yīng)每個文件類別的第三分類模型；利用所述第三分類模型對待測的XML文件進行預(yù)測，得到所述XML文件相對于每個文件類別的第三得分；如果所述第三得分大于設(shè)定的第二閾值，則所述XML文件屬于所述總得分對應(yīng)的文件類別。
10. -種XML文件分類系統(tǒng)，其特征在于，包括：預(yù)處理單元，用于對訓(xùn)練語料集合中的訓(xùn)練XML文件進行預(yù)處理，所述預(yù)處理包括：抽取鏈接信息、壓縮文件樹、篩選文件特征、以及計算文件特征值；抽取單元，用于抽取處理后的訓(xùn)練語料集合中的閉合頻繁子樹；模型構(gòu)建單元，用于分別構(gòu)建基于所述閉合頻繁子樹的SLVM文件向量模型和基于鏈接信息的SLVM文件向量模型；分類單元，用于基于所述SLVM文件向量模型利用SVM算法對待測XML文件進行分類。
11. 根據(jù)權(quán)利要求10所述的系統(tǒng)，其特征在于，所述預(yù)處理單元包括：鏈接信息抽取子單元，用于抽取訓(xùn)練XML文件中的鏈接信息，并獲取訓(xùn)練XML文件間的鏈接關(guān)系。壓縮子單元，用于抽取所述訓(xùn)練XML文件中的標簽；計算所述標簽與每個類別的相關(guān) 性；剔除相關(guān)性低于設(shè)定的相關(guān)性閾值的標簽；將被剔除的標簽所包含的文本內(nèi)容合并到所述訓(xùn)練XML文件對應(yīng)的文件樹中所述標簽的父節(jié)點中；合并所述文件樹中路徑一致的節(jié) 占- ^ \\\ ? 篩選子單元，用于剔除所述訓(xùn)練XML文件中的停用詞；抽取所述訓(xùn)練XML文件中的特征詞；分值計算子單元，用于根據(jù)所述特征詞與類的對應(yīng)關(guān)系，計算所述特征詞的分值；所述篩選子單元，還用于剔除分值低于設(shè)定的分值閾值的特征詞。
12. 根據(jù)權(quán)利要求10所述的系統(tǒng)，其特征在于，所述抽取單元包括：頻繁子樹抽取子單元，用于對處理后的訓(xùn)練語料集合中的XML文件進行頻繁子樹抽取；閉合頻繁子樹獲取子單元，用于根據(jù)設(shè)置的最小支持度從抽取得到的頻繁子樹中獲取閉合頻繁子樹；卡方值計算子單元，用于計算每個閉合頻繁子樹相對于每個類的卡方值；選擇子單元，用于對于每個類保留最相關(guān)的固定數(shù)目的閉合頻繁子樹。
13. 根據(jù)權(quán)利要求10所述的系統(tǒng)，其特征在于，所述模型構(gòu)建單元包括：第一模型構(gòu)建單元和第二模型構(gòu)建單元；所述第一模型構(gòu)建單元，用于對處理后的訓(xùn)練語料集合中的XML文件，抽取所述XML文件包含的閉合頻繁子樹對應(yīng)的文本內(nèi)容；將每個閉合頻繁子樹對應(yīng)的文本內(nèi)容表示成一個一維向量，向量上的特征值為每個詞的TF*IDF值；由多個所述一維向量組成基于閉合頻繁子樹的SLVM文件向量模型；所述第二模型構(gòu)建單元，用于根據(jù)處理后的訓(xùn)練語料集合中的XML文件中的鏈接信息所指向的XML文件的類建立文本向量，所述文本向量中的每一維特征值為所述XML文件的鏈出文件屬于對應(yīng)類的概率；由多個所述一維向量組成基于鏈接信息的SLVM文件向量模型。
14. 根據(jù)權(quán)利要求10至13任一項所述的系統(tǒng)，其特征在于，所述分類單元包括：參數(shù)設(shè)置子單元，用于設(shè)置基于閉合頻繁子樹的SVM分類器的參數(shù)、以及基于鏈接信息的SVM分類器的參數(shù)；第一分類器訓(xùn)練子單元，用于將所述基于閉合頻繁子樹的SLVM文件向量模型作為SVM 分類器的輸入，對SVM分類器進行訓(xùn)練，得到對應(yīng)每個文件類別的第一分類模型；第二分類器訓(xùn)練子單元，用于將所述基于鏈接信息的SLVM文件向量模型作為SVM分類器的輸入，對SVM分類器進行訓(xùn)練，得到對應(yīng)每個文件類別的第二分類模型；計算子單元，用于利用所述第一分類模型對待測的XML文件進行預(yù)測，得到所述XML 文件相對于每個文件類別的第一得分，并利用所述第二分類模型對待測的XML文件進行預(yù) 測，得到所述XML文件相對于每個文件類別的第二得分；加權(quán)子單元，用于對相對于每個文件類別的第一得分和第二得分進行加權(quán)，得到所述 XML文件相對于每個文件類別的總得分；判斷子單元，用于在所述總得分大于設(shè)定的第一閾值時，確定所述XML文件屬于所述總得分對應(yīng)的文件類別。
15. 根據(jù)權(quán)利要求10至13任一項所述的系統(tǒng)，其特征在于，所述分類單元包括：設(shè)置子單元，用于設(shè)置基于閉合頻繁子樹和鏈接信息的SVM分類器的參數(shù)；分類器訓(xùn)練子單元，用于將所述基于鏈接信息的SLVM文件向量模型和基于閉合頻繁子樹的SLVM文件向量模型合并形成新的SLVM文件模型，作為SVM分類器的輸入，對SVM分類器進行訓(xùn)練，得到對應(yīng)每個文件類別的第三分類模型；預(yù)測子單元，用于利用所述第三分類模型對待測的XML文件進行預(yù)測，得到所述XML文件相對于每個文件類別的第三得分；確定子單元，用于在所述第三得分大于設(shè)定的第二閾值時，確定所述XML文件屬于所述總得分對應(yīng)的文件類別。
【文檔編號】G06F17/30GK104281573SQ201310272209
【公開日】2015年1月14日申請日期:2013年7月1日優(yōu)先權(quán)日:2013年7月1日
【發(fā)明者】王松林, 楊建武, 洪毅虹申請人:北京大學(xué), 北大方正集團有限公司, 北京北大方正電子有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王松林;楊建武;洪毅虹
技術(shù)所有人：北京大學(xué);北大方正集團有限公司;北京北大方正電子有限公司
我是此專利的發(fā)明人

上一篇：輸入支持裝置和輸入支持方法
上一篇：密封音腔及其制造方法、電子設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

Xml文件分類方法及系統(tǒng)的制作方法