一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法

文檔序號：10725173閱讀：264來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法
【專利摘要】本發(fā)明公開了一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法，采用X2統(tǒng)計和改進(jìn)的 DBSCAN 聚類算法，對文檔特征進(jìn)行2 次選擇，提高了各特征之間的相對獨立性，提出采用構(gòu)建詞索引矩陣和詞共現(xiàn)矩陣的方法。最后提出了基于特征簇的向量空間模型，在有效提高特征獨立性的同時，減低了特征維數(shù)，為下一步分類器計算提供了方便。對于最終各特征簇的權(quán)值計算，采TF?IDF算法，分 3 步走，把文檔表示成特征簇向量空間模型。
【專利說明】
一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于網(wǎng)頁方法領(lǐng)域，更具體地說，本發(fā)明涉及一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法。
【背景技術(shù)】
[0002] 網(wǎng)頁所攜帶的信息大致可分為圖像、聲音、文字，對于圖像和聲音的內(nèi)容，大多數(shù) 情況下會有文字進(jìn)行概括說明。對于一個網(wǎng)頁文字信息的提取和解讀可以判定該網(wǎng)頁是否為不良信息的載體，基于文本內(nèi)容的網(wǎng)頁過濾就是首先把網(wǎng)頁中的文字信息進(jìn)行提取，然后表示成計算機能運算處理的形式，通過分類算法對網(wǎng)頁進(jìn)行過濾分類。網(wǎng)頁文本分類是的最小單元是詞，把那些能代表文章意圖的詞選定出來，經(jīng)過聚類把詞提升為概念。由于基于詞的分類是運用統(tǒng)計學(xué)的方法同時綜合機器學(xué)習(xí)的理論，把待分類文本表示成向量，然后使用合適算法進(jìn)行運算分類。這種方法簡單直接，對于大量網(wǎng)頁信息的過濾可操作性強。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明所要解決的問題是提供一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法。
[0004] 為了實現(xiàn)上述目的，本發(fā)明采取的技術(shù)方案為：
[0005] -種基于文本內(nèi)容的網(wǎng)頁信息過濾方法，包括如下步驟：
[0006] (1)文本預(yù)處理
[0007] 首先把網(wǎng)頁中的文字信息提取出來，接著進(jìn)行去除噪音、詞干還原和標(biāo)簽加權(quán)處理，生成帶有標(biāo)記的詞序流；
[0008] (2)特征選擇
[0009] 采用基于密度聚類算(DBSCAN)法對預(yù)處理文本的特征進(jìn)行選取，接著構(gòu)建文本特征，把一些經(jīng)常同時出現(xiàn)的詞進(jìn)行統(tǒng)計，通過聚類生成簇；
[0010] ⑶特征加權(quán)
[0011]采用基于特征簇的TF-IDF算法求聚類生成簇的權(quán)值；
[0012] (4)分類器運算
[0013]利用統(tǒng)計學(xué)和數(shù)學(xué)的方法，首先對分類器進(jìn)行訓(xùn)練，計算各向量的距離，找到分類的映射法則，然后對待測文本進(jìn)行分類過濾，最終把網(wǎng)頁信息區(qū)分為規(guī)定的兩類，得到結(jié) 果；
[0014] (5)自學(xué)習(xí)更新
[0015] 引入自學(xué)習(xí)更新模塊，把詞庫中沒有的詞記錄下來，對結(jié)果進(jìn)行更新檢查，得到輸出結(jié)果；
[0016] (6)性能評估
[0017] 對輸出結(jié)果計算其各性能指標(biāo)，通過結(jié)果對設(shè)定參數(shù)進(jìn)行微調(diào)，反復(fù)實驗不同待測樣本的過濾效果，找到相對合適的參數(shù)設(shè)定。
[0018] 優(yōu)選的，所述步驟(2)中特征選擇的方法為X2統(tǒng)計。
[0019] 優(yōu)選的，所述步驟(2)中構(gòu)建文本特征的步驟為：
[0020] 1 )X2統(tǒng)計特征選擇:采用X2公式特征詞和類別之間的相關(guān)程度；
[0021] 2)生成文本索引矩陣；
[0022] 3)特征詞共現(xiàn)矩陣；
[0023] 4)簡化的DBSCAN算法特征聚類選擇；
[0024] 5)文本特征表示。
〇
[0026]優(yōu)選的，所述簡化的DBSCAN算法的步驟為：
[0027]①讀入詞共現(xiàn)矩陣，求出所有點對之間的距離；
[0028] ②提取現(xiàn)有點的集合C1，計算每一個點，在給定半徑的范圍內(nèi)，含有點的數(shù)量，把每個點含有點的數(shù)量進(jìn)行降序排列，找出排序第一名的核心點群集合c2;
[0029] ③判斷排序第一名的點，是否為核心點(含有點數(shù)超過Minpts)如果不是將剩余集合中所有點按序號加入簇，并從C1中刪除這些點，如果是核心點，計算每個核心點到其內(nèi)部的點的距離之和s;
[0030] ④按照距離之和8對(：2集合中點降序排列，找到距離之和最小的核心點jw和其鄰域內(nèi)的點集；
[0031] ⑤取點jw和在其鄰域內(nèi)，在索引矩陣中詞頻最高的前3名，以jw為簇心建立一個簇，同時把這4個點從C1集合中刪除；
[0032]⑥重復(fù)步驟②到⑥直到C1沒有點；
[0033]⑦輸出簇群。
[0034]優(yōu)選的，所述步驟(3)中TF-IDF算法的公式為
[0036] 有益效果:本發(fā)明提供了一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法，采用X2統(tǒng)計和改進(jìn)的DBSCAN聚類算法，對文檔特征進(jìn)行2次選擇，提高了各特征之間的相對獨立性，提出采用構(gòu)建詞索引矩陣和詞共現(xiàn)矩陣的方法。最后提出了基于特征簇的向量空間模型，在有效提高特征獨立性的同時，減低了特征維數(shù)，為下一步分類器計算提供了方便。對于最終各特征簇的權(quán)值計算，采TF-IDF算法，分3步走，把文檔表示成特征簇向量空間模型。
【具體實施方式】
[0037] -種基于文本內(nèi)容的網(wǎng)頁信息過濾方法，包括如下步驟：
[0038] (1)文本預(yù)處理
[0039] 首先把網(wǎng)頁中的文字信息提取出來，接著進(jìn)行去除噪音、詞干還原和標(biāo)簽加權(quán)處理，生成帶有標(biāo)記的詞序流；
[0040] (2)特征選擇
[0041] 采用基于密度聚類算(DBSCAN)法對預(yù)處理文本的特征進(jìn)行選取，接著構(gòu)建文本特征，把一些經(jīng)常同時出現(xiàn)的詞進(jìn)行統(tǒng)計，通過聚類生成簇，所述特征選擇的方法為X2統(tǒng)計，
[0042] 所述構(gòu)建文本特征的步驟為：
[0043] 1 )X2統(tǒng)計特征選擇:采用X2公式特征詞和類別之間的相關(guān)程度；
[0044] 2)生成文本索引矩陣；
[0045] 3)特征詞共現(xiàn)矩陣；
[0046] 4)簡化的DBSCAN算法特征聚類選擇；
[0047] 5)文本特征表示，
[0048]所述簡化的DBSCAN算法的步驟為：
[0049] ①讀入詞共現(xiàn)矩陣，求出所有點對之間的距離；
[0050] ②提取現(xiàn)有點的集合C1，計算每一個點，在給定半徑的范圍內(nèi)，含有點的數(shù)量，把每個點含有點的數(shù)量進(jìn)行降序排列，找出排序第一名的核心點群集合C2;
[0051 ]③判斷排序第一名的點，是否為核心點(含有點數(shù)超過Minpts)如果不是將剩余集合中所有點按序號加入簇，并從C1中刪除這些點，如果是核心點，計算每個核心點到其內(nèi)部的點的距離之和s;
[0052]④按照距離之和8對(：2集合中點降序排列，找到距離之和最小的核心點jw和其鄰域內(nèi)的點集；
[0053]⑤取點jw和在其鄰域內(nèi)，在索引矩陣中詞頻最高的前3名，以jw為簇心建立一個簇，同時把這4個點從C1集合中刪除；
[0054]⑥重復(fù)步驟②到⑥直到C1沒有點；
[0055]⑦輸出簇群；
[0056] (3)特征加權(quán)
[0057]采用基于特征簇的TF-IDF算法求聚類生成簇的權(quán)值，所述TF-IDF算法的公式為
[0058] (4)分類器運算
[0059]利用統(tǒng)計學(xué)和數(shù)學(xué)的方法，首先對分類器進(jìn)行訓(xùn)練，計算各向量的距離，找到分類的映射法則，然后對待測文本進(jìn)行分類過濾，最終把網(wǎng)頁信息區(qū)分為規(guī)定的兩類，得到結(jié) 果；
[0060] (5)自學(xué)習(xí)更新
[0061] 引入自學(xué)習(xí)更新模塊，把詞庫中沒有的詞記錄下來，對結(jié)果進(jìn)行更新檢查，得到輸出結(jié)果；
[0062] (6)性能評估
[0063] 對輸出結(jié)果計算其各性能指標(biāo)，通過結(jié)果對設(shè)定參數(shù)進(jìn)行微調(diào)，反復(fù)實驗不同待測樣本的過濾效果，找到相對合適的參數(shù)設(shè)定。
[0064] 本發(fā)明提供了一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法，采用X2統(tǒng)計和改進(jìn)的 DBSCAN聚類算法，對文檔特征進(jìn)行2次選擇，提高了各特征之間的相對獨立性，提出采用構(gòu) 建詞索引矩陣和詞共現(xiàn)矩陣的方法。最后提出了基于特征簇的向量空間模型，在有效提高特征獨立性的同時，減低了特征維數(shù)，為下一步分類器計算提供了方便。對于最終各特征簇的權(quán)值計算，采TF-IDF算法，分3步走，把文檔表示成特征簇向量空間模型。
[0065]以上所述僅為本發(fā)明的實施例，并非因此限制本發(fā)明的專利范圍，凡是利用本發(fā) 明說明書內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換，或直接或間接運用在其他相關(guān)的技術(shù)領(lǐng) 域，均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。
【主權(quán)項】
1. 一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法，其特征在于，包括如下步驟： (1) 文本預(yù)處理首先把網(wǎng)頁中的文字信息提取出來，接著進(jìn)行去除噪音、詞干還原和標(biāo)簽加權(quán)處理，生成帶有標(biāo)記的詞序流； (2) 特征選擇采用基于密度聚類算(DBSCAN)法對預(yù)處理文本的特征進(jìn)行選取，接著構(gòu)建文本特征，把一些經(jīng)常同時出現(xiàn)的詞進(jìn)行統(tǒng)計，通過聚類生成簇； (3) 特征加權(quán) 采用基于特征簇的TF-IDF算法求聚類生成簇的權(quán)值； (4) 分類器運算利用統(tǒng)計學(xué)和數(shù)學(xué)的方法，首先對分類器進(jìn)行訓(xùn)練，計算各向量的距離，找到分類的映射法則，然后對待測文本進(jìn)行分類過濾，最終把網(wǎng)頁信息區(qū)分為規(guī)定的兩類，得到結(jié)果； (5) 自學(xué)習(xí)更新引入自學(xué)習(xí)更新模塊，把詞庫中沒有的詞記錄下來，對結(jié)果進(jìn)行更新檢查，得到輸出結(jié) 果； (6) 性能評估對輸出結(jié)果計算其各性能指標(biāo)，通過結(jié)果對設(shè)定參數(shù)進(jìn)行微調(diào)，反復(fù)實驗不同待測樣本的過濾效果，找到相對合適的參數(shù)設(shè)定。2. 按照權(quán)利要求1所述的一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法，其特征在于:所述步驟(2)中特征選擇的方法為X2統(tǒng)計。3. 按照權(quán)利要求1所述的一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法，其特征在于:所述步驟(2)中構(gòu)建文本特征的步驟為： 1巧2統(tǒng)計特征選擇:采用X2公式特征詞和類別之間的相關(guān)程度； 2) 生成文本索引矩陣； 3) 特征詞共現(xiàn)矩陣； 4) 簡化的DBSCAN算法特征聚類選擇； 5) 文本特征表示。4. 按照權(quán)利要求3所述的一種基于復(fù)雜網(wǎng)絡(luò)的灰度圖像識別方法，其特征在于:所述X2公式天5. 按照權(quán)利要求3所述的一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法，其特征在于:所述簡化的DBSCAN算法的步驟為： ① 讀入詞共現(xiàn)矩陣，求出所有點對之間的距離； ② 提取現(xiàn)有點的集合C1，計算每一個點，在給定半徑的范圍內(nèi)，含有點的數(shù)量，把每個點含有點的數(shù)量進(jìn)行降序排列，找出排序第一名的核屯、點群集合c2; ③ 判斷排序第一名的點，是否為核屯、點(含有點數(shù)超過Minpts)如果不是將剩余集合中所有點按序號加入簇，并從C1中刪除運些點，如果是核屯、點，計算每個核屯、點到其內(nèi)部的點的距離之和S; ④ 按照距離之和S對c2集合中點降序排列，找到距離之和最小的核屯、點jw和其鄰域內(nèi) 的點集； ⑤ 取點jw和在其鄰域內(nèi)，在索引矩陣中詞頻最高的前3名，Wjw為簇屯、建立一個簇，同時把運4個點從C1集合中刪除； ⑥ 重復(fù)步驟②到⑥直到C1沒有點； ⑦ 輸出簇群。6.按照權(quán)利要求1所述的一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法，其特征在于:所述步驟(3)中TF-IDF算法的公式3
【文檔編號】G06F17/30GK106096054SQ201610499546
【公開日】2016年11月9日
【申請日】2016年6月28日
【發(fā)明人】董雄飛
【申請人】合肥酷睿網(wǎng)絡(luò)科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：董雄飛;
技術(shù)所有人：合肥酷睿網(wǎng)絡(luò)科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法