国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法

      文檔序號:10725173閱讀:264來源:國知局
      一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法
      【專利摘要】本發(fā)明公開了一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法,采用X2統(tǒng)計和改進(jìn)的 DBSCAN 聚類算法,對文檔特征進(jìn)行2 次選擇,提高了各特征之間的相對獨立性,提出采用構(gòu)建詞索引矩陣和詞共現(xiàn)矩陣的方法。最后提出了基于特征簇的向量空間模型,在有效提高特征獨立性的同時,減低了特征維數(shù),為下一步分類器計算提供了方便。對于最終各特征簇的權(quán)值計算,采TF?IDF算法,分 3 步走,把文檔表示成特征簇向量空間模型。
      【專利說明】
      一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法
      技術(shù)領(lǐng)域
      [0001] 本發(fā)明屬于網(wǎng)頁方法領(lǐng)域,更具體地說,本發(fā)明涉及一種基于文本內(nèi)容的網(wǎng)頁信 息過濾方法。
      【背景技術(shù)】
      [0002] 網(wǎng)頁所攜帶的信息大致可分為圖像、聲音、文字,對于圖像和聲音的內(nèi)容,大多數(shù) 情況下會有文字進(jìn)行概括說明。對于一個網(wǎng)頁文字信息的提取和解讀可以判定該網(wǎng)頁是否 為不良信息的載體,基于文本內(nèi)容的網(wǎng)頁過濾就是首先把網(wǎng)頁中的文字信息進(jìn)行提取,然 后表示成計算機能運算處理的形式,通過分類算法對網(wǎng)頁進(jìn)行過濾分類。網(wǎng)頁文本分類是 的最小單元是詞,把那些能代表文章意圖的詞選定出來,經(jīng)過聚類把詞提升為概念。由于基 于詞的分類是運用統(tǒng)計學(xué)的方法同時綜合機器學(xué)習(xí)的理論,把待分類文本表示成向量,然 后使用合適算法進(jìn)行運算分類。這種方法簡單直接,對于大量網(wǎng)頁信息的過濾可操作性強。

      【發(fā)明內(nèi)容】

      [0003] 本發(fā)明所要解決的問題是提供一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法。
      [0004] 為了實現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案為:
      [0005] -種基于文本內(nèi)容的網(wǎng)頁信息過濾方法,包括如下步驟:
      [0006] (1)文本預(yù)處理
      [0007] 首先把網(wǎng)頁中的文字信息提取出來,接著進(jìn)行去除噪音、詞干還原和標(biāo)簽加權(quán)處 理,生成帶有標(biāo)記的詞序流;
      [0008] (2)特征選擇
      [0009] 采用基于密度聚類算(DBSCAN)法對預(yù)處理文本的特征進(jìn)行選取,接著構(gòu)建文本特 征,把一些經(jīng)常同時出現(xiàn)的詞進(jìn)行統(tǒng)計,通過聚類生成簇;
      [0010] ⑶特征加權(quán)
      [0011]采用基于特征簇的TF-IDF算法求聚類生成簇的權(quán)值;
      [0012] (4)分類器運算
      [0013]利用統(tǒng)計學(xué)和數(shù)學(xué)的方法,首先對分類器進(jìn)行訓(xùn)練,計算各向量的距離,找到分類 的映射法則,然后對待測文本進(jìn)行分類過濾,最終把網(wǎng)頁信息區(qū)分為規(guī)定的兩類,得到結(jié) 果;
      [0014] (5)自學(xué)習(xí)更新
      [0015] 引入自學(xué)習(xí)更新模塊,把詞庫中沒有的詞記錄下來,對結(jié)果進(jìn)行更新檢查,得到輸 出結(jié)果;
      [0016] (6)性能評估
      [0017] 對輸出結(jié)果計算其各性能指標(biāo),通過結(jié)果對設(shè)定參數(shù)進(jìn)行微調(diào),反復(fù)實驗不同待 測樣本的過濾效果,找到相對合適的參數(shù)設(shè)定。
      [0018] 優(yōu)選的,所述步驟(2)中特征選擇的方法為X2統(tǒng)計。
      [0019] 優(yōu)選的,所述步驟(2)中構(gòu)建文本特征的步驟為:
      [0020] 1 )X2統(tǒng)計特征選擇:采用X2公式特征詞和類別之間的相關(guān)程度;
      [0021] 2)生成文本索引矩陣;
      [0022] 3)特征詞共現(xiàn)矩陣;
      [0023] 4)簡化的DBSCAN算法特征聚類選擇;
      [0024] 5)文本特征表示。

      [0026]優(yōu)選的,所述簡化的DBSCAN算法的步驟為:
      [0027]①讀入詞共現(xiàn)矩陣,求出所有點對之間的距離;
      [0028] ②提取現(xiàn)有點的集合C1,計算每一個點,在給定半徑的范圍內(nèi),含有點的數(shù)量,把 每個點含有點的數(shù)量進(jìn)行降序排列,找出排序第一名的核心點群集合c2;
      [0029] ③判斷排序第一名的點,是否為核心點(含有點數(shù)超過Minpts)如果不是將剩余集 合中所有點按序號加入簇,并從C1中刪除這些點,如果是核心點,計算每個核心點到其內(nèi)部 的點的距離之和s;
      [0030] ④按照距離之和8對(:2集合中點降序排列,找到距離之和最小的核心點jw和其鄰 域內(nèi)的點集;
      [0031] ⑤取點jw和在其鄰域內(nèi),在索引矩陣中詞頻最高的前3名,以jw為簇心建立一個 簇,同時把這4個點從C1集合中刪除;
      [0032]⑥重復(fù)步驟②到⑥直到C1沒有點;
      [0033]⑦輸出簇群。
      [0034]優(yōu)選的,所述步驟(3)中TF-IDF算法的公式為
      [0036] 有益效果:本發(fā)明提供了一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法,采用X2統(tǒng)計和 改進(jìn)的DBSCAN聚類算法,對文檔特征進(jìn)行2次選擇,提高了各特征之間的相對獨立性,提出 采用構(gòu)建詞索引矩陣和詞共現(xiàn)矩陣的方法。最后提出了基于特征簇的向量空間模型,在有 效提高特征獨立性的同時,減低了特征維數(shù),為下一步分類器計算提供了方便。對于最終各 特征簇的權(quán)值計算,采TF-IDF算法,分3步走,把文檔表示成特征簇向量空間模型。
      【具體實施方式】
      [0037] -種基于文本內(nèi)容的網(wǎng)頁信息過濾方法,包括如下步驟:
      [0038] (1)文本預(yù)處理
      [0039] 首先把網(wǎng)頁中的文字信息提取出來,接著進(jìn)行去除噪音、詞干還原和標(biāo)簽加權(quán)處 理,生成帶有標(biāo)記的詞序流;
      [0040] (2)特征選擇
      [0041] 采用基于密度聚類算(DBSCAN)法對預(yù)處理文本的特征進(jìn)行選取,接著構(gòu)建文本特 征,把一些經(jīng)常同時出現(xiàn)的詞進(jìn)行統(tǒng)計,通過聚類生成簇,所述特征選擇的方法為X2統(tǒng)計,
      [0042] 所述構(gòu)建文本特征的步驟為:
      [0043] 1 )X2統(tǒng)計特征選擇:采用X2公式特征詞和類別之間的相關(guān)程度;
      [0044] 2)生成文本索引矩陣;
      [0045] 3)特征詞共現(xiàn)矩陣;
      [0046] 4)簡化的DBSCAN算法特征聚類選擇;
      [0047] 5)文本特征表示,
      [0048]所述簡化的DBSCAN算法的步驟為:
      [0049] ①讀入詞共現(xiàn)矩陣,求出所有點對之間的距離;
      [0050] ②提取現(xiàn)有點的集合C1,計算每一個點,在給定半徑的范圍內(nèi),含有點的數(shù)量,把 每個點含有點的數(shù)量進(jìn)行降序排列,找出排序第一名的核心點群集合C2;
      [0051 ]③判斷排序第一名的點,是否為核心點(含有點數(shù)超過Minpts)如果不是將剩余集 合中所有點按序號加入簇,并從C1中刪除這些點,如果是核心點,計算每個核心點到其內(nèi)部 的點的距離之和s;
      [0052]④按照距離之和8對(:2集合中點降序排列,找到距離之和最小的核心點jw和其鄰 域內(nèi)的點集;
      [0053]⑤取點jw和在其鄰域內(nèi),在索引矩陣中詞頻最高的前3名,以jw為簇心建立一個 簇,同時把這4個點從C1集合中刪除;
      [0054]⑥重復(fù)步驟②到⑥直到C1沒有點;
      [0055]⑦輸出簇群;
      [0056] (3)特征加權(quán)
      [0057]采用基于特征簇的TF-IDF算法求聚類生成簇的權(quán)值,所述TF-IDF算法的公式為
      [0058] (4)分類器運算
      [0059]利用統(tǒng)計學(xué)和數(shù)學(xué)的方法,首先對分類器進(jìn)行訓(xùn)練,計算各向量的距離,找到分類 的映射法則,然后對待測文本進(jìn)行分類過濾,最終把網(wǎng)頁信息區(qū)分為規(guī)定的兩類,得到結(jié) 果;
      [0060] (5)自學(xué)習(xí)更新
      [0061] 引入自學(xué)習(xí)更新模塊,把詞庫中沒有的詞記錄下來,對結(jié)果進(jìn)行更新檢查,得到輸 出結(jié)果;
      [0062] (6)性能評估
      [0063] 對輸出結(jié)果計算其各性能指標(biāo),通過結(jié)果對設(shè)定參數(shù)進(jìn)行微調(diào),反復(fù)實驗不同待 測樣本的過濾效果,找到相對合適的參數(shù)設(shè)定。
      [0064] 本發(fā)明提供了一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法,采用X2統(tǒng)計和改進(jìn)的 DBSCAN聚類算法,對文檔特征進(jìn)行2次選擇,提高了各特征之間的相對獨立性,提出采用構(gòu) 建詞索引矩陣和詞共現(xiàn)矩陣的方法。最后提出了基于特征簇的向量空間模型,在有效提高 特征獨立性的同時,減低了特征維數(shù),為下一步分類器計算提供了方便。對于最終各特征簇 的權(quán)值計算,采TF-IDF算法,分3步走,把文檔表示成特征簇向量空間模型。
      [0065]以上所述僅為本發(fā)明的實施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā) 明說明書內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運用在其他相關(guān)的技術(shù)領(lǐng) 域,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。
      【主權(quán)項】
      1. 一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法,其特征在于,包括如下步驟: (1) 文本預(yù)處理 首先把網(wǎng)頁中的文字信息提取出來,接著進(jìn)行去除噪音、詞干還原和標(biāo)簽加權(quán)處理,生 成帶有標(biāo)記的詞序流; (2) 特征選擇 采用基于密度聚類算(DBSCAN)法對預(yù)處理文本的特征進(jìn)行選取,接著構(gòu)建文本特征, 把一些經(jīng)常同時出現(xiàn)的詞進(jìn)行統(tǒng)計,通過聚類生成簇; (3) 特征加權(quán) 采用基于特征簇的TF-IDF算法求聚類生成簇的權(quán)值; (4) 分類器運算 利用統(tǒng)計學(xué)和數(shù)學(xué)的方法,首先對分類器進(jìn)行訓(xùn)練,計算各向量的距離,找到分類的映 射法則,然后對待測文本進(jìn)行分類過濾,最終把網(wǎng)頁信息區(qū)分為規(guī)定的兩類,得到結(jié)果; (5) 自學(xué)習(xí)更新 引入自學(xué)習(xí)更新模塊,把詞庫中沒有的詞記錄下來,對結(jié)果進(jìn)行更新檢查,得到輸出結(jié) 果; (6) 性能評估 對輸出結(jié)果計算其各性能指標(biāo),通過結(jié)果對設(shè)定參數(shù)進(jìn)行微調(diào),反復(fù)實驗不同待測樣 本的過濾效果,找到相對合適的參數(shù)設(shè)定。2. 按照權(quán)利要求1所述的一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法,其特征在于:所述步 驟(2)中特征選擇的方法為X2統(tǒng)計。3. 按照權(quán)利要求1所述的一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法,其特征在于:所述步 驟(2)中構(gòu)建文本特征的步驟為: 1巧2統(tǒng)計特征選擇:采用X2公式特征詞和類別之間的相關(guān)程度; 2) 生成文本索引矩陣; 3) 特征詞共現(xiàn)矩陣; 4) 簡化的DBSCAN算法特征聚類選擇; 5) 文本特征表示。4. 按照權(quán)利要求3所述的一種基于復(fù)雜網(wǎng)絡(luò)的灰度圖像識別方法,其特征在于:所述X2公式天5. 按照權(quán)利要求3所述的一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法,其特征在于:所述簡 化的DBSCAN算法的步驟為: ① 讀入詞共現(xiàn)矩陣,求出所有點對之間的距離; ② 提取現(xiàn)有點的集合C1,計算每一個點,在給定半徑的范圍內(nèi),含有點的數(shù)量,把每個 點含有點的數(shù)量進(jìn)行降序排列,找出排序第一名的核屯、點群集合c2; ③ 判斷排序第一名的點,是否為核屯、點(含有點數(shù)超過Minpts)如果不是將剩余集合中 所有點按序號加入簇,并從C1中刪除運些點,如果是核屯、點,計算每個核屯、點到其內(nèi)部的點 的距離之和S; ④ 按照距離之和S對c2集合中點降序排列,找到距離之和最小的核屯、點jw和其鄰域內(nèi) 的點集; ⑤ 取點jw和在其鄰域內(nèi),在索引矩陣中詞頻最高的前3名,Wjw為簇屯、建立一個簇,同 時把運4個點從C1集合中刪除; ⑥ 重復(fù)步驟②到⑥直到C1沒有點; ⑦ 輸出簇群。6.按照權(quán)利要求1所述的一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法,其特征在于:所述步 驟(3)中TF-IDF算法的公式3
      【文檔編號】G06F17/30GK106096054SQ201610499546
      【公開日】2016年11月9日
      【申請日】2016年6月28日
      【發(fā)明人】董雄飛
      【申請人】合肥酷睿網(wǎng)絡(luò)科技有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1