国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于相對熵進行特征選擇的分類引擎的制作方法

      文檔序號:6447051閱讀:407來源:國知局
      專利名稱:一種基于相對熵進行特征選擇的分類引擎的制作方法
      技術領域
      本實用新型涉及網站自然語言處理領域,尤其是涉及一種基于相對熵進行特征選擇的分類引擎。
      背景技術
      隨著互聯(lián)網的飛速發(fā)展,互聯(lián)網上的Web資源也在急劇的膨脹,而這些Web資源中蘊含著大量對人們具有潛在價值的信息,這些信息在互聯(lián)網上是處于雜亂無序的狀態(tài),因此如何快速、準確、全面地查找這些信息是信息檢索系統(tǒng)所需要解決的一個問題。文本分類作為信息檢索系統(tǒng)的重要組成部分,可以在很大程度上解決互聯(lián)網上信息雜亂無序的現(xiàn)象,方便人們準確定位所需的信息。文本分類技術所面臨的首要問題是文本表示,而特征選擇又是文本表示的關鍵,進行特征選擇主要有兩個作用,一是只保留那些對分類有意義的特征,提高文本分類的精度;二是降低特征維數(shù),提高計算效率。近年來,信息檢索系統(tǒng)中在分類引擎中使用較多的特征選擇方法有文檔頻率法、信息增益法、互信息法、X2統(tǒng)計量法等。但是,使用上述特征選擇方法的分類引擎在實際使用中具有如下缺陷不能有效選取對分類最有貢獻的特征項,導致分類準確率低;不能有效降低特征的維度,導致分類速度慢。

      實用新型內容針對上述缺陷,本實用新型實施例的目的在于提供一種基于相對熵進行特征選擇的分類引擎,用于有效選取特征項,提高分類準確率,提高分類速度。本實用新型實施例提出了一種基于相對熵進行特征選擇的分類引擎,包括網頁解析單元、特征選擇單元、訓練單元和分類單元,所述網頁解析單元包括htel Xeon Processor x5630 和 IBM TotalStorage DS3400 1726-41X 的磁盤陣列;所述特征選擇單元包括美國TI公司的TMS320C2XX系列芯片以及IBM TotalStorage DS3400 1726-41X 的磁盤陣列;所述訓練單元包括AT&T公司的DSP32/32C芯片以及IBM TotalStorage DS3400 1726-41X的磁盤陣列;所述分類單元包括Zoran公司的ZR34881芯片以及IBM TotalStorage DS34001726-41X的磁盤陣列;所述特征選擇單元分別和所述網頁解析單元及所述訓練單元相連,所述分類單元分別所述訓練單元及所述網頁解析單元相連。本實用新型實施例提供的基于相對熵進行特征選擇的分類引擎,可以有效選取特征項,提高分類準確率,并且可以有效降低特征的維度,提高分類速度。

      為了更清楚地說明本實用新型實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實施例提供的一種基于相對熵進行特征選擇的分類引擎的結構示意圖;圖2為本發(fā)明實施例提供的另一種基于相對熵進行特征選擇的分類引擎的結構示意圖3為本發(fā)明實施例提供的另一種基于相對熵進行特征選擇的分類引擎的結構示意圖。
      具體實施方式
      為了使本實用新型的目的、技術方案和優(yōu)點更加清楚明白,下面結合具體實施方式
      和附圖,對本實用新型做進一步詳細說明。在此,本實用新型的示意性實施方式及其說明用于解釋本實用新型,但并不作為對本實用新型的限定。如圖1所示為本發(fā)明實施例一提供的一種基于相對熵進行特征選擇的分類引擎的結構示意圖,該分類引擎可應用于信息檢索系統(tǒng)或者搜索引擎之中,該分類引擎包括網頁解析單元110、特征選擇單元120、訓練單元130和分類單元140,其中,特征選擇單元120分別和網頁解析單元110及訓練單元130 相連,分類單元140分別訓練單元130及網頁解析單元110相連。網頁解析單元110用于對網頁進行解析,提取網頁中的標題和正文作為現(xiàn)有文本或新的文本,并輸出現(xiàn)有文本至特征選擇單元120,輸出新的文本至分類單元140。在本發(fā)明實施例中,現(xiàn)有文本來源于對現(xiàn)有網頁的解析,而新的文本來源于對新加入網頁的解析, 本發(fā)明實施例是以現(xiàn)有網頁作為分類基礎,然后快速的對新加入的網頁進行分類。特征選擇單元120用于基于相對熵從所有現(xiàn)有文本中選取對預置的第一分類貢獻大而對預置分類中除所述第一分類外的其它分類貢獻小的詞作為特征項,并將該特征項輸出給訓練單元130。相對熵在自然語言處理中是用來衡量幾篇文章的內容是否相近的一個概念。在本實施例中,對所有的現(xiàn)有文本已經預置好分類,該預置分類的步驟可以通過人工進行,也可以是沿用先前的某種分類。作為本實用新型的一個實施例,特征選擇單元120具體可以用于對現(xiàn)有文本進行分詞得到至少一個詞,并去除停用詞,在本實施例中對于停用詞是有標準進行規(guī)范的,當然,停用詞也可以由用戶進行自由指定;然后將所有現(xiàn)有文本作為一個整體,計算每個詞的IDF值,取IDF值最小的m個詞,m為大于0的整數(shù),這里的IDF是指,如果包該詞的文本越少,則IDF值越大,說明該詞具有很好的區(qū)分能力,適合作為特征項,因此,在本發(fā)明實施例中所取得的m個詞在所有現(xiàn)有文本中的類別區(qū)分能力很差,不適合作為所有現(xiàn)有文本的特征項;然后再將現(xiàn)有文本中預置的每個類別的文本作為一個整體,計算每個詞的IDF 值,取IDF值最大的η個詞,η為大于0的整數(shù),在本發(fā)明實施例中所取得的η個詞在某個類別文本中的區(qū)分能力較好,適合作為該類文檔的特征項;最后再分別判斷上述η個詞中每個詞是否在m個詞中,如果在,則該詞不能作為特征項。在本實施例中,如果上述η個詞中的某個詞在m個詞中,則說明該詞雖然在該類文本中的區(qū)分能力較好,但是在所有文本中的區(qū)分能力很差,因此該詞不適合作為特征項;相反,如果上述η個詞中的某個詞不在m個詞中,則說明該詞不但在該類文本中的區(qū)分能力較好,且在所有文本中的區(qū)分能力也不錯,因此該詞可以作為特征項。訓練單元130用于根據(jù)所述特征項及分類算法對現(xiàn)有文本進行訓練,獲得分類模型,并將分類模型輸出給分類單元140。作為本實用新型的一個實施例,訓練單元130具體可以用于根據(jù)特征項,禾Ij用詞頻-反文檔頻率(term frequency-inverse docume nt frequency, TF-IDF)公式將現(xiàn)有文本映射成文本向量;將文本向量離散化;利用分類算法對所述現(xiàn)有文本進行訓練,獲得分類模型,所述分類模型的分類基礎為所述文本向量。在本實施例中,該分類算法比如可以利用決策樹算法、支持向量機算法、神經網絡算法、貝葉斯算法或K最近鄰算法。分類單元140用于利用訓練單元130得到的分類模型對新的文本進行分類。在本實施例中,網頁解析單元110的功能具體可以利用htel Xeon Proce ssor x5630 配合 IBM TotalStorage DS3400的磁盤陣列來實現(xiàn),其中 htel Xeon Processor x5630 可以完成網頁解析及提取功能,而 IBM TotalStorage DS3400 1726-41X 可以存儲網頁內容;特征選擇單元120的功能具體可以通過偽靜態(tài)DSP芯片以及存儲單元來實現(xiàn),偽靜態(tài)DSP芯片比如選用美國TI公司的TMS320C2XX系列芯片,存儲單元比如選用IBM TotalStorage DS340017^_41X的磁盤陣列,用來存儲現(xiàn)有文本及特征項;訓練單元 130的功能具體可以通過一致性DSP芯片以及存儲單元來實現(xiàn),一致性DSP芯片比如可以選用 AT&T 公司的 DSP32/32C,存儲單元比如選用 IBM Total Storage DS3400 1726-41X ^ 磁盤陣列,用來存儲特征項、現(xiàn)有文本及分類模型;分類單元140的功能具體可以通過一些專用DSP芯片及存儲單元來實現(xiàn),這些芯片是為特定的DSP運算而設計的,具有更適合特殊的運算,如數(shù)字濾波、卷積和FFT等功能,具體來說,分類單元140比如可以選用Zoran公司的S 4881芯片來實現(xiàn);存儲單元比如選用IBM TotalStorage DS3400的磁盤陣列,用來存儲分類結果。需要指出的是,上述每個單元具體實現(xiàn)時可以分別配備存儲單元(如圖2所示), 同時也可以共用一個存儲單元(如圖3所示)。本實用新型實施例提供的基于相對熵進行特征選擇的分類引擎,可以有效去除對本分類無用的特征項,智能選取特征項,提高分類準確率,并且可以有效降低特征的維度, 提高分類速度。以上所述的具體實施方式
      ,對本實用新型的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本實用新型的具體實施方式
      而已,并不用于限定本實用新型的保護范圍,凡在本實用新型的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本實用新型的保護范圍之內。
      權利要求1. 一種基于相對熵進行特征選擇的分類引擎,其特征在于,包括網頁解析單元、特征選擇單元、訓練單元和分類單元,所述網頁解析單元包括htelXeon Processor x5630和 IBM TotalStorage DS3400的磁盤陣列;所述特征選擇單元包括美國TI公司的TMS320C2XX系列芯片以及IBMTotalMorage DS3400的磁盤陣列;所述訓練單元包括AT&T公司的DSP32/32C芯片以及IBM TotalStorage DS3400的磁盤陣列;所述分類單元包括hran公司的ZR34881芯片以及IBM TotalStorage DS3400 1726-41X 的磁盤陣列;所述特征選擇單元分別和所述網頁解析單元及所述訓練單元相連,所述分類單元分別所述訓練單元及所述網頁解析單元相連。
      專利摘要本實用新型提供了一種基于相對熵進行特征選擇的分類引擎,包括網頁解析單元、特征選擇單元、訓練單元和分類單元,所述網頁解析單元包括Intel Xeon Processor x5630和IBM TotalStorage DS34001726-41X的磁盤陣列;所述特征選擇單元包括美國TI公司的TMS320C2XX系列芯片以及IBM TotalStorage DS3400 1726-41X的磁盤陣列;所述訓練單元包括AT&T公司的DSP32/32C芯片以及IBM TotalStorage DS3400 1726-41X的磁盤陣列;所述分類單元包括Zoran公司的ZR34881芯片以及IBM TotalStorage DS3400 1726-41X的磁盤陣列;所述特征選擇單元分別和所述網頁解析單元及所述訓練單元相連,所述分類單元分別所述訓練單元及所述網頁解析單元相連。
      文檔編號G06F17/30GK202142058SQ20112011956
      公開日2012年2月8日 申請日期2011年4月21日 優(yōu)先權日2010年5月24日
      發(fā)明者張成鎖 申請人:北京康凱信息咨詢有限責任公司
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1