国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于最小二乘支持向量機的文本分類方法

      文檔序號:6563816閱讀:921來源:國知局
      專利名稱:基于最小二乘支持向量機的文本分類方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及文本分類方法,特別是基于最小二乘支持向量機的文 本分類方法。
      背景技術(shù)
      隨著Internet的廣泛應(yīng)用及WWW技術(shù)的快速發(fā)展,文本分類技 術(shù)成為WEB挖掘的一個重要分支。目前常用的文本分類方法主要有: 基于模糊聚類的中文文本自動分類方法、樸素貝葉斯(NaiveBayes) 方法、KNN方法、神經(jīng)網(wǎng)絡(luò)算法和支持向量機(SVM)經(jīng)典文本分 類算法。這些方法雖能夠進(jìn)行比較準(zhǔn)確的文本分類,但在分類時間和 召回率方面已不能適應(yīng)當(dāng)今Internet發(fā)展的速度。

      發(fā)明內(nèi)容
      本發(fā)明的目的是克服上述不足問題,提供一種基于最小二乘支持 向量機的文本分類方法。該方法利用最小二乘法與傳統(tǒng)支持向量機的 方法的相結(jié)合,具有分類時間短,召回率高,內(nèi)存需求少,學(xué)習(xí)速度 快的特點。
      本發(fā)明為實現(xiàn)上述目的所采用的技術(shù)方案是 一種基于最小二乘 支持向量機的文本分類方法,將進(jìn)行過文本預(yù)處理后的文本信息,利
      用最小二乘方法來擬合用傳統(tǒng)的支持向量機方法所得到的分類超平 面,從而得到最優(yōu)的超平面,實現(xiàn)文本分類。
      所述在文本預(yù)處理過程中,所進(jìn)行的特征抽取采用屬性約簡方 法,提取相對重要的屬性。
      所述使用傳統(tǒng)的支持向量機時采用二次函數(shù)y=io^作為事先給
      定的非線性映射。
      本發(fā)明分類方法的特點利用最小二乘法來擬合由傳統(tǒng)的支持向 量機得到的超平面,該發(fā)明的優(yōu)點是可以在短時間內(nèi)達(dá)到高效的分類
      效果和召回率,特別適用于有多鏈接的Internet網(wǎng)頁及大規(guī)模搜索引 擎。
      具體實施例方式
      下面結(jié)合具體實施方式
      對本發(fā)明作進(jìn)一步詳細(xì)說明,但不限于具 體實施例。
      按照下列方法對文本進(jìn)行分類,首先對文本進(jìn)行預(yù)處理,預(yù)處理 的過程采用屬性約簡技術(shù),從眾多的屬性中挑選出對于文本分類影響 因素大的屬性。并將文本信息做成向量形式,向量中的每個元素對應(yīng) 著一個屬性值。然后利用支持向量機方法得到分類的超平面,最后利 用最小二乘法擬合得到的最優(yōu)超平面,實現(xiàn)文本分類過程。
      具體實現(xiàn)步驟如下
      1.設(shè)訓(xùn)練樣本集為(x,j;,), /=h 2......,","為訓(xùn)練樣本的個數(shù),A為表示文本信息的向量,乂.e(l,-l)是輸入樣本x,.的類標(biāo)記(期望輸出)。
      2. 通過事先給定的非線性影射7=^把輸入向量1映射到一個 高維特征空間Z,在這個空間中構(gòu)造最優(yōu)分類超平面,將此問題歸結(jié) 為 一個帶約束的二次規(guī)劃問題
      min ||co||2/2 s.t. ;^(欣;+6)21,/=7,2,…/。
      3. 利用最小二乘法來判斷最優(yōu)分類超平面。若樣本集線性可分, d維空間中線性判別函數(shù)g(x"cyjc+6,分類面方程為wxf6=0。利用 最小二乘法來判斷最優(yōu)的超平面,用mathematic軟件的findfit函數(shù)判 斷最優(yōu)分類超平面。
      權(quán)利要求
      1.基于最小二乘支持向量機的文本分類方法,其特征是將進(jìn)行過文本預(yù)處理后的文本信息,利用最小二乘方法來擬合用支持向量機方法所得到的分類超平面,從而得到最優(yōu)的超平面,實現(xiàn)文本分類。
      2、 根據(jù)權(quán)利要求1所述的基于最小二乘支持向量機的文本分類 方法,其特征是在文本預(yù)處理過程中,所進(jìn)行的特征抽取采用屬性 約簡方法,提取相對重要的屬性。
      3、 根據(jù)權(quán)利要求1所述的基于最小二乘支持向量機的文本分類方法,其特征是使用支持向量機時采用二次函數(shù)作為事先給定的非線性映射。
      4. 根據(jù)權(quán)利要求1所述的基于最小二乘支持向量機的文本分類 方法,其特征是構(gòu)造分類超平面時,利用二次規(guī)劃模型<formula>formula see original document page 2</formula><formula>formula see original document page 2</formula>
      全文摘要
      本發(fā)明提供了一種文本分類方法,基于最小二乘支持向量機的文本分類方法,先將文本信息進(jìn)行預(yù)處理,將其轉(zhuǎn)化為向量形式。然后利用支持向量機方法對處理后的文本向量構(gòu)造超平面。最后利用最小二乘法對得到的分類超平面進(jìn)行擬合,從而找出最優(yōu)的分類超平面,實現(xiàn)文本分類過程。本發(fā)明基于最小二乘支持向量機的文本分類方法具有分類時間短,召回率高,內(nèi)存需求少,學(xué)習(xí)速度快的特點。尤其適用于當(dāng)今有多鏈接的Internet網(wǎng)頁及大規(guī)模搜索引擎。
      文檔編號G06F17/30GK101350017SQ20081001288
      公開日2009年1月21日 申請日期2008年8月20日 優(yōu)先權(quán)日2008年8月20日
      發(fā)明者盛秀英 申請人:盛秀英
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1