国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于聚類和隸屬度融合的改進(jìn)型文本分類算法

      文檔序號(hào):10655414閱讀:1025來(lái)源:國(guó)知局
      一種基于聚類和隸屬度融合的改進(jìn)型文本分類算法
      【專利摘要】本發(fā)明公開了一種基于聚類和隸屬度融合的改進(jìn)型文本分類算法,該算法將待分類文本和訓(xùn)練文本集中的訓(xùn)練文本用向量空間表示,通過(guò)聚類算法將各個(gè)類別中的訓(xùn)練文本聚類,并合并同一個(gè)簇內(nèi)的訓(xùn)練文本,形成新的文本向量,利用新的文本向量與待分類文本向量進(jìn)行計(jì)算,從而得到待分類文本與各個(gè)類別的相似度以及待分類文本隸屬各個(gè)類別的程度,將兩者相加,最大值對(duì)應(yīng)的類別即為待分類文本的類別。聚類算法在不裁剪原始樣本數(shù)量的基礎(chǔ)上減少文本分類算法執(zhí)行的時(shí)間復(fù)雜度,隸屬度改進(jìn)了待分類文本的分類判定方式,考慮訓(xùn)練文本密度對(duì)分類判定的影響,提高文本分類的準(zhǔn)確率,本發(fā)明有效解決了文本分類的算法時(shí)間復(fù)雜度和分類準(zhǔn)確率問(wèn)題。
      【專利說(shuō)明】
      -種基于聚類和隸屬度融合的改進(jìn)型文本分類算法
      技術(shù)領(lǐng)域
      [0001] 本發(fā)明設(shè)及一種適用于類域的交叉或重疊較多的文本分類算法,具體設(shè)及一種基 于聚類和隸屬度融合的改進(jìn)型文本分類算法,屬于文本分類技術(shù)領(lǐng)域。
      【背景技術(shù)】
      [0002] 隨著文本數(shù)據(jù)信息的指數(shù)增長(zhǎng),文本分類技術(shù)在現(xiàn)代信息處理領(lǐng)域得到廣泛發(fā) 展,設(shè)及的領(lǐng)域包括垃圾郵件過(guò)濾、新聞分類、電子商務(wù)、網(wǎng)絡(luò)輿情監(jiān)控等。文本分類方法根 據(jù)其內(nèi)容所包含的知識(shí)、特點(diǎn)、模式將自然語(yǔ)言描述的文本進(jìn)行特征提取,表示成機(jī)器可識(shí) 別的語(yǔ)言,并為文本建立描述模型。目前的文本描述模型主要包括布爾邏輯模型(Boolean Model)、向量空間模型(Vector Space Model,VSM)、概率模型(Probabilistic Model)、概 念模型(Cone邱tual Model)等。通過(guò)各種文本分類算法,可根據(jù)文本特征自動(dòng)劃分文檔所 屬類別。
      [0003] 目前的文本分類算法有樸素貝葉斯(Native Bayes)、K鄰近算法化Nearest Nei曲bo;r,KNN)、支持向量機(jī)(Suppo;rt Vector Machine,SVM)、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural化twork,ANN)等。其中大多數(shù)方法采用向量空間模型(VSM)將文本向量化為向量空 間的點(diǎn),采用向量夾角距離,向量?jī)?nèi)積或者歐幾里得幾何距離判定文本相似度。
      [0004] 樸素貝葉斯是基于統(tǒng)計(jì)的文本分類方法,對(duì)文本數(shù)據(jù)和數(shù)值數(shù)據(jù)的分類效果較 好,但是只有在各個(gè)屬性之間相互獨(dú)立的條件成立時(shí)才能實(shí)現(xiàn)較高準(zhǔn)確度分類,否則準(zhǔn)確 度可能較低;支持向量機(jī)是基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法,準(zhǔn)確率高,對(duì)高維數(shù)據(jù)和稀疏數(shù)據(jù)不 敏感,且能很好獲得文本的內(nèi)在特征,但是對(duì)于非線性問(wèn)題,核函數(shù)選擇很困難;人工神經(jīng) 網(wǎng)絡(luò)是基于連接的方法,模擬人腦神經(jīng)系統(tǒng)的組織特點(diǎn)構(gòu)成信息處理系統(tǒng),具有很強(qiáng)的魯 棒性和容錯(cuò)性,適應(yīng)性好,運(yùn)行速度快,但是算法復(fù)雜度高,構(gòu)造復(fù)雜,規(guī)模龐大;K順?biāo)惴ㄊ?基于統(tǒng)計(jì)的分類方法和經(jīng)典的統(tǒng)計(jì)模式識(shí)別方法,在向量空間模型下有最好的分類效果, 思路簡(jiǎn)單,容易實(shí)現(xiàn),但是在計(jì)算相似度時(shí)特征向量維數(shù)高,影響計(jì)算時(shí)間且各維權(quán)值和維 數(shù)密度影響分類精度。
      [0005] 近年來(lái)許多學(xué)者提出對(duì)文本分類算法的諸多改進(jìn),一般是針對(duì)訓(xùn)練文本集的規(guī)模 進(jìn)行縮減W降低文本分類算法的時(shí)間復(fù)雜度。例如利用基于密度的樣本裁剪方法W降低文 本分類的計(jì)算量;利用基于隱含語(yǔ)義的改進(jìn)算法使得詞與文檔的語(yǔ)義關(guān)系加強(qiáng),向量空間 大幅度縮減,提高文本分類的準(zhǔn)確率;選擇樣本基準(zhǔn)點(diǎn),根據(jù)樣本距離建立索引表W縮小查 找范圍,提高分類速度;使用基于特征詞縮減的文本分類改進(jìn)方法提高分類效率和性能。運(yùn) 些改進(jìn)的文本分類算法直接降低樣本維數(shù)W減少計(jì)算量或者減少樣本數(shù)量,從而提高分類 效率。特征維數(shù)的減少或樣本裁剪過(guò)多都會(huì)引起分類的準(zhǔn)確率嚴(yán)重下降。
      [0006] 此外,對(duì)于文本分類算法本身,在進(jìn)行分類時(shí)訓(xùn)練樣本分布密度的影響,單純利用 個(gè)訓(xùn)練樣本的相似度相加或者計(jì)算待分類文本與每個(gè)類別中屯、向量的相似度并不足W大 幅度減少分類判定時(shí)造成的誤差。目前,還沒有在訓(xùn)練集樣本數(shù)量W及樣本分布密度方面 綜合考慮的文本分類算法。

      【發(fā)明內(nèi)容】

      [0007] 本發(fā)明所要解決的技術(shù)問(wèn)題是:提供一種基于聚類和隸屬度融合的改進(jìn)型文本分 類算法,將聚類算法和文本隸屬度相結(jié)合,從而改進(jìn)了文本分類算法的時(shí)間復(fù)雜度和準(zhǔn)確 率。
      [0008] 本發(fā)明為解決上述技術(shù)問(wèn)題采用W下技術(shù)方案:
      [0009] -種基于聚類和隸屬度融合的改進(jìn)型文本分類算法,包括如下步驟:
      [0010] 步驟1,獲取多個(gè)類別的訓(xùn)練文本,組成訓(xùn)練文本集;對(duì)待分類文本W(wǎng)及訓(xùn)練文本 集中各訓(xùn)練文本進(jìn)行分詞,并對(duì)詞進(jìn)行預(yù)處理,預(yù)處理后提取文本特征詞組成多維度空間 向量,將待分類文本W(wǎng)及訓(xùn)練文本集中各訓(xùn)練文本用向量表示;
      [0011] 步驟2,在步驟1的基礎(chǔ)上,利用聚類算法對(duì)每個(gè)類別中的訓(xùn)練文本向量進(jìn)行聚類, 設(shè)定每個(gè)類別聚類形成的簇的數(shù)目相同;
      [0012] 步驟3,將每個(gè)類別中同一個(gè)簇內(nèi)的所有訓(xùn)練文本向量進(jìn)行合并,得到新的文本向 量,從而每個(gè)類別中新的文本向量的個(gè)數(shù)與步驟2設(shè)定的簇的數(shù)目相同;
      [0013] 步驟4,計(jì)算待分類文本向量與步驟3得到的新的文本向量的相似度,并按相似度 由大到小進(jìn)行排序,選出相似度最大的前M個(gè)新的文本向量;將前M個(gè)新的文本向量中屬于 同一類別的文本向量的相似度相加,各個(gè)類別相加后的結(jié)果除W對(duì)應(yīng)類別中新的文本向量 的總個(gè)數(shù),得到待分類文本與對(duì)應(yīng)類別的相似度;
      [0014] 步驟5,計(jì)算步驟3合并后每個(gè)類別的中屯、向量,W及每個(gè)類別中新的文本向量到 中屯、向量的平均距離;計(jì)算待分類文本向量與每個(gè)類別的中屯、向量的距離,用上述平均距 離除W該距離,得到待分類文本隸屬各個(gè)類別的程度;
      [0015] 步驟6,將步驟4得到的待分類文本與對(duì)應(yīng)類別的相似度與步驟5得到的待分類文 本隸屬各個(gè)類別的程度相加,選出最大值,該最大值對(duì)應(yīng)的類別即為待分類文本的類別。
      [0016] 作為本發(fā)明的一種優(yōu)選方案,步驟1所述預(yù)處理包括停用詞過(guò)濾、非法字符過(guò)濾、 稀有詞處理和近義詞處理。
      [0017] 作為本發(fā)明的一種優(yōu)選方案,步驟1所述提取文本特征詞的方法為CHI概率統(tǒng)計(jì) 法。
      [0018] 作為本發(fā)明的一種優(yōu)選方案,步驟2所述每個(gè)類別聚類形成的簇?cái)?shù)滿足W下條件: 該簇?cái)?shù)小于訓(xùn)練文本數(shù)最少的類別中訓(xùn)練文本的個(gè)數(shù),且該簇?cái)?shù)大于M。
      [0019] 作為本發(fā)明的一種優(yōu)選方案,步驟4所述相似度Sim的計(jì)算公式為:
      [0020]
      [0021] 其中,0=(X1,X2,'。,Xn)表示待分類文本向量,T=(yi,y2,'。,yn)表示新的文本向 量,n表示維數(shù),d(0,T)表示0與T的歐氏距離。
      [0022] 作為本發(fā)明的一種優(yōu)選方案,步驟5所述中屯、向量S和平均距離Dis的計(jì)算公式為:
      [0023]
      [0024]
      [0025] 其中,dtj表示類別Cj的第t個(gè)新的文本向量,P表示每個(gè)類別中新的文本向量的個(gè) 數(shù)。
      [0026] 作為本發(fā)明的一種優(yōu)選方案,步驟5所述待分類文本向量與每個(gè)類別的中屯、向量 的距離的計(jì)算公式為:
      [0027]
      [0028] 其中,O=Ul,X2,...,Xn)表示待分類文本向量,Sj= (Zl,Z2,...,Zn)表示類別Cj的中 屯、向量,n表示維數(shù)。
      [0029] 本發(fā)明采用W上技術(shù)方案與現(xiàn)有技術(shù)相比,具有W下技術(shù)效果:
      [0030] 1、計(jì)算待分類文本與每個(gè)訓(xùn)練集文本的相似度時(shí),時(shí)間復(fù)雜度與訓(xùn)練集中的文本 數(shù)成正比。當(dāng)訓(xùn)練集過(guò)大時(shí),文本分類算法執(zhí)行速度將大幅度下降,失去實(shí)用性。但是,采取 直接刪減樣本數(shù)或大量降低特征維數(shù)的方法W減少文本分類算法的計(jì)算量會(huì)嚴(yán)重影響分 類的準(zhǔn)確率。本發(fā)明采用聚類算法將相似度較高的文本歸為同一簇中,并確保同一簇中文 本相似度高而不同的簇之間文本相似度低,該方法有效減少原始樣本的個(gè)數(shù),可W提高算 法執(zhí)行效率,縮減時(shí)間復(fù)雜度,削弱了待分類文本的分類判定受到單個(gè)訓(xùn)練樣本的影響。
      [0031] 2、本發(fā)明中對(duì)于每個(gè)類別中相似文本聚成的簇的改進(jìn)并不是裁剪文本,而是將文 本進(jìn)行串接合并,運(yùn)樣可W最大限度保證原始樣本不發(fā)生大幅度改變,削弱了待分類文本 的分類判定受到單個(gè)訓(xùn)練樣本的影響,從而在降低計(jì)算量的基礎(chǔ)上不影響分類的準(zhǔn)確率。
      [0032] 3、本發(fā)明中隸屬度是對(duì)文本分類算法原理進(jìn)行改進(jìn),訓(xùn)練文本分布的密度會(huì)對(duì)待 分類文本的判定造成誤差,訓(xùn)練文本密度越大,待分類文本與之計(jì)算的相似度之和也越大, 導(dǎo)致本該屬于其他類別的待分類文本屬于該類別,產(chǎn)生誤判。隸屬度添加了類別平均距離 與待分類文本到中屯、向量的距離的比值,該比值反應(yīng)待分類文本屬于某類別的程度,比值 越大,說(shuō)明待分類文本隸屬該類別的程度越深,就越可能屬于該類別。因此本發(fā)明的隸屬度 能提高分類準(zhǔn)確率。
      【附圖說(shuō)明】
      [0033] 圖1是本發(fā)明基于聚類和隸屬度融合的改進(jìn)型文本分類算法的流程圖。
      [0034] 圖2是使用聚類算法將同一類別中的文檔形成新的文本向量的過(guò)程圖。
      [0035] 圖3是類別中屯、向量圖。
      [0036] 圖4是訓(xùn)練文本密度對(duì)待分類文本的影響圖。
      【具體實(shí)施方式】
      [0037] 下面詳細(xì)描述本發(fā)明的實(shí)施方式,所述實(shí)施方式的示例在附圖中示出。下面通過(guò) 參考附圖描述的實(shí)施方式是示例性的,僅用于解釋本發(fā)明,而不能解釋為對(duì)本發(fā)明的限制。
      [0038] 本發(fā)明要解決的問(wèn)題是減少文本分類算法執(zhí)行的時(shí)間復(fù)雜度,提高待分類文本被 劃分類別的準(zhǔn)確度?,F(xiàn)有的提高分類速度的改進(jìn)算法是直接裁剪原始樣本數(shù)或者降低特征 維數(shù),而且運(yùn)些算法并沒有考慮待分類文本進(jìn)行分類判定時(shí)的誤差,即隸屬度的深淺問(wèn)題, 因此分類準(zhǔn)確率會(huì)嚴(yán)重下降。本發(fā)明提供一種基于聚類和隸屬度融合的改進(jìn)型文本分類方 法,將聚類和隸屬度進(jìn)行結(jié)合,聚類算法在不裁剪原始樣本數(shù)量的基礎(chǔ)上減少文本分類算 法執(zhí)行的時(shí)間復(fù)雜度,隸屬度改進(jìn)了待分類文本的分類判定方式,考慮訓(xùn)練文本密度對(duì)分 類判定的影響,提高文本分類的準(zhǔn)確率。運(yùn)兩種方法充分考慮了樣本規(guī)模與分類速度成負(fù) 相關(guān)性,與分類準(zhǔn)確率成正相關(guān)性的情況,并考慮樣本密度。因此無(wú)論在算法的時(shí)間效率還 是在準(zhǔn)確率上都取得更好的效果。
      [0039] 如圖1所示,為本發(fā)明基于聚類和隸屬度融合的改進(jìn)型文本分類算法的流程圖。在 算法執(zhí)行時(shí),聚類各個(gè)類別中的樣本,并將形成的簇中的樣本進(jìn)行簡(jiǎn)單連接形成新的文本 向量,W縮減原始樣本的個(gè)數(shù)提高執(zhí)行效率并削弱待分類文本的分類判定受到單個(gè)訓(xùn)練樣 本的影響;在分類判定過(guò)程中不僅計(jì)算文本相似度,還考慮訓(xùn)練文本密度對(duì)隸屬度深淺的 影響,從而提高算法的準(zhǔn)確率。
      [0040] 本發(fā)明首先是將訓(xùn)練文本進(jìn)行分詞,再進(jìn)行預(yù)處理并將訓(xùn)練文本用空間向量表 示,同樣的方法處理待分類文本。之后用聚類算法降低原始樣本規(guī)模,再計(jì)算待分類文本與 可能所屬類別的隸屬度,結(jié)合隸屬度與文本相似度進(jìn)行判定分類。本發(fā)明使用的聚類算法 不僅對(duì)原始樣本的特征無(wú)太大影響而且在此基礎(chǔ)之上縮減了訓(xùn)練集規(guī)模,削弱了待分類文 本的分類判定受到單個(gè)訓(xùn)練樣本的影響。訓(xùn)練文本的分布情況對(duì)待分類文本的分類判定造 成一定偏差,隸屬度是待分類文本屬于某一類別的程度,計(jì)算隸屬度可在一定程度上縮小 誤差,使分類準(zhǔn)確率挺高。本發(fā)明算法的具體流程為:
      [0041] 1、將訓(xùn)練文本集進(jìn)行分詞,并進(jìn)行預(yù)處理:停用詞過(guò)濾、非法字符過(guò)濾、稀有詞處 理、近義詞處理;預(yù)處理后提取訓(xùn)練文本集中的特征詞匯組成相應(yīng)的多維度空間,每個(gè)訓(xùn)練 文本用空間向量表示。
      [0042] 首先將文本進(jìn)行分詞,分詞預(yù)處理后提取文本特征詞,目前主要有7種方法:互信 息、信息增益、期望交叉賭、幾率比、文本證據(jù)權(quán)、詞頻法W及CHI概率統(tǒng)計(jì)。實(shí)驗(yàn)表明CHI性 能較好,充分考慮了提取的特征詞對(duì)文本的貢獻(xiàn),可采用CHI進(jìn)行特征詞提取;最后利用提 取的特征詞構(gòu)造空間向量表示文本。待分類文本W(wǎng)相同的方式處理。
      [0043] 2、使用聚類算法將每個(gè)類別中相似度較高的文本歸為同一簇,規(guī)定每個(gè)類別中的 所有樣本聚類成P個(gè)簇。處理步驟如下:
      [0044] Stepl.對(duì)于訓(xùn)練樣本集中的每個(gè)類別,選擇P個(gè)文本向量作為初始的簇中屯、向量;
      [0045] Step2.在每個(gè)類別中計(jì)算剩余文本向量與Stepl中選擇簇中屯、向量的文本相似 度,并歸類到相似度最高的簇中形成聚類;
      [0046] Step3.計(jì)算每個(gè)簇中包含的文本的平均相似度,計(jì)算結(jié)果作為新的簇中屯、向量;
      [0047] Step4.將每個(gè)類中的所有訓(xùn)練文本按照新的簇中屯、向量重新聚類;
      [004引 steps.重復(fù)Step4,直到聚類結(jié)果不再改變。
      [0049] 假設(shè)某一類別中有N個(gè)訓(xùn)練文本,則p《N。通常情況下P的理想數(shù)值介于M和訓(xùn)練文 本數(shù)最少的類別中的文本數(shù)之間,M是與待分類文本相似度最高的訓(xùn)練文本的個(gè)數(shù)。
      [0050] 3、將同一個(gè)簇內(nèi)的所有文本進(jìn)行合并,形成中屯、文本,即新的文本向量,從而每個(gè) 類別的樣本數(shù)減少到P份,如圖2所示。
      [0051] 同一簇內(nèi)的文本向量具有較大的相似度,因此有絕大部分的維度是重合的,運(yùn)使 得簇內(nèi)向量空間出現(xiàn)冗余現(xiàn)象。可W通過(guò)簡(jiǎn)單的文本合并將多余重復(fù)的維度去掉,即相同 或意義相近的特征詞只保留一份,進(jìn)而將同一簇內(nèi)所有樣本合并成一個(gè)新的文本向量空 間。該方法在減少樣本數(shù)的同時(shí)最大限度保證有效特征詞數(shù)目不變,從而對(duì)分類判定的準(zhǔn) 確率影響降到最小。運(yùn)樣,同一簇內(nèi)的文本數(shù)量降低到P,總體看來(lái)原始訓(xùn)練文本集規(guī)模大 幅度縮減,但總體特征與裁剪文本相比變化很小。因此聚類算法在縮小訓(xùn)練文本集規(guī)模的 同時(shí)對(duì)文本分類算法進(jìn)行分類判定時(shí)的影響很小。
      [0052] 4、計(jì)算待分類文本向量與所有新的文本向量的相似度,按照計(jì)算結(jié)果的大小順序 對(duì)相應(yīng)的訓(xùn)練文本進(jìn)行排序,選出相似度最大的M個(gè)新的文本向量,并根據(jù)M個(gè)新的文本向 量所屬類別確定可能劃分的所有類別。
      [0053] 計(jì)算文本相似度的方法通常有向量?jī)?nèi)積、夾角余弦、歐式距離。本發(fā)明采用歐式距 離計(jì)算文本之間的相似度。設(shè)待分類文本的空間向量表示成O=Ul, X2,…,Xn),新的文本向 量的空間向量表示成了=(71,72,,,,,7。),0與1'的歐氏距離為:
      [0054]
      (1)
      [0055] 用式(1)的倒數(shù)代表待分類文本與新的文本向量的相似度,即:
      [005W
      口)
      [0057] 式(2)按計(jì)算結(jié)果由大到小排列,根據(jù)結(jié)果最大的前M個(gè)新的文本向量確定待分類 文本可能隸屬的類別。
      [0058] 5、對(duì)于M個(gè)新的文本向量,將屬于相同類別的新的文本向量的相似度相加,計(jì)算結(jié) 果比上該類文本對(duì)應(yīng)類別中的所有新的文本向量的個(gè)數(shù),即P,得到待分類文本與對(duì)應(yīng)類別 的相似度。
      [0059] 根據(jù)式(2)計(jì)算結(jié)果計(jì)算待分類文本與類別的相似度。設(shè)待分類文本0的M個(gè)鄰近 訓(xùn)練文本中,屬于類別Cj的新的文本向量有g(shù)個(gè),則0與Cj的相似度為:
      [0060]
      (3)
      [0061] 6、計(jì)算每個(gè)類別的中屯、向量和該類別各個(gè)文本到中屯、向量的平均距離,類別中屯、 向量如圖3所示。
      [0062] 中屯、向量求法:設(shè)Cj是訓(xùn)練文本集中的一個(gè)類別,dtj是類別Cj的一個(gè)新的文本向 量,則類別C北勺中屯、向量Sj為:
      [0063]
      (4)
      [0064] 同一類別中各個(gè)文本向量到對(duì)應(yīng)中屯、向量的平均距離反應(yīng)該類別中文本的分布 情況,設(shè)平均距離為Dis(dj,Sj),其中,dj是Cj中WSj為中屯、向量的文本向量,Dis(dj,Sj)求 法:
      [00化] 巧)
      [0066] 7、計(jì)算待分類文本到步驟6中求出的所有類別的中屯、向量的距離,用上述步驟6中 計(jì)算的類別平均距離比上該距離。
      [0067]待分類文本0的空間向量表示為0= (XI,X2,…,Xn),類別Cj的中屯、向量Sj表示為Sj = (Z1,Z2,。',Zn),0與Sj的距離:
      [006引
      化)
      [0069] 各類文本到中屯響量的平均距離比上0到S j的距離:
      [0070]

      [0071] 該結(jié)果表明了待分類文本對(duì)類別的隸屬度,值越大,表明隸屬度越深,就越可能屬 于該類。如圖4所示,因?yàn)槎噙呅蔚拿芏却?,五星本該隸屬=角形,但被判定為多邊形。隸屬 度添加了類別平均距離與待分類文本到中屯、向量的距離的比值,該比值反應(yīng)待分類文本屬 于某類別的程度,比值越大,說(shuō)明待分類文本隸屬該類別的程度越深,就越可能屬于該類 另Ij。因此,隸屬度提高了分類準(zhǔn)確率。
      [0072] 8、將式(3)和式(7)對(duì)應(yīng)類別的計(jì)算結(jié)果相加,選出最大值,最大值對(duì)應(yīng)的類別即 為待分類文本的類別。
      [0073] 最終的比較結(jié)果是待分類文本與類別相似度加上平均距離與其到中屯、向量的距 離進(jìn)行比較:
      [0074] (J) =simclass(0,Cj)+Q(0,Sj) (8)
      [0075] 待分類文本的類別是d)值最大者對(duì)應(yīng)的類別。
      [0076] W上實(shí)施例僅為說(shuō)明本發(fā)明的技術(shù)思想,不能W此限定本發(fā)明的保護(hù)范圍,凡是 按照本發(fā)明提出的技術(shù)思想,在技術(shù)方案基礎(chǔ)上所做的任何改動(dòng),均落入本發(fā)明保護(hù)范圍 之內(nèi)。
      【主權(quán)項(xiàng)】
      1. 一種基于聚類和隸屬度融合的改進(jìn)型文本分類算法,其特征在于,包括如下步驟: 步驟1,獲取多個(gè)類別的訓(xùn)練文本,組成訓(xùn)練文本集;對(duì)待分類文本以及訓(xùn)練文本集中 各訓(xùn)練文本進(jìn)行分詞,并對(duì)詞進(jìn)行預(yù)處理,預(yù)處理后提取文本特征詞組成多維度空間向量, 將待分類文本以及訓(xùn)練文本集中各訓(xùn)練文本用向量表示; 步驟2,在步驟1的基礎(chǔ)上,利用聚類算法對(duì)每個(gè)類別中的訓(xùn)練文本向量進(jìn)行聚類,設(shè)定 每個(gè)類別聚類形成的簇的數(shù)目相同; 步驟3,將每個(gè)類別中同一個(gè)簇內(nèi)的所有訓(xùn)練文本向量進(jìn)行合并,得到新的文本向量, 從而每個(gè)類別中新的文本向量的個(gè)數(shù)與步驟2設(shè)定的簇的數(shù)目相同; 步驟4,計(jì)算待分類文本向量與步驟3得到的新的文本向量的相似度,并按相似度由大 到小進(jìn)行排序,選出相似度最大的前M個(gè)新的文本向量;將前M個(gè)新的文本向量中屬于同一 類別的文本向量的相似度相加,各個(gè)類別相加后的結(jié)果除以對(duì)應(yīng)類別中新的文本向量的總 個(gè)數(shù),得到待分類文本與對(duì)應(yīng)類別的相似度; 步驟5,計(jì)算步驟3合并后每個(gè)類別的中心向量,以及每個(gè)類別中新的文本向量到中心 向量的平均距離;計(jì)算待分類文本向量與每個(gè)類別的中心向量的距離,用上述平均距離除 以該距離,得到待分類文本隸屬各個(gè)類別的程度; 步驟6,將步驟4得到的待分類文本與對(duì)應(yīng)類別的相似度與步驟5得到的待分類文本隸 屬各個(gè)類別的程度相加,選出最大值,該最大值對(duì)應(yīng)的類別即為待分類文本的類別。2. 根據(jù)權(quán)利要求1所述基于聚類和隸屬度融合的改進(jìn)型文本分類算法,其特征在于,步 驟1所述預(yù)處理包括停用詞過(guò)濾、非法字符過(guò)濾、稀有詞處理和近義詞處理。3. 根據(jù)權(quán)利要求1所述基于聚類和隸屬度融合的改進(jìn)型文本分類算法,其特征在于,步 驟1所述提取文本特征詞的方法為CHI概率統(tǒng)計(jì)法。4. 根據(jù)權(quán)利要求1所述基于聚類和隸屬度融合的改進(jìn)型文本分類算法,其特征在于,步 驟2所述每個(gè)類別聚類形成的簇?cái)?shù)滿足以下條件:該簇?cái)?shù)小于訓(xùn)練文本數(shù)最少的類別中訓(xùn) 練文本的個(gè)數(shù),且該簇?cái)?shù)大于M。5. 根據(jù)權(quán)利要求1所述基于聚類和隸屬度融合的改進(jìn)型文本分類算法,其特征在于,步 驟4所述相似度sim的計(jì)算公式為:其中,〇=(11^2,一01〇表示待分類文本向量,1=(71,72,一,711)表示新的文本向量,11 表示維數(shù),d(0,T)表示O與T的歐氏距離。6. 根據(jù)權(quán)利要求1所述基于聚類和隸屬度融合的改進(jìn)型文本分類算法,其特征在于,步 驟5所述中心向量S和平均距離Dis的計(jì)算公式為:其中,dtj表示類別Cj的第t個(gè)新的文本向量,p表示每個(gè)類別中新的文本向量的個(gè)數(shù)。7.根據(jù)權(quán)利要求1所述基于聚類和隸屬度融合的改進(jìn)型文本分類算法,其特征在于,步 驟5所述待分類文本向量與每個(gè)類別的中心向量的距離的計(jì)算公式為:其中,O= (X1,X2,···,Xn)表示待分類文本向量,Sj = (Z1,Z2,···,Zn)表示類別Cj的中心向 量,η表示維數(shù)。
      【文檔編號(hào)】G06F17/27GK106021578SQ201610380813
      【公開日】2016年10月12日
      【申請(qǐng)日】2016年6月1日
      【發(fā)明人】徐小龍, 彭玉霞
      【申請(qǐng)人】南京郵電大學(xué)
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1