国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種文本分類的方法及裝置的制作方法

      文檔序號:6597865閱讀:171來源:國知局
      專利名稱:一種文本分類的方法及裝置的制作方法
      技術(shù)領(lǐng)域
      本申請涉及計算機(jī)及通信領(lǐng)域,特別是涉及文本分類的方法及裝置。
      背景技術(shù)
      文本分類是文本挖掘的一個重要內(nèi)容,是指按照預(yù)先定義的主題類別,為文檔集 合中的每個文檔確定一個類別。通過自動文本分類系統(tǒng)把文檔進(jìn)行歸類,可以幫助人們更 好地尋找需要的信息和知識。在人們看來,分類是對信息的一種最基本的認(rèn)知形式。傳統(tǒng)的 文獻(xiàn)分類研究有著豐富的研究成果和相當(dāng)?shù)膶?shí)用水平。但隨著文本信息的快速增長,特別 是互聯(lián)網(wǎng)(Internet)上在線文本信息的激增,文本自動分類已經(jīng)成為處理和組織大量文 檔數(shù)據(jù)的關(guān)鍵技術(shù)?,F(xiàn)在,文本分類正在各個領(lǐng)域得到廣泛的應(yīng)用。但是,隨著信息量日趨 豐富,人們對于內(nèi)容搜索的準(zhǔn)確率,查全率等方面的要求會越來越高,因而對文本分類技術(shù) 需求大為增加,如何構(gòu)造一個有效的文本分類系統(tǒng)仍然是文本挖掘的一個主要研究方向。在自然語言處理領(lǐng)域,文本的表示主要采用向量空間模型(Vector spacemodel, VSM),這種方法認(rèn)為每篇文本都包含一些用概念詞表達(dá)的揭示其內(nèi)容的獨(dú)立屬性,而每個 屬性都可以看成是概念空間的一個維數(shù),這些獨(dú)立屬性稱為文本特征項(xiàng),文本就可以表示 為這些特征項(xiàng)的集合。特征向量的相近程度常用夾角余弦來衡量。然后根據(jù)文本向量與候 選類別的特征向量的相近程度來判定文本的類別?,F(xiàn)有技術(shù)中需要計算每個文本向量與候選類別的所有特征向量相近程度,每次計 算均需要采用夾角余弦來衡量,計算量非常大,并且現(xiàn)有技術(shù)對文本的語義沒有任何約束, 其分類的準(zhǔn)確度不是很好。

      發(fā)明內(nèi)容
      本申請實(shí)施例提供一種文本分類的方法及裝置,用于實(shí)現(xiàn)文本分類,簡化分類操 作,并提高文本分類的準(zhǔn)確度。一種文本分類的方法,包括以下步驟對獲得的文本內(nèi)容進(jìn)行分詞,得到多個詞匯;針對得到的多個詞匯中的每一個詞匯,確定該詞匯在球面空間模型中的詞匯向 量;詞匯的詞匯向量包括該詞匯在各類目上的詞頻值進(jìn)行歸一化后得到的歸一化詞頻值; 球面空間模型是以單位長度為半徑的多維球體模型,球面空間的維度等于類目的個數(shù),類 目對應(yīng)球面空間中的一個類目向量;針對每個類目,確定得到的多個詞匯的詞匯向量之和到該類目的類目向量的距 罔;將文本分入最短距離對應(yīng)的類目。一種用于文本分類的裝置,包括分詞模塊,用于對獲得的文本內(nèi)容進(jìn)行分詞,得到多個詞匯;查詢模塊,用于針對得到的多個詞匯中的每一個詞匯,確定該詞匯在球面空間模型中的詞匯向量;詞匯的詞匯向量包括該詞匯在各類目上的詞頻值進(jìn)行歸一化后得到的歸 一化詞頻值;球面空間模型是以單位長度為半徑的多維球體模型,球面空間的維度等于類 目的個數(shù),類目對應(yīng)球面空間中的一個類目向量;計算模塊,針對每個類目,確定得到的多個詞匯的詞匯向量之和到該類目的類目 向量的距離;分類模塊,用于將文本分入最短距離對應(yīng)的類目。本申請實(shí)施例預(yù)先構(gòu)造一球面空間模型,并基于該球面空間模型對文本進(jìn)行分 類,在分類過程中,計算文本中各詞匯的向量和與各類目向量的距離,從而確定文本應(yīng)分入 的類目。本申請實(shí)施例實(shí)現(xiàn)了文本分類,并且相對于現(xiàn)有技術(shù)中的夾角余弦算法,計算量明 顯減少。以及本申請實(shí)施例中球面空間模型以單位長度為半徑,則一個詞匯在各類目上的 歸一化后的詞匯向量的平方和也為單位長度,相當(dāng)于將一個詞匯的語義信息量等價為單位 長度,對語義信息量進(jìn)行了約束,因此相對于現(xiàn)有技術(shù)可提高文本分類的準(zhǔn)確度。


      圖1為本申請實(shí)施例中裝置的主要結(jié)構(gòu)圖;圖2為本申請實(shí)施例中裝置的詳細(xì)結(jié)構(gòu)圖;圖3為本申請實(shí)施例中球面空間的示意圖;圖4為本申請實(shí)施例中文本分類的主要方法流程圖;圖5為本申請實(shí)施例中通過距離和進(jìn)行文本分類的方法流程圖;圖6為本申請實(shí)施例中通過詞匯向量和進(jìn)行文本分類的方法流程圖。
      具體實(shí)施例方式本申請實(shí)施例預(yù)先構(gòu)造一球面空間模型,并基于該球面空間模型對文本進(jìn)行分 類,在分類過程中,計算文本中各詞匯的向量和與各類目向量的距離,從而確定文本應(yīng)分入 的類目。本申請實(shí)施例實(shí)現(xiàn)了文本分類,并且相對于現(xiàn)有技術(shù)中的夾角余弦算法,計算量明 顯減少。以及本申請實(shí)施例中球面空間模型以單位長度為半徑,則一個詞匯在各類目上的 歸一化后的詞匯向量的平方和也為單位長度,相當(dāng)于將一個詞匯的語義信息量等價為單位 長度,對語義信息量進(jìn)行了約束,因此相對于現(xiàn)有技術(shù)可提高文本分類的準(zhǔn)確度。參見圖1,本實(shí)施例中用于文本分類的裝置包括分詞模塊101、查詢模塊102、計 算模塊103和分類模塊104。分詞模塊101用于對獲得的文本內(nèi)容進(jìn)行分詞,得到多個詞匯。查詢模塊102用于針對得到的多個詞匯中的一個詞匯,確定該詞匯在球面空間模 型中的詞匯向量。詞匯的詞匯向量包括該詞匯在各類目上的詞頻值進(jìn)行歸一化后得到的歸 一化詞頻值;球面空間模型是以單位長度為半徑的多維球體模型,球面空間的維度等于類 目的個數(shù),類目對應(yīng)球面空間中的一個類目向量。其中,單位長度可以為一常數(shù),為了便于 計算,本實(shí)施例中球面空間模型的半徑為1。文本中各詞匯的向量和到各類目向量的距離為 直線距離或球面距離。計算模塊103用于針對每個類目,確定對文本分詞后得到的多個詞匯的詞匯向量 和到每個類目向量的距離。
      分類模塊104用于將文本分入最短距離對應(yīng)的類目。計算模塊103在計算文本中詞匯向量和到各類目向量的距離時,可將對文本分詞 后得到的多個詞匯的詞匯向量在相應(yīng)類目上的歸一化詞頻值進(jìn)行累加,得到歸一化詞匯向 量和。分類模塊104將文本分入歸一化詞匯向量和的最大分量對應(yīng)的類目。所述裝置還包括接口模塊105、過濾模塊106、構(gòu)造模塊107和存儲模塊108,參 見圖2所示。接口模塊105用于從裝置外部獲得待分類的文本。過濾模塊106用于在對文本分詞得到多個詞匯后,對得到的多個詞匯進(jìn)行過濾, 得到符合過濾條件的多個詞匯。過濾條件有多種,如根據(jù)詞匯在各類目上的詞頻值計算該 詞匯的變異系數(shù),然后過濾出變異系數(shù)大于預(yù)設(shè)的變異系數(shù)閾值(如0. 5)的詞匯。通過變 異系數(shù),可過濾掉在各類目中詞頻值變化不大的詞(如你、我等在各類目的詞頻值基本一 致),而保留在各類目中詞頻值變化較明顯的詞(如專業(yè)名詞,在與其專業(yè)有關(guān)類目中的詞 頻值明顯高于其它類目下的詞頻值)。在各類目中詞頻值變化較明顯的詞,說明其主要出現(xiàn) 在某一個或某幾個類目中,這樣的詞對文本分類的準(zhǔn)確性做出較多的貢獻(xiàn),本實(shí)施例認(rèn)為 這樣的詞屬于優(yōu)秀詞,應(yīng)通過過濾來篩選出優(yōu)秀詞。還可能有其它過濾條件,此處不一一列 舉。構(gòu)造模塊107用于構(gòu)造球面空間模型。存儲模塊108用于存儲構(gòu)造的球面空間模型,以及分類存儲各文本等。構(gòu)造模塊107構(gòu)造球面空間模型的過程如下設(shè)多維球面空間為S,S的維數(shù)與類目的總數(shù)相同。類目Ci是球面上的一個端點(diǎn),
      同時對應(yīng)球面空間中的一個類目向量,Ci = {0,......,0,1,0,......,0},相當(dāng)于從球心
      (相當(dāng)于原點(diǎn))指向球面端點(diǎn),該類目向量的第i個維度值是1,其余都是0。本實(shí)施例中, 假設(shè)任意一個詞匯在任意兩個類目Ci和Cj中出現(xiàn)的概率是概率獨(dú)立的,則Ci和Cj在S 中必然是相互垂直的,推廣到一般,所有類目向量{Ci}是兩兩垂直的。本實(shí)施例中第m個詞匯的詞匯向量Wm為S中的一個向量,m = 1. . .M,M為詞匯的
      總數(shù)。Wm= {VI,V2,......,VN},Vi是在類目Ci上的歸一化詞頻值,i = 1... N,N為類目
      的總數(shù)。該歸一化詞頻值從球心指向球面端點(diǎn),則可將歸一化詞頻值表示為類目Ci上的坐 標(biāo)。詞匯的詞匯向量與類目向量的示意圖參見圖3所示,Ci、Cj和Ck表示三個類目向量, 0表示球心,也是原點(diǎn)(坐標(biāo)為{0,0,......,0})。本實(shí)施例中設(shè)任一個詞匯的語義信息量均為同一個常數(shù),語義信息量是指認(rèn)識主 體所感知或所表述的事物的存在方式和運(yùn)動狀態(tài)的邏輯含義,是詞匯內(nèi)在含義因素的信息 部分。定義該常數(shù)為單位長度,則詞匯向量在S中的長度(即詞匯向量的端點(diǎn)到原點(diǎn)0的 距離)也為該常數(shù),為了計算方便,設(shè)該常數(shù)為1。詞匯向量的端點(diǎn)到原點(diǎn)0的距離可表示
      為IWm-O = 1(公式 1),進(jìn)而根據(jù) Wm= {VI,V2,......,VN}有 Σ Vi2 = 1 (公式 2)。由
      公式1可知,詞匯向量Wm的端點(diǎn)均落在球面上。由于詞匯向量Wm和類目向量Ci的端點(diǎn)都 落在球面上,則任一個詞匯的語義與類目的近似程度可以用Wm與Ci的距離來表示,距離越 短則越接近。Wm與Ci的距離可以通過直線距離或球面距離來計算。由于定義了任一個詞匯的語義信息量均為同一個常數(shù),則歸一化詞頻值為詞頻值
      經(jīng)過歸一化后得到的,Vj^Fixk)2 =1,進(jìn)而有Σ (FiXk)2 = 1,其中Fi為該詞匯在類目Ci上的詞頻值,k為預(yù)設(shè)的歸一化系數(shù)。由Σ (FiXk)2 = 1可以導(dǎo)出
      權(quán)利要求
      1.一種文本分類的方法,其特征在于,包括以下步驟對獲得的文本內(nèi)容進(jìn)行分詞,得到多個詞匯;針對得到的多個詞匯中的一個詞匯,確定該詞匯在球面空間模型中的詞匯向量,其中 球面空間的維度等于類目的個數(shù),類目對應(yīng)球面空間中的一個類目向量;針對每個類目,確定得到的多個詞匯的詞匯向量之和到該類目的類目向量的距離;將文本分入最短距離對應(yīng)的類目。
      2.如權(quán)利要求1所述的方法,其特征在于,還包括步驟在得到多個詞匯后,對得到的 多個詞匯進(jìn)行過濾,得到符合過濾條件的多個詞匯。
      3.如權(quán)利要求1所述的方法,其特征在于,詞匯向量到類目向量的距離為直線距離或 球面距離。
      4.如權(quán)利要求1、2或3所述的方法,其特征在于,詞匯的詞匯向量包括該詞匯在各類目 上的詞頻值進(jìn)行歸一化后得到的歸一化詞頻值;球面空間模型是以單位長度為半徑的多維 球體模型。
      5.如權(quán)利要求4所述的方法,其特征在于,所述單位長度為1。
      6.如權(quán)利要求1、2或3所述的方法,其特征在于,確定得到的多個詞匯的詞匯向量之和 到各類目的類目向量的距離的步驟包括將得到的多個詞匯的詞匯向量在該類目上的歸一 化詞頻值進(jìn)行累加,得到歸一化詞匯向量和;將文本分入最短距離對應(yīng)的類目的步驟包括將文本分入歸一化詞匯向量和的最大分 量對應(yīng)的類目。
      7.一種用于文本分類的裝置,其特征在于,包括分詞模塊,用于對獲得的文本內(nèi)容進(jìn)行分詞,得到多個詞匯;查詢模塊,用于針對得到的多個詞匯中的一個詞匯,確定該詞匯在球面空間模型中的 詞匯向量,其中球面空間的維度等于類目的個數(shù),類目對應(yīng)球面空間中的一個類目向量;計算模塊,用于針對每個類目,確定得到的多個詞匯的詞匯向量之和到該類目的類目 向量的距離;分類模塊,用于將文本分入最短距離對應(yīng)的類目。
      8.如權(quán)利要求7所述的裝置,其特征在于,還包括過濾模塊,用于對得到的多個詞匯 進(jìn)行過濾,得到符合過濾條件的多個詞匯。
      9.如權(quán)利要求7所述的裝置,其特征在于,詞匯向量到類目的距離為直線距離或球面距離。
      10.如權(quán)利要求7、8或9所述的裝置,其特征在于,詞匯的詞匯向量包括該詞匯在各類 目上的詞頻值進(jìn)行歸一化后得到的歸一化詞頻值;球面空間模型是以單位長度為半徑的多 維球體模型。
      11.如權(quán)利要求10所述的裝置,其特征在于,所述單位長度為1。
      12.如權(quán)利要求7、8或9所述的裝置,其特征在于,計算模塊將得到的多個詞匯的詞匯 向量在該類目上的歸一化詞頻值進(jìn)行累加,得到歸一化詞匯向量和;分類模塊將文本分入歸一化詞匯向量和的最大分量對應(yīng)的類目。
      全文摘要
      本申請公開了一種文本分類的方法,用于實(shí)現(xiàn)文本分類,簡化分類操作,并提高文本分類的準(zhǔn)確度。所述方法包括對獲得的文本內(nèi)容進(jìn)行分詞,得到多個詞匯;針對得到的多個詞匯中的每一個詞匯,確定該詞匯在球面空間模型中的詞匯向量;詞匯的詞匯向量包括該詞匯在各類目上的詞頻值進(jìn)行歸一化后得到的歸一化詞頻值;球面空間模型是以單位長度為半徑的多維球體模型,球面空間的維度等于類目的個數(shù),類目對應(yīng)球面空間中的一個類目向量;針對每個類目,確定得到的多個詞匯的詞匯向量之和到該類目的類目向量的距離;將文本分入最短距離對應(yīng)的類目。本申請還公開了用于實(shí)現(xiàn)所述方法的裝置。
      文檔編號G06F17/30GK102141977SQ20101010451
      公開日2011年8月3日 申請日期2010年2月1日 優(yōu)先權(quán)日2010年2月1日
      發(fā)明者孫翔 申請人:阿里巴巴集團(tuán)控股有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1