專利名稱:通過主題詞矯正基于向量空間模型文本相似度計算的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于向量空間模型計算文本相似度計算的方法,尤其是一種通過主題詞矯正基于向量空間模型文本相似度計算的方法,屬于計算機(jī)技術(shù)領(lǐng)域。
傳統(tǒng)的向量空間模型在文本分類中已經(jīng)得到比較多的應(yīng)用;但是,針對文本信息過濾而言,向量空間模型的相似度計算結(jié)果精度有限,基本不能作為過濾的依據(jù)。
如果能夠利用文本主題相關(guān)程度對基于向量空間模型文本相似度的計算結(jié)果進(jìn)行矯正,就可以有效地提高基于向量空間模型的文本相似度計算的精度,使得向量空間模型的相似度計算的結(jié)果適用于文本信息過濾。
本發(fā)明的目的是這樣實現(xiàn)的一種通過主題詞矯正基于向量空間模型文本相似度計算的方法,所述方法包括如下步驟步驟1提取文本的主題相關(guān)信息;步驟2矯正基于向量空間模型文本相似度計算。
所述步驟2之前還包括對依據(jù)步驟1所提取的主題相關(guān)信息進(jìn)行矯正,再依據(jù)主題信息矯正后的結(jié)果矯正基于向量空間模型文本相似度計算。
所述步驟1提取主題相關(guān)信息依據(jù)詞頻或集合頻度或詞長信息內(nèi)容進(jìn)行。
所述的提取主題相關(guān)信息依據(jù)如下計算公式進(jìn)行 其中,①表示詞頻因子部分;②表示集合頻率因子;③表示詞長因子;wik表示詞k在文本i中的權(quán)值;tf表示詞k在文本i中的頻率;MAXtf表示文本i中詞頻最大的詞的頻率;K1表示對tf的重視程度,通常取值0.5;wl為詞k的詞長; 為文本中詞長的最大值;K2表示對wl的重視程度,通常取值0.5;Tw為文本i中的總詞數(shù)(僅指特征詞)。
對所提取的主題相關(guān)信息進(jìn)行矯正為通過主題信息的相交程度,判斷內(nèi)容的相似度。
矯正基于向量空間模型文本相似度計算為相交度大于閾值時,強(qiáng)化特征向量相似度值;相交度小于閾值時,弱化特征向量相似度值。
主題相關(guān)信息矯正為Ris=A+Tis∩CsCs]]>其中,A是反映對主題詞相關(guān)的重視程度經(jīng)驗值(0<A<1),Ris是主題詞相關(guān)系數(shù);Tis是待分析文本i的主題詞數(shù);Cs是標(biāo)準(zhǔn)類的主題詞數(shù),“∩”是求交運(yùn)算,即判斷Cs包含Tis的數(shù)量。
矯正基于向量空間模型文本相似度計算即=Sim(wi,vj)×Ris其中,Sim(wi,vj)為向量空間模型文本相似度計算。
所述的主題相關(guān)信息為主題詞或特征詞。
使用本發(fā)明的方法能夠修正基于向量空間模型文本相似度計算的方法,用當(dāng)前文本主題詞和已定義類的主題詞求交,以判斷一個文本是否屬于已定義的類別,通過反映對主題詞相關(guān)程度重視的經(jīng)驗值和主題詞求交的百分?jǐn)?shù),構(gòu)建了更為有效、更為符合自然的文本類別歸屬結(jié)果。
標(biāo)準(zhǔn)的基于向量空間模型文本相似度計算的方法為Sim(wi,vj)=Cosθ=Σk=1nwik.vjkΣk=1nwik2·Σk=1nvjk2]]>公式中Wi,Vj分別為待分析文本向量和標(biāo)準(zhǔn)向量,wik,vjk是向量的分量。由此可以看出,在相似度計算過程中,所有的詞都被同等對待。
除了特征詞之外,每一類文本中都存在一些特殊的詞,它們對文本的類別歸屬具有特殊的價值,這些特定的詞被稱為特征詞或主題詞。在人類的智能分類過程中,會考慮到這些主題詞的特殊貢獻(xiàn),對文本類別歸屬進(jìn)行加權(quán)。
基于這種思想,為使相似度計算的結(jié)果更加有效和自然,設(shè)置一依據(jù)主題詞的提取方法,并依據(jù)提取的主題詞對上述標(biāo)準(zhǔn)方法進(jìn)行的矯正。
在進(jìn)行主題詞相關(guān)矯正之前,首先要提取特定類別的主題詞。其過程是分析特定文本,提取文本特征向量時,綜合考慮詞頻、集合頻度、詞長信息提取主題詞。我們提出的具體方法如下 其中,①表示詞頻因子部分;②表示集合頻率因子;③表示詞長因子;wik表示詞k在文本i中的權(quán)值;tf表示詞k在文本i中的頻率;MAXtf表示文本i中詞頻最大的詞的頻率;K1表示對tf的重視程度,通常取值0.5;wl為詞k的詞長; 為文本中詞長的最大值;K2表示對wl的重視程度,通常取值0.5;Tw為文本i中的總詞數(shù)(僅指特征詞)。
在訓(xùn)練過程中,從標(biāo)準(zhǔn)文本中提取以上值最高的一批詞作為標(biāo)準(zhǔn)主題詞集,處理待分析文本時,也依據(jù)這個公式計算待分析文本的主題詞集,以這兩個集合作為主題詞矯正的依據(jù)。
具體實例為判斷一個特征詞W是否屬于文本i的主題詞某一文本i中總特征詞數(shù)Tw=100,詞頻最大MAXtf=6,詞長最大MAXwl=5,]]>文本中有特征詞W,其長度wl=3,在文本中的頻率tf為5,取K1=K2=0.5,用主題詞提取公式計算特征詞W在文本i中的權(quán)值,得wik=(0.5+0.5×56)×1log21005×(0.5+0.5×36)≈0.159]]>重復(fù)上述步驟,計算文本i中所有100個特征詞的權(quán)值,將所有特征詞按權(quán)值大小排序,若在文本i中提取10個主題詞,則直接選取權(quán)值最大的前十個特征詞作為文本主題詞,若詞W的權(quán)值wik滿足條件,詞W就是文本i的主題詞。
在計算待分析文本的相似度時,基于主題詞矯正思想,根據(jù)待分析文本與標(biāo)準(zhǔn)主題詞集合的相交程度調(diào)節(jié)主題詞矯正系數(shù)。
主題詞矯正計算公式如下Ris=A+Tis∩CsCs]]>其中,A是經(jīng)驗值(0<A<1),通常取值0.7,反映對主題詞相關(guān)的重視程度。Ris是主題詞相關(guān)系數(shù),取值范圍A-A+1;Tis是待分析文本i的主題詞數(shù);Cs是標(biāo)準(zhǔn)類的主題詞數(shù),“∩”是求交運(yùn)算,即判斷Cs包含Tis的數(shù)量,求交運(yùn)算不受主題詞的排列順序影響。
主題詞相關(guān)系數(shù)的目的在于通過主題詞相交程度來判斷內(nèi)容的相似度。公式表明,只要達(dá)到1-A的主題詞相交,即待分析文本主題詞數(shù)與標(biāo)準(zhǔn)文本主題詞數(shù)的比值 大于1-A,Ris大于1,就強(qiáng)化特征向量相似度值;反之,Ris小于1,就弱化特征向量相似度值。
本發(fā)明的方法目的是通過主題詞矯正基于向量空間模型文本相似度計算的方法,即為用主題詞矯正修正基于向量空間模型文本相似度計算待分析文本i與標(biāo)準(zhǔn)文本的相關(guān)程度=Sim(wi,vj)×Ris其中Ris為主題詞相關(guān)矯正系數(shù)。
具體實例為某一過濾類T有主題詞集Subj_T={S1,S2,S3,S4,S5,S6,S7,S8,S9,S10}某一文本i經(jīng)向量空間模型計算得到與過濾類T的相似度為Sim(t,i),經(jīng)主題詞抽取得到主題詞集Subj_i={i1,i2,i3,i4,i5,i6,i7,i8,i9,i10}對Subj_T和Subj_i求交,即判斷Si等于ik的個數(shù),1)假設(shè)有Sibk_T∩Subj_i=7,取A=0.7,則主題詞矯正值Ris=0.7+Tis∩CsCs0.7+710=1.4]]>用Ris對由VSM模型文本相似度進(jìn)行矯正待分析文本i與T類的相關(guān)程度=Sim(i,T)×Ris=1.4×Sim(i,T)文本相似度被矯正提高,說明文本i與過濾類T的主題高度相關(guān)增強(qiáng)了文本內(nèi)容相似程度。
2)假設(shè)有Subj_T∩Subj_i=1,取A=0.7,則主題詞矯正值Ris=0.7+Tis∩CsCs=0.7+110=0.8]]>用Ris對由VSM模型文本相似度進(jìn)行矯正待分析文本i與T類的相關(guān)程度=Sim(i,T)×Ris=0.8×Sim(i,T)文本相似度被矯正降低,說明文本i與過濾類T的主題偏離削弱了文本內(nèi)容相似程度。
權(quán)利要求
1.一種通過主題詞矯正基于向量空間模型文本相似度計算的方法,其特征在于所述方法包括如下步驟步驟1提取文本的主題相關(guān)信息;步驟2矯正基于向量空間模型文本相似度計算。
2.如權(quán)利要求1所述的通過主題詞矯正基于向量空間模型文本相似度計算的方法,其特征在于所述步驟2之前還包括對依據(jù)步驟1所提取的主題相關(guān)信息進(jìn)行矯正,再依據(jù)主題信息矯正后的結(jié)果矯正基于向量空間模型文本相似度計算。
3.如權(quán)利要求1所述的通過主題相關(guān)信息矯正基于向量空間模型文本相似度計算的方法,其特征在于所述步驟1提取主題相關(guān)信息依據(jù)詞頻、集合頻度、詞長信息、詞以及總詞數(shù),取加權(quán)后權(quán)重最高的為主題相關(guān)信息。
4.如權(quán)利要求3所述的基于向量空間模型文本相似度計算的方法,其特征在于所述的提取主題相關(guān)信息依據(jù)如下計算公式進(jìn)行 其中,①表示詞頻因子部分;②表示集合頻率因子;③表示詞長因子;wik表示詞k在文本i中的權(quán)值;tf表示詞k在文本i中的頻率;MAXtf表示文本i中詞頻最大的詞的頻率;K1表示對tf的重視程度,通常取值0.5;wl為詞k的詞長; 為文本中詞長的最大值;K2表示對wl的重視程度,通常取值0.5;Tw為文本i中的總詞數(shù)(僅指特征詞)。
5.如權(quán)利要求2所述的通過主題相關(guān)信息矯正基于向量空間模型文本相似度計算的方法,其特征在于對所提取的主題相關(guān)信息進(jìn)行矯正為通過主題信息的相交程度,判斷內(nèi)容的相似度。
6.如權(quán)利要求2或5所述的通過主題相關(guān)信息矯正基于向量空間模型文本相似度計算的方法,其特征在于矯正基于向量空間模型文本相似度計算為相交度大于閾值時,強(qiáng)化特征向量相似度值;相交度小于閾值時,弱化特征向量相似度值。
7.如權(quán)利要求2所述的通過主題相關(guān)信息矯正基于向量空間模型文本相似度計算的方法,其特征在于主題相關(guān)信息矯正為Ris=A+Tis∩CsCs]]>其中,A是反映對主題詞相關(guān)的重視程度經(jīng)驗值(0<A<1),Ris是主題詞相關(guān)系數(shù);Tis是待分析文本i的主題詞數(shù);Cs是標(biāo)準(zhǔn)類的主題詞數(shù),“∩”是求交運(yùn)算,即判斷Cs包含Tis的數(shù)量。
8.如權(quán)利要求6或7所述的通過主題相關(guān)信息矯正基于向量空間模型文本相似度計算的方法,其特征在于矯正基于向量空間模型文本相似度計算即=Sim(wi,vj)×Ris其中,Sim(wi,vj)為向量空間模型文本相似度計算。
9.如權(quán)利要求1、2、3、4、5或7所述的通過主題相關(guān)信息矯正基于向量空間模型文本相似度計算的方法,其特征在于所述的主題相關(guān)信息為主題詞或特征詞。
全文摘要
一種通過主題詞矯正基于向量空間模型文本相似度計算的方法,它包括步驟1提取文本的主題相關(guān)信息;步驟2矯正基于向量空間模型文本相似度計算;該方法能夠修正基于向量空間模型文本相似度計算的結(jié)果,用當(dāng)前文本主題詞和已定義類的主題詞求交,以判斷一個文本是否屬于已定義的類別,通過反映對主題詞相關(guān)程度重視的經(jīng)驗值和主題詞求交的百分?jǐn)?shù),構(gòu)建了更為有效、更為符合自然的文本類別歸屬結(jié)果。
文檔編號G06F17/21GK1403957SQ0113140
公開日2003年3月19日 申請日期2001年9月6日 優(yōu)先權(quán)日2001年9月6日
發(fā)明者肖航, 高建忠, 王江, 諸光, 王楠 申請人:聯(lián)想(北京)有限公司