技術(shù)總結(jié)
一種改進(jìn)的文本相似度求解方法,先對兩文本進(jìn)行分詞和去停用詞處理,基于信息論方法,計算特征詞匯在文本中的權(quán)重,再根據(jù)詞匯位置信息,計算詞匯在文本中的位置權(quán)重,綜合上述因子,得到特征詞匯目標(biāo)函數(shù),進(jìn)而提取到兩特征詞匯向量,文本相似度問題轉(zhuǎn)化為向量間距離問題。本發(fā)明比傳統(tǒng)文本相似度計算方法準(zhǔn)確度更高,適用性更廣,同時為后續(xù)的文本聚類提供良好的理論基礎(chǔ)。
技術(shù)研發(fā)人員:金平艷
受保護(hù)的技術(shù)使用者:四川用聯(lián)信息技術(shù)有限公司
文檔號碼:201610864168
技術(shù)研發(fā)日:2016.09.29
技術(shù)公布日:2017.05.03