国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種改進的文本相似度求解方法與流程

      文檔序號:11063473閱讀:763來源:國知局
      一種改進的文本相似度求解方法與制造工藝

      本發(fā)明涉及語義網絡技術領域,具體涉及一種改進的文本相似度求解方法。



      背景技術:

      目前主要的文本相似度計算方法有兩類,第一類是基于數(shù)理統(tǒng)計的方法,例如經典的向量空間模型方法。這類方法計算簡單,能在詞匯出現(xiàn)的頻度和頻率層面上反映兩個文本的相似程度。但是一個有實際意義的文本,它有自己想表達的中心思想,這是語義層面上的概念,數(shù)理統(tǒng)計方法提取出來的中心思想與文本實際表達的中心思想相差甚遠。因此,如果想要準確的計算文本之間的相似度,必須從語義層面上進行著手;第二類是基于語義分析的方法,這類方法利用語義詞典對文本中的詞匯進行語義分析,但沒有深入語義間的內在聯(lián)系,也沒有考慮文本中特征詞匯中不同詞匯對文本的重要程度的差異問題,因此計算的準確率較低。為了滿足上述需求,本發(fā)明提供了一種改進的文本相似度求解方法。



      技術實現(xiàn)要素:

      針對于文本中特征詞匯中不同詞匯對文本的重要程度的差異問題,本發(fā)明提供了一種改進的文本相似度求解方法。

      為了解決上述問題,本發(fā)明是通過以下技術方案實現(xiàn)的:

      步驟1:初始化文本語料庫模塊,對待比較文本(W1,W2)的進行預處理。

      步驟2:基于信息論方法,計算詞匯在文本中權重值WI

      步驟3:根據詞匯位置信息,計算詞匯在文本中的權重值

      步驟4:綜合考慮上述兩因子,構造提取文本(W1,W2)中的特征值目標函數(shù)分別提取文本(W1,W2)中的特征值。

      步驟5:求解待比較文本(W1,W2)間的文本相似度sim(W1,W2)。

      本發(fā)明有益效果是:

      1、此方法比傳統(tǒng)的文本相似度計算方法得到的結果具有更高的準確性,更符合人工提取的結果。

      2、此方法在信息檢索、機器翻譯、自動問答系統(tǒng)等領域都具有更好的適用性。

      3、為后續(xù)的文本聚類提供良好的理論基礎。

      附圖說明

      圖1一種改進的文本相似度求解方法的結構流程圖

      具體實施方式

      為了解決文本中特征詞匯中不同詞匯對文本的重要程度的差異,結合圖1對本發(fā)明進行了詳細說明,其具體實施步驟如下:

      步驟1:初始化文本語料庫模塊,對待比較文本(W1,W2)的進行預處理,其具體描述過程如下:

      利用分詞系統(tǒng)和停用表分別對文本(W1,W2)進行分詞和去停用詞處理。

      步驟2:基于信息論方法,計算詞匯在文本中權重值WI,其具體計算過程如下:

      基于信息論詞頻的計算公式有:

      上式為詞匯關于詞頻在文檔中所具有的信息量,p(c1,2)分別為詞c1、c2在文本中的概率值。

      基于信息論文檔頻率的計算公式有:

      為詞匯關于文檔頻率在文檔庫中所具有的信息量,為分別含有c1、c2的文檔數(shù),N為文檔庫中文檔的總個數(shù)。

      綜上所述,有基于信息論計算詞匯權重的函數(shù),如下式:

      步驟3:根據詞匯位置信息,計算詞匯在文本中的權重值其具體計算過程如下:

      根據調研資料顯示,特征詞越在文本靠前位置,越能代表文本的中心思想。通過步驟2得到詞匯在文本的權重值,取前20個特征詞匯。對這些詞匯進行位置權重劃分。有位置向量,如下:

      詞匯位置權重函數(shù)為:

      上式ai與bj分別為特征詞最靠前出現(xiàn)的段落位置和對應段落所在的句子位置。

      步驟4:綜合考慮上述兩因子,構造提取文本(W1,W2)中的特征值目標函數(shù)分別提取文本(W1,W2)中的特征值,其具體計算過程如下:

      提取文本(W1,W2)中的特征值目標函數(shù)為:

      上式α、β分別為WI、對特征提取影響的權重系數(shù),α+β=1,一般α>β,即基于信息論得到的詞頻與文檔頻率的權重函數(shù)對文本(W1,W2)中特征提取的影響更大,其值可以根據實驗測試出來。

      步驟5:求解待比較文本(W1,W2)間的文本相似度sim(W1,W2),其具體計算過程如下:

      根據步驟4計算得出的特征詞匯權重值,相關領域專家選取前m位關鍵詞,這里m<20,既分別有文本(W1,W2)對應的特征詞向量。

      根據歐式距離計算兩特征詞向量間的距離

      最后得到兩文本(W1,W2)間的文本相似度sim(W1,W2):

      上式ω為平滑因子,可以根據實驗得出最佳值。

      當前第1頁1 2 3 
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1