国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種文檔主題生成方法和裝置與流程

      文檔序號:12464623閱讀:216來源:國知局
      一種文檔主題生成方法和裝置與流程

      本發(fā)明涉及文本分析領域,特別是涉及一種文檔主題生成方法和裝置。



      背景技術:

      在文本分析領域,想快速知道文檔所描述的重點內容,這就需要利用到主題模型技術。給定一系列文檔,通過對文檔進行分詞,計算各個文檔中每個單詞的詞頻就可以得到各個文檔中各個詞語出現的概率。主題模型就是通過對各個文檔中各個詞語出現的概率的數據進行訓練,學習出各個主題中各個詞語出現的概率的數據和各個文檔中各個主題出現的概率的數據。

      傳統(tǒng)主題模型構建過程中因忽略詞語與詞語之間的語義相關性而導致生成大量無意義的主題。原因是在多篇文檔中,擁有相同的詞語,但不同的詞語組合將表達不同的意思。



      技術實現要素:

      鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種文檔主題生成方法和裝置。

      依據本發(fā)明的一個方面,提供了一種文檔主題生成方法,包括:

      對文檔集合的文檔進行分詞并提取出詞語;

      統(tǒng)計表征所有提取的詞語中兩兩之間的語義相關性的詞間關系數據;

      統(tǒng)計表征每個詞語在每個文檔中的重要性的詞語文檔關系數據;

      隨機生成表征各個文檔對于各預設主題的相關性的文檔主題關系數據,以及表征各個詞語對于各所述主題的相關性的詞語主題關系數據;

      根據所述詞語主題關系數據和詞間關系數據生成調整因子;

      依據所述文檔主題關系數據、詞語主題關系數據和詞語文檔關系數據的關系,以及詞語主題關系數據、調整因子和詞間關系數據的關系,迭代更新所述文檔主題關系數據、詞語主題關系數據和調整因子達到設定結束條件,以使在確定詞語文檔關系數據和詞間關系數據的情況下同時生成文檔主題關系數據、詞語主題關系數據和調整因子的目標概率達到設定要求;

      以迭代更新得到的詞語主題關系數據生成文檔集合的文檔主題。

      優(yōu)選地,所述迭代更新所述文檔主題關系數據、詞語主題關系數據和調整因子達到設定結束條件,以使在確定詞語文檔關系數據和詞間關系數據的情況下同時生成文檔主題關系數據、詞語主題關系數據和調整因子的目標概率達到設定要求包括:

      在第N+1次迭代中,根據最新的文檔主題關系數據、詞語主題關系數據和調整因子,生成所述詞語主題關系數據在本次迭代中的第一調整值,并以所述第一調整值和設定的學習速率常數更新所述詞語主題關系數據;

      在第N+1次迭代中,根據最新的文檔主題關系數據和詞語主題關系數據,生成所述文檔主題關系數據在本次迭代中的第二調整值,并以所述第二調整值和設定的學習速率常數更新所述文檔主題關系數據;

      在第N+1次迭代中,根據最新的詞語主題關系數據和調整因子,生成所述調整因子在本次迭代中的第三調整值,并以所述第三調整值和設定的學習速率常數更新所述調整因子;

      直至達到所述設定結束條件結束迭代更新,使得所述目標概率達到設定要求。

      優(yōu)選地,所述對文檔集合的文檔進行分詞并提取出詞語包括:

      對所述文檔集合的文檔進行分詞;

      提取出排除了設定的不需要的詞語的剩余詞語。

      優(yōu)選地,所述設定的不需要的詞語包括設定的停用詞、識別的沒有實際意義的詞語。

      優(yōu)選地,所述統(tǒng)計表征所有提取的詞語中兩兩之間的語義相關性的詞間關系數據包括:

      根據語義相關性將所有提取的詞語轉換為詞向量;

      對所有提取的詞語對應的詞向量兩兩之間進行相似度計算,得到所述詞間關系數據。

      優(yōu)選地,所述統(tǒng)計表征每個詞語在每個文檔中的重要性的詞語文檔關系數據包括:

      計算每個詞語在每個文檔中的出現頻率,以及總文件數目除以包含該詞語的文件的數目的商的對數;

      對于每個詞語將所述出現頻率和對應的對數相乘得到表征每個詞語在每個文檔中的重要性的詞語文檔關系數據。

      優(yōu)選地,在所述隨機生成表征每個文檔對于各設定主題的相關性的文檔主題關系數據,以及表征各個詞語對于所述主題的相關性的詞語主題關系數據之前,所述方法還包括:

      對所述詞語文檔關系數據進行歸一化處理,得到歸一化處理后的所述詞語文檔關系數據。

      根據本發(fā)明的另一方面,提供了一種文檔主題生成裝置,包括:

      文檔分詞模塊,用于對文檔集合的文檔進行分詞并提取出詞語;

      詞間關系數據統(tǒng)計模塊,用于統(tǒng)計表征所有提取的詞語中兩兩之間的語義相關性的詞間關系數據;

      詞語文檔關系數據統(tǒng)計模塊,用于統(tǒng)計表征每個詞語在每個文檔中的重要性的詞語文檔關系數據;

      數據隨機生成模塊,用于隨機生成表征各個文檔對于各預設主題的相關性的文檔主題關系數據,以及表征各個詞語對于各所述主題的相關性的詞語主題關系數據;

      調整因子生成模塊,用于根據所述詞語主題關系數據和詞間關系數據生成調整因子;

      迭代更新模塊,用于依據所述文檔主題關系數據、詞語主題關系數據和詞語文檔關系數據的關系,以及詞語主題關系數據、調整因子和詞間關系數據的關系,迭代更新所述文檔主題關系數據、詞語主題關系數據和調整因子達到設定結束條件,以使在確定詞語文檔關系數據和詞間關系數據的情況下同時生成文檔主題關系數據、詞語主題關系數據和調整因子的目標概率達到設定要求;

      文檔主題生成模塊,用于以迭代更新得到的詞語主題關系數據生成文檔集合的文檔主題。

      優(yōu)選地,所述迭代更新模塊包括:

      詞語主題關系數據更新子模塊,用于在第N+1次迭代中,根據最新的文檔主題關系數據、詞語主題關系數據和調整因子,生成所述詞語主題關系數據在本次迭代中的第一調整值,并以所述第一調整值和設定的學習速率常數更新所述詞語主題關系數據;

      文檔主題關系數據更新子模塊,用于在第N+1次迭代中,根據最新的文檔主題關系數據和詞語主題關系數據,生成所述文檔主題關系數據在本次迭代中的第二調整值,并以所述第二調整值和設定的學習速率常數更新所述文檔主題關系數據;

      調整更新子模塊,用于在第N+1次迭代中,根據最新的詞語主題關系數據和調整因子,生成所述調整因子在本次迭代中的第三調整值,并以所述第三調整值和設定的學習速率常數更新所述調整因子;

      迭代結束子模塊,直至達到所述設定結束條件結束迭代更新,使得所述目標概率達到設定要求。

      優(yōu)選地,所述文檔分詞模塊包括:

      文檔分詞子模塊,用于對所述文檔集合的文檔進行分詞;

      詞語提取子模塊,用于提取出排除了設定的不需要的詞語的剩余詞語。

      優(yōu)選地,所述設定的不需要的詞語包括設定的停用詞、識別的沒有實際意義的詞語。

      優(yōu)選地,所述詞間關系數據統(tǒng)計模塊包括:

      詞向量轉換子模塊,用于根據語義相關性將所有提取的詞語轉換為詞向量;

      相似度計算子模塊,用于對所有提取的詞語對應的詞向量兩兩之間進行相似度計算,得到所述詞間關系數據。

      優(yōu)選地,所述詞語文檔關系數據統(tǒng)計模塊包括:

      對數計算子模塊,用于計算每個詞語在每個文檔中的出現頻率,以及總文件數目除以包含該詞語的文件的數目的商的對數;

      詞語文檔關系數據計算子模塊,用于對于每個詞語將所述出現頻率和對應的對數相乘得到表征每個詞語在每個文檔中的重要性的詞語文檔關系數據。

      優(yōu)選地,所述裝置還包括:

      詞語文檔關系數據歸一化模塊,用于在所述隨機生成表征每個文檔對于各設定主題的相關性的文檔主題關系數據,以及表征各個詞語對于所述主題的相關性的詞語主題關系數據之前,對所述詞語文檔關系數據進行歸一化處理,得到歸一化處理后的所述詞語文檔關系數據。

      綜上所述,依據本發(fā)明實施例,根據所述文檔主題關系數據、詞語主題關系數據和詞語文檔關系數據的關系,以及詞語主題關系數據、調整因子和詞間關系數據的關系,迭代更新文檔主題關系數據、詞語主題關系數據和調整因子達到設定結束條件,使得目標概率達到設定要求,以迭代更新得到的詞語主題關系數據生成文檔集合的文檔主題。由于在生成詞語主題關系數據的過程中,不僅受到詞語文檔關系數據的影響,同時還受到詞間關系數據的影響,使得最后生成的詞語主題關系數據由詞語文檔關系數據和詞間關系數據共同約束,實現了文檔主題生成過程兼顧詞語之間的語義關系,提高了文檔主題生成的準確性。

      附圖說明

      圖1是本發(fā)明文檔主題生成方法的一種實施例的步驟流程圖;

      圖2是本發(fā)明文檔主題生成方法的另一種實施例的步驟流程圖;

      圖3是本發(fā)明文檔主題生成裝置的一種實施例的結構框圖。

      具體實施方式

      為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結合附圖和具體實施方式對本發(fā)明作進一步詳細的說明。

      參照圖1,示出了本發(fā)明文檔主題生成方法的一種實施例的步驟流程圖,具體可以包括如下步驟:

      步驟101,對文檔集合的文檔進行分詞并提取出詞語。

      在本發(fā)明實施例中,文檔集合是指由多個文檔組成的集合,對每個文檔進行分詞,得到每個文檔對應的詞語列表。分詞處理方式有很多種,本實施例對選取的分詞方式不做限定。分詞的結果是一個一個的詞語,全部或部分地從分詞的結果中提取出詞語。具體可以根據實際需要提取詞語,本實施例對此不做限定。

      步驟102,統(tǒng)計表征所有提取的詞語中兩兩之間的語義相關性的詞間關系數據。

      在本發(fā)發(fā)明實施例中,語義相關性是指詞語和詞語在語義上的相似程度。詞間關系數據是指表征詞語之間語義相關性的數據,具體可以將所有詞間關系數據當作一個數據矩陣。計算表征詞語和詞語之間的語義相關性的關系數據方式有很多種,本實施例對具體采用的計算方式不作限定。

      步驟103,統(tǒng)計表征每個詞語在每個文檔中的重要性的詞語文檔關系數據。

      在本發(fā)明實施例中,每個文檔可以認為是多個詞語的集合,對于每個詞語,在文檔中的重要性可以用詞語在文檔中出現的詞頻(term frequency,TF)或詞頻-逆向文件頻率(term frequency–inverse document frequency,TF-IDF)來表征。詞語文檔關系數據是指表征每個詞語在每個文檔中的重要性的數據,統(tǒng)計表征每個詞語在每個文檔中的重要性的數據可以得到所有詞語文檔關系數據,具體可以將所有詞語文檔關系數據當作一個數據矩陣。

      步驟104,隨機生成表征各個文檔對于各預設主題的相關性的文檔主題關系數據,以及表征各個詞語對于各所述主題的相關性的詞語主題關系數據。

      在本發(fā)明實施例中,每個文檔都有多個隱含的主題,主題是指一個概念或一個方面,具體可以表現為一系列相關的詞語。一個文檔涉及到一個主題,那么有關這個主題的詞語就會以較高的頻率出現。在具體實現中,需要設定主題的個數。假設各個文檔有設定個數的預設主題。

      如果用數學來描述的話,主題就是在所有詞語中詞語的條件概率分布。與主題關系越密切的詞語,它的條件概率越大,反之越小。對于一個文檔,每個詞都是通過“以一定概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞語”這樣一個過程得到的。那么生成一篇文檔,其中每個詞語出現的概率為:

      其中,p(詞語|文檔)表示各個文檔中各個詞語出現的概率,p(詞語|主題)表示各個主題中各個詞語出現的概率,p(主題|文檔)表示各個文檔中各個主題出現的概率。

      各個文檔對于各預設主題的相關性是指各個文檔與各預設主題之間的相關程度,可以用各個文檔中各個主題出現的概率來表征。文檔主題關系數據可以是指每個文檔中各個主題出現的概率,具體可以將所有的文檔主題關系數據當作一個數據矩陣。各個詞語對于各預設主題的相關性是指各個詞語對于各個主題之間的相關程度,可以用各個主題中各個詞語出現的概率來表征。詞語主題關系數據可以是指每個主題中各個詞語出現的概率,具體可以將所有的詞語主題關系數據當作一個數據矩陣。

      隨機生成文檔主題關系數據和詞語主題關系數據就是隨機生成各個文檔中各個主題出現的概率的數據和各個主題中各個詞語出現的概率的數據。具體隨機生成的方式本實施例不做限定。

      步驟105,根據所述詞語主題關系數據和詞間關系數據生成調整因子。

      在本發(fā)明實施例中,調整因子是指由所有詞語主題關系數據和詞間關系數據確定的參數數據。如果將所有詞間關系數據當作一個矩陣,將所有詞語主題關系數據當作另一個矩陣,將所有調整因子也當作一個矩陣,那么將詞間關系數據的矩陣分解可以得到詞語主題關系數據的矩陣和調整因子的矩陣。依據此種關系,在得到所有的詞間關系數據和詞語主題關系數據時可以計算出所有的調整因子。

      步驟106,依據所述文檔主題關系數據、詞語主題關系數據和詞語文檔關系數據的關系,以及詞語主題關系數據、調整因子和詞間關系數據的關系,迭代更新所述文檔主題關系數據、詞語主題關系數據和調整因子達到設定結束條件,以使在確定詞語文檔關系數據和詞間關系數據的情況下同時生成文檔主題關系數據、詞語主題關系數據和調整因子的目標概率達到設定要求。

      在本發(fā)明實施例中,如果將所有的文檔主題關系數據、詞語主題關系數據和詞語文檔關系數據分別都當作矩陣的話,那么所有的詞語文檔關系數據對應的矩陣可以分解為所有的文檔主題關系數據對應的矩陣和所有的詞語主題關系數據對應的矩陣。如果將所有的詞語主題關系數據、調整因子和詞間關系數據分別都當作矩陣的話,所有的詞間關系數據對應的矩陣可以分解為所有的詞語主題關系數據對應的矩陣和所有的調整因子對應的矩陣。上述就是文檔主題關系數據、詞語主題關系數據和詞語文檔關系數據的關系,以及詞語主題關系數據、調整因子和詞間關系數據的關系。

      迭代更新的方式是在第N+1次迭代中,根據所述詞語文檔關系數據、所述詞間關系數據和最新的所述文檔主題關系數據、所述詞語主題關系數據和所述調整因子,確定本次迭代生成的新的文檔主題關系數據、詞語主題關系數據和調整因子。

      具體而言,假設所有的詞語文檔關系數據對應的矩陣R,其大小為m行n列,分別表示有m個詞語,n個文檔;所有的詞間關系數據對應的矩陣C,其大小為m行m列,表示詞語之間的兩兩語義相關性;所有的文檔主題關系數據對應的矩陣D,其大小為n列r行,分別表示有n個詞語,設定r個主題;所有詞語主題關系數據對應的矩陣W,其大小為m列r行,分別表示有m個文檔,設定r個主題;所有的調整因子對應的矩陣Z,其大小為m列設定行。

      假設所有的詞語文檔關系數據對應的矩陣R的每一列對應的向量服從正態(tài)分布,則:

      其中,表示設定所有的詞語主題關系數據對應的矩陣W和所有的文檔主題關系數據對應的矩陣D,方差為條件下出現所有的詞語文檔關系數據對應的矩陣R的概率;Wi為矩陣W的列向量,Dj為矩陣D的列向量;表示均值方差為的正態(tài)分布,為指標函數,如果詞語i在文檔中的詞語文檔關系數據不為零,則為1,否則為零。

      假設所有的詞語主題關系數據對應的矩陣W的每一列對應的向量和所有的文檔主題關系數據對應的矩陣D的每一列對應的向量服從零均值的正態(tài)分布,則:

      其中,表示設定方差為的情況下生成所有的詞語主題關系數據對應的矩陣W的概率;表示設定方差為的情況下生成所有的文檔主題關系數據對應的矩陣D的概率;表示均值為0,方差的正態(tài)分布,表示均值為0,方差為的正態(tài)分布,I表示單位矩陣,Wi為矩陣W的列向量,Dj為矩陣D的列向量。

      假設所有的詞間關系數據對應的矩陣C服從正態(tài)分布,則:

      其中,表示在設定所有的詞語主題關系數據對應的矩陣W、所有的調整因子對應的矩陣Z,方差為條件下出現所有的詞間關系數據對應的矩陣C的概率,Wi為矩陣W的列向量,Zk為矩陣Z的列向量;表示均值為方差為的正態(tài)分布,為指標函數,如果詞語和詞語的詞間關系數據不為零,則為1,否則為零。

      由所有的詞間關系數據對應的矩陣C服從正態(tài)分布和所有的詞語主題關系數據對應的矩陣W的每一列對應的向量服從零均值的正態(tài)分布,則:

      其中,表示設定方差為的情況下生成所有的調整因子對應的矩陣Z的概率;表示均值為0,方差的正態(tài)分布,I表示單位矩陣。

      目標概率是指在確定所有的詞語文檔關系數據和詞間關系數據的情況下同時生成文檔主題關系數據、詞語主題關系數據和調整因子的概率,根據貝葉斯公式可以表示為:

      其中,表示在確定所有的詞語文檔關系數據對應的矩陣R和所有的詞間關系數據對應的矩陣C的情況下,生成所有的文檔主題關系數據對應的矩陣D,所有的詞語主題關系數據對應的矩陣W和所有的調整因子對應的矩陣Z的概率;表示在確定所有的文檔主題關系數據對應的矩陣D,所有的詞語主題關系數據對應的矩陣W和所有的調整因子對應的矩陣Z的情況下,生成所有的詞語文檔關系數據對應的矩陣R和所有的詞間關系數據對應的矩陣C的概率;P(W,D,Z)表示生成所有的文檔主題關系數據對應的矩陣D,所有的詞語主題關系數據對應的矩陣W和所有的調整因子對應的矩陣Z的概率;表示生成所有的詞語文檔關系數據對應的矩陣R和所有的詞間關系數據對應的矩陣C的概率。

      對上面的公式求自然對數,得到目標概率的自然對數公式:

      要使目標概率達到最大值,相當于求得上述公式的極大值點。在迭代更新的過程中,不斷得使目標概率接近最大值。

      那么迭代達到設定結束條件后,目標概率就可以達到設定要求,具體的設定結束條件可以是設定的迭代次數,或目標概率超過設定結束閾值。設定的迭代次數和設定結束閾值可以根據實際需要的設定要求來調試得到,本實施例對此不作限定。

      步驟107,以迭代更新得到的詞語主題關系數據生成文檔集合的文檔主題。

      在本發(fā)明實施例中,迭代更新得到的詞語主題關系數據表征各個主題與各個詞語的相關性。主題是指一個概念或一個方面,具體可以表現為一系列相關的詞語。用詞語主題關系數據生成文檔集合的文檔主題,具體的說,就是文檔主題是由各個詞語在該主題中出現的概率組成。

      綜上所述,依據本發(fā)明實施例,根據所述文檔主題關系數據、詞語主題關系數據和詞語文檔關系數據的關系,以及詞語主題關系數據、調整因子和詞間關系數據的關系,迭代更新文檔主題關系數據、詞語主題關系數據和調整因子達到設定結束條件,使得目標概率達到設定要求,以迭代更新得到的詞語主題關系數據生成文檔集合的文檔主題。由于在生成詞語主題關系數據的過程中,不僅受到詞語文檔關系數據的影響,同時還受到詞間關系數據的影響,使得最后生成的詞語主題關系數據由詞語文檔關系數據和詞間關系數據共同約束,實現了文檔主題生成過程兼顧詞語之間的語義關系,提高了文檔主題生成的準確性。

      在本發(fā)明實施例中,優(yōu)選地,所述對文檔集合的文檔進行分詞并提取出詞語的一種實現方式是:對所述文檔集合的文檔進行分詞;提取出排除了設定的不需要的詞語的剩余詞語。

      具體而言,對所述文檔集合中所有文檔進行分詞得到所有的詞語,然后去掉設定的不需要的詞語,提取剩余的詞語。

      在本發(fā)明實施例中,優(yōu)選地,所述設定的不需要的詞語包括設定的停用詞、識別的沒有實際意義的詞語。

      設定的停用詞是指人工輸入,非自動化生成的詞語。識別的沒有實際意義的詞語是指根據詞性自動識別的代詞、助詞等沒有實際意義的詞語。

      在本發(fā)明實施例中,優(yōu)選地,所述統(tǒng)計表征所有提取的詞語中兩兩之間的語義相關性的詞間關系數據的一種實現方式是根據語義相關性將所有提取的詞語轉換為詞向量;對所有提取的詞語對應的詞向量兩兩之間進行相似度計算,得到所述詞間關系數據。

      具體而言,利用詞向量的訓練模型根據語義上的相似度將所有詞語轉換成向量形式,然后再計算所有向量之間的相似度得到詞間關系數據。例如利用谷歌公司的開源工具Word2vec(英文全稱:word to vector,中文名:詞語轉向量)將提取的詞語轉換為向量形式,然后再用余弦相似度計算方法或者皮爾森相似度計算方法計算出向量之間的相似度,所有向量之間的相似度作為詞間關系數據。例如詞語a和詞語b的向量形式分別為Va和Vb,則詞語a和詞語b之間的余弦相似度為計算公式如下:

      在本發(fā)明實施例中,優(yōu)選地,所述統(tǒng)計表征每個詞語在每個文檔中的重要性的詞語文檔關系數據的一種實現方式是計算每個詞語在每個文檔中的出現頻率,以及總文件數目除以包含該詞語的文件的數目的商的對數;對于每個詞語將所述出現頻率和對應的對數相乘得到表征每個詞語在每個文檔中的重要性的詞語文檔關系數據。

      具體而言,出現頻率是在當前文章中詞語出現的次數除以當前文章總的詞數。先計算每個詞語在每個文檔中的出現頻率,和總文件數目除以包含該詞語的文件的數目的商的對數,對于每個詞語將所述出現頻率和對應的對數相乘,得到的數據就可以表征每個詞語在每個文檔中的重要性。計算得到每個詞語對于每個文檔相應的數據組成詞語文檔關系數據。

      參照圖2,示出了本發(fā)明文檔主題生成方法的另一種實施例的步驟流程圖,具體可以包括如下步驟:

      步驟201,對文檔集合的文檔進行分詞并提取出詞語。

      步驟202,統(tǒng)計表征所有提取的詞語中兩兩之間的語義相關性的詞間關系數據。

      步驟203,統(tǒng)計表征每個詞語在每個文檔中的重要性的詞語文檔關系數據。

      步驟204,對所述詞語文檔關系數據進行歸一化處理,得到歸一化處理后的所述詞語文檔關系數據。

      在本發(fā)明實施例中,對數據歸一化的方法有很多種,本實施例對此不作限定。一種歸一化處理的方式是將詞語文檔關系數據中的每個數值減去詞語文檔關系數據中的最小值,然后再除以詞語文檔關系數據中最大值和最小值的差值,得到新的詞語文檔關系數據。

      步驟205,隨機生成表征各個文檔對于各設定主題的相關性的文檔主題關系數據,以及表征各個詞語對于各所述主題的相關性的詞語主題關系數據。

      步驟206,根據所述詞語主題關系數據和詞間關系數據生成調整因子。

      步驟207,在第N+1次迭代中,根據最新的文檔主題關系數據、詞語主題關系數據和調整因子,生成所述詞語主題關系數據在本次迭代中的第一調整值,并以所述第一調整值和設定的學習速率常數更新所述詞語主題關系數據。

      在本發(fā)明實施例中,第一調整值用于迭代搜索到所述目標概率達到最大。將目標概率的自然對數公式去掉負號,同時去掉常數,則得到了下面的公式:

      其中,L(R,C,W,D,Z)為將目標概率的自然對數的函數取負數,刪除常數項得到的新函數,設置λD=λW=λZ=λ。

      求目標概率的最大值等價于求上述公式L(R,C,W,D,Z)的極小值點,利用梯度下降法對上述公式求偏導數來得到詞語主題關系數據在本次迭代中的第一調整值

      由公式可知,由于詞語文檔關系數據和詞間關系數據是確定的,所以第一調整值可以根據最新的文檔主題關系數據、詞語主題關系數據和調整因子確定。

      以第一調整值和設定的學習速率常數更新詞語主題關系數據。設定的學習速率常數是預先設定的用于控制每次迭代數據更新的變化量的常數。

      用第N次迭代中生成的詞語主題關系數據減去設定的學習速率常數和第一調整值的乘積,得到第N+1次迭代生成的新的詞語主題關系數據。設定的學習速率常數是預先設定的用于控制每次迭代數據更新的變化量的常數。

      步驟208,在第N+1次迭代中,根據最新的文檔主題關系數據和詞語主題關系數據,生成所述文檔主題關系數據在本次迭代中的第二調整值,并以第二調整值和設定的學習速率常數更新所述文檔主題關系數據。

      在本發(fā)明實施例中,求目標概率的最大值等價于求上述公式L(R,C,W,D,Z)的極小值點,利用梯度下降法對上述公式求偏導數來得到文檔主題關系數據在本次迭代中的第二調整值

      由公式可知,由于詞語文檔關系數據和詞間關系數據是確定的,所以第二調整值可以根據最新的文檔主題關系數據和詞語主題關系數據確定。

      用第N次迭代中生成的文檔主題關系數據減去設定的學習速率常數和第二調整值的乘積,得到第N+1次迭代生成的新的文檔主題關系數據。設定的學習速率常數是預先設定的用于控制每次迭代數據更新的變化量的常數。

      步驟209,在第N+1次迭代中,根據最新的詞語主題關系數據和調整因子,生成所述調整因子在本次迭代中的第三調整值,并以所述第三調整值和設定的學習速率常數更新所述調整因子。

      在本發(fā)明實施例中,求目標概率的最大值等價于求上述公式L(R,C,W,D,Z)的極小值點,利用梯度下降法對上述公式求偏導數來得到調整因子在本次迭代中的第三調整值

      由公式可知,由于詞語文檔關系數據和詞間關系數據是確定的,所以第三調整值可以根據最新的詞語主題關系數據和調整因子確定。

      用第N次迭代中生成的調整因子減去設定的學習速率常數和第一調整值的乘積,得到第N+1次迭代生成的新的調整因子。設定的學習速率常數是預先設定的用于控制每次迭代數據更新的變化量的常數。

      步驟210,直至達到所述設定結束條件結束迭代更新,使得所述目標概率達到設定要求。

      在本發(fā)明實施例中,迭代達到設定結束條件后,目標概率就可以達到設定要求,具體的設定結束條件可以是設定的迭代次數,或目標概率超過設定結束閾值。設定的迭代次數和設定結束閾值可以根據實際需要的設定要求來調試得到,本實施例對此不作限定。

      具體而言,目標概率超過設定結束閾值等價于公式L(R,C,W,D,Z)的值小于設定的閾值。例如:設定的迭代次數是1000次循環(huán),但在1000次以內的某一次迭代中L(R,C,W,D,Z)函數的值小于設定的閾值0.00001,這時就認為目標概率達到設定要求。

      判斷是否達到設定結束條件,如果達到設定結束條件,就結束迭代。如果未達到設定結束條件,就繼續(xù)迭代執(zhí)行步驟207、步驟208、步驟209。并且步驟207、步驟208、步驟209的執(zhí)行順序本發(fā)明實施例不作限定。

      步驟211,以迭代更新得到的詞語主題關系數據生成文檔集合的文檔主題。

      綜上所述,依據本發(fā)明實施例,根據所述文檔主題關系數據、詞語主題關系數據和詞語文檔關系數據的關系,以及詞語主題關系數據、調整因子和詞間關系數據的關系,生成迭代更新文檔主題關系數據、詞語主題關系數據和調整因子時的改變量,迭代達到設定結束條件后,使得目標概率達到設定要求,以迭代更新得到的詞語主題關系數據生成文檔集合的文檔主題。由于在生成詞語主題關系數據的過程中,不僅受到詞語文檔關系數據的影響,同時還受到詞間關系數據的影響,使得最后生成的詞語主題關系數據由詞語文檔關系數據和詞間關系數據共同約束,實現了文檔主題生成過程兼顧詞語之間的語義關系,提高了文檔主題生成的準確性。

      需要說明的是,對于方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發(fā)明實施例并不受所描述的動作順序的限制,因為依據本發(fā)明實施例,某些步驟可以采用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作并不一定是本發(fā)明實施例所必須的。

      參照圖3,示出了本發(fā)明文檔主題生成裝置的一種實施例的結構框圖,具體可以包括如下模塊:

      文檔分詞模塊301,用于對文檔集合的文檔進行分詞并提取出詞語;

      詞間關系數據統(tǒng)計模塊302,用于統(tǒng)計表征所有提取的詞語中兩兩之間的語義相關性的詞間關系數據;

      詞語文檔關系數據統(tǒng)計模塊303,用于統(tǒng)計表征每個詞語在每個文檔中的重要性的詞語文檔關系數據;

      數據隨機生成模塊304,用于隨機生成表征各個文檔對于各預設主題的相關性的文檔主題關系數據,以及表征各個詞語對于各所述主題的相關性的詞語主題關系數據;

      調整因子生成模塊305,用于根據所述詞語主題關系數據和詞間關系數據生成調整因子;

      迭代更新模塊306,用于依據所述文檔主題關系數據、詞語主題關系數據和詞語文檔關系數據的關系,以及詞語主題關系數據、調整因子和詞間關系數據的關系,迭代更新所述文檔主題關系數據、詞語主題關系數據和調整因子達到設定結束條件,以使在確定詞語文檔關系數據和詞間關系數據的情況下同時生成文檔主題關系數據、詞語主題關系數據和調整因子的目標概率達到設定要求;

      文檔主題生成模塊307,用于以迭代更新得到的詞語主題關系數據生成文檔集合的文檔主題。

      在本發(fā)明實施例中,優(yōu)選地,所述迭代更新模塊包括:

      詞語主題關系數據更新子模塊,用于在第N+1次迭代中,根據最新的文檔主題關系數據、詞語主題關系數據和調整因子,生成所述詞語主題關系數據在本次迭代中的第一調整值,并以所述第一調整值和設定的學習速率常數更新所述詞語主題關系數據;

      文檔主題關系數據更新子模塊,用于在第N+1次迭代中,根據最新的文檔主題關系數據和詞語主題關系數據,生成所述文檔主題關系數據在本次迭代中的第二調整值,并以所述第二調整值和設定的學習速率常數更新所述文檔主題關系數據;

      調整更新子模塊,用于在第N+1次迭代中,根據最新的詞語主題關系數據和調整因子,生成所述調整因子在本次迭代中的第三調整值,并以所述第三調整值和設定的學習速率常數更新所述調整因子;

      迭代結束子模塊,直至達到所述設定結束條件結束迭代更新,使得所述目標概率達到設定要求。

      在本發(fā)明實施例中,優(yōu)選地,所述文檔分詞模塊包括:

      文檔分詞子模塊,用于對所述文檔集合的文檔進行分詞;

      詞語提取子模塊,用于提取出排除了設定的不需要的詞語的剩余詞語。

      在本發(fā)明實施例中,優(yōu)選地,所述設定的不需要的詞語包括設定的停用詞、識別的沒有實際意義的詞語。

      在本發(fā)明實施例中,優(yōu)選地,所述詞間關系數據統(tǒng)計模塊包括:

      詞向量轉換子模塊,用于根據語義相關性將所有提取的詞語轉換為詞向量;

      相似度計算子模塊,用于對所有提取的詞語對應的詞向量兩兩之間進行相似度計算,得到所述詞間關系數據。

      在本發(fā)明實施例中,優(yōu)選地,所述詞語文檔關系數據統(tǒng)計模塊包括:

      對數計算子模塊,用于計算每個詞語在每個文檔中的出現頻率,以及總文件數目除以包含該詞語的文件的數目的商的對數;

      詞語文檔關系數據計算子模塊,用于對于每個詞語將所述出現頻率和對應的對數相乘得到表征每個詞語在每個文檔中的重要性的詞語文檔關系數據。

      在本發(fā)明實施例中,優(yōu)選地,所述裝置還包括:

      詞語文檔關系數據歸一化模塊,用于在所述隨機生成表征每個文檔對于各設定主題的相關性的文檔主題關系數據,以及表征各個詞語對于所述主題的相關性的詞語主題關系數據之前,對所述詞語文檔關系數據進行歸一化處理,得到歸一化處理后的所述詞語文檔關系數據。

      綜上所述,依據本發(fā)明實施例,根據所述文檔主題關系數據、詞語主題關系數據和詞語文檔關系數據的關系,以及詞語主題關系數據、調整因子和詞間關系數據的關系,迭代更新文檔主題關系數據、詞語主題關系數據和調整因子達到設定結束條件,使得目標概率達到設定要求,以迭代更新得到的詞語主題關系數據生成文檔集合的文檔主題。由于在生成詞語主題關系數據的過程中,不僅受到詞語文檔關系數據的影響,同時還受到詞間關系數據的影響,使得最后生成的詞語主題關系數據由詞語文檔關系數據和詞間關系數據共同約束,實現了文檔主題生成過程兼顧詞語之間的語義關系,提高了文檔主題生成的準確性。

      對于裝置實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。

      本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。

      本領域內的技術人員應明白,本發(fā)明實施例的實施例可提供為方法、裝置、或計算機程序產品。因此,本發(fā)明實施例可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本發(fā)明實施例可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產品的形式。

      本發(fā)明實施例是參照根據本發(fā)明實施例的方法、終端設備(系統(tǒng))、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理終端設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理終端設備的處理器執(zhí)行的指令產生用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

      這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理終端設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

      這些計算機程序指令也可裝載到計算機或其他可編程數據處理終端設備上,使得在計算機或其他可編程終端設備上執(zhí)行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程終端設備上執(zhí)行的指令提供用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

      盡管已描述了本發(fā)明實施例的優(yōu)選實施例,但本領域內的技術人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例做出另外的變更和修改。所以,所附權利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明實施例范圍的所有變更和修改。

      最后,還需要說明的是,在本文中,諸如第一和第二等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者終端設備中還存在另外的相同要素。

      以上對本發(fā)明所提供的一種文檔主題生成方法和裝置,進行了詳細介紹,本文中應用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領域的一般技術人員,依據本發(fā)明的思想,在具體實施方式及應用范圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發(fā)明的限制。

      當前第1頁1 2 3 
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1