国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于語義相關度模型的中文文本摘要獲取方法與流程

      文檔序號:12034725閱讀:243來源:國知局

      本發(fā)明屬于自然語言處理領域,涉及中文文本摘要算法,具體涉及一種基于語義相關度模型的中文文本摘要獲取方法。



      背景技術:

      現(xiàn)有中文文本摘要算法包括基于序列到序列模型的文本摘要算法,該算法基于深度學習技術,在訓練階段讓算法預測的摘要與標準答案盡可能接近,經(jīng)過一段時間后的訓練,該算法可以對中文的文本進行自動摘要。但是,由于訓練階段的目標函數(shù)是交叉熵函數(shù),因此,上述方法會導致最后訓練得到的模型在字面上與標準摘要相近,但是在語義上與標準摘要可能相差很遠。采用現(xiàn)有方法從中文文本摘要中產(chǎn)生的摘要與原文本語義相關度較低,生成摘要的準確度不高,質量不佳。



      技術實現(xiàn)要素:

      為了克服上述現(xiàn)有技術的不足,本發(fā)明提供一種基于語義相關度模型的中文文本摘要獲取方法,得到的摘要的語義表達更為準確,能夠解決中文文本摘要中產(chǎn)生的摘要與原文本語義相關度較低的問題。

      本發(fā)明提供的技術方案是:

      一種基于語義相關度模型的中文文本摘要獲取方法,通過構建語義相關度模型,得到原文本的編碼向量和摘要的解碼向量之間的相關度,作為原文本和生成摘要之間相關性的度量;再通過訓練語義相關度模型最大化上述相關度,由此生成完整的摘要;包括如下步驟:

      a.設計文本編碼器,利用深度神經(jīng)網(wǎng)絡將原文本進行壓縮,得到原文本的編碼向量vs,即原文本經(jīng)文本編碼器進行壓縮后得到的信息;

      b.設計摘要解碼生成器,在第一個時刻輸入原文本的編碼向量vs和起始的句子開始的標識符,利用深度神經(jīng)網(wǎng)絡循環(huán)地在每一時刻輸入上一個時刻預測得到的字或者標識符,經(jīng)過網(wǎng)絡結構輸出當前時刻預測的字,經(jīng)過一定的循環(huán)次數(shù)得到若干個連續(xù)的字,即為一段完整的摘要;解碼生成器還同時生成上述完整摘要的解碼向量vt,生成向量的過程與步驟a相同;

      c.構建語義相關度模型,語義相關度模型為余弦相似函數(shù),表示為式1:

      其中,vs為文本編碼器生成的編碼向量,vt為摘要解碼生成器生成的向量,符號‖·‖代表向量的二范數(shù)。余弦相似函數(shù)輸入文本編碼器和摘要解碼生成器輸出的語義解碼向量,輸出兩個向量之間的相關度,作為原文本和生成摘要之間相關性的度量;

      d.在訓練語義相關度模型時,需要最大化步驟c得到的相關度。模型的訓練使用亞當(adam)優(yōu)化算法。在訓練過程中,先隨機選取訓練數(shù)據(jù)中的若干個樣本,對這些樣本依照語義相關度模型計算目標函數(shù),目標函數(shù)表示為式2:

      其中,為訓練數(shù)據(jù)中的正確摘要,p(y|x;θ)為解碼生成器預測出摘要的概率,λ為模型的權重系數(shù),cos(vs,vt)為語義相關模型計算出的相關度值。訓練的目標是最大化模型的目標函數(shù):先計算目標函數(shù)的梯度,再使用亞當(adam)優(yōu)化算法依照梯度更新模型的參數(shù)。

      e.經(jīng)過一定輪數(shù)的訓練后,在開發(fā)數(shù)據(jù)集上能達到最好效果時停止訓練,此時解碼生成器即可生成完整的摘要。

      作為一種優(yōu)選方案,所述步驟a的實現(xiàn)方法為使用深度神經(jīng)網(wǎng)絡中的循環(huán)神經(jīng)網(wǎng)絡,在開始時刻輸入原文本中的一個字到循環(huán)神經(jīng)網(wǎng)絡,將這個字壓縮成一個向量,然后將壓縮后得到的向量傳入下一時刻;下一時刻循環(huán)神經(jīng)網(wǎng)絡輸入上一時刻的壓縮向量和原文本的下一個字,將二者壓縮成新的向量傳入下一時刻;在壓縮完所有文本后得到的編碼向量,即是文本編碼器壓縮后的信息;

      作為一種優(yōu)選方案,所述步驟b的實現(xiàn)方法采用深度神經(jīng)網(wǎng)絡中的長短時記憶網(wǎng)絡。長短時記憶網(wǎng)絡在第一個時刻輸入一個開始的標識符,然后在接下來的每一時刻輸入上一時刻預測的字,經(jīng)過網(wǎng)絡結構輸出當前時刻預測的字,經(jīng)過一定時刻后輸出結束的標識符,摘要解碼生成器即可生成一段完整的摘要。

      作為一種優(yōu)選方案,所述步驟c的實現(xiàn)方式為:構建的語義相關度模型是一個余弦相似函數(shù),余弦相似函數(shù)的輸入是文本編碼器和摘要解碼生成器輸出的語義編碼向量vs和vt,輸出是兩個向量之間的相關度cos(vs,vt),作為原文本和生成摘要之間相關性的度量。最后在訓練模型的時候最大化這個相關度的分數(shù)。

      與現(xiàn)有技術相比,本發(fā)明的有益效果是:

      本發(fā)明提供一種基于語義相關度模型的中文文本摘要獲取方法,通過構建語義相關度模型,得到原文本的編碼向量和摘要的解碼向量之間的相關度,作為原文本和生成摘要之間相關性的度量;再通過訓練語義相關度模型最大化上述相關度,由此生成完整的摘要。使用本發(fā)明技術方案生成文本摘要,能夠提高生成摘要的質量和準確度,尤其提高生成摘要與原文本的語義相關度。

      附圖說明

      圖1是本發(fā)明提供的摘要獲取方法的流程框圖。

      具體實施方式

      下面結合附圖,通過實施例進一步描述本發(fā)明,但不以任何方式限制本發(fā)明的范圍。

      本發(fā)明提供一種基于語義相關度模型的中文文本摘要獲取方法,圖1是方法的流程框圖,通過構建語義相關度模型,得到原文本的編碼向量和摘要的解碼向量之間的相關度,作為原文本和生成摘要之間相關性的度量;再通過訓練語義相關度模型最大化上述相關度,由此生成完整的摘要。

      以下實施例以生成一段短新聞文本的摘要為例,新聞文本如下:

      “仔細一算,上海的互聯(lián)網(wǎng)公司不乏成功案例,但最終成為bat一類巨頭的幾乎沒有,這也能解釋為何納稅百強的榜單中鮮少互聯(lián)網(wǎng)公司的身影。有一類是被并購,比如:易趣、土豆網(wǎng)、pps、pptv、一號店等;有一類是數(shù)年偏安于細分市場?!辈捎帽景l(fā)明方法,可按以下步驟實施:

      a.設計文本編碼器,利用深度神經(jīng)網(wǎng)絡將原文本進行壓縮,得到編碼向量,即是文本編碼器壓縮后的信息;具體方式為使用深度神經(jīng)網(wǎng)絡中的長短時記憶網(wǎng)絡模型,將上述新聞文本的每個字依次輸入網(wǎng)絡,在輸入最后一個字時得到它的隱藏層向量,作為輸入文本的編碼向量vs。

      b.設計摘要解碼生成器,利用深度神經(jīng)網(wǎng)絡在每一時刻輸入上一時刻預測得到的字,經(jīng)過網(wǎng)絡結構輸出當前時刻預測的字,經(jīng)過一定的時刻得到一段完整的摘要;具體方式為先使用深度神經(jīng)網(wǎng)絡中的長短時記憶網(wǎng)絡模型,輸入文本編碼器生成的編碼向量,然后生成摘要的第一個字“上”,把第一個字“上”輸入到長短時記憶網(wǎng)絡模型中,得到第二個字“?!?,依次類推直到生成一個代表句子結束的標識符,這樣就能得到一段生成的摘要文本“上海鮮少互聯(lián)網(wǎng)巨頭的身影”。此外,長短時記憶網(wǎng)絡模型還能輸出這段摘要文本“上海鮮少互聯(lián)網(wǎng)巨頭的身影”的解碼向量vt。

      c.構建語義相關度模型,語義相關度模型為余弦相似函數(shù),余弦相似函數(shù)輸入文本編碼器和摘要解碼生成器輸出的語義解碼向量,輸出兩個向量之間的相似度,作為原文本和生成摘要之間相關性的度量;具體方式為:將文本編碼器輸出的向量vs和摘要解碼生成器輸出的向量vt輸入如下的余弦相似函數(shù),得到一個相關度:

      d.在訓練語義相關度模型時,最大化步驟c得到的相關度。具體是將相關度加入以下目標函數(shù)中:

      計算得到目標函數(shù)的梯度,然后用adam算法依照梯度對參數(shù)θ進行更新,即可使目標函數(shù)最大化。

      e.摘要解碼生成器生成的摘要即為本方法所需生成的摘要。

      本發(fā)明具體實施中,文本編碼器所用的循環(huán)神經(jīng)網(wǎng)絡的參數(shù)為詞向量維度400,隱藏層維度1000,輸入詞表的大小為4000;摘要解碼生成器的參數(shù)與文本編碼器一致,即詞向量維度400,隱藏層維度1000,生成詞表大小為4000,語義相關度函數(shù)的權重系數(shù)為0.0001。

      需要注意的是,公布實施例的目的在于幫助進一步理解本發(fā)明,但是本領域的技術人員可以理解:在不脫離本發(fā)明及所附權利要求的精神和范圍內(nèi),各種替換和修改都是可能的。因此,本發(fā)明不應局限于實施例所公開的內(nèi)容,本發(fā)明要求保護的范圍以權利要求書界定的范圍為準。

      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1