国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于圖的最大緊密度劃分的復(fù)合短語無監(jiān)督識別方法與流程

      文檔序號:11155013閱讀:來源:國知局

      技術(shù)特征:

      1.一種基于圖的最大緊密度劃分的復(fù)合短語無監(jiān)督識別方法,其特征在于,包括以下步驟:

      1)采用詞性標(biāo)注工具對輸入語料進(jìn)行詞性標(biāo)注和分詞;

      2)將分詞后的輸入序列映射到有序的圖結(jié)構(gòu)中,將語義緊密度高的詞語劃分到一個分段內(nèi),并使得整個圖的緊密度之和最大;

      3)通過驗(yàn)證各分段是否包含特征詞,識別出復(fù)合短語。

      2.如權(quán)利要求1所述的方法,其特征在于:步驟2)通過將語義緊密度高的詞語劃分到一個分段內(nèi),實(shí)現(xiàn)將無關(guān)的成分與候選復(fù)合短語相分離。

      3.如權(quán)利要求1所述的方法,其特征在于:步驟2)將目標(biāo)函數(shù)定義為各個分段緊密度之和,通過動態(tài)規(guī)劃求解目標(biāo)函數(shù)最大值,從而對原輸入分詞序列求解最優(yōu)劃分分段方案,進(jìn)而得到文本中復(fù)合短語與其他成分的最優(yōu)的劃分方案。

      4.如權(quán)利要求1所述的方法,其特征在于:步驟2)中整個輸入序列對應(yīng)圖的分段整體緊密度計算公式為:

      <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munder> <mo>&Sigma;</mo> <mrow> <mo>&ForAll;</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>&Element;</mo> <mi>s</mi> </mrow> </munder> <mi>C</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>|</mo> <mi>s</mi> <mo>|</mo> </mrow> </mfrac> </mrow>

      其中,C(w1,w2)代表詞w1與詞w2之間的緊密度,s表示一個分段,|s|表示分段中分詞的個數(shù)。

      5.如權(quán)利要求4所述的方法,其特征在于,步驟2)計算分詞之間的緊密度時,將分詞之間的緊密度劃分為特殊符號緊密度、維基百科緊密度、以及詞性緊密度。

      6.如權(quán)利要求5所述的方法,其特征在于,所述特殊符號緊密度的計算公式為:

      <mrow> <msub> <mi>C</mi> <mrow> <mi>s</mi> <mi>m</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>e</mi> <mrow> <msub> <mi>D</mi> <mi>s</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> </mrow> </msup> <mo>&times;</mo> <msubsup> <mi>I</mi> <mi>s</mi> <mrow> <mi>s</mi> <mi>m</mi> </mrow> </msubsup> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

      其中Ds(w1,w2)代表詞w1與詞w2之間間隔的分詞個數(shù),為表征w1與w2之間是否位于同一對特殊符號內(nèi)的布爾函數(shù)。

      7.如權(quán)利要求5所述的方法,其特征在于,所述維基百科緊密度的計算公式為:

      <mrow> <msub> <mi>C</mi> <mrow> <mi>w</mi> <mi>t</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munder> <mo>&Sigma;</mo> <mrow> <mi>w</mi> <mo>&Element;</mo> <msup> <mi>s</mi> <mo>&prime;</mo> </msup> </mrow> </munder> <mi>I</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>|</mo> <mi>s</mi> <mo>|</mo> <mo>-</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>w</mi> <mo>&Element;</mo> <msup> <mi>s</mi> <mo>&prime;</mo> </msup> </mrow> </munder> <mi>I</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>&times;</mo> <mi>I</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>I</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> </mrow>

      其中I(w)為表征分詞w是否為維基百科條目的布爾函數(shù),s’表示位于詞w1與詞w2之間的分詞組成的分段。

      8.如權(quán)利要求5所述的方法,其特征在于,所述詞性緊密度的計算公式為:

      其中,Sc表示詞w1和詞w2對應(yīng)詞性在隱式空間內(nèi)的余弦相似度,p(ω1),p(ω2)表示詞w1和w2對應(yīng)的詞性,表示詞w1和w2對應(yīng)詞性在隱式空間的向量。

      9.如權(quán)利要求1所述的方法,其特征在于:步驟3)通過求解最小集合覆蓋問題來產(chǎn)生特征詞集合,然后利用該特征詞集合,通過驗(yàn)證分段是否包含特征詞,從而篩選出需要的復(fù)合短語。

      當(dāng)前第2頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1