国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種語(yǔ)義化文本描述方法及系統(tǒng)的制作方法

      文檔序號(hào):6629993閱讀:245來(lái)源:國(guó)知局
      一種語(yǔ)義化文本描述方法及系統(tǒng)的制作方法
      【專利摘要】本發(fā)明公開(kāi)了一種語(yǔ)義化文本描述方法及系統(tǒng),該方法包括以下步驟:將整個(gè)文本文檔中各個(gè)語(yǔ)義段落進(jìn)行段落級(jí)語(yǔ)義分析;對(duì)各個(gè)段落級(jí)語(yǔ)義匯總語(yǔ)義信息;對(duì)每個(gè)段落進(jìn)行語(yǔ)義維度化描述;進(jìn)行文檔特征描述;文檔特征描述維度互校正。本發(fā)明中,使自然語(yǔ)言段落間的起承轉(zhuǎn)合體現(xiàn)在語(yǔ)義空間和維度特征上,會(huì)存在相鄰段落間語(yǔ)義向量和維度的較強(qiáng)的關(guān)聯(lián)性,通過(guò)增強(qiáng)相關(guān)維度,抑制無(wú)關(guān)維度的計(jì)算,增強(qiáng)核心語(yǔ)義特征,并起到抑制噪聲的效果。
      【專利說(shuō)明】 一種語(yǔ)義化文本描述方法及系統(tǒng)

      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及數(shù)據(jù)網(wǎng)絡(luò)【技術(shù)領(lǐng)域】,尤其涉及一種語(yǔ)義化文本描述方法及系統(tǒng)。

      【背景技術(shù)】
      [0002]文本與訊息的意義大致相同,指有一定的符號(hào)或符碼組成的信息結(jié)構(gòu)體,這種結(jié)構(gòu)體可采用不同的表現(xiàn)形態(tài),如語(yǔ)言的、文字的、影像等。文本是由特定的人制作的,文本的語(yǔ)義不可避免地會(huì)反映人的特定立場(chǎng)、觀點(diǎn)、價(jià)值和利益,因此,由文本內(nèi)容分析,可以推斷文本提供者的意圖和目的。
      [0003]文本分析是指對(duì)文本的表示及其特征項(xiàng)的選??;文本分析是文本挖掘、信息檢索的一個(gè)基本問(wèn)題,它把從文本中抽取出的特征詞進(jìn)行量化來(lái)表示文本信息。將它們從一個(gè)無(wú)結(jié)構(gòu)的原始文本轉(zhuǎn)化為結(jié)構(gòu)化的計(jì)算機(jī)可以識(shí)別處理的信息,即對(duì)文本進(jìn)行科學(xué)的抽象,建立它的數(shù)學(xué)模型,用以描述和代替文本。使計(jì)算機(jī)能夠通過(guò)對(duì)這種模型的計(jì)算和操作來(lái)實(shí)現(xiàn)對(duì)文本的識(shí)別。由于文本是非結(jié)構(gòu)化的數(shù)據(jù),要想從大量的文本中挖掘有用的信息就必須首先將文本轉(zhuǎn)化為可處理的結(jié)構(gòu)化形式。目前人們通常采用向量空間模型來(lái)描述文本向量,但是如果直接用分詞算法和詞頻統(tǒng)計(jì)方法得到的特征項(xiàng)來(lái)表示文本向量中的各個(gè)維,那么這個(gè)向量的維度將是非常的大。這種未經(jīng)處理的文本矢量不僅給后續(xù)工作帶來(lái)巨大的計(jì)算開(kāi)銷,使整個(gè)處理過(guò)程的效率非常低下,而且會(huì)損害分類、聚類算法的精確性,從而使所得到的結(jié)果很難令人滿意。


      【發(fā)明內(nèi)容】

      [0004]為了解決【背景技術(shù)】中存在的技術(shù)問(wèn)題,本發(fā)明提出了一種語(yǔ)義化文本描述方法及系統(tǒng),抑制無(wú)關(guān)維度的計(jì)算,增強(qiáng)核心語(yǔ)義特征,并起到抑制噪聲的效果。
      [0005]本發(fā)明提出的一種語(yǔ)義化文本描述方法,包括以下步驟:
      [0006]將整個(gè)文本文檔中各個(gè)語(yǔ)義段落進(jìn)行段落級(jí)語(yǔ)義分析;
      [0007]對(duì)各個(gè)段落級(jí)語(yǔ)義匯總語(yǔ)義信息;
      [0008]對(duì)每個(gè)段落進(jìn)行語(yǔ)義維度化描述;
      [0009]進(jìn)行文檔特征描述;
      [0010]文檔特征描述維度互校正。
      [0011]優(yōu)選地,所述將整個(gè)文本文檔中各個(gè)語(yǔ)義段落進(jìn)行段落級(jí)語(yǔ)義分析,具體為對(duì)文本文檔中每句話作語(yǔ)義分析,標(biāo)注動(dòng)詞性語(yǔ)義點(diǎn)、名詞性語(yǔ)義點(diǎn)和語(yǔ)義傾向性。
      [0012]優(yōu)選地,所述對(duì)各個(gè)段落級(jí)語(yǔ)義匯總語(yǔ)義信息,具體為:匯總成段落和整個(gè)篇章的語(yǔ)義側(cè)重點(diǎn),最后利用語(yǔ)義側(cè)重點(diǎn),結(jié)合篇章特點(diǎn),以字?jǐn)?shù)為約束條件,來(lái)挑選盡可能涵蓋全文語(yǔ)義的若干個(gè)句組組成全文摘要。
      [0013]優(yōu)選地,所述對(duì)每個(gè)段落進(jìn)行語(yǔ)義維度化描述包括時(shí)間序列、地區(qū)分布維度。
      [0014]優(yōu)選地,所述進(jìn)行文檔特征描述,具體包括計(jì)算文檔特征參數(shù),并用來(lái)描述該文檔。
      [0015]優(yōu)選地,所述文檔特征描述維度互校正,具體包括對(duì)相鄰語(yǔ)義段落的維度分析矢量、維度矢量做矯正:根據(jù)詞語(yǔ)語(yǔ)義關(guān)聯(lián)、維度關(guān)聯(lián)進(jìn)行平方和互乘,然后開(kāi)方,并處以維度和,作為矯正后的值。
      [0016]本發(fā)明提出的一種語(yǔ)義化文本描述系統(tǒng),包括:
      [0017]分析模塊,用于將整個(gè)文本文檔中各個(gè)語(yǔ)義段落進(jìn)行段落級(jí)語(yǔ)義分析;
      [0018]匯總模塊,與所述分析模塊連接,用于對(duì)各個(gè)段落級(jí)語(yǔ)義匯總語(yǔ)義信息;
      [0019]維度化描述模塊,與所述匯總模塊連接,用于對(duì)每個(gè)段落進(jìn)行語(yǔ)義維度化描述;
      [0020]特征描述模塊,與所述維度化描述模塊連接,用于進(jìn)行文檔特征描述;
      [0021 ] 互校正模塊,與所述特征描述模塊連接,用于文檔特征描述維度互校正。
      [0022]優(yōu)選地,所述分析模塊具體用于將整個(gè)文本文檔中各個(gè)語(yǔ)義段落進(jìn)行段落級(jí)語(yǔ)義分析,為對(duì)文本文檔中每句話作語(yǔ)義分析,標(biāo)注動(dòng)詞性語(yǔ)義點(diǎn)、名詞性語(yǔ)義點(diǎn)和語(yǔ)義傾向性。
      [0023]優(yōu)選地,所述匯總模塊具體用于匯總成段落和整個(gè)篇章的語(yǔ)義側(cè)重點(diǎn),利用語(yǔ)義側(cè)重點(diǎn),結(jié)合篇章特點(diǎn),以字?jǐn)?shù)為約束條件,來(lái)挑選盡可能涵蓋全文語(yǔ)義的若干個(gè)句組組成全文摘要。
      [0024]優(yōu)選地,所述互校正模塊,具體用于對(duì)相鄰語(yǔ)義段落的維度分析矢量、維度矢量做矯正:根據(jù)詞語(yǔ)語(yǔ)義關(guān)聯(lián)、維度關(guān)聯(lián)進(jìn)行平方和互乘,然后開(kāi)方,并處以維度和,作為矯正后的值。
      [0025]本發(fā)明中,使自然語(yǔ)言段落間的起承轉(zhuǎn)合體現(xiàn)在語(yǔ)義空間和維度特征上,會(huì)存在相鄰段落間語(yǔ)義向量和維度的較強(qiáng)的關(guān)聯(lián)性,通過(guò)增強(qiáng)相關(guān)維度,抑制無(wú)關(guān)維度的計(jì)算,增強(qiáng)核心語(yǔ)義特征,并起到抑制噪聲的效果。

      【專利附圖】

      【附圖說(shuō)明】
      [0026]圖1為本發(fā)明實(shí)施例提出的一種語(yǔ)義化文本描述方法流程圖;
      [0027]圖2為本發(fā)明實(shí)施例提出的一種語(yǔ)義化文本描述系統(tǒng)結(jié)構(gòu)圖。

      【具體實(shí)施方式】
      [0028]如圖1所示,本發(fā)明實(shí)施例提出了一種語(yǔ)義化文本描述方法及系統(tǒng),包括以下步驟:
      [0029]步驟101,將整個(gè)文本文檔中各個(gè)語(yǔ)義段落進(jìn)行段落級(jí)語(yǔ)義分析。具體為對(duì)文本文檔中每句話作語(yǔ)義分析,標(biāo)注動(dòng)詞性語(yǔ)義點(diǎn)、名詞性語(yǔ)義點(diǎn)和語(yǔ)義傾向性等。
      [0030]步驟102,對(duì)各個(gè)段落級(jí)語(yǔ)義匯總語(yǔ)義信息。具體為:匯總成段落和整個(gè)篇章的語(yǔ)義側(cè)重點(diǎn),最后利用語(yǔ)義側(cè)重點(diǎn),結(jié)合篇章特點(diǎn),以字?jǐn)?shù)為約束條件,來(lái)挑選盡可能涵蓋全文語(yǔ)義的若干個(gè)“句組”組成全文摘要。
      [0031]步驟103,對(duì)每個(gè)段落進(jìn)行語(yǔ)義維度化描述。包括時(shí)間序列、地區(qū)分布等多維度描述。
      [0032]步驟104,進(jìn)行文檔特征描述。計(jì)算文檔特征參數(shù),并用來(lái)描述該文檔;通過(guò)該特征參數(shù),可以檢索、調(diào)用該文檔。其中,對(duì)于文檔層面的描述,主要特征參數(shù)為文檔語(yǔ)義向量、維度矢量以及文檔語(yǔ)義流動(dòng)圖。
      [0033]文檔特征包括:能夠確實(shí)標(biāo)識(shí)文本內(nèi)容、將目標(biāo)文本與其他文本相區(qū)分的能力、個(gè)數(shù)適中、分離要比較容易實(shí)現(xiàn)。在中文文檔中可以采用字、詞或短語(yǔ)作為表示文本的文檔特征。由于詞比字具有更強(qiáng)的表達(dá)能力,而詞和短語(yǔ)相比,詞的切分難度比短語(yǔ)的切分難度小得多。因此,采用詞作為文檔特征,作為文檔的中間表示形式,用來(lái)實(shí)現(xiàn)文檔與文檔、文檔與用戶目標(biāo)之間的相似度計(jì)算。通常根據(jù)某個(gè)特征評(píng)估函數(shù)計(jì)算各個(gè)特征的評(píng)分值,然后按評(píng)分值對(duì)這些特征進(jìn)行排序,選取若干個(gè)評(píng)分值最高的作為特征詞,這就是特征抽取:用映射或變換的方法把原始特征變換為較少的新特征;從原始特征中挑選出一些最具代表性的特征;根據(jù)專家的知識(shí)挑選最有影響的特征;用數(shù)學(xué)的方法進(jìn)行選取,找出最具分類信息的特征,這種方法是一種比較精確的方法,人為因素的干擾較少,尤其適合于文本自動(dòng)分類挖掘系統(tǒng)的應(yīng)用。
      [0034]步驟105,文檔特征描述維度互校正。對(duì)相鄰語(yǔ)義段落的維度分析矢量、維度矢量做矯正:根據(jù)詞語(yǔ)語(yǔ)義關(guān)聯(lián)、維度關(guān)聯(lián)進(jìn)行平方和互乘,然后開(kāi)方,并處以維度和,作為矯正后的值,使相關(guān)聯(lián)的維度特征被增強(qiáng),而無(wú)定義維度關(guān)聯(lián)的維度會(huì)被適當(dāng)削弱。
      [0035]如圖2所示,本發(fā)明實(shí)施例提出了一種語(yǔ)義化文本描述系統(tǒng),包括:分析模塊10,用于將整個(gè)文本文檔中各個(gè)語(yǔ)義段落進(jìn)行段落級(jí)語(yǔ)義分析;匯總模塊20,與所述分析模塊10連接,用于對(duì)各個(gè)段落級(jí)語(yǔ)義匯總語(yǔ)義信息;維度化描述模塊30,與所述匯總模塊20連接,用于對(duì)每個(gè)段落進(jìn)行語(yǔ)義維度化描述;特征描述模塊40,與所述維度化描述模塊30連接,用于進(jìn)行文檔特征描述;互校正模塊50,與所述特征描述模塊40連接,用于文檔特征描述維度互校正。
      [0036]所述分析模塊10具體用于將整個(gè)文本文檔中各個(gè)語(yǔ)義段落進(jìn)行段落級(jí)語(yǔ)義分析,為對(duì)文本文檔中每句話作語(yǔ)義分析,標(biāo)注動(dòng)詞性語(yǔ)義點(diǎn)、名詞性語(yǔ)義點(diǎn)和語(yǔ)義傾向性。
      [0037]所述匯總模塊20具體用于匯總成段落和整個(gè)篇章的語(yǔ)義側(cè)重點(diǎn),利用語(yǔ)義側(cè)重點(diǎn),結(jié)合篇章特點(diǎn),以字?jǐn)?shù)為約束條件,來(lái)挑選盡可能涵蓋全文語(yǔ)義的若干個(gè)句組組成全文摘要。
      [0038]所述互校正模塊50,具體用于對(duì)相鄰語(yǔ)義段落的維度分析矢量、維度矢量做矯正:根據(jù)詞語(yǔ)語(yǔ)義關(guān)聯(lián)、維度關(guān)聯(lián)進(jìn)行平方和互乘,然后開(kāi)方,并處以維度和,作為矯正后的值。
      [0039]以上所述,僅為本發(fā)明較佳的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。
      【權(quán)利要求】
      1.一種語(yǔ)義化文本描述方法,其特征在于,包括以下步驟: 將整個(gè)文本文檔中各個(gè)語(yǔ)義段落進(jìn)行段落級(jí)語(yǔ)義分析; 對(duì)各個(gè)段落級(jí)語(yǔ)義匯總語(yǔ)義信息; 對(duì)每個(gè)段落進(jìn)行語(yǔ)義維度化描述; 進(jìn)行文檔特征描述; 進(jìn)行文檔特征描述維度互校正。
      2.根據(jù)權(quán)利要求1所述的語(yǔ)義化文本描述方法,其特征在于,所述將整個(gè)文本文檔中各個(gè)語(yǔ)義段落進(jìn)行段落級(jí)語(yǔ)義分析,具體為對(duì)文本文檔中每句話作語(yǔ)義分析,標(biāo)注動(dòng)詞性語(yǔ)義點(diǎn)、名詞性語(yǔ)義點(diǎn)和語(yǔ)義傾向性。
      3.根據(jù)權(quán)利要求1所述的語(yǔ)義化文本描述方法,其特征在于,所述對(duì)各個(gè)段落級(jí)語(yǔ)義匯總語(yǔ)義信息,具體為:匯總段落和整個(gè)篇章的語(yǔ)義側(cè)重點(diǎn),最后利用語(yǔ)義側(cè)重點(diǎn),結(jié)合篇章特點(diǎn),以字?jǐn)?shù)為約束條件,來(lái)挑選盡可能涵蓋全文語(yǔ)義的若干個(gè)句組組成全文摘要。
      4.根據(jù)權(quán)利要求1所述的語(yǔ)義化文本描述方法,其特征在于,所述對(duì)每個(gè)段落進(jìn)行語(yǔ)義維度化描述包括時(shí)間序列、地區(qū)分布維度。
      5.根據(jù)權(quán)利要求1所述的語(yǔ)義化文本描述方法,其特征在于,所述進(jìn)行文檔特征描述,具體包括計(jì)算文檔特征參數(shù),并用來(lái)描述該文檔。
      6.根據(jù)權(quán)利要求1所述的語(yǔ)義化文本描述方法,其特征在于,所述文檔特征描述維度互校正,具體包括對(duì)相鄰語(yǔ)義段落的維度分析矢量、維度矢量做矯正:根據(jù)詞語(yǔ)語(yǔ)義關(guān)聯(lián)、維度關(guān)聯(lián)進(jìn)行平方和互乘,然后開(kāi)方,并處以維度和,作為矯正后的值。
      7.—種語(yǔ)義化文本描述系統(tǒng),其特征在于,包括: 分析模塊,用于將整個(gè)文本文檔中各個(gè)語(yǔ)義段落進(jìn)行段落級(jí)語(yǔ)義分析; 匯總模塊,與所述分析模塊連接,用于對(duì)各個(gè)段落級(jí)語(yǔ)義匯總語(yǔ)義信息; 維度化描述模塊,與所述匯總模塊連接,用于對(duì)每個(gè)段落進(jìn)行語(yǔ)義維度化描述; 特征描述模塊,與所述維度化描述模塊連接,用于進(jìn)行文檔特征描述; 互校正模塊,與所述特征描述模塊連接,用于文檔特征描述維度互校正。
      8.根據(jù)權(quán)利要求7所述的語(yǔ)義化文本描述系統(tǒng),其特征在于,所述分析模塊具體用于將整個(gè)文本文檔中各個(gè)語(yǔ)義段落進(jìn)行段落級(jí)語(yǔ)義分析,為對(duì)文本文檔中每句話作語(yǔ)義分析,標(biāo)注動(dòng)詞性語(yǔ)義點(diǎn)、名詞性語(yǔ)義點(diǎn)和語(yǔ)義傾向性。
      9.根據(jù)權(quán)利要求7所述的語(yǔ)義化文本描述系統(tǒng),其特征在于,所述匯總模塊具體用于匯總成段落和整個(gè)篇章的語(yǔ)義側(cè)重點(diǎn),利用語(yǔ)義側(cè)重點(diǎn),結(jié)合篇章特點(diǎn),以字?jǐn)?shù)為約束條件,來(lái)挑選盡可能涵蓋全文語(yǔ)義的若干個(gè)句組組成全文摘要。
      10.根據(jù)權(quán)利要求7所述的語(yǔ)義化文本描述系統(tǒng),其特征在于,所述互校正模塊,具體用于對(duì)相鄰語(yǔ)義段落的維度分析矢量、維度矢量做矯正:根據(jù)詞語(yǔ)語(yǔ)義關(guān)聯(lián)、維度關(guān)聯(lián)進(jìn)行平方和互乘,然后開(kāi)方,并處以維度和,作為矯正后的值。
      【文檔編號(hào)】G06F17/27GK104281566SQ201410537829
      【公開(kāi)日】2015年1月14日 申請(qǐng)日期:2014年10月13日 優(yōu)先權(quán)日:2014年10月13日
      【發(fā)明者】賈巖 申請(qǐng)人:安徽華貞信息科技有限公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1