一種語(yǔ)義化文本描述方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開(kāi)了一種語(yǔ)義化文本描述方法及系統(tǒng),該方法包括以下步驟:將整個(gè)文本文檔中各個(gè)語(yǔ)義段落進(jìn)行段落級(jí)語(yǔ)義分析;對(duì)各個(gè)段落級(jí)語(yǔ)義匯總語(yǔ)義信息;對(duì)每個(gè)段落進(jìn)行語(yǔ)義維度化描述;進(jìn)行文檔特征描述;文檔特征描述維度互校正。本發(fā)明中,使自然語(yǔ)言段落間的起承轉(zhuǎn)合體現(xiàn)在語(yǔ)義空間和維度特征上,會(huì)存在相鄰段落間語(yǔ)義向量和維度的較強(qiáng)的關(guān)聯(lián)性,通過(guò)增強(qiáng)相關(guān)維度,抑制無(wú)關(guān)維度的計(jì)算,增強(qiáng)核心語(yǔ)義特征,并起到抑制噪聲的效果。
【專利說(shuō)明】 一種語(yǔ)義化文本描述方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)網(wǎng)絡(luò)【技術(shù)領(lǐng)域】,尤其涉及一種語(yǔ)義化文本描述方法及系統(tǒng)。
【背景技術(shù)】
[0002]文本與訊息的意義大致相同,指有一定的符號(hào)或符碼組成的信息結(jié)構(gòu)體,這種結(jié)構(gòu)體可采用不同的表現(xiàn)形態(tài),如語(yǔ)言的、文字的、影像等。文本是由特定的人制作的,文本的語(yǔ)義不可避免地會(huì)反映人的特定立場(chǎng)、觀點(diǎn)、價(jià)值和利益,因此,由文本內(nèi)容分析,可以推斷文本提供者的意圖和目的。
[0003]文本分析是指對(duì)文本的表示及其特征項(xiàng)的選??;文本分析是文本挖掘、信息檢索的一個(gè)基本問(wèn)題,它把從文本中抽取出的特征詞進(jìn)行量化來(lái)表示文本信息。將它們從一個(gè)無(wú)結(jié)構(gòu)的原始文本轉(zhuǎn)化為結(jié)構(gòu)化的計(jì)算機(jī)可以識(shí)別處理的信息,即對(duì)文本進(jìn)行科學(xué)的抽象,建立它的數(shù)學(xué)模型,用以描述和代替文本。使計(jì)算機(jī)能夠通過(guò)對(duì)這種模型的計(jì)算和操作來(lái)實(shí)現(xiàn)對(duì)文本的識(shí)別。由于文本是非結(jié)構(gòu)化的數(shù)據(jù),要想從大量的文本中挖掘有用的信息就必須首先將文本轉(zhuǎn)化為可處理的結(jié)構(gòu)化形式。目前人們通常采用向量空間模型來(lái)描述文本向量,但是如果直接用分詞算法和詞頻統(tǒng)計(jì)方法得到的特征項(xiàng)來(lái)表示文本向量中的各個(gè)維,那么這個(gè)向量的維度將是非常的大。這種未經(jīng)處理的文本矢量不僅給后續(xù)工作帶來(lái)巨大的計(jì)算開(kāi)銷,使整個(gè)處理過(guò)程的效率非常低下,而且會(huì)損害分類、聚類算法的精確性,從而使所得到的結(jié)果很難令人滿意。
【發(fā)明內(nèi)容】
[0004]為了解決【背景技術(shù)】中存在的技術(shù)問(wèn)題,本發(fā)明提出了一種語(yǔ)義化文本描述方法及系統(tǒng),抑制無(wú)關(guān)維度的計(jì)算,增強(qiáng)核心語(yǔ)義特征,并起到抑制噪聲的效果。
[0005]本發(fā)明提出的一種語(yǔ)義化文本描述方法,包括以下步驟:
[0006]將整個(gè)文本文檔中各個(gè)語(yǔ)義段落進(jìn)行段落級(jí)語(yǔ)義分析;
[0007]對(duì)各個(gè)段落級(jí)語(yǔ)義匯總語(yǔ)義信息;
[0008]對(duì)每個(gè)段落進(jìn)行語(yǔ)義維度化描述;
[0009]進(jìn)行文檔特征描述;
[0010]文檔特征描述維度互校正。
[0011]優(yōu)選地,所述將整個(gè)文本文檔中各個(gè)語(yǔ)義段落進(jìn)行段落級(jí)語(yǔ)義分析,具體為對(duì)文本文檔中每句話作語(yǔ)義分析,標(biāo)注動(dòng)詞性語(yǔ)義點(diǎn)、名詞性語(yǔ)義點(diǎn)和語(yǔ)義傾向性。
[0012]優(yōu)選地,所述對(duì)各個(gè)段落級(jí)語(yǔ)義匯總語(yǔ)義信息,具體為:匯總成段落和整個(gè)篇章的語(yǔ)義側(cè)重點(diǎn),最后利用語(yǔ)義側(cè)重點(diǎn),結(jié)合篇章特點(diǎn),以字?jǐn)?shù)為約束條件,來(lái)挑選盡可能涵蓋全文語(yǔ)義的若干個(gè)句組組成全文摘要。
[0013]優(yōu)選地,所述對(duì)每個(gè)段落進(jìn)行語(yǔ)義維度化描述包括時(shí)間序列、地區(qū)分布維度。
[0014]優(yōu)選地,所述進(jìn)行文檔特征描述,具體包括計(jì)算文檔特征參數(shù),并用來(lái)描述該文檔。
[0015]優(yōu)選地,所述文檔特征描述維度互校正,具體包括對(duì)相鄰語(yǔ)義段落的維度分析矢量、維度矢量做矯正:根據(jù)詞語(yǔ)語(yǔ)義關(guān)聯(lián)、維度關(guān)聯(lián)進(jìn)行平方和互乘,然后開(kāi)方,并處以維度和,作為矯正后的值。
[0016]本發(fā)明提出的一種語(yǔ)義化文本描述系統(tǒng),包括:
[0017]分析模塊,用于將整個(gè)文本文檔中各個(gè)語(yǔ)義段落進(jìn)行段落級(jí)語(yǔ)義分析;
[0018]匯總模塊,與所述分析模塊連接,用于對(duì)各個(gè)段落級(jí)語(yǔ)義匯總語(yǔ)義信息;
[0019]維度化描述模塊,與所述匯總模塊連接,用于對(duì)每個(gè)段落進(jìn)行語(yǔ)義維度化描述;
[0020]特征描述模塊,與所述維度化描述模塊連接,用于進(jìn)行文檔特征描述;
[0021 ] 互校正模塊,與所述特征描述模塊連接,用于文檔特征描述維度互校正。
[0022]優(yōu)選地,所述分析模塊具體用于將整個(gè)文本文檔中各個(gè)語(yǔ)義段落進(jìn)行段落級(jí)語(yǔ)義分析,為對(duì)文本文檔中每句話作語(yǔ)義分析,標(biāo)注動(dòng)詞性語(yǔ)義點(diǎn)、名詞性語(yǔ)義點(diǎn)和語(yǔ)義傾向性。
[0023]優(yōu)選地,所述匯總模塊具體用于匯總成段落和整個(gè)篇章的語(yǔ)義側(cè)重點(diǎn),利用語(yǔ)義側(cè)重點(diǎn),結(jié)合篇章特點(diǎn),以字?jǐn)?shù)為約束條件,來(lái)挑選盡可能涵蓋全文語(yǔ)義的若干個(gè)句組組成全文摘要。
[0024]優(yōu)選地,所述互校正模塊,具體用于對(duì)相鄰語(yǔ)義段落的維度分析矢量、維度矢量做矯正:根據(jù)詞語(yǔ)語(yǔ)義關(guān)聯(lián)、維度關(guān)聯(lián)進(jìn)行平方和互乘,然后開(kāi)方,并處以維度和,作為矯正后的值。
[0025]本發(fā)明中,使自然語(yǔ)言段落間的起承轉(zhuǎn)合體現(xiàn)在語(yǔ)義空間和維度特征上,會(huì)存在相鄰段落間語(yǔ)義向量和維度的較強(qiáng)的關(guān)聯(lián)性,通過(guò)增強(qiáng)相關(guān)維度,抑制無(wú)關(guān)維度的計(jì)算,增強(qiáng)核心語(yǔ)義特征,并起到抑制噪聲的效果。
【專利附圖】
【附圖說(shuō)明】
[0026]圖1為本發(fā)明實(shí)施例提出的一種語(yǔ)義化文本描述方法流程圖;
[0027]圖2為本發(fā)明實(shí)施例提出的一種語(yǔ)義化文本描述系統(tǒng)結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0028]如圖1所示,本發(fā)明實(shí)施例提出了一種語(yǔ)義化文本描述方法及系統(tǒng),包括以下步驟:
[0029]步驟101,將整個(gè)文本文檔中各個(gè)語(yǔ)義段落進(jìn)行段落級(jí)語(yǔ)義分析。具體為對(duì)文本文檔中每句話作語(yǔ)義分析,標(biāo)注動(dòng)詞性語(yǔ)義點(diǎn)、名詞性語(yǔ)義點(diǎn)和語(yǔ)義傾向性等。
[0030]步驟102,對(duì)各個(gè)段落級(jí)語(yǔ)義匯總語(yǔ)義信息。具體為:匯總成段落和整個(gè)篇章的語(yǔ)義側(cè)重點(diǎn),最后利用語(yǔ)義側(cè)重點(diǎn),結(jié)合篇章特點(diǎn),以字?jǐn)?shù)為約束條件,來(lái)挑選盡可能涵蓋全文語(yǔ)義的若干個(gè)“句組”組成全文摘要。
[0031]步驟103,對(duì)每個(gè)段落進(jìn)行語(yǔ)義維度化描述。包括時(shí)間序列、地區(qū)分布等多維度描述。
[0032]步驟104,進(jìn)行文檔特征描述。計(jì)算文檔特征參數(shù),并用來(lái)描述該文檔;通過(guò)該特征參數(shù),可以檢索、調(diào)用該文檔。其中,對(duì)于文檔層面的描述,主要特征參數(shù)為文檔語(yǔ)義向量、維度矢量以及文檔語(yǔ)義流動(dòng)圖。
[0033]文檔特征包括:能夠確實(shí)標(biāo)識(shí)文本內(nèi)容、將目標(biāo)文本與其他文本相區(qū)分的能力、個(gè)數(shù)適中、分離要比較容易實(shí)現(xiàn)。在中文文檔中可以采用字、詞或短語(yǔ)作為表示文本的文檔特征。由于詞比字具有更強(qiáng)的表達(dá)能力,而詞和短語(yǔ)相比,詞的切分難度比短語(yǔ)的切分難度小得多。因此,采用詞作為文檔特征,作為文檔的中間表示形式,用來(lái)實(shí)現(xiàn)文檔與文檔、文檔與用戶目標(biāo)之間的相似度計(jì)算。通常根據(jù)某個(gè)特征評(píng)估函數(shù)計(jì)算各個(gè)特征的評(píng)分值,然后按評(píng)分值對(duì)這些特征進(jìn)行排序,選取若干個(gè)評(píng)分值最高的作為特征詞,這就是特征抽取:用映射或變換的方法把原始特征變換為較少的新特征;從原始特征中挑選出一些最具代表性的特征;根據(jù)專家的知識(shí)挑選最有影響的特征;用數(shù)學(xué)的方法進(jìn)行選取,找出最具分類信息的特征,這種方法是一種比較精確的方法,人為因素的干擾較少,尤其適合于文本自動(dòng)分類挖掘系統(tǒng)的應(yīng)用。
[0034]步驟105,文檔特征描述維度互校正。對(duì)相鄰語(yǔ)義段落的維度分析矢量、維度矢量做矯正:根據(jù)詞語(yǔ)語(yǔ)義關(guān)聯(lián)、維度關(guān)聯(lián)進(jìn)行平方和互乘,然后開(kāi)方,并處以維度和,作為矯正后的值,使相關(guān)聯(lián)的維度特征被增強(qiáng),而無(wú)定義維度關(guān)聯(lián)的維度會(huì)被適當(dāng)削弱。
[0035]如圖2所示,本發(fā)明實(shí)施例提出了一種語(yǔ)義化文本描述系統(tǒng),包括:分析模塊10,用于將整個(gè)文本文檔中各個(gè)語(yǔ)義段落進(jìn)行段落級(jí)語(yǔ)義分析;匯總模塊20,與所述分析模塊10連接,用于對(duì)各個(gè)段落級(jí)語(yǔ)義匯總語(yǔ)義信息;維度化描述模塊30,與所述匯總模塊20連接,用于對(duì)每個(gè)段落進(jìn)行語(yǔ)義維度化描述;特征描述模塊40,與所述維度化描述模塊30連接,用于進(jìn)行文檔特征描述;互校正模塊50,與所述特征描述模塊40連接,用于文檔特征描述維度互校正。
[0036]所述分析模塊10具體用于將整個(gè)文本文檔中各個(gè)語(yǔ)義段落進(jìn)行段落級(jí)語(yǔ)義分析,為對(duì)文本文檔中每句話作語(yǔ)義分析,標(biāo)注動(dòng)詞性語(yǔ)義點(diǎn)、名詞性語(yǔ)義點(diǎn)和語(yǔ)義傾向性。
[0037]所述匯總模塊20具體用于匯總成段落和整個(gè)篇章的語(yǔ)義側(cè)重點(diǎn),利用語(yǔ)義側(cè)重點(diǎn),結(jié)合篇章特點(diǎn),以字?jǐn)?shù)為約束條件,來(lái)挑選盡可能涵蓋全文語(yǔ)義的若干個(gè)句組組成全文摘要。
[0038]所述互校正模塊50,具體用于對(duì)相鄰語(yǔ)義段落的維度分析矢量、維度矢量做矯正:根據(jù)詞語(yǔ)語(yǔ)義關(guān)聯(lián)、維度關(guān)聯(lián)進(jìn)行平方和互乘,然后開(kāi)方,并處以維度和,作為矯正后的值。
[0039]以上所述,僅為本發(fā)明較佳的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種語(yǔ)義化文本描述方法,其特征在于,包括以下步驟: 將整個(gè)文本文檔中各個(gè)語(yǔ)義段落進(jìn)行段落級(jí)語(yǔ)義分析; 對(duì)各個(gè)段落級(jí)語(yǔ)義匯總語(yǔ)義信息; 對(duì)每個(gè)段落進(jìn)行語(yǔ)義維度化描述; 進(jìn)行文檔特征描述; 進(jìn)行文檔特征描述維度互校正。
2.根據(jù)權(quán)利要求1所述的語(yǔ)義化文本描述方法,其特征在于,所述將整個(gè)文本文檔中各個(gè)語(yǔ)義段落進(jìn)行段落級(jí)語(yǔ)義分析,具體為對(duì)文本文檔中每句話作語(yǔ)義分析,標(biāo)注動(dòng)詞性語(yǔ)義點(diǎn)、名詞性語(yǔ)義點(diǎn)和語(yǔ)義傾向性。
3.根據(jù)權(quán)利要求1所述的語(yǔ)義化文本描述方法,其特征在于,所述對(duì)各個(gè)段落級(jí)語(yǔ)義匯總語(yǔ)義信息,具體為:匯總段落和整個(gè)篇章的語(yǔ)義側(cè)重點(diǎn),最后利用語(yǔ)義側(cè)重點(diǎn),結(jié)合篇章特點(diǎn),以字?jǐn)?shù)為約束條件,來(lái)挑選盡可能涵蓋全文語(yǔ)義的若干個(gè)句組組成全文摘要。
4.根據(jù)權(quán)利要求1所述的語(yǔ)義化文本描述方法,其特征在于,所述對(duì)每個(gè)段落進(jìn)行語(yǔ)義維度化描述包括時(shí)間序列、地區(qū)分布維度。
5.根據(jù)權(quán)利要求1所述的語(yǔ)義化文本描述方法,其特征在于,所述進(jìn)行文檔特征描述,具體包括計(jì)算文檔特征參數(shù),并用來(lái)描述該文檔。
6.根據(jù)權(quán)利要求1所述的語(yǔ)義化文本描述方法,其特征在于,所述文檔特征描述維度互校正,具體包括對(duì)相鄰語(yǔ)義段落的維度分析矢量、維度矢量做矯正:根據(jù)詞語(yǔ)語(yǔ)義關(guān)聯(lián)、維度關(guān)聯(lián)進(jìn)行平方和互乘,然后開(kāi)方,并處以維度和,作為矯正后的值。
7.—種語(yǔ)義化文本描述系統(tǒng),其特征在于,包括: 分析模塊,用于將整個(gè)文本文檔中各個(gè)語(yǔ)義段落進(jìn)行段落級(jí)語(yǔ)義分析; 匯總模塊,與所述分析模塊連接,用于對(duì)各個(gè)段落級(jí)語(yǔ)義匯總語(yǔ)義信息; 維度化描述模塊,與所述匯總模塊連接,用于對(duì)每個(gè)段落進(jìn)行語(yǔ)義維度化描述; 特征描述模塊,與所述維度化描述模塊連接,用于進(jìn)行文檔特征描述; 互校正模塊,與所述特征描述模塊連接,用于文檔特征描述維度互校正。
8.根據(jù)權(quán)利要求7所述的語(yǔ)義化文本描述系統(tǒng),其特征在于,所述分析模塊具體用于將整個(gè)文本文檔中各個(gè)語(yǔ)義段落進(jìn)行段落級(jí)語(yǔ)義分析,為對(duì)文本文檔中每句話作語(yǔ)義分析,標(biāo)注動(dòng)詞性語(yǔ)義點(diǎn)、名詞性語(yǔ)義點(diǎn)和語(yǔ)義傾向性。
9.根據(jù)權(quán)利要求7所述的語(yǔ)義化文本描述系統(tǒng),其特征在于,所述匯總模塊具體用于匯總成段落和整個(gè)篇章的語(yǔ)義側(cè)重點(diǎn),利用語(yǔ)義側(cè)重點(diǎn),結(jié)合篇章特點(diǎn),以字?jǐn)?shù)為約束條件,來(lái)挑選盡可能涵蓋全文語(yǔ)義的若干個(gè)句組組成全文摘要。
10.根據(jù)權(quán)利要求7所述的語(yǔ)義化文本描述系統(tǒng),其特征在于,所述互校正模塊,具體用于對(duì)相鄰語(yǔ)義段落的維度分析矢量、維度矢量做矯正:根據(jù)詞語(yǔ)語(yǔ)義關(guān)聯(lián)、維度關(guān)聯(lián)進(jìn)行平方和互乘,然后開(kāi)方,并處以維度和,作為矯正后的值。
【文檔編號(hào)】G06F17/27GK104281566SQ201410537829
【公開(kāi)日】2015年1月14日 申請(qǐng)日期:2014年10月13日 優(yōu)先權(quán)日:2014年10月13日
【發(fā)明者】賈巖 申請(qǐng)人:安徽華貞信息科技有限公司