一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法
【專利摘要】本發(fā)明公開了一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法,包括以下步驟:文本故事集合的初始化;建立相關(guān)性關(guān)系圖模型;通過(guò)tf-idf可分性值對(duì)所述相關(guān)性關(guān)系圖模型進(jìn)行修剪;將修剪后的相關(guān)性關(guān)系圖模型作為Simrank算法輸入,通過(guò)Simrank的迭代計(jì)算詞語(yǔ)對(duì)之間的語(yǔ)義相似度;以所述語(yǔ)義相似度為核心定義柔性語(yǔ)義相似度度量模型;基于所述柔性語(yǔ)義相似度度量模型對(duì)中文新聞文本進(jìn)行協(xié)同分割。本方法能更好的區(qū)分出屬于同一主題的詞語(yǔ)和不屬于同一主題的詞語(yǔ),同時(shí)還能度量詞字與其組成的詞語(yǔ)之間的語(yǔ)義相似度。在標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)顯示,相對(duì)于現(xiàn)有方法,新聞故事協(xié)同分割的結(jié)果的F1-measure絕對(duì)值增長(zhǎng)了11%。
【專利說(shuō)明】一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)與媒體計(jì)算領(lǐng)域,特別涉及一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法。
【背景技術(shù)】
[0002]故事協(xié)同分割旨在多個(gè)文本之間提取出屬于同一主題的故事,在實(shí)踐中,故事協(xié)同分割對(duì)于高層次的語(yǔ)義總結(jié)和行為分析等是一個(gè)很重要的預(yù)處理操作。
[0003]在特定的條件下,諸如:已知主題模型和預(yù)先主題標(biāo)定的情況下,主題檢測(cè)與跟蹤方法(TDT) [1]能夠被用于故事協(xié)同分割。相比之下,F(xiàn)eng et al.于2012年提出了一個(gè)基于概率圖模型的[2],更加通用和無(wú)監(jiān)督的方法用以自動(dòng)地檢測(cè)語(yǔ)義相似的文本故事對(duì)。此方法純粹以數(shù)據(jù)為導(dǎo)向并且全部依賴于主題間和主題內(nèi)的語(yǔ)義相似性的依賴與約束。因此,如何正確地度量語(yǔ)義相似度得以極大程度地影響故事分割的準(zhǔn)確性。根據(jù)“詞袋”模型,詞語(yǔ)出現(xiàn)的頻率分布可以用來(lái)表示詞語(yǔ)流的語(yǔ)義,也就是說(shuō),兩個(gè)相同的詞語(yǔ)間的相似度為1,否則為O。此方式有助于簡(jiǎn)化模型,但是,將詞與詞之間潛在的相似性關(guān)系考慮進(jìn)來(lái)將會(huì)更有意義。
[0004]度量詞語(yǔ)的語(yǔ)義相似度在自然語(yǔ)言處理(NLP)領(lǐng)域中是一個(gè)很重要的課題,同時(shí)也是其他多種應(yīng)用的重要基礎(chǔ),例如,2002年P(guān)antel and Lin提出的詞義排歧[3];1998年Lin提出了一種信息論定義的詞語(yǔ)相似性MM,此相似性度量是語(yǔ)料庫(kù)為本的并來(lái)源于一系列的關(guān)于相似性的假設(shè)。對(duì)于英文來(lái)說(shuō),2004年P(guān)edersen et al.提出的WordNet:: Similarity?是一種能夠度量任意兩個(gè)英文單詞間相似度的度量方法,它基于預(yù)先主題標(biāo)定的語(yǔ)料庫(kù),根據(jù)單 詞的含義,將名詞、動(dòng)詞、副詞和形容詞編組入一個(gè)繼承關(guān)系的層次結(jié)構(gòu),達(dá)到對(duì)單詞分類和關(guān)聯(lián)的目的。2008年Kolb提出了一個(gè)DISCO方法[7],用以檢索多種語(yǔ)言之間給定任意兩個(gè)詞的語(yǔ)義相似度。但是WordNet:: Similarity和DISCO都不能處理中文的語(yǔ)義相似度。同時(shí),此類基于先驗(yàn)知識(shí)的語(yǔ)義相似度度量方法不如只依賴語(yǔ)料數(shù)據(jù)驅(qū)動(dòng)的方法受歡迎,因?yàn)楹笳吣軌虍a(chǎn)生更相關(guān)的度量來(lái)更好的產(chǎn)生協(xié)同分割結(jié)果O
【發(fā)明內(nèi)容】
[0005]本發(fā)明提供了一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法,本發(fā)明實(shí)現(xiàn)了對(duì)中文的語(yǔ)義相似度的處理,且取得了較高的相似度精度,詳見(jiàn)下文描述:
[0006]一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法,所述方法包括以下步驟:
[0007]( I)文本故事集合的初始化;
[0008](2)建立相關(guān)性關(guān)系圖申旲型;
[0009](3)通過(guò)tf-1df可分性值對(duì)所述相關(guān)性關(guān)系圖模型進(jìn)行修剪;
[0010](4)將修剪后的相關(guān)性關(guān)系圖模型作為Simrank算法輸入,通過(guò)Simrank的迭代計(jì)算詞語(yǔ)對(duì)之間的語(yǔ)義相似度;[0011](5)以所述語(yǔ)義相似度為核心定義柔性語(yǔ)義相似度度量模型;
[0012](6)基于所述柔性語(yǔ)義相似度度量模型對(duì)中文新聞文本進(jìn)行協(xié)同分割。
[0013]所述文本故事集合的初始化的步驟具體為:
[0014]I)輸入帶有故事邊界和故事主題標(biāo)定的文本集合C = {Til,,每個(gè)主題?; = {5;};;, I
由m個(gè)故事組成,5;表示第i個(gè)主題的第j個(gè)故事,η為主題的數(shù)量;
[0015]2)提取出文本集合C中所有出現(xiàn)的詞,去掉重復(fù)組成有順序的詞語(yǔ)集合VWOTd,提取文本集合C中所有的字組成字集合Vdm,詞語(yǔ)集合VWOTd與字集合Vcto取并集生成詞典V ;
[0016]3)以詞語(yǔ)集合VWOTd中的元素為向量的基,對(duì)文本集合C中的每個(gè)故事建立詞頻向量模型。
[0017]所述詞頻向量模型的步驟具體為:
[0018]將不同長(zhǎng)度不同內(nèi)容的故事表現(xiàn)為維度相同的詞頻向量,詞頻向量的每個(gè)元素表示詞語(yǔ)集合vWOTd中的詞語(yǔ)在故事中出現(xiàn)的頻率。
[0019]所述建立相關(guān)性關(guān)系圖模型的步驟具體為:
[0020]I)建立詞對(duì)上下文連接圖模型:
[0021]2)建立詞語(yǔ)局部連接圖模型;
[0022]3)通過(guò)所述詞對(duì)上下文連接圖模型和所述詞語(yǔ)局部連接圖模型建立相關(guān)性關(guān)系圖模型;
[0023]所述相關(guān)性關(guān)系圖模型具體為:G=〈V,E,W>
[0024]節(jié)點(diǎn)集合V=VWOTd U Vchar,邊集合E=Ec U Ep,邊權(quán)重集合W=Wc U WP,其中,Ec為詞對(duì)上下文連接圖的邊集合;EP為詞語(yǔ)局部連接圖的邊集合;WC為詞對(duì)上下文連接圖的邊權(quán)重集合;WP為詞語(yǔ)局部連接圖的邊權(quán)重集合。
[0025]所述通過(guò)tf-1df可分性值對(duì)所述相關(guān)性關(guān)系圖模型進(jìn)行修剪的步驟具體為:
[0026]
【權(quán)利要求】
1.一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法,其特征在于,所述方法包括以下步驟: (1)文本故事集合的初始化; (2)建立相關(guān)性關(guān)系圖模型; (3)通過(guò)tf-1df可分性值對(duì)所述相關(guān)性關(guān)系圖模型進(jìn)行修剪; (4)將修剪后的相關(guān)性關(guān)系圖模型作為Simrank算法輸入,通過(guò)Simrank的迭代計(jì)算詞語(yǔ)對(duì)之間的語(yǔ)義相似度; (5)以所述語(yǔ)義相似度為核心定義柔性語(yǔ)義相似度度量模型; (6)基于所述柔性語(yǔ)義相似度度量模型對(duì)中文新聞文本進(jìn)行協(xié)同分割。
2.根據(jù)權(quán)利要求1所述的一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法,其特征在于,所述文本故事集合的初始化的步驟具體為: 1)輸入帶有故事邊界和故事主題標(biāo)定的文本集合C=仄廣,每個(gè)主題7: = {SjYU由m個(gè)故事組成,A表示第i個(gè)主題的第j個(gè)故事,η為主題的數(shù)量; 2)提取出文本集合C中所有出現(xiàn)的詞,去掉重復(fù)組成有順序的詞語(yǔ)集合VWOTd,提取文本集合C中所有的字組成字集合Vdm,詞語(yǔ)集合VWOTd與字集合Vcto取并集生成詞典V ; 3)以詞語(yǔ)集合VWOTd中的元素為向量的基,對(duì)文本集合C中的每個(gè)故事建立詞頻向量模型。
3.根據(jù)權(quán)利要求2所述的一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法,其特征在于,所述詞頻向量模型的步驟具體為: 將不同長(zhǎng)度不同內(nèi)容的故事表現(xiàn)為維度相同的詞頻向量,詞頻向量的每個(gè)元素表示詞語(yǔ)集合VWOTd中的詞語(yǔ)在故事中出現(xiàn)的頻率。
4.根據(jù)權(quán)利要求2所述的一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法,其特征在于,所述建立相關(guān)性關(guān)系圖模型的步驟具體為: 1)建立詞對(duì)上下文連接圖模型: 2)建立詞語(yǔ)局部連接圖模型; 3)通過(guò)所述詞對(duì)上下文連接圖模型和所述詞語(yǔ)局部連接圖模型建立相關(guān)性關(guān)系圖模型; 所述相關(guān)性關(guān)系圖模型具體為:G=〈V,E,W> 節(jié)點(diǎn)集合V=VWOTd U Vdm,邊集合E=Ec U EP,邊權(quán)重集合W=Wc U WP,其中,Ec為詞對(duì)上下文連接圖的邊集合;EP為詞語(yǔ)局部連接圖的邊集合;WC為詞對(duì)上下文連接圖的邊權(quán)重集合;Wp為詞語(yǔ)局部連接圖的邊權(quán)重集合。
5.根據(jù)權(quán)利要求1所述的一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法,其特征在于,所述通過(guò)tf-1df可分性值對(duì)所述相關(guān)性關(guān)系圖模型進(jìn)行修剪的步驟具體為:
Disc(Wa) = rnean{tf — idf^iyer) 其中,
Cf - = W — idf: tf — idf; > mean {if — Uifa tf-1df表示詞頻-逆向文件頻率,tf-1dfa表示詞語(yǔ)wa對(duì)于文本集中所有主題計(jì)算出的tf-1df值的集合,以mean{tf-1dfa}為閾值,對(duì)集合tf_idfa中大于閾值的數(shù)值再求一次平均即得到詞語(yǔ)Wa的可分性值Disc (Wa),通過(guò)對(duì)可分性值低于設(shè)定閾值d的詞語(yǔ)節(jié)點(diǎn)以及與該節(jié)點(diǎn)連接的邊進(jìn)行清除,同時(shí)將清除詞語(yǔ)后產(chǎn)生的孤立的漢字節(jié)點(diǎn)也進(jìn)行清除。
6.根據(jù)權(quán)利要求1所述的一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法,其特征在于,所述將修剪后的相關(guān)性關(guān)系圖模型作為Simrank算法輸入,通過(guò)Simrank的迭代計(jì)算詞語(yǔ)對(duì)之間的語(yǔ)義相似度的步驟具體為: 獲取語(yǔ)義相似度矩陣為
7.根據(jù)權(quán)利要求6所述的一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法,其特征在于,所述以所述語(yǔ)義相似度為核心定義柔性語(yǔ)義相似度度量模型的步驟具體為:
【文檔編號(hào)】G06F17/27GK103761225SQ201410033339
【公開日】2014年4月30日 申請(qǐng)日期:2014年1月23日 優(yōu)先權(quán)日:2014年1月23日
【發(fā)明者】馮偉, 聶學(xué)成, 楊昂, 黨建武 申請(qǐng)人:天津大學(xué)