一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法

文檔序號(hào)：6536701閱讀：366來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法
【專利摘要】本發(fā)明公開了一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法，包括以下步驟：文本故事集合的初始化；建立相關(guān)性關(guān)系圖模型；通過(guò)tf-idf可分性值對(duì)所述相關(guān)性關(guān)系圖模型進(jìn)行修剪；將修剪后的相關(guān)性關(guān)系圖模型作為Simrank算法輸入，通過(guò)Simrank的迭代計(jì)算詞語(yǔ)對(duì)之間的語(yǔ)義相似度；以所述語(yǔ)義相似度為核心定義柔性語(yǔ)義相似度度量模型；基于所述柔性語(yǔ)義相似度度量模型對(duì)中文新聞文本進(jìn)行協(xié)同分割。本方法能更好的區(qū)分出屬于同一主題的詞語(yǔ)和不屬于同一主題的詞語(yǔ)，同時(shí)還能度量詞字與其組成的詞語(yǔ)之間的語(yǔ)義相似度。在標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)顯示，相對(duì)于現(xiàn)有方法，新聞故事協(xié)同分割的結(jié)果的F1-measure絕對(duì)值增長(zhǎng)了11%。
【專利說(shuō)明】一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)與媒體計(jì)算領(lǐng)域，特別涉及一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法。
【背景技術(shù)】
[0002]故事協(xié)同分割旨在多個(gè)文本之間提取出屬于同一主題的故事，在實(shí)踐中，故事協(xié)同分割對(duì)于高層次的語(yǔ)義總結(jié)和行為分析等是一個(gè)很重要的預(yù)處理操作。
[0003]在特定的條件下，諸如:已知主題模型和預(yù)先主題標(biāo)定的情況下，主題檢測(cè)與跟蹤方法(TDT) [1]能夠被用于故事協(xié)同分割。相比之下，F(xiàn)eng et al.于2012年提出了一個(gè)基于概率圖模型的[2]，更加通用和無(wú)監(jiān)督的方法用以自動(dòng)地檢測(cè)語(yǔ)義相似的文本故事對(duì)。此方法純粹以數(shù)據(jù)為導(dǎo)向并且全部依賴于主題間和主題內(nèi)的語(yǔ)義相似性的依賴與約束。因此，如何正確地度量語(yǔ)義相似度得以極大程度地影響故事分割的準(zhǔn)確性。根據(jù)“詞袋”模型，詞語(yǔ)出現(xiàn)的頻率分布可以用來(lái)表示詞語(yǔ)流的語(yǔ)義，也就是說(shuō)，兩個(gè)相同的詞語(yǔ)間的相似度為1，否則為O。此方式有助于簡(jiǎn)化模型，但是，將詞與詞之間潛在的相似性關(guān)系考慮進(jìn)來(lái)將會(huì)更有意義。
[0004]度量詞語(yǔ)的語(yǔ)義相似度在自然語(yǔ)言處理(NLP)領(lǐng)域中是一個(gè)很重要的課題，同時(shí)也是其他多種應(yīng)用的重要基礎(chǔ)，例如，2002年P(guān)antel and Lin提出的詞義排歧[3];1998年Lin提出了一種信息論定義的詞語(yǔ)相似性MM，此相似性度量是語(yǔ)料庫(kù)為本的并來(lái)源于一系列的關(guān)于相似性的假設(shè)。對(duì)于英文來(lái)說(shuō)，2004年P(guān)edersen et al.提出的WordNet:: Similarity?是一種能夠度量任意兩個(gè)英文單詞間相似度的度量方法,它基于預(yù)先主題標(biāo)定的語(yǔ)料庫(kù)，根據(jù)單詞的含義，將名詞、動(dòng)詞、副詞和形容詞編組入一個(gè)繼承關(guān)系的層次結(jié)構(gòu)，達(dá)到對(duì)單詞分類和關(guān)聯(lián)的目的。2008年Kolb提出了一個(gè)DISCO方法[7]，用以檢索多種語(yǔ)言之間給定任意兩個(gè)詞的語(yǔ)義相似度。但是WordNet:: Similarity和DISCO都不能處理中文的語(yǔ)義相似度。同時(shí)，此類基于先驗(yàn)知識(shí)的語(yǔ)義相似度度量方法不如只依賴語(yǔ)料數(shù)據(jù)驅(qū)動(dòng)的方法受歡迎，因?yàn)楹笳吣軌虍a(chǎn)生更相關(guān)的度量來(lái)更好的產(chǎn)生協(xié)同分割結(jié)果O

【發(fā)明內(nèi)容】

[0005]本發(fā)明提供了一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法，本發(fā)明實(shí)現(xiàn)了對(duì)中文的語(yǔ)義相似度的處理，且取得了較高的相似度精度，詳見(jiàn)下文描述:
[0006]一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法，所述方法包括以下步驟:
[0007]( I)文本故事集合的初始化；
[0008](2)建立相關(guān)性關(guān)系圖申旲型；
[0009](3)通過(guò)tf-1df可分性值對(duì)所述相關(guān)性關(guān)系圖模型進(jìn)行修剪；
[0010](4)將修剪后的相關(guān)性關(guān)系圖模型作為Simrank算法輸入,通過(guò)Simrank的迭代計(jì)算詞語(yǔ)對(duì)之間的語(yǔ)義相似度；[0011](5)以所述語(yǔ)義相似度為核心定義柔性語(yǔ)義相似度度量模型；
[0012](6)基于所述柔性語(yǔ)義相似度度量模型對(duì)中文新聞文本進(jìn)行協(xié)同分割。
[0013]所述文本故事集合的初始化的步驟具體為:
[0014]I)輸入帶有故事邊界和故事主題標(biāo)定的文本集合C = {Til,,每個(gè)主題?; = {5；}；；, I
由m個(gè)故事組成，5；表示第i個(gè)主題的第j個(gè)故事，η為主題的數(shù)量；
[0015]2)提取出文本集合C中所有出現(xiàn)的詞，去掉重復(fù)組成有順序的詞語(yǔ)集合VWOTd，提取文本集合C中所有的字組成字集合Vdm,詞語(yǔ)集合VWOTd與字集合Vcto取并集生成詞典V ；
[0016]3)以詞語(yǔ)集合VWOTd中的元素為向量的基，對(duì)文本集合C中的每個(gè)故事建立詞頻向量模型。
[0017]所述詞頻向量模型的步驟具體為:
[0018]將不同長(zhǎng)度不同內(nèi)容的故事表現(xiàn)為維度相同的詞頻向量，詞頻向量的每個(gè)元素表示詞語(yǔ)集合vWOTd中的詞語(yǔ)在故事中出現(xiàn)的頻率。
[0019]所述建立相關(guān)性關(guān)系圖模型的步驟具體為:
[0020]I)建立詞對(duì)上下文連接圖模型:
[0021]2)建立詞語(yǔ)局部連接圖模型；
[0022]3)通過(guò)所述詞對(duì)上下文連接圖模型和所述詞語(yǔ)局部連接圖模型建立相關(guān)性關(guān)系圖模型；
[0023]所述相關(guān)性關(guān)系圖模型具體為:G=〈V，E，W>
[0024]節(jié)點(diǎn)集合V=VWOTd U Vchar,邊集合E=Ec U Ep,邊權(quán)重集合W=Wc U WP，其中，Ec為詞對(duì)上下文連接圖的邊集合；EP為詞語(yǔ)局部連接圖的邊集合；WC為詞對(duì)上下文連接圖的邊權(quán)重集合；WP為詞語(yǔ)局部連接圖的邊權(quán)重集合。
[0025]所述通過(guò)tf-1df可分性值對(duì)所述相關(guān)性關(guān)系圖模型進(jìn)行修剪的步驟具體為:
[0026]
【權(quán)利要求】
1.一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法，其特征在于，所述方法包括以下步驟: (1)文本故事集合的初始化； (2)建立相關(guān)性關(guān)系圖模型； (3)通過(guò)tf-1df可分性值對(duì)所述相關(guān)性關(guān)系圖模型進(jìn)行修剪； (4)將修剪后的相關(guān)性關(guān)系圖模型作為Simrank算法輸入，通過(guò)Simrank的迭代計(jì)算詞語(yǔ)對(duì)之間的語(yǔ)義相似度； (5)以所述語(yǔ)義相似度為核心定義柔性語(yǔ)義相似度度量模型； (6)基于所述柔性語(yǔ)義相似度度量模型對(duì)中文新聞文本進(jìn)行協(xié)同分割。
2.根據(jù)權(quán)利要求1所述的一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法，其特征在于，所述文本故事集合的初始化的步驟具體為: 1)輸入帶有故事邊界和故事主題標(biāo)定的文本集合C=仄廣，每個(gè)主題7: = {SjYU由m個(gè)故事組成，A表示第i個(gè)主題的第j個(gè)故事，η為主題的數(shù)量； 2)提取出文本集合C中所有出現(xiàn)的詞，去掉重復(fù)組成有順序的詞語(yǔ)集合VWOTd，提取文本集合C中所有的字組成字集合Vdm,詞語(yǔ)集合VWOTd與字集合Vcto取并集生成詞典V ； 3)以詞語(yǔ)集合VWOTd中的元素為向量的基，對(duì)文本集合C中的每個(gè)故事建立詞頻向量模型。
3.根據(jù)權(quán)利要求2所述的一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法，其特征在于，所述詞頻向量模型的步驟具體為: 將不同長(zhǎng)度不同內(nèi)容的故事表現(xiàn)為維度相同的詞頻向量，詞頻向量的每個(gè)元素表示詞語(yǔ)集合VWOTd中的詞語(yǔ)在故事中出現(xiàn)的頻率。
4.根據(jù)權(quán)利要求2所述的一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法，其特征在于，所述建立相關(guān)性關(guān)系圖模型的步驟具體為: 1)建立詞對(duì)上下文連接圖模型: 2)建立詞語(yǔ)局部連接圖模型； 3)通過(guò)所述詞對(duì)上下文連接圖模型和所述詞語(yǔ)局部連接圖模型建立相關(guān)性關(guān)系圖模型；所述相關(guān)性關(guān)系圖模型具體為:G=〈V，E，W> 節(jié)點(diǎn)集合V=VWOTd U Vdm，邊集合E=Ec U EP，邊權(quán)重集合W=Wc U WP，其中，Ec為詞對(duì)上下文連接圖的邊集合；EP為詞語(yǔ)局部連接圖的邊集合；WC為詞對(duì)上下文連接圖的邊權(quán)重集合；Wp為詞語(yǔ)局部連接圖的邊權(quán)重集合。
5.根據(jù)權(quán)利要求1所述的一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法，其特征在于，所述通過(guò)tf-1df可分性值對(duì)所述相關(guān)性關(guān)系圖模型進(jìn)行修剪的步驟具體為:
Disc(Wa) = rnean{tf — idf^iyer) 其中，
Cf - = W — idf: tf — idf； > mean {if — Uifa tf-1df表示詞頻-逆向文件頻率，tf-1dfa表示詞語(yǔ)wa對(duì)于文本集中所有主題計(jì)算出的tf-1df值的集合，以mean{tf-1dfa}為閾值，對(duì)集合tf_idfa中大于閾值的數(shù)值再求一次平均即得到詞語(yǔ)Wa的可分性值Disc (Wa)，通過(guò)對(duì)可分性值低于設(shè)定閾值d的詞語(yǔ)節(jié)點(diǎn)以及與該節(jié)點(diǎn)連接的邊進(jìn)行清除，同時(shí)將清除詞語(yǔ)后產(chǎn)生的孤立的漢字節(jié)點(diǎn)也進(jìn)行清除。
6.根據(jù)權(quán)利要求1所述的一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法，其特征在于，所述將修剪后的相關(guān)性關(guān)系圖模型作為Simrank算法輸入，通過(guò)Simrank的迭代計(jì)算詞語(yǔ)對(duì)之間的語(yǔ)義相似度的步驟具體為: 獲取語(yǔ)義相似度矩陣為
7.根據(jù)權(quán)利要求6所述的一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法，其特征在于，所述以所述語(yǔ)義相似度為核心定義柔性語(yǔ)義相似度度量模型的步驟具體為:
【文檔編號(hào)】G06F17/27GK103761225SQ201410033339
【公開日】2014年4月30日申請(qǐng)日期:2014年1月23日優(yōu)先權(quán)日:2014年1月23日
【發(fā)明者】馮偉, 聶學(xué)成, 楊昂, 黨建武申請(qǐng)人:天津大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馮偉;聶學(xué)成;楊昂;黨建武
技術(shù)所有人：天津大學(xué)
我是此專利的發(fā)明人

上一篇：開關(guān)機(jī)控制方法和裝置制造方法
上一篇：一種分布式電導(dǎo)傳感器的結(jié)構(gòu)參數(shù)優(yōu)化方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

詞語(yǔ)語(yǔ)義相似度計(jì)算相關(guān)技術(shù)

語(yǔ)義相似度相關(guān)技術(shù)

語(yǔ)義相似度計(jì)算相關(guān)技術(shù)

語(yǔ)義相似度算法相關(guān)技術(shù)

語(yǔ)義相似性相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種數(shù)據(jù)驅(qū)動(dòng)的中文詞語(yǔ)義相似度計(jì)算方法