專利名稱:一種基于停用詞的相似文檔查詢方法
技術(shù)領(lǐng)域:
本發(fā)明涉及對(duì)電子化文檔與文檔之間相似度的查詢方法,具體涉及一種利用中文停頓詞比較文檔相似度的方法,屬于計(jì)算機(jī)語(yǔ)言處理及信息檢索技術(shù)領(lǐng)域。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的普及和應(yīng)用,電子化文檔的使用量越來(lái)越大。電子化文檔在方便人們提高工作效率、節(jié)約紙張等自然資源的利用的同時(shí),也帶來(lái)一些額外的問(wèn)題和麻煩。 如電子化文檔比較容易復(fù)制,也比較容易傳播。這些文檔電子化的新特征使得文檔的抄襲在技術(shù)上更加容易。加之電子化數(shù)據(jù)量的日益增大,這類抄襲的人工判斷越來(lái)越困難。因此,非常有必要利用現(xiàn)代化信息技術(shù)來(lái)改進(jìn)人們對(duì)文檔相似度判斷的方法,從而提高人們處理日益增長(zhǎng)的海量電子化文檔的能力。
在過(guò)去幾十年內(nèi),人們對(duì)于自然語(yǔ)言處理的理論和技術(shù)都有了比較大的提高,電子文檔是文本電子化的產(chǎn)物,而文本正是人類自然語(yǔ)言描述的產(chǎn)物。利用自然語(yǔ)言的處理方法來(lái)改變過(guò)去對(duì)文檔逐字、逐詞進(jìn)行比較的方法將有效提高文檔比對(duì)的效率和效果。
文檔相似性是文本信息處理領(lǐng)域的核心問(wèn)題,很多的文本應(yīng)用包括文檔聚類、 文檔檢索、文檔過(guò)濾等,都密切依賴于文檔形似性的精確度量。在自然語(yǔ)言處理領(lǐng)域, 人們總結(jié)了一些通用的方法和規(guī)則,如=N-Gram分詞方法(具體可參考A. Andoni and P. Indyk, “Near-optimal hashing algorithms for approximate nearest neighbor in highdimensions,,,Comm. ACM 51:1, pp. 117 - 122, 2008.),基于 Shingle 的信息指紋對(duì)比(具體可參考 2. A. Z. Broder, “On the resemblance and containment of documents,,,Proc. Compression and Complexity of Sequences, pp. 21 - 29, Positano Italy, 1997.)等。然而這些方法大多數(shù)據(jù)源于西方的西文文字處理,對(duì)于中文等東亞語(yǔ)種的特殊性沒(méi)有專門的應(yīng)對(duì)。中文及東亞文字有典型的斷詞問(wèn)題,這些問(wèn)題在西方語(yǔ)種中是以單詞,即單字的形式出現(xiàn),在表達(dá)上以空格分開(kāi)。因此,西方文字天然不用分詞,而中文語(yǔ)言的處理恰恰相反,在進(jìn)行結(jié)構(gòu)化處理的時(shí)候,需要“分詞”的問(wèn)題,也要考慮由此帶來(lái)的 “分詞歧義”問(wèn)題。所以,在文檔相似度比對(duì)方面,有必要充分考慮中文處理的特殊性。發(fā)明內(nèi)容
針對(duì)現(xiàn)有文獻(xiàn)相似度比較方法,本發(fā)明提出利用非精確、集合運(yùn)算比對(duì)的算法來(lái)提高比對(duì)工作效率,利用中文“停用詞”(Stop Word)來(lái)實(shí)現(xiàn)提高中文文檔對(duì)比效果的比對(duì)方法。
本發(fā)明的技術(shù)方案提出了一種基于停用詞的相似文檔查詢方法,其步驟包括
I)將待查詢的兩文檔進(jìn)行歸一化處理,去除文檔中所有非中文字字符信息;所述兩文檔,其一為待查文檔,另一取自一個(gè)或多個(gè)數(shù)據(jù)源;或兩文檔為從一個(gè)或多個(gè)數(shù)據(jù)源中提取的兩文檔,
2)根據(jù)分詞詞典對(duì)所述兩個(gè)文檔進(jìn)行分詞操作,將該些文檔轉(zhuǎn)化成詞匯流;
3)在所述詞匯流中按照書(shū)寫(xiě)習(xí)慣提取得到停用詞;
4)將所述停用詞后面的正常語(yǔ)義詞和該停用詞組合成分段信息指紋;
5)把所述分段信息指紋分別匯總形成所述兩個(gè)文檔的中指紋標(biāo)識(shí),并放入信息指紋庫(kù)中進(jìn)行比對(duì);
6)對(duì)所述信息指紋庫(kù)中指紋標(biāo)識(shí)相似度進(jìn)行計(jì)算,得到所述兩個(gè)文檔的相似度值;
7)將相似度值大于設(shè)定閾值的兩文檔作為相似文檔,按照設(shè)定方式輸出所有或部分相似文檔。
所述分段信息指紋通過(guò)唯一記數(shù)器記錄。
所述停用詞中按照書(shū)寫(xiě)習(xí)慣由左到右進(jìn)行提取同時(shí)去掉連續(xù)的重復(fù)詞。
所述正常語(yǔ)義詞選用至少一個(gè)以上。
所述正常語(yǔ)義詞選用2個(gè)。
所述信息指紋庫(kù)通過(guò)用戶計(jì)算機(jī)保存至本地或上傳到遠(yuǎn)端服務(wù)器。
所述停用詞通過(guò)連續(xù)提取得到。
所述字符信息包括中文標(biāo)點(diǎn)、符號(hào)亂碼。
所述指紋庫(kù)中指紋標(biāo)識(shí)相似度通過(guò)jaccard相似性算法計(jì)算。
所述指紋庫(kù)中指紋標(biāo)識(shí)相似度通過(guò)Euclidean Distances或Cosine Distance方法計(jì)算。
本發(fā)明的有益效果
本發(fā)明的優(yōu)點(diǎn)在于,使用了“中文停用詞”+多個(gè)“后續(xù)詞”的方法,符合中文語(yǔ)境, 尤其對(duì)于一些有一定寫(xiě)作習(xí)慣的文章而言,具備更好的比較效果。該方法用于提高中文文檔相似度比對(duì)的效果和比對(duì)的效率,提高人們利用計(jì)算機(jī)處理相似文檔的能力,使人們可以更高效率的在海量文檔中找出抄襲或引用原文的文檔。
圖I是本發(fā)明基于停用詞的相似文檔查詢方法的流程圖2是本發(fā)明基于停用詞的相似文檔查詢方法Jaccard相似算法示意圖3是本發(fā)明基于停用詞的相似文檔查詢方法一實(shí)施例中Jaccard相似算法具體示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本分買那個(gè)實(shí)施例中的技術(shù)方案進(jìn)行清除、完整地描述,可以理解的是,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
如圖I所示,本方法分成以下幾個(gè)工作步驟
I.將中文電子文檔格式歸一化。歸一化是指將一個(gè)文檔中所有字符(字符 (Character)是各種文字和符號(hào)的總稱)去除所有非文字字符和標(biāo)點(diǎn)之外格式的純字符信
舉例
歸一化前中國(guó)啊,_ ¥%......&*我的祖國(guó)!
歸一化后中國(guó)啊我的祖國(guó)
2.根據(jù)分詞詞典,對(duì)中文電子文檔進(jìn)行分詞操作,將中文電子文檔轉(zhuǎn)化成相關(guān)的詞匯流。
舉例
分詞前中國(guó)啊我的祖國(guó)
分詞后中國(guó)+啊+我+的+祖國(guó)
3.從左到右根據(jù)停用詞詞典,找出詞匯流中的“停用詞”。(此處強(qiáng)調(diào)必須由左到右,以通過(guò)書(shū)寫(xiě)習(xí)慣提取信息指紋,并且去掉連續(xù)的重復(fù)詞)
過(guò)濾前中國(guó)+啊+我+的+祖國(guó)
過(guò)濾后中國(guó)+啊+我+的+祖國(guó)(其中“啊”和“的”是停用詞)
4.每找到一個(gè)停用詞,將停用詞后面的2個(gè)正常語(yǔ)義詞(可配置成其它參數(shù)),和這個(gè)停用詞一起組合形成一個(gè)分段“信息指紋”。
在上例中,文本經(jīng)過(guò)抽取后,形成的兩個(gè)信息指紋包括
“啊+我+的”和“的+祖國(guó)”
5.將該文檔的所有分段“電子信息指紋”信息匯總,形成該文檔的“電子信息指紋” 標(biāo)識(shí),并放入信息指紋庫(kù)中進(jìn)行比對(duì)。
除此之外,考慮到被比對(duì)文檔的長(zhǎng)度問(wèn)題,本方法只使用唯一記數(shù)器記錄分段信息指紋,在少量犧牲精度的情況下,可以減少計(jì)算機(jī)內(nèi)存的使用,大大提高比對(duì)速度。
如圖2所示是本發(fā)明比較文檔相似度的方法Jaccard相似算法示意圖Jaccard指數(shù)& = c/ (a+b-c),a、b為兩個(gè)文本的指紋數(shù),c為兩文本共有的指紋數(shù)。
除了 Jaccard相似度判斷方法之外,還可以采用Euclidean Distances、Cosine Distance等方法。(具體可參見(jiàn)Μ· S. Charikar,“Similarity estimation techniques from roundingalgorithms,,’ACM Symposium on Theory of Computing, pp. 380 - 388, 2002. X
如圖3所示是本發(fā)明比較文檔相似度的方法一實(shí)施例中Jaccard相似算法具體示意圖。
以下步驟應(yīng)用本方法,對(duì)兩個(gè)具體的兩個(gè)實(shí)例進(jìn)行相似度對(duì)比
被比較文本如下
原文本I (不包含引號(hào))“中國(guó)啊,我的母親!母親啊,你多么偉大! ”
原文本2 (不包含引號(hào))“母親啊,我的母親啊,你多么善良! ”
I.如何設(shè)置信息指紋段(停用詞為“啊”、“的”、“多么”)
原文本I:中國(guó)+啊+我+的+母親+啊+你+多么+偉大
原文本2 :母未+啊+我+的+母未+啊+你+多么+善良
2.提取信息指紋
原文本I 啊+我+的”、“的+母親+啊”、“啊+你+多么”、“多么+偉大”
(共4個(gè)指紋)
原文本2 啊+我+的”、“的+母親+啊”、“+啊+你+多么”、“多么+善良”
(共4個(gè)指紋)5
3.通過(guò)以上的信息指紋比對(duì),發(fā)現(xiàn)共有三個(gè)指紋相同(“啊+我+的”、“的+母親+ 啊”、“+啊+你+多么”),全集指紋數(shù)量為4+4-3=5,因此相似度為
3/(4+4-3)=3/5=60%
即文本I和文本2的相似度為60%
本申請(qǐng)基于停用詞的相似文檔查詢方法能夠運(yùn)用于文檔的檢索、文檔聚類、文檔過(guò)濾等多個(gè)領(lǐng)域。
以文檔檢索為例,用戶可首先在研究生論文庫(kù)或者其他發(fā)表的論文庫(kù)中找出多個(gè)待查詢的文檔,逐個(gè)與用戶需要查詢比對(duì)的論文進(jìn)行對(duì)比方法如下1)將待查詢的兩文檔進(jìn)行歸一化處理,去除文檔中所有非中文字字符信息,比如中文標(biāo)點(diǎn)、符號(hào)亂碼;2)根據(jù)分詞詞典對(duì)所述兩個(gè)文檔進(jìn)行分詞操作,將該些文檔轉(zhuǎn)化成詞匯流;3)在所述詞匯流中按照書(shū)寫(xiě)習(xí)慣由左到右進(jìn)行提取同時(shí)去掉連續(xù)的重復(fù)詞,提取得到停用詞;4)將所述停用詞后面的2個(gè)正常語(yǔ)義詞和該停用詞組合成分段信息指紋并用唯一記數(shù)器記錄;5)把所述分段信息指紋分別匯總形成所述兩個(gè)文檔的中指紋標(biāo)識(shí),并放入本地或者遠(yuǎn)端的信息指紋庫(kù)中進(jìn)行比對(duì);6)對(duì)所述信息指紋庫(kù)中指紋標(biāo)識(shí)相似度進(jìn)行計(jì)算,在進(jìn)行相似度計(jì)算時(shí)是可以通過(guò)jaccarcUEuclidean Distances或Cosine Distance方法計(jì)算得到所述兩個(gè)文檔的相似度值;7)將相似度值大于設(shè)定為60%的兩文檔作為相似文檔,輸出用戶檢索的所有或部分相似文檔。用戶對(duì)文檔進(jìn)行評(píng)價(jià)時(shí),如論文的相似度大于60% (用戶可自行設(shè)定)可被認(rèn)為是抄襲,若不大于60%則認(rèn)為是沒(méi)有抄襲。
權(quán)利要求
1.一種基于停用詞的相似文檔查詢方法,其步驟包括1)將待查詢的兩文檔進(jìn)行歸一化處理,去除文檔中所有非中文字字符信息;所述兩文檔,其一為待查文檔,另一取自一個(gè)或多個(gè)數(shù)據(jù)源;或兩文檔為從一個(gè)或多個(gè)數(shù)據(jù)源中提取的兩文檔,2)根據(jù)分詞詞典對(duì)所述兩個(gè)文檔進(jìn)行分詞操作,將該些文檔轉(zhuǎn)化成詞匯流;3)在所述詞匯流中按照書(shū)寫(xiě)習(xí)慣提取得到停用詞;4)將所述停用詞后面的正常語(yǔ)義詞和該停用詞組合成分段信息指紋;5)把所述分段信息指紋分別匯總形成所述兩個(gè)文檔的中指紋標(biāo)識(shí),并放入信息指紋庫(kù)中進(jìn)行比對(duì);6)對(duì)所述信息指紋庫(kù)中指紋標(biāo)識(shí)相似度進(jìn)行計(jì)算,得到所述兩個(gè)文檔的相似度值;7)將相似度值大于設(shè)定閾值的兩文檔作為相似文檔,按照設(shè)定方式輸出所有或部分相似文檔。
2.如權(quán)利要求I所述的基于停用詞的相似文檔查詢方法,其特征在于,所述分段信息指紋通過(guò)唯一記數(shù)器記錄。
3.如權(quán)利要求I所述的基于停用詞的相似文檔查詢方法,其特征在于,所述停用詞中按照書(shū)寫(xiě)習(xí)慣由左到右進(jìn)行提取同時(shí)去掉連續(xù)的重復(fù)詞。
4.如權(quán)利要求I所述的基于停用詞的相似文檔查詢方法,其特征在于,所述正常語(yǔ)義詞選用至少一個(gè)以上。
5.如權(quán)利要求I或4所述的基于停用詞的相似文檔查詢方法,其特征在于,所述正常語(yǔ)義詞選用2個(gè)。
6.如權(quán)利要求I所述的基于停用詞的相似文檔查詢方法,其特征在于,所述信息指紋庫(kù)通過(guò)用戶計(jì)算機(jī)保存至本地或上傳到遠(yuǎn)端服務(wù)器。
7.如權(quán)利要求I所述的基于停用詞的相似文檔查詢方法,其特征在于,所述停用詞通過(guò)連續(xù)提取得到。
8.如權(quán)利要求I所述的基于停用詞的相似文檔查詢方法,其特征在于,所述字符信息包括中文標(biāo)點(diǎn)、符號(hào)亂碼。
9.如權(quán)利要求I所述的基于停用詞的相似文檔查詢方法,其特征在于,所述指紋庫(kù)中指紋標(biāo)識(shí)相似度通過(guò)jaccard相似性算法計(jì)算。
10.如權(quán)利要求I所述的基于停用詞的相似文檔查詢方法,其特征在于,所述指紋庫(kù)中指紋標(biāo)識(shí)相似度通過(guò)Euclidean Distances或Cosine Distance方法計(jì)算。
全文摘要
本發(fā)明涉及基于停用詞的相似文檔查詢方法,步驟為1)將待查詢的兩文檔進(jìn)行歸一化處理,去除文檔中所有非中文字字符信息;2)根據(jù)分詞詞典對(duì)兩個(gè)文檔進(jìn)行分詞操作,將該些文檔轉(zhuǎn)化成詞匯流;3)在詞匯流中按照書(shū)寫(xiě)習(xí)慣提取得到停用詞;4)將停用詞后面的正常語(yǔ)義詞和該停用詞組合成分段信息指紋;5)把分段信息指紋分別匯總形成兩個(gè)文檔的中指紋標(biāo)識(shí),并放入信息指紋庫(kù)中進(jìn)行比對(duì);6)對(duì)信息指紋庫(kù)中指紋標(biāo)識(shí)相似度進(jìn)行計(jì)算,得到兩個(gè)文檔的相似度值;7)將相似度值大于設(shè)定閾值的兩文檔作為相似文檔,按照設(shè)定方式輸出所有或部分相似文檔。本發(fā)明使用“中文停用詞”+多個(gè)“后續(xù)詞”的方法,符合中文語(yǔ)境,具備更好比較效果。
文檔編號(hào)G06F17/30GK102937994SQ201210461090
公開(kāi)日2013年2月20日 申請(qǐng)日期2012年11月15日 優(yōu)先權(quán)日2012年11月15日
發(fā)明者林述民 申請(qǐng)人:北京銳安科技有限公司