專利名稱:一種網(wǎng)絡(luò)小說內(nèi)容近似度比對(duì)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種內(nèi)容近似度比對(duì)方法,更具體地,涉及一種針對(duì)網(wǎng)絡(luò)小說的內(nèi)容近似度比對(duì)方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)上的各種數(shù)字內(nèi)容越來越多,呈爆炸性增長(zhǎng)趨勢(shì),包括各種內(nèi)容的頁面、學(xué)術(shù)論文、網(wǎng)絡(luò)小說、學(xué)生作業(yè)等等,面對(duì)如此眾多的數(shù)字內(nèi)容,實(shí)現(xiàn)內(nèi)容自動(dòng)查重(近似度比對(duì))是一項(xiàng)非常重要的技術(shù),通過查重可以實(shí)現(xiàn)搜索引擎內(nèi)容的重復(fù)檢索、發(fā)表內(nèi)容的抄襲檢測(cè)、入庫內(nèi)容的非重復(fù)錄入、有關(guān)研究?jī)?nèi)容的查新等。查重技術(shù)源于復(fù)制檢測(cè)技術(shù)。復(fù)制檢測(cè),就是判斷一個(gè)文件的內(nèi)容是否抄襲、剽竊或者復(fù)制于另外一個(gè)或多個(gè)文件。剽竊不僅僅意味著原封不動(dòng)地照搬,還包括對(duì)原作的移位變換、同義詞替換以及改變說法重述等方式。查重技術(shù)從原理上分為兩類:基于語法的方法(基于Shingle的方法)和基于語義的方法(基于Term的方法)。其中:Shingle是指文檔中若干個(gè)連續(xù)出現(xiàn)的單詞,這種方法從文檔中選取一系列Shingle后統(tǒng)計(jì)相同的Shingle數(shù)目或者比率,作為判斷文本相似度的依據(jù)。基于Term的方法采用單個(gè)詞條作為計(jì)算的基本單元,而不考慮詞條出現(xiàn)的位置和順序.其中最著名的就是1-Match方法,選取IDF值(inverse document frequency,逆文本頻率)較高的詞條排序后構(gòu)成為文檔的特征向量值,特征向量值相似的文檔被視為內(nèi)容近似。其他基于Term的方法也大都采用SVM(Support Vector Machine,支持向量機(jī))模型,利用TF/IDF(Term Frequency,詞條頻率)值進(jìn)行文檔關(guān)鍵詞的提取,并將關(guān)鍵詞作為文檔的特征向量,通過計(jì)算文檔間的近似度來進(jìn)行近似度的檢測(cè)。當(dāng)前已有針對(duì)網(wǎng)頁內(nèi)容和學(xué)術(shù)論文的近似度比對(duì)方法,針對(duì)頁面的近似度比對(duì)的重點(diǎn)在于整個(gè)頁面內(nèi)容和格式的重復(fù),學(xué)術(shù)論文查重的重點(diǎn)在于核心內(nèi)容和方法的重復(fù)抄襲。但是網(wǎng)絡(luò)小說有不同于網(wǎng)頁和學(xué)術(shù)論文的特點(diǎn),而且現(xiàn)有的針對(duì)網(wǎng)頁和學(xué)術(shù)論文的直接處理方法計(jì)算量大,處理速度慢。因此,針對(duì)當(dāng)前蓬勃發(fā)展的網(wǎng)絡(luò)小說這一新內(nèi)容形式,為了保護(hù)作者利益,亟需一種針對(duì)網(wǎng)絡(luò)小說的處理更快速的近似度比對(duì)方法。
發(fā)明內(nèi)容
針對(duì)上述問題,本發(fā)明提供了一種網(wǎng)絡(luò)小說內(nèi)容近似度比對(duì)方法,包括:預(yù)處理步驟:對(duì)待比對(duì)網(wǎng)絡(luò)小說進(jìn)行預(yù)處理,提取關(guān)鍵詞,將關(guān)鍵詞進(jìn)行同義詞替換,以形成規(guī)范化網(wǎng)絡(luò)小說;特征指紋提取步驟:將待比對(duì)網(wǎng)絡(luò)小說中的拆分為多組臨近有序詞,并對(duì)每一組臨近有序詞進(jìn)行哈希運(yùn)算形成的哈希表作為特征指紋;以及特征指紋比對(duì)步驟:將所述特征指紋與特征比對(duì)庫中存儲(chǔ)的現(xiàn)有網(wǎng)絡(luò)小說的特征指紋相比較,以兩者的特征指紋相同的數(shù)目或比率來確定待比對(duì)網(wǎng)絡(luò)小說與現(xiàn)有網(wǎng)絡(luò)小說的近似度。
本發(fā)明的優(yōu)點(diǎn)是:(I)針對(duì)網(wǎng)絡(luò)小說的特點(diǎn)進(jìn)行近似度比對(duì);(2)近似度比對(duì)方法通過針對(duì)性的步驟,避免了方法復(fù)雜度大引起的效率不高問題,又避免了針對(duì)性不強(qiáng)引起的漏查問題;(3)本發(fā)明的方法具有自學(xué)習(xí)能力,通過學(xué)習(xí)機(jī)制,積累知識(shí),提高查重準(zhǔn)確度。
圖1為本發(fā)明的網(wǎng)絡(luò)小說內(nèi)容近似度比對(duì)方法的流程圖。
具體實(shí)施例方式網(wǎng)絡(luò)小說內(nèi)容的本身的特殊性,是具有特殊的章節(jié),特定人物,特定的時(shí)間和空間,以及這三個(gè)方面的彼此結(jié)合,構(gòu)成了一個(gè)網(wǎng)絡(luò)小說的自身特征。因此,本發(fā)明的方法的近似度比對(duì)主要針對(duì):⑴重要章節(jié)的完全重復(fù);⑵核心人物的情節(jié)重復(fù);⑶時(shí)間空間的映射轉(zhuǎn)換。如圖1所示,本發(fā)明首先對(duì)待比對(duì)網(wǎng)絡(luò)小說進(jìn)行預(yù)處理,然后進(jìn)行特征提取,與特征比對(duì)庫中存儲(chǔ)的現(xiàn)有網(wǎng)絡(luò)小說的特征進(jìn)行比對(duì),從而確定待比對(duì)網(wǎng)絡(luò)小說與現(xiàn)有網(wǎng)絡(luò)小說的近似度。下面詳述本發(fā)明的近似度比對(duì)方法。1.預(yù)處理:I)同義詞替換優(yōu)選地,在對(duì)待比對(duì)網(wǎng)絡(luò)小說預(yù)處理之前,先去除網(wǎng)絡(luò)小說的非內(nèi)容信息,例如格式信息、版本信息等。網(wǎng)絡(luò)小說預(yù)處理同義詞特征庫(WIS)是網(wǎng)絡(luò)小說中同義詞特征的集合。這里,同義詞包括等價(jià)關(guān)系、包含關(guān)系和相關(guān)關(guān)系。等價(jià)關(guān)系就是通過增加同義詞來提高獲取網(wǎng)絡(luò)小說內(nèi)容的回應(yīng)率(recall)。如:“計(jì)算機(jī)”、“電腦”、“computer”是等價(jià)關(guān)系,在比對(duì)過程中,不管這三個(gè)詞的任何一個(gè),通過等價(jià)關(guān)系處理都可以把其它兩個(gè)等價(jià)詞加入詞中。這里用“equal (“計(jì)算機(jī)”)={“電腦”,“computer” } ”表示“計(jì)算機(jī)”的等價(jià)關(guān)系集合。包含關(guān)系就是詞含義的包容。如:“計(jì)算機(jī)”包含“微機(jī)”、“小型機(jī)”、“中型機(jī)”、“大型機(jī)”、“并行機(jī)”等。包含關(guān)系的引入也是為了提高網(wǎng)絡(luò)小說內(nèi)容的回應(yīng)率(recall)。當(dāng)系統(tǒng)進(jìn)行“計(jì)算機(jī)”關(guān)鍵詞處理時(shí),發(fā)現(xiàn)有“計(jì)算機(jī)”包含關(guān)系詞的內(nèi)容,那么系統(tǒng)也會(huì)認(rèn)為此內(nèi)容滿足比對(duì)要求。這里用“include( “計(jì)算機(jī)”)={ “微機(jī)”,“小型機(jī)”,“中型機(jī)”,“大型機(jī)”,“并行機(jī)” } ”表示“計(jì)算機(jī)”的包含關(guān)系集合。相關(guān)關(guān)系是指詞之間的關(guān)聯(lián)性,在這里主要是指與主題詞的相關(guān)信息。如:主題詞“計(jì)算機(jī)”和“信息處理”、“數(shù)據(jù)管理”、“數(shù)據(jù)分析”等具有相關(guān)關(guān)系。詞之間的相關(guān)關(guān)系定義與所涉及的領(lǐng)域有密切的聯(lián)系。這里用“interrelate ( “計(jì)算機(jī)”)={ “信息處理”,“數(shù)據(jù)管理”,“數(shù)據(jù)分析” } ”表示“計(jì)算機(jī)”的相關(guān)關(guān)系集合。WIS為關(guān)鍵詞集合(Keyword_Set)、等價(jià)關(guān)系集合(Equal_Set)、包含關(guān)系集合(Include_Set)、相關(guān)關(guān)系集合(interrelate_Set)的四元組,即:WIS =〈Keyword—Set,Equal—Set,Include—Set,Interrelate—Set〉例如:
WIS =〈{//關(guān)鍵詞集合“計(jì)算機(jī)”,“電腦”,“computer”,“微機(jī)”,“小型機(jī)”,“中型機(jī)”,“大型機(jī)”,“并行機(jī)”,“信息處理”,“數(shù)據(jù)管理”,“數(shù)據(jù)分析”,“IBM微機(jī)”,“Compaq微機(jī)”,“Digital微機(jī)”,“Dell
微機(jī)”,“王勇”,“老王”,“王市長(zhǎng)”
權(quán)利要求
1.一種網(wǎng)絡(luò)小說內(nèi)容近似度比對(duì)方法,其特征在于,包括: 預(yù)處理步驟:對(duì)待比對(duì)網(wǎng)絡(luò)小說進(jìn)行預(yù)處理,提取關(guān)鍵詞,將關(guān)鍵詞進(jìn)行同義詞替換,以形成規(guī)范化網(wǎng)絡(luò)小說; 特征指紋提取步驟:將待比對(duì)網(wǎng)絡(luò)小說中的拆分為多組臨近有序詞,并對(duì)每一組臨近有序詞進(jìn)行哈希運(yùn)算形成的哈希表作為特征指紋;以及 特征指紋比對(duì)步驟:將所述特征指紋與特征比對(duì)庫中存儲(chǔ)的現(xiàn)有網(wǎng)絡(luò)小說的特征指紋相比較,以兩者的特征指紋相同的數(shù)目或比率來確定待比對(duì)網(wǎng)絡(luò)小說與現(xiàn)有網(wǎng)絡(luò)小說的近似度。
2.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)小說內(nèi)容近似度比對(duì)方法,其特征在于,還包括: 第一類型特征向量提取步驟:將待比對(duì)網(wǎng)絡(luò)小說以詞條進(jìn)行分解,去除出現(xiàn)的高頻詞和低頻詞,然后按照出現(xiàn)頻率進(jìn)行排序,以形成第一類型特征向量; 第一類型特征向量比對(duì)步驟:將所述第一類型特征向量與特征比對(duì)庫中存儲(chǔ)的現(xiàn)有網(wǎng)絡(luò)小說的第一類型特征向量相比較,以兩者的詞條相同的數(shù)目或比率來確定待比對(duì)網(wǎng)絡(luò)小說與現(xiàn)有網(wǎng)絡(luò)小說的近似度。
3.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)小說內(nèi)容近似度比對(duì)方法,其特征在于,還包括: 第二類型特征向量提取步驟:將待比對(duì)網(wǎng)絡(luò)小說進(jìn)行概念抽取,并與其位置信息一起構(gòu)成第二類型特征向量; 第二類型特征向量比對(duì)步 驟:將所述第二類型特征向量與特征比對(duì)庫中存儲(chǔ)的現(xiàn)有網(wǎng)絡(luò)小說的第二類型特征向量相比較,以兩者的近似度來確定待比對(duì)網(wǎng)絡(luò)小說與現(xiàn)有網(wǎng)絡(luò)小說的近似度。
4.根據(jù)權(quán)利要求1至3中任意一項(xiàng)所述的網(wǎng)絡(luò)小說內(nèi)容近似度比對(duì)方法,其特征在于,所述預(yù)處理步驟進(jìn)一步包括: 設(shè)定待比對(duì)網(wǎng)絡(luò)小說的關(guān)鍵詞; 提取所述關(guān)鍵詞的等價(jià)關(guān)系集合和包含關(guān)系集合,所述關(guān)鍵詞設(shè)定為根關(guān)鍵詞,其包含關(guān)系集合中的關(guān)鍵詞設(shè)定為葉子關(guān)鍵詞; 替換步驟:在所述待比對(duì)網(wǎng)絡(luò)小說中,用所述關(guān)鍵詞替換其等價(jià)關(guān)系集合和包含關(guān)系集合中的全部元素關(guān)鍵詞,以形成規(guī)范化網(wǎng)絡(luò)小說。
5.根據(jù)權(quán)利要求4所述的網(wǎng)絡(luò)小說內(nèi)容近似度比對(duì)方法,其特征在于,在所述替換步驟中:先對(duì)葉子關(guān)鍵詞進(jìn)行替換,然后對(duì)根關(guān)鍵詞進(jìn)行替換。
6.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)小說內(nèi)容近似度比對(duì)方法,其特征在于,進(jìn)一步包括:如果該待比對(duì)網(wǎng)絡(luò)小說與特征比對(duì)庫中的網(wǎng)絡(luò)小說的近似度低于一閾值,則將該待比對(duì)網(wǎng)絡(luò)小說的特征指紋增量加入到該特征比對(duì)庫中。
7.根據(jù)權(quán)利要求2所述的網(wǎng)絡(luò)小說內(nèi)容近似度比對(duì)方法,其特征在于,進(jìn)一步包括:如果該待比對(duì)網(wǎng)絡(luò)小說與特征比對(duì)庫中的網(wǎng)絡(luò)小說的近似度低于一閾值,則將該待比對(duì)網(wǎng)絡(luò)小說的第一類型特征向量加入到該特征比對(duì)庫中。
8.根據(jù)權(quán)利要求3所述的網(wǎng)絡(luò)小說內(nèi)容近似度比對(duì)方法,其特征在于,進(jìn)一步包括:如果該待比對(duì)網(wǎng)絡(luò)小說與特征比對(duì)庫中的網(wǎng)絡(luò)小說的近似度低于一閾值,則將該待比對(duì)網(wǎng)絡(luò)小說的第二類型特征向量加入到該特征比對(duì)庫中。
9.根據(jù)權(quán)利要求4所述的網(wǎng)絡(luò)小說內(nèi)容近似度比對(duì)方法,其特征在于,所述預(yù)處理步驟還包括:去除待比 對(duì)網(wǎng)絡(luò)小說的非內(nèi)容信息,包括格式信息和版本信息。
全文摘要
一種網(wǎng)絡(luò)小說內(nèi)容近似度比對(duì)方法,包括預(yù)處理步驟對(duì)待比對(duì)網(wǎng)絡(luò)小說進(jìn)行預(yù)處理,提取關(guān)鍵詞,將關(guān)鍵詞進(jìn)行同義詞替換,以形成規(guī)范化網(wǎng)絡(luò)小說;特征指紋提取步驟將待比對(duì)網(wǎng)絡(luò)小說中的拆分為多組臨近有序詞,并對(duì)每一組臨近有序詞進(jìn)行哈希運(yùn)算形成的哈希表作為特征指紋;以及特征指紋比對(duì)步驟將所述特征指紋與特征比對(duì)庫中存儲(chǔ)的現(xiàn)有網(wǎng)絡(luò)小說的特征指紋相比較,以兩者的特征指紋相同的數(shù)目或比率來確定待比對(duì)網(wǎng)絡(luò)小說與現(xiàn)有網(wǎng)絡(luò)小說的近似度。本發(fā)明的方法用于網(wǎng)絡(luò)小說的近似度比對(duì),通過預(yù)處理避免了方法復(fù)雜度大引起的效率不高,又避免了針對(duì)性不強(qiáng)引起的漏查,且具有自學(xué)習(xí)能力,提高了查重準(zhǔn)確度。
文檔編號(hào)G06F17/30GK103207864SQ201210011329
公開日2013年7月17日 申請(qǐng)日期2012年1月13日 優(yōu)先權(quán)日2012年1月13日
發(fā)明者劉瑞虹, 姜波 申請(qǐng)人:北京中文在線數(shù)字出版股份有限公司