專利名稱:網(wǎng)絡(luò)文學(xué)版權(quán)檢測(cè)方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)信息技術(shù),特別涉及一種網(wǎng)絡(luò)文學(xué)作品版權(quán)檢測(cè)方法及系統(tǒng)。
背景技術(shù):
網(wǎng)絡(luò)文學(xué)是一種新近出現(xiàn)的文學(xué)樣式,它是指以互聯(lián)網(wǎng)為發(fā)表平臺(tái)和傳播媒介, 借助超文本連接和多媒體演繹的手段來(lái)表現(xiàn)主題,在網(wǎng)上創(chuàng)作發(fā)表,供網(wǎng)民閱讀的文學(xué)作品、類文學(xué)文本及含有一部分文學(xué)成分的網(wǎng)絡(luò)藝術(shù)品,其中以網(wǎng)絡(luò)文學(xué)原創(chuàng)作品為主。當(dāng)前網(wǎng)絡(luò)文學(xué)面臨嚴(yán)重盜版的困擾。應(yīng)該說(shuō),打破網(wǎng)絡(luò)文學(xué)發(fā)展的“版權(quán)困境”,建立透明長(zhǎng)效的知識(shí)產(chǎn)權(quán)保護(hù)體系,已經(jīng)是迫在眉睫的任務(wù)。打擊盜版的第一步,是盜版行為的認(rèn)定,傳統(tǒng)的盜版行為監(jiān)測(cè),前期需要進(jìn)行證據(jù)整理和鏈接統(tǒng)計(jì)工作,每個(gè)盜版網(wǎng)站上都有成百上千的盜版作品,工作量非常巨大,成本非常高,難以滿足信息爆炸時(shí)代的需求。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問(wèn)題是,提供一種網(wǎng)絡(luò)文學(xué)作品版權(quán)檢測(cè)方法及系統(tǒng),能快速、準(zhǔn)確地對(duì)網(wǎng)絡(luò)文學(xué)作品盜版行為進(jìn)行監(jiān)測(cè)。為解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種網(wǎng)絡(luò)文學(xué)版權(quán)檢測(cè)方法,包括以下步驟一 .在計(jì)算機(jī)中存儲(chǔ)需要版權(quán)保護(hù)的文學(xué)作品及其文字指紋;二 .計(jì)算機(jī)提取待檢測(cè)網(wǎng)站上的一文學(xué)作品的文字指紋;三.計(jì)算機(jī)將待檢測(cè)網(wǎng)站上的一文學(xué)作品及其文字指紋同需要版權(quán)保護(hù)的文學(xué)作品及其文字指紋進(jìn)行對(duì)比,識(shí)別輸出待檢測(cè)網(wǎng)站上的一文學(xué)作品是否使用了需要版權(quán)保護(hù)的文學(xué)作品。需要版權(quán)保護(hù)的文學(xué)作品的文字指紋,包括各長(zhǎng)度的子文字指紋,及各子文字指紋的各起始位置。提取的待檢測(cè)網(wǎng)站上的一文學(xué)作品的文字指紋為所有長(zhǎng)度為G的子文字指紋及其起始位置,如果待檢測(cè)網(wǎng)站上的一文學(xué)作品未提取到長(zhǎng)度為G的子文字指紋,則識(shí)別輸出待檢測(cè)網(wǎng)站上的一文學(xué)作品未使用需要版權(quán)保護(hù)的文學(xué)作品;G為正整數(shù)。計(jì)算機(jī)在一需要版權(quán)保護(hù)的文學(xué)作品的文字指紋中搜尋待檢測(cè)網(wǎng)站上的一文學(xué)作品的所述長(zhǎng)度為G的子文字指紋及其所對(duì)應(yīng)的各起始位置,如果找到所述長(zhǎng)度為G的子文字指紋,則將待檢測(cè)網(wǎng)站上的一文學(xué)作品的該長(zhǎng)度為G的子文字指紋對(duì)應(yīng)的起始位置之后的長(zhǎng)度為H的字符序列,同該需要版權(quán)保護(hù)的文學(xué)作品中所述長(zhǎng)度為G的子文字指紋所對(duì)應(yīng)的各起始位置之后的長(zhǎng)度為H的字符序列比較, 如果兩字符串的距離小于閾值則識(shí)別輸出待檢測(cè)網(wǎng)站上的一文學(xué)作品使用了需要版權(quán)保護(hù)的文學(xué)作品,否則識(shí)別輸出待檢測(cè)網(wǎng)站上的一文學(xué)作品未使用需要版權(quán)保護(hù)的文學(xué)作品;H為正整數(shù);如果未找到所述長(zhǎng)度為G的子文字指紋,則識(shí)別輸出待檢測(cè)網(wǎng)站上的一文學(xué)作品未使用需要版權(quán)保護(hù)的文學(xué)作品。文學(xué)作品的長(zhǎng)度為k的子文字指紋的提取過(guò)程包括以下步驟一 .初始化分析窗,使分析窗左端位置為該文學(xué)作品的起始位置,并使分析窗包含的不同字符恰好將要變成k+1個(gè),記錄該分析窗內(nèi)包含的k個(gè)不同字符為初始長(zhǎng)度為k 的子文字指紋,并記錄該分析窗左端位置為初始長(zhǎng)度為k的子文字指紋在該文學(xué)作品的文字序列中的起始位置;二 .固定分析窗左端位置,移動(dòng)分析窗右端位置到使分析窗包含的不同字符恰好將要變成k+2的位置,如果分析窗右端位置到達(dá)該文學(xué)作品的文字序列的末端,進(jìn)行步驟四,否則固定分析窗右端位置,移動(dòng)分析窗左端位置到使分析窗包含的不同字符剛好變成k 個(gè);記錄該k個(gè)不同字符為一長(zhǎng)度為k的子文字指紋,該分析窗左端位置為該長(zhǎng)度為 k的子文字指紋在該文學(xué)作品的文字序列中的起始位置;三.進(jìn)行步驟二;四.完成該文學(xué)作品的長(zhǎng)度為k的文字指紋的提取。所述文學(xué)作品可以為英語(yǔ)文學(xué)作品,具有區(qū)分性的字符集為沈個(gè)英文字母,k為大于等于1小于等于26的整數(shù)。為解決上述技術(shù)問(wèn)題,本發(fā)明還提供了一種網(wǎng)絡(luò)文學(xué)版權(quán)檢測(cè)系統(tǒng),包括在文學(xué)作品庫(kù)、文字指紋庫(kù)、文字指紋提取模塊、文字指紋檢測(cè)模塊;所述文學(xué)作品庫(kù),存儲(chǔ)有各需要版權(quán)保護(hù)的文學(xué)作品;所述文字指紋庫(kù),分別存儲(chǔ)有需要版權(quán)保護(hù)的各文學(xué)作品的各長(zhǎng)度的子文字指紋及各子文字指紋的各起始位置;所述文字指紋提取模塊,用于提取待檢測(cè)網(wǎng)站上的一文學(xué)作品的長(zhǎng)度為G的子文字指紋及其起始位置,如果待檢測(cè)網(wǎng)站上的一文學(xué)作品的所有長(zhǎng)度為G的子文字指紋提取完畢,則輸出提取完畢信息到文字指紋檢測(cè)模塊;所述文字指紋檢測(cè)模塊,將待檢測(cè)網(wǎng)站上的一文學(xué)作品的一長(zhǎng)度為G的子文字指紋對(duì)應(yīng)的起始位置之后的長(zhǎng)度為H的字符序列,同一需要版權(quán)保護(hù)的文學(xué)作品中所述長(zhǎng)度為G的子文字指紋所對(duì)應(yīng)的各起始位置之后的長(zhǎng)度為H的字符序列比較,如果兩字符串的距離小于閾值,則輸出待檢測(cè)網(wǎng)站上的一文學(xué)作品使用了一需要版權(quán)保護(hù)的文學(xué)作品的信息,否則輸出信號(hào)控制所述待測(cè)文學(xué)作品文字指紋提取模塊提取待檢測(cè)網(wǎng)站上的一文學(xué)作品的下一個(gè)長(zhǎng)度為G的子文字指紋及其起始位置,文字指紋檢測(cè)模塊如果收到待測(cè)文學(xué)作品文字指紋提取模塊傳來(lái)的提取完畢信息,則輸出待檢測(cè)網(wǎng)站上的一文學(xué)作品未使用一需要版權(quán)保護(hù)的文學(xué)作品信息,G、H為正整數(shù)。本發(fā)明的網(wǎng)絡(luò)文學(xué)版權(quán)檢測(cè)方法及系統(tǒng),建立需要版權(quán)保護(hù)的文學(xué)作品庫(kù),并對(duì)每個(gè)需要版權(quán)保護(hù)的文學(xué)作品進(jìn)行分析提取其各長(zhǎng)度的各子文字指紋及其起始位置,建立各個(gè)需要版權(quán)保護(hù)的文學(xué)作品的文字指紋庫(kù),對(duì)待檢測(cè)網(wǎng)站上的文學(xué)作品進(jìn)行分析,自動(dòng)提取其某設(shè)定長(zhǎng)度的子文字指紋及其起始位置,然后在一需要版權(quán)保護(hù)的文學(xué)作品的文字指紋庫(kù)搜尋該設(shè)定長(zhǎng)度的子文字指紋及其所對(duì)應(yīng)的各起始位置,如果找到,則將待檢測(cè)網(wǎng)站上的一文學(xué)作品的該設(shè)定長(zhǎng)度的子文字指紋對(duì)應(yīng)的起始位置之后的設(shè)定長(zhǎng)度的字符序列同所述一需要版權(quán)保護(hù)的文學(xué)作品中的該設(shè)定長(zhǎng)度的子文字指紋所對(duì)應(yīng)的各起始位置之后的設(shè)定長(zhǎng)度的字符序列進(jìn)行比對(duì),如果兩字符串的距離小于閾值,則說(shuō)明待檢測(cè)網(wǎng)站上的一文學(xué)作品使用了一需要版權(quán)保護(hù)的文學(xué)作品,如果待檢測(cè)網(wǎng)站上的一文學(xué)作品的該設(shè)定長(zhǎng)度的所有子文字指紋對(duì)應(yīng)的起始位置之后的設(shè)定長(zhǎng)度的字符序列同所述一需要版權(quán)保護(hù)的文學(xué)作品中的相應(yīng)子文字指紋所對(duì)應(yīng)的各起始位置之后的設(shè)定長(zhǎng)度的字符序列的距離都不小于閾值,則說(shuō)明待檢測(cè)網(wǎng)站上的一文學(xué)作品未使用一需要版權(quán)保護(hù)的文學(xué)作品。本發(fā)明通過(guò)文字指紋技術(shù)檢測(cè)網(wǎng)絡(luò)文學(xué)作品的盜版行為,與以往人工方式檢測(cè)盜版行為不同,從子文字指紋的提取及比對(duì)都能通過(guò)計(jì)算機(jī)自動(dòng)完成,高效、快捷,可以大大的提高網(wǎng)絡(luò)文學(xué)盜版監(jiān)測(cè)的效率,降低網(wǎng)絡(luò)文學(xué)盜版監(jiān)測(cè)的成本。
下面結(jié)合附圖及具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)說(shuō)明。圖1是本發(fā)明的網(wǎng)絡(luò)文學(xué)版權(quán)檢測(cè)方法一實(shí)施方式示意圖;圖2是長(zhǎng)度為k的子文字指紋的提取過(guò)程示意圖;圖3是本發(fā)明的網(wǎng)絡(luò)文學(xué)版權(quán)檢測(cè)系統(tǒng)一實(shí)施方式示意圖。
具體實(shí)施例方式本發(fā)明的網(wǎng)絡(luò)文學(xué)版權(quán)檢測(cè)方法一實(shí)施方式如圖1所示,包括以下步驟一.在計(jì)算機(jī)中存儲(chǔ)需要版權(quán)保護(hù)的文學(xué)作品,建立需要版權(quán)保護(hù)的文學(xué)作品庫(kù);二 .對(duì)需要版權(quán)保護(hù)的文學(xué)作品庫(kù)中的各文學(xué)作品分別提取其各長(zhǎng)度的子文字指紋,并記錄各子文字指紋的各起始位置,在計(jì)算機(jī)中建立各需要版權(quán)保護(hù)的文學(xué)作品的文字指紋庫(kù);三.計(jì)算機(jī)提取待檢測(cè)網(wǎng)站上的一文學(xué)作品的一長(zhǎng)度為G的子文字指紋及其起始位置;如果待檢測(cè)網(wǎng)站上的一文學(xué)作品的所有長(zhǎng)度為G的子文字指紋提取完畢,進(jìn)行步驟七;四.計(jì)算機(jī)在一需要版權(quán)保護(hù)的文學(xué)作品的文字指紋庫(kù)搜尋該長(zhǎng)度為G的子文字指紋及其所對(duì)應(yīng)的各起始位置,如果找到進(jìn)行步驟五,否則進(jìn)行步驟三;五.計(jì)算機(jī)將待檢測(cè)網(wǎng)站上的一文學(xué)作品的該長(zhǎng)度為G的子文字指紋對(duì)應(yīng)的起始位置之后的長(zhǎng)度為H的字符序列,同一需要版權(quán)保護(hù)的文學(xué)作品中所述長(zhǎng)度為G的子文字指紋所對(duì)應(yīng)的各起始位置之后的長(zhǎng)度為H的字符序列比較,如果兩字符串的距離小于閾值,進(jìn)行步驟六,否則進(jìn)行步驟三;G為正整數(shù),H為正整數(shù);六.計(jì)算機(jī)輸出待檢測(cè)網(wǎng)站上的一文學(xué)作品使用了一需要版權(quán)保護(hù)的文學(xué)作品信息,進(jìn)行步驟八;七.計(jì)算機(jī)輸出待檢測(cè)網(wǎng)站上的一文學(xué)作品未使用一需要版權(quán)保護(hù)的文學(xué)作品信息,進(jìn)行步驟八;八.待檢測(cè)網(wǎng)站上的一文學(xué)作品的版權(quán)檢測(cè)結(jié)束。若一需要版權(quán)保護(hù)的文學(xué)作品的著作權(quán)人未向該待檢測(cè)網(wǎng)站授權(quán)使用該文學(xué)作品,則說(shuō)明該待檢測(cè)網(wǎng)站非法使用了該文學(xué)作品,反之說(shuō)明該待檢測(cè)網(wǎng)站合法使用該文學(xué)作品。
一文學(xué)作品的文本序列S = S1S2. . . \所包含的不重復(fù)的字符的集合為Σ (例如, 一英文文學(xué)作品,通常其具有區(qū)分性的字符集Σ即所有的沈個(gè)英文字母a,b,c,…,z),該文學(xué)作品的長(zhǎng)度為k的子文字指紋即為Σ中的k個(gè)字符的組合,η為正整數(shù),k為大于等于 1小于等于I Σ I的整數(shù),I Σ I為Σ所包含的字符個(gè)數(shù);該文學(xué)作品的子文本序列Si. . . Sj所包含的不重復(fù)的字符對(duì)應(yīng)的子文字指紋為 Φ,若Si_i、sJ+1都不屬于Φ,則稱子文本序列Si. . . ~為Φ_Μμ子文本序列,其中,i、j為整數(shù),1 < i < j < η ;需要版權(quán)保護(hù)的一文學(xué)作品的長(zhǎng)度為k的子文字指紋的提取過(guò)程如圖2所示,包括以下步驟一 .初始化分析窗,使分析窗左端位置為該文學(xué)作品的起始位置,并使分析窗包含的不同字符恰好將要變成k+Ι個(gè),記錄該分析窗內(nèi)包含的k個(gè)不同字符為初始長(zhǎng)度為k 的子文字指紋,并記錄該分析窗左端位置為初始長(zhǎng)度為k的子文字指紋在該文學(xué)作品的文字序列中的起始位置;二 .固定分析窗左端位置,移動(dòng)分析窗右端位置到使分析窗包含的不同字符恰好將要變成k+2的位置,如果分析窗右端位置到達(dá)該文學(xué)作品的文字序列的末端,進(jìn)行步驟四,否則固定分析窗右端位置,移動(dòng)分析窗左端位置到使分析窗包含的不同字符剛好變成k 個(gè);記錄該k個(gè)不同字符為一長(zhǎng)度為k的子文字指紋,該分析窗左端位置為該長(zhǎng)度為k的子文字指紋在該文學(xué)作品的文字序列中的起始位置;三.進(jìn)行步驟二 ;四.完成該文學(xué)作品的長(zhǎng)度為k的文字指紋的提取。當(dāng)k從1到I Σ I,重復(fù)上述步驟,即完成了一文學(xué)作品的所有子文字指紋的提取,建立了該文學(xué)作品的文字指紋庫(kù),文字指紋庫(kù)中不僅包含了該文學(xué)作品的所有子文字指紋,同時(shí)也包含了該文學(xué)作品的各子文字指紋在該文學(xué)作品的文字序列中的起始位置。需要版權(quán)保護(hù)的文學(xué)作品的子文字指紋通過(guò)數(shù)組L表示記錄到文字指紋庫(kù),
^yln1 τ \Δ j"0(當(dāng)子文字指紋不包含字符fe的第e個(gè)字符)^ , ^^^ 1丨工姑工ι _ ι ,, _i^j =·[κ當(dāng)子文字指紋包含字符數(shù)的第e個(gè)字符),e為大于等于1小于等于I Σ I的整需要版權(quán)保護(hù)的文學(xué)作品的子文字指紋可以通過(guò)trie樹(shù)管理,將數(shù)組L代表的子文字指紋添加到trie樹(shù)中。一實(shí)施例,建立一網(wǎng)絡(luò)文學(xué)版權(quán)檢測(cè)系統(tǒng),網(wǎng)絡(luò)文學(xué)版權(quán)檢測(cè)系統(tǒng)如圖3所示,包括在文學(xué)作品庫(kù)、文字指紋庫(kù)、一待測(cè)文學(xué)作品文字指紋提取模塊、一文字指紋檢測(cè)模塊;所述文學(xué)作品庫(kù),存儲(chǔ)有各需要版權(quán)保護(hù)的文學(xué)作品;所述文字指紋庫(kù),分別存儲(chǔ)有需要版權(quán)保護(hù)的各文學(xué)作品的各長(zhǎng)度的子文字指紋及各子文字指紋的各起始位置;所述文字指紋提取模塊,用于提取待檢測(cè)網(wǎng)站上的一文學(xué)作品的一長(zhǎng)度為G的子文字指紋及其起始位置,如果待檢測(cè)網(wǎng)站上的一文學(xué)作品的所有長(zhǎng)度為G的子文字指紋提取完畢,則輸出提取完畢信息到文字指紋檢測(cè)模塊;所述文字指紋檢測(cè)模塊,將待檢測(cè)網(wǎng)站上的一文學(xué)作品的該長(zhǎng)度為G的子文字指紋對(duì)應(yīng)的起始位置之后的長(zhǎng)度為H的字符序列,同一需要版權(quán)保護(hù)的文學(xué)作品中所述長(zhǎng)度
7CN 102542183 A
為G的子文字指紋所對(duì)應(yīng)的各起始位置之后的長(zhǎng)度為H的字符序列比較,如果兩字符串的距離小于閾值,則輸出待檢測(cè)網(wǎng)站上的一文學(xué)作品使用了一需要版權(quán)保護(hù)的文學(xué)作品信息,否則輸出信號(hào)控制所述待測(cè)文學(xué)作品文字指紋提取模塊提取待檢測(cè)網(wǎng)站上的一文學(xué)作品的下一個(gè)長(zhǎng)度為G的子文字指紋及其起始位置,文字指紋檢測(cè)模塊如果收到待測(cè)文學(xué)作品文字指紋提取模塊傳來(lái)的提取完畢信息,則輸出待檢測(cè)網(wǎng)站上的一文學(xué)作品未使用一需要版權(quán)保護(hù)的文學(xué)作品信息,G、H為正整數(shù)。 本發(fā)明的網(wǎng)絡(luò)文學(xué)版權(quán)檢測(cè)方法及系統(tǒng),建立需要版權(quán)保護(hù)的文學(xué)作品庫(kù),并對(duì)每個(gè)需要版權(quán)保護(hù)的文學(xué)作品進(jìn)行分析提取其各長(zhǎng)度的各子文字指紋及其起始位置,建立各個(gè)需要版權(quán)保護(hù)的文學(xué)作品的文字指紋庫(kù),對(duì)待檢測(cè)網(wǎng)站上的文學(xué)作品進(jìn)行分析,自動(dòng)提取其某設(shè)定長(zhǎng)度的子文字指紋及其起始位置,然后在一需要版權(quán)保護(hù)的文學(xué)作品的文字指紋庫(kù)搜尋該設(shè)定長(zhǎng)度的子文字指紋及其所對(duì)應(yīng)的各起始位置,如果找到,則將待檢測(cè)網(wǎng)站上的一文學(xué)作品的該設(shè)定長(zhǎng)度的子文字指紋對(duì)應(yīng)的起始位置之后的設(shè)定長(zhǎng)度的字符序列同所述一需要版權(quán)保護(hù)的文學(xué)作品中的該設(shè)定長(zhǎng)度的子文字指紋所對(duì)應(yīng)的各起始位置之后的設(shè)定長(zhǎng)度的字符序列進(jìn)行比對(duì),如果兩字符串的距離小于閾值,則說(shuō)明待檢測(cè)網(wǎng)站上的一文學(xué)作品使用了一需要版權(quán)保護(hù)的文學(xué)作品,如果待檢測(cè)網(wǎng)站上的一文學(xué)作品的該設(shè)定長(zhǎng)度的所有子文字指紋對(duì)應(yīng)的起始位置之后的設(shè)定長(zhǎng)度的字符序列同所述一需要版權(quán)保護(hù)的文學(xué)作品中的相應(yīng)子文字指紋所對(duì)應(yīng)的各起始位置之后的設(shè)定長(zhǎng)度的字符序列的距離都不小于閾值,則說(shuō)明待檢測(cè)網(wǎng)站上的一文學(xué)作品未使用一需要版權(quán)保護(hù)的文學(xué)作品。本發(fā)明通過(guò)文字指紋技術(shù)檢測(cè)網(wǎng)絡(luò)文學(xué)作品的盜版行為,與以往人工方式檢測(cè)盜版行為不同,從子文字指紋的提取及比對(duì)都能通過(guò)計(jì)算機(jī)自動(dòng)完成,高效、快捷,可以大大的提高網(wǎng)絡(luò)文學(xué)盜版監(jiān)測(cè)的效率,降低網(wǎng)絡(luò)文學(xué)盜版監(jiān)測(cè)的成本。
權(quán)利要求
1.一種網(wǎng)絡(luò)文學(xué)版權(quán)檢測(cè)方法,其特征在于,包括以下步驟一.在計(jì)算機(jī)中存儲(chǔ)需要版權(quán)保護(hù)的文學(xué)作品及其文字指紋;二.計(jì)算機(jī)提取待檢測(cè)網(wǎng)站上的一文學(xué)作品的文字指紋;三.計(jì)算機(jī)將待檢測(cè)網(wǎng)站上的一文學(xué)作品及其文字指紋同需要版權(quán)保護(hù)的文學(xué)作品及其文字指紋進(jìn)行對(duì)比,識(shí)別輸出待檢測(cè)網(wǎng)站上的一文學(xué)作品是否使用了需要版權(quán)保護(hù)的文學(xué)作品。
2.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)文學(xué)版權(quán)檢測(cè)方法,其特征在于,需要版權(quán)保護(hù)的文學(xué)作品的文字指紋,包括各長(zhǎng)度的子文字指紋,及各子文字指紋的各起始位置。
3.根據(jù)權(quán)利要求2所述的網(wǎng)絡(luò)文學(xué)版權(quán)檢測(cè)方法,其特征在于,提取的待檢測(cè)網(wǎng)站上的一文學(xué)作品的文字指紋為所有長(zhǎng)度為G的子文字指紋及其起始位置,如果待檢測(cè)網(wǎng)站上的一文學(xué)作品未提取到長(zhǎng)度為G的子文字指紋,則識(shí)別輸出待檢測(cè)網(wǎng)站上的一文學(xué)作品未使用需要版權(quán)保護(hù)的文學(xué)作品;G為正整數(shù)。
4.根據(jù)權(quán)利要求3所述的網(wǎng)絡(luò)文學(xué)版權(quán)檢測(cè)方法,其特征在于,計(jì)算機(jī)在一需要版權(quán)保護(hù)的文學(xué)作品的文字指紋中搜尋待檢測(cè)網(wǎng)站上的一文學(xué)作品的所述長(zhǎng)度為G的子文字指紋及其所對(duì)應(yīng)的各起始位置,如果找到所述長(zhǎng)度為G的子文字指紋,則將待檢測(cè)網(wǎng)站上的一文學(xué)作品的該長(zhǎng)度為G 的子文字指紋對(duì)應(yīng)的起始位置之后的長(zhǎng)度為H的字符序列,同該需要版權(quán)保護(hù)的文學(xué)作品中所述長(zhǎng)度為G的子文字指紋所對(duì)應(yīng)的各起始位置之后的長(zhǎng)度為H的字符序列比較,如果兩字符串的距離小于閾值則識(shí)別輸出待檢測(cè)網(wǎng)站上的一文學(xué)作品使用了需要版權(quán)保護(hù)的文學(xué)作品,否則識(shí)別輸出待檢測(cè)網(wǎng)站上的一文學(xué)作品未使用需要版權(quán)保護(hù)的文學(xué)作品;H 為正整數(shù);如果未找到所述長(zhǎng)度為G的子文字指紋,則識(shí)別輸出待檢測(cè)網(wǎng)站上的一文學(xué)作品未使用需要版權(quán)保護(hù)的文學(xué)作品。
5.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)文學(xué)版權(quán)檢測(cè)方法,其特征在于,文學(xué)作品的長(zhǎng)度為k的子文字指紋的提取過(guò)程包括以下步驟一.初始化分析窗,使分析窗左端位置為該文學(xué)作品的起始位置,并使分析窗包含的不同字符恰好將要變成k+Ι個(gè),記錄該分析窗內(nèi)包含的k個(gè)不同字符為初始長(zhǎng)度為k的子文字指紋,并記錄該分析窗左端位置為初始長(zhǎng)度為k的子文字指紋在該文學(xué)作品的文字序列中的起始位置;二 .固定分析窗左端位置,移動(dòng)分析窗右端位置到使分析窗包含的不同字符恰好將要變成k+2的位置,如果分析窗右端位置到達(dá)該文學(xué)作品的文字序列的末端,進(jìn)行步驟四,否則固定分析窗右端位置,移動(dòng)分析窗左端位置到使分析窗包含的不同字符剛好變成k個(gè);記錄該k個(gè)不同字符為一長(zhǎng)度為k的子文字指紋,該分析窗左端位置為該長(zhǎng)度為k的子文字指紋在該文學(xué)作品的文字序列中的起始位置;三.進(jìn)行步驟二;四.完成該文學(xué)作品的長(zhǎng)度為k的文字指紋的提取。
6.根據(jù)權(quán)利要求4所述的網(wǎng)絡(luò)文學(xué)版權(quán)檢測(cè)方法,其特征在于,所述文學(xué)作品為英語(yǔ)文學(xué)作品,具有區(qū)分性的字符集為沈個(gè)英文字母,k大為大于等于1小于等于沈的整數(shù)。6. 一種網(wǎng)絡(luò)文學(xué)版權(quán)檢測(cè)系統(tǒng),其特征在于,包括在文學(xué)作品庫(kù)、文字指紋庫(kù)、文字指紋提取模塊、文字指紋檢測(cè)模塊;所述文學(xué)作品庫(kù),存儲(chǔ)有各需要版權(quán)保護(hù)的文學(xué)作品;所述文字指紋庫(kù),分別存儲(chǔ)有需要版權(quán)保護(hù)的各文學(xué)作品的各長(zhǎng)度的子文字指紋及各子文字指紋的各起始位置;所述文字指紋提取模塊,用于提取待檢測(cè)網(wǎng)站上的一文學(xué)作品的長(zhǎng)度為G的子文字指紋及其起始位置,如果待檢測(cè)網(wǎng)站上的一文學(xué)作品的所有長(zhǎng)度為G的子文字指紋提取完畢,則輸出提取完畢信息到文字指紋檢測(cè)模塊;所述文字指紋檢測(cè)模塊,將待檢測(cè)網(wǎng)站上的一文學(xué)作品的一長(zhǎng)度為G的子文字指紋對(duì)應(yīng)的起始位置之后的長(zhǎng)度為H的字符序列,同一需要版權(quán)保護(hù)的文學(xué)作品中所述長(zhǎng)度為G 的子文字指紋所對(duì)應(yīng)的各起始位置之后的長(zhǎng)度為H的字符序列比較,如果兩字符串的距離小于閾值,則輸出待檢測(cè)網(wǎng)站上的一文學(xué)作品使用了一需要版權(quán)保護(hù)的文學(xué)作品的信息, 否則輸出信號(hào)控制所述待測(cè)文學(xué)作品文字指紋提取模塊提取待檢測(cè)網(wǎng)站上的一文學(xué)作品的下一個(gè)長(zhǎng)度為G的子文字指紋及其起始位置,文字指紋檢測(cè)模塊如果收到待測(cè)文學(xué)作品文字指紋提取模塊傳來(lái)的提取完畢信息,則輸出待檢測(cè)網(wǎng)站上的一文學(xué)作品未使用一需要版權(quán)保護(hù)的文學(xué)作品信息,G、H為正整數(shù)。
全文摘要
本發(fā)明公開(kāi)了一種網(wǎng)絡(luò)文學(xué)版權(quán)檢測(cè)方法,在計(jì)算機(jī)中存儲(chǔ)需要版權(quán)保護(hù)的文學(xué)作品及其文字指紋,計(jì)算機(jī)提取待檢測(cè)網(wǎng)站上的一文學(xué)作品的文字指紋,計(jì)算機(jī)將待檢測(cè)網(wǎng)站上的一文學(xué)作品及其文字指紋同需要版權(quán)保護(hù)的文學(xué)作品及其文字指紋進(jìn)行對(duì)比,識(shí)別輸出待檢測(cè)網(wǎng)站上的一文學(xué)作品是否使用了需要版權(quán)保護(hù)的文學(xué)作品。本發(fā)明還公開(kāi)了一種網(wǎng)絡(luò)文學(xué)版權(quán)檢測(cè)系統(tǒng)。本發(fā)明能快速、準(zhǔn)確地對(duì)網(wǎng)絡(luò)文學(xué)作品盜版行為進(jìn)行監(jiān)測(cè)。
文檔編號(hào)G06F21/00GK102542183SQ20101059376
公開(kāi)日2012年7月4日 申請(qǐng)日期2010年12月17日 優(yōu)先權(quán)日2010年12月17日
發(fā)明者許東星, 陳大年, 黃偉 申請(qǐng)人:盛樂(lè)信息技術(shù)(上海)有限公司