本發(fā)明涉及網(wǎng)絡(luò)作品比對(duì)技術(shù)領(lǐng)域,尤其涉及一種文本相似性比對(duì)方法。
背景技術(shù):
目前,隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)作品的傳播速度越來(lái)越快,傳播范圍越來(lái)越廣泛,對(duì)網(wǎng)絡(luò)作品的侵權(quán)行為也越來(lái)越多,為了解決通過(guò)網(wǎng)絡(luò)發(fā)生的作品侵權(quán)行為,可以使用網(wǎng)絡(luò)侵權(quán)追蹤開(kāi)發(fā)平臺(tái)對(duì)作品進(jìn)行監(jiān)測(cè)追蹤。
在追蹤的過(guò)程中,主要是使用網(wǎng)絡(luò)爬蟲(chóng)技術(shù),首先從互聯(lián)網(wǎng)上抓取作品,然后與網(wǎng)絡(luò)侵權(quán)追蹤開(kāi)發(fā)平臺(tái)的作品庫(kù)中存儲(chǔ)的作品進(jìn)行內(nèi)容相似性比對(duì),從而確認(rèn)網(wǎng)絡(luò)作品是否為侵權(quán)作品。
其中,網(wǎng)絡(luò)爬蟲(chóng)(又被稱(chēng)為網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò)機(jī)器人,在foaf社區(qū)中間,更經(jīng)常被稱(chēng)為網(wǎng)頁(yè)追逐者),是一種按照一定的規(guī)則,自動(dòng)的抓取萬(wàn)維網(wǎng)信息的程序或者腳本,已被廣泛應(yīng)用于互聯(lián)網(wǎng)領(lǐng)域。搜索引擎使用網(wǎng)絡(luò)爬蟲(chóng)抓取web網(wǎng)頁(yè)、文檔甚至圖片、音頻、視頻等資源,通過(guò)相應(yīng)的索引技術(shù)組織這些信息,提供給搜索用戶進(jìn)行查詢(xún)。隨著網(wǎng)絡(luò)的迅速發(fā)展,不斷優(yōu)化的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)正在有效地應(yīng)對(duì)各種挑戰(zhàn),為高效搜索用戶關(guān)注的特定領(lǐng)域與主題提供了有力支撐。網(wǎng)絡(luò)爬蟲(chóng)也為中小站點(diǎn)的推廣提供了有效的途徑。
而在進(jìn)行內(nèi)容相似性比對(duì)時(shí),由于作品庫(kù)中有上千萬(wàn)的作品,網(wǎng)絡(luò)侵權(quán)追蹤開(kāi)發(fā)平臺(tái)從互聯(lián)網(wǎng)上抓取的作品數(shù)量更是作品庫(kù)中作品數(shù)量的幾百倍以上,因此,兩兩相比的次數(shù)龐大,工作量大,效率及準(zhǔn)確率均比較低。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種文本相似性比對(duì)方法,從而解決現(xiàn)有技術(shù)中存在的前述問(wèn)題。
為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
一種文本相似性比對(duì)方法,包括如下步驟:
s1,以文檔為粗粒度,根據(jù)詞的淺層次相似度從注冊(cè)作品庫(kù)中篩選出相似度最大的n個(gè)作品形成候選作品集,其中,n為自然數(shù);
s2,對(duì)所述候選作品集中的每個(gè)作品進(jìn)行文本分段,得到分段文本;
s3,以所述分段文本為細(xì)粒度,進(jìn)行文本細(xì)粒度相似度比對(duì)。
進(jìn)一步地,s1之前還包括步驟s0:對(duì)所述文檔進(jìn)行分詞和詞性標(biāo)注。
進(jìn)一步地,s0和s1之間還包括步驟:對(duì)所述分詞進(jìn)行過(guò)濾處理。
優(yōu)選地,所述對(duì)所述分詞進(jìn)行過(guò)濾處理,采用插件式過(guò)濾鏈,所述插件式過(guò)濾鏈包括停用詞過(guò)濾器和/或同義詞過(guò)濾器。
優(yōu)選地,s1中,所述詞的淺層次相似度,采用如下公式進(jìn)行計(jì)算:
sim(d1,d2)=count(d1∩d2)/(count(d1)+count(d2)),
式中,
d={w1,w2,w3…}表示文檔,
wi表示文檔d中的詞,
d1∩d2表示文檔d1、d2中詞的交集,
count(di)表示文檔di中詞的個(gè)數(shù)。
優(yōu)選地,s2中,所述文本分段包括如下方式:以段落分段、以一定數(shù)量的字詞分段或以句子分段。
優(yōu)選地,s3中所述文本細(xì)粒度相似度由:基于句子的淺層相似度、信息熵相似度和淺語(yǔ)義相似度組成和計(jì)算得到,具體地,
當(dāng)所述基于句子的淺層相似度,采用如下公式進(jìn)行計(jì)算:
simsha(s1,s2)=count(s1∩s2)/(count(s1)+count(s2)),
式中,
simsha(s1,s2)表示基于句子的淺層相似度,
s={w1,w2,w3…}表示句子,
wi表示句子s中的詞,
s1∩s2表示句子s1、s2中詞的交集,
count(si)表示句子si中詞的個(gè)數(shù);
當(dāng)所述信息熵相似度,采用如下公式進(jìn)行計(jì)算:
siment(s1,s2)=∑(e(wi)),e(w)=log(n/n),
式中,
siment(s1,s2)表示信息熵相似度,
s={w1,w2,w3…}表示句子,
wi∈s1∩s2,
s1∩s2表示句子s1、s2中詞的交集,
n表示候選文檔集中句子的總數(shù),
n表示包含詞w的句子數(shù);
當(dāng)所述淺語(yǔ)義相似度,包括詞義相似度、句子語(yǔ)義相似度和句子細(xì)粒度相似度,
其中,詞義相似度采用如下公式進(jìn)行計(jì)算:
simsemw(w1,w2)=f(simlex(w1,w2),simpos(w1,w2),simcon(w1,w2))=simlex(w1,w2)·simpos(w1,w2)·simcon(w1,w2),
式中,
simsemw(w1,w2)表示詞義相似度,
simlex(w1,w2)、simpos(w1,w2)、simcon(w1,w2)分別表示詞w1與w2的詞匯相似度、詞性相似度、詞上下文相似度,
simlex(w1,w2)是詞w1和w2對(duì)應(yīng)的義原在義原樹(shù)上的距離;
simpos(w1,w2)取值:當(dāng)w1與w2詞性相同時(shí),取值為1;當(dāng)w1與w2詞性不相同時(shí),取值為0;
simcon(w1,w2)=abs(pos1/n1-pos2/n2),其中,pos1、pos2分別是w1、w2在相應(yīng)句中的位置,n1、n2是w1、w2所在句子的長(zhǎng)度;
句子語(yǔ)義相似度采用如下公式進(jìn)行計(jì)算:
simsems(s1,s2)=2·∑0≤i<len(s1)argmax{simsemw(wi,wj):0≤j<len(s2)}/(len(s1)+len(s2)),
式中,
simsems(s1,s2)表示句子語(yǔ)義相似度,
argmax表示尋找具有最大評(píng)分的參量,函數(shù)argmax{f(x,y):x∈x},表示x∈x,使f(x,y)達(dá)到最大值時(shí)的取值,
len(s)是句子s的長(zhǎng)度,即詞語(yǔ)個(gè)數(shù);
則,所述句子細(xì)粒度相似度采用如下公式進(jìn)行計(jì)算:
similarity(s1,s2)
=α·simsha(s1,s2)+β·siment(s1,s2)+γ·simsems(s1,s2)
式中,
α、β、γ為權(quán)值參數(shù),且α+β+γ=1;
假設(shè)所述分段文本為句子,則所述文本細(xì)粒度相似度為:
similarity(d1,d2)=∑wk·segsimilarity(sk,sj),
segsimilarity(sk,sj)=max(similarity(sk,si)),
其中,
similarity(d1,d2)表示文本細(xì)粒度相似度,
similarity(sk,si)表示句子細(xì)粒度相似度,
sk是第一文檔中的句子,si是第二文檔中的句子,1≤i≤n2,n2為第二文檔中中句子數(shù),j是第二文檔中similarity(sk,si)取得最大值時(shí)的i值,
wk是與sk相關(guān)的權(quán)重,一般可以簡(jiǎn)化為1/n,n是文檔的句子總數(shù)。
本發(fā)明的有益效果是:本發(fā)明實(shí)施例中,文本相似性比對(duì)在系統(tǒng)的架構(gòu)上采用分布式架構(gòu),在比對(duì)算法上采用多粒度分層算法,包括以文檔為粗粒度的相似度比對(duì),以及以分段文本為細(xì)粒度的相似度比對(duì),從而在內(nèi)容相似性比對(duì)的效率和精確性上取得了較好的均衡,實(shí)現(xiàn)了如下的性能指標(biāo):在構(gòu)建的測(cè)試數(shù)據(jù)上,平均漏警率和虛警率≤10%,比對(duì)響應(yīng)時(shí)間≤0.1秒。
附圖說(shuō)明
圖1是本發(fā)明實(shí)施例提供的文本相似性比對(duì)方法的流程示意圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖,對(duì)本 發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施方式僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
網(wǎng)絡(luò)侵權(quán)追蹤開(kāi)發(fā)平臺(tái)監(jiān)測(cè)追蹤的是文字類(lèi)數(shù)字作品,因此,作品內(nèi)容相似性比對(duì)技術(shù)方案是針對(duì)文本內(nèi)容的。文本比對(duì)是針對(duì)數(shù)據(jù)處理后的純文本內(nèi)容進(jìn)行。比對(duì)系統(tǒng)的架構(gòu)設(shè)計(jì)和比對(duì)算法的設(shè)計(jì)對(duì)整個(gè)追蹤平臺(tái)的效率有很大影響。
本發(fā)明實(shí)施例中,文本相似性比對(duì)在系統(tǒng)的架構(gòu)上采用分布式架構(gòu),在比對(duì)算法上采用多粒度分層算法。
具體地,首先使用文本分析調(diào)度器將需要做文本內(nèi)容相似度分析的網(wǎng)絡(luò)作品比對(duì)任務(wù)均衡地分配給多個(gè)文本分析器,并監(jiān)測(cè)文本分析器的狀態(tài);然后,在文本分析器中,采用多粒度分層算法進(jìn)行文檔內(nèi)容相似性比對(duì)。
如圖1所示,本發(fā)明實(shí)施例提供了一種文本相似性比對(duì)方法,包括如下步驟:
s1,以文檔為粗粒度,根據(jù)詞的淺層次相似度從注冊(cè)作品庫(kù)中篩選出相似度最大的n個(gè)作品形成候選作品集,其中,n為自然數(shù);
s2,對(duì)所述候選作品集中的每個(gè)作品進(jìn)行文本分段,得到分段文本;
s3,以所述分段文本為細(xì)粒度,進(jìn)行文本細(xì)粒度相似度比對(duì)。
其中,粗粒度相似度比對(duì)是以整個(gè)文檔為單位,基于詞的表層特征來(lái)進(jìn)行相似度計(jì)算,從海量的注冊(cè)作品庫(kù)中篩選出最相似的n個(gè)作品來(lái)做后續(xù)細(xì)粒度的比對(duì)。
文本分段是在更小粒度上進(jìn)行相似度比對(duì)的前提,因此,在進(jìn)行細(xì)粒度相似度比對(duì)之前,首先需要對(duì)文本進(jìn)行分段,將分段文本作為細(xì)粒度。
細(xì)粒度相似度的比對(duì),采用基于句子的淺層相似度(segshallowsimilarity)、信息熵相似度(segentropysimilarity)和淺語(yǔ)義相似度(segsemanticsimilarity)組合而成。
在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,s1之前還可以包括步驟s0:對(duì)所述文檔進(jìn)行分詞和詞性標(biāo)注。
s0和s1之間還包括步驟:對(duì)所述分詞進(jìn)行過(guò)濾處理。
所述對(duì)所述分詞進(jìn)行過(guò)濾處理,采用插件式過(guò)濾鏈,所述插件式過(guò)濾鏈包括 停用詞過(guò)濾器和/或同義詞過(guò)濾器。
算法是以詞為文本的特征表示項(xiàng),因此對(duì)于中文文本需要對(duì)內(nèi)容進(jìn)行分詞和詞性標(biāo)注;為了減少不重要詞對(duì)準(zhǔn)確性和系統(tǒng)性能的影響,可以對(duì)這些分詞進(jìn)行過(guò)濾處理,系統(tǒng)對(duì)分詞進(jìn)行過(guò)濾處理可以采用插件式的過(guò)濾鏈,所述插件式過(guò)濾鏈可以包括停用詞過(guò)濾器和/或同義詞過(guò)濾器
本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,s1中,所述詞的淺層次相似度,可以采用如下公式進(jìn)行計(jì)算:
sim(d1,d2)=count(d1∩d2)/(count(d1)+count(d2)),
式中,
d={w1,w2,w3…}表示文檔,
wi表示文檔d中的詞,
d1∩d2表示文檔d1、d2中詞的交集,
count(di)表示文檔di中詞的個(gè)數(shù)。
在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,s2中,所述文本分段包括如下方式:以段落分段、以一定數(shù)量的字詞分段或以句子分段。
分段方式不一樣,其分段的粒度也不一樣,可以以文檔的段落分段,也可以按一定數(shù)量的字詞固定分段,也可以句子分段。
在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,可以以句子(以句號(hào)作為句子結(jié)束標(biāo)志)為分段單位,也就是說(shuō),細(xì)粒度的相似度比對(duì)是以句子為單位,以詞為特征表示。
在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,s3中所述文本細(xì)粒度相似度由:基于句子的淺層相似度、信息熵相似度和淺語(yǔ)義相似度組成和計(jì)算得到,具體地,
當(dāng)所述基于句子的淺層相似度,采用如下公式進(jìn)行計(jì)算:
simsha(s1,s2)=count(s1∩s2)/(count(s1)+count(s2)),
式中,
simsha(s1,s2)表示基于句子的淺層相似度,
s={w1,w2,w3…}表示句子,
wi表示句子s中的詞,
s1∩s2表示句子s1、s2中詞的交集,
count(si)表示句子si中詞的個(gè)數(shù);
當(dāng)所述信息熵相似度,采用如下公式進(jìn)行計(jì)算:
siment(s1,s2)=∑(e(wi)),e(w)=log(n/n),
式中,
siment(s1,s2)表示信息熵相似度,
s={w1,w2,w3…}表示句子,
wi∈s1∩s2,
s1∩s2表示句子s1、s2中詞的交集,
n表示候選文檔集中句子的總數(shù),
n表示包含詞w的句子數(shù);
當(dāng)所述淺語(yǔ)義相似度,包括詞義相似度、句子語(yǔ)義相似度和句子細(xì)粒度相似度,
其中,詞義相似度采用如下公式進(jìn)行計(jì)算:
simsemw(w1,w2)=f(simlex(w1,w2),simpos(w1,w2),simcon(w1,w2))=simlex(w1,w2)·simpos(w1,w2)·simcon(w1,w2),式中,
simsemw(w1,w2)表示詞義相似度,
simlex(w1,w2)、simpos(w1,w2)、simcon(w1,w2)分別表示詞w1與w2的詞匯相似度、詞性相似度、詞上下文相似度,
simlex(w1,w2)是詞w1和w2對(duì)應(yīng)的義原在義原樹(shù)上的距離;
simpos(w1,w2)取值:當(dāng)w1與w2詞性相同時(shí),取值為1;當(dāng)w1與w2詞性不相同時(shí),取值為0;
simcon(w1,w2)=abs(pos1/n1-pos2/n2),其中,pos1、pos2分別是w1、w2在相應(yīng)句中的位置,n1、n2是w1、w2所在句子的長(zhǎng)度;
句子語(yǔ)義相似度采用如下公式進(jìn)行計(jì)算:
simsems(s1,s2)=2·∑0≤i<len(s1)argmax{simsemw(wi,wj):0≤j<len(s2)}/(len(s1)+len(s2)),
式中,
simsems(s1,s2)表示句子語(yǔ)義相似度,
argmax表示尋找具有最大評(píng)分的參量,函數(shù)argmax{f(x,y):x∈x},表示x∈x,使f(x,y)達(dá)到最大值時(shí)的取值,
len(s)是句子s的長(zhǎng)度,即詞語(yǔ)個(gè)數(shù);
則,所述句子細(xì)粒度相似度采用如下公式進(jìn)行計(jì)算:
similarity(s1,s2)
=α·simsha(s1,s2)+β·siment(s1,s2)+γ·simsems(s1,s2)
式中,
α、β、γ為權(quán)值參數(shù),且α+β+γ=1;
假設(shè)所述分段文本為句子,則所述文本細(xì)粒度相似度為:
similarity(d1,d2)=∑wk·segsimilarity(sk,sj),
segsimilarity(sk,sj)=max(similarity(sk,si)),
其中,
similarity(d1,d2)表示文本細(xì)粒度相似度,
similarity(sk,si)表示句子細(xì)粒度相似度,
sk是第一文檔中的句子,si是第二文檔中的句子,1≤i≤n2,n2為第二文檔中中句子數(shù),j是第二文檔中similarity(sk,si)取得最大值時(shí)的i值,
wk是與sk相關(guān)的權(quán)重,一般可以簡(jiǎn)化為1/n,n是文檔的句子總數(shù)。
采用上述本發(fā)明實(shí)施例提供的技術(shù)方案,在構(gòu)建的測(cè)試數(shù)據(jù)上,平均漏警率和虛警率≤10%,比對(duì)響應(yīng)時(shí)間≤0.1秒。
通過(guò)采用本發(fā)明公開(kāi)的上述技術(shù)方案,得到了如下有益的效果:本發(fā)明實(shí)施例中,文本相似性比對(duì)在系統(tǒng)的架構(gòu)上采用分布式架構(gòu),在比對(duì)算法上采用多粒度分層算法,包括以文檔為粗粒度的相似度比對(duì),以及以分段文本為細(xì)粒度的相似度比對(duì),從而在內(nèi)容相似性比對(duì)的效率和精確性上取得了較好的均衡,實(shí)現(xiàn)了如下的性能指標(biāo):在構(gòu)建的測(cè)試數(shù)據(jù)上,平均漏警率和虛警率≤10%,比對(duì)響應(yīng)時(shí)間≤0.1秒。
本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可。
本領(lǐng)域人員應(yīng)該理解的是,上述實(shí)施例提供的方法步驟的時(shí)序可根據(jù)實(shí)際情況進(jìn)行適應(yīng)性調(diào)整,也可根據(jù)實(shí)際情況并發(fā)進(jìn)行。
上述實(shí)施例涉及的方法中的全部或部分步驟可以通過(guò)程序來(lái)指令相關(guān)的硬件來(lái)完成,所述的程序可以存儲(chǔ)于計(jì)算機(jī)設(shè)備可讀取的存儲(chǔ)介質(zhì)中,用于執(zhí)行上述各實(shí)施例方法所述的全部或部分步驟。所述計(jì)算機(jī)設(shè)備,例如:個(gè)人計(jì)算機(jī)、服務(wù)器、網(wǎng)絡(luò)設(shè)備、智能移動(dòng)終端、智能家居設(shè)備、穿戴式智能設(shè)備、車(chē)載智能設(shè)備等;所述的存儲(chǔ)介質(zhì),例如:ram、rom、磁碟、磁帶、光盤(pán)、閃存、u盤(pán)、移動(dòng)硬盤(pán)、存儲(chǔ)卡、記憶棒、網(wǎng)絡(luò)服務(wù)器存儲(chǔ)、網(wǎng)絡(luò)云存儲(chǔ)等。
最后,還需要說(shuō)明的是,在本文中,諸如第一和第二等之類(lèi)的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、商品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、商品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、商品或者設(shè)備中還存在另外的相同要素。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技 術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視本發(fā)明的保護(hù)范圍。