一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法,利用網(wǎng)頁(yè)標(biāo)題與正文信息之間的關(guān)系,通過(guò)計(jì)算語(yǔ)言“單位”之間的相似度和對(duì)應(yīng)的權(quán)值,并引入HITS算法模型對(duì)權(quán)值進(jìn)行調(diào)整,根據(jù)特定的選取方法抽取出真實(shí)標(biāo)題,該方法不僅對(duì)“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”的抽取達(dá)到滿意的效果,而且對(duì)“標(biāo)準(zhǔn)網(wǎng)頁(yè)”具有較高的泛化能力,時(shí)長(zhǎng)前景廣闊。
【專(zhuān)利說(shuō)明】
一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法
技術(shù)領(lǐng)域
[0001]本發(fā)明屬于網(wǎng)頁(yè)方法領(lǐng)域,更具體地說(shuō),本發(fā)明涉及一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法。
【背景技術(shù)】
[0002]網(wǎng)頁(yè)文檔作為互聯(lián)網(wǎng)信息的一種載體,人們通過(guò)網(wǎng)頁(yè)文檔可以發(fā)布和獲取各種各樣的信息。隨著網(wǎng)絡(luò)信息量的與日倶增,互聯(lián)網(wǎng)上的海量信息在豐富了人們信息來(lái)源的同時(shí),也給人們獲取感興趣的信息帶來(lái)了困難。面對(duì)海量的信息,如何有效地抽取網(wǎng)頁(yè)文檔中的數(shù)據(jù),是關(guān)系到如何有效快捷地獲取目標(biāo)信息的關(guān)鍵技術(shù)之一。
【發(fā)明內(nèi)容】
[0003]本發(fā)明所要解決的問(wèn)題是提供一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法。
[0004]為了實(shí)現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案為:
一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法,包括如下步驟:
(1)網(wǎng)頁(yè)文檔預(yù)處理
計(jì)算句子之間的相似度,首先將網(wǎng)頁(yè)文檔中含有的信息轉(zhuǎn)換為文本文檔表示,將經(jīng)過(guò)劃分后的段落或句子等同定義為一個(gè)語(yǔ)言“單位;
(2)相似度計(jì)算
利用正向迭代最細(xì)粒度切分算法分詞后的公共子詞語(yǔ)方式計(jì)算單位間的相似度;
(3)權(quán)值計(jì)算
根據(jù)相似度,得到權(quán)值計(jì)算公式:Weight (unit-1 ) = ESim(unit-1,unit_j)(i# j),其中unit-1為需要計(jì)算權(quán)值的單位,Sim(unit-1,1111;[1:-」)為1111;[1:-;[與1111;[1:-」的相似度;
(4)文檔標(biāo)題的選取的預(yù)處理
將整篇文本文檔以“\ η”劃分成多個(gè)語(yǔ)言單位,通過(guò)計(jì)算后,表示成Collect1rK <unit i,weight i> > sortList;
(5)標(biāo)題的選取
①首先對(duì)sortList按照文檔中的單位unit的權(quán)值Weighi/(unit)進(jìn)行升序排序;
②計(jì)算所有頂點(diǎn)的度數(shù)和TTCT以及權(quán)值大于等于A的頂點(diǎn)總個(gè)數(shù)PCT;
③計(jì)算平均度的閾值aveCT;
④選取sortList中序號(hào)idx較小的兩個(gè)語(yǔ)言單位作為候選標(biāo)題;
⑤比較兩個(gè)候選單位的權(quán)值,選取權(quán)值較大的單位作為抽取“真實(shí)標(biāo)題”的結(jié)果。
[0005]優(yōu)選的,所述步驟(2)中相似度計(jì)算的公式為 SimCunit-1?unit-2)
=Sim(set-1,set -2)
=(sameCT* sameCT)/log( size (set-1)+(set-2)),其中 set_l,set -2 分別為需要計(jì)算的兩個(gè)單位unit-1和unit-2經(jīng)過(guò)迭代分詞后的詞語(yǔ)集合,sameCT為set-1和set _2兩個(gè)集合的共同詞語(yǔ)的次數(shù)之和,size (set)表示set集合的長(zhǎng)度。
[0006]優(yōu)選的,所述sameCT的計(jì)算公式為sameCT=ECTl(Wordi)+ECT2(Wordi) ,ffordi eset-1或Wordi eset_2。
[0007]優(yōu)選的,所述步驟(3)中權(quán)值計(jì)算后通過(guò)HITS算法模型進(jìn)行權(quán)值的加權(quán)調(diào)整。
[0008]優(yōu)選的,所述步驟(5)選取后對(duì)標(biāo)題抽取進(jìn)行評(píng)測(cè)。
[0009]優(yōu)選的,所述評(píng)測(cè)的公式為準(zhǔn)確率=(標(biāo)題抽取正確的HTML文檔數(shù)目/總的HTML文檔數(shù)目)*100%。
[0010]有益效果:本發(fā)明提供了一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法,利用網(wǎng)頁(yè)標(biāo)題與正文信息之間的關(guān)系,通過(guò)計(jì)算語(yǔ)言“單位”之間的相似度和對(duì)應(yīng)的權(quán)值,并引入HITS算法模型對(duì)權(quán)值進(jìn)行調(diào)整,根據(jù)特定的選取方法抽取出真實(shí)標(biāo)題,該方法不僅對(duì)“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”的抽取達(dá)到滿意的效果,而且對(duì)“標(biāo)準(zhǔn)網(wǎng)頁(yè)”具有較高的泛化能力,時(shí)長(zhǎng)前景廣闊。
【具體實(shí)施方式】
[0011]—種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法,包括如下步驟:
(1)網(wǎng)頁(yè)文檔預(yù)處理
計(jì)算句子之間的相似度,首先將網(wǎng)頁(yè)文檔中含有的信息轉(zhuǎn)換為文本文檔表示,將經(jīng)過(guò)劃分后的段落或句子等同定義為一個(gè)語(yǔ)言“單位;
(2)相似度計(jì)算
利用正向迭代最細(xì)粒度切分算法分詞后的公共子詞語(yǔ)方式計(jì)算單位間的相似度,所述相似度計(jì)算的公式為
SimCunit-1,unit-2)
=SimCset-1,set -2)
=CsameCT* sameCT)/log(size(set~l)+(set-2)),其中set_l,set -2分別為需要計(jì)算的兩個(gè)單位unit-1和unit-2經(jīng)過(guò)迭代分詞后的詞語(yǔ)集合,sameCT為set-1和set _2兩個(gè)集合的共同詞語(yǔ)的次數(shù)之和,size (set)表示set集合的長(zhǎng)度,所述sameCT的計(jì)算公式為sameCT= Σ CTl(ffordi)+ Σ CT2(ffordi),ffordieset_l或Wordi eset-2;
(3)權(quán)值計(jì)算
根據(jù)相似度,得到權(quán)值計(jì)算公式:Weight (unit-1 ) = ESim(unit-1,unit_j)(i# j),其中unit-1為需要計(jì)算權(quán)值的單位,Sim(unit-1,unit-j)為unit-1與unit-j的相似度,權(quán)值計(jì)算后通過(guò)HITS算法模型進(jìn)行權(quán)值的加權(quán)調(diào)整;
(4)文檔標(biāo)題的選取的預(yù)處理
將整篇文本文檔以“\ η”劃分成多個(gè)語(yǔ)言單位,通過(guò)計(jì)算后,表示成Collect1rK <unit i,weight i> > sortList;
(5)標(biāo)題的選取
①首先對(duì)sortList按照文檔中的單位unit的權(quán)值Weighi/(unit)進(jìn)行升序排序;
②計(jì)算所有頂點(diǎn)的度數(shù)和TTCT以及權(quán)值大于等于A的頂點(diǎn)總個(gè)數(shù)PCT;
③計(jì)算平均度的閾值aveCT;
④選取sortList中序號(hào)idx較小的兩個(gè)語(yǔ)言單位作為候選標(biāo)題;
⑤比較兩個(gè)候選單位的權(quán)值,選取權(quán)值較大的單位作為抽取“真實(shí)標(biāo)題”的結(jié)果; (6)標(biāo)題抽取后評(píng)測(cè)
評(píng)測(cè)的公式為準(zhǔn)確率=(標(biāo)題抽取正確的HTML文檔數(shù)目/總的HTML文檔數(shù)目)*100%。
[0012]本發(fā)明提供了一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法,利用網(wǎng)頁(yè)標(biāo)題與正文信息之間的關(guān)系,通過(guò)計(jì)算語(yǔ)言“單位”之間的相似度和對(duì)應(yīng)的權(quán)值,并引入HITS算法模型對(duì)權(quán)值進(jìn)行調(diào)整,根據(jù)特定的選取方法抽取出真實(shí)標(biāo)題,該方法不僅對(duì)“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”的抽取達(dá)到滿意的效果,而且對(duì)“標(biāo)準(zhǔn)網(wǎng)頁(yè)”具有較高的泛化能力,時(shí)長(zhǎng)前景廣闊。
[0013]以上所述僅為本發(fā)明的實(shí)施例,并非因此限制本發(fā)明的專(zhuān)利范圍,凡是利用本發(fā)明說(shuō)明書(shū)內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專(zhuān)利保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1.一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法,其特征在于,包括如下步驟: (1)網(wǎng)頁(yè)文檔預(yù)處理 計(jì)算句子之間的相似度,首先將網(wǎng)頁(yè)文檔中含有的信息轉(zhuǎn)換為文本文檔表示,將經(jīng)過(guò)劃分后的段落或句子等同定義為一個(gè)語(yǔ)言“單位; (2)相似度計(jì)算 利用正向迭代最細(xì)粒度切分算法分詞后的公共子詞語(yǔ)方式計(jì)算單位間的相似度; (3)權(quán)值計(jì)算 根據(jù)相似度,得到權(quán)值計(jì)算公式:Weight(unit-1)=ΣSim(unit-1,unit-j)(i#j),其中unit-1為需要計(jì)算權(quán)值的單位,Sim(unit-1,1111;[1:-」)為1111;[1:-;[與1111;[1:-」的相似度; (4)文檔標(biāo)題的選取的預(yù)處理 將整篇文本文檔以“\ η”劃分成多個(gè)語(yǔ)言單位,通過(guò)計(jì)算后,表示成Collect1rK <unit i,weight i> > sortList; (5)標(biāo)題的選取 ①首先對(duì)sortList按照文檔中的單位unit的權(quán)值Weighi/(unit)進(jìn)行升序排序; ②計(jì)算所有頂點(diǎn)的度數(shù)和TTCT以及權(quán)值大于等于A的頂點(diǎn)總個(gè)數(shù)PCT; ③計(jì)算平均度的閾值aveCT; ④選取sortList中序號(hào)idx較小的兩個(gè)語(yǔ)言單位作為候選標(biāo)題; ⑤比較兩個(gè)候選單位的權(quán)值,選取權(quán)值較大的單位作為抽取“真實(shí)標(biāo)題”的結(jié)果。2.按照權(quán)利要求1所述的一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法,其特征在于:所述步驟(2)中相似度計(jì)算的公式為 SimCunit-1,unit-2) =SimCset-1,set _2) =CsameCT* sameCT)/log( size (set-1)+(set-2)),其中 set_l, set -2 分別為需要計(jì)算的兩個(gè)單位unit-1和unit-2經(jīng)過(guò)迭代分詞后的詞語(yǔ)集合,sameCT為set-1和set _2兩個(gè)集合的共同詞語(yǔ)的次數(shù)之和,size (set)表示set集合的長(zhǎng)度。3.按照權(quán)利要求2所述的一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法,其特征在于:所述sameCT的計(jì)算公式為sameCT=ECTl(Wordi)+ECT2(Wordi) ,ffordi e set_l或Wordi e set-2。4.按照權(quán)利要求1所述的一種基于復(fù)雜網(wǎng)絡(luò)的灰度圖像識(shí)別方法,其特征在于:所述步驟(3)中權(quán)值計(jì)算后通過(guò)HITS算法模型進(jìn)行權(quán)值的加權(quán)調(diào)整。5.按照權(quán)利要求1所述的一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法,其特征在于:所述步驟(5)選取后對(duì)標(biāo)題抽取進(jìn)行評(píng)測(cè)。6.按照權(quán)利要求5所述的一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法,其特征在于:所述評(píng)測(cè)的公式為準(zhǔn)確率=(標(biāo)題抽取正確的HTML文檔數(shù)目/總的HTML文檔數(shù)目)*100%。
【文檔編號(hào)】G06F17/22GK105930541SQ201610484263
【公開(kāi)日】2016年9月7日
【申請(qǐng)日】2016年6月28日
【發(fā)明人】董雄飛
【申請(qǐng)人】合肥酷睿網(wǎng)絡(luò)科技有限公司