一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法

文檔序號(hào)：10570105閱讀：586來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法，利用網(wǎng)頁(yè)標(biāo)題與正文信息之間的關(guān)系，通過(guò)計(jì)算語(yǔ)言“單位”之間的相似度和對(duì)應(yīng)的權(quán)值，并引入HITS算法模型對(duì)權(quán)值進(jìn)行調(diào)整，根據(jù)特定的選取方法抽取出真實(shí)標(biāo)題，該方法不僅對(duì)“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”的抽取達(dá)到滿意的效果，而且對(duì)“標(biāo)準(zhǔn)網(wǎng)頁(yè)”具有較高的泛化能力，時(shí)長(zhǎng)前景廣闊。
【專(zhuān)利說(shuō)明】
一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法
技術(shù)領(lǐng)域
[0001]本發(fā)明屬于網(wǎng)頁(yè)方法領(lǐng)域，更具體地說(shuō)，本發(fā)明涉及一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法。
【背景技術(shù)】
[0002]網(wǎng)頁(yè)文檔作為互聯(lián)網(wǎng)信息的一種載體，人們通過(guò)網(wǎng)頁(yè)文檔可以發(fā)布和獲取各種各樣的信息。隨著網(wǎng)絡(luò)信息量的與日倶增，互聯(lián)網(wǎng)上的海量信息在豐富了人們信息來(lái)源的同時(shí)，也給人們獲取感興趣的信息帶來(lái)了困難。面對(duì)海量的信息，如何有效地抽取網(wǎng)頁(yè)文檔中的數(shù)據(jù)，是關(guān)系到如何有效快捷地獲取目標(biāo)信息的關(guān)鍵技術(shù)之一。

【發(fā)明內(nèi)容】

[0003]本發(fā)明所要解決的問(wèn)題是提供一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法。
[0004]為了實(shí)現(xiàn)上述目的，本發(fā)明采取的技術(shù)方案為:
一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法，包括如下步驟:
(1)網(wǎng)頁(yè)文檔預(yù)處理
計(jì)算句子之間的相似度，首先將網(wǎng)頁(yè)文檔中含有的信息轉(zhuǎn)換為文本文檔表示，將經(jīng)過(guò)劃分后的段落或句子等同定義為一個(gè)語(yǔ)言“單位；
(2)相似度計(jì)算
利用正向迭代最細(xì)粒度切分算法分詞后的公共子詞語(yǔ)方式計(jì)算單位間的相似度；
(3)權(quán)值計(jì)算
根據(jù)相似度，得到權(quán)值計(jì)算公式:Weight (unit-1 ) = ESim(unit-1，unit_j)(i# j)，其中unit-1為需要計(jì)算權(quán)值的單位，Sim(unit-1，1111；[1:-」)為1111；[1:-;[與1111；[1:-」的相似度；
(4)文檔標(biāo)題的選取的預(yù)處理
將整篇文本文檔以“\ η”劃分成多個(gè)語(yǔ)言單位，通過(guò)計(jì)算后，表示成Collect1rK <unit i,weight i> > sortList；
(5)標(biāo)題的選取
①首先對(duì)sortList按照文檔中的單位unit的權(quán)值Weighi/(unit)進(jìn)行升序排序；
②計(jì)算所有頂點(diǎn)的度數(shù)和TTCT以及權(quán)值大于等于A的頂點(diǎn)總個(gè)數(shù)PCT;
③計(jì)算平均度的閾值aveCT;
④選取sortList中序號(hào)idx較小的兩個(gè)語(yǔ)言單位作為候選標(biāo)題；
⑤比較兩個(gè)候選單位的權(quán)值，選取權(quán)值較大的單位作為抽取“真實(shí)標(biāo)題”的結(jié)果。
[0005]優(yōu)選的，所述步驟(2)中相似度計(jì)算的公式為 SimCunit-1?unit-2)
=Sim(set-1，set -2)
=(sameCT* sameCT)/log( size (set-1)+(set-2))，其中 set_l，set -2 分別為需要計(jì)算的兩個(gè)單位unit-1和unit-2經(jīng)過(guò)迭代分詞后的詞語(yǔ)集合，sameCT為set-1和set _2兩個(gè)集合的共同詞語(yǔ)的次數(shù)之和，size (set)表示set集合的長(zhǎng)度。
[0006]優(yōu)選的，所述sameCT的計(jì)算公式為sameCT=ECTl(Wordi)+ECT2(Wordi) ,ffordi eset-1或Wordi eset_2。
[0007]優(yōu)選的，所述步驟(3)中權(quán)值計(jì)算后通過(guò)HITS算法模型進(jìn)行權(quán)值的加權(quán)調(diào)整。
[0008]優(yōu)選的，所述步驟(5)選取后對(duì)標(biāo)題抽取進(jìn)行評(píng)測(cè)。
[0009]優(yōu)選的，所述評(píng)測(cè)的公式為準(zhǔn)確率=(標(biāo)題抽取正確的HTML文檔數(shù)目/總的HTML文檔數(shù)目)*100%。
[0010]有益效果:本發(fā)明提供了一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法，利用網(wǎng)頁(yè)標(biāo)題與正文信息之間的關(guān)系，通過(guò)計(jì)算語(yǔ)言“單位”之間的相似度和對(duì)應(yīng)的權(quán)值，并引入HITS算法模型對(duì)權(quán)值進(jìn)行調(diào)整，根據(jù)特定的選取方法抽取出真實(shí)標(biāo)題，該方法不僅對(duì)“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”的抽取達(dá)到滿意的效果，而且對(duì)“標(biāo)準(zhǔn)網(wǎng)頁(yè)”具有較高的泛化能力，時(shí)長(zhǎng)前景廣闊。
【具體實(shí)施方式】
[0011]—種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法，包括如下步驟:
(1)網(wǎng)頁(yè)文檔預(yù)處理
計(jì)算句子之間的相似度，首先將網(wǎng)頁(yè)文檔中含有的信息轉(zhuǎn)換為文本文檔表示，將經(jīng)過(guò)劃分后的段落或句子等同定義為一個(gè)語(yǔ)言“單位；
(2)相似度計(jì)算
利用正向迭代最細(xì)粒度切分算法分詞后的公共子詞語(yǔ)方式計(jì)算單位間的相似度，所述相似度計(jì)算的公式為
SimCunit-1,unit-2)
=SimCset-1,set -2)
=CsameCT* sameCT)/log(size(set~l)+(set-2))，其中set_l,set -2分別為需要計(jì)算的兩個(gè)單位unit-1和unit-2經(jīng)過(guò)迭代分詞后的詞語(yǔ)集合，sameCT為set-1和set _2兩個(gè)集合的共同詞語(yǔ)的次數(shù)之和，size (set)表示set集合的長(zhǎng)度，所述sameCT的計(jì)算公式為sameCT= Σ CTl(ffordi)+ Σ CT2(ffordi),ffordieset_l或Wordi eset-2；
(3)權(quán)值計(jì)算
根據(jù)相似度，得到權(quán)值計(jì)算公式:Weight (unit-1 ) = ESim(unit-1，unit_j)(i# j)，其中unit-1為需要計(jì)算權(quán)值的單位，Sim(unit-1，unit-j)為unit-1與unit-j的相似度，權(quán)值計(jì)算后通過(guò)HITS算法模型進(jìn)行權(quán)值的加權(quán)調(diào)整；
(4)文檔標(biāo)題的選取的預(yù)處理
將整篇文本文檔以“\ η”劃分成多個(gè)語(yǔ)言單位，通過(guò)計(jì)算后，表示成Collect1rK <unit i,weight i> > sortList；
(5)標(biāo)題的選取
①首先對(duì)sortList按照文檔中的單位unit的權(quán)值Weighi/(unit)進(jìn)行升序排序；
②計(jì)算所有頂點(diǎn)的度數(shù)和TTCT以及權(quán)值大于等于A的頂點(diǎn)總個(gè)數(shù)PCT;
③計(jì)算平均度的閾值aveCT;
④選取sortList中序號(hào)idx較小的兩個(gè)語(yǔ)言單位作為候選標(biāo)題；
⑤比較兩個(gè)候選單位的權(quán)值，選取權(quán)值較大的單位作為抽取“真實(shí)標(biāo)題”的結(jié)果； (6)標(biāo)題抽取后評(píng)測(cè)
評(píng)測(cè)的公式為準(zhǔn)確率=(標(biāo)題抽取正確的HTML文檔數(shù)目/總的HTML文檔數(shù)目)*100%。
[0012]本發(fā)明提供了一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法，利用網(wǎng)頁(yè)標(biāo)題與正文信息之間的關(guān)系，通過(guò)計(jì)算語(yǔ)言“單位”之間的相似度和對(duì)應(yīng)的權(quán)值，并引入HITS算法模型對(duì)權(quán)值進(jìn)行調(diào)整，根據(jù)特定的選取方法抽取出真實(shí)標(biāo)題，該方法不僅對(duì)“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”的抽取達(dá)到滿意的效果，而且對(duì)“標(biāo)準(zhǔn)網(wǎng)頁(yè)”具有較高的泛化能力，時(shí)長(zhǎng)前景廣闊。
[0013]以上所述僅為本發(fā)明的實(shí)施例，并非因此限制本發(fā)明的專(zhuān)利范圍，凡是利用本發(fā)明說(shuō)明書(shū)內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換，或直接或間接運(yùn)用在其他相關(guān)的技術(shù)領(lǐng)域，均同理包括在本發(fā)明的專(zhuān)利保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1.一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法，其特征在于，包括如下步驟: (1)網(wǎng)頁(yè)文檔預(yù)處理計(jì)算句子之間的相似度，首先將網(wǎng)頁(yè)文檔中含有的信息轉(zhuǎn)換為文本文檔表示，將經(jīng)過(guò)劃分后的段落或句子等同定義為一個(gè)語(yǔ)言“單位； (2)相似度計(jì)算利用正向迭代最細(xì)粒度切分算法分詞后的公共子詞語(yǔ)方式計(jì)算單位間的相似度； (3)權(quán)值計(jì)算根據(jù)相似度，得到權(quán)值計(jì)算公式:Weight(unit-1)=ΣSim(unit-1，unit-j)(i#j)，其中unit-1為需要計(jì)算權(quán)值的單位，Sim(unit-1，1111；[1:-」)為1111；[1:-;[與1111；[1:-」的相似度； (4)文檔標(biāo)題的選取的預(yù)處理將整篇文本文檔以“\ η”劃分成多個(gè)語(yǔ)言單位，通過(guò)計(jì)算后，表示成Collect1rK <unit i,weight i> > sortList； (5)標(biāo)題的選取 ①首先對(duì)sortList按照文檔中的單位unit的權(quán)值Weighi/(unit)進(jìn)行升序排序； ②計(jì)算所有頂點(diǎn)的度數(shù)和TTCT以及權(quán)值大于等于A的頂點(diǎn)總個(gè)數(shù)PCT; ③計(jì)算平均度的閾值aveCT; ④選取sortList中序號(hào)idx較小的兩個(gè)語(yǔ)言單位作為候選標(biāo)題； ⑤比較兩個(gè)候選單位的權(quán)值，選取權(quán)值較大的單位作為抽取“真實(shí)標(biāo)題”的結(jié)果。2.按照權(quán)利要求1所述的一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法，其特征在于:所述步驟(2)中相似度計(jì)算的公式為 SimCunit-1,unit-2) =SimCset-1,set _2) =CsameCT* sameCT)/log( size (set-1)+(set-2))，其中 set_l, set -2 分別為需要計(jì)算的兩個(gè)單位unit-1和unit-2經(jīng)過(guò)迭代分詞后的詞語(yǔ)集合，sameCT為set-1和set _2兩個(gè)集合的共同詞語(yǔ)的次數(shù)之和，size (set)表示set集合的長(zhǎng)度。3.按照權(quán)利要求2所述的一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法，其特征在于:所述sameCT的計(jì)算公式為sameCT=ECTl(Wordi)+ECT2(Wordi) ,ffordi e set_l或Wordi e set-2。4.按照權(quán)利要求1所述的一種基于復(fù)雜網(wǎng)絡(luò)的灰度圖像識(shí)別方法，其特征在于:所述步驟(3)中權(quán)值計(jì)算后通過(guò)HITS算法模型進(jìn)行權(quán)值的加權(quán)調(diào)整。5.按照權(quán)利要求1所述的一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法，其特征在于:所述步驟(5)選取后對(duì)標(biāo)題抽取進(jìn)行評(píng)測(cè)。6.按照權(quán)利要求5所述的一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法，其特征在于:所述評(píng)測(cè)的公式為準(zhǔn)確率=(標(biāo)題抽取正確的HTML文檔數(shù)目/總的HTML文檔數(shù)目)*100%。
【文檔編號(hào)】G06F17/22GK105930541SQ201610484263
【公開(kāi)日】2016年9月7日
【申請(qǐng)日】2016年6月28日
【發(fā)明人】董雄飛
【申請(qǐng)人】合肥酷睿網(wǎng)絡(luò)科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：董雄飛;
技術(shù)所有人：合肥酷睿網(wǎng)絡(luò)科技有限公司;
我是此專(zhuān)利的發(fā)明人

上一篇：一種模板化網(wǎng)頁(yè)主題信息的提取方法
上一篇：一種數(shù)據(jù)處理系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

網(wǎng)頁(yè)正文自動(dòng)抽取技術(shù)相關(guān)技術(shù)

java新聞網(wǎng)頁(yè)正文抽取相關(guān)技術(shù)

網(wǎng)頁(yè)信息抽取相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法