国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法

      文檔序號(hào):10570105閱讀:586來(lái)源:國(guó)知局
      一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法
      【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法,利用網(wǎng)頁(yè)標(biāo)題與正文信息之間的關(guān)系,通過(guò)計(jì)算語(yǔ)言“單位”之間的相似度和對(duì)應(yīng)的權(quán)值,并引入HITS算法模型對(duì)權(quán)值進(jìn)行調(diào)整,根據(jù)特定的選取方法抽取出真實(shí)標(biāo)題,該方法不僅對(duì)“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”的抽取達(dá)到滿意的效果,而且對(duì)“標(biāo)準(zhǔn)網(wǎng)頁(yè)”具有較高的泛化能力,時(shí)長(zhǎng)前景廣闊。
      【專(zhuān)利說(shuō)明】
      一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法
      技術(shù)領(lǐng)域
      [0001]本發(fā)明屬于網(wǎng)頁(yè)方法領(lǐng)域,更具體地說(shuō),本發(fā)明涉及一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法。
      【背景技術(shù)】
      [0002]網(wǎng)頁(yè)文檔作為互聯(lián)網(wǎng)信息的一種載體,人們通過(guò)網(wǎng)頁(yè)文檔可以發(fā)布和獲取各種各樣的信息。隨著網(wǎng)絡(luò)信息量的與日倶增,互聯(lián)網(wǎng)上的海量信息在豐富了人們信息來(lái)源的同時(shí),也給人們獲取感興趣的信息帶來(lái)了困難。面對(duì)海量的信息,如何有效地抽取網(wǎng)頁(yè)文檔中的數(shù)據(jù),是關(guān)系到如何有效快捷地獲取目標(biāo)信息的關(guān)鍵技術(shù)之一。

      【發(fā)明內(nèi)容】

      [0003]本發(fā)明所要解決的問(wèn)題是提供一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法。
      [0004]為了實(shí)現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案為:
      一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法,包括如下步驟:
      (1)網(wǎng)頁(yè)文檔預(yù)處理
      計(jì)算句子之間的相似度,首先將網(wǎng)頁(yè)文檔中含有的信息轉(zhuǎn)換為文本文檔表示,將經(jīng)過(guò)劃分后的段落或句子等同定義為一個(gè)語(yǔ)言“單位;
      (2)相似度計(jì)算
      利用正向迭代最細(xì)粒度切分算法分詞后的公共子詞語(yǔ)方式計(jì)算單位間的相似度;
      (3)權(quán)值計(jì)算
      根據(jù)相似度,得到權(quán)值計(jì)算公式:Weight (unit-1 ) = ESim(unit-1,unit_j)(i# j),其中unit-1為需要計(jì)算權(quán)值的單位,Sim(unit-1,1111;[1:-」)為1111;[1:-;[與1111;[1:-」的相似度;
      (4)文檔標(biāo)題的選取的預(yù)處理
      將整篇文本文檔以“\ η”劃分成多個(gè)語(yǔ)言單位,通過(guò)計(jì)算后,表示成Collect1rK <unit i,weight i> > sortList;
      (5)標(biāo)題的選取
      ①首先對(duì)sortList按照文檔中的單位unit的權(quán)值Weighi/(unit)進(jìn)行升序排序;
      ②計(jì)算所有頂點(diǎn)的度數(shù)和TTCT以及權(quán)值大于等于A的頂點(diǎn)總個(gè)數(shù)PCT;
      ③計(jì)算平均度的閾值aveCT;
      ④選取sortList中序號(hào)idx較小的兩個(gè)語(yǔ)言單位作為候選標(biāo)題;
      ⑤比較兩個(gè)候選單位的權(quán)值,選取權(quán)值較大的單位作為抽取“真實(shí)標(biāo)題”的結(jié)果。
      [0005]優(yōu)選的,所述步驟(2)中相似度計(jì)算的公式為 SimCunit-1?unit-2)
      =Sim(set-1,set -2)
      =(sameCT* sameCT)/log( size (set-1)+(set-2)),其中 set_l,set -2 分別為需要計(jì)算的兩個(gè)單位unit-1和unit-2經(jīng)過(guò)迭代分詞后的詞語(yǔ)集合,sameCT為set-1和set _2兩個(gè)集合的共同詞語(yǔ)的次數(shù)之和,size (set)表示set集合的長(zhǎng)度。
      [0006]優(yōu)選的,所述sameCT的計(jì)算公式為sameCT=ECTl(Wordi)+ECT2(Wordi) ,ffordi eset-1或Wordi eset_2。
      [0007]優(yōu)選的,所述步驟(3)中權(quán)值計(jì)算后通過(guò)HITS算法模型進(jìn)行權(quán)值的加權(quán)調(diào)整。
      [0008]優(yōu)選的,所述步驟(5)選取后對(duì)標(biāo)題抽取進(jìn)行評(píng)測(cè)。
      [0009]優(yōu)選的,所述評(píng)測(cè)的公式為準(zhǔn)確率=(標(biāo)題抽取正確的HTML文檔數(shù)目/總的HTML文檔數(shù)目)*100%。
      [0010]有益效果:本發(fā)明提供了一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法,利用網(wǎng)頁(yè)標(biāo)題與正文信息之間的關(guān)系,通過(guò)計(jì)算語(yǔ)言“單位”之間的相似度和對(duì)應(yīng)的權(quán)值,并引入HITS算法模型對(duì)權(quán)值進(jìn)行調(diào)整,根據(jù)特定的選取方法抽取出真實(shí)標(biāo)題,該方法不僅對(duì)“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”的抽取達(dá)到滿意的效果,而且對(duì)“標(biāo)準(zhǔn)網(wǎng)頁(yè)”具有較高的泛化能力,時(shí)長(zhǎng)前景廣闊。
      【具體實(shí)施方式】
      [0011]—種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法,包括如下步驟:
      (1)網(wǎng)頁(yè)文檔預(yù)處理
      計(jì)算句子之間的相似度,首先將網(wǎng)頁(yè)文檔中含有的信息轉(zhuǎn)換為文本文檔表示,將經(jīng)過(guò)劃分后的段落或句子等同定義為一個(gè)語(yǔ)言“單位;
      (2)相似度計(jì)算
      利用正向迭代最細(xì)粒度切分算法分詞后的公共子詞語(yǔ)方式計(jì)算單位間的相似度,所述相似度計(jì)算的公式為
      SimCunit-1,unit-2)
      =SimCset-1,set -2)
      =CsameCT* sameCT)/log(size(set~l)+(set-2)),其中set_l,set -2分別為需要計(jì)算的兩個(gè)單位unit-1和unit-2經(jīng)過(guò)迭代分詞后的詞語(yǔ)集合,sameCT為set-1和set _2兩個(gè)集合的共同詞語(yǔ)的次數(shù)之和,size (set)表示set集合的長(zhǎng)度,所述sameCT的計(jì)算公式為sameCT= Σ CTl(ffordi)+ Σ CT2(ffordi),ffordieset_l或Wordi eset-2;
      (3)權(quán)值計(jì)算
      根據(jù)相似度,得到權(quán)值計(jì)算公式:Weight (unit-1 ) = ESim(unit-1,unit_j)(i# j),其中unit-1為需要計(jì)算權(quán)值的單位,Sim(unit-1,unit-j)為unit-1與unit-j的相似度,權(quán)值計(jì)算后通過(guò)HITS算法模型進(jìn)行權(quán)值的加權(quán)調(diào)整;
      (4)文檔標(biāo)題的選取的預(yù)處理
      將整篇文本文檔以“\ η”劃分成多個(gè)語(yǔ)言單位,通過(guò)計(jì)算后,表示成Collect1rK <unit i,weight i> > sortList;
      (5)標(biāo)題的選取
      ①首先對(duì)sortList按照文檔中的單位unit的權(quán)值Weighi/(unit)進(jìn)行升序排序;
      ②計(jì)算所有頂點(diǎn)的度數(shù)和TTCT以及權(quán)值大于等于A的頂點(diǎn)總個(gè)數(shù)PCT;
      ③計(jì)算平均度的閾值aveCT;
      ④選取sortList中序號(hào)idx較小的兩個(gè)語(yǔ)言單位作為候選標(biāo)題;
      ⑤比較兩個(gè)候選單位的權(quán)值,選取權(quán)值較大的單位作為抽取“真實(shí)標(biāo)題”的結(jié)果; (6)標(biāo)題抽取后評(píng)測(cè)
      評(píng)測(cè)的公式為準(zhǔn)確率=(標(biāo)題抽取正確的HTML文檔數(shù)目/總的HTML文檔數(shù)目)*100%。
      [0012]本發(fā)明提供了一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法,利用網(wǎng)頁(yè)標(biāo)題與正文信息之間的關(guān)系,通過(guò)計(jì)算語(yǔ)言“單位”之間的相似度和對(duì)應(yīng)的權(quán)值,并引入HITS算法模型對(duì)權(quán)值進(jìn)行調(diào)整,根據(jù)特定的選取方法抽取出真實(shí)標(biāo)題,該方法不僅對(duì)“非標(biāo)準(zhǔn)網(wǎng)頁(yè)”的抽取達(dá)到滿意的效果,而且對(duì)“標(biāo)準(zhǔn)網(wǎng)頁(yè)”具有較高的泛化能力,時(shí)長(zhǎng)前景廣闊。
      [0013]以上所述僅為本發(fā)明的實(shí)施例,并非因此限制本發(fā)明的專(zhuān)利范圍,凡是利用本發(fā)明說(shuō)明書(shū)內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專(zhuān)利保護(hù)范圍內(nèi)。
      【主權(quán)項(xiàng)】
      1.一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法,其特征在于,包括如下步驟: (1)網(wǎng)頁(yè)文檔預(yù)處理 計(jì)算句子之間的相似度,首先將網(wǎng)頁(yè)文檔中含有的信息轉(zhuǎn)換為文本文檔表示,將經(jīng)過(guò)劃分后的段落或句子等同定義為一個(gè)語(yǔ)言“單位; (2)相似度計(jì)算 利用正向迭代最細(xì)粒度切分算法分詞后的公共子詞語(yǔ)方式計(jì)算單位間的相似度; (3)權(quán)值計(jì)算 根據(jù)相似度,得到權(quán)值計(jì)算公式:Weight(unit-1)=ΣSim(unit-1,unit-j)(i#j),其中unit-1為需要計(jì)算權(quán)值的單位,Sim(unit-1,1111;[1:-」)為1111;[1:-;[與1111;[1:-」的相似度; (4)文檔標(biāo)題的選取的預(yù)處理 將整篇文本文檔以“\ η”劃分成多個(gè)語(yǔ)言單位,通過(guò)計(jì)算后,表示成Collect1rK <unit i,weight i> > sortList; (5)標(biāo)題的選取 ①首先對(duì)sortList按照文檔中的單位unit的權(quán)值Weighi/(unit)進(jìn)行升序排序; ②計(jì)算所有頂點(diǎn)的度數(shù)和TTCT以及權(quán)值大于等于A的頂點(diǎn)總個(gè)數(shù)PCT; ③計(jì)算平均度的閾值aveCT; ④選取sortList中序號(hào)idx較小的兩個(gè)語(yǔ)言單位作為候選標(biāo)題; ⑤比較兩個(gè)候選單位的權(quán)值,選取權(quán)值較大的單位作為抽取“真實(shí)標(biāo)題”的結(jié)果。2.按照權(quán)利要求1所述的一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法,其特征在于:所述步驟(2)中相似度計(jì)算的公式為 SimCunit-1,unit-2) =SimCset-1,set _2) =CsameCT* sameCT)/log( size (set-1)+(set-2)),其中 set_l, set -2 分別為需要計(jì)算的兩個(gè)單位unit-1和unit-2經(jīng)過(guò)迭代分詞后的詞語(yǔ)集合,sameCT為set-1和set _2兩個(gè)集合的共同詞語(yǔ)的次數(shù)之和,size (set)表示set集合的長(zhǎng)度。3.按照權(quán)利要求2所述的一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法,其特征在于:所述sameCT的計(jì)算公式為sameCT=ECTl(Wordi)+ECT2(Wordi) ,ffordi e set_l或Wordi e set-2。4.按照權(quán)利要求1所述的一種基于復(fù)雜網(wǎng)絡(luò)的灰度圖像識(shí)別方法,其特征在于:所述步驟(3)中權(quán)值計(jì)算后通過(guò)HITS算法模型進(jìn)行權(quán)值的加權(quán)調(diào)整。5.按照權(quán)利要求1所述的一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法,其特征在于:所述步驟(5)選取后對(duì)標(biāo)題抽取進(jìn)行評(píng)測(cè)。6.按照權(quán)利要求5所述的一種基于相似度的網(wǎng)頁(yè)標(biāo)題抽取方法,其特征在于:所述評(píng)測(cè)的公式為準(zhǔn)確率=(標(biāo)題抽取正確的HTML文檔數(shù)目/總的HTML文檔數(shù)目)*100%。
      【文檔編號(hào)】G06F17/22GK105930541SQ201610484263
      【公開(kāi)日】2016年9月7日
      【申請(qǐng)日】2016年6月28日
      【發(fā)明人】董雄飛
      【申請(qǐng)人】合肥酷睿網(wǎng)絡(luò)科技有限公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1