国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      網(wǎng)頁數(shù)據(jù)融合方法和裝置的制造方法

      文檔序號(hào):9261465閱讀:435來源:國(guó)知局
      網(wǎng)頁數(shù)據(jù)融合方法和裝置的制造方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明實(shí)施例涉及網(wǎng)絡(luò)技術(shù),尤其涉及一種網(wǎng)頁數(shù)據(jù)融合方法和裝置。
      【背景技術(shù)】
      [0002]現(xiàn)有技術(shù)中,搜索引擎上存在大量音樂類需求,包括歌手的作品、專輯、歌曲等,受限于版權(quán),目前沒有任何一家音樂網(wǎng)站可以單獨(dú)提供所有音樂數(shù)據(jù),而用戶在搜索引擎上進(jìn)行音樂需求的搜索時(shí),搜索引擎呈現(xiàn)給用戶的搜索結(jié)果僅由一家音樂網(wǎng)站提供,僅一家音樂網(wǎng)站的歌曲資源不能滿足用戶的需求,因此需要融合多家音樂網(wǎng)站的音樂數(shù)據(jù)。
      [0003]數(shù)據(jù)融合技術(shù)是指利用計(jì)算機(jī)對(duì)按時(shí)序獲得的若干信息,在一定準(zhǔn)則下加以自動(dòng)分析、綜合,以完成所需的決策和評(píng)估任務(wù)而進(jìn)行的信息處理技術(shù)?,F(xiàn)有技術(shù)中,數(shù)據(jù)融合技術(shù)普遍采用以下三種方案來解決:
      [0004](I)屬性值比較相似度。通過設(shè)置一些比較的屬性,然后對(duì)設(shè)置的屬性進(jìn)行比較并打分,根據(jù)最后分?jǐn)?shù)的加權(quán),作為判斷融合的條件。主要的比較方法有字符串完全匹配、加權(quán)編輯距離相似度、Jaro-Winkler相似度、2-GRAM相似度等。
      [0005](2)集合比較相似度。集合比較主要用于多值比較,目前有以下方法,精確匹配,集合交集除以較小集合,集合交集除以集合并集,2*集合交集/兩個(gè)集合大小之和。
      [0006](3)關(guān)鍵屬性比較。在計(jì)算中,設(shè)置關(guān)鍵的屬性,并對(duì)設(shè)置的屬性進(jìn)行比較。該方案強(qiáng)依賴于設(shè)置的屬性,關(guān)鍵屬性越多,準(zhǔn)確上升,召回下降;反之亦然。
      [0007]上述三種方案均是基于屬性的融合,對(duì)數(shù)據(jù)的屬性進(jìn)行相似度的計(jì)算,主要通過對(duì)重點(diǎn)屬性打分,然后將各個(gè)屬性的分值進(jìn)行累加,計(jì)算兩個(gè)實(shí)體之間的相似度。存在的缺陷在于在數(shù)據(jù)實(shí)體本身屬性缺失比較嚴(yán)重的情況下,數(shù)據(jù)融合的準(zhǔn)確率比較低。

      【發(fā)明內(nèi)容】

      [0008]有鑒于此,本發(fā)明實(shí)施例提供一種網(wǎng)頁數(shù)據(jù)融合方法和裝置,以提高數(shù)據(jù)融合的準(zhǔn)確率。
      [0009]第一方面,本發(fā)明實(shí)施例提供了一種網(wǎng)頁數(shù)據(jù)融合方法,所述方法包括:
      [0010]對(duì)待融合的至少兩個(gè)基礎(chǔ)網(wǎng)頁,通過語義識(shí)別提取基礎(chǔ)實(shí)體的信息;
      [0011]對(duì)于基礎(chǔ)實(shí)體的信息相同的至少兩個(gè)基礎(chǔ)網(wǎng)頁,根據(jù)各基礎(chǔ)網(wǎng)頁中包括的超級(jí)鏈接關(guān)系,獲取各基礎(chǔ)網(wǎng)頁的鏈接網(wǎng)頁;
      [0012]將鏈接網(wǎng)頁滿足設(shè)定融合條件的至少兩個(gè)基礎(chǔ)網(wǎng)頁進(jìn)行融合。
      [0013]第二方面,本發(fā)明實(shí)施例還提供了一種網(wǎng)頁數(shù)據(jù)融合裝置,所述裝置包括:
      [0014]基礎(chǔ)實(shí)體提取模塊,用于對(duì)待融合的至少兩個(gè)基礎(chǔ)網(wǎng)頁,通過語義識(shí)別提取基礎(chǔ)實(shí)體的信息;
      [0015]鏈接網(wǎng)頁獲取模塊,用于對(duì)于基礎(chǔ)實(shí)體的信息相同的至少兩個(gè)基礎(chǔ)網(wǎng)頁,根據(jù)各基礎(chǔ)網(wǎng)頁中包括的超級(jí)鏈接關(guān)系,獲取各基礎(chǔ)網(wǎng)頁的鏈接網(wǎng)頁;
      [0016]基礎(chǔ)網(wǎng)頁融合模塊,用于將鏈接網(wǎng)頁滿足設(shè)定融合條件的至少兩個(gè)基礎(chǔ)網(wǎng)頁進(jìn)行融合。
      [0017]本發(fā)明實(shí)施例通過當(dāng)基礎(chǔ)實(shí)體的信息相同的至少兩個(gè)基礎(chǔ)網(wǎng)頁的鏈接網(wǎng)頁滿足設(shè)定融合條件時(shí),將所述至少兩個(gè)基礎(chǔ)網(wǎng)頁進(jìn)行融合,不只考慮了基礎(chǔ)網(wǎng)頁的自身屬性,還融入了基礎(chǔ)網(wǎng)頁的鏈接網(wǎng)頁的屬性,提高了數(shù)據(jù)融合的準(zhǔn)確率。
      【附圖說明】
      [0018]圖1是本發(fā)明實(shí)施例一提供的一種網(wǎng)頁數(shù)據(jù)融合方法的流程圖;
      [0019]圖2是本發(fā)明實(shí)施例二提供的一種網(wǎng)頁數(shù)據(jù)融合方法的流程圖;
      [0020]圖3是本發(fā)明實(shí)施例三提供的一種網(wǎng)頁數(shù)據(jù)融合方法的流程圖;
      [0021]圖4是本發(fā)明實(shí)施例四提供的一種網(wǎng)頁數(shù)據(jù)融合裝置的示意圖。
      【具體實(shí)施方式】
      [0022]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明??梢岳斫獾氖?,此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。
      [0023]實(shí)施例一
      [0024]圖1是本發(fā)明實(shí)施例一提供的一種網(wǎng)頁數(shù)據(jù)融合方法的流程圖,本實(shí)施例可適用于對(duì)網(wǎng)頁數(shù)據(jù)進(jìn)行融合的情況,該方法可以由后臺(tái)服務(wù)器來執(zhí)行,具體包括如下步驟:
      [0025]步驟110,對(duì)待融合的至少兩個(gè)基礎(chǔ)網(wǎng)頁,通過語義識(shí)別提取基礎(chǔ)實(shí)體的信息。
      [0026]對(duì)待融合的至少兩個(gè)基礎(chǔ)網(wǎng)頁,首先對(duì)所述至少兩個(gè)基礎(chǔ)網(wǎng)頁的標(biāo)題進(jìn)行分詞,然后進(jìn)行語義識(shí)別,提取出所述至少兩個(gè)基礎(chǔ)網(wǎng)頁中的基礎(chǔ)實(shí)體的信息。如在音樂網(wǎng)頁中,基礎(chǔ)實(shí)體的信息包括專輯名稱、歌手名稱或歌曲名稱等,在電影視頻網(wǎng)頁中,基礎(chǔ)實(shí)體的信息可以包括電影名稱、演員名稱或?qū)а菝Q等。
      [0027]步驟120,對(duì)于基礎(chǔ)實(shí)體的信息相同的至少兩個(gè)基礎(chǔ)網(wǎng)頁,根據(jù)各基礎(chǔ)網(wǎng)頁中包括的超級(jí)鏈接關(guān)系,獲取各基礎(chǔ)網(wǎng)頁的鏈接網(wǎng)頁。
      [0028]每個(gè)基礎(chǔ)網(wǎng)頁中都會(huì)包括一些超級(jí)鏈接關(guān)系,所述超級(jí)鏈接關(guān)系中包括了鏈接網(wǎng)頁的URL(Uniform Resource Locator,統(tǒng)一資源定位符)地址,通過該URL地址可以得到鏈接網(wǎng)頁。其中,URL是對(duì)可以從互聯(lián)網(wǎng)上得到的資源的位置和訪問方法的一種簡(jiǎn)潔的表示,是互聯(lián)網(wǎng)上標(biāo)準(zhǔn)資源的地址。
      [0029]通過比較至少兩個(gè)基礎(chǔ)網(wǎng)頁的基礎(chǔ)實(shí)體的信息,當(dāng)兩個(gè)或兩個(gè)以上的基礎(chǔ)網(wǎng)頁的基礎(chǔ)實(shí)體的信息相同時(shí),則根據(jù)各基礎(chǔ)網(wǎng)頁中包括的超級(jí)鏈接關(guān)系,獲取各基礎(chǔ)網(wǎng)頁的鏈接網(wǎng)頁的URL地址,通過鏈接網(wǎng)頁的URL地址獲取各基礎(chǔ)網(wǎng)頁的鏈接網(wǎng)頁。
      [0030]步驟130,將鏈接網(wǎng)頁滿足設(shè)定融合條件的至少兩個(gè)基礎(chǔ)網(wǎng)頁進(jìn)行融合。
      [0031]設(shè)定融合條件可以根據(jù)需要進(jìn)行設(shè)定,如鏈接網(wǎng)頁的數(shù)量大于10。
      [0032]當(dāng)至少兩個(gè)基礎(chǔ)網(wǎng)頁的鏈接網(wǎng)頁滿足設(shè)定融合條件時(shí),將至少兩個(gè)基礎(chǔ)網(wǎng)頁融合為一個(gè)網(wǎng)頁。
      [0033]本實(shí)施例的技術(shù)方案,通過對(duì)待融合的至少兩個(gè)基礎(chǔ)網(wǎng)頁,通過語義識(shí)別提取基礎(chǔ)實(shí)體的信息;對(duì)于基礎(chǔ)實(shí)體的信息相同的至少兩個(gè)基礎(chǔ)網(wǎng)頁,根據(jù)各基礎(chǔ)網(wǎng)頁中包括的超級(jí)鏈接關(guān)系,獲取各基礎(chǔ)網(wǎng)頁的鏈接網(wǎng)頁;將鏈接網(wǎng)頁滿足設(shè)定融合條件的至少兩個(gè)基礎(chǔ)網(wǎng)頁進(jìn)行融合,通過當(dāng)基礎(chǔ)實(shí)體的信息相同的至少兩個(gè)基礎(chǔ)網(wǎng)頁的鏈接網(wǎng)頁滿足設(shè)定融合條件時(shí),將所述至少兩個(gè)基礎(chǔ)網(wǎng)頁進(jìn)行融合,不只考慮了基礎(chǔ)網(wǎng)頁的自身屬性,還融入了基礎(chǔ)網(wǎng)頁的鏈接網(wǎng)頁的屬性,提高了數(shù)據(jù)融合的準(zhǔn)確率。
      [0034]實(shí)施例二
      [0035]圖2是本發(fā)明實(shí)施例二提供的一種網(wǎng)頁數(shù)據(jù)融合方法的流程圖,具體包括如下步驟:
      [0036]步驟210,對(duì)待融合的至少兩個(gè)基礎(chǔ)網(wǎng)頁,通過語義識(shí)別提取基礎(chǔ)實(shí)體的信息。
      [0037]步驟220,對(duì)于基礎(chǔ)實(shí)體的信息相同的至少兩個(gè)基礎(chǔ)網(wǎng)頁,根據(jù)各基礎(chǔ)網(wǎng)頁中包括的超級(jí)鏈接關(guān)系,獲取各基礎(chǔ)網(wǎng)頁的鏈接網(wǎng)頁。
      [0038]步驟230,將鏈接網(wǎng)頁滿足設(shè)定融合條件的至少兩個(gè)基礎(chǔ)網(wǎng)頁進(jìn)行融合。
      [0039]步驟240,為融合的基礎(chǔ)網(wǎng)頁分配URI,以所述URI替換所述基礎(chǔ)網(wǎng)頁的URL。
      [0040]其中,URI (Uniform Resource Identifier,統(tǒng)一資源標(biāo)識(shí)符)是用于標(biāo)識(shí)融合后網(wǎng)頁的字符串,為融合后網(wǎng)頁的唯一標(biāo)識(shí)。URI也可以稱為組標(biāo)識(shí),即在該標(biāo)識(shí)對(duì)應(yīng)的組中,包括至少兩個(gè)基礎(chǔ)網(wǎng)頁,每個(gè)組可以用數(shù)組的方式,存儲(chǔ)各基礎(chǔ)網(wǎng)頁的URL。
      [0041]對(duì)基礎(chǔ)網(wǎng)頁進(jìn)行融合后,為基礎(chǔ)網(wǎng)頁分配URI,以所述URI替換該融合的基礎(chǔ)網(wǎng)頁的URL。通過為融合的基礎(chǔ)網(wǎng)頁分配URI,可以加快后續(xù)對(duì)鏈接網(wǎng)頁中包括該URI的基礎(chǔ)網(wǎng)頁的融合速度,同時(shí)進(jìn)一步提高融合的準(zhǔn)確率。
      [0042]本實(shí)施例通過基礎(chǔ)實(shí)體的信息相同的至少兩個(gè)基礎(chǔ)網(wǎng)頁的鏈接網(wǎng)頁滿足設(shè)定融合條件時(shí),將所述至少兩個(gè)基礎(chǔ)網(wǎng)頁進(jìn)行融合,為融合后的基礎(chǔ)網(wǎng)頁分配URI,以所述URI替換所述基礎(chǔ)網(wǎng)頁的URL,可以加快后續(xù)對(duì)鏈接網(wǎng)頁中包括該URI的基礎(chǔ)網(wǎng)頁的融合速度,同時(shí)進(jìn)一步提高融合的準(zhǔn)確率。
      [0043]在上述技術(shù)方案的基礎(chǔ)上,將鏈接網(wǎng)頁滿足設(shè)定融合條件的至少兩個(gè)基礎(chǔ)網(wǎng)頁進(jìn)行融合優(yōu)選包括:
      [0044]如果各基礎(chǔ)網(wǎng)頁的鏈接網(wǎng)頁中包括相同的URI,則將各基礎(chǔ)網(wǎng)頁進(jìn)行融合。
      [0045]如果基礎(chǔ)網(wǎng)頁的鏈接網(wǎng)頁已經(jīng)進(jìn)行過融合,則已經(jīng)為鏈接網(wǎng)頁分配了 URI。當(dāng)至少兩個(gè)基礎(chǔ)網(wǎng)頁的鏈接網(wǎng)頁中包括相同的URI時(shí),說明所述至少兩個(gè)基礎(chǔ)網(wǎng)頁的鏈接網(wǎng)頁屬于同一組,則所述至少兩個(gè)基礎(chǔ)網(wǎng)頁也屬于同一組,將所述至少兩個(gè)基礎(chǔ)網(wǎng)頁進(jìn)行融合。通過鏈接網(wǎng)頁中包括相同的URI時(shí),將各基礎(chǔ)網(wǎng)頁進(jìn)行融合,進(jìn)一步提高了融合的準(zhǔn)確率,同時(shí)提高了融合的效率。
      [0046]實(shí)施例三
      [0047]圖3是本發(fā)明實(shí)施例三提供的一種網(wǎng)頁數(shù)據(jù)融合方法的流程圖,具體包括如下步驟:
      [0048]步驟310,對(duì)待融合的至少兩個(gè)基礎(chǔ)網(wǎng)頁,通過語義識(shí)別提取基礎(chǔ)實(shí)體的信息。
      [0049]步驟320,對(duì)于基礎(chǔ)實(shí)體的信息相同的至少兩個(gè)基礎(chǔ)網(wǎng)頁,根據(jù)各基礎(chǔ)網(wǎng)頁中包括的超級(jí)鏈接關(guān)系,獲取各基礎(chǔ)網(wǎng)頁的鏈接網(wǎng)頁。
      [0050]步驟330,對(duì)所述鏈接網(wǎng)頁進(jìn)行語義識(shí)別,提取鏈接實(shí)
      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1