国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種網(wǎng)頁(yè)類別的識(shí)別方法和裝置的制造方法_2

      文檔序號(hào):8487790閱讀:來(lái)源:國(guó)知局
      容所在頁(yè)面。在點(diǎn)擊設(shè)置了錨點(diǎn)的關(guān)鍵字,網(wǎng)頁(yè)就會(huì)跳轉(zhuǎn)到關(guān)鍵詞內(nèi)容所在頁(yè)面??梢酝ㄟ^文字所帶的鏈接屬性來(lái)判斷是否為錨文本。
      [0048]所述錨文本密度可以為當(dāng)前頁(yè)面中包括的錨文本的文本長(zhǎng)度占當(dāng)前頁(yè)面的總文字?jǐn)?shù)比例。
      [0049]另外,對(duì)于所述獲取待識(shí)別網(wǎng)頁(yè)的頁(yè)面特征步驟還可以包括:
      [0050]獲取所述待識(shí)別網(wǎng)頁(yè)的文檔對(duì)象模型DOM樹;
      [0051]根據(jù)所述文檔對(duì)象模型DOM樹,提取所述網(wǎng)頁(yè)中包括的標(biāo)題個(gè)數(shù)、頁(yè)面來(lái)源個(gè)數(shù),并判斷是否存在翻頁(yè)標(biāo)記。
      [0052]在遍歷文件對(duì)象模型DOM樹的同時(shí),還可以通過節(jié)點(diǎn)關(guān)鍵詞信息,查找頁(yè)面標(biāo)題個(gè)數(shù)、頁(yè)面來(lái)源個(gè)數(shù)和是否存在翻頁(yè)標(biāo)記。如可以查找DOM樹中的節(jié)點(diǎn)是否包括標(biāo)題關(guān)鍵詞如:〈head>〈/head>標(biāo)簽之間或者<title>〈/title>之間的標(biāo)題。
      [0053]在步驟S102中,根據(jù)預(yù)先生成的決策樹模型加載所述頁(yè)面特征,所述決策樹模型由已經(jīng)確定網(wǎng)頁(yè)類別的多個(gè)樣本網(wǎng)頁(yè)訓(xùn)練生成。
      [0054]通過預(yù)先采集的頁(yè)面樣本,對(duì)樣本頁(yè)面的特征進(jìn)行訓(xùn)練,生成決策樹模型,所述決策樹模型的葉子分類節(jié)點(diǎn)為網(wǎng)頁(yè)所對(duì)應(yīng)網(wǎng)頁(yè)類別,即文字正文頁(yè)或者圖片正文頁(yè)或者其它類頁(yè)面。通過對(duì)已標(biāo)注網(wǎng)頁(yè)類別的樣本網(wǎng)頁(yè),獲取其特征值進(jìn)行訓(xùn)練,將訓(xùn)練的結(jié)果不斷完善,可得到較優(yōu)的決策樹模型。所述樣本網(wǎng)頁(yè)的特征值,可與步驟SlOl中所述的特征值相同。
      [0055]所述訓(xùn)練生成決策樹模型的方法,包括但不限于分類回歸法,還可以包括如樸素貝葉斯NBC算法等。
      [0056]在步驟S103中,遞歸遍歷所述決策樹模型,查找所述頁(yè)面特征對(duì)應(yīng)的決策樹葉子分類節(jié)點(diǎn),由所述葉子節(jié)點(diǎn)得到所述待識(shí)別網(wǎng)頁(yè)的網(wǎng)頁(yè)類別。
      [0057]由步驟S102得到?jīng)Q策樹模型后,根據(jù)待識(shí)別網(wǎng)頁(yè)的頁(yè)面特征,根據(jù)決策樹中頁(yè)面特征的分布特點(diǎn),遍歷所述決策樹,查找到?jīng)Q策樹中葉子節(jié)點(diǎn),得到葉子節(jié)點(diǎn)所對(duì)應(yīng)的網(wǎng)頁(yè)類別。
      [0058]本發(fā)明實(shí)施例通過獲取待識(shí)別網(wǎng)頁(yè)的頁(yè)面特征,并將獲取的頁(yè)面特征加載到預(yù)先生成的決策樹模型,而所述決策樹模型由已經(jīng)確定網(wǎng)頁(yè)類別的多個(gè)樣本網(wǎng)頁(yè)訓(xùn)練生成,從而能夠快速有效的查找到?jīng)Q策樹葉子分類節(jié)點(diǎn)對(duì)應(yīng)的網(wǎng)頁(yè)類別,便于對(duì)網(wǎng)頁(yè)內(nèi)容的抽取、用戶行為的分析和更好的在手機(jī)瀏覽器中展示頁(yè)面中的內(nèi)容。
      [0059]實(shí)施例二:
      [0060]圖2示出了本發(fā)明第二實(shí)施例提供的一種網(wǎng)頁(yè)類別的識(shí)別方法的實(shí)現(xiàn)流程,詳述如下:
      [0061]在步驟S201中,獲取已標(biāo)注網(wǎng)頁(yè)類別的網(wǎng)頁(yè)樣本。
      [0062]所述標(biāo)注網(wǎng)頁(yè)類別的網(wǎng)頁(yè)樣本,可以預(yù)先由工作人員根據(jù)經(jīng)驗(yàn)識(shí)別后,標(biāo)注為文字正文頁(yè)或圖片正文頁(yè),還可以根據(jù)需要以及網(wǎng)頁(yè)的具體內(nèi)容,將用于訓(xùn)練的網(wǎng)頁(yè)樣本標(biāo)注為其它類別。
      [0063]在步驟S202中,根據(jù)所述網(wǎng)頁(yè)類別以及所述網(wǎng)頁(yè)樣本的頁(yè)面特征,采用分類回歸算法訓(xùn)練得到?jīng)Q策樹模型。
      [0064]作為一種優(yōu)選的實(shí)施方式,可以根據(jù)所述網(wǎng)頁(yè)類別以及所述網(wǎng)頁(yè)樣本的頁(yè)面特征,采用遞歸的方法將樣本劃分為多個(gè)較小的子集。通過增益信息選擇決策樹模型中各個(gè)節(jié)點(diǎn)所對(duì)應(yīng)的較佳頁(yè)面特征,采用分類回歸算法訓(xùn)練得到?jīng)Q策樹模型,當(dāng)然還可以采用其它數(shù)據(jù)挖掘算法。
      [0065]所述分類回歸CART (英文全稱為 Classificat1n And Regress1n Tree)算法米用一種二分遞歸分割的技術(shù),將當(dāng)前的樣本集分為兩個(gè)子樣本集,使得生成的決策樹的每個(gè)非葉子節(jié)點(diǎn)都有兩個(gè)分支。
      [0066]所述增益信息,可以包括基尼GINI指數(shù)等。其中基尼GINI指數(shù)用來(lái)判斷決策模型的類別的雜亂程度,系數(shù)越大表示越混亂,其定義與熵的定義相同。通過對(duì)所述指數(shù)的增益信息進(jìn)行比較,選擇較優(yōu)的頁(yè)面特征構(gòu)成決策樹模型。
      [0067]在步驟S203中,獲取待識(shí)別網(wǎng)頁(yè)的頁(yè)面特征。
      [0068]在步驟S204中,根據(jù)預(yù)先生成的決策樹模型加載所述頁(yè)面特征。
      [0069]在步驟S205中,遞歸遍歷所述決策樹模型,查找所述頁(yè)面特征對(duì)應(yīng)的決策樹葉子分類節(jié)點(diǎn),由所述葉子節(jié)點(diǎn)得到所述待識(shí)別網(wǎng)頁(yè)的網(wǎng)頁(yè)類別。
      [0070]所述步驟S203至步驟S205與實(shí)施例一中所述步驟SlOl至步驟S103相同,在此不作重復(fù)贅述。
      [0071]在本發(fā)明實(shí)施例所述決策樹模型的評(píng)估實(shí)驗(yàn)中,采用訓(xùn)練樣本2828條,其中文字正文頁(yè)659條,圖片正文頁(yè)681條,其它類頁(yè)面1488條,根據(jù)訓(xùn)練樣本生成決策樹模型,并進(jìn)行交叉驗(yàn)證,得到模型的準(zhǔn)確率為90%以上,符合預(yù)定的識(shí)別精度要求。
      [0072]本發(fā)明實(shí)施例與實(shí)施例一相比,通過采用分類回歸算法,由預(yù)先標(biāo)注好的樣本網(wǎng)頁(yè)進(jìn)行決策樹模型的訓(xùn)練,還包括對(duì)決策樹型的進(jìn)一步優(yōu)化,使能夠得到更為精確的識(shí)別結(jié)果。
      [0073]實(shí)施例三:
      [0074]圖3示出了本發(fā)明第三實(shí)施例提供的一種網(wǎng)頁(yè)類別的識(shí)別裝置的結(jié)構(gòu)框圖,詳述如下:
      [0075]本發(fā)明實(shí)施例所述網(wǎng)頁(yè)類別的識(shí)別裝置包括:
      [0076]頁(yè)面特征獲取單元301,用于獲取待識(shí)別網(wǎng)頁(yè)的頁(yè)面特征;
      [0077]頁(yè)面特征加載單元302,用于根據(jù)預(yù)先生成的決策樹模型加載所述頁(yè)面特征,所述決策樹模型由已經(jīng)確定網(wǎng)頁(yè)類別的多個(gè)樣本網(wǎng)頁(yè)訓(xùn)練生成;
      [0078]遍歷查找單元303,用于遞歸遍歷所述決策樹模型,查找所述頁(yè)面特征對(duì)應(yīng)的決策樹葉子分類節(jié)點(diǎn),由所述葉子節(jié)點(diǎn)得到所述待識(shí)別網(wǎng)頁(yè)的網(wǎng)頁(yè)類別。
      [0079]具體的,所述待識(shí)別網(wǎng)頁(yè)的頁(yè)面特征包括以下特征的一項(xiàng)或者多項(xiàng):網(wǎng)頁(yè)地址特征、網(wǎng)頁(yè)標(biāo)題特征、二級(jí)導(dǎo)航特征、文檔對(duì)象模型樹結(jié)構(gòu)特征和數(shù)據(jù)塊特征。
      [0080]更進(jìn)一步的,所述頁(yè)面特征獲取單元可用于以下一項(xiàng)或者多項(xiàng)頁(yè)面特征的獲取:
      [0081]1、用于獲取頁(yè)面地址特征,具體包括:
      [0082]獲取所述待識(shí)別網(wǎng)頁(yè)的頁(yè)面地址;
      [0083]根據(jù)所述待識(shí)別網(wǎng)頁(yè)的頁(yè)面地址,提取所述頁(yè)面地址中包含的日期信息、預(yù)設(shè)的分類敏感關(guān)鍵詞以及尾部數(shù)字串;
      [0084]根據(jù)所述頁(yè)面地址中包括的路徑數(shù)據(jù)獲取所述頁(yè)面的首頁(yè)級(jí)數(shù)信息。
      [0085]2、用于獲取網(wǎng)頁(yè)的標(biāo)題特征,具體包括:
      [0086]獲取所述待識(shí)別網(wǎng)頁(yè)的源代碼,根據(jù)網(wǎng)頁(yè)源代碼的編碼規(guī)則提取所述待識(shí)別網(wǎng)頁(yè)的標(biāo)題;
      [0087]根據(jù)預(yù)設(shè)的標(biāo)題分類關(guān)鍵詞庫(kù),獲取所述標(biāo)題中包括的標(biāo)題分類關(guān)鍵詞。
      [0088]3、用于獲取二級(jí)導(dǎo)航特征,具體包括:
      [0089]獲取所述待識(shí)別網(wǎng)頁(yè)的文檔對(duì)象模型DOM樹,判斷所述待識(shí)別網(wǎng)頁(yè)的文檔對(duì)象模型DOM樹是否包含二級(jí)導(dǎo)航;
      [0090]如果所述待識(shí)別的網(wǎng)頁(yè)包含二級(jí)導(dǎo)航,則根據(jù)預(yù)設(shè)的導(dǎo)航分類關(guān)鍵詞庫(kù)查找所述二級(jí)導(dǎo)航中包括的關(guān)鍵詞。
      [0091]4、用于獲取網(wǎng)頁(yè)的文本符號(hào)特征,具體包括:
      [0092]獲取所述待識(shí)別網(wǎng)頁(yè)的文檔對(duì)象模型DOM樹;
      [0093]根據(jù)所述文檔對(duì)象模型DOM樹,提取所述待識(shí)別網(wǎng)頁(yè)的純文本節(jié)點(diǎn)個(gè)數(shù)、純文本長(zhǎng)度、錨文本長(zhǎng)度、純文本密度、圖片個(gè)數(shù)中的一個(gè)或者多個(gè)。
      [0094]5、用于獲取網(wǎng)頁(yè)的頁(yè)面信息特征,具體包括:
      [0095]獲取所述待識(shí)別網(wǎng)頁(yè)的文檔對(duì)象模型DOM樹;
      [0096]根據(jù)所述文檔對(duì)象模型DOM樹,提取所述網(wǎng)頁(yè)中包括的標(biāo)題個(gè)數(shù)、頁(yè)面來(lái)源個(gè)數(shù),并判斷是否存在翻頁(yè)標(biāo)記。
      [0097]進(jìn)一步優(yōu)選的,所述裝置還包括:
      [0098]網(wǎng)頁(yè)樣本獲取單元304,用于獲取已標(biāo)注網(wǎng)頁(yè)類別的網(wǎng)頁(yè)樣本;
      [0099]決策樹模型訓(xùn)練單元305,用于根據(jù)所述網(wǎng)頁(yè)類別以及所述網(wǎng)頁(yè)樣本的頁(yè)面特征,采用分類回歸算法訓(xùn)練得到?jīng)Q策樹模型。
      [0100]本發(fā)明實(shí)施所述例網(wǎng)頁(yè)類別的識(shí)別裝置與實(shí)施例一和實(shí)施例二所述網(wǎng)頁(yè)類別的識(shí)別方法相對(duì)應(yīng),在此不作重復(fù)贅述。
      [0101]實(shí)施例四:
      [0102]圖4為本發(fā)明第四實(shí)施例提供的終端的結(jié)構(gòu)框圖,本實(shí)施例所述終端,包括:存儲(chǔ)器420、輸入單元430、顯示單元440、網(wǎng)絡(luò)模塊470、處理器480、以及電源490等部件。本領(lǐng)域技術(shù)人員可以理解,圖4中示出的終端結(jié)構(gòu)并不構(gòu)成對(duì)終端的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置。
      [0103]下面結(jié)合圖4對(duì)終端的各個(gè)構(gòu)成部件進(jìn)行具體的介紹:
      [0104]存儲(chǔ)器420可用于存儲(chǔ)軟件程序以及模塊,處理器480通過運(yùn)行存儲(chǔ)在存儲(chǔ)器420的軟件程序以及模塊,從而執(zhí)行終端的各種功能應(yīng)用以及數(shù)據(jù)處理。存儲(chǔ)器420可主要包括存儲(chǔ)程序區(qū)和存儲(chǔ)數(shù)據(jù)區(qū),其中,存儲(chǔ)程序區(qū)可存儲(chǔ)操作系統(tǒng)、至少一個(gè)功能所需的應(yīng)用程序(比如聲音
      當(dāng)前第2頁(yè)1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1