国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種網(wǎng)頁類別的識別方法和裝置的制造方法_3

      文檔序號:8487790閱讀:來源:國知局
      播放功能、圖像播放功能等)等;存儲(chǔ)數(shù)據(jù)區(qū)可存儲(chǔ)根據(jù)終端的使用所創(chuàng)建的數(shù)據(jù)(比如音頻數(shù)據(jù)、電話本等)等。此外,存儲(chǔ)器420可以包括高速隨機(jī)存取存儲(chǔ)器,還可以包括非易失性存儲(chǔ)器,例如至少一個(gè)磁盤存儲(chǔ)器件、閃存器件、或其他易失性固態(tài)存儲(chǔ)器件。
      [0105]輸入單元430可用于接收輸入的數(shù)字或字符信息,以及產(chǎn)生與終端的用戶設(shè)置以及功能控制有關(guān)的鍵信號輸入。具體地,輸入單元430可包括觸控面板431以及其他輸入設(shè)備432。觸控面板431,也稱為觸摸屏,可收集用戶在其上或附近的觸摸操作(比如用戶使用手指、觸筆等任何適合的物體或附件在觸控面板431上或在觸控面板431附近的操作),并根據(jù)預(yù)先設(shè)定的程式驅(qū)動(dòng)相應(yīng)的連接裝置??蛇x的,觸控面板431可包括觸摸檢測裝置和觸摸控制器兩個(gè)部分。其中,觸摸檢測裝置檢測用戶的觸摸方位,并檢測觸摸操作帶來的信號,將信號傳送給觸摸控制器;觸摸控制器從觸摸檢測裝置上接收觸摸信息,并將它轉(zhuǎn)換成觸點(diǎn)坐標(biāo),再送給處理器480,并能接收處理器480發(fā)來的命令并加以執(zhí)行。此外,可以采用電阻式、電容式、紅外線以及表面聲波等多種類型實(shí)現(xiàn)觸控面板431。除了觸控面板431,輸入單元430還可以包括其他輸入設(shè)備432。具體地,其他輸入設(shè)備432可以包括但不限于物理鍵盤、功能鍵(比如音量控制按鍵、開關(guān)按鍵等)、軌跡球、鼠標(biāo)、操作桿等中的一種或多種。
      [0106]顯示單元440可用于顯示由用戶輸入的信息或提供給用戶的信息以及終端的各種菜單。顯示單元440可包括顯示面板441,可選的,可以采用液晶顯示器(Liquid CrystalDisplay, IXD)、有機(jī)發(fā)光二極管(Organic Light-EmittingD1de, 0LED)等形式來配置顯示面板441。進(jìn)一步的,觸控面板431可覆蓋顯示面板441,當(dāng)觸控面板431檢測到在其上或附近的觸摸操作后,傳送給處理器480以確定觸摸事件的類型,隨后處理器480根據(jù)觸摸事件的類型在顯示面板441上提供相應(yīng)的視覺輸出。雖然在圖4中,觸控面板431與顯示面板441是作為兩個(gè)獨(dú)立的部件來實(shí)現(xiàn)終端的輸入和輸入功能,但是在某些實(shí)施例中,可以將觸控面板431與顯示面板441集成而實(shí)現(xiàn)終端的輸入和輸出功能。
      [0107]網(wǎng)絡(luò)模塊470可以包括無線保真(wireless fidelity,WiFi)模塊,有線網(wǎng)絡(luò)模塊或者射頻模塊,其中無線保真模塊屬于短距離無線傳輸技術(shù),終端通過網(wǎng)絡(luò)模塊470可以幫助用戶收發(fā)電子郵件、瀏覽網(wǎng)頁和訪問流式媒體等,它為用戶提供了無線的寬帶互聯(lián)網(wǎng)訪問。雖然圖4示出了網(wǎng)絡(luò)模塊470,但是可以理解的是,其并不屬于終端的必須構(gòu)成,完全可以根據(jù)需要在不改變發(fā)明的本質(zhì)的范圍內(nèi)而省略。
      [0108]處理器480是終端的控制中心,利用各種接口和線路連接整個(gè)終端的各個(gè)部分,通過運(yùn)行或執(zhí)行存儲(chǔ)在存儲(chǔ)器420內(nèi)的軟件程序和/或模塊,以及調(diào)用存儲(chǔ)在存儲(chǔ)器420內(nèi)的數(shù)據(jù),執(zhí)行終端的各種功能和處理數(shù)據(jù),從而對終端進(jìn)行整體監(jiān)控??蛇x的,處理器480可包括一個(gè)或多個(gè)處理單元;優(yōu)選的,處理器480可集成應(yīng)用處理器和調(diào)制解調(diào)處理器,其中,應(yīng)用處理器主要處理操作系統(tǒng)、用戶界面和應(yīng)用程序等,調(diào)制解調(diào)處理器主要處理無線通信??梢岳斫獾氖?,上述調(diào)制解調(diào)處理器也可以不集成到處理器480中。
      [0109]終端還包括給各個(gè)部件供電的電源490 (比如電池),優(yōu)選的,電源可以通過電源管理系統(tǒng)與處理器480邏輯相連,從而通過電源管理系統(tǒng)實(shí)現(xiàn)管理充電、放電、以及功耗管理等功能。
      [0110]盡管未示出,終端還可以包括攝像頭、藍(lán)牙模塊、音頻電路等,在此不再贅述。
      [0111]在本發(fā)明實(shí)施例中,該終端所包括的處理器480還具有以下功能:執(zhí)行網(wǎng)頁類別的識別方法,包括:
      [0112]獲取待識別網(wǎng)頁的頁面特征;
      [0113]根據(jù)預(yù)先生成的決策樹模型加載所述頁面特征,所述決策樹模型由已經(jīng)確定網(wǎng)頁類別的多個(gè)樣本網(wǎng)頁訓(xùn)練生成;
      [0114]遞歸遍歷所述決策樹模型,查找所述頁面特征對應(yīng)的決策樹葉子分類節(jié)點(diǎn),由所述葉子節(jié)點(diǎn)得到所述待識別網(wǎng)頁的網(wǎng)頁類別。
      [0115]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
      【主權(quán)項(xiàng)】
      1.一種網(wǎng)頁類別的識別方法,其特征在于,所述方法包括: 獲取待識別網(wǎng)頁的頁面特征; 根據(jù)預(yù)先生成的決策樹模型加載所述頁面特征,所述決策樹模型由已經(jīng)確定網(wǎng)頁類別的多個(gè)樣本網(wǎng)頁訓(xùn)練生成; 遞歸遍歷所述決策樹模型,查找所述頁面特征對應(yīng)的決策樹葉子分類節(jié)點(diǎn),由所述葉子節(jié)點(diǎn)得到所述待識別網(wǎng)頁的網(wǎng)頁類別。
      2.根據(jù)權(quán)利要求1所述方法,其特征在于,所述待識別網(wǎng)頁的頁面特征包括以下特征的一項(xiàng)或者多項(xiàng):網(wǎng)頁地址特征、網(wǎng)頁標(biāo)題特征、二級導(dǎo)航特征、文檔對象模型DOM樹結(jié)構(gòu)特征和數(shù)據(jù)塊特征。
      3.根據(jù)權(quán)利要求2所述方法,其特征在于,所述獲取待識別網(wǎng)頁的頁面特征步驟包括: 獲取所述待識別網(wǎng)頁的頁面地址; 根據(jù)所述待識別網(wǎng)頁的頁面地址,提取所述頁面地址中包含的日期信息、預(yù)設(shè)的分類敏感關(guān)鍵詞以及尾部數(shù)字串; 根據(jù)所述頁面地址中包括的路徑數(shù)據(jù)獲取所述頁面的首頁級數(shù)信息。
      4.根據(jù)權(quán)利要求2所述方法,其特征在于,所述獲取待識別網(wǎng)頁的頁面特征步驟包括: 獲取所述待識別網(wǎng)頁的源代碼,根據(jù)網(wǎng)頁源代碼的編碼規(guī)則提取所述待識別網(wǎng)頁的標(biāo)題; 根據(jù)預(yù)設(shè)的標(biāo)題分類關(guān)鍵詞庫,獲取所述標(biāo)題中包括的標(biāo)題分類關(guān)鍵詞。
      5.根據(jù)權(quán)利要求2所述方法,其特征在于,所述獲取待識別網(wǎng)頁的頁面特征步驟包括: 獲取所述待識別網(wǎng)頁的文檔對象模型DOM樹,判斷所述待識別網(wǎng)頁的文檔對象模型DOM樹是否包含二級導(dǎo)航; 如果所述待識別的網(wǎng)頁包含二級導(dǎo)航,則根據(jù)預(yù)設(shè)的導(dǎo)航分類關(guān)鍵詞庫查找所述二級導(dǎo)航中包括的關(guān)鍵詞。
      6.根據(jù)權(quán)利要求2所述方法,其特征在于,所述獲取待識別網(wǎng)頁的頁面特征步驟包括: 獲取所述待識別網(wǎng)頁的文檔對象模型DOM樹; 根據(jù)所述文檔對象模型DOM樹,提取所述待識別網(wǎng)頁的純文本節(jié)點(diǎn)個(gè)數(shù)、純文本長度、錨文本長度、純文本密度、圖片個(gè)數(shù)中的一個(gè)或者多個(gè)。
      7.根據(jù)權(quán)利要求2所述方法,其特征在于,所述獲取待識別網(wǎng)頁的頁面特征步驟包括: 獲取所述待識別網(wǎng)頁的文檔對象模型DOM樹; 根據(jù)所述文檔對象模型DOM樹,提取所述網(wǎng)頁中包括的標(biāo)題個(gè)數(shù)、頁面來源個(gè)數(shù),并判斷是否存在翻頁標(biāo)記。
      8.根據(jù)權(quán)利要求1所述方法,其特征在于,在所述根據(jù)預(yù)先生成的決策樹模型加載所述頁面特征步驟之前,所述方法還包括: 獲取已標(biāo)注網(wǎng)頁類別的網(wǎng)頁樣本; 根據(jù)所述標(biāo)注的網(wǎng)頁類別以及所述網(wǎng)頁樣本的頁面特征,采用分類回歸算法訓(xùn)練得到?jīng)Q策樹模型。
      9.一種網(wǎng)頁類別的識別裝置,其特征在于,所述裝置包括: 頁面特征獲取單元,用于獲取待識別網(wǎng)頁的頁面特征; 頁面特征加載單元,用于根據(jù)預(yù)先生成的決策樹模型加載所述頁面特征,所述決策樹模型由已經(jīng)確定網(wǎng)頁類別的多個(gè)樣本網(wǎng)頁訓(xùn)練生成; 遍歷查找單元,用于遞歸遍歷所述決策樹模型,查找所述頁面特征對應(yīng)的決策樹葉子分類節(jié)點(diǎn),由所述葉子節(jié)點(diǎn)得到所述待識別網(wǎng)頁的網(wǎng)頁類別。
      10.根據(jù)權(quán)利要求9所述裝置,其特征在于,所述待識別網(wǎng)頁的頁面特征包括以下特征的一項(xiàng)或者多項(xiàng):網(wǎng)頁地址特征、網(wǎng)頁標(biāo)題特征、二級導(dǎo)航特征、文檔對象模型樹結(jié)構(gòu)特征和數(shù)據(jù)塊特征。
      11.根據(jù)權(quán)利要求9所述裝置,其特征在于,所述裝置還包括: 網(wǎng)頁樣本獲取單元,用于獲取已標(biāo)注網(wǎng)頁類別的網(wǎng)頁樣本; 決策樹模型訓(xùn)練單元,用于根據(jù)所述網(wǎng)頁類別以及所述網(wǎng)頁樣本的頁面特征,采用分類回歸算法訓(xùn)練得到?jīng)Q策樹模型。
      【專利摘要】本發(fā)明適用于互聯(lián)網(wǎng)領(lǐng)域,提供了一種網(wǎng)頁類別的識別方法和裝置,該方法包括:獲取待識別網(wǎng)頁的頁面特征;根據(jù)預(yù)先生成的決策樹模型加載所述頁面特征,所述決策樹模型由已經(jīng)確定網(wǎng)頁類別的多個(gè)樣本網(wǎng)頁訓(xùn)練生成;遞歸遍歷所述決策樹模型,查找所述頁面特征對應(yīng)的決策樹葉子分類節(jié)點(diǎn),由所述葉子節(jié)點(diǎn)得到所述待識別網(wǎng)頁的網(wǎng)頁類別。通過獲取待識別網(wǎng)頁的頁面特征,并將獲取的頁面特征加載到預(yù)先生成的決策樹模型,而所述決策樹模型由已經(jīng)確定網(wǎng)頁類別的多個(gè)樣本網(wǎng)頁訓(xùn)練生成,從而能夠快速有效的查找到?jīng)Q策樹葉子分類節(jié)點(diǎn)對應(yīng)的網(wǎng)頁類別,便于對網(wǎng)頁內(nèi)容的抽取、用戶行為的分析和更好的在手機(jī)瀏覽器中展示頁面中的內(nèi)容。
      【IPC分類】G06F17-30
      【公開號】CN104809125
      【申請?zhí)枴緾N201410037520
      【發(fā)明人】黃鈺
      【申請人】騰訊科技(深圳)有限公司
      【公開日】2015年7月29日
      【申請日】2014年1月24日
      當(dāng)前第3頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
      1