国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種網(wǎng)頁(yè)分類方法及裝置的制造方法

      文檔序號(hào):9750822閱讀:268來(lái)源:國(guó)知局
      一種網(wǎng)頁(yè)分類方法及裝置的制造方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及互聯(lián)網(wǎng)通訊技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)頁(yè)分類方法及裝置。
      【背景技術(shù)】
      [0002] 網(wǎng)頁(yè)分類是當(dāng)下互聯(lián)網(wǎng)應(yīng)用中的一個(gè)熱點(diǎn)問(wèn)題。對(duì)網(wǎng)頁(yè)進(jìn)行分類,可以以此來(lái)對(duì) 用戶訪問(wèn)網(wǎng)頁(yè)的記錄進(jìn)行分析,從而得出用戶的上網(wǎng)偏好,以便進(jìn)一步給用戶提供基于該 偏好的互聯(lián)網(wǎng)服務(wù)。
      [0003] 網(wǎng)頁(yè)分類的結(jié)果一般由爬蟲(chóng)系統(tǒng)進(jìn)行爬取后,保存在數(shù)據(jù)存儲(chǔ)系統(tǒng)中。但由于互 聯(lián)網(wǎng)上的網(wǎng)頁(yè)數(shù)量非常龐大,隨著爬取到的網(wǎng)頁(yè)數(shù)目增加,數(shù)據(jù)的查詢和分析會(huì)越來(lái)越慢。
      [0004] 目前已存在許多網(wǎng)頁(yè)分類的方法,都需要解析網(wǎng)頁(yè)正文內(nèi)容進(jìn)行分類,而且還需 要將網(wǎng)頁(yè)和類別的對(duì)應(yīng)關(guān)系進(jìn)行記錄,導(dǎo)致網(wǎng)頁(yè)分類的效率低下;另外,由于解析網(wǎng)頁(yè)正文 需要大量的分析和計(jì)算,對(duì)系統(tǒng)性能有影響。

      【發(fā)明內(nèi)容】

      [0005] 本發(fā)明要解決的主要技術(shù)問(wèn)題是,提供一種網(wǎng)頁(yè)分類方法及裝置,能夠解決采用 目前網(wǎng)頁(yè)分類方法對(duì)進(jìn)行網(wǎng)頁(yè)分類的效率低下的問(wèn)題。
      [0006] 為解決上述技術(shù)問(wèn)題,本發(fā)明提供一種網(wǎng)頁(yè)分類方法,包括如下步驟:
      [0007] 根據(jù)網(wǎng)頁(yè)樣本集合建立特征詞分類器,所述網(wǎng)頁(yè)地址樣本合集包括:多個(gè)樣本網(wǎng) 頁(yè)地址和各所述樣本網(wǎng)頁(yè)地址對(duì)應(yīng)的網(wǎng)頁(yè)類型;
      [0008] 獲取預(yù)定數(shù)量的網(wǎng)頁(yè)地址,通過(guò)所述特征詞分類器確定每個(gè)所述網(wǎng)頁(yè)地址所屬的 所述網(wǎng)頁(yè)類型;
      [0009] 對(duì)確定出網(wǎng)頁(yè)類型的所述網(wǎng)頁(yè)地址進(jìn)行去冗余處理得到結(jié)構(gòu)字符串,所述結(jié)構(gòu)字 符串為網(wǎng)頁(yè)地址結(jié)構(gòu);
      [0010] 存儲(chǔ)所述網(wǎng)頁(yè)地址結(jié)構(gòu)及其對(duì)應(yīng)的所述網(wǎng)頁(yè)類型;
      [0011] 在對(duì)網(wǎng)頁(yè)進(jìn)行分類時(shí),獲取待分類網(wǎng)頁(yè)的網(wǎng)頁(yè)地址,對(duì)該網(wǎng)頁(yè)地址進(jìn)行去冗余處 理得到對(duì)應(yīng)的網(wǎng)頁(yè)地址結(jié)構(gòu),利用該網(wǎng)頁(yè)地址結(jié)構(gòu)從存儲(chǔ)中查找出所述待分類網(wǎng)頁(yè)所屬的 網(wǎng)頁(yè)類型。
      [0012] 進(jìn)一步地,所述根據(jù)網(wǎng)頁(yè)樣本集合建立特征詞分類器的步驟包括:
      [0013] 對(duì)所述多個(gè)樣本網(wǎng)頁(yè)地址對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容進(jìn)行分詞處理獲取多個(gè)特征詞;
      [0014] 獲取每個(gè)所述特征詞屬于各所述網(wǎng)頁(yè)類型的概率;
      [0015] 根據(jù)獲取結(jié)果形成所述特征詞分類器。
      [0016] 進(jìn)一步地,所述通過(guò)所述特征詞分類器確定所述網(wǎng)頁(yè)地址所屬的所述網(wǎng)頁(yè)類型的 步驟包括:
      [0017] 從所述網(wǎng)頁(yè)地址對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中提取關(guān)鍵詞;
      [0018] 根據(jù)所述特征詞分類器計(jì)算所述關(guān)鍵詞屬于每個(gè)所述網(wǎng)頁(yè)類型的概率;
      [0019] 根據(jù)計(jì)算結(jié)果確定所述網(wǎng)頁(yè)地址所屬的所述網(wǎng)頁(yè)類型。
      [0020] 進(jìn)一步地,所述存儲(chǔ)所述網(wǎng)頁(yè)地址結(jié)構(gòu)及其對(duì)應(yīng)的所述網(wǎng)頁(yè)類型的步驟包括:
      [0021] 統(tǒng)計(jì)每種所述網(wǎng)頁(yè)地址結(jié)構(gòu)屬于各個(gè)所述網(wǎng)頁(yè)類型的次數(shù);
      [0022] 根據(jù)統(tǒng)計(jì)結(jié)果重新確定每種所述網(wǎng)頁(yè)地址結(jié)構(gòu)所屬的網(wǎng)頁(yè)類型;
      [0023] 存儲(chǔ)每種網(wǎng)頁(yè)地址結(jié)構(gòu)及其對(duì)應(yīng)的網(wǎng)頁(yè)類型。
      [0024] 進(jìn)一步地,所述根據(jù)統(tǒng)計(jì)結(jié)果重新確定每種所述網(wǎng)頁(yè)地址結(jié)構(gòu)所屬的網(wǎng)頁(yè)類型的 步驟包括:
      [0025] 根據(jù)所述網(wǎng)頁(yè)地址屬于各個(gè)所述網(wǎng)頁(yè)類型的次數(shù)計(jì)算出該網(wǎng)頁(yè)地址屬于各個(gè)所 述網(wǎng)頁(yè)類型的概率;
      [0026] 根據(jù)計(jì)算出的概率確定該網(wǎng)頁(yè)地址結(jié)構(gòu)所屬的網(wǎng)頁(yè)類型;
      [0027] 或者
      [0028] 當(dāng)所述網(wǎng)頁(yè)地址結(jié)構(gòu)為子目錄網(wǎng)頁(yè)地址結(jié)構(gòu)時(shí),根據(jù)該子目錄地址結(jié)構(gòu)屬于各個(gè) 所述網(wǎng)頁(yè)類型的次數(shù)計(jì)算出該子目錄地址結(jié)構(gòu)屬于各個(gè)所述網(wǎng)頁(yè)類型的概率;根據(jù)計(jì)算出 的概率確定該子目錄地址結(jié)構(gòu)所屬的網(wǎng)頁(yè)類型;
      [0029] 當(dāng)所述網(wǎng)頁(yè)地址結(jié)構(gòu)為上層目錄網(wǎng)頁(yè)地址結(jié)構(gòu)并且存在其下的子目錄網(wǎng)頁(yè)地址 結(jié)構(gòu)時(shí),根據(jù)所述上層目錄網(wǎng)頁(yè)地址下的所述子目錄網(wǎng)頁(yè)地址結(jié)構(gòu)所屬的所述網(wǎng)頁(yè)類型確 定所述上層目錄網(wǎng)頁(yè)地址結(jié)構(gòu)所屬的所述網(wǎng)頁(yè)類型。
      [0030] 進(jìn)一步地,所述存儲(chǔ)每種網(wǎng)頁(yè)地址結(jié)構(gòu)及其對(duì)應(yīng)的網(wǎng)頁(yè)類型的步驟包括:
      [0031 ] 以結(jié)構(gòu)樹(shù)的形式存儲(chǔ)每種網(wǎng)頁(yè)地址結(jié)構(gòu)及其對(duì)應(yīng)的網(wǎng)頁(yè)類型。
      [0032] 同樣為了解決上述的技術(shù)問(wèn)題,本發(fā)明還提出了一種網(wǎng)頁(yè)分類裝置,包括:特征詞 分類器建立模塊、獲取識(shí)別模塊、網(wǎng)頁(yè)地址處理模塊、存儲(chǔ)模塊和網(wǎng)頁(yè)分類模塊;
      [0033] 所述特征詞分類器建立模塊用于根據(jù)網(wǎng)頁(yè)樣本集合建立特征詞分類器,所述網(wǎng)頁(yè) 地址樣本合集包括:多個(gè)樣本網(wǎng)頁(yè)地址和各所述樣本網(wǎng)頁(yè)地址對(duì)應(yīng)的網(wǎng)頁(yè)類型。
      [0034] 所述獲取識(shí)別模塊用于獲取預(yù)定數(shù)量的網(wǎng)頁(yè)地址,通過(guò)所述特征詞分類器確定每 個(gè)所述網(wǎng)頁(yè)地址所屬的所述網(wǎng)頁(yè)類型;
      [0035] 所述網(wǎng)頁(yè)地址處理模塊用于對(duì)所述獲取識(shí)別模塊確定出網(wǎng)頁(yè)類型的所述網(wǎng)頁(yè)地 址進(jìn)行去冗余處理得到結(jié)構(gòu)字符串,所述結(jié)構(gòu)字符串為網(wǎng)頁(yè)地址結(jié)構(gòu);
      [0036] 所述存儲(chǔ)模塊用于存儲(chǔ)所述網(wǎng)頁(yè)地址結(jié)構(gòu)及其對(duì)應(yīng)的所述網(wǎng)頁(yè)類型;
      [0037] 所述網(wǎng)頁(yè)分類模塊用于在對(duì)網(wǎng)頁(yè)進(jìn)行分類時(shí),獲取待分類網(wǎng)頁(yè)的網(wǎng)頁(yè)地址,對(duì)該 網(wǎng)頁(yè)地址進(jìn)行去冗余處理得到對(duì)應(yīng)的網(wǎng)頁(yè)地址結(jié)構(gòu),利用該網(wǎng)頁(yè)地址結(jié)構(gòu)從所述存儲(chǔ)模塊 中查找出所述待分類網(wǎng)頁(yè)所屬的網(wǎng)頁(yè)類型。
      [0038] 進(jìn)一步地,所述特征詞分類器建立模塊用于:
      [0039] 對(duì)所述多個(gè)樣本網(wǎng)頁(yè)地址對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容進(jìn)行分詞處理獲取多個(gè)特征詞;
      [0040] 獲取每個(gè)所述特征詞屬于各所述網(wǎng)頁(yè)類型的概率;
      [0041] 根據(jù)獲取結(jié)果形成所述特征詞分類器。
      [0042] 進(jìn)一步地,所述獲取識(shí)別模塊用于:
      [0043] 從所述網(wǎng)頁(yè)地址對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容中提取關(guān)鍵詞;
      [0044] 根據(jù)所述特征詞分類器計(jì)算所述關(guān)鍵詞屬于每個(gè)所述網(wǎng)頁(yè)類型的概率;
      [0045] 根據(jù)計(jì)算結(jié)果確定所述網(wǎng)頁(yè)地址所屬的所述網(wǎng)頁(yè)類型。
      [0046] 進(jìn)一步地,所述存儲(chǔ)模塊包括:統(tǒng)計(jì)模塊、類型確定模塊以及執(zhí)行存儲(chǔ)模塊;
      [0047] 所述統(tǒng)計(jì)模塊用于統(tǒng)計(jì)每種所述網(wǎng)頁(yè)地址結(jié)構(gòu)屬于各個(gè)所述網(wǎng)頁(yè)類型的次數(shù);
      [0048] 所述類型確定模塊用于根據(jù)所述統(tǒng)計(jì)模塊的統(tǒng)計(jì)結(jié)果重新確定每種所述網(wǎng)頁(yè)地 址結(jié)構(gòu)所屬的網(wǎng)頁(yè)類型;
      [0049] 所述執(zhí)行存儲(chǔ)模塊用于存儲(chǔ)每種網(wǎng)頁(yè)地址結(jié)構(gòu)及其對(duì)應(yīng)的網(wǎng)頁(yè)類型。
      [0050] 進(jìn)一步地,所述類型確定模塊用于:
      [0051] 根據(jù)所述網(wǎng)頁(yè)地址屬于各個(gè)所述網(wǎng)頁(yè)類型的次數(shù)計(jì)算出該網(wǎng)頁(yè)地址屬于各個(gè)所 述網(wǎng)頁(yè)類型的概率;
      [0052] 根據(jù)計(jì)算出的概率確定該網(wǎng)頁(yè)地址結(jié)構(gòu)所屬的網(wǎng)頁(yè)類型;
      [0053] 或者
      [0054] 當(dāng)所述網(wǎng)頁(yè)地址結(jié)構(gòu)為子目錄網(wǎng)頁(yè)地址結(jié)構(gòu)時(shí),根據(jù)該子目錄地址結(jié)構(gòu)屬于各個(gè) 所述網(wǎng)頁(yè)類型的次數(shù)計(jì)算出該子目錄地址結(jié)構(gòu)屬于各個(gè)所述網(wǎng)頁(yè)類型的概率;根據(jù)計(jì)算出 的概率確定該子目錄地址結(jié)構(gòu)所屬的網(wǎng)頁(yè)類型;
      [0055] 當(dāng)所述網(wǎng)頁(yè)地址結(jié)構(gòu)為上層目錄網(wǎng)頁(yè)地址結(jié)構(gòu)并且存在其下的子目錄網(wǎng)頁(yè)地址 結(jié)構(gòu)時(shí),根據(jù)所述上層目錄網(wǎng)頁(yè)地址下的所述子目錄網(wǎng)頁(yè)地址結(jié)構(gòu)所屬的所述網(wǎng)頁(yè)類型確 定所述上層目錄網(wǎng)頁(yè)地址結(jié)構(gòu)所屬的所述網(wǎng)頁(yè)類型。
      [0056] 進(jìn)一步地,所述執(zhí)行存儲(chǔ)模塊用于以結(jié)構(gòu)樹(shù)的形式存儲(chǔ)每種網(wǎng)頁(yè)地址結(jié)構(gòu)及其對(duì) 應(yīng)的網(wǎng)頁(yè)類型。
      [0057] 本發(fā)明的有益效果是:
      [0058] 本發(fā)明提供了一種網(wǎng)頁(yè)分類方法及裝置,可以利用網(wǎng)頁(yè)地址相似性的特性實(shí)現(xiàn)對(duì) 網(wǎng)頁(yè)快速高效的分類;具體地,本發(fā)明的網(wǎng)頁(yè)分類方法,包括如下步驟:根據(jù)網(wǎng)頁(yè)樣本集合 建立特征詞分類器,所述網(wǎng)頁(yè)地址樣本合集包括:多個(gè)樣本網(wǎng)頁(yè)地址和各所述樣本網(wǎng)頁(yè)地 址對(duì)應(yīng)的網(wǎng)頁(yè)類型;獲取預(yù)定數(shù)量的網(wǎng)頁(yè)地址,通過(guò)所述特征詞分類器確定每個(gè)所述網(wǎng)頁(yè) 地址所屬的所述網(wǎng)頁(yè)類型;對(duì)確定出網(wǎng)頁(yè)類型的所述網(wǎng)頁(yè)地址進(jìn)行去冗余處理得到結(jié)構(gòu) 字符串,所述結(jié)構(gòu)字符串為網(wǎng)頁(yè)地址結(jié)構(gòu);存儲(chǔ)所述網(wǎng)頁(yè)地址結(jié)構(gòu)及其對(duì)應(yīng)的所述網(wǎng)頁(yè)類 型;在對(duì)網(wǎng)頁(yè)進(jìn)行分類時(shí),獲取待分類網(wǎng)頁(yè)的網(wǎng)頁(yè)地址,對(duì)該網(wǎng)頁(yè)地址進(jìn)行去冗余處理得到 對(duì)應(yīng)的網(wǎng)頁(yè)地址結(jié)構(gòu),利用該網(wǎng)頁(yè)地址結(jié)構(gòu)從存儲(chǔ)中查找出所述待分類網(wǎng)頁(yè)所屬的網(wǎng)頁(yè)類 型;本發(fā)明方法可以預(yù)先獲取并存儲(chǔ)網(wǎng)頁(yè)地址結(jié)構(gòu)與網(wǎng)頁(yè)類型的對(duì)應(yīng)關(guān)系,然后在網(wǎng)頁(yè)分 類時(shí)利用待分類網(wǎng)頁(yè)對(duì)應(yīng)的網(wǎng)頁(yè)地址結(jié)構(gòu)從預(yù)先存儲(chǔ)中直接查找出帶分類網(wǎng)頁(yè)所屬的網(wǎng) 頁(yè)類型;不需要對(duì)待分類網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容進(jìn)行解析也不需要記錄網(wǎng)頁(yè)和類別的對(duì)應(yīng)關(guān)系供 后續(xù)查詢,與現(xiàn)有技術(shù)相比,提高了網(wǎng)頁(yè)分類的速度和效率,并且減小了網(wǎng)頁(yè)分類對(duì)系統(tǒng)性 能的影響,提升了用戶體驗(yàn)。
      【附圖說(shuō)明】
      [0059] 圖1為本發(fā)明實(shí)施例一提供的一種網(wǎng)頁(yè)分類方法的流程示意圖;
      [0060] 圖2為本發(fā)明實(shí)施例一提供的一種存儲(chǔ)所述網(wǎng)頁(yè)地址結(jié)構(gòu)及其對(duì)應(yīng)的所述網(wǎng)頁(yè) 類型的流程示意圖;
      [0061] 圖3為本發(fā)明實(shí)施例一提供的一種建立URL結(jié)構(gòu)樹(shù)表的流
      當(dāng)前第1頁(yè)1 2 3 4 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1