国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于稀疏隧道的主題網(wǎng)頁爬取方法

      文檔序號(hào):6603947閱讀:289來源:國知局
      專利名稱:基于稀疏隧道的主題網(wǎng)頁爬取方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及一種基于稀疏隧道的主題網(wǎng)頁爬取方法。
      背景技術(shù)
      垂直搜索引擎時(shí)針對(duì)某一個(gè)行業(yè)的專業(yè)搜索引擎,相比較通用搜索引擎的海量信息無序化,其特點(diǎn)就是專、精、深。通用搜索引擎的目標(biāo)是要發(fā)現(xiàn)和下載盡可能多的網(wǎng)頁,以 使搜索引擎能回答更多的用戶查詢,因此通用網(wǎng)絡(luò)蜘蛛(Generic Crawler)在技術(shù)上采用 了寬度優(yōu)先或深度優(yōu)優(yōu)先的搜索策略,使網(wǎng)絡(luò)蜘蛛有更廣的覆蓋面。專業(yè)網(wǎng)絡(luò)蜘蛛(Focused Crawler)是與通用網(wǎng)絡(luò)蜘蛛相對(duì)的一個(gè)概念,專業(yè)網(wǎng)絡(luò) 蜘蛛只抓取與主題相關(guān)的網(wǎng)頁,忽視那些與主題無關(guān)的網(wǎng)頁。它的優(yōu)點(diǎn)在于不用遍歷整個(gè) 網(wǎng)絡(luò)就可以找到盡可能多與主題相關(guān)的網(wǎng)頁。但是,專業(yè)網(wǎng)絡(luò)蜘蛛也存在著問題,由于它使 用的最佳優(yōu)先算法是一種局部最優(yōu)算法,只能收集到初始爬取網(wǎng)址周邊的一些相關(guān)網(wǎng)頁, 還有很大一部分相關(guān)的網(wǎng)頁無法通過該方法搜索到。特別是由于網(wǎng)絡(luò)社區(qū)的存在,使得這 種問題更加復(fù)雜嚴(yán)重。Bergmark提出了隧道技術(shù)來解決上述問題,隧道技術(shù)是一種啟發(fā)式的全局最優(yōu)算 法,使用隧道技術(shù)的網(wǎng)絡(luò)蜘蛛在碰到不相關(guān)的網(wǎng)頁時(shí),不是立即停止,而繼續(xù)往這個(gè)路徑上向 前探索K步,K的大小由人工設(shè)定。這樣就允許專業(yè)網(wǎng)絡(luò)蜘蛛從一個(gè)網(wǎng)絡(luò)社區(qū)跳到另外一個(gè) 網(wǎng)絡(luò)社區(qū),盡管兩個(gè)網(wǎng)絡(luò)社區(qū)之間沒有直接的鏈接關(guān)系。如果兩個(gè)網(wǎng)絡(luò)社區(qū)之間的距離不大 的前提下,就可能發(fā)現(xiàn)Web中所有與主題相關(guān)的網(wǎng)頁。隧道技術(shù)還有一個(gè)優(yōu)點(diǎn)在于初始爬取 網(wǎng)址中的網(wǎng)頁不要求是主題相關(guān)的,專業(yè)網(wǎng)絡(luò)蜘蛛會(huì)穿過若干不相關(guān)的網(wǎng)頁,最終找到相關(guān) 的網(wǎng)頁,這種優(yōu)勢(shì)在高質(zhì)量的初始爬取網(wǎng)址收集工作有一定難度的場(chǎng)合下是比較受歡迎的。 當(dāng)然初始爬取網(wǎng)址與主題相關(guān)會(huì)減少這種無謂的穿越,相應(yīng)地提高網(wǎng)絡(luò)蜘蛛的性能。但是,隧道技術(shù)在擴(kuò)大搜索范圍從而提高網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)概率的同時(shí),也引進(jìn)了“噪 音”。隧道技術(shù)原理,可以形象地理解為網(wǎng)絡(luò)蜘蛛擴(kuò)大了探索范圍,也就是說,網(wǎng)絡(luò)蜘蛛以初 始爬取網(wǎng)址和相關(guān)網(wǎng)頁為圓心,以K為半徑的圓周范圍中探索其它的網(wǎng)絡(luò)社區(qū),隨著半徑K 的增大,發(fā)現(xiàn)其它網(wǎng)絡(luò)社區(qū)的概率也在增大,探索到相關(guān)網(wǎng)頁的概率也相應(yīng)增大,同時(shí)增大 的還有大量無關(guān)網(wǎng)頁的下載,需要處理的無關(guān)網(wǎng)頁的以指數(shù)遞增,極大地降低了網(wǎng)絡(luò)蜘蛛 的效率,增加了網(wǎng)絡(luò)的負(fù)載和本地的負(fù)擔(dān)。為了解決這個(gè)問題,本文對(duì)隧道技術(shù)進(jìn)行了改進(jìn),提出了一種基于稀疏隧道的主 題網(wǎng)頁爬取方法,該方法在隧道技術(shù)的基礎(chǔ)上,建立網(wǎng)絡(luò)社區(qū)黑名單,網(wǎng)絡(luò)社區(qū)黑名單避免 網(wǎng)絡(luò)蜘蛛陷入到無關(guān)網(wǎng)絡(luò)社區(qū)中去探索資源,同時(shí)對(duì)探索的方向和數(shù)量進(jìn)行控制,使得專 業(yè)網(wǎng)絡(luò)蜘蛛能夠在整個(gè)Web中有選擇性地探索未知網(wǎng)頁,從而在保證網(wǎng)頁質(zhì)量的前提下有 效地提高了網(wǎng)絡(luò)蜘蛛的效率。

      發(fā)明內(nèi)容
      本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,提供一種基于稀疏隧道的主題網(wǎng)頁爬取方法?;谙∈杷淼赖闹黝}網(wǎng)頁爬取方法包括以下步驟1)從存放初始爬取網(wǎng)址的隊(duì)列開始,對(duì)隊(duì)列中的網(wǎng)址的主題相關(guān)度進(jìn)行預(yù)測(cè),并根據(jù)預(yù)測(cè)值的高低進(jìn)行調(diào)度,預(yù)測(cè)值高的網(wǎng)址具有更高的優(yōu)先權(quán),爬蟲按照優(yōu)先權(quán)的高低 順序下載網(wǎng)址所指定的網(wǎng)頁;2)從所指定的網(wǎng)頁中提取網(wǎng)址,判別網(wǎng)址是否指向網(wǎng)絡(luò)社區(qū)黑名單中的某個(gè)站 點(diǎn),若是,則放棄該網(wǎng)址;3)對(duì)于沒有指向網(wǎng)絡(luò)社區(qū)黑名單中站點(diǎn)的網(wǎng)址,計(jì)算該網(wǎng)址的穿越步長,穿越步 長是一個(gè)整數(shù),代表了主題相關(guān)的最近的祖先網(wǎng)頁到本網(wǎng)頁長度,判斷該穿越步長是否超 過一個(gè)指定的步長閾值K,K為1 30,如果超過步長閾值K,表明已經(jīng)穿越了連續(xù)K個(gè)不相 關(guān)的網(wǎng)頁,應(yīng)該放棄這條路徑,則放棄該網(wǎng)址;4)將路徑?jīng)]有超過步長閾值K的網(wǎng)址分為兩部分,一部分是指向主題相關(guān)的網(wǎng)絡(luò) 社區(qū),對(duì)應(yīng)網(wǎng)址的穿越步長為0,另一部分則是指向未知類型的網(wǎng)絡(luò)社區(qū),對(duì)應(yīng)網(wǎng)址的穿越 步長大于等于1。將指向主題相關(guān)的網(wǎng)絡(luò)社區(qū)的網(wǎng)址直接放入隊(duì)列中;對(duì)于指向未知類型 的網(wǎng)絡(luò)社區(qū)的網(wǎng)址,計(jì)算在隊(duì)列中與該網(wǎng)址具有相同站點(diǎn)的網(wǎng)址數(shù),限定該網(wǎng)址數(shù)不能超 過一個(gè)數(shù)量閾值R,R為15,超過數(shù)量閾值R的放棄該網(wǎng)址,沒有超過數(shù)量閾值R的將該網(wǎng) 址放入隊(duì)列中;5)從隊(duì)列中取出主題相關(guān)度值最高的網(wǎng)址,下載指定的網(wǎng)頁,并重復(fù)步驟2) 步 驟5),直到隊(duì)列為空。所述的網(wǎng)絡(luò)社區(qū)黑名單的建立方法為如果指向某些網(wǎng)絡(luò)社區(qū)的無關(guān)網(wǎng)頁數(shù)量超 過預(yù)先設(shè)定的數(shù)值P,P為20,則將該網(wǎng)絡(luò)社區(qū)放入黑名單中,同時(shí)將一些非常明顯的不相 關(guān)站點(diǎn)手工加入到網(wǎng)絡(luò)社區(qū)黑名單中。所述的計(jì)算該網(wǎng)址的穿越步長將網(wǎng)址指定的網(wǎng)頁下載到本地后,首先判斷該網(wǎng) 頁是否主題相關(guān),若相關(guān),則該網(wǎng)址的穿越步長置為0 ;若與主題不相關(guān),將該網(wǎng)址的穿越 步長置為父網(wǎng)址的穿越步長加1。本發(fā)明與現(xiàn)有技術(shù)相比具有的有益效果1)通過網(wǎng)絡(luò)社區(qū)黑名單的方法使得網(wǎng)絡(luò)蜘蛛避免陷入到主題無關(guān)社區(qū)中,從而提 高了準(zhǔn)確率和效率;2)存放網(wǎng)址的隊(duì)列需要根據(jù)主題相關(guān)度值對(duì)網(wǎng)址進(jìn)行排序,使得網(wǎng)絡(luò)蜘蛛盡可能 少地遍歷網(wǎng)絡(luò),又盡可能多地訪問到主題相關(guān)的網(wǎng)頁,提高了網(wǎng)絡(luò)蜘蛛的效率;3)通過控制在未知類型的網(wǎng)絡(luò)社區(qū)中的路徑數(shù)量,減少無關(guān)網(wǎng)頁的下載,極大的 降低了網(wǎng)絡(luò)的負(fù)載和本地負(fù)擔(dān)。


      圖1基于稀疏隧道的主題網(wǎng)頁爬取方法的流程;圖2普通隧道技術(shù)中頁面數(shù)量與步長閾值K關(guān)系圖;圖3基于稀疏隧道的主題網(wǎng)頁爬取方法中頁面數(shù)量與步長閾值K關(guān)系圖。
      具體實(shí)施方式
      基于稀疏隧道的主題網(wǎng)頁爬取方法包括以下步驟1)從存放初始爬取網(wǎng)址的隊(duì)列開始,對(duì)隊(duì)列中的網(wǎng)址的主題相關(guān)度進(jìn)行預(yù)測(cè),并 根據(jù)預(yù)測(cè)值的高低進(jìn)行調(diào)度,預(yù)測(cè)值高的網(wǎng)址具有更高的優(yōu)先權(quán),爬蟲按照優(yōu)先權(quán)的高低 順序下載網(wǎng)址所指定的網(wǎng)頁;2)從所指定的網(wǎng)頁中提取網(wǎng)址,判別網(wǎng)址是否指向網(wǎng)絡(luò)社區(qū)黑名單中的某個(gè)站 點(diǎn),若是,則放棄該網(wǎng)址;3)對(duì)于沒有指向網(wǎng)絡(luò)社區(qū)黑名單中站點(diǎn)的網(wǎng)址,計(jì)算該網(wǎng)址的穿越步長,穿越步 長是一個(gè)整數(shù),代表了主題相關(guān)的最近的祖先網(wǎng)頁到本網(wǎng)頁長度,判斷該穿越步長是否超 過一個(gè)指定的步長閾值K,K為1 30,如果超過步長閾值K,表明已經(jīng)穿越了連續(xù)K個(gè)不相 關(guān)的網(wǎng)頁,應(yīng)該放棄這條路徑,則放棄該網(wǎng)址;
      4)將路徑?jīng)]有超過步長閾值K的網(wǎng)址分為兩部分,一部分是指向主題相關(guān)的網(wǎng)絡(luò) 社區(qū),對(duì)應(yīng)網(wǎng)址的穿越步長為0,另一部分則是指向未知類型的網(wǎng)絡(luò)社區(qū),對(duì)應(yīng)網(wǎng)址的穿越 步長大于等于1。將指向主題相關(guān)的網(wǎng)絡(luò)社區(qū)的網(wǎng)址直接放入隊(duì)列中;對(duì)于指向未知類型 的網(wǎng)絡(luò)社區(qū)的網(wǎng)址,計(jì)算在隊(duì)列中與該網(wǎng)址具有相同站點(diǎn)的網(wǎng)址數(shù),限定該網(wǎng)址數(shù)不能超 過一個(gè)數(shù)量閾值R,R為15,超過數(shù)量閾值R的放棄該網(wǎng)址,沒有超過數(shù)量閾值R的將該網(wǎng) 址放入隊(duì)列中;5)從隊(duì)列中取出主題相關(guān)度值最高的網(wǎng)址,下載指定的網(wǎng)頁,并重復(fù)步驟2) 步 驟5),直到隊(duì)列為空。所述的網(wǎng)絡(luò)社區(qū)黑名單的建立方法為如果指向某些網(wǎng)絡(luò)社區(qū)的無關(guān)網(wǎng)頁數(shù)量超 過預(yù)先設(shè)定的數(shù)值P,P為20,則將該網(wǎng)絡(luò)社區(qū)放入黑名單中,同時(shí)將一些非常明顯的不相 關(guān)站點(diǎn)手工加入到網(wǎng)絡(luò)社區(qū)黑名單中。所述的計(jì)算該網(wǎng)址的穿越步長將網(wǎng)址指定的網(wǎng)頁下載到本地后,首先判斷該網(wǎng) 頁是否主題相關(guān),若相關(guān),則該網(wǎng)址的穿越步長置為0 ;若與主題不相關(guān),將該網(wǎng)址的穿越 步長置為父網(wǎng)址的穿越步長加1。實(shí)施例比如當(dāng)用戶想要尋找與天文地理有關(guān)的網(wǎng)頁時(shí),首先給定初始爬取網(wǎng)址,使用最 佳優(yōu)先策略訪問網(wǎng)絡(luò),即對(duì)隊(duì)列中的網(wǎng)址的主題相關(guān)度進(jìn)行預(yù)測(cè),并根據(jù)預(yù)測(cè)值的高低進(jìn) 行調(diào)度,預(yù)測(cè)值高的網(wǎng)址具有更高的優(yōu)先權(quán),爬蟲按照優(yōu)先權(quán)的高低順序下載網(wǎng)址所指定 的網(wǎng)頁。從所指定的網(wǎng)頁中提取出網(wǎng)址,判別該網(wǎng)址是否指向網(wǎng)絡(luò)社區(qū)黑名單中的站點(diǎn),網(wǎng) 絡(luò)社區(qū)黑名單中存放的是指向某些網(wǎng)絡(luò)社區(qū)的無關(guān)網(wǎng)頁數(shù)量超過預(yù)先設(shè)定的閥值的網(wǎng)絡(luò) 社區(qū),在這里我們將該閾值設(shè)置為20,也可以通過人工將一部分很明顯的不相關(guān)站點(diǎn)列入 黑名單中,如一些娛樂、體育、健康、汽車站點(diǎn)。如果該網(wǎng)址是指向網(wǎng)絡(luò)社區(qū)黑名單中的某個(gè) 站點(diǎn),則放棄該網(wǎng)址。對(duì)于沒有指向網(wǎng)絡(luò)社區(qū)黑名單中站點(diǎn)的網(wǎng)址,我們將進(jìn)行下一步有用性的判斷, 因?yàn)槭褂孟∈杷淼兰夹g(shù)的網(wǎng)絡(luò)蜘蛛在碰到不相關(guān)的網(wǎng)頁時(shí),不是立即停止,而是繼續(xù)往這 個(gè)路徑上向前探索,這樣就允許專業(yè)網(wǎng)絡(luò)蜘蛛從一個(gè)網(wǎng)絡(luò)社區(qū)跳到另外一個(gè)網(wǎng)絡(luò)社區(qū),盡 管兩個(gè)網(wǎng)絡(luò)社區(qū)之間沒有直接的鏈接關(guān)系。如果兩個(gè)網(wǎng)絡(luò)社區(qū)之間的距離不大的前提下, 就可能發(fā)現(xiàn)網(wǎng)絡(luò)中所有與主題相關(guān)的網(wǎng)頁。因此需要計(jì)算網(wǎng)址得穿越步長,穿越步長是一 個(gè)整數(shù),代表了主題相關(guān)的最近的祖先網(wǎng)頁到本網(wǎng)頁的長度,判斷該穿越步長是否超過一個(gè)指定的步長閾值K,在這個(gè)實(shí)施例中,我們根據(jù)K的大小來觀察頁面的增長情況,并選擇 最佳的K的取值。穿越步長的計(jì)算方法為將目標(biāo)網(wǎng)頁下載到本地后,首先判斷該網(wǎng)頁是否 主題相關(guān),若相關(guān),則該網(wǎng)址的穿越步長置為0,對(duì)應(yīng)網(wǎng)址入隊(duì)列;若與主題不相關(guān),首先將 網(wǎng)址的穿越步長值加1,然后同預(yù)先定義好的步長閾值K作比較,若穿越步長> K,表明已經(jīng) 穿越了連續(xù)K個(gè)不相關(guān)的網(wǎng)頁,應(yīng)該放棄這條路徑,若穿越步長<=K,則繼續(xù)探索。對(duì)于路徑?jīng)]有超過步長閾值K的網(wǎng)址可以分為兩部分,一部分是指向主題相關(guān)的 網(wǎng)絡(luò)社區(qū),另一部分則是指向未知類型的網(wǎng)絡(luò)社區(qū),未知類型的網(wǎng)絡(luò)社區(qū)表示沒有判斷出 是否與主題相關(guān)的網(wǎng)絡(luò)社區(qū)。對(duì)于指向主題相關(guān)的網(wǎng)絡(luò)社區(qū)不做限制,直接將對(duì)應(yīng)的網(wǎng)址 放入隊(duì)列中;對(duì)于指向未知類型的網(wǎng)絡(luò)社區(qū)的網(wǎng)址,限定每個(gè)網(wǎng)絡(luò)社區(qū)中的路徑數(shù)量不能 超過數(shù)量閾值R,即只允許R條路徑進(jìn)入未知類型的網(wǎng)絡(luò)社區(qū),在這里我們將數(shù)量閾值R設(shè) 置為15,檢查在隊(duì)列中與該網(wǎng)址具有相同站點(diǎn)的網(wǎng)址數(shù),若網(wǎng)址數(shù)大于數(shù)量閾值R,則放棄 該網(wǎng)址,沒有超過數(shù)量閾值R的將該網(wǎng)址放入隊(duì)列中。最后從隊(duì)列中取出與天文地理主題相關(guān)度值最高的網(wǎng)址,重復(fù)上述過程,直到隊(duì)列為空。實(shí)施結(jié)果表明,基于稀疏隧道的主題網(wǎng)頁爬取方法有效地解決了普通隧道技術(shù)隨 著步長K的增大而無關(guān)網(wǎng)頁大幅增大的缺點(diǎn),圖2和圖3分別顯示了普通隧道技術(shù)和基于 稀疏隧道的主題網(wǎng)頁爬取方法隨著步長K的增長,相關(guān)頁面和所有頁面的增長情況,從圖 中可以看出,在此實(shí)例中,K的最佳取值為10。
      權(quán)利要求
      一種基于稀疏隧道的主題網(wǎng)頁爬取方法,其特征在于包括以下步驟1)從存放初始爬取網(wǎng)址的隊(duì)列開始,對(duì)隊(duì)列中的網(wǎng)址的主題相關(guān)度進(jìn)行預(yù)測(cè),并根據(jù)預(yù)測(cè)值的高低進(jìn)行調(diào)度,預(yù)測(cè)值高的網(wǎng)址具有更高的優(yōu)先權(quán),爬蟲按照優(yōu)先權(quán)的高低順序下載網(wǎng)址所指定的網(wǎng)頁;2)從所指定的網(wǎng)頁中提取網(wǎng)址,判別網(wǎng)址是否指向網(wǎng)絡(luò)社區(qū)黑名單中的某個(gè)站點(diǎn),若是,則放棄該網(wǎng)址;3)對(duì)于沒有指向網(wǎng)絡(luò)社區(qū)黑名單中站點(diǎn)的網(wǎng)址,計(jì)算該網(wǎng)址的穿越步長,穿越步長是一個(gè)整數(shù),代表了主題相關(guān)的最近的祖先網(wǎng)頁到本網(wǎng)頁長度,判斷該穿越步長是否超過一個(gè)指定的步長閾值K,K為1~30,如果超過步長閾值K,表明已經(jīng)穿越了連續(xù)K個(gè)不相關(guān)的網(wǎng)頁,應(yīng)該放棄這條路徑,則放棄該網(wǎng)址;4)將路徑?jīng)]有超過步長閾值K的網(wǎng)址分為兩部分,一部分是指向主題相關(guān)的網(wǎng)絡(luò)社區(qū),對(duì)應(yīng)網(wǎng)址的穿越步長為0,另一部分則是指向未知類型的網(wǎng)絡(luò)社區(qū),對(duì)應(yīng)網(wǎng)址的穿越步長大于等于1。將指向主題相關(guān)的網(wǎng)絡(luò)社區(qū)的網(wǎng)址直接放入隊(duì)列中;對(duì)于指向未知類型的網(wǎng)絡(luò)社區(qū)的網(wǎng)址,計(jì)算在隊(duì)列中與該網(wǎng)址具有相同站點(diǎn)的網(wǎng)址數(shù),限定該網(wǎng)址數(shù)不能超過一個(gè)數(shù)量閾值R,R為15,超過數(shù)量閾值R的放棄該網(wǎng)址,沒有超過數(shù)量閾值R的將該網(wǎng)址放入隊(duì)列中;5)從隊(duì)列中取出主題相關(guān)度值最高的網(wǎng)址,下載指定的網(wǎng)頁,并重復(fù)步驟2)~步驟5),直到隊(duì)列為空。
      2.根據(jù)權(quán)利要求1所述的一種基于稀疏隧道的主題網(wǎng)頁爬取方法,其特征在于所述的 網(wǎng)絡(luò)社區(qū)黑名單的建立方法為如果指向某些網(wǎng)絡(luò)社區(qū)的無關(guān)網(wǎng)頁數(shù)量超過預(yù)先設(shè)定的數(shù) 值P,P為20,則將該網(wǎng)絡(luò)社區(qū)放入黑名單中,同時(shí)將一些非常明顯的不相關(guān)站點(diǎn)手工加入 到網(wǎng)絡(luò)社區(qū)黑名單中。
      3.根據(jù)權(quán)利要求1所述的一種基于稀疏隧道的主題網(wǎng)頁爬取方法,其特征在于所述的 計(jì)算該網(wǎng)址的穿越步長將網(wǎng)址指定的網(wǎng)頁下載到本地后,首先判斷該網(wǎng)頁是否主題相關(guān), 若相關(guān),則該網(wǎng)址的穿越步長置為0 ;若與主題不相關(guān),將該網(wǎng)址的穿越步長置為父網(wǎng)址的 穿越步長加1。
      全文摘要
      本發(fā)明公開了一種基于稀疏隧道的主題網(wǎng)頁爬取方法。目前的專業(yè)網(wǎng)絡(luò)蜘蛛通常使用隧道技術(shù)來爬取主題相關(guān)的網(wǎng)頁,隧道技術(shù)在擴(kuò)大搜索范圍時(shí)引進(jìn)了“噪音”,需要處理的無關(guān)網(wǎng)頁以指數(shù)遞增,從而增加了網(wǎng)絡(luò)的負(fù)載和本地負(fù)擔(dān)。本發(fā)明針對(duì)上述缺點(diǎn),對(duì)隧道技術(shù)進(jìn)行改進(jìn),將網(wǎng)絡(luò)社區(qū)分成三種主題相關(guān)、無關(guān)和未知類型。對(duì)主題相關(guān)的網(wǎng)絡(luò)社區(qū)不做限制,對(duì)主題無關(guān)的網(wǎng)絡(luò)社區(qū)通過建立網(wǎng)絡(luò)社區(qū)黑名單禁止專業(yè)網(wǎng)絡(luò)蜘蛛進(jìn)入,對(duì)未知類型的網(wǎng)絡(luò)社區(qū)控制專業(yè)網(wǎng)絡(luò)蜘蛛在該網(wǎng)絡(luò)社區(qū)中的路徑數(shù)量。本發(fā)明使得專業(yè)網(wǎng)絡(luò)蜘蛛能夠在整個(gè)網(wǎng)絡(luò)中有選擇性地探索未知網(wǎng)頁,避開了大量無關(guān)網(wǎng)頁的下載,在保證網(wǎng)頁質(zhì)量的前提下有效地提高了專業(yè)網(wǎng)絡(luò)蜘蛛的準(zhǔn)確率和效率。
      文檔編號(hào)G06F17/30GK101872357SQ201010196540
      公開日2010年10月27日 申請(qǐng)日期2010年6月8日 優(yōu)先權(quán)日2010年6月8日
      發(fā)明者林懷忠, 蔣雨倩 申請(qǐng)人:浙江大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1