基于稀疏隧道的主題網(wǎng)頁爬取方法

文檔序號(hào)：6603947閱讀：289來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于稀疏隧道的主題網(wǎng)頁爬取方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種基于稀疏隧道的主題網(wǎng)頁爬取方法。
背景技術(shù)：
垂直搜索引擎時(shí)針對(duì)某一個(gè)行業(yè)的專業(yè)搜索引擎，相比較通用搜索引擎的海量信息無序化，其特點(diǎn)就是專、精、深。通用搜索引擎的目標(biāo)是要發(fā)現(xiàn)和下載盡可能多的網(wǎng)頁，以使搜索引擎能回答更多的用戶查詢，因此通用網(wǎng)絡(luò)蜘蛛(Generic Crawler)在技術(shù)上采用了寬度優(yōu)先或深度優(yōu)優(yōu)先的搜索策略，使網(wǎng)絡(luò)蜘蛛有更廣的覆蓋面。專業(yè)網(wǎng)絡(luò)蜘蛛(Focused Crawler)是與通用網(wǎng)絡(luò)蜘蛛相對(duì)的一個(gè)概念，專業(yè)網(wǎng)絡(luò) 蜘蛛只抓取與主題相關(guān)的網(wǎng)頁，忽視那些與主題無關(guān)的網(wǎng)頁。它的優(yōu)點(diǎn)在于不用遍歷整個(gè) 網(wǎng)絡(luò)就可以找到盡可能多與主題相關(guān)的網(wǎng)頁。但是，專業(yè)網(wǎng)絡(luò)蜘蛛也存在著問題，由于它使用的最佳優(yōu)先算法是一種局部最優(yōu)算法，只能收集到初始爬取網(wǎng)址周邊的一些相關(guān)網(wǎng)頁，還有很大一部分相關(guān)的網(wǎng)頁無法通過該方法搜索到。特別是由于網(wǎng)絡(luò)社區(qū)的存在，使得這種問題更加復(fù)雜嚴(yán)重。Bergmark提出了隧道技術(shù)來解決上述問題，隧道技術(shù)是一種啟發(fā)式的全局最優(yōu)算法，使用隧道技術(shù)的網(wǎng)絡(luò)蜘蛛在碰到不相關(guān)的網(wǎng)頁時(shí)，不是立即停止，而繼續(xù)往這個(gè)路徑上向前探索K步，K的大小由人工設(shè)定。這樣就允許專業(yè)網(wǎng)絡(luò)蜘蛛從一個(gè)網(wǎng)絡(luò)社區(qū)跳到另外一個(gè) 網(wǎng)絡(luò)社區(qū)，盡管兩個(gè)網(wǎng)絡(luò)社區(qū)之間沒有直接的鏈接關(guān)系。如果兩個(gè)網(wǎng)絡(luò)社區(qū)之間的距離不大的前提下，就可能發(fā)現(xiàn)Web中所有與主題相關(guān)的網(wǎng)頁。隧道技術(shù)還有一個(gè)優(yōu)點(diǎn)在于初始爬取網(wǎng)址中的網(wǎng)頁不要求是主題相關(guān)的，專業(yè)網(wǎng)絡(luò)蜘蛛會(huì)穿過若干不相關(guān)的網(wǎng)頁，最終找到相關(guān) 的網(wǎng)頁，這種優(yōu)勢(shì)在高質(zhì)量的初始爬取網(wǎng)址收集工作有一定難度的場(chǎng)合下是比較受歡迎的。當(dāng)然初始爬取網(wǎng)址與主題相關(guān)會(huì)減少這種無謂的穿越，相應(yīng)地提高網(wǎng)絡(luò)蜘蛛的性能。但是，隧道技術(shù)在擴(kuò)大搜索范圍從而提高網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)概率的同時(shí)，也引進(jìn)了“噪音”。隧道技術(shù)原理，可以形象地理解為網(wǎng)絡(luò)蜘蛛擴(kuò)大了探索范圍，也就是說，網(wǎng)絡(luò)蜘蛛以初始爬取網(wǎng)址和相關(guān)網(wǎng)頁為圓心，以K為半徑的圓周范圍中探索其它的網(wǎng)絡(luò)社區(qū)，隨著半徑K 的增大，發(fā)現(xiàn)其它網(wǎng)絡(luò)社區(qū)的概率也在增大，探索到相關(guān)網(wǎng)頁的概率也相應(yīng)增大，同時(shí)增大的還有大量無關(guān)網(wǎng)頁的下載，需要處理的無關(guān)網(wǎng)頁的以指數(shù)遞增，極大地降低了網(wǎng)絡(luò)蜘蛛的效率，增加了網(wǎng)絡(luò)的負(fù)載和本地的負(fù)擔(dān)。為了解決這個(gè)問題，本文對(duì)隧道技術(shù)進(jìn)行了改進(jìn)，提出了一種基于稀疏隧道的主題網(wǎng)頁爬取方法，該方法在隧道技術(shù)的基礎(chǔ)上，建立網(wǎng)絡(luò)社區(qū)黑名單，網(wǎng)絡(luò)社區(qū)黑名單避免網(wǎng)絡(luò)蜘蛛陷入到無關(guān)網(wǎng)絡(luò)社區(qū)中去探索資源，同時(shí)對(duì)探索的方向和數(shù)量進(jìn)行控制，使得專業(yè)網(wǎng)絡(luò)蜘蛛能夠在整個(gè)Web中有選擇性地探索未知網(wǎng)頁，從而在保證網(wǎng)頁質(zhì)量的前提下有效地提高了網(wǎng)絡(luò)蜘蛛的效率。

發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足，提供一種基于稀疏隧道的主題網(wǎng)頁爬取方法?；谙∈杷淼赖闹黝}網(wǎng)頁爬取方法包括以下步驟1)從存放初始爬取網(wǎng)址的隊(duì)列開始，對(duì)隊(duì)列中的網(wǎng)址的主題相關(guān)度進(jìn)行預(yù)測(cè)，并根據(jù)預(yù)測(cè)值的高低進(jìn)行調(diào)度，預(yù)測(cè)值高的網(wǎng)址具有更高的優(yōu)先權(quán)，爬蟲按照優(yōu)先權(quán)的高低順序下載網(wǎng)址所指定的網(wǎng)頁；2)從所指定的網(wǎng)頁中提取網(wǎng)址，判別網(wǎng)址是否指向網(wǎng)絡(luò)社區(qū)黑名單中的某個(gè)站點(diǎn)，若是，則放棄該網(wǎng)址；3)對(duì)于沒有指向網(wǎng)絡(luò)社區(qū)黑名單中站點(diǎn)的網(wǎng)址，計(jì)算該網(wǎng)址的穿越步長，穿越步長是一個(gè)整數(shù)，代表了主題相關(guān)的最近的祖先網(wǎng)頁到本網(wǎng)頁長度，判斷該穿越步長是否超過一個(gè)指定的步長閾值K，K為1 30，如果超過步長閾值K，表明已經(jīng)穿越了連續(xù)K個(gè)不相關(guān)的網(wǎng)頁，應(yīng)該放棄這條路徑，則放棄該網(wǎng)址；4)將路徑?jīng)]有超過步長閾值K的網(wǎng)址分為兩部分，一部分是指向主題相關(guān)的網(wǎng)絡(luò) 社區(qū)，對(duì)應(yīng)網(wǎng)址的穿越步長為0，另一部分則是指向未知類型的網(wǎng)絡(luò)社區(qū)，對(duì)應(yīng)網(wǎng)址的穿越步長大于等于1。將指向主題相關(guān)的網(wǎng)絡(luò)社區(qū)的網(wǎng)址直接放入隊(duì)列中；對(duì)于指向未知類型的網(wǎng)絡(luò)社區(qū)的網(wǎng)址，計(jì)算在隊(duì)列中與該網(wǎng)址具有相同站點(diǎn)的網(wǎng)址數(shù)，限定該網(wǎng)址數(shù)不能超過一個(gè)數(shù)量閾值R，R為15，超過數(shù)量閾值R的放棄該網(wǎng)址，沒有超過數(shù)量閾值R的將該網(wǎng) 址放入隊(duì)列中；5)從隊(duì)列中取出主題相關(guān)度值最高的網(wǎng)址，下載指定的網(wǎng)頁，并重復(fù)步驟2) 步驟5)，直到隊(duì)列為空。所述的網(wǎng)絡(luò)社區(qū)黑名單的建立方法為如果指向某些網(wǎng)絡(luò)社區(qū)的無關(guān)網(wǎng)頁數(shù)量超過預(yù)先設(shè)定的數(shù)值P，P為20，則將該網(wǎng)絡(luò)社區(qū)放入黑名單中，同時(shí)將一些非常明顯的不相關(guān)站點(diǎn)手工加入到網(wǎng)絡(luò)社區(qū)黑名單中。所述的計(jì)算該網(wǎng)址的穿越步長將網(wǎng)址指定的網(wǎng)頁下載到本地后，首先判斷該網(wǎng) 頁是否主題相關(guān)，若相關(guān)，則該網(wǎng)址的穿越步長置為0 ；若與主題不相關(guān)，將該網(wǎng)址的穿越步長置為父網(wǎng)址的穿越步長加1。本發(fā)明與現(xiàn)有技術(shù)相比具有的有益效果1)通過網(wǎng)絡(luò)社區(qū)黑名單的方法使得網(wǎng)絡(luò)蜘蛛避免陷入到主題無關(guān)社區(qū)中，從而提高了準(zhǔn)確率和效率；2)存放網(wǎng)址的隊(duì)列需要根據(jù)主題相關(guān)度值對(duì)網(wǎng)址進(jìn)行排序，使得網(wǎng)絡(luò)蜘蛛盡可能少地遍歷網(wǎng)絡(luò)，又盡可能多地訪問到主題相關(guān)的網(wǎng)頁，提高了網(wǎng)絡(luò)蜘蛛的效率；3)通過控制在未知類型的網(wǎng)絡(luò)社區(qū)中的路徑數(shù)量，減少無關(guān)網(wǎng)頁的下載，極大的降低了網(wǎng)絡(luò)的負(fù)載和本地負(fù)擔(dān)。

圖1基于稀疏隧道的主題網(wǎng)頁爬取方法的流程；圖2普通隧道技術(shù)中頁面數(shù)量與步長閾值K關(guān)系圖；圖3基于稀疏隧道的主題網(wǎng)頁爬取方法中頁面數(shù)量與步長閾值K關(guān)系圖。
具體實(shí)施方式
基于稀疏隧道的主題網(wǎng)頁爬取方法包括以下步驟1)從存放初始爬取網(wǎng)址的隊(duì)列開始，對(duì)隊(duì)列中的網(wǎng)址的主題相關(guān)度進(jìn)行預(yù)測(cè)，并根據(jù)預(yù)測(cè)值的高低進(jìn)行調(diào)度，預(yù)測(cè)值高的網(wǎng)址具有更高的優(yōu)先權(quán)，爬蟲按照優(yōu)先權(quán)的高低順序下載網(wǎng)址所指定的網(wǎng)頁；2)從所指定的網(wǎng)頁中提取網(wǎng)址，判別網(wǎng)址是否指向網(wǎng)絡(luò)社區(qū)黑名單中的某個(gè)站點(diǎn)，若是，則放棄該網(wǎng)址；3)對(duì)于沒有指向網(wǎng)絡(luò)社區(qū)黑名單中站點(diǎn)的網(wǎng)址，計(jì)算該網(wǎng)址的穿越步長，穿越步長是一個(gè)整數(shù)，代表了主題相關(guān)的最近的祖先網(wǎng)頁到本網(wǎng)頁長度，判斷該穿越步長是否超過一個(gè)指定的步長閾值K，K為1 30，如果超過步長閾值K，表明已經(jīng)穿越了連續(xù)K個(gè)不相關(guān)的網(wǎng)頁，應(yīng)該放棄這條路徑，則放棄該網(wǎng)址；
4)將路徑?jīng)]有超過步長閾值K的網(wǎng)址分為兩部分，一部分是指向主題相關(guān)的網(wǎng)絡(luò) 社區(qū)，對(duì)應(yīng)網(wǎng)址的穿越步長為0，另一部分則是指向未知類型的網(wǎng)絡(luò)社區(qū)，對(duì)應(yīng)網(wǎng)址的穿越步長大于等于1。將指向主題相關(guān)的網(wǎng)絡(luò)社區(qū)的網(wǎng)址直接放入隊(duì)列中；對(duì)于指向未知類型的網(wǎng)絡(luò)社區(qū)的網(wǎng)址，計(jì)算在隊(duì)列中與該網(wǎng)址具有相同站點(diǎn)的網(wǎng)址數(shù)，限定該網(wǎng)址數(shù)不能超過一個(gè)數(shù)量閾值R，R為15，超過數(shù)量閾值R的放棄該網(wǎng)址，沒有超過數(shù)量閾值R的將該網(wǎng) 址放入隊(duì)列中；5)從隊(duì)列中取出主題相關(guān)度值最高的網(wǎng)址，下載指定的網(wǎng)頁，并重復(fù)步驟2) 步驟5)，直到隊(duì)列為空。所述的網(wǎng)絡(luò)社區(qū)黑名單的建立方法為如果指向某些網(wǎng)絡(luò)社區(qū)的無關(guān)網(wǎng)頁數(shù)量超過預(yù)先設(shè)定的數(shù)值P，P為20，則將該網(wǎng)絡(luò)社區(qū)放入黑名單中，同時(shí)將一些非常明顯的不相關(guān)站點(diǎn)手工加入到網(wǎng)絡(luò)社區(qū)黑名單中。所述的計(jì)算該網(wǎng)址的穿越步長將網(wǎng)址指定的網(wǎng)頁下載到本地后，首先判斷該網(wǎng) 頁是否主題相關(guān)，若相關(guān)，則該網(wǎng)址的穿越步長置為0 ；若與主題不相關(guān)，將該網(wǎng)址的穿越步長置為父網(wǎng)址的穿越步長加1。實(shí)施例比如當(dāng)用戶想要尋找與天文地理有關(guān)的網(wǎng)頁時(shí)，首先給定初始爬取網(wǎng)址，使用最佳優(yōu)先策略訪問網(wǎng)絡(luò)，即對(duì)隊(duì)列中的網(wǎng)址的主題相關(guān)度進(jìn)行預(yù)測(cè)，并根據(jù)預(yù)測(cè)值的高低進(jìn) 行調(diào)度，預(yù)測(cè)值高的網(wǎng)址具有更高的優(yōu)先權(quán)，爬蟲按照優(yōu)先權(quán)的高低順序下載網(wǎng)址所指定的網(wǎng)頁。從所指定的網(wǎng)頁中提取出網(wǎng)址，判別該網(wǎng)址是否指向網(wǎng)絡(luò)社區(qū)黑名單中的站點(diǎn)，網(wǎng) 絡(luò)社區(qū)黑名單中存放的是指向某些網(wǎng)絡(luò)社區(qū)的無關(guān)網(wǎng)頁數(shù)量超過預(yù)先設(shè)定的閥值的網(wǎng)絡(luò) 社區(qū)，在這里我們將該閾值設(shè)置為20，也可以通過人工將一部分很明顯的不相關(guān)站點(diǎn)列入黑名單中，如一些娛樂、體育、健康、汽車站點(diǎn)。如果該網(wǎng)址是指向網(wǎng)絡(luò)社區(qū)黑名單中的某個(gè) 站點(diǎn)，則放棄該網(wǎng)址。對(duì)于沒有指向網(wǎng)絡(luò)社區(qū)黑名單中站點(diǎn)的網(wǎng)址，我們將進(jìn)行下一步有用性的判斷，因?yàn)槭褂孟∈杷淼兰夹g(shù)的網(wǎng)絡(luò)蜘蛛在碰到不相關(guān)的網(wǎng)頁時(shí)，不是立即停止，而是繼續(xù)往這個(gè)路徑上向前探索，這樣就允許專業(yè)網(wǎng)絡(luò)蜘蛛從一個(gè)網(wǎng)絡(luò)社區(qū)跳到另外一個(gè)網(wǎng)絡(luò)社區(qū)，盡管兩個(gè)網(wǎng)絡(luò)社區(qū)之間沒有直接的鏈接關(guān)系。如果兩個(gè)網(wǎng)絡(luò)社區(qū)之間的距離不大的前提下，就可能發(fā)現(xiàn)網(wǎng)絡(luò)中所有與主題相關(guān)的網(wǎng)頁。因此需要計(jì)算網(wǎng)址得穿越步長，穿越步長是一個(gè)整數(shù)，代表了主題相關(guān)的最近的祖先網(wǎng)頁到本網(wǎng)頁的長度，判斷該穿越步長是否超過一個(gè)指定的步長閾值K，在這個(gè)實(shí)施例中，我們根據(jù)K的大小來觀察頁面的增長情況，并選擇最佳的K的取值。穿越步長的計(jì)算方法為將目標(biāo)網(wǎng)頁下載到本地后，首先判斷該網(wǎng)頁是否主題相關(guān)，若相關(guān)，則該網(wǎng)址的穿越步長置為0，對(duì)應(yīng)網(wǎng)址入隊(duì)列；若與主題不相關(guān)，首先將網(wǎng)址的穿越步長值加1，然后同預(yù)先定義好的步長閾值K作比較，若穿越步長> K，表明已經(jīng) 穿越了連續(xù)K個(gè)不相關(guān)的網(wǎng)頁，應(yīng)該放棄這條路徑，若穿越步長<=K，則繼續(xù)探索。對(duì)于路徑?jīng)]有超過步長閾值K的網(wǎng)址可以分為兩部分，一部分是指向主題相關(guān)的網(wǎng)絡(luò)社區(qū)，另一部分則是指向未知類型的網(wǎng)絡(luò)社區(qū)，未知類型的網(wǎng)絡(luò)社區(qū)表示沒有判斷出是否與主題相關(guān)的網(wǎng)絡(luò)社區(qū)。對(duì)于指向主題相關(guān)的網(wǎng)絡(luò)社區(qū)不做限制，直接將對(duì)應(yīng)的網(wǎng)址放入隊(duì)列中；對(duì)于指向未知類型的網(wǎng)絡(luò)社區(qū)的網(wǎng)址，限定每個(gè)網(wǎng)絡(luò)社區(qū)中的路徑數(shù)量不能超過數(shù)量閾值R，即只允許R條路徑進(jìn)入未知類型的網(wǎng)絡(luò)社區(qū)，在這里我們將數(shù)量閾值R設(shè) 置為15，檢查在隊(duì)列中與該網(wǎng)址具有相同站點(diǎn)的網(wǎng)址數(shù)，若網(wǎng)址數(shù)大于數(shù)量閾值R，則放棄該網(wǎng)址，沒有超過數(shù)量閾值R的將該網(wǎng)址放入隊(duì)列中。最后從隊(duì)列中取出與天文地理主題相關(guān)度值最高的網(wǎng)址，重復(fù)上述過程，直到隊(duì)列為空。實(shí)施結(jié)果表明，基于稀疏隧道的主題網(wǎng)頁爬取方法有效地解決了普通隧道技術(shù)隨著步長K的增大而無關(guān)網(wǎng)頁大幅增大的缺點(diǎn)，圖2和圖3分別顯示了普通隧道技術(shù)和基于稀疏隧道的主題網(wǎng)頁爬取方法隨著步長K的增長，相關(guān)頁面和所有頁面的增長情況，從圖中可以看出，在此實(shí)例中，K的最佳取值為10。
權(quán)利要求
一種基于稀疏隧道的主題網(wǎng)頁爬取方法，其特征在于包括以下步驟1)從存放初始爬取網(wǎng)址的隊(duì)列開始，對(duì)隊(duì)列中的網(wǎng)址的主題相關(guān)度進(jìn)行預(yù)測(cè)，并根據(jù)預(yù)測(cè)值的高低進(jìn)行調(diào)度，預(yù)測(cè)值高的網(wǎng)址具有更高的優(yōu)先權(quán)，爬蟲按照優(yōu)先權(quán)的高低順序下載網(wǎng)址所指定的網(wǎng)頁；2)從所指定的網(wǎng)頁中提取網(wǎng)址，判別網(wǎng)址是否指向網(wǎng)絡(luò)社區(qū)黑名單中的某個(gè)站點(diǎn)，若是，則放棄該網(wǎng)址；3)對(duì)于沒有指向網(wǎng)絡(luò)社區(qū)黑名單中站點(diǎn)的網(wǎng)址，計(jì)算該網(wǎng)址的穿越步長，穿越步長是一個(gè)整數(shù)，代表了主題相關(guān)的最近的祖先網(wǎng)頁到本網(wǎng)頁長度，判斷該穿越步長是否超過一個(gè)指定的步長閾值K，K為1～30，如果超過步長閾值K，表明已經(jīng)穿越了連續(xù)K個(gè)不相關(guān)的網(wǎng)頁，應(yīng)該放棄這條路徑，則放棄該網(wǎng)址；4)將路徑?jīng)]有超過步長閾值K的網(wǎng)址分為兩部分，一部分是指向主題相關(guān)的網(wǎng)絡(luò)社區(qū)，對(duì)應(yīng)網(wǎng)址的穿越步長為0，另一部分則是指向未知類型的網(wǎng)絡(luò)社區(qū)，對(duì)應(yīng)網(wǎng)址的穿越步長大于等于1。將指向主題相關(guān)的網(wǎng)絡(luò)社區(qū)的網(wǎng)址直接放入隊(duì)列中；對(duì)于指向未知類型的網(wǎng)絡(luò)社區(qū)的網(wǎng)址，計(jì)算在隊(duì)列中與該網(wǎng)址具有相同站點(diǎn)的網(wǎng)址數(shù)，限定該網(wǎng)址數(shù)不能超過一個(gè)數(shù)量閾值R，R為15，超過數(shù)量閾值R的放棄該網(wǎng)址，沒有超過數(shù)量閾值R的將該網(wǎng)址放入隊(duì)列中；5)從隊(duì)列中取出主題相關(guān)度值最高的網(wǎng)址，下載指定的網(wǎng)頁，并重復(fù)步驟2)～步驟5)，直到隊(duì)列為空。
2.根據(jù)權(quán)利要求1所述的一種基于稀疏隧道的主題網(wǎng)頁爬取方法，其特征在于所述的網(wǎng)絡(luò)社區(qū)黑名單的建立方法為如果指向某些網(wǎng)絡(luò)社區(qū)的無關(guān)網(wǎng)頁數(shù)量超過預(yù)先設(shè)定的數(shù) 值P，P為20，則將該網(wǎng)絡(luò)社區(qū)放入黑名單中，同時(shí)將一些非常明顯的不相關(guān)站點(diǎn)手工加入到網(wǎng)絡(luò)社區(qū)黑名單中。
3.根據(jù)權(quán)利要求1所述的一種基于稀疏隧道的主題網(wǎng)頁爬取方法，其特征在于所述的計(jì)算該網(wǎng)址的穿越步長將網(wǎng)址指定的網(wǎng)頁下載到本地后，首先判斷該網(wǎng)頁是否主題相關(guān)，若相關(guān)，則該網(wǎng)址的穿越步長置為0 ；若與主題不相關(guān)，將該網(wǎng)址的穿越步長置為父網(wǎng)址的穿越步長加1。
全文摘要
本發(fā)明公開了一種基于稀疏隧道的主題網(wǎng)頁爬取方法。目前的專業(yè)網(wǎng)絡(luò)蜘蛛通常使用隧道技術(shù)來爬取主題相關(guān)的網(wǎng)頁，隧道技術(shù)在擴(kuò)大搜索范圍時(shí)引進(jìn)了“噪音”，需要處理的無關(guān)網(wǎng)頁以指數(shù)遞增，從而增加了網(wǎng)絡(luò)的負(fù)載和本地負(fù)擔(dān)。本發(fā)明針對(duì)上述缺點(diǎn)，對(duì)隧道技術(shù)進(jìn)行改進(jìn)，將網(wǎng)絡(luò)社區(qū)分成三種主題相關(guān)、無關(guān)和未知類型。對(duì)主題相關(guān)的網(wǎng)絡(luò)社區(qū)不做限制，對(duì)主題無關(guān)的網(wǎng)絡(luò)社區(qū)通過建立網(wǎng)絡(luò)社區(qū)黑名單禁止專業(yè)網(wǎng)絡(luò)蜘蛛進(jìn)入，對(duì)未知類型的網(wǎng)絡(luò)社區(qū)控制專業(yè)網(wǎng)絡(luò)蜘蛛在該網(wǎng)絡(luò)社區(qū)中的路徑數(shù)量。本發(fā)明使得專業(yè)網(wǎng)絡(luò)蜘蛛能夠在整個(gè)網(wǎng)絡(luò)中有選擇性地探索未知網(wǎng)頁，避開了大量無關(guān)網(wǎng)頁的下載，在保證網(wǎng)頁質(zhì)量的前提下有效地提高了專業(yè)網(wǎng)絡(luò)蜘蛛的準(zhǔn)確率和效率。
文檔編號(hào)G06F17/30GK101872357SQ201010196540
公開日2010年10月27日申請(qǐng)日期2010年6月8日優(yōu)先權(quán)日2010年6月8日
發(fā)明者林懷忠, 蔣雨倩申請(qǐng)人:浙江大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：林懷忠;蔣雨倩
技術(shù)所有人：浙江大學(xué)
我是此專利的發(fā)明人

上一篇：一種Linux文件保護(hù)系統(tǒng)及方法
上一篇：基于稀疏降維的譜哈希索引方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

如何爬取網(wǎng)頁數(shù)據(jù)相關(guān)技術(shù)

java爬取網(wǎng)頁數(shù)據(jù)相關(guān)技術(shù)

爬取網(wǎng)頁數(shù)據(jù)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于稀疏隧道的主題網(wǎng)頁爬取方法