技術(shù)編號:6547947
提示:您尚未登錄,請點 登 陸 后下載,如果您還沒有賬戶請點 注 冊 ,登陸完成后,請刷新本頁查看技術(shù)詳細信息。本發(fā)明公開了一種網(wǎng)絡(luò)爬蟲去重特征值的提取方法,包括步驟一,根據(jù)目標網(wǎng)站的統(tǒng)一資源定位符URL域名和URL種子特征生成正則表達式;步驟二,從目標網(wǎng)站的URL地址中捕獲與所述正則表達式匹配的字符串;步驟三,對所述字符串進行預(yù)定的格式轉(zhuǎn)換,得到所述URL地址的去重特征值。本發(fā)明還提供一種網(wǎng)絡(luò)爬蟲去重特征值的提取裝置。本發(fā)明適用于對不同URL鏈接指向相同頁面的情況實現(xiàn)去重。專利說明一種網(wǎng)絡(luò)爬蟲去重特征值的提取方法和裝置[0001]本發(fā)明涉及互聯(lián)網(wǎng),具體涉及一種網(wǎng)絡(luò)...
注意:該技術(shù)已申請專利,請尊重研發(fā)人員的辛勤研發(fā)付出,在未取得專利權(quán)人授權(quán)前,僅供技術(shù)研究參考不得用于商業(yè)用途。
該專利適合技術(shù)人員進行技術(shù)研發(fā)參考以及查看自身技術(shù)是否侵權(quán),增加技術(shù)思路,做技術(shù)知識儲備,不適合論文引用。
請注意,此類技術(shù)沒有源代碼,用于學(xué)習研究技術(shù)思路。