本發(fā)明涉及計(jì)算機(jī)領(lǐng)域,更具體地,涉及一種目標(biāo)主題智能抓取方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù):
在計(jì)算機(jī)領(lǐng)域,爬蟲(chóng)技術(shù)是一個(gè)自動(dòng)下載網(wǎng)頁(yè)的程序,它根據(jù)既定的抓取目標(biāo),有選擇的訪問(wèn)萬(wàn)維網(wǎng)上的網(wǎng)頁(yè)與相關(guān)的鏈接,獲取所需要的信息。爬蟲(chóng)技術(shù)并不追求大的覆蓋,而將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁(yè),為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源。目前,某些網(wǎng)站可能有些控制訪問(wèn)的邏輯,即反抓取策略。因此,有必要開(kāi)發(fā)一種目標(biāo)主題智能抓取方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
公開(kāi)于本發(fā)明背景技術(shù)部分的信息僅僅旨在加深對(duì)本發(fā)明的一般背景技術(shù)的理解,而不應(yīng)當(dāng)被視為承認(rèn)或以任何形式暗示該信息構(gòu)成已為本領(lǐng)域技術(shù)人員所公知的現(xiàn)有技術(shù)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提出了一種目標(biāo)主題智能抓取方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其能夠通過(guò)分布式的搜索,實(shí)現(xiàn)高效穩(wěn)定的目標(biāo)主題的智能抓取。
根據(jù)本發(fā)明的一方面,提出了一種目標(biāo)主題智能抓取方法。所述方法可以包括:調(diào)度中心從數(shù)據(jù)庫(kù)中讀取待匹配搜索的目標(biāo)主題,通過(guò)調(diào)度算法分配給多個(gè)隊(duì)列;多個(gè)分析器同時(shí)從對(duì)應(yīng)的所述多個(gè)隊(duì)列中獲取等待分析的所述目標(biāo)主題,并進(jìn)行關(guān)鍵詞提取,獲得所述關(guān)鍵詞;多個(gè)分析器同時(shí)將所述關(guān)鍵詞應(yīng)用到對(duì)應(yīng)的多個(gè)互聯(lián)網(wǎng)站點(diǎn)的搜索界面進(jìn)行搜索,將獲得的搜索結(jié)果返回給調(diào)度中心;以及調(diào)度中心分析所述搜索結(jié)果,保存最終的搜索結(jié)果,其中,所述多個(gè)分析器與所述多個(gè)隊(duì)列一一對(duì)應(yīng)。
優(yōu)選地,調(diào)度中心分析所述搜索結(jié)果,保存最終的搜索結(jié)果包括:判斷所述搜索結(jié)果是否有效,如果無(wú)效,繼續(xù)進(jìn)行所述隊(duì)列的分配,重復(fù)關(guān)鍵詞提取與搜索;以及如果有效,保存所述最終的搜索結(jié)果。
優(yōu)選地,所述多個(gè)分析器與所述多個(gè)互聯(lián)網(wǎng)站點(diǎn)一一對(duì)應(yīng)。
優(yōu)選地,所述待匹配搜索的目標(biāo)主題由用戶通過(guò)客戶端上傳至所述數(shù)據(jù)庫(kù)。
優(yōu)選地,還包括:調(diào)度中心將所述最終的搜索結(jié)果返回給所述客戶端。
根據(jù)本發(fā)明的另一方面,提出了一種目標(biāo)主題智能抓取系統(tǒng),所述系統(tǒng)可以包括:調(diào)度中心,所述調(diào)度中心從數(shù)據(jù)庫(kù)中讀取待匹配搜索的目標(biāo)主題,通過(guò)調(diào)度算法分配給多個(gè)隊(duì)列,分析搜索結(jié)果,并保存最終的搜索結(jié)果;數(shù)據(jù)庫(kù),存儲(chǔ)所述待匹配搜索的目標(biāo)主題;隊(duì)列,所述多個(gè)隊(duì)列接收所述調(diào)度中心分配的所述待匹配搜索的目標(biāo)主題,并分配給對(duì)應(yīng)的多個(gè)分析器;以及分析器,所述多個(gè)分析器同時(shí)從對(duì)應(yīng)的所述多個(gè)隊(duì)列中獲取等待分析的所述目標(biāo)主題,并進(jìn)行關(guān)鍵詞提取,將所述關(guān)鍵詞同時(shí)應(yīng)用到對(duì)應(yīng)的多個(gè)互聯(lián)網(wǎng)站點(diǎn)的搜索界面進(jìn)行搜索,將所述搜索結(jié)果返回給調(diào)度中心,其中,所述多個(gè)分析器與所述多個(gè)隊(duì)列一一對(duì)應(yīng)。
優(yōu)選地,調(diào)度中心分析所述搜索結(jié)果,保存最終的搜索結(jié)果包括:判斷所述搜索結(jié)果是否有效,如果無(wú)效,繼續(xù)進(jìn)行所述隊(duì)列的分配,重復(fù)關(guān)鍵詞提取與搜索;以及如果有效,保存所述最終的搜索結(jié)果。
優(yōu)選地,所述多個(gè)分析器與所述多個(gè)互聯(lián)網(wǎng)站點(diǎn)一一對(duì)應(yīng)。
優(yōu)選地,所述待匹配搜索的目標(biāo)主題由用戶通過(guò)客戶端上傳至所述數(shù)據(jù)庫(kù),調(diào)度中心將所述最終的搜索結(jié)果返回給所述客戶端。
根據(jù)本發(fā)明的第三個(gè)方面,提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其中,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)以下步驟:調(diào)度中心從數(shù)據(jù)庫(kù)中讀取待匹配搜索的目標(biāo)主題,通過(guò)調(diào)度算法分配給多個(gè)隊(duì)列;多個(gè)分析器同時(shí)從對(duì)應(yīng)的所述多個(gè)隊(duì)列中獲取等待分析的所述目標(biāo)主題,并進(jìn)行關(guān)鍵詞提取,獲得所述關(guān)鍵詞;多個(gè)分析器同時(shí)將所述關(guān)鍵詞應(yīng)用到對(duì)應(yīng)的多個(gè)互聯(lián)網(wǎng)站點(diǎn)的搜索界面進(jìn)行搜索,將獲得的搜索結(jié)果返回給調(diào)度中心;以及調(diào)度中心分析所述搜索結(jié)果,保存最終的搜索結(jié)果,其中,所述多個(gè)分析器與所述多個(gè)隊(duì)列一一對(duì)應(yīng)。
本發(fā)明的方法和裝置具有其它的特性和優(yōu)點(diǎn),這些特性和優(yōu)點(diǎn)從并入本文中的附圖和隨后的具體實(shí)施方式中將是顯而易見(jiàn)的,或者將在并入本文中的附圖和隨后的具體實(shí)施方式中進(jìn)行詳細(xì)陳述,這些附圖和具體實(shí)施方式共同用于解釋本發(fā)明的特定原理。
附圖說(shuō)明
通過(guò)結(jié)合附圖對(duì)本發(fā)明示例性實(shí)施方式進(jìn)行更詳細(xì)的描述,本發(fā)明的上述以及其它目的、特征和優(yōu)勢(shì)將變得更加明顯,其中,在本發(fā)明示例性實(shí)施方式中,相同的參考標(biāo)號(hào)通常代表相同部件。
圖1示出了根據(jù)本發(fā)明的目標(biāo)主題智能抓取方法的步驟的流程圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本發(fā)明。雖然附圖中顯示了本發(fā)明的優(yōu)選實(shí)施方式,然而應(yīng)該理解,可以以各種形式實(shí)現(xiàn)本發(fā)明而不應(yīng)被這里闡述的實(shí)施方式所限制。相反,提供這些實(shí)施方式是為了使本發(fā)明更加透徹和完整,并且能夠?qū)⒈景l(fā)明的范圍完整地傳達(dá)給本領(lǐng)域的技術(shù)人員。
實(shí)施方式1
圖1示出了根據(jù)本發(fā)明的目標(biāo)主題智能抓取方法的步驟的流程圖。
在該實(shí)施方式中,根據(jù)本發(fā)明的目標(biāo)主題智能抓取方法可以包括:步驟101,調(diào)度中心從數(shù)據(jù)庫(kù)中讀取待匹配搜索的目標(biāo)主題,通過(guò)調(diào)度算法分配給多個(gè)隊(duì)列;步驟102,多個(gè)分析器同時(shí)從對(duì)應(yīng)的多個(gè)隊(duì)列中獲取等待分析的目標(biāo)主題,并進(jìn)行關(guān)鍵詞提取,獲得關(guān)鍵詞;步驟103,多個(gè)分析器同時(shí)將關(guān)鍵詞應(yīng)用到對(duì)應(yīng)的多個(gè)互聯(lián)網(wǎng)站點(diǎn)的搜索界面進(jìn)行搜索,將獲得的搜索結(jié)果返回給調(diào)度中心;以及步驟104,調(diào)度中心分析搜索結(jié)果,保存最終的搜索結(jié)果,其中,多個(gè)分析器與多個(gè)隊(duì)列一一對(duì)應(yīng)。
該實(shí)施方式通過(guò)分布式的搜索,實(shí)現(xiàn)高效穩(wěn)定的目標(biāo)主題的智能抓取。
下面詳細(xì)說(shuō)明根據(jù)本發(fā)明的目標(biāo)主題智能抓取方法的具體步驟。
在一個(gè)示例中,調(diào)度中心從數(shù)據(jù)庫(kù)中讀取待匹配搜索的目標(biāo)主題,可以通過(guò)調(diào)度算法分配給多個(gè)隊(duì)列。
在一個(gè)示例中,待匹配搜索的目標(biāo)主題可以由用戶通過(guò)客戶端上傳至數(shù)據(jù)庫(kù)。
具體地,用戶通過(guò)客戶端將待匹配搜索的目標(biāo)主題上傳至數(shù)據(jù)庫(kù),調(diào)度中心從數(shù)據(jù)庫(kù)中讀取待匹配搜索的目標(biāo)主題,通過(guò)調(diào)度算法分配給隊(duì)列,調(diào)度算法會(huì)根據(jù)系統(tǒng)的負(fù)載,隊(duì)列等待進(jìn)行的任務(wù)數(shù)量,各網(wǎng)站處理時(shí)間等參數(shù)動(dòng)態(tài)分配,本領(lǐng)域技術(shù)人員可以根據(jù)跟提情況選擇需要的調(diào)度算法。
在一個(gè)示例中,多個(gè)分析器同時(shí)從對(duì)應(yīng)的多個(gè)隊(duì)列中獲取等待分析的目標(biāo)主題,并進(jìn)行關(guān)鍵詞提取,可以獲得關(guān)鍵詞。
在一個(gè)示例中,多個(gè)分析器與多個(gè)隊(duì)列一一對(duì)應(yīng)。
在一個(gè)示例中,多個(gè)分析器同時(shí)將關(guān)鍵詞應(yīng)用到對(duì)應(yīng)的多個(gè)互聯(lián)網(wǎng)站點(diǎn)的搜索界面進(jìn)行搜索,可以將獲得的搜索結(jié)果返回給調(diào)度中心。
在一個(gè)示例中,多個(gè)分析器與多個(gè)互聯(lián)網(wǎng)站點(diǎn)一一對(duì)應(yīng)。
具體地,分析器與隊(duì)列一一對(duì)應(yīng),一組分析器與隊(duì)列和互聯(lián)網(wǎng)站點(diǎn)一一對(duì)應(yīng),某些網(wǎng)站有控制訪問(wèn)的邏輯,即反抓取策略,通過(guò)配置各個(gè)網(wǎng)站的分析器,逐個(gè)網(wǎng)站地進(jìn)行單獨(dú)適配、優(yōu)化。本領(lǐng)域技術(shù)人員可以根據(jù)網(wǎng)站的具體情況配置對(duì)應(yīng)的分析器。
多個(gè)分析器可以同時(shí)從對(duì)應(yīng)的多個(gè)隊(duì)列中獲取等待分析的目標(biāo)主題,并進(jìn)行關(guān)鍵詞提取,獲得關(guān)鍵詞,多個(gè)分析器同時(shí)將關(guān)鍵詞應(yīng)用到對(duì)應(yīng)的多個(gè)互聯(lián)網(wǎng)站點(diǎn)的搜索界面進(jìn)行搜索,將獲得的搜索結(jié)果返回給調(diào)度中心。
在一個(gè)示例中,調(diào)度中心分析搜索結(jié)果,可以保存最終的搜索結(jié)果。
在一個(gè)示例中,調(diào)度中心分析搜索結(jié)果,保存最終的搜索結(jié)果可以包括:判斷搜索結(jié)果是否有效,如果無(wú)效,繼續(xù)進(jìn)行隊(duì)列的分配,重復(fù)關(guān)鍵詞提取與搜索;以及如果有效,保存最終的搜索結(jié)果。
在一個(gè)示例中,本方法還可以包括:調(diào)度中心將最終的搜索結(jié)果返回給客戶端。
具體地,調(diào)度中心分析搜索結(jié)果是否有效,即商品信息是否被正常解析,如果無(wú)效,繼續(xù)進(jìn)行隊(duì)列的分配,重復(fù)關(guān)鍵詞提取與搜索,如果遇到重復(fù)關(guān)鍵詞,則判斷關(guān)鍵詞最近一次執(zhí)行的時(shí)間,如果在7天內(nèi)已經(jīng)處理過(guò),則忽略。如果有效,保存最終的搜索結(jié)果。調(diào)度中心將最終的搜索結(jié)果返回給客戶端,用戶可以通過(guò)客戶端查看最終的搜索結(jié)果。
應(yīng)用示例
為便于理解本發(fā)明實(shí)施方式的方案及其效果,以下給出一個(gè)具體應(yīng)用示例。本領(lǐng)域技術(shù)人員應(yīng)理解,該示例僅為了便于理解本發(fā)明,其任何具體細(xì)節(jié)并非意在以任何方式限制本發(fā)明。
用戶通過(guò)客戶端將待匹配搜索的目標(biāo)主題上傳至數(shù)據(jù)庫(kù),調(diào)度中心從數(shù)據(jù)庫(kù)中讀取待匹配搜索的目標(biāo)主題,根據(jù)系統(tǒng)的負(fù)載,隊(duì)列等待進(jìn)行的任務(wù)數(shù)量,各網(wǎng)站處理時(shí)間等參數(shù)動(dòng)態(tài)分配情況,通過(guò)調(diào)度算法將待匹配搜索的目標(biāo)主題分配給隊(duì)列。分析器與隊(duì)列一一對(duì)應(yīng),一組分析器與隊(duì)列和互聯(lián)網(wǎng)站點(diǎn)一一對(duì)應(yīng),通過(guò)配置各個(gè)網(wǎng)站的分析器,逐個(gè)網(wǎng)站地進(jìn)行單獨(dú)適配、優(yōu)化。
多個(gè)分析器同時(shí)從對(duì)應(yīng)的多個(gè)隊(duì)列中獲取等待分析的目標(biāo)主題,并進(jìn)行關(guān)鍵詞提取,獲得關(guān)鍵詞,多個(gè)分析器同時(shí)將關(guān)鍵詞應(yīng)用到對(duì)應(yīng)的多個(gè)互聯(lián)網(wǎng)站點(diǎn)的搜索界面進(jìn)行搜索,將獲得的搜索結(jié)果返回給調(diào)度中心。調(diào)度中心分析搜索結(jié)果是否有效,即商品信息是否被正常解析,判斷搜索結(jié)果有效,已被正常解析,則保存最終的搜索結(jié)果,并將最終的搜索結(jié)果返回給客戶端,用戶通過(guò)客戶端查看最終的搜索結(jié)果。
綜上所述,本發(fā)明通過(guò)分布式的搜索,實(shí)現(xiàn)高效穩(wěn)定的目標(biāo)主題的智能抓取。
本領(lǐng)域技術(shù)人員應(yīng)理解,上面對(duì)本發(fā)明的實(shí)施方式的描述的目的僅為了示例性地說(shuō)明本發(fā)明的實(shí)施方式的有益效果,并不意在將本發(fā)明的實(shí)施方式限制于所給出的任何示例。
實(shí)施方式2
根據(jù)本發(fā)明的實(shí)施方式,提供了一種目標(biāo)主題智能抓取系統(tǒng),所述系統(tǒng)可以包括:調(diào)度中心,調(diào)度中心從數(shù)據(jù)庫(kù)中讀取待匹配搜索的目標(biāo)主題,通過(guò)調(diào)度算法分配給多個(gè)隊(duì)列,分析搜索結(jié)果,并保存最終的搜索結(jié)果;數(shù)據(jù)庫(kù),存儲(chǔ)待匹配搜索的目標(biāo)主題;隊(duì)列,多個(gè)隊(duì)列接收調(diào)度中心分配的待匹配搜索的目標(biāo)主題,并分配給對(duì)應(yīng)的多個(gè)分析器;以及分析器,多個(gè)分析器同時(shí)從對(duì)應(yīng)的多個(gè)隊(duì)列中獲取等待分析的目標(biāo)主題,并進(jìn)行關(guān)鍵詞提取,將關(guān)鍵詞同時(shí)應(yīng)用到對(duì)應(yīng)的多個(gè)互聯(lián)網(wǎng)站點(diǎn)的搜索界面進(jìn)行搜索,將搜索結(jié)果返回給調(diào)度中心,其中,多個(gè)分析器與多個(gè)隊(duì)列一一對(duì)應(yīng)。
該實(shí)施方式通過(guò)分布式的搜索,實(shí)現(xiàn)高效穩(wěn)定的目標(biāo)主題的智能抓取。
在一個(gè)示例中,調(diào)度中心分析搜索結(jié)果,并保存最終的搜索結(jié)果可以包括:判斷搜索結(jié)果是否有效,如果無(wú)效,繼續(xù)進(jìn)行隊(duì)列的分配,重復(fù)關(guān)鍵詞提取與搜索;以及如果有效,保存最終的搜索結(jié)果。
在一個(gè)示例中,多個(gè)分析器與多個(gè)互聯(lián)網(wǎng)站點(diǎn)一一對(duì)應(yīng)。
在一個(gè)示例中,待匹配搜索的目標(biāo)主題可以由用戶通過(guò)客戶端上傳至數(shù)據(jù)庫(kù),調(diào)度中心將最終的搜索結(jié)果返回給客戶端。
本領(lǐng)域技術(shù)人員應(yīng)理解,上面對(duì)本發(fā)明的實(shí)施方式的描述的目的僅為了示例性地說(shuō)明本發(fā)明的實(shí)施方式的有益效果,并不意在將本發(fā)明的實(shí)施方式限制于所給出的任何示例。
實(shí)施方式3
根據(jù)本發(fā)明的實(shí)施方式,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其中,程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)以下步驟:調(diào)度中心從數(shù)據(jù)庫(kù)中讀取待匹配搜索的目標(biāo)主題,通過(guò)調(diào)度算法分配給多個(gè)隊(duì)列;多個(gè)分析器同時(shí)從對(duì)應(yīng)的多個(gè)隊(duì)列中獲取等待分析的目標(biāo)主題,并進(jìn)行關(guān)鍵詞提取,獲得關(guān)鍵詞;多個(gè)分析器同時(shí)將關(guān)鍵詞應(yīng)用到對(duì)應(yīng)的多個(gè)互聯(lián)網(wǎng)站點(diǎn)的搜索界面進(jìn)行搜索,將獲得的搜索結(jié)果返回給調(diào)度中心;以及調(diào)度中心分析搜索結(jié)果,保存最終的搜索結(jié)果,其中,多個(gè)分析器與多個(gè)隊(duì)列一一對(duì)應(yīng)。
該實(shí)施方式通過(guò)分布式的搜索,實(shí)現(xiàn)高效穩(wěn)定的目標(biāo)主題的智能抓取。
本領(lǐng)域技術(shù)人員應(yīng)理解,上面對(duì)本發(fā)明的實(shí)施方式的描述的目的僅為了示例性地說(shuō)明本發(fā)明的實(shí)施方式的有益效果,并不意在將本發(fā)明的實(shí)施方式限制于所給出的任何示例。
以上已經(jīng)描述了本發(fā)明的各實(shí)施方式,上述說(shuō)明是示例性的,并非窮盡性的,并且也不限于所披露的各實(shí)施方式。在不偏離所說(shuō)明的各實(shí)施方式的范圍和精神的情況下,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)許多修改和變更都是顯而易見(jiàn)的。