本發(fā)明涉及一種信息抓取方法,尤其涉及一種適用于專(zhuān)利公開(kāi)科技數(shù)據(jù)庫(kù)的信息抓取方法。
背景技術(shù):
就現(xiàn)有的企業(yè)研發(fā)數(shù)據(jù)收集來(lái)看,往往是采用人工方式,通過(guò)關(guān)鍵詞以及邏輯公式進(jìn)行不同數(shù)據(jù)庫(kù)的檢索,以獲得相關(guān)的資源信息。但是,這種搜集方式費(fèi)時(shí)費(fèi)力,搜集完畢后還需要通過(guò)人工進(jìn)行二次比對(duì),才能過(guò)濾出可用的參考信息。對(duì)于研發(fā)需求量大的部門(mén)或是企業(yè),人力成本投入較大,且因?yàn)槿藛T差異化會(huì)導(dǎo)致搜集差異。
有鑒于上述的缺陷,本設(shè)計(jì)人,積極加以研究創(chuàng)新,以期創(chuàng)設(shè)一種適用于專(zhuān)利公開(kāi)科技數(shù)據(jù)庫(kù)的信息抓取方法,使其更具有產(chǎn)業(yè)上的利用價(jià)值。
技術(shù)實(shí)現(xiàn)要素:
為解決上述技術(shù)問(wèn)題,本發(fā)明的目的是提供一種適用于專(zhuān)利公開(kāi)科技數(shù)據(jù)庫(kù)的信息抓取方法。
本發(fā)明的適用于專(zhuān)利公開(kāi)科技數(shù)據(jù)庫(kù)的信息抓取方法,其中:設(shè)定獨(dú)立的抓取模塊,根據(jù)網(wǎng)段的不同設(shè)定抓取協(xié)議。銜接專(zhuān)利公開(kāi)數(shù)據(jù)庫(kù)的對(duì)外數(shù)據(jù)端口,按照設(shè)定關(guān)鍵詞進(jìn)行抓取。檢索后的數(shù)據(jù)文件首先在抓取服務(wù)器中進(jìn)行存儲(chǔ)。同時(shí),所述抓取服務(wù)器內(nèi)的數(shù)據(jù)文件進(jìn)行過(guò)濾后,進(jìn)行解析。最終,解析后的數(shù)據(jù)存入終端服務(wù)器并通過(guò)發(fā)布裝置進(jìn)行發(fā)布。
進(jìn)一步地,上述的適用于專(zhuān)利公開(kāi)科技數(shù)據(jù)庫(kù)的信息抓取方法,其中,所述抓取模塊為網(wǎng)絡(luò)爬蟲(chóng)模塊,所述網(wǎng)絡(luò)爬蟲(chóng)模塊設(shè)有獨(dú)立的抓取關(guān)鍵詞管理庫(kù),通過(guò)設(shè)定時(shí)間段進(jìn)行數(shù)據(jù)抓取。
更進(jìn)一步地,上述的適用于專(zhuān)利公開(kāi)科技數(shù)據(jù)庫(kù)的信息抓取方法,其中,所述設(shè)定時(shí)間為網(wǎng)絡(luò)爬蟲(chóng)模塊依據(jù)帶寬負(fù)荷,在低于擁堵閾值時(shí),進(jìn)行抓取。
更進(jìn)一步地,上述的適用于專(zhuān)利公開(kāi)科技數(shù)據(jù)庫(kù)的信息抓取方法,其中,所述抓取協(xié)議為,抓取模塊根據(jù)針對(duì)的內(nèi)網(wǎng)、外網(wǎng)的帶寬、數(shù)據(jù)傳輸效率、驗(yàn)證方式、原始數(shù)據(jù)格式,判斷采用文本文件導(dǎo)出,或是html格式文件導(dǎo)出,或是圖片格式文件導(dǎo)出,或是pdf格式文件導(dǎo)出。
更進(jìn)一步地,上述的適用于專(zhuān)利公開(kāi)科技數(shù)據(jù)庫(kù)的信息抓取方法,其中,所述過(guò)濾過(guò)程為,搜尋數(shù)據(jù)文件內(nèi)的無(wú)效內(nèi)容,刪除無(wú)效內(nèi)容后進(jìn)行邏輯判斷,若影響邏輯表達(dá),則保留無(wú)效內(nèi)容,且對(duì)無(wú)效內(nèi)容進(jìn)行標(biāo)注,若不影響邏輯表達(dá),則確認(rèn)刪除。
更進(jìn)一步地,上述的適用于專(zhuān)利公開(kāi)科技數(shù)據(jù)庫(kù)的信息抓取方法,其中,所述無(wú)效內(nèi)容包括,驗(yàn)證碼、格式符標(biāo)注、無(wú)效代碼嵌入、亂碼嵌入。
更進(jìn)一步地,上述的適用于專(zhuān)利公開(kāi)科技數(shù)據(jù)庫(kù)的信息抓取方法,其中,所述抓取過(guò)程中,設(shè)定抓取范圍,包括標(biāo)題、摘要、專(zhuān)利全文、說(shuō)明書(shū)、權(quán)利要求書(shū)、說(shuō)明書(shū)附圖、著錄項(xiàng)目信息。
更進(jìn)一步地,上述的適用于專(zhuān)利公開(kāi)科技數(shù)據(jù)庫(kù)的信息抓取方法,其中,所述終端服務(wù)器對(duì)解析后的數(shù)據(jù)進(jìn)行加密,對(duì)解析后的數(shù)據(jù)匹配快速查找的搜索關(guān)鍵詞。
再進(jìn)一步地,上述的適用于專(zhuān)利公開(kāi)科技數(shù)據(jù)庫(kù)的信息抓取方法,其中,所述發(fā)布裝置為pc機(jī),和/或是為智能手機(jī),和/或是為智能手持設(shè)備。
借由上述方案,本發(fā)明至少具有以下優(yōu)點(diǎn):
1、可依據(jù)網(wǎng)段的不同設(shè)定對(duì)應(yīng)的抓取協(xié)議,減少抓取的匹配運(yùn)算過(guò)程,提高抓取執(zhí)行效率;
2、可依據(jù)關(guān)鍵詞制定抓取方式,獲取有針對(duì)性數(shù)據(jù)。
3、擁有完善的存儲(chǔ)、過(guò)濾機(jī)制,提升數(shù)據(jù)的保存安全性,同時(shí)減少無(wú)效信息,便于文件匯總收錄。
4、可匹配常用的智能設(shè)備進(jìn)行信息抓取后的發(fā)布,實(shí)施便捷。
5、對(duì)服務(wù)器要求低,滿(mǎn)足服務(wù)器長(zhǎng)時(shí)間不間斷抓取和發(fā)布運(yùn)轉(zhuǎn)。
上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,并可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,以下以本發(fā)明的較佳實(shí)施例詳細(xì)說(shuō)明如后。
具體實(shí)施方式
下面結(jié)合實(shí)施例,對(duì)本發(fā)明的具體實(shí)施方式作進(jìn)一步詳細(xì)描述。以下實(shí)施例用于說(shuō)明本發(fā)明,但不用來(lái)限制本發(fā)明的范圍。
適用于專(zhuān)利公開(kāi)科技數(shù)據(jù)庫(kù)的信息抓取方法,其與眾不同在于:本發(fā)明設(shè)有獨(dú)立的抓取模塊,可根據(jù)網(wǎng)段的不同設(shè)定抓取協(xié)議。這樣,能夠針對(duì)各種專(zhuān)利公開(kāi)數(shù)據(jù)庫(kù)的數(shù)據(jù)結(jié)構(gòu),實(shí)現(xiàn)優(yōu)化數(shù)據(jù)抓取,且設(shè)定后能人工智能識(shí)別。在實(shí)施期間,銜接專(zhuān)利公開(kāi)數(shù)據(jù)庫(kù)的對(duì)外數(shù)據(jù)端口,按照設(shè)定關(guān)鍵詞進(jìn)行抓取。同時(shí),為了預(yù)防數(shù)據(jù)出現(xiàn)不必要的丟失,檢索后的數(shù)據(jù)文件首先在抓取服務(wù)器中進(jìn)行存儲(chǔ)??紤]到無(wú)效數(shù)據(jù)的過(guò)濾,便于提供最合理的抓取結(jié)果,抓取服務(wù)器內(nèi)的數(shù)據(jù)文件進(jìn)行過(guò)濾后,進(jìn)行解析。最終,解析后的數(shù)據(jù)存入終端服務(wù)器并通過(guò)發(fā)布裝置進(jìn)行發(fā)布。
結(jié)合本發(fā)明一較佳的實(shí)施方式來(lái)看,為了實(shí)現(xiàn)全方位的數(shù)據(jù)抓取,抓取模塊為網(wǎng)絡(luò)爬蟲(chóng)模塊,網(wǎng)絡(luò)爬蟲(chóng)模塊設(shè)有獨(dú)立的抓取關(guān)鍵詞管理庫(kù),通過(guò)設(shè)定時(shí)間段進(jìn)行數(shù)據(jù)抓取。結(jié)合實(shí)際實(shí)施來(lái)說(shuō),設(shè)定時(shí)間為網(wǎng)絡(luò)爬蟲(chóng)模塊依據(jù)帶寬負(fù)荷,在低于擁堵閾值時(shí),進(jìn)行抓取。這樣,不會(huì)對(duì)自身的服務(wù)器構(gòu)架造成過(guò)大的負(fù)擔(dān)。同時(shí),能夠優(yōu)化數(shù)據(jù)抓取,提升抓取效率。
進(jìn)一步來(lái)看,本發(fā)明采用的抓取協(xié)議為,抓取模塊根據(jù)針對(duì)的內(nèi)網(wǎng)、外網(wǎng)的帶寬、數(shù)據(jù)傳輸效率、驗(yàn)證方式、原始數(shù)據(jù)格式,判斷采用文本文件導(dǎo)出,或是html格式文件導(dǎo)出,或是圖片格式文件導(dǎo)出,或是pdf格式文件導(dǎo)出。由此,即便遭遇到需要反復(fù)數(shù)據(jù)驗(yàn)證的頁(yè)面,亦可以進(jìn)行針對(duì)性的數(shù)據(jù)獲取導(dǎo)向,順利抓取數(shù)據(jù),減少多余亂碼產(chǎn)生。更為重要的是,可以?xún)?yōu)化最終的數(shù)據(jù),獲得最合適的文件格式,減少存儲(chǔ)負(fù)擔(dān)。
結(jié)合實(shí)際實(shí)施來(lái)看,本發(fā)明采用的過(guò)濾過(guò)程為,搜尋數(shù)據(jù)文件內(nèi)的無(wú)效內(nèi)容,刪除無(wú)效內(nèi)容后進(jìn)行邏輯判斷,若影響邏輯表達(dá),則保留無(wú)效內(nèi)容,且對(duì)無(wú)效內(nèi)容進(jìn)行標(biāo)注,若不影響邏輯表達(dá),則確認(rèn)刪除。具體來(lái)說(shuō),為了盡可能排除潛在的無(wú)效內(nèi)容,便于后續(xù)發(fā)布采用,本發(fā)明采用的無(wú)效內(nèi)容包括,驗(yàn)證碼、格式符標(biāo)注、無(wú)效代碼嵌入、亂碼嵌入。為了起到更好的過(guò)濾效果,可通過(guò)專(zhuān)利公開(kāi)數(shù)據(jù)庫(kù)對(duì)應(yīng)的語(yǔ)言文字,進(jìn)行斷字匹配,符合對(duì)應(yīng)的語(yǔ)言詞組習(xí)慣與閱讀習(xí)慣。
本發(fā)明在實(shí)施抓取過(guò)程中,可設(shè)定抓取范圍。具體來(lái)說(shuō),為了適應(yīng)專(zhuān)利公開(kāi)文件的常規(guī)格式或是內(nèi)容,可包括標(biāo)題、摘要、專(zhuān)利全文、說(shuō)明書(shū)、權(quán)利要求書(shū)、說(shuō)明書(shū)附圖、著錄項(xiàng)目信息。這樣,可以根據(jù)不同的抓取需要來(lái)獲得對(duì)應(yīng)的內(nèi)容,
從信息安全性出發(fā),為了預(yù)防自身抓取的信息被其他服務(wù)器惡意侵入或是出現(xiàn)端口攻擊,終端服務(wù)器對(duì)解析后的數(shù)據(jù)進(jìn)行加密。由此,即便是數(shù)據(jù)因?yàn)楣粼斐赏庑?,也不?huì)造成真實(shí)的數(shù)據(jù)損失。同時(shí),考慮到后續(xù)使用者進(jìn)行人工二次搜索的便利,能夠第一時(shí)間獲取所需要的數(shù)據(jù),可對(duì)解析后的數(shù)據(jù)匹配快速查找的搜索關(guān)鍵詞。
結(jié)合實(shí)際實(shí)施來(lái)看,為了實(shí)現(xiàn)最終發(fā)布的便利,本發(fā)明采用的發(fā)布裝置為pc機(jī)。同時(shí),考慮到用戶(hù)使用的便利,能夠隨時(shí)查閱相關(guān)的數(shù)據(jù)信息,可采用智能手機(jī)是為智能手持設(shè)備參與發(fā)布。
通過(guò)上述的文字表述可以看出,采用本發(fā)明后,擁有如下優(yōu)點(diǎn):
1、可依據(jù)網(wǎng)段的不同設(shè)定對(duì)應(yīng)的抓取協(xié)議,減少抓取的匹配運(yùn)算過(guò)程,提高抓取執(zhí)行效率;
2、可依據(jù)關(guān)鍵詞制定抓取方式,獲取有針對(duì)性數(shù)據(jù)。
3、擁有完善的存儲(chǔ)、過(guò)濾機(jī)制,提升數(shù)據(jù)的保存安全性,同時(shí)減少無(wú)效信息,便于文件匯總收錄。
4、可匹配常用的智能設(shè)備進(jìn)行信息抓取后的發(fā)布,實(shí)施便捷。
5、對(duì)服務(wù)器要求低,滿(mǎn)足服務(wù)器長(zhǎng)時(shí)間不間斷抓取和發(fā)布運(yùn)轉(zhuǎn)。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,并不用于限制本發(fā)明,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明技術(shù)原理的前提下,還可以做出若干改進(jìn)和變型,這些改進(jìn)和變型也應(yīng)視為本發(fā)明的保護(hù)范圍。