一種互聯(lián)網(wǎng)資源定向獲取方法及系統(tǒng)的制作方法

文檔序號：6470733閱讀：190來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種互聯(lián)網(wǎng)資源定向獲取方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及互聯(lián)網(wǎng)搜索引擎領(lǐng)域，具體涉及一種互聯(lián)網(wǎng)資源定向獲取方法及系統(tǒng)。
背景技術(shù)：
搜索引擎是以一定的策略搜集互聯(lián)網(wǎng)上的信息，在對信息進(jìn)行組織和處理后為用戶提供網(wǎng)絡(luò)信息服務(wù)的計算機系統(tǒng)。它的主要作用是幫助用戶快捷、高效的獲取存在于互聯(lián)網(wǎng)信息環(huán)境中的能夠滿足用戶需求的高質(zhì)量信息。
目前，通用搜索引擎包含信息搜集、信息整理和用戶查詢?nèi)糠帧?信息搜索部分負(fù)責(zé)在互聯(lián)網(wǎng)上抓取信息，將抓取的信息保存在數(shù)據(jù)服務(wù)器中，信息整理負(fù)責(zé)用索引器對抓取的信息進(jìn)行整理，進(jìn)而供用戶
使用查詢器進(jìn)行查詢；用戶查詢部分負(fù)責(zé)為用戶提供搜索界面。
目前，搜索引擎技術(shù)中信息搜集部分主要局限有如下幾個方面
1) 對于互聯(lián)網(wǎng)資源的獲取釆用的一種漫無邊際式的抓取方式，例如若釆用網(wǎng)絡(luò)爬蟲進(jìn)行網(wǎng)頁抓取的過程為，網(wǎng)絡(luò)爬蟲從若干指定的網(wǎng)頁開始，解析這些網(wǎng)頁里面包含的超鏈接，然后下載這些超鏈接所指向的網(wǎng)頁，不斷進(jìn)行下去，理論上可以將互聯(lián)網(wǎng)上所有的網(wǎng)頁都下載下來。但是由于抓取之前沒有確定有效抓取站點，并且沒有對所要抓取的站點進(jìn)行定向分析進(jìn)而實現(xiàn)對特定網(wǎng)頁的抓取。因此是一種漫游式的、非定向式的抓取，從而抓取到的內(nèi)容充斥了大量的垃圾信息
和無用信息，極大地增加了后續(xù)的管理成本和用戶的使用成本；
2) 對抓取到的資源沒有進(jìn)行深度的編輯，進(jìn)而造成了資源的大量重復(fù)；
3) 對抓取到的資源沒有做深度的標(biāo)引，沒有給出每條數(shù)據(jù)的學(xué)科、主題、作者、單位、摘要等知識點，從而沒有完善的知識體系作為資源的管理支撐，資源組織體系散亂沒有章法，深度挖掘利用困難很大。比如，由于搜索引擎商家在信息搜索部分進(jìn)行網(wǎng)頁抓取時，所抓取的不同類別的網(wǎng)頁集中一起，沒有按照行業(yè)或者學(xué)科、主題進(jìn)行聚類，因而在用戶利用相關(guān)詞語進(jìn)行搜索時，無論對于后續(xù)的資源整合還是用戶深度利用都是很大的問題。
4)網(wǎng)頁快照失效?，F(xiàn)有的抓取技術(shù)的網(wǎng)頁快照沒有釆用全息的方式將網(wǎng)頁的內(nèi)容、版式、色彩信息全部做到本地化存檔，造成了網(wǎng) 頁快照內(nèi)容不全、失效的后果。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種互連網(wǎng)資源定向獲取方法及系統(tǒng)，解決現(xiàn)有技術(shù)中常用搜索引擎方法所造成的大量垃圾信息、資源重復(fù)、資源無組織性及網(wǎng)頁快照失效的問題。
為實現(xiàn)上述目的，本發(fā)明釆用如下技術(shù)方案一種互聯(lián)網(wǎng)資源定向獲取方法，該方法包括以下步驟事先確定抓取網(wǎng)站范圍、要獲取的資源信息及所屬的資源類別；根據(jù)所述資源類別，通過人機交互在每個抓取網(wǎng)站上獲取與所述
資源類別相對應(yīng)的有效網(wǎng)頁；
依據(jù)所述抓取網(wǎng)站及其鏈接的有效網(wǎng)頁的URL、網(wǎng)頁結(jié)構(gòu)及要獲
取的資源信息，生成要獲取的資源信息的配置信息；
在抓取網(wǎng)站上抓取與所述配置信息相匹配的信息并保存；通過人機交互對抓取的信息進(jìn)行深度標(biāo)引，將其整理為統(tǒng)一的格
式，并對其分類作出調(diào)整，刪除與要獲取的資源信息無關(guān)的垃圾信息；
對深度標(biāo)引后的信息建立索引供用戶檢索使用。
其中，在對深度標(biāo)引后的信息建立索引供用戶檢索使用之后，還
包括步驟對深度標(biāo)引后的信息所對應(yīng)的網(wǎng)頁進(jìn)行原生態(tài)存檔，用于檢索時所述信息無法打開時，調(diào)用與其對應(yīng)的原生態(tài)存檔的網(wǎng)頁供用戶使用。
其中，在抓取過程中，還包括記錄上次完成抓取信息對應(yīng)的網(wǎng)頁位置，下次再抓取時從上次完成抓取信息對應(yīng)的網(wǎng)頁位置開始抓取。
其中，在抓取過程中，還包括將要抓取的信息與已抓取的信息進(jìn) 行比較的步驟，若相同，則不予抓取該信息。
其中，在抓取網(wǎng)站上抓取與配置信息相匹配的信息為去除了源代碼、廣告信息的純文本內(nèi)容，包括文章的標(biāo)題、作者、單位、關(guān)鍵詞、
摘要、正文、URL、抓取時間、類別。
本發(fā)明還提供了一種互聯(lián)網(wǎng)資源定向獲取系統(tǒng)，該系統(tǒng)包括初始信息獲取單元，用于事先確定抓取網(wǎng)站范圍、要獲取的資源
信息及所屬的資源類別；
有效網(wǎng)頁獲取單元，根據(jù)所述資源類別，通過人機交互在每個抓
取網(wǎng)站上獲取與所述資源類別相對應(yīng)的有效網(wǎng)頁；
配置信息生成單元，依據(jù)所述網(wǎng)站及其鏈接的有效網(wǎng)頁的URL、
網(wǎng)頁結(jié)構(gòu)及要獲取的資源信息，生成要獲取的資源信息的配置信息；定向獲取單元，用于在抓取網(wǎng)站上抓取與所述配置信息相匹配的信息并保存；
深度標(biāo)引單元，通過人機交互對抓取的信息進(jìn)行深度標(biāo)引，將其整理為統(tǒng)一的格式，并對其分類作出調(diào)整，刪除與要獲取的資源信息無關(guān)的垃圾信息；
檢索單元，用于對深度標(biāo)引后的信息建立索引供用戶檢索使用。
其中，該系統(tǒng)還包括原生態(tài)存檔單元，用于對深度標(biāo)引后的信息所對應(yīng)的網(wǎng)頁進(jìn)行原生態(tài)存檔，用于檢索時所述信息無法打開時，調(diào) 用與其對應(yīng)的原生態(tài)存檔的網(wǎng)頁供用戶使用。
其中，該系統(tǒng)還包括下載位置記錄單元，用于在定向獲取單元抓取過程中，記錄上次完成抓取的信息對應(yīng)的網(wǎng)頁位置，為下次抓取提供起點。其中，該系統(tǒng)還包括比較單元，在定向獲取單元抓取過程中，將要抓取的信息與已抓取的信息進(jìn)行比較，若相同，則不予抓取該信息。
利用本發(fā)明互聯(lián)網(wǎng)資源定向獲取方法及系統(tǒng)，具有以下優(yōu)點
1) 將與配置信息相匹配的特定網(wǎng)頁下載下來，而對于不符合條件的網(wǎng)頁不予下載，有效地減少了常用搜索引擎技術(shù)所造成的大量垃
圾信息和無用信息；
2) 在下載過程通過記錄下載位置及要下載信息的比較，避免出
現(xiàn)常用的搜索引擎技術(shù)造成的資源重復(fù)；
3) 通過對所獲取到資源進(jìn)行深度標(biāo)引，使獲取到資源知識組織
問題，更容易實現(xiàn)聚類檢索；
4) 保存網(wǎng)頁時是以全息的方式存檔，實現(xiàn)了本地化永久存檔。

圖i為本發(fā)明互聯(lián)網(wǎng)資源定向獲取方法流程圖2為本發(fā)明互聯(lián)網(wǎng)資源定向獲取系統(tǒng)結(jié)構(gòu)框圖；圖3、 4為實施例中定向獲取的信息示意圖；圖5、 6為實施例中原生態(tài)存檔的網(wǎng)頁示意圖。
具體實施例方式
本發(fā)明提出的互聯(lián)網(wǎng)資源定向獲取方法及系統(tǒng)，結(jié)合附圖和實施例說明如下。實施例
如圖l所示為本發(fā)明互聯(lián)網(wǎng)資源定向獲取方法流程圖，該方法包括步驟-.
s101，確定所需基本信息，這些基本信息包括抓取網(wǎng)站范圍、要獲取的資源信息及所屬的資源類別，一般檢索都是基于常用的網(wǎng)站作為抓取網(wǎng)站來下載信息，要獲取的資源信息是指檢索所確定的類型，
如要獲取體育類的羽毛球類信息，其所屬的類別即為體育；
sl02，根據(jù)資源類別，通過人機交互在每個抓取網(wǎng)站上獲取與資源類別相對應(yīng)的有效網(wǎng)頁，這里所說的有效網(wǎng)頁是指與要獲取的資源類別關(guān)聯(lián)度比較大或直接標(biāo)明就是該資源類別的網(wǎng)頁，這一步操作是需要通過人機交互實現(xiàn)的，例如可以登錄搜狐或其它網(wǎng)站，人為打開與資源類別體育相對應(yīng)的"體育" 一欄的網(wǎng)頁，并將該網(wǎng)頁作為有效網(wǎng)頁，或通過瀏覽其它信息將與體育密切相關(guān)的一些網(wǎng)頁也作為有效網(wǎng)頁；
s103,利用定向分析生成要獲取的資源信息的配置信息，在上一
步確定了有效網(wǎng)頁，在這一步需要對其中一個具有代表性的有效網(wǎng)頁進(jìn)行分析，從形式和內(nèi)容上確定有效網(wǎng)頁范圍，互聯(lián)網(wǎng)上每個網(wǎng)站的資源都是按照一定結(jié)構(gòu)進(jìn)行組織的，這種結(jié)構(gòu)一方面表現(xiàn)為統(tǒng)一資源
定位符URL地址，一方面表現(xiàn)為每個網(wǎng)頁內(nèi)部組成要素都是結(jié)構(gòu)化的，一方面表現(xiàn)為每個網(wǎng)頁的內(nèi)容特點，通過分析、抽取抓取網(wǎng)站范圍內(nèi)網(wǎng)站的資源信息所屬類的網(wǎng)頁(有效網(wǎng)頁)的統(tǒng)一資源定位符 URL、網(wǎng)頁結(jié)構(gòu)和要獲取的資源信息的特點，生成相對于這個網(wǎng)站資源信息所屬類網(wǎng)頁的特定的配置信息，這個配置信息記錄了要獲取的包括資源信息類的網(wǎng)頁的URL信息、網(wǎng)頁結(jié)構(gòu)信息和內(nèi)容特點(即需要包括資源信息，如包括羽毛球)，這就意味著記錄了該類網(wǎng)頁在整個網(wǎng)站中的具體位置；
s104,依據(jù)定向分析的結(jié)果-配置信息來定向獲取資源，具體為對抓取網(wǎng)站范圍內(nèi)的網(wǎng)站，根據(jù)配置信息中網(wǎng)站的資源信息所屬類的網(wǎng)頁(有效網(wǎng)頁)的URL、網(wǎng)頁結(jié)構(gòu)，利用匹配的方法定位網(wǎng)站上資源信息所屬類網(wǎng)頁的位置，從而確定了抓取網(wǎng)頁的范圍，然后根據(jù)要獲取資源信息，將包括該類網(wǎng)頁所鏈接的網(wǎng)頁下包括上述資源信息的去除了源代碼、廣告信息等垃圾信息的文本信息抓取下來，該步驟可以將網(wǎng)頁內(nèi)的無效信息去除，由于網(wǎng)頁是有結(jié)構(gòu)的，有效信息和無效信息一一比如廣告和源代碼處在一個網(wǎng)頁的不同位置，在做定向分析的時候?qū)⒂行畔⒌奈恢糜涗浽谂渲眯畔⒗?，獲取的時候就只獲取有效信息，無效信息的位置沒有記錄在配置信息里，獲取的時候就不獲
取無效信息，同時與有效信息一起保存下來的還有該網(wǎng)頁的URL、網(wǎng)
頁的標(biāo)題、學(xué)科分類、定向獲取時間等信息，一般所抓取的文本信息
包括文章的標(biāo)題、作者、單位、關(guān)鍵詞、摘要、正文、URL、抓取時間、類別等。其中，標(biāo)題、正文、URL、抓取時間、類別是每篇文章必須抓到的；而作者、單位、關(guān)鍵詞、摘要字段如果原文有則就抓到，原文沒有則不抓，該步驟有效地減少了常用搜索引擎技術(shù)所造成的大
量垃圾信息和無用信息；
步驟sl05，對上述抓取的文本內(nèi)容進(jìn)行人機交互的深度編輯標(biāo)
引，通過獲取文本內(nèi)容中每篇文章的URL、標(biāo)題、關(guān)鍵詞、摘要、作
者、單位、全文、學(xué)科分類的知識點，依據(jù)文章的內(nèi)容填補一些沒有上述"作者、單位、關(guān)鍵詞"等字段的內(nèi)容，將抓取的信息整理為統(tǒng)
一的格式，以方便以后的索引建立；還可以根據(jù)文章的內(nèi)容對其分類作出調(diào)整，在不屬于步驟sl01中所確定的類別，將其調(diào)整其它的類別；另外，還進(jìn)一步去除一些與要獲取的資源信息無關(guān)的垃圾信息和垃圾記錄，對抓取下來的信息結(jié)構(gòu)實現(xiàn)進(jìn)一步優(yōu)化及信息的精簡；
步驟sl06，對經(jīng)過深度標(biāo)引后的信息建立索引供用戶檢索使用；步驟sl07,對步驟sl05深度標(biāo)引后的信息所對應(yīng)的網(wǎng)頁進(jìn)行原生態(tài)存檔，原生態(tài)存檔是指所下載的網(wǎng)頁以類似于"照相"的方式"原汁原味"地自動保存下來。原生態(tài)存檔是全息存檔，保留了頁面上包括文本、版式、圖片、相關(guān)文獻(xiàn)、站點標(biāo)記、地址等全部內(nèi)容，存檔時存檔文件與網(wǎng)頁URL建立起對應(yīng)關(guān)系，每個網(wǎng)頁的文件名與其URL
相對應(yīng)。
經(jīng)過上述步驟，用戶在檢索時通過檢索索引，根據(jù)要檢索的信息的類別在聚類存儲純文本內(nèi)容的數(shù)據(jù)庫中檢索，通過URL與被抓取網(wǎng) 站的在線網(wǎng)頁建立關(guān)聯(lián)，如果在線網(wǎng)頁打不開則調(diào)用與其對應(yīng)的原生態(tài)存檔文件閱讀相關(guān)內(nèi)容。
9本實施例中，在下載時，首先，記錄上次完成抓取信息對應(yīng)網(wǎng)頁的網(wǎng)頁位置，下次再抓取時從上次的網(wǎng)頁位置開始下載。其次，通過與已經(jīng)抓取下來的網(wǎng)頁進(jìn)行形式和關(guān)鍵內(nèi)容的比對，發(fā)現(xiàn)完全一樣或者相似度非常高的網(wǎng)頁就不予抓取，這樣即可避免重復(fù)抓取，又可避免資源重復(fù)。
以上各個步驟的執(zhí)行過程中，步驟sl07只要在步驟s105即可，不限于在步驟s106之后。
下面給出一個具體的示例來說明上述步驟sl01-sl07的過程，以全國哲學(xué)社會科學(xué)規(guī)劃辦公室網(wǎng)站(http:〃www.npopss-cn.gov.cn/) 的定向獲取為例。
步驟sl01中，要獲取的資源信息為哲學(xué)，其所屬的類別為哲學(xué)，要抓取的其中一個網(wǎng)站為http:〃www.npopss-cn.gov.cn/;
步驟sl02中，通過人機交互鏈接到抓取成果選介欄目中的哲學(xué) 部分http:〃www.npopss-cn.gov.cn/chgxj/zx/zx.html，在該網(wǎng)頁下選取哲
學(xué)類別對應(yīng)的代表性的有效網(wǎng)頁，經(jīng)過選擇和比較，選擇的其中的網(wǎng) 頁為(http:〃www.npopss-cn.gov.cn/chgxj/zx/zxw31—20080523.htm ),
網(wǎng)頁的標(biāo)題為形而上學(xué)與境界研究；
步驟sl03中，通過對標(biāo)題為"形而上學(xué)與境界研究"的網(wǎng)頁
(http:〃www.npopss-cn.gov.cn/chgxj/zx/zxw31—20080523.htm )的分析，確定了它所代表的要獲取的網(wǎng)頁的URL特點(這類網(wǎng)頁的URL前面
的結(jié)構(gòu)相同，都是http:〃www.npopss-cn.gov.cn/chgxj/zx......)、網(wǎng)頁結(jié)
構(gòu)特點(都有標(biāo)題、副標(biāo)題、摘要、正文，且所在位置對應(yīng)的網(wǎng)頁源代碼結(jié)構(gòu)都相同)、信息特點(內(nèi)容中都有"哲學(xué)"這個詞。注意，信息特點這個條件可以設(shè)置，也可以不設(shè)置)，生成對應(yīng)的配置文件。這樣就確定了每個網(wǎng)頁在網(wǎng)站中的具體位置；
步驟sl04中，根據(jù)步驟sl03中生成的配置信息，將符合條件的網(wǎng)頁都抓取下來。每個網(wǎng)頁抓取下來的內(nèi)容都是去除了源代碼、廣告信息等垃圾信息的文本內(nèi)容，包括文章的標(biāo)題、作者、單位、關(guān)鍵詞、
摘要、正文、URL、抓取時間、類別等。其中，標(biāo)題、正文、URL、
抓取時間、類別是每篇文章必須抓到的；而作者、單位、關(guān)鍵詞、摘
要字段如果原文有則就抓到，原文沒有則不抓，如圖3所示的標(biāo)題為 "形而上學(xué)與境界研究"的文章內(nèi)容，就抓取不到作者、單位、關(guān)鍵詞字段，以發(fā)現(xiàn)，每個網(wǎng)頁抓到的內(nèi)容都是純文本的，沒有這個網(wǎng)頁以前有的源代碼、BANNER、色彩、頁腳以及廣告等不需要的信息(統(tǒng) 稱垃圾信息)；
經(jīng)過上述步驟，可以獲取下來符合條件的一組網(wǎng)頁《資本論》三大手稿歷史觀的當(dāng)代意義研究 http:〃www.npopss-cn.gov.cn/chgxj/zx/zxw32—20080523.htm
《形而上學(xué)與境界研究》 http:〃www.npopss-cn.gov.cn/chgxj/zx/zxw31_20080523 .htm
《西方后現(xiàn)代主義歷史哲學(xué)研究》 http:〃www.npopss-cn.gov.cn/chgxj/zx/zxw30—20080523.htm
而不符合條件的網(wǎng)頁，比如下面這篇，網(wǎng)頁中沒有"哲學(xué)"這個詞，就不抓取
馬克思的環(huán)境倫理思想及其當(dāng)代價值研究 http:〃www.npopss-cn,gov,cn/chgxj/zx/zxw29—20080523.htm。同時抓取的時候還記錄下來最后獲取的網(wǎng)頁"《資本論》三大手稿歷史觀的當(dāng)代意義研究"的位置，避免下次重復(fù)獲取。
步驟sl05中，對sl04獲取到的文本內(nèi)容進(jìn)行人機交互的深度編輯標(biāo)引，例如，對于"形而上學(xué)與境界研究"這個文本，因為作者、單位、關(guān)鍵詞這些字段原文沒有，所以在獲取的時候就沒有獲取到，在s105這個步驟上，需要填上作者(陸杰榮；王國富;劉宏九;馬志國)、單位(遼寧大學(xué))、關(guān)鍵詞(形而上學(xué)；境界)，根據(jù)情況調(diào)整分類，將分類從"哲學(xué)"調(diào)整為"本體論"，還可以進(jìn)一步去除垃圾信息和垃圾記錄，比如通過判斷決定不需要"西方后現(xiàn)代主義歷史哲學(xué)研究"
這個網(wǎng)頁，就可以把它刪掉，經(jīng)過深度標(biāo)引后的文本如圖4所示；
"西方后現(xiàn)代主義歷史哲學(xué)研究"這個網(wǎng)頁刪掉后，就剩下如下
網(wǎng)頁
《資本論》三大手稿歷史觀的當(dāng)代意義研究 http:〃www.npopss-cn.gov.cn/chgxj/zx/zxw32—20080523.htm
《形而上學(xué)與境界研究》 http:〃www.npopss-cn.gov.cn/chgxj/zx/zxw31—20080523 .htm
步驟s106中，對經(jīng)過S105步驟深度標(biāo)引的網(wǎng)頁內(nèi)容(即文本內(nèi)
容)進(jìn)行索引建立索引文件供讀者檢索；
步驟sl07中，對經(jīng)過S105步驟深度標(biāo)引后的網(wǎng)頁進(jìn)行原生態(tài)存檔，存檔只存下列網(wǎng)頁，而沒有抓取到的或者刪除的垃圾網(wǎng)頁(例如: "西方后現(xiàn)代主義歷史哲學(xué)研究"這個網(wǎng)頁)就不存檔《資本論》三大手稿歷史觀的當(dāng)代意義研究 http:〃www.npopss-cn.gov.cn/chgxj/zx/zxw3 2—20080523.htm
《形而上學(xué)與境界研究》 http:〃www.npopss-cn.gov.cn/chgxj/zx/zxw31—20080523 .htm
存檔后的網(wǎng)頁如圖5和圖6所示(示例只取了網(wǎng)頁的上部分)，每個網(wǎng)頁的文件名與其URL相對應(yīng)。
如圖2所示為本實施例中互聯(lián)網(wǎng)資源定向獲取系統(tǒng)結(jié)構(gòu)框圖，該系統(tǒng)包括
初始信息獲取單元，用于事先確定抓取網(wǎng)站范圍、要獲取的資源
信息及所屬的資源類別；
有效網(wǎng)頁獲取單元，根據(jù)所述資源類別，通過人機交互在每個抓200810222306.6 取網(wǎng)站上獲取與所述資源類別相對應(yīng)的有效網(wǎng)頁；
配置信息生成單元，依據(jù)所述網(wǎng)站及其鏈接的有效網(wǎng)頁的URL、網(wǎng)頁結(jié)構(gòu)及要獲取的資源信息，生成要獲取的資源信息的配置信息；
定向獲取單元，用于在抓取網(wǎng)站上抓取與所述配置信息相匹配的信息并保存；
深度標(biāo)引單元，通過人機交互對抓取的信息進(jìn)行深度標(biāo)引，將其整理為統(tǒng)一的格式，并對其分類作出調(diào)整，刪除與要獲取的資源信息無關(guān)的垃圾信息；
檢索單元，用于對深度標(biāo)引后的信息建立索引供用戶檢索使用。
該系統(tǒng)還包括原生態(tài)存檔單元，用于對深度標(biāo)引后的信息所對應(yīng) 的網(wǎng)頁進(jìn)行原生態(tài)存檔，用于檢索時所述信息無法打開時，調(diào)用與其對應(yīng)的原生態(tài)存檔的網(wǎng)頁供用戶使用。
該系統(tǒng)還包括下載位置記錄單元，用于在定向獲取單元抓取過程中，記錄上次完成抓取的信息對應(yīng)的網(wǎng)頁位置，為下次抓取提供起點。
通過以上敘述可知，本實施例不是鏈接到抓取網(wǎng)站上的所有網(wǎng) 頁，而是把與配置信息相匹配的網(wǎng)頁獲取下來，是選擇性獲取。比如某個體育網(wǎng)站有很多欄目，每個欄目網(wǎng)頁的版式可能各不相同，而每個網(wǎng)頁的主題也不一定相同，當(dāng)希望把其中關(guān)于排球方面的網(wǎng)頁抓取下來，那么抓取之前就需要通過配置信息生成單元進(jìn)行分析，排球內(nèi) 容方面的網(wǎng)頁的URL、網(wǎng)頁結(jié)構(gòu)、內(nèi)容主題有何特點，把這些共同的特點提取出來就形成了配置信息，而定向獲取單元依據(jù)這個配置信息進(jìn)行匹配就可以把需要的網(wǎng)頁獲取下來。
通過本發(fā)明建立了一套適合互聯(lián)網(wǎng)資源管理的學(xué)科知識組織系統(tǒng)和一套適合互聯(lián)網(wǎng)資源管理的主題詞知識組織體系，涉及到各個學(xué) 科、各個行業(yè)和各個領(lǐng)域。經(jīng)由定向獲取單元獲取下來的網(wǎng)頁有效信息獲得了該網(wǎng)頁對應(yīng)的URL、標(biāo)題、關(guān)鍵詞、摘要、作者、單位、全文、學(xué)科分類、定向獲取時間等知識點，利用利用人機交互的方式對于上述知識點可以進(jìn)行進(jìn)一步深度標(biāo)引，特別是對于影響學(xué)科聚類、主題聚類和行業(yè)聚類的網(wǎng)頁的學(xué)科分類進(jìn)行進(jìn)一步的調(diào)整，使之更加完善正確。通過最終的人機交互處理，獲取下來的網(wǎng)頁形成了包括 URL、標(biāo)題、關(guān)鍵詞、學(xué)科分類、作者、單位、摘要、全文、定向獲取時間等知識點的結(jié)構(gòu)化的索引數(shù)據(jù)，進(jìn)而通過檢索系統(tǒng)提供給讀者利用。從而使得資源不僅可以實現(xiàn)檢索詞檢索，而且可以實現(xiàn)學(xué)科、行業(yè)、主題聚類檢索，便捷地實現(xiàn)資源的深度整合、挖掘和利用。
以上實施方式僅用于說明本發(fā)明，而并非對本發(fā)明的限制，有關(guān) 技術(shù)領(lǐng)域的普通技術(shù)人員，在不脫離本發(fā)明的精神和范圍的情況下，還可以做出各種變化和變型，因此所有等同的技術(shù)方案也屬于本發(fā)明的范疇，本發(fā)明的專利保護(hù)范圍應(yīng)由權(quán)利要求限定。
權(quán)利要求
1、一種互聯(lián)網(wǎng)資源定向獲取方法，其特征在于，該方法包括以下步驟事先確定抓取網(wǎng)站范圍、要獲取的資源信息及所屬的資源類別；根據(jù)所述資源類別，通過人機交互在每個抓取網(wǎng)站上獲取與所述資源類別相對應(yīng)的有效網(wǎng)頁；依據(jù)所述抓取網(wǎng)站及其鏈接的有效網(wǎng)頁的URL、網(wǎng)頁結(jié)構(gòu)及要獲取的資源信息，生成要獲取的資源信息的配置信息；在抓取網(wǎng)站上抓取與所述配置信息相匹配的信息并保存；通過人機交互對抓取的信息進(jìn)行深度標(biāo)引，將其整理為統(tǒng)一的格式，并對其分類作出調(diào)整，刪除與要獲取的資源信息無關(guān)的垃圾信息；對深度標(biāo)引后的信息建立索引供用戶檢索使用。
2、如權(quán)利要求l所述的互聯(lián)網(wǎng)資源定向獲取方法，其特征在于，在對深度標(biāo)引后的信息建立索引供用戶檢索使用之后，還包括步驟對深度標(biāo)引后的信息所對應(yīng)的網(wǎng)頁進(jìn)行原生態(tài)存檔，用于檢索時所述信息無法打開時，調(diào)用與其對應(yīng)的原生態(tài)存檔的網(wǎng)頁供用戶使用。
3、如權(quán)利要求l所述的互聯(lián)網(wǎng)資源定向獲取方法，其特征在于，在抓取過程中，還包括記錄上次完成抓取信息對應(yīng)的網(wǎng)頁位置，下次再抓取時從上次完成抓取信息對應(yīng)的網(wǎng)頁位置開始抓取。
4、如權(quán)利要求l所述的互聯(lián)網(wǎng)資源定向獲取方法，其特征在于，在抓取過程中，還包括將要抓取的信息與已抓取的信息進(jìn)行比較的步驟，若相同，則不予抓取該信息。
5、如權(quán)利要求l所述的互聯(lián)網(wǎng)資源定向獲取方法，其特征在于，在抓取網(wǎng)站上抓取與配置信息相匹配的信息為去除了源代碼、廣告信息的純文本內(nèi)容，包括文章的標(biāo)題、作者、單位、關(guān)鍵詞、摘要、正文、URL、抓取時間、類別。
6、一種互聯(lián)網(wǎng)資源定向獲取系統(tǒng)，其特征在于，該系統(tǒng)包括初始信息獲取單元，用于事先確定抓取網(wǎng)站范圍、要獲取的資源信息及所屬的資源類別；有效網(wǎng)頁獲取單元，根據(jù)所述資源類別，通過人機交互在每個抓取網(wǎng)站上獲取與所述資源類別相對應(yīng)的有效網(wǎng)頁；配置信息生成單元，依據(jù)所述網(wǎng)站及其鏈接的有效網(wǎng)頁的URL、網(wǎng)頁結(jié)構(gòu)及要獲取的資源信息，生成要獲取的資源信息的配置信息；定向獲取單元，用于在抓取網(wǎng)站上抓取與所述配置信息相匹配的信息并保存；深度標(biāo)引單元，通過人機交互對抓取的信息進(jìn)行深度標(biāo)引，將其整理為統(tǒng)一的格式，并對其分類作出調(diào)整，刪除與要獲取的資源信息無關(guān)的垃圾信息；檢索單元，用于對深度標(biāo)引后的信息建立索引供用戶檢索使用。
7、如權(quán)利要求6所述的互聯(lián)網(wǎng)資源定向獲取系統(tǒng)，其特征在于，該系統(tǒng)還包括原生態(tài)存檔單元，用于對深度標(biāo)引后的信息所對應(yīng)的網(wǎng)頁進(jìn)行原生態(tài)存檔，用于檢索時所述信息無法打開時，調(diào)用與其對應(yīng)的原生態(tài)存檔的網(wǎng)頁供用戶使用。
8、如權(quán)利要求6所述的互聯(lián)網(wǎng)資源定向獲取系統(tǒng)，其特征在于，該系統(tǒng)還包括下載位置記錄單元，用于在定向獲取單元抓取過程中，記錄上次完成抓取的信息對應(yīng)的網(wǎng)頁位置，為下次抓取提供起點。
9、如權(quán)利要求6所述的互聯(lián)網(wǎng)資源定向獲取系統(tǒng)，其特征在于，該系統(tǒng)還包括比較單元，用于在定向獲取單元抓取過程中，將要抓取的信息與已抓取的信息進(jìn)行比較，若相同，則不予抓取該信息。
全文摘要
本發(fā)明涉及一種互聯(lián)網(wǎng)資源定向獲取方法，該方法包括步驟確定抓取網(wǎng)站范圍、要獲取的資源信息及所屬的資源類別；根據(jù)資源類別，通過人機交互在每個抓取網(wǎng)站上獲取與資源類別相對應(yīng)的有效網(wǎng)頁；依據(jù)抓取網(wǎng)站及有效網(wǎng)頁的統(tǒng)一資源定位符、網(wǎng)頁結(jié)構(gòu)及要獲取的資源信息，生成要獲取的資源信息的配置信息；在抓取網(wǎng)站上抓取與配置信息相匹配的文本信息并保存；通過人機交互對抓取的信息進(jìn)行深度標(biāo)引；對深度標(biāo)引后的信息建立索引供用戶檢索使用，該系統(tǒng)包括定向獲取單元和深度標(biāo)引單元。利用本發(fā)明進(jìn)行搜索引擎，解決了常用搜索引擎方法所造成的大量垃圾信息、資源重復(fù)、資源無組織性及網(wǎng)頁快照失效的問題。
文檔編號G06F17/30GK101676907SQ20081022230
公開日2010年3月24日申請日期2008年9月16日優(yōu)先權(quán)日2008年9月16日
發(fā)明者劉錦山, 崔鳳雷申請人:北京雷速科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉錦山;崔鳳雷
技術(shù)所有人：北京雷速科技有限公司
我是此專利的發(fā)明人

上一篇：分層遞階的歌曲旋律檢索方法
上一篇：自定義右鍵菜單的系統(tǒng)和調(diào)用該右鍵菜單的方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種互聯(lián)網(wǎng)資源定向獲取方法及系統(tǒng)的制作方法