專利名稱:一種互聯(lián)網(wǎng)資源定向獲取方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)搜索引擎領(lǐng)域,具體涉及一種互聯(lián)網(wǎng)資源定向 獲取方法及系統(tǒng)。
背景技術(shù):
搜索引擎是以一定的策略搜集互聯(lián)網(wǎng)上的信息,在對信息進(jìn)行組 織和處理后為用戶提供網(wǎng)絡(luò)信息服務(wù)的計算機系統(tǒng)。它的主要作用是 幫助用戶快捷、高效的獲取存在于互聯(lián)網(wǎng)信息環(huán)境中的能夠滿足用戶 需求的高質(zhì)量信息。
目前,通用搜索引擎包含信息搜集、信息整理和用戶查詢?nèi)糠帧?信息搜索部分負(fù)責(zé)在互聯(lián)網(wǎng)上抓取信息,將抓取的信息保存在數(shù)據(jù)服 務(wù)器中,信息整理負(fù)責(zé)用索引器對抓取的信息進(jìn)行整理,進(jìn)而供用戶
使用查詢器進(jìn)行查詢;用戶查詢部分負(fù)責(zé)為用戶提供搜索界面。
目前,搜索引擎技術(shù)中信息搜集部分主要局限有如下幾個方面
1) 對于互聯(lián)網(wǎng)資源的獲取釆用的 一種漫無邊際式的抓取方式, 例如若釆用網(wǎng)絡(luò)爬蟲進(jìn)行網(wǎng)頁抓取的過程為,網(wǎng)絡(luò)爬蟲從若干指定的 網(wǎng)頁開始,解析這些網(wǎng)頁里面包含的超鏈接,然后下載這些超鏈接所 指向的網(wǎng)頁,不斷進(jìn)行下去,理論上可以將互聯(lián)網(wǎng)上所有的網(wǎng)頁都下 載下來。但是由于抓取之前沒有確定有效抓取站點,并且沒有對所要 抓取的站點進(jìn)行定向分析進(jìn)而實現(xiàn)對特定網(wǎng)頁的抓取。因此是一種漫 游式的、非定向式的抓取,從而抓取到的內(nèi)容充斥了大量的垃圾信息
和無用信息,極大地增加了后續(xù)的管理成本和用戶的使用成本;
2) 對抓取到的資源沒有進(jìn)行深度的編輯,進(jìn)而造成了資源的大 量重復(fù);
3) 對抓取到的資源沒有做深度的標(biāo)引,沒有給出每條數(shù)據(jù)的學(xué)科、主題、作者、單位、摘要等知識點,從而沒有完善的知識體系作 為資源的管理支撐,資源組織體系散亂沒有章法,深度挖掘利用困難 很大。比如,由于搜索引擎商家在信息搜索部分進(jìn)行網(wǎng)頁抓取時,所 抓取的不同類別的網(wǎng)頁集中一起,沒有按照行業(yè)或者學(xué)科、主題進(jìn)行 聚類,因而在用戶利用相關(guān)詞語進(jìn)行搜索時,無論對于后續(xù)的資源整 合還是用戶深度利用都是很大的問題。
4)網(wǎng)頁快照失效?,F(xiàn)有的抓取技術(shù)的網(wǎng)頁快照沒有釆用全息的 方式將網(wǎng)頁的內(nèi)容、版式、色彩信息全部做到本地化存檔,造成了網(wǎng) 頁快照內(nèi)容不全、失效的后果。
發(fā)明內(nèi)容
本發(fā)明的目的是提供 一種互連網(wǎng)資源定向獲取方法及系統(tǒng),解決 現(xiàn)有技術(shù)中常用搜索引擎方法所造成的大量垃圾信息、資源重復(fù)、資 源無組織性及網(wǎng)頁快照失效的問題。
為實現(xiàn)上述目的,本發(fā)明釆用如下技術(shù)方案 一種互聯(lián)網(wǎng)資源定向獲取方法,該方法包括以下步驟 事先確定抓取網(wǎng)站范圍、要獲取的資源信息及所屬的資源類別; 根據(jù)所述資源類別,通過人機交互在每個抓取網(wǎng)站上獲取與所述
資源類別相對應(yīng)的有效網(wǎng)頁;
依據(jù)所述抓取網(wǎng)站及其鏈接的有效網(wǎng)頁的URL、網(wǎng)頁結(jié)構(gòu)及要獲
取的資源信息,生成要獲取的資源信息的配置信息;
在抓取網(wǎng)站上抓取與所述配置信息相匹配的信息并保存; 通過人機交互對抓取的信息進(jìn)行深度標(biāo)引,將其整理為統(tǒng)一的格
式,并對其分類作出調(diào)整,刪除與要獲取的資源信息無關(guān)的垃圾信息;
對深度標(biāo)引后的信息建立索引供用戶檢索使用。
其中,在對深度標(biāo)引后的信息建立索引供用戶檢索使用之后,還
包括步驟對深度標(biāo)引后的信息所對應(yīng)的網(wǎng)頁進(jìn)行原生態(tài)存檔,用于 檢索時所述信息無法打開時,調(diào)用與其對應(yīng)的原生態(tài)存檔的網(wǎng)頁供用戶使用。
其中,在抓取過程中,還包括記錄上次完成抓取信息對應(yīng)的網(wǎng)頁 位置,下次再抓取時從上次完成抓取信息對應(yīng)的網(wǎng)頁位置開始抓取。
其中,在抓取過程中,還包括將要抓取的信息與已抓取的信息進(jìn) 行比較的步驟,若相同,則不予抓取該信息。
其中,在抓取網(wǎng)站上抓取與配置信息相匹配的信息為去除了源代 碼、廣告信息的純文本內(nèi)容,包括文章的標(biāo)題、作者、單位、關(guān)鍵詞、
摘要、正文、URL、抓取時間、類別。
本發(fā)明還提供了 一種互聯(lián)網(wǎng)資源定向獲取系統(tǒng),該系統(tǒng)包括 初始信息獲取單元,用于事先確定抓取網(wǎng)站范圍、要獲取的資源
信息及所屬的資源類別;
有效網(wǎng)頁獲取單元,根據(jù)所述資源類別,通過人機交互在每個抓
取網(wǎng)站上獲取與所述資源類別相對應(yīng)的有效網(wǎng)頁;
配置信息生成單元,依據(jù)所述網(wǎng)站及其鏈接的有效網(wǎng)頁的URL、
網(wǎng)頁結(jié)構(gòu)及要獲取的資源信息,生成要獲取的資源信息的配置信息; 定向獲取單元,用于在抓取網(wǎng)站上抓取與所述配置信息相匹配的 信息并保存;
深度標(biāo)引單元,通過人機交互對抓取的信息進(jìn)行深度標(biāo)引,將其 整理為統(tǒng)一的格式,并對其分類作出調(diào)整,刪除與要獲取的資源信息 無關(guān)的垃圾信息;
檢索單元,用于對深度標(biāo)引后的信息建立索引供用戶檢索使用。
其中,該系統(tǒng)還包括原生態(tài)存檔單元,用于對深度標(biāo)引后的信息 所對應(yīng)的網(wǎng)頁進(jìn)行原生態(tài)存檔,用于檢索時所述信息無法打開時,調(diào) 用與其對應(yīng)的原生態(tài)存檔的網(wǎng)頁供用戶使用。
其中,該系統(tǒng)還包括下載位置記錄單元,用于在定向獲取單元抓 取過程中,記錄上次完成抓取的信息對應(yīng)的網(wǎng)頁位置,為下次抓取提 供起點。其中,該系統(tǒng)還包括比較單元,在定向獲取單元抓取過程中,將 要抓取的信息與已抓取的信息進(jìn)行比較,若相同,則不予抓取該信息。
利用本發(fā)明互聯(lián)網(wǎng)資源定向獲取方法及系統(tǒng),具有以下優(yōu)點
1) 將與配置信息相匹配的特定網(wǎng)頁下載下來,而對于不符合條 件的網(wǎng)頁不予下載,有效地減少了常用搜索引擎技術(shù)所造成的大量垃
圾信息和無用信息;
2) 在下載過程通過記錄下載位置及要下載信息的比較,避免出
現(xiàn)常用的搜索引擎技術(shù)造成的資源重復(fù);
3) 通過對所獲取到資源進(jìn)行深度標(biāo)引,使獲取到資源知識組織
問題,更容易實現(xiàn)聚類檢索;
4) 保存網(wǎng)頁時是以全息的方式存檔,實現(xiàn)了本地化永久存檔。
圖i為本發(fā)明互聯(lián)網(wǎng)資源定向獲取方法流程圖2為本發(fā)明互聯(lián)網(wǎng)資源定向獲取系統(tǒng)結(jié)構(gòu)框圖; 圖3、 4為實施例中定向獲取的信息示意圖; 圖5、 6為實施例中原生態(tài)存檔的網(wǎng)頁示意圖。
具體實施例方式
本發(fā)明提出的互聯(lián)網(wǎng)資源定向獲取方法及系統(tǒng),結(jié)合附圖和實施 例說明如下。 實施例
如圖l所示為本發(fā)明互聯(lián)網(wǎng)資源定向獲取方法流程圖,該方法包 括步驟-.
s101,確定所需基本信息,這些基本信息包括抓取網(wǎng)站范圍、要 獲取的資源信息及所屬的資源類別,一般檢索都是基于常用的網(wǎng)站作 為抓取網(wǎng)站來下載信息,要獲取的資源信息是指檢索所確定的類型,
如要獲取體育類的羽毛球類信息,其所屬的類別即為體育;
sl02,根據(jù)資源類別,通過人機交互在每個抓取網(wǎng)站上獲取與資源類別相對應(yīng)的有效網(wǎng)頁,這里所說的有效網(wǎng)頁是指與要獲取的資源 類別關(guān)聯(lián)度比較大或直接標(biāo)明就是該資源類別的網(wǎng)頁,這一步操作是 需要通過人機交互實現(xiàn)的,例如可以登錄搜狐或其它網(wǎng)站,人為打開 與資源類別體育相對應(yīng)的"體育" 一欄的網(wǎng)頁,并將該網(wǎng)頁作為有效 網(wǎng)頁,或通過瀏覽其它信息將與體育密切相關(guān)的一些網(wǎng)頁也作為有效 網(wǎng)頁;
s103,利用定向分析生成要獲取的資源信息的配置信息,在上一
步確定了有效網(wǎng)頁,在這一步需要對其中一個具有代表性的有效網(wǎng)頁 進(jìn)行分析,從形式和內(nèi)容上確定有效網(wǎng)頁范圍,互聯(lián)網(wǎng)上每個網(wǎng)站的 資源都是按照一定結(jié)構(gòu)進(jìn)行組織的,這種結(jié)構(gòu)一方面表現(xiàn)為統(tǒng)一資源
定位符URL地址, 一方面表現(xiàn)為每個網(wǎng)頁內(nèi)部組成要素都是結(jié)構(gòu)化 的, 一方面表現(xiàn)為每個網(wǎng)頁的內(nèi)容特點,通過分析、抽取抓取網(wǎng)站范 圍內(nèi)網(wǎng)站的資源信息所屬類的網(wǎng)頁(有效網(wǎng)頁)的統(tǒng)一資源定位符 URL、網(wǎng)頁結(jié)構(gòu)和要獲取的資源信息的特點,生成相對于這個網(wǎng)站資 源信息所屬類網(wǎng)頁的特定的配置信息,這個配置信息記錄了要獲取的 包括資源信息類的網(wǎng)頁的URL信息、網(wǎng)頁結(jié)構(gòu)信息和內(nèi)容特點(即需 要包括資源信息,如包括羽毛球),這就意味著記錄了該類網(wǎng)頁在整 個網(wǎng)站中的具體位置;
s104,依據(jù)定向分析的結(jié)果-配置信息來定向獲取資源,具體為 對抓取網(wǎng)站范圍內(nèi)的網(wǎng)站,根據(jù)配置信息中網(wǎng)站的資源信息所屬類的 網(wǎng)頁(有效網(wǎng)頁)的URL、網(wǎng)頁結(jié)構(gòu),利用匹配的方法定位網(wǎng)站上資 源信息所屬類網(wǎng)頁的位置,從而確定了抓取網(wǎng)頁的范圍,然后根據(jù)要 獲取資源信息,將包括該類網(wǎng)頁所鏈接的網(wǎng)頁下包括上述資源信息的 去除了源代碼、廣告信息等垃圾信息的文本信息抓取下來,該步驟可 以將網(wǎng)頁內(nèi)的無效信息去除,由于網(wǎng)頁是有結(jié)構(gòu)的,有效信息和無效 信息一一比如廣告和源代碼處在一個網(wǎng)頁的不同位置,在做定向分析 的時候?qū)⒂行畔⒌奈恢糜涗浽谂渲眯畔⒗?,獲取的時候就只獲取有效信息,無效信息的位置沒有記錄在配置信息里,獲取的時候就不獲
取無效信息,同時與有效信息一起保存下來的還有該網(wǎng)頁的URL、網(wǎng)
頁的標(biāo)題、學(xué)科分類、定向獲取時間等信息, 一般所抓取的文本信息
包括文章的標(biāo)題、作者、單位、關(guān)鍵詞、摘要、正文、URL、抓取時 間、類別等。其中,標(biāo)題、正文、URL、抓取時間、類別是每篇文章 必須抓到的;而作者、單位、關(guān)鍵詞、摘要字段如果原文有則就抓到, 原文沒有則不抓,該步驟有效地減少了常用搜索引擎技術(shù)所造成的大
量垃圾信息和無用信息;
步驟sl05,對上述抓取的文本內(nèi)容進(jìn)行人機交互的深度編輯標(biāo)
引,通過獲取文本內(nèi)容中每篇文章的URL、標(biāo)題、關(guān)鍵詞、摘要、作
者、單位、全文、學(xué)科分類的知識點,依據(jù)文章的內(nèi)容填補一些沒有 上述"作者、單位、關(guān)鍵詞"等字段的內(nèi)容,將抓取的信息整理為統(tǒng)
一的格式,以方便以后的索引建立;還可以根據(jù)文章的內(nèi)容對其分類 作出調(diào)整,在不屬于步驟sl01中所確定的類別,將其調(diào)整其它的類別; 另外,還進(jìn)一步去除一些與要獲取的資源信息無關(guān)的垃圾信息和垃圾 記錄,對抓取下來的信息結(jié)構(gòu)實現(xiàn)進(jìn)一步優(yōu)化及信息的精簡;
步驟sl06,對經(jīng)過深度標(biāo)引后的信息建立索引供用戶檢索使用; 步驟sl07,對步驟sl05深度標(biāo)引后的信息所對應(yīng)的網(wǎng)頁進(jìn)行原生 態(tài)存檔,原生態(tài)存檔是指所下載的網(wǎng)頁以類似于"照相"的方式"原 汁原味"地自動保存下來。原生態(tài)存檔是全息存檔,保留了頁面上包 括文本、版式、圖片、相關(guān)文獻(xiàn)、站點標(biāo)記、地址等全部內(nèi)容,存檔 時存檔文件與網(wǎng)頁URL建立起對應(yīng)關(guān)系,每個網(wǎng)頁的文件名與其URL
相對應(yīng)。
經(jīng)過上述步驟,用戶在檢索時通過檢索索引,根據(jù)要檢索的信息 的類別在聚類存儲純文本內(nèi)容的數(shù)據(jù)庫中檢索,通過URL與被抓取網(wǎng) 站的在線網(wǎng)頁建立關(guān)聯(lián),如果在線網(wǎng)頁打不開則調(diào)用與其對應(yīng)的原生 態(tài)存檔文件閱讀相關(guān)內(nèi)容。
9本實施例中,在下載時,首先,記錄上次完成抓取信息對應(yīng)網(wǎng)頁 的網(wǎng)頁位置,下次再抓取時從上次的網(wǎng)頁位置開始下載。其次,通過 與已經(jīng)抓取下來的網(wǎng)頁進(jìn)行形式和關(guān)鍵內(nèi)容的比對,發(fā)現(xiàn)完全一樣或 者相似度非常高的網(wǎng)頁就不予抓取,這樣即可避免重復(fù)抓取,又可避 免資源重復(fù)。
以上各個步驟的執(zhí)行過程中,步驟sl07只要在步驟s105即可, 不限于在步驟s106之后。
下面給出一個具體的示例來說明上述步驟sl01-sl07的過程, 以全國哲學(xué)社會科學(xué)規(guī)劃辦公室網(wǎng)站(http:〃www.npopss-cn.gov.cn/) 的定向獲取為例。
步驟sl01中,要獲取的資源信息為哲學(xué),其所屬的類別為哲學(xué), 要抓取的其中 一個網(wǎng)站為http:〃www.npopss-cn.gov.cn/;
步驟sl02中,通過人機交互鏈接到抓取成果選介欄目中的哲學(xué) 部分http:〃www.npopss-cn.gov.cn/chgxj/zx/zx.html,在該網(wǎng)頁下選取哲
學(xué)類別對應(yīng)的代表性的有效網(wǎng)頁,經(jīng)過選擇和比較,選擇的其中的網(wǎng) 頁為(http:〃www.npopss-cn.gov.cn/chgxj/zx/zxw31—20080523.htm ),
網(wǎng)頁的標(biāo)題為形而上學(xué)與境界研究;
步驟sl03中,通過對標(biāo)題為"形而上學(xué)與境界研究"的網(wǎng)頁
(http:〃www.npopss-cn.gov.cn/chgxj/zx/zxw31—20080523.htm )的分析, 確定了它所代表的要獲取的網(wǎng)頁的URL特點(這類網(wǎng)頁的URL前面
的結(jié)構(gòu)相同,都是http:〃www.npopss-cn.gov.cn/chgxj/zx......)、網(wǎng)頁結(jié)
構(gòu)特點(都有標(biāo)題、副標(biāo)題、摘要、正文,且所在位置對應(yīng)的網(wǎng)頁源 代碼結(jié)構(gòu)都相同)、信息特點(內(nèi)容中都有"哲學(xué)"這個詞。注意, 信息特點這個條件可以設(shè)置,也可以不設(shè)置),生成對應(yīng)的配置文件。 這樣就確定了每個網(wǎng)頁在網(wǎng)站中的具體位置;
步驟sl04中,根據(jù)步驟sl03中生成的配置信息,將符合條件的 網(wǎng)頁都抓取下來。每個網(wǎng)頁抓取下來的內(nèi)容都是去除了源代碼、廣告信息等垃圾信息的文本內(nèi)容,包括文章的標(biāo)題、作者、單位、關(guān)鍵詞、
摘要、正文、URL、抓取時間、類別等。其中,標(biāo)題、正文、URL、
抓取時間、類別是每篇文章必須抓到的;而作者、單位、關(guān)鍵詞、摘
要字段如果原文有則就抓到,原文沒有則不抓,如圖3所示的標(biāo)題為 "形而上學(xué)與境界研究"的文章內(nèi)容,就抓取不到作者、單位、關(guān)鍵 詞字段,以發(fā)現(xiàn),每個網(wǎng)頁抓到的內(nèi)容都是純文本的,沒有這個網(wǎng)頁 以前有的源代碼、BANNER、色彩、頁腳以及廣告等不需要的信息(統(tǒng) 稱垃圾信息);
經(jīng)過上述步驟,可以獲取下來符合條件的一組網(wǎng)頁 《資本論》三大手稿歷史觀的當(dāng)代意義研究 http:〃www.npopss-cn.gov.cn/chgxj/zx/zxw32—20080523.htm
《形而上學(xué)與境界研究》 http:〃www.npopss-cn.gov.cn/chgxj/zx/zxw31_20080523 .htm
《西方后現(xiàn)代主義歷史哲學(xué)研究》 http:〃www.npopss-cn.gov.cn/chgxj/zx/zxw30—20080523.htm
而不符合條件的網(wǎng)頁,比如下面這篇,網(wǎng)頁中沒有"哲學(xué)"這個 詞,就不抓取
馬克思的環(huán)境倫理思想及其當(dāng)代價值研究 http:〃www.npopss-cn,gov,cn/chgxj/zx/zxw29—20080523.htm。 同時抓取的時候還記錄下來最后獲取的網(wǎng)頁"《資本論》三大手 稿歷史觀的當(dāng)代意義研究"的位置,避免下次重復(fù)獲取。
步驟sl05中,對sl04獲取到的文本內(nèi)容進(jìn)行人機交互的深度編 輯標(biāo)引,例如,對于"形而上學(xué)與境界研究"這個文本,因為作者、 單位、關(guān)鍵詞這些字段原文沒有,所以在獲取的時候就沒有獲取到, 在s105這個步驟上,需要填上作者(陸杰榮;王國富;劉宏九;馬志國)、 單位(遼寧大學(xué))、關(guān)鍵詞(形而上學(xué);境界),根據(jù)情況調(diào)整分類,將分類從"哲學(xué)"調(diào)整為"本體論",還可以進(jìn)一步去除垃圾信息和 垃圾記錄,比如通過判斷決定不需要"西方后現(xiàn)代主義歷史哲學(xué)研究"
這個網(wǎng)頁,就可以把它刪掉,經(jīng)過深度標(biāo)引后的文本如圖4所示;
"西方后現(xiàn)代主義歷史哲學(xué)研究"這個網(wǎng)頁刪掉后,就剩下如下
網(wǎng)頁
《資本論》三大手稿歷史觀的當(dāng)代意義研究 http:〃www.npopss-cn.gov.cn/chgxj/zx/zxw32—20080523.htm
《形而上學(xué)與境界研究》 http:〃www.npopss-cn.gov.cn/chgxj/zx/zxw31—20080523 .htm
步驟s106中,對經(jīng)過S105步驟深度標(biāo)引的網(wǎng)頁內(nèi)容(即文本內(nèi)
容)進(jìn)行索引建立索引文件供讀者檢索;
步驟sl07中,對經(jīng)過S105步驟深度標(biāo)引后的網(wǎng)頁進(jìn)行原生態(tài)存 檔,存檔只存下列網(wǎng)頁,而沒有抓取到的或者刪除的垃圾網(wǎng)頁(例如: "西方后現(xiàn)代主義歷史哲學(xué)研究"這個網(wǎng)頁)就不存檔 《資本論》三大手稿歷史觀的當(dāng)代意義研究 http:〃www.npopss-cn.gov.cn/chgxj/zx/zxw3 2—20080523.htm
《形而上學(xué)與境界研究》 http:〃www.npopss-cn.gov.cn/chgxj/zx/zxw31—20080523 .htm
存檔后的網(wǎng)頁如圖5和圖6所示(示例只取了網(wǎng)頁的上部分), 每個網(wǎng)頁的文件名與其URL相對應(yīng)。
如圖2所示為本實施例中互聯(lián)網(wǎng)資源定向獲取系統(tǒng)結(jié)構(gòu)框圖,該 系統(tǒng)包括
初始信息獲取單元,用于事先確定抓取網(wǎng)站范圍、要獲取的資源
信息及所屬的資源類別;
有效網(wǎng)頁獲取單元,根據(jù)所述資源類別,通過人機交互在每個抓200810222306.6 取網(wǎng)站上獲取與所述資源類別相對應(yīng)的有效網(wǎng)頁;
配置信息生成單元,依據(jù)所述網(wǎng)站及其鏈接的有效網(wǎng)頁的URL、 網(wǎng)頁結(jié)構(gòu)及要獲取的資源信息,生成要獲取的資源信息的配置信息;
定向獲取單元,用于在抓取網(wǎng)站上抓取與所述配置信息相匹配的 信息并保存;
深度標(biāo)引單元,通過人機交互對抓取的信息進(jìn)行深度標(biāo)引,將其 整理為統(tǒng)一的格式,并對其分類作出調(diào)整,刪除與要獲取的資源信息 無關(guān)的垃圾信息;
檢索單元,用于對深度標(biāo)引后的信息建立索引供用戶檢索使用。
該系統(tǒng)還包括原生態(tài)存檔單元,用于對深度標(biāo)引后的信息所對應(yīng) 的網(wǎng)頁進(jìn)行原生態(tài)存檔,用于檢索時所述信息無法打開時,調(diào)用與其 對應(yīng)的原生態(tài)存檔的網(wǎng)頁供用戶使用。
該系統(tǒng)還包括下載位置記錄單元,用于在定向獲取單元抓取過程 中,記錄上次完成抓取的信息對應(yīng)的網(wǎng)頁位置,為下次抓取提供起點。
通過以上敘述可知,本實施例不是鏈接到抓取網(wǎng)站上的所有網(wǎng) 頁,而是把與配置信息相匹配的網(wǎng)頁獲取下來,是選擇性獲取。比如 某個體育網(wǎng)站有很多欄目,每個欄目網(wǎng)頁的版式可能各不相同,而每 個網(wǎng)頁的主題也不一定相同,當(dāng)希望把其中關(guān)于排球方面的網(wǎng)頁抓取 下來,那么抓取之前就需要通過配置信息生成單元進(jìn)行分析,排球內(nèi) 容方面的網(wǎng)頁的URL、網(wǎng)頁結(jié)構(gòu)、內(nèi)容主題有何特點,把這些共同 的特點提取出來就形成了配置信息,而定向獲取單元依據(jù)這個配置信 息進(jìn)行匹配就可以把需要的網(wǎng)頁獲取下來。
通過本發(fā)明建立了一套適合互聯(lián)網(wǎng)資源管理的學(xué)科知識組織系 統(tǒng)和一套適合互聯(lián)網(wǎng)資源管理的主題詞知識組織體系,涉及到各個學(xué) 科、各個行業(yè)和各個領(lǐng)域。經(jīng)由定向獲取單元獲取下來的網(wǎng)頁有效信 息獲得了該網(wǎng)頁對應(yīng)的URL、標(biāo)題、關(guān)鍵詞、摘要、作者、單位、全 文、學(xué)科分類、定向獲取時間等知識點,利用利用人機交互的方式對于上述知識點可以進(jìn)行進(jìn)一步深度標(biāo)引,特別是對于影響學(xué)科聚類、 主題聚類和行業(yè)聚類的網(wǎng)頁的學(xué)科分類進(jìn)行進(jìn)一步的調(diào)整,使之更加 完善正確。通過最終的人機交互處理,獲取下來的網(wǎng)頁形成了包括 URL、標(biāo)題、關(guān)鍵詞、學(xué)科分類、作者、單位、摘要、全文、定向獲 取時間等知識點的結(jié)構(gòu)化的索引數(shù)據(jù),進(jìn)而通過檢索系統(tǒng)提供給讀者 利用。從而使得資源不僅可以實現(xiàn)檢索詞檢索,而且可以實現(xiàn)學(xué)科、 行業(yè)、主題聚類檢索,便捷地實現(xiàn)資源的深度整合、挖掘和利用。
以上實施方式僅用于說明本發(fā)明,而并非對本發(fā)明的限制,有關(guān) 技術(shù)領(lǐng)域的普通技術(shù)人員,在不脫離本發(fā)明的精神和范圍的情況下, 還可以做出各種變化和變型,因此所有等同的技術(shù)方案也屬于本發(fā)明 的范疇,本發(fā)明的專利保護(hù)范圍應(yīng)由權(quán)利要求限定。
權(quán)利要求
1、一種互聯(lián)網(wǎng)資源定向獲取方法,其特征在于,該方法包括以下步驟事先確定抓取網(wǎng)站范圍、要獲取的資源信息及所屬的資源類別;根據(jù)所述資源類別,通過人機交互在每個抓取網(wǎng)站上獲取與所述資源類別相對應(yīng)的有效網(wǎng)頁;依據(jù)所述抓取網(wǎng)站及其鏈接的有效網(wǎng)頁的URL、網(wǎng)頁結(jié)構(gòu)及要獲取的資源信息,生成要獲取的資源信息的配置信息;在抓取網(wǎng)站上抓取與所述配置信息相匹配的信息并保存;通過人機交互對抓取的信息進(jìn)行深度標(biāo)引,將其整理為統(tǒng)一的格式,并對其分類作出調(diào)整,刪除與要獲取的資源信息無關(guān)的垃圾信息;對深度標(biāo)引后的信息建立索引供用戶檢索使用。
2、 如權(quán)利要求l所述的互聯(lián)網(wǎng)資源定向獲取方法,其特征在于, 在對深度標(biāo)引后的信息建立索引供用戶檢索使用之后,還包括步驟 對深度標(biāo)引后的信息所對應(yīng)的網(wǎng)頁進(jìn)行原生態(tài)存檔,用于檢索時所述 信息無法打開時,調(diào)用與其對應(yīng)的原生態(tài)存檔的網(wǎng)頁供用戶使用。
3、 如權(quán)利要求l所述的互聯(lián)網(wǎng)資源定向獲取方法,其特征在于, 在抓取過程中,還包括記錄上次完成抓取信息對應(yīng)的網(wǎng)頁位置,下次 再抓取時從上次完成抓取信息對應(yīng)的網(wǎng)頁位置開始抓取。
4、 如權(quán)利要求l所述的互聯(lián)網(wǎng)資源定向獲取方法,其特征在于,在抓取過程中,還包括將要抓取的信息與已抓取的信息進(jìn)行比較的步 驟,若相同,則不予抓取該信息。
5、 如權(quán)利要求l所述的互聯(lián)網(wǎng)資源定向獲取方法,其特征在于,在抓取網(wǎng)站上抓取與配置信息相匹配的信息為去除了源代碼、廣告信 息的純文本內(nèi)容,包括文章的標(biāo)題、作者、單位、關(guān)鍵詞、摘要、正文、URL、抓取時間、類別。
6、 一種互聯(lián)網(wǎng)資源定向獲取系統(tǒng),其特征在于,該系統(tǒng)包括初始信息獲取單元,用于事先確定抓取網(wǎng)站范圍、要獲取的資源信息及所屬的資源類別;有效網(wǎng)頁獲取單元,根據(jù)所述資源類別,通過人機交互在每個抓取網(wǎng)站上獲取與所述資源類別相對應(yīng)的有效網(wǎng)頁;配置信息生成單元,依據(jù)所述網(wǎng)站及其鏈接的有效網(wǎng)頁的URL、網(wǎng)頁結(jié)構(gòu)及要獲取的資源信息,生成要獲取的資源信息的配置信息;定向獲取單元,用于在抓取網(wǎng)站上抓取與所述配置信息相匹配的信息并保存;深度標(biāo)引單元,通過人機交互對抓取的信息進(jìn)行深度標(biāo)引,將其整理為統(tǒng)一的格式,并對其分類作出調(diào)整,刪除與要獲取的資源信息無關(guān)的垃圾信息;檢索單元,用于對深度標(biāo)引后的信息建立索引供用戶檢索使用。
7、 如權(quán)利要求6所述的互聯(lián)網(wǎng)資源定向獲取系統(tǒng),其特征在于,該系統(tǒng)還包括原生態(tài)存檔單元,用于對深度標(biāo)引后的信息所對應(yīng)的網(wǎng)頁進(jìn)行原生態(tài)存檔,用于檢索時所述信息無法打開時,調(diào)用與其對應(yīng)的原生態(tài)存檔的網(wǎng)頁供用戶使用。
8、 如權(quán)利要求6所述的互聯(lián)網(wǎng)資源定向獲取系統(tǒng),其特征在于,該系統(tǒng)還包括下載位置記錄單元,用于在定向獲取單元抓取過程中,記錄上次完成抓取的信息對應(yīng)的網(wǎng)頁位置,為下次抓取提供起點。
9、 如權(quán)利要求6所述的互聯(lián)網(wǎng)資源定向獲取系統(tǒng),其特征在于,該系統(tǒng)還包括比較單元,用于在定向獲取單元抓取過程中,將要抓取的信息與已抓取的信息進(jìn)行比較,若相同,則不予抓取該信息。
全文摘要
本發(fā)明涉及一種互聯(lián)網(wǎng)資源定向獲取方法,該方法包括步驟確定抓取網(wǎng)站范圍、要獲取的資源信息及所屬的資源類別;根據(jù)資源類別,通過人機交互在每個抓取網(wǎng)站上獲取與資源類別相對應(yīng)的有效網(wǎng)頁;依據(jù)抓取網(wǎng)站及有效網(wǎng)頁的統(tǒng)一資源定位符、網(wǎng)頁結(jié)構(gòu)及要獲取的資源信息,生成要獲取的資源信息的配置信息;在抓取網(wǎng)站上抓取與配置信息相匹配的文本信息并保存;通過人機交互對抓取的信息進(jìn)行深度標(biāo)引;對深度標(biāo)引后的信息建立索引供用戶檢索使用,該系統(tǒng)包括定向獲取單元和深度標(biāo)引單元。利用本發(fā)明進(jìn)行搜索引擎,解決了常用搜索引擎方法所造成的大量垃圾信息、資源重復(fù)、資源無組織性及網(wǎng)頁快照失效的問題。
文檔編號G06F17/30GK101676907SQ20081022230
公開日2010年3月24日 申請日期2008年9月16日 優(yōu)先權(quán)日2008年9月16日
發(fā)明者劉錦山, 崔鳳雷 申請人:北京雷速科技有限公司