專利名稱:電子文檔的搜索方法及系統(tǒng)的制作方法
電子文檔的搜索方法及系統(tǒng)
技術領域:
本發(fā)明涉及計算機網絡技術,特別是涉及一種電子文檔的搜索方法及系統(tǒng)。背景技術:
計算機網絡技術的發(fā)展極大的提高了人們獲取信息的便利性。計算機網絡 中存儲了海量的信息,為了便于人們查找到自己所需的信息,搜索引擎被廣泛 使用。人們通過輸入關鍵詞,即可找到包含該關鍵詞的網頁。
搜索引擎的工作過程大致可以分為如下三個步驟
抓取網頁每個獨立的搜索引擎都有自己的網頁抓取程序(spider,稱為網 絡蜘蛛)。網頁抓取程序順著網頁中的超鏈接,連續(xù)地4爪耳又網頁。 一皮抓耳又的網頁 被稱之為網頁快照。由于互聯網中超鏈接的應用很普遍,理論上,若網頁上有 適當的超級鏈接,從一定范圍的網頁出發(fā),就能搜集到絕大多數的網頁。
整理信息搜索引擎抓到網頁后,還要做大量的預處理工作,才能提供檢 索服務。搜索引擎整理信息的過程稱為"建立索引"。搜索引擎不僅要保存搜集 起來的信息,還要將它們按照一定的規(guī)則進行編排。這樣,搜索引擎根本不用 重新翻查它所有保存的信息而迅速找到所要的資料。
提供檢索服務用戶輸入關鍵詞進行檢索,搜索引擎從索引數據庫中找到 匹配該關鍵詞的網頁;搜索引擎返回主要是以網頁鏈接的形式提供的,這樣通 過這些鏈接,用戶4更能到達含有自己所需資料的網頁。通常搜索引擎會在這些 鏈接下提供一 小段來自這些網頁的摘要信息以幫助用戶判斷此網頁是否含有自 己需要的內容。
隨著人們對搜索結果要求的提高,很多搜索引擎服務的提供商都提供了電 子文檔的搜索服務。傳統(tǒng)的電子文檔搜索服務是根據用戶輸入的關鍵詞查找相 應的電子文檔,查找到的電子文檔內通常包含用戶輸入的關鍵詞,返回的搜索 結果頁面會顯示一部分該電子文檔的文字,以方便用戶了解該電子文檔的內容。 然而,這種電子文檔的搜索方法與一般的網頁搜索方法完全一致,只是將搜索內容限制在某一單個的電子文檔內,沒有體現出電子文檔的自身特點,導致搜 索到的電子文檔數量少或者不符合用戶的需求。
發(fā)明內容
基于此,有必要提供一種更好的滿足用戶需求的電子文檔的搜索方法。 一種電子文檔的搜索方法,包括以下步驟抓取電子文檔及所述電子文檔
的關聯信息;建立包含所述關聯信息的電子文檔的索引;響應用戶的搜索請求 返回包含所述關聯信息的搜索結果。
在優(yōu)選的實施例中,所述建立包含所述關聯信息的電子文檔的索引的步驟 包括判斷是否已經為該電子文檔建立索引;如果未為該電子文檔建立索引則 為該電子文檔建立索引;如果已經為該電子文檔建立索引則將所述關聯信息追 加存入索引中。
在優(yōu)選的實施例中,所述建立包含所述關聯信息的電子文檔的索引的步驟 包括解析該電子文檔的內容,并將所述電子文檔的內容作為所述索引的一部 分。
在優(yōu)選的實施例中,所述建立包含所述關聯信息的電子文檔的索引的步驟 包括根據所述電子文檔的鏈接地址建立唯一的電子文檔編號,并根據所述電 子文檔編號組織所述索引。
在優(yōu)選的實施例中,所述關聯信息包括鏈接到該電子文檔的鏈接文字信息 或提供鏈接到該電子文檔的鏈接的網頁頁面內容信息。
在優(yōu)選的實施例中,所述關聯信息包括用戶對該電子文檔的評價信息。
此外,還有必要提供一種更好的滿足用戶需求的電子文檔的搜索系統(tǒng)。 一種電子文檔的搜索系統(tǒng),包括數據抓取模塊,用于抓取電子文檔及所 述電子文檔的關聯信息;索引模塊,與所述數據抓取模塊相連建立包含所述關 聯信息的電子文檔的索引;存儲模塊,與所述索引模塊相連以存儲所述索引; 檢索模塊,與所述存儲模塊連接,響應用戶的搜索請求返回包含所述關聯信息 的搜索結果。在優(yōu)選的實施例中,所述索引模塊還用于查詢所述存儲模塊判斷是否已經 為該電子文檔建立索引,如果未為該電子文檔建立索引則為該電子文檔建立索 引,如果已經為該電子文檔建立索引則將所述關聯信息追加存入索引中。
在優(yōu)選的實施例中,還包括內容解析模塊,所述內容解析模塊與所述數據 抓取模塊相連以解析該電子文檔的內容,所述索引模塊與所述內容解析模塊相 連并將所述電子文檔的內容作為所述索引的一部分。
在優(yōu)選的實施例中,所述關聯信息包括鏈接到該電子文檔的鏈接文字信息、 提供鏈接到該電子文檔的鏈接的網頁頁面內容信息、用戶對該電子文檔的評價 信息中的一種或兩種以上。
上述電子文檔的搜索方法和系統(tǒng)中,搜索引擎的索引包含有電子文檔的關 聯信息,通過電子文檔的關聯信息可以在不打開該電子文檔的情況下了解電子 文檔的內容,同時關聯信息是對電子文檔本身內容從不同文字或角度的描述, 從而增加用不同關鍵字搜索時搜索到該電子文檔的可能性,可以更好的滿足用 戶的需求。
圖1為一實施例的電子文檔的搜索方法的流程圖2為建立包含關聯信息的電子文檔的索引的具體流程圖; 圖3為一實施例的電子文檔的搜索系統(tǒng)的模塊圖。
具體實施方式
如圖1所示,其為一種電子文檔的搜索方法流程圖,該方法包括以下步驟 步驟S110,抓取電子文檔及所述電子文檔的關聯信息。電子文檔的抓取可 以通過網頁搜索中查找到的鏈接進行。通過網絡蜘蛛從網絡中抓取電子文檔, 并獲取該電子文檔的關聯信息。關聯信息是指除電子文檔本身的內容外,對查 找該電子文檔、快速掌握該電子文檔的內容、了解該電子文檔的應用等有用的 信息,例如鏈接到該電子文檔的鏈接文字信息、提供鏈接到該電子文檔的鏈接的網頁頁面內容信息、用戶對該電子文檔的評i^/H言息等。例如,有一件txt才各式 的電子文檔"新宋,,,在互4關網上的地址為http:〃abc.a.com/b/xinsong.txt,有一 個網頁頁面,上面有鏈接文字信息"新宋的電子書",這個鏈接文字信息的鏈 接指向"http:〃abc.a.com/b/xinsong.txt",同時這個頁面上有如下的頁面內容信息 "《新宋》第二巻《權柄》,主要講敘石越的改革與對西夏的戰(zhàn)爭。"此外,網頁 頁面中還包含用戶對該電子文檔的評價信息,比如170人給予了這個電子文檔 好的評價,2人給予差的評價,這些評價可以作為返回搜索結果的排序依據,便 于用戶找到有用的電子文檔。
步驟S120,建立包含所述關聯信息的電子文檔的索引。將關聯信息整理到 搜索引擎的索引中,便于在接收到用戶的搜索請求時快速有效的返回搜索結果。 在建立包含關聯信息的電子文檔的索引的步驟中,可以解析該電子文檔的內容, 并將電子文檔的內容作為索引的一部分。電子文檔的內容可以是電子文檔的名 稱、作者、出版社、摘要、關鍵詞等,也可是電子文檔內容的全本文本信息。 這樣,當有用戶搜索的信息是某個電子文檔的內容的時候,就可以保證也命中 這些信息,從而提高用戶的滿意度。為了更好的管理電子文檔,可以根據電子 文檔的鏈接地址建立唯一的電子文檔編號,并根據電子文檔編號組織索引。
步驟S130,響應用戶的搜索請求返回包含關聯信息的搜索結果。將關聯信 息顯示在返回結果的頁面上,通過該頁面用戶可以查看到關聯信息,迅速了解 該電子文檔的內容。關聯信息可以和電子文檔內的部分內容出現在下載該電子 文檔的鏈接下。
上述電子文檔的搜索方法中,搜索引擎的索引包含有電子文檔的關聯信息, 通過電子文檔的關聯信息可以在不打開該電子文檔的情況下了解電子文檔的內 容,例如鏈接到該電子文檔的鏈接文字信息會高度概括電子文檔的內容;同時 關聯信息是對電子文檔本身內容從不同文字或角度的描述,例如提供鏈接到該 電子文檔的鏈接的網頁頁面內容信息會從讀者的角度去描述電子文檔的內容, 這些描述文字可能與電子文檔中的文字不同,從而增加用不同關鍵字搜索時搜 索到該電子文檔的可能性,可以更好的滿足用戶的需求。
如圖2所示,其為步驟S120更具體的流程圖。首先,步驟S210,判斷是否已經為該電子文檔建立索引?;ヂ摼W中存在大 量相同的信息,同樣也包括大量相同的電子文檔,通過判斷步驟SllO中抓取的 電子文檔是否已經存在并建立索引了來避免對同樣的電子文檔建立多個索引, 浪費存儲空間及避免用戶在同樣的電子文檔上花費太多時間。是否為同樣的電 子文檔可以通過電子文檔本身的內容來判斷。如果未為該電子文檔建立索引,
則進入步驟S220;如果已經為該電子文檔建立索引,則進入步驟S230。
步驟S220,為該電子文檔建立索引。沒有為該電子文檔建立索引說明該電 子文檔是全新的文檔,因此需要整理該電子文檔的信息來建立新的索引。
步驟S230,將關聯信息追加存入索引中。對于已經有該電子文檔的情況, 可以將步驟SllO中抓取到的新的關聯信息追加存入索引中。因為不同的網頁頁 面對相同的電子文檔的關聯信息是不同的,通過追加的方式存入,可以補充該 電子文檔的關聯信息,使得關聯信息更加充實,便于用戶更好的了解該電子文 檔及增加該電子文檔被搜索到的可能性。
如圖3所示,還提供了一種電子文檔的搜索系統(tǒng)。電子文檔的搜索系統(tǒng)300 包括數據抓取模塊310、索引模塊320、存儲模塊330、檢索模塊340和內容解 析模塊350。
數據抓取模塊310用于抓取電子文檔及電子文檔的關聯信息。數據抓取沖莫 塊310通過網頁搜索中查找到的鏈接抓取電子文檔,并獲取該電子文檔的關聯 信息。關聯信息是指除電子文檔本身的內容外,對查找該電子文檔、快速掌握 該電子文檔的內容、了解該電子文檔的應用等有用的信息,例如鏈接到該電子 文檔的鏈接文字信息、提供鏈接到該電子文檔的鏈接的網頁頁面內容信息、用 戶對該電子文檔的評4介信息等。
索引模塊320與數據抓取模塊310相連以建立包含關聯信息的電子文檔的 索引。索引模塊320將關聯信息整理到搜索引擎的索引中,便于在接收到用戶 的搜索請求時快速有效的返回搜索結果。
存儲模塊330與索引模塊320相連以存儲索引模塊320為電子文檔建立的 索引。另外,數據抓取模塊310抓取的電子文檔及其關聯信息也可以先存儲到
8存儲模塊330,再由索引模塊320對存儲的電子文檔及其關聯信息建立索引,在 提供該電子文檔的服務器與互聯網的連接斷開的情況下,搜索引擎的服務器仍 然可以提供該電子文檔。為了避免對同 一電子文檔建立多個索引和重復存儲相 同的電子文檔,索引模塊320還可以查詢存儲模塊330判斷是否已經為該電子 文檔建立索引,如果未為該電子文檔建立索引則為該電子文檔建立索引,如果 已經為該電子文檔建立索引則將關聯信息追加存入索引中。
檢索模塊340與存儲模塊330連接,在接收到用戶的搜索請求時,響應用 戶的搜索請求返回包含關聯信息的搜索結果。將關聯信息顯示在返回結果的頁 面上,通過該頁面用戶可以查看到關聯信息,迅速了解該電子文檔的內容。
內容解析模塊350連接在數據抓取模塊310和索引模塊320之間,對數據 抓取模塊310抓取的電子文檔的內容進行解析,索引模塊320將解析獲得的電 子文檔的內容作為索引的一部分。檢索模塊340可以將關聯信息和電子文檔內 的部分內容顯示在下載該電子文檔的鏈接下方。
上述電子文檔的搜索系統(tǒng)中,搜索引擎的索引包含有電子文檔的關聯信息, 通過電子文檔的關聯信息可以在不打開該電子文檔的情況下了解電子文檔的內 容,同時關聯信息是對電子文檔本身內容從不同文字或角度的描述,從而增加 用不同關鍵字搜索時搜索到該電子文檔的可能性,可以更好的滿足用戶的需求。
以上所述實施例僅表達了本發(fā)明的幾種實施方式,其描述較為具體和詳細, 但并不能因此而理解為對本發(fā)明專利范圍的限制。應當指出的是,對于本領域 的普通技術人員來說,在不脫離本發(fā)明構思的前提下,還可以做出若干變形和 改進,這些都屬于本發(fā)明的保護范圍。因此,本發(fā)明專利的保護范圍應以所附 權利要求為準。
權利要求
1、一種電子文檔的搜索方法,其特征在于,包括以下步驟抓取電子文檔及所述電子文檔的關聯信息;建立包含所述關聯信息的電子文檔的索引;響應用戶的搜索請求返回包含所述關聯信息的搜索結果。
2、 根據權利要求1所述的電子文檔的搜索方法,其特征在于,所述建立包 含所述關聯信息的電子文檔的索引的步驟包括判斷是否已經為該電子文檔建立索引;如果未為該電子文檔建立索引則為該電子文檔建立索引;如果已經為該電子文檔建立索引則將所述關聯信息追加存入索引中。
3、 根據權利要求1或2所述的電子文檔的搜索方法,其特征在于,所述建 立包含所迷關聯信息的電子文檔的索引的步驟包括解析該電子文檔的內容, 并將所述電子文檔的內容作為所述索引的一部分。
4、 根據權利要求1或2所述的電子文檔的搜索方法,其特征在于,所述建 立包含所述關聯信息的電子文檔的索引的步驟包括根據所述電子文檔的鏈接 地址建立唯一的電子文檔編號,并根據所述電子文檔編號組織所述索引。
5、 根據權利要求1所述的電子文檔的搜索方法,其特征在于,所述關聯信 息包括鏈接到該電子文檔的鏈接文字信息或提供鏈接到該電子文檔的鏈接的網 頁頁面內容信息。
6、 根據權利要求1所述的電子文檔的搜索方法,其特征在于,所述關聯信 息包括用戶對該電子文檔的評價信息。
7、 一種電子文檔的搜索系統(tǒng),其特征在于,包括 數據抓取模塊,用于抓取電子文檔及所述電子文檔的關聯信息; 索引模塊,與所述數據抓取模塊相連建立包含所述關聯信息的電子文檔的索引;存儲模塊,與所述索引模塊相連以存儲所述索引;檢索模塊,與所述存儲模塊連接,響應用戶的搜索請求返回包含所述關聯 信息的搜索結果。
8、 根據權利要求7所述的電子文檔的搜索系統(tǒng),其特征在于,所述索引模 塊還用于查詢所述存儲模塊判斷是否已經為該電子文檔建立索引,如果未為該 電子文檔建立索引則為該電子文檔建立索引,如果已經為該電子文檔建立索引 則將所述關聯信息追加存入索引中。
9、 根據權利要求7或8所述的電子文檔的搜索系統(tǒng),其特征在于,還包括 內容解析模塊,所述內容解析模塊與所述數據抓取模塊相連以解析該電子文檔 的內容,所述索引模塊與所述內容解析模塊相連并將所述電子文檔的內容作為 所述索引的一部分。
10、 根據權利要求7或8所述的電子文檔的搜索系統(tǒng),其特征在于,所述 關聯信息包括鏈接到該電子文檔的鏈接文字信息、提供鏈接到該電子文檔的鏈 接的網頁頁面內容信息、用戶對該電子文檔的評價信息中的 一種或兩種以上。
全文摘要
一種電子文檔的搜索方法,包括以下步驟抓取電子文檔及所述電子文檔的關聯信息;建立包含所述關聯信息的電子文檔的索引;響應用戶的搜索請求返回包含所述關聯信息的搜索結果。上述電子文檔的搜索方法中,搜索引擎的索引包含有電子文檔的關聯信息,通過電子文檔的關聯信息可以在不打開該電子文檔的情況下了解電子文檔的內容,同時關聯信息是對電子文檔本身內容從不同文字或角度的描述,從而增加用不同關鍵字搜索時搜索到該電子文檔的可能性,可以更好的滿足用戶的需求。此外,還提供了一種電子文檔的搜索系統(tǒng)。
文檔編號G06F17/30GK101599069SQ20091004102
公開日2009年12月9日 申請日期2009年7月10日 優(yōu)先權日2009年7月10日
發(fā)明者頊 王 申請人:騰訊科技(深圳)有限公司