專利名稱:電子文檔的處理、瀏覽及搜索的方法、裝置及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及數(shù)據(jù)處理技術(shù),特別地,本發(fā)明涉及一種基于搜索引擎的電子文檔的處理方法及裝置、電子文檔的瀏覽方法及相應(yīng)的瀏覽器、以及電子文檔的搜索方法及相應(yīng)的搜索系統(tǒng)。
背景技術(shù):
搜索引擎(Search Engine)是隨著互聯(lián)網(wǎng)信息的迅速增加而迅速發(fā)展起來的技術(shù)。搜索引擎以一定的策略在互聯(lián)網(wǎng)上搜集、發(fā)現(xiàn)信息,并對信息進(jìn)行理解、提取、組織和處理,為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的目的。但是,隨著互連網(wǎng)的迅猛發(fā)展,在互連網(wǎng)上的內(nèi)容成爆炸性增長。例如,象Google這樣的搜索引擎所面臨的一個主要問題是一個單個的查詢就會產(chǎn)生大量的“相關(guān)”文檔,但實(shí)際上,這些“相關(guān)”文檔中的大多數(shù)可能與所查詢的主題是完全不相關(guān)的。與此同時,由于進(jìn)行查詢的關(guān)鍵詞、關(guān)鍵詞詞語串或問題與那些真正相關(guān)的文檔并不匹配,而造成那些真正相關(guān)的文檔被漏掉。出于同樣原因,特定的查詢經(jīng)常不能產(chǎn)生任何用戶查詢所希望找到的文檔。由于上述這些原因,使用現(xiàn)有技術(shù)的搜索引擎進(jìn)行文檔檢索時,用戶感到很難準(zhǔn)確、全面地找到他/她所真正想要的東西。這也是造成用戶對搜索引擎的服務(wù)質(zhì)量不滿意的一個原因。
另一方面,在現(xiàn)有技術(shù)中,作者使用的文檔寫作工具與用戶使用的文檔管理工具和文檔檢索工具是相互獨(dú)立的。即,作者在寫作電子文檔時并不關(guān)心將來的讀者將如何檢索和利用作者所寫的文檔的內(nèi)容。但是同時,從信息訪問和使用的觀點(diǎn)來看,用戶又會感到難于找到他/她所真正想要的東西。
而且,由于目前計算機(jī)對自然語言的理解能力還處于字/詞理解的水平,而對于文檔管理工具和文檔檢索工具來說,需要句子甚至整篇文章的理解和語義理解技術(shù),才能真正滿足客戶的需要。然而,由于相關(guān)技術(shù)及工具的局限性,文檔管理及檢索技術(shù)在短期內(nèi)不可能由將已有的字/詞理解提升到句子甚至整篇文章的理解和語義能力。因此,可以想象在未來幾年內(nèi)文檔檢索技術(shù)的發(fā)展將不可能滿足用戶信息訪問的要求。
發(fā)明內(nèi)容
為解決現(xiàn)有技術(shù)中存在的上述問題以及改善現(xiàn)有搜索引擎的性能,本發(fā)明提出在作者寫作電子文檔的過程中,就為以后的文檔管理和信息檢索準(zhǔn)備相關(guān)的信息,即,在作者準(zhǔn)備文檔期間,就為作者提供一些工具來方便地為以后用戶的信息搜索做貢獻(xiàn)。更具體地說,作者在寫作文檔時,準(zhǔn)備有關(guān)對文檔內(nèi)容的查詢,例如查詢可以是一些關(guān)鍵詞、關(guān)鍵詞詞語串或者一些簡單的問題。由此,可以幫助用戶通過搜索引擎快速找到電子文檔中所附著的查詢信息,檢索到最相關(guān)的文檔。另一方面,通過在電子文檔中準(zhǔn)備關(guān)于查詢的一個或多個知識標(biāo)記(knowledge tag),并對多個電子文檔的知識標(biāo)記編制索引,搜索引擎可以只對經(jīng)過編制的知識標(biāo)記索引進(jìn)行搜索,從而減少了搜索引擎進(jìn)行搜索的工作量,提高了搜索引擎查詢的精確度和準(zhǔn)確度,并提高了搜索引擎的查找速度,改善了搜索引擎的性能。
根據(jù)本發(fā)明的一個方面,提供了一種電子文檔的處理方法,包括步驟在作者寫作電子文檔時,根據(jù)所述電子文檔的內(nèi)容生成一個或多個查詢;以及與所述電子文檔對應(yīng)地保存所述查詢的信息。
根據(jù)本發(fā)明的再一個方面,提供了一種電子文檔的處理裝置,包括電子文檔編輯單元,用于編輯電子文檔;特征信息提取單元,用于從所編輯的電子文檔中提取特征信息;查詢生成單元,用于根據(jù)特征信息提取單元提取出的特征信息生成關(guān)于所述文檔內(nèi)容的查詢的信息,其中所述查詢包括關(guān)鍵詞、關(guān)鍵詞詞語串或者問題;查詢保存單元,用于與電子文檔相應(yīng)地保存由查詢生成單元所生成的查詢信息。
根據(jù)本發(fā)明的另一個方面,提供了一種瀏覽電子文檔的方法,包括步驟讀取與所述電子文檔對應(yīng)保存的查詢信息,所述查詢包括關(guān)鍵詞、關(guān)鍵詞詞語串或者問題;將查詢信息中的查詢呈現(xiàn)給用戶;以及當(dāng)用戶確認(rèn)所述查詢時,將所述電子文檔的內(nèi)容顯示呈現(xiàn)給所述用戶。
根據(jù)本發(fā)明的再一個方面,提供了一種電子文檔的瀏覽器,包括電子文檔瀏覽單元,用于瀏覽電子文檔的內(nèi)容;查詢信息讀取單元,用于讀取與所述電子文檔對應(yīng)保存的查詢信息,其中所述查詢包括關(guān)鍵詞、關(guān)鍵詞詞語串或者問題;以及查詢呈現(xiàn)單元,用于將由查詢信息讀取單元讀取的查詢信息中的查詢呈現(xiàn)給用戶。
根據(jù)本發(fā)明的另一個方面,提供了一種檢索電子文檔的方法,包括步驟提取分別與相應(yīng)電子文檔對應(yīng)保存的查詢信息,其中每個所述查詢信息包含一個或多個相應(yīng)查詢的關(guān)鍵詞、關(guān)鍵詞詞語串或問題;對提取出的查詢信息編制索引;響應(yīng)于用戶的查詢,在所述查詢索引中找出與用戶輸入的查詢相同的或最接近的一個或多個查詢;將上述相同的或最接近的一個或多個查詢呈現(xiàn)給所述用戶;以及將所述用戶選擇的查詢所對應(yīng)的電子文檔或者與所述電子文檔的鏈接提供給所述用戶。
根據(jù)本發(fā)明的再一個方面,提供了一種電子文檔的檢索系統(tǒng),包括查詢信息提取裝置,用于提取分別與電子文檔對應(yīng)保存的查詢信息,其中每個所述查詢信息包含一個或多個相應(yīng)查詢的關(guān)鍵詞、關(guān)鍵詞詞語串或問題;查詢索引裝置,用于對所述提取出的查詢信息中的查詢編制索引;查詢索引存儲裝置,用于保存由查詢索引裝置編制的查詢索引;查詢查找裝置,用于從查詢索引存儲裝置中的查詢索引中找出與用戶輸入的查詢相同或最接近的一個或多個查詢;查詢呈現(xiàn)裝置,用于將由查詢查找裝置找出的相同或最接近的一個或多個查詢呈現(xiàn)給所述用戶;以及電子文檔提供裝置,用于將所述用戶選擇的查詢所對應(yīng)的電子文檔或者與所述電子文檔的鏈接提供給所述用戶。
以下結(jié)合附圖,對本發(fā)明的具體實(shí)施方式
進(jìn)行詳細(xì)的說明,由此,本發(fā)明的特點(diǎn)、優(yōu)點(diǎn)、目的和有益效果將會變得更明顯,其中
圖1是根據(jù)本發(fā)明的一種實(shí)施方式的電子文檔的處理方法的流程圖;圖2是根據(jù)本發(fā)明的一種實(shí)施方式的電子文檔的處理裝置的結(jié)構(gòu)示意圖;圖3是根據(jù)本發(fā)明的一種實(shí)施方式的瀏覽電子文檔的方法的流程圖;圖4是根據(jù)本發(fā)明的一種實(shí)施方式的電子文檔瀏覽器的結(jié)構(gòu)的方框圖;圖5是根據(jù)本發(fā)明的一種實(shí)施方式的檢索電子文檔的方法的流程圖;以及圖6是根據(jù)本發(fā)明的一種實(shí)施方式的電子文檔檢索系統(tǒng)的結(jié)構(gòu)的方框圖。
具體實(shí)施例方式
以下,結(jié)合附圖對本發(fā)明的各優(yōu)選實(shí)施例進(jìn)行詳細(xì)的說明。
電子文檔的處理的方法根據(jù)本發(fā)明的一個方面,提出了一種電子文檔的處理的方法。圖1是根據(jù)本發(fā)明的一種實(shí)施方式的電子文檔的處理方法的流程圖。
如圖1所示,在步驟101,作者寫作電子文檔。根據(jù)本發(fā)明的電子文檔的處理方法是基于傳統(tǒng)的文檔編輯方法,通過這些傳統(tǒng)的文檔編輯工具,例如MS Word,Acrobat Writer,或WPS等等,作者可以對所寫的文檔進(jìn)行常規(guī)的編輯、瀏覽等等操作。根據(jù)本發(fā)明,查詢的生成是在作者寫完一篇文檔時進(jìn)行的,或者可以在完成文檔的一部分(例如一個章節(jié))時進(jìn)行。
接著,在步驟102,選擇用于生成查詢的一個文本流(或文本段)。在本發(fā)明的電子文檔的處理方法中,可以由作者從所寫作的文檔中選擇一部分作為一個文本流,也可以根據(jù)寫作的文檔利用算法自動生成一個文本流。其中,對作者寫作的文檔首先進(jìn)行預(yù)處理,根據(jù)現(xiàn)有技術(shù)的對文檔的處理方式,所述的預(yù)處理包括從所寫作的文檔中提取文本段落的操作,以及對提取出的文本段去除停用詞(stopword)(即一些最常用的應(yīng)該排除在搜索范圍內(nèi)的詞、如中文詞匯中的‘的’、‘地’、‘得’、‘了’等)的操作。如果是自動生成文本流,則可以通過歷史記錄關(guān)聯(lián)算法來生成一個與作者寫作的文檔內(nèi)容相關(guān)的、待處理的文本流。該方法主要是基于這一性質(zhì)與當(dāng)前文本段相連接的在前的文本段內(nèi)容與當(dāng)前待處理的文本段的內(nèi)容有可能相關(guān),其對當(dāng)前文本段查詢信息的生成仍然有所幫助。此處,歷史記錄關(guān)聯(lián)算法使用在前相關(guān)聯(lián)的文本段中的詞來輔助生成關(guān)于當(dāng)前文本段的查詢,即利用當(dāng)前文本段之前的文本段S的向量表示(舊文本段,可用向量v1表示)與當(dāng)前文本段的向量表示的相關(guān)程度來決定相應(yīng)文本段的合并,進(jìn)而生成文本流,即,歷史記錄關(guān)聯(lián)算法是將以前相關(guān)聯(lián)的文本段與新的文本段合并來生成需要處理的文本流。具體來說,對文本段來說,其向量表示保存了文本段中除停用詞之外的每一個詞在文本段中的重要性(權(quán)重)。所述方法包括i)計算在前相關(guān)聯(lián)的文本段中每個詞(不包括停用詞)的重要性(權(quán)重),例如使用tf-idf方法,如公式(1)wj=tf*idf(1)在公式1中,tf是該詞在文本段S中出現(xiàn)的頻率(次數(shù)),idf=all_segments/term_segments;其中,all_segments是整個文檔中獨(dú)立文本流的數(shù)量,term_segments是其中包含該詞的獨(dú)立文本流的數(shù)量。此處,獨(dú)立文本流是用來生成查詢的相關(guān)聯(lián)的若干文本段落構(gòu)成。可知,在現(xiàn)有搜索技術(shù)中,一個查詢對應(yīng)的是一些關(guān)鍵詞、或是關(guān)鍵詞詞語串,或是一些簡單的問題。
ii)根據(jù)每個詞在文本段中的重要性,計算當(dāng)前文本段與在前的多個文本段S之間的相似程度。具體地,當(dāng)接收到一個新的文本段T后,使用tf-idf方法來構(gòu)造該新的文本段落的向量表示v2。計算新文本段T的向量表示v2與舊文本段S的向量表示v1之間的相似性得分來檢查文本段T與舊文本段S之間的相似程度。
iii)將當(dāng)前文本段T與在前相關(guān)聯(lián)的文本段S之間的相似性程度與一個給定的閾值進(jìn)行比較。如果相似性得分高出給定的閾值,則可以得出,當(dāng)前文本段T與之前的文本相似;否則,T與之前的文本不相似。
如果T與位于其之前的文本相似,則將向量v1的每個分量乘以衰減因子α(0<α<1),然后合并向量v1和v2得到向量v3,用v3替代v1。合并S和T得到候選文本流ST,并用ST替代T,繼續(xù)接受新的文本段。如果T與之前的文本不相似,文本段T就是當(dāng)前所要處理的候選文本流。此外,用向量v2代替向量v1,S代替T,為下一個文本流的生成作好準(zhǔn)備應(yīng)當(dāng)理解,以上只是舉例說明的一種確定要處理文本流的方法,還可以選擇其他方法來確定用于生成查詢的文本流。
再回到圖1,接著在步驟103,對所生成的文本流進(jìn)行分析并從該文本流中提取與搜索引擎進(jìn)行查詢相關(guān)的詞或稱特征信息。應(yīng)該理解,如上所述,利用歷史記錄關(guān)聯(lián)算法,使用在前相關(guān)聯(lián)的文本段中的詞來輔助生成關(guān)于當(dāng)前文本段的查詢。例如,特征信息可以對應(yīng)于一些關(guān)鍵詞、關(guān)鍵詞詞語串,或是一些簡單的問題的查詢。
然后,在步驟104,根據(jù)所提取的特征信息,生成對應(yīng)于所處理的文本流的查詢??梢岳斫猓梢杂卸喾N方法來從該文本流中生成一個或多個查詢。例如,可以由作者輸入他/她認(rèn)為與該文本流最相關(guān)的查詢。也可以通過使用算法來自動生成查詢。此處,可以使用tf-idf方法來生成查詢。在這種情況下,可以根據(jù)合并詞向量中的關(guān)鍵詞的權(quán)重來選擇關(guān)鍵詞作為查詢。
然后,在步驟105,根據(jù)文檔內(nèi)容進(jìn)一步通過查看、修改操作來核實(shí)所生成的查詢。在此,“核實(shí)”包括作者查看、修改生成的查詢,從而保證所生成的查詢能準(zhǔn)確、全面地反映該文檔的內(nèi)容。
接著,在步驟106,判斷是否希望生成更多的查詢。通常,一篇文檔會包含許多方面的內(nèi)容,同樣讀者在查找和閱讀文檔時會有各種不同的目的。因此如果在步驟106中判斷還有更多的查詢可以反映文檔的內(nèi)容時,就返回到步驟103,根據(jù)生成的特征信息,生成下一個查詢。如果沒有其它查詢需要生成的話,則步驟進(jìn)行到步驟107。
在步驟107,與該文檔對應(yīng)地保存查詢信息(例如保存與查詢相對應(yīng)的關(guān)鍵詞、關(guān)鍵詞詞語串或是一些簡單的問題)。具體地,根據(jù)本發(fā)明的優(yōu)選實(shí)施方式,可以將查詢信息作為知識標(biāo)記(knowledgetag)與電子文檔一起保存。例如,可以使用標(biāo)記語言將標(biāo)記附加到文檔當(dāng)中。
如前面所述,本發(fā)明沒有對查詢的具體保存方式進(jìn)行限定,例如,可以與電子文檔一起保存,即作為電子文檔的一部分,也可以與電子文檔分開保存,只要能夠與所述電子文檔對應(yīng)即可。
通過以上對本實(shí)施例的描述可知,如果采用本實(shí)施例的電子文檔的處理方法,則可以輔助作者在寫作的過程中完成多個查詢的準(zhǔn)備,在不增加作者負(fù)擔(dān)的情況下,利用作者對所寫作文檔的理解,來保證查詢(一個或多個關(guān)鍵詞、關(guān)鍵詞詞語串或者問題)的準(zhǔn)確性。并且,由于可以為文檔生成充分反映該文檔內(nèi)容的多個查詢(一個或多個關(guān)鍵詞、關(guān)鍵詞詞語串或者問題),可以使搜索引擎在進(jìn)行信息檢索時,可以更準(zhǔn)確和全面,從而得到高的用戶滿意度。
電子文檔的處理裝置在同一發(fā)明構(gòu)思下,根據(jù)本發(fā)明的另一個方面,提供了一種電子文檔的處理裝置。圖2是根據(jù)本發(fā)明的一種實(shí)施方式的電子文檔的處理裝置的結(jié)構(gòu)示意圖。
如圖2所示,該電子文檔的處理裝置200,包括電子文檔編輯單元201,用于編輯電子文檔。電子文檔編輯單元201可以是一個獨(dú)立的文檔編輯單元,也可以使用已有的文檔編輯器,例如MSword,Acrobat Writer,或WPS等等;文本流生成單元202,用于對作者寫作的電子文檔進(jìn)行處理,以確定對所述文檔進(jìn)行查詢時的文本流;特征信息提取單元203,用于從所編輯的電子文檔中提取特征信息,優(yōu)選地,從文本流生成單元202生成的文本流中提取特征信息;查詢生成單元205,用于根據(jù)特征信息提取單元203提取出的特征信息生成關(guān)于所述文檔內(nèi)容的查詢的信息,其中所述查詢包括關(guān)鍵詞、關(guān)鍵詞詞語串或者問題;查詢核實(shí)單元204,用于根據(jù)文檔內(nèi)容對查詢生成單元205所生成的查詢進(jìn)行評價、修改;以及查詢信息保存單元206,用于與電子文檔相應(yīng)地保存由查詢生成單元205所生成的查詢。
相應(yīng)地,在所述的電子文檔的處理裝置200的文本流生成單元202中,還可以包括權(quán)值計算裝置,用于計算所述文檔中相關(guān)聯(lián)的文本段中每個詞的重要性;文本段相關(guān)性計算裝置,用于根據(jù)每個詞在文本段中的重要性,計算所述電子文檔中的當(dāng)前文本段與在前文本段之間的相關(guān)程度;文本流確定裝置,用于將在前相關(guān)聯(lián)的文本段與當(dāng)前的文本段之間的相關(guān)程度與一個給定的閾值進(jìn)行比較,確定用于生成查詢的文本流。
通過以上對本實(shí)施例的描述可知,如果采用本實(shí)施例的電子文檔的處理裝置,則可以輔助作者在寫作的過程中完成多個查詢的準(zhǔn)備,在不增加作者負(fù)擔(dān)的情況下,利用作者對所寫作文檔的理解,來保證查詢(一個或多個關(guān)鍵詞、關(guān)鍵詞詞語串或者問題)的準(zhǔn)確性。并且,由于可以為文檔生成充分反映該文檔內(nèi)容的多個查詢(一個或多個關(guān)鍵詞、關(guān)鍵詞詞語串或者問題),可以使搜索引擎在進(jìn)行信息檢索時,可以更準(zhǔn)確和全面,從而得到高的用戶滿意度。
瀏覽電子文檔的方法在同一發(fā)明構(gòu)思下,根據(jù)本發(fā)明的另一個方面,提供一種瀏覽電子文檔的方法,其中電子文檔是通過上述電子文檔的處理方法產(chǎn)生的文檔,即,與該文檔對應(yīng)地保存有關(guān)搜索引擎進(jìn)行搜索的查詢信息。
圖3是根據(jù)本發(fā)明的一種實(shí)施方式的瀏覽電子文檔的方法的流程圖。如圖3所示,首先在步驟301,讀取電子文檔中的查詢信息。具體地,根據(jù)查詢信息的保存方式,讀出查詢信息。例如,如果查詢信息是被保存在文檔的尾部作為知識標(biāo)記,則相應(yīng)地識別出該知識標(biāo)記并將其中的查詢信息讀出。
接著,在步驟302,將查詢信息中的查詢呈現(xiàn)給用戶。具體地,可以有多種方式來呈現(xiàn)查詢。例如,可以列出關(guān)鍵詞、關(guān)鍵詞詞語串或一些簡單的問題的列表?;蛘?,如果當(dāng)查詢的數(shù)量很大時,也可以由用戶輸入希望進(jìn)行的查詢內(nèi)容,然后從所述查詢中包含的關(guān)鍵詞、關(guān)鍵詞詞語串或者問題選擇與用戶輸入的關(guān)鍵詞、關(guān)鍵詞詞語串或者問題最接近的查詢,并將最接近的查詢呈現(xiàn)給用戶。
接著,在步驟303,讀者查看查詢,并判斷是否對該文檔感興趣。如果讀者對該文檔感興趣,則確認(rèn)并進(jìn)入到步驟304,將文檔內(nèi)容呈現(xiàn)給讀者;否則,不顯示文檔內(nèi)容,而進(jìn)入到步驟305,關(guān)閉文檔結(jié)束。
通過以上對本實(shí)施例的描述可知,如果采用本實(shí)施例的瀏覽電子文檔的方法,則可以利用由本發(fā)明前述的電子文檔的處理方法編制的電子文檔中的查詢信息,在將文檔全部內(nèi)容呈現(xiàn)給讀者之前,將由作者核實(shí)過的關(guān)于文檔內(nèi)容的查詢提供給讀者觀看,讓讀者了解該文檔的大致內(nèi)容,從而節(jié)省了讀者閱讀的時間。
電子文檔瀏覽器在同一發(fā)明構(gòu)思下,根據(jù)本發(fā)明的另一個方面,提供一種瀏覽電子文檔的瀏覽器,其中電子文檔是通過上述電子文檔的處理方法編制的文檔,即,與該文檔對應(yīng)地保存有關(guān)搜索引擎進(jìn)行搜索的查詢信息。
圖4是根據(jù)本發(fā)明的一種實(shí)施方式的電子文檔瀏覽器的結(jié)構(gòu)的方框圖。如圖4所示,本實(shí)施例的電子文檔瀏覽器400,包括電子文檔瀏覽單元401,用于瀏覽電子文檔的內(nèi)容,它可以是一個現(xiàn)有技術(shù)中的瀏覽器,如MS Word Viewer,MS Internet Explorer,Netscape Navigator,Acrobat Reader等等;查詢信息讀取單元402,用于讀取與所述電子文檔對應(yīng)保存的查詢信息。具體地,根據(jù)查詢信息的保存方式,讀出查詢信息。例如,如果查詢信息是被保存在文檔的尾部作為知識標(biāo)記,則相應(yīng)地識別出該知識標(biāo)記并將其中的查詢信息讀出;查詢信息呈現(xiàn)單元403,用于將由查詢信息讀取單元402讀取的查詢信息中的查詢呈現(xiàn)給用戶。具體地,可以有多種方式來呈現(xiàn)查詢。例如,可以列出關(guān)鍵詞、關(guān)鍵詞詞語串或一些簡單的問題的列表?;蛘?,如果當(dāng)查詢的數(shù)量很大時,也可以由用戶輸入希望的查詢內(nèi)容,然后從所述查詢列表中選擇與用戶輸入的查詢相同或最接近的查詢,并將最接近的查詢呈現(xiàn)給用戶。在這種情況下,本發(fā)明的該瀏覽器400還可以包括一個查詢選擇單元(未示出),用于從所述查詢信息列表中包含的多個查詢中選擇與用戶輸入的查詢相同或最接近的查詢。
通過以上對本實(shí)施例的描述可知,本實(shí)施例的電子文檔瀏覽器可以實(shí)施本發(fā)明上述瀏覽電子文檔的方法。如果采用本實(shí)施例的電子文檔瀏覽器,則可以利用由本發(fā)明前述的電子文檔的處理方法編制的電子文檔中的查詢信息,在將文檔全部內(nèi)容呈現(xiàn)給讀者之前,將由作者核實(shí)過的關(guān)于文檔內(nèi)容的查詢提供給讀者觀看,讓讀者了解該文檔的大致內(nèi)容,從而節(jié)省了讀者閱讀的時間。
檢索電子文檔的方法在同一發(fā)明構(gòu)思下,根據(jù)本發(fā)明的另一個方面,提供一種檢索電子文檔的方法,其中電子文檔是通過上述電子文檔的處理方法產(chǎn)生的文檔,即,與該文檔對應(yīng)地保存有關(guān)搜索引擎進(jìn)行搜索的查詢信息。
圖5是根據(jù)本發(fā)明的一個實(shí)施例的檢索電子文檔的方法的流程圖。如圖5所示,首先在步驟501,提取與多個電子文檔對應(yīng)保存的查詢信息,每個所述查詢信息包含一個或多個相應(yīng)查詢的關(guān)鍵詞、關(guān)鍵詞詞語串或問題。具體地,如果電子文檔的作者是使用上述電子文檔的處理裝置200寫作文檔的,則每個文檔都會有關(guān)于對文檔內(nèi)容進(jìn)行查詢的查詢(一個或多個關(guān)鍵詞、關(guān)鍵詞詞語串或者問題)信息。在步驟501中,將多個關(guān)于電子文檔內(nèi)容的查詢信息提取出來。特別地,對于在因特網(wǎng)上發(fā)布的電子文檔,可以通過網(wǎng)絡(luò)搜索器(webcrawler)來遍歷各個電子文檔,并提取其對應(yīng)的查詢信息,例如從知識標(biāo)記中提取。
接著,在步驟502,對提取出的查詢信息編制索引。在此,可以使用信息檢索領(lǐng)域中常用的各種索引方法來對這些查詢編制索引,例如,倒排文件、簽名文件、PAT樹或PAT陣列等。
接著,在步驟503,由用戶輸入自己的查詢。用戶的查詢可以是一個或多個關(guān)鍵詞、關(guān)鍵詞詞語串或者問題。
接著,在步驟504,在所述查詢索引中找出與用戶輸入的查詢相同或最接近的一個或多個查詢。具體地,計算用戶輸入的查詢與查詢索引中的各個查詢的相關(guān)程度,以及將上述相關(guān)程度最高的一個或者相關(guān)程度大于一個預(yù)定值的查詢選擇出來。
然后,在步驟505中,將與用戶輸入的查詢相同或最接近的查詢呈現(xiàn)給所述用戶,并且,在步驟506中,當(dāng)用戶選擇了其中一個查詢時,將用戶選擇的查詢對應(yīng)的電子文檔或者與所述電子文檔的鏈接提供給所述用戶。
此外,還可以包括步驟507,在此步驟中,用戶還可以返回一個關(guān)于所給出的查詢是否確切的反饋信息,由此,可以根據(jù)所述反饋信息,在步驟508,更新所述查詢信息。
通過以上對本實(shí)施例的描述可知,本實(shí)施例的檢索電子文檔的方法可以利用由本發(fā)明前述的電子文檔的處理方法編制的電子文檔中的查詢信息,將這些查詢信息提取出來,用于用戶的查詢。由于查詢信息中的查詢是經(jīng)過核實(shí)的,可以保證其準(zhǔn)確性和可讀性,因此,本實(shí)施例的檢索電子文檔的方法更準(zhǔn)確,進(jìn)而在將文檔全部內(nèi)容呈現(xiàn)給讀者之前,將由作者核實(shí)過的關(guān)于文檔內(nèi)容的查詢提供給讀者觀看,讓讀者了解該文檔的大致內(nèi)容,從而節(jié)省了讀者閱讀的時間。此外,由于還可以通過讀者(使用搜索引擎進(jìn)行查詢的用戶)可以反饋一個關(guān)于電子文檔中給出的查詢是否確切的反饋信息,可以對相應(yīng)的查詢進(jìn)行更新,從而可以更精確地提高搜索引擎的準(zhǔn)確性。
電子文檔檢索系統(tǒng)在同一發(fā)明構(gòu)思下,根據(jù)本發(fā)明的另一個方面,提供一種電子文檔的檢索系統(tǒng),其中電子文檔是通過上述電子文檔的處理方法產(chǎn)生的文檔,即,與該文檔對應(yīng)地保存有關(guān)搜索引擎進(jìn)行搜索的查詢信息。
與圖5所示的檢索方法相對應(yīng),圖6是根據(jù)本發(fā)明的一個實(shí)施方式的電子文檔檢索系統(tǒng)的結(jié)構(gòu)方框圖。
如圖6所示,電子文檔檢索系統(tǒng)600,包括查詢信息提取裝置601,用于提取與電子文檔對應(yīng)保存的查詢信息,每個所述查詢信息包含一個或多個相應(yīng)查詢的關(guān)鍵詞、關(guān)鍵詞詞語串或問題。如前所述,查詢信息提取裝置601可以是一個網(wǎng)絡(luò)搜索器來遍歷網(wǎng)絡(luò)上的各個電子文檔,并提取其對應(yīng)的查詢信息;查詢索引裝置602,用于對所述提取出的查詢信息中的查詢編制索引;查詢索引存儲裝置603,用于保存由查詢索引裝置602編制的查詢索引;查詢查找裝置606,用于從查詢索引存儲裝置603中保存的查詢索引中找出與用戶輸入的查詢相同或最接近的一個或多個查詢;查詢呈現(xiàn)裝置605,用于將由查詢查找裝置606找出的一個或多個相同或最接近的查詢呈現(xiàn)給用戶;電子文檔提供裝置604,用于將所述用戶選擇的查詢所對應(yīng)的電子文檔或者與所述電子文檔的鏈接提供給所述用戶。
進(jìn)而,檢索系統(tǒng)600,還可以包括相關(guān)度計算裝置(未示出),用于計算兩個查詢(關(guān)鍵詞、關(guān)鍵詞詞語串或者問題)的相關(guān)程度,從而,查詢查找裝置606,利用該相關(guān)度計算裝置,計算用戶輸入的查詢與查詢索引中的查詢的相關(guān)程度,并且將上述相關(guān)程度最高的一個或者相關(guān)程度大于一個預(yù)定值的查詢選擇出來。
進(jìn)而,檢索系統(tǒng)600,還可以包括查詢反饋裝置(未示出),用于允許用戶對所呈現(xiàn)的查詢進(jìn)行核實(shí),例如通過評價、修改操作來核實(shí),并返回一個相應(yīng)的反饋信息;由此,更新相應(yīng)的查詢信息。
通過以上對本實(shí)施例的描述可知,本實(shí)施例的電子文檔的檢索系統(tǒng)可以實(shí)現(xiàn)前面結(jié)合圖5所述的電子文檔檢索方法,可以將由本發(fā)明前述的電子文檔的處理方法編制的電子文檔中的查詢信息用于用戶的查詢。由于查詢信息中的查詢是經(jīng)過核實(shí)的,可以保證其準(zhǔn)確性和可讀性,因此,本實(shí)施例的電子文檔檢索系統(tǒng)可以更準(zhǔn)確的進(jìn)行信息搜索,進(jìn)而在將文檔全部內(nèi)容呈現(xiàn)給讀者之前,將由作者核實(shí)過的關(guān)于文檔內(nèi)容的查詢提供給讀者觀看,讓讀者了解該文檔的大致內(nèi)容,從而節(jié)省了讀者閱讀的時間。
以上示例性的說明了本發(fā)明的電子文檔的處理方法、裝置、以及瀏覽電子文檔的方法、裝置,電子文檔的檢索方法、電子文檔檢索系統(tǒng),但是以上這些實(shí)施例僅是示例的,本領(lǐng)域技術(shù)人員可以在本發(fā)明的精神和范圍內(nèi)作出各種變化和修改。因此,本發(fā)明不限于這些實(shí)施例,本發(fā)明的范圍由隨附權(quán)利要求限定為準(zhǔn)。
權(quán)利要求
1.一種電子文檔的處理方法,其特征在于,包括步驟在作者寫作電子文檔時,根據(jù)所述電子文檔的內(nèi)容生成一個或多個查詢;以及與所述電子文檔對應(yīng)地保存所述查詢的信息。
2.根據(jù)權(quán)利要求1的電子文檔的處理方法,其特征在于,所述生成一個或多個查詢的每一個的步驟,包括選擇用于生成查詢的文本流;從所選定的文本流中提取特征信息,生成關(guān)于所選定文本流的一個或多個查詢信息。
3.根據(jù)權(quán)利要求2的電子文檔的處理方法,其特征在于,所述選擇用于生成查詢的文本流的步驟,進(jìn)一步包括i)計算相關(guān)聯(lián)的文本段中每個詞、不包括停用詞的重要性;ii)根據(jù)每個詞在文本段中的重要性,計算所述電子文檔中的當(dāng)前文本段與在前的多個文本段之間的相似程度;iii)將在前相關(guān)聯(lián)的文本段與當(dāng)前的文本段之間的相似程度與一個給定的閾值進(jìn)行比較,確定用于生成查詢的文本流。
4.根據(jù)權(quán)利要求2的電子文檔的處理方法,其特征在于,從所選定的文本流中提取特征信息,生成關(guān)于所選定文本流的一個或多個查詢信息的步驟包括提取特征信息中包含的關(guān)鍵詞、關(guān)鍵詞詞語串或問題作為查詢。
5.根據(jù)權(quán)利要求2的電子文檔的處理方法,其特征在于,所述生成關(guān)于選定文本流的一個或多個查詢的步驟,進(jìn)一步包括根據(jù)文檔內(nèi)容進(jìn)一步通過查看、修改操作來核實(shí)所生成的查詢。
6.根據(jù)權(quán)利要求1的電子文檔的處理方法,其特征在于,所述與所述電子文檔對應(yīng)地保存所述查詢的信息的步驟,包括將所述查詢信息作為知識標(biāo)記保存在所述電子文檔中。
7.根據(jù)權(quán)利要求1的電子文檔的處理方法,其特征在于,所述與所述電子文檔對應(yīng)地保存所述查詢的信息的步驟,包括將所述查詢信息保存為與所述電子文檔相關(guān)聯(lián)的知識標(biāo)記文件。
8.一種電子文檔的處理裝置,其特征在于,包括電子文檔編輯單元,用于編輯電子文檔;特征信息提取單元,用于從所編輯的電子文檔中提取特征信息;查詢生成單元,用于根據(jù)特征信息提取單元提取出的特征信息生成關(guān)于所述文檔內(nèi)容的查詢的信息,其中所述查詢包括關(guān)鍵詞、關(guān)鍵詞詞語串或者問題;查詢保存單元,用于與電子文檔相應(yīng)地保存由查詢生成單元所生成的查詢信息。
9.根據(jù)權(quán)利要求8的電子文檔的處理裝置,其特征在于,進(jìn)一步包括文本流生成單元,用于對所述電子文檔進(jìn)行處理,以確定用于生成對所述文檔進(jìn)行查詢時的文本流。
10.根據(jù)權(quán)利要求9的電子文檔的處理裝置,其特征在于,進(jìn)一步包括權(quán)值計算裝置,用于計算所述文檔中相關(guān)聯(lián)的文本段中每個詞的重要性;文本段相關(guān)性計算裝置,用于根據(jù)每個詞在文本段中的重要性,計算所述電子文檔中的當(dāng)前文本段與在前的多個文本段之間的相關(guān)程度;文本流確定裝置,用于將在前相關(guān)聯(lián)的文本段與當(dāng)前的文本段之間的相關(guān)程度與一個給定的閾值進(jìn)行比較,確定用于生成查詢的文本流。
11.根據(jù)權(quán)利要求8的電子文檔的處理裝置,其特征在于,進(jìn)一步包括查詢核實(shí)單元,用于根據(jù)文檔內(nèi)容對查詢生成單元所生成的查詢進(jìn)行評價、修改。
12.一種瀏覽電子文檔的方法,其特征在于,包括步驟讀取與所述電子文檔對應(yīng)保存的查詢信息,所述查詢包括關(guān)鍵詞、關(guān)鍵詞詞語串或者問題;將查詢信息中的查詢呈現(xiàn)給用戶;以及當(dāng)用戶確認(rèn)所述查詢時,將所述電子文檔的內(nèi)容顯示呈現(xiàn)給所述用戶。
13.根據(jù)權(quán)利要求12的瀏覽電子文檔的方法,其特征在于,將所述電子文檔的內(nèi)容顯示呈現(xiàn)給所述用戶的步驟包括由用戶輸入一個希望進(jìn)行的查詢,所述查詢包括關(guān)鍵詞、關(guān)鍵詞詞語串或者問題;從所述查詢中包含的關(guān)鍵詞、關(guān)鍵詞詞語串或者問題選擇與用戶輸入的關(guān)鍵詞、關(guān)鍵詞詞語串或者問題最接近的查詢;以及將最相關(guān)的查詢顯示給用戶。
14.一種電子文檔的瀏覽器,其特征在于,包括電子文檔瀏覽單元,用于瀏覽電子文檔的內(nèi)容;查詢信息讀取單元,用于讀取與所述電子文檔對應(yīng)保存的查詢信息,其中所述查詢包括關(guān)鍵詞、關(guān)鍵詞詞語串或者問題;以及查詢呈現(xiàn)單元,用于將由查詢信息讀取單元讀取的查詢信息中的查詢呈現(xiàn)給用戶。
15.根據(jù)權(quán)利要求14的電子文檔的瀏覽器,其特征在于,進(jìn)一步包括查詢選擇單元,用于從所述查詢信息中包含的多個查詢中選擇與用戶輸入的查詢相同或最接近的查詢;以及其中,所述查詢呈現(xiàn)單元,只將所述相同或最接近的查詢顯示給所述用戶。
16.一種檢索電子文檔的方法,其特征在于,包括步驟提取分別與相應(yīng)電子文檔對應(yīng)保存的查詢信息,其中每個所述查詢信息包含一個或多個相應(yīng)查詢的關(guān)鍵詞、關(guān)鍵詞詞語串或問題;對提取出的查詢信息編制索引;響應(yīng)于用戶的查詢,在所述查詢索引中找出與用戶輸入的查詢相同或最接近的一個或多個查詢;將上述相同或最接近的一個或多個查詢呈現(xiàn)給所述用戶;以及將所述用戶選擇的查詢所對應(yīng)的電子文檔或者與所述電子文檔的鏈接提供給所述用戶。
17.根據(jù)權(quán)利要求16的檢索電子文檔的方法,其特征在于,所述找出與用戶輸入的查詢相同或最接近的一個或多個查詢的步驟,包括計算用戶輸入的查詢與查詢索引中的各個查詢的相關(guān)程度,以及將上述相關(guān)程度最高的一個或者相關(guān)程度大于一個預(yù)定值的查詢選擇出來。
18.根據(jù)權(quán)利要求16的檢索電子文檔的方法,其特征在于,所述將相同或最接近的一個或多個查詢呈現(xiàn)給所述用戶的步驟,還包括通過評價、修改操作來對所呈現(xiàn)的查詢進(jìn)行核實(shí),并返回一個相應(yīng)的反饋信息;以及根據(jù)所述反饋信息,更新相應(yīng)的查詢信息。
19.一種電子文檔的檢索系統(tǒng),其特征在于,包括查詢信息提取裝置,用于提取分別與電子文檔對應(yīng)保存的查詢信息,其中每個所述查詢信息包含一個或多個相應(yīng)查詢的關(guān)鍵詞、關(guān)鍵詞詞語串或問題;查詢索引裝置,用于對所述提取出的查詢信息中的查詢編制索引;查詢索引存儲裝置,用于保存由查詢索引裝置編制的查詢索引;查詢查找裝置,用于從查詢索引存儲裝置中的查詢索引中找出與用戶輸入的查詢相同或最接近的一個或多個查詢;查詢呈現(xiàn)裝置,用于將由查詢查找裝置找出的相同或最接近的一個或多個查詢呈現(xiàn)給所述用戶;以及電子文檔提供裝置,用于將所述用戶選擇的查詢所對應(yīng)的電子文檔或者與所述電子文檔的鏈接提供給所述用戶。
20.根據(jù)權(quán)利要求19的電子文檔的檢索系統(tǒng),其特征在于,進(jìn)一步包括相關(guān)度計算裝置,用于計算兩個詞語串的相關(guān)程度;其中,所述查詢查找裝置,利用所述相關(guān)度計算裝置,計算用戶輸入的查詢與查詢索引中的查詢的相關(guān)程度,并且將上述相關(guān)程度最高的一個或者相關(guān)程度大于一個預(yù)定值的查詢選擇出來。
21.根據(jù)權(quán)利要求19的電子文檔的檢索系統(tǒng),其特征在于,進(jìn)一步包括查詢反饋裝置,用于通過評價、修改操作來對所呈現(xiàn)的查詢進(jìn)行核實(shí),并返回一個相應(yīng)的反饋信息;由此,更新相應(yīng)的查詢信息。
全文摘要
本發(fā)明公開了一種電子文檔的處理方法及裝置,一種電子文檔的瀏覽方法及相應(yīng)的瀏覽器,一種電子文檔的檢索方法及系統(tǒng)。根據(jù)本發(fā)明的電子文檔的處理方法,包括在作者寫作電子文檔時,根據(jù)所述電子文檔的內(nèi)容生成一個或多個查詢;以及與所述電子文檔對應(yīng)地保存所述查詢的信息。其中,所述查詢包括關(guān)鍵詞、關(guān)鍵詞詞語串或者問題,并且所述查詢是經(jīng)過核實(shí)了的,以保證其可靠性。
文檔編號G06F17/30GK1629843SQ200310123108
公開日2005年6月22日 申請日期2003年12月17日 優(yōu)先權(quán)日2003年12月17日
發(fā)明者劉世霞, 楊力平 申請人:國際商業(yè)機(jī)器公司