專利名稱:一種便于查詢的電子文本的相似性處理方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機及搜索引擎關(guān)于電子文本處理與檢索或搜索技術(shù)。(2)背景技術(shù)20年來,計算機數(shù)據(jù)庫檢索技術(shù)有了極大發(fā)展,特別是互聯(lián)網(wǎng)等網(wǎng)絡(luò)技術(shù) 的進展,使得人們可以共享的數(shù)據(jù)庫的規(guī)模達到了天文數(shù)字。為了方便用戶找 到所需信息或文件,出現(xiàn)了分類或目錄檢索系統(tǒng)。這種技術(shù)在人們十分熟悉的 成熟分類領(lǐng)域里比較適用,但在更廣泛的海量信息領(lǐng)域里,難于建立也難于掌 握和使用。以關(guān)鍵詞搜索為核心的檢索技術(shù)和搜索引擎技術(shù)為用戶帶來了便利。該系 統(tǒng)可以通過客戶機上的交互界面以及通訊網(wǎng)絡(luò)或通訊線路得到查詢者的關(guān)鍵詞 査詢請求,在文本索引庫或文本庫中進行査詢,并進行關(guān)鍵詞請求與文本的相 關(guān)性分析,得到相關(guān)結(jié)果并排序,再經(jīng)由通訊網(wǎng)絡(luò)或線路提供到交互界面。這 種搜索系統(tǒng)使用起來十分便利迅速,但返還結(jié)果包含的題錄或索引總數(shù)仍然十 分龐大,難于逐一査閱。為了能將潛在的對査詢者最有價值的査詢結(jié)果盡量排在前面以方便査詢 者,第6,285,999號美國專利提出了基于網(wǎng)頁超級鏈接結(jié)構(gòu)分析(佩奇鏈接)來 進行搜索結(jié)果排序的技術(shù),超過了其他排序技術(shù),被Google公司采用,獲得空 前成功。然而,該技術(shù)以及其他各種排序技術(shù),僅僅是在統(tǒng)計學(xué)意義上提高了關(guān)鍵 詞搜索的效率,并不能保證每個人希望的查詢結(jié)果都能排在龐大索引表的前面。 我們?nèi)匀徊荒鼙WC可以無一遺漏地在靠前的位置上査閱到期望的內(nèi)容,做到既 嚴密又比較方便。同時,我們在讀到期望的信息之前,卻無奈地讀到種種主要 內(nèi)容一再重復(fù)的無關(guān)信息。為了解決這一問題,近十年來人們一直試圖發(fā)展各種新的搜索引擎技術(shù)。 其中一個重要的方面是試圖測量和利用響應(yīng)了同一關(guān)鍵詞查詢項的海量不同文 件或網(wǎng)頁之間的相似性,將其劃分成不同類別,以便于檢索和査閱。但是這類技術(shù)存在很大缺陷。第一是計算量過大,特別是需要比較的每篇文本內(nèi)容較多而文本數(shù)量龐大 時,將需要較多的計算時間。已經(jīng)提出的一些針對性的改迸技術(shù),如雅虎公司的第6990628號美國專利有關(guān)"測量電子文本相似性"的技術(shù)、IBM公司的中 國專利CN1112647 C的"響應(yīng)査詢以對文檔集合中的文檔進行分級的系統(tǒng)和方 法"的技術(shù)、復(fù)旦大學(xué)的中國專利CN1220159C的."一種高維矢量數(shù)據(jù)快速相 似檢索方法"的技術(shù)、惠普公司的中國專利CN1269064 C的關(guān)于"文檔和信息 檢索方法和設(shè)備"的技術(shù)、百度公司的中國專利CN1209726C的關(guān)于"一種互 聯(lián)網(wǎng)上鏡象與準鏡象網(wǎng)站的識別方法"的僅僅對首頁進行相似比較的技術(shù),對 上述的第一個缺陷作出了十分有限的改進。第二種缺陷是利用相似性處理的結(jié)果對査詢者的幫助往往十分有限,因為 彼此相4以的文件盡管存在明顯的共同性,但也存在一定的差異,而査詢者感興 趣的信息很有可能就在差異之處,關(guān)鍵之處的差異往往會明顯影響文本的類別。 包括第6990628號美國專利在內(nèi)的已有技術(shù)并不能識別兩個文本之間的某一差 異或共同之處是否緊要,因而這類技術(shù)給出的搜索結(jié)果既不夠嚴密也不夠方便。因此,人們迫切霈要一種既嚴密又高效的關(guān)鍵詞搜索引擎系統(tǒng)技術(shù),能夠 大大加快査詢者得到期望的集中結(jié)果的速度,并保證搜索的嚴密性。這也成為 多年來未能解決的世界性難題。(3)發(fā)明內(nèi)容本發(fā)明的一個目的是提供一種計算機或搜索引擎的電子文本處理與檢索或 搜索的方法或系統(tǒng),可以將大量含有同樣關(guān)鍵詞査詢項的不同文本或信息,按 照査詢者更有理由看重的文本核心內(nèi)容的相似性的程度進行分類或處理。本發(fā) 明的另一個目的是提供一種計算機或搜索引擎的電子文本處理與檢索或搜索的 方法或系統(tǒng),可以將大量含有同樣關(guān)鍵詞的不同文本或信息進行精煉處理,以 其核心內(nèi)容相似的不同文本較少重疊,而核心內(nèi)容不相似的文本較少遺漏的方 式,將相關(guān)信息列出,方便査詢。本發(fā)明的另一個目的是提供一種計算機或搜 索引擎的電子文本處理與檢索或搜索的更有效、更簡捷、更經(jīng)濟的方法或系統(tǒng), 為査詢者服務(wù),使其在進行關(guān)鍵詞檢索時,能am而縮小搜索范圍,大大減少 或剔除各類無關(guān)信息或重復(fù)信息,準確地得到所期望的結(jié)果。本發(fā)明的一個方面是提供了一種計算機運用的對多個電子文本進行處理的方法,包括〖i〗獲得多個含有同樣關(guān)鍵詞査詢項的電子文本;[ii確定各個文本內(nèi)容中所述關(guān)鍵詞査詢項鄰近內(nèi)容的同樣劃取范圍,所述 關(guān)鍵詞査詢項鄰近內(nèi)容為文本內(nèi)容中所述關(guān)鍵詞査詢項之外的與之鄰近的劃取 范圍內(nèi)的內(nèi)容;[iii規(guī)定不同文本的所述關(guān)鍵詞查詢項鄰近內(nèi)容是杏屬于相似的判定標準, 該標準至少包括或間接包含對來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼 此相同部分的多少或所占比例的要求,其中相同部分可以是指彼此相同的字詞 或詞根或字符或詞組;[iv]按照[iii所述對不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的 判定標準,確定這些文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容相互之間是否屬于相似, 并根據(jù)這些文本的所述關(guān)鍵詞查詢項鄰近內(nèi)容相互之間是否屬于相似對這些文 本進行分類,并以其分類的相同或不同對這些文本進行處理;所述的電子文本或文本指的可以是計算機或數(shù)據(jù)庫或信息存貯裝置或互聯(lián) 網(wǎng)或甩務(wù)器或者搜索引擎的數(shù)據(jù)庫或數(shù)據(jù)處理器等裝置中的文件、文本或網(wǎng)頁 或摘要或題錄或標題或索引或章節(jié)或段落或包含文字或字符內(nèi)容的信息。其中,所述關(guān)鍵詞査詢項一般是指可以由查詢者提出的在檢索結(jié)果文本中 應(yīng)該含有的內(nèi)容。而關(guān)鍵詞査詢項鄰近內(nèi)容一般屬于未經(jīng)査詢者提出卻出現(xiàn)在 關(guān)鍵詞搜索結(jié)果的文本內(nèi)容中的關(guān)鍵詞査詢項鄰近的某種規(guī)定劃取范圍內(nèi)的內(nèi) 容。它的具體內(nèi)容,比文本里遠離關(guān)鍵詞査詢項的內(nèi)容,應(yīng)該更能影響該文本 中該關(guān)鍵詞査詢項的具體用意,更有助于對相關(guān)文本作出更恰當?shù)姆诸惡吞幚怼1景l(fā)明所述的方法的iii]中對所述關(guān)鍵詞查詢項鄰近內(nèi)容是否屬于相似的判 定標準,還可以依據(jù)或參考以下評估因素或原則中的一個或多個來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否完全相同;來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼此相同部分分別在原文中 相對于原關(guān)鍵詞査詢項的前后位置或距離的差別大?。粊碜圆煌谋镜乃鲫P(guān)鍵詞査詢項鄰近內(nèi)容中各個彼此相同部分分別在原 文中的順序的差別大??;來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼此相同部分分別在原文中 與原關(guān)鍵詞查詢項的距離的大??;利用矢量空間模型的計算方法為來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容的彼此相似程度給出的數(shù)值的大小;或者對以上評估因素中的一個或多個或其他因素加權(quán),給出一種或多種目 標函數(shù)(objective fimction)以得出來自不同文本的所述關(guān)鍵詞查詢項鄰近內(nèi)容 的相應(yīng)的相似性程度或得出是否屬于相似的判定。本發(fā)明的所述處理方法,還可以包括令相應(yīng)文本或文本的部分內(nèi)容具有相同或不同的分布位置或存儲方式,或 者劃分為相同或不同的子集,或者得到相同或不同的子集標記,或者使得其在數(shù) 據(jù)庫的索引具有相同或不同的標記或索引項,或者具有相同或不同的編排方式, 或者在交互界面具有相同或不同的顯示方式或位置,或者允許至少部分子集各 有一個或多個題錄或摘要或文本或子集內(nèi)文本相似的關(guān)鍵詞査詢項鄰近內(nèi)容或 其中的相同部分進行跨子集組合或排序或在交互界面展示。本發(fā)明所述的處理方法,可以包括劃分相似子集可以將多個文本或文本 部分內(nèi)容劃分為多個相似子集,同一相似子集里的各個文本或文本部分內(nèi)容的 所述關(guān)鍵詞査詢項鄰近內(nèi)容屬于相似。同一相似子集的文本,更有可能對應(yīng)著査詢者對某個方向相近的興趣,更 有助于檢索。本發(fā)明的處理方法,也可以包括劃分相同核心子集可以將多個文本或文 本部分內(nèi)容劃分為多個相同核心子集,要求同一相同核心子集里的各個文本或 文本部分內(nèi)容的所述關(guān)鍵詞查詢項鄰近內(nèi)容都相同。霈要時,本發(fā)明的處理方法也可以包括對相似子集進行細分。必要時,本發(fā)明的處理方法可以包括相似子集再分可以在劃分相似子集 或劃分相同核心子集的基礎(chǔ)上,對已有的一個相似子集或相同核心子集里的多 個文本或文本部分內(nèi)容中原有的關(guān)鍵詞查詢項鄰近內(nèi)容劃取范圍之外的一定鄰 近范圍的新內(nèi)容再進行相似性比較,根據(jù)其相似與否,將這些文本或文本部分 內(nèi)容劃分為多個下一級相^l子集。本發(fā)明的處理方法也可以包括安排不相似序列可以從多個文本中安排出 不相似序列,同一不相似序列里的不同文本或文本部分內(nèi)容的所述關(guān)鍵詞査詢 項鄰近內(nèi)容可以全部或基本上都不屬于相似或者同一不相似序列里的全部或 多數(shù)文本或文本部分內(nèi)容中,沒有一個文本或文本部分內(nèi)容的關(guān)鍵詞査詢項鄰 近內(nèi)容,與一個或規(guī)定數(shù)目以上的其他文本或文本部分內(nèi)容的關(guān)鍵詞査詢項鄰 近內(nèi)容屬于相似或相同。必要時,本發(fā)明的方法可以包括安排核心內(nèi)容不相同序列可以從多個 文本中安排出核心內(nèi)容不相同序列,同一個核心內(nèi)容不相同序列里的不同文本 或文本部分內(nèi)容的所述關(guān)鍵詞査詢項鄰近內(nèi)容可以全部或基本上都屬于不完全 相同;或者同一個核心內(nèi)容不相同序列里的全部文本或多數(shù)文本或文本部分內(nèi) 容中,沒有一個文本或文本部分內(nèi)容的關(guān)鍵詞査詢項鄰近內(nèi)容,與一個或規(guī)定 數(shù)目以上的其他文本或文本部分內(nèi)容的關(guān)鍵詞査詢項鄰近內(nèi)容屬于完全相同。本發(fā)明的處理方法也可以包括目錄編組或安排不同子集相tl內(nèi)容的序列 可以將各個劃分的相似子集的各自文本在所述關(guān)鍵詞査詢項鄰近內(nèi)容中共有的 相似或相同的內(nèi)容或者部分內(nèi)容作為條目,集合成目錄或序列,或者連同各個 相似子集的下一級子集的各自文本在所述關(guān)鍵詞査詢項鄰近內(nèi)容中共有的相似 或相同的內(nèi)容或部分內(nèi)容作為條目,集合成樹狀目錄。需要時,本發(fā)明的處理方法可以包括安排代表性序列可以從各個相似 子集或相同核心子集中各取出一個或多個文本,將這些文本或文本部分內(nèi)容組 成序列。本處理方法也可以包括序列再壓縮可以對已有的安排的不相似序列中的, 或者代表性序列中的,或者目錄編組或者不同子集相似內(nèi)容的序列的多個文本 或文本部分內(nèi)容的所述關(guān)鍵詞査詢項鄰近內(nèi)容,用較為寬松的是否屬于相似的 判定標準,進行較為寬松的相似性比較,在已有序列中產(chǎn)生多個文本或文本部 分內(nèi)容的新的相似子集或不相似序列或更精煉的代表性序列或目錄編組。必要時,本發(fā)明的處理方法也可以包括相同核心劃分再聚合首先安排核 心內(nèi)容不相同序列,然后再對得到的序列中的多個文本或文本部分內(nèi)容的所述 關(guān)鍵詞査詢項鄰近內(nèi)容,用是否屬于相似的判定標準進行相似性比較,在已有 序列中產(chǎn)生多個文本或文本部分內(nèi)容的新的相似子集或不相似序列或更精煉的 代表性序列或目錄編組。霈要時,本發(fā)明的處理方法也可以包括界面展示與操作。本發(fā)明的處理方法還可以包括標注數(shù)目。襦要時,本發(fā)明的處理方法可以包括確定排序?qū)τ谏鲜瞿夸浕蛐蛄谢?子集所含有的多個元素中的某一個元素的排列或顯示順序或位置可以是隨機 的,也可以部分或完全取決于下列其中某一個或多個因素相關(guān)子集或相關(guān)文本或者詞段或內(nèi)容或信息或所在文本的佩奇鏈接值、點 擊率、關(guān)鍵詞出現(xiàn)率、下級子集數(shù)目或下屬文本數(shù)目、子集點擊率、文本佩奇鏈接值的平均數(shù)值或最高值、在已有網(wǎng)站或系統(tǒng)中搜索結(jié)果的排序、競價、拼 寫方式、筆劃、來源評分、收錄時間及其他等等因素;或者由相應(yīng)的目標函數(shù)值來決定。本發(fā)明的另一個方面是一種數(shù)據(jù)檢索系統(tǒng),包括數(shù)據(jù)處理單元23和與之相連的輸入單元21、輸出單元22以及文本數(shù)據(jù)庫 26,其數(shù)據(jù)處理單元可以通過輸入單元21接收關(guān)鍵詞查詢,從文本數(shù)據(jù)庫或者 必要時從互聯(lián)網(wǎng)27收集和處理有關(guān)數(shù)據(jù),將檢索結(jié)果送輸出單元;其特點在于該數(shù)據(jù)處理單元23包含存儲器24和關(guān)鍵詞鄰近內(nèi)容處理裝 置25:所述關(guān)鍵詞鄰近內(nèi)容處理裝置,可以ij獲得多個含有同樣關(guān)鍵詞査詢項的電子文本ii〗確定各個文本內(nèi)容中所述關(guān)鍵詞査詢項鄰近內(nèi)容的同樣劃取范圍,所述 關(guān)鍵詞査詢項鄰近內(nèi)容為文本內(nèi)容中所述關(guān)鍵詞査詢項之外的與之鄰近的劃取 范圍內(nèi)的內(nèi)容;〖iii]規(guī)定不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的判定標準, 該標準至少包括或間接包含對來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼 此相同部分的多少或所占比例的要求,其中相同部分可以是指彼此相同的字詞 或詞根或字符或詞組;iv按照[Ui]所述對不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的 判定標準,確定這些文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容相互之間是否屬于相似, 并根據(jù)這些文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容相互之間是否屬于相似對這些文 本進行分類,并以其分類的相同或不同對這些文本進行處理處理方式可以包括以下一種或多種劃分相似子集、劃分相同核心子集、相似子集細分、相似子集再分、安排 不相似序列、安排核心內(nèi)容不相同序列、目錄編組或安排不同的相似內(nèi)容的序 列、安排代表性序列、序列再壓縮、相同核心劃分再聚合、內(nèi)容展開、標注數(shù) 目、確定排序、界面展示與操作。所述數(shù)據(jù)檢索系統(tǒng)可以由計算機或服務(wù)器或搜索引擎系統(tǒng)構(gòu)成。 本發(fā)明的又一個方面是一種響應(yīng)用戶經(jīng)由交互界面提出的要求,提供所期 望搜索結(jié)果的搜索引擎系統(tǒng),包括股務(wù)器,該服務(wù)器經(jīng)由通訊網(wǎng)絡(luò)或線路與所述交互界面所在的客戶機耦合位于服務(wù)器的搜索引擎,所述搜索引擎包括包括關(guān)鍵詞索引在內(nèi)的數(shù)據(jù) 庫,以及査詢器,該査詢器能夠根據(jù)查詢者提出的關(guān)鍵詞要求在所述數(shù)據(jù)庫進 行査詢并將査詢到的相關(guān)數(shù)據(jù)結(jié)果列表提供給交互界面其特點在于所述査詢器或搜索引擎還包括關(guān)鍵詞鄰近內(nèi)容比較處理裝置,可以i獲得多個含有同樣關(guān)鍵詞查詢項的電子文本;tii]確定各個文本內(nèi)容中所述關(guān)鍵詞査詢項鄰近內(nèi)容的同樣劃取范圍,所述 關(guān)鍵詞査詢項鄰近內(nèi)容為文本內(nèi)容中所述關(guān)鍵詞査詢項之外的與之鄰近的劃取 范圍內(nèi)的內(nèi)容Ui3規(guī)定不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的判定標準, 該標準至少包括或間接包含對來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼 此相同部分的多少或所占比例的要求,其中相同部分可以是指彼此相同的字詞 或詞根或字符或詞組;iv]按照iii所述對不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的 判定標準,確定這些文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容相互之間是否屬于相似, 并根據(jù)這些文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容相互之間是否屬于相似對這些文 本進行分類,并以其分類的相同或不同對這些文本進行處理;處理方式可以包括以下一種或多種劃分相似子集、劃分相同核心子集、相似子集細分、相似子集再分、安排 不相似序列、安排核心內(nèi)容不相同序列、目錄編組或安排不同的相似內(nèi)容的序 列、安排代表性序列、序列再壓縮、相同核心劃分再聚合、內(nèi)容展開、標注數(shù) 目、確定排序、界面展示與操作。以上所述的搜索引擎系統(tǒng)可以是位于互聯(lián)網(wǎng)的為網(wǎng)上客戶服務(wù)的搜索系 統(tǒng),也可以是獨立的計算機信息庫搜索系統(tǒng)。所述的服務(wù)器5為計算機存儲和 處理裝置,可以是單個的,也可以是多個成組或分散配置的。所述的客戶機3 可以是個人電腦或工作站或其他計算機裝置,需要時,可以配置適當?shù)臑g覽器。本發(fā)明的另一個方面可以是存儲著可以由一個或多個處理裝置執(zhí)行的指令 的計算機可讀介質(zhì)(computer-readeble medium),所述指令用以實現(xiàn)一種對多個 含有同樣關(guān)鍵詞査詢項的電子文本的分類和處理方法,可以包括-獲得多個含有同樣關(guān)鍵詞査詢項的電子文本的指令;確定各個文本內(nèi)容中所述關(guān)鍵詞査詢項鄰近內(nèi)容的詞樣劃取范圍的指令,所述關(guān)鍵詞査詢項鄰近內(nèi)容為文本內(nèi)容中所述關(guān)鍵詞查詢項之外的與之鄰近的 劃取范圍內(nèi)的內(nèi)容;規(guī)定不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的判定標準的指 令,該標準至少包括或間接包含對來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容 中彼此相同部分的多少或所占比例的要求,其中相同部分可以是指彼此相同的 字詞或詞根或字符或詞組;有關(guān)按照對不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的判定標 準,確定這些文本的所述關(guān)鍵詞查詢項鄰近內(nèi)容相互之間是否屬于相似,并根 據(jù)這些文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容相互之間是否屬于相似對這些文本進 行分類,并以其分類的相同或不同對這些文本迸行處理的指令。本發(fā)明的以對不同文本關(guān)鍵詞査詢項鄰近內(nèi)容進行相似比較和處理為核心 的搜索技術(shù),把文本分類的注意力集中到關(guān)鍵詞査詢項鄰近的核心內(nèi)容上,更 為科學(xué)、準確,在分類、目錄提示、不斷縮小同一關(guān)鍵詞搜索結(jié)果范圍方面, 具有一定的嚴密性和明顯超越現(xiàn)有技術(shù)的便捷與高效,將大大滿足廣大沖浪者 或信息搜索用戶長期以來的迫切需求,甚至可以幫助人們對文獻資料進行更詳 實的內(nèi)容分析和檢索。(4)
圖1所示為根據(jù)本發(fā)明的搜索引擎系統(tǒng)的一個實施例的結(jié)構(gòu)框圖。 圖2所示為本發(fā)明的一種數(shù)據(jù)檢索系統(tǒng)的示意圖。圖3所示為本發(fā)明的確定文本內(nèi)容中所述關(guān)鍵詞鄰近內(nèi)容的劃取范圍方式 的示意圖。圖4所示為本發(fā)明的一個實施例的處理操作流程框圖。 圖5所示為本發(fā)明的一個實施例展示的"相同核心劃分再聚合"處理方式 的流程示意圖。圖6所示為本發(fā)明的一個數(shù)據(jù)檢索系統(tǒng)實施例的處理操作流程框圖。圖7為含有同樣關(guān)鍵詞査詢項的多個文本的兩級相似子集的樹狀目錄示意圖。(5)具體實施方式
下面,示例性地對本發(fā)明提供的一種計算機運用的對多個電子文本迸行處理的方法進行具體說明。若使用本發(fā)明的方法,首先需要[i獲得多個含有同樣關(guān)鍵詞查詢項的電子文本。所述的電子文本或文本指的可以是計算機或數(shù)據(jù)庫或信息存貯裝置或互聯(lián) 網(wǎng)或服務(wù)器或者搜索引擎的數(shù)據(jù)庫或數(shù)據(jù)處理器等裝置中的文件、文本或網(wǎng)頁 或摘要或題錄或標題或索引或章節(jié)或段落或包含文字或字符內(nèi)容的信息。再進一步[ii確定各個文本內(nèi)容中所述關(guān)鍵詞査詢項鄰近內(nèi)容的同樣劃取范 圍,所述關(guān)鍵詞査詢項鄰近內(nèi)容為文本內(nèi)容中所述關(guān)鍵詞査詢項之外的與之鄰 近的劃取范圍內(nèi)的內(nèi)容。具體來說可以由計算機或人工默認、預(yù)定、選定、規(guī) 定或變換和調(diào)整各個文本內(nèi)容中關(guān)鍵詞査詢項鄰近內(nèi)容(簡稱"關(guān)鍵詞鄰近內(nèi) 容")的劃取范圍。該劃取范圍一般明顯少于多數(shù)原有所述文本一頁內(nèi)容篇幅的 幾分之一。如果劃取范圍過大,遠離關(guān)鍵詞的部分幾乎無助于與關(guān)鍵詞查詢項 緊密相關(guān)內(nèi)容的分類,還會極大地增加計算工作量。關(guān)鍵詞査詢項鄰近內(nèi)容的 劃取范圍例如可以通過規(guī)定文本中該關(guān)鍵詞査詢項(簡稱關(guān)鍵詞)之前的或者 該關(guān)鍵詞査詢項之后的或者該關(guān)鍵詞查詢項前后的鄰近的詞或字或符號或?qū)嵲~ 或詞根或詞組的統(tǒng)一的數(shù)量或長度來確定, 一般說來,建議在一次分類操作過 程中采用100個字母或30個漢字或20個詞以下的某一統(tǒng)一具體長度,最好為 1至10個詞或1至60個字母的某一具體長度(例如5個詞),這樣有利于提高 數(shù)據(jù)處理速度,并控制相似子集的數(shù)量。本發(fā)明的所述關(guān)鍵詞查詢項鄰近內(nèi)容的劃取范圍可以包括關(guān)鍵詞查詢項后 面的內(nèi)容,在霈要時還可以包括關(guān)鍵詞査詢項前面的內(nèi)容。本發(fā)明認為,在不 同的語言環(huán)境中,關(guān)鍵詞(即關(guān)鍵詞査詢項)前面的字詞對文本核心內(nèi)容分類 的影響可能也十分重要。例如可以規(guī)定同樣劃取范圍為"關(guān)鍵詞前后各1詞"或"關(guān)鍵詞前4詞" 或"關(guān)鍵詞后10字"或"關(guān)鍵詞前2詞+后3詞"或"關(guān)鍵詞后4詞組"或"關(guān) 鍵詞前20字母+后30字母內(nèi)的完整詞"等。本說明書的附圖(圖3)給出了規(guī)定關(guān)鍵詞鄰近內(nèi)容的劃取范圍的5種方 式的例子,關(guān)鍵詞查詢項都是"布林"。其中31的劃取范圍是"關(guān)鍵詞前3 字",32的劃取范圍是"關(guān)鍵詞后4字",33的劃取范圍是"關(guān)鍵詞前2+后 5字",34的劃取范圍是"關(guān)鍵詞前4+后6字",35的劃取范圍是忽略虛詞 和助詞的"關(guān)鍵詞前1 +后1詞"。所述的關(guān)鍵詞查詢項鄰近內(nèi)容的劃取范圍也可以通過判斷和選取文本中該 關(guān)鍵詞査詢項所在的詞組或句子方式,或其他方式如光標點擊處同所述關(guān)鍵詞 査詢項的距離來確定,或者根據(jù)關(guān)鍵詞附近的標點或符號或空格或字體或其變 化來確定。在特殊情況下,非常短小的文本的內(nèi)容的大小也可能少于針對一般 文本的預(yù)定的關(guān)鍵詞鄰近內(nèi)容的劃取范圍,此時可以將整個短小文本與別的文 本的關(guān)鍵詞鄰近內(nèi)容進行比較。在同一處理過程中,對不同文本所劃取的不同 文本中所述關(guān)鍵詞鄰近內(nèi)容范圍的方式應(yīng)該相同。下一步還霈要iii]規(guī)定不同文本的所述關(guān)鍵詞查詢項鄰近內(nèi)容是否屬于相似的判定標準。該標準至少包括或間接包含對來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼此相同部分的多少或所占比例的要求,其中相同部分可以是指彼此相同的字詞或詞根或字符或詞組。例如屬于相似的判定標準可以要求來自不同文本的所述關(guān)鍵詞査詢項鄰近 內(nèi)容中彼此相同的詞所占該鄰近內(nèi)容總詞數(shù)的比例不低于幼%,或定為ioo%。所述該標準"間接包含…"是指需要時,該標準可能并沒有直接規(guī)定對 來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼此相同部分的多少或所占比例 的要求,但該標準的實際效果等同于也包含了這種要求;或者說,如果來自不 同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼此相同部分的多少或所占比例達不到 某種程度,該標準的其他類型的要求或指標(例如利用矢量空間模型方法計算 來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容的彼此相關(guān)度的數(shù)值)也不可能滿 足或達到。必要時,該標準所指的彼此相同部分可以忽略彼此某些詞的前綴或后綴或 者彼此某些虛詞或量詞或數(shù)詞或非實詞或者標點或空格的有無或差別。本技術(shù)的下一步需要[iv〗按照iiil所述對不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的判定標準,確定這些文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容相 互之間是否屬于相似,并根據(jù)這些文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容相互之間 是否屬于相似對這些文本進行分類,并以其分類的相同或不同對這些文本進行 處理。例如,已確定不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容的同樣劃取范圍是關(guān) 鍵詞査詢項后面5個詞,可以由程序規(guī)定或默認或由査詢者指定如果來自不 同文本的所述關(guān)鍵詞査詢項后面連續(xù)的5個鄰近詞中,不同文本彼此相同的詞 至少為4個或所占比例不低于80%,這些文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容相互之間則屬于相似,這些文本則屬于同一彼此關(guān)鍵詞査詢項鄰近內(nèi)容相似的類 別否則相關(guān)文本則不屬于這一個彼此關(guān)鍵詞査詢項鄰近內(nèi)容相似的類別。舉 例來說,如果關(guān)鍵詞査詢項是"開發(fā)區(qū)",那么包含"…開發(fā)區(qū)正在發(fā)展科學(xué)技 術(shù)產(chǎn)業(yè)…"的文本與包含"…開發(fā)區(qū)科學(xué)發(fā)展以及技術(shù)產(chǎn)業(yè)…"的文本以及包 含"*"開發(fā)區(qū)產(chǎn)業(yè)發(fā)展與科學(xué)技術(shù)正在*""的文本屬于同一個相似類別;而包 含"…開發(fā)區(qū)正在發(fā)展高新技術(shù)產(chǎn)業(yè)…"的文本與包含"…開發(fā)區(qū)高新技術(shù)促 進產(chǎn)業(yè)發(fā)展…"的文本屬于另一個相似類別?!阏f來,按以上原則,可以將含有同樣關(guān)鍵詞查詢項的大量不同文本, 分成許多不同的類別,某個類別之中的不同文本的關(guān)鍵詞査詢項鄰近內(nèi)容各有 其特定的符合規(guī)定的相同部分。這對我們進一步的處理或檢索十分有利。在霈要的情況下,規(guī)定不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相 似的判定標準時,也可以參考還可以同時依據(jù)或參考其他評估因素或原則中的 一個或多個。例如,要求考察來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否完全相同。 若是,相似性程度最高,屬于相似或相同。此時,實際上是在比較關(guān)鍵詞査詢 項的鄰近詞或整個鄰接詞段的異同。這樣使對文本的分類更為嚴格。前面提到 的包含的關(guān)鍵詞査詢項是"開發(fā)區(qū)"的屬于同一相似類別的幾個文本,它們的 關(guān)鍵詞査詢項鄰近內(nèi)容就不能算是完全相同。或者,還要求考察來自不同文本的所述關(guān)鍵詞查詢項鄰近內(nèi)容中彼此相同 部分分別在原文中相對于原關(guān)鍵詞査詢項的前后位置或距離的差別大小,該差 別越小,相關(guān)鄰近內(nèi)容彼此越相似。例如,可以規(guī)定同樣的詞在不同文本中分布位置的位置差平均不能超過 3個字的寬度。這樣,我們可以判定包含"…開發(fā)區(qū)高新技術(shù)產(chǎn)業(yè)的發(fā)展過程…" 的文本與包含","開發(fā)區(qū)促進高新技術(shù)產(chǎn)業(yè)發(fā)展…"的文本屬于一個類別,而 認為包含"…開發(fā)區(qū)產(chǎn)業(yè)發(fā)展過程中髙新技術(shù),""的文本不屬于這一類別,因 為同樣的詞在不同文本中分布位置差別過大,位置差平均超過了 3個字的寬度。我們或者還可以考慮來自不同文本的所述關(guān)鍵詞查詢項鄰近內(nèi)容中各個彼 此相同部分分別在原文中的順序的差別大小。該差別越小,相關(guān)鄰近內(nèi)容彼此 越相似。例如,可以規(guī)定相同詞之間排列順序相同的至少要超過二分之一。這樣 可以判定包含"…開發(fā)區(qū)正在發(fā)展科學(xué)技術(shù)產(chǎn)業(yè)…"的文本與包含"*"開發(fā)區(qū)科學(xué)技術(shù)產(chǎn)業(yè)的發(fā)展狀況…"的文本屬于同一個相似類別,因為它們之間多數(shù) 相同詞的排列順序相同;而包含"…開發(fā)區(qū)技術(shù)產(chǎn)業(yè)發(fā)展與科學(xué)管理…"的文 本因與前者詞序差別較大,超過二分之一的相同詞的排列順序不相同,因而不 屬于該類別。也可以同時考慮來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼此相同部 分分別在原文中與原關(guān)鍵詞査詢項的距離(可以用相隔的字數(shù)來衡量)的大小。 該距離越小,相似程度越高。例如在相似比較時,可以規(guī)定彼此相同部分分別 在原文中與原關(guān)鍵詞査詢項的距離(可以用相隔的字數(shù)來衡量),平均起來不超 過關(guān)鍵詞査詢項鄰近內(nèi)容劃定長度(字數(shù))的一半或其他比值,才屬于相似。這是本發(fā)明內(nèi)容的又一個可以使用的突出特點,按照這個方法,可以判定 那些在原文本中距離相應(yīng)關(guān)鍵詞査詢項很遠的相同元素或相同部分對不同文本 核心內(nèi)容的相似性的貢獻很小,甚至可以忽略。這與本發(fā)明限制關(guān)鍵詞鄰近內(nèi) 容的劃取范圍的特征是一致的。霈要時,也可以利用十分流行的矢量(或向量)空間模型的計算方法為來 自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容的彼此相關(guān)度(相^l程度)給出的數(shù) 值的大小來影響判定標準。應(yīng)用此方法霈要將每個相關(guān)關(guān)鍵詞査詢項鄰近內(nèi)容 看作為由各種詞或字對應(yīng)的分矢量(向量)合成的合矢量,再計算不同文本的 關(guān)鍵詞査詢項鄰近內(nèi)容相應(yīng)合矢量之間的相關(guān)度,達到規(guī)定的數(shù)值,相關(guān)內(nèi)容 屬于相似。顯然,不同的關(guān)鍵詞査詢項鄰近內(nèi)容必須含有一定數(shù)量相同的詞, 相應(yīng)的合矢量才可能具有一定的相關(guān)度。因此,對不同的關(guān)鍵詞査詢項鄰近內(nèi) 容相應(yīng)合矢量之間的相關(guān)度的要求,實際上就包含了對來自不同文本的所述關(guān) 鍵詞査詢項鄰近內(nèi)容中彼此相同部分的多少或所占比例的要求。矢量(或向量) 空間模型的相似性計算方法的具體內(nèi)容在第6990628號美國專利和中國專利申 請200610072588.7和其他許多文獻中得到描述,為已有公知技術(shù)。也可以對以上評估因素中的一個或多個或其他因素加權(quán),給出一種或多種 目標函數(shù)(objective Ainction):例如一種目標函數(shù)值可以表示為F(x,,x2*"x ),在較為簡單的例子中,可以令F(x,,xn"F,(x,)+F2(x2)+……+F"(x );其中,X,,X2,……Xn分別為規(guī)定不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬 于相似的判定標準時可以同時依據(jù)或參考6^#@素。可以規(guī)定該函數(shù)值的應(yīng)有的相應(yīng)范圍,以得出來自不同文本的所述關(guān)鍵詞 査詢項鄰近內(nèi)容是否屬于相似的判定。對于—個含有多個同樣關(guān)鍵詞查詢項的文本,可以隨機^fe定或逸定其中相似性程度更高的關(guān)鍵詞査詢項鄰近內(nèi)容進行處理也可以將其分割成若干部分 分別進行處理。對不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似進行判定時,顯然, 對于同一批文本來說,所述相似判定的要求越高,彼此都相似的文本數(shù)目可能 會越少,反之,相似的文本數(shù)目可能會越多。如果所述的關(guān)鍵詞査詢項是由可以不相連接的2個或2個以上部分構(gòu)成, 可以僅僅對文本中的一個部分的鄰近內(nèi)容進行相似性比較或評估或判定,也可 以對文本中的多個部分的鄰近內(nèi)容分別進行相似性比較或評估,再將分別比較 或評估的結(jié)果綜合起來進行評估或判定。按照對多個文本的所述關(guān)鍵詞鄰近內(nèi)容是否屬于相似的判定對這些文本進 行分類后,還可以進行更多的處理。可以令相應(yīng)文本或文本的部分內(nèi)容在計算機或計算機可讀介質(zhì)或存儲器或 數(shù)據(jù)庫中具有相同或不同的分布位置或存儲方式,或者劃分為相同或不同的子 集,或者得到相同或不同的子集標記,或者使得其在數(shù)據(jù)庫的索引具有相同或不 同的標記或索引項,或者具有相同或不同的編排方式,或者在交互界面具有相 同或不同的顯示方式或位置,或者允許至少部分子集各有一個或多個題錄或摘 要或文本或子集內(nèi)文本相似的關(guān)鍵詞査詢項鄰近內(nèi)容或其中的相同部分進行跨 子集組合或排序或在交互界面展示。例如可以劃分相似子集具體來說,可以將多個文本或文本部分內(nèi)容劃分 為多個相似子集,同一相似子集里的各個文本或文本部分內(nèi)容的所述關(guān)鍵詞查 詢項鄰近內(nèi)容屬于相似。可以將同一相似子集里的文本或文本部分內(nèi)容的所述 關(guān)鍵詞査詢項鄰近內(nèi)容的相似部分或相同成分,作為該子集的標記或名稱,或 者作為它們在數(shù)據(jù)庫或界面的索引的標記或索引項。例如前面提到的包含"… 開發(fā)區(qū)正在發(fā)展科學(xué)技術(shù)產(chǎn)業(yè)…"的文本與包含"…開發(fā)區(qū)科學(xué)發(fā)展以及技術(shù) 產(chǎn)業(yè)…"的文本以及包含"…開發(fā)區(qū)產(chǎn)業(yè)發(fā)展與科學(xué)技術(shù)正在…"的文本屬于 同一個相似子集,該子集的標記可以是"科學(xué),技術(shù),產(chǎn)業(yè),發(fā)展"。這里所述的文本部分內(nèi)容可以是含有所述關(guān)鍵詞鄰近內(nèi)容的不完整的文本 或文本摘要或題錄或語句等信息。同一相似子集的文本,更有可能對應(yīng)著査詢者對某個方向相近的興趣,更 有助于檢索。也可以劃分相同核心子集也就是,可以將多個文本或文本部分內(nèi)容劃分 為多個相同核心子集,要求同一相同核心子集里的各個文本或文本部分內(nèi)容的 所述關(guān)鍵詞査詢項鄰近內(nèi)容(顯然除了所劃分的鄰近范圍之外部分)都相同。例如,所述關(guān)鍵詞査詢項鄰近內(nèi)容的同樣劃取范圍規(guī)定為"開發(fā)區(qū)"后面2個詞,那么包含"'"開發(fā)區(qū)產(chǎn)業(yè)發(fā)展與科學(xué)技術(shù)正在…"的文本與包含 開發(fā)區(qū)產(chǎn)業(yè)發(fā)展的過程與…"的文本以及包含"…開發(fā)區(qū)產(chǎn)業(yè)發(fā)展的規(guī)劃…" 的文本以及包含"…開發(fā)區(qū)產(chǎn)業(yè)發(fā)展速度令人滿意…"的文本屬于同一個相同 核心子集,該子集的標記可以是"產(chǎn)業(yè)發(fā)展"或"開發(fā)區(qū)產(chǎn)業(yè)發(fā)展"。對得到的相似子集和相同核心子集還進一步進行相似子集細分即在劃分 相似子集或劃分相同核心子集.的基礎(chǔ)上,用關(guān)于關(guān)鍵詞査詢項鄰近內(nèi)容是否屬 于相似的更嚴格判定標準或更多的判定因素,(例如判定因素中新增加對于相同 的詞的排列順序的要求,或者新增加對于相同的詞與關(guān)鍵詞査詢項平均距離的 要求或其他要求,或者由原來忽略虛詞的差別改為不忽略其差別)將已有的任 一個相似子集或相同核心子集中的多個文本或文本部分內(nèi)容劃分為多個下一級 相似程度更高的子集。必要時,也可以進行相似子集再分也就是可以在劃分相似子集或劃分相 同核心子集.的基礎(chǔ)上,對已有的一個相似子集或相同核心子集里的多個文本或 文本部分內(nèi)容中原有的關(guān)鍵詞査詢項鄰近內(nèi)容劃取范圍之外的一定鄰近范圍的 新內(nèi)容再進行相似性比較,根據(jù)其相似與否,將這些文本或文本部分內(nèi)容劃分 為多個下一級相似子集。例如,原來劃分相似子集時,僅對不同文本關(guān)鍵詞査 詢項鄰近的4個詞的內(nèi)容進行比較,得到了某個具有300個文本的相似子集; 這些文本各自的關(guān)鍵詞査詢項鄰近的第5至第7個詞的內(nèi)容未必都屬于相似或 相同,因而,如果按照它們各自的關(guān)鍵詞査詢項鄰近的第5至第7個詞的內(nèi)容 是否相似或相同再進行比較,又可以劃分出若干不同的下一級子集。霜要時可以多次將相同核心子集的再分或相似子集的細分進行下去。顯然,在其他因素考察結(jié)果相同的情況下,相關(guān)的多個文本所述的關(guān)鍵詞 査詢項鄰近內(nèi)容的劃取范圍越大,同一相似子集的文本之間相似程度越高。處理相關(guān)文本時也可以安排不相似序列可以從多個文本中安排出不相似 序列,同一不相似序列里的文本或文本部分內(nèi)容的所述關(guān)鍵詞査詢項鄰近內(nèi)容可以全部或基本上都不屬于相似;或者同一不相似序列里的全部或多數(shù)文本或 文本部分內(nèi)容中,沒有一個文本或文本部分內(nèi)容的關(guān)鍵詞査詢項鄰近內(nèi)容,與 —個或規(guī)定數(shù)目以上的其他文本或文本部分內(nèi)容的關(guān)鍵詞査詢項鄰近內(nèi)容屬于 相似或相同。必要時,也可以包括安排核心內(nèi)容不相同序列可以從多個文本中安排 出核心內(nèi)容不相同序列,同一個核心內(nèi)容不相同序列里的文本或文本部分內(nèi)容 的所述關(guān)鍵詞査詢項鄰近內(nèi)容可以全部或基本上都屬于不完全相同;或者同一 個核心內(nèi)容不相同序列里的全部文本或多數(shù)文本或文本部分內(nèi)容中,沒有一個 文本或文本部分內(nèi)容的關(guān)鍵詞査詢項鄰近內(nèi)容,與一個或規(guī)定數(shù)目以上的其他文本或文本部分內(nèi)容的關(guān)鍵詞査詢項鄰近內(nèi)容屬于完全相同。本發(fā)明的處理方法也可以包括目錄編組或安排不同子集相似內(nèi)容的序列 可以將各個劃分的相似子集的各自文本在所述關(guān)鍵詞査詢項鄰近內(nèi)容中共有的 相似或相同的內(nèi)容或者部分內(nèi)容作為條目,集合成目錄或序列,或者連同各個 相似子集的下一級子集的各自文本在所述關(guān)鍵詞査詢項鄰近內(nèi)容中共有的相似 或相同的內(nèi)容或部分內(nèi)容作為下一級條目,集合成樹狀目錄。例如,在圖7中,我們用K表示關(guān)鍵詞査詢項,用大寫字母代表文本中鄰 近內(nèi)容的詞,我們給出了含有K的多個文本的兩級相似子集(相似子集細分) 標志或條目的樹狀目錄實例的示意圖。其中,文本中關(guān)鍵詞査詢項1級鄰近范圍的長度為3個詞(關(guān)鍵詞査詢項 后面第l一3詞),2級鄰近范圍的長度為1級鄰近范圍之后3個詞(關(guān)鍵詞査 詢項后面第4一6詞)。括號里面為相應(yīng)的相似子集的各自文本在所述關(guān)鍵詞査 詢項鄰近內(nèi)容中分別共有的3個詞,作為目錄中的子集標志或條目,圖7中左 惻的代表1級子集標志,右側(cè)的的代表2級子集標志,小號數(shù)目字表示相應(yīng)子 集包含的文本數(shù)量。顯然,類似的目錄可以幫助査詢者更迅速地找到感興趣的子集和文本。 需要時,本發(fā)明的處理方法可以包括安排代表性序列可以從各個相似 子集或相同核心子集中各取出一個或多個文本,將這些文本或文本部分內(nèi)容組 成序列。以上幾種處理得到的序列展現(xiàn)在交互界面時,都可以幫助査詢者在較小的 篇幅里,看到不重復(fù)的或較少重復(fù)的各種不同關(guān)鍵詞核心內(nèi)容的概貌,并在有 興趣時,再將相關(guān)內(nèi)容展開。本發(fā)明的處理方法也允許序列再壓縮即可以對已有的安排的不相似序列 中的,或者代表性序列中的,或者目錄編組或者不同子集相似內(nèi)容的序列的多 個文本或文本部分內(nèi)容的所述關(guān)鍵詞査詢項鄰近內(nèi)容,用較為寬松的是否屬于 相似的判定標準,進行較為寬松的相似性比較,在已有序列中產(chǎn)生多個文本或 文本部分內(nèi)容的新的相似子集或不相似序列或更精煉的代表性序列或目錄編 組。例如,我們在產(chǎn)生已有的某種不相似序列時所依據(jù)的對不同文本的關(guān)鍵詞 査詢項鄰近內(nèi)容屬于相似的判定標準,要求關(guān)鍵詞査詢項鄰近的8個詞中有至 少7個與另一文本對應(yīng)的鄰近內(nèi)容相同,該序列含有互不相似的文本摘要560 條,數(shù)目過多,難以通覽;如果我們按照"關(guān)鍵詞査詢項鄰近的8個詞內(nèi)容中 有至少6個與另一文本摘要對應(yīng)的關(guān)鍵詞査詢項鄰近內(nèi)容的詞相同,即屬于相 似"的較為寬松標準,對這560條文本摘要再進行一次"安排不相4以序列"的 處理,將得到一個數(shù)目大為減少的很可能只有2百余條摘要的新序列。盡管本發(fā)明的方法的效率比已有的網(wǎng)頁相似性分析分類技術(shù)大為提高,但 如果面臨的同關(guān)鍵詞査詢項網(wǎng)頁是數(shù)以百萬計的,相似比較的過程涉及的計算 量仍然太大。為此,本發(fā)明又提出了突破性的處理方法,可供選用這就是相同核心劃分再聚合首先安排核心內(nèi)容不相同序列,然后再對得 到的序列中的多個文本或文本部分內(nèi)容的所述關(guān)鍵詞査詢項鄰近內(nèi)容,用是否 厲于相似的判定標準(比核心內(nèi)容是否相同的判定標準寬松)進行相似性比較, 在已有序列中產(chǎn)生多個文本的或文本部分內(nèi)容的新的相似子集或不相似序列或 更精煉的代表性序列或目錄編組。舉例來說,首先得到多個文本摘要的核心內(nèi)容不相同序列,其中部分摘要 分別為".KXYZ…、…KPQR."、…KMNL…、…KMLN"、…KXZY…、."KYXZ."、 '"KZYX…、…KLMN…、…KRPQ."、…KLNM…、…KRQP"., 其中K代表各個文本共同具有的關(guān)鍵詞査詢項,其他字母各代表一個詞。如果對這個序列的各個摘要進行關(guān)鍵詞査詢項鄰近內(nèi)容再進行相似比較(標 準是"各個詞分別彼此相同,順序可以不同",就可以得到新的包含 "'KXYZ'"、 "'KXZY…、…KYXZ…、…KZYX"'的相似子集, 包含"'KLMN…、'"KLNM'"、 '"KMNL…、…KMLN-的相似子集, 以及包含'"KPQR…、…KRPQw、…KRQP."的相似子集;也可以得到一個新的不相似序列,上述原來序列成員僅僅剩下分別包含著 …KXYZ…、…KLMN…、…KPQR…的幾個文本摘要;或者得到包含著"(X, Y, Z)"、 "(L, M, N)"、 "(P, Q, R)" 等子集標記(或名稱)的目錄。這種方法得到的序列或目錄編組結(jié)果,與一開始就采用同樣較為寬松的相 似判定標準進行安排不相似序列處理的結(jié)果基本上是相同的,然而計算量可能 會減少幾個數(shù)量級。需要的話,可以進行界面展示與操作可以令包括處理方式在內(nèi)的處理過 程和結(jié)果的指定的有關(guān)信息在交互界面顯示,允許査詢者在交互界面進行有關(guān) 處理的選擇或指示,可以利用光標點擊或鍵盤選擇或指示,可以根據(jù)霈要,使 相應(yīng)的目錄或序列或子集中的子集或條目或項目或文本或文本部分內(nèi)容或摘要 或題錄或詞語對應(yīng)的的更詳細內(nèi)容,或者下一級的子集或序列的目錄或更詳細 內(nèi)容在交互界面展示。例如,在呈現(xiàn)在交互界面的各個相似子集名稱目錄或不相似序列中査詢者 找到了感興趣的內(nèi)容,可以點擊相應(yīng)的名稱或條目,使相應(yīng)相似子集或相應(yīng)條 目所在子集的更詳細的目錄或內(nèi)容或文本呈現(xiàn)或鏈接出來。為了方便查詢者選擇,本方法還可以允許標注數(shù)目可以允許所述的序列 或目錄或條目或文本或通錄或摘要實例中或者在它們所包含的關(guān)鍵詞査詢項鄰 近內(nèi)容附近,具有其相應(yīng)的并列子集數(shù)目或下級子集數(shù)目或文本數(shù)目或者相關(guān) 詞或詞段所在子集的并列子集數(shù)目或所含的下級子集數(shù)目或文本數(shù)目的提示。耱要的話還應(yīng)該具有確定排序的方法,實際上,對于上述目錄或序列或子 集所含有的多個元素中的某一個元素的排列或顯示噸序或位置可以是隨機的, 也可以部分或完全取決于下列其中某一個或多個因素-其所含或所在文本的佩奇鏈接值的大小或點擊率的高低或關(guān)鍵詞出現(xiàn)率的高低,或者該子集的下級子集數(shù)目或下屬文本數(shù)目的多少或者該子集點擊率的高 低或者該子集的文本佩奇鏈接值的平均數(shù)值的大小,或者該元素所在子集的下級子集數(shù)目或下屬文本數(shù)目的多少或者所在子集 點擊率的高低或者所在子集的文本佩奇鏈接值的平均數(shù)值的大小,或者該子集的佩奇鏈接值最高的文本或另外的文本實例的佩奇鏈接值的大小,或者該子集的點擊率最高的或關(guān)鍵詞出現(xiàn)率最高的文本或另外的文本實例 的點擊率或關(guān)鍵詞出現(xiàn)率的高低,或者該元素或相關(guān)子集內(nèi)的相關(guān)文本在其他搜索網(wǎng)站或檢索系統(tǒng)搜索結(jié)果 中的排序,或者有關(guān)元素的出資人相關(guān)付費或競價的高低,或者相關(guān)元素的詞或字的拼寫或拼音的字母順序或筆劃順序,或者文本的來源網(wǎng)站或鏈接網(wǎng)站或鏈接網(wǎng)頁或單位或人的評分,或者相關(guān)文本收錄的時間先后或新舊,或者是否屬于某一級的同一子集,或者通過一種目標函數(shù)值來決定,目標函數(shù)值取決于一個或多個變量的加 權(quán)值,該目標函數(shù)的部分或全部變量分別代表上述所列其中某一個或多個因素。 例如一個目標函數(shù)值可以表示為F(yn),例如可以令F(y,,y,%)= F,(y,)+F2(y,)+……+F (y》; 其中,y, ,y2,……^分別為前文發(fā)明內(nèi)容部分中所提到的決定具體排序位置的某一個或多個因素(變量)或其他因素。由于已有技術(shù)中(如US6285999專利)有許多具體排序處理方法可以參考,此處不再詳述。霈要指出,必要時以上方式中的一種或多種可以組合運用或反復(fù)運用。 本處理方法還部分地具體體現(xiàn)在下面搜索系統(tǒng)或檢索系統(tǒng)的實施方式中。圖1所示實施例A為一個執(zhí)行本發(fā)明的電子文本處理方法的計算機數(shù)據(jù)系 統(tǒng)的例子一互聯(lián)網(wǎng)搜索引擎系統(tǒng)。它包括設(shè)在帶有存儲器6和處理器7的服 務(wù)器5上的搜索引擎8,該搜索引擎8通過互聯(lián)網(wǎng)的通訊網(wǎng)絡(luò)4與帶有交互界 面2的客戶機3連接該搜索引擎8具有數(shù)據(jù)庫9、査詢器ll和關(guān)鍵詞鄰近內(nèi) 容比較處理裝置10或模塊,并且與數(shù)據(jù)采集器12與索引構(gòu)造器13連接數(shù)據(jù) 采集器12為數(shù)據(jù)庫9的文本庫從互聯(lián)網(wǎng)或其他信息源搜集和增添文本,索引構(gòu) 造器13對文本庫的文本分析得到文本索引#^給數(shù)據(jù)庫9的關(guān)鍵詞索引庫;實施例A的客戶機3上的客戶機應(yīng)用程序瀏覽器(微軟公司的Internet Explorer)允許用戶1通過通訊網(wǎng)絡(luò)4從服務(wù)器5檢索HTML文檔(包括Web 表單〉??蛻魴C3上的交互界面(UI) 2允許用戶1利用監(jiān)視器、鍵盤或鼠標與 檢索到的Web表單交互,提交搜索請求,作出選擇和接收搜索結(jié)果。實施例A的搜索方式可以參看圖4所示的流程框圖工作開始41,查詢器接收用戶1的關(guān)鍵詞査詢項請求42,關(guān)鍵詞鄰近內(nèi)容 比St處理裝置10對從數(shù)據(jù)庫9得到的含有該關(guān)鍵詞査詢項的文本,按照預(yù)定的 用戶默認的所述關(guān)鍵詞査詢項鄰近內(nèi)容的同樣劃取范圍(例如關(guān)鍵詞前2+后3 詞),按照選定的或預(yù)定的標準對它們的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相 似進行判定。例如,此處的預(yù)定的判定標準是該范圍的5個詞中有4個或5 個與對比文本相同,視為相似,以此進行比較分類43。如果査詢者需要的話, 也可以在該判定標準中增加對相同詞的順序的差別的限度的要求,或增加對相 同詞的與關(guān)鍵詞査詢項的距離的限度的要求,或其他在前述的處理方法中提到 的要求或參考因素。在分類產(chǎn)生子集(劃分相似子集或劃分相同核心子集)的基礎(chǔ)上,關(guān)鍵詞 鄰近內(nèi)容比較處理裝置10將給出并顯示各個相似子集或相同核心子集的目錄或 ^^表性序列44。需要時,該關(guān)鍵詞鄰近內(nèi)容比較處理裝置10也可以安排和顯 示不相似序列、安排核心內(nèi)容不相同序列。此處,各個子集在目錄里的標志例 如可以是是該子集各文本關(guān)鍵詞鄰近內(nèi)容中都擁有的同樣4個詞。閱讀子集標志目錄或代表性序列,用戶很容易確定興趣所在,可以點擊展 開相關(guān)內(nèi)容和使相關(guān)文本顯示45,或者因為目錄太長進行再聚合(序列再壓縮 或相同核心劃分再聚合)顯示操作,或因為有興趣的子集的文本數(shù)量太大而進 行細分(相^l子集細分)顯示操作或再分(相似子集再分)顯示操作或下級子 集顯示操作始,即把細分或再分出來的下級子集的名稱目錄或各下級子集的代 表性序列顯示出來。如此進行類似操作,或返回前面步驟48或返回47到開始 41。在上述處理過程中,也可以標注相關(guān)條目或文本數(shù)目、確定序列排序。另一個搜索引擎實施例B ,采用了獨特的高效相似性比較處理方法一前面 所述的"相同核心劃分再聚合"處理方法。參看圖5:搜索引擎實施例B的關(guān)鍵詞鄰近內(nèi)容比較處理裝置10得到同一個關(guān)鍵詞 査詢項的大量文本51后,例如確定關(guān)鍵詞査詢項鄰近內(nèi)容的劃取范圍為關(guān)鍵詞 "前2+后5詞",(52),在進行文本之間的相似性評估與判定53時,采用了 "該內(nèi)容必須完全相同"的要求,劃分出數(shù)目較多的相同核心子集54,因而, 得到的"不同核心內(nèi)容的代表序列"55或子集目錄的篇輻較長。實標上,這是關(guān)鍵詞査詢項鄰近內(nèi)容(7個詞長)既不遺漏也不重復(fù)的代 表序列,包括關(guān)鍵詞在內(nèi)的8個詞長的核心內(nèi)容一般可以讓査閱者判斷有無興趣。該代表序列的條目數(shù),可以比原來常常數(shù)以百萬的條目數(shù)下降幾個數(shù)量級, 使得通讀關(guān)鍵詞搜索結(jié)果變?yōu)榭赡?。如果面對?shù)百個結(jié)果仍然感到困難,需要選擇"寬松的相似判定標準"56, 讓這些序列成員或目錄的條目再進行相似組合,進行相同核心劃分再聚合57, 得到子集數(shù)量減少數(shù)倍或數(shù)十倍的相似子集,以及相應(yīng)的較少的"精煉序列或 目錄編組"并存儲顯示58,供査詢者選用。需要時,査詢者可以通過點擊光標, 展開相關(guān)子集的內(nèi)容或文本的內(nèi)容。圖2所示為另一個實施例C,是一種數(shù)據(jù)檢索系統(tǒng),由數(shù)據(jù)處理單元23和 與之相連的輸入單元21 (由鍵盤、鼠標等組成)、輸出單元22 (由顯示屏、打 印機等組成)以及文本數(shù)據(jù)庫26等部分組成,其中輸入單元21和輸出單元22 共同構(gòu)成査詢者與該系統(tǒng)溝通的交互界面,該數(shù)據(jù)處理單元23包含存儲器24 和關(guān)鍵詞鄰近內(nèi)容處理裝置25。該數(shù)據(jù)處理單元23可以通過輸入單元21接收 査詢者提出的關(guān)鍵詞査詢,從文本數(shù)據(jù)庫26或互聯(lián)網(wǎng)27收集有關(guān)數(shù)據(jù),通過 其包含的關(guān)鍵詞鄰近內(nèi)容處理裝置25對得到的含有同樣關(guān)鍵詞査詢項的大量文 本進行前述的分類和處理,將檢索結(jié)果送輸出單元22。圖6所示為該數(shù)據(jù)檢索系統(tǒng)實施例C的處理操作流程框圖。具體工作過程 如下-檢索系統(tǒng)工作開始61,用戶輸入關(guān)鍵詞査詢項請求62,關(guān)鍵詞鄰近內(nèi)容比 較處理裝置25從存儲器24或文本數(shù)據(jù)庫26得到的含有該關(guān)鍵詞査詢項的文 本,按照預(yù)定的用戶默認的所述關(guān)鍵詞査詢項鄰近內(nèi)容的同樣劃取范圍63 (例 如關(guān)鍵詞査詢項后5詞),按照選定的或預(yù)定的標準對它們的所述關(guān)鍵詞鄰近內(nèi) 容是否屬于相似進行判定(核心內(nèi)容比較)。此實施例的預(yù)定的判定標準是該 范圍的5個詞中有4個或5個與對比文本相同,視為相似,以此進行核心內(nèi)容 比較64。如果査詢者需要的話,也可以在該判定標準中增加對相同詞的順序的 差別的限度(如一半以上詞的順序相同)的要求,或其他在前述的處理方法中 提到的要求或參考因素。在比較分類的基礎(chǔ)上,關(guān)鍵詞鄰近內(nèi)容比較處理裝置25將產(chǎn)生各個相似子 集或相同核心子集65,或者進一步安排不相似序列或安排核心內(nèi)容不相同序列 或給出并顯示它們的目錄或代表性序列66。需要時,如有興趣的子集的文本數(shù) 量太大,該關(guān)鍵詞鄰近內(nèi)容比較處理裝置25也可以進行相似子集細分或相似子 集再分67操作,并安排和顯示相應(yīng)的不相似序列或核心內(nèi)容不相同序列66。此實施例中,各個子集在目錄里的標志例如可以是相應(yīng)子集各文本關(guān)鍵詞鄰近 內(nèi)容中都擁有的同樣4或5個詞。本實施例也可以按預(yù)定或選定標準為上述內(nèi) 容標注相應(yīng)的數(shù)目或確定排序69。閱讀子集標志目錄或代表性序列,用戶很容易確定興趣所在,可以進行界 面展示與操作68,展開相關(guān)內(nèi)容和使相關(guān)文本顯示71,或者因為目錄太長進行 再聚合(序列再壓縮或相同核心劃分再聚合70)操作,并將得到的子集的名稱 目錄或各子集的代表性序列顯示出來。如此進行類似操作,或返回并多次進行前面步驟至文本顯示71或進行返回 72操作到開始71,以完成或再次進行檢索査詢工作。在上述處理過程中,都隨 時可以標注相關(guān)條目或文本數(shù)目、確定序列排序69。以上實施例給出的技術(shù)特征都是提示性的,不允許用來限制本發(fā)明包括的 范圍。
權(quán)利要求
1、一種計算機運用的對多個電子文本進行處理的方法,包括[i]獲得多個含有同樣關(guān)鍵詞查詢項的電子文本;[ii]確定各個文本內(nèi)容中所述關(guān)鍵詞查詢項鄰近內(nèi)容的同樣劃取范圍,所述關(guān)鍵詞查詢項鄰近內(nèi)容為文本內(nèi)容中所述關(guān)鍵詞查詢項之外的與之鄰近的劃取范圍內(nèi)的內(nèi)容;[iii]規(guī)定不同文本的所述關(guān)鍵詞查詢項鄰近內(nèi)容是否屬于相似的判定標準,該標準至少包括或間接包含對來自不同文本的所述關(guān)鍵詞查詢項鄰近內(nèi)容中彼此相同部分的多少或所占比例的要求,其中相同部分可以是指彼此相同的字詞或詞根或字符或詞組;[iv]按照[iii]所述對不同文本的所述關(guān)鍵詞查詢項鄰近內(nèi)容是否屬于相似的判定標準,確定這些文本的所述關(guān)鍵詞查詢項鄰近內(nèi)容相互之間是否屬于相似,并根據(jù)這些文本的所述關(guān)鍵詞查詢項鄰近內(nèi)容相互之間是否屬于相似對這些文本進行分類,并以其分類的相同或不同對這些文本進行處理;所述的電子文本或文本指的可以是計算機或數(shù)據(jù)庫或信息存貯裝置或互聯(lián)網(wǎng)或服務(wù)器或者搜索引擎的數(shù)據(jù)庫或數(shù)據(jù)處理器等裝置中的文件、文本或網(wǎng)頁或摘要或題錄或標題或索引或章節(jié)或段落或包含文字或字符內(nèi)容的信息。
2、 按照權(quán)利要求1所述的方法,其中[iii]對所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬 于相4以的判定標準,還可以依據(jù)或參考以下評估因素或原則中的一個或多個-來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否完全相同;來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼此相同部分分別在原文中 相對于原關(guān)鍵詞査詢項的前后位置或距離的差別大??;來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中各個彼此相同部分分別在原 文中的瀬序的差別大小;來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼此相同部分分別在原文中 與原關(guān)鍵詞査詢項的距離的大小;利用矢量空間模型的計算方法為來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi) 容的彼此相似程度給出的數(shù)值的大小或者對以上評估因素中的一個或多個或其他因素加權(quán),給出一種或多種目 標函數(shù)(objective foncti加)以得出來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容的相應(yīng)的相似性程度或得出是否屬于相似的判定。
3、 按照權(quán)利要求1所述的方法,其中上述[iv]所述的處理,可以包括-令相應(yīng)文本或文本的部分內(nèi)容具有相同或不同的分布位置或存儲方式,或 者劃分為相同或不同的子集,或者得到相同或不同的子集標記,或者使得其在數(shù) 據(jù)庫的索引具有相同或不同的標記或索引項,或者具有相同或不同的編排方式, 或者在交互界面具有相同或不同的顯示方式或位置,或者允許至少部分子集各 有一個或多個題錄或摘要或文本或子集內(nèi)文本的相似的關(guān)鍵詞査詢項鄰近內(nèi)容 或其中的相同部分迸行跨子集組合或排序或在交互界面展示。
4、 按照權(quán)利要求l所述的方法,其中-上述[iv]所述的處理,可以包括劃分相似子集可以將多個文本或文本 部分內(nèi)容劃分為多個相似子集,同一相似子集里的各個文本或文本部分內(nèi)容的 所述關(guān)鍵詞査詢項鄰近內(nèi)容屬于相似。
5、 按照權(quán)利要求l所述的方法,其中上述[iv所述的處理,可以包括劃分相同核心子集可以將多個文本或 文本部分內(nèi)容劃分為多個相同核心子集,要求同一相同核心子集里的各個文本 或文本部分內(nèi)容的所述關(guān)鍵詞査詢項鄰近內(nèi)容都相同。
6、 按照權(quán)利要求1或4或5所述的方法,其中上述[iv所述的處理,可以包括相似子集細分可以在劃分相似子集或劃 分相同核心子集的基礎(chǔ)上,用關(guān)于關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的更嚴 格判定標準或更多的判定因素,將已有的任一個相似子集或相同核心子集中的 多個文本或文本部分內(nèi)容劃分為多個下一級相似程度更高的子集。
7、 按照權(quán)利要求1或4或5所述的方法,其中上述〖iv]所述的處理,可以包括相似子集再分可以在劃分相似子集或 劃分相同核心子集.的基礎(chǔ)上,對已有的一個相似子集或相同核心子集里的多個 文本或文本部分內(nèi)容中原有的關(guān)鍵詞査詢項鄰近內(nèi)容劃取范圍之外的一定鄰近 范圍的新內(nèi)容再進行相似性比較,根據(jù)其相似與否,將這些文本或文本部分內(nèi) 容劃分為多個下一級相似子集。
8、 按照權(quán)利要求1所述的方法,其中上述iv]所述的處理,可以包括安排不相似序列可以從多個文本中安排 出不相似序列,同一不相似序列里的不同文本或文本部分內(nèi)容的所述關(guān)鍵詞查詢項鄰近內(nèi)容可以全部或基本上都不屬于相似;或者同一不相似序列里的全部 或多數(shù)文本或文本部分內(nèi)容中,沒有一個文本或文本部分內(nèi)容的關(guān)鍵詞査詢項 鄰近內(nèi)容,與一個或規(guī)定數(shù)目以上的其他文本或文本都分內(nèi)容的關(guān)鍵詞查詢項 鄰近內(nèi)容屬于相^l或相同。
9、 按照權(quán)利要求1所述的方法,其中上述iv]所述的處理,可以包括安排核心內(nèi)容不相同序列可以從多個文 本中安排出核心內(nèi)容不相同序列,同一個核心內(nèi)容不相同序列里的不同文本或 文本部分內(nèi)容的所述關(guān)鍵詞查詢項鄰近內(nèi)容可以全部或基本上都屬于不完全相 同;或者同一個核心內(nèi)容不相同序列里的全部文本或多數(shù)文本或文本部分內(nèi)容 中,沒有一個文本或文本部分內(nèi)容的關(guān)鍵詞査詢項鄰近內(nèi)容,與一個或規(guī)定數(shù) 目以上的其他文本或文本部分內(nèi)容的關(guān)鍵詞査詢項鄰近內(nèi)容屬于完全相同。
10、 按照權(quán)利要求1所述的方法,其中上述〖iv]所述的處理,可以包括目錄編組或安排不同子集相似內(nèi)容的序列 可以將各個劃分的相似子集的各自文本在所述關(guān)鍵詞査詢項鄰近內(nèi)容中共有的 相似或相同的內(nèi)容或者部分內(nèi)容作為條目,集合成目錄或序列,或者連同各個 相似子集的下一級子集的各自文本在所述關(guān)鍵詞査詢項鄰近內(nèi)容中共有的相似 或相同的內(nèi)容或部分內(nèi)容作為條目,集合成樹狀目錄。
11、 按照權(quán)利要求1所述的方法,其中 上述[iv所述對這些文本進行的處理,可以包括安排代表性序列可以從各個相似子集或相同核心子集中各取出一個或多個文本,將這些文本或文本部 分內(nèi)容組成序列。
12、 按照權(quán)利要求1或8或9或10或U所述的方法,其中 上述[iv〗所述的處理,可以包括序列再壓縮可以對已有的安排的不相似序列中的,或者代表性序列中的,或者目錄編組或者不同子集相似內(nèi)容的序列 的多個文本或文本部分內(nèi)容的所述關(guān)鍵詞査詢項鄰近內(nèi)容,用較為寬松的是否 屬于相似的判定標準,進行較為寬松的相似性比較,在已有序列中產(chǎn)生多個文 本或文本部分內(nèi)容的新的相似子集或不相似序列或更精煉的代表性序列或目錄 編組。
13、 按照權(quán)利要求1或9所述的方法,其中上述[iv所述的處理,可以包括相同核心劃分再聚合首先安排核心內(nèi)容 不相同序列,然后再對得到的序列中的多個文本或文本部分內(nèi)容的所述關(guān)鍵詞査詢項鄰近內(nèi)容,用是否屬于相似的判定標準進行相似性比較,在已有序列中 產(chǎn)生多個文本或文本部分內(nèi)容的新的相似子集或不相似序列或更精煉的代表性 序列或目錄編組。
14、 按照權(quán)利要求1或2或3所述的方法,其中上述iv所述的處理,可以包括界面展示與操作可以令包括處理方式在 內(nèi)的處理過程和結(jié)果的指定的有關(guān)信息在交互界面皋示,允許査詢者在交互界 面進行有關(guān)處理的選擇或指示,可以利用光標點擊或鍵盤選擇或指示,可以根 據(jù)需要,使相應(yīng)的目錄或序列或子集中的子集或條目或項目或文本或文本部分 內(nèi)容或摘要或題錄或詞語對應(yīng)的的更詳細內(nèi)容,或者下一級的子集或序列的目 錄或更詳細內(nèi)容在交互界面展示。
15、 按照權(quán)利要求1或2或3所述的方法,其中 上述iv]所述對這些文本進行的處理,可以包括標注數(shù)目可以允許所述的序列或目錄或條目或文本或題錄或摘要實例中或者在它們所包含的關(guān)鍵詞 査詢項鄰近內(nèi)容附近,具有其相應(yīng)的并列子集數(shù)目或下級子集數(shù)目或文本數(shù)目 或者相關(guān)詞或詞段所在子集的并列子集數(shù)目或所含的下級子集數(shù)目或文本數(shù)目 的提示。
16、 按照權(quán)利要求1或2或3或8或9或10或11所述的方法,其中上述[iv]所述的處理,可以包括確定排序?qū)τ谏鲜瞿夸浕蛐蛄谢蜃蛹?含有的多個元素中的某一個元素的排列或顯示順序或位置可以是隨機的,也可 以部分或完全取決于下列其中某一個或多個因素其所含或所在文本的佩奇鏈接值的大小或點擊率的高低或關(guān)鍵詞出現(xiàn)率的 高低,或者該子集的下級子集數(shù)目或下屬文本數(shù)目的多少或者該子集點擊率的高 低或者該子集的文本佩奇鏈接值的平均數(shù)值的大小,或者該元素所在子集的下級子集數(shù)目或下屬文本數(shù)目的多少或者所在子集 點擊率的高低或者所在子集的文本佩奇鏈接值的平均數(shù)值的大小,或者該子集的佩奇鏈接值最高的文本或另外的文本實例的佩奇鏈接值的大或者該子集的點擊率最高的或關(guān)鍵詞出現(xiàn)率最高的文本或另外的文本實例 的點擊率或關(guān)鍵詞出現(xiàn)率的高低,或者該元素或相關(guān)子集內(nèi)的相關(guān)文本在其他搜索網(wǎng)站或檢索系統(tǒng)搜索結(jié)果中的排序,或者有關(guān)元素的出資人相關(guān)付費或競價的高低, 或者相關(guān)元素的詞或字的拼寫或拼音的字母順序或筆劃順序, 或者文本的來源網(wǎng)站或鏈接網(wǎng)站或鏈接網(wǎng)頁或單位或人的評分, 或者相關(guān)文本收錄的時間先后或新舊, 或者是否屬于某一級的同一子集,或者通過一種目標函數(shù)值來決定,目標函數(shù)值取決于一個或多個變量的加 權(quán)值,該目標函數(shù)的部分或全部變量分別代表上述所列其中某一個或多個因素。
17、一種數(shù)據(jù)檢索系統(tǒng),包括數(shù)據(jù)處理單元和與之相連的輸入單元、輸出單元以及文本數(shù)據(jù)庫,其數(shù)據(jù) 處理單元可以通過輸入單元接收關(guān)鍵詞查詢,從文本數(shù)據(jù)庫或者必要時從互聯(lián) 網(wǎng)收集和處理有關(guān)數(shù)據(jù),將檢索結(jié)果送輸出單元;其特點在于該數(shù)據(jù)處理單元包含存儲器和關(guān)鍵詞鄰近內(nèi)容處理裝置;所述關(guān)鍵詞鄰近內(nèi)容處理裝置,可以〖i〗獲得多個含有同樣關(guān)鍵詞査詢項的電子文本;[ii確定各個文本內(nèi)容中所述關(guān)鍵詞査詢項鄰近內(nèi)容的同樣劃取范圍,所述 關(guān)鍵詞査詢項鄰近內(nèi)容為文本內(nèi)容中所述關(guān)鍵詞查詢項之外的與之鄰近的劃取 范圍內(nèi)的內(nèi)容;[iii規(guī)定不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的判定標準, 該標準至少包括或間接包含對來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼 此相同部分的多少或所占比例的要求,其中相同部分可以是指彼此相同的字詞 或詞根或字符或詞組;〖iv]按照[iii所述對不同文本的所述關(guān)鍵詞查詢項鄰近內(nèi)容是否屬于相似的 判定標準,確定這些文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容相互之間是否屬于相寸以, 并根據(jù)這些文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容相互之間是否屬于相似對這些文 本進行分類,并以其分類的相同或不同對這些文本進行處理;處理方式可以包括以下一種或多種劃分相似子集、劃分相同核心子集、相似子集細分、相似子集再分、安排 不相似序列、安排核心內(nèi)容不相同序列、目錄編組或安排不同的相似內(nèi)容的序 列、安排代表性序列、序列再壓縮、相同核心劃分再聚合、界面展示與操作、 標注數(shù)目、確定排序。
18、 一種響應(yīng)用戶經(jīng)由交互界面提出的要求,提供所期望搜索結(jié)果的搜索引擎系統(tǒng),包括服務(wù)器,該服務(wù)器經(jīng)由通訊網(wǎng)絡(luò)或線路與所述交互界面所在的客戶機耦合; 位于服務(wù)器的搜索引擎,所述搜索引擎包括包括關(guān)鍵詞索引在內(nèi)的數(shù)據(jù)庫,以及査詢器,該査詢器能夠根據(jù)查詢者提出的關(guān)鍵詞要求在所述數(shù)據(jù)庫進行査詢并將査詢到的相關(guān)數(shù)據(jù)結(jié)果列表提供給交互拜面; 其特點在于-所述査詢器或搜索引擎還包括關(guān)鍵詞鄰近內(nèi)容比較處理裝置,可以i]獲得多個含有同樣關(guān)鍵詞査詢項的電子文本;間確定各個文本內(nèi)容中所述關(guān)鍵詞査詢項鄰近內(nèi)容的同樣劃取范圍,所述 關(guān)鍵詞查詢項鄰近內(nèi)容為文本內(nèi)容中所述關(guān)鍵詞査詢項之外的與之鄰近的劃取 范圍內(nèi)的內(nèi)容[iii〗規(guī)定不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的判定標準,該標準至少包括或間接包含對來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼 此相同部分的多少或所占比例的要求,其中相同部分可以是指彼此相同的字詞或詞根或字符或詞組;[iv按照[iii所述對不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的 判定標準,確定這些文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容相互之間是否屬于相似, 并根據(jù)這些文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容相互之間是否屬于相似對這些文 本進行分類,并以其分類的相同或不同對這些文本進行處理;處理方式可以包括以下一種或多種劃分相似子集、劃分相同核心子集、相似子集細分、相似子集再分、安排 不相似序列、安排核心內(nèi)容不相同序列、目錄編組或安排不同的相似內(nèi)容的序 列、安排代表性序列、序列再壓縮、相同核心劃分再聚合、界面展示與操作、 標注數(shù)目、確定排序。
全文摘要
一種便于查詢和搜索的電子文本的處理方法和包含關(guān)鍵詞查詢項鄰近內(nèi)容比較處理裝置的檢索或搜索系統(tǒng),對不同文本關(guān)鍵詞查詢項的劃定范圍內(nèi)的鄰近內(nèi)容之間是否相似進行比較,以其是否屬于相似進行判定或分類,進而進行劃分子集、安排各種序列或形成目錄、排序、界面展示等處理,能夠顯著提高信息檢索或網(wǎng)上信息搜索的便捷性和嚴密性。
文檔編號G06F17/30GK101246484SQ200710164148
公開日2008年8月20日 申請日期2007年10月8日 優(yōu)先權(quán)日2007年2月15日
發(fā)明者劉二中 申請人:劉二中