一種便于查詢的電子文本的相似性處理方法和系統(tǒng)的制作方法

文檔序號：6612918閱讀：198來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種便于查詢的電子文本的相似性處理方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及計算機及搜索引擎關(guān)于電子文本處理與檢索或搜索技術(shù)。(2)背景技術(shù)20年來，計算機數(shù)據(jù)庫檢索技術(shù)有了極大發(fā)展，特別是互聯(lián)網(wǎng)等網(wǎng)絡(luò)技術(shù) 的進展，使得人們可以共享的數(shù)據(jù)庫的規(guī)模達到了天文數(shù)字。為了方便用戶找到所需信息或文件，出現(xiàn)了分類或目錄檢索系統(tǒng)。這種技術(shù)在人們十分熟悉的成熟分類領(lǐng)域里比較適用，但在更廣泛的海量信息領(lǐng)域里，難于建立也難于掌握和使用。以關(guān)鍵詞搜索為核心的檢索技術(shù)和搜索引擎技術(shù)為用戶帶來了便利。該系統(tǒng)可以通過客戶機上的交互界面以及通訊網(wǎng)絡(luò)或通訊線路得到查詢者的關(guān)鍵詞査詢請求，在文本索引庫或文本庫中進行査詢，并進行關(guān)鍵詞請求與文本的相關(guān)性分析，得到相關(guān)結(jié)果并排序，再經(jīng)由通訊網(wǎng)絡(luò)或線路提供到交互界面。這種搜索系統(tǒng)使用起來十分便利迅速，但返還結(jié)果包含的題錄或索引總數(shù)仍然十分龐大，難于逐一査閱。為了能將潛在的對査詢者最有價值的査詢結(jié)果盡量排在前面以方便査詢者，第6，285，999號美國專利提出了基于網(wǎng)頁超級鏈接結(jié)構(gòu)分析(佩奇鏈接)來進行搜索結(jié)果排序的技術(shù)，超過了其他排序技術(shù)，被Google公司采用，獲得空前成功。然而，該技術(shù)以及其他各種排序技術(shù)，僅僅是在統(tǒng)計學(xué)意義上提高了關(guān)鍵詞搜索的效率，并不能保證每個人希望的查詢結(jié)果都能排在龐大索引表的前面。我們?nèi)匀徊荒鼙ＷC可以無一遺漏地在靠前的位置上査閱到期望的內(nèi)容，做到既嚴密又比較方便。同時，我們在讀到期望的信息之前，卻無奈地讀到種種主要內(nèi)容一再重復(fù)的無關(guān)信息。為了解決這一問題，近十年來人們一直試圖發(fā)展各種新的搜索引擎技術(shù)。其中一個重要的方面是試圖測量和利用響應(yīng)了同一關(guān)鍵詞查詢項的海量不同文件或網(wǎng)頁之間的相似性，將其劃分成不同類別，以便于檢索和査閱。但是這類技術(shù)存在很大缺陷。第一是計算量過大，特別是需要比較的每篇文本內(nèi)容較多而文本數(shù)量龐大時，將需要較多的計算時間。已經(jīng)提出的一些針對性的改迸技術(shù)，如雅虎公司的第6990628號美國專利有關(guān)"測量電子文本相似性"的技術(shù)、IBM公司的中國專利CN1112647 C的"響應(yīng)査詢以對文檔集合中的文檔進行分級的系統(tǒng)和方法"的技術(shù)、復(fù)旦大學(xué)的中國專利CN1220159C的."一種高維矢量數(shù)據(jù)快速相似檢索方法"的技術(shù)、惠普公司的中國專利CN1269064 C的關(guān)于"文檔和信息檢索方法和設(shè)備"的技術(shù)、百度公司的中國專利CN1209726C的關(guān)于"一種互聯(lián)網(wǎng)上鏡象與準鏡象網(wǎng)站的識別方法"的僅僅對首頁進行相似比較的技術(shù)，對上述的第一個缺陷作出了十分有限的改進。第二種缺陷是利用相似性處理的結(jié)果對査詢者的幫助往往十分有限，因為彼此相4以的文件盡管存在明顯的共同性，但也存在一定的差異，而査詢者感興趣的信息很有可能就在差異之處，關(guān)鍵之處的差異往往會明顯影響文本的類別。包括第6990628號美國專利在內(nèi)的已有技術(shù)并不能識別兩個文本之間的某一差異或共同之處是否緊要，因而這類技術(shù)給出的搜索結(jié)果既不夠嚴密也不夠方便。因此，人們迫切霈要一種既嚴密又高效的關(guān)鍵詞搜索引擎系統(tǒng)技術(shù)，能夠大大加快査詢者得到期望的集中結(jié)果的速度，并保證搜索的嚴密性。這也成為多年來未能解決的世界性難題。(3)發(fā)明內(nèi)容本發(fā)明的一個目的是提供一種計算機或搜索引擎的電子文本處理與檢索或搜索的方法或系統(tǒng)，可以將大量含有同樣關(guān)鍵詞査詢項的不同文本或信息，按照査詢者更有理由看重的文本核心內(nèi)容的相似性的程度進行分類或處理。本發(fā) 明的另一個目的是提供一種計算機或搜索引擎的電子文本處理與檢索或搜索的方法或系統(tǒng)，可以將大量含有同樣關(guān)鍵詞的不同文本或信息進行精煉處理，以其核心內(nèi)容相似的不同文本較少重疊，而核心內(nèi)容不相似的文本較少遺漏的方式，將相關(guān)信息列出，方便査詢。本發(fā)明的另一個目的是提供一種計算機或搜索引擎的電子文本處理與檢索或搜索的更有效、更簡捷、更經(jīng)濟的方法或系統(tǒng)，為査詢者服務(wù)，使其在進行關(guān)鍵詞檢索時，能am而縮小搜索范圍，大大減少或剔除各類無關(guān)信息或重復(fù)信息，準確地得到所期望的結(jié)果。本發(fā)明的一個方面是提供了一種計算機運用的對多個電子文本進行處理的方法，包括〖i〗獲得多個含有同樣關(guān)鍵詞査詢項的電子文本；[ii確定各個文本內(nèi)容中所述關(guān)鍵詞査詢項鄰近內(nèi)容的同樣劃取范圍，所述關(guān)鍵詞査詢項鄰近內(nèi)容為文本內(nèi)容中所述關(guān)鍵詞査詢項之外的與之鄰近的劃取范圍內(nèi)的內(nèi)容；[iii規(guī)定不同文本的所述關(guān)鍵詞查詢項鄰近內(nèi)容是杏屬于相似的判定標準，該標準至少包括或間接包含對來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼此相同部分的多少或所占比例的要求，其中相同部分可以是指彼此相同的字詞或詞根或字符或詞組；[iv]按照[iii所述對不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的判定標準，確定這些文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容相互之間是否屬于相似，并根據(jù)這些文本的所述關(guān)鍵詞查詢項鄰近內(nèi)容相互之間是否屬于相似對這些文本進行分類，并以其分類的相同或不同對這些文本進行處理；所述的電子文本或文本指的可以是計算機或數(shù)據(jù)庫或信息存貯裝置或互聯(lián) 網(wǎng)或甩務(wù)器或者搜索引擎的數(shù)據(jù)庫或數(shù)據(jù)處理器等裝置中的文件、文本或網(wǎng)頁或摘要或題錄或標題或索引或章節(jié)或段落或包含文字或字符內(nèi)容的信息。其中，所述關(guān)鍵詞査詢項一般是指可以由查詢者提出的在檢索結(jié)果文本中應(yīng)該含有的內(nèi)容。而關(guān)鍵詞査詢項鄰近內(nèi)容一般屬于未經(jīng)査詢者提出卻出現(xiàn)在關(guān)鍵詞搜索結(jié)果的文本內(nèi)容中的關(guān)鍵詞査詢項鄰近的某種規(guī)定劃取范圍內(nèi)的內(nèi) 容。它的具體內(nèi)容，比文本里遠離關(guān)鍵詞査詢項的內(nèi)容，應(yīng)該更能影響該文本中該關(guān)鍵詞査詢項的具體用意，更有助于對相關(guān)文本作出更恰當?shù)姆诸惡吞幚怼１景l(fā)明所述的方法的iii]中對所述關(guān)鍵詞查詢項鄰近內(nèi)容是否屬于相似的判定標準，還可以依據(jù)或參考以下評估因素或原則中的一個或多個來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否完全相同；來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼此相同部分分別在原文中相對于原關(guān)鍵詞査詢項的前后位置或距離的差別大?。粊碜圆煌谋镜乃鲫P(guān)鍵詞査詢項鄰近內(nèi)容中各個彼此相同部分分別在原文中的順序的差別大??；來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼此相同部分分別在原文中與原關(guān)鍵詞查詢項的距離的大??；利用矢量空間模型的計算方法為來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容的彼此相似程度給出的數(shù)值的大小；或者對以上評估因素中的一個或多個或其他因素加權(quán)，給出一種或多種目標函數(shù)(objective fimction)以得出來自不同文本的所述關(guān)鍵詞查詢項鄰近內(nèi)容的相應(yīng)的相似性程度或得出是否屬于相似的判定。本發(fā)明的所述處理方法，還可以包括令相應(yīng)文本或文本的部分內(nèi)容具有相同或不同的分布位置或存儲方式，或者劃分為相同或不同的子集，或者得到相同或不同的子集標記，或者使得其在數(shù) 據(jù)庫的索引具有相同或不同的標記或索引項，或者具有相同或不同的編排方式，或者在交互界面具有相同或不同的顯示方式或位置，或者允許至少部分子集各有一個或多個題錄或摘要或文本或子集內(nèi)文本相似的關(guān)鍵詞査詢項鄰近內(nèi)容或其中的相同部分進行跨子集組合或排序或在交互界面展示。本發(fā)明所述的處理方法，可以包括劃分相似子集可以將多個文本或文本部分內(nèi)容劃分為多個相似子集，同一相似子集里的各個文本或文本部分內(nèi)容的所述關(guān)鍵詞査詢項鄰近內(nèi)容屬于相似。同一相似子集的文本，更有可能對應(yīng)著査詢者對某個方向相近的興趣，更有助于檢索。本發(fā)明的處理方法，也可以包括劃分相同核心子集可以將多個文本或文本部分內(nèi)容劃分為多個相同核心子集，要求同一相同核心子集里的各個文本或文本部分內(nèi)容的所述關(guān)鍵詞查詢項鄰近內(nèi)容都相同。霈要時，本發(fā)明的處理方法也可以包括對相似子集進行細分。必要時，本發(fā)明的處理方法可以包括相似子集再分可以在劃分相似子集或劃分相同核心子集的基礎(chǔ)上，對已有的一個相似子集或相同核心子集里的多個文本或文本部分內(nèi)容中原有的關(guān)鍵詞查詢項鄰近內(nèi)容劃取范圍之外的一定鄰近范圍的新內(nèi)容再進行相似性比較，根據(jù)其相似與否，將這些文本或文本部分內(nèi)容劃分為多個下一級相^l子集。本發(fā)明的處理方法也可以包括安排不相似序列可以從多個文本中安排出不相似序列，同一不相似序列里的不同文本或文本部分內(nèi)容的所述關(guān)鍵詞査詢項鄰近內(nèi)容可以全部或基本上都不屬于相似或者同一不相似序列里的全部或多數(shù)文本或文本部分內(nèi)容中，沒有一個文本或文本部分內(nèi)容的關(guān)鍵詞査詢項鄰近內(nèi)容，與一個或規(guī)定數(shù)目以上的其他文本或文本部分內(nèi)容的關(guān)鍵詞査詢項鄰近內(nèi)容屬于相似或相同。必要時，本發(fā)明的方法可以包括安排核心內(nèi)容不相同序列可以從多個文本中安排出核心內(nèi)容不相同序列，同一個核心內(nèi)容不相同序列里的不同文本或文本部分內(nèi)容的所述關(guān)鍵詞査詢項鄰近內(nèi)容可以全部或基本上都屬于不完全相同；或者同一個核心內(nèi)容不相同序列里的全部文本或多數(shù)文本或文本部分內(nèi) 容中，沒有一個文本或文本部分內(nèi)容的關(guān)鍵詞査詢項鄰近內(nèi)容，與一個或規(guī)定數(shù)目以上的其他文本或文本部分內(nèi)容的關(guān)鍵詞査詢項鄰近內(nèi)容屬于完全相同。本發(fā)明的處理方法也可以包括目錄編組或安排不同子集相tl內(nèi)容的序列可以將各個劃分的相似子集的各自文本在所述關(guān)鍵詞査詢項鄰近內(nèi)容中共有的相似或相同的內(nèi)容或者部分內(nèi)容作為條目，集合成目錄或序列，或者連同各個相似子集的下一級子集的各自文本在所述關(guān)鍵詞査詢項鄰近內(nèi)容中共有的相似或相同的內(nèi)容或部分內(nèi)容作為條目，集合成樹狀目錄。需要時，本發(fā)明的處理方法可以包括安排代表性序列可以從各個相似子集或相同核心子集中各取出一個或多個文本，將這些文本或文本部分內(nèi)容組成序列。本處理方法也可以包括序列再壓縮可以對已有的安排的不相似序列中的，或者代表性序列中的，或者目錄編組或者不同子集相似內(nèi)容的序列的多個文本或文本部分內(nèi)容的所述關(guān)鍵詞査詢項鄰近內(nèi)容，用較為寬松的是否屬于相似的判定標準，進行較為寬松的相似性比較，在已有序列中產(chǎn)生多個文本或文本部分內(nèi)容的新的相似子集或不相似序列或更精煉的代表性序列或目錄編組。必要時，本發(fā)明的處理方法也可以包括相同核心劃分再聚合首先安排核心內(nèi)容不相同序列，然后再對得到的序列中的多個文本或文本部分內(nèi)容的所述關(guān)鍵詞査詢項鄰近內(nèi)容，用是否屬于相似的判定標準進行相似性比較，在已有序列中產(chǎn)生多個文本或文本部分內(nèi)容的新的相似子集或不相似序列或更精煉的代表性序列或目錄編組。霈要時，本發(fā)明的處理方法也可以包括界面展示與操作。本發(fā)明的處理方法還可以包括標注數(shù)目。襦要時，本發(fā)明的處理方法可以包括確定排序?qū)τ谏鲜瞿夸浕蛐蛄谢?子集所含有的多個元素中的某一個元素的排列或顯示順序或位置可以是隨機的，也可以部分或完全取決于下列其中某一個或多個因素相關(guān)子集或相關(guān)文本或者詞段或內(nèi)容或信息或所在文本的佩奇鏈接值、點擊率、關(guān)鍵詞出現(xiàn)率、下級子集數(shù)目或下屬文本數(shù)目、子集點擊率、文本佩奇鏈接值的平均數(shù)值或最高值、在已有網(wǎng)站或系統(tǒng)中搜索結(jié)果的排序、競價、拼寫方式、筆劃、來源評分、收錄時間及其他等等因素；或者由相應(yīng)的目標函數(shù)值來決定。本發(fā)明的另一個方面是一種數(shù)據(jù)檢索系統(tǒng)，包括數(shù)據(jù)處理單元23和與之相連的輸入單元21、輸出單元22以及文本數(shù)據(jù)庫 26，其數(shù)據(jù)處理單元可以通過輸入單元21接收關(guān)鍵詞查詢，從文本數(shù)據(jù)庫或者必要時從互聯(lián)網(wǎng)27收集和處理有關(guān)數(shù)據(jù)，將檢索結(jié)果送輸出單元；其特點在于該數(shù)據(jù)處理單元23包含存儲器24和關(guān)鍵詞鄰近內(nèi)容處理裝置25:所述關(guān)鍵詞鄰近內(nèi)容處理裝置，可以ij獲得多個含有同樣關(guān)鍵詞査詢項的電子文本ii〗確定各個文本內(nèi)容中所述關(guān)鍵詞査詢項鄰近內(nèi)容的同樣劃取范圍，所述關(guān)鍵詞査詢項鄰近內(nèi)容為文本內(nèi)容中所述關(guān)鍵詞査詢項之外的與之鄰近的劃取范圍內(nèi)的內(nèi)容；〖iii]規(guī)定不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的判定標準，該標準至少包括或間接包含對來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼此相同部分的多少或所占比例的要求，其中相同部分可以是指彼此相同的字詞或詞根或字符或詞組；iv按照[Ui]所述對不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的判定標準，確定這些文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容相互之間是否屬于相似，并根據(jù)這些文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容相互之間是否屬于相似對這些文本進行分類，并以其分類的相同或不同對這些文本進行處理處理方式可以包括以下一種或多種劃分相似子集、劃分相同核心子集、相似子集細分、相似子集再分、安排不相似序列、安排核心內(nèi)容不相同序列、目錄編組或安排不同的相似內(nèi)容的序列、安排代表性序列、序列再壓縮、相同核心劃分再聚合、內(nèi)容展開、標注數(shù) 目、確定排序、界面展示與操作。所述數(shù)據(jù)檢索系統(tǒng)可以由計算機或服務(wù)器或搜索引擎系統(tǒng)構(gòu)成。本發(fā)明的又一個方面是一種響應(yīng)用戶經(jīng)由交互界面提出的要求，提供所期望搜索結(jié)果的搜索引擎系統(tǒng)，包括股務(wù)器，該服務(wù)器經(jīng)由通訊網(wǎng)絡(luò)或線路與所述交互界面所在的客戶機耦合位于服務(wù)器的搜索引擎，所述搜索引擎包括包括關(guān)鍵詞索引在內(nèi)的數(shù)據(jù) 庫，以及査詢器，該査詢器能夠根據(jù)查詢者提出的關(guān)鍵詞要求在所述數(shù)據(jù)庫進行査詢并將査詢到的相關(guān)數(shù)據(jù)結(jié)果列表提供給交互界面其特點在于所述査詢器或搜索引擎還包括關(guān)鍵詞鄰近內(nèi)容比較處理裝置，可以i獲得多個含有同樣關(guān)鍵詞查詢項的電子文本；tii]確定各個文本內(nèi)容中所述關(guān)鍵詞査詢項鄰近內(nèi)容的同樣劃取范圍，所述關(guān)鍵詞査詢項鄰近內(nèi)容為文本內(nèi)容中所述關(guān)鍵詞査詢項之外的與之鄰近的劃取范圍內(nèi)的內(nèi)容Ui3規(guī)定不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的判定標準，該標準至少包括或間接包含對來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼此相同部分的多少或所占比例的要求，其中相同部分可以是指彼此相同的字詞或詞根或字符或詞組；iv]按照iii所述對不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的判定標準，確定這些文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容相互之間是否屬于相似，并根據(jù)這些文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容相互之間是否屬于相似對這些文本進行分類，并以其分類的相同或不同對這些文本進行處理；處理方式可以包括以下一種或多種劃分相似子集、劃分相同核心子集、相似子集細分、相似子集再分、安排不相似序列、安排核心內(nèi)容不相同序列、目錄編組或安排不同的相似內(nèi)容的序列、安排代表性序列、序列再壓縮、相同核心劃分再聚合、內(nèi)容展開、標注數(shù) 目、確定排序、界面展示與操作。以上所述的搜索引擎系統(tǒng)可以是位于互聯(lián)網(wǎng)的為網(wǎng)上客戶服務(wù)的搜索系統(tǒng)，也可以是獨立的計算機信息庫搜索系統(tǒng)。所述的服務(wù)器5為計算機存儲和處理裝置，可以是單個的，也可以是多個成組或分散配置的。所述的客戶機3 可以是個人電腦或工作站或其他計算機裝置，需要時，可以配置適當?shù)臑g覽器。本發(fā)明的另一個方面可以是存儲著可以由一個或多個處理裝置執(zhí)行的指令的計算機可讀介質(zhì)(computer-readeble medium),所述指令用以實現(xiàn)一種對多個含有同樣關(guān)鍵詞査詢項的電子文本的分類和處理方法，可以包括-獲得多個含有同樣關(guān)鍵詞査詢項的電子文本的指令；確定各個文本內(nèi)容中所述關(guān)鍵詞査詢項鄰近內(nèi)容的詞樣劃取范圍的指令，所述關(guān)鍵詞査詢項鄰近內(nèi)容為文本內(nèi)容中所述關(guān)鍵詞查詢項之外的與之鄰近的劃取范圍內(nèi)的內(nèi)容；規(guī)定不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的判定標準的指令，該標準至少包括或間接包含對來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼此相同部分的多少或所占比例的要求，其中相同部分可以是指彼此相同的字詞或詞根或字符或詞組；有關(guān)按照對不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的判定標準，確定這些文本的所述關(guān)鍵詞查詢項鄰近內(nèi)容相互之間是否屬于相似，并根據(jù)這些文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容相互之間是否屬于相似對這些文本進行分類，并以其分類的相同或不同對這些文本迸行處理的指令。本發(fā)明的以對不同文本關(guān)鍵詞査詢項鄰近內(nèi)容進行相似比較和處理為核心的搜索技術(shù)，把文本分類的注意力集中到關(guān)鍵詞査詢項鄰近的核心內(nèi)容上，更為科學(xué)、準確，在分類、目錄提示、不斷縮小同一關(guān)鍵詞搜索結(jié)果范圍方面，具有一定的嚴密性和明顯超越現(xiàn)有技術(shù)的便捷與高效，將大大滿足廣大沖浪者或信息搜索用戶長期以來的迫切需求，甚至可以幫助人們對文獻資料進行更詳實的內(nèi)容分析和檢索。(4)

圖1所示為根據(jù)本發(fā)明的搜索引擎系統(tǒng)的一個實施例的結(jié)構(gòu)框圖。圖2所示為本發(fā)明的一種數(shù)據(jù)檢索系統(tǒng)的示意圖。圖3所示為本發(fā)明的確定文本內(nèi)容中所述關(guān)鍵詞鄰近內(nèi)容的劃取范圍方式的示意圖。圖4所示為本發(fā)明的一個實施例的處理操作流程框圖。圖5所示為本發(fā)明的一個實施例展示的"相同核心劃分再聚合"處理方式的流程示意圖。圖6所示為本發(fā)明的一個數(shù)據(jù)檢索系統(tǒng)實施例的處理操作流程框圖。圖7為含有同樣關(guān)鍵詞査詢項的多個文本的兩級相似子集的樹狀目錄示意圖。(5)具體實施方式
下面，示例性地對本發(fā)明提供的一種計算機運用的對多個電子文本迸行處理的方法進行具體說明。若使用本發(fā)明的方法，首先需要[i獲得多個含有同樣關(guān)鍵詞查詢項的電子文本。所述的電子文本或文本指的可以是計算機或數(shù)據(jù)庫或信息存貯裝置或互聯(lián) 網(wǎng)或服務(wù)器或者搜索引擎的數(shù)據(jù)庫或數(shù)據(jù)處理器等裝置中的文件、文本或網(wǎng)頁或摘要或題錄或標題或索引或章節(jié)或段落或包含文字或字符內(nèi)容的信息。再進一步[ii確定各個文本內(nèi)容中所述關(guān)鍵詞査詢項鄰近內(nèi)容的同樣劃取范圍，所述關(guān)鍵詞査詢項鄰近內(nèi)容為文本內(nèi)容中所述關(guān)鍵詞査詢項之外的與之鄰近的劃取范圍內(nèi)的內(nèi)容。具體來說可以由計算機或人工默認、預(yù)定、選定、規(guī) 定或變換和調(diào)整各個文本內(nèi)容中關(guān)鍵詞査詢項鄰近內(nèi)容(簡稱"關(guān)鍵詞鄰近內(nèi) 容")的劃取范圍。該劃取范圍一般明顯少于多數(shù)原有所述文本一頁內(nèi)容篇幅的幾分之一。如果劃取范圍過大，遠離關(guān)鍵詞的部分幾乎無助于與關(guān)鍵詞查詢項緊密相關(guān)內(nèi)容的分類，還會極大地增加計算工作量。關(guān)鍵詞査詢項鄰近內(nèi)容的劃取范圍例如可以通過規(guī)定文本中該關(guān)鍵詞査詢項(簡稱關(guān)鍵詞)之前的或者該關(guān)鍵詞査詢項之后的或者該關(guān)鍵詞查詢項前后的鄰近的詞或字或符號或?qū)嵲~ 或詞根或詞組的統(tǒng)一的數(shù)量或長度來確定，一般說來，建議在一次分類操作過程中采用100個字母或30個漢字或20個詞以下的某一統(tǒng)一具體長度，最好為 1至10個詞或1至60個字母的某一具體長度(例如5個詞)，這樣有利于提高數(shù)據(jù)處理速度，并控制相似子集的數(shù)量。本發(fā)明的所述關(guān)鍵詞查詢項鄰近內(nèi)容的劃取范圍可以包括關(guān)鍵詞查詢項后面的內(nèi)容，在霈要時還可以包括關(guān)鍵詞査詢項前面的內(nèi)容。本發(fā)明認為，在不同的語言環(huán)境中，關(guān)鍵詞(即關(guān)鍵詞査詢項)前面的字詞對文本核心內(nèi)容分類的影響可能也十分重要。例如可以規(guī)定同樣劃取范圍為"關(guān)鍵詞前后各1詞"或"關(guān)鍵詞前4詞" 或"關(guān)鍵詞后10字"或"關(guān)鍵詞前2詞+后3詞"或"關(guān)鍵詞后4詞組"或"關(guān) 鍵詞前20字母+后30字母內(nèi)的完整詞"等。本說明書的附圖(圖3)給出了規(guī)定關(guān)鍵詞鄰近內(nèi)容的劃取范圍的5種方式的例子，關(guān)鍵詞查詢項都是"布林"。其中31的劃取范圍是"關(guān)鍵詞前3 字"，32的劃取范圍是"關(guān)鍵詞后4字"，33的劃取范圍是"關(guān)鍵詞前2+后 5字"，34的劃取范圍是"關(guān)鍵詞前4+后6字"，35的劃取范圍是忽略虛詞和助詞的"關(guān)鍵詞前1 +后1詞"。所述的關(guān)鍵詞查詢項鄰近內(nèi)容的劃取范圍也可以通過判斷和選取文本中該關(guān)鍵詞査詢項所在的詞組或句子方式，或其他方式如光標點擊處同所述關(guān)鍵詞査詢項的距離來確定，或者根據(jù)關(guān)鍵詞附近的標點或符號或空格或字體或其變化來確定。在特殊情況下，非常短小的文本的內(nèi)容的大小也可能少于針對一般文本的預(yù)定的關(guān)鍵詞鄰近內(nèi)容的劃取范圍，此時可以將整個短小文本與別的文本的關(guān)鍵詞鄰近內(nèi)容進行比較。在同一處理過程中，對不同文本所劃取的不同文本中所述關(guān)鍵詞鄰近內(nèi)容范圍的方式應(yīng)該相同。下一步還霈要iii]規(guī)定不同文本的所述關(guān)鍵詞查詢項鄰近內(nèi)容是否屬于相似的判定標準。該標準至少包括或間接包含對來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼此相同部分的多少或所占比例的要求，其中相同部分可以是指彼此相同的字詞或詞根或字符或詞組。例如屬于相似的判定標準可以要求來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼此相同的詞所占該鄰近內(nèi)容總詞數(shù)的比例不低于幼％,或定為ioo%。所述該標準"間接包含…"是指需要時，該標準可能并沒有直接規(guī)定對來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼此相同部分的多少或所占比例的要求，但該標準的實際效果等同于也包含了這種要求；或者說，如果來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼此相同部分的多少或所占比例達不到某種程度，該標準的其他類型的要求或指標(例如利用矢量空間模型方法計算來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容的彼此相關(guān)度的數(shù)值)也不可能滿足或達到。必要時，該標準所指的彼此相同部分可以忽略彼此某些詞的前綴或后綴或者彼此某些虛詞或量詞或數(shù)詞或非實詞或者標點或空格的有無或差別。本技術(shù)的下一步需要[iv〗按照iiil所述對不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的判定標準，確定這些文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容相互之間是否屬于相似，并根據(jù)這些文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容相互之間是否屬于相似對這些文本進行分類，并以其分類的相同或不同對這些文本進行處理。例如，已確定不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容的同樣劃取范圍是關(guān) 鍵詞査詢項后面5個詞，可以由程序規(guī)定或默認或由査詢者指定如果來自不同文本的所述關(guān)鍵詞査詢項后面連續(xù)的5個鄰近詞中，不同文本彼此相同的詞至少為4個或所占比例不低于80%,這些文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容相互之間則屬于相似，這些文本則屬于同一彼此關(guān)鍵詞査詢項鄰近內(nèi)容相似的類別否則相關(guān)文本則不屬于這一個彼此關(guān)鍵詞査詢項鄰近內(nèi)容相似的類別。舉例來說，如果關(guān)鍵詞査詢項是"開發(fā)區(qū)"，那么包含"…開發(fā)區(qū)正在發(fā)展科學(xué)技術(shù)產(chǎn)業(yè)…"的文本與包含"…開發(fā)區(qū)科學(xué)發(fā)展以及技術(shù)產(chǎn)業(yè)…"的文本以及包含"*"開發(fā)區(qū)產(chǎn)業(yè)發(fā)展與科學(xué)技術(shù)正在*""的文本屬于同一個相似類別；而包含"…開發(fā)區(qū)正在發(fā)展高新技術(shù)產(chǎn)業(yè)…"的文本與包含"…開發(fā)區(qū)高新技術(shù)促進產(chǎn)業(yè)發(fā)展…"的文本屬于另一個相似類別?！阏f來，按以上原則，可以將含有同樣關(guān)鍵詞查詢項的大量不同文本，分成許多不同的類別，某個類別之中的不同文本的關(guān)鍵詞査詢項鄰近內(nèi)容各有其特定的符合規(guī)定的相同部分。這對我們進一步的處理或檢索十分有利。在霈要的情況下，規(guī)定不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的判定標準時，也可以參考還可以同時依據(jù)或參考其他評估因素或原則中的一個或多個。例如，要求考察來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否完全相同。若是，相似性程度最高，屬于相似或相同。此時，實際上是在比較關(guān)鍵詞査詢項的鄰近詞或整個鄰接詞段的異同。這樣使對文本的分類更為嚴格。前面提到的包含的關(guān)鍵詞査詢項是"開發(fā)區(qū)"的屬于同一相似類別的幾個文本，它們的關(guān)鍵詞査詢項鄰近內(nèi)容就不能算是完全相同。或者，還要求考察來自不同文本的所述關(guān)鍵詞查詢項鄰近內(nèi)容中彼此相同部分分別在原文中相對于原關(guān)鍵詞査詢項的前后位置或距離的差別大小，該差別越小，相關(guān)鄰近內(nèi)容彼此越相似。例如，可以規(guī)定同樣的詞在不同文本中分布位置的位置差平均不能超過 3個字的寬度。這樣，我們可以判定包含"…開發(fā)區(qū)高新技術(shù)產(chǎn)業(yè)的發(fā)展過程…" 的文本與包含"，"開發(fā)區(qū)促進高新技術(shù)產(chǎn)業(yè)發(fā)展…"的文本屬于一個類別，而認為包含"…開發(fā)區(qū)產(chǎn)業(yè)發(fā)展過程中髙新技術(shù)，""的文本不屬于這一類別，因為同樣的詞在不同文本中分布位置差別過大，位置差平均超過了 3個字的寬度。我們或者還可以考慮來自不同文本的所述關(guān)鍵詞查詢項鄰近內(nèi)容中各個彼此相同部分分別在原文中的順序的差別大小。該差別越小，相關(guān)鄰近內(nèi)容彼此越相似。例如，可以規(guī)定相同詞之間排列順序相同的至少要超過二分之一。這樣可以判定包含"…開發(fā)區(qū)正在發(fā)展科學(xué)技術(shù)產(chǎn)業(yè)…"的文本與包含"*"開發(fā)區(qū)科學(xué)技術(shù)產(chǎn)業(yè)的發(fā)展狀況…"的文本屬于同一個相似類別，因為它們之間多數(shù) 相同詞的排列順序相同；而包含"…開發(fā)區(qū)技術(shù)產(chǎn)業(yè)發(fā)展與科學(xué)管理…"的文本因與前者詞序差別較大，超過二分之一的相同詞的排列順序不相同，因而不屬于該類別。也可以同時考慮來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼此相同部分分別在原文中與原關(guān)鍵詞査詢項的距離(可以用相隔的字數(shù)來衡量)的大小。該距離越小，相似程度越高。例如在相似比較時，可以規(guī)定彼此相同部分分別在原文中與原關(guān)鍵詞査詢項的距離(可以用相隔的字數(shù)來衡量)，平均起來不超過關(guān)鍵詞査詢項鄰近內(nèi)容劃定長度(字數(shù))的一半或其他比值，才屬于相似。這是本發(fā)明內(nèi)容的又一個可以使用的突出特點，按照這個方法，可以判定那些在原文本中距離相應(yīng)關(guān)鍵詞査詢項很遠的相同元素或相同部分對不同文本核心內(nèi)容的相似性的貢獻很小，甚至可以忽略。這與本發(fā)明限制關(guān)鍵詞鄰近內(nèi) 容的劃取范圍的特征是一致的。霈要時，也可以利用十分流行的矢量(或向量)空間模型的計算方法為來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容的彼此相關(guān)度(相^l程度)給出的數(shù) 值的大小來影響判定標準。應(yīng)用此方法霈要將每個相關(guān)關(guān)鍵詞査詢項鄰近內(nèi)容看作為由各種詞或字對應(yīng)的分矢量(向量)合成的合矢量，再計算不同文本的關(guān)鍵詞査詢項鄰近內(nèi)容相應(yīng)合矢量之間的相關(guān)度，達到規(guī)定的數(shù)值，相關(guān)內(nèi)容屬于相似。顯然，不同的關(guān)鍵詞査詢項鄰近內(nèi)容必須含有一定數(shù)量相同的詞，相應(yīng)的合矢量才可能具有一定的相關(guān)度。因此，對不同的關(guān)鍵詞査詢項鄰近內(nèi) 容相應(yīng)合矢量之間的相關(guān)度的要求，實際上就包含了對來自不同文本的所述關(guān) 鍵詞査詢項鄰近內(nèi)容中彼此相同部分的多少或所占比例的要求。矢量(或向量) 空間模型的相似性計算方法的具體內(nèi)容在第6990628號美國專利和中國專利申請200610072588.7和其他許多文獻中得到描述，為已有公知技術(shù)。也可以對以上評估因素中的一個或多個或其他因素加權(quán)，給出一種或多種目標函數(shù)(objective Ainction):例如一種目標函數(shù)值可以表示為F(x,，x2*"x )，在較為簡單的例子中，可以令F(x,，xn"F,(x,)+F2(x2)+……+F"(x );其中，X,，X2,……Xn分別為規(guī)定不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的判定標準時可以同時依據(jù)或參考6^#@素。可以規(guī)定該函數(shù)值的應(yīng)有的相應(yīng)范圍，以得出來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的判定。對于—個含有多個同樣關(guān)鍵詞查詢項的文本，可以隨機^fe定或逸定其中相似性程度更高的關(guān)鍵詞査詢項鄰近內(nèi)容進行處理也可以將其分割成若干部分分別進行處理。對不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似進行判定時，顯然，對于同一批文本來說，所述相似判定的要求越高，彼此都相似的文本數(shù)目可能會越少，反之，相似的文本數(shù)目可能會越多。如果所述的關(guān)鍵詞査詢項是由可以不相連接的2個或2個以上部分構(gòu)成，可以僅僅對文本中的一個部分的鄰近內(nèi)容進行相似性比較或評估或判定，也可以對文本中的多個部分的鄰近內(nèi)容分別進行相似性比較或評估，再將分別比較或評估的結(jié)果綜合起來進行評估或判定。按照對多個文本的所述關(guān)鍵詞鄰近內(nèi)容是否屬于相似的判定對這些文本進行分類后，還可以進行更多的處理。可以令相應(yīng)文本或文本的部分內(nèi)容在計算機或計算機可讀介質(zhì)或存儲器或數(shù)據(jù)庫中具有相同或不同的分布位置或存儲方式，或者劃分為相同或不同的子集，或者得到相同或不同的子集標記，或者使得其在數(shù)據(jù)庫的索引具有相同或不同的標記或索引項，或者具有相同或不同的編排方式，或者在交互界面具有相同或不同的顯示方式或位置，或者允許至少部分子集各有一個或多個題錄或摘要或文本或子集內(nèi)文本相似的關(guān)鍵詞査詢項鄰近內(nèi)容或其中的相同部分進行跨子集組合或排序或在交互界面展示。例如可以劃分相似子集具體來說，可以將多個文本或文本部分內(nèi)容劃分為多個相似子集，同一相似子集里的各個文本或文本部分內(nèi)容的所述關(guān)鍵詞查詢項鄰近內(nèi)容屬于相似。可以將同一相似子集里的文本或文本部分內(nèi)容的所述關(guān)鍵詞査詢項鄰近內(nèi)容的相似部分或相同成分，作為該子集的標記或名稱，或者作為它們在數(shù)據(jù)庫或界面的索引的標記或索引項。例如前面提到的包含"… 開發(fā)區(qū)正在發(fā)展科學(xué)技術(shù)產(chǎn)業(yè)…"的文本與包含"…開發(fā)區(qū)科學(xué)發(fā)展以及技術(shù) 產(chǎn)業(yè)…"的文本以及包含"…開發(fā)區(qū)產(chǎn)業(yè)發(fā)展與科學(xué)技術(shù)正在…"的文本屬于同一個相似子集，該子集的標記可以是"科學(xué)，技術(shù)，產(chǎn)業(yè)，發(fā)展"。這里所述的文本部分內(nèi)容可以是含有所述關(guān)鍵詞鄰近內(nèi)容的不完整的文本或文本摘要或題錄或語句等信息。同一相似子集的文本，更有可能對應(yīng)著査詢者對某個方向相近的興趣，更有助于檢索。也可以劃分相同核心子集也就是，可以將多個文本或文本部分內(nèi)容劃分為多個相同核心子集，要求同一相同核心子集里的各個文本或文本部分內(nèi)容的所述關(guān)鍵詞査詢項鄰近內(nèi)容(顯然除了所劃分的鄰近范圍之外部分)都相同。例如，所述關(guān)鍵詞査詢項鄰近內(nèi)容的同樣劃取范圍規(guī)定為"開發(fā)區(qū)"后面2個詞，那么包含"'"開發(fā)區(qū)產(chǎn)業(yè)發(fā)展與科學(xué)技術(shù)正在…"的文本與包含開發(fā)區(qū)產(chǎn)業(yè)發(fā)展的過程與…"的文本以及包含"…開發(fā)區(qū)產(chǎn)業(yè)發(fā)展的規(guī)劃…" 的文本以及包含"…開發(fā)區(qū)產(chǎn)業(yè)發(fā)展速度令人滿意…"的文本屬于同一個相同核心子集，該子集的標記可以是"產(chǎn)業(yè)發(fā)展"或"開發(fā)區(qū)產(chǎn)業(yè)發(fā)展"。對得到的相似子集和相同核心子集還進一步進行相似子集細分即在劃分相似子集或劃分相同核心子集.的基礎(chǔ)上，用關(guān)于關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的更嚴格判定標準或更多的判定因素，(例如判定因素中新增加對于相同的詞的排列順序的要求，或者新增加對于相同的詞與關(guān)鍵詞査詢項平均距離的要求或其他要求，或者由原來忽略虛詞的差別改為不忽略其差別)將已有的任一個相似子集或相同核心子集中的多個文本或文本部分內(nèi)容劃分為多個下一級相似程度更高的子集。必要時，也可以進行相似子集再分也就是可以在劃分相似子集或劃分相同核心子集.的基礎(chǔ)上，對已有的一個相似子集或相同核心子集里的多個文本或文本部分內(nèi)容中原有的關(guān)鍵詞査詢項鄰近內(nèi)容劃取范圍之外的一定鄰近范圍的新內(nèi)容再進行相似性比較，根據(jù)其相似與否，將這些文本或文本部分內(nèi)容劃分為多個下一級相似子集。例如，原來劃分相似子集時，僅對不同文本關(guān)鍵詞査詢項鄰近的4個詞的內(nèi)容進行比較，得到了某個具有300個文本的相似子集；這些文本各自的關(guān)鍵詞査詢項鄰近的第5至第7個詞的內(nèi)容未必都屬于相似或相同，因而，如果按照它們各自的關(guān)鍵詞査詢項鄰近的第5至第7個詞的內(nèi)容是否相似或相同再進行比較，又可以劃分出若干不同的下一級子集。霜要時可以多次將相同核心子集的再分或相似子集的細分進行下去。顯然，在其他因素考察結(jié)果相同的情況下，相關(guān)的多個文本所述的關(guān)鍵詞査詢項鄰近內(nèi)容的劃取范圍越大，同一相似子集的文本之間相似程度越高。處理相關(guān)文本時也可以安排不相似序列可以從多個文本中安排出不相似序列，同一不相似序列里的文本或文本部分內(nèi)容的所述關(guān)鍵詞査詢項鄰近內(nèi)容可以全部或基本上都不屬于相似；或者同一不相似序列里的全部或多數(shù)文本或文本部分內(nèi)容中，沒有一個文本或文本部分內(nèi)容的關(guān)鍵詞査詢項鄰近內(nèi)容，與 —個或規(guī)定數(shù)目以上的其他文本或文本部分內(nèi)容的關(guān)鍵詞査詢項鄰近內(nèi)容屬于相似或相同。必要時，也可以包括安排核心內(nèi)容不相同序列可以從多個文本中安排出核心內(nèi)容不相同序列，同一個核心內(nèi)容不相同序列里的文本或文本部分內(nèi)容的所述關(guān)鍵詞査詢項鄰近內(nèi)容可以全部或基本上都屬于不完全相同；或者同一個核心內(nèi)容不相同序列里的全部文本或多數(shù)文本或文本部分內(nèi)容中，沒有一個文本或文本部分內(nèi)容的關(guān)鍵詞査詢項鄰近內(nèi)容，與一個或規(guī)定數(shù)目以上的其他文本或文本部分內(nèi)容的關(guān)鍵詞査詢項鄰近內(nèi)容屬于完全相同。本發(fā)明的處理方法也可以包括目錄編組或安排不同子集相似內(nèi)容的序列可以將各個劃分的相似子集的各自文本在所述關(guān)鍵詞査詢項鄰近內(nèi)容中共有的相似或相同的內(nèi)容或者部分內(nèi)容作為條目，集合成目錄或序列，或者連同各個相似子集的下一級子集的各自文本在所述關(guān)鍵詞査詢項鄰近內(nèi)容中共有的相似或相同的內(nèi)容或部分內(nèi)容作為下一級條目，集合成樹狀目錄。例如，在圖7中，我們用K表示關(guān)鍵詞査詢項，用大寫字母代表文本中鄰近內(nèi)容的詞，我們給出了含有K的多個文本的兩級相似子集(相似子集細分) 標志或條目的樹狀目錄實例的示意圖。其中，文本中關(guān)鍵詞査詢項1級鄰近范圍的長度為3個詞(關(guān)鍵詞査詢項后面第l一3詞)，2級鄰近范圍的長度為1級鄰近范圍之后3個詞(關(guān)鍵詞査詢項后面第4一6詞)。括號里面為相應(yīng)的相似子集的各自文本在所述關(guān)鍵詞査詢項鄰近內(nèi)容中分別共有的3個詞，作為目錄中的子集標志或條目，圖7中左惻的代表1級子集標志，右側(cè)的的代表2級子集標志，小號數(shù)目字表示相應(yīng)子集包含的文本數(shù)量。顯然，類似的目錄可以幫助査詢者更迅速地找到感興趣的子集和文本。需要時，本發(fā)明的處理方法可以包括安排代表性序列可以從各個相似子集或相同核心子集中各取出一個或多個文本，將這些文本或文本部分內(nèi)容組成序列。以上幾種處理得到的序列展現(xiàn)在交互界面時，都可以幫助査詢者在較小的篇幅里，看到不重復(fù)的或較少重復(fù)的各種不同關(guān)鍵詞核心內(nèi)容的概貌，并在有興趣時，再將相關(guān)內(nèi)容展開。本發(fā)明的處理方法也允許序列再壓縮即可以對已有的安排的不相似序列中的，或者代表性序列中的，或者目錄編組或者不同子集相似內(nèi)容的序列的多個文本或文本部分內(nèi)容的所述關(guān)鍵詞査詢項鄰近內(nèi)容，用較為寬松的是否屬于相似的判定標準，進行較為寬松的相似性比較，在已有序列中產(chǎn)生多個文本或文本部分內(nèi)容的新的相似子集或不相似序列或更精煉的代表性序列或目錄編組。例如，我們在產(chǎn)生已有的某種不相似序列時所依據(jù)的對不同文本的關(guān)鍵詞査詢項鄰近內(nèi)容屬于相似的判定標準，要求關(guān)鍵詞査詢項鄰近的8個詞中有至少7個與另一文本對應(yīng)的鄰近內(nèi)容相同，該序列含有互不相似的文本摘要560 條，數(shù)目過多，難以通覽；如果我們按照"關(guān)鍵詞査詢項鄰近的8個詞內(nèi)容中有至少6個與另一文本摘要對應(yīng)的關(guān)鍵詞査詢項鄰近內(nèi)容的詞相同，即屬于相似"的較為寬松標準，對這560條文本摘要再進行一次"安排不相4以序列"的處理，將得到一個數(shù)目大為減少的很可能只有2百余條摘要的新序列。盡管本發(fā)明的方法的效率比已有的網(wǎng)頁相似性分析分類技術(shù)大為提高，但如果面臨的同關(guān)鍵詞査詢項網(wǎng)頁是數(shù)以百萬計的，相似比較的過程涉及的計算量仍然太大。為此，本發(fā)明又提出了突破性的處理方法，可供選用這就是相同核心劃分再聚合首先安排核心內(nèi)容不相同序列，然后再對得到的序列中的多個文本或文本部分內(nèi)容的所述關(guān)鍵詞査詢項鄰近內(nèi)容，用是否厲于相似的判定標準(比核心內(nèi)容是否相同的判定標準寬松)進行相似性比較, 在已有序列中產(chǎn)生多個文本的或文本部分內(nèi)容的新的相似子集或不相似序列或更精煉的代表性序列或目錄編組。舉例來說，首先得到多個文本摘要的核心內(nèi)容不相同序列，其中部分摘要分別為".KXYZ…、…KPQR."、…KMNL…、…KMLN"、…KXZY…、."KYXZ."、 '"KZYX…、…KLMN…、…KRPQ."、…KLNM…、…KRQP"., 其中K代表各個文本共同具有的關(guān)鍵詞査詢項，其他字母各代表一個詞。如果對這個序列的各個摘要進行關(guān)鍵詞査詢項鄰近內(nèi)容再進行相似比較(標準是"各個詞分別彼此相同，順序可以不同"，就可以得到新的包含 "'KXYZ'"、 "'KXZY…、…KYXZ…、…KZYX"'的相似子集，包含"'KLMN…、'"KLNM'"、 '"KMNL…、…KMLN-的相似子集，以及包含'"KPQR…、…KRPQw、…KRQP."的相似子集；也可以得到一個新的不相似序列，上述原來序列成員僅僅剩下分別包含著 …KXYZ…、…KLMN…、…KPQR…的幾個文本摘要；或者得到包含著"(X， Y, Z)"、 "(L， M, N)"、 "(P, Q， R)" 等子集標記(或名稱)的目錄。這種方法得到的序列或目錄編組結(jié)果，與一開始就采用同樣較為寬松的相似判定標準進行安排不相似序列處理的結(jié)果基本上是相同的，然而計算量可能會減少幾個數(shù)量級。需要的話，可以進行界面展示與操作可以令包括處理方式在內(nèi)的處理過程和結(jié)果的指定的有關(guān)信息在交互界面顯示，允許査詢者在交互界面進行有關(guān) 處理的選擇或指示，可以利用光標點擊或鍵盤選擇或指示，可以根據(jù)霈要，使相應(yīng)的目錄或序列或子集中的子集或條目或項目或文本或文本部分內(nèi)容或摘要或題錄或詞語對應(yīng)的的更詳細內(nèi)容，或者下一級的子集或序列的目錄或更詳細內(nèi)容在交互界面展示。例如，在呈現(xiàn)在交互界面的各個相似子集名稱目錄或不相似序列中査詢者找到了感興趣的內(nèi)容，可以點擊相應(yīng)的名稱或條目，使相應(yīng)相似子集或相應(yīng)條目所在子集的更詳細的目錄或內(nèi)容或文本呈現(xiàn)或鏈接出來。為了方便查詢者選擇，本方法還可以允許標注數(shù)目可以允許所述的序列或目錄或條目或文本或通錄或摘要實例中或者在它們所包含的關(guān)鍵詞査詢項鄰近內(nèi)容附近，具有其相應(yīng)的并列子集數(shù)目或下級子集數(shù)目或文本數(shù)目或者相關(guān) 詞或詞段所在子集的并列子集數(shù)目或所含的下級子集數(shù)目或文本數(shù)目的提示。耱要的話還應(yīng)該具有確定排序的方法，實際上，對于上述目錄或序列或子集所含有的多個元素中的某一個元素的排列或顯示噸序或位置可以是隨機的，也可以部分或完全取決于下列其中某一個或多個因素-其所含或所在文本的佩奇鏈接值的大小或點擊率的高低或關(guān)鍵詞出現(xiàn)率的高低，或者該子集的下級子集數(shù)目或下屬文本數(shù)目的多少或者該子集點擊率的高低或者該子集的文本佩奇鏈接值的平均數(shù)值的大小，或者該元素所在子集的下級子集數(shù)目或下屬文本數(shù)目的多少或者所在子集點擊率的高低或者所在子集的文本佩奇鏈接值的平均數(shù)值的大小，或者該子集的佩奇鏈接值最高的文本或另外的文本實例的佩奇鏈接值的大小，或者該子集的點擊率最高的或關(guān)鍵詞出現(xiàn)率最高的文本或另外的文本實例的點擊率或關(guān)鍵詞出現(xiàn)率的高低，或者該元素或相關(guān)子集內(nèi)的相關(guān)文本在其他搜索網(wǎng)站或檢索系統(tǒng)搜索結(jié)果中的排序，或者有關(guān)元素的出資人相關(guān)付費或競價的高低，或者相關(guān)元素的詞或字的拼寫或拼音的字母順序或筆劃順序，或者文本的來源網(wǎng)站或鏈接網(wǎng)站或鏈接網(wǎng)頁或單位或人的評分，或者相關(guān)文本收錄的時間先后或新舊，或者是否屬于某一級的同一子集，或者通過一種目標函數(shù)值來決定，目標函數(shù)值取決于一個或多個變量的加權(quán)值，該目標函數(shù)的部分或全部變量分別代表上述所列其中某一個或多個因素。例如一個目標函數(shù)值可以表示為F(yn)，例如可以令F(y,，y,%)= F,(y,)+F2(y,)+……+F (y》；其中，y, ，y2，……^分別為前文發(fā)明內(nèi)容部分中所提到的決定具體排序位置的某一個或多個因素(變量)或其他因素。由于已有技術(shù)中(如US6285999專利)有許多具體排序處理方法可以參考，此處不再詳述。霈要指出，必要時以上方式中的一種或多種可以組合運用或反復(fù)運用。本處理方法還部分地具體體現(xiàn)在下面搜索系統(tǒng)或檢索系統(tǒng)的實施方式中。圖1所示實施例A為一個執(zhí)行本發(fā)明的電子文本處理方法的計算機數(shù)據(jù)系統(tǒng)的例子一互聯(lián)網(wǎng)搜索引擎系統(tǒng)。它包括設(shè)在帶有存儲器6和處理器7的服務(wù)器5上的搜索引擎8,該搜索引擎8通過互聯(lián)網(wǎng)的通訊網(wǎng)絡(luò)4與帶有交互界面2的客戶機3連接該搜索引擎8具有數(shù)據(jù)庫9、査詢器ll和關(guān)鍵詞鄰近內(nèi) 容比較處理裝置10或模塊，并且與數(shù)據(jù)采集器12與索引構(gòu)造器13連接數(shù)據(jù) 采集器12為數(shù)據(jù)庫9的文本庫從互聯(lián)網(wǎng)或其他信息源搜集和增添文本，索引構(gòu) 造器13對文本庫的文本分析得到文本索引#^給數(shù)據(jù)庫9的關(guān)鍵詞索引庫；實施例A的客戶機3上的客戶機應(yīng)用程序瀏覽器(微軟公司的Internet Explorer)允許用戶1通過通訊網(wǎng)絡(luò)4從服務(wù)器5檢索HTML文檔(包括Web 表單〉?？蛻魴C3上的交互界面(UI) 2允許用戶1利用監(jiān)視器、鍵盤或鼠標與檢索到的Web表單交互，提交搜索請求，作出選擇和接收搜索結(jié)果。實施例A的搜索方式可以參看圖4所示的流程框圖工作開始41，查詢器接收用戶1的關(guān)鍵詞査詢項請求42,關(guān)鍵詞鄰近內(nèi)容比St處理裝置10對從數(shù)據(jù)庫9得到的含有該關(guān)鍵詞査詢項的文本，按照預(yù)定的用戶默認的所述關(guān)鍵詞査詢項鄰近內(nèi)容的同樣劃取范圍(例如關(guān)鍵詞前2+后3 詞)，按照選定的或預(yù)定的標準對它們的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似進行判定。例如，此處的預(yù)定的判定標準是該范圍的5個詞中有4個或5 個與對比文本相同，視為相似，以此進行比較分類43。如果査詢者需要的話，也可以在該判定標準中增加對相同詞的順序的差別的限度的要求，或增加對相同詞的與關(guān)鍵詞査詢項的距離的限度的要求，或其他在前述的處理方法中提到的要求或參考因素。在分類產(chǎn)生子集(劃分相似子集或劃分相同核心子集)的基礎(chǔ)上，關(guān)鍵詞鄰近內(nèi)容比較處理裝置10將給出并顯示各個相似子集或相同核心子集的目錄或 ^^表性序列44。需要時，該關(guān)鍵詞鄰近內(nèi)容比較處理裝置10也可以安排和顯示不相似序列、安排核心內(nèi)容不相同序列。此處，各個子集在目錄里的標志例如可以是是該子集各文本關(guān)鍵詞鄰近內(nèi)容中都擁有的同樣4個詞。閱讀子集標志目錄或代表性序列，用戶很容易確定興趣所在，可以點擊展開相關(guān)內(nèi)容和使相關(guān)文本顯示45，或者因為目錄太長進行再聚合(序列再壓縮或相同核心劃分再聚合)顯示操作，或因為有興趣的子集的文本數(shù)量太大而進行細分(相^l子集細分)顯示操作或再分(相似子集再分)顯示操作或下級子集顯示操作始，即把細分或再分出來的下級子集的名稱目錄或各下級子集的代表性序列顯示出來。如此進行類似操作，或返回前面步驟48或返回47到開始 41。在上述處理過程中，也可以標注相關(guān)條目或文本數(shù)目、確定序列排序。另一個搜索引擎實施例B ,采用了獨特的高效相似性比較處理方法一前面所述的"相同核心劃分再聚合"處理方法。參看圖5:搜索引擎實施例B的關(guān)鍵詞鄰近內(nèi)容比較處理裝置10得到同一個關(guān)鍵詞査詢項的大量文本51后，例如確定關(guān)鍵詞査詢項鄰近內(nèi)容的劃取范圍為關(guān)鍵詞 "前2+后5詞"，(52)，在進行文本之間的相似性評估與判定53時，采用了 "該內(nèi)容必須完全相同"的要求，劃分出數(shù)目較多的相同核心子集54,因而，得到的"不同核心內(nèi)容的代表序列"55或子集目錄的篇輻較長。實標上，這是關(guān)鍵詞査詢項鄰近內(nèi)容(7個詞長)既不遺漏也不重復(fù)的代表序列，包括關(guān)鍵詞在內(nèi)的8個詞長的核心內(nèi)容一般可以讓査閱者判斷有無興趣。該代表序列的條目數(shù)，可以比原來常常數(shù)以百萬的條目數(shù)下降幾個數(shù)量級，使得通讀關(guān)鍵詞搜索結(jié)果變?yōu)榭赡?。如果面對?shù)百個結(jié)果仍然感到困難，需要選擇"寬松的相似判定標準"56，讓這些序列成員或目錄的條目再進行相似組合，進行相同核心劃分再聚合57，得到子集數(shù)量減少數(shù)倍或數(shù)十倍的相似子集，以及相應(yīng)的較少的"精煉序列或目錄編組"并存儲顯示58，供査詢者選用。需要時，査詢者可以通過點擊光標，展開相關(guān)子集的內(nèi)容或文本的內(nèi)容。圖2所示為另一個實施例C,是一種數(shù)據(jù)檢索系統(tǒng)，由數(shù)據(jù)處理單元23和與之相連的輸入單元21 (由鍵盤、鼠標等組成)、輸出單元22 (由顯示屏、打印機等組成)以及文本數(shù)據(jù)庫26等部分組成，其中輸入單元21和輸出單元22 共同構(gòu)成査詢者與該系統(tǒng)溝通的交互界面，該數(shù)據(jù)處理單元23包含存儲器24 和關(guān)鍵詞鄰近內(nèi)容處理裝置25。該數(shù)據(jù)處理單元23可以通過輸入單元21接收査詢者提出的關(guān)鍵詞査詢，從文本數(shù)據(jù)庫26或互聯(lián)網(wǎng)27收集有關(guān)數(shù)據(jù)，通過其包含的關(guān)鍵詞鄰近內(nèi)容處理裝置25對得到的含有同樣關(guān)鍵詞査詢項的大量文本進行前述的分類和處理，將檢索結(jié)果送輸出單元22。圖6所示為該數(shù)據(jù)檢索系統(tǒng)實施例C的處理操作流程框圖。具體工作過程如下-檢索系統(tǒng)工作開始61，用戶輸入關(guān)鍵詞査詢項請求62，關(guān)鍵詞鄰近內(nèi)容比較處理裝置25從存儲器24或文本數(shù)據(jù)庫26得到的含有該關(guān)鍵詞査詢項的文本，按照預(yù)定的用戶默認的所述關(guān)鍵詞査詢項鄰近內(nèi)容的同樣劃取范圍63 (例如關(guān)鍵詞査詢項后5詞)，按照選定的或預(yù)定的標準對它們的所述關(guān)鍵詞鄰近內(nèi) 容是否屬于相似進行判定(核心內(nèi)容比較)。此實施例的預(yù)定的判定標準是該范圍的5個詞中有4個或5個與對比文本相同，視為相似，以此進行核心內(nèi)容比較64。如果査詢者需要的話，也可以在該判定標準中增加對相同詞的順序的差別的限度(如一半以上詞的順序相同)的要求，或其他在前述的處理方法中提到的要求或參考因素。在比較分類的基礎(chǔ)上，關(guān)鍵詞鄰近內(nèi)容比較處理裝置25將產(chǎn)生各個相似子集或相同核心子集65,或者進一步安排不相似序列或安排核心內(nèi)容不相同序列或給出并顯示它們的目錄或代表性序列66。需要時，如有興趣的子集的文本數(shù) 量太大，該關(guān)鍵詞鄰近內(nèi)容比較處理裝置25也可以進行相似子集細分或相似子集再分67操作，并安排和顯示相應(yīng)的不相似序列或核心內(nèi)容不相同序列66。此實施例中，各個子集在目錄里的標志例如可以是相應(yīng)子集各文本關(guān)鍵詞鄰近內(nèi)容中都擁有的同樣4或5個詞。本實施例也可以按預(yù)定或選定標準為上述內(nèi) 容標注相應(yīng)的數(shù)目或確定排序69。閱讀子集標志目錄或代表性序列，用戶很容易確定興趣所在，可以進行界面展示與操作68,展開相關(guān)內(nèi)容和使相關(guān)文本顯示71,或者因為目錄太長進行再聚合(序列再壓縮或相同核心劃分再聚合70)操作，并將得到的子集的名稱目錄或各子集的代表性序列顯示出來。如此進行類似操作，或返回并多次進行前面步驟至文本顯示71或進行返回 72操作到開始71，以完成或再次進行檢索査詢工作。在上述處理過程中，都隨時可以標注相關(guān)條目或文本數(shù)目、確定序列排序69。以上實施例給出的技術(shù)特征都是提示性的，不允許用來限制本發(fā)明包括的范圍。
權(quán)利要求
1、一種計算機運用的對多個電子文本進行處理的方法，包括[i]獲得多個含有同樣關(guān)鍵詞查詢項的電子文本；[ii]確定各個文本內(nèi)容中所述關(guān)鍵詞查詢項鄰近內(nèi)容的同樣劃取范圍，所述關(guān)鍵詞查詢項鄰近內(nèi)容為文本內(nèi)容中所述關(guān)鍵詞查詢項之外的與之鄰近的劃取范圍內(nèi)的內(nèi)容；[iii]規(guī)定不同文本的所述關(guān)鍵詞查詢項鄰近內(nèi)容是否屬于相似的判定標準，該標準至少包括或間接包含對來自不同文本的所述關(guān)鍵詞查詢項鄰近內(nèi)容中彼此相同部分的多少或所占比例的要求，其中相同部分可以是指彼此相同的字詞或詞根或字符或詞組；[iv]按照[iii]所述對不同文本的所述關(guān)鍵詞查詢項鄰近內(nèi)容是否屬于相似的判定標準，確定這些文本的所述關(guān)鍵詞查詢項鄰近內(nèi)容相互之間是否屬于相似，并根據(jù)這些文本的所述關(guān)鍵詞查詢項鄰近內(nèi)容相互之間是否屬于相似對這些文本進行分類，并以其分類的相同或不同對這些文本進行處理；所述的電子文本或文本指的可以是計算機或數(shù)據(jù)庫或信息存貯裝置或互聯(lián)網(wǎng)或服務(wù)器或者搜索引擎的數(shù)據(jù)庫或數(shù)據(jù)處理器等裝置中的文件、文本或網(wǎng)頁或摘要或題錄或標題或索引或章節(jié)或段落或包含文字或字符內(nèi)容的信息。
2、按照權(quán)利要求1所述的方法，其中[iii]對所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相4以的判定標準，還可以依據(jù)或參考以下評估因素或原則中的一個或多個-來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否完全相同；來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼此相同部分分別在原文中相對于原關(guān)鍵詞査詢項的前后位置或距離的差別大??；來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中各個彼此相同部分分別在原文中的瀬序的差別大小；來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼此相同部分分別在原文中與原關(guān)鍵詞査詢項的距離的大小；利用矢量空間模型的計算方法為來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi) 容的彼此相似程度給出的數(shù)值的大小或者對以上評估因素中的一個或多個或其他因素加權(quán)，給出一種或多種目標函數(shù)(objective foncti加)以得出來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容的相應(yīng)的相似性程度或得出是否屬于相似的判定。
3、按照權(quán)利要求1所述的方法，其中上述[iv]所述的處理，可以包括-令相應(yīng)文本或文本的部分內(nèi)容具有相同或不同的分布位置或存儲方式，或者劃分為相同或不同的子集，或者得到相同或不同的子集標記，或者使得其在數(shù) 據(jù)庫的索引具有相同或不同的標記或索引項，或者具有相同或不同的編排方式，或者在交互界面具有相同或不同的顯示方式或位置，或者允許至少部分子集各有一個或多個題錄或摘要或文本或子集內(nèi)文本的相似的關(guān)鍵詞査詢項鄰近內(nèi)容或其中的相同部分迸行跨子集組合或排序或在交互界面展示。
4、按照權(quán)利要求l所述的方法，其中-上述[iv]所述的處理，可以包括劃分相似子集可以將多個文本或文本部分內(nèi)容劃分為多個相似子集，同一相似子集里的各個文本或文本部分內(nèi)容的所述關(guān)鍵詞査詢項鄰近內(nèi)容屬于相似。
5、按照權(quán)利要求l所述的方法，其中上述[iv所述的處理，可以包括劃分相同核心子集可以將多個文本或文本部分內(nèi)容劃分為多個相同核心子集，要求同一相同核心子集里的各個文本或文本部分內(nèi)容的所述關(guān)鍵詞査詢項鄰近內(nèi)容都相同。
6、按照權(quán)利要求1或4或5所述的方法，其中上述[iv所述的處理，可以包括相似子集細分可以在劃分相似子集或劃分相同核心子集的基礎(chǔ)上，用關(guān)于關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的更嚴格判定標準或更多的判定因素，將已有的任一個相似子集或相同核心子集中的多個文本或文本部分內(nèi)容劃分為多個下一級相似程度更高的子集。
7、按照權(quán)利要求1或4或5所述的方法，其中上述〖iv]所述的處理，可以包括相似子集再分可以在劃分相似子集或劃分相同核心子集.的基礎(chǔ)上，對已有的一個相似子集或相同核心子集里的多個文本或文本部分內(nèi)容中原有的關(guān)鍵詞査詢項鄰近內(nèi)容劃取范圍之外的一定鄰近范圍的新內(nèi)容再進行相似性比較，根據(jù)其相似與否，將這些文本或文本部分內(nèi) 容劃分為多個下一級相似子集。
8、按照權(quán)利要求1所述的方法，其中上述iv]所述的處理，可以包括安排不相似序列可以從多個文本中安排出不相似序列，同一不相似序列里的不同文本或文本部分內(nèi)容的所述關(guān)鍵詞查詢項鄰近內(nèi)容可以全部或基本上都不屬于相似；或者同一不相似序列里的全部或多數(shù)文本或文本部分內(nèi)容中，沒有一個文本或文本部分內(nèi)容的關(guān)鍵詞査詢項鄰近內(nèi)容，與一個或規(guī)定數(shù)目以上的其他文本或文本都分內(nèi)容的關(guān)鍵詞查詢項鄰近內(nèi)容屬于相^l或相同。
9、按照權(quán)利要求1所述的方法，其中上述iv]所述的處理，可以包括安排核心內(nèi)容不相同序列可以從多個文本中安排出核心內(nèi)容不相同序列，同一個核心內(nèi)容不相同序列里的不同文本或文本部分內(nèi)容的所述關(guān)鍵詞查詢項鄰近內(nèi)容可以全部或基本上都屬于不完全相同；或者同一個核心內(nèi)容不相同序列里的全部文本或多數(shù)文本或文本部分內(nèi)容中，沒有一個文本或文本部分內(nèi)容的關(guān)鍵詞査詢項鄰近內(nèi)容，與一個或規(guī)定數(shù) 目以上的其他文本或文本部分內(nèi)容的關(guān)鍵詞査詢項鄰近內(nèi)容屬于完全相同。
10、按照權(quán)利要求1所述的方法，其中上述〖iv]所述的處理，可以包括目錄編組或安排不同子集相似內(nèi)容的序列可以將各個劃分的相似子集的各自文本在所述關(guān)鍵詞査詢項鄰近內(nèi)容中共有的相似或相同的內(nèi)容或者部分內(nèi)容作為條目，集合成目錄或序列，或者連同各個相似子集的下一級子集的各自文本在所述關(guān)鍵詞査詢項鄰近內(nèi)容中共有的相似或相同的內(nèi)容或部分內(nèi)容作為條目，集合成樹狀目錄。
11、按照權(quán)利要求1所述的方法，其中上述[iv所述對這些文本進行的處理，可以包括安排代表性序列可以從各個相似子集或相同核心子集中各取出一個或多個文本，將這些文本或文本部分內(nèi)容組成序列。
12、按照權(quán)利要求1或8或9或10或U所述的方法，其中上述[iv〗所述的處理，可以包括序列再壓縮可以對已有的安排的不相似序列中的，或者代表性序列中的，或者目錄編組或者不同子集相似內(nèi)容的序列的多個文本或文本部分內(nèi)容的所述關(guān)鍵詞査詢項鄰近內(nèi)容，用較為寬松的是否屬于相似的判定標準，進行較為寬松的相似性比較，在已有序列中產(chǎn)生多個文本或文本部分內(nèi)容的新的相似子集或不相似序列或更精煉的代表性序列或目錄編組。
13、按照權(quán)利要求1或9所述的方法，其中上述[iv所述的處理，可以包括相同核心劃分再聚合首先安排核心內(nèi)容不相同序列，然后再對得到的序列中的多個文本或文本部分內(nèi)容的所述關(guān)鍵詞査詢項鄰近內(nèi)容，用是否屬于相似的判定標準進行相似性比較，在已有序列中產(chǎn)生多個文本或文本部分內(nèi)容的新的相似子集或不相似序列或更精煉的代表性序列或目錄編組。
14、按照權(quán)利要求1或2或3所述的方法，其中上述iv所述的處理，可以包括界面展示與操作可以令包括處理方式在內(nèi)的處理過程和結(jié)果的指定的有關(guān)信息在交互界面皋示，允許査詢者在交互界面進行有關(guān)處理的選擇或指示，可以利用光標點擊或鍵盤選擇或指示，可以根據(jù)需要，使相應(yīng)的目錄或序列或子集中的子集或條目或項目或文本或文本部分內(nèi)容或摘要或題錄或詞語對應(yīng)的的更詳細內(nèi)容，或者下一級的子集或序列的目錄或更詳細內(nèi)容在交互界面展示。
15、按照權(quán)利要求1或2或3所述的方法，其中上述iv]所述對這些文本進行的處理，可以包括標注數(shù)目可以允許所述的序列或目錄或條目或文本或題錄或摘要實例中或者在它們所包含的關(guān)鍵詞査詢項鄰近內(nèi)容附近，具有其相應(yīng)的并列子集數(shù)目或下級子集數(shù)目或文本數(shù)目或者相關(guān)詞或詞段所在子集的并列子集數(shù)目或所含的下級子集數(shù)目或文本數(shù)目的提示。
16、按照權(quán)利要求1或2或3或8或9或10或11所述的方法，其中上述[iv]所述的處理，可以包括確定排序?qū)τ谏鲜瞿夸浕蛐蛄谢蜃蛹?含有的多個元素中的某一個元素的排列或顯示順序或位置可以是隨機的，也可以部分或完全取決于下列其中某一個或多個因素其所含或所在文本的佩奇鏈接值的大小或點擊率的高低或關(guān)鍵詞出現(xiàn)率的高低,或者該子集的下級子集數(shù)目或下屬文本數(shù)目的多少或者該子集點擊率的高低或者該子集的文本佩奇鏈接值的平均數(shù)值的大小，或者該元素所在子集的下級子集數(shù)目或下屬文本數(shù)目的多少或者所在子集點擊率的高低或者所在子集的文本佩奇鏈接值的平均數(shù)值的大小，或者該子集的佩奇鏈接值最高的文本或另外的文本實例的佩奇鏈接值的大或者該子集的點擊率最高的或關(guān)鍵詞出現(xiàn)率最高的文本或另外的文本實例的點擊率或關(guān)鍵詞出現(xiàn)率的高低，或者該元素或相關(guān)子集內(nèi)的相關(guān)文本在其他搜索網(wǎng)站或檢索系統(tǒng)搜索結(jié)果中的排序，或者有關(guān)元素的出資人相關(guān)付費或競價的高低，或者相關(guān)元素的詞或字的拼寫或拼音的字母順序或筆劃順序，或者文本的來源網(wǎng)站或鏈接網(wǎng)站或鏈接網(wǎng)頁或單位或人的評分，或者相關(guān)文本收錄的時間先后或新舊，或者是否屬于某一級的同一子集，或者通過一種目標函數(shù)值來決定，目標函數(shù)值取決于一個或多個變量的加權(quán)值，該目標函數(shù)的部分或全部變量分別代表上述所列其中某一個或多個因素。
17、一種數(shù)據(jù)檢索系統(tǒng)，包括數(shù)據(jù)處理單元和與之相連的輸入單元、輸出單元以及文本數(shù)據(jù)庫，其數(shù)據(jù) 處理單元可以通過輸入單元接收關(guān)鍵詞查詢，從文本數(shù)據(jù)庫或者必要時從互聯(lián) 網(wǎng)收集和處理有關(guān)數(shù)據(jù)，將檢索結(jié)果送輸出單元；其特點在于該數(shù)據(jù)處理單元包含存儲器和關(guān)鍵詞鄰近內(nèi)容處理裝置；所述關(guān)鍵詞鄰近內(nèi)容處理裝置，可以〖i〗獲得多個含有同樣關(guān)鍵詞査詢項的電子文本；[ii確定各個文本內(nèi)容中所述關(guān)鍵詞査詢項鄰近內(nèi)容的同樣劃取范圍，所述關(guān)鍵詞査詢項鄰近內(nèi)容為文本內(nèi)容中所述關(guān)鍵詞查詢項之外的與之鄰近的劃取范圍內(nèi)的內(nèi)容；[iii規(guī)定不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的判定標準，該標準至少包括或間接包含對來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼此相同部分的多少或所占比例的要求，其中相同部分可以是指彼此相同的字詞或詞根或字符或詞組；〖iv]按照[iii所述對不同文本的所述關(guān)鍵詞查詢項鄰近內(nèi)容是否屬于相似的判定標準，確定這些文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容相互之間是否屬于相寸以，并根據(jù)這些文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容相互之間是否屬于相似對這些文本進行分類，并以其分類的相同或不同對這些文本進行處理；處理方式可以包括以下一種或多種劃分相似子集、劃分相同核心子集、相似子集細分、相似子集再分、安排不相似序列、安排核心內(nèi)容不相同序列、目錄編組或安排不同的相似內(nèi)容的序列、安排代表性序列、序列再壓縮、相同核心劃分再聚合、界面展示與操作、標注數(shù)目、確定排序。
18、一種響應(yīng)用戶經(jīng)由交互界面提出的要求，提供所期望搜索結(jié)果的搜索引擎系統(tǒng)，包括服務(wù)器，該服務(wù)器經(jīng)由通訊網(wǎng)絡(luò)或線路與所述交互界面所在的客戶機耦合；位于服務(wù)器的搜索引擎，所述搜索引擎包括包括關(guān)鍵詞索引在內(nèi)的數(shù)據(jù)庫，以及査詢器，該査詢器能夠根據(jù)查詢者提出的關(guān)鍵詞要求在所述數(shù)據(jù)庫進行査詢并將査詢到的相關(guān)數(shù)據(jù)結(jié)果列表提供給交互拜面；其特點在于-所述査詢器或搜索引擎還包括關(guān)鍵詞鄰近內(nèi)容比較處理裝置，可以i]獲得多個含有同樣關(guān)鍵詞査詢項的電子文本；間確定各個文本內(nèi)容中所述關(guān)鍵詞査詢項鄰近內(nèi)容的同樣劃取范圍，所述關(guān)鍵詞查詢項鄰近內(nèi)容為文本內(nèi)容中所述關(guān)鍵詞査詢項之外的與之鄰近的劃取范圍內(nèi)的內(nèi)容[iii〗規(guī)定不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的判定標準，該標準至少包括或間接包含對來自不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容中彼此相同部分的多少或所占比例的要求，其中相同部分可以是指彼此相同的字詞或詞根或字符或詞組；[iv按照[iii所述對不同文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容是否屬于相似的判定標準，確定這些文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容相互之間是否屬于相似，并根據(jù)這些文本的所述關(guān)鍵詞査詢項鄰近內(nèi)容相互之間是否屬于相似對這些文本進行分類，并以其分類的相同或不同對這些文本進行處理；處理方式可以包括以下一種或多種劃分相似子集、劃分相同核心子集、相似子集細分、相似子集再分、安排不相似序列、安排核心內(nèi)容不相同序列、目錄編組或安排不同的相似內(nèi)容的序列、安排代表性序列、序列再壓縮、相同核心劃分再聚合、界面展示與操作、標注數(shù)目、確定排序。
全文摘要
一種便于查詢和搜索的電子文本的處理方法和包含關(guān)鍵詞查詢項鄰近內(nèi)容比較處理裝置的檢索或搜索系統(tǒng)，對不同文本關(guān)鍵詞查詢項的劃定范圍內(nèi)的鄰近內(nèi)容之間是否相似進行比較，以其是否屬于相似進行判定或分類，進而進行劃分子集、安排各種序列或形成目錄、排序、界面展示等處理，能夠顯著提高信息檢索或網(wǎng)上信息搜索的便捷性和嚴密性。
文檔編號G06F17/30GK101246484SQ200710164148
公開日2008年8月20日申請日期2007年10月8日優(yōu)先權(quán)日2007年2月15日
發(fā)明者劉二中申請人:劉二中

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉二中
技術(shù)所有人：劉二中
我是此專利的發(fā)明人

上一篇：感測模塊的制作方法
上一篇：一種社區(qū)保健連鎖機構(gòu)組網(wǎng)、診療方法及其系統(tǒng)和終端的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文本相似性相關(guān)技術(shù)

文本相似性算法相關(guān)技術(shù)

文本相似性計算相關(guān)技術(shù)

短文本相似性相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種便于查詢的電子文本的相似性處理方法和系統(tǒng)的制作方法