專利名稱:一種聚合相同主題網絡文檔的方法及系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及網絡文檔聚合領域,特別是涉及一種聚合相同主題網絡文檔的 方法及系統(tǒng)。
技術背景在網絡上,將相同主題的網絡文檔聚合在一起,提供給用戶,便于用戶對 該主題的相關內容進行全面、細致的了解,是網絡服務的一項重要內容?,F(xiàn)有 技術中,許多網站主要通過編輯,人工整理主題相同的網絡文檔,但人力畢竟 有限,面對數(shù)據(jù)量龐大的網絡資源,人工編輯顯然無法全面、及時地整理相同 主題的網絡文檔。目前,部分大型網站采用傳統(tǒng)的分類和聚類方法,聚合相同 主題的網絡文檔。參閱圖l,示出現(xiàn)有聚合相同主題網絡文檔的方法,具體包括以下步驟。步驟SlOl、將網絡文檔按主題所屬類別分類,為各類網絡文檔分別設置關鍵詞庫。關鍵詞庫中的關鍵詞集中反映該類網絡文檔的特性。例如,以某明 星為主題的網絡文檔,其關鍵詞庫包括該明星的姓名、主要歌曲名、主演電影 名等詞語。步驟S102、對新查找到的網絡文檔,提取該網絡文檔中全部詞語,組成 關4建詞庫。步驟S103、將新查找網絡文檔的關鍵詞庫,與各類網絡文檔的關4建詞庫 進行匹配,選出詞語匹配度最大的一個類別,新查找的網絡文檔與該類網絡文 檔主題相同。例如,新查找的網絡文檔為有關"911"事件的才艮道,關4建詞庫 包括"9月11"、"恐怖分子"、"飛機"、"世貿大廈"等詞語。而"911"事件 類網絡文檔的關鍵詞庫也會包含上述各詞語,因此,這兩個關鍵詞庫的詞語匹 配度就會相對較高。步驟S104、將新查找的網絡文檔聚合到該類網絡文檔。 上述方法雖然能夠較好地將新查找的網絡文檔聚合到相同主題的網絡文 檔,但需要對檢索到的每一篇網絡文檔,都整理成關鍵詞庫,再與各類網絡文 檔的關鍵詞庫匹配,網絡文檔一般需要細分為多個分類,這樣需處理的數(shù)據(jù)量 過大,造成網絡更新速度慢,影響用戶的體驗感。上述方法在判斷時,主要依據(jù)關鍵詞庫內的關鍵詞,如關鍵詞選擇不當, 或主題相近網絡文檔的關鍵詞庫中關鍵詞大部分相同,很容易造成誤判,不能 準確聚合主題相同的網絡文檔,降低用戶的體驗感。 發(fā)明內容本發(fā)明所要解決的技術問題是提供一種聚合主題相同網絡文檔的方法,以 解決現(xiàn)有技術中聚合主題相同網絡文檔,需處理的數(shù)據(jù)量過大,造成網絡更新 速度慢,影響用戶的體驗感的問題。該方法可提高網絡更新速度,提高用戶的 體-瞼感。本發(fā)明的另一個目的是提供一種聚合主題相同網絡文檔的系統(tǒng),該系統(tǒng)能 夠提高網絡更新速度,提高用戶的體驗感。本發(fā)明 一種聚合相同主題網絡文檔的方法,包括獲取當前網絡文檔中各 詞語的權重值,依次選取兩個或兩個以上權重值較高的詞語組成檢索詞,利用 組成的檢索詞檢索相同主題網絡文檔,直至某個檢索詞檢索的相同主題網絡文 檔數(shù)量超過預置數(shù)值,聚合上述當前網絡文檔和相同主題網絡文檔。優(yōu)選的,聚合上述當前網絡文檔和相同主題網絡文檔之前,還包括使用 哈希表表示當前網絡文檔和相同主題網絡文檔中各詞語的向量值,依據(jù)所述各 詞語的向量值計算所述相同主題網絡文檔與當前網絡文檔的相關度值,去除相 關度值低于預設數(shù)值的相同主題網絡文檔。優(yōu)選的,依據(jù)所述各詞語的向量值計算所述相同主題網絡文檔與當前網絡 文檔的相關度值具體為,按出現(xiàn)頻次升序排列當前網絡文檔和相同主題網絡文 檔中的各詞語,將相同主題網絡文檔中的各詞語的向量值,與對應的當前網絡 文檔的各詞語的向量值分別相乘,獲得的積相加,作為第一數(shù)據(jù),將相同主題 網絡文檔中各詞語的向量值分別平方后,相加;將當前網絡文檔中各詞語的向 量值分別平方后,相加;將上述計算的和相乘,再開方,作為第二數(shù)據(jù),所述 第一數(shù)據(jù)除以所述第二數(shù)據(jù)的商,作為相同主題網絡文檔與當前網絡文檔的相 關度值。優(yōu)選的,依次選取兩個或兩個以上權重值較高的詞語組成檢索詞具體為 將上述各詞語按權重值降序排列,從首個詞語開始,依次將上一詞語及同該詞 語相臨的下一詞語組成^r索詞。優(yōu)選的,獲取當前網絡文檔中每個詞語的權重值具體為,在當前網絡文檔 中統(tǒng)計各詞語的出現(xiàn)頻次,獲取各詞語命中的索引文檔數(shù)量和總索引文檔數(shù) 量,將總索引數(shù)量除以該詞語命中的索引數(shù)量,再取對數(shù),得到的數(shù)值乘以上 述出現(xiàn)頻次,得到該詞語的權重值。優(yōu)選的,在當前網絡文檔中統(tǒng)計各詞語的出現(xiàn)頻次具體為,獲取該詞語在 當前網絡文檔中出現(xiàn)的位置,及在該位置的出現(xiàn)次數(shù),將詞語在該位置的出現(xiàn) 次數(shù)乘以該位置對應系數(shù),乘積相加后作為該詞語的出現(xiàn)頻次。優(yōu)選的,在當前網絡文檔中統(tǒng)計各詞語的出現(xiàn)頻次具體為,統(tǒng)計詞語在當 前網絡文檔中出現(xiàn)次數(shù),判斷該詞語是否在網絡文檔主題位置出現(xiàn),如是,在 該詞語總出現(xiàn)次數(shù)上加設定數(shù)值,作為該詞語的出現(xiàn)頻次。本發(fā)明一種聚合相同主題網絡文檔的系統(tǒng),包括權重值計算模塊、檢索詞組成模塊、網絡文檔檢索模塊、及聚合模塊所述權重值計算模塊,用于獲取 當前網絡文檔中各詞語的權重值;所述^r索詞組成^f莫塊,用于依次選取兩個或 兩個以上權重值較高的詞語組成檢索詞;所述網絡文檔檢索模塊,用于利用組 成的檢索詞檢索相同主題網絡文檔,直至某個檢索詞檢索的相同主題網絡文檔 數(shù)量超過預置數(shù)值;所述聚合模塊,用于聚合上述當前網絡文檔和相同主題網 絡文檔。優(yōu)選的,所述檢索詞組成模塊包括詞語排列子模塊和組成子模塊所述詞 語排列子模塊,用于將上述各詞語按權重值降序排列;所述組成子模塊,用于 從首個詞語開始,依次將上一詞語及同該詞語相臨的下一詞語組成^r索詞。優(yōu)選的,還包括向量值模塊,相關度計算模塊、去除模塊所述向量值模 塊,用于使用哈希表表示當前網絡文檔和相同主題網絡文檔中各詞語的向量 值;所述相關度計算模塊,用于依據(jù)所述各詞語的向量值計算所述相同主題網 絡文檔與當前網絡文檔的相關度值;所述去除模塊,用于去除相關度值低于預 設數(shù)值的相同主題網絡文檔。與現(xiàn)有技術相比,本發(fā)明具有以下優(yōu)點本發(fā)明組合當前網絡文檔中權重值較高的詞語作為檢索詞,檢索相同主題 網絡文檔,因權重值高的詞語,具有很強的代表性,能夠很好的反應當前網絡 文檔的特性。由兩個或兩個以上權重值較高的詞語組成的檢索詞檢索到的網絡文檔,與當前網絡文檔同主題的可能性非常大。本發(fā)明在選取同主題網絡文檔 的過程中,只需選取合適的詞語組成檢索詞檢索,相對與圖1所示的現(xiàn)有技術, 本發(fā)明不需將查找的各種網絡文檔與各類主題的網絡文檔——對比,需處理的 數(shù)據(jù)量較小,在應用過程中,網絡更新速度快,有利于提高用戶的體驗感。
圖1為現(xiàn)有聚合相同主題網絡文檔的方法流程圖;圖2為本發(fā)明聚合相同主題文檔的方法第一實施例流程圖;圖3為本發(fā)明計算當前網絡文檔中各詞語的權重值的方法流程圖;圖4為本發(fā)明聚合網絡相關文檔的方法第二實施例流程圖;圖5為本發(fā)明聚合相同主題網絡文檔的系統(tǒng)第一實施例示意圖;圖6為本發(fā)明檢索詞組成模塊結構示意圖;圖7示出本發(fā)明聚合相同主題網絡文檔的系統(tǒng)第二實施例示意圖。
具體實施方式
為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結合附圖和具體實施方式
對本發(fā)明作進一步詳細的說明。本發(fā)明將當前網絡文檔中權重值較高的詞語組成檢索詞,利用檢索詞斗企索 與當前網絡文檔主題相同的網絡文檔,將^r索到的網絡文檔和當前網絡文檔聚 合。本發(fā)明聚合相同主題網絡文檔的方法可應用于多個相關領域,方便用戶集 中閱讀,如專題新聞聚合領域,專題事件聚合領域等等。參閱圖2,示出本發(fā)明聚合相同主題文檔的方法第一實施例,具體步驟如 下所述。步驟S201、獲取當前網絡文檔中各詞語的權重值。將當前網絡文檔中各 詞語間隔開,去除介詞、語氣詞、感嘆詞等不具有實質意義的虛詞,提取名詞、 動詞等具有實質意義的詞語,依次計算提取詞語的權重值。權重值表示該詞語 同當前網絡文檔主題內容的相關程度,相關程度越高,權重值也相應越高。例如,當前網絡文檔為一篇專利文檔,該文檔中與專利緊密相關詞語的權 重值就相對較高,如,"專利"、"申請"、"無效"、"審查"、"復審,,等等。步驟S202、依次選取兩個或兩個以上權重值較高的詞語組成沖企索詞,利 用組成的檢索詞檢索相同主題網絡文檔,直至某個檢索詞檢索的相同主題網絡文檔數(shù)量超過預置數(shù)值。預置數(shù)值可的取值范圍可大于10。將首先選取的檢索詞檢索相同主題網絡文檔,判斷檢索到的相同主題網絡文檔是否超過預置數(shù)值,如是,停止組成檢索詞,提取檢索到的網絡文檔;如 否,繼續(xù)組成檢索詞重新檢索,直至某個檢索詞檢索的相同主題網絡文檔數(shù)量 超過預置數(shù)值。例如,在上述專利文檔中,選取權重值較高的"專利"和"申請"兩個詞 語組成檢索詞"專利申請",使用檢索詞"專利申請"檢索相同主題網絡文檔, 判斷檢索到的網絡文檔數(shù)量是否超過10個,如是,停止檢索;如否,繼續(xù)在 上述專利文檔中選取權重值較高詞語組成檢索詞,如選取"專利"和"無效" 兩個詞語組成檢索詞"專利無效",重新檢索,直到某個檢索詞檢索到網絡文 檔的數(shù)量超過10個。本發(fā)明可采取多種方式選耳又兩個或兩個以上權重值較高的詞語組成4全索 詞,其目的是使檢索詞能夠在盡可能的反應當前網絡文檔的主題內容特性。例如,將權重值超過設定數(shù)值的詞語組成詞語庫,在該詞語庫中隨機選取 兩個或兩個以上的詞語組成4企索詞。再例如,將詞語按權重值降序排列,將首個詞語依次與第二、第三、第四 個詞語組合成檢索詞。舉例為,詞語排列為A、 B、 C、 D…,依次組成的4企索詞 為AB、 AC、 AD...。再例如,將詞語按權重值P爭序排列,從首個詞語開始,依次將上一詞語與 該詞語相臨的下一詞語組成檢索詞。舉例為,詞語排列為A、 B、 C、 D...,依次 組成的^r索詞為AB、 BC、 CD...。步驟S 2 0 3 、聚合上述當前網絡文檔和相同主題網絡文檔。本發(fā)明組合當前網絡文檔中權重值較高的詞語作為檢索詞,檢索相同主題 網絡文檔,因權重值高的詞語,具有很強的代表性,能夠很好的反應當前網絡 文檔的特性。由兩個或兩個以上權重值較高的詞語組成的檢索詞檢索到的網絡 文檔,與當前網絡文檔同主題的可能性非常大。本發(fā)明在選取同主題網絡文檔的過程中,只需選取合適的詞語組成檢索詞 檢索,不需將查找的各種網絡文檔與各類主題的網絡文檔——對比,需處理的 數(shù)據(jù)量較小,在應用過程中,網絡更新速度快,有利于提高用戶的體驗感。在本發(fā)明上述步驟S201中,本發(fā)明可采用多種方式計算當前網絡文檔中 各詞語的權重值,其主體思想是利用詞語在當前網絡文檔中的出現(xiàn)頻次,及該 詞語在各網絡文檔中通用程度,通過相關算式計算該詞語的權重值。參閱圖3,示出本發(fā)明計算當前網絡文檔中各詞語的權重值的方法,具體 步驟如下所述。步驟S301、在當前網絡文檔中統(tǒng)計各詞語的出現(xiàn)頻次。詞語在當前網絡 文檔中出現(xiàn)次數(shù)越多,出現(xiàn)位置越重要,該詞語的出現(xiàn)頻次也就越大。本發(fā)明 可采用多種方式統(tǒng)計詞語的出現(xiàn)頻次,在此介紹優(yōu)選的兩種統(tǒng)計方式。例如,獲取詞語在當前網絡文檔中出現(xiàn)的位置,及在該位置的出現(xiàn)次數(shù), 將詞語在該位置的出現(xiàn)次數(shù)乘以該位置對應系數(shù),乘積相加得到的數(shù)值,作為 該詞語的出現(xiàn)頻次。如,詞語在當前網絡文檔的標題位置出現(xiàn)1次,在當前網 絡文檔正文中出現(xiàn)15次,標題位置的系數(shù)為8,正文位置的系數(shù)為1,則該詞 語的出現(xiàn)頻次為1x8 + 15x1 = 23。再例如,統(tǒng)計詞語在當前網絡文檔中出現(xiàn)次數(shù),判斷該詞語是否在網絡文 檔主題位置出現(xiàn),如是,在該詞語總出現(xiàn)次數(shù)上加設定數(shù)值,作為該詞語的出 現(xiàn)頻次。如,統(tǒng)計某詞語在當前網絡文檔中總出現(xiàn)次數(shù)為12,該詞語在網絡 文檔主題位置出現(xiàn),設定數(shù)量為10,該詞語的出現(xiàn)頻次為12 + 10 = 22。步驟S302、獲取各詞語命中的索引文檔數(shù)量和總索引文檔數(shù)量。網絡服 務器通過遍歷方式獲得各種網絡文檔的總索引文檔數(shù)量,再利用該詞語在總索 引文檔中檢索,統(tǒng)計該詞語命中的索引文檔數(shù)量。步驟S303、計算得到該詞語的權重值,權重值計算算式為詞語權重值-TF x lg (N/n);其中,TF為該詞語的出現(xiàn)頻次,N表示總索引文檔的數(shù)量,n表示該詞語 命中的索引文檔數(shù)量。當然,本發(fā)明還可采用其它多種權重值算式進行計算,例如詞語權重值^F x K (N/n),其中,K為系數(shù)。再例^口詞語權重值^Fx (N/n) +Z,其中,Z為常數(shù)。本發(fā)明通過詞語在當前網絡文檔中的出現(xiàn)頻次,及該詞語在各網絡文檔中通用程度,計算出該詞語相對于當前網絡文檔的權重值,該權重值可較好的反 應該詞語對于當前網絡文檔特性的代表程度。為進一步保證檢索的同主題網絡文檔的與當前網絡文檔相關程度高,本發(fā) 明可采用多種方式對檢索到的網絡文檔進一步篩選,選取與當前網絡文檔相關 程度高的網絡文檔。參閱圖4,示出本發(fā)明聚合網絡相關文檔的方法第二實施例,具體步驟如下所述。步驟S401、獲取當前網絡文檔中各詞語的權重值。步驟S402、依次選取兩個或兩個以上權重值較高的詞語組成4企索詞,利 用組成的檢索詞檢索相同主題網絡文檔,直至某個檢索詞檢索的相同主題網絡 文檔數(shù)量超過預置數(shù)值。步驟S403、使用哈希表表示當前網絡文檔和檢索到的網絡文檔中各詞語 的向量值。步驟S404、按出現(xiàn)頻次升序排列當前網絡文檔和檢索到網絡文檔中的各 詞語。步驟S405、依據(jù)各詞語的向量值計算檢索到的網絡文檔與當前網絡文檔 的相關度值。計算算式為其中,"z'表示當前網絡文檔中各詞語的向量值,^表示檢索到的網絡文檔 中各詞語的向量值。步驟S406、去除相關度值低于預設數(shù)值的相同主題網絡文檔。預設數(shù)值 可根據(jù)當前網絡文檔的主題類型進行調整。步驟S407、聚合當前網絡文檔和相同主題網絡文檔。本發(fā)明通過詞語向量計算當前網絡文檔與檢索到的網絡文檔相關度值,選 擇與當前網絡文檔相關程度較高的網絡文檔,進一 步提高聚合同主題網絡文檔 的精度?;谏鲜鼍酆舷嗤黝}網絡文檔的方法,本發(fā)明還提供一種聚合相同主題網絡文檔的系統(tǒng),該系統(tǒng)能夠提高網絡更新速度,提高用戶的體驗感。參閱圖5,示出本發(fā)明聚合相同主題網絡文檔的系統(tǒng)第一實施例,包括權重值計算模塊51、檢索詞組成模塊52、網絡文檔檢索模塊53、及聚合模塊54。 權重值計算模塊51獲取當前網絡文檔中各詞語的權重值。權重值表示該 詞語同當前網絡文檔主題內容的相關程度,相關程度越高,權重值也相應越高。 權重值計算模塊51將獲取的權重值發(fā)送到檢索詞組成模塊52。檢索詞組成模塊52依次選取兩個或兩個以上權重值較高的詞語組成;f企索 詞。檢索詞組成模塊52可將權重值超過設定數(shù)值的詞語組成詞語庫,在該詞 語庫中隨機選取兩個或兩個以上的詞語組成檢索詞;檢索詞組成才莫塊52還可 將詞語按權重值降序排列,將首個詞語依次與第二、第三、第四個詞語組合成 檢索詞;檢索詞組成模塊52還可將詞語按權重值降序排列,從首個詞語開始, 依次將上一詞語與該詞語相臨的下一詞語組成檢索詞。檢索詞組成模塊52將 組成的檢索詞發(fā)送到網絡文檔檢索模塊53。網絡文檔檢索模塊53利用組成的檢索詞檢索相同主題網絡文檔,直至某 個檢索詞檢索的相同主題網絡文檔數(shù)量超過預置數(shù)值。網絡文檔檢索模塊53 將首先選取的檢索詞檢索相同主題網絡文檔,判斷檢索到的相同主題網絡文檔 是否超過預置數(shù)值,如是,提取檢索到的網絡文檔;如否,繼續(xù)獲取4企索詞重 新檢索,直至某個檢索詞檢索的相同主題網絡文檔數(shù)量超過預置數(shù)值。網絡文 檔檢索模塊53將提取的網絡文檔發(fā)送到聚合模塊54。聚合模塊54聚合上述當前網絡文檔和檢索的網絡文檔。 參閱圖6,本發(fā)明檢索詞組成模塊52包括詞語排列子模塊521和組成子 模塊522。詞語排列子模塊521將上述各詞語按權重值降序排列,發(fā)送到組成 子模塊522。組成子模塊522從首個詞語開始,依次將上一詞語與該詞語相臨 的下一詞語組成檢索詞。本發(fā)明通過相關模塊計算檢索到網絡文檔與當前網絡文檔之間的相關度, 去除相關度較低的網絡文檔,進一步提高聚合的網絡文檔的質量。參閱圖7,示出本發(fā)明聚合相同主題網絡文檔的系統(tǒng)第二實施例,包括權 重值計算模塊51、檢索詞組成模塊52、網絡文檔檢索模塊53、聚合模塊54、 向量值模塊55,相關度計算模塊56、及去除模塊57。向量值模塊55使用哈希表表示當前網絡文檔和相同主題網絡文檔中各詞 語的向量值,并將各詞語的向量值發(fā)送到相關度計算^f莫塊56。相關度計算模塊56依據(jù)各詞語的向量值計算檢索到的網絡文檔與當前網 絡文檔的相關度值,計算算式為其中,"z'表示當前網絡文檔中各詞語的向量值,^'表示檢索到的網絡文檔 中各詞語的向量值。相關度計算模塊56將各檢索到的網絡文檔與當前網絡文 檔之間的相關度值發(fā)送到去除模塊57。去除模塊57去除相關度值低于預設數(shù)值的網絡文檔,將其余網絡文檔發(fā) 送到聚合模塊5 4 。聚合模塊5 4聚合上述網絡文檔。權重值計算模塊51、檢索詞組成模塊52、及網絡文檔檢索模塊53在本實 施例中的功能和作用和圖5所示實施例相同,不再贅述。以上對本發(fā)明所提供的 一種聚合相同主題網絡文檔的方法及系統(tǒng),進行了上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本 領域的一般技術人員,依據(jù)本發(fā)明的思想,在具體實施方式
及應用范圍上均會 有改變之處,綜上所述,本說明書內容不應理解為對本發(fā)明的限制。
權利要求
1、一種聚合相同主題網絡文檔的方法,其特征在于,包括獲取當前網絡文檔中各詞語的權重值;依次選取兩個或兩個以上權重值較高的詞語組成檢索詞,利用組成的檢索詞檢索相同主題網絡文檔,直至某個檢索詞檢索的相同主題網絡文檔數(shù)量超過預置數(shù)值;聚合上述當前網絡文檔和相同主題網絡文檔。
2、 如權利要求1所述的方法,其特征在于,聚合上述當前網絡文檔和相 同主題網絡文檔之前,還包括使用哈希表表示當前網絡文檔和相同主題網絡文檔中各詞語的向量值; 依據(jù)所述各詞語的向量值計算所述相同主題網絡文檔與當前網絡文檔的 相關度值;去除相關度值低于預設數(shù)值的相同主題網絡文檔。
3、 如權利要求2所述的方法,其特征在于,依據(jù)所述各詞語的向量值計 算所述相同主題網絡文檔與當前網絡文檔的相關度值具體為;按出現(xiàn)頻次升序排列當前網絡文檔和相同主題網絡文檔中的各詞語; 將相同主題網絡文檔中的各詞語的向量值,與對應的當前網絡文檔的各詞語的向量值分別相乘,獲得的積相加,作為第一數(shù)據(jù);將相同主題網絡文檔中各詞語的向量值分別平方后,相加;將當前網絡文檔中各詞語的向量值分別平方后,相加;將上述計算的和相乘,再開方,作為第二數(shù)據(jù);所述第 一數(shù)據(jù)除以所述第二數(shù)據(jù)的商,作為相同主題網絡文檔與當前網絡 文檔的相關度值。
4、 如權利要求1所述的方法,其特征在于,依次選取兩個或兩個以上權 重值較高的詞語組成檢索詞具體為將上述各詞語按權重值降序排列;從首個詞語開始,依次將上一詞語及同該詞語相臨的下一詞語組成4企索詞。
5、 如權利要求1至4任一項所述的方法,其特征在于,獲取當前網絡文檔中每個詞語的權重值具體為在當前網絡文檔中統(tǒng)計各詞語的出現(xiàn)頻次,獲取各詞語命中的索引文檔數(shù) 量和總索引文檔數(shù)量;將總索引數(shù)量除以該詞語命中的索引數(shù)量,再耳又對數(shù),得到的數(shù)值乘以上 述出現(xiàn)頻次,得到該詞語的權重值。
6、 如權利要求5所述的方法,其特征在于,在當前網絡文檔中統(tǒng)計各詞 語的出現(xiàn)頻次具體為獲取該詞語在當前網絡文檔中出現(xiàn)的位置,及在該位置的出現(xiàn)次數(shù); 將詞語在該位置的出現(xiàn)次數(shù)乘以該位置對應系數(shù),乘積相加后作為該詞語 的出現(xiàn)頻次。
7、 如權利要求5所述的方法,其特征在于,在當前網絡文檔中統(tǒng)計各詞 語的出現(xiàn)頻次具體為統(tǒng)計詞語在當前網絡文檔中出現(xiàn)次數(shù);判斷該詞語是否在網絡文檔主題位置出現(xiàn),如是,在該詞語總出現(xiàn)次數(shù)上 加設定數(shù)值,作為該詞語的出現(xiàn)頻次。
8、 一種聚合相同主題網絡文檔的系統(tǒng),其特征在于,包括權重值計算模 塊、檢索詞組成模塊、網絡文檔檢索模塊、及聚合模塊所述權重值計算模塊,用于獲取當前網絡文檔中各詞語的權重值; 所述檢索詞組成模塊,用于依次選取兩個或兩個以上權重值較高的詞語組 成檢索詞;所述網絡文檔檢索模塊,用于利用組成的檢索詞檢索相同主題網絡文檔, 直至某個檢索詞檢索的相同主題網絡文檔數(shù)量超過預置數(shù)值;所述聚合模塊,用于聚合上述當前網絡文檔和相同主題網絡文檔。
9、 如權利要求8所述的系統(tǒng),其特征在于,所述檢索詞組成模塊包括詞 語排列子模塊和組成子模塊所述詞語排列子模塊,用于將上述各詞語按權重值降序排列; 所述組成子模塊,用于從首個詞語開始,依次將上一詞語及同該詞語相臨 的下 一詞語組成檢索詞。
10、 如權利要求8或9所述的系統(tǒng),其特征在于,還包括向量值模塊,相關度計算模塊、去除模塊所述向量值模塊,用于使用哈希表表示當前網絡文檔和相同主題網絡文檔中各詞語的向量值;所述相關度計算模塊,用于依據(jù)所述各詞語的向量值計算所述相同主題網 絡文檔與當前網絡文檔的相關度值;所述去除模塊,用于去除相關度值低于預設數(shù)值的相同主題網絡文檔。
全文摘要
本發(fā)明涉及一種聚合相同主題網絡文檔的方法,包括獲取當前網絡文檔中各詞語的權重值,依次選取兩個或兩個以上權重值較高的詞語組成檢索詞,利用組成的檢索詞檢索相同主題網絡文檔,直至某個檢索詞檢索的相同主題網絡文檔數(shù)量超過預置數(shù)值,聚合上述當前網絡文檔和相同主題網絡文檔。同時,本發(fā)明還公開一種聚合相同主題網絡文檔的系統(tǒng)。本發(fā)明解決現(xiàn)有技術中聚合主題相同網絡文檔,需處理的數(shù)據(jù)量過大,造成網絡更新速度慢,影響用戶的體驗感的問題,本發(fā)明可提高網絡更新速度,提高用戶的體驗感。
文檔編號G06F17/30GK101246501SQ20081008805
公開日2008年8月20日 申請日期2008年3月27日 優(yōu)先權日2008年3月27日
發(fā)明者唐年鵬, 王志平 申請人:騰訊科技(深圳)有限公司