網(wǎng)頁摘要抽取方法及其裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及一種網(wǎng)頁摘要抽取方法及其裝置,尤其涉及一種基于關鍵詞的網(wǎng)頁摘 要抽取方法及其裝置。
【背景技術】
[0002] 目前對于網(wǎng)頁摘要抽取方法有以下幾類:1.基于文本集的方法。該方法引入機器 學習的方法,從文本集和摘要中學習有關規(guī)則。主要分為兩個階段:訓練階段和測試階段。 訓練階段從訓練文本集中抽取文本的重要特征,并通過學習算法生成規(guī)則;測試階段則將 訓練階段學到的規(guī)則應用于測試文本集,生成摘要。該方法的不足是需要利用訓練生成的 規(guī)則才能生成摘要,過分依賴訓練文本集,難以保證生成摘要的準確性。2.基于領域本體 的方法:該方法主要通過本體對于應用領域層次上的語義信息以及本體的內部關系分析文 本,過濾不相關信息,使主題更加突出,摘要的抽取更加準確,該方法的不足是由于中文領 域本體的缺乏,需要自己構建領域本體,工作量大。
[0003] 因此,需要出現(xiàn)一種既能保證生成摘要的準確性,又能減少工作量的網(wǎng)頁摘要抽 取方法的出現(xiàn)。
【發(fā)明內容】
[0004] 針對上述問題,本發(fā)明提供一種能夠從網(wǎng)頁中正確提取摘要的方法及其裝置。
[0005] 本發(fā)明提供一種網(wǎng)頁摘要抽取方法,用于從通過輸入用戶選定的查詢詞所得到 的與所述查詢詞相關的網(wǎng)頁中抽取摘要,其特征在于,包括以下步驟:(1)查詢詞預處理步 驟:利用分詞工具將查詢詞分詞為若干個子查詢詞,統(tǒng)計每個子查詢詞出現(xiàn)的頻率以及每 個子查詢詞在查詢詞中的分布信息;(2)文本預處理步驟:將預處理后的網(wǎng)頁文本分成若 干個句子,利用分詞工具將每個句子進行分詞并保存每個詞在網(wǎng)頁文本中的分布信息,并 統(tǒng)計句子個數(shù)和文本中詞的個數(shù);(3)詞頻及詞分布信息統(tǒng)計步驟:統(tǒng)計每個句子包含的 子查詢詞的個數(shù)、包含的連續(xù)子查詢詞的個數(shù)和包含的子查詢詞的種類,并在句子對出現(xiàn) 的子查詢詞進行標注以及標明具體為那個子查詢詞;(4)評分步驟:基于步驟(3)的統(tǒng)計數(shù) 據(jù),利用評分工具對每個句子進行評分,計算每個句子的分數(shù);(5)排序和生成摘要步驟: 按分數(shù)從高到低對句子進行排序,選取前K個句子來生成摘要,其中0 S K 5 3。
[0006] 本發(fā)明還提供一種網(wǎng)頁摘要抽取裝置,其特征在于,包括:查詢詞預處理單元,利 用分詞工具將查詢詞分詞為若干個子查詢詞,統(tǒng)計每個子查詢詞出現(xiàn)的頻率以及每個子查 詢詞在查詢詞中的分布信息;文本預處理單元,將文本分成若干個句子,利用分詞工具將每 個句子進行分詞并保存每個詞在網(wǎng)頁文本中的分布信息,并統(tǒng)計句子個數(shù)和文本中詞的個 數(shù);詞頻及詞分布信息單元,統(tǒng)計若干個句子中出現(xiàn)至少一個所述子查詢詞的句子數(shù),統(tǒng)計 某個所述子查詢詞在每個句子中出現(xiàn)的頻率,以及統(tǒng)計每個句子中出現(xiàn)子查詢詞的種類, 并在句子對出現(xiàn)的子查詢詞進行標注以及標明具體為那個子查詢詞;評分單元,利用評分 工具對每個句子進行評分,計算每個句子的分數(shù);排序單元,按分數(shù)從高到低對句子進行排 序;以及組織摘要單元,選取前K個句子來生成摘要,其中O g K g 3。
[0007] 本發(fā)明能夠在響應用戶查詢的時候,根據(jù)查詢詞在文檔中出現(xiàn)的位置,提取出查 詢詞周圍相關的文字并返回給用戶,由于一篇文檔會被不同的查詢詞召回,因此,本發(fā)明會 根據(jù)不同的查詢詞,對同一個文檔形成不同的摘要文字。同時,對給定的文本中的關鍵字進 行加粗、加紅等顯示方式,已凸顯它和普通文本的區(qū)別。從而使用戶能夠快速查找所需的相 關信息。
【附圖說明】
[0008] 圖1是本發(fā)明的網(wǎng)頁摘要抽取方法的示意圖。
[0009] 圖2是本發(fā)明的網(wǎng)頁摘要抽取裝置的示意圖。
【具體實施方式】
[0010] 本發(fā)明的宗旨是從網(wǎng)頁中準確地提取摘要,主要解決以下問題:
[0011] 1.概述搜索出的網(wǎng)頁的大概內容,使用戶快速確定網(wǎng)頁是否相關,是否進一步查 看。從而解決了用戶快速查找相關文檔的困擾。
[0012] 2.對于搜索系統(tǒng)來說,當響應用戶查詢的時候,根據(jù)查詢詞在文檔中出現(xiàn)的位置, 提取出查詢詞周圍相關的文字并返回給用戶。
[0013] 3.摘要提取的準確率問題。本發(fā)明主要將詞頻、標題、詞分布等要素作為評判句子 重要性的語句來抽取出重要的句子作為摘要。有效的提高了摘要提取的準確率問題。
[0014] 為解決上述技術問題,本發(fā)明網(wǎng)頁摘要抽取方法采用了以下技術:
[0015] (1)文本處理技術。本發(fā)明中主要兩個地方使用到該技術,一個是查詢詞或標題預 處理單元,另一個是文本預處理單元。
[0016] (2)結果排序技術。本發(fā)明首先對給定的文檔進行分句,分句主要依據(jù)于 〃。???···.?。俊ǖ确柕某霈F(xiàn)。然后對每一句進行評分,評分主要依據(jù)下述三個因素:1) 句子中包含查詢詞分詞后的子查詢詞的個數(shù),包括重復出現(xiàn)的子查詢詞;2)句子中包含連 續(xù)子查詢詞的個數(shù);3)句子中包含的子查詢詞的種類。最后根據(jù)評分來進行排序,找出排 在前K的得分比較高的的句子。
[0017] 為使本領技術人員進一步了解本發(fā)明的特征及技術內容,下面結合附圖和實施 例,對本發(fā)明的技術方案進行詳細描述。
[0018] -般,用戶根據(jù)欲獲取的信息選擇好檢索詞后,將該檢索詞輸入檢索框,搜索引擎 通常很短時間內即可在海量網(wǎng)頁中找到關于該檢索詞的相關內容,這些內容將并不直接反 饋給用戶,因而用戶很難知道所檢索的網(wǎng)頁中那些是自己所需要的,如果每個網(wǎng)頁都進行 瀏覽,將會浪費大量時間。因而,如何快速且高效的將網(wǎng)頁中的內容以摘要的形式呈現(xiàn)給用 戶,以便用戶及時了解網(wǎng)頁是否相關以作出判斷顯得至關重要。
[0019] 圖1是本發(fā)明的網(wǎng)頁摘要抽取方法的示意圖。如圖1所示,本發(fā)明的網(wǎng)頁摘要抽 取方法包括:
[0020] 步驟Sl :查詢詞預處理步驟
[0021] 利用分詞工具將查詢詞分詞為若干個子查詢詞;
[0022] 具體地,可利用詞頻統(tǒng)計工具,如IKAnalyzer分詞器、ICTCLAS、Ansj、結巴分