網(wǎng)頁摘要抽取方法及其裝置的制造方法

文檔序號：8381107閱讀：347來源：國知局

網(wǎng)頁摘要抽取方法及其裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及一種網(wǎng)頁摘要抽取方法及其裝置，尤其涉及一種基于關鍵詞的網(wǎng)頁摘要抽取方法及其裝置。
【背景技術】
[0002] 目前對于網(wǎng)頁摘要抽取方法有以下幾類：1.基于文本集的方法。該方法引入機器學習的方法，從文本集和摘要中學習有關規(guī)則。主要分為兩個階段：訓練階段和測試階段。訓練階段從訓練文本集中抽取文本的重要特征，并通過學習算法生成規(guī)則；測試階段則將訓練階段學到的規(guī)則應用于測試文本集，生成摘要。該方法的不足是需要利用訓練生成的規(guī)則才能生成摘要，過分依賴訓練文本集，難以保證生成摘要的準確性。2.基于領域本體的方法：該方法主要通過本體對于應用領域層次上的語義信息以及本體的內部關系分析文本，過濾不相關信息，使主題更加突出，摘要的抽取更加準確，該方法的不足是由于中文領域本體的缺乏，需要自己構建領域本體，工作量大。
[0003] 因此，需要出現(xiàn)一種既能保證生成摘要的準確性，又能減少工作量的網(wǎng)頁摘要抽取方法的出現(xiàn)。

【發(fā)明內容】

[0004] 針對上述問題，本發(fā)明提供一種能夠從網(wǎng)頁中正確提取摘要的方法及其裝置。
[0005] 本發(fā)明提供一種網(wǎng)頁摘要抽取方法，用于從通過輸入用戶選定的查詢詞所得到的與所述查詢詞相關的網(wǎng)頁中抽取摘要，其特征在于，包括以下步驟：（1)查詢詞預處理步驟：利用分詞工具將查詢詞分詞為若干個子查詢詞，統(tǒng)計每個子查詢詞出現(xiàn)的頻率以及每個子查詢詞在查詢詞中的分布信息；（2)文本預處理步驟：將預處理后的網(wǎng)頁文本分成若干個句子，利用分詞工具將每個句子進行分詞并保存每個詞在網(wǎng)頁文本中的分布信息，并統(tǒng)計句子個數(shù)和文本中詞的個數(shù)；(3)詞頻及詞分布信息統(tǒng)計步驟：統(tǒng)計每個句子包含的子查詢詞的個數(shù)、包含的連續(xù)子查詢詞的個數(shù)和包含的子查詢詞的種類，并在句子對出現(xiàn) 的子查詢詞進行標注以及標明具體為那個子查詢詞；(4)評分步驟：基于步驟（3)的統(tǒng)計數(shù) 據(jù)，利用評分工具對每個句子進行評分，計算每個句子的分數(shù)；（5)排序和生成摘要步驟：按分數(shù)從高到低對句子進行排序，選取前K個句子來生成摘要，其中0 S K 5 3。
[0006] 本發(fā)明還提供一種網(wǎng)頁摘要抽取裝置，其特征在于，包括：查詢詞預處理單元，利用分詞工具將查詢詞分詞為若干個子查詢詞，統(tǒng)計每個子查詢詞出現(xiàn)的頻率以及每個子查詢詞在查詢詞中的分布信息；文本預處理單元，將文本分成若干個句子，利用分詞工具將每個句子進行分詞并保存每個詞在網(wǎng)頁文本中的分布信息，并統(tǒng)計句子個數(shù)和文本中詞的個數(shù)；詞頻及詞分布信息單元，統(tǒng)計若干個句子中出現(xiàn)至少一個所述子查詢詞的句子數(shù)，統(tǒng)計某個所述子查詢詞在每個句子中出現(xiàn)的頻率，以及統(tǒng)計每個句子中出現(xiàn)子查詢詞的種類，并在句子對出現(xiàn)的子查詢詞進行標注以及標明具體為那個子查詢詞；評分單元，利用評分工具對每個句子進行評分，計算每個句子的分數(shù)；排序單元，按分數(shù)從高到低對句子進行排序；以及組織摘要單元，選取前K個句子來生成摘要，其中O g K g 3。
[0007] 本發(fā)明能夠在響應用戶查詢的時候，根據(jù)查詢詞在文檔中出現(xiàn)的位置，提取出查詢詞周圍相關的文字并返回給用戶，由于一篇文檔會被不同的查詢詞召回，因此，本發(fā)明會根據(jù)不同的查詢詞，對同一個文檔形成不同的摘要文字。同時，對給定的文本中的關鍵字進行加粗、加紅等顯示方式，已凸顯它和普通文本的區(qū)別。從而使用戶能夠快速查找所需的相關信息。
【附圖說明】
[0008] 圖1是本發(fā)明的網(wǎng)頁摘要抽取方法的示意圖。
[0009] 圖2是本發(fā)明的網(wǎng)頁摘要抽取裝置的示意圖。
【具體實施方式】
[0010] 本發(fā)明的宗旨是從網(wǎng)頁中準確地提取摘要，主要解決以下問題：
[0011] 1.概述搜索出的網(wǎng)頁的大概內容，使用戶快速確定網(wǎng)頁是否相關，是否進一步查看。從而解決了用戶快速查找相關文檔的困擾。
[0012] 2.對于搜索系統(tǒng)來說，當響應用戶查詢的時候，根據(jù)查詢詞在文檔中出現(xiàn)的位置，提取出查詢詞周圍相關的文字并返回給用戶。
[0013] 3.摘要提取的準確率問題。本發(fā)明主要將詞頻、標題、詞分布等要素作為評判句子重要性的語句來抽取出重要的句子作為摘要。有效的提高了摘要提取的準確率問題。
[0014] 為解決上述技術問題，本發(fā)明網(wǎng)頁摘要抽取方法采用了以下技術：
[0015] (1)文本處理技術。本發(fā)明中主要兩個地方使用到該技術，一個是查詢詞或標題預處理單元，另一個是文本預處理單元。
[0016] (2)結果排序技術。本發(fā)明首先對給定的文檔進行分句，分句主要依據(jù)于〃。??？···.?。俊ǖ确柕某霈F(xiàn)。然后對每一句進行評分，評分主要依據(jù)下述三個因素：1) 句子中包含查詢詞分詞后的子查詢詞的個數(shù)，包括重復出現(xiàn)的子查詢詞；2)句子中包含連續(xù)子查詢詞的個數(shù)；3)句子中包含的子查詢詞的種類。最后根據(jù)評分來進行排序，找出排在前K的得分比較高的的句子。
[0017] 為使本領技術人員進一步了解本發(fā)明的特征及技術內容，下面結合附圖和實施例，對本發(fā)明的技術方案進行詳細描述。
[0018] -般，用戶根據(jù)欲獲取的信息選擇好檢索詞后，將該檢索詞輸入檢索框，搜索引擎通常很短時間內即可在海量網(wǎng)頁中找到關于該檢索詞的相關內容，這些內容將并不直接反饋給用戶，因而用戶很難知道所檢索的網(wǎng)頁中那些是自己所需要的，如果每個網(wǎng)頁都進行瀏覽，將會浪費大量時間。因而，如何快速且高效的將網(wǎng)頁中的內容以摘要的形式呈現(xiàn)給用戶，以便用戶及時了解網(wǎng)頁是否相關以作出判斷顯得至關重要。
[0019] 圖1是本發(fā)明的網(wǎng)頁摘要抽取方法的示意圖。如圖1所示，本發(fā)明的網(wǎng)頁摘要抽取方法包括：
[0020] 步驟Sl :查詢詞預處理步驟
[0021] 利用分詞工具將查詢詞分詞為若干個子查詢詞；
[0022] 具體地，可利用詞頻統(tǒng)計工具，如IKAnalyzer分詞器、ICTCLAS、Ansj、結巴分

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：劉慶朝;何文娟;周娜;馮艷偉;
技術所有人：劉秀磊;
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

電壓抽取裝置相關技術

文本摘要抽取神經(jīng)網(wǎng)絡相關技術

網(wǎng)頁正文自動抽取技術相關技術

java新聞網(wǎng)頁正文抽取相關技術

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

網(wǎng)頁摘要抽取方法及其裝置的制造方法