一種文本提取方法及裝置制造方法

文檔序號：6536355閱讀：237來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種文本提取方法及裝置制造方法
【專利摘要】本發(fā)明涉及一種文本提取方法，所述方法包括：步驟一、預(yù)處理給定的網(wǎng)頁的超文本傳輸協(xié)議html源碼，以獲取所述源碼中的文本的字符串序列，所述字符串序列包含N個文本行；步驟二、提取所述字符串序列中每個文本行的特征元素，所述特征元素包含M個屬性；步驟三、依據(jù)第一關(guān)聯(lián)規(guī)則，確定所述字符串序列中的潛在正文行組成的潛在正文塊，所示第一關(guān)聯(lián)規(guī)則由所述特征元素中的所述M個屬性確定。通過本發(fā)明實施例能夠提高網(wǎng)頁中文本塊提取的準確度，提高搜索引擎的搜索效率和準確度。
【專利說明】一種文本提取方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域，具體涉及到一種在超文本傳輸協(xié)議源代碼中進行文本提取的方法及裝置。
【背景技術(shù)】
[0002]隨著計算機與互聯(lián)網(wǎng)技術(shù)的快速發(fā)展，越來越多的用戶選擇從互聯(lián)網(wǎng)中獲取信息，互聯(lián)網(wǎng)上的豐富資源以及網(wǎng)絡(luò)傳輸?shù)谋憬菪?，使得信息的采集和傳播都大道理空前的水平。在各種信息獲取方式中，網(wǎng)絡(luò)搜索是較為常見的一種，各種搜索引擎目前已經(jīng)成為用戶上網(wǎng)不可少的輔助工具之一。
[0003]互聯(lián)網(wǎng)上的信息大多以HTML、XHTML以及XML的網(wǎng)頁為載體，但是Web頁面總是包含一些用戶并不是很關(guān)心的內(nèi)容或者對用戶需要搜索的內(nèi)容無關(guān)的內(nèi)容，例如一些廣告鏈接、不相關(guān)的圖片以及大量的導(dǎo)航鏈接，這些信息通常是圍繞在主題信息周圍。這些信息很難被計算機自動識別，大大增加了搜索引擎的索引文件的大小，用戶很難找到所需的信息，降低了搜索的準確度和用戶的體驗，也很難實現(xiàn)智能網(wǎng)頁內(nèi)容抽取、網(wǎng)頁自動分類、用戶使用興趣挖掘。
[0004]在搜索引擎領(lǐng)域，Web正文提取技術(shù)是近年來的研究熱點，該技術(shù)將互聯(lián)網(wǎng)中半結(jié)構(gòu)化的HTML頁面中隱藏的正文信息抽取出來，然后將其轉(zhuǎn)化為結(jié)構(gòu)化、語義更為清晰的信息呈現(xiàn)給用戶。通常地，從網(wǎng)頁的正文提取最好最準確的方式是通過模板提取，該技術(shù)基于特定類型的網(wǎng)頁，歸納總結(jié)某種提取規(guī)則，創(chuàng)建包裝器(wrapper)，制作模板是一個繁瑣的過程。由于，因為不同的網(wǎng)站，具有不同的Web頁面的排版模式，這種情況下，依靠人工制作模板，難以滿足需求。
[0005]因此，現(xiàn)有技術(shù)很難準確、高效的對HTML文件結(jié)構(gòu)進行分析，提取與主題內(nèi)容相關(guān)的元素。

【發(fā)明內(nèi)容】

[0006]本發(fā)明的目的是是提供一種文本提取方法，以實現(xiàn)對HTML文件結(jié)構(gòu)進行分析，提取與主題內(nèi)容相關(guān)的兀素的聞效準確提取。
[0007]為實現(xiàn)上述目的，本發(fā)明提供了一種文本提取方法，所述方法包括:
[0008]步驟一、預(yù)處理給定的網(wǎng)頁的超文本傳輸協(xié)議html源碼，以獲取所述源碼中的文本的字符串序列，所述字符串序列包含N個文本行；
[0009]步驟二、提取所述字符串序列中每個文本行的特征元素，所述特征元素包含M個屬性；
[0010]步驟三、依據(jù)第一關(guān)聯(lián)規(guī)則，確定所述字符串序列中的潛在正文行組成的潛在正文塊，所示第一關(guān)聯(lián)規(guī)則由所述特征元素中的所述M個屬性確定。
[0011]依照本發(fā)明較佳實施例提供的文本提取方法，在所述步驟三之后，還包括:
[0012]步驟四、根據(jù)滑動窗口方法，對所述潛在正文快進行分割，獲取次級潛在正文塊。[0013]依照本發(fā)明較佳實施例提供的文本提取方法，所述步驟四之后，還包括:
[0014]獲取每個所述次級潛在正文塊包含的信息量；
[0015]根據(jù)所述次級潛在正文塊的信息量，確定所述潛在正文塊中的信息塊。
[0016]依照本發(fā)明較佳實施例提供的文本提取方法，在根據(jù)所述次級潛在正文塊的信息量，確定所述潛在正文塊中的信息塊；之后，還包括:
[0017]對所述信息塊進行合并，確定最終提取文本。
[0018]依照本發(fā)明較佳實施例提供的文本提取方法，所述M個屬性包括:所述
[0019]文本行及其起始標簽所包含的文本行數(shù)量Index ；
[0020]所述文本行在所述Html源碼中所包含的字節(jié)數(shù)TextLength ；
[0021]所述文本行在所述網(wǎng)頁中出現(xiàn)的字節(jié)數(shù)OutputTextLength ；
[0022]所述文本行的相對密度Density，所述相對密度為所述文本行在所述網(wǎng)頁中出現(xiàn)的字節(jié)數(shù)和在所述Html源碼中出現(xiàn)的字節(jié)數(shù)的比值；
[0023]所述文本行包含的超鏈接數(shù)LinkNum ；
[0024]所述文本行包含的圖片超鏈接數(shù)和ImgNum。
[0025]依照本發(fā)明較佳實施例提供的文本提取方法，所述第一關(guān)聯(lián)規(guī)則中包含X個衡量參數(shù)，所述衡量參數(shù)為:
[0026](A.Middle, B.High，, C.High，, D.High, E.Low，, F.Low)；
[0027]其中，
[0028](A.Middle)表示文本行是否出現(xiàn)在所述HTML源碼的中間區(qū)域；
[0029](B.High’ )表示所述文本塊的長度是否高于第一閾值；
[0030](C.High’ )表示所述述文本塊的輸出文本長度是否高于第二閾值；
[0031](D.High)表示所述文本塊是否具有高于第三閾值的文本密度；
[0032](E.Low’ )表示所述文本塊中的超鏈接數(shù)目是否少于第四閾值；
[0033](F.Low)表示所述文本塊中的圖片鏈接數(shù)目是否少于第五閾值。
[0034]依照本發(fā)明較佳實施例提供的文本提取方法，所述步驟四具體包括:
[0035]采用滑動窗口長度為Φ的一個滑動窗口從上到下掃描整個HTML源碼；
[0036]在潛在正文塊中，不存在連續(xù)的Φ-1非正文行時，將所述潛在正文塊確定為所述次級潛在正文塊。
[0037]依照本發(fā)明較佳實施例提供的文本提取方法，所述獲取每個所述次級潛在正文塊包含的信息量，具體包括:
【權(quán)利要求】
1.一種文本提取方法，其特征在于，所述方法包括: 步驟一、預(yù)處理給定的網(wǎng)頁的超文本傳輸協(xié)議html源碼，以獲取所述源碼中的文本的字符串序列，所述字符串序列包含N個文本行；步驟二、提取所述字符串序列中每個文本行的特征元素，所述特征元素包含M個屬性；步驟三、依據(jù)第一關(guān)聯(lián)規(guī)則，確定所述字符串序列中的潛在正文行組成的潛在正文塊，所示第一關(guān)聯(lián)規(guī)則由所述特征元素中的所述M個屬性確定。
2.如權(quán)利要求1所述的方法，其特征在于，在所述步驟三之后，還包括: 步驟四、根據(jù)滑動窗口方法，對所述潛在正文快進行分割，獲取次級潛在正文塊。
3.如權(quán)利要求2所述的方法，其特征在于，所述步驟四之后，還包括: 獲取每個所述次級潛在正文塊包含的信息量；根據(jù)所述次級潛在正文塊的信息量，確定所述潛在正文塊中的信息塊。
4.如權(quán)利要求3所述的方法，其特征在于，在根據(jù)所述次級潛在正文塊的信息量，確定所述潛在正文塊中的信息塊；之后，還包括: 對所述信息塊進行合并，確定最終提取文本。
5.如權(quán)利要求1所述的方法，其特征在于，所述，所述M個屬性包括: 所述文本行及其起始標簽所包含的文本行數(shù)量Index ；所述文本行在所述Html源碼中所包含的字節(jié)數(shù)TextLength ；所述文本行在所述網(wǎng)頁中出現(xiàn)的字節(jié)數(shù)OutputTextLength ；所述文本行的相對密度Density，所述相對密度為所述文本行在所述網(wǎng)頁中出現(xiàn)的字節(jié)數(shù)和在所述Html源碼中出現(xiàn)的字節(jié)數(shù)的比值；所述文本行包含的超鏈接數(shù)LinkNum ；所述文本行包含的圖片超鏈接數(shù)和ImgNum。
6.如權(quán)利要求5所述的方法，其特征在于，所述第一關(guān)聯(lián)規(guī)則中包含X個衡量參數(shù)，所述衡量參數(shù)為:
(A.Middle, B.High，，C.High，，D.High, Ε.Low，，F(xiàn).Low)；其中， (A.Middle)表示文本行是否出現(xiàn)在所述HTML源碼的中間區(qū)域； (B.High’ )表示所述文本塊的長度是否高于第一閾值； (C.High’ )表示所述述文本塊的輸出文本長度是否高于第二閾值； (D.High)表示所述文本塊是否具有高于第三閾值的文本密度； (E.Low’)表示所述文本塊中的超鏈接數(shù)目是否少于第四閾值； (F.Low)表示所述文本塊中的圖片鏈接數(shù)目是否少于第五閾值。
7.如權(quán)利要求2所述的方法，其特征在于，所述步驟四具體包括: 采用滑動窗口長度為Φ的一個滑動窗口從上到下掃描整個HTML源碼；在潛在正文塊中，不存在連續(xù)的φ-1非正文行時，將所述潛在正文塊確定為所述次級潛在正文塊。
8.如權(quán)利要求3所述的方法，其特征在于，所述獲取每個所述次級潛在正文塊包含的信息量，具體包括:
9.一種文本提取裝置，其特征在于，包括: 預(yù)處理模塊，用于對給定的網(wǎng)頁的超文本傳輸協(xié)議html源碼進行預(yù)處理，以獲取所述源碼中的文本的字符串序列，所述字符串序列包含N個文本行；提取模塊，用于提取所述字符串序列中每個文本行的特征元素，所述特征元素包含M個屬性；確定模塊，用于依據(jù)第一關(guān)聯(lián)規(guī)則，確定所述字符串序列中的潛在正文行組成的潛在正文塊，所示第一關(guān)聯(lián)規(guī)則由所述特征元素中的所述M個屬性確定。
10.如權(quán)利要求9所述的裝置，其特征在于，還包括: 滑窗提取模塊，用于根據(jù)滑動窗口方法，對所述潛在正文快進行分割，獲取次級潛在正文塊。
【文檔編號】G06F17/30GK103810251SQ201410026939
【公開日】2014年5月21日申請日期:2014年1月21日優(yōu)先權(quán)日:2014年1月21日
【發(fā)明者】卜湛, 伍之昂, 曹杰, 李秀怡, 劉英卓申請人:南京財經(jīng)大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：卜湛;伍之昂;曹杰;李秀怡;劉英卓
技術(shù)所有人：南京財經(jīng)大學(xué)
我是此專利的發(fā)明人

上一篇：一種冷軋帶鋼表面缺陷原因分析方法及系統(tǒng)的制作方法
上一篇：基于核鑒別線性表示的分類方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文本特征提取方法相關(guān)技術(shù)

文本特征提取方法研究相關(guān)技術(shù)

索氏提取裝置相關(guān)技術(shù)

索氏提取器裝置圖相關(guān)技術(shù)

回流提取裝置圖相關(guān)技術(shù)

揮發(fā)油提取裝置圖相關(guān)技術(shù)

揮發(fā)油提取裝置相關(guān)技術(shù)

索氏提取簡易裝置相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種文本提取方法及裝置制造方法