一種文本提取方法及裝置制造方法
【專利摘要】本發(fā)明涉及一種文本提取方法,所述方法包括:步驟一、預(yù)處理給定的網(wǎng)頁的超文本傳輸協(xié)議html源碼,以獲取所述源碼中的文本的字符串序列,所述字符串序列包含N個文本行;步驟二、提取所述字符串序列中每個文本行的特征元素,所述特征元素包含M個屬性;步驟三、依據(jù)第一關(guān)聯(lián)規(guī)則,確定所述字符串序列中的潛在正文行組成的潛在正文塊,所示第一關(guān)聯(lián)規(guī)則由所述特征元素中的所述M個屬性確定。通過本發(fā)明實施例能夠提高網(wǎng)頁中文本塊提取的準確度,提高搜索引擎的搜索效率和準確度。
【專利說明】一種文本提取方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,具體涉及到一種在超文本傳輸協(xié)議源代碼中進行文本提取的方法及裝置。
【背景技術(shù)】
[0002]隨著計算機與互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,越來越多的用戶選擇從互聯(lián)網(wǎng)中獲取信息,互聯(lián)網(wǎng)上的豐富資源以及網(wǎng)絡(luò)傳輸?shù)谋憬菪?,使得信息的采集和傳播都大道理空前的水平。在各種信息獲取方式中,網(wǎng)絡(luò)搜索是較為常見的一種,各種搜索引擎目前已經(jīng)成為用戶上網(wǎng)不可少的輔助工具之一。
[0003]互聯(lián)網(wǎng)上的信息大多以HTML、XHTML以及XML的網(wǎng)頁為載體,但是Web頁面總是包含一些用戶并不是很關(guān)心的內(nèi)容或者對用戶需要搜索的內(nèi)容無關(guān)的內(nèi)容,例如一些廣告鏈接、不相關(guān)的圖片以及大量的導(dǎo)航鏈接,這些信息通常是圍繞在主題信息周圍。這些信息很難被計算機自動識別,大大增加了搜索引擎的索引文件的大小,用戶很難找到所需的信息,降低了搜索的準確度和用戶的體驗,也很難實現(xiàn)智能網(wǎng)頁內(nèi)容抽取、網(wǎng)頁自動分類、用戶使用興趣挖掘。
[0004]在搜索引擎領(lǐng)域,Web正文提取技術(shù)是近年來的研究熱點,該技術(shù)將互聯(lián)網(wǎng)中半結(jié)構(gòu)化的HTML頁面中隱藏的正文信息抽取出來,然后將其轉(zhuǎn)化為結(jié)構(gòu)化、語義更為清晰的信息呈現(xiàn)給用戶。通常地,從網(wǎng)頁的正文提取最好最準確的方式是通過模板提取,該技術(shù)基于特定類型的網(wǎng)頁,歸納總結(jié)某種提取規(guī)則,創(chuàng)建包裝器(wrapper),制作模板是一個繁瑣的過程。由于,因為不同的網(wǎng)站,具有不同的Web頁面的排版模式,這種情況下,依靠人工制作模板,難以滿足需求。
[0005]因此,現(xiàn)有技術(shù)很難準確、高效的對HTML文件結(jié)構(gòu)進行分析,提取與主題內(nèi)容相關(guān)的元素。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的是是提供一種文本提取方法,以實現(xiàn)對HTML文件結(jié)構(gòu)進行分析,提取與主題內(nèi)容相關(guān)的兀素的聞效準確提取。
[0007]為實現(xiàn)上述目的,本發(fā)明提供了一種文本提取方法,所述方法包括:
[0008]步驟一、預(yù)處理給定的網(wǎng)頁的超文本傳輸協(xié)議html源碼,以獲取所述源碼中的文本的字符串序列,所述字符串序列包含N個文本行;
[0009]步驟二、提取所述字符串序列中每個文本行的特征元素,所述特征元素包含M個屬性;
[0010]步驟三、依據(jù)第一關(guān)聯(lián)規(guī)則,確定所述字符串序列中的潛在正文行組成的潛在正文塊,所示第一關(guān)聯(lián)規(guī)則由所述特征元素中的所述M個屬性確定。
[0011]依照本發(fā)明較佳實施例提供的文本提取方法,在所述步驟三之后,還包括:
[0012]步驟四、根據(jù)滑動窗口方法,對所述潛在正文快進行分割,獲取次級潛在正文塊。[0013]依照本發(fā)明較佳實施例提供的文本提取方法,所述步驟四之后,還包括:
[0014]獲取每個所述次級潛在正文塊包含的信息量;
[0015]根據(jù)所述次級潛在正文塊的信息量,確定所述潛在正文塊中的信息塊。
[0016]依照本發(fā)明較佳實施例提供的文本提取方法,在根據(jù)所述次級潛在正文塊的信息量,確定所述潛在正文塊中的信息塊;之后,還包括:
[0017]對所述信息塊進行合并,確定最終提取文本。
[0018]依照本發(fā)明較佳實施例提供的文本提取方法,所述M個屬性包括:所述
[0019]文本行及其起始標簽所包含的文本行數(shù)量Index ;
[0020]所述文本行在所述Html源碼中所包含的字節(jié)數(shù)TextLength ;
[0021]所述文本行在所述網(wǎng)頁中出現(xiàn)的字節(jié)數(shù)OutputTextLength ;
[0022]所述文本行的相對密度Density,所述相對密度為所述文本行在所述網(wǎng)頁中出現(xiàn)的字節(jié)數(shù)和在所述Html源碼中出現(xiàn)的字節(jié)數(shù)的比值;
[0023]所述文本行包含的超鏈接數(shù)LinkNum ;
[0024]所述文本行包含的圖片超鏈接數(shù)和ImgNum。
[0025]依照本發(fā)明較佳實施例提供的文本提取方法,所述第一關(guān)聯(lián)規(guī)則中包含X個衡量參數(shù),所述衡量參數(shù)為:
[0026](A.Middle, B.High,, C.High,, D.High, E.Low,, F.Low);
[0027]其中,
[0028](A.Middle)表示文本行是否出現(xiàn)在所述HTML源碼的中間區(qū)域;
[0029](B.High’ )表示所述文本塊的長度是否高于第一閾值;
[0030](C.High’ )表示所述述文本塊的輸出文本長度是否高于第二閾值;
[0031](D.High)表示所述文本塊是否具有高于第三閾值的文本密度;
[0032](E.Low’ )表示所述文本塊中的超鏈接數(shù)目是否少于第四閾值;
[0033](F.Low)表示所述文本塊中的圖片鏈接數(shù)目是否少于第五閾值。
[0034]依照本發(fā)明較佳實施例提供的文本提取方法,所述步驟四具體包括:
[0035]采用滑動窗口長度為Φ的一個滑動窗口從上到下掃描整個HTML源碼;
[0036]在潛在正文塊中,不存在連續(xù)的Φ-1非正文行時,將所述潛在正文塊確定為所述次級潛在正文塊。
[0037]依照本發(fā)明較佳實施例提供的文本提取方法,所述獲取每個所述次級潛在正文塊包含的信息量,具體包括:
【權(quán)利要求】
1.一種文本提取方法,其特征在于,所述方法包括: 步驟一、預(yù)處理給定的網(wǎng)頁的超文本傳輸協(xié)議html源碼,以獲取所述源碼中的文本的字符串序列,所述字符串序列包含N個文本行; 步驟二、提取所述字符串序列中每個文本行的特征元素,所述特征元素包含M個屬性;步驟三、依據(jù)第一關(guān)聯(lián)規(guī)則,確定所述字符串序列中的潛在正文行組成的潛在正文塊,所示第一關(guān)聯(lián)規(guī)則由所述特征元素中的所述M個屬性確定。
2.如權(quán)利要求1所述的方法,其特征在于,在所述步驟三之后,還包括: 步驟四、根據(jù)滑動窗口方法,對所述潛在正文快進行分割,獲取次級潛在正文塊。
3.如權(quán)利要求2所述的方法,其特征在于,所述步驟四之后,還包括: 獲取每個所述次級潛在正文塊包含的信息量; 根據(jù)所述次級潛在正文塊的信息量,確定所述潛在正文塊中的信息塊。
4.如權(quán)利要求3所述的方法,其特征在于,在根據(jù)所述次級潛在正文塊的信息量,確定所述潛在正文塊中的信息塊;之后,還包括: 對所述信息塊進行合并,確定最終提取文本。
5.如權(quán)利要求1所述的方法,其特征在于,所述,所述M個屬性包括: 所述文本行及其起始標簽所包含的文本行數(shù)量Index ; 所述文本行在所述Html源碼中所包含的字節(jié)數(shù)TextLength ; 所述文本行在所述網(wǎng)頁中出現(xiàn)的字節(jié)數(shù)OutputTextLength ; 所述文本行的相對密度Density,所述相對密度為所述文本行在所述網(wǎng)頁中出現(xiàn)的字節(jié)數(shù)和在所述Html源碼中出現(xiàn)的字節(jié)數(shù)的比值; 所述文本行包含的超鏈接數(shù)LinkNum ; 所述文本行包含的圖片超鏈接數(shù)和ImgNum。
6.如權(quán)利要求5所述的方法,其特征在于,所述第一關(guān)聯(lián)規(guī)則中包含X個衡量參數(shù),所述衡量參數(shù)為:
(A.Middle, B.High,,C.High,,D.High, Ε.Low,,F(xiàn).Low); 其中, (A.Middle)表示文本行是否出現(xiàn)在所述HTML源碼的中間區(qū)域; (B.High’ )表示所述文本塊的長度是否高于第一閾值; (C.High’ )表示所述述文本塊的輸出文本長度是否高于第二閾值; (D.High)表示所述文本塊是否具有高于第三閾值的文本密度; (E.Low’)表示所述文本塊中的超鏈接數(shù)目是否少于第四閾值; (F.Low)表示所述文本塊中的圖片鏈接數(shù)目是否少于第五閾值。
7.如權(quán)利要求2所述的方法,其特征在于,所述步驟四具體包括: 采用滑動窗口長度為Φ的一個滑動窗口從上到下掃描整個HTML源碼; 在潛在正文塊中,不存在連續(xù)的φ-1非正文行時,將所述潛在正文塊確定為所述次級潛在正文塊。
8.如權(quán)利要求3所述的 方法,其特征在于,所述獲取每個所述次級潛在正文塊包含的信息量,具體包括:
9.一種文本提取裝置,其特征在于,包括: 預(yù)處理模塊,用于對給定的網(wǎng)頁的超文本傳輸協(xié)議html源碼進行預(yù)處理,以獲取所述源碼中的文本的字符串序列,所述字符串序列包含N個文本行; 提取模塊,用于提取所述字符串序列中每個文本行的特征元素,所述特征元素包含M個屬性; 確定模塊,用于依據(jù)第一關(guān)聯(lián)規(guī)則,確定所述字符串序列中的潛在正文行組成的潛在正文塊,所示第一關(guān)聯(lián)規(guī)則由所述特征元素中的所述M個屬性確定。
10.如權(quán)利要求9所述的裝置,其特征在于,還包括: 滑窗提取模塊,用于根據(jù)滑動窗口方法,對所述潛在正文快進行分割,獲取次級潛在正文塊。
【文檔編號】G06F17/30GK103810251SQ201410026939
【公開日】2014年5月21日 申請日期:2014年1月21日 優(yōu)先權(quán)日:2014年1月21日
【發(fā)明者】卜湛, 伍之昂, 曹杰, 李秀怡, 劉英卓 申請人:南京財經(jīng)大學(xué)