基于深度學習的網(wǎng)頁區(qū)域識別算法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)信息采集的技術(shù)領(lǐng)域,具體說是一種基于深度學習的網(wǎng)頁區(qū)域識別算法。
【背景技術(shù)】
[0002]網(wǎng)頁區(qū)域識別對搜索引擎構(gòu)建、網(wǎng)絡信息檢索、網(wǎng)絡數(shù)據(jù)采集及網(wǎng)絡知識發(fā)現(xiàn)至關(guān)重要。目前,網(wǎng)頁區(qū)域識別通常采取如下方法:人工設定識別規(guī)則對網(wǎng)頁區(qū)域進行識別或者基于其他非深度學習的機器學習方法對網(wǎng)頁區(qū)域進行識別。
[0003]對網(wǎng)頁區(qū)域識別而言,區(qū)域內(nèi)文本的視覺特征(文字的大小、顏色、是否加粗等)及區(qū)域本身的視覺特征(位置、底色、是否有邊框等)至關(guān)重要。純文本無法反映這些視覺特征,且自然語言具有高度抽象性,僅對純文本進行特征提取及模式識別,難以提取出足夠的特征,獲得理想的識別效果。
【發(fā)明內(nèi)容】
[0004]本發(fā)明要解決的技術(shù)問題是提供一種基于深度學習的網(wǎng)頁區(qū)域識別算法。
[0005]本發(fā)明為解決公知技術(shù)中存在的技術(shù)問題所采取的技術(shù)方案是:
本發(fā)明的基于深度學習的網(wǎng)頁區(qū)域識別算法,包括以下步驟:
A、格式化文本:以網(wǎng)頁的HTML源碼作為算法輸入;
B、視覺特征處理:
將HTML轉(zhuǎn)化為XML,提取網(wǎng)頁內(nèi)不同區(qū)域的視覺特征;選擇上述視覺特征,得到視覺特征向量;將視覺特征向量進行歸一化,得到歸一化后的視覺特征向量;
C、文本特征處理:
將HTML轉(zhuǎn)化為XML,提取網(wǎng)頁區(qū)域內(nèi)的文本;通過分詞算法將文本特征序列化;通過神經(jīng)網(wǎng)絡語言模型學習出文本特征向量;
D、將堆疊降噪自動編碼器SDAE作為特征學習方法,將上述處理后的特征向量作為輸入向量;
E、將堆疊降噪自動編碼器SDAE的輸出向量作為分類算法的輸入,使用分類算法對上述輸出向量進行分類,對向量的分類結(jié)果即為該特征向量所對應的網(wǎng)頁區(qū)域的識別結(jié)果。
[0006]本發(fā)明還可以采用以下技術(shù)措施:
步驟B中,通過選擇全部視覺特征,得到未經(jīng)歸一化的視覺特征向量。
[0007]步驟B中,通過選擇部分視覺特征,得到未經(jīng)歸一化的視覺特征向量。
[0008]使用Min-Max Normali zat 1n的歸一化方法對視覺特征向量進行歸一化,得到歸一化后的視覺特征向量。
[0009]步驟C中,通過海量分詞算法對文本進行分詞。
[0010]步驟C中,通過結(jié)巴分詞算法對文本進行分詞。
[0011]步驟C中,通過Paragraph2Vec算法學習出文本特征向量。
[0012]步驟D中,將視覺特征向量作為堆疊降噪自動編碼器SDAE的輸入向量。
[0013]步驟D中,將視覺特征向量與文本特征向量拼接后作為堆疊降噪自動編碼器SDAE的輸入向量,對拼接后的向量選擇性進行歸一化處理。
[0014]步驟E中,使用分類算法Softmax Regress1n對學習到的特征向量進行分類。
[0015]本發(fā)明具有的優(yōu)點和積極效果是:
本發(fā)明的基于深度學習的網(wǎng)頁區(qū)域識別算法中,以網(wǎng)頁的HTML源碼作為算法輸入,并將HTML轉(zhuǎn)化為XML,提取視覺特征和文本內(nèi)容,并對相應的視覺特征進行歸一化處理、對文本內(nèi)容通過神經(jīng)網(wǎng)絡語言模型進行特征學習,分別得到初步的視覺特征向量和文本特征向量,通過堆疊降噪自動編碼器SDAE對初步的視覺特征向量和文本特征向量進行進一步的學習,得到代表相應網(wǎng)頁區(qū)域的網(wǎng)頁區(qū)域特征向量,并通過分類算法對網(wǎng)頁區(qū)域特征向量進行分類處理,即得到網(wǎng)頁區(qū)域的識別結(jié)果。本發(fā)明可對網(wǎng)頁內(nèi)的標題區(qū)、正文區(qū)、導航區(qū)等視覺區(qū)域進行準確識別,識別準確率達99.99%-100%。
【具體實施方式】
[0016]以下通過具體實施例對本發(fā)明進行詳細說明。
[0017]本發(fā)明的基于深度學習的網(wǎng)頁區(qū)域識別算法,包括以下步驟:
A、格式化文本:以網(wǎng)頁的HTML源碼作為算法輸入;
B、視覺特征處理:
將HTML轉(zhuǎn)化為XML,提取網(wǎng)頁內(nèi)不同區(qū)域的視覺特征,視覺特征包括區(qū)域坐標、區(qū)域底色、區(qū)域邊框粗細、區(qū)域文字密度、區(qū)域文字字體、區(qū)域文字大小、區(qū)域文字顏色等;通過選擇全部或部分視覺特征,得到未經(jīng)歸一化的視覺特征向量;使用Min-Max Normalizat1n的歸一化方法對視覺特征向量進行歸一化,得到歸一化后的視覺特征向量;
C、文本特征處理:
將HTML轉(zhuǎn)化為XML,提取網(wǎng)頁區(qū)域內(nèi)的文本;通過海量分詞算法或者結(jié)巴分詞算法對文本進行分詞;通過神經(jīng)網(wǎng)絡語言模型的Paragraph2Vec算法學習出文本特征向量;
D、將堆疊降噪自動編碼器SDAE作為特征學習方法,將上述處理后的特征向量作為輸入向量,其中SDAE的輸入向量由視覺特征向量與文本特征向量拼接而成,或僅使用視覺特征向量充當輸入向量,而對拼接后的向量進行或不進行歸一化處理;
E、將堆疊降噪自動編碼器SDAE的輸出向量作為分類算法的輸入,使用分類算法Softmax Regress1n對上述輸出向量進行分類,對向量的分類結(jié)果即為該特征向量所對應的網(wǎng)頁區(qū)域的識別結(jié)果。
[0018]以上所述,僅是本發(fā)明的較佳實施例而已,并非對本發(fā)明作任何形式上的限制,雖然本發(fā)明已以較佳實施例公開如上,然而,并非用以限定本發(fā)明,任何熟悉本專業(yè)的技術(shù)人員,在不脫離本發(fā)明技術(shù)方案范圍內(nèi),當然會利用揭示的技術(shù)內(nèi)容作出些許更動或修飾,成為等同變化的等效實施例,但凡是未脫離本發(fā)明技術(shù)方案的內(nèi)容,依據(jù)本發(fā)明的技術(shù)實質(zhì)對以上實施例所作的任何簡單修改、等同變化與修飾,均屬于本發(fā)明技術(shù)方案的范圍內(nèi)。
【主權(quán)項】
1.一種基于深度學習的網(wǎng)頁區(qū)域識別算法,包括以下步驟: A、格式化文本:以網(wǎng)頁的HTML源碼作為算法輸入; B、視覺特征處理: 將HTML轉(zhuǎn)化為XML,提取網(wǎng)頁內(nèi)不同區(qū)域的視覺特征;選擇上述視覺特征,得到視覺特征向量;將視覺特征向量進行歸一化,得到歸一化后的視覺特征向量; C、文本特征處理: 將HTML轉(zhuǎn)化為XML,提取網(wǎng)頁區(qū)域內(nèi)的文本;對文本進行分詞;通過神經(jīng)網(wǎng)絡語言模型學習出文本特征向量; D、以堆疊降噪自動編碼器SDAE作為特征學習算法,將上述處理后的特征向量作為SDAE的輸入向量; E、使用分類算法對堆疊降噪自動編碼器SDAE學習得到的特征向量進行分類,對向量的分類結(jié)果即為該特征向量所對應的網(wǎng)頁區(qū)域的識別結(jié)果。2.根據(jù)權(quán)利要求1所述的基于深度學習的網(wǎng)頁區(qū)域識別算法,其特征在于:步驟B中,通過選擇全部視覺特征,得到未經(jīng)歸一化的視覺特征向量。3.根據(jù)權(quán)利要求1所述的基于深度學習的網(wǎng)頁區(qū)域識別算法,其特征在于:步驟B中,通過選擇部分視覺特征,得到未經(jīng)歸一化的視覺特征向量。4.根據(jù)權(quán)利要求2或3所述的基于深度學習的網(wǎng)頁區(qū)域識別算法,其特征在于:使用Min-Max Normalizat1n的歸一化方法對視覺特征向量進行歸一化,得到歸一化后的視覺特征向量。5.根據(jù)權(quán)利要求4所述的基于深度學習的網(wǎng)頁區(qū)域識別算法,其特征在于:步驟C中,通過海量分詞算法對文本進行分詞。6.根據(jù)權(quán)利要求4所述的基于深度學習的網(wǎng)頁區(qū)域識別算法,其特征在于:步驟C中,通過結(jié)巴分詞算法對文本進行分詞。7.根據(jù)權(quán)利要求5或6所述的基于深度學習的網(wǎng)頁區(qū)域識別算法,其特征在于:步驟C中,通過Paragraph2Vec算法學習出文本特征向量。8.根據(jù)權(quán)利要求5或6所述的基于深度學習的網(wǎng)頁區(qū)域識別算法,其特征在于:步驟D中,將視覺特征向量作為堆疊降噪自動編碼器SDAE的輸入向量。9.根據(jù)權(quán)利要求5或6所述的基于深度學習的網(wǎng)頁區(qū)域識別算法,其特征在于:步驟D中,將視覺特征向量與文本特征向量拼接后作為堆疊降噪自動編碼器SDAE的輸入向量,對拼接后的向量選擇性進行歸一化處理。10.根據(jù)權(quán)利要求1所述的基于深度學習的網(wǎng)頁區(qū)域識別算法,其特征在于:步驟E中,使用分類算法Sof tmax Regress 1n對學習到的特征向量進行分類。
【專利摘要】一種基于深度學習的網(wǎng)頁區(qū)域識別算法,包括以下步驟:A、以格式化文本,網(wǎng)頁的超文本標記語言HTML的源碼作為算法輸入;B、通過HTML2XML算法提取出網(wǎng)頁區(qū)域的視覺特征向量;C、通過HTML2XML算法提取出網(wǎng)頁區(qū)域的文本內(nèi)容,并通過神經(jīng)網(wǎng)絡語言模型學習出文本特征向量;D、以堆疊降噪自動編碼器SDAE作為特征學習方法,將上述特征向量作為SDAE的輸入向量;E、使用分類算法對SDAE的輸出向量進行分類,對向量的分類結(jié)果即為該向量所對應的網(wǎng)頁區(qū)域的識別結(jié)果。通過本發(fā)明可對網(wǎng)頁內(nèi)的標題區(qū)、正文區(qū)、導航區(qū)等視覺區(qū)域進行準確識別,識別準確率達99.99%-100%。
【IPC分類】G06F17/30, G06F17/21, G06N3/08, G06F17/27
【公開號】CN105550278
【申請?zhí)枴緾N201510910397
【發(fā)明人】李志杰, 周祖勝
【申請人】天津海量信息技術(shù)有限公司
【公開日】2016年5月4日
【申請日】2015年12月10日