基于深度學習的網(wǎng)頁區(qū)域識別算法

文檔序號：9787485閱讀：509來源：國知局

基于深度學習的網(wǎng)頁區(qū)域識別算法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)信息采集的技術(shù)領(lǐng)域，具體說是一種基于深度學習的網(wǎng)頁區(qū)域識別算法。
【背景技術(shù)】
[0002]網(wǎng)頁區(qū)域識別對搜索引擎構(gòu)建、網(wǎng)絡信息檢索、網(wǎng)絡數(shù)據(jù)采集及網(wǎng)絡知識發(fā)現(xiàn)至關(guān)重要。目前，網(wǎng)頁區(qū)域識別通常采取如下方法:人工設定識別規(guī)則對網(wǎng)頁區(qū)域進行識別或者基于其他非深度學習的機器學習方法對網(wǎng)頁區(qū)域進行識別。
[0003]對網(wǎng)頁區(qū)域識別而言，區(qū)域內(nèi)文本的視覺特征(文字的大小、顏色、是否加粗等)及區(qū)域本身的視覺特征(位置、底色、是否有邊框等)至關(guān)重要。純文本無法反映這些視覺特征，且自然語言具有高度抽象性，僅對純文本進行特征提取及模式識別，難以提取出足夠的特征，獲得理想的識別效果。

【發(fā)明內(nèi)容】

[0004]本發(fā)明要解決的技術(shù)問題是提供一種基于深度學習的網(wǎng)頁區(qū)域識別算法。
[0005]本發(fā)明為解決公知技術(shù)中存在的技術(shù)問題所采取的技術(shù)方案是:
本發(fā)明的基于深度學習的網(wǎng)頁區(qū)域識別算法，包括以下步驟:
A、格式化文本:以網(wǎng)頁的HTML源碼作為算法輸入；
B、視覺特征處理:
將HTML轉(zhuǎn)化為XML，提取網(wǎng)頁內(nèi)不同區(qū)域的視覺特征;選擇上述視覺特征，得到視覺特征向量;將視覺特征向量進行歸一化，得到歸一化后的視覺特征向量；
C、文本特征處理:
將HTML轉(zhuǎn)化為XML，提取網(wǎng)頁區(qū)域內(nèi)的文本;通過分詞算法將文本特征序列化;通過神經(jīng)網(wǎng)絡語言模型學習出文本特征向量；
D、將堆疊降噪自動編碼器SDAE作為特征學習方法，將上述處理后的特征向量作為輸入向量；
E、將堆疊降噪自動編碼器SDAE的輸出向量作為分類算法的輸入，使用分類算法對上述輸出向量進行分類，對向量的分類結(jié)果即為該特征向量所對應的網(wǎng)頁區(qū)域的識別結(jié)果。
[0006]本發(fā)明還可以采用以下技術(shù)措施:
步驟B中，通過選擇全部視覺特征，得到未經(jīng)歸一化的視覺特征向量。
[0007]步驟B中，通過選擇部分視覺特征，得到未經(jīng)歸一化的視覺特征向量。
[0008]使用Min-Max Normali zat 1n的歸一化方法對視覺特征向量進行歸一化，得到歸一化后的視覺特征向量。
[0009]步驟C中，通過海量分詞算法對文本進行分詞。
[0010]步驟C中，通過結(jié)巴分詞算法對文本進行分詞。
[0011]步驟C中，通過Paragraph2Vec算法學習出文本特征向量。
[0012]步驟D中，將視覺特征向量作為堆疊降噪自動編碼器SDAE的輸入向量。
[0013]步驟D中，將視覺特征向量與文本特征向量拼接后作為堆疊降噪自動編碼器SDAE的輸入向量，對拼接后的向量選擇性進行歸一化處理。
[0014]步驟E中，使用分類算法Softmax Regress1n對學習到的特征向量進行分類。
[0015]本發(fā)明具有的優(yōu)點和積極效果是:
本發(fā)明的基于深度學習的網(wǎng)頁區(qū)域識別算法中，以網(wǎng)頁的HTML源碼作為算法輸入，并將HTML轉(zhuǎn)化為XML，提取視覺特征和文本內(nèi)容，并對相應的視覺特征進行歸一化處理、對文本內(nèi)容通過神經(jīng)網(wǎng)絡語言模型進行特征學習，分別得到初步的視覺特征向量和文本特征向量，通過堆疊降噪自動編碼器SDAE對初步的視覺特征向量和文本特征向量進行進一步的學習，得到代表相應網(wǎng)頁區(qū)域的網(wǎng)頁區(qū)域特征向量，并通過分類算法對網(wǎng)頁區(qū)域特征向量進行分類處理，即得到網(wǎng)頁區(qū)域的識別結(jié)果。本發(fā)明可對網(wǎng)頁內(nèi)的標題區(qū)、正文區(qū)、導航區(qū)等視覺區(qū)域進行準確識別，識別準確率達99.99%-100%。
【具體實施方式】
[0016]以下通過具體實施例對本發(fā)明進行詳細說明。
[0017]本發(fā)明的基于深度學習的網(wǎng)頁區(qū)域識別算法，包括以下步驟:
A、格式化文本:以網(wǎng)頁的HTML源碼作為算法輸入；
B、視覺特征處理:
將HTML轉(zhuǎn)化為XML，提取網(wǎng)頁內(nèi)不同區(qū)域的視覺特征，視覺特征包括區(qū)域坐標、區(qū)域底色、區(qū)域邊框粗細、區(qū)域文字密度、區(qū)域文字字體、區(qū)域文字大小、區(qū)域文字顏色等;通過選擇全部或部分視覺特征，得到未經(jīng)歸一化的視覺特征向量;使用Min-Max Normalizat1n的歸一化方法對視覺特征向量進行歸一化，得到歸一化后的視覺特征向量；
C、文本特征處理:
將HTML轉(zhuǎn)化為XML，提取網(wǎng)頁區(qū)域內(nèi)的文本;通過海量分詞算法或者結(jié)巴分詞算法對文本進行分詞;通過神經(jīng)網(wǎng)絡語言模型的Paragraph2Vec算法學習出文本特征向量；
D、將堆疊降噪自動編碼器SDAE作為特征學習方法，將上述處理后的特征向量作為輸入向量，其中SDAE的輸入向量由視覺特征向量與文本特征向量拼接而成，或僅使用視覺特征向量充當輸入向量，而對拼接后的向量進行或不進行歸一化處理；
E、將堆疊降噪自動編碼器SDAE的輸出向量作為分類算法的輸入，使用分類算法Softmax Regress1n對上述輸出向量進行分類，對向量的分類結(jié)果即為該特征向量所對應的網(wǎng)頁區(qū)域的識別結(jié)果。
[0018]以上所述，僅是本發(fā)明的較佳實施例而已，并非對本發(fā)明作任何形式上的限制，雖然本發(fā)明已以較佳實施例公開如上，然而，并非用以限定本發(fā)明，任何熟悉本專業(yè)的技術(shù)人員，在不脫離本發(fā)明技術(shù)方案范圍內(nèi)，當然會利用揭示的技術(shù)內(nèi)容作出些許更動或修飾，成為等同變化的等效實施例，但凡是未脫離本發(fā)明技術(shù)方案的內(nèi)容，依據(jù)本發(fā)明的技術(shù)實質(zhì)對以上實施例所作的任何簡單修改、等同變化與修飾，均屬于本發(fā)明技術(shù)方案的范圍內(nèi)。
【主權(quán)項】
1.一種基于深度學習的網(wǎng)頁區(qū)域識別算法，包括以下步驟: A、格式化文本:以網(wǎng)頁的HTML源碼作為算法輸入； B、視覺特征處理: 將HTML轉(zhuǎn)化為XML，提取網(wǎng)頁內(nèi)不同區(qū)域的視覺特征；選擇上述視覺特征，得到視覺特征向量;將視覺特征向量進行歸一化，得到歸一化后的視覺特征向量； C、文本特征處理: 將HTML轉(zhuǎn)化為XML，提取網(wǎng)頁區(qū)域內(nèi)的文本;對文本進行分詞；通過神經(jīng)網(wǎng)絡語言模型學習出文本特征向量； D、以堆疊降噪自動編碼器SDAE作為特征學習算法，將上述處理后的特征向量作為SDAE的輸入向量； E、使用分類算法對堆疊降噪自動編碼器SDAE學習得到的特征向量進行分類，對向量的分類結(jié)果即為該特征向量所對應的網(wǎng)頁區(qū)域的識別結(jié)果。2.根據(jù)權(quán)利要求1所述的基于深度學習的網(wǎng)頁區(qū)域識別算法，其特征在于:步驟B中，通過選擇全部視覺特征，得到未經(jīng)歸一化的視覺特征向量。3.根據(jù)權(quán)利要求1所述的基于深度學習的網(wǎng)頁區(qū)域識別算法，其特征在于:步驟B中，通過選擇部分視覺特征，得到未經(jīng)歸一化的視覺特征向量。4.根據(jù)權(quán)利要求2或3所述的基于深度學習的網(wǎng)頁區(qū)域識別算法，其特征在于:使用Min-Max Normalizat1n的歸一化方法對視覺特征向量進行歸一化，得到歸一化后的視覺特征向量。5.根據(jù)權(quán)利要求4所述的基于深度學習的網(wǎng)頁區(qū)域識別算法，其特征在于:步驟C中，通過海量分詞算法對文本進行分詞。6.根據(jù)權(quán)利要求4所述的基于深度學習的網(wǎng)頁區(qū)域識別算法，其特征在于:步驟C中，通過結(jié)巴分詞算法對文本進行分詞。7.根據(jù)權(quán)利要求5或6所述的基于深度學習的網(wǎng)頁區(qū)域識別算法，其特征在于:步驟C中，通過Paragraph2Vec算法學習出文本特征向量。8.根據(jù)權(quán)利要求5或6所述的基于深度學習的網(wǎng)頁區(qū)域識別算法，其特征在于:步驟D中，將視覺特征向量作為堆疊降噪自動編碼器SDAE的輸入向量。9.根據(jù)權(quán)利要求5或6所述的基于深度學習的網(wǎng)頁區(qū)域識別算法，其特征在于:步驟D中，將視覺特征向量與文本特征向量拼接后作為堆疊降噪自動編碼器SDAE的輸入向量，對拼接后的向量選擇性進行歸一化處理。10.根據(jù)權(quán)利要求1所述的基于深度學習的網(wǎng)頁區(qū)域識別算法，其特征在于:步驟E中，使用分類算法Sof tmax Regress 1n對學習到的特征向量進行分類。
【專利摘要】一種基于深度學習的網(wǎng)頁區(qū)域識別算法，包括以下步驟：A、以格式化文本，網(wǎng)頁的超文本標記語言HTML的源碼作為算法輸入；B、通過HTML2XML算法提取出網(wǎng)頁區(qū)域的視覺特征向量；C、通過HTML2XML算法提取出網(wǎng)頁區(qū)域的文本內(nèi)容，并通過神經(jīng)網(wǎng)絡語言模型學習出文本特征向量；D、以堆疊降噪自動編碼器SDAE作為特征學習方法，將上述特征向量作為SDAE的輸入向量；E、使用分類算法對SDAE的輸出向量進行分類，對向量的分類結(jié)果即為該向量所對應的網(wǎng)頁區(qū)域的識別結(jié)果。通過本發(fā)明可對網(wǎng)頁內(nèi)的標題區(qū)、正文區(qū)、導航區(qū)等視覺區(qū)域進行準確識別，識別準確率達99.99%-100%。
【IPC分類】G06F17/30, G06F17/21, G06N3/08, G06F17/27
【公開號】CN105550278
【申請?zhí)枴緾N201510910397
【發(fā)明人】李志杰, 周祖勝
【申請人】天津海量信息技術(shù)有限公司
【公開日】2016年5月4日
【申請日】2015年12月10日

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李志杰;周祖勝;
技術(shù)所有人：天津海量信息技術(shù)有限公司;
我是此專利的發(fā)明人

上一篇：基于視覺的列表頁識別方法
上一篇：基于標簽熱度的智能電影排名和評價系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于深度學習的網(wǎng)頁區(qū)域識別算法