一種識別網(wǎng)頁正文樓層的系統(tǒng)和方法

文檔序號：6638170閱讀：160來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種識別網(wǎng)頁正文樓層的系統(tǒng)和方法【專利摘要】本發(fā)明公開了一種識別網(wǎng)頁正文的系統(tǒng)，所述系統(tǒng)包括：網(wǎng)頁解析布局模塊，適于解析網(wǎng)頁的源代碼，對解析結(jié)果進行布局計算，生成網(wǎng)頁的DOM樹；結(jié)點識別模塊，適于從DOM樹的根結(jié)點開始遍歷，識別DOM樹中的正文結(jié)點和垃圾詞結(jié)點；樓層劃分模塊，適于對識別出的正文結(jié)點按網(wǎng)頁的樓層進行劃分；移動終端頁面生成模塊，適于生成移動終端頁面。本發(fā)明對于傳統(tǒng)互聯(lián)網(wǎng)網(wǎng)頁的內(nèi)容進行識別抽取后，可以有效地抽取出BBS正文、新聞?wù)募霸u論，并還原正文內(nèi)容在原網(wǎng)頁中的“分樓”展現(xiàn)特征，展現(xiàn)效果保持原“多樓”特征，以給用戶提供優(yōu)秀的閱讀體驗?！緦＠f明】一種識別網(wǎng)頁正文樓層的系統(tǒng)和方法[0001]本發(fā)明專利申請是申請日為2012年06月25日、申請?zhí)枮?01210214079.9、名稱為“一種識別網(wǎng)頁正文樓層的系統(tǒng)和方法”的中國發(fā)明專利申請的分案申請?！?br>技術(shù)領(lǐng)域：
】[0002]本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域，特別涉及一種識別網(wǎng)頁正文樓層的方法?！?br>背景技術(shù)：
】[0003]隨著移動終端的發(fā)展和普及，人們越來越多的使用移動終端瀏覽網(wǎng)頁。但由于互聯(lián)網(wǎng)上的網(wǎng)站大都沒有對移動終端的展現(xiàn)做特殊處理，所以大部分網(wǎng)頁在移動終端上的展現(xiàn)產(chǎn)生的變形，導(dǎo)致用戶體的閱讀體驗極差。[0004]當(dāng)前改進用戶閱讀體驗的方法便是對網(wǎng)頁正文進行抽取、重排，再重新展現(xiàn)給用戶。對于有大段內(nèi)容的新聞、資訊網(wǎng)頁效果較好，但會丟棄掉用戶評論，對于正文分為多“樓”的論壇等，效果更差:只能識別出某一樓正文或是識別不出正文。沒有剔除源網(wǎng)頁中的垃圾詞信息，并且網(wǎng)頁的內(nèi)容并沒有固定效果，會出現(xiàn)生成的網(wǎng)頁與源網(wǎng)頁效果?！?br/>發(fā)明內(nèi)容】[0005]本發(fā)明目的是解決當(dāng)前正文抽取技術(shù)對最大正文段的依賴和對于多“樓”內(nèi)容處理不好的情況，使在對網(wǎng)頁進行正文抽取和重排時，不但能夠識別、提取出新聞?wù)模材軌蜃R別新聞評論的評論內(nèi)容，以及識別出論壇中的多“樓”內(nèi)容。[0006]一種識別網(wǎng)頁正文的系統(tǒng)，所述系統(tǒng)包括:[0007]網(wǎng)頁解析布局模塊，適于解析網(wǎng)頁的源代碼，對解析結(jié)果進行布局計算，生成網(wǎng)頁的DOM樹；[0008]結(jié)點識別模塊，適于從DOM樹的根結(jié)點開始遍歷，識別DOM樹中的正文結(jié)點和/或垃圾詞結(jié)點；[0009]樓層劃分模塊，適于對識別出的正文結(jié)點按網(wǎng)頁的樓層進行劃分。[0010]其中，所述DOM樹的結(jié)點依據(jù)網(wǎng)頁語言中的標(biāo)簽劃分。[0011]其中，所述系統(tǒng)包括移動終端頁面生成模塊，適于生成移動終端頁面。[0012]其中，所述根結(jié)點為body結(jié)點。[0013]其中，所述網(wǎng)頁的DOM樹在生成后只保留網(wǎng)頁的主體元素。[0014]其中，所述網(wǎng)頁主體元素包括文本、圖片鏈接和/或文本文字格式。[0015]其中，所述結(jié)點識別模塊包括:[0016]統(tǒng)計模塊，適于計算出每個網(wǎng)頁頁面的結(jié)點分布值、文本密度和/或垃圾詞密度；[0017]分析模塊，適于對所述結(jié)點分布值進行分析得出每個網(wǎng)頁頁面的各結(jié)點構(gòu)成情況，并將所述文本密度和/或垃圾密度與預(yù)設(shè)的對應(yīng)閾值相比較；[0018]正文識別模塊，適于將上述文本密度和/或垃圾詞密度落在對應(yīng)閾值內(nèi)的內(nèi)容識別為正文。[0019]其中，所述結(jié)點分布值，表不一個結(jié)點的子結(jié)點構(gòu)成情況，包括各種標(biāo)簽的個數(shù)以及標(biāo)簽占子結(jié)點的比例；[0020]所述文本密度，表示一個結(jié)點中的文本長度除以子結(jié)點個數(shù)得到的平均文本長度；[0021]所述垃圾詞密度，表示一個結(jié)點中所有垃圾詞的長度除以結(jié)點中所有文本長度的值。[0022]其中，所述垃圾詞是基于詞典進行識別的。[0023]其中，所述樓層劃分模塊包括:[0024]位置劃分模塊，適于依據(jù)正文結(jié)點在DOM樹上的位置關(guān)系對樓層進行劃分；和/或[0025]特征詞劃分模塊，適于依據(jù)網(wǎng)頁中的特征詞對樓層進行劃分。[0026]其中，所述位置劃分模塊進行劃分所依據(jù)的規(guī)則如下:[0027]如果兩個正文結(jié)點在DOM樹上是相鄰的，則這兩個結(jié)點屬于同一樓層；[0028]如果一個正文結(jié)點和其它已判定屬于同一樓層的正文結(jié)點有相同的父結(jié)點，則這些正文結(jié)點屬于同一樓層；[0029]如果兩個正文結(jié)點的的公共父結(jié)點為根結(jié)點，則兩個正文結(jié)點劃分為不同的樓層；[0030]以及，如果正文節(jié)點間的關(guān)系未包含在上述情況下，則劃分為不同樓層。[0031]其中，所述特征詞包括正文結(jié)點中的作者信息和/或非正文結(jié)點中的發(fā)表時間、注冊時間或新聞評論。[0032]其中，所述垃圾詞結(jié)點在識別后作為正文結(jié)點樓層劃分的依據(jù)。[0033]其中，所述移動終端頁面生成模塊包括:[0034]布局生成模塊，適于將正文結(jié)點的內(nèi)容按劃分的樓層重新布局并生成移動終端頁面。[0035]一種識別網(wǎng)頁正文的方法，所述方法包括:[0036]解析網(wǎng)頁的源代碼，對解析結(jié)果進行布局計算，生成網(wǎng)頁的DOM樹；[0037]從DOM樹的根結(jié)點開始遍歷，識別DOM樹中的正文結(jié)點和/或垃圾詞結(jié)點；[0038]對識別出的正文結(jié)點按網(wǎng)頁的樓層進行劃分。[0039]其中，所述DOM樹的結(jié)點依據(jù)網(wǎng)頁語言中的標(biāo)簽劃分。[0040]其中，所述對識別出的正文結(jié)點按網(wǎng)頁的樓層進行劃分后，生成移動終端頁面。[0041]其中，所述根結(jié)點為body結(jié)點。[0042]其中，所述網(wǎng)頁的DOM樹在生成后只保留網(wǎng)頁的主體元素。[0043]其中，所述網(wǎng)頁主體元素包括文本、圖片鏈接和/或文本文字格式。[0044]其中，所述別DOM樹中的正文結(jié)點和/或垃圾詞結(jié)點的過程包括:[0045]計算出每個網(wǎng)頁頁面的結(jié)點分布值、文本密度和/或垃圾詞密度；[0046]對所述結(jié)點分布值進行分析得出每個網(wǎng)頁頁面的各結(jié)點構(gòu)成情況，并將所述文本密度和/或垃圾密度與預(yù)設(shè)的對應(yīng)閾值相比較；[0047]將上述文本密度和/或垃圾詞密度落在對應(yīng)閾值內(nèi)的內(nèi)容識別為正文。[0048]其中，所述結(jié)點分布值，表不一個結(jié)點的子結(jié)點構(gòu)成情況，包括各種標(biāo)簽的個數(shù)以及標(biāo)簽占子結(jié)點的比例；[0049]所述文本密度，表示一個結(jié)點中的文本長度除以子結(jié)點個數(shù)得到的平均文本長度；[0050]所述垃圾詞密度，表示一個結(jié)點中所有垃圾詞的長度除以結(jié)點中所有文本長度的值。[0051]其中，所述垃圾詞是基于詞典進行識別的。[0052]其中，所述對識別出的正文結(jié)點按網(wǎng)頁的樓層進行劃分的方法如下:[0053]依據(jù)正文結(jié)點在DOM樹上的位置關(guān)系對樓層進行劃分；和/或[0054]依據(jù)網(wǎng)頁中的特征詞對樓層進行劃分。[0055]其中，所述依據(jù)正文結(jié)點在DOM樹上的位置關(guān)系對樓層進行劃分所依據(jù)的規(guī)則如下:[0056]如果兩個正文結(jié)點在DOM樹上是相鄰的，則這兩個結(jié)點屬于同一樓層；[0057]如果一個正文結(jié)點和其它已判定屬于同一樓層的正文結(jié)點有相同的父結(jié)點，則這些正文結(jié)點屬于同一樓層；[0058]如果兩個正文結(jié)點的的公共父結(jié)點為根結(jié)點，則兩個正文結(jié)點劃分為不同的樓層；[0059]以及，如果正文節(jié)點間的關(guān)系未包含在上述情況下，則劃分為不同樓層。[0060]其中，所述特征詞包括正文結(jié)點中的作者信息和/或非正文結(jié)點中的發(fā)表時間、注冊時間或新聞評論。[0061]其中，所述垃圾詞結(jié)點在識別后作為正文結(jié)點樓層劃分的依據(jù)。[0062]其中，所述生成移動終端頁面的過程為:[0063]將正文結(jié)點的內(nèi)容按劃分的樓層重新布局并生成移動終端頁面。[0064]本發(fā)明對于傳統(tǒng)互聯(lián)網(wǎng)網(wǎng)頁的內(nèi)容進行識別抽取后，可以有效地抽取出BBS正文、新聞?wù)募霸u論，并還原正文內(nèi)容在原網(wǎng)頁中的“分樓”展現(xiàn)特征，展現(xiàn)效果保持原“多樓”特征，以給用戶提供優(yōu)秀的閱讀體驗?！緦＠綀D】【附圖說明】[0065]圖1是本發(fā)明系統(tǒng)的結(jié)構(gòu)圖[0066]圖2是本發(fā)明方法的流程圖[0067]圖3是依據(jù)本發(fā)明所生成的一顆DOM樹[0068]圖4是依據(jù)圖3的DOM樹生成的移動終端網(wǎng)頁示意圖【具體實施方式】[0069]下面結(jié)合附圖和實施例，對本發(fā)明的【具體實施方式】作進一步詳細描述。以下實施例適于說明本發(fā)明，但不用來限制本發(fā)明的范圍。[0070]本發(fā)明提供的系統(tǒng)的結(jié)構(gòu)圖如圖1所示。[0071]網(wǎng)頁解析布局模塊100把網(wǎng)頁源代碼進行解析和布局計算。解析HTML源代碼并布局時采用HTML解析引擎，常用的開源HTML解析引擎比如webkit。解析和布局依據(jù)網(wǎng)頁源代碼中的標(biāo)簽，可以依據(jù)但不限于div標(biāo)簽，生成網(wǎng)頁的DOM樹，并計算網(wǎng)頁展現(xiàn)時各結(jié)點顯示的位置和高度。生成的一顆DOM樹如圖3所示。[0072]由于在移動終端上，互聯(lián)網(wǎng)網(wǎng)頁的動態(tài)效果很難顯示，故在生成DOM樹的過程中需要將動態(tài)效果舍棄，只保留圖片鏈接以及正文的文字格式。[0073]結(jié)點識別模塊200對整個DOM樹從body結(jié)點開始遍歷，進行正文內(nèi)容以及垃圾詞內(nèi)容的識別，其算法主要采用能夠?qū)?shù)據(jù)規(guī)則進行歸類的算法，典型的比如決策樹算法。[0074]結(jié)點識別模塊200包括統(tǒng)計模塊，比較模塊和正文識別模塊。首先由統(tǒng)計模塊計算出每個網(wǎng)頁頁面的結(jié)點分布值、文本密度和垃圾詞密度；然后比較模塊將結(jié)點分布值、文本密度和垃圾詞密度與預(yù)設(shè)的閾值相比較；最后由正文識別模塊300將DOM樹中結(jié)點分布值、文本密度和垃圾詞密度落在閾值內(nèi)部分的內(nèi)容識別為正文。[0075]其中，結(jié)點分布，表示一個結(jié)點的子結(jié)點構(gòu)成情況，如div、img、table等各種標(biāo)簽的個數(shù)、占子結(jié)點的比例情況；文本密度，表示一個結(jié)點中文本長度除以子結(jié)點數(shù)得到了平均文本長度；垃圾詞密度(非正文詞匯)，表示一個結(jié)點中所有廣告詞的長度除以結(jié)點中所有文本長度的值。垃圾詞是基于詞典進行識別的，由人工進行維護，如網(wǎng)頁中與正文無關(guān)的的打印預(yù)覽、頂一下、熱門評論、暫無熱門評論等詞和短語。[0076]上述三個特征依據(jù)決策樹算法得出一個閾值，在閾值范圍之內(nèi)的結(jié)點都識別為正文，其余識別為垃圾詞。[0077]樓層劃分模塊包括位置劃分模塊和特征詞劃分模塊。[0078]位置劃分模塊是依照正文結(jié)點在DOM樹上的路徑和位置關(guān)系進行樓層劃分和識另U，劃分時所依據(jù)的規(guī)則如下:[0079]1、如果兩個正文結(jié)點在DOM樹上是相鄰的，則這兩個結(jié)點屬于同一樓層[0080]如圖3所示，br表示換行符，br標(biāo)簽是空標(biāo)簽。正文結(jié)點I和正文結(jié)點2有相同的父結(jié)點divl，且，正文結(jié)點I和正文2結(jié)點是相鄰的，則正文結(jié)點I和正文結(jié)點2可識別為同一樓層內(nèi)的結(jié)點[0081]2、如果一個正文結(jié)點和其它已判定屬于同一樓層的正文結(jié)點有相同的父結(jié)點，則這些正文結(jié)點屬于同一樓層[0082]如在圖3中的正文結(jié)點3和正文結(jié)點2、正文結(jié)點I有相同的父結(jié)點divl,且正文結(jié)點2和正文結(jié)點I已被判定屬于同一樓，所以正文結(jié)點3也屬于相同的樓層。[0083]3、如果兩個正文結(jié)點的的公共父結(jié)點為body,剛兩個正文結(jié)點劃分為不同的樓層O[0084]如圖3中的正文結(jié)點I與正文結(jié)點4，其在DOM樹中的路徑分別是:[0085]正文I—divl—body[0086]正文4—div3—body[0087]其路徑的公共父結(jié)點為body，所以應(yīng)識別為不同的樓層。[0088]4、如果正文節(jié)點間的關(guān)系未包含在上述情況下，則劃分為不同樓層。[0089]特征次劃分模塊主要是依據(jù)結(jié)點中的特征次來劃分，比如BBS正文、新聞資訊評論的作者發(fā)表內(nèi)容是和作者的相關(guān)信息同時展現(xiàn)的，而且為交替展現(xiàn)，通常為:[0090]作者信息一正文一作者信息一正文一作者信息一正文……[0091]通過對非正文結(jié)點中表現(xiàn)作者信息的關(guān)鍵詞(如發(fā)表時間、注冊時間等)進行識另Ij，對正文進行進一步的“樓層”劃分。[0092]移動終端頁面生成模塊包括布局生成模塊，將正文結(jié)點的內(nèi)容按劃分的樓層重新布局并生成移動終端頁面。在上述過程中，依據(jù)圖3所示的DOM樹，正文結(jié)點的樓層分布結(jié)果如圖4所示，即，[0093]樓層1:正文1、正文2、正文3;[0094]樓層2:正文4;[0095]樓層3:正文5、正文6。[0096]本發(fā)明提供的方法的流程圖如圖2所示。[0097]S102、對網(wǎng)頁源代碼進行解析和布局計算。解析HTML源代碼并布局時采用HTML解析引擎，常用的開源HTML解析引擎比如webkit。解析和布局依據(jù)網(wǎng)頁源代碼中的標(biāo)簽，主要是div標(biāo)簽，生成網(wǎng)頁的DOM樹，并計算網(wǎng)頁展現(xiàn)時各結(jié)點顯示的位置和高度。生成的一顆DOM樹如圖3所示。[0098]由于在移動終端上，互聯(lián)網(wǎng)網(wǎng)頁的動態(tài)效果很難顯示，故在生成DOM樹的過程中需要將動態(tài)效果舍棄，只保留圖片鏈接以及正文的文字格式。[0099]S104、對整個DOM樹從body結(jié)點開始遍歷，進行正文內(nèi)容以及垃圾詞內(nèi)容的識別，其算法主要采用能夠?qū)?shù)據(jù)規(guī)則進行歸類的算法，典型的比如決策樹算法。[0100]首先計算出每個網(wǎng)頁頁面的結(jié)點分布值、文本密度和垃圾詞密度；然后將結(jié)點分布值、文本密度和垃圾詞密度與預(yù)設(shè)的閾值相比較；最后將DOM樹中未超過閾值部分的內(nèi)容識別為正文。[0101]其中，結(jié)點分布，表示一個結(jié)點的子結(jié)點構(gòu)成情況，如div、img、table等各種標(biāo)簽的個數(shù)、占子結(jié)點的比例情況；文本密度，表示一個結(jié)點中文本長度除以子結(jié)點數(shù)得到了平均文本長度；垃圾詞密度(非正文詞匯)，表示一個結(jié)點中所有廣告詞的長度除以結(jié)點中所有文本長度的值。垃圾詞是基于詞典進行識別的，由人工進行維護，如網(wǎng)頁中與正文無關(guān)的的打印預(yù)覽、頂一下、熱門評論、暫無熱門評論等詞和短語。[0102]上述三個特征依據(jù)決策樹算法得出一個閾值，在閾值范圍之內(nèi)的結(jié)點都識別為正文，其余識別為垃圾詞。[0103]S106、對識別出的正文結(jié)點按網(wǎng)頁的樓層進行劃分，使用的方法包括按位置劃分和按特征詞劃分。[0104]按位置劃分是依照正文結(jié)點在DOM樹上的路徑和位置關(guān)系進行樓層劃分和識別，劃分時所依據(jù)的規(guī)則如下:[0105]1、如果兩個正文結(jié)點在DOM樹上是相鄰的，則這兩個結(jié)點屬于同一樓層[0106]如圖3所示，br表示換行符，br標(biāo)簽是空標(biāo)簽。正文結(jié)點I和正文結(jié)點2有相同的父結(jié)點divl，且，正文結(jié)點I和正文2結(jié)點是相鄰的，則正文結(jié)點I和正文結(jié)點2可識別為同一樓層內(nèi)的結(jié)點[0107]2、如果一個正文結(jié)點和其它已判定屬于同一樓層的正文結(jié)點有相同的父結(jié)點，則這些正文結(jié)點屬于同一樓層[0108]如在圖3中的正文結(jié)點3和正文結(jié)點2、正文結(jié)點I有相同的父結(jié)點divl,且正文結(jié)點2和正文結(jié)點I已被判定屬于同一樓，所以正文結(jié)點3也屬于相同的樓層。[0109]3、如果兩個正文結(jié)點的的公共父結(jié)點為body,剛兩個正文結(jié)點劃分為不同的樓層O[0110]如圖3中的正文結(jié)點I與正文結(jié)點4，其在DOM樹中的路徑分別是:[0111]正文I—divl—body[0112]正文4—div3—body[0113]其路徑的公共父結(jié)點為body，所以應(yīng)識別為不同的樓層。[0114]4、如果正文節(jié)點間的關(guān)系未包含在上述情況下，則劃分為不同樓層[0115]按特征次劃分是依據(jù)正文中的特征次來劃分的。比如BBS正文、新聞資訊評論的作者發(fā)表內(nèi)容是和作者的相關(guān)信息同時展現(xiàn)的，而且為交替展現(xiàn)，通常為:[0116]作者信息一正文一作者信息一正文一作者信息一正文……[0117]通過對非正文結(jié)點中表現(xiàn)作者信息的關(guān)鍵詞(如發(fā)表時間、注冊時間等)進行識另Ij，對正文進行進一步的“樓層”劃分。[0118]生成移動終端頁面，將正文結(jié)點的內(nèi)容按劃分的樓層重新布局并生成移動終端頁面。在上述過程中，依據(jù)圖3所示的DOM樹，正文結(jié)點的樓層分布結(jié)果如圖4所示，即，[0119]樓層1:正文1、正文2、正文3;[0120]樓層2:正文4;[0121]樓層3:正文5、正文6。[0122]應(yīng)當(dāng)注意的是，在本發(fā)明的控制器的各個部件中，根據(jù)其要實現(xiàn)的功能而對其中的部件進行了邏輯劃分，但是，本發(fā)明不受限于此，可以根據(jù)需要對各個部件進行重新劃分或者組合，例如，可以將一些部件組合為單個部件，或者可以將一些部件進一步分解為更多的子部件。[0123]本發(fā)明的各個部件實施例可以以硬件實現(xiàn)，或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn)，或者以它們的組合實現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解，可以在實踐中使用微處理器或者數(shù)字信號處理器(DSP)來實現(xiàn)根據(jù)本發(fā)明實施例的控制器中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為適于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如，計算機程序和計算機程序產(chǎn)品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質(zhì)上，或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到，或者在載體信號上提供，或者以任何其他形式提供。[0124]應(yīng)該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制，并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計出替換實施例。在權(quán)利要求中，不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中，這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。【權(quán)利要求】1.一種識別網(wǎng)頁正文的系統(tǒng)，其特征在于，所述系統(tǒng)包括:網(wǎng)頁解析布局模塊，適于解析網(wǎng)頁的源代碼，對解析結(jié)果進行布局計算，生成網(wǎng)頁的001樹；結(jié)點識別模塊，適于從001樹的根結(jié)點開始遍歷，識別001樹中的正文結(jié)點和/或垃圾詞結(jié)點；樓層劃分模塊，適于對識別出的正文結(jié)點按網(wǎng)頁的樓層進行劃分。2.如權(quán)利要求1所述的系統(tǒng)，其特征在于，所述001樹的結(jié)點依據(jù)網(wǎng)頁語言中的標(biāo)簽劃分。3.如權(quán)利要求1-2任一項所述的系統(tǒng)，其特征在于，所述系統(tǒng)包括移動終端頁面生成模塊，適于生成移動終端頁面。4.如權(quán)利要求1-3任一項所述的系統(tǒng)，其特征在于，所述根結(jié)點為結(jié)點。5.如權(quán)利要求1-4任一項所述的系統(tǒng)，其特征在于，所述網(wǎng)頁的001樹在生成后只保留網(wǎng)頁的主體元素。6.如權(quán)利要求1-5任一項所述的系統(tǒng)，其特征在于，所述網(wǎng)頁主體元素包括文本、圖片鏈接和/或文本文字格式。7.如權(quán)利要求1-6任一項所述的系統(tǒng)，其特征在于，所述結(jié)點識別模塊包括:統(tǒng)計模塊，適于計算出每個網(wǎng)頁頁面的結(jié)點分布值、文本密度和丨或垃圾詞密度；分析模塊，適于對所述結(jié)點分布值進行分析得出每個網(wǎng)頁頁面的各結(jié)點構(gòu)成情況，并將所述文本密度和/或垃圾密度與預(yù)設(shè)的對應(yīng)閾值相比較；正文識別模塊，適于將上述文本密度和/或垃圾詞密度落在對應(yīng)閾值內(nèi)的內(nèi)容識別為正文。8.如權(quán)利要求1-7任一項所述的系統(tǒng)，其特征在于，所述結(jié)點分布值，表示一個結(jié)點的子結(jié)點構(gòu)成情況，包括各種標(biāo)簽的個數(shù)以及標(biāo)簽占子結(jié)點的比例；所述文本密度，表示一個結(jié)點中的文本長度除以子結(jié)點個數(shù)得到的平均文本長度；所述垃圾詞密度，表示一個結(jié)點中所有垃圾詞的長度除以結(jié)點中所有文本長度的值。9.一種識別網(wǎng)頁正文的方法，其特征在于，所述方法包括:解析網(wǎng)頁的源代碼，對解析結(jié)果進行布局計算，生成網(wǎng)頁的001樹；從001樹的根結(jié)點開始遍歷，識別001樹中的正文結(jié)點和/或垃圾詞結(jié)點；對識別出的正文結(jié)點按網(wǎng)頁的樓層進行劃分。10.如權(quán)利要求9所述的方法，其特征在于，所述001樹的結(jié)點依據(jù)網(wǎng)頁語言中的標(biāo)簽劃分?！疚臋n編號】G06F17/30GK104462394SQ201410758368【公開日】2015年3月25日申請日期:2012年6月25日優(yōu)先權(quán)日:2012年6月25日【發(fā)明者】陳營營申請人:北京奇虎科技有限公司,奇智軟件（北京）有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳營營;
技術(shù)所有人：北京奇虎科技有限公司;奇智軟件（北京）有限公司;
我是此專利的發(fā)明人

上一篇：對jvm線程進行在線監(jiān)控的方法和裝置制造方法
上一篇：彈出框報警的處理方法和裝置制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

電梯樓層控制系統(tǒng)相關(guān)技術(shù)

樓層截水系統(tǒng)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種識別網(wǎng)頁正文樓層的系統(tǒng)和方法