一種識別網(wǎng)頁正文樓層的系統(tǒng)和方法【專利摘要】本發(fā)明公開了一種識別網(wǎng)頁正文的系統(tǒng),所述系統(tǒng)包括:網(wǎng)頁解析布局模塊,適于解析網(wǎng)頁的源代碼,對解析結(jié)果進行布局計算,生成網(wǎng)頁的DOM樹;結(jié)點識別模塊,適于從DOM樹的根結(jié)點開始遍歷,識別DOM樹中的正文結(jié)點和垃圾詞結(jié)點;樓層劃分模塊,適于對識別出的正文結(jié)點按網(wǎng)頁的樓層進行劃分;移動終端頁面生成模塊,適于生成移動終端頁面。本發(fā)明對于傳統(tǒng)互聯(lián)網(wǎng)網(wǎng)頁的內(nèi)容進行識別抽取后,可以有效地抽取出BBS正文、新聞?wù)募霸u論,并還原正文內(nèi)容在原網(wǎng)頁中的“分樓”展現(xiàn)特征,展現(xiàn)效果保持原“多樓”特征,以給用戶提供優(yōu)秀的閱讀體驗?!緦@f明】一種識別網(wǎng)頁正文樓層的系統(tǒng)和方法[0001]本發(fā)明專利申請是申請日為2012年06月25日、申請?zhí)枮?01210214079.9、名稱為“一種識別網(wǎng)頁正文樓層的系統(tǒng)和方法”的中國發(fā)明專利申請的分案申請?!?br>技術(shù)領(lǐng)域:
】[0002]本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,特別涉及一種識別網(wǎng)頁正文樓層的方法?!?br>背景技術(shù):
】[0003]隨著移動終端的發(fā)展和普及,人們越來越多的使用移動終端瀏覽網(wǎng)頁。但由于互聯(lián)網(wǎng)上的網(wǎng)站大都沒有對移動終端的展現(xiàn)做特殊處理,所以大部分網(wǎng)頁在移動終端上的展現(xiàn)產(chǎn)生的變形,導(dǎo)致用戶體的閱讀體驗極差。[0004]當(dāng)前改進用戶閱讀體驗的方法便是對網(wǎng)頁正文進行抽取、重排,再重新展現(xiàn)給用戶。對于有大段內(nèi)容的新聞、資訊網(wǎng)頁效果較好,但會丟棄掉用戶評論,對于正文分為多“樓”的論壇等,效果更差:只能識別出某一樓正文或是識別不出正文。沒有剔除源網(wǎng)頁中的垃圾詞信息,并且網(wǎng)頁的內(nèi)容并沒有固定效果,會出現(xiàn)生成的網(wǎng)頁與源網(wǎng)頁效果?!?br/>發(fā)明內(nèi)容】[0005]本發(fā)明目的是解決當(dāng)前正文抽取技術(shù)對最大正文段的依賴和對于多“樓”內(nèi)容處理不好的情況,使在對網(wǎng)頁進行正文抽取和重排時,不但能夠識別、提取出新聞?wù)模材軌蜃R別新聞評論的評論內(nèi)容,以及識別出論壇中的多“樓”內(nèi)容。[0006]一種識別網(wǎng)頁正文的系統(tǒng),所述系統(tǒng)包括:[0007]網(wǎng)頁解析布局模塊,適于解析網(wǎng)頁的源代碼,對解析結(jié)果進行布局計算,生成網(wǎng)頁的DOM樹;[0008]結(jié)點識別模塊,適于從DOM樹的根結(jié)點開始遍歷,識別DOM樹中的正文結(jié)點和/或垃圾詞結(jié)點;[0009]樓層劃分模塊,適于對識別出的正文結(jié)點按網(wǎng)頁的樓層進行劃分。[0010]其中,所述DOM樹的結(jié)點依據(jù)網(wǎng)頁語言中的標(biāo)簽劃分。[0011]其中,所述系統(tǒng)包括移動終端頁面生成模塊,適于生成移動終端頁面。[0012]其中,所述根結(jié)點為body結(jié)點。[0013]其中,所述網(wǎng)頁的DOM樹在生成后只保留網(wǎng)頁的主體元素。[0014]其中,所述網(wǎng)頁主體元素包括文本、圖片鏈接和/或文本文字格式。[0015]其中,所述結(jié)點識別模塊包括:[0016]統(tǒng)計模塊,適于計算出每個網(wǎng)頁頁面的結(jié)點分布值、文本密度和/或垃圾詞密度;[0017]分析模塊,適于對所述結(jié)點分布值進行分析得出每個網(wǎng)頁頁面的各結(jié)點構(gòu)成情況,并將所述文本密度和/或垃圾密度與預(yù)設(shè)的對應(yīng)閾值相比較;[0018]正文識別模塊,適于將上述文本密度和/或垃圾詞密度落在對應(yīng)閾值內(nèi)的內(nèi)容識別為正文。[0019]其中,所述結(jié)點分布值,表不一個結(jié)點的子結(jié)點構(gòu)成情況,包括各種標(biāo)簽的個數(shù)以及標(biāo)簽占子結(jié)點的比例;[0020]所述文本密度,表示一個結(jié)點中的文本長度除以子結(jié)點個數(shù)得到的平均文本長度;[0021]所述垃圾詞密度,表示一個結(jié)點中所有垃圾詞的長度除以結(jié)點中所有文本長度的值。[0022]其中,所述垃圾詞是基于詞典進行識別的。[0023]其中,所述樓層劃分模塊包括:[0024]位置劃分模塊,適于依據(jù)正文結(jié)點在DOM樹上的位置關(guān)系對樓層進行劃分;和/或[0025]特征詞劃分模塊,適于依據(jù)網(wǎng)頁中的特征詞對樓層進行劃分。[0026]其中,所述位置劃分模塊進行劃分所依據(jù)的規(guī)則如下:[0027]如果兩個正文結(jié)點在DOM樹上是相鄰的,則這兩個結(jié)點屬于同一樓層;[0028]如果一個正文結(jié)點和其它已判定屬于同一樓層的正文結(jié)點有相同的父結(jié)點,則這些正文結(jié)點屬于同一樓層;[0029]如果兩個正文結(jié)點的的公共父結(jié)點為根結(jié)點,則兩個正文結(jié)點劃分為不同的樓層;[0030]以及,如果正文節(jié)點間的關(guān)系未包含在上述情況下,則劃分為不同樓層。[0031]其中,所述特征詞包括正文結(jié)點中的作者信息和/或非正文結(jié)點中的發(fā)表時間、注冊時間或新聞評論。[0032]其中,所述垃圾詞結(jié)點在識別后作為正文結(jié)點樓層劃分的依據(jù)。[0033]其中,所述移動終端頁面生成模塊包括:[0034]布局生成模塊,適于將正文結(jié)點的內(nèi)容按劃分的樓層重新布局并生成移動終端頁面。[0035]一種識別網(wǎng)頁正文的方法,所述方法包括:[0036]解析網(wǎng)頁的源代碼,對解析結(jié)果進行布局計算,生成網(wǎng)頁的DOM樹;[0037]從DOM樹的根結(jié)點開始遍歷,識別DOM樹中的正文結(jié)點和/或垃圾詞結(jié)點;[0038]對識別出的正文結(jié)點按網(wǎng)頁的樓層進行劃分。[0039]其中,所述DOM樹的結(jié)點依據(jù)網(wǎng)頁語言中的標(biāo)簽劃分。[0040]其中,所述對識別出的正文結(jié)點按網(wǎng)頁的樓層進行劃分后,生成移動終端頁面。[0041]其中,所述根結(jié)點為body結(jié)點。[0042]其中,所述網(wǎng)頁的DOM樹在生成后只保留網(wǎng)頁的主體元素。[0043]其中,所述網(wǎng)頁主體元素包括文本、圖片鏈接和/或文本文字格式。[0044]其中,所述別DOM樹中的正文結(jié)點和/或垃圾詞結(jié)點的過程包括:[0045]計算出每個網(wǎng)頁頁面的結(jié)點分布值、文本密度和/或垃圾詞密度;[0046]對所述結(jié)點分布值進行分析得出每個網(wǎng)頁頁面的各結(jié)點構(gòu)成情況,并將所述文本密度和/或垃圾密度與預(yù)設(shè)的對應(yīng)閾值相比較;[0047]將上述文本密度和/或垃圾詞密度落在對應(yīng)閾值內(nèi)的內(nèi)容識別為正文。[0048]其中,所述結(jié)點分布值,表不一個結(jié)點的子結(jié)點構(gòu)成情況,包括各種標(biāo)簽的個數(shù)以及標(biāo)簽占子結(jié)點的比例;[0049]所述文本密度,表示一個結(jié)點中的文本長度除以子結(jié)點個數(shù)得到的平均文本長度;[0050]所述垃圾詞密度,表示一個結(jié)點中所有垃圾詞的長度除以結(jié)點中所有文本長度的值。[0051]其中,所述垃圾詞是基于詞典進行識別的。[0052]其中,所述對識別出的正文結(jié)點按網(wǎng)頁的樓層進行劃分的方法如下:[0053]依據(jù)正文結(jié)點在DOM樹上的位置關(guān)系對樓層進行劃分;和/或[0054]依據(jù)網(wǎng)頁中的特征詞對樓層進行劃分。[0055]其中,所述依據(jù)正文結(jié)點在DOM樹上的位置關(guān)系對樓層進行劃分所依據(jù)的規(guī)則如下:[0056]如果兩個正文結(jié)點在DOM樹上是相鄰的,則這兩個結(jié)點屬于同一樓層;[0057]如果一個正文結(jié)點和其它已判定屬于同一樓層的正文結(jié)點有相同的父結(jié)點,則這些正文結(jié)點屬于同一樓層;[0058]如果兩個正文結(jié)點的的公共父結(jié)點為根結(jié)點,則兩個正文結(jié)點劃分為不同的樓層;[0059]以及,如果正文節(jié)點間的關(guān)系未包含在上述情況下,則劃分為不同樓層。[0060]其中,所述特征詞包括正文結(jié)點中的作者信息和/或非正文結(jié)點中的發(fā)表時間、注冊時間或新聞評論。[0061]其中,所述垃圾詞結(jié)點在識別后作為正文結(jié)點樓層劃分的依據(jù)。[0062]其中,所述生成移動終端頁面的過程為:[0063]將正文結(jié)點的內(nèi)容按劃分的樓層重新布局并生成移動終端頁面。[0064]本發(fā)明對于傳統(tǒng)互聯(lián)網(wǎng)網(wǎng)頁的內(nèi)容進行識別抽取后,可以有效地抽取出BBS正文、新聞?wù)募霸u論,并還原正文內(nèi)容在原網(wǎng)頁中的“分樓”展現(xiàn)特征,展現(xiàn)效果保持原“多樓”特征,以給用戶提供優(yōu)秀的閱讀體驗?!緦@綀D】【附圖說明】[0065]圖1是本發(fā)明系統(tǒng)的結(jié)構(gòu)圖[0066]圖2是本發(fā)明方法的流程圖[0067]圖3是依據(jù)本發(fā)明所生成的一顆DOM樹[0068]圖4是依據(jù)圖3的DOM樹生成的移動終端網(wǎng)頁示意圖【具體實施方式】[0069]下面結(jié)合附圖和實施例,對本發(fā)明的【具體實施方式】作進一步詳細描述。以下實施例適于說明本發(fā)明,但不用來限制本發(fā)明的范圍。[0070]本發(fā)明提供的系統(tǒng)的結(jié)構(gòu)圖如圖1所示。[0071]網(wǎng)頁解析布局模塊100把網(wǎng)頁源代碼進行解析和布局計算。解析HTML源代碼并布局時采用HTML解析引擎,常用的開源HTML解析引擎比如webkit。解析和布局依據(jù)網(wǎng)頁源代碼中的標(biāo)簽,可以依據(jù)但不限于div標(biāo)簽,生成網(wǎng)頁的DOM樹,并計算網(wǎng)頁展現(xiàn)時各結(jié)點顯示的位置和高度。生成的一顆DOM樹如圖3所示。[0072]由于在移動終端上,互聯(lián)網(wǎng)網(wǎng)頁的動態(tài)效果很難顯示,故在生成DOM樹的過程中需要將動態(tài)效果舍棄,只保留圖片鏈接以及正文的文字格式。[0073]結(jié)點識別模塊200對整個DOM樹從body結(jié)點開始遍歷,進行正文內(nèi)容以及垃圾詞內(nèi)容的識別,其算法主要采用能夠?qū)?shù)據(jù)規(guī)則進行歸類的算法,典型的比如決策樹算法。[0074]結(jié)點識別模塊200包括統(tǒng)計模塊,比較模塊和正文識別模塊。首先由統(tǒng)計模塊計算出每個網(wǎng)頁頁面的結(jié)點分布值、文本密度和垃圾詞密度;然后比較模塊將結(jié)點分布值、文本密度和垃圾詞密度與預(yù)設(shè)的閾值相比較;最后由正文識別模塊300將DOM樹中結(jié)點分布值、文本密度和垃圾詞密度落在閾值內(nèi)部分的內(nèi)容識別為正文。[0075]其中,結(jié)點分布,表示一個結(jié)點的子結(jié)點構(gòu)成情況,如div、img、table等各種標(biāo)簽的個數(shù)、占子結(jié)點的比例情況;文本密度,表示一個結(jié)點中文本長度除以子結(jié)點數(shù)得到了平均文本長度;垃圾詞密度(非正文詞匯),表示一個結(jié)點中所有廣告詞的長度除以結(jié)點中所有文本長度的值。垃圾詞是基于詞典進行識別的,由人工進行維護,如網(wǎng)頁中與正文無關(guān)的的打印預(yù)覽、頂一下、熱門評論、暫無熱門評論等詞和短語。[0076]上述三個特征依據(jù)決策樹算法得出一個閾值,在閾值范圍之內(nèi)的結(jié)點都識別為正文,其余識別為垃圾詞。[0077]樓層劃分模塊包括位置劃分模塊和特征詞劃分模塊。[0078]位置劃分模塊是依照正文結(jié)點在DOM樹上的路徑和位置關(guān)系進行樓層劃分和識另U,劃分時所依據(jù)的規(guī)則如下:[0079]1、如果兩個正文結(jié)點在DOM樹上是相鄰的,則這兩個結(jié)點屬于同一樓層[0080]如圖3所示,br表示換行符,br標(biāo)簽是空標(biāo)簽。正文結(jié)點I和正文結(jié)點2有相同的父結(jié)點divl,且,正文結(jié)點I和正文2結(jié)點是相鄰的,則正文結(jié)點I和正文結(jié)點2可識別為同一樓層內(nèi)的結(jié)點[0081]2、如果一個正文結(jié)點和其它已判定屬于同一樓層的正文結(jié)點有相同的父結(jié)點,則這些正文結(jié)點屬于同一樓層[0082]如在圖3中的正文結(jié)點3和正文結(jié)點2、正文結(jié)點I有相同的父結(jié)點divl,且正文結(jié)點2和正文結(jié)點I已被判定屬于同一樓,所以正文結(jié)點3也屬于相同的樓層。[0083]3、如果兩個正文結(jié)點的的公共父結(jié)點為body,剛兩個正文結(jié)點劃分為不同的樓層O[0084]如圖3中的正文結(jié)點I與正文結(jié)點4,其在DOM樹中的路徑分別是:[0085]正文I—divl—body[0086]正文4—div3—body[0087]其路徑的公共父結(jié)點為body,所以應(yīng)識別為不同的樓層。[0088]4、如果正文節(jié)點間的關(guān)系未包含在上述情況下,則劃分為不同樓層。[0089]特征次劃分模塊主要是依據(jù)結(jié)點中的特征次來劃分,比如BBS正文、新聞資訊評論的作者發(fā)表內(nèi)容是和作者的相關(guān)信息同時展現(xiàn)的,而且為交替展現(xiàn),通常為:[0090]作者信息一正文一作者信息一正文一作者信息一正文……[0091]通過對非正文結(jié)點中表現(xiàn)作者信息的關(guān)鍵詞(如發(fā)表時間、注冊時間等)進行識另Ij,對正文進行進一步的“樓層”劃分。[0092]移動終端頁面生成模塊包括布局生成模塊,將正文結(jié)點的內(nèi)容按劃分的樓層重新布局并生成移動終端頁面。在上述過程中,依據(jù)圖3所示的DOM樹,正文結(jié)點的樓層分布結(jié)果如圖4所示,即,[0093]樓層1:正文1、正文2、正文3;[0094]樓層2:正文4;[0095]樓層3:正文5、正文6。[0096]本發(fā)明提供的方法的流程圖如圖2所示。[0097]S102、對網(wǎng)頁源代碼進行解析和布局計算。解析HTML源代碼并布局時采用HTML解析引擎,常用的開源HTML解析引擎比如webkit。解析和布局依據(jù)網(wǎng)頁源代碼中的標(biāo)簽,主要是div標(biāo)簽,生成網(wǎng)頁的DOM樹,并計算網(wǎng)頁展現(xiàn)時各結(jié)點顯示的位置和高度。生成的一顆DOM樹如圖3所示。[0098]由于在移動終端上,互聯(lián)網(wǎng)網(wǎng)頁的動態(tài)效果很難顯示,故在生成DOM樹的過程中需要將動態(tài)效果舍棄,只保留圖片鏈接以及正文的文字格式。[0099]S104、對整個DOM樹從body結(jié)點開始遍歷,進行正文內(nèi)容以及垃圾詞內(nèi)容的識別,其算法主要采用能夠?qū)?shù)據(jù)規(guī)則進行歸類的算法,典型的比如決策樹算法。[0100]首先計算出每個網(wǎng)頁頁面的結(jié)點分布值、文本密度和垃圾詞密度;然后將結(jié)點分布值、文本密度和垃圾詞密度與預(yù)設(shè)的閾值相比較;最后將DOM樹中未超過閾值部分的內(nèi)容識別為正文。[0101]其中,結(jié)點分布,表示一個結(jié)點的子結(jié)點構(gòu)成情況,如div、img、table等各種標(biāo)簽的個數(shù)、占子結(jié)點的比例情況;文本密度,表示一個結(jié)點中文本長度除以子結(jié)點數(shù)得到了平均文本長度;垃圾詞密度(非正文詞匯),表示一個結(jié)點中所有廣告詞的長度除以結(jié)點中所有文本長度的值。垃圾詞是基于詞典進行識別的,由人工進行維護,如網(wǎng)頁中與正文無關(guān)的的打印預(yù)覽、頂一下、熱門評論、暫無熱門評論等詞和短語。[0102]上述三個特征依據(jù)決策樹算法得出一個閾值,在閾值范圍之內(nèi)的結(jié)點都識別為正文,其余識別為垃圾詞。[0103]S106、對識別出的正文結(jié)點按網(wǎng)頁的樓層進行劃分,使用的方法包括按位置劃分和按特征詞劃分。[0104]按位置劃分是依照正文結(jié)點在DOM樹上的路徑和位置關(guān)系進行樓層劃分和識別,劃分時所依據(jù)的規(guī)則如下:[0105]1、如果兩個正文結(jié)點在DOM樹上是相鄰的,則這兩個結(jié)點屬于同一樓層[0106]如圖3所示,br表示換行符,br標(biāo)簽是空標(biāo)簽。正文結(jié)點I和正文結(jié)點2有相同的父結(jié)點divl,且,正文結(jié)點I和正文2結(jié)點是相鄰的,則正文結(jié)點I和正文結(jié)點2可識別為同一樓層內(nèi)的結(jié)點[0107]2、如果一個正文結(jié)點和其它已判定屬于同一樓層的正文結(jié)點有相同的父結(jié)點,則這些正文結(jié)點屬于同一樓層[0108]如在圖3中的正文結(jié)點3和正文結(jié)點2、正文結(jié)點I有相同的父結(jié)點divl,且正文結(jié)點2和正文結(jié)點I已被判定屬于同一樓,所以正文結(jié)點3也屬于相同的樓層。[0109]3、如果兩個正文結(jié)點的的公共父結(jié)點為body,剛兩個正文結(jié)點劃分為不同的樓層O[0110]如圖3中的正文結(jié)點I與正文結(jié)點4,其在DOM樹中的路徑分別是:[0111]正文I—divl—body[0112]正文4—div3—body[0113]其路徑的公共父結(jié)點為body,所以應(yīng)識別為不同的樓層。[0114]4、如果正文節(jié)點間的關(guān)系未包含在上述情況下,則劃分為不同樓層[0115]按特征次劃分是依據(jù)正文中的特征次來劃分的。比如BBS正文、新聞資訊評論的作者發(fā)表內(nèi)容是和作者的相關(guān)信息同時展現(xiàn)的,而且為交替展現(xiàn),通常為:[0116]作者信息一正文一作者信息一正文一作者信息一正文……[0117]通過對非正文結(jié)點中表現(xiàn)作者信息的關(guān)鍵詞(如發(fā)表時間、注冊時間等)進行識另Ij,對正文進行進一步的“樓層”劃分。[0118]生成移動終端頁面,將正文結(jié)點的內(nèi)容按劃分的樓層重新布局并生成移動終端頁面。在上述過程中,依據(jù)圖3所示的DOM樹,正文結(jié)點的樓層分布結(jié)果如圖4所示,即,[0119]樓層1:正文1、正文2、正文3;[0120]樓層2:正文4;[0121]樓層3:正文5、正文6。[0122]應(yīng)當(dāng)注意的是,在本發(fā)明的控制器的各個部件中,根據(jù)其要實現(xiàn)的功能而對其中的部件進行了邏輯劃分,但是,本發(fā)明不受限于此,可以根據(jù)需要對各個部件進行重新劃分或者組合,例如,可以將一些部件組合為單個部件,或者可以將一些部件進一步分解為更多的子部件。[0123]本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(DSP)來實現(xiàn)根據(jù)本發(fā)明實施例的控制器中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為適于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計算機程序和計算機程序產(chǎn)品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質(zhì)上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。[0124]應(yīng)該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計出替換實施例。在權(quán)利要求中,不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。【權(quán)利要求】1.一種識別網(wǎng)頁正文的系統(tǒng),其特征在于,所述系統(tǒng)包括:網(wǎng)頁解析布局模塊,適于解析網(wǎng)頁的源代碼,對解析結(jié)果進行布局計算,生成網(wǎng)頁的001樹;結(jié)點識別模塊,適于從001樹的根結(jié)點開始遍歷,識別001樹中的正文結(jié)點和/或垃圾詞結(jié)點;樓層劃分模塊,適于對識別出的正文結(jié)點按網(wǎng)頁的樓層進行劃分。2.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述001樹的結(jié)點依據(jù)網(wǎng)頁語言中的標(biāo)簽劃分。3.如權(quán)利要求1-2任一項所述的系統(tǒng),其特征在于,所述系統(tǒng)包括移動終端頁面生成模塊,適于生成移動終端頁面。4.如權(quán)利要求1-3任一項所述的系統(tǒng),其特征在于,所述根結(jié)點為結(jié)點。5.如權(quán)利要求1-4任一項所述的系統(tǒng),其特征在于,所述網(wǎng)頁的001樹在生成后只保留網(wǎng)頁的主體元素。6.如權(quán)利要求1-5任一項所述的系統(tǒng),其特征在于,所述網(wǎng)頁主體元素包括文本、圖片鏈接和/或文本文字格式。7.如權(quán)利要求1-6任一項所述的系統(tǒng),其特征在于,所述結(jié)點識別模塊包括:統(tǒng)計模塊,適于計算出每個網(wǎng)頁頁面的結(jié)點分布值、文本密度和丨或垃圾詞密度;分析模塊,適于對所述結(jié)點分布值進行分析得出每個網(wǎng)頁頁面的各結(jié)點構(gòu)成情況,并將所述文本密度和/或垃圾密度與預(yù)設(shè)的對應(yīng)閾值相比較;正文識別模塊,適于將上述文本密度和/或垃圾詞密度落在對應(yīng)閾值內(nèi)的內(nèi)容識別為正文。8.如權(quán)利要求1-7任一項所述的系統(tǒng),其特征在于,所述結(jié)點分布值,表示一個結(jié)點的子結(jié)點構(gòu)成情況,包括各種標(biāo)簽的個數(shù)以及標(biāo)簽占子結(jié)點的比例;所述文本密度,表示一個結(jié)點中的文本長度除以子結(jié)點個數(shù)得到的平均文本長度;所述垃圾詞密度,表示一個結(jié)點中所有垃圾詞的長度除以結(jié)點中所有文本長度的值。9.一種識別網(wǎng)頁正文的方法,其特征在于,所述方法包括:解析網(wǎng)頁的源代碼,對解析結(jié)果進行布局計算,生成網(wǎng)頁的001樹;從001樹的根結(jié)點開始遍歷,識別001樹中的正文結(jié)點和/或垃圾詞結(jié)點;對識別出的正文結(jié)點按網(wǎng)頁的樓層進行劃分。10.如權(quán)利要求9所述的方法,其特征在于,所述001樹的結(jié)點依據(jù)網(wǎng)頁語言中的標(biāo)簽劃分?!疚臋n編號】G06F17/30GK104462394SQ201410758368【公開日】2015年3月25日申請日期:2012年6月25日優(yōu)先權(quán)日:2012年6月25日【發(fā)明者】陳營營申請人:北京奇虎科技有限公司,奇智軟件(北京)有限公司