一種網(wǎng)頁類別的識別方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于互聯(lián)網(wǎng)領(lǐng)域,尤其涉及一種網(wǎng)頁類別的識別方法和裝置。
【背景技術(shù)】
[0002]隨著移動互聯(lián)網(wǎng)的發(fā)展,越來越多的用戶使用手機(jī)瀏覽器來獲取、閱讀各種信息,包括如文字、圖片、視頻、音頻等。由于其使用方便,給人們生活帶來了極大的方便。
[0003]在使用手機(jī)瀏覽器瀏覽網(wǎng)頁內(nèi)容時,為了更為方便的對網(wǎng)頁中的內(nèi)容進(jìn)行抽取、分析用戶行為和更好的在手機(jī)瀏覽器中展示頁面中的內(nèi)容,可以對網(wǎng)頁的內(nèi)容進(jìn)行識別,如對文字正文頁與圖片正文頁的識別(約定當(dāng)網(wǎng)頁中的文字內(nèi)容占整個網(wǎng)頁的比例達(dá)到預(yù)設(shè)的一個定值,如百分之六十,則判定其為文字正文頁,也可以由網(wǎng)頁中各種元素所占的比例進(jìn)行判斷,根據(jù)占用比例最高的元素對應(yīng)的類別進(jìn)行劃分)。文字正文頁一般具有典型的標(biāo)題,在頁面中間部分為大段的文字內(nèi)容或摻雜有少量圖片,比如一些典型的新聞、博客、科技資訊類的文字正文頁;圖片正文頁一般具有典型的標(biāo)題,在頁面的中間部分是大量的圖片內(nèi)容,整個頁面通過圖片來展示頁面內(nèi)容,比如一些攝影類站點(diǎn)的圖片內(nèi)容頁。
[0004]由于缺少對網(wǎng)頁類別識別的方法,不能對網(wǎng)頁類別進(jìn)行有效的識別,從而不利于對網(wǎng)頁內(nèi)容的抽取、用戶行為的分析和更好的在手機(jī)瀏覽器中展示頁面中的內(nèi)容。
【發(fā)明內(nèi)容】
[0005]本發(fā)明實(shí)施例的目的在于提供一種網(wǎng)頁類別的識別方法,以解決現(xiàn)有技術(shù)缺少對網(wǎng)頁類別識別的方法,不能對網(wǎng)頁類別進(jìn)行有效的識別的問題,從而便于對網(wǎng)頁內(nèi)容的抽取、用戶行為的分析和更好的在手機(jī)瀏覽器中展示頁面中的內(nèi)容。
[0006]本發(fā)明實(shí)施例的第一方提供了一種網(wǎng)頁類別的識別方法,所述方法包括:
[0007]獲取待識別網(wǎng)頁的頁面特征;
[0008]根據(jù)預(yù)先生成的決策樹模型加載所述頁面特征,所述決策樹模型由已經(jīng)確定網(wǎng)頁類別的多個樣本網(wǎng)頁訓(xùn)練生成;
[0009]遞歸遍歷所述決策樹模型,查找所述頁面特征對應(yīng)的決策樹葉子分類節(jié)點(diǎn),由所述葉子節(jié)點(diǎn)得到所述待識別網(wǎng)頁的網(wǎng)頁類別。
[0010]本發(fā)明實(shí)施例的另一方面還提供了一種網(wǎng)頁類別的識別裝置,所述裝置包括:
[0011]頁面特征獲取單元,用于獲取待識別網(wǎng)頁的頁面特征;
[0012]頁面特征加載單元,用于根據(jù)預(yù)先生成的決策樹模型加載所述頁面特征,所述決策樹模型由已經(jīng)確定網(wǎng)頁類別的多個樣本網(wǎng)頁訓(xùn)練生成;
[0013]遍歷查找單元,用于遞歸遍歷所述決策樹模型,查找所述頁面特征對應(yīng)的決策樹葉子分類節(jié)點(diǎn),由所述葉子節(jié)點(diǎn)得到所述待識別網(wǎng)頁的網(wǎng)頁類別。
[0014]在本發(fā)明實(shí)施例中,通過獲取待識別網(wǎng)頁的頁面特征,并將獲取的頁面特征加載到預(yù)先生成的決策樹模型,而所述決策樹模型由已經(jīng)確定網(wǎng)頁類別的多個樣本網(wǎng)頁訓(xùn)練生成,從而能夠快速有效的查找到?jīng)Q策樹葉子分類節(jié)點(diǎn)對應(yīng)的網(wǎng)頁類別,便于對網(wǎng)頁內(nèi)容的抽取、用戶行為的分析和更好的在手機(jī)瀏覽器中展示頁面中的內(nèi)容。
【附圖說明】
[0015]圖1是本發(fā)明第一實(shí)施例提供的網(wǎng)頁類別的識別方法的實(shí)現(xiàn)流程圖;
[0016]圖2是本發(fā)明第二實(shí)施例提供的網(wǎng)頁類別的識別方法的實(shí)現(xiàn)流程圖;
[0017]圖3是本發(fā)明第三實(shí)施例提供的網(wǎng)頁類別的識別裝置的結(jié)構(gòu)框圖;
[0018]圖4為本發(fā)明第四實(shí)施例提供的終端結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0019]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0020]本發(fā)明實(shí)施例根據(jù)現(xiàn)有技術(shù)中不能有效的對網(wǎng)頁類別,主要是文字正文頁和圖片正文頁進(jìn)行識別,當(dāng)然還可以包括其它類別的頁,提出一種快速有效的網(wǎng)頁類別的識別方法,所述方法包括:獲取待識別網(wǎng)頁的頁面特征;根據(jù)預(yù)先生成的決策樹模型加載所述頁面特征,所述決策樹模型由已經(jīng)確定網(wǎng)頁類別的多個樣本網(wǎng)頁訓(xùn)練生成;遞歸遍歷所述決策樹模型,查找所述頁面特征對應(yīng)的決策樹葉子分類節(jié)點(diǎn),由所述葉子節(jié)點(diǎn)得到所述待識別網(wǎng)頁的網(wǎng)頁類別。通過本方法能夠快速有效的查找到?jīng)Q策樹葉子分類節(jié)點(diǎn)對應(yīng)的網(wǎng)頁類另O,便于對網(wǎng)頁內(nèi)容的抽取、用戶行為的分析和更好的在手機(jī)瀏覽器中展示頁面中的內(nèi)容。
[0021]其中,對于網(wǎng)頁類別的劃分依據(jù),由于現(xiàn)在網(wǎng)頁中多種元素的摻合,劃分的依據(jù)可以為網(wǎng)頁中的元素所占的百分比達(dá)到預(yù)先設(shè)定值,或者選擇其中所占百分比最多的對應(yīng)同一類別的元素。
[0022]實(shí)施例一:
[0023]圖1示出了本發(fā)明第一實(shí)施例提供的網(wǎng)頁類別的識別方法的實(shí)現(xiàn)流程,詳述如下:
[0024]在步驟SlOl中,獲取待識別網(wǎng)頁的頁面特征。
[0025]具體的,所述待識別的網(wǎng)頁,包括網(wǎng)頁的頁面地址、頁面信息以及相應(yīng)的網(wǎng)頁源代碼息。
[0026]獲取所述待識別網(wǎng)頁的頁面特征,可以在對網(wǎng)頁內(nèi)容抽取之前或者終端為移動終端時,通過手機(jī)瀏覽器查看頁面內(nèi)容之前獲取?;蛘咴趯τ脩粜袨檫M(jìn)行分析時,在用戶獲取查看網(wǎng)頁之前或者之后進(jìn)行網(wǎng)頁類別的識別。
[0027]具體的,所述頁面特征,可以包括以下特征的一項(xiàng)或者多項(xiàng):網(wǎng)頁地址特征、網(wǎng)頁標(biāo)題特征、二級導(dǎo)航特征、文檔對象模型DOM樹結(jié)構(gòu)特征和數(shù)據(jù)塊特征。
[0028]更進(jìn)一步的,所述獲取待識別網(wǎng)頁的頁面特征步驟包括:
[0029]獲取所述待識別網(wǎng)頁的頁面地址;
[0030]根據(jù)所述待識別網(wǎng)頁的頁面地址,提取所述頁面地址中包含的日期信息、預(yù)設(shè)的分類敏感關(guān)鍵詞以及尾部數(shù)字串;
[0031]根據(jù)所述頁面地址中包括的路徑數(shù)據(jù)獲取所述頁面的首頁級數(shù)信息。
[0032]所述首頁級數(shù)信息,包括如一級首頁和二級首頁等,可以通過域名地址信息直接進(jìn)行判斷,當(dāng)只包括主機(jī)域名地址時為一級首頁,在主機(jī)域名地址后添加進(jìn)一步的路徑信息對應(yīng)為二級首頁或者更后一級主頁。所述頁面地址中關(guān)鍵字,根據(jù)預(yù)先統(tǒng)計的所屬類別的關(guān)鍵詞庫進(jìn)行判斷,比如對于關(guān)鍵詞“blog”對應(yīng)于文字正文頁類別的關(guān)鍵詞。所述尾部的數(shù)字段,可以設(shè)定數(shù)字的個數(shù),當(dāng)大于所設(shè)定的個數(shù)時認(rèn)為其尾部為數(shù)字段。
[0033]作為頁面特征進(jìn)一步的限定,所述所述獲取待識別網(wǎng)頁的頁面特征步驟包括:
[0034]獲取所述待識別網(wǎng)頁的源代碼,根據(jù)網(wǎng)頁源代碼的編碼規(guī)則提取所述待識別網(wǎng)頁的標(biāo)題;
[0035]根據(jù)預(yù)設(shè)的標(biāo)題分類關(guān)鍵詞庫,獲取所述標(biāo)題中包括的標(biāo)題分類關(guān)鍵詞。
[0036]本發(fā)明實(shí)施例中所述網(wǎng)頁的標(biāo)題,與下面所述的標(biāo)題,是兩個范圍不同的概念,本發(fā)明實(shí)施例所述的標(biāo)題,包括網(wǎng)頁標(biāo)題、正文標(biāo)題等。
[0037]網(wǎng)頁的標(biāo)題,一般通過網(wǎng)頁編碼規(guī)則,由關(guān)鍵詞<titleX/title>之間限定的內(nèi)容作為網(wǎng)頁的標(biāo)題進(jìn)行限定。
[0038]所述標(biāo)題分類關(guān)鍵詞,可以根據(jù)預(yù)先統(tǒng)計的數(shù)據(jù),如標(biāo)題中包括關(guān)鍵詞“圖”或者“組圖”等關(guān)鍵詞,則對應(yīng)圖片正文頁,標(biāo)題中包括“視頻”、“第*集”等關(guān)鍵詞,則對應(yīng)為視頻正文頁。
[0039]另外,本發(fā)明實(shí)施例所述獲取待識別網(wǎng)頁的頁面特征步驟包括:
[0040]獲取所述待識別網(wǎng)頁的文檔對象模型DOM樹,判斷所述待識別網(wǎng)頁的文檔對象模型DOM樹是否包含二級導(dǎo)航;
[0041]如果所述待識別的網(wǎng)頁包含二級導(dǎo)航,則根據(jù)預(yù)設(shè)的導(dǎo)航分類關(guān)鍵詞庫查找所述二級導(dǎo)航中包括的關(guān)鍵詞。
[0042]所述二級導(dǎo)航特征,是用于指引頁面所處站點(diǎn)位置的標(biāo)識,比如在圖片正文頁中,“您的當(dāng)前位置 > 網(wǎng)站首頁 > 自拍寫真 > 自拍寫真圖片 > 網(wǎng)絡(luò)美女寫真”就是一個典型的二級導(dǎo)航。在二級導(dǎo)航中是否存在導(dǎo)航分類關(guān)鍵詞,比如常見的“圖片”、“寫真”、“自拍”等屬于圖片正文頁類別的關(guān)鍵詞或者一些其它的屬于文字正文頁的,如“小說”、“散文”、“閱讀”等關(guān)鍵詞。
[0043]其中,由待識別網(wǎng)頁的文檔對象模型DOM樹判斷是否包含二級導(dǎo)航,可以根據(jù)文檔對象模型DOM樹結(jié)構(gòu)信息進(jìn)行判定,如判斷如果包括多個下拉的并列子結(jié)點(diǎn),且并列子節(jié)點(diǎn)個數(shù)大于預(yù)定值,則當(dāng)前網(wǎng)頁包括二級導(dǎo)航。
[0044]更進(jìn)一步的,所述獲取待識別網(wǎng)頁的頁面特征步驟包括:
[0045]獲取所述待識別網(wǎng)頁的文檔對象模型DOM樹;
[0046]根據(jù)所述文檔對象模型DOM樹,提取所述待識別網(wǎng)頁的純文本節(jié)點(diǎn)個數(shù)、純文本長度、錨文本長度、純文本密度、圖片個數(shù)中的一個或者多個。
[0047]在遍歷網(wǎng)頁文本對象模型DOM樹的同時,計算網(wǎng)頁所有純文本、錨文本、圖片、標(biāo)點(diǎn)符號的個數(shù)、長度等特征。所述錨文本指的是帶關(guān)鍵詞的超文本鏈接,指向關(guān)鍵詞內(nèi)