一種小說目錄項的識別方法、裝置和系統(tǒng)的制作方法
【專利摘要】本發(fā)明實施例公開了一種小說目錄項的識別方法、裝置和系統(tǒng)。本發(fā)明實施例通過確定萬維網(wǎng)網(wǎng)頁中是否存在小說目錄項特征,來從萬維網(wǎng)網(wǎng)頁中初步識別出小說目錄頁,而對于不存在小說目錄項特征的萬維網(wǎng)網(wǎng)頁,則進(jìn)一步通過視覺分塊以及建立第一DOM樹,并利用第一DOM樹獲取疑似目錄塊的特征,然后根據(jù)疑似目錄塊的特征來確定是否是小說目錄頁,從而實現(xiàn)了對小說目錄項的識別,從而便于后續(xù)在移動終端上進(jìn)行顯示,以提高顯示效果,改善用戶的瀏覽質(zhì)量。
【專利說明】一種小說目錄項的識別方法、裝置和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及通信【技術(shù)領(lǐng)域】,具體涉及一種小說目錄項的識別方法、裝置和系統(tǒng)。
【背景技術(shù)】
[0002]隨著移動互聯(lián)網(wǎng)技術(shù)以及移動終端的發(fā)展,人們越來越傾向于通過移動終端來閱讀互聯(lián)網(wǎng)上的信息,其中,包括閱讀互聯(lián)網(wǎng)上各種各樣的小說作品,但是,目前互聯(lián)網(wǎng)上的小說作品有很大一部分都是以萬維網(wǎng)(WWW, world wide web)網(wǎng)頁的形式存在,所謂萬維網(wǎng)網(wǎng)頁,一般指的是在基于個人計算機(jī)(PC, Personal Computer)的網(wǎng)頁,其區(qū)別于無線應(yīng)用協(xié)議(WAP, Wireless Application Protocol)網(wǎng)頁,WAP網(wǎng)頁,一般指的是基于移動終端的網(wǎng)頁。
[0003]在對現(xiàn)有技術(shù)的研究和實踐過程中,本發(fā)明的發(fā)明人發(fā)現(xiàn),由于萬維網(wǎng)網(wǎng)頁上的小說的結(jié)構(gòu)和內(nèi)容都比較復(fù)雜,在移動終端上顯示存在局限性,所以往往顯示效果不佳,甚至?xí)绊懹脩魹g覽質(zhì)量。
【發(fā)明內(nèi)容】
[0004]本發(fā)明實施例提供一種小說目錄項的識別方法、裝置和系統(tǒng),可以對小說目錄項進(jìn)行識別,從而便于后續(xù)在移動終端上進(jìn)行顯示,以提高顯示效果,改善用戶的瀏覽質(zhì)量。
[0005]一種小說目錄項的識別方法,包括:
[0006]確定萬維網(wǎng)網(wǎng)頁是否存在小說目錄項特征;
[0007]若是,則確定所述萬維網(wǎng)網(wǎng)頁為小說目錄頁;
[0008]若否,則對所述萬維網(wǎng)網(wǎng)頁進(jìn)行視覺分塊,得到分塊后網(wǎng)頁,根據(jù)分塊后網(wǎng)頁建立第一文檔對象模型(DOM, Document Object Model)樹,根據(jù)所述第一 DOM樹獲取疑似目錄塊的特征,根據(jù)所述疑似目錄塊的特征確定存在小說目錄頁時,確定所述分塊后網(wǎng)頁為小說目錄頁。
[0009]可選的,其中,所述確定萬維網(wǎng)網(wǎng)頁是否存在小說目錄項特征可以包括:
[0010]根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接、標(biāo)題和全文具有正文特征的文本鏈接確定是否存在小說目錄項特征;例如,具體可以如下:
[0011]根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接確定所述萬維網(wǎng)網(wǎng)頁是否為首頁或二級首頁;
[0012]若是,則確定不存在小說目錄項特征;
[0013]若否,則根據(jù)所述萬維網(wǎng)網(wǎng)頁建立第二 DOM樹,利用所述第二 DOM樹獲取所述萬維網(wǎng)網(wǎng)頁的標(biāo)題和全文具有正文特征的文本鏈接,確定所述標(biāo)題存在預(yù)置的小說標(biāo)題特性關(guān)鍵詞,且確定所述全文具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第一閾值,且確定全文中相似文本鏈接占全文所有文本鏈接的比例大于等于預(yù)置的第二閾值時,確定存在小說目錄項特征,否則,確定不存在小說目錄項特征。
[0014]一種小說目錄項的識別裝置,包括:[0015]第一確定單元,用于確定萬維網(wǎng)網(wǎng)頁是否存在小說目錄項特征,若是,則確定所述萬維網(wǎng)網(wǎng)頁為小說目錄頁;
[0016]分塊單元,用于在第一確定單元確定萬維網(wǎng)網(wǎng)頁不存在小說目錄項特征時,對所述萬維網(wǎng)網(wǎng)頁進(jìn)行視覺分塊,得到分塊后網(wǎng)頁;
[0017]模型建立單元,用于根據(jù)分塊后網(wǎng)頁建立第一 DOM樹;
[0018]獲取單元,用于根據(jù)所述第一 DOM樹獲取疑似目錄塊的特征;
[0019]第二確定單元,用于根據(jù)所述疑似目錄塊的特征確定存在小說目錄頁時,確定所述分塊后網(wǎng)頁為小說目錄頁。
[0020]可選的,所述第一確定單元,具體可以用于根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接、標(biāo)題和全文具有正文特征的文本鏈接確定是否存在小說目錄項特征。例如,具體可以如下:
[0021]所述第一確定單元,具體用于根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接確定所述萬維網(wǎng)網(wǎng)頁是否為首頁或二級首頁;若是,則確定不存在小說目錄項特征;若否,則根據(jù)所述萬維網(wǎng)網(wǎng)頁建立第二 DOM樹,利用所述第二 DOM樹獲取所述萬維網(wǎng)網(wǎng)頁的標(biāo)題和全文具有正文特征的文本鏈接,確定所述標(biāo)題存在預(yù)置的小說標(biāo)題特性關(guān)鍵詞,且確定所述全文具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第一閾值,且確定全文中相似文本鏈接占全文所有文本鏈接的比例大于等于預(yù)置的第二閾值時,確定存在小說目錄項特征,否則,確定不存在小說目錄項特征。
[0022]一種通信系統(tǒng),包括本發(fā)明實施例提供的任一中小說目錄項的識別裝置。
[0023]本發(fā)明實施例通過確定萬維網(wǎng)網(wǎng)頁中是否存在小說目錄項特征,來從萬維網(wǎng)網(wǎng)頁中初步識別出小說目錄頁,而對于不存在小說目錄項特征的萬維網(wǎng)網(wǎng)頁,則進(jìn)一步通過視覺分塊以及建立第一 DOM樹,并利用第一 DOM樹獲取疑似目錄塊的特征,然后根據(jù)疑似目錄塊的特征來確定是否是小說目錄頁,從而實現(xiàn)了對小說目錄項的識別,從而便于后續(xù)在移動終端上進(jìn)行顯示,以提高顯示效果,改善用戶的瀏覽質(zhì)量。
【專利附圖】
【附圖說明】
[0024]為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0025]圖1是本發(fā)明實施例提供的小說目錄項的識別方法的流程示意圖;
[0026]圖2是本發(fā)明實施例提供的小說目錄項的識別方法的另一流程示意圖;
[0027]圖3是本發(fā)明實施例提供的小說目錄項的識別裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0028]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
[0029]本發(fā)明實施例提供一種小說目錄項的識別方法、裝置和系統(tǒng)。以下分別進(jìn)行詳細(xì)說明。
[0030]實施例一、
[0031]本發(fā)明實施例將從小說目錄項的識別裝置的角度進(jìn)行描述,該小說目錄項的識別裝置具體可以集成在移動終端中,比如手機(jī)或平板電腦等。
[0032]一種小說目錄項的識別方法,包括:確定萬維網(wǎng)網(wǎng)頁是否存在小說目錄項特征,若存在小說目錄項特征,則確定該萬維網(wǎng)網(wǎng)頁為小說目錄頁;若不存在小說目錄項特征,則對該萬維網(wǎng)網(wǎng)頁進(jìn)行視覺分塊,得到分塊后網(wǎng)頁,根據(jù)分塊后網(wǎng)頁建立第一 DOM樹,根據(jù)該第一 DOM樹獲取疑似目錄塊的特征,根據(jù)該疑似目錄塊的特征確定存在小說目錄頁時,確定該分塊后網(wǎng)頁為小說目錄頁。
[0033]如圖1所示,具體流程可以如下:
[0034]101、確定萬維網(wǎng)網(wǎng)頁是否存在小說目錄項特征,若是,則執(zhí)行步驟102,若否,則執(zhí)行步驟103 ;
[0035]例如,具體可以根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接、標(biāo)題和全文具有正文特征的文本鏈接確定是否存在小說目錄項特征;比如,具體可以包括:
[0036]根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接確定該萬維網(wǎng)網(wǎng)頁是否為首頁或二級首頁;若為首頁或二級首頁,則確定不存在小說目錄項特征;若即不是首頁也不是二級首頁,則根據(jù)該萬維網(wǎng)網(wǎng)頁建立DOM樹,為了描述方便,將該DOM樹稱為第二 DOM樹,利用該第二 DOM樹獲取該萬維網(wǎng)網(wǎng)頁的標(biāo)題和全文具有正文特征的文本鏈接,確定該標(biāo)題存在預(yù)置的小說標(biāo)題特性關(guān)鍵詞,且確定該全文具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第一閾值,且確定全文中相似文本鏈接占全文所有文本鏈接的比例大于等于預(yù)置的第二閾值時,確定存在小說目錄項特征,否則,確定不存在小說目錄項特征。
[0037]其中,本發(fā)明實施例的相似文本鏈接,指的是指向同一正文頁的不同的文本鏈接,即具有相同正文頁鏈接的不同的文本鏈接,比如同一“第”下的不同“章”的鏈接,或者,同一 “章”下的不同“節(jié)”的文本鏈接,或者,同一 “節(jié)”下的不同“回”的文本鏈接,等等。
[0038]其中,萬維網(wǎng)網(wǎng)頁的鏈接具體可以為統(tǒng)一資源定位符(URL, Universal ResourceLocator),則具體可以檢測萬維網(wǎng)網(wǎng)頁的URL的路徑長度,以及檢測是否含有類似“index”+ “.html/jsp/asp/php/shtml,,或“default,,+ “.html/jsp/asp/php/shtml,,等關(guān)鍵詞,從而判斷該萬維網(wǎng)網(wǎng)頁是否屬于首頁或者二級首頁。
[0039]此外,小說標(biāo)題特性關(guān)鍵詞可以包括目錄和/或標(biāo)題等詞語;小說正文特性關(guān)鍵詞包括:第、章、節(jié)、回和/或卷等詞語,而第一閾值和第二閾值則可以根據(jù)實際應(yīng)用的需求進(jìn)行設(shè)置,在此不再贅述。
[0040]102、確定萬維網(wǎng)網(wǎng)頁存在小說目錄項特征時,確定該萬維網(wǎng)網(wǎng)頁為小說目錄頁。
[0041]103、確定萬維網(wǎng)網(wǎng)頁不存在小說目錄項特征時,對萬維網(wǎng)網(wǎng)頁進(jìn)行視覺分塊,得到分塊后網(wǎng)頁。
[0042]104、根據(jù)分塊后網(wǎng)頁建立DOM樹,為了描述方便,在本發(fā)明實施例中,將該DOM樹稱為第一 DOM樹。
[0043]105、根據(jù)該第一 DOM樹獲取疑似目錄塊的特征,根據(jù)該疑似目錄塊的特征確定存在小說目錄頁時,確定該分塊后網(wǎng)頁為小說目錄頁。[0044]其中,根據(jù)該第一 DOM樹獲取疑似目錄塊的特征,具體可以包括:
[0045]根據(jù)該第一 DOM樹獲取疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接;
[0046]則此時,步驟“根據(jù)該疑似目錄塊的特征確定存在小說目錄頁時,確定該分塊后網(wǎng)頁為小說目錄頁”具體可以為:根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定存在小說目錄頁時,確定所述分塊后網(wǎng)頁為小說目錄頁,具體可以如下:
[0047]根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定符合第一條件和第二條件時,確定存在小說目錄頁;
[0048](一)第一條件包括:
[0049]疑似目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第三閾值,且疑似目錄塊中相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于預(yù)置的第四閾值;
[0050](二)第二條件包括:
[0051]在根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定該分塊后網(wǎng)頁存在目錄塊的前提下,符合以下任意一種情況:
[0052](I)代表目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第五閾值;
[0053](2)代表目錄塊中的相似文本鏈接的數(shù)量大于等于預(yù)置的第六閾值,且代表目錄塊中的相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于預(yù)置的第七閾值;
[0054](3)分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接的數(shù)量大于等于預(yù)置的第八閾值,且該分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接占該分塊后網(wǎng)頁中所有文本鏈接的比例大于等于預(yù)置的第九閾值。
[0055]其中,可以采用如下方法來得到代表目錄塊,如下:
[0056]統(tǒng)計疑似目錄塊中出現(xiàn)的小說正文頁的鏈接特征的數(shù)量,以及統(tǒng)計疑似目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量;確定該鏈接特征的數(shù)量和小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量最多的疑似目錄塊為代表目錄塊。
[0057]其中,步驟“根據(jù)疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定該分塊后網(wǎng)頁存在目錄塊”具體可以包括:
[0058]確定疑似目錄塊位置滿足預(yù)置條件(可以根據(jù)實際應(yīng)用的需求進(jìn)行設(shè)置),且確定疑似目錄塊鏈接存在預(yù)置的小說正文頁的鏈接特征,以及確定疑似目錄塊具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞時,確定該分塊后網(wǎng)頁存在目錄塊。
[0059]其中,第三閾值、第四閾值、第五閾值、第六閾值、第七閾值、第八閾值和第九閾值可以根據(jù)實際應(yīng)用的需求進(jìn)行設(shè)置。
[0060]需說明的是,在本發(fā)明實施例中,將符合預(yù)置條件的分塊后網(wǎng)頁中的塊稱為疑似目錄塊,該預(yù)置條件可以根據(jù)實際應(yīng)用的需求進(jìn)行設(shè)置。
[0061]此外,若根據(jù)該疑似目錄塊的特征確定不存在小說目錄頁,則可以確定該分塊后網(wǎng)頁不是小說目錄頁。
[0062]由上可知,本實施例通過確定萬維網(wǎng)網(wǎng)頁中是否存在小說目錄項特征,來從萬維網(wǎng)網(wǎng)頁中初步識別出小說目錄頁,而對于不存在小說目錄項特征的萬維網(wǎng)網(wǎng)頁,則進(jìn)一步通過視覺分塊以及建立第一 DOM樹,并利用第一 DOM樹獲取疑似目錄塊的特征,然后根據(jù)疑似目錄塊的特征來確定是否是小說目錄頁,從而實現(xiàn)了對小說目錄項的識別,從而便于后續(xù)在移動終端上進(jìn)行顯示,以提高顯示效果,改善用戶的瀏覽質(zhì)量。
[0063]實施例二、
[0064]根據(jù)實施例一所描述的方法,以下將舉例作進(jìn)一步詳細(xì)說明。
[0065]在本發(fā)明實施例中,將以該小說目錄項的識別裝置具體集成在移動終端,且萬維網(wǎng)網(wǎng)頁的鏈接具體為URL為例進(jìn)行說明。
[0066]—種小說目錄項的識別方法,如圖2所示,具體流程可以如下:
[0067]201、移動終端獲取萬維網(wǎng)網(wǎng)頁。
[0068]202、移動終端根據(jù)萬維網(wǎng)網(wǎng)頁的URL確定該萬維網(wǎng)網(wǎng)頁是否為首頁或二級首頁,若為首頁或二級首頁,則可以直接確定不存在小說目錄項特征,于是執(zhí)行步驟204 ;若即不是首頁也不是二級首頁,則執(zhí)行步驟203。
[0069]例如,具體可以檢測萬維網(wǎng)網(wǎng)頁的URL的路徑長度,以及檢測是否含有類似“index”+ “.html/jsp/asp/php/shtml,,或“default,,+ “.html/jsp/asp/php/shtml,,等關(guān)鍵詞,從而判斷該萬維網(wǎng)網(wǎng)頁是否屬于首頁或者二級首頁。
[0070]203、根據(jù)該萬維網(wǎng)網(wǎng)頁建立第二 DOM樹,利用該第二 DOM樹獲取該萬維網(wǎng)網(wǎng)頁的標(biāo)題和全文具有正文特征的文本鏈接,并根據(jù)該萬維網(wǎng)網(wǎng)頁的鏈接、標(biāo)題和全文具有正文特征的文本鏈接確定是否存在小說目錄項特征,具體如下:
[0071]確定該標(biāo)題中是否存在預(yù)置的小說標(biāo)題特性關(guān)鍵詞,以及確定該全文具有正文特征的文本鏈接中是否存在預(yù)置的小說正文特性關(guān)鍵詞,并統(tǒng)計這些存在小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量,此外,還可以確定全文中相似文本鏈接的占比,即全文中相似文本鏈接占全文所有文本鏈接的比例。
[0072]若確定該標(biāo)題存在預(yù)置的小說標(biāo)題特性關(guān)鍵詞,且該全文具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第一閾值,且全文中相似文本鏈接占全文所有文本鏈接的比例大于等于預(yù)置的第二閾值時,則可以確定存在小說目錄項特征,于是確定該萬維網(wǎng)網(wǎng)頁為小說目錄頁,流程結(jié)束;
[0073]否則,若確定該標(biāo)題不存在預(yù)置的小說標(biāo)題特性關(guān)鍵詞,或確定該全文具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞文本鏈接的數(shù)量小于預(yù)置的第一閾值,或確定全文中相似文本鏈接占全文所有文本鏈接的比例小于預(yù)置的第二閾值,則確定不存在小說目錄項特征,于是執(zhí)行步驟204。
[0074]其中,小說標(biāo)題特性關(guān)鍵詞可以包括目錄和/或標(biāo)題等詞語;小說正文特性關(guān)鍵詞包括:第、章、節(jié)、回和/或卷等詞語,而第一閾值和第二閾值則可以根據(jù)實際應(yīng)用的需求進(jìn)行設(shè)置,例如,具體可以如下:
[0075]根據(jù)該萬維網(wǎng)網(wǎng)頁建立第二 DOM樹,利用該第二 DOM樹獲取該萬維網(wǎng)網(wǎng)頁〈title〉標(biāo)簽下的標(biāo)題,確定該標(biāo)題中是否存在“目錄”和/或“標(biāo)題”等關(guān)鍵詞;
[0076]遍歷第二 DOM樹,確定全文具有正文特征的文本鏈接中是否含有“第”、“章”、“節(jié)”、“回”和/或“卷”等目錄相關(guān)關(guān)鍵詞,若含有,則統(tǒng)計這些含有“第”、“章”、“節(jié)”、“回”和/或“卷”等目錄相關(guān)關(guān)鍵詞的文本鏈接的數(shù)量,此外,還可以計算全文中相似文本鏈接占全文所有文本鏈接的比例;
[0077]若標(biāo)題中存在“目錄”和/或“標(biāo)題”等關(guān)鍵詞,且這些含有“第”、“章”、“節(jié)”、“回”和/或“卷”等目錄相關(guān)關(guān)鍵詞的文本鏈接的數(shù)量大于等于第一閾值,且這些相似文本鏈接占全文所有文本鏈接的比例大于等于預(yù)置的第二閾值,則可以確定該萬維網(wǎng)網(wǎng)頁存在小說目錄項特征,于是確定該萬維網(wǎng)網(wǎng)頁為小說目錄頁,流程結(jié)束。
[0078]若標(biāo)題中不存在“目錄”和/或“標(biāo)題”等關(guān)鍵詞,或這些含有“第”、“章”、“節(jié)”、“回”和/或“卷”等目錄相關(guān)關(guān)鍵詞的文本鏈接的數(shù)量小于第一閾值,或這些相似文本鏈接占全文所有文本鏈接的比例小于預(yù)置的第二閾值,則可以確定該萬維網(wǎng)網(wǎng)頁不存在小說目錄項特征,于是可以執(zhí)行步驟204。
[0079]204、移動終端確定萬維網(wǎng)網(wǎng)頁不存在小說目錄項特征時,對萬維網(wǎng)網(wǎng)頁進(jìn)行視覺分塊,得到分塊后網(wǎng)頁。
[0080]205、移動終端根據(jù)分塊后網(wǎng)頁建立第一 DOM樹,并根據(jù)該第一 DOM樹獲取疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接。
[0081]其中,疑似目錄塊位置可以從塊的位置坐標(biāo)、寬度、高度等來體現(xiàn),例如,若以萬維網(wǎng)網(wǎng)頁的頁面從左到右代表X軸,從上到下代表I軸的坐標(biāo)系來看,則可以用X代表塊的X坐標(biāo),I代表塊的I坐標(biāo),width代表分塊的寬度,height代表分塊的高度,等等。
[0082]206、移動終端根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定是否存在小說目錄頁,若是,則確定該分塊后網(wǎng)頁為小說目錄頁,若否,則可以確定該分塊后網(wǎng)頁不是小說目錄頁(即非小說目錄頁)。
[0083]例如,移動終端具體可以根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定是否符合第一條件和第二條件,若可以同時符合第一條件和第二條件,則確定該分塊后網(wǎng)頁存在小說目錄頁,否則,若不能同時符合第一條件和第二條件,則確定該分塊后網(wǎng)頁不存在小說目錄頁。
[0084]其中,第一條件和第二條件具體可以如下:
[0085](一)第一條件包括:
[0086]疑似目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第三閾值,且疑似目錄塊中相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于預(yù)置的第四閾值。
[0087]例如,小說正文特性關(guān)鍵詞具體可以為“第”、“章”、“節(jié)”、“回”和/或“卷”等目錄相關(guān)的關(guān)鍵詞,而第三閾值具體可以設(shè)置為“15”,第四閾值具體可以設(shè)置為“0.8”,則具體可以如下:
[0088]疑似目錄塊中具有正文特征的鏈接文本中含有“第”、“章”、“節(jié)”、“回”和/或“卷”等目錄相關(guān)的關(guān)鍵詞,且這類鏈接文本數(shù)量大于等于15個,且該疑似目錄塊中相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于0.8。
[0089](二)第二條件包括:
[0090]在根據(jù)疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定該分塊后網(wǎng)頁存在目錄塊的前提下,符合以下任意一種情況:
[0091](I)代表目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的數(shù)量大于等于預(yù)置的第五閾值;[0092]例如,小說正文特性關(guān)鍵詞具體可以為“第”、“章”、“節(jié)”、“回”和/或“卷”等目錄相關(guān)的關(guān)鍵詞,而第五閾值可以設(shè)置為“10”,則具體可以如下:
[0093]代表目錄塊中具有正文特征的鏈接文本中含有“第”、“章”、“節(jié)”、“回”和/或“卷”等目錄相關(guān)的關(guān)鍵詞,且這類鏈接文本數(shù)量大于等于10個。
[0094](2)代表目錄塊中的相似文本鏈接的數(shù)量大于等于預(yù)置的第六閾值,且代表目錄塊中的相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于預(yù)置的第七閾值;
[0095]例如,第六閾值具體可以設(shè)置為“20”,第七閾值具體可以設(shè)置為“0.9”,則具體可以如下:
[0096]代表目錄塊中的相似文本鏈接的數(shù)量大于等于20個,且代表目錄塊中的相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于0.9。
[0097](3)分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接的數(shù)量大于等于預(yù)置的第八閾值,且該分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接占該分塊后網(wǎng)頁中所有文本鏈接的比例大于等于預(yù)置的第九閾值。
[0098]例如,第八閾值具體可以設(shè)置為“100”,第九閾值具體可以設(shè)置為“0.8”,則具體可以如下:
[0099]分塊后網(wǎng)頁中的所有疑似目錄塊的相似文本鏈接的數(shù)量大于等于100個,且該分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接占該分塊后網(wǎng)頁中所有文本鏈接的比例大于等于0.8。
[0100]其中,可以采用如下方法來得到代表目錄塊,如下:
[0101]統(tǒng)計疑似目錄塊中出現(xiàn)的小說正文頁的鏈接特征的數(shù)量,以及統(tǒng)計疑似目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量,確定該鏈接特征的數(shù)量和小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量最多的疑似目錄塊為代表目錄塊。
[0102]其中,步驟“根據(jù)疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定該分塊后網(wǎng)頁存在目錄塊”具體可以包括:
[0103]確定疑似目錄塊位置滿足預(yù)置條件,比如,滿足“y>=100 ;width>300 ;height>100”,且確定疑似目錄塊鏈接存在預(yù)置的小說正文頁的鏈接特征,且確定疑似目錄塊具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞時,可以確定該分塊后網(wǎng)頁存在目錄塊。
[0104]需說明的是,以上各個閾值的值僅僅為范例,應(yīng)當(dāng)理解的是,以上各個閾值,即第一閾值、第二閾值、第三閾值、第四閾值、第五閾值、第六閾值、第七閾值、第八閾值和第九閾值的具體取值可以根據(jù)實際應(yīng)用的需求進(jìn)行設(shè)置。
[0105]由上可知,本實施例通過確定萬維網(wǎng)網(wǎng)頁中是否存在小說目錄項特征,來從萬維網(wǎng)網(wǎng)頁中初步識別出小說目錄頁,而對于不存在小說目錄項特征的萬維網(wǎng)網(wǎng)頁,則進(jìn)一步通過視覺分塊以及建立第一 DOM樹,并利用第一 DOM樹獲取疑似目錄塊的特征,比如獲取疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接等,然后根據(jù)這些疑似目錄塊的特征來確定是否是小說目錄頁,從而實現(xiàn)了對小說目錄項的識別,在進(jìn)行小說目錄頁的相關(guān)抽取時將能更有針對性,取得更好的抽取效果,從而便于后續(xù)在移動終端上進(jìn)行顯示,以提高顯示效果,改善用戶的瀏覽質(zhì)量。
[0106]實施例三、[0107]為了更好地實施以上方法,本發(fā)明實施例還提供一種小說目錄項的識別裝置,如圖3所示,該小說目錄項的識別裝置包括第一確定單元301、分塊單元302、模型建立單元303、獲取單元304和第二確定單元305 ;
[0108]第一確定單元301,用于確定萬維網(wǎng)網(wǎng)頁是否存在小說目錄項特征,若是,則確定該萬維網(wǎng)網(wǎng)頁為小說目錄頁;
[0109]分塊單元302,用于在第一確定單元301確定萬維網(wǎng)網(wǎng)頁不存在小說目錄項特征時,對該萬維網(wǎng)網(wǎng)頁進(jìn)行視覺分塊,得到分塊后網(wǎng)頁;
[0110]模型建立單元303,用于根據(jù)分塊單元302得到的分塊后網(wǎng)頁建立第一 DOM樹;
[0111]獲取單元304,用于根據(jù)模型建立單元303建立的第一 DOM樹獲取疑似目錄塊的特征;
[0112]第二確定單元305,用于根據(jù)疑似目錄塊的特征確定存在小說目錄頁時,確定所述分塊后網(wǎng)頁為小說目錄頁。
[0113]其中,第一確定單元301,具體可以用于根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接、標(biāo)題和全文具有正文特征的文本鏈接確定是否存在小說目錄項特征。例如,具體可以如下:
[0114]第一確定單元301,具體可以用于根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接確定該萬維網(wǎng)網(wǎng)頁是否為首頁或二級首頁;若是,則確定不存在小說目錄項特征;若否,則根據(jù)該萬維網(wǎng)網(wǎng)頁建立第二 DOM樹,利用第二 DOM樹獲取該萬維網(wǎng)網(wǎng)頁的標(biāo)題和全文具有正文特征的文本鏈接,確定該標(biāo)題存在預(yù)置的小說標(biāo)題特性關(guān)鍵詞,且確定該“全文具有正文特征的文本鏈接”中存在“預(yù)置的小說正文特性關(guān)鍵詞”的文本鏈接的數(shù)量大于等于預(yù)置的第一閾值,且確定全文中相似文本鏈接占全文所有文本鏈接的比例大于等于預(yù)置的第二閾值時,確定存在小說目錄項特征,否則,確定不存在小說目錄項特征。
[0115]其中,本發(fā)明實施例的相似文本鏈接,指的是指向同一正文頁的不同的文本鏈接,即具有相同正文頁鏈接的不同的文本鏈接,比如同一“第”下的不同“章”的鏈接,或者,同一 “章”下的不同“節(jié)”的文本鏈接,或者,同一 “節(jié)”下的不同“回”的文本鏈接,等等。
[0116]其中,萬維網(wǎng)網(wǎng)頁的鏈接具體可以為URL,則具體可以檢測萬維網(wǎng)網(wǎng)頁的URL的路徑長度,以及檢測是否含有類似“index”+ “.html/jsp/asp/php/shtml”或“default”+ “.html/j sp/asp/php/shtml ”等關(guān)鍵詞,從而判斷該萬維網(wǎng)網(wǎng)頁是否屬于首頁或者二級首頁。
[0117]此外,小說標(biāo)題特性關(guān)鍵詞可以包括目錄和/或標(biāo)題等詞語;小說正文特性關(guān)鍵詞包括:第、章、節(jié)、回和/或卷等詞語,而第一閾值和第二閾值則可以根據(jù)實際應(yīng)用的需求進(jìn)行設(shè)置,在此不再贅述。
[0118]其中,疑似目錄塊的特征可以包括疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接等,即:
[0119]獲取單元304,具體可以用于根據(jù)第一 DOM樹獲取疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接;
[0120]則此時,第二確定單元305,具體可以用于根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定存在小說目錄頁時,確定該分塊后網(wǎng)頁為小說目錄頁。例如,具體可以如下:
[0121]第二確定單元305,具體可以用于根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定符合第一條件和第二條件時,確定存在小說目錄頁;[0122]其中,第一條件和第二條件具體可以如下:
[0123](一)第一條件包括:
[0124]疑似目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第三閾值,且疑似目錄塊中相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于預(yù)置的第四閾值。
[0125]例如,小說正文特性關(guān)鍵詞具體可以為“第”、“章”、“節(jié)”、“回”和/或“卷”等目錄相關(guān)的關(guān)鍵詞,而第三閾值具體可以設(shè)置為“15”,第四閾值具體可以設(shè)置為“0.8”,則具體可以如下:
[0126]疑似目錄塊中具有正文特征的鏈接文本中含有“第”、“章”、“節(jié)”、“回”和/或“卷”等目錄相關(guān)的關(guān)鍵詞,且這類鏈接文本數(shù)量大于等于15個,且該疑似目錄塊中相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于0.8。
[0127](二)第二條件包括:
[0128]在根據(jù)疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定該分塊后網(wǎng)頁存在目錄塊的前提下,符合以下任意一種情況:
[0129](I)代表目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的數(shù)量大于等于預(yù)置的第五閾值;
[0130]例如,小說正文特性關(guān)鍵詞具體可以為“第”、“章”、“節(jié)”、“回”和/或“卷”等目錄相關(guān)的關(guān)鍵詞,而第五閾值可以設(shè)置為“10”,則具體可以如下:
[0131]代表目錄塊中具有正文特征的鏈接文本中含有“第”、“章”、“節(jié)”、“回”和/或“卷”等目錄相關(guān)的關(guān)鍵詞,且這類鏈接文本數(shù)量大于等于10個。
[0132](2)代表目錄塊中的相似文本鏈接的數(shù)量大于等于預(yù)置的第六閾值,且代表目錄塊中的相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于預(yù)置的第七閾值;
[0133]例如,第六閾值具體可以設(shè)置為“20”,第七閾值具體可以設(shè)置為“0.9”,則具體可以如下:
[0134]代表目錄塊中的相似文本鏈接的數(shù)量大于等于20個,且代表目錄塊中的相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于0.9。
[0135](3)分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接的數(shù)量大于等于預(yù)置的第八閾值,且該分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接占該分塊后網(wǎng)頁中所有文本鏈接的比例大于等于預(yù)置的第九閾值。
[0136]例如,第八閾值具體可以設(shè)置為“100”,第九閾值具體可以設(shè)置為“0.8”,則具體可以如下:
[0137]分塊后網(wǎng)頁中的所有疑似目錄塊的相似文本鏈接的數(shù)量大于等于100個,且該分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接占該分塊后網(wǎng)頁中所有文本鏈接的比例大于等于0.8。
[0138]其中,可以采用如下方法來得到代表目錄塊,如下:
[0139]統(tǒng)計疑似目錄塊中出現(xiàn)的小說正文頁的鏈接特征的數(shù)量,以及統(tǒng)計疑似目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量,確定該鏈接特征的數(shù)量和小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量最多的疑似目錄塊為代表目錄塊。即:[0140]第二確定單元305,具體可以用于統(tǒng)計疑似目錄塊中出現(xiàn)的小說正文頁的鏈接特征的數(shù)量,以及統(tǒng)計疑似目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量,確定該鏈接特征的數(shù)量和小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量最多的疑似目錄塊為代表目錄塊。
[0141]此外,具體可以采用如下方法來確定分塊后網(wǎng)頁是否存在目錄塊,如下:
[0142]確定疑似目錄塊位置滿足預(yù)置條件,比如,滿足“y>=100 ;width>300 ;height>100”,且確定疑似目錄塊鏈接存在預(yù)置的小說正文頁的鏈接特征,且確定疑似目錄塊具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞時,可以確定該分塊后網(wǎng)頁存在目錄塊,否則,確定該分塊后網(wǎng)頁存在目錄塊。即:
[0143]第二確定單元305,具體可以用于確定疑似目錄塊位置滿足預(yù)置條件,且確定疑似目錄塊鏈接存在預(yù)置的小說正文頁的鏈接特征,以及確定疑似目錄塊具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞時,確定分塊后網(wǎng)頁存在目錄塊。
[0144]需說明的是,以上各個閾值的值僅僅為范例,應(yīng)當(dāng)理解的是,以上各個閾值,即第一閾值、第二閾值、第三閾值、第四閾值、第五閾值、第六閾值、第七閾值、第八閾值和第九閾值的具體取值可以根據(jù)實際應(yīng)用的需求進(jìn)行設(shè)置。
[0145]此外,如果移動終端根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定該分塊后網(wǎng)頁不存在小說目錄頁,則第二確定單元305可以確定該分塊后網(wǎng)頁不是小說目錄頁。
[0146]該小說目錄項的識別裝置具體可以集成在移動終端中,比如手機(jī)或平板電腦等。
[0147]具體實施時,以上各個單元可以作為獨(dú)立的實體來實現(xiàn),也可以進(jìn)行任意組合,作為同一或若干個實體來實現(xiàn),以上各個單元的具體實施可參見前面的方法實施例,在此不再贅述。
[0148]由上可知,本實施例的小說目錄項的識別裝置可以通過第一確定單元301確定萬維網(wǎng)網(wǎng)頁中是否存在小說目錄項特征,來從萬維網(wǎng)網(wǎng)頁中初步識別出小說目錄頁,而對于不存在小說目錄項特征的萬維網(wǎng)網(wǎng)頁,則由分塊單元302作進(jìn)一步視覺分塊以及由模型建立單元303建立第一 DOM樹,并由獲取單元304利用第一 DOM樹獲取疑似目錄塊的特征,然后再由第二確定單元305根據(jù)這些疑似目錄塊的特征來確定是否是小說目錄頁,從而實現(xiàn)了對小說目錄項的識別,在進(jìn)行小說目錄頁的相關(guān)抽取時將能更有針對性,取得更好的抽取效果,從而便于后續(xù)在移動終端上進(jìn)行顯示,以提高顯示效果,改善用戶的瀏覽質(zhì)量。
[0149]實施例四、
[0150]相應(yīng)的,本發(fā)明實施例還提供一種通信系統(tǒng),包括本發(fā)明實施例提供的任一種小說目錄項的識別裝置。例如,具體可以如下:
[0151]小說目錄項的識別裝置,用于確定萬維網(wǎng)網(wǎng)頁是否存在小說目錄項特征,若存在小說目錄項特征,則確定該萬維網(wǎng)網(wǎng)頁為小說目錄頁;若不存在小說目錄項特征,則對該萬維網(wǎng)網(wǎng)頁進(jìn)行視覺分塊,得到分塊后網(wǎng)頁,根據(jù)分塊后網(wǎng)頁建立第一 DOM樹,根據(jù)該第一DOM樹獲取疑似目錄塊的特征,根據(jù)該疑似目錄塊的特征確定存在小說目錄頁時,確定該分塊后網(wǎng)頁為小說目錄頁。
[0152]可選的,其中,小說目錄項的識別裝置,具體可以用于根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接、標(biāo)題和全文具有正文特征的文本鏈接確定是否存在小說目錄項特征。[0153]例如,小說目錄項的識別裝置,具體可以用于根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接確定該萬維網(wǎng)網(wǎng)頁是否為首頁或二級首頁;若為首頁或二級首頁,則確定不存在小說目錄項特征;若即不是首頁也不是二級首頁,則根據(jù)該萬維網(wǎng)網(wǎng)頁建立第二 DOM樹,利用該第二 DOM樹獲取該萬維網(wǎng)網(wǎng)頁的標(biāo)題和全文具有正文特征的文本鏈接,確定該標(biāo)題存在預(yù)置的小說標(biāo)題特性關(guān)鍵詞,且確定該全文具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第一閾值,且確定全文中相似文本鏈接占全文所有文本鏈接的比例大于等于預(yù)置的第二閾值時,確定存在小說目錄項特征,否則,確定不存在小說目錄項特征。
[0154]其中,相似文本鏈接,指的是指向同一正文頁的不同的文本鏈接,即具有相同正文頁鏈接的不同的文本鏈接,比如同一“第”下的不同“章”的鏈接,或者,同一“章”下的不同“節(jié)”的文本鏈接,或者,同一 “節(jié)”下的不同“回”的文本鏈接,等等。
[0155]其中,萬維網(wǎng)網(wǎng)頁的鏈接具體可以為URL,則具體可以檢測萬維網(wǎng)網(wǎng)頁的URL的路徑長度,以及檢測是否含有類似“index”+ “.html/jsp/asp/php/shtml”或“default”+ “.html/j sp/asp/php/shtml ”等關(guān)鍵詞,從而判斷該萬維網(wǎng)網(wǎng)頁是否屬于首頁或者二級首頁。
[0156]此外,小說標(biāo)題特性關(guān)鍵詞可以包括目錄和/或標(biāo)題等詞語;小說正文特性關(guān)鍵詞包括:第、章、節(jié)、回和/或卷等詞語,而第一閾值和第二閾值則可以根據(jù)實際應(yīng)用的需求進(jìn)行設(shè)置,在此不再贅述。
[0157]其中,小說目錄項的識別裝置,具體可以用于根據(jù)該第一 DOM樹獲取疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接;然后根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定存在小說目錄頁時,確定該分塊后網(wǎng)頁為小說目錄頁,比如,具體可以如下:
[0158]根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定符合第一條件和第二條件時,確定存在小說目錄頁;其中,第一條件和第二條件具體可以如下:
[0159](一)第一條件包括:
[0160]疑似目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第三閾值,且疑似目錄塊中相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于預(yù)置的第四閾值;
[0161](二)第二條件包括:
[0162]在根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定該分塊后網(wǎng)頁存在目錄塊的前提下,符合以下任意一種情況:
[0163](I)代表目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第五閾值;
[0164](2)代表目錄塊中的相似文本鏈接的數(shù)量大于等于預(yù)置的第六閾值,且代表目錄塊中的相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于預(yù)置的第七閾值;
[0165](3)分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接的數(shù)量大于等于預(yù)置的第八閾值,且該分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接占該分塊后網(wǎng)頁中所有文本鏈接的比例大于等于預(yù)置的第九閾值。
[0166]其中,可以采用如下方法來得到代表目錄塊,如下:[0167]統(tǒng)計疑似目錄塊中出現(xiàn)的小說正文頁的鏈接特征的數(shù)量,以及統(tǒng)計疑似目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量;確定該鏈接特征的數(shù)量和小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量最多的疑似目錄塊為代表目錄塊。
[0168]其中,步驟“根據(jù)疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定該分塊后網(wǎng)頁存在目錄塊”具體可以包括:
[0169]確定疑似目錄塊位置滿足預(yù)置條件(可以根據(jù)實際應(yīng)用的需求進(jìn)行設(shè)置),且確定疑似目錄塊鏈接存在預(yù)置的小說正文頁的鏈接特征,以及確定疑似目錄塊具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞時,確定該分塊后網(wǎng)頁存在目錄塊。
[0170]其中,第三閾值、第四閾值、第五閾值、第六閾值、第七閾值、第八閾值和第九閾值可以根據(jù)實際應(yīng)用的需求進(jìn)行設(shè)置。
[0171]其中,該小說目錄項的識別裝置具體可以集成在移動終端中,比如手機(jī)或平板電腦等。
[0172]此外,該通信系統(tǒng)還可以包括網(wǎng)絡(luò)側(cè)設(shè)備,用于提供萬維網(wǎng)網(wǎng)頁給該小說目錄項的識別裝置。
[0173]該網(wǎng)絡(luò)側(cè)設(shè)備具體可以為服務(wù)器等設(shè)備,在此不再贅述。
[0174]由上可知,本實施例的通信系統(tǒng)中的小說目錄項的識別裝置可以通過確定萬維網(wǎng)網(wǎng)頁中是否存在小說目錄項特征,來從萬維網(wǎng)網(wǎng)頁中初步識別出小說目錄頁,而對于不存在小說目錄項特征的萬維網(wǎng)網(wǎng)頁,則進(jìn)一步通過視覺分塊以及建立第一 DOM樹,并利用第一 DOM樹獲取疑似目錄塊的特征,然后根據(jù)這些疑似目錄塊的特征來確定是否是小說目錄頁,從而實現(xiàn)了對小說目錄項的識別,在進(jìn)行小說目錄頁的相關(guān)抽取時將能更有針對性,取得更好的抽取效果,從而便于后續(xù)在移動終端上進(jìn)行顯示,以提高顯示效果,改善用戶的瀏覽質(zhì)量。
[0175]本領(lǐng)域普通技術(shù)人員可以理解上述實施例的各種方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲于一計算機(jī)可讀存儲介質(zhì)中,存儲介質(zhì)可以包括:只讀存儲器(ROM, Read Only Memory)、隨機(jī)存取記憶體(RAM, RandomAccess Memory)、磁盤或光盤等。
[0176]以上對本發(fā)明實施例所提供的一種小說目錄項的識別方法、裝置和系統(tǒng)進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進(jìn)行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實施方式】及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
【權(quán)利要求】
1.一種小說目錄項的識別方法,其特征在于,包括: 確定萬維網(wǎng)網(wǎng)頁是否存在小說目錄項特征; 若是,則確定所述萬維網(wǎng)網(wǎng)頁為小說目錄頁; 若否,則對所述萬維網(wǎng)網(wǎng)頁進(jìn)行視覺分塊,得到分塊后網(wǎng)頁,根據(jù)分塊后網(wǎng)頁建立第一文檔對象模型樹,根據(jù)所述第一文檔對象模型樹獲取疑似目錄塊的特征,根據(jù)所述疑似目錄塊的特征確定存在小說目錄頁時,確定所述分塊后網(wǎng)頁為小說目錄頁。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定萬維網(wǎng)網(wǎng)頁是否存在小說目錄項特征,包括: 根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接、標(biāo)題和全文具有正文特征的文本鏈接確定是否存在小說目錄項特征。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接、標(biāo)題和全文具有正文特征的文本鏈接確定是否存在小說目錄項特征,包括: 根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接確定所述萬維網(wǎng)網(wǎng)頁是否為首頁或二級首頁; 若是,則確定不存在小說目錄項特征; 若否,則根據(jù)所述萬維網(wǎng)網(wǎng)頁建立第二文檔對象模型樹,利用所述第二文檔對象模型樹獲取所述萬維網(wǎng)網(wǎng)頁的標(biāo)題和全文具有正文特征的文本鏈接,確定所述標(biāo)題存在預(yù)置的小說標(biāo)題特性關(guān)鍵詞,且確定所述全文具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第一閾值,且確定全文中相似文本鏈接占全文所有文本鏈接的比例大于等于預(yù)置的第二閾值時,確定存在小說目錄項特征,否則,確定不存在小說目錄項特征。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述第一文檔對象模型樹獲取疑似目錄塊的特征,包括: 根據(jù)所述第一文檔對象模型樹獲取疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接; 則根據(jù)所述疑似目錄塊的特征確定存在小說目錄頁時,確定所述分塊后網(wǎng)頁為小說目錄頁具體為:根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定存在小說目錄頁時,確定所述分塊后網(wǎng)頁為小說目錄頁。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定存在小說目錄頁,包括: 根據(jù)疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定符合第一條件和第二條件時,確定存在小說目錄頁; 所述第一條件包括:疑似目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第三閾值,且疑似目錄塊中相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于預(yù)置的第四閾值; 所述第二條件包括:在根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定所述分塊后網(wǎng)頁存在目錄塊的前提下,符合以下任意一種情況:代表目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第五閾值;或,代表目錄塊中的相似文本鏈接的數(shù)量大于等于預(yù)置的第六閾值,且代表目錄塊中的相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于預(yù)置的第七閾值;或,所述分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接的數(shù)量大于等于預(yù)置的第八閾值,且所述分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接占該分塊后網(wǎng)頁中所有文本鏈接的比例大于等于預(yù)置的第九閾值; 所述代表目錄塊為:統(tǒng)計疑似目錄塊中出現(xiàn)的小說正文頁的鏈接特征的數(shù)量,以及統(tǒng)計疑似目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量;確定所述鏈接特征的數(shù)量和小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量最多的疑似目錄塊為代表目錄塊。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定所述分塊后網(wǎng)頁存在目錄塊,包括: 確定疑似目錄塊位置滿足預(yù)置條件,且確定疑似目錄塊鏈接存在預(yù)置的小說正文頁的鏈接特征,且確定疑似目錄塊具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞時,確定所述分塊后網(wǎng)頁存在目錄塊。
7.根據(jù)權(quán)利要求3至6任一項所述的方法,其特征在于, 所述小說標(biāo)題特性關(guān)鍵詞包括:目錄和/或標(biāo)題; 所述小說正文特性關(guān)鍵詞包括:第、章、節(jié)、回和/或卷。
8.—種小說目錄項的識別裝置,其特征在于,包括: 第一確定單元,用于確定萬維網(wǎng)網(wǎng)頁是否存在小說目錄項特征,若是,則確定所述萬維網(wǎng)網(wǎng)頁為小說目錄頁; 分塊單元,用于在第一確定單元確定萬維網(wǎng)網(wǎng)頁不存在小說目錄項特征時,對所述萬維網(wǎng)網(wǎng)頁進(jìn)行視覺分塊,得到分塊后網(wǎng)頁; 模型建立單元,用于根據(jù)分塊后網(wǎng)頁建立第一文檔對象模型樹; 獲取單元,用于根據(jù)所述第一文檔對象模型樹獲取疑似目錄塊的特征; 第二確定單元,用于根據(jù)所述疑似目錄塊的特征確定存在小說目錄頁時,確定所述分塊后網(wǎng)頁為小說目錄頁。
9.根據(jù)權(quán)利要求8所述的小說目錄項的識別裝置,其特征在于, 所述第一確定單元,具體用于根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接、標(biāo)題和全文具有正文特征的文本鏈接確定是否存在小說目錄項特征。
10.根據(jù)權(quán)利要求9所述的小說目錄項的識別裝置,其特征在于, 所述第一確定單元,具體用于根據(jù)萬維網(wǎng)網(wǎng)頁的鏈接確定所述萬維網(wǎng)網(wǎng)頁是否為首頁或二級首頁;若是,則確定不存在小說目錄項特征;若否,則根據(jù)所述萬維網(wǎng)網(wǎng)頁建立第二文檔對象模型樹,利用所述第二文檔對象模型樹獲取所述萬維網(wǎng)網(wǎng)頁的標(biāo)題和全文具有正文特征的文本鏈接,確定所述標(biāo)題存在預(yù)置的小說標(biāo)題特性關(guān)鍵詞,且確定所述全文具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第一閾值,且確定全文中相似文本鏈接占全文所有文本鏈接的比例大于等于預(yù)置的第二閾值時,確定存在小說目錄項特征,否則,確定不存在小說目錄項特征。
11.根據(jù)權(quán)利要求10所述的小說目錄項的識別裝置,其特征在于,獲取單元,具體用于根據(jù)所述第一文檔對象模型樹獲取疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接; 則第二確定單元,具體用于根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定存在小說目錄頁時,確定所述分塊后網(wǎng)頁為小說目錄頁。
12.根據(jù)權(quán)利要求11所述的小說目錄項的識別裝置,其特征在于, 第二確定單元,具體用于根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定符合第一條件和第二條件時,確定存在小說目錄頁; 所述第一條件包括:疑似目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第三閾值,且疑似目錄塊中相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于預(yù)置的第四閾值; 所述第二條件包括:在根據(jù)疑似目錄塊位置、疑似目錄塊鏈接和疑似目錄塊中具有正文特征的文本鏈接確定所述分塊后網(wǎng)頁存在目錄塊的前提下,符合以下任意一種情況:代表目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量大于等于預(yù)置的第五閾值;或,代表目錄塊中的相似文本鏈接的數(shù)量大于等于預(yù)置的第六閾值,且代表目錄塊中的相似文本鏈接占本疑似目錄塊中所有文本鏈接的比例大于等于預(yù)置的第七閾值;或,所述分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接的數(shù)量大于等于預(yù)置的第八閾值,且所述分塊后網(wǎng)頁中的所有疑似目錄塊中的相似文本鏈接占該分塊后網(wǎng)頁中所有文本鏈接的比例大于等于預(yù)置的第九閾值; 所述代表目錄塊為:統(tǒng)計疑似目錄塊中出現(xiàn)的小說正文頁的鏈接特征的數(shù)量,以及統(tǒng)計疑似目錄塊中具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量;確定所述鏈接特征的數(shù)量和小說正文特性關(guān)鍵詞的文本鏈接的數(shù)量最多的疑似目錄塊為代表目錄塊。
13.根據(jù)權(quán)利要求12所述的小說目錄項的識別裝置,其特征在于, 第二確定單元,具體用于確定疑似目錄塊位置滿足預(yù)置條件,且確定疑似目錄塊鏈接存在預(yù)置的小說正文頁的鏈接特征,且確定疑似目錄塊具有正文特征的文本鏈接中存在預(yù)置的小說正文特性關(guān)鍵詞時,確定所述分塊后網(wǎng)頁存在目錄塊。
14.根據(jù)權(quán)利要求10至13任一項所述的小說目錄項的識別裝置,其特征在于, 所述小說標(biāo)題特性關(guān)鍵詞包括:目錄和/或標(biāo)題; 所述小說正文特性關(guān)鍵詞包括:第、章、節(jié)、回和/或卷。
15.一種通信系統(tǒng), 其特征在于,包括權(quán)利要求8至14中所述的任一種小說目錄項的識別裝置。
【文檔編號】G06F17/30GK103970755SQ201310031915
【公開日】2014年8月6日 申請日期:2013年1月28日 優(yōu)先權(quán)日:2013年1月28日
【發(fā)明者】黃鈺 申請人:騰訊科技(深圳)有限公司