一種識(shí)別網(wǎng)絡(luò)小說中垃圾章節(jié)的方法及裝置制造方法
【專利摘要】本發(fā)明適用于計(jì)算機(jī)【技術(shù)領(lǐng)域】,提供了一種識(shí)別網(wǎng)絡(luò)小說中垃圾章節(jié)的方法及裝置,所述方法包括:抓取網(wǎng)絡(luò)小說數(shù)據(jù);計(jì)算每一網(wǎng)絡(luò)小說數(shù)據(jù)的ID,所述ID用于唯一標(biāo)識(shí)一網(wǎng)絡(luò)小說;獲取每個(gè)ID對應(yīng)的網(wǎng)絡(luò)小說數(shù)據(jù)的章節(jié)名稱;統(tǒng)計(jì)并計(jì)算相同章節(jié)名稱對應(yīng)的ID數(shù)量;識(shí)別符合預(yù)設(shè)條件的章節(jié)名稱和/或ID數(shù)量的章節(jié)為垃圾章節(jié)。本發(fā)明實(shí)現(xiàn)可以及時(shí)、有效識(shí)別網(wǎng)絡(luò)小說中垃圾章節(jié)。
【專利說明】-種識(shí)別網(wǎng)絡(luò)小說中垃圾章節(jié)的方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計(jì)算機(jī)【技術(shù)領(lǐng)域】,尤其涉及一種識(shí)別網(wǎng)絡(luò)小說中垃圾章節(jié)的方法及裝 置。
【背景技術(shù)】
[0002] 網(wǎng)絡(luò)小說是一種新興的小說體裁,隨著網(wǎng)絡(luò)的快速發(fā)展而出現(xiàn),網(wǎng)絡(luò)小說以網(wǎng)絡(luò) 為基礎(chǔ)平臺(tái),網(wǎng)絡(luò)小說作者在小說網(wǎng)站發(fā)布小說,并不斷對小說進(jìn)行更新,以使網(wǎng)絡(luò)讀者進(jìn) 行閱讀,其特點(diǎn)為風(fēng)格自由,文體不限,發(fā)表閱讀方式較為簡單。然而,很多網(wǎng)絡(luò)小說中包括 很多的垃圾章節(jié),這些垃圾章節(jié)的內(nèi)容與小說內(nèi)容本身并不相干,例如:網(wǎng)站廣告、作者廣 告、新書推薦等,十分影響小說的閱讀。
[0003] 現(xiàn)有技術(shù),通常采用人工查詢或者關(guān)鍵字查詢的方式,去除網(wǎng)絡(luò)小說中的垃圾章 節(jié),然而,對于人工查詢方式,查詢速度較慢,當(dāng)網(wǎng)絡(luò)小說數(shù)量較多的時(shí)候,需要花費(fèi)大量的 人工成本,花費(fèi)很長時(shí)間去處理查找垃圾章節(jié),因此,人工查詢方式查詢速度慢,無法及時(shí) 有效的發(fā)現(xiàn)垃圾章節(jié);而使用關(guān)鍵字進(jìn)行查詢的方式,雖然可以發(fā)現(xiàn)包括預(yù)設(shè)垃圾關(guān)鍵詞 的網(wǎng)絡(luò)小說,但由于網(wǎng)絡(luò)小說更新速度很快,小說中的垃圾關(guān)鍵字也不斷更新,因此,關(guān)鍵 字查詢方式也無法及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)小說中的垃圾章節(jié)。綜上,現(xiàn)有技術(shù)無法及時(shí)、有效的去除 網(wǎng)絡(luò)小說中垃圾章節(jié)。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明實(shí)施例的目的在于提供一種識(shí)別網(wǎng)絡(luò)小說中垃圾章節(jié)的方法,旨在解決現(xiàn) 有技術(shù)無法及時(shí)、有效的去除網(wǎng)絡(luò)小說中垃圾章節(jié)問題。
[0005] 為了實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例提供如下技術(shù)方案:
[0006] 本發(fā)明第一方面提供了一種識(shí)別網(wǎng)絡(luò)小說中垃圾章節(jié)的方法,所述方法包括:
[0007] 抓取網(wǎng)絡(luò)小說數(shù)據(jù);
[0008] 計(jì)算每一網(wǎng)絡(luò)小說數(shù)據(jù)的ID,所述ID用于唯一標(biāo)識(shí)一網(wǎng)絡(luò)小說;
[0009] 獲取每個(gè)ID對應(yīng)的網(wǎng)絡(luò)小說數(shù)據(jù)的章節(jié)名稱;
[0010] 統(tǒng)計(jì)并計(jì)算相同章節(jié)名稱對應(yīng)的ID數(shù)量;
[0011] 識(shí)別符合預(yù)設(shè)條件的章節(jié)名稱和/或ID數(shù)量的章節(jié)為垃圾章節(jié)。
[0012] 本發(fā)明第二方面提供了一種識(shí)別網(wǎng)絡(luò)小說中垃圾章節(jié)的裝置,所述裝置包括:
[0013] 抓取單元,用于抓取網(wǎng)絡(luò)小說數(shù)據(jù);
[0014] 計(jì)算單元,用于計(jì)算每一網(wǎng)絡(luò)小說數(shù)據(jù)的ID,所述ID用于唯一標(biāo)識(shí)一網(wǎng)絡(luò)小說;
[0015] 獲取單元,用于獲取每個(gè)ID對應(yīng)的網(wǎng)絡(luò)小說數(shù)據(jù)的章節(jié)名稱;
[0016] 計(jì)算單元,用于統(tǒng)計(jì)并計(jì)算相同章節(jié)名稱對應(yīng)的ID數(shù)量;
[0017] 識(shí)別單元,用于識(shí)別符合預(yù)設(shè)條件的章節(jié)名稱和/或ID數(shù)量的章節(jié)為垃圾章節(jié)。
[0018] 本發(fā)明實(shí)施例與現(xiàn)有技術(shù)相比,有益效果在于:抓取網(wǎng)絡(luò)小說數(shù)據(jù),計(jì)算每一網(wǎng)絡(luò) 小說數(shù)據(jù)的ID,所述ID用于唯一標(biāo)識(shí)一本網(wǎng)絡(luò)小說,獲取每個(gè)ID對應(yīng)的網(wǎng)絡(luò)小說數(shù)據(jù)的章 節(jié)名稱,統(tǒng)計(jì)并計(jì)算相同章節(jié)名稱對應(yīng)的ID數(shù)量,識(shí)別符合預(yù)設(shè)條件的章節(jié)名稱和/或ID 數(shù)量的章節(jié)為垃圾章節(jié)。使得不需要人工參與,即可實(shí)現(xiàn)可以及時(shí)、有效識(shí)別網(wǎng)絡(luò)小說中垃 圾章節(jié)。
【專利附圖】
【附圖說明】
[0019] 為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對實(shí)施例描述中所需要使用 的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本 領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的 附圖。
[0020] 圖1是本發(fā)明實(shí)施例一提供的識(shí)別網(wǎng)絡(luò)小說中垃圾章節(jié)的方法的實(shí)現(xiàn)的流程圖;
[0021] 圖2是本發(fā)明實(shí)施例二提供的識(shí)別網(wǎng)絡(luò)小說中垃圾章節(jié)的方法的實(shí)現(xiàn)的流程圖;
[0022] 圖3是本發(fā)明實(shí)施例三提供的識(shí)別網(wǎng)絡(luò)小說中垃圾章節(jié)的裝置的結(jié)構(gòu)圖;
[0023] 圖4是本發(fā)明實(shí)施例四提供的識(shí)別網(wǎng)絡(luò)小說中垃圾章節(jié)的裝置的結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0024] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對 本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并 不用于限定本發(fā)明。
[0025] 本實(shí)施例中,通過計(jì)算每一網(wǎng)絡(luò)小說數(shù)據(jù)的ID,統(tǒng)計(jì)并計(jì)算相同章節(jié)名稱對應(yīng)的 ID數(shù)量,識(shí)別符合預(yù)設(shè)條件的章節(jié)名稱和/或ID數(shù)量的章節(jié)為垃圾章節(jié)。
[0026] 以下結(jié)合具體實(shí)施例對本發(fā)明的實(shí)現(xiàn)進(jìn)行詳細(xì)描述:
[0027] 實(shí)施例一
[0028] 圖1示出了本發(fā)明實(shí)施例一提供的識(shí)別網(wǎng)絡(luò)小說中垃圾章節(jié)的方法的實(shí)現(xiàn)的流 程圖,詳述如下:
[0029] 在S101中,抓取網(wǎng)絡(luò)小說數(shù)據(jù);
[0030] 在S102中,計(jì)算每一網(wǎng)絡(luò)小說數(shù)據(jù)的標(biāo)識(shí)(Identify,ID),所述ID用于唯一標(biāo)識(shí) 一網(wǎng)絡(luò)小說;
[0031] 本實(shí)施例中,優(yōu)選的所述ID為小說名,或者小說名和作者名,其它的可以唯一標(biāo) 識(shí)一本小說的數(shù)據(jù)均可以作為小說的網(wǎng)絡(luò)數(shù)據(jù)。
[0032] 在S103中,獲取每個(gè)ID對應(yīng)的網(wǎng)絡(luò)小說數(shù)據(jù)的章節(jié)名稱;
[0033] 本實(shí)施例中,由于同一網(wǎng)絡(luò)小說數(shù)據(jù)可能存儲(chǔ)在不同的站點(diǎn),因此,相同ID的網(wǎng) 絡(luò)小說可以認(rèn)為是相同的小說,為了避免相同ID的小說數(shù)據(jù)被多次統(tǒng)計(jì),而影響后續(xù)統(tǒng)計(jì) 結(jié)果,S103優(yōu)選的可以采用以下方式實(shí)現(xiàn):獲取不同ID對應(yīng)的網(wǎng)絡(luò)小說數(shù)據(jù)的章節(jié)名稱, 具有相同ID對應(yīng)的網(wǎng)絡(luò)小說數(shù)據(jù)可以只獲取一次。
[0034] 本實(shí)施例中,所述章節(jié)名稱可以包括章節(jié)名稱的文字信息和/或數(shù)字信息。
[0035] 本實(shí)施例中,獲取后的每個(gè)ID對應(yīng)的章節(jié)名稱可以采用以下方式表示:{idl, chapterA}、{idl,chapterB}、{idl,chapterC}、{id2, chapterA,}、{id2, chapterB,}、{id2, chapterC,},……。
[0036] 在S104中,統(tǒng)計(jì)并計(jì)算相同章節(jié)名稱對應(yīng)的ID數(shù)量;
[0037] 本實(shí)施例中,統(tǒng)計(jì)S103中獲取的章節(jié)名稱中的每一章節(jié)對應(yīng)的ID數(shù)量如下: {chapterA, {idl, id3, ···}}> {chapterB, {idl, id5, ···}}> {chapterC, {id2, id3, ···}},···; 則根據(jù)所述統(tǒng)計(jì)結(jié)果,計(jì)算每個(gè)章節(jié)名對應(yīng)的ID數(shù)量(即相同章節(jié)名稱出現(xiàn)在多少本小說 中)具體為:IchapterA,nl},{chapterB,n2},{chapterC,n3},…。
[0038] 在S105中,識(shí)別符合預(yù)設(shè)條件的章節(jié)名稱和/或ID數(shù)量的章節(jié)為垃圾章節(jié)。
[0039] 本實(shí)施例中,抓取網(wǎng)絡(luò)小說數(shù)據(jù),計(jì)算每一網(wǎng)絡(luò)小說數(shù)據(jù)的ID,所述ID用于唯一 標(biāo)識(shí)一本網(wǎng)絡(luò)小說,獲取每個(gè)ID對應(yīng)的網(wǎng)絡(luò)小說數(shù)據(jù)的章節(jié)名稱,統(tǒng)計(jì)并計(jì)算相同章節(jié)名 稱對應(yīng)的ID數(shù)量,識(shí)別符合預(yù)設(shè)條件的章節(jié)名稱和/或ID數(shù)量的章節(jié)為垃圾章節(jié)。使得 不需要人工參與,即可實(shí)現(xiàn)可以及時(shí)、有效識(shí)別網(wǎng)絡(luò)小說中垃圾章節(jié)。
[0040] 實(shí)施例二
[0041] 圖2示出了本發(fā)明實(shí)施例一提供的識(shí)別網(wǎng)絡(luò)小說中垃圾章節(jié)的方法的實(shí)現(xiàn)的流 程圖,詳述如下:
[0042] 在S201中,抓取網(wǎng)絡(luò)小說數(shù)據(jù);
[0043] 在 S202 中,通過信息摘要算法 5 (Message Digest Algorithm 5, MD5),計(jì)算每一網(wǎng) 絡(luò)小說數(shù)據(jù)的ID,所述ID用于唯一標(biāo)識(shí)一網(wǎng)絡(luò)小說;
[0044] 在S203中,獲取每個(gè)ID對應(yīng)的網(wǎng)絡(luò)小說數(shù)據(jù)的章節(jié)名稱;
[0045] 在S204中,統(tǒng)計(jì)并計(jì)算相同章節(jié)名稱對應(yīng)的ID數(shù)量;
[0046] 在S205中,識(shí)別章節(jié)名稱大于預(yù)設(shè)長度和/或ID數(shù)量大于預(yù)設(shè)數(shù)量的章節(jié)為垃 圾章節(jié)。
[0047] 其中,可以識(shí)別章節(jié)名稱大于預(yù)設(shè)長度m和/或ID數(shù)量大于預(yù)設(shè)數(shù)量η的章節(jié)為 垃圾章節(jié),其中,所述m和η為為整數(shù),且根據(jù)實(shí)際需要進(jìn)行設(shè)定,其中,垃圾章節(jié)可以表示 為:{chapterD, chapterE, ChapterK,…}〇
[0048] 可選的,為了避免將一些非垃圾章節(jié)的小說數(shù)據(jù)識(shí)別為垃圾章節(jié),所述S205優(yōu)選 的為:
[0049] S205a、識(shí)別符合預(yù)設(shè)條件的章節(jié)名稱和/或ID數(shù)量的章節(jié)為疑似垃圾章節(jié);
[0050] S205b、將所述疑似垃圾章節(jié)的章節(jié)名稱在預(yù)設(shè)白名單中進(jìn)行匹配,將與所述預(yù)設(shè) 白名單中存儲(chǔ)的關(guān)鍵詞的匹配度小于預(yù)設(shè)閾值的章節(jié)名稱對應(yīng)的疑似垃圾章節(jié)識(shí)別為垃 圾章節(jié),所述預(yù)設(shè)白名單存儲(chǔ)合法的關(guān)鍵詞。
[0051] 其中,當(dāng)章節(jié)名稱與所述預(yù)設(shè)白名單中存儲(chǔ)的關(guān)鍵詞的匹配度小于預(yù)設(shè)閾值時(shí), 說明該章節(jié)名稱為垃圾章節(jié)的概率已經(jīng)很高,所以可以認(rèn)為該章節(jié)為垃圾章,通過白名單 進(jìn)一步對疑似垃圾章節(jié)進(jìn)行處理,可以有效提供高垃圾章節(jié)識(shí)別的準(zhǔn)確率。
[0052] 通過將所述大于預(yù)設(shè)閾值的章節(jié)名稱更新至所述預(yù)設(shè)白名單,可以不斷對白名單 進(jìn)行更新,從而及時(shí)與互聯(lián)網(wǎng)網(wǎng)絡(luò)數(shù)據(jù)的更新同步。
[0053] 可選的,除了預(yù)設(shè)白名單的實(shí)現(xiàn)方式,S205b還可以將所述疑似垃圾章節(jié)的章節(jié)名 稱在預(yù)設(shè)白名單中進(jìn)行匹配,將與所述預(yù)設(shè)白名單中存儲(chǔ)的關(guān)鍵詞的匹配度大于預(yù)設(shè)閾值 的章節(jié)名稱對應(yīng)的疑似垃圾章節(jié)識(shí)別為垃圾章節(jié),所述預(yù)設(shè)黑名單存儲(chǔ)非法的關(guān)鍵詞。
[0054] 進(jìn)一步,可以將與所述預(yù)設(shè)黑名單中存儲(chǔ)的關(guān)鍵詞的匹配度大預(yù)設(shè)閾值的章節(jié)名 稱更新至所述預(yù)設(shè)白名單中。
[0055] 本實(shí)施例中,根據(jù)同名章節(jié)的小說數(shù)量的多少,以及章節(jié)名稱的長短信息,發(fā)現(xiàn)小 說數(shù)據(jù)中的垃圾章節(jié),實(shí)現(xiàn)及時(shí)、有效識(shí)別小說中的垃圾章節(jié)數(shù)據(jù)。
[0056] 實(shí)施例三
[0057] 圖3是本發(fā)明實(shí)施例三提供的識(shí)別網(wǎng)絡(luò)小說中垃圾章節(jié)的裝置的結(jié)構(gòu)圖,為了便 于說明,僅示出了與本發(fā)明實(shí)施例相關(guān)的部分,該裝置可以是內(nèi)置于終端設(shè)備中的軟件單 元、硬件單元或者軟硬結(jié)合單元。
[0058] 所述裝置包括:抓取單元31、計(jì)算單元32、獲取單元33、計(jì)算單元34及識(shí)別單元 35。
[0059] 抓取單元31,用于抓取網(wǎng)絡(luò)小說數(shù)據(jù);
[0060] 計(jì)算單元32,用于計(jì)算每一網(wǎng)絡(luò)小說數(shù)據(jù)的ID,所述ID用于唯一標(biāo)識(shí)一網(wǎng)絡(luò)小 說;
[0061] 獲取單元33,用于獲取每個(gè)ID對應(yīng)的網(wǎng)絡(luò)小說數(shù)據(jù)的章節(jié)名稱;
[0062] 計(jì)算單元34,用于統(tǒng)計(jì)并計(jì)算相同章節(jié)名稱對應(yīng)的ID數(shù)量;
[0063] 識(shí)別單元35,用于識(shí)別符合預(yù)設(shè)條件的章節(jié)名稱和/或ID數(shù)量的章節(jié)為垃圾章 節(jié)。
[0064] 可選的,所述ID為小說名,或者小說名和作者名。
[0065] 可選的,所述計(jì)算單元34,用于通過MD5,計(jì)算每一網(wǎng)絡(luò)小說數(shù)據(jù)的ID。
[0066] 可選的,所述識(shí)別單元35,用于識(shí)別章節(jié)名稱大于預(yù)設(shè)長度和/或ID數(shù)量大于預(yù) 設(shè)數(shù)量的章節(jié)為垃圾章節(jié)。
[0067] 本發(fā)明實(shí)施例提供的識(shí)別網(wǎng)絡(luò)小說中垃圾章節(jié)的裝置可以使用在前述對應(yīng)的方 法實(shí)施例一中,詳情參見上述實(shí)施例一的描述,在此不再贅述。
[0068] 實(shí)施例四
[0069] 圖4是本發(fā)明實(shí)施例三提供的識(shí)別網(wǎng)絡(luò)小說中垃圾章節(jié)的裝置的結(jié)構(gòu)圖,為了便 于說明,僅示出了與本發(fā)明實(shí)施例相關(guān)的部分,該裝置可以是內(nèi)置于終端設(shè)備中的軟件單 元、硬件單元或者軟硬結(jié)合單元。
[0070] 所述裝置包括:抓取單元41、計(jì)算單元42、獲取單元43、計(jì)算單元44及識(shí)別單元 45。
[0071] 本實(shí)施例與實(shí)施例三的區(qū)別在于:
[0072] 所述識(shí)別單元45包括:識(shí)別模塊451和匹配模塊452。
[0073] 識(shí)別模塊451,用于識(shí)別符合預(yù)設(shè)條件的章節(jié)名稱和/或ID數(shù)量的章節(jié)為疑似垃 圾章節(jié);
[0074] 匹配模塊452,用于將所述疑似垃圾章節(jié)的章節(jié)名稱在預(yù)設(shè)白名單中進(jìn)行匹配,將 與所述預(yù)設(shè)白名單中存儲(chǔ)的關(guān)鍵詞的匹配度小于預(yù)設(shè)閾值的章節(jié)名稱對應(yīng)的疑似垃圾章 節(jié)識(shí)別為垃圾章節(jié),所述預(yù)設(shè)白名單存儲(chǔ)合法的關(guān)鍵詞。
[0075] 所述匹配模塊452,還用于將與所述預(yù)設(shè)白名單中存儲(chǔ)的關(guān)鍵詞的匹配度大于預(yù) 設(shè)閾值的章節(jié)名稱更新至所述預(yù)設(shè)白名單中。
[0076] 本發(fā)明實(shí)施例提供的識(shí)別網(wǎng)絡(luò)小說中垃圾章節(jié)的裝置可以使用在前述對應(yīng)的方 法實(shí)施例二中,詳情參見上述實(shí)施例二的描述,在此不再贅述。
[0077] 值得注意的是,上述實(shí)施例中,所包括的各個(gè)單元只是按照功能邏輯進(jìn)行劃分的, 但并不局限于上述的劃分,只要能夠?qū)崿F(xiàn)相應(yīng)的功能即可;另外,各功能單元的具體名稱也 只是為了便于相互區(qū)分,并不用于限制本發(fā)明的保護(hù)范圍。
[0078] 另外,本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述各實(shí)施例方法中的全部或部分步驟 是可以通過程序來指令相關(guān)的硬件來完成,相應(yīng)的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介 質(zhì)中,所述的存儲(chǔ)介質(zhì),如R0M/RAM、磁盤或光盤等。
[0079] 以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1. 一種識(shí)別網(wǎng)絡(luò)小說中垃圾章節(jié)的方法,其特征在于,所述方法包括: 抓取網(wǎng)絡(luò)小說數(shù)據(jù); 計(jì)算每一網(wǎng)絡(luò)小說數(shù)據(jù)的ID,所述ID用于唯一標(biāo)識(shí)一網(wǎng)絡(luò)小說; 獲取每個(gè)ID對應(yīng)的網(wǎng)絡(luò)小說數(shù)據(jù)的章節(jié)名稱; 統(tǒng)計(jì)并計(jì)算相同章節(jié)名稱對應(yīng)的ID數(shù)量; 識(shí)別符合預(yù)設(shè)條件的章節(jié)名稱和/或ID數(shù)量的章節(jié)為垃圾章節(jié)。
2. 如權(quán)利要求1所述的方法,其特征在于,所述ID包括小說名,或者小說名和作者名。
3. 如權(quán)利要求1所述的方法,其特征在于,所述計(jì)算每一網(wǎng)絡(luò)小說數(shù)據(jù)的ID包括: 通過MD5,計(jì)算每一網(wǎng)絡(luò)小說數(shù)據(jù)的ID。
4. 如權(quán)利要求1所述的方法,其特征在于,所述識(shí)別符合預(yù)設(shè)條件的章節(jié)名稱和/或 ID數(shù)量的章節(jié)為垃圾章節(jié)包括: 識(shí)別章節(jié)名稱大于預(yù)設(shè)長度和/或ID數(shù)量大于預(yù)設(shè)數(shù)量的章節(jié)為垃圾章節(jié)。
5. 如權(quán)利要求1所述的方法,其特征在于,所述識(shí)別符合預(yù)設(shè)條件的章節(jié)名稱和/或 ID數(shù)量的章節(jié)為垃圾章節(jié)包括: 識(shí)別符合預(yù)設(shè)條件的章節(jié)名稱和/或ID數(shù)量的章節(jié)為疑似垃圾章節(jié); 將所述疑似垃圾章節(jié)的章節(jié)名稱在預(yù)設(shè)白名單中進(jìn)行匹配,將與所述預(yù)設(shè)白名單中存 儲(chǔ)的關(guān)鍵詞的匹配度小于預(yù)設(shè)閾值的章節(jié)名稱對應(yīng)的疑似垃圾章節(jié)識(shí)別為垃圾章節(jié),所述 預(yù)設(shè)白名單存儲(chǔ)合法的關(guān)鍵詞。
6. 如權(quán)利要求5所述的方法,其特征在于,所述識(shí)別符合預(yù)設(shè)條件的章節(jié)名稱和/或 ID數(shù)量的章節(jié)為疑似垃圾章節(jié)之后,所述方法還包括: 將與所述預(yù)設(shè)白名單中存儲(chǔ)的關(guān)鍵詞的匹配度大于預(yù)設(shè)閾值的章節(jié)名稱更新至所述 預(yù)設(shè)白名單中。
7. -種識(shí)別網(wǎng)絡(luò)小說中垃圾章節(jié)的裝置,其特征在于,所述裝置包括: 抓取單元,用于抓取網(wǎng)絡(luò)小說數(shù)據(jù); 計(jì)算單元,用于計(jì)算每一網(wǎng)絡(luò)小說數(shù)據(jù)的ID,所述ID用于唯一標(biāo)識(shí)一網(wǎng)絡(luò)小說; 獲取單元,用于獲取每個(gè)ID對應(yīng)的網(wǎng)絡(luò)小說數(shù)據(jù)的章節(jié)名稱; 計(jì)算單元,用于統(tǒng)計(jì)并計(jì)算相同章節(jié)名稱對應(yīng)的ID數(shù)量; 識(shí)別單元,用于識(shí)別符合預(yù)設(shè)條件的章節(jié)名稱和/或ID數(shù)量的章節(jié)為垃圾章節(jié)。
8. 如權(quán)利要求7所述的裝置,其特征在于,所述ID包括小說名,或者小說名和作者名。
9. 如權(quán)利要求7所述的裝置,其特征在于,所述計(jì)算單元,用于通過MD5,計(jì)算每一網(wǎng)絡(luò) 小說數(shù)據(jù)的ID。
10. 如權(quán)利要求7所述的裝置,其特征在于,所述識(shí)別單元,用于識(shí)別章節(jié)名稱大于預(yù) 設(shè)長度和/或ID數(shù)量大于預(yù)設(shè)數(shù)量的章節(jié)為垃圾章節(jié)。
11. 如權(quán)利要求7所述的裝置,其特征在于,所述識(shí)別單元包括: 識(shí)別模塊,用于識(shí)別符合預(yù)設(shè)條件的章節(jié)名稱和/或ID數(shù)量的章節(jié)為疑似垃圾章節(jié); 匹配模塊,用于將所述疑似垃圾章節(jié)的章節(jié)名稱在預(yù)設(shè)白名單中進(jìn)行匹配,將與所述 預(yù)設(shè)白名單中存儲(chǔ)的關(guān)鍵詞的匹配度小于預(yù)設(shè)閾值的章節(jié)名稱對應(yīng)的疑似垃圾章節(jié)識(shí)別 為垃圾章節(jié),所述預(yù)設(shè)白名單存儲(chǔ)合法的關(guān)鍵詞。
12. 如權(quán)利要求11所述的裝置,其特征在于,所述匹配模塊,還用于將與所述預(yù)設(shè)白名 單中存儲(chǔ)的關(guān)鍵詞的匹配度大于預(yù)設(shè)閾值的章節(jié)名稱更新至所述預(yù)設(shè)白名單中。
【文檔編號(hào)】G06F17/27GK104216872SQ201310214058
【公開日】2014年12月17日 申請日期:2013年5月31日 優(yōu)先權(quán)日:2013年5月31日
【發(fā)明者】高健, 牛小彬 申請人:騰訊科技(深圳)有限公司