本發(fā)明涉及通信技術(shù)領(lǐng)域,具體涉及一種特定內(nèi)容的去除方法和裝置。
背景技術(shù):
伴隨自媒體的發(fā)展,個(gè)性化閱讀產(chǎn)品越來越豐富。目前個(gè)性化閱讀產(chǎn)品大多是內(nèi)容聚合類的閱讀產(chǎn)品,比如,可以在即時(shí)通訊應(yīng)用中集成內(nèi)容聚合器來獲取豐富的文章。
即時(shí)通訊應(yīng)用中的內(nèi)容聚合器可以聚合即時(shí)通訊公眾號(hào)發(fā)送的文章。內(nèi)容聚合器對(duì)應(yīng)的內(nèi)容聚合服務(wù)器可以向用戶推送文章時(shí),比如會(huì)根據(jù)用戶訂閱的公眾號(hào)信息、用戶興趣等向用戶推送相應(yīng)的文章。
然而,目前內(nèi)容聚合服務(wù)器推送的文章包含大量的惡意內(nèi)容(比如廣告內(nèi)容等),降低了用戶閱讀體驗(yàn),例如,參考圖1a和圖1b,在文章內(nèi)容中包含了廣告文字和廣告圖片。因此,為了提升用戶閱讀體驗(yàn),需要對(duì)文章中的惡意內(nèi)容進(jìn)行去除。目前惡意內(nèi)容的去除方式主要依靠圖像文字識(shí)別技術(shù)和廣告特征模型,具體地,對(duì)文章內(nèi)容進(jìn)行圖像文字識(shí)別,基于訓(xùn)練的廣告特征模型確定識(shí)別出的內(nèi)容識(shí)別出的內(nèi)容是否為惡意內(nèi)容如廣告文字、廣告圖片等,若是,則將識(shí)別出的惡意內(nèi)容刪除。
由于目前圖像文字識(shí)別技術(shù)的局限性,其對(duì)一些文字或者圖片的識(shí)別準(zhǔn)確性比較低,如圖像文字識(shí)別技術(shù)對(duì)手寫體文字的識(shí)別準(zhǔn)確性比較低;并且一些廣告文章發(fā)布者會(huì)變化文字的描述手法,比如用戶拼音替代,用象形文字替代等,出現(xiàn)沒有訓(xùn)練過的內(nèi)容特征,使得廣告特征模型無法識(shí)別惡意內(nèi)容,因此,降低了惡意內(nèi)容的識(shí)別準(zhǔn)確性,導(dǎo)致惡意內(nèi)容去除的準(zhǔn)確性較低。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例提供一種特定內(nèi)容的去除方法和裝置,可以提高特定內(nèi)容去除的準(zhǔn)確性。
本發(fā)明實(shí)施例提供一種特定內(nèi)容的去除方法,包括:
當(dāng)文章集合有新文章加入時(shí),獲取所述新文章的文章內(nèi)容成分,得到待識(shí)別的目標(biāo)文章內(nèi)容成分;
從所述文章集合中確定具有所述目標(biāo)文章內(nèi)容成分的目標(biāo)文章;
當(dāng)所述目標(biāo)文章的數(shù)量大于預(yù)設(shè)文章數(shù)量時(shí),確定所述目標(biāo)文章所屬的文章類別,得到文章類別集合;
根據(jù)所述文章類別集合所包含的文章類別種數(shù),確定所述目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分;
若是,則根據(jù)所述目標(biāo)文章內(nèi)容成分對(duì)所述新文章中相應(yīng)的特定內(nèi)容進(jìn)行去除。
相應(yīng)的,本發(fā)明實(shí)施例還提供一種特定內(nèi)容的去除裝置,包括:
成分獲取單元,用于當(dāng)文章集合有新文章加入時(shí),獲取所述新文章的文章內(nèi)容成分,得到待識(shí)別的目標(biāo)文章內(nèi)容成分;
目標(biāo)文章確定單元,用于從所述文章集合中確定具有所述目標(biāo)文章內(nèi)容成分的目標(biāo)文章;
類別確定單元,用于當(dāng)所述目標(biāo)文章的數(shù)量大于預(yù)設(shè)文章數(shù)量時(shí),確定所述目標(biāo)文章所屬的文章類別,得到文章類別集合;
內(nèi)容確定單元,用于根據(jù)所述文章類別集合所包含的文章類別種數(shù),確定所述目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分;
去除單元,用于當(dāng)所述內(nèi)容確定單元,確定所述目標(biāo)文章內(nèi)容成分為特定內(nèi)容成分時(shí),根據(jù)所述目標(biāo)文章內(nèi)容成分對(duì)所述新文章中相應(yīng)的特定內(nèi)容進(jìn)行去除。
本發(fā)明實(shí)施例采用當(dāng)文章集合有新文章加入時(shí),獲取該新文章的文章內(nèi)容成分,得到待識(shí)別的目標(biāo)文章內(nèi)容成分,然后,從該文章集合中確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章,當(dāng)該目標(biāo)文章的數(shù)量大于預(yù)設(shè)文章數(shù)量時(shí),確定該目標(biāo)文章所屬的文章類別,得到文章類別集合,根據(jù)該文章類別集合所包含的文章類別種數(shù),確定該目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分,若是,則根據(jù)該目標(biāo)文章內(nèi)容成分對(duì)該新文章中相應(yīng)的特定內(nèi)容進(jìn)行去除。該方案可以基于特定內(nèi)容(如惡意內(nèi)容等)的共現(xiàn)性以及特定內(nèi)容所屬文章類別種類來識(shí)別特定內(nèi)容,無需依靠依靠圖像文字識(shí)別技術(shù)和廣告特征模型來識(shí)別特定內(nèi)容,因此,可以提高特定內(nèi)容如惡意內(nèi)容等)的識(shí)別準(zhǔn)確性,進(jìn)而提高特定內(nèi)容如惡意內(nèi)容等)去除的準(zhǔn)確性。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1a是具有廣告文字的文章示意圖;
圖1b是具有廣告圖片的文章示意圖;
圖1c是本發(fā)明實(shí)施例提供的特定內(nèi)容的去除方法的流程示意圖;
圖2是本發(fā)明實(shí)施例提供的特定內(nèi)容的去除方法的另一流程示意圖;
圖3是本發(fā)明實(shí)施例提供的特定內(nèi)容的去除系統(tǒng)的架構(gòu)示意圖;
圖4a是本發(fā)明實(shí)施例提供的特定內(nèi)容的去除裝置的第一種結(jié)構(gòu)示意圖;
圖4b是本發(fā)明實(shí)施例提供的特定內(nèi)容的去除裝置的第二種結(jié)構(gòu)示意圖;
圖4c是本發(fā)明實(shí)施例提供的特定內(nèi)容的去除裝置的第三種結(jié)構(gòu)示意圖;
圖4d是本發(fā)明實(shí)施例提供的特定內(nèi)容的去除裝置的第四種結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明實(shí)施例提供了一種特定內(nèi)容的去除方法和裝置。以下將分別進(jìn)行詳細(xì)說明。
實(shí)施例一、
本實(shí)施例將從特定內(nèi)容的去除裝置的角度進(jìn)行描述,該特定內(nèi)容的去除裝置具體可以集成在服務(wù)器,比如內(nèi)容聚合服務(wù)器等設(shè)備中。
一種特定內(nèi)容的去除方法,包括:當(dāng)文章集合有新文章加入時(shí),獲取該新文章的文章內(nèi)容成分,得到待識(shí)別的目標(biāo)文章內(nèi)容成分,然后,從該文章集合中確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章,當(dāng)該目標(biāo)文章的數(shù)量大于預(yù)設(shè)文章數(shù)量時(shí),確定該目標(biāo)文章所屬的文章類別,得到文章類別集合,根據(jù)該文章類別集合所包含的文章類別種數(shù),確定該目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分,若是,則根據(jù)該目標(biāo)文章內(nèi)容成分對(duì)該新文章中相應(yīng)的特定內(nèi)容進(jìn)行去除。
如圖1c所示,該特定內(nèi)容的去除方法的具體流程可以如下:
101、當(dāng)文章集合有新文章加入時(shí),獲取該新文章的文章內(nèi)容成分,得到待識(shí)別的目標(biāo)文章內(nèi)容成分。
本實(shí)施例中,特定內(nèi)容指的是文章內(nèi)容中滿足某種條件的內(nèi)容,該條件可以根據(jù)實(shí)際需求設(shè)定。比如,特征內(nèi)容可以包括文章內(nèi)容中與文章本身不相關(guān)的內(nèi)容;又比如,該特征內(nèi)容還可以包括文章內(nèi)容中與文章本身不相關(guān),且具有惡意性的內(nèi)容,即惡意內(nèi)容,如,廣告內(nèi)容、不良內(nèi)容(如色情內(nèi)容、政治敏感內(nèi)容等等)、欺詐內(nèi)容等等。其中,文章集合包括多個(gè)文章。比如,在步驟101之前,本實(shí)施例可以收集自媒體用戶發(fā)布的文章,得到文章集合。該文章集合可以存儲(chǔ)在本地,或者存在其他設(shè)備或系統(tǒng)中,比如,可以存儲(chǔ)在遠(yuǎn)程nosql(notonlysql,非關(guān)系型數(shù)據(jù)庫(kù))系統(tǒng)中。
本實(shí)施例中,當(dāng)檢測(cè)到有新文章加入該文章集合中時(shí),可以獲取該新文章的文章內(nèi)容成分。比如,當(dāng)檢測(cè)到遠(yuǎn)程nosql系統(tǒng)中文章集合有新文章加入時(shí),可以獲取新文章的文章內(nèi)容成分。
其中,文章內(nèi)容成分為組成文章內(nèi)容的內(nèi)容單元,該內(nèi)容單元可以選取根據(jù)實(shí)際需求設(shè)定。文章內(nèi)容一般可以包括文本內(nèi)容、圖片內(nèi)容等中的至少一種;因此,該內(nèi)容單元可以包括組成文本內(nèi)容的文本內(nèi)容單元、組成圖片內(nèi)容的圖片內(nèi)容單元中的至少一種。其中,組成文本內(nèi)容的文本內(nèi)容單元可以根據(jù)段落、句子等劃分。比如,文本內(nèi)容單元可以包括文本內(nèi)容中段落內(nèi)容、句子內(nèi)容等等,即每一段的文本內(nèi)容即為一個(gè)文章內(nèi)容成分,或每一句內(nèi)容即為一個(gè)文章內(nèi)容成分。
該組成圖片內(nèi)容的圖片內(nèi)容單元即為圖片內(nèi)容本身,比如,該當(dāng)文章內(nèi)容包括某個(gè)圖片時(shí),圖片內(nèi)容單元即為該圖片,也即每一張圖片即為一個(gè)文章內(nèi)容成分。
為了加快特定內(nèi)容的識(shí)別效率和去除效率,本實(shí)施例還可以對(duì)文章內(nèi)容進(jìn)行清洗或者過濾,然后,在從過濾后的文章內(nèi)容中獲取文章內(nèi)容成分。比如,可以對(duì)文章內(nèi)容中的一些敏感內(nèi)容(用戶標(biāo)識(shí)、政治敏感詞等)進(jìn)行過濾。
為了加快特定內(nèi)容的識(shí)別速度和去除速度,本實(shí)施例可以將組成文章內(nèi)容的內(nèi)容單元對(duì)應(yīng)的內(nèi)容標(biāo)識(shí)作為文章內(nèi)容成分,也即步驟“獲取該新文章的文章內(nèi)容成分”可以包括:
從該新文章的文章內(nèi)容中獲取相應(yīng)的內(nèi)容單元;
獲取該內(nèi)容單元對(duì)應(yīng)的內(nèi)容標(biāo)識(shí),并將該內(nèi)容標(biāo)識(shí)作為該新文章的文章內(nèi)容成分。
比如,可以將組成文本內(nèi)容的內(nèi)容單元的標(biāo)識(shí)作為文本內(nèi)容成分,將圖片內(nèi)容的標(biāo)識(shí)作為圖片內(nèi)容成分。
其中,內(nèi)容單元對(duì)應(yīng)的內(nèi)容標(biāo)識(shí)可以為內(nèi)容單元的唯一標(biāo)識(shí);比如,當(dāng)內(nèi)容單元包括組成文本內(nèi)容的文本內(nèi)容單元時(shí),文本內(nèi)容單元的內(nèi)容標(biāo)識(shí)可以包括文本內(nèi)容單元的文本指紋,如某段文本內(nèi)容的文本指紋,此時(shí),文章內(nèi)容成分可以為文本指紋。
其中,該文本指紋從形式上來一般為固定長(zhǎng)度較短的字符串,相同文本指紋的文本可以認(rèn)為是相同文本。比如,可以基于simhash(漢明)算法來獲取一個(gè)文本內(nèi)容單元的文本指紋,該文本指紋可以稱為simhash指紋。simhash是用來網(wǎng)頁(yè)去重最常用的hash(哈希)方法,可以用來快速識(shí)別文本的相似性。
又比如,當(dāng)內(nèi)容單元包括組成圖片內(nèi)容的圖片內(nèi)容單元,即圖片時(shí),該圖片內(nèi)容單元的內(nèi)容標(biāo)識(shí)可以為圖片的圖片標(biāo)識(shí),如圖片的md5(消息摘要算法)值。
本實(shí)施例中,文章內(nèi)容除了包含文本內(nèi)容和圖片內(nèi)容之外,還可以包括圖片的鏈接地址,此時(shí),內(nèi)容單元可以包括每個(gè)圖片的鏈接地址,那么本實(shí)施例可以根據(jù)圖片的鏈接地址下載相應(yīng)的圖片,然后,獲取下載圖片對(duì)應(yīng)的圖片標(biāo)識(shí)如md5值。
根據(jù)上述描述,本實(shí)施例中文章內(nèi)容成分可以包括文本內(nèi)容單元的內(nèi)容標(biāo)識(shí)(如文本指紋等)和/或圖片內(nèi)容單元的圖片標(biāo)識(shí)(如md5值等)。
可選地,為能夠識(shí)別特定內(nèi)容以達(dá)到去除特定內(nèi)容的目的,本實(shí)施例可以在步驟101之前,獲取文章集合內(nèi)每個(gè)文章的文章內(nèi)容成分,并保存每個(gè)文章的文章內(nèi)容成分。該文章內(nèi)容成分可以包括組成文章內(nèi)容的內(nèi)容單元,或者該文章內(nèi)容成分可包括文本內(nèi)容單元的內(nèi)容標(biāo)識(shí)(如文本指紋等)和/或圖片內(nèi)容單元的圖片標(biāo)識(shí)(如md5值等)。
本實(shí)施例可以將新文章的文章內(nèi)容成分作為待識(shí)別的目標(biāo)文章內(nèi)容。
102、從該文章集合中確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章。
比如,可以將新文章的文章內(nèi)容成分與文章集合內(nèi)原有文章的文章內(nèi)容成分進(jìn)行對(duì)比,根據(jù)對(duì)比結(jié)果從文章集合中確定具有新文章的文章內(nèi)容成分的目標(biāo)文章。
本實(shí)施例中,文章內(nèi)容成分可以包括:組成文章內(nèi)容的內(nèi)容單元,或者組成文章內(nèi)容的內(nèi)容單元的內(nèi)容標(biāo)識(shí)。因此,文章內(nèi)容成分進(jìn)行對(duì)比的方式可以包括:直接對(duì)比文章內(nèi)容成分本身,即對(duì)比組成文章內(nèi)容的內(nèi)容單元,或者比較組成文章內(nèi)容的內(nèi)容單元的內(nèi)容標(biāo)識(shí)。
例如,新文章的文章內(nèi)容成分包括文本指紋1、文本指紋2…文本指紋i…文本指紋m時(shí),通過將文本指紋i與文章集合內(nèi)原有文章的文本指紋進(jìn)行對(duì)比,從而從文章集合內(nèi)確定具有文本指紋i的文章。又例如,當(dāng)新文章的文章內(nèi)容成分包括:md5值1、md5值2…md5值i…md5值m時(shí),通過將md5值i與文章集合內(nèi)原有文章的md5值進(jìn)行對(duì)比,從而從文章集合內(nèi)確定具有md5值i的文章。
為了能夠快速地確定具有目標(biāo)文章內(nèi)容成分的目標(biāo)文章,本實(shí)施例可以在步驟101之前,獲取文章集合內(nèi)容文章的文章內(nèi)容成分,并建立文章內(nèi)容成分與文章之間的映射關(guān)系,這樣后續(xù)便可以根據(jù)目標(biāo)文章內(nèi)容成分與建立的映射關(guān)系來確定具有目標(biāo)文章內(nèi)容成分的文章。也即在步驟101之前,本實(shí)施例方法還可以包括:
針對(duì)文章集合內(nèi)的文章,獲取文章集合內(nèi)文章的文章內(nèi)容成分以及文章標(biāo)識(shí);
建立該文章內(nèi)容成分與該文章之間的映射關(guān)系,得到映射關(guān)系集合;
此時(shí),步驟“從該文章集合中確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章”可以包括:
根據(jù)該目標(biāo)文章內(nèi)容成分、以及該映射關(guān)系集合,從該文章集合中確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章。
比如,當(dāng)文章集合原先包含文章1、文章2…文章i…文章n時(shí),可以獲取文章i的文章內(nèi)容成分{文章內(nèi)容成分1、文章內(nèi)容成分2……文章內(nèi)容成分m}、建立文章內(nèi)容成分1與文章1之間的映射關(guān)系、文章內(nèi)容成分2與文章1之間的映射關(guān)系……文章內(nèi)容成分m與文章1之間的映射關(guān)系;這樣當(dāng)針對(duì)集合內(nèi)所有文章建立完映射關(guān)系之后,便可以得到一個(gè)映射關(guān)系集合。后續(xù)當(dāng)有新文章加入文章集合時(shí),便可以獲取新文章的文章內(nèi)容成分得到待識(shí)別的目標(biāo)文章內(nèi)容成分,然后,基于該映射關(guān)系集合和目標(biāo)文章內(nèi)容成分,從文章集合中確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章。
其中,文章內(nèi)容成分與文章之間的映射關(guān)系可以包括文章內(nèi)容成分與文章標(biāo)識(shí)之間的映射關(guān)系,該映射關(guān)系的表現(xiàn)形式可以由多種,比如文章內(nèi)容成分與文章標(biāo)識(shí)之間的映射關(guān)系可以為索引對(duì),索引對(duì)的索引關(guān)鍵詞(key)為文章的文章內(nèi)容成分,該索引對(duì)的索引值(value)包括該文章的文章標(biāo)識(shí)。此時(shí),映射關(guān)系集合可以包括索引對(duì)集合。
例如,文章i的文章內(nèi)容成分(如md5值或文本指紋)包括:文章內(nèi)容成分1(如md5值或文本指紋)、文章內(nèi)容成分2(如md5值或文本指紋)……文章內(nèi)容成分m(如md5值或文本指紋),可以建立{key(文章內(nèi)容成分1)、value(文章i)}、{key(文章內(nèi)容成分2)、value(文章i)}……{key(文章內(nèi)容成分m)、value(文章i)};這樣在針對(duì)集合內(nèi)所有文章建立索引對(duì)完成之后,便可以得到一個(gè)索引對(duì)集合。
此時(shí),步驟“根據(jù)該目標(biāo)文章內(nèi)容成分、以及該映射關(guān)系集合,從該文章集合中確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章”可以包括:
將該目標(biāo)文章內(nèi)容成分作為待檢索的目標(biāo)索引關(guān)鍵詞;
從該索引對(duì)集合中查找索引關(guān)鍵詞與該目標(biāo)索引關(guān)鍵詞相同的索引值,得到具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章。
例如,新文章的文章內(nèi)容成分為文章內(nèi)容成分k(如md5值或文本指紋)時(shí),可以將文章內(nèi)容成分k作為目標(biāo)索引關(guān)鍵詞key,假設(shè)索引對(duì)集合包括:{key(文章內(nèi)容成分1)、value(文章1)}、{key(文章內(nèi)容成分2)、value(文章2)}……{key(文章內(nèi)容成分k)、value(文章1)}、{key(文章內(nèi)容成分k)、value(文章2)}……{key(文章內(nèi)容成分k)、value(文章3)}、{key(文章內(nèi)容成分m)、value(文章i)};此時(shí),便可以從索引對(duì)集合中查找到key=文章內(nèi)容成分k的value為:value(文章1)、value(文章2)、value(文章3),從而得到具有目標(biāo)文章內(nèi)容成分k的目標(biāo)文章,即文章1、文章2、文章3。
為了便于查找到具有相同文章內(nèi)容成分的文章,本實(shí)施例可以在獲取索引關(guān)鍵詞與該目標(biāo)索引關(guān)鍵詞相同的索引值之后,可以對(duì)索引值進(jìn)行合并,得到目標(biāo)索引關(guān)鍵詞對(duì)應(yīng)的索引值;這樣后續(xù)遍歷目標(biāo)索引關(guān)鍵詞時(shí)便可從其索引值中獲取具有目標(biāo)索引關(guān)鍵詞對(duì)應(yīng)的文章內(nèi)容成分的所有文章。也即,步驟“從該索引對(duì)集合中查找索引關(guān)鍵詞與該目標(biāo)索引關(guān)鍵詞相同的索引值,得到具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章”可以包括:
從該索引對(duì)集合中查找索引關(guān)鍵詞與該目標(biāo)索引關(guān)鍵詞相同的索引值;
將索引關(guān)鍵詞與該目標(biāo)索引關(guān)鍵詞相同的索引值進(jìn)行合并,得到目標(biāo)索引關(guān)鍵詞及其對(duì)應(yīng)的目標(biāo)索引值;
遍歷該目標(biāo)索引關(guān)鍵詞,并獲取該目標(biāo)索引關(guān)鍵詞對(duì)應(yīng)的目標(biāo)索引值;
根據(jù)該目標(biāo)索引值確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章。
例如,當(dāng)查找到key=文章內(nèi)容成分k的value為:value1(文章1)、value2(文章2)、value3(文章3),可以將value1(文章1)、value2(文章2)、value3(文章3)進(jìn)行合并得到keyk(文章內(nèi)容成分k)對(duì)應(yīng)的valuek(文章1、文章2、文章3)。這樣后續(xù),當(dāng)遍歷到keyk時(shí)便可以獲取valuek,從而根據(jù)valuek確定具有文章內(nèi)容成分k的目標(biāo)文章為文章1、文章2、文章3。
又比如新過來的文章doc2拆分出文章內(nèi)容成分md5,并將其作為key(md5),然后在索引對(duì)集合中查找,假設(shè)發(fā)現(xiàn)了同樣的key(md5)并且其value是doc1,那么就把doc2增加到原來的value中;變成了key(md5)->doc1、doc2。
本實(shí)施例中,建立的索引對(duì)集合可以存儲(chǔ)在本地(即本機(jī)),或者遠(yuǎn)程設(shè)備中,比如,可以存儲(chǔ)在遠(yuǎn)程nosql系統(tǒng)中。如果存在遠(yuǎn)程設(shè)備中,那么可以從遠(yuǎn)程設(shè)備中查找具有相同目標(biāo)文章內(nèi)容成分的目標(biāo)文章,如通過遠(yuǎn)程nosql系統(tǒng)提高的接口來實(shí)現(xiàn)查找。
103、當(dāng)該目標(biāo)文章的數(shù)量大于預(yù)設(shè)文章數(shù)量時(shí),確定該目標(biāo)文章所屬的文章類別,得到文章類別集合。
由于特定內(nèi)容(如惡意內(nèi)容)具有共現(xiàn)性,也就是說一段特定內(nèi)容往往會(huì)出現(xiàn)在多篇文章中。因此,本實(shí)施例可以獲取具有目標(biāo)文章內(nèi)容成分的目標(biāo)文章的數(shù)量,當(dāng)該數(shù)量大于預(yù)設(shè)文章數(shù)量時(shí),表明該目標(biāo)文章內(nèi)容成分可能為特定內(nèi)容,所以需要針對(duì)該目標(biāo)文章內(nèi)容成分作進(jìn)一步判斷。
其中,預(yù)設(shè)文章數(shù)量可以經(jīng)過多次測(cè)試實(shí)驗(yàn)得到,比如,該預(yù)設(shè)文章數(shù)量可以為5、6等等。
104、根據(jù)該文章類別集合所包含的文章類別種數(shù),確定該目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分,若是,則執(zhí)行步驟105。
比如,根據(jù)該文章類別集合所包含的文章類別種數(shù),確定該目標(biāo)文章內(nèi)容成分是否為惡意內(nèi)容成分等等。
當(dāng)某個(gè)文章內(nèi)容成分在超過預(yù)設(shè)數(shù)量的文章中出現(xiàn)時(shí),并不能說該文章內(nèi)容成分就是特定內(nèi)容成分(如廣告內(nèi)容成分),也可能是天然的一句引用文字或者常見圖片,因此,本實(shí)施例方法需要進(jìn)行二次判斷,具體地,可以基于出現(xiàn)相同文章內(nèi)容成分的文章所屬的文章類別來進(jìn)一步確定該文章內(nèi)容成分是否為特定內(nèi)容成分。
經(jīng)過實(shí)際分析可知,如果某個(gè)文章內(nèi)容成分在一定數(shù)量的文章中出現(xiàn),且該出現(xiàn)該文章內(nèi)容的文章所屬多個(gè)不同的文章類別時(shí),那么很大概率可以確定該文章內(nèi)容成分為特定內(nèi)容成分,因?yàn)槎鄠€(gè)不同類別的文章內(nèi)容出現(xiàn)同一段文字的概率非常小。
因此,本實(shí)施例可以基于具有目標(biāo)文章內(nèi)容成分的目標(biāo)文章所屬的文章類別種類進(jìn)一步確定該目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分。具體地,步驟“根據(jù)該文章類別集合所包含的文章類別種數(shù),確定該目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分”可以包括:
當(dāng)該文章類別集合所包含的文章類別種數(shù)大于預(yù)設(shè)類別種數(shù)時(shí),確定該目標(biāo)文章內(nèi)容成分為特定內(nèi)容成分。
其中,預(yù)設(shè)類別種數(shù)可以根據(jù)實(shí)際需求設(shè)定,比如可以為3、4等。本實(shí)施例文章類別可以根據(jù)實(shí)際需求劃分,比如,可以將文章類別劃分為:財(cái)經(jīng)、體育、娛樂、動(dòng)漫等等。
當(dāng)文章類別集合所包含的文章類別種數(shù)小于預(yù)設(shè)類別種數(shù)時(shí),為提高特定內(nèi)容識(shí)別的精確性,本實(shí)施例可以交由人工來確定。由于實(shí)際中這種情況較少,人工需要做的二次審核工作很少。而且審核速度非??欤?yàn)橹恍枰獙?duì)比一段成分或者一張圖片,比閱讀完全文去找到廣告成分要快很多。也即步驟“根據(jù)該文章類別集合所包含的文章類別種數(shù),確定該目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分”還可以包括:
當(dāng)該文章類別種數(shù)不大于預(yù)設(shè)類別種數(shù)時(shí),根據(jù)用戶輸入的成分確認(rèn)信息確定該目標(biāo)文章內(nèi)容成分為特定內(nèi)容成分。
例如,當(dāng)掃描到某個(gè)key下面如果鏈接的文章id多余5個(gè),可以采用如策略:
如果文章id多余5個(gè),所有文章所屬的文章類別的種數(shù)大于3,那么可以確定該目標(biāo)文章內(nèi)容成分為特定內(nèi)容成分;
如果文章id多余5個(gè),所有文章所屬的文章類別的種數(shù)不大于3,那么就提交給人工審核。應(yīng)用人的知識(shí)來判斷該目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分。
為了能夠快速地獲取到文章所屬的文章類別以及類別種數(shù),本實(shí)施例可以在步驟101之前或者在進(jìn)行特定內(nèi)容去除的流程之前,預(yù)選獲取文章集合內(nèi)所有文章所屬的文章類別,并且在新文章加入文章集合時(shí)獲取新文章所屬的文章類別;這樣后續(xù)在確定目標(biāo)文章的數(shù)量大于數(shù)量之后,便可以直接得到目標(biāo)文章所屬的文章類別,以及文章類別集合。
比如,可以建立文章集合內(nèi)文章與其文章類別之間的映射關(guān)系,得到文章類別映射關(guān)系集合;這樣便可以根據(jù)目標(biāo)文章和該文章類別映射關(guān)系集合,獲取目標(biāo)文章所屬的文章類別。其中,文章與其文章類別之間的映射關(guān)系可以包括:文章標(biāo)識(shí)與其文章類別之間的映射關(guān)系;該映射關(guān)系可以由索引對(duì)來體現(xiàn)索引對(duì)的key為文章的文章標(biāo)識(shí)、vlaue包括文章所屬的文章類別。
實(shí)際應(yīng)用中,當(dāng)有新文章加入文章集合時(shí),獲取新文章與其文章類別直接的映射關(guān)系,并根據(jù)該映射關(guān)系更新該類別映射關(guān)系集合。
105、根據(jù)該目標(biāo)文章內(nèi)容成分對(duì)該新文章中相應(yīng)的特定內(nèi)容進(jìn)行去除。
比如,當(dāng)文章內(nèi)容成分為組成文章內(nèi)容的內(nèi)容單元(如某段文字或者某張圖片)時(shí),那么可以將該內(nèi)容單元直接從新文章中去除。
當(dāng)文章內(nèi)容成分為組成文章內(nèi)容的內(nèi)容單元的內(nèi)容標(biāo)識(shí)(md5、或者文本指紋)時(shí),可以將內(nèi)容標(biāo)識(shí)對(duì)應(yīng)的內(nèi)容單元(如文本指紋對(duì)于的某段文字或者md5對(duì)應(yīng)的某張圖片)從新文章中去除。
可選地,本實(shí)施例在確定目標(biāo)內(nèi)容成分不為特定內(nèi)容成分時(shí),可以結(jié)束流程,或者識(shí)別下一個(gè)目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分等等。比如,可以返回步驟103繼續(xù)確定識(shí)別下一個(gè)目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分。
由上可知,本發(fā)明實(shí)施例采用當(dāng)文章集合有新文章加入時(shí),獲取該新文章的文章內(nèi)容成分,得到待識(shí)別的目標(biāo)文章內(nèi)容成分,然后,從該文章集合中確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章,當(dāng)該目標(biāo)文章的數(shù)量大于預(yù)設(shè)文章數(shù)量時(shí),確定該目標(biāo)文章所屬的文章類別,得到文章類別集合,根據(jù)該文章類別集合所包含的文章類別種數(shù),確定該目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分,若是,則根據(jù)該目標(biāo)文章內(nèi)容成分對(duì)該新文章中相應(yīng)的特定內(nèi)容進(jìn)行去除。該方案可以基于特定內(nèi)容(如惡意內(nèi)容)的共現(xiàn)性以及特定內(nèi)容所屬文章類別種類來識(shí)別特定內(nèi)容,無需依靠依靠圖像文字識(shí)別技術(shù)和廣告特征模型來識(shí)別特定內(nèi)容(如惡意內(nèi)容),因此,可以提高特定內(nèi)容的識(shí)別準(zhǔn)確性和效率,進(jìn)而提高特定內(nèi)容(如惡意內(nèi)容)去除的準(zhǔn)確性和效率。
實(shí)施例二、
根據(jù)實(shí)施例一所描述的方法,以下將作進(jìn)一步詳細(xì)說明。
本實(shí)施例將以特定內(nèi)容的去除裝置集成在服務(wù)器中為例,來對(duì)本發(fā)明的去除方法進(jìn)一步描述。
如圖2所示,一種特定內(nèi)容的去除方法,具體流程可以如下:
201、服務(wù)器獲取文章集合,該文章集合包多個(gè)文章。
該文章集合可以由服務(wù)器收集自媒體用戶發(fā)布的文章得到,該服務(wù)器可以將文章集合存儲(chǔ)在本地,或者存在其他服務(wù)器中,可以將文章集合存儲(chǔ)在其他服務(wù)器的nosql中。
或者,該文章集合可以由其他服務(wù)器收集自媒體用戶發(fā)布的文章得到,服務(wù)器可以供其他服務(wù)器中獲取該文章集合。
202、服務(wù)器提取文章集合內(nèi)每個(gè)文章的文章內(nèi)容成分。
其中,文章內(nèi)容成分為組成文章內(nèi)容的內(nèi)容單元,該內(nèi)容單元可以選取根據(jù)實(shí)際需求設(shè)定。文章內(nèi)容一般可以包括文本內(nèi)容、圖片內(nèi)容等中的至少一種;因此,該內(nèi)容單元可以包括組成文本內(nèi)容的文本內(nèi)容單元、組成圖片內(nèi)容的圖片內(nèi)容單元中的至少一種。其中,組成文本內(nèi)容的文本內(nèi)容單元可以根據(jù)段落、句子等劃分。比如,文本內(nèi)容單元可以包括文本內(nèi)容中段落內(nèi)容、句子內(nèi)容等等。即每一段的文本內(nèi)容即為一個(gè)文章內(nèi)容成分,或每一句內(nèi)容即為一個(gè)文章內(nèi)容成分。
該組成圖片內(nèi)容的圖片內(nèi)容單元即為圖片內(nèi)容本身,比如,該當(dāng)文章內(nèi)容包括某個(gè)圖片時(shí),圖片內(nèi)容單元即為該圖片,也即每一張圖片即為一個(gè)文章內(nèi)容成分。
為了加快特定內(nèi)容的識(shí)別效率和去除效率,本實(shí)施例還可以對(duì)文章內(nèi)容進(jìn)行清洗或者過濾,然后,在從過濾后的文章內(nèi)容中獲取文章內(nèi)容成分。比如,可以對(duì)文章內(nèi)容中的一些敏感內(nèi)容(用戶標(biāo)識(shí)、政治敏感詞等)進(jìn)行過濾。
為了加快特定內(nèi)容的識(shí)別速度和去除速度,本實(shí)施例可以將組成文章內(nèi)容的內(nèi)容單元對(duì)應(yīng)的內(nèi)容標(biāo)識(shí)作為文章內(nèi)容成分,比如,可以將組成文本內(nèi)容的內(nèi)容單元的標(biāo)識(shí)作為文本內(nèi)容成分,將圖片內(nèi)容的標(biāo)識(shí)作為圖片內(nèi)容成分。
其中,內(nèi)容單元對(duì)應(yīng)的內(nèi)容標(biāo)識(shí)可以為內(nèi)容單元的唯一標(biāo)識(shí);比如,當(dāng)內(nèi)容單元包括組成文本內(nèi)容的文本內(nèi)容單元時(shí),文本內(nèi)容單元的內(nèi)容標(biāo)識(shí)可以包括文本內(nèi)容單元的文本指紋,如某段文本內(nèi)容的文本指紋,此時(shí),文章內(nèi)容成分可以為文本指紋如simhash指紋。
又比如,當(dāng)內(nèi)容單元包括組成圖片內(nèi)容的圖片內(nèi)容單元,即圖片時(shí),該圖片內(nèi)容單元的內(nèi)容標(biāo)識(shí)可以為圖片的圖片標(biāo)識(shí),如圖片的md5(消息摘要算法)值。
本實(shí)施例中,文章內(nèi)容除了包含文本內(nèi)容和圖片內(nèi)容之外,還可以包括圖片的鏈接地址,此時(shí),內(nèi)容單元可以包括每個(gè)圖片的鏈接地址,那么本實(shí)施例可以根據(jù)圖片的鏈接地址下載相應(yīng)的圖片,然后,獲取下載圖片對(duì)應(yīng)的圖片標(biāo)識(shí)如md5值。
根據(jù)上述描述,本實(shí)施例中文章內(nèi)容成分可以包括文本內(nèi)容單元的內(nèi)容標(biāo)識(shí)(如文本指紋等)和/或圖片內(nèi)容單元的圖片標(biāo)識(shí)(如md5值等)。
203、服務(wù)器建立文章內(nèi)容成分與文章之間的映射關(guān)系,得到映射關(guān)系集合。
其中,文章內(nèi)容成分與文章之間的映射關(guān)系可以包括文章內(nèi)容成分與文章標(biāo)識(shí)之間的映射關(guān)系,該映射關(guān)系的表現(xiàn)形式可以有多種,比如文章內(nèi)容成分與文章標(biāo)識(shí)之間的映射關(guān)系可以為成分標(biāo)識(shí)索引對(duì),成分標(biāo)識(shí)索引對(duì)的索引關(guān)鍵詞(key)為文章的文章內(nèi)容成分(如文本指紋、md5值),該索引對(duì)的索引值(value)包括該文章的文章標(biāo)識(shí)。此時(shí),映射關(guān)系集合即為成分標(biāo)識(shí)索引對(duì)集合。
比如,在獲取文本集合之后,可以進(jìn)行nosql存儲(chǔ),具體地,構(gòu)建文章內(nèi)容索引對(duì)即key-value對(duì),key為文章的文章標(biāo)識(shí)即文章id,value包括:文本內(nèi)容、圖片的鏈接地址、文章所屬的文章類別比如體育、娛樂、財(cái)經(jīng)等;然后,在數(shù)據(jù)庫(kù)中存儲(chǔ)key-value對(duì)。
在采用nosql存儲(chǔ)文本集合之后,可以對(duì)文章集合中每篇文章進(jìn)行文章內(nèi)容成分抽取,將抽取的文章內(nèi)容成分作為成分標(biāo)識(shí)索引對(duì)的key,并將該文章的文章id作為key對(duì)應(yīng)的value(也即前面文章內(nèi)容索引對(duì)中的key)。如對(duì)于每篇文章,按照段落力度進(jìn)行抽取,在文本內(nèi)容中抽取每段文本內(nèi)容,計(jì)算每段文本內(nèi)容的文本指紋,將該文本指紋作為文章的文章內(nèi)容成分,將文本內(nèi)容成分作為key,將該文章的文章id作為該key對(duì)應(yīng)的value;以及計(jì)算文章中圖片的md5、圖片鏈接地址對(duì)應(yīng)圖片的md5,將md5作為key,將該文章的文章id作為該key對(duì)應(yīng)的value。
本實(shí)施例可以將映射關(guān)系集合如索引對(duì)集合存儲(chǔ)在本地,也可以存儲(chǔ)在遠(yuǎn)程數(shù)據(jù)庫(kù)中。
204、當(dāng)該文章集合有新文章加入時(shí),服務(wù)器提取新文章的文章內(nèi)容成分,并將新文章的文章內(nèi)容成分待識(shí)別的目標(biāo)文章內(nèi)容成分。
其中,新文章的文章內(nèi)容提取方式可以參考前面介紹的提取方式。該新文章的文章內(nèi)容成分可以包括md5值、文本指紋等。
205、服務(wù)器根據(jù)當(dāng)前目標(biāo)文章內(nèi)容成分和映射關(guān)系集合,從文章集合中確定具有目標(biāo)文章內(nèi)容成分的目標(biāo)文章。
比如,服務(wù)器可以將當(dāng)前目標(biāo)文章內(nèi)容成分作為待檢索的目標(biāo)索引關(guān)鍵詞key’,然后,在存儲(chǔ)的索引對(duì)集合中查找key與該key’相同的value,根據(jù)查找到value確定具有相同文章內(nèi)容的目標(biāo)文章,如查找到key=key’的value為:value1(doc1)、value2(doc2)、value3(doc3),從而得到具有當(dāng)前目標(biāo)文章內(nèi)容成分的目標(biāo)文章,即doc1、doc2、doc3。
為了便于查找到具有相同文章內(nèi)容成分的文章,本實(shí)施例服務(wù)器可以在獲取索引關(guān)鍵詞與該目標(biāo)索引關(guān)鍵詞相同的索引值之后,可以對(duì)索引值進(jìn)行合并,得到目標(biāo)索引關(guān)鍵詞對(duì)應(yīng)的索引值。比如,如查找到key=key’的value為:value1(doc1)、value2(doc2)、value3(doc3)之后,可以將value1(doc1)、value2(doc2)、value3(doc3)合并成key’->value’(doc1、doc2、doc3)。
每個(gè)預(yù)定時(shí)間段如1個(gè)小時(shí)等,掃描或遍歷索引關(guān)鍵詞key,比如,掃描或者遍歷key’時(shí),可以得到key’對(duì)應(yīng)的value’(doc1、doc2、doc3),根據(jù)該value’(doc1、doc2、doc3)便可以得到具有key’對(duì)應(yīng)的文章內(nèi)容成分的所有文章,即doc1、doc2、doc3。
206、服務(wù)器判斷目標(biāo)文章的數(shù)量是否大于預(yù)設(shè)數(shù)量,若是,則執(zhí)行步驟207,若否,則執(zhí)行步驟212。
由于特定內(nèi)容(如廣告內(nèi)容等)具有共現(xiàn)性,也就是說一段特定內(nèi)容往往會(huì)出現(xiàn)在多篇文章中。因此,本實(shí)施例可以獲取具有目標(biāo)文章內(nèi)容成分的目標(biāo)文章的數(shù)量,當(dāng)該數(shù)量大于預(yù)設(shè)文章數(shù)量時(shí),表明當(dāng)前目標(biāo)文章內(nèi)容成分可能為特定內(nèi)容,所以需要針對(duì)當(dāng)前目標(biāo)文章內(nèi)容成分作進(jìn)一步判斷。
其中,預(yù)設(shè)數(shù)量可以經(jīng)過多次測(cè)試實(shí)驗(yàn)得到,比如,該預(yù)設(shè)數(shù)量可以為5、6、7等等。
該目標(biāo)文章的數(shù)量可以為目標(biāo)文章的標(biāo)識(shí)數(shù)量,即文章id數(shù)量;例如,當(dāng)遍歷到key’時(shí),其value’包含的文章標(biāo)識(shí)為doc1、doc2、doc3、doc4、doc5、doc6,此時(shí),可以獲取到目標(biāo)文章的數(shù)量為6,假設(shè)預(yù)設(shè)數(shù)量為5,那么此時(shí),可以表明當(dāng)前目標(biāo)文章內(nèi)容成分可能為特定內(nèi)容成分,因此,需要做作進(jìn)一步判斷。
207、服務(wù)器獲取目標(biāo)文章所屬的文章類別,得到文章類別集合。
比如,目標(biāo)文章為doc1、doc2、doc3、doc4、doc5、doc6時(shí),可以獲取doc1所屬的文章類別(如財(cái)經(jīng)),doc2所屬的文章類別(如體育)……doc6(如時(shí)政)所屬的文章類別,得到文章類別集合,該文章類別集合包括目標(biāo)文章所屬的所有文章類別。
可選地,為快速獲取文章所屬的文章類別,本實(shí)施例可以在獲取文章集合后,預(yù)先建立文章與文章類別之間的映射關(guān)系,得到類別映射關(guān)系集合;這樣在當(dāng)目標(biāo)文章數(shù)量大于預(yù)設(shè)數(shù)量之后,便可以根據(jù)目標(biāo)文章、以及類別映射關(guān)系集合獲取目標(biāo)文章所屬的文章類別。
其中,文章與文章類別之間的映射關(guān)系,可以包括文章標(biāo)識(shí)與文章類別之間的映射關(guān)系,該映射關(guān)系的表現(xiàn)形式有多種,比如可以為索引對(duì)。例如,在獲取文章集合之后,可以建立索引對(duì),該索引對(duì)的索引關(guān)鍵詞(key)為文章的文章標(biāo)識(shí)(如doc1),該索引對(duì)的索引值(value)包括該文章所屬的文章類別(如財(cái)經(jīng))。
為了便于從文章內(nèi)容中提取文章內(nèi)容成分,該索引對(duì)的索引值(value)還可以包括文章內(nèi)容,如文本內(nèi)容、圖片內(nèi)容、圖片的鏈接地址等;此時(shí),該索引對(duì)可以稱為文章內(nèi)容索引對(duì)。
此時(shí),本實(shí)施例中,可以將目標(biāo)文章的文章標(biāo)識(shí)作為待檢索的key,然后,根據(jù)該key從文章內(nèi)容索引對(duì)集合中,查找該key對(duì)應(yīng)的value,從value中獲取該目標(biāo)文章所屬的文章類別。
208、服務(wù)器確定文章類別集合所包含的文章類別種數(shù)是否大于預(yù)設(shè)種數(shù),若是,則執(zhí)行步驟209,若否,則執(zhí)行210。
當(dāng)某個(gè)文章內(nèi)容成分在超過預(yù)設(shè)數(shù)量的文章中出現(xiàn)時(shí),并不能說該文章內(nèi)容成分就是特定內(nèi)容成分,也可能是天然的一句引用文字或者常見圖片,因此,本實(shí)施例方法需要進(jìn)行二次判斷。
經(jīng)過實(shí)際分析可知,如果某個(gè)文章內(nèi)容成分在一定數(shù)量的文章中出現(xiàn),且該出現(xiàn)該文章內(nèi)容的文章所屬多個(gè)不同的文章類別時(shí),那么很大概率可以確定該文章內(nèi)容成分為特定內(nèi)容成分,因?yàn)槎鄠€(gè)不同類別的文章內(nèi)容出現(xiàn)同一段文字的概率非常小。
因此,本實(shí)施例可以基于具有目標(biāo)文章內(nèi)容成分的目標(biāo)文章所屬的文章類別種類進(jìn)一步確定該目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分。
具體地,當(dāng)文章類別集合所包含的文章類別種數(shù)大于預(yù)設(shè)種數(shù)時(shí),可以確定當(dāng)前目標(biāo)文章內(nèi)容成分為特定內(nèi)容成分。
209、服務(wù)器確定當(dāng)前目標(biāo)文章內(nèi)容成分為特定內(nèi)容成分。
例如,目標(biāo)文章為doc1、doc2、doc3、doc4、doc5、doc6時(shí),獲取各目標(biāo)文章所屬的文章類別,可以得到:doc1的文章類別為財(cái)經(jīng)、doc2的文章類別為體育、doc3的文章類別為財(cái)經(jīng)、doc4的文章類別為娛樂、doc5的文章類別為時(shí)政、doc6的文章類別為財(cái)經(jīng)。那么可以獲取文章類別的種數(shù)有4種,即財(cái)經(jīng)、體育、娛樂、時(shí)政。假設(shè)預(yù)設(shè)種數(shù)為3,那么目標(biāo)文章所屬的文章類別種數(shù)大于預(yù)設(shè)種數(shù),可以當(dāng)前目標(biāo)文章內(nèi)容成分為特定內(nèi)容成分。
210、服務(wù)器獲取用戶輸入的成分確定信息,并根據(jù)該成分確認(rèn)信息確定當(dāng)前目標(biāo)文章內(nèi)容成分為特定內(nèi)容成分。
例如,當(dāng)遍歷到key’時(shí),其value’包含doc1、doc2、doc3,此時(shí),可以獲取到目標(biāo)文章的數(shù)量為3,假設(shè)預(yù)設(shè)數(shù)量為5,此時(shí),目標(biāo)文章的數(shù)量小于預(yù)設(shè)數(shù)量,那么可以交由人工審核,通過人工來確定當(dāng)前目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分,假設(shè)用戶確定該文章內(nèi)容成分為特定內(nèi)容成分時(shí),可以輸入相應(yīng)的成分確定信息,服務(wù)器可以根據(jù)成分確定信息確定當(dāng)前目標(biāo)文章你讓成分為特定內(nèi)容成分。
211、根據(jù)當(dāng)前目標(biāo)文章內(nèi)容成分對(duì)該新文章中相應(yīng)的特定內(nèi)容進(jìn)行去除。
比如,當(dāng)目標(biāo)文章內(nèi)容成分為組成文章內(nèi)容的內(nèi)容單元(如某段文字或者某張圖片)時(shí),那么可以將該內(nèi)容單元直接從新文章中去除。
當(dāng)文章內(nèi)容成分為組成文章內(nèi)容的內(nèi)容單元的內(nèi)容標(biāo)識(shí)(md5、或者文本指紋)時(shí),可以將內(nèi)容標(biāo)識(shí)對(duì)應(yīng)的內(nèi)容單元(如文本指紋對(duì)于的某段文字或者md5對(duì)應(yīng)的某張圖片)從新文章中去除。
212、取下一個(gè)目標(biāo)文章內(nèi)容成分作為當(dāng)前目標(biāo)文章內(nèi)容成分,并返回執(zhí)行步驟205,直到所有目標(biāo)文章內(nèi)容成分確定完為止。
由上可知,本發(fā)明實(shí)施例采用當(dāng)文章集合有新文章加入時(shí),獲取該新文章的文章內(nèi)容成分,得到待識(shí)別的目標(biāo)文章內(nèi)容成分,然后,從該文章集合中確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章,當(dāng)該目標(biāo)文章的數(shù)量大于預(yù)設(shè)文章數(shù)量時(shí),確定該目標(biāo)文章所屬的文章類別,得到文章類別集合,根據(jù)該文章類別集合所包含的文章類別種數(shù),確定該目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分,若是,則根據(jù)該目標(biāo)文章內(nèi)容成分對(duì)該新文章中相應(yīng)的特定內(nèi)容進(jìn)行去除。該方案可以基于特定內(nèi)容(如惡意內(nèi)容等)的共現(xiàn)性以及特定內(nèi)容所屬文章類別種類來識(shí)別特定內(nèi)容(如惡意內(nèi)容等),無需依靠依靠圖像文字識(shí)別技術(shù)和廣告特征模型來識(shí)別特定內(nèi)容,因此,可以提高特定內(nèi)容(如惡意內(nèi)容等)的識(shí)別準(zhǔn)確性和效率,進(jìn)而提高特定內(nèi)容(如惡意內(nèi)容等)去除的準(zhǔn)確性和效率。
此外,本發(fā)明提供的方案可以結(jié)合算法和人工確定特定內(nèi)容(如惡意內(nèi)容等),可以避免單純采用機(jī)器算法進(jìn)行廣告去除的盲目性,可以在保證特定內(nèi)容(如惡意內(nèi)容等)除去效率的前提下,進(jìn)一步提高特定內(nèi)容(如惡意內(nèi)容等)去除的準(zhǔn)確性。
實(shí)施例三、
根據(jù)實(shí)施例一和實(shí)施例二所描述的方法,本實(shí)施例提供一種特定內(nèi)容的去除系統(tǒng),該系統(tǒng)的架構(gòu)和流程如圖3所示。如圖3所示,該特定內(nèi)容的去除系統(tǒng)包括:內(nèi)容基礎(chǔ)庫(kù)、成分抽取模塊、成分存儲(chǔ)模塊、成分對(duì)比模塊、成分存儲(chǔ)庫(kù)以及離線打擊模塊。
下面將詳細(xì)描述圖3所示系統(tǒng)中各服務(wù)模塊的主要功能,具體如下:
(1)、內(nèi)容基礎(chǔ)庫(kù):
用來收集全網(wǎng)自媒體用戶的發(fā)文,作為內(nèi)容分發(fā)平臺(tái)的文字存儲(chǔ)倉(cāng)庫(kù),可以采用nosql存儲(chǔ)。具體地,構(gòu)建文章內(nèi)容索引對(duì),其中,key就是每篇文章的id,value至少包括
1文章的文本內(nèi)容(已經(jīng)清洗的內(nèi)容,保留了分段屬性,但是不保留文字樣式,如字體或者顏色);
2所有圖片的鏈接地址,以及圖片。
3文章文本所屬的分類,比如體育,娛樂,財(cái)經(jīng)等(這個(gè)文本分類技術(shù)并非本專利保護(hù)范圍,可以查詢背景資料)。
(2)、成分抽取模塊:
對(duì)于每篇文章,抽取文章內(nèi)容成分;以及構(gòu)建成分文章索引對(duì)。
比如,對(duì)于每篇文章,按照段落力度進(jìn)行抽取,抽取文章中文本內(nèi)容的段落內(nèi)容,計(jì)算段落內(nèi)容對(duì)應(yīng)的文本指紋(如simhash指紋),該文本指紋可以作為文章內(nèi)容成分。
又比如,對(duì)于每篇文章,抽取每篇文章中圖片,并計(jì)算圖片的md5,將該md5作為文章內(nèi)容成分;或者,對(duì)于每篇文章,抽取圖片的鏈接地址,根據(jù)該鏈接地址下載相應(yīng)的圖片,計(jì)算該圖片的md5,將該md5作為文章內(nèi)容成分。
其中,成分文章索引對(duì)中,key為文章內(nèi)容成分(如文本指紋或者md5),value為文章的id,該value可以文章內(nèi)容索引對(duì)中的key。
(3)、成分存儲(chǔ)模塊:
用于存儲(chǔ)上述構(gòu)建的成分文章索引對(duì),即兩個(gè)key,成分存儲(chǔ)模塊可以將該成分文章索引存儲(chǔ)在本機(jī),或者遠(yuǎn)程nosql存儲(chǔ)中。視具體的數(shù)據(jù)規(guī)模而定。該成分存儲(chǔ)模塊可以為成分存儲(chǔ)庫(kù)。
(4)、成分對(duì)比模塊;
用于當(dāng)有新文章內(nèi)容出現(xiàn)時(shí),就需要和近期(可以是一個(gè)月,或者一周)的內(nèi)容進(jìn)行對(duì)比,找出共現(xiàn)的成分,然后對(duì)每個(gè)成分進(jìn)行統(tǒng)計(jì),并且寫回成分存儲(chǔ)模塊。
提取新文章的文章內(nèi)容成分(比如可以按照成分抽取模塊抽取成分的方式進(jìn)行提取),然后,將該文章內(nèi)容成分作為待檢索的目標(biāo)key,通過在成分存儲(chǔ)模塊中查找與該目標(biāo)key相同的key,并將相同key的value值合并,得到該目標(biāo)key對(duì)應(yīng)的目標(biāo)value值,將該目標(biāo)key及其對(duì)應(yīng)的目標(biāo)value值寫入成分存儲(chǔ)模塊,更新成分存儲(chǔ)模塊。
比如,比如新過來的文章doc2拆分出成分key,key(md5),通過在成分存儲(chǔ)模塊中查找發(fā)現(xiàn)了同樣的key(md5)并且value是doc1,那么就把doc2增加到原來的value中,變成了key(md5)->doc1,doc2。
(5)、離線打擊模塊;
用于每隔預(yù)設(shè)時(shí)間段如1個(gè)小時(shí),掃描成分存儲(chǔ)模塊中的所有key,,對(duì)于某個(gè)key下面如果鏈接的文章id多余5個(gè)。則使用如下策略:
a、如果文章id多余5個(gè),并且去內(nèi)容基礎(chǔ)庫(kù)查詢,所有文章的類別超過3個(gè)。那自動(dòng)判斷這個(gè)成分為特定內(nèi)容成分。
b、如果文章id多余5個(gè),但是文章所屬類別少于3個(gè),那么就提交給人工審核。應(yīng)用人的知識(shí)來判斷是不是特定內(nèi)容成分。
如果以上兩個(gè)條件(a和b)任意一個(gè)滿足,那么就判斷這個(gè)key對(duì)應(yīng)的文章內(nèi)容成分為低質(zhì)量的特定內(nèi)容成分,對(duì)應(yīng)的文章就是作惡文章、或廣告文章。
這個(gè)時(shí)候本實(shí)施例方法并不把文章刪除,而是僅僅把文章本身的特定內(nèi)容部分刪除,因?yàn)槲恼卤倔w往往是好的。
該特定內(nèi)容的去除系統(tǒng)可以基于特定內(nèi)容(如惡意內(nèi)容等)的共現(xiàn)性以及特定內(nèi)容所屬文章類別種類來識(shí)別特定內(nèi)容(如惡意內(nèi)容等),無需依靠依靠圖像文字識(shí)別技術(shù)和廣告特征模型來識(shí)別特定內(nèi)容,因此,可以提高特定內(nèi)容(如惡意內(nèi)容等)的識(shí)別準(zhǔn)確性和效率,進(jìn)而提高特定內(nèi)容(如惡意內(nèi)容等)去除的準(zhǔn)確性和效率。
實(shí)施例四、
為了更好地實(shí)施以上方法,本發(fā)明實(shí)施例還提供特定內(nèi)容的去除裝置,如圖4a所示,該特定內(nèi)容的去除裝置包括:成分獲取單元401、目標(biāo)文章確定單元402、類別確定單元403、內(nèi)容確定單元404和去除單元405,如下:
(1)成分獲取單元401;
成分獲取單元401,用于當(dāng)文章集合有新文章加入時(shí),獲取該新文章的文章內(nèi)容成分,得到待識(shí)別的目標(biāo)文章內(nèi)容成分。
本實(shí)施例中,特定內(nèi)容指的是文章內(nèi)容中滿足某種條件的內(nèi)容,該條件可以根據(jù)實(shí)際需求設(shè)定。比如,特征內(nèi)容可以包括文章內(nèi)容中與文章本身不相關(guān)的內(nèi)容;又比如,該特征內(nèi)容還可以包括文章內(nèi)容中與文章本身不相關(guān),且具有惡意性的內(nèi)容,即惡意內(nèi)容,如,廣告內(nèi)容、不良內(nèi)容(如色情內(nèi)容、政治敏感內(nèi)容等等)、欺詐內(nèi)容等等。
其中,文章集合包括多個(gè)文章。比如,在步驟101之前,本實(shí)施例可以收集自媒體用戶發(fā)布的文章,得到文章集合。該文章集合可以存儲(chǔ)在本地,或者存在其他設(shè)備或系統(tǒng)中,比如,可以存儲(chǔ)在遠(yuǎn)程nosql(notonlysql,非關(guān)系型數(shù)據(jù)庫(kù))系統(tǒng)中。
本實(shí)施例中,成分獲取單元401當(dāng)檢測(cè)到有新文章加入該文章集合中時(shí),可以獲取該新文章的文章內(nèi)容成分。比如,當(dāng)檢測(cè)到遠(yuǎn)程nosql系統(tǒng)中文章集合有新文章加入時(shí),可以獲取新文章的文章內(nèi)容成分。
其中,文章內(nèi)容成分為組成文章內(nèi)容的內(nèi)容單元,該內(nèi)容單元可以選取根據(jù)實(shí)際需求設(shè)定。文章內(nèi)容一般可以包括文本內(nèi)容、圖片內(nèi)容等中的至少一種;因此,該內(nèi)容單元可以包括組成文本內(nèi)容的文本內(nèi)容單元、組成圖片內(nèi)容的圖片內(nèi)容單元中的至少一種。其中,組成文本內(nèi)容的文本內(nèi)容單元可以根據(jù)段落、句子等劃分。比如,文本內(nèi)容單元可以包括文本內(nèi)容中段落內(nèi)容、句子內(nèi)容等等。,即每一段的文本內(nèi)容即為一個(gè)文章內(nèi)容成分,或每一句內(nèi)容即為一個(gè)文章內(nèi)容成分。
該組成圖片內(nèi)容的圖片內(nèi)容單元即為圖片內(nèi)容本身,比如,該當(dāng)文章內(nèi)容包括某個(gè)圖片時(shí),圖片內(nèi)容單元即為該圖片,也即每一張圖片即為一個(gè)文章內(nèi)容成分。
為了加快特定內(nèi)容的識(shí)別速度和去除速度,本實(shí)施例可以將組成文章內(nèi)容的內(nèi)容單元對(duì)應(yīng)的內(nèi)容標(biāo)識(shí)作為文章內(nèi)容成分。參考圖4b,該成分獲取單元401可以包括:
內(nèi)容提取子單元4011,用于從該新文章的文章內(nèi)容中獲取相應(yīng)的內(nèi)容單元;
成分獲取子單元4012,用于獲取該內(nèi)容單元對(duì)應(yīng)的內(nèi)容標(biāo)識(shí),并將該內(nèi)容標(biāo)識(shí)作為該新文章的文章內(nèi)容成分。
其中,內(nèi)容單元對(duì)應(yīng)的內(nèi)容標(biāo)識(shí)可以為內(nèi)容單元的唯一標(biāo)識(shí);比如,當(dāng)內(nèi)容單元包括組成文本內(nèi)容的文本內(nèi)容單元時(shí),文本內(nèi)容單元的內(nèi)容標(biāo)識(shí)可以包括文本內(nèi)容單元的文本指紋,如某段文本內(nèi)容的文本指紋,此時(shí),文章內(nèi)容成分可以為文本指紋。
又比如,當(dāng)內(nèi)容單元包括組成圖片內(nèi)容的圖片內(nèi)容單元,即圖片時(shí),該圖片內(nèi)容單元的內(nèi)容標(biāo)識(shí)可以為圖片的圖片標(biāo)識(shí),如圖片的md5(消息摘要算法)值。
本實(shí)施例中,文章內(nèi)容除了包含文本內(nèi)容和圖片內(nèi)容之外,還可以包括圖片的鏈接地址,此時(shí),內(nèi)容單元可以包括每個(gè)圖片的鏈接地址,那么本實(shí)施例可以根據(jù)圖片的鏈接地址下載相應(yīng)的圖片,然后,獲取下載圖片對(duì)應(yīng)的圖片標(biāo)識(shí)如md5值。
根據(jù)上述描述,本實(shí)施例中文章內(nèi)容成分可以包括文本內(nèi)容單元的內(nèi)容標(biāo)識(shí)(如文本指紋等)和/或圖片內(nèi)容單元的圖片標(biāo)識(shí)(如md5值等)。
(2)目標(biāo)文章確定單元402;
目標(biāo)文章確定單元402,用于從該文章集合中確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章。
比如,目標(biāo)文章確定單元402,可以用于從可以將新文章的文章內(nèi)容成分與文章集合內(nèi)原有文章的文章內(nèi)容成分進(jìn)行對(duì)比,根據(jù)對(duì)比結(jié)果從文章集合中確定具有新文章的文章內(nèi)容成分的目標(biāo)文章。
為了能夠快速地確定具有目標(biāo)文章內(nèi)容成分的目標(biāo)文章,本實(shí)施例可以在新文章加入文章集合之前,獲取文章集合內(nèi)容文章的文章內(nèi)容成分,并建立文章內(nèi)容成分與文章之間的映射關(guān)系,這樣后續(xù)便可以根據(jù)目標(biāo)文章內(nèi)容成分與建立的映射關(guān)系來確定具有目標(biāo)文章內(nèi)容成分的文章。
可選地,參考圖4c,本實(shí)施例的去除裝置還可以包括:關(guān)系建立單元406;
關(guān)系建立單元406,用于在文章集合有新文章加入之前,針對(duì)文章集合內(nèi)的文章,獲取文章集合內(nèi)文章的文章內(nèi)容成分,建立該文章內(nèi)容成分與該文章之間的映射關(guān)系,得到映射關(guān)系集合;
此時(shí),目標(biāo)文章確定單元402,用于根據(jù)該目標(biāo)文章內(nèi)容成分、以及該映射關(guān)系集合,從該文章集合中確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章。
其中,文章內(nèi)容成分與文章之間的映射關(guān)系可以包括文章內(nèi)容成分與文章標(biāo)識(shí)之間的映射關(guān)系,該映射關(guān)系的表現(xiàn)形式可以由多種,比如文章內(nèi)容成分與文章標(biāo)識(shí)之間的映射關(guān)系可以為索引對(duì),索引對(duì)的索引關(guān)鍵詞(key)為文章的文章內(nèi)容成分,該索引對(duì)的索引值(value)包括該文章的文章標(biāo)識(shí)。此時(shí),映射關(guān)系集合可以包括索引對(duì)集合。
此時(shí),該文章內(nèi)容成分與該文章之間的映射關(guān)系包括:索引對(duì),該索引對(duì)的索引關(guān)鍵詞為該文章內(nèi)容成分,該索引對(duì)的索引值包括該文章的文章標(biāo)識(shí),該映射關(guān)系集合包括索引對(duì)集合。參考圖4d,目標(biāo)文章確定單元402,包括:
關(guān)鍵詞確定子單元4021,用于將該目標(biāo)文章內(nèi)容成分作為待檢索的目標(biāo)索引關(guān)鍵詞;
目標(biāo)文章確定子單元4022,用于從該索引對(duì)集合中查找索引關(guān)鍵詞與該目標(biāo)索引關(guān)鍵詞相同的索引值,得到具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章。
為了便于查找到具有相同文章內(nèi)容成分的文章,本實(shí)施例可以在獲取索引關(guān)鍵詞與該目標(biāo)索引關(guān)鍵詞相同的索引值之后,可以對(duì)索引值進(jìn)行合并,得到目標(biāo)索引關(guān)鍵詞對(duì)應(yīng)的索引值;這樣后續(xù)遍歷目標(biāo)索引關(guān)鍵詞時(shí)便可從其索引值中獲取具有目標(biāo)索引關(guān)鍵詞對(duì)應(yīng)的文章內(nèi)容成分的所有文章。比如,目標(biāo)文章確定子單元4022,可以用于:
從該索引對(duì)集合中查找索引關(guān)鍵詞與該目標(biāo)索引關(guān)鍵詞相同的索引值;
將索引關(guān)鍵詞與該目標(biāo)索引關(guān)鍵詞相同的索引值進(jìn)行合并,得到目標(biāo)索引關(guān)鍵詞及其對(duì)應(yīng)的目標(biāo)索引值;
遍歷該目標(biāo)索引關(guān)鍵詞,并獲取該目標(biāo)索引關(guān)鍵詞對(duì)應(yīng)的目標(biāo)索引值;
根據(jù)該目標(biāo)索引值確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章。
(3)類別確定單元403;
類別確定單元403,用于當(dāng)該目標(biāo)文章的數(shù)量大于預(yù)設(shè)文章數(shù)量時(shí),確定該目標(biāo)文章所屬的文章類別,得到文章類別集合。
由于特定內(nèi)容具有共現(xiàn)性,也就是說一段特定內(nèi)容往往會(huì)出現(xiàn)在多篇文章中。因此,本實(shí)施例可以獲取具有目標(biāo)文章內(nèi)容成分的目標(biāo)文章的數(shù)量,當(dāng)該數(shù)量大于預(yù)設(shè)文章數(shù)量時(shí),表明該目標(biāo)文章內(nèi)容成分可能為特定內(nèi)容,所以需要針對(duì)該目標(biāo)文章內(nèi)容成分作進(jìn)一步判斷。
其中,預(yù)設(shè)文章數(shù)量可以經(jīng)過多次測(cè)試實(shí)驗(yàn)得到,比如,該預(yù)設(shè)文章數(shù)量可以為5、6等等。
為了能夠快速地獲取到文章所屬的文章類別以及類別種數(shù),本實(shí)施例可以在新文章加入文章集合之前,建立文章集合內(nèi)文章與其文章類別之間的映射關(guān)系,得到文章類別映射關(guān)系集合;這樣類別確定單元403便可以根據(jù)目標(biāo)文章和該文章類別映射關(guān)系集合,獲取目標(biāo)文章所屬的文章類別。其中,文章與其文章類別之間的映射關(guān)系可以包括:文章標(biāo)識(shí)與其文章類別之間的映射關(guān)系;該映射關(guān)系可以由索引對(duì)來體現(xiàn)索引對(duì)的key為文章的文章標(biāo)識(shí)、vlaue包括文章所屬的文章類別。
(4)內(nèi)容確定單元404;
內(nèi)容確定單元404,用于根據(jù)該文章類別集合所包含的文章類別種數(shù),確定該目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分。
當(dāng)某個(gè)文章內(nèi)容成分在超過預(yù)設(shè)數(shù)量的文章中出現(xiàn)時(shí),并不能說該文章內(nèi)容成分就是特定內(nèi)容成分,也可能是天然的一句引用文字或者常見圖片,因此,本實(shí)施例方法需要進(jìn)行二次判斷,具體地,可以基于出現(xiàn)相同文章內(nèi)容成分的文章所屬的文章類別來進(jìn)一步確定該文章內(nèi)容成分是否為特定內(nèi)容成分。
經(jīng)過實(shí)際分析可知,如果某個(gè)文章內(nèi)容成分在一定數(shù)量的文章中出現(xiàn),且該出現(xiàn)該文章內(nèi)容的文章所屬多個(gè)不同的文章類別時(shí),那么很大概率可以確定該文章內(nèi)容成分為特定內(nèi)容成分,因?yàn)槎鄠€(gè)不同類別的文章內(nèi)容出現(xiàn)同一段文字的概率非常小。
因此,本實(shí)施例可以基于具有目標(biāo)文章內(nèi)容成分的目標(biāo)文章所屬的文章類別種類進(jìn)一步確定該目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分。比如,內(nèi)容確定單元404,可以用于:
當(dāng)該文章類別集合所包含的文章類別種數(shù)大于預(yù)設(shè)類別種數(shù)時(shí),確定該目標(biāo)文章內(nèi)容成分為特定內(nèi)容成分;
當(dāng)該文章類別種數(shù)不大于預(yù)設(shè)類別種數(shù)時(shí),根據(jù)用戶輸入的成分確認(rèn)信息確定該目標(biāo)文章內(nèi)容成分為特定內(nèi)容成分。
其中,預(yù)設(shè)類別種數(shù)可以根據(jù)實(shí)際需求設(shè)定,比如可以為3、4等。本實(shí)施例文章類別可以根據(jù)實(shí)際需求劃分,比如,可以將文章類別劃分為:財(cái)經(jīng)、體育、娛樂、動(dòng)漫等等。
(5)、去除單元405;
去除單元405,用于當(dāng)該內(nèi)容確定單元404,確定該目標(biāo)文章內(nèi)容成分為特定內(nèi)容成分時(shí),根據(jù)該目標(biāo)文章內(nèi)容成分對(duì)該新文章中相應(yīng)的特定內(nèi)容進(jìn)行去除。
比如,當(dāng)文章內(nèi)容成分為組成文章內(nèi)容的內(nèi)容單元(如某段文字或者某張圖片)時(shí),那么可以將該內(nèi)容單元直接從新文章中去除。
當(dāng)文章內(nèi)容成分為組成文章內(nèi)容的內(nèi)容單元的內(nèi)容標(biāo)識(shí)(md5、或者文本指紋)時(shí),可以將內(nèi)容標(biāo)識(shí)對(duì)應(yīng)的內(nèi)容單元(如文本指紋對(duì)于的某段文字或者md5對(duì)應(yīng)的某張圖片)從新文章中去除。
具體實(shí)施時(shí),以上各個(gè)單元可以作為獨(dú)立的實(shí)體來實(shí)現(xiàn),也可以進(jìn)行任意組合,作為同一或若干個(gè)實(shí)體來實(shí)現(xiàn),以上各個(gè)單元的具體實(shí)施可參見前面的方法實(shí)施例,在此不再贅述。
該特定內(nèi)容的去除裝置具體可以集成在服務(wù)器中,比如可以集成在內(nèi)容聚合服務(wù)器中。
由上可知,本發(fā)明實(shí)施例采用成分獲取單元401當(dāng)文章集合有新文章加入時(shí),獲取該新文章的文章內(nèi)容成分,得到待識(shí)別的目標(biāo)文章內(nèi)容成分,然后,由目標(biāo)文章確定單元402從該文章集合中確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章,當(dāng)該目標(biāo)文章的數(shù)量大于預(yù)設(shè)文章數(shù)量時(shí),由類別確定單元403確定該目標(biāo)文章所屬的文章類別,得到文章類別集合,由內(nèi)容確定單元404根據(jù)該文章類別集合所包含的文章類別種數(shù),確定該目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分,若是,則由去除單元405根據(jù)該目標(biāo)文章內(nèi)容成分對(duì)該新文章中相應(yīng)的特定內(nèi)容進(jìn)行去除。該方案可以基于特定內(nèi)容的共現(xiàn)性以及特定內(nèi)容(如惡意內(nèi)容等)所屬文章類別種類來識(shí)別特定內(nèi)容(如惡意內(nèi)容等),無需依靠依靠圖像文字識(shí)別技術(shù)和廣告特征模型來識(shí)別特定內(nèi)容,因此,可以提高特定內(nèi)容(如惡意內(nèi)容等)的識(shí)別準(zhǔn)確性和效率,進(jìn)而提高特定內(nèi)容(如惡意內(nèi)容等)去除的準(zhǔn)確性和效率。
本領(lǐng)域普通技術(shù)人員可以理解上述實(shí)施例的各種方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲(chǔ)于一計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,存儲(chǔ)介質(zhì)可以包括:只讀存儲(chǔ)器(rom,readonlymemory)、隨機(jī)存取記憶體(ram,randomaccessmemory)、磁盤或光盤等。
以上對(duì)本發(fā)明實(shí)施例所提供的一種特定內(nèi)容的去除方法和裝置進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。