用于識別敏感文本信息的系統(tǒng)和方法
【專利摘要】一種用于識別敏感文本信息的系統(tǒng)和方法。所述包括:數(shù)據(jù)訓(xùn)練模塊,用于將訓(xùn)練文本表示為向量空間形式的特征空間模型;數(shù)據(jù)測試模塊,用于將測試文本表示為向量空間形式的特征空間模型;以及信息源分塊識別模塊,用于根據(jù)文本點(diǎn)在二維空間的分布,將測試文本集合劃分為模糊區(qū)和非模糊區(qū)以及對模糊區(qū)和非模糊區(qū)分別進(jìn)行分類識別。
【專利說明】用于識別敏感文本信息的系統(tǒng)和方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種用于識別敏感文本信息的系統(tǒng)和方法。
【背景技術(shù)】
[0002]例如微博等的文本信息已成為社會思潮多樣化的助推器和放大器,在輿論環(huán)境的角色正在發(fā)生著重大的變化。如果網(wǎng)絡(luò)輿論環(huán)境遭到不法的破壞,違背信息自由和公正傳播的原則,會造成不正當(dāng)?shù)纳虡I(yè)競爭等,進(jìn)而擾亂社會秩序。復(fù)雜多變的網(wǎng)絡(luò)輿論環(huán)境以及背后各種利益體的驅(qū)使,給微博和社區(qū)論壇BBS等文本信息的有效監(jiān)控帶來了前所未有的挑戰(zhàn)。
[0003]在處理文本信息內(nèi)容的安全領(lǐng)域,目前采用的技術(shù)主要有基于規(guī)則的方法和基于概率統(tǒng)計(jì)的方法。
[0004](I)基于規(guī)則的方法是指事先設(shè)計(jì)好一組規(guī)則,用以指明某條信息是否屬于敏感信息。如圖1所示,該方法主要由數(shù)據(jù)輸入預(yù)處理模塊、數(shù)據(jù)規(guī)則提取模塊、規(guī)則判斷模塊和結(jié)果輸出模塊來實(shí)現(xiàn)。其利用規(guī)則判斷模塊對數(shù)據(jù)進(jìn)行是否符合條件的相關(guān)的判定,規(guī)則判斷模塊為核心模塊,在具體的實(shí)現(xiàn)中,基于規(guī)則的幾種典型方法如下:
[0005]基于IP、域名和路由規(guī)則:對IP設(shè)置黑白名單,IP在黑名單的信息源將會被過濾等處理,而IP在白名單的信息源被放過;服務(wù)器端的配置可以實(shí)現(xiàn)對Access controlList、Top wrappers、主機(jī)路由表等服務(wù)器端配置;安全認(rèn)證方法有測試/回復(fù)系統(tǒng)和計(jì)算測試系統(tǒng)等。
[0006]基于內(nèi)容規(guī)則和行為規(guī)則:例如郵件中包含adertisement或者英文大寫字母過度使用,與房產(chǎn)或藥品等相關(guān)詞語的過度使用,或是過于花哨的HTML模式用色等,這些內(nèi)容規(guī)則一旦被識別出來,該信息源將會被過濾等;根據(jù)信息源郵件頭中的信息判定為群發(fā)郵件并且在MTA端監(jiān)控該信息源的IP在規(guī)定的時(shí)間內(nèi)超過了流量閾值,則被進(jìn)行過濾等特殊處理。
[0007](2)基于概率統(tǒng)計(jì)的方法是指利用某些特征來對不同的內(nèi)容進(jìn)行分類,計(jì)算某個(gè)特征屬于某個(gè)類別的測度,取最大值,如果這個(gè)最大值所屬的類別為敏感類,則將該信息進(jìn)行相關(guān)處理。如圖2所示,該方法主要由測試數(shù)據(jù)輸入模塊、訓(xùn)練數(shù)據(jù)訓(xùn)練模塊、分類器分類模塊、結(jié)果輸出模塊來實(shí)現(xiàn)。數(shù)據(jù)訓(xùn)練過程是一個(gè)統(tǒng)計(jì)學(xué)習(xí)的過程,得到相應(yīng)的分類器。訓(xùn)練分類器時(shí)所使用的分類算法可根據(jù)實(shí)際應(yīng)用場景而確定,如樸素貝葉斯,K-mean等分類算法等。
[0008]基于規(guī)則的方法存在的缺點(diǎn):在規(guī)律性不明顯的應(yīng)用領(lǐng)域效果較差,一些正常的信息源常會被歸為非正常的信息源。即使在規(guī)律性明顯的應(yīng)用領(lǐng)域,當(dāng)信息源制造者知道了所有的規(guī)則以后,為了繞開規(guī)則處理,其行為會變得更加隱蔽?;谝?guī)則的方法另外一個(gè)問題,信息源是否會被識別為敏感信息因其所面對的讀者和張貼位置的不同而不同,對于某些特定用戶、公告留言或者維基百科而言,那些可以用來明確指示是否為敏感信息,而其他場合可能變得相當(dāng)正常。即由于不同用戶界定敏感信息的標(biāo)準(zhǔn)不同,還需要為不同的用戶、群組等建立起各自的實(shí)例和數(shù)據(jù)集合。
[0009]基于概率統(tǒng)計(jì)的方法也因采用的不同的算法而存在各自的缺點(diǎn),例如樸素貝葉斯分類器最大的缺陷就是,他無法處理基于特征組合所產(chǎn)生的變化結(jié)果,當(dāng)我們假設(shè)單詞“美國”和“911”為非敏感詞,而實(shí)際上“美國911”這樣的敏感信息也會被識別為非敏感信息放過。再例如K-mean的主要缺點(diǎn)在于,為了找到最為接近的數(shù)據(jù)項(xiàng),每一項(xiàng)帶預(yù)測的數(shù)據(jù)都必須和所有的數(shù)據(jù)項(xiàng)進(jìn)行比較且缺一不可,面對百萬甚至上千萬的數(shù)據(jù)集,在時(shí)間和空間上都是非常低效的。
[0010]因此,期望提供一種高性能的識別敏感文本信息的系統(tǒng)和方法。
【發(fā)明內(nèi)容】
[0011]為了解決現(xiàn)有技術(shù)中的上述缺點(diǎn)和問題中的至少一個(gè)而提出本發(fā)明?;诂F(xiàn)有技術(shù)存在的缺點(diǎn),我們提出了劃分信息源集合,并采用不同類型的特征對信息源先后進(jìn)行識別的方法,它一方面可以在處理大數(shù)據(jù)集時(shí)表現(xiàn)出較高的性能;另一方面,該方法應(yīng)用于敏感信息識別時(shí),較之普通的分類算法在效果上也會有大大的提高。
[0012]根據(jù)一個(gè)方面,本發(fā)明提出了一種用于識別敏感文本信息的系統(tǒng),包括:數(shù)據(jù)訓(xùn)練模塊,用于將訓(xùn)練文本表示為向量空間形式的特征空間模型;數(shù)據(jù)測試模塊,用于將測試文本表示為向量空間形式的特征空間模型;以及信息源分塊識別模塊,用于根據(jù)文本點(diǎn)在二維空間的分布,將測試文本集合劃分為模糊區(qū)和非模糊區(qū)以及對模糊區(qū)和非模糊區(qū)分別進(jìn)行分類識別。
[0013]可選地,所述數(shù)據(jù)訓(xùn)練模塊包括:訓(xùn)練文本預(yù)處理模塊,用于對訓(xùn)練文本進(jìn)行預(yù)處理;特征抽取模塊,用于根據(jù)所述訓(xùn)練文本預(yù)處理模塊的預(yù)處理結(jié)果進(jìn)行特征抽?。灰约疤卣鬟x擇模塊,用于對所述特征抽取模塊所抽取的特征進(jìn)行特征選擇,從而對由字、詞和字詞串組成的特征進(jìn)行特征選擇而得到特征空間。
[0014]可選地,所述數(shù)據(jù)測試模塊包括:測試文本預(yù)處理模塊,用于對測試文本進(jìn)行預(yù)處理;特征抽取模塊,用于根據(jù)所述測試文本預(yù)處理模塊的預(yù)處理結(jié)果進(jìn)行特征抽??;以及特征選擇模塊,用于對所述特征抽取模塊所抽取的特征進(jìn)行特征選擇,從而對由字、詞和字詞串組成的特征進(jìn)行特征選擇而得到特征空間。
[0015]可選地,所述信息源分塊識別模塊包括:區(qū)域劃分模塊,用于根據(jù)文本點(diǎn)在二維空間的分布將所述測試文本集合劃分為所述模糊區(qū)和所述非模糊區(qū);第一分類識別模塊,用于以字或詞作為特征對所述模糊區(qū)進(jìn)行分類識別;以及第二分類識別模塊,用于以相鄰兩個(gè)字或詞組成的二元字符串作為特征對所述非模糊區(qū)進(jìn)行分類識別。
[0016]可選地,所述字或詞是通過分詞工具獲得的。
[0017]根據(jù)本發(fā)明的另一個(gè)方面,提供了一種用于識別敏感文本信息的方法,包括:將訓(xùn)練文本表示為向量空間形式的特征空間模型;將測試文本表示為向量空間形式的特征空間模型;根據(jù)文本點(diǎn)在二維空間的分布,將測試文本集合劃分為模糊區(qū)和非模糊區(qū);以字或詞作為特征,對所述模糊區(qū)進(jìn)行分類識別;以及以由相鄰兩個(gè)字或詞組成的二元字符串作為特征,對所述非模糊區(qū)進(jìn)行分類識別。
[0018]可選地,將訓(xùn)練文本表示為向量空間形式的特征空間模型包括:對訓(xùn)練文本進(jìn)行預(yù)處理;對預(yù)處理結(jié)果進(jìn)行特征抽??;對所抽取的特征進(jìn)行特征選擇。[0019]可選地,將測試文本表示為向量空間形式的特征空間模型包括:對測試文本進(jìn)行預(yù)處理;對預(yù)處理結(jié)果進(jìn)行特征抽??;對所抽取的特征進(jìn)行特征選擇。
[0020]可選地,所述字或詞是通過分詞工具獲得的。
[0021]可選地,采用貝葉斯或者K-means作為分類算法來訓(xùn)練分類器,以將測試文本集合分割為所述模糊區(qū)和所述非模糊區(qū)。
【專利附圖】
【附圖說明】
[0022]通過下面結(jié)合附圖進(jìn)行的描述,本發(fā)明一些示范性實(shí)施例的上述和其他方面、特征和優(yōu)點(diǎn)對于本領(lǐng)域技術(shù)人員來說將變得顯而易見,其中:
[0023]圖1是用于實(shí)現(xiàn)基于規(guī)則的方法的框圖;
[0024]圖2是用于實(shí)現(xiàn)基于概率統(tǒng)計(jì)的方法的框圖;
[0025]圖3是用于識別敏感文本信息的系統(tǒng)的框圖;以及
[0026]圖4是用于識別敏感文本信息的方法的流程圖。
【具體實(shí)施方式】
[0027]提供參考附圖的下面描述以幫助全面理解本發(fā)明的示范性實(shí)施例。其包括各種細(xì)節(jié)以助于理解,而應(yīng)當(dāng)將它們認(rèn)為僅僅是示范性的。因此,本領(lǐng)域普通技術(shù)人員應(yīng)當(dāng)認(rèn)識到,可以對這里描述的 實(shí)施例做出各種改變和修改,而不會背離本發(fā)明的范圍和精神。同樣,為了清楚和簡明,省略了對公知功能和結(jié)構(gòu)的描述。
[0028]根據(jù)本發(fā)明的識別敏感文本信息的系統(tǒng)和方法將測試文本集合根據(jù)模糊區(qū)域劃分為兩部分,并采用不同類型的特征對這兩部分的文本分別進(jìn)行識別。該技術(shù)方案對傳統(tǒng)的基于概率統(tǒng)計(jì)方法技術(shù)進(jìn)行了改進(jìn),使識別和分類結(jié)果的精確率和召回率得到了明顯提高,并且不同的算法可以實(shí)現(xiàn)組合用于敏感信息識別和文本分類領(lǐng)域,在大數(shù)據(jù)量的高效率分類方面有很重要的應(yīng)用潛力。
[0029]圖3是用于識別敏感文本信息的系統(tǒng)的框圖。
[0030]如圖3所示,根據(jù)本發(fā)明的用于識別敏感文本信息的系統(tǒng)包括數(shù)據(jù)訓(xùn)練模塊310、數(shù)據(jù)測試模塊320、信息源分塊識別模塊330。
[0031]數(shù)據(jù)訓(xùn)練模塊310用于將訓(xùn)練文本表示為向量空間形式的特征空間模型。
[0032]在一個(gè)實(shí)施例中,數(shù)據(jù)訓(xùn)練模塊310包括訓(xùn)練文本預(yù)處理模塊312、特征抽取模塊314、特征選擇模塊316。
[0033]訓(xùn)練文本預(yù)處理模塊312用于對訓(xùn)練文本進(jìn)行預(yù)處理。例如,訓(xùn)練文本預(yù)處理模塊312可以從訓(xùn)練文本去除標(biāo)點(diǎn)符號和無效字符、過濾停用詞、然后對訓(xùn)練文本進(jìn)行分詞。停用詞可以包括“的、地、得”、“是、了、也…”等。
[0034]特征抽取模塊314可以根據(jù)訓(xùn)練文本預(yù)處理模塊312的預(yù)處理結(jié)果進(jìn)行特征抽取。例如,特征抽取模塊314可以根據(jù)需求選擇字、詞、以及字詞組成的二元字符串作為特征。第一步選用的特征,應(yīng)該具有較強(qiáng)的覆蓋能力,有較強(qiáng)的分辨能力,因此選取經(jīng)過分詞的普通詞語作為特征,識別效果要優(yōu)于單個(gè)字或詞語組合;第二步選用的特征,應(yīng)該能夠?qū)Φ谝徊阶R別結(jié)果不可靠的那些文本具有較強(qiáng)的分辨能力,并且語義特征要更加突出,而詞語組合正好具有較好的語義特性,例如詞語組合“商品屬性”比單個(gè)詞語“商品”、“屬性”具有更強(qiáng)的語義效果,因此第二步選擇文本分詞以后兩個(gè)相鄰的二元詞串作為特征。作為一個(gè)示例,可以利用分詞工具,第一步直接選取分詞工具的分詞結(jié)果作為特征,第二步選取分詞工具分詞以后相鄰的兩個(gè)詞語組合作為特征。
[0035]特征選擇模塊316對特征抽取模塊314所抽取的特征進(jìn)行特征選擇,從而對由字、詞和字詞串組成的特征進(jìn)行特征選擇而得到由向量空間模型VSM表示的特征空間。例如,特征選擇可采用的方法包括詞頻(Term Frequency)統(tǒng)計(jì)法、文檔頻率(DocumentFrequency)統(tǒng)計(jì)法、逆文檔頻率(IDF)法、互信息法、CHI方統(tǒng)計(jì)法、信息增益法等。例如,特征選擇模塊316可以采用CHI方統(tǒng)計(jì)法進(jìn)行特征選擇。
[0036]與數(shù)據(jù)訓(xùn)練模塊310類似,數(shù)據(jù)測試模塊320用于將測試文本表示為向量空間形式的特征空間模型。
[0037]在一個(gè)實(shí)施例中,數(shù)據(jù)測試模塊320包括測試文本預(yù)處理模塊322、特征抽取模塊324、特征選擇模塊326。
[0038]測試文本預(yù)處理模塊322用于對訓(xùn)練文本進(jìn)行預(yù)處理。例如,訓(xùn)練文本預(yù)處理模塊322可以從訓(xùn)練文本去除標(biāo)點(diǎn)符號和無效字符、過濾停用詞、然后對訓(xùn)練文本進(jìn)行分詞。停用詞可以包括“的、地、得”、“是、了、也…”等。
[0039]特征抽取模塊324可以根據(jù)訓(xùn)練文本預(yù)處理模塊322的預(yù)處理結(jié)果進(jìn)行特征抽取。例如,特征抽取模塊324可以根據(jù)需求選擇字、詞、以及字詞組成的二元字符串作為特征。如同以前所述,第一步選用的特征,應(yīng)該具有較強(qiáng)的覆蓋能力,有較強(qiáng)的分辨能力,因此選取經(jīng)過分詞的普通詞語作為特征,識別效果要優(yōu)于單個(gè)字或詞語組合;第二步選用的特征,應(yīng)該能夠?qū)Φ谝徊阶R別結(jié)果不可靠的那些文本具有較強(qiáng)的分辨能力,并且語義特征要更加突出,而詞語組合正好具有較好的語義特性,例如詞語組合“商品屬性”比單個(gè)詞語“商品”、“屬性”具有更強(qiáng)的語義效果,因此第二步選擇文本分詞以后兩個(gè)相鄰的二元詞串作為特征。
[0040]特征選擇模塊326對特征抽取模塊324所抽取的特征進(jìn)行特征選擇,從而對由字、詞和字詞串組成的特征進(jìn)行特征選擇而得到由向量空間模型VSM表示的特征空間。例如,特征選擇可采用的方法包括詞頻(Term Frequency)統(tǒng)計(jì)法、文檔頻率(DocumentFrequency)統(tǒng)計(jì)法、逆文檔頻率(IDF)法、互信息法、CHI方統(tǒng)計(jì)法、信息增益法等。例如,特征選擇模塊316可以采用CHI方統(tǒng)計(jì)法進(jìn)行特征選擇。
[0041]信息源分塊識別模塊330用于根據(jù)文本點(diǎn)在二維空間的分布,將測試文本集合劃分為模糊區(qū)A和非模糊區(qū)B,首先以字或詞作為特征,對模糊區(qū)A進(jìn)行分類識別,再以由相鄰兩個(gè)字或詞組成的二元字符串作為特征,對非模糊區(qū)B進(jìn)行分類識別。
[0042]在一個(gè)實(shí)施例中,信息源分塊識別模塊330包括區(qū)域劃分模塊332、第一分類識別模塊334、第二分類識別模塊336。區(qū)域劃分模塊332可以用于根據(jù)文本點(diǎn)在二維空間的分布將測試文本集合劃分為模糊區(qū)A和非模糊區(qū)B。第一分類識別模塊334可以用于以字或詞作為特征對模糊區(qū)A進(jìn)行分類識別。第二分類識別模塊334可以用于相鄰兩個(gè)字或詞組成的二元字符串作為特征對非模糊區(qū)B進(jìn)行分類識別。
[0043]例如,信息源分塊識別模塊330可任意采用貝葉斯或者K-means作為分類算法來訓(xùn)練分類器,以將測試文本集合分割為兩部分:模糊區(qū)外的文本集合A,模糊區(qū)內(nèi)的文本集合B。[0044]具體地,以貝葉斯分類算法為例,給定二值文本向量d= (W1, w2,...,wD)(其中,Wi=O或者I ;如果第i個(gè)特征出現(xiàn)在文本d中,Wi=I,否則Wi=O),文本dx屬于類別Cj的概率可表示為P (Cj I dx),經(jīng)過計(jì)算以后將文本dx分到所得值最大的類別,P (Cj I dx)的計(jì)算公式可以表示為:
【權(quán)利要求】
1.一種用于識別敏感文本信息的系統(tǒng),包括: 數(shù)據(jù)訓(xùn)練模塊,用于將訓(xùn)練文本表示為向量空間形式的特征空間模型; 數(shù)據(jù)測試模塊,用于將測試文本表示為向量空間形式的特征空間模型;以及信息源分塊識別模塊,用于根據(jù)文本點(diǎn)在二維空間的分布,將測試文本集合劃分為模糊區(qū)和非模糊區(qū)以及對模糊區(qū)和非模糊區(qū)分別進(jìn)行分類識別。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述數(shù)據(jù)訓(xùn)練模塊包括: 訓(xùn)練文本預(yù)處理模塊,用于對訓(xùn)練文本進(jìn)行預(yù)處理; 特征抽取模塊,用于根據(jù)所述訓(xùn)練文本預(yù)處理模塊的預(yù)處理結(jié)果進(jìn)行特征抽??;以及特征選擇模塊,用于對所述特征抽取模塊所抽取的特征進(jìn)行特征選擇,從而對由字、詞和字詞串組成的特征進(jìn)行特征選擇而得到特征空間。
3.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述數(shù)據(jù)測試模塊包括: 測試文本預(yù)處理模塊,用于對測試文本進(jìn)行預(yù)處理; 特征抽取模塊,用于根據(jù)所述測試文本預(yù)處理模塊的預(yù)處理結(jié)果進(jìn)行特征抽??;以及特征選擇模塊,用于對所述特征抽取模塊所抽取的特征進(jìn)行特征選擇,從而對由字、詞和字詞串組成的特征進(jìn)行特征選擇而得到特征空間。
4.根據(jù)權(quán)利要求1所述的系 統(tǒng),其中,所述信息源分塊識別模塊包括: 區(qū)域劃分模塊,用于根據(jù)文本點(diǎn)在二維空間的分布將所述測試文本集合劃分為所述模糊區(qū)和所述非模糊區(qū); 第一分類識別模塊,用于以字或詞作為特征對所述模糊區(qū)進(jìn)行分類識別;以及第二分類識別模塊,用于以相鄰兩個(gè)字或詞組成的二元字符串作為特征對所述非模糊區(qū)進(jìn)行分類識別。
5.根據(jù)權(quán)利要求4所述的系統(tǒng),其中所述字或詞是通過分詞工具獲得的。
6.一種用于識別敏感文本信息的方法,包括: 將訓(xùn)練文本表示為向量空間形式的特征空間模型; 將測試文本表示為向量空間形式的特征空間模型; 根據(jù)文本點(diǎn)在二維空間的分布,將測試文本集合劃分為模糊區(qū)和非模糊區(qū); 以字或詞作為特征,對所述模糊區(qū)進(jìn)行分類識別;以及 以由相鄰兩個(gè)字或詞組成的二元字符串作為特征,對所述非模糊區(qū)進(jìn)行分類識別。
7.根據(jù)權(quán)利要求6所述的方法,其中將訓(xùn)練文本表示為向量空間形式的特征空間模型包括: 對訓(xùn)練文本進(jìn)行預(yù)處理; 對預(yù)處理結(jié)果進(jìn)行特征抽取; 對所抽取的特征進(jìn)行特征選擇。
8.根據(jù)權(quán)利要求6所述的方法,其中將測試文本表示為向量空間形式的特征空間模型包括: 對測試文本進(jìn)行預(yù)處理; 對預(yù)處理結(jié)果進(jìn)行特征抽??; 對所抽取的特征進(jìn)行特征選擇。
9.根據(jù)權(quán)利要求6所述的方法,其中,所述字或詞是通過分詞工具獲得的。
10.根據(jù)權(quán)利要求6所述的方法,其中,采用貝葉斯或者K-means作為分類算法來訓(xùn)練分類器,以將測試文本集合分割為所述模`糊區(qū)和所述非模糊區(qū)。
【文檔編號】G06F17/27GK103761221SQ201310749656
【公開日】2014年4月30日 申請日期:2013年12月31日 優(yōu)先權(quán)日:2013年12月31日
【發(fā)明者】何泉昊, 權(quán)圣, 陸強(qiáng) 申請人:北京京東尚科信息技術(shù)有限公司, 北京京東世紀(jì)貿(mào)易有限公司