專利名稱:對通訊系統(tǒng)中的通訊信息進(jìn)行過濾的方法和過濾系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通訊信息處理技術(shù),尤其涉及對通訊系統(tǒng)中的通訊信息進(jìn)行過濾的方法和過濾系統(tǒng)。
背景技術(shù):
近年來,通訊技術(shù)的有了飛速的發(fā)展,各種通訊系統(tǒng)的發(fā)明使用大大方便了人們的相互交流。例如有線、無線電話系統(tǒng),互聯(lián)網(wǎng)系統(tǒng)等可以非常方便地收發(fā)通訊信息。
但是,在大量的通訊信息中,其中有相當(dāng)一部分為垃圾信息。例如互聯(lián)網(wǎng)系統(tǒng)中的網(wǎng)上聊天室是網(wǎng)民在互聯(lián)網(wǎng)上聚集在一起聊天的虛擬場所,在網(wǎng)上聊天室中,往往充斥著許多聊天室廣告,所述聊天室廣告為廣告發(fā)送者作為聊天用戶在網(wǎng)上聊天室里通過發(fā)送帶有廣告信息的聊天信息來吸引聊天用戶訪問,聊天室廣告大多帶有色情和欺騙性質(zhì),大部分屬于垃圾信息,并且很多是采用廣告發(fā)送程序來發(fā)送,導(dǎo)致聊天室里廣告泛濫,影響正常的聊天秩序。針對這種情況,目前出現(xiàn)了針對聊天室廣告的過濾技術(shù),目前采用比較多的是單純的關(guān)鍵字過濾技術(shù),即通過收集在廣告中經(jīng)常出現(xiàn)的關(guān)鍵詞語,針對每一句聊天內(nèi)容使用關(guān)鍵詞語來進(jìn)行匹配,從而判斷是否有這些關(guān)鍵詞語在聊天內(nèi)容中,如果有,就過濾掉這句聊天內(nèi)容。
現(xiàn)有過濾技術(shù)的缺陷在于簡單的關(guān)鍵字過濾比較容易被繞過,比如一些廣告中有“視頻聊天”的詞,如果把“視頻聊天”作為過濾關(guān)鍵字進(jìn)行過濾,則聊天用戶希望邀請其他人進(jìn)行正常視頻聊天的信息就可能被過濾掉,因為這個信息中可能包括“視頻聊天”這個詞;然而,真正的廣告發(fā)送者可能把這個詞改變成“視屏聊天”,從而避免被過濾。因此,現(xiàn)有的單純的關(guān)鍵字過濾技術(shù)存在著較高的漏判率和誤判率。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種對通訊系統(tǒng)中的通訊信息進(jìn)行過濾的方法,可以降低對過濾信息的漏判率和誤判率。
對應(yīng)于本發(fā)明所提供的一種對通訊系統(tǒng)中的通訊信息進(jìn)行過濾的方法本發(fā)明還提供一種對通訊信息進(jìn)行過濾的過濾系統(tǒng),以降低對過濾信息的漏判率和誤判率。
為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明的主要技術(shù)方案為一種對通訊系統(tǒng)中的通訊信息進(jìn)行過濾的方法,該方法包括預(yù)設(shè)閥值、關(guān)鍵字、正則表達(dá)式,以及關(guān)鍵字和正則表達(dá)式對應(yīng)的分值;利用預(yù)設(shè)的關(guān)鍵字匹配當(dāng)前通訊信息的內(nèi)容,如果通訊信息中包括所述關(guān)鍵字則獲取該關(guān)鍵字對應(yīng)的分值;利用預(yù)設(shè)的正則表達(dá)式匹配所述通訊信息的內(nèi)容,如果通訊信息中的內(nèi)容與預(yù)設(shè)的正則表達(dá)式匹配,則獲取該正則表達(dá)式對應(yīng)的分值;將上述獲取的分值相加獲得總分值,比較該總分值和所述的閥值,在總分值大于或等于所述閥值時,過濾所述通訊信息。
優(yōu)選地,所述預(yù)設(shè)的關(guān)鍵字為一個或一個以上,每個關(guān)鍵字都設(shè)有對應(yīng)的分值,不同關(guān)鍵字的分值可以相同或不同。
優(yōu)選地,所述正則表達(dá)式為一個或一個以上,每個正則表達(dá)式都設(shè)有對應(yīng)的分值,不同正則表達(dá)式的分值可以相同或不同。
優(yōu)選地,所述分值設(shè)置為正數(shù)或負(fù)數(shù)。
優(yōu)選地,進(jìn)一步包括為不同長度的通訊信息對應(yīng)設(shè)置不同的閥值,并對當(dāng)前通訊信息的長度進(jìn)行判斷,獲取該長度對應(yīng)的閥值,利用該閥值與所述總分值進(jìn)行比較。
優(yōu)選地,所述通訊系統(tǒng)為網(wǎng)上聊天室系統(tǒng),所述通訊信息為網(wǎng)上聊天室中的聊天信息。
一種對通訊信息進(jìn)行過濾的過濾系統(tǒng),該系統(tǒng)包括后臺管理模塊,用于提供輸入設(shè)置接口,接受閥值、關(guān)鍵字、正則表達(dá)式,以及關(guān)鍵字和正則表達(dá)式對應(yīng)分值的設(shè)置指令;數(shù)據(jù)庫,用于存儲后臺管理模塊所接受的閥值、關(guān)鍵字、正則表達(dá)式,以及關(guān)鍵字和正則表達(dá)式對應(yīng)的分值;前臺過濾模塊,具體包括匹配模塊,用于讀取所述數(shù)據(jù)庫的內(nèi)容,判斷當(dāng)前通訊信息中是否有與所述關(guān)鍵字和正則表達(dá)式匹配的內(nèi)容,有則獲取所匹配的關(guān)鍵字和或正則表達(dá)式對應(yīng)的分值;相加模塊,用于將所述匹配模塊獲取的所有分值相加得到總分值;比較模塊,用于比較所述總分值和所述閥值,在總分值大于或等于所述閥值時觸發(fā)過濾模塊過濾所述通訊信息;過濾模塊,用于過濾通訊信息。
優(yōu)選的,不同長度的通訊信息都各自具有對應(yīng)的閥值,所述前臺過濾模塊進(jìn)一步包括判斷模塊,用于對當(dāng)前通訊信息的長度進(jìn)行判斷,獲取該長度對應(yīng)的閥值,觸發(fā)所述比較模塊利用該閥值與所述總分值進(jìn)行比較。
優(yōu)選的,所述通訊信息為網(wǎng)上聊天室系統(tǒng)中的聊天信息。
優(yōu)選的,該過濾系統(tǒng)設(shè)置在通訊系統(tǒng)的發(fā)送端,用于對發(fā)送的通訊信息進(jìn)行過濾;或者,該過濾系統(tǒng)設(shè)置在通訊系統(tǒng)的接收端,用于對接收的通訊信息進(jìn)行過濾;或者,該過濾系統(tǒng)設(shè)置在通訊系統(tǒng)的信息中轉(zhuǎn)端,用于對中轉(zhuǎn)的通訊信息進(jìn)行過濾。
本發(fā)明使用關(guān)鍵字和正則表達(dá)式權(quán)重的分值過濾方式,對總分值超過預(yù)定閥值的通訊信息進(jìn)行過濾,因此能夠很好地提高廣告過濾的準(zhǔn)確性,降低對過濾信息的誤判率和漏判率。
本發(fā)明所述的過濾方法和系統(tǒng)不再單純依靠單個的關(guān)鍵字,而是綜合了垃圾信息(例如廣告)中可能出現(xiàn)的不同的關(guān)鍵字和能夠提供垃圾信息特征判斷的正則表達(dá)式的判斷,從而使得垃圾信息的發(fā)送者不能簡單地饒過(除非把內(nèi)容很大程度地改變)過濾條件;同時,由于使用正則表達(dá)式幫助把垃圾信息中必須出現(xiàn)的聯(lián)系特征(例如Web網(wǎng)址)辨認(rèn)出來,大大提高了判斷垃圾信息的準(zhǔn)確性,從而減少了誤判率和漏判率,可以高效地過濾掉垃圾信息,使得通訊系統(tǒng)的用戶減少遭受垃圾信息的騷擾。
由于本發(fā)明還可以根據(jù)內(nèi)容的好壞將過濾條件例如關(guān)鍵字或正則表達(dá)式的分值設(shè)置為正值或負(fù)值,則可以減少對正常通訊信息的過濾概率,進(jìn)一步減少了誤判率。
圖1為本發(fā)明所述對通訊系統(tǒng)中的通訊信息進(jìn)行過濾的方法的流程圖;圖2為本發(fā)明所述對通訊信息進(jìn)行過濾的過濾系統(tǒng)的結(jié)構(gòu)圖。
具體實(shí)施例方式
下面通過具體實(shí)施例和附圖對本發(fā)明做進(jìn)一步詳細(xì)說明。
本發(fā)明可以適用于所有通訊系統(tǒng)中的通訊信息的過濾,以下實(shí)施例以互聯(lián)網(wǎng)的網(wǎng)上聊天室系統(tǒng)為例對本發(fā)明進(jìn)行說明,在該實(shí)施例中,所述通訊信息為網(wǎng)上聊天室中的聊天信息,需要過濾的垃圾信息為聊天室廣告信息。其他通訊系統(tǒng),例如即時通訊系統(tǒng),無線短信系統(tǒng)等等,其實(shí)現(xiàn)方法和系統(tǒng)與以下實(shí)施例相同,本文不再贅述。
本發(fā)明的核心技術(shù)方案為對于聊天室廣告的判斷,通過建立一套基于分值系統(tǒng)的過濾模型來進(jìn)行。這個模型包括兩個方面,一個方面是給相關(guān)廣告中出現(xiàn)較多的關(guān)鍵詞賦予分值;另一方面是給用于辨認(rèn)廣告特征的正則表達(dá)式賦予特定分值。
圖1為本發(fā)明所述對通訊系統(tǒng)中的通訊信息進(jìn)行過濾的方法的流程圖。
參見圖1,該流程包括步驟101、預(yù)設(shè)閥值、關(guān)鍵字、正則表達(dá)式,以及關(guān)鍵字和正則表達(dá)式對應(yīng)的分值。
關(guān)鍵字的作用是用戶判斷聊天內(nèi)容是否包含廣告的特征詞語。不同的關(guān)鍵字會有不同的分值,用于標(biāo)示該關(guān)鍵字在一句聊天內(nèi)容里面被用于廣告的可能性。正則表達(dá)式的作用是從聊天內(nèi)容里面辨別一些關(guān)鍵的特征。比如很多廣告里面都會給出連接網(wǎng)址,系統(tǒng)就可以采用特定的正則表達(dá)式來判斷聊天內(nèi)容里面是否有連接網(wǎng)址,如果有,就對這句聊天內(nèi)容加上相關(guān)正則表達(dá)式對應(yīng)的分?jǐn)?shù)。
所設(shè)置的關(guān)鍵字為一個或一個以上,每個關(guān)鍵字都可預(yù)設(shè)有對應(yīng)的分值,不同關(guān)鍵字的分值可以相同或不同。所設(shè)置的正則表達(dá)式為一個或一個以上,每個正則表達(dá)式都可預(yù)設(shè)有對應(yīng)的分值,不同正則表達(dá)式的分值可以相同或不同。所述閥值可以固定設(shè)置一個,也可以為不同長度的通訊信息對應(yīng)設(shè)置不同的閥值。
步驟102、接收客戶端當(dāng)前的聊天信息。
在本實(shí)施例的網(wǎng)上聊天室系統(tǒng)中,可以在網(wǎng)上聊天室系統(tǒng)的中轉(zhuǎn)服務(wù)器側(cè)采用本發(fā)明的方法對中轉(zhuǎn)的每條聊天信息進(jìn)行過濾;也可以在發(fā)送客戶端上執(zhí)行本發(fā)明的方法,用于對發(fā)送的聊天信息進(jìn)行過濾;或者,也可以在接收客戶端上執(zhí)行本發(fā)明的方法,用于對接收的聊天信息進(jìn)行過濾。不論在發(fā)送端、中轉(zhuǎn)端、或接收端,其過濾的效果相同,都可以達(dá)到本發(fā)明的發(fā)明目的。
步驟103、利用關(guān)鍵字匹配當(dāng)前通訊信息的內(nèi)容,如果通訊信息中包括所述關(guān)鍵字則獲取該關(guān)鍵字對應(yīng)的分值,如果通訊信息中包括一個以上的所述關(guān)鍵字則獲取所有關(guān)鍵字對應(yīng)的分值。
步驟104、利用預(yù)設(shè)的正則表達(dá)式匹配所述通訊信息的內(nèi)容,如果通訊信息中的內(nèi)容可以匹配所述的正則表達(dá)式,則獲取該正則表達(dá)式對應(yīng)的分值,如果可以匹配一個以上所述的正則表達(dá)式,則獲取所有正則表達(dá)式對應(yīng)的分值。
步驟105、將上述獲取的所有關(guān)鍵字對應(yīng)分值和正則表達(dá)式對應(yīng)分值相加獲得總分值。
步驟106、獲取預(yù)設(shè)的閥值。如果設(shè)置有不同的閥值,則對當(dāng)前通訊信息的長度進(jìn)行判斷,獲取該長度對應(yīng)的閥值。
步驟107、利用所獲取的閥值與所述總分值進(jìn)行比較,判斷所述總分值是否大于或等于所述的閥值,如果是,則判定該通訊信息為廣告(垃圾信息),執(zhí)行步驟108;否則,執(zhí)行步驟109。
步驟108、過濾所述的通訊信息,接著可以結(jié)束流程,也可以返回步驟102對下一條通訊信息進(jìn)行處理。
步驟109、發(fā)送聊天信息給聊天室的其他用戶,接著可以結(jié)束流程,也可以返回步驟102對下一條通訊信息進(jìn)行處理。
另外,在設(shè)置分值時,所設(shè)的分值可以是正分(表示壞的內(nèi)容)或者是負(fù)分(表示好的內(nèi)容),例如有些正常的通訊信息中,大部分為正常內(nèi)容(好內(nèi)容),只有個別內(nèi)容在形式上與垃圾內(nèi)容(壞內(nèi)容)相同,如果不設(shè)正、負(fù)分,則這些正常的通訊信息很可能被過濾掉,因此這樣可以更好的區(qū)分垃圾信息和非垃圾信息,降低過濾通訊信息的誤判率。在有了這些分值之后,就可以對聊天室里每一句聊天內(nèi)容進(jìn)行打分。一句聊天內(nèi)容里如果出現(xiàn)一個關(guān)鍵詞或者符合某個正則表達(dá)式,就會給這句聊天加上相對應(yīng)的分值。最后將這句聊天里出現(xiàn)的關(guān)鍵詞和正則表達(dá)式的分值累加,從而得出這句聊天內(nèi)容的一個總分值。
圖2為本發(fā)明所述對通訊信息進(jìn)行過濾的過濾系統(tǒng)結(jié)構(gòu)圖。參見圖2,該系統(tǒng)包括后臺管理模塊21,用于提供輸入設(shè)置接口,接受閥值、關(guān)鍵字、正則表達(dá)式,以及關(guān)鍵字和正則表達(dá)式對應(yīng)分值的設(shè)置指令。
數(shù)據(jù)庫22,用于存儲后臺管理模塊21所接受的閥值、關(guān)鍵字、正則表達(dá)式,以及關(guān)鍵字和正則表達(dá)式對應(yīng)的分值。
前臺過濾模塊23,與通訊系統(tǒng)的通訊模塊(圖2中未示出)連接,對通訊系統(tǒng)的每一條通訊信息的內(nèi)容進(jìn)行分析判斷。該前臺過濾模塊23具體包括匹配模塊231,用于讀取所述數(shù)據(jù)庫22的內(nèi)容,判斷當(dāng)前通訊信息中是否有與所述關(guān)鍵字和正則表達(dá)式匹配的內(nèi)容,有則獲取所匹配的關(guān)鍵字和或正則表達(dá)式對應(yīng)的分值;相加模塊232,用于將匹配模塊231獲取的所有分值相加得到總分值;比較模塊233,用于比較所述總分值和所述閥值,在總分值大于或等于所述閥值時觸發(fā)過濾模塊234過濾所述通訊信息;過濾模塊234,用于過濾通訊信息。
由于不同長度的通訊信息都可以各自具有對應(yīng)的閥值,因此所述前臺過濾模塊23還可以進(jìn)一步包括判斷模塊235,用于對當(dāng)前通訊信息的長度進(jìn)行判斷,獲取該長度對應(yīng)的閥值,觸發(fā)比較模塊利用該閥值與所述總分值進(jìn)行比較。
上述過濾系統(tǒng)可以設(shè)置在通訊系統(tǒng)的發(fā)送端,用于對發(fā)送的通訊信息進(jìn)行過濾;或者,該過濾系統(tǒng)設(shè)置在通訊系統(tǒng)的接收端,用于對接收的通訊信息進(jìn)行過濾;或者,該過濾系統(tǒng)設(shè)置在通訊系統(tǒng)的信息中轉(zhuǎn)端(例如某些即時通訊系統(tǒng)的中轉(zhuǎn)服務(wù)器,或者網(wǎng)上聊天系統(tǒng)的中轉(zhuǎn)服務(wù)器),用于對中轉(zhuǎn)的通訊信息進(jìn)行過濾。
上述實(shí)施例所述的過濾系統(tǒng)所設(shè)置的通訊系統(tǒng)可以為網(wǎng)上聊天室系統(tǒng),該過濾系統(tǒng)用于對網(wǎng)上聊天室系統(tǒng)中的聊天信息進(jìn)行過濾。當(dāng)然,該過濾系統(tǒng)還可以設(shè)置在其它的通訊系統(tǒng)中,例如即時通訊系統(tǒng),無線短信系統(tǒng)等等,其實(shí)現(xiàn)方式與上述實(shí)施例相同,本文不再贅述。
以上所述,僅為本發(fā)明較佳的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種對通訊系統(tǒng)中的通訊信息進(jìn)行過濾的方法,其特征在于,該方法包括預(yù)設(shè)閥值、關(guān)鍵字、正則表達(dá)式,以及關(guān)鍵字和正則表達(dá)式對應(yīng)的分值;利用預(yù)設(shè)的關(guān)鍵字匹配當(dāng)前通訊信息的內(nèi)容,如果通訊信息中包括所述關(guān)鍵字則獲取該關(guān)鍵字對應(yīng)的分值;利用預(yù)設(shè)的正則表達(dá)式匹配所述通訊信息的內(nèi)容,如果通訊信息中的內(nèi)容與預(yù)設(shè)的正則表達(dá)式匹配,則獲取該正則表達(dá)式對應(yīng)的分值;將上述獲取的分值相加獲得總分值,比較該總分值和所述的閥值,在總分值大于或等于所述閥值時,過濾所述通訊信息。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)設(shè)的關(guān)鍵字為一個或一個以上,每個關(guān)鍵字都設(shè)有對應(yīng)的分值,不同關(guān)鍵字的分值可以相同或不同。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述正則表達(dá)式為一個或一個以上,每個正則表達(dá)式都設(shè)有對應(yīng)的分值,不同正則表達(dá)式的分值可以相同或不同。
4.根據(jù)權(quán)利要求1、2、或3所述的方法,其特征在于,所述分值設(shè)置為正數(shù)或負(fù)數(shù)。
5.根據(jù)權(quán)利要求1、2、或3所述的方法,其特征在于,進(jìn)一步包括為不同長度的通訊信息對應(yīng)設(shè)置不同的閥值,并對當(dāng)前通訊信息的長度進(jìn)行判斷,獲取該長度對應(yīng)的閥值,利用該閥值與所述總分值進(jìn)行比較。
6.根據(jù)權(quán)利要求1、2、或3所述的方法,其特征在于,所述通訊系統(tǒng)為網(wǎng)上聊天室系統(tǒng),所述通訊信息為網(wǎng)上聊天室中的聊天信息。
7.一種對通訊信息進(jìn)行過濾的過濾系統(tǒng),其特征在于,該系統(tǒng)包括后臺管理模塊,用于提供輸入設(shè)置接口,接受閥值、關(guān)鍵字、正則表達(dá)式,以及關(guān)鍵字和正則表達(dá)式對應(yīng)分值的設(shè)置指令;數(shù)據(jù)庫,用于存儲后臺管理模塊所接受的閥值、關(guān)鍵字、正則表達(dá)式,以及關(guān)鍵字和正則表達(dá)式對應(yīng)的分值;前臺過濾模塊,具體包括匹配模塊,用于讀取所述數(shù)據(jù)庫的內(nèi)容,判斷當(dāng)前通訊信息中是否有與所述關(guān)鍵字和正則表達(dá)式匹配的內(nèi)容,有則獲取所匹配的關(guān)鍵字和或正則表達(dá)式對應(yīng)的分值;相加模塊,用于將所述匹配模塊獲取的所有分值相加得到總分值;比較模塊,用于比較所述總分值和所述閥值,在總分值大于或等于所述閥值時觸發(fā)過濾模塊過濾所述通訊信息;過濾模塊,用于過濾通訊信息。
8.根據(jù)權(quán)利要求7所述的過濾系統(tǒng),其特征在于,不同長度的通訊信息都各自具有對應(yīng)的閥值,所述前臺過濾模塊進(jìn)一步包括判斷模塊,用于對當(dāng)前通訊信息的長度進(jìn)行判斷,獲取該長度對應(yīng)的閥值,觸發(fā)所述比較模塊利用該閥值與所述總分值進(jìn)行比較。
9.根據(jù)權(quán)利要求7所述的過濾系統(tǒng),其特征在于,所述通訊信息為網(wǎng)上聊天室系統(tǒng)中的聊天信息。
10.根據(jù)權(quán)利要求7所述的過濾系統(tǒng),其特征在于,該過濾系統(tǒng)設(shè)置在通訊系統(tǒng)的發(fā)送端,用于對發(fā)送的通訊信息進(jìn)行過濾;或者,該過濾系統(tǒng)設(shè)置在通訊系統(tǒng)的接收端,用于對接收的通訊信息進(jìn)行過濾;或者,該過濾系統(tǒng)設(shè)置在通訊系統(tǒng)的信息中轉(zhuǎn)端,用于對中轉(zhuǎn)的通訊信息進(jìn)行過濾。
全文摘要
本發(fā)明公開了一種對通訊系統(tǒng)中的通訊信息進(jìn)行過濾的方法和過濾系統(tǒng),系統(tǒng)包括后臺管理模塊,用于提供輸入設(shè)置接口,接受設(shè)置指令;數(shù)據(jù)庫,用于存儲設(shè)置信息;以及前臺過濾模塊,用于具體的過濾操作。所述方法包括預(yù)設(shè)閥值、關(guān)鍵字、正則表達(dá)式,以及關(guān)鍵字和正則表達(dá)式對應(yīng)的分值;利用預(yù)設(shè)的關(guān)鍵字和正則表達(dá)式匹配當(dāng)前通訊信息的內(nèi)容,如果通訊信息與預(yù)設(shè)的關(guān)鍵字和正則表達(dá)式匹配,則獲取與該關(guān)鍵字和正則表達(dá)式對應(yīng)的分值;將獲取的分值相加獲得總分值,比較該總分值和所述的閥值,在總分值大于或等于所述閥值時,過濾所述通訊信息。利用本發(fā)明,可以降低對過濾信息的漏判率和誤判率。
文檔編號H04M1/663GK101075980SQ200610099500
公開日2007年11月21日 申請日期2006年7月26日 優(yōu)先權(quán)日2006年7月26日
發(fā)明者王欣磊 申請人:騰訊科技(深圳)有限公司