一種網(wǎng)絡垃圾信息過濾優(yōu)化方法【專利摘要】本發(fā)明公開了一種網(wǎng)絡垃圾信息過濾優(yōu)化方法,采用用逐級的hashtable結構實現(xiàn),第一級是所有垃圾詞的第一個字,去重后依次放進一個hashtable結構中,這個是第一級hashtable結構,后面遞此數(shù)據(jù)結構。高效的層級hashtable結構,使效率達到了極致;利用通道過濾方式,把各種匹配模型有機的結合起來,使垃圾信息的過濾更具靈活性?!緦@f明】一種網(wǎng)絡垃圾信息過濾優(yōu)化方法
技術領域:
[0001]本發(fā)明本技術所屬的
技術領域:
是網(wǎng)絡spam過濾領域,涉及一種網(wǎng)絡垃圾信息過濾優(yōu)化方法?!?br>背景技術:
】[0002]今天隨互聯(lián)網(wǎng)行業(yè)蓬勃發(fā)展,隨之而來的卻是垃圾信息泛濫,包括欺詐、色情、反動、虛假廣告等信息充斥著互聯(lián)網(wǎng)的各個角落。這些信息不僅嚴重擾亂了網(wǎng)絡秩序,更使網(wǎng)民遭受重大損失,平臺運營方也面臨著各方面巨大的壓力,為此不得不投入巨大的人力、財力、物力,但往往仍然不能全面肅清垃圾信息?!?br/>發(fā)明內容】[0003]本發(fā)明的目的是提供一種網(wǎng)絡垃圾信息過濾優(yōu)化方法,把各種匹配模型有機的結合起來,使垃圾信息的過濾更具靈活性。[0004]本發(fā)明所采用的技術方案是:[0005]-種網(wǎng)絡垃圾信息過濾優(yōu)化方法,包括如下步驟:[0006]S1、外部客戶端數(shù)據(jù)進入,執(zhí)行被動防御引擎,判斷是否是垃圾信息,是,信息寫入垃圾信息庫;否,信息執(zhí)行主動防御引擎;[0007]判斷是否是垃圾信息,是,信息寫入垃圾信息庫;否,信息寫入健康信息庫;[0008]S2、執(zhí)行被動防御引擎,進行信息清洗、偏移增量比對和知識繼承跳躍比對;[0009]S3、執(zhí)行被動防御引擎,進行特殊模型1比對、特殊模型2比對至特殊模型N比對。[0010]進一步的,所述被動防御引擎包括初始化知識庫和模型維護。[0011]進一步的,所述初始化知識庫包括靜態(tài)知識庫、信息垃圾字典知識庫和圖知識庫。[0012]進一步的,所述信息垃圾字典知識庫采用逐級的hashtable結構實現(xiàn),第一級是所有垃圾詞的第一個字,去重后依次放進一個hashtable結構中,這個是第一級hashtable結構,后面遞此數(shù)據(jù)結構。[0013]進一步的,所述模型維護包括統(tǒng)一驗證規(guī)則模型維護和特殊場景模型維護。[0014]本發(fā)明的有益效果是,[0015]1、高效的層級hashtable結構,使效率達至Ij了極致;[0016]2、提出一種利用通道過濾方式,把各種匹配模型有機的結合起來,使垃圾信息的過濾更具靈活性。[0017]下面結合附圖對本發(fā)明作進一步詳細描述?!靖綀D說明】[0018]圖1為本發(fā)明的消息處理過程圖。[0019]圖2為本發(fā)明的被動垃圾防御引擎流程圖【具體實施方式】[0020]為了加深對本發(fā)明的理解,下面結合附圖和實施例對本發(fā)明作進一步詳細的說明。以下實施例僅用于更加清楚地說明本發(fā)明的技術方案,而不能以此來限制本發(fā)明的保護范圍。[0021]如圖1所示,本發(fā)明一種網(wǎng)絡垃圾信息過濾優(yōu)化方法,包括如下步驟:[0022]S1、外部客戶端數(shù)據(jù)進入,執(zhí)行被動防御引擎,判斷是否是垃圾信息,是,信息寫入垃圾信息庫;否,信息執(zhí)行主動防御引擎;[0023]判斷是否是垃圾信息,是,信息寫入垃圾信息庫;否,信息寫入健康信息庫;[0024]S2、執(zhí)行被動防御引擎,進行信息清洗、偏移增量比對和知識繼承跳躍比對;[0025]S3、執(zhí)行被動防御引擎,進行特殊模型1比對、特殊模型2比對至特殊模型N比對。[0026]進一步的,所述被動防御引擎包括初始化知識庫和模型維護。[0027]進一步的,所述初始化知識庫包括靜態(tài)知識庫、信息垃圾字典知識庫和圖知識庫。[0028]進一步的,所述信息垃圾字典知識庫采用逐級的hashtable結構實現(xiàn),第一級是所有垃圾詞的第一個字,去重后依次放進一個hashtable結構中,這個是第一級hashtable結構,后面遞此數(shù)據(jù)結構。[0029]進一步的,所述模型維護包括統(tǒng)一驗證規(guī)則模型維護和特殊場景模型維護。[0030]如圖2所示,[0031]信息垃圾字典知識庫[0032]此庫的結構用逐級的hashtable結構實現(xiàn),第一級是所有垃圾詞的第一個字,去重后依次放進一個hashtable結構中,這個是第一級hashtable結構,后面遞此數(shù)據(jù)結構;[0033]節(jié)點定義:{Type:節(jié)點類型(0=普通節(jié)點;1=葉子節(jié)點),Hash-key:-個字,Hash-value:{ValueU[0034]Weight:小于1000的正整數(shù),//路徑權重Frequency:路勁頻度,//使用頻度seraanticType:分類,//褒貶industryType:行業(yè)分類,//所屬行業(yè)vrordType:詞語類型,//如動詞、名稱、形容詞等〇〇〇〇〇〇〇Hashtable:指向一個hashtable的指針,//通過這個節(jié)點形成遞歸結構}}通過這種遞歸結構把垃圾特征詞存儲進去;優(yōu)點:這種結構有極高的檢索效率。圖知識庫節(jié)點定義:{nodeValue:-個字,Weight:小于1000的正整數(shù),//權重outRelations:出度,inRelations:入度,[0035]semanticType:分類,//褒貶industryType:行業(yè)分類,//所屬行業(yè)wordType:詞語類型,//如動詞、名稱、形容詞等otherProperty:其他屬性在自學習中自動增加,Relationship:出度指針集合[{RelationLevel:關系級別,pointer:出度指針,},{OOOOOO}]}[0036]靜態(tài)知識庫:[0037]主體結構:[0042]I、通過常用垃圾信息知識庫,結合各種模式匹配篩選過濾垃圾內容,進行被動垃圾防御;[0043]2、通過機器學習的手段,產生垃圾信息的相識度模型,更精確的進行垃圾信息過濾;[0044]3、通過大規(guī)模的數(shù)據(jù)挖掘,與時倶進豐富知識庫,同時通過知識庫進一步的影響機器學習,形成一個開放的自學習閉環(huán)。[0045]要說明的是,以上所述實施例是對本發(fā)明技術方案的說明而非限制,所屬
技術領域:
普通技術人員的等同替換或者根據(jù)現(xiàn)有技術而做的其他修改,只要沒超出本發(fā)明技術方案的思路和范圍,均應包含在本發(fā)明所要求的權利范圍之內。【主權項】1.一種網(wǎng)絡垃圾信息過濾優(yōu)化方法,其特征在于:包括如下步驟:51、外部客戶端數(shù)據(jù)進入,執(zhí)行被動防御引擎,判斷是否是垃圾信息,是,信息寫入垃圾信息庫;否,信息執(zhí)行主動防御引擎;判斷是否是垃圾信息,是,信息寫入垃圾信息庫;否,信息寫入健康信息庫;52、執(zhí)行被動防御引擎,進行信息清洗、偏移增量比對和知識繼承跳躍比對;53、執(zhí)行被動防御引擎,進行特殊模型1比對、特殊模型2比對至特殊模型N比對。2.根據(jù)權利要求1所述的一種網(wǎng)絡垃圾信息過濾優(yōu)化方法,其特征在于:所述被動防御引擎包括初始化知識庫和模型維護。3.根據(jù)權利要求1所述的一種網(wǎng)絡垃圾信息過濾優(yōu)化方法,其特征在于:所述初始化知識庫包括靜態(tài)知識庫、信息垃圾字典知識庫和圖知識庫。4.根據(jù)權利要求3所述的一種網(wǎng)絡垃圾信息過濾優(yōu)化方法,其特征在于:所述信息垃圾字典知識庫采用逐級的hashtable結構實現(xiàn),第一級是所有垃圾詞的第一個字,去重后依次放進一個hashtable結構中,這個是第一級hashtable結構,后面遞此數(shù)據(jù)結構。5.根據(jù)權利要求3所述的一種網(wǎng)絡垃圾信息過濾優(yōu)化方法,其特征在于:所述模型維護包括統(tǒng)一驗證規(guī)則模型維護和特殊場景模型維護。【文檔編號】G06F17/30GK105938483SQ201610227843【公開日】2016年9月14日【申請日】2016年4月14日【發(fā)明人】陳勇,司良省,李志魁【申請人】江蘇馬上游科技股份有限公司