本發(fā)明涉及通信領(lǐng)域,尤其是涉及一種信息過濾策略生成方法及裝置。
背景技術(shù):
隨著移動通信技術(shù)的飛速發(fā)展,信息業(yè)務(wù)迅速發(fā)展的同時也帶來了一些信息安全方面的問題,例如不法分子制作發(fā)送廣告,虛假信息,散步謠言,傳播反動及色情消息等垃圾信息,這些垃圾信息的泛濫會加重網(wǎng)絡(luò)擁塞,占用網(wǎng)絡(luò)資源,給運(yùn)營商和手機(jī)用戶造成很多不必要的損失。
對于運(yùn)營商而言,研究垃圾信息過濾技術(shù)并構(gòu)建信息攔截平臺,有助于國家安全和社會穩(wěn)定,保護(hù)人民財產(chǎn)和正常生活,具有重要的社會價值。面對豐富的海量信息,怎樣設(shè)計垃圾信息攔截方案,已經(jīng)成為了一個極其具有挑戰(zhàn)性的研究方向。
目前,針對垃圾信息通常采用的主要過濾方式包括:
(1)基于關(guān)鍵詞策略的過濾方式
經(jīng)過對垃圾信息樣本的分析,抽取有代表性的關(guān)鍵詞構(gòu)建過濾規(guī)則,通過關(guān)鍵詞表對未知待處理信息進(jìn)行過濾。這種過濾方式通常是由人工進(jìn)行策略構(gòu)建,能夠覆蓋幾乎所有包含關(guān)鍵詞的信息,但是其存在漏判、誤判的情況較多,而且需要從規(guī)則構(gòu)建本身進(jìn)行優(yōu)化或與其他手段相結(jié)合。
(2)基于發(fā)送行為策略的過濾方式
經(jīng)過對用戶發(fā)送數(shù)據(jù)的研究和分析,設(shè)定固定時間窗口內(nèi)信息發(fā)送的界限值,對疑似垃圾信息發(fā)送用戶進(jìn)行分析;或者對發(fā)送用戶與接收用戶之間的社會網(wǎng)絡(luò)特性進(jìn)行分析,過濾出疑似垃圾信息發(fā)送用戶做進(jìn)一步判定。這種過濾方式能對未知新信息或者關(guān)鍵詞過濾漏判的信息進(jìn)行過濾,但目前垃圾信息的發(fā)送者能夠采用多號碼、偽號碼等方式繞過基于發(fā)送行為的過濾規(guī)則。
(3)基于文本相似度的過濾方式
經(jīng)過對信息內(nèi)容的分析,對垃圾信息進(jìn)行模板構(gòu)建,然后使用模板對未知信息進(jìn)行過濾。這種過濾方式通過信息樣本構(gòu)建模板進(jìn)行比對,通過內(nèi)容進(jìn)行比對,對于已知類別的垃圾信息具有較好的過濾效果,該方法具有較高的準(zhǔn)確度。但是對于未知新信息的發(fā)現(xiàn)能力較差,例如由于微博、短信文本屬于短文本,信息量較少,如果信息內(nèi)容出現(xiàn)一些語義變化,則會對信息的過濾產(chǎn)生影響。
(4)基于統(tǒng)計算法的過濾方式
考慮并分析信息的文本分詞特征,利用Bayes(貝葉斯)或SVM(Support Vector Machine,支持向量機(jī))等機(jī)器學(xué)習(xí)算法實現(xiàn)對垃圾信息內(nèi)容的學(xué)習(xí)和實時分類,并能夠設(shè)計基于反饋的修正自學(xué)習(xí)機(jī)制,使分類器具備增量式學(xué)習(xí)能力。與傳統(tǒng)算法相比,這種過濾方式能夠根據(jù)信息文本的統(tǒng)計特征,如字符數(shù)、信息長度等特征進(jìn)行學(xué)習(xí)建立判定模型,在過濾效率和準(zhǔn)確率方面均有較大提升,缺點是需要隨著訓(xùn)練數(shù)據(jù)的更新而不斷的對分類模型進(jìn)行更新,隨著數(shù)據(jù)量的不斷增加,模型學(xué)習(xí)成本變得越來越巨大,對于海量的信息文本數(shù)據(jù)來說,其學(xué)習(xí)成本是非常高昂的。由于短信息、微博屬于短文本,如何設(shè)計并學(xué)習(xí)適于短文本過濾的統(tǒng)計模型目前還是一個比較困難的問題。
通信運(yùn)營商針對現(xiàn)網(wǎng)系統(tǒng)中的垃圾信息主要采用人工方式進(jìn)行過濾,對現(xiàn)有的垃圾信息等短文本(例如,垃圾短信、垃圾彩信、微博、OTT等)進(jìn)行信息分析與處置,抽取過濾關(guān)鍵詞通過邏輯組合構(gòu)成過濾策略,然后對未知新信息進(jìn)行過濾。請參考表1所示:
表1
可以看出,過濾策略的抽取需要建立在大量的人工勞動基礎(chǔ)上,然而人工 抽取策略的方式效率低、成本高、過濾效果也存在較大的改進(jìn)空間。為了解決人工抽取過濾策略存在的問題,工業(yè)界也在探索研發(fā)垃圾信息過濾策略的自動提取方法。
技術(shù)實現(xiàn)要素:
本發(fā)明的主要目的在于提供一種可以自動生成垃圾信息過濾策略的方案,從而可以解決現(xiàn)有垃圾信息過濾策略提取方式提取過低效率,提取成本過高,而且過濾垃圾信息效果較差的缺陷。
為了達(dá)到上述目的,本發(fā)明提供了一種信息過濾策略生成方法,包括:從預(yù)先選取的樣本信息中獲取第一關(guān)鍵詞;計算所述第一關(guān)鍵詞的質(zhì)量得分;根據(jù)所述第一關(guān)鍵詞的質(zhì)量得分對所述第一關(guān)鍵詞進(jìn)行排序和組合,生成信息過濾策略。
優(yōu)選地,從預(yù)先選取的樣本信息中獲取第一關(guān)鍵詞包括:對于所述樣本信息進(jìn)行內(nèi)容預(yù)處理,得到文本信息;根據(jù)預(yù)置的分詞方法對文本信息進(jìn)行分詞操作,得到第二關(guān)鍵詞;對所述第二關(guān)鍵詞中存在包含關(guān)系的關(guān)鍵詞進(jìn)行合并,得到所述第一關(guān)鍵詞。
優(yōu)選地,所述內(nèi)容預(yù)處理包括:內(nèi)容格式轉(zhuǎn)換和無效內(nèi)容刪除。
優(yōu)選地,所述內(nèi)容格式轉(zhuǎn)換包括:半角字符和全角字符之間的相互轉(zhuǎn)換、繁體字和簡體字之間的相互轉(zhuǎn)換、大寫英文字母和小寫英文字母之間的相互轉(zhuǎn)換,以及將特殊字符串轉(zhuǎn)換預(yù)定字符;所述無效內(nèi)容刪除包括:刪除特殊符號。
優(yōu)選地,根據(jù)所述第一關(guān)鍵詞的質(zhì)量得分對所述第一關(guān)鍵詞進(jìn)行排序和組合,生成信息過濾策略,包括:按照所述第一關(guān)鍵詞的質(zhì)量得分,從高到低對所述第一關(guān)鍵詞進(jìn)行排序;將所有第一關(guān)鍵詞中相關(guān)度大于第一預(yù)定相關(guān)度的第一關(guān)鍵詞劃分為同一組,并根據(jù)質(zhì)量得分從高到低進(jìn)行排序;對于每組第一關(guān)鍵詞中相關(guān)度大于第二預(yù)定相關(guān)度的第一關(guān)鍵詞劃分為同一組,并根據(jù)質(zhì)量得分從高到低進(jìn)行排序;執(zhí)行預(yù)定次數(shù)的所述分組操作,匯總多組所述第一關(guān)鍵詞,得到所述信息過濾策略。
本發(fā)明還提供了一種信息過濾策略生成裝置,包括:獲取模塊,用于從預(yù)先選取的樣本信息中獲取第一關(guān)鍵詞;計算模塊,用于計算所述第一關(guān)鍵詞的 質(zhì)量得分;生成模塊,用于根據(jù)所述第一關(guān)鍵詞的質(zhì)量得分對所述第一關(guān)鍵詞進(jìn)行排序和組合,生成信息過濾策略。
優(yōu)選地,所述獲取模塊包括:預(yù)處理單元,用于對于所述樣本信息進(jìn)行內(nèi)容預(yù)處理,得到文本信息;分詞單元,用于根據(jù)預(yù)置的分詞方法對文本信息進(jìn)行分詞操作,得到第二關(guān)鍵詞;合并單元,用于對所述第二關(guān)鍵詞中存在包含關(guān)系的關(guān)鍵詞進(jìn)行合并,得到所述第一關(guān)鍵詞。
優(yōu)選地,所述內(nèi)容預(yù)處理包括:內(nèi)容格式轉(zhuǎn)換和無效內(nèi)容刪除。
優(yōu)選地,所述內(nèi)容格式轉(zhuǎn)換包括:半角字符和全角字符之間的相互轉(zhuǎn)換、繁體字和簡體字之間的相互轉(zhuǎn)換、大寫英文字母和小寫英文字母之間的相互轉(zhuǎn)換,以及將特殊字符串轉(zhuǎn)換成預(yù)定字符;所述無效內(nèi)容刪除包括:刪除特殊符號。
優(yōu)選地,所述生成模塊包括:第一處理單元,用于按照所述第一關(guān)鍵詞的質(zhì)量得分,從高到低對所述第一關(guān)鍵詞進(jìn)行排序;第二處理單元,用于將所有第一關(guān)鍵詞中相關(guān)度大于第一預(yù)定相關(guān)度的第一關(guān)鍵詞劃分為同一組,并根據(jù)質(zhì)量得分從高到低進(jìn)行排序;第三處理單元,用于對于每組第一關(guān)鍵詞中相關(guān)度大于第二預(yù)定相關(guān)度的第一關(guān)鍵詞劃分為同一組,并根據(jù)質(zhì)量得分從高到低進(jìn)行排序;第四處理單元,用于執(zhí)行預(yù)定次數(shù)的所述分組操作,匯總多組所述第一關(guān)鍵詞,得到所述信息過濾策略。
與現(xiàn)有技術(shù)相比,本發(fā)明所述的信息過濾策略生成方法及裝置,能夠自動對樣本信息進(jìn)行關(guān)鍵詞的提取和合并操作,并計算得到的關(guān)鍵詞的質(zhì)量得分,從而可以根據(jù)質(zhì)量得分的高低對關(guān)鍵詞進(jìn)行排序,根據(jù)關(guān)鍵詞之間的相關(guān)度對關(guān)鍵詞進(jìn)行分組,最終匯總得到關(guān)鍵詞覆蓋率較高、過濾準(zhǔn)確率較高的過濾策略,可以大大提高垃圾信息過濾策略生成效率,減小對人工操作的依賴性,并且可以節(jié)省人力成本,過濾效果更好。
附圖說明
圖1是根據(jù)本發(fā)明實施例的信息過濾策略生成方法流程圖;
圖2是根據(jù)本發(fā)明實施例的關(guān)鍵詞得分計算方法測評結(jié)果數(shù)據(jù)示意圖;
圖3是根據(jù)本發(fā)明實施例的過濾策略自動生成流程示意圖;
圖4是根據(jù)本發(fā)明實施例的過濾策略的優(yōu)化流程示意圖;
圖5是根據(jù)本發(fā)明實施例的信息過濾策略生成裝置的結(jié)構(gòu)框圖;以及
圖6是根據(jù)本發(fā)明實施例的優(yōu)選信息過濾策略生成裝置的結(jié)構(gòu)框圖;以及
圖7是根據(jù)本發(fā)明實施例的包括信息過濾策略生成裝置的整體實現(xiàn)架構(gòu)示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明的一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域的普通技術(shù)人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
針對現(xiàn)有技術(shù)存在的技術(shù)問題,本發(fā)明主要的改進(jìn)思路在于對其他來源的信息樣本(可以包括垃圾信息,當(dāng)然,也可以其它需要過濾出來的信息)進(jìn)行過程策略的提取,提取過程主要包括對于給定的垃圾信息等信息樣本,先找出信息中的關(guān)鍵詞,再將這些關(guān)鍵詞進(jìn)行邏輯組合后構(gòu)建成關(guān)鍵詞覆蓋率較高、過濾效果較好的信息過濾策略,將該消息過濾策略部署到現(xiàn)網(wǎng)系統(tǒng)中,可以提升垃圾信息過濾效率。
本發(fā)明實施例提供了一種信息過濾策略生成方法。圖1是根據(jù)本發(fā)明實施例的信息過濾策略生成方法流程圖,如圖1所示,該流程包括以下步驟(步驟S102-步驟S106):
步驟S102、從預(yù)先選取的樣本信息中獲取第一關(guān)鍵詞。
在實際應(yīng)用中,樣本信息的選取可以根據(jù)實際需求而定,例如樣本信息可以從其它來源獲取到的垃圾信息中選取,當(dāng)然,如果需要將某些特定信息從大量信息中過濾出來,也可以將這些特定信息作為樣本信息。
在本發(fā)明實施例中,該步驟S102可以采用這樣的方式實現(xiàn):(1)對于所述樣本信息進(jìn)行內(nèi)容預(yù)處理,得到文本信息;(2)根據(jù)預(yù)置的分詞方法對文本信息進(jìn)行分詞操作,得到第二關(guān)鍵詞;(3)對所述第二關(guān)鍵詞中存在包含關(guān)系的關(guān)鍵詞進(jìn)行合并,得到所述第一關(guān)鍵詞。
對于(1),所述內(nèi)容預(yù)處理可以包括:內(nèi)容格式轉(zhuǎn)換和無效內(nèi)容刪除。
在本發(fā)明實施例中,所述內(nèi)容格式轉(zhuǎn)換可以包括:半角字符和全角字符之間的相互轉(zhuǎn)換、繁體字和簡體字之間的相互轉(zhuǎn)換、大寫英文字母和小寫英文字母之間的相互轉(zhuǎn)換,以及將特殊字符串轉(zhuǎn)換成預(yù)定字符;所述無效內(nèi)容刪除包括:刪除特殊符號。
在實際應(yīng)用中,內(nèi)容格式轉(zhuǎn)換的主要目的是去除樣本信息中的無效信息,并將文本(即由字、詞、數(shù)字、標(biāo)點符號等構(gòu)成的文字串)轉(zhuǎn)換為由其包含的基本語義單位組成的表列,常用的轉(zhuǎn)換方法即為上述半角全角轉(zhuǎn)換、繁體簡體轉(zhuǎn)換、英文字母大小寫轉(zhuǎn)換,以及特殊字符串轉(zhuǎn)換(例如,消息中的字符“%”轉(zhuǎn)換成“的”)等操作,當(dāng)然,刪除某些沒有具體含義的特殊符號等無效內(nèi)容也是必要的。為便于理解,請參考表2:
表2
以表2為例,需要將表2中的特殊符號轉(zhuǎn)換為相應(yīng)的文字或?qū)⑵鋭h除,以使得到的文本信息能夠通順,并呈現(xiàn)出垃圾信息的關(guān)鍵詞。僅對于表2來說,還需要將繁體字轉(zhuǎn)換為簡體字。當(dāng)然,這僅僅是以表2為了對上述內(nèi)容格式轉(zhuǎn)換和特殊符號刪除進(jìn)行說明。在實際應(yīng)用中,很多垃圾信息各式各樣,給過濾操作帶來很大難度,使用上述內(nèi)容格式轉(zhuǎn)換和特殊符號刪除基本能夠?qū)⒗畔⑻幚沓赏樓曳线壿嫷奈谋拘畔ⅰ?/p>
對于(2),由于垃圾信息文本的詞與詞之間沒有明顯的切分標(biāo)志,需要對其進(jìn)行分詞。現(xiàn)有的分詞方法主要有兩種:一類是機(jī)械式分詞法,一般以分詞詞典為依據(jù)通過文檔中的漢字串和詞表中的詞逐一匹配來完成詞的切分。把人名、地名、URL、電話號碼、銀行賬號等特征分詞提取出來;另一類是理解式分詞法,即使用漢語的語法知識和語義知識以及心理學(xué)知識進(jìn)行分詞,建立自定義分詞庫,如“爸爸去哪兒”、“快樂大本營”等。為便于理解,請參考表3:
表3
在本發(fā)明實施例中,使用現(xiàn)有的兩種分詞方法(機(jī)械式分詞法和/或理解式分詞法)就可以把人名、地名、URL、電話號碼、銀行賬號等很多特征分詞提取出來(即為上述第二關(guān)鍵詞,例如表3中的15353566763、爸爸去哪兒等)。
當(dāng)然,這樣得到的所述第二關(guān)鍵詞的數(shù)量是比較龐大的,其中很多都存在一定的包含關(guān)系,即一個關(guān)鍵詞能夠完全表達(dá)另一個關(guān)鍵詞的含義,因此有必要對這些關(guān)鍵詞進(jìn)行合并。因此,需要執(zhí)行(3)。
對于(3),如前面所述,由于很多垃圾信息由很多不同的詞組成,如果把這些詞全部作為關(guān)鍵詞,則關(guān)鍵詞的數(shù)量很大,對于后期的策略生成會提高成本。而且大量關(guān)鍵詞(即上述人名、號碼等多種分詞)存在包含關(guān)系,因此有必要對分詞進(jìn)行合并(即關(guān)鍵詞合并,對所述第二關(guān)鍵詞進(jìn)行合并)處理,以減小分詞的數(shù)量,最終得到所述第一關(guān)鍵詞。實際應(yīng)用中,分詞合并規(guī)則是保留以最長匹配的分詞,如“淘寶”和“淘寶網(wǎng)”兩個分詞,去除“淘寶”,而保留“淘寶網(wǎng)”,為便于理解,請參考表4:
表4
經(jīng)過這些關(guān)鍵詞合并步驟,即可以得到所述第一關(guān)鍵詞,而這些第一關(guān)鍵詞將最終構(gòu)成信息過濾策略的主要組成因素。
步驟S104、計算所述第一關(guān)鍵詞的質(zhì)量得分;
在實際應(yīng)用中,現(xiàn)網(wǎng)系統(tǒng)采用的垃圾信息過濾策略是由關(guān)鍵詞經(jīng)過適當(dāng)?shù)倪壿嬯P(guān)系組合而成,而關(guān)鍵詞的選擇對于過濾策略的質(zhì)量具有重要影響。選擇的關(guān)鍵詞應(yīng)該遵循如下的三個原則:1)關(guān)鍵詞在特定的某條信息中具有重要 的語義意義;2)關(guān)鍵詞對于正常信息和垃圾信息能夠起到明顯的區(qū)分作用;3)關(guān)鍵詞對于所屬策略組合的重要性要大于單個關(guān)鍵詞本身。對于這三個原則的使用,不管側(cè)重使用哪個因素,最終都會對選取的關(guān)鍵詞的質(zhì)量產(chǎn)生影響,而關(guān)鍵詞的質(zhì)量決定著策略組合的質(zhì)量,最終體現(xiàn)在策略組合對垃圾信息的過濾準(zhǔn)確性和效率等。因此,對關(guān)鍵詞的質(zhì)量進(jìn)行評分計算顯得尤為重要。
基于上述三點考慮,結(jié)合常用機(jī)器學(xué)習(xí)算法的特點和優(yōu)勢,本發(fā)明實施例對比分析綜合考慮使用以下三種不同的具有代表性的關(guān)鍵詞得分(即上述質(zhì)量得分)的計算方法:
1、文檔頻率法
文檔頻率法是一種較常用的算法,對給定的關(guān)鍵詞,其文檔頻率是樣本集中包含此關(guān)鍵詞的樣本占全部樣本的比重。給定信息樣本,使用包含特定關(guān)鍵詞的信息條數(shù)占垃圾信息的比率作為衡量此關(guān)鍵詞的重要性得分。文檔頻率法實現(xiàn)簡單、算法復(fù)雜度較低。
2、信息增益法
信息增益法能刻畫關(guān)鍵詞在文本中出現(xiàn)與否對垃圾信息分類的影響程度。關(guān)鍵詞的信息增益值越大,說明它對區(qū)分正常信息和垃圾信息的貢獻(xiàn)度越大。因此,關(guān)鍵詞T帶來的信息增益就可以寫成系統(tǒng)原有的熵與固定關(guān)鍵詞T后的條件熵之差:
其中,表示類別Ci出現(xiàn)的概率,P(T)表示關(guān)鍵詞T出現(xiàn)的概率,P(Ci|T)表示出現(xiàn)關(guān)鍵詞T的時候,類別Ci出現(xiàn)的概率。表示T未出現(xiàn)。
3、卡方統(tǒng)計法
卡方統(tǒng)計法可以用來度量關(guān)鍵詞T和垃圾信息Ci之間的相關(guān)程度;假設(shè)T和Ci之間符合具有一階自由度的CHI分布。關(guān)鍵詞T對于垃圾信息Ci的CHI值可以按照如下公式計算:
其中,N表示語料庫中的總信息條數(shù);A表示包含T且屬于Ci類的信息條數(shù);B表示包含T但不屬于Ci類的信息條數(shù);C表示屬于Ci類但是不包含T的信息條數(shù);D表示既不屬于Ci類也不包含T的信息條數(shù)。
當(dāng)關(guān)鍵詞T與類別Ci相互獨(dú)立時,CHI(T,Ci)=0。CHI(T,Ci)的值越大,關(guān)鍵詞T與類別Ci越相關(guān)。對于多個類別的問題,首先計算關(guān)鍵詞T對每個Ci的CHI值,再分別檢驗關(guān)鍵詞T對于整個語料的CHI值。
其中,m為類別數(shù),本文中m取值為2。第一個公式表示關(guān)鍵詞與各個類別的平均CHI值,第二個公式表示選擇關(guān)鍵詞與各個類別CHI值中的最大值。根據(jù)CHI值得大小進(jìn)行排序選取特定數(shù)目的關(guān)鍵詞。
對于上述三種方法,1)文檔頻率法實現(xiàn)簡單、復(fù)雜度低,在實際應(yīng)用中效果也不錯,但它對于罕見關(guān)鍵詞的處理效果不是很好。2)信息增益法能夠刻畫關(guān)鍵詞在文本中出現(xiàn)與否對文件分類的影響,但信息增益的缺點在于它只能考察關(guān)鍵詞對所有類別的貢獻(xiàn),而不能具體到某個特定的類別上。3)卡方統(tǒng)計法能夠計算關(guān)鍵詞與特定類別的相關(guān)程度。缺點是只統(tǒng)計信息文本中是否出現(xiàn)關(guān)鍵詞,而忽略關(guān)鍵詞出現(xiàn)次數(shù),因此卡方統(tǒng)計方法對于低頻詞具有“偏袒”作用。
為便于分析,可以結(jié)合現(xiàn)網(wǎng)應(yīng)用實際情況對這三種方法進(jìn)行對比,分別設(shè)計基于文檔頻率、信息增益、卡方統(tǒng)計的策略自動提取算法,并將提取出的策略在現(xiàn)網(wǎng)中測評。
測評采用現(xiàn)網(wǎng)系統(tǒng)信息文本的采樣數(shù)據(jù),共計3137314條信息樣本,其中正常信息樣本數(shù)量為1975565,垃圾信息樣本數(shù)量為1161749。
(1)指標(biāo)定義
垃圾信息覆蓋率:被策略命中的垃圾信息占全部垃圾信息的比例,越高越好。
(2)策略自動提取算法測評效果及分析
對比分析三種策略自動生成方法的測評效果。針對文檔頻率法、信息增益 法、卡方統(tǒng)計法三種關(guān)鍵詞得分計算方法,設(shè)定不同的Top關(guān)鍵詞個數(shù),分別進(jìn)行實驗,得出的實驗數(shù)據(jù)如圖2(圖2是根據(jù)本發(fā)明實施例的關(guān)鍵詞得分計算方法測評結(jié)果數(shù)據(jù)示意圖)、表5所示:
表5
從上述三種方法的測評數(shù)據(jù)可以看出,當(dāng)提高Top關(guān)鍵詞個數(shù)時,垃圾信息的覆蓋率得到明顯提升,算法開銷也隨之增大。因此在現(xiàn)網(wǎng)應(yīng)用階段需根據(jù)實際情況對策略自動提取算法參數(shù)進(jìn)行適當(dāng)?shù)恼{(diào)整和配置。
從覆蓋率的角度來看,基于信息增益方法的策略自動提取算法對垃圾信息具有最好的覆蓋效果。但從算法性能角度來看,基于信息增益方法的策略自動提取策略效率最低。而基于文檔頻率方法和卡方統(tǒng)計方法的策略自動提取算法具有較好的性能。因此,在現(xiàn)網(wǎng)應(yīng)用階段應(yīng)根據(jù)實際需求狀況對算法做出適當(dāng)?shù)倪x擇。
也就是說,可以綜合考慮實際應(yīng)用需求和場景,以及測評得到的結(jié)果數(shù)據(jù),最終確定最適合策略自動提取的方法。換句話說,本發(fā)明實施例可以綜合考慮選擇適用上述三種關(guān)鍵詞得分計算方法。
步驟S106、根據(jù)所述第一關(guān)鍵詞的質(zhì)量得分對所述第一關(guān)鍵詞進(jìn)行排序和組合,生成信息過濾策略。
在本發(fā)明實施例中,該步驟S106可以采用的方式實現(xiàn):1)按照所述第一關(guān)鍵詞的質(zhì)量得分,從高到低對所述第一關(guān)鍵詞進(jìn)行排序;2)將所有第一關(guān)鍵詞中相關(guān)度大于第一預(yù)定相關(guān)度的第一關(guān)鍵詞劃分為同一組,并根據(jù)質(zhì)量得分從高到低進(jìn)行排序;3)對于每組第一關(guān)鍵詞中相關(guān)度大于第二預(yù)定相關(guān)度的第一關(guān)鍵詞劃分為同一組,并根據(jù)質(zhì)量得分從高到低進(jìn)行排序;4)執(zhí)行預(yù)定次數(shù)的所述分組操作,匯總多組所述第一關(guān)鍵詞,得到所述信息過濾策略。
在實際應(yīng)用中,由于垃圾信息學(xué)習(xí)樣本庫的數(shù)量較大,其關(guān)鍵詞維數(shù)也很大,有些關(guān)鍵詞對區(qū)分正?;蛘呃畔⑺鸬呢暙I(xiàn)很小,完全可以忽略,從而降低關(guān)鍵詞的維數(shù)?;谟嬎愠龅年P(guān)鍵詞質(zhì)量得分,遞歸的進(jìn)行關(guān)鍵詞組合形成垃圾信息過濾策略。為便于理解步驟S106的實現(xiàn)過程,可以參考圖3(圖3是根據(jù)本發(fā)明實施例的過濾策略自動生成流程示意圖)所示。
生成算法如下所述:
(1)對全部垃圾信息樣本進(jìn)行預(yù)處理、分詞操作;將每一個詞視為一個候選關(guān)鍵詞;
(2)按照指定的候選關(guān)鍵詞質(zhì)量得分計算方法(即上述三種計算方法之一),計算全部候選關(guān)鍵詞質(zhì)量得分;對候選關(guān)鍵詞按照質(zhì)量得分進(jìn)行排序,選擇前Top-N個作為策略關(guān)鍵詞;
(3)對前Top-N個策略關(guān)鍵詞分組,每M個為一組然后準(zhǔn)備做下一步處理;同時,每組的M個關(guān)鍵詞作為策略的一個“或”組成成分,在這個“或”組成成分中,每個關(guān)鍵詞之間為邏輯“或”的關(guān)系;
(4)對包含M個策略關(guān)鍵詞的每個組做如下處理:選出所有包含M個關(guān)鍵詞中任一個關(guān)鍵詞的樣本,然后依次操做前面三個步驟;新形成的“或”組成成分與原有的各個“或”組成成分之間用邏輯“與”連接;
循環(huán)上面四個步驟,直到策略中包含的“或”組成成分達(dá)到指定個數(shù),推出算法,算法中Top-N個數(shù)、“或”組成成分中關(guān)鍵詞的個數(shù)、策略中“或”組成成分個數(shù)由實際應(yīng)用中的需求和經(jīng)驗設(shè)定。
至此,垃圾信息過濾策略已經(jīng)生成,但是垃圾信息過濾策略中過濾的對象是動態(tài)信息流,針對新信息的反饋學(xué)習(xí)和策略后處理是垃圾信息過濾系統(tǒng)的重要組成部分,隨著時間的推移,垃圾信息的形式、內(nèi)容以及用戶的個性化需求都是不斷變化的,信息過濾系統(tǒng)需要根據(jù)新的變化和需求更新過濾策略。也就是說,隨著垃圾信息的多樣化等情況的出現(xiàn),策略優(yōu)化也是很有必要的。請參考圖4(圖4是根據(jù)本發(fā)明實施例的過濾策略的優(yōu)化流程示意圖)。
可以看出,本發(fā)明實施例提供的信息過濾策略生成方法,能準(zhǔn)確發(fā)現(xiàn)已知類型垃圾信息,方法中使用的機(jī)器學(xué)習(xí)算法的具有較強(qiáng)的泛化能力,能夠不漏判新發(fā)現(xiàn)的垃圾信息,具有判定準(zhǔn)確、覆蓋面較為全面的明顯優(yōu)勢。
對應(yīng)于上述信息過濾策略生成方法,本發(fā)明實施例還提供了一種信息過濾策略生成裝置。圖5是根據(jù)本發(fā)明實施例的信息過濾策略生成裝置的結(jié)構(gòu)框圖,如圖5所示,該裝置包括:獲取模塊10,計算模塊20,以及生成模塊30。其中:
獲取模塊10,用于從預(yù)先選取的樣本信息中獲取第一關(guān)鍵詞;計算模塊20,連接至獲取模塊10,用于計算所述第一關(guān)鍵詞的質(zhì)量得分;生成模塊30,連接至計算模塊20,用于根據(jù)所述第一關(guān)鍵詞的質(zhì)量得分對所述第一關(guān)鍵詞進(jìn)行排序和組合,生成信息過濾策略。
在圖5所示的信息過濾策略生成裝置的基礎(chǔ)上,本發(fā)明實施例還進(jìn)一步提供了一種優(yōu)選信息過濾策略生成裝置。圖6是根據(jù)本發(fā)明實施例的優(yōu)選信息過濾策略生成裝置的結(jié)構(gòu)框圖,如圖6所示:
所述獲取模塊10可以進(jìn)一步包括:預(yù)處理單元12,用于對于所述樣本信息進(jìn)行內(nèi)容預(yù)處理,得到文本信息;分詞單元14,連接至預(yù)處理單元12,用于根據(jù)預(yù)置的分詞方法對文本信息進(jìn)行分詞操作,得到第二關(guān)鍵詞;合并單元16,連接至分詞單元14,用于對所述第二關(guān)鍵詞中存在包含關(guān)系的關(guān)鍵詞進(jìn)行合并,得到所述第一關(guān)鍵詞。
在本發(fā)明實施例中,所述內(nèi)容預(yù)處理可以包括:內(nèi)容格式轉(zhuǎn)換和無效內(nèi)容刪除。其中,所述內(nèi)容格式轉(zhuǎn)換可以包括:半角字符和全角字符之間的相互轉(zhuǎn)換、繁體字和簡體字之間的相互轉(zhuǎn)換、大寫英文字母和小寫英文字母之間的相互轉(zhuǎn)換,以及將特殊字符串轉(zhuǎn)換成預(yù)定字符(例如,將信息中的特殊符號“%”轉(zhuǎn)換成“的”);所述無效內(nèi)容刪除可以包括:刪除特殊符號。
所述生成模塊30可以進(jìn)一步包括:第一處理單元32,用于按照所述第一關(guān)鍵詞的質(zhì)量得分,從高到低對所述第一關(guān)鍵詞進(jìn)行排序;第二處理單元34,連接至第一處理單元32,用于將所有第一關(guān)鍵詞中相關(guān)度大于第一預(yù)定相關(guān)度的第一關(guān)鍵詞劃分為同一組,并根據(jù)質(zhì)量得分從高到低進(jìn)行排序;第三處理單元36,連接至第二處理單元34,用于對于每組第一關(guān)鍵詞中相關(guān)度大于第二預(yù)定相關(guān)度的第一關(guān)鍵詞劃分為同一組,并根據(jù)質(zhì)量得分從高到低進(jìn)行排序;第四處理單元38,連接至第三處理單元36,用于執(zhí)行預(yù)定次數(shù)的所述分組操作,匯總多組所述第一關(guān)鍵詞,得到所述信息過濾策略。
更進(jìn)一步地,為便于理解圖5或圖6所示的信息過濾策略生成裝置實施上述信息過濾策略生成方法的過程,可以參考圖7(圖7是根據(jù)本發(fā)明實施例的包括信息過濾策略生成裝置的整體實現(xiàn)架構(gòu)示意圖)。
本發(fā)明實施例,可以首先使用機(jī)器學(xué)習(xí)算法計算垃圾信息中的關(guān)鍵詞得分,然后遞歸的進(jìn)行關(guān)鍵詞組合形成過濾策略。為了保證策略能夠滿足較高的過濾效率、較高的召回率、較低的誤判率,還可以對生成的策略進(jìn)行相應(yīng)的優(yōu)化處理。通過本發(fā)明實施例,能夠達(dá)到如下效果:1)關(guān)鍵詞策略從海量的已知垃圾信息中自動提取,能盡可能的篩選出已知類型垃圾信息,覆蓋率較高;2)機(jī)器學(xué)習(xí)算法通過對已知垃圾信息進(jìn)行不斷的學(xué)習(xí),自動優(yōu)化過濾模型,通過定期對新增垃圾信息進(jìn)行增量學(xué)習(xí),提升對新信息的發(fā)現(xiàn)能力;3)基于海量垃圾信息自動抽取的過濾策略,具有統(tǒng)計特性,能夠有效降低人工生成策略帶來的誤判、漏判等情況,同時能夠極大的節(jié)省人工成本。4)能夠綜合現(xiàn)有技術(shù)的優(yōu)點,實現(xiàn)對垃圾信息或特定信息的過濾。
以上所述是本發(fā)明的優(yōu)選實施方式,應(yīng)當(dāng)指出,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明所述原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為包含在本發(fā)明的保護(hù)范圍之內(nèi)。