[0110]搜索步驟,用于在預(yù)定信息源中搜索與特定關(guān)鍵詞相關(guān)的信息;
[0111]異常信息候選確定步驟,用于根據(jù)異常信息的傳播規(guī)律,確定所述搜索步驟搜索至IJ的信息中的異常信息候選;以及
[0112]異常信息確定步驟,用于基于所述異常信息候選構(gòu)建異常信息分類器,并使用所述異常信息分類器在所述異常信息候選中確定異常信息。
[0113]方案8、根據(jù)方案7所述的異常信息確定方法,其中所述搜索步驟用于在網(wǎng)絡(luò)中搜索與特定關(guān)鍵詞相關(guān)的帖子。
[0114]方案9、根據(jù)方案8所述的異常信息確定方法,其中所述異常信息候選確定步驟用于根據(jù)異常帖子的傳播規(guī)律,確定所述搜索步驟搜索到的帖子中的異常帖子候選,所述異常信息候選確定步驟包括:
[0115]標(biāo)題查詢子步驟,用于針對(duì)搜索步驟搜索到的每個(gè)帖子,查詢?cè)陬A(yù)定時(shí)間段內(nèi)、以該帖子的標(biāo)題為標(biāo)題的所有帖子,并確定該所有帖子的帖子數(shù)量是否大于第一閾值;
[0116]回帖提取子步驟,用于在所述標(biāo)題查詢子步驟確定所述帖子數(shù)量大于第一閾值的情況下,確定該所有帖子中主帖的作者,并提取每個(gè)作者的回帖;以及
[0117]異常信息候選確定子步驟,用于基于所述每個(gè)作者的主帖與回帖之間的關(guān)系,確定作為所述異常信息候選的異常帖子候選。
[0118]方案10、根據(jù)方案9所述的異常信息確定方法,其中所述異常信息候選確定子步驟包括:
[0119]針對(duì)每個(gè)作者,計(jì)算該作者的主帖與回帖之間的主帖回帖比,并且確定所述主帖回帖比是否大于等于第二閾值;
[0120]在確定所述主帖回帖比小于第二閾值的情況下,確定該作者的回帖之間的回帖相似度;
[0121]在確定所述主帖回帖比大于等于所述第二閾值的情況下,將該作者在所述搜索步驟搜索到的帖子中的所有主帖確定為異常帖子候選,并且在所述主帖回帖比小于所述第二閾值的情況下,基于所述回帖相似度來確定所述異常帖子候選。
[0122]方案11、根據(jù)權(quán)利要求10所述的異常信息確定方法,其中確定異常帖子候選包括在所述主帖回帖比小于所述第二閾值、但該作者的回帖之間的回帖相似度大于第三閾值且其回帖相似度大于第三閾值的回帖數(shù)量大于第四閾值的情況下,將該作者在所述搜索步驟搜索到的帖子中的所有主帖確定為異常帖子候選。
[0123]方案12、根據(jù)權(quán)利要求9-11中任一項(xiàng)所述的異常信息確定方法,其中所述異常信息確定步驟包括:
[0124]特征提取子步驟,用于將所述異常帖子候選的作者作為異常用戶,將所述搜索步驟搜索到的所有主帖的作者中、除所述異常用戶之外的其他作者作為正常用戶,并且分別針對(duì)所述異常用戶和所述正常用戶的主帖,提取用戶文本特征和用戶行為特征;
[0125]分類器構(gòu)建子步驟,用于基于所述異常用戶和所述正常用戶的用戶文本特征和用戶行為特征,利用正例-未標(biāo)注樣本分類方法,構(gòu)建所述異常信息分類器;以及
[0126]異常信息確定子步驟,用于使用所述異常信息分類器,在所述異常帖子候選中確定異常帖子。
[0127]方案13、一種電子設(shè)備,包括根據(jù)方案1-6中任一項(xiàng)所述的異常信息確定裝置。
[0128]方案14、根據(jù)方案13所述的電子設(shè)備,其中電子設(shè)備是手機(jī)、計(jì)算機(jī)、平板電腦、或個(gè)人數(shù)字助理。
[0129]方案15、一種使得計(jì)算機(jī)用作如方案1-6中任一項(xiàng)所述的異常信息確定裝置的程序。
[0130]方案16、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有能夠由計(jì)算設(shè)備執(zhí)行的計(jì)算機(jī)程序,該程序使得計(jì)算機(jī)用作如方案1-6中任一項(xiàng)所述的異常信息確定裝置。
[0131]最后,還需要說明的是,在本公開中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
[0132]盡管上面已經(jīng)通過本公開的具體實(shí)施例的描述對(duì)本公開進(jìn)行了披露,但是,應(yīng)該理解,本領(lǐng)域技術(shù)人員可在所附權(quán)利要求的精神和范圍內(nèi)設(shè)計(jì)對(duì)本公開的各種修改、改進(jìn)或者等同物。這些修改、改進(jìn)或者等同物也應(yīng)當(dāng)被認(rèn)為包括在本公開所要求保護(hù)的范圍內(nèi)。
【主權(quán)項(xiàng)】
1.一種異常信息確定裝置,包括: 搜索單元,用于在預(yù)定信息源中搜索與特定關(guān)鍵詞相關(guān)的信息; 異常信息候選確定單元,用于根據(jù)異常信息的傳播規(guī)律,確定所述搜索單元搜索到的信息中的異常信息候選;以及 異常信息確定單元,用于基于所述異常信息候選構(gòu)建異常信息分類器,并使用所述異常信息分類器在所述異常信息候選中確定異常信息。
2.根據(jù)權(quán)利要求1所述的異常信息確定裝置,其中所述搜索單元被配置為在網(wǎng)絡(luò)中搜索與特定關(guān)鍵詞相關(guān)的帖子。
3.根據(jù)權(quán)利要求2所述的異常信息確定裝置,其中所述異常信息候選確定單元用于根據(jù)異常帖子的傳播規(guī)律,確定所述搜索單元搜索到的帖子中的異常帖子候選,所述異常信息候選確定單元包括: 標(biāo)題查詢子單元,用于針對(duì)搜索單元搜索到的每個(gè)帖子,查詢?cè)陬A(yù)定時(shí)間段內(nèi)、以該帖子的標(biāo)題為標(biāo)題的所有帖子,并確定該所有帖子的帖子數(shù)量是否大于第一閾值; 回帖提取子單元,用于在所述標(biāo)題查詢子單元確定所述帖子數(shù)量大于第一閾值的情況下,確定該所有帖子中主帖的作者,并提取每個(gè)作者的回帖;以及 異常帖子候選確定子單元,用于基于所述每個(gè)作者的主帖與回帖之間的關(guān)系,確定作為所述異常信息候選的異常帖子候選。
4.根據(jù)權(quán)利要求3所述的異常信息確定裝置,其中所述異常帖子候選確定子單元包括: 主帖回帖比計(jì)算模塊,用于針對(duì)每個(gè)作者,計(jì)算該作者的主帖與回帖之間的主帖回帖t匕,并且確定所述主帖回帖比是否大于等于第二閾值; 回帖相似度確定模塊,用于在所述主帖回帖比計(jì)算模塊確定所述主帖回帖比小于第二閾值的情況下,確定該作者的回帖之間的回帖相似度;以及 異常帖子候選確定模塊,用于在所述主帖回帖比計(jì)算模塊確定所述主帖回帖比大于等于所述第二閾值的情況下,將該作者在所述搜索單元搜索到的帖子中的所有主帖確定為異常帖子候選,并且在所述主帖回帖比小于所述第二閾值的情況下,基于所述回帖相似度來確定所述異常帖子候選。
5.根據(jù)權(quán)利要求4所述的異常信息確定裝置,其中所述異常帖子候選確定模塊被配置為在所述主帖回帖比小于所述第二閾值、但該作者的回帖之間的回帖相似度大于第三閾值且其回帖相似度大于第三閾值的回帖數(shù)量大于第四閾值的情況下,將該作者在所述搜索單元搜索到的帖子中的所有主帖確定為異常帖子候選。
6.根據(jù)權(quán)利要求3-5中任一項(xiàng)所述的異常信息確定裝置,其中所述異常信息確定單元包括: 特征提取子單元,用于將所述異常帖子候選的作者作為異常用戶,將所述搜索單元搜索到的所有主帖的作者中、除所述異常用戶之外的其他作者作為正常用戶,并且分別針對(duì)所述異常用戶和所述正常用戶的主帖,提取用戶文本特征和用戶行為特征; 分類器構(gòu)建子單元,用于基于所述異常用戶和所述正常用戶的用戶文本特征和用戶行為特征,利用正例-未標(biāo)注樣本分類方法,構(gòu)建所述異常信息分類器;以及 異常帖子確定子單元,用于使用所述異常信息分類器,在所述異常帖子候選中確定異常帖子。
7.一種異常信息確定方法,包括: 搜索步驟,用于在預(yù)定信息源中搜索與特定關(guān)鍵詞相關(guān)的信息; 異常信息候選確定步驟,用于根據(jù)異常信息的傳播規(guī)律,確定所述搜索步驟搜索到的信息中的異常信息候選;以及 異常信息確定步驟,用于基于所述異常信息候選構(gòu)建異常信息分類器,并使用所述異常信息分類器在所述異常信息候選中確定異常信息。
8.根據(jù)權(quán)利要求7所述的異常信息確定方法,其中所述搜索步驟用于在網(wǎng)絡(luò)中搜索與特定關(guān)鍵詞相關(guān)的帖子。
9.根據(jù)權(quán)利要求8所述的異常信息確定方法,其中所述異常信息候選確定步驟用于根據(jù)異常帖子的傳播規(guī)律,確定所述搜索步驟搜索到的帖子中的異常帖子候選,所述異常信息候選確定步驟包括: 標(biāo)題查詢子步驟,用于針對(duì)搜索步驟搜索到的每個(gè)帖子,查詢?cè)陬A(yù)定時(shí)間段內(nèi)、以該帖子的標(biāo)題為標(biāo)題的所有帖子,并確定該所有帖子的帖子數(shù)量是否大于第一閾值; 回帖提取子步驟,用于在所述標(biāo)題查詢子步驟確定所述帖子數(shù)量大于第一閾值的情況下,確定該所有帖子中主帖的作者,并提取每個(gè)作者的回帖;以及 異常信息候選確定子步驟,用于基于所述每個(gè)作者的主帖與回帖之間的關(guān)系,確定作為所述異常信息候選的異常帖子候選。
10.一種電子設(shè)備,包括根據(jù)權(quán)利要求1-6中任一項(xiàng)所述的異常信息確定裝置,所述電子設(shè)備尤其是手機(jī)、計(jì)算機(jī)、平板電腦、以及個(gè)人數(shù)字助理。
【專利摘要】本公開提供一種異常信息確定裝置和方法以及電子設(shè)備。該異常信息確定裝置包括:搜索單元,用于在預(yù)定信息源中搜索與特定關(guān)鍵詞相關(guān)的信息;異常信息候選確定單元,用于根據(jù)異常信息的傳播規(guī)律,確定搜索單元搜索到的信息中的異常信息候選;以及異常信息確定單元,用于基于異常信息候選構(gòu)建異常信息分類器,并使用異常信息分類器在異常信息候選中確定異常信息。根據(jù)本公開的異常信息確定裝置和方法以及電子設(shè)備能夠更準(zhǔn)確、可靠地確定諸如網(wǎng)絡(luò)的信息源中的異常信息。
【IPC分類】G06F17-30
【公開號(hào)】CN104572646
【申請(qǐng)?zhí)枴緾N201310473243
【發(fā)明人】張波, 孟遙, 孫俊
【申請(qǐng)人】富士通株式會(huì)社
【公開日】2015年4月29日
【申請(qǐng)日】2013年10月11日