小于所述第二閾值的情況下,基于所述回帖相似度來確定所述異常帖子候選。
[0068]根據(jù)本公開的優(yōu)選實(shí)施例,可以在所述主帖回帖比小于所述第二閾值、但該作者的回帖之間的回帖相似度大于第三閾值且其回帖相似度大于第三閾值的回帖數(shù)量大于第四閾值的情況下,將該作者在所述搜索步驟S520搜索到的帖子中的所有主帖確定為異常帖子候選。
[0069]例如,可以通過執(zhí)行例如參照?qǐng)D2-圖3描述的標(biāo)題查詢子單元201、回帖提取子單元202以及異常帖子候選確定子單元203的處理來實(shí)現(xiàn)異常信息確定步驟S5301、S5302、S5303,在此省略其描述。
[0070]回到圖5,在異常信息確定步驟S540中,基于異常信息候選構(gòu)建異常信息分類器,并使用異常信息分類器在異常信息候選中確定異常信息。
[0071]根據(jù)本公開的一個(gè)實(shí)施例,異常信息確定步驟S540可以包括:將所述異常帖子候選的作者作為異常用戶,將所述搜索步驟S520搜索到的所有主帖的作者中、除所述異常用戶之外的其他作者作為正常用戶,并且分別針對(duì)所述異常用戶和所述正常用戶的主帖,提取用戶文本特征和用戶行為特征;基于所述異常用戶和所述正常用戶的用戶文本特征和用戶行為特征,利用正例-未標(biāo)注樣本分類方法,構(gòu)建所述異常信息分類器;以及使用所述異常信息分類器,在所述異常帖子候選中確定異常帖子。
[0072]例如,可以通過執(zhí)行例如參照?qǐng)D1和圖4描述的異常信息確定單元30的處理來實(shí)現(xiàn)異常信息確定步驟S540,在此省略其描述。然后執(zhí)行S550。
[0073]處理流程500結(jié)束于S550。
[0074]與現(xiàn)有技術(shù)中相比,根據(jù)本公開的異常信息確定裝置和異常信息確定方法具有至少以下一個(gè)優(yōu)點(diǎn):利用了異常信息的傳播規(guī)律來確定異常信息候選,從而能夠更準(zhǔn)確、可靠地確定異常信息,有利于提高甄別異常用戶的準(zhǔn)確率,并且能夠大大提高異常信息監(jiān)控的效率。
[0075]此外,本公開的實(shí)施例還提供了一種電子設(shè)備,該電子設(shè)備被配置包括如上所述的異常信息確定裝置I。該電子設(shè)備例如可以是以下設(shè)備中的任意一種:手機(jī);計(jì)算機(jī);平板電腦;以及個(gè)人數(shù)字助理等。相應(yīng)地,該電子設(shè)備能夠擁有如上所述的異常信息確定裝置的有益效果和優(yōu)點(diǎn)。
[0076]上述根據(jù)本公開的實(shí)施例的異常信息確定裝置中的各個(gè)組成單元、子單元等可以通過軟件、固件、硬件或其任意組合的方式進(jìn)行配置。在通過軟件或固件實(shí)現(xiàn)的情況下,可從存儲(chǔ)介質(zhì)或網(wǎng)絡(luò)向具有專用硬件結(jié)構(gòu)的機(jī)器安裝構(gòu)成該軟件或固件的程序,該機(jī)器在安裝有各種程序時(shí),能夠執(zhí)行上述各組成單元、子單元的各種功能。
[0077]圖7是示出了可用來實(shí)現(xiàn)根據(jù)本公開的實(shí)施例的是異常信息確定裝置和方法的一種可能的信息處理設(shè)備的硬件配置的結(jié)構(gòu)簡圖。
[0078]在圖7中,中央處理單元(CPU) 701根據(jù)只讀存儲(chǔ)器(ROM) 702中存儲(chǔ)的程序或從存儲(chǔ)部分708加載到隨機(jī)存取存儲(chǔ)器(RAM) 703的程序執(zhí)行各種處理。在RAM703中,還根據(jù)需要存儲(chǔ)當(dāng)CPU701執(zhí)行各種處理等等時(shí)所需的數(shù)據(jù)。CPU701、R0M702和RAM703經(jīng)由總線704彼此連接。輸入/輸出接口 705也連接到總線704。
[0079]下述部件也連接到輸入/輸出接口 705:輸入部分706 (包括鍵盤、鼠標(biāo)等等)、輸出部分707 (包括顯示器,例如陰極射線管(CRT)、液晶顯示器(LCD)等,和揚(yáng)聲器等)、存儲(chǔ)部分708 (包括硬盤等)、通信部分709 (包括網(wǎng)絡(luò)接口卡例如LAN卡、調(diào)制解調(diào)器等)。通信部分709經(jīng)由網(wǎng)絡(luò)例如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動(dòng)器710也可連接到輸入/輸出接口 705。可拆卸介質(zhì)711例如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等可以根據(jù)需要被安裝在驅(qū)動(dòng)器710上,使得從中讀出的計(jì)算機(jī)程序可根據(jù)需要被安裝到存儲(chǔ)部分708中。
[0080]在通過軟件實(shí)現(xiàn)上述系列處理的情況下,可以從網(wǎng)絡(luò)例如因特網(wǎng)或從存儲(chǔ)介質(zhì)例如可拆卸介質(zhì)711安裝構(gòu)成軟件的程序。
[0081]本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這種存儲(chǔ)介質(zhì)不局限于圖7所示的其中存儲(chǔ)有程序、與設(shè)備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)711??刹鹦督橘|(zhì)711的例子包含磁盤(包含軟盤)、光盤(包含光盤只讀存儲(chǔ)器(⑶-ROM)和數(shù)字通用盤(DVD))、磁光盤(包含迷你盤(MD)(注冊(cè)商標(biāo)))和半導(dǎo)體存儲(chǔ)器?;蛘撸鎯?chǔ)介質(zhì)可以是R0M702、存儲(chǔ)部分708中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起被分發(fā)給用戶。
[0082]此外,本公開還提出了一種存儲(chǔ)有機(jī)器可讀取的指令代碼的程序產(chǎn)品。上述指令代碼由機(jī)器讀取并執(zhí)行時(shí),可執(zhí)行上述根據(jù)本公開的實(shí)施例的異常信息確定方法。相應(yīng)地,用于承載這種程序產(chǎn)品的例如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等的各種存儲(chǔ)介質(zhì)也包括在本公開的公開中。
[0083]在上面對(duì)本公開具體實(shí)施例的描述中,針對(duì)一種實(shí)施方式描述和/或示出的特征可以以相同或類似的方式在一個(gè)或更多個(gè)其它實(shí)施方式中使用,與其它實(shí)施方式中的特征相組合,或替代其它實(shí)施方式中的特征。
[0084]此外,本公開的各實(shí)施例的方法不限于按照說明書中描述的或者附圖中示出的時(shí)間順序來執(zhí)行,也可以按照其他的時(shí)間順序、并行地或獨(dú)立地執(zhí)行。因此,本說明書中描述的方法的執(zhí)行順序不對(duì)本公開的技術(shù)范圍構(gòu)成限制。
[0085]此外,顯然,根據(jù)本公開的上述方法的各個(gè)操作過程也可以以存儲(chǔ)在各種機(jī)器可讀的存儲(chǔ)介質(zhì)中的計(jì)算機(jī)可執(zhí)行程序的方式實(shí)現(xiàn)。
[0086]而且,本公開的目的也可以通過下述方式實(shí)現(xiàn):將存儲(chǔ)有上述可執(zhí)行程序代碼的存儲(chǔ)介質(zhì)直接或者間接地提供給系統(tǒng)或設(shè)備,并且該系統(tǒng)或設(shè)備中的計(jì)算機(jī)或者中央處理單元(CPU)讀出并執(zhí)行上述程序代碼。
[0087]此時(shí),只要該系統(tǒng)或者設(shè)備具有執(zhí)行程序的功能,則本公開的實(shí)施方式不局限于程序,并且該程序也可以是任意的形式,例如,目標(biāo)程序、解釋器執(zhí)行的程序或者提供給操作系統(tǒng)的腳本程序等。
[0088]上述這些機(jī)器可讀存儲(chǔ)介質(zhì)包括但不限于:各種存儲(chǔ)器和存儲(chǔ)單元,半導(dǎo)體設(shè)備,磁盤單元例如光、磁和磁光盤,以及其它適于存儲(chǔ)信息的介質(zhì)等。
[0089]另外,客戶信息處理終端通過連接到因特網(wǎng)上的相應(yīng)網(wǎng)站,并且將依據(jù)本公開的計(jì)算機(jī)程序代碼下載和安裝到信息處理終端中然后執(zhí)行該程序,也可以實(shí)現(xiàn)本公開的各實(shí)施例。
[0090]綜上,在根據(jù)本公開的實(shí)施例中,本公開提供了如下方案,但不限于此:
[0091]方案1、一種異常信息確定裝置,包括:
[0092]搜索單元,用于在預(yù)定信息源中搜索與特定關(guān)鍵詞相關(guān)的信息;
[0093]異常信息候選確定單元,用于根據(jù)異常信息的傳播規(guī)律,確定所述搜索單元搜索至IJ的信息中的異常信息候選;以及
[0094]異常信息確定單元,用于基于所述異常信息候選構(gòu)建異常信息分類器,并使用所述異常信息分類器在所述異常信息候選中確定異常信息。
[0095]方案2、根據(jù)方案I所述的異常信息確定裝置,其中所述搜索單元被配置為在網(wǎng)絡(luò)中搜索與特定關(guān)鍵詞相關(guān)的帖子。
[0096]方案3、根據(jù)方案2所述的異常信息確定裝置,其中所述異常信息候選確定單元用于根據(jù)異常帖子的傳播規(guī)律,確定所述搜索單元搜索到的帖子中的異常帖子候選,所述異常信息候選確定單元包括:
[0097]標(biāo)題查詢子單元,用于針對(duì)搜索單元搜索到的每個(gè)帖子,查詢?cè)陬A(yù)定時(shí)間段內(nèi)、以該帖子的標(biāo)題為標(biāo)題的所有帖子,并確定該所有帖子的帖子數(shù)量是否大于第一閾值;
[0098]回帖提取子單元,用于在所述標(biāo)題查詢子單元確定所述帖子數(shù)量大于第一閾值的情況下,確定該所有帖子中主帖的作者,并提取每個(gè)作者的回帖;以及
[0099]異常帖子候選確定子單元,用于基于所述每個(gè)作者的主帖與回帖之間的關(guān)系,確定作為所述異常信息候選的異常帖子候選。
[0100]方案4、根據(jù)方案3所述的異常信息確定裝置,其中所述異常帖子候選確定子單元包括:
[0101]主帖回帖比計(jì)算模塊,用于針對(duì)每個(gè)作者,計(jì)算該作者的主帖與回帖之間的主帖回帖比,并且確定所述主帖回帖比是否大于等于第二閾值;
[0102]回帖相似度確定模塊,用于在所述主帖回帖比計(jì)算模塊確定所述主帖回帖比小于第二閾值的情況下,確定該作者的回帖之間的回帖相似度;以及
[0103]異常帖子候選確定模塊,用于在所述主帖回帖比計(jì)算模塊確定所述主帖回帖比大于等于所述第二閾值的情況下,將該作者在所述搜索單元搜索到的帖子中的所有主帖確定為異常帖子候選,并且在所述主帖回帖比小于所述第二閾值的情況下,基于所述回帖相似度來確定所述異常帖子候選。
[0104]方案5、根據(jù)方案4所述的異常信息確定裝置,其中所述異常帖子候選確定模塊被配置為在所述主帖回帖比小于所述第二閾值、但該作者的回帖之間的回帖相似度大于第三閾值且其回帖相似度大于第三閾值的回帖數(shù)量大于第四閾值的情況下,將該作者在所述搜索單元搜索到的帖子中的所有主帖確定為異常帖子候選。
[0105]方案6、根據(jù)方案3-5中任一項(xiàng)所述的異常信息確定裝置,其中所述異常信息確定單元包括:
[0106]特征提取子單元,用于將所述異常帖子候選的作者作為異常用戶,將所述搜索單元搜索到的所有主帖的作者中、除所述異常用戶之外的其他作者作為正常用戶,并且分別針對(duì)所述異常用戶和所述正常用戶的主帖,提取用戶文本特征和用戶行為特征;
[0107]分類器構(gòu)建子單元,用于基于所述異常用戶和所述正常用戶的用戶文本特征和用戶行為特征,利用正例-未標(biāo)注樣本分類方法,構(gòu)建所述異常信息分類器;以及
[0108]異常帖子確定子單元,用于使用所述異常信息分類器,在所述異常帖子候選中確定異常帖子。
[0109]方案7、一種異常信息確定方法,包括: