專利名稱:用于檢測文本中不良信息的方法和設備的制作方法
技術(shù)領域:
本發(fā)明涉及信息處理領域,具體而言,涉及用于檢測文本中不良信息的方法和設備。
背景技術(shù):
隨著Web 2. O時代的到來,用戶在互聯(lián)網(wǎng)上獲得更大和更好的傳播和分享信息的自由。例如,用戶越來越多地可以在各種社交網(wǎng)絡、資源共享網(wǎng)絡、各種論壇、博客、微博等媒介上創(chuàng)作并發(fā)布各種信息和內(nèi)容。然而,與此同時,以利益驅(qū)動的機構(gòu)和個人為源頭,利用這個平臺產(chǎn)生了其它用戶并不希望得到的一些不良信息,例如其中包括廣告信息、騷擾信息等等。 為了限制和避免這些不良信息的發(fā)布和傳播,可以通過人為審核來區(qū)分這些不良信息,從而阻止這些不良信息發(fā)布和傳播出去。但這種人為審核的方式存在較高的人力成本,并且時間延遲比較長。于是出現(xiàn)了代替人力,基于算法來自動地檢測文本中的不良信息的方法。一種檢測文本中的不良信息的方法是基于貝葉斯(bayes)算法的處理方法。具體來說,在基于貝葉斯算法的處理方法中,利用文本屬于不良信息的先驗概率和文本屬于不良信息的條件概率通過使用訓練模型來判斷文本是否為不良信息?;谪惾~斯算法的檢測結(jié)果很大程度上依賴于先驗概率。關于貝葉斯算法的技術(shù)細節(jié),可以參見Langley P,Ibaff, Thompson K 等人于 1992 年發(fā)表的題為“An analysis of Bayesian classifiers” 的文章(參見Proceedings of the 10th National Conference on Artificial IntelligenceMenlo park AAA I Press,1992 :223-228),其全部內(nèi)容通過引用合并于此。另一種檢測文本中的不良信息的方法是基于支持向量機(Support VectorMachine, SVM)算法的處理方法。具體來說,在基于支持向量機算法的處理方法中,根據(jù)有限的樣本信息在模型的復雜性(即對特定訓練樣本的學習精度)和學習能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折衷,以獲得較好的檢測結(jié)果?;谥С窒蛄繖C算法的針對文本中不良信息的檢測方法在小樣本、非線性及高維模式識別的應用場景中具有許多特有的優(yōu)勢。關于基于支持向量機算法的技術(shù)細節(jié),可以參見C. Cortes和V. Vapnik于1995 年發(fā)表的題為“Support-Vector Networks”的文章(參見 Machine Learning ;Volume20,Number 3,273-297,1995),其全部內(nèi)容通過引用合并于此。此外,另一種檢測文本中的不良信息的方法是基于隱含語義分析(LatentSemantic Analysis,LSA)算法的處理方法。具體來說,在基于隱含語義分析算法的處理方法中,使用統(tǒng)計計算的方法對大量的文本集進行分析,提取出詞與詞之間隱含的語義結(jié)構(gòu),并用這種隱含的語義結(jié)構(gòu)來表示詞和文本,到達消除詞之間的相關性和簡化文本向量實現(xiàn)降維,其中通過奇異陣分解(SVD)技術(shù)將高維的向量空間模型(VSM)表示中的文檔(即訓練文本和特征詞匯等)映射到低維的隱含語義空間中,從而在低維的隱含語義空間中實現(xiàn)文本中的不良信息的檢測?;陔[含語義分析算法的對文本中不良信息的檢測可以消除文本中同義詞、多義詞的影響,提高了檢測的精度。關于隱含語義分析算法的技術(shù)細節(jié),可以參見 Deerwester, S.、S. T. Dumais、G. ff. Furnas、T. K. Landauer 和 R. Harshman 于 1990 年發(fā)表的題為 “Indexing by Latent Semantic Analysis” 的文章(參見,Journal of theAmerican Society for Information Science, 391-407,1990),其全部內(nèi)容通過引用合并于此。然而,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,在檢測中可能會面對多種復雜的應用場景,僅基于一種單一算法來檢測文本中的不良信息并非是足夠準確的。因此,希望存在一種可以針對復雜應用場景來靈活地檢測文本中的不良信息的方案。此外,在進行檢測時,也希望在檢測中可以進一步利用輔助信息(例如,與發(fā)布文本的用戶相關的信息以及文本自身的特點等)來進一步提高檢測的準確性和效率。
發(fā)明內(nèi)容
在下文中給出了關于本發(fā)明的簡要概述,以便提供關于本發(fā)明的某些方面的基本 理解。應當理解,這個概述并不是關于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。本發(fā)明的目的在于提供一種可以更精確和更靈活地檢測文本中的不良信息的方法和設備。根據(jù)本發(fā)明的一個方面,提供了一種用于檢測文本中不良信息的方法,包括a.對文本進行評估以得到初步評估值;b.基于輔助信息,對初步評估值進行調(diào)整;c.基于經(jīng)調(diào)整的初步評估值,判斷文本是否包含不良信息。在本發(fā)明的一個實施例中,步驟a包括基于一種算法對文本進行評估來得到初步評估值。在本發(fā)明的另一個實施例中,步驟a包括al.基于多種算法,分別對文本進行評估從而得到多個算法評估值;a2.為多個算法評估值中的每一個值分別賦予對應的預定權(quán)重值;a3.基于多個算法評估值以及各自的權(quán)重來得到初步評估值。在本發(fā)明的一個實施例中,步驟b包括bl.根據(jù)輔助信息,設置用于調(diào)整初步評估值的調(diào)整因子;b2.將調(diào)整因子應用于初步評估值,從而得到經(jīng)調(diào)整的初步評估值。在本發(fā)明的一個實施例中,步驟c包括cl.將經(jīng)調(diào)整的初步評估值與預定閾值進行比較;c2.如果經(jīng)調(diào)整的初步評估值大于預定閾值,則判定文本中包括不良信息。在本發(fā)明的一個實施例中,輔助信息包括用戶信息和文本信息中的至少一個。在本發(fā)明的一個實施例中,用戶信息包括用戶注冊時間和用戶違禁歷史中的至少一個。在本發(fā)明的一個實施例中,文本信息包括文本內(nèi)容和文本結(jié)構(gòu)特征中的至少一個。在本發(fā)明的一個實施例中,文本結(jié)構(gòu)特征包括文本中特征詞匯的個數(shù)和特征詞匯在文本中所占的比例中的至少一個。在本發(fā)明的一個實施例中,算法包括貝葉斯算法、支持向量機算法以及隱含語義分析算法中的一個或多個。
根據(jù)本發(fā)明的另一方面,提供了一種用于檢測文本中不良信息的設備,包括初步評估裝置,用于對文本進行評估以得到初步評估值;調(diào)整裝置,用于基于輔助信息,對初步評估值進行調(diào)整;判斷裝置,用于基于經(jīng)調(diào)整的初步評估值,判斷文本是否包含不良信息。在本發(fā)明的一個實施例中,初步評估裝置包括算法評估單元,該算法評估單元用于基于一種算法對文本進行評估來得到初步評估值。在本發(fā)明的另一個實施例中,初步評估裝置包括算法評估單元,用于基于多種算法,分別對文本進行評估從而得到多個算法評估值;權(quán)重設置單元,用于為多個算法評估值中的每一個值分別賦予對應的預定權(quán)重值;初步評估值確定單元,用于基于多個算法評估值以及各自的權(quán)重來得到初步評估值。在本發(fā)明的一個實施例中,調(diào)整裝置包括調(diào)整因子設置單元,用于根據(jù)輔助信息,設置用于調(diào)整初步評估值的調(diào)整因子;初步評估值調(diào)整單元,用于將調(diào)整因子應用于初步評估值,從而得到經(jīng)調(diào)整的初步評估值。
在本發(fā)明的一個實施例中,判斷裝置包括比較單元,用于將經(jīng)調(diào)整的初步評估值與預定閾值進行比較;判定單元,用于如果經(jīng)調(diào)整的初步評估值大于預定閾值,則判定文本中包括不良信息。在本發(fā)明的一個實施例中,輔助信息包括用戶信息和文本信息中的至少一個。在本發(fā)明的一個實施例中,用戶信息包括用戶注冊時間和用戶違禁歷史中的至少一個。在本發(fā)明的一個實施例中,文本信息包括文本內(nèi)容和文本結(jié)構(gòu)特征中的至少一個。在本發(fā)明的一個實施例中,文本結(jié)構(gòu)特征包括文本中特征詞匯的個數(shù)和特征詞匯在文本中所占的比例中的至少一個。在本發(fā)明的一個實施例中,算法包括貝葉斯算法、支持向量機算法以及隱含語義分析算法中的一個或多個。根據(jù)本發(fā)明的用于檢測文本中不良信息的方法和設備,可以更精確和更靈活地檢測文本中的不良信息。
通過結(jié)合附圖閱讀以下對目前優(yōu)選的實施例的詳細描述,本發(fā)明的前述和其他特征及優(yōu)點將變得更加明顯。該詳細描述和附圖只是用于說明本發(fā)明,而不是用于限制本發(fā)明的范圍,本發(fā)明的范圍由所附的權(quán)利要求及其等同形式來限定。圖I示出了根據(jù)本發(fā)明一個實施例的用于檢測不良信息的方法的流程圖;圖2示出了根據(jù)本發(fā)明一個實施例的基于多種用于檢測不良信息的算法來得到初步評估值的處理的流程圖;圖3示出了根據(jù)本發(fā)明一個實施例的利用輔助信息來對計算出的初步評估值進行調(diào)整的處理的流程圖;圖4示出了根據(jù)本發(fā)明一個實施例的基于經(jīng)調(diào)整的初步評估值來判斷文本中是否包含不良信息的處理的流程圖;圖5示出了根據(jù)本發(fā)明一個實施例的用于檢測文本中不良信息的設備的示意圖6示出了根據(jù)本發(fā)明一個實施例的初步評估裝置的結(jié)構(gòu)示意圖,其中該初步評估裝置可以基于多種用于檢測不良信息的算法來得到初步評估值;圖7示出了根據(jù)本發(fā)明一個實施例的調(diào)整裝置的結(jié)構(gòu)示意圖,其中該調(diào)整裝置可以利用輔助信息來對計算出的初步評估值進行調(diào)整;圖8示出了根據(jù)本發(fā)明一個實施例的判斷裝置的結(jié)構(gòu)示意圖,其中該判斷裝置可以基于經(jīng)調(diào)整的初步評估值來判斷文本中是否包含不良信息;以及圖9示出了可以實現(xiàn)根據(jù)本發(fā)明的實施例的計算設備的示意圖。
具體實施例方式以下將參考附圖詳細地描述本發(fā)明的實施例。
圖I示出根據(jù)本發(fā)明一個實施例的用于檢測文本中不良信息的方法的流程圖。
如圖I所示,在步驟a處,可以對文本進行評估以得到初步評估值。具體來說,所述文本可以是從網(wǎng)站實時抓取來的網(wǎng)頁中的文本(例如用戶從論壇、博客、微博等發(fā)布的文本),或者,也可以是已經(jīng)下載的待檢測的文本(例如,存儲在存儲介質(zhì)中的文本)??梢曰趩蝹€用于檢測不良信息的算法(包括已知的可以用于檢測不良信息的算法和將來將要出現(xiàn)的可以用于檢測不良信息的算法)來對待檢測的文本進行評估,由此得到初步評估值?;蛘?,也可以基于多種用于檢測不良信息的算法(包括已知的可以用于檢測不良信息的算法和將來將要出現(xiàn)的可以用于檢測不良信息的算法)來對待檢測的文本進行評估,由此得到初步評估值?;氐綀D1,在步驟b處,可以進一步基于輔助信息,對初步評估值進行調(diào)整。例如,在本發(fā)明的一個實施例中,輔助信息可以包括與文本對應的用戶(例如,論壇中發(fā)布文本的發(fā)帖人、博客的博主)的用戶信息和/或文本的文本信息。在本發(fā)明的一個具體實施例中,所述用戶信息可以包括用戶注冊時間和/或用戶違禁歷史(即用戶之前是否發(fā)表過不良信息)。在本發(fā)明的另一個具體實施例中,所述文本信息可以包括文本內(nèi)容和/或文本結(jié)構(gòu)特征。其中文本結(jié)構(gòu)特征則可以包括文本中特征詞匯的個數(shù)和特征詞匯在文本中所占的比例。以上關于輔助信息、輔助信息所包括的用戶信息、輔助信息所包括的文本信息的描述僅為示例,本發(fā)明不限于此,輔助信息、用戶信息、文本信息也可以包括其它合適的信
肩、O回到圖1,在步驟c處,可以基于經(jīng)調(diào)整的初步評估值來判斷文本中是否包含不良信息,由此可以實現(xiàn)對文本中的不良信息的檢測。在圖I所示的實施例中,由于在針對文本中的不良信息的檢測過程中進一步利用了輔助信息(例如,用戶信息和文本信息),所以可以提高檢測的準確性。如上所述,在根據(jù)本發(fā)明實施例的用于檢測不良信息的方法中,可以利用單個用于檢測不良信息的算法(包括已知的可以用于檢測不良信息的算法和將來將要出現(xiàn)的可以用于檢測不良信息的算法)來對待檢測的文本進行評估,也可以基于多種用于檢測不良信息的算法(包括已知的可以用于檢測不良信息的算法和將來將要出現(xiàn)的可以用于檢測不良信息的算法)來對待檢測的文本進行評估。例如,在本發(fā)明的一個實施例中,可以基于貝葉斯算法、支持向量機算法和隱含語義分析算法中的任意一種來對待檢測的文本進行評估,將評估結(jié)果作為可以表示文本中是否存在不良信息的初步評估值。作為一個優(yōu)選的示例,算法的評估結(jié)果以及初步評估值均可以通過表示文本中存在不良信息的概率來表示。算法的評估結(jié)果、初步評估值越大,則表明文本中存在不良信息的概率越大。此外,在本發(fā)明的另一個實施例中,也可以基于貝葉斯算法、支持向量機算法和隱含語義分析算法中的任意兩種算法或全部三種算法來得到可以表示文本中是否存在不良信息的初步評估值。作為一個優(yōu)選的示例,算法的評估結(jié)果以及初步評估值均可以通過表示文本中存在不良信息的概率來表示。算法的評估結(jié)果、初步評估值越大,則表明文本中存在不良信息的概率越大。圖2是示出根據(jù)本發(fā)明一個實施例的基于多種用于檢測不良信息的算法來得到初步評估值的處理的流程圖。 如圖2所示,在步驟al處,可以基于多種算法分別對所述文本進行評估從而得到多個算法評估值。在本發(fā)明的一個具體實施例中,可以利用貝葉斯算法、支持向量機算法和隱含語義分析算法中的每個來對待檢測的文本進行評估,據(jù)此可以得到與各個算法對應的表示文本中是否存在不良信息的多個算法評估值(例如,貝葉斯算法評估值、支持向量機算法評估值和隱含語義分析算法評估值)。接著,在步驟a2處,可以為多個算法評估值中的每一個值分別賦予對應的預定權(quán)重值。具體來說,可以根據(jù)實際應用場景來為多個算法評估值分別設置合理的預定權(quán)重值。例如,在貝葉斯算法較為適用的情形下(例如,文本屬于不良信息的先驗概率的信息較為準確和充分的情況),可以為貝葉斯算法評估值設置較大的權(quán)重值;在支持向量機算法較為適用的情形下(例如,小樣本、非線性及高維模式識別的應用場景),可以為支持向量機算法評估值設置較大的權(quán)重值;在隱含語義分析算法較為適用的情形下(例如,文本中同義詞、多義詞較多的情況),可以為隱含語義分析算法評估值設置較大的權(quán)重值。在本發(fā)明的一個具體實施例中,在已經(jīng)基于貝葉斯算法、支持向量機算法和隱含語義分析算法中的每一個分別對待檢測的文本進行了評估的情況下,如果可以確定貝葉斯算法較為適用(例如,應用場景為文本屬于不良信息的先驗概率的信息較為準確和充分的情況),則可以為貝葉斯算法評估值設置較大的權(quán)重值而為支持向量機算法評估值和隱含語義分析算法評估值設置較小的權(quán)重值。例如,可以將貝葉斯算法評估值的權(quán)重設置為O. 6而將支持向量機算法評估值和隱含語義分析算法評估值的權(quán)重值分別設置為O. 2。接著,在步驟a3處,可以基于所述多個算法評估值以及各評估值相應的權(quán)重來得到初步評估值。作為一個簡單的示例,可以通過權(quán)重和的方式來計算初步評估值。具體來說,可以將每個算法評估值與其相應的權(quán)重值相乘,并計算所述多個算法評估值的加權(quán)和,作為初步評估值。
這樣,在根據(jù)上述實施例的用于檢測不良信息的方法中,通過針對各種不同的應用場景靈活地設置相應的權(quán)重,由此可以提高適應當前應用場景的算法的在整個檢測過程中的影響比例,因而可以更為準確地計算出初步評估值,由此也可以更為準確地判斷出文本中是否存在不良息。盡管在上述關于基于多種用于檢測不良信息的算法來得到初步評估值的處理的描述中,以貝葉斯算法、支持向量機算法和隱含語義分析算法為例進行了說明,但以上說明僅為示例,本發(fā)明并不限于此。例如,也可以基于其它數(shù)目的算法來得到初步評估值,并且還可以使用其它任意已知的可以用于檢測不良信息的算法和將來將要出現(xiàn)的可以用于檢測不良信息的算法。在根據(jù)任意上述實施例的用于檢測文本中的不良信息的方法中,在計算出初步評估值之后,還可以進一步利用輔助信息來對計算出的初步評估值進行調(diào)整,并根據(jù)調(diào)整后的初步評估值來進行判斷,以便進一步提高檢測的準確性。圖3示出了根據(jù)本發(fā)明一個實施例的利用輔助信息來對計算出的初步評估值進 行調(diào)整的處理的流程圖。如圖3所示,在步驟bl處,可以根據(jù)輔助信息來得到用于調(diào)整初步評估值的調(diào)整因子。在本發(fā)明的一個實施例中,輔助信息可以僅包括與發(fā)布文本的用戶有關的用戶信息,并可以利用該用戶信息來設置調(diào)整因子。在一個具體實施例中,用戶信息可以僅包括用戶的注冊時間,因而可以基于用戶的注冊時間來設置調(diào)整因子。例如,如果用戶信息中的注冊時間較短(例如將注冊時間小于三天視為注冊時間較短等),則表明該用戶是新注冊用戶即該用戶發(fā)布的文本中包含不良信息的概率較高,因而可以將用于調(diào)整初步評估值的調(diào)整因子設置為使調(diào)整后的初步評估值變大。例如,可以將調(diào)整因子設置為大于1(例如,1.01、1.02、1.03等)的值。在另一個具體實施例中,用戶信息可以僅包括用戶違禁歷史,因而可以基于用戶違禁歷史來設置調(diào)整因子。例如,如果用戶信息中的用戶違禁歷史表明用戶曾經(jīng)發(fā)布過不良信息,則表明該用戶發(fā)布的文本中包含不良信息的概率較高,因而可以將用于調(diào)整初步評估值的調(diào)整因子設置為使調(diào)整后的初步評估值變大。例如,可以將調(diào)整因子設置為大于I (例如,I. 05、I. I、I. 15 等)的值。在另一個具體示例中,用戶信息也可以包括用戶的注冊時間和用戶違禁歷史,在這種情況下,優(yōu)選地,可以將對應于用戶的注冊時間的調(diào)整因子與對應于用戶違禁歷史的調(diào)整因子相乘來作為用于調(diào)整初步評估值的調(diào)整因子。在本發(fā)明的一個實施例中,輔助信息也可以僅包括反映文本自身特點的文本信息,因而可以該文本信息來設置調(diào)整因子。在一個具體示例中,文本信息中可以包括僅文本內(nèi)容,因而可以基于文本內(nèi)容來設置調(diào)整因子。例如,如果文本信息中的文本內(nèi)容與已知的不良信息匹配程度很高,則表明該文本中包含不良信息的概率較高,因而可以將用于調(diào)整初步評估值的調(diào)整因子設置為使調(diào)整后的初步評估值變大。例如,可以將調(diào)整因子設置為大于I (例如,I. 1、1. 15、1.2等)的值。在另一個具體示例中,文本信息可以僅包括文本結(jié)構(gòu)特征,因而可以基于文本結(jié)構(gòu)特征來設置調(diào)整因子。例如,如果文本結(jié)構(gòu)特征表明該文本中包含不良信息的概率較高(例如,文本結(jié)構(gòu)特征中的特征詞匯的個數(shù)超過閾值或者文本結(jié)構(gòu)特征中的特征詞匯在文本中所占的比例超過閾值),因而可以將用于調(diào)整初步評估值的調(diào)整因子設置為使調(diào)整后的初步評估值變大。例如,可以將調(diào)整因子設置為大于1(例如,1.05、1.1、1. 15等)的值。在另一個具體示例中,文本信息也可以包括文本內(nèi)容和文本結(jié)構(gòu)特征,在這種情況下,優(yōu)選地,可以將對應于文本內(nèi)容的調(diào)整因子與對應于文本結(jié)構(gòu)特征的調(diào)整因子相乘來作為用于調(diào)整初步評估值的調(diào)整因子。此外,如上所述,輔助信息也可以包括用戶信息和文本信息。在這種情況下,優(yōu)選地,可以將對應于用戶信息的調(diào)整因子與對應于文本信息的調(diào)整因子相乘來作為用于調(diào)整初步評估值的調(diào)整因子。接著,如圖3所述,在步驟b2處,可以將設置的調(diào)整因子應用于初步評估值,從而得到經(jīng)調(diào)整的初步評估值。
具體來說,可以將調(diào)整因子與初步評估值相乘,來得到經(jīng)調(diào)整的初步評估值。在這種情況下,如果調(diào)整因子大于1,則經(jīng)調(diào)整的初步評估值增加(即文本中存在不良信息的概率增大);類似地,如果調(diào)整因子小于1,則經(jīng)調(diào)整的初步評估值減少(即文本中存在不良信息的概率減少)。由此,可以通過輔助信息對初步評估值進行調(diào)整,由此可以進一步提高對文本中不良信息檢測的準確性。在根據(jù)任意上述實施例的用于檢測文本中的不良信息的方法中,在基于輔助信息對初步評估值進行調(diào)整之后,還可以基于經(jīng)調(diào)整的初步評估值來判斷文本中是否包含不良信息。例如,在本發(fā)明的一個實施例中,可以通過閾值比較的方法來基于經(jīng)調(diào)整的初步評估值來判斷文本中是否包含不良信息。圖4示出了根據(jù)該實施例的基于經(jīng)調(diào)整的初步評估值來判斷文本中是否包含不良信息的處理的流程圖。如圖4所示,在步驟Cl處,將經(jīng)調(diào)整的初步評估值與預定閾值進行比較,從而判斷經(jīng)調(diào)整的初步評估值是否大于預定閾值。其中,該預定閾值可以是根據(jù)經(jīng)驗值預先設定的值,優(yōu)選地,該預定閾值可以是O. 85,0. 9,0. 95 等。參見圖4,如果經(jīng)調(diào)整的初步評估值大于預定閾值,則可以在步驟c2處判定文本中包括不良信息,否則,則可以在步驟c3處判定文本中不包括不良信息。通過根據(jù)任意上述實施例的方法,可以更精確和更靈活地檢測文本中的不良信息。與上述方法類似,本發(fā)明的實施例還提供了用于檢測文本中的不良信息的設備。圖5示出了根據(jù)本發(fā)明一個實施例的用于檢測文本中不良信息的設備500的示意圖。如圖5所示,根據(jù)該實施例的用于檢測文本中不良信息的設備500可以包括初步評估裝置501、調(diào)整裝置502和判斷裝置503。其中,初步評估裝置501可以對文本進行評估以得到初步評估值。例如,初步評估裝置501可以基于單個用于檢測不良信息的算法(包括已知的可以用于檢測不良信息的算法和將來將要出現(xiàn)的可以用于檢測不良信息的算法)來對文本進行評估,由此得到初步評估值。或者,初步評估裝置501也可以基于多種用于檢測不良信息的算法(包括已知的可以用于檢測不良信息的算法和將來將要出現(xiàn)的可以用于檢測不良信息的算法)來對文本進行評估,由此得到初步評估值。調(diào)整裝置502可以進一步基于輔助信息,對初步評估值進行調(diào)整。關于輔助信息的具體內(nèi)容,可以參見之前結(jié)合方法實施例進行的描述,在此不再進行贅述以使說明書保持簡潔。判斷裝置503可以基于經(jīng)調(diào)整的初步評估值來判斷文本是否包含不良信息,由此可以實現(xiàn)對文本中的不良信息的檢測。
在圖5所示的實施例中,由于用于檢測文本中不良信息的設備500在針對文本中的不良信息的檢測過程中進一步利用了輔助信息(例如,用戶信息和文本信息),所以可以提聞檢測的準確性。如上所述,初步評估裝置501可以利用單個用于檢測不良信息的算法(包括已知的可以用于檢測不良信息的算法和將來將要出現(xiàn)的可以用于檢測不良信息的算法)來對文本進行評估,也可以基于多種用于檢測不良信息的算法(包括已知的可以用于檢測不良信息的算法和將來將要出現(xiàn)的可以用于檢測不良信息的算法)來對文本進行評估。在本發(fā)明的一個實施例中,初步評估裝置可以基于單個算法來得到初步評估值。具體來說,初步評估裝置可以包括算法評估單元。該算法評估單元例如可以基于貝葉斯算法、支持向量機算法和隱含語義分析算法中的任意一種來對待檢測的文本進行評估,將評估結(jié)果作為可以表示文本中是否存在不良信息的初步評估值。此外,在本發(fā)明的另一個實施例中,初步評估裝置也可以基于多種算法來得到初步評估值。具體來說,初步評估裝置例如可以基于貝葉斯算法、支持向量機算法和隱含語義分析算法中的任意兩種算法或全部三種算法來得到可以表示文本中是否存在不良信息的初步評估值。圖6示出了根據(jù)本發(fā)明一個實施例的初步評估裝置的結(jié)構(gòu)示意圖,其中該初步評估裝置可以基于多種用于檢測不良信息的算法來得到初步評估值。如圖6所示,初步評估裝置600可以包括算法評估單元601、權(quán)重設置單元602和初步評估值確定單元603。具體來說,算法評估單元601可以基于多種算法,分別對所述文本進行評估從而得到多個算法評估值。權(quán)重設置單元602可以根據(jù)具體應用場景來為多個算法評估值中的每一個值分別賦予對應的預定權(quán)重值。初步評估值確定單元603可以基于所述多個算法評估值以及各自的權(quán)重來得到所述初步評估值。這樣,在根據(jù)上述實施例的包括上述初步評估裝置的用于檢測不良信息的設備中,通過針對各種不同的應用場景靈活地設置相應的權(quán)重,由此可以提高適應當前應用場景的算法的在整個檢測過程中的影響比例,因而可以更為準確地計算出初步評估值,由此也可以更為準確地判斷出文本中是否存在不良信息。在根據(jù)任意上述實施例的用于檢測文本中的不良信息的設備中,調(diào)整裝置可以在計算出初步評估值之后,可以進一步利用輔助信息來對計算出的初步評估值進行調(diào)整,并根據(jù)調(diào)整后的初步評估值來進行判斷,以便進一步提高檢測的準確性。圖7示出了根據(jù)本發(fā)明一個實施例的調(diào)整裝置的結(jié)構(gòu)示意圖,該調(diào)整裝置可以利用輔助信息來對計算出的初步評估值進行調(diào)整。如圖7所示,調(diào)整裝置700可以包括調(diào)整因子設置單元701和初步評估值調(diào)整單元702。調(diào)整因子設置單元701可以根據(jù)輔助信息來設置用于調(diào)整所述初步評估值的調(diào)整因子。初步評估值調(diào)整單元702可以將調(diào)整因子應用于所述初步評估值,從而得到所述經(jīng)調(diào)整的初步評估值。由此,調(diào)整裝置可以通過輔助信息對初步評估值進行調(diào)整,由此包括該調(diào)整裝置的用于檢測文本中的不良信息的設備可以進一步提高對文本中不良信息檢測的準確性。在根據(jù)任意上述實施例的用于檢測文本中的不良信息的設備中,判斷裝置可以基于經(jīng)調(diào)整的初步評估值來判斷文本是否包含不良信息。圖8示出了根據(jù)本發(fā)明一個實施例的判斷裝置的結(jié)構(gòu)示意圖。如圖8所述,判斷裝置800可以包括比較單元801和判定單元802。其中,比較單 元801可以將經(jīng)調(diào)整的初步評估值與預定閾值進行比較;判定單元802可以在經(jīng)調(diào)整的初步評估值大于預定閾值情況下,則判定所述文本中包括不良信息。通過根據(jù)任意上述實施例的用于檢測文本中的不良信息的設備,可以更精確和更靈活地檢測文本中的不良信息。此外,根據(jù)本發(fā)明實施例的用于檢測文本中的不良信息的設備與上述的用于檢測文本中的不良信息的方法是對應的,關于用于檢測文本中的不良信息的設備的更為具體的技術(shù)細節(jié),可以參見之前結(jié)合方法進行的描述,在此不再進行贅述以使說明書保持簡潔。圖9示出了可以實現(xiàn)根據(jù)本發(fā)明的實施方式的計算設備的示意圖。圖9中所示的計算機系統(tǒng)包括CPU(中央處理單元)901、RAM(隨機存取存儲器)902、ROM (只讀存儲器)903、系統(tǒng)總線904,硬盤控制器905、鍵盤控制器906、串行接口控制器907、并行接口控制器908、顯示器控制器909、硬盤910、鍵盤911、串行外部設備912、并行外部設備913和顯示器914。在這些部件中,與系統(tǒng)總線904相連的有CPU 901、RAM 902、ROM 903、硬盤控制器905、鍵盤控制器906、串行接口控制器907、并行接口控制器908和顯示器控制器909。硬盤910與硬盤控制器905相連,鍵盤911與鍵盤控制器906相連,串行外部設備912與串行接口控制器907相連,并行外部設備913與并行接口控制器908相連,以及顯示器914與顯示器控制器909相連。圖9中每個部件的功能在本技術(shù)領域內(nèi)都是眾所周知的,并且圖9所示的結(jié)構(gòu)也是常規(guī)的。這種結(jié)構(gòu)不僅用于個人計算機,而且用于手持設備,如Palm PC、PDA(個人數(shù)據(jù)助理)、移動電話等等。在不同的應用中,可以向圖9中所示的結(jié)構(gòu)添加某些部件,或者圖9中的某些部件可以被省略。圖9中所示的整個系統(tǒng)由通常作為軟件存儲在硬盤910中、或者存儲在EPROM或者其它非易失性存儲器中的計算機可讀指令控制。軟件也可從網(wǎng)絡(圖中未示出)下載?;蛘叽鎯υ谟脖P910中,或者從網(wǎng)絡下載的軟件可被加載到RAM902中,并由CPU 901執(zhí)行,以便完成由軟件確定的功能。盡管圖9中描述的計算機系統(tǒng)能夠支持根據(jù)本發(fā)明的檢測文本中不良信息的方案,但是該計算機系統(tǒng)只是計算機系統(tǒng)的一個例子。本領域的熟練技術(shù)人員可以理解,許多其它計算機系統(tǒng)設計也能實現(xiàn)本發(fā)明的實施方式。本發(fā)明還可以實現(xiàn)為例如由圖9所示計算機系統(tǒng)所使用的計算機程序產(chǎn)品,其可以包含有用于實現(xiàn)根據(jù)本發(fā)明的檢測文本中不良信息的方法的代碼。在使用之前,可以把代碼存儲在其它計算機系統(tǒng)的存儲器中,例如,存儲在硬盤或諸如光盤或軟盤的可移動的存儲器中,或者經(jīng)由因特網(wǎng)或其它計算機網(wǎng)絡進行下載。
雖然結(jié)合附圖描述了本發(fā)明的實施方式,但是本領域技術(shù)人員可以在所附權(quán)利要求的范圍內(nèi)做出各種變形或修改。
權(quán)利要求
1.一種用于檢測文本中不良信息的方法,包括a.對所述文本進行評估以得到初步評估值;b.基于輔助信息,對所述初步評估值進行調(diào)整;c.基于經(jīng)調(diào)整的初步評估值,判斷所述文本是否包含不良信息。
2.根據(jù)權(quán)利要求I所述的方法,其中所述步驟a包括基于一種算法對所述文本進行評估來得到所述初步評估值。
3.根據(jù)權(quán)利要求I所述的方法,其中所述步驟a包括al.基于多種算法,分別對所述文本進行評估從而得到多個算法評估值;a2.為所述多個算法評估值中的每一個值分別賦予對應的預定權(quán)重值;a3.基于所述多個算法評估值以及各自的權(quán)重來得到所述初步評估值。
4.根據(jù)權(quán)利要求I所述的方法,其中所述步驟b包括b I.根據(jù)所述輔助信息,設置用于調(diào)整所述初步評估值的調(diào)整因子;b2.將所述調(diào)整因子應用于所述初步評估值,從而得到所述經(jīng)調(diào)整的初步評估值。
5.根據(jù)權(quán)利要求I所述的方法,其中所述步驟c包括Cl.將所述經(jīng)調(diào)整的初步評估值與預定閾值進行比較;c2.如果所述經(jīng)調(diào)整的初步評估值大于預定閾值,則判定所述文本中包括不良信息;c3.如果所述經(jīng)調(diào)整的初步評估值小于或等于預定閾值,則判定所述文本中不包括不良信息。
6.根據(jù)權(quán)利要求I所述的方法,其中所述輔助信息包括用戶信息和文本信息中的至少一個。
7.根據(jù)權(quán)利要求6所述的方法,其中所述用戶信息包括用戶注冊時間和用戶違禁歷史中的至少一個。
8.根據(jù)權(quán)利要求6所述的方法,其中所述文本信息包括文本內(nèi)容和文本結(jié)構(gòu)特征中的至少一個。
9.根據(jù)權(quán)利要求8所述的方法,其中所述文本結(jié)構(gòu)特征包括文本中特征詞匯的個數(shù)和特征詞匯在文本中所占的比例中的至少一個。
10.根據(jù)權(quán)利要求2或3所述的方法,其中所述算法包括貝葉斯算法、支持向量機算法以及隱含語義分析算法中的一個或多個。
11.一種用于檢測文本中不良信息的設備,包括初步評估裝置,用于對所述文本進行評估以得到初步評估值;調(diào)整裝置,用于基于輔助信息,對所述初步評估值進行調(diào)整;判斷裝置,用于基于經(jīng)調(diào)整的初步評估值,判斷所述文本是否包含不良信息。
12.根據(jù)權(quán)利要求I所述的設備,其中所述初步評估裝置包括算法評估單元,該算法評估單元用于基于一種算法對所述文本進行評估來得到所述初步評估值。
13.根據(jù)權(quán)利要求I所述的設備,其中所述初步評估裝置包括算法評估單元,用于基于多種算法,分別對所述文本進行評估從而得到多個算法評估值;權(quán)重設置單元,用于為所述多個算法評估值中的每一個值分別賦予對應的預定權(quán)重值;初步評估值確定單元,用于基于所述多個算法評估值以及各自的權(quán)重來得到所述初步評估值。
14.根據(jù)權(quán)利要求I所述的設備,其中所述調(diào)整裝置包括調(diào)整因子設置單元,用于根據(jù)所述輔助信息,設置用于調(diào)整所述初步評估值的調(diào)整因子;初步評估值調(diào)整單元,用于將所述調(diào)整因子應用于所述初步評估值,從而得到所述經(jīng)調(diào)整的初步評估值。
15.根據(jù)權(quán)利要求I所述的設備,其中所述判斷裝置包括比較單元,用于將所述經(jīng)調(diào)整的初步評估值與預定閾值進行比較;判定單元,用于如果所述經(jīng)調(diào)整的初步評估值大于預定閾值,則判定所述文本中包括不良信息,并且如果所述經(jīng)調(diào)整的初步評估值小于或等于預定閾值,則判定所述文本中不包括不良信息。
16.根據(jù)權(quán)利要求I所述的設備,其中所述輔助信息包括用戶信息和文本信息中的至少一個。
17.根據(jù)權(quán)利要求16所述的設備,其中所述用戶信息包括用戶注冊時間和用戶違禁歷史中的至少一個。
18.根據(jù)權(quán)利要求16所述的設備,其中所述文本信息包括文本內(nèi)容和文本結(jié)構(gòu)特征中的至少一個。
19.根據(jù)權(quán)利要求18所述的設備,其中所述文本結(jié)構(gòu)特征包括文本中特征詞匯的個數(shù)和特征詞匯在文本中所占的比例中的至少一個。
20.根據(jù)權(quán)利要求12或13所述的設備,其中所述算法包括貝葉斯算法、支持向量機算法以及隱含語義分析算法中的一個或多個。
全文摘要
本發(fā)明涉及用于檢測文本中不良信息的方法和設備。該方法包括對文本進行評估以得到初步評估值;基于輔助信息,對所述初步評估值進行調(diào)整;基于經(jīng)調(diào)整的初步評估值,判斷所述文本中是否包含不良信息。通過本發(fā)明的技術(shù)方案,可以更精確和更靈活地檢測文本中的不良信息。
文檔編號G06F17/30GK102929897SQ20111023380
公開日2013年2月13日 申請日期2011年8月12日 優(yōu)先權(quán)日2011年8月12日
發(fā)明者姚海闊, 高婷婷 申請人:北京千橡網(wǎng)景科技發(fā)展有限公司