專利名稱:一種基于改進的文本空間向量表示的熱點發(fā)現(xiàn)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及文本挖掘技術(shù),自然語言處理特別涉及一種基于改進的文本空間向量表示的熱點發(fā)現(xiàn)方法和輿情控制系統(tǒng)。
背景技術(shù):
數(shù)據(jù)挖掘是從巨量數(shù)據(jù)中發(fā)現(xiàn)有效的、新穎的、潛在有用的并且最終可理解的模式的非平凡過程。數(shù)據(jù)挖掘就是為了解決當今擁有大量數(shù)據(jù),但缺乏有效分析手段的困境而出現(xiàn)的研究領(lǐng)域。目前,已經(jīng)在包括生物信息學,自然語言處理等許多方面發(fā)揮了巨大的作用。互聯(lián)網(wǎng)輿情分析,主要是基于網(wǎng)絡上發(fā)布的文本信息內(nèi)容進行,因此離不開文本挖掘技術(shù)。在文本挖掘技術(shù)中主要關(guān)注文本特征提取和文本分類技術(shù)。特征提取是文本分類的基礎,好的特征提取方法不僅能改變文本處理的正確率,更重要的是能縮小處理文本的向量維數(shù),增加效率,提高系統(tǒng)的整體性能。但是,目前在中文處理系統(tǒng)中并沒有把特征的提取和優(yōu)化作為重點來研究,只是試圖從處理(分類或聚類)算法著手來提高分類的正確性,雖然有些系統(tǒng)達到了比較好的效果,但是,它們必須是建立在大量訓練樣本的條件下實現(xiàn)的,而對于網(wǎng)絡上大量的隨機信息并不太適合。近幾年,特征提取系統(tǒng)和方法在文本處理中得到了廣泛的應用,加快了文本處理的發(fā)展。、在目前所采用的文檔表示方法中,存在一個共同的不合人意的地方是文檔特征向量具有驚人的維數(shù),使特征子集的選取成為文本挖掘過程中必不可少的一個環(huán)節(jié)。特征提取即進行維數(shù)壓縮的工作,這樣做的目的主要是提高程序效率和運行速度,同時提高分類精度,快速篩選出針對該類的特征項集合。特征提取的主要方法有兩種一是獨立評估方法,基于詞間關(guān)系相互獨立的基本假設(正交假設),對特征進行權(quán)值調(diào)整有多種標準互信息、期望交叉熵、信息增益等?;舅枷胧菍μ卣骷械拿總€特征進行獨立的評估。通過構(gòu)造一個算法,對每個特征進行權(quán)值調(diào)整,然后按權(quán)值大小排序,根據(jù)權(quán)閥值或預定的特征數(shù)目選取最佳特征子集作為特征提取的結(jié)果。二是綜合評估方法,文本中出現(xiàn)的詞往往存在一定的相關(guān)性,即出現(xiàn)斜交情況,在某種程度上會影響計算的結(jié)果。因此,可以采用一種綜合評估方法對這些高維的、彼此間不獨立的原始特征集中進行變換,得到較少的描述這些特征的綜合指標。綜合評估方法是從高維的、彼此間不獨立的原始特征集中找出較少的描述這些特征的綜合指標。這些綜合指標之間相互獨立,并且可用得到的綜合指標對特征集進行選擇。90年代以來,眾多的統(tǒng)計方法和機器學習方法應用于自動文本分類,文本分類技術(shù)的研究引起了研究人員的極大興趣。目前在國內(nèi)也已經(jīng)開始對中文文本分類進行研究,并在信息檢索、Web文檔自動分類、數(shù)字圖書館、自動文摘、分類新聞組、文本過濾、單詞語義辨析以及文檔的組織和管理等多個領(lǐng)域得到了初步的應用。近年來文本分類技術(shù)取得了很大的進展,提出了多種特征抽取方法和分類方法,如回歸模型、支持向量機、最大熵模型等,研究了一些相當成功的分類系統(tǒng),建立了 OHSUMED,Reuters等開放的分類語料庫。分類是重要的數(shù)據(jù)挖掘方法,在文本分類中,幾乎存在著和一般分類同樣多的方法。在眾多的文本分類算法中,比較常用的有Rocchio算法、樸素貝葉斯分類算法、K-近鄰算法、決策樹算法、神經(jīng)網(wǎng)絡算法和支持向量機算法。采用文本挖掘技術(shù),能夠?qū)崿F(xiàn)互聯(lián)網(wǎng)文本的相似搜索與消重、熱點發(fā)現(xiàn)與追蹤和關(guān)聯(lián)分析與趨勢分析。其中,熱點發(fā)現(xiàn)是指在各種信息來源中追蹤那些討論目標熱點的相關(guān)信息片段,發(fā)現(xiàn)信息片斷集合中的各個未知熱點,并能在線檢測出新熱點。關(guān)聯(lián)分析是從海量數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則,同時,利用趨勢分析技術(shù),分析網(wǎng)絡輿論等隨時間的發(fā)展趨勢情況,以便實現(xiàn)對輿論環(huán)境的監(jiān)測與不良傾向的預警。
發(fā)明內(nèi)容
提供一種基于改進的文本空間向量表示的熱點發(fā)現(xiàn)方法,該方法包括對文本信息構(gòu)建特征向量模型以及一種使用了改進的文本空間向量表示方法。其中文本信息構(gòu)建特征向量模型方法具體包括對數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)進行分詞處理,以詞為一維,文檔為一維建立二維空間向量并計算每個詞在文檔中的詞頻放入二維空間向量中。改進的文本空間向量表示方法
其中,表示第i個特征詞的權(quán)重,表示詞t在文檔d中的出現(xiàn)頻率,N表示總的文檔數(shù),表示包含t的文檔數(shù)。本發(fā)明提供了一個實現(xiàn)熱點發(fā)現(xiàn)的輿情監(jiān)控系統(tǒng),該裝置包括
輿情獲取模塊,用于獲取網(wǎng)絡上了的大量輿情信息,收集到數(shù)據(jù)庫,以便后期處理。包括配置模塊,用于設定爬蟲抓取網(wǎng)頁的范圍,通過設定網(wǎng)站入口列表,爬取深度,輪詢爬取時間來確定爬蟲爬取的范圍,以及爬取模塊,用于與指定網(wǎng)站建立連接,按照配置模塊中的爬取深度及輪詢爬取時間來抓取網(wǎng)頁,保存到服務器數(shù)據(jù)庫中;
預處理模塊,包括網(wǎng)頁去噪模塊,用于對網(wǎng)頁進行有用信息提取,使用正則表達式對網(wǎng)頁內(nèi)容進行匹配,提取出結(jié)構(gòu)化信息保存至數(shù)據(jù)庫,以及去重模塊,對抓取到的網(wǎng)頁進行排重處理;
分詞模塊,用于對中文文本的自然語言處理,把文本分為一個個帶詞性的詞,從而使得系統(tǒng)以詞為最小識別單位進行處理;
聚類模塊,用于在構(gòu)建完特征向量庫之后,對具有相同特征的文檔進行歸類,從而實現(xiàn)熱點發(fā)現(xiàn)。
圖1為輿情獲取模塊示意圖; 圖2為預處理模塊示意圖3為聚類模塊示意圖。
權(quán)利要求
1.一種基于改進的文本空間向量表示的熱點發(fā)現(xiàn)方法,其特征在于,該方法包括 對文本信息構(gòu)建特征向量模型;使用了改進的文本空間向量表示方法。
2.如權(quán)利要求1所述的方法,其特征在于,所述對文本信息構(gòu)建特征向量模型方法具體包括對數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)進行分詞處理,以詞為一維,文檔為一維建立二維空間向量; 計算每個詞在文檔中的詞頻放入二維空間向量中。
3.一個實現(xiàn)熱點發(fā)現(xiàn)的輿情監(jiān)控系統(tǒng),其特征在于,該裝置包括輿情獲取模塊,用于獲取網(wǎng)絡上了的大量輿情信息,收集到數(shù)據(jù)庫,以便后期處理; 預處理模塊,用于對數(shù)據(jù)庫中的大量網(wǎng)頁進行去噪音處理,去重,并且存入結(jié)構(gòu)化數(shù)據(jù)庫;分詞模塊,用于對中文文本的自然語言處理,把文本分為一個個帶詞性的詞,從而使得系統(tǒng)以詞為最小識別單位進行處理;聚類模塊,用于在構(gòu)建完特征向量庫之后,對具有相同特征的文檔進行歸類,從而實現(xiàn)熱點發(fā)現(xiàn)。
4.如權(quán)利要求4所述的裝置,其特征在于,所述輿情獲取模塊包括配置模塊,用于設定爬蟲抓取網(wǎng)頁的范圍,通過設定網(wǎng)站入口列表,爬取深度,輪詢爬取時間來確定爬蟲爬取的范圍;爬取模塊,用于與指定網(wǎng)站建立連接,按照配置模塊中的爬取深度及輪詢爬取時間來抓取網(wǎng)頁,保存到服務器數(shù)據(jù)庫中。
5.如權(quán)利要求4所述的裝置,其特征在于,所述預處理模塊包括網(wǎng)頁去噪模塊,用于對網(wǎng)頁進行有用信息提取,使用正則表達式對網(wǎng)頁內(nèi)容進行匹配, 提取出結(jié)構(gòu)化信息保存至數(shù)據(jù)庫;去重模塊,對抓取到的網(wǎng)頁進行排重處理。
6.如權(quán)利要求4所述的裝置,其特征在于,所述分詞模塊包括使用分詞系統(tǒng)對中文文本進行文本拆分,以詞為最小單位,為后續(xù)自然語言處理做準備工作。
7.如權(quán)利要求4所述的裝置,其特征在于,所述聚類模塊包括使用聚類算法對特征向量庫中的特征向量進行處理,把相似度高的文本聚為一類,從而實現(xiàn)熱點發(fā)現(xiàn)。
全文摘要
本發(fā)明公開了一種基于改進的文本空間向量表示的熱點發(fā)現(xiàn)方法一種基于改進的文本空間向量表示的熱點發(fā)現(xiàn)方法,該方法包括使用改進的文本空間向量表示方法來搭建向量模型,使得網(wǎng)絡文本變成可以被計算機識別和處理的向量模型,從而可以進一步進行熱點發(fā)現(xiàn)。同時提供了一個實現(xiàn)熱點發(fā)現(xiàn)的輿情監(jiān)控系統(tǒng)。
文檔編號G06F17/27GK102567405SQ201010618099
公開日2012年7月11日 申請日期2010年12月31日 優(yōu)先權(quán)日2010年12月31日
發(fā)明者宮哲, 蔣琴琴, 賀智明 申請人:北京安碼科技有限公司