基于網(wǎng)絡(luò)事件模型的新聞事件監(jiān)測方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)絡(luò)數(shù)據(jù)挖掘領(lǐng)域,特別涉及一種基于網(wǎng)絡(luò)事件模型的新聞事件檢測 方法和裝置。
【背景技術(shù)】
[0002] 新聞事件檢測是網(wǎng)絡(luò)輿情分析處理的一個重要部分。新聞是指網(wǎng)絡(luò)上各個新聞門 戶給出的一篇新聞報道、分析、文章等,是網(wǎng)絡(luò)新聞輿情的一個重要的載體,而事件是指一 系列報道相同事物的新聞的集合。
[0003] 在對新聞事件檢測的數(shù)據(jù)挖掘任務(wù)中,常常采用無監(jiān)督學習的方法來確定一堆新 聞數(shù)據(jù)中的事件關(guān)系,即哪些新聞構(gòu)成一個事件集合。當新聞能以事件的形式展現(xiàn)的時候, 使輿情監(jiān)測的任務(wù)得到極大的簡化,畢竟用戶是為了了解某一個事件的相關(guān)信息而查找和 閱讀相關(guān)的新聞報道。經(jīng)過新聞事件檢測分析之后,新聞以各個事件集合的形式呈現(xiàn)給用 戶,用戶只需要關(guān)注自己感興趣的事件,即可高效、聚焦、全面地獲取到自己希望獲得的信 息。
[0004] 其中,傳統(tǒng)的新聞事件檢測方法,是基于比較兩篇新聞文本相似度來實現(xiàn)的,然 而,在面對網(wǎng)絡(luò)上每天成千上萬的新聞流數(shù)據(jù),傳統(tǒng)方法的處理速度在新聞流數(shù)據(jù)流很大 時難以得到實時的分析結(jié)果,并且準確性也不高,這兩點對于網(wǎng)絡(luò)輿情監(jiān)測來說是極大的 缺陷。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
[0006] 為此,本發(fā)明的一個目的在于提出一種基于網(wǎng)絡(luò)事件模型的新聞事件檢測方法, 該方法能夠?qū)崟r得到新聞分析結(jié)果,在保證實時、準確的分析處理能力的同時還提高了檢 測新聞的效率,從而提升了網(wǎng)絡(luò)輿情分析處理的效果。
[0007] 本發(fā)明的第二目的在于提出一種基于網(wǎng)絡(luò)事件模型的新聞事件檢測裝置。
[0008] 為實現(xiàn)上述目的,本發(fā)明第一方面實施例提出了一種基于網(wǎng)絡(luò)事件模型的新聞事 件檢測方法,包括以下步驟:實時獲取L個媒體新聞門戶網(wǎng)站發(fā)布的Μ個新聞的網(wǎng)頁文本信 息,其中,所述網(wǎng)頁文本信息包括所述新聞的標題信息和所述新聞的文本內(nèi)容信息,L、M均 為正整數(shù);對第i個新聞的網(wǎng)頁文本信息進行分析,提取所述第i個新聞的第一特征信息,其 中,i為正整數(shù),且1 < i SM;根據(jù)所述第i個新聞的第一特征信息計算所述第i個新聞與N個 預先建立的事件簇的N個相似度值,其中,N為正整數(shù);以及根據(jù)所述N個相似度值檢測所述 第i個新聞是否屬于所述N個預先建立的事件簇。
[0009] 根據(jù)本發(fā)明實施例的基于網(wǎng)絡(luò)事件模型的新聞事件檢測方法,首先實時獲取L個 媒體新聞門戶網(wǎng)站發(fā)布的Μ個新聞的網(wǎng)頁文本信息,然后對第i個新聞的網(wǎng)頁文本信息進行 分析,提取第i個新聞的第一特征信息,而后根據(jù)第i個新聞的第一特征信息計算第i個新聞 與N個預先建立的事件簇的N個相似度值,最后根據(jù)N個相似度值檢測第i個新聞是否屬于N 個預先建立的事件簇。因此,該方法能夠?qū)崟r得到新聞分析結(jié)果,在保證實時、準確的分析 處理能力的同時還提高了檢測新聞的效率,從而提升了網(wǎng)絡(luò)輿情分析處理的效果。
[0010] 另外,根據(jù)本發(fā)明上述基于網(wǎng)絡(luò)事件模型的新聞事件檢測方法還可以具有如下附 加的技術(shù)特征:
[0011] 在本發(fā)明的一個實施例中,所述根據(jù)所述N個相似度值檢測所述第i個新聞是否屬 于所述N個預先建立的事件簇,包括:獲取所述N個相似度值中的最大相似度值;判斷所述最 大相似度值是否大于或等于第一預設(shè)閾值;如果所述最大相似度值大于或等于所述第一預 設(shè)閾值,則判斷所述第i個新聞屬于所述最大相似度值所對應的預先建立的事件簇;如果所 述最大相似度值小于所述第一預設(shè)閾值,則判斷所述第i個新聞屬于新的事件。
[0012] 在本發(fā)明的一個實施例中,其中,第一特征信息包括時間信息、內(nèi)容信息、地點信 息和人物信息,所述對第i個新聞的網(wǎng)頁文本信息進行分析,提取所述第i個新聞的第一特 征信息,包括:對所述第i個新聞的標題和文本內(nèi)容信息進行分詞處理,得到所述第i個新聞 的多個語素;對所述多個語素進行識別以確定對應的詞性,并根據(jù)所述詞性提取所述第i個 新聞的內(nèi)容信息、地點信息和人物信息;對所述第i個新聞的網(wǎng)頁文本信息進行解析以得到 所述第i個新聞的發(fā)布時間戳,并將所述發(fā)布時間戳作為所述第i個新聞的時間信息。
[0013] 在本發(fā)明的一個實施例中,所述根據(jù)所述第i個新聞的第一特征信息計算所述第i 個新聞與N個預先建立的事件簇的N個相似度值,包括:針對每個預先建立的事件簇,將所述 每個預先建立的事件簇中的各個新聞的特征信息計算所述事件簇的總特征,以獲取所述每 個預先建立的事件簇的第二特征信息;基于所述第i個新聞的第一特征信息中的第j特征, 計算所述第j特征與所述第二特征信息中對應的特征之間的第j相似度值,其中,j為正整 數(shù),且1 < j <所述第一特征信息所包含特征的個數(shù);基于所述所述第i個新聞的第一特征信 息以及所述第二特征信息,根據(jù)所述第j相似度值計算所述第i個新聞與所述每個預先建立 的事件簇的相似度值。
[0014] 在本發(fā)明的一個實施例中,所述根據(jù)所述第j相似度值計算所述第i個新聞與所述 每個預先建立的事件簇的相似度值,包括:判斷所述第j相似度值是否大于或等于對應的第 二預設(shè)閾值;如果所述第j相似度值大于或等于所述對應的第二預設(shè)閾值,則根據(jù)所述第j 相似度值計算所述第i個新聞與所述每個預先建立的事件簇的相似度值;如果所述第j相似 度值小于所述對應的第二預設(shè)閾值,則計算所述第i個新聞與對應的預先建立的事件簇的 相似度值為零。
[0015] 在本發(fā)明的一個實施例中,所述預先建立的事件簇通過以下步驟建立:實時獲取L 個媒體新聞門戶網(wǎng)站發(fā)布的多個新聞的網(wǎng)頁文本信息,其中,所述網(wǎng)頁文本信息包括所述 新聞的標題信息和所述新聞的文本內(nèi)容信息,L為正整數(shù);對所述多個新聞的網(wǎng)頁文本信息 進行分析,提取所述多個新聞的第一特征信息;根據(jù)所述多個新聞的第一特征信息計算兩 兩新聞之間的相似度值;當判斷所述兩兩新聞之間的相似度值大于或等于第三預設(shè)閾值 時,將所述兩兩新聞進行組合,以建立對應的事件簇。
[0016] 在本發(fā)明的一個實施例中,在判斷所述第i個新聞屬于所述最大相似度值所對應 的預先建立的事件簇之后,還包括:將所述第i個新聞添加至所述最大相似度值所對應的預 先建立的事件簇;根據(jù)所述第i個新聞的第一特征信息對所述最大相似度值所對應的預先 建立的事件簇的第二特征信息進行更新。
[0017] 在本發(fā)明的一個實施例中,上述基于網(wǎng)絡(luò)事件模型的新聞事件檢測方法還包括: 針對所述N個預先建立的事件簇,獲取第k預先建立的事件簇中所包含的新聞數(shù)目,其中,k 為正整數(shù),1 < k < N;判斷所述第k預先建立的事件簇中所包含的新聞數(shù)目是否大于或等于 第四預設(shè)閾值;如果大于或等于所述第四預設(shè)閾值,則計算所述第k預先建立的事件簇中所 包含的每個新聞與所述第k預先建立的事件簇之間的相似度值;判斷所述第k預先建立的事 件簇中所包含的每個新聞與所述第k預先建立的事件簇之間的相似度值是否小于第五預設(shè) 閾值;如果小于所述第五預設(shè)閾值,則將小于所述第五預設(shè)閾值對應的新聞從所述第k預先 建立的事件簇中進行移除;如果所述第k預先建立的事件簇中所包含的新聞數(shù)目小于所述 第四預設(shè)閾值,和/或,所述第k預先建立的事件簇中所包含的每個新聞與所述第k預先建立 的事件簇之間的相似度值大于或等于所述第五預設(shè)閾值,則計算所述第k預先建立的事件 簇與第g預先建立的事件簇之間的相似度值,其中,g為正整數(shù),1 < g < N,且g矣k;判斷所述 第k預先建立的事件簇與第g預先建立的事件簇之間的相似度值是否大于或等于第六預設(shè) 閾值;如果大于或等于所述第六預設(shè)閾值,則將所述第k預先建立的事件簇與第g預先建立 的事件簇進行合并。
[0018] 為實現(xiàn)上述目的,本發(fā)明第二方面實施例提出了一種基于網(wǎng)絡(luò)事件模型的新聞事 件檢測裝置,包括:第一獲取模塊,用于實時獲取L個媒體新聞門戶網(wǎng)站發(fā)布的Μ個新聞的網(wǎng) 頁文本信息,其中,所述網(wǎng)頁文本信息包括所述新聞的標題信息和所述新聞的文本內(nèi)容信 息,L、M均為正整數(shù);提取模塊,用于對第i個新聞的網(wǎng)頁文本信息進行分析,提取所述第i個 新聞的第一特征信息,其中,i為正整數(shù),且1 < i SM;第一計算模塊,用于根據(jù)所述第i個新 聞的第一特征信息計算所述第i個新聞與N個預先建立的事件簇的N個相似度值,其中,N為 正整數(shù);以及檢測模塊,用于根據(jù)所述N個相似度值檢測所述第i個新聞是否屬于所述N個預 先建立的事件簇。
[0019] 根據(jù)本發(fā)明實施例的基于網(wǎng)絡(luò)事件模型的新聞事件檢測裝置,首先通過第一獲取 模塊實時獲取L個媒體新聞門戶網(wǎng)站發(fā)布的Μ個新聞的網(wǎng)頁文本信息,然后通過提取模塊對 第i個新聞的網(wǎng)頁文本信息進行分析,提取第i個新聞的第一特征信息,而后第一計算模塊 根據(jù)第i個新聞的第一特征信息計算第i個新聞與N個預先建立的事件簇的N個相似度值,最 后檢測模塊根據(jù)N個相似度值檢測第i個新聞是否屬于N個預先建立的事件簇。因此,該裝置 能夠?qū)崟r得到新聞分析結(jié)果,在保證實時、準確的分析處理能力的同時還提高了檢測新聞 的效率,從而提升了網(wǎng)絡(luò)輿情分析處理的效果。
[0020] 上述基于網(wǎng)絡(luò)事件模型的新聞事件檢測裝置還可以具有如下附加的技術(shù)特征:
[0021] 在本發(fā)明的一個實施例中,所述檢測模塊,具體用于:獲取所述N個相似度值中的 最大相似度值;判斷所述最大相似度值是否大于或等于第一預設(shè)閾值;如果所述最大相似 度值大于或等于所述第一預設(shè)閾值,則判斷所述第i個新聞屬于所述最大相似度值所對應 的預先建立的事件簇;如果所述最大相似度值小于所述第一預設(shè)閾值,則判斷所述第i個新 聞屬于新的事件。
[0022] 在本發(fā)明的一個實施例中,其中,第一特征信息包括時間信息、內(nèi)容信息、地點信 息和人物信息,所述提取模塊,具體用于:對所述第i個新聞的標題和文本內(nèi)容信息進行分 詞處理,得到所述第i個新聞的多個語素;對所述多個語素進行識別以確定對應的詞性,并 根據(jù)所述詞性提取所述第i個新聞的內(nèi)容信息、地點信息和人物信息;對所述第i個新聞的 網(wǎng)頁文本信息進行解析以得到所述第i個新聞的發(fā)布時間戳,并將所述發(fā)布時間戳作為所 述第i個新聞的時間信息。
[0023] 在本發(fā)明的一個實施例中,所述第一計算模塊,具體用于:針對每個預先建立的事 件