專利名稱:互聯(lián)網(wǎng)輿情的專題分析方法和裝置的制作方法
技術領域:
本發(fā)明涉及互聯(lián)網(wǎng)技術領域,具體而言,涉及一種互聯(lián)網(wǎng)輿情的專題分析方法和
>J-U ρ α裝直。
背景技術:
目前獲得網(wǎng)絡輿情專題的辦法一般是:對大型門戶網(wǎng)站、論壇或者熱門論壇進行人工監(jiān)看,發(fā)現(xiàn)相關信息后,手工形成專題。此方法存在以下缺點:效率低:需要投入大量的人力來監(jiān)看關注的互聯(lián)網(wǎng)信息,每個專題的生成需要查看大量的網(wǎng)頁連接,耗時耗力。靈活性差:依靠上面的方式,只能發(fā)現(xiàn)所關注的有限網(wǎng)站上的輿情專題,未關注網(wǎng)站上面的相關輿情信息會被遺漏。
發(fā)明內(nèi)容
本發(fā)明旨在提供一種互聯(lián)網(wǎng)輿情的專題分析方法和裝置,以解決在海量輿情數(shù)據(jù)中及時準確地得到專題的問題。在本發(fā)明的實施例中,提供了一種互聯(lián)網(wǎng)輿情的專題分析方法,包括:采集互聯(lián)網(wǎng)輿情文件;采用預設的專題規(guī)則匹配互聯(lián)網(wǎng)輿情文件;對匹配成功的互聯(lián)網(wǎng)輿情文件生成專題。在本發(fā)明的實施例中,提供了一種互聯(lián)網(wǎng)輿情的專題分析裝置,包括:采集模塊,用于采集互聯(lián)網(wǎng)輿情文件;匹配模塊,用于采用預設的專題規(guī)則匹配互聯(lián)網(wǎng)輿情文件;生成模塊,用于對匹配成功的互聯(lián)網(wǎng)輿情文件生成專題。本發(fā)明上述實施例的聯(lián)網(wǎng)輿情的專題分析方法和裝置,實現(xiàn)了在海量輿情數(shù)據(jù)中及時準確地得到專題。
此處所說明的附圖用來提供對本發(fā)明的進一步理解,構成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構成對本發(fā)明的不當限定。在附圖中:圖1示出了根據(jù)本發(fā)明實施例的互聯(lián)網(wǎng)輿情的專題分析方法的流程圖;圖2示出了根據(jù)本發(fā)明實施例的網(wǎng)絡輿情專題分析的流程圖;圖3示出了根據(jù)本發(fā)明實施例的專題配置流程圖;圖4示出了根據(jù)本發(fā)明實施例的專題獲取流程圖;圖5示出了根據(jù)本發(fā)明實施例的專題展示流程圖;圖6示出了根據(jù)本發(fā)明實施例的互聯(lián)網(wǎng)輿情的專題分析裝置的示意圖;圖7示出了根據(jù)本發(fā)明優(yōu)選實 施例的網(wǎng)絡輿情專題分析裝置的示意圖。
具體實施方式
下面將參考附圖并結合實施例,來詳細說明本發(fā)明。圖1示出了根據(jù)本發(fā)明實施例的互聯(lián)網(wǎng)輿情的專題分析方法的流程圖,包括:步驟S10,采集互聯(lián)網(wǎng)輿情文件;步驟S20,采用預設的專題規(guī)則匹配互聯(lián)網(wǎng)輿情文件;步驟S30,對匹配成功的互聯(lián)網(wǎng)輿情文件生成專題。本方法設置了專題規(guī)則來匹配生成專利,可以很容易地通過計算機編程來實現(xiàn),從而以自動化代替了人工操作,實現(xiàn)了在海量輿情數(shù)據(jù)中及時準確地得到專題。優(yōu)選地,從以下至少一種互聯(lián)網(wǎng)信息源中采集互聯(lián)網(wǎng)輿情文件:新聞網(wǎng)站、論壇、博客、微博、即時通信例如QQ、SNS等信息源。本優(yōu)選實施例覆蓋了常見的互聯(lián)網(wǎng)信息源。優(yōu)選地,步驟S20包括:讀取互聯(lián)網(wǎng)輿情文件的內(nèi)容;確定將內(nèi)容的拼音;以專題規(guī)則中的拼音形式的關鍵詞檢索式檢索內(nèi)容的拼音。例如,定義了一個專題規(guī)則:(gugong and bei jing) not taiwan ;利用該專題規(guī)則對互聯(lián)網(wǎng)輿情文件中包含故宮、北京,并且不包含臺灣的文件進行分析,生成相應的專題,例如:故宮建福宮、故宮失竊、故宮到北京市公安局贈送錦旗有錯字等多個專題。本方法簡單易行。優(yōu)選地,對匹配成功的互聯(lián)網(wǎng)輿情文件生成專題包括:讀取匹配成功的互聯(lián)網(wǎng)輿情文件的內(nèi)容、時間、標題、網(wǎng)站類型、網(wǎng)站資質(zhì)、訪問量、回帖量和所屬網(wǎng)站信息;采用質(zhì)心比較方法或最近鄰比較方法,確定與匹配成功的互聯(lián)網(wǎng)輿情文件最相近的專題;若不存在與匹配成功的互聯(lián)網(wǎng)輿情相近的專題,則將其列為新專題;若存在與匹配成功的互聯(lián)網(wǎng)輿情相近的專題,則將其加入最相近的專題。質(zhì)心比較方法或最近鄰比較方法都是比較常用的方法,可以將意義相近的互聯(lián)網(wǎng)輿情文件集中到一起,構建一個專題。優(yōu)選地,質(zhì)心比較方法包括:將讀取到的內(nèi)容與已有專題進行比較,同時考慮時間特征和內(nèi)容特征,計算所選輿情文件和專題間的相似度,已有專題本身通過其中綜合權重最高的文章來表達。優(yōu)選地,最近鄰比較方法包括:當以一個專題規(guī)則處理設置數(shù)量的輿情文章之后,對該規(guī)則內(nèi)專題兩兩比較;如果兩個專題的相似度大于合并閾值,則將其合并;對各專題內(nèi)的輿情文章進行淘汰:重新計算輿情文章和該主題的相似度,對相似度低于聚類閾值、或者不滿足特定限制條件的輿情文章進行淘汰。優(yōu)選地,本方法還包括按照以下至少一種展示方式展示專題:專題樹:按照樹的方式展示專題,其中,專題在樹中的從屬關系與其相應的專題規(guī)則之間的從屬關系保持一致;專題列表:展示專題的列表;專題聚類圖:以三維圖的方式展示各熱點事件之間的關聯(lián)關系,以圓球代表單個熱點事件,以圓球的空間大小表示其熱度,相關聯(lián)事件以相同顏色的圓球表示,顏色相同,并且距離很近的小球,代表相近似的主題;專題演化圖:以二維圖形的方式展示出一段時間內(nèi)受到關注的幾個不同事件在網(wǎng)上的演化過程,包括其產(chǎn)生、發(fā)展、合并和分裂情況;專題報告:對單一專題生成報告,包括專點標題、摘要、相關文檔及詳細信息、時間分布圖、網(wǎng)站分布圖、信息類型分布圖、褒貶義;傳播路徑分析:以FLASH動畫的方式展示出單一專題在網(wǎng)站間的傳播路徑關系,以橢圓形代表信息傳出的網(wǎng)站名稱,以箭頭和箭頭旁邊的數(shù)字表示信息的傳播途徑和傳播順序;專題分析:對專題提供網(wǎng)站分析、地域分析、時間分布、信息類型分布和褒貶義分布分析。本優(yōu)選實施例可以滿足用戶的各種個性化需求。圖2所示,本發(fā)明的具體實施步驟如下:步驟S21、配置專題規(guī)則庫,其中包括各種專題規(guī)則,并建立專題索引,這些專題索引可以構成專題索引庫。首先配置專題規(guī)則,包括專題名稱、專題規(guī)則內(nèi)容、專題分析服務地址。專題規(guī)則內(nèi)容是一個包含邏輯關系的運算式,可以自動判斷專題規(guī)則內(nèi)容是否符合語法要求,如果不合法,提醒用戶進行修改,直到符合語法要求為止。專題規(guī)則添加完成后,自動對該專題規(guī)則在指定的專題分析服務地址中建立專題索引,用于生成專題使用。步驟S22、采集互聯(lián)網(wǎng)輿情文件。通過網(wǎng)絡爬蟲對已配置的網(wǎng)站、頻道數(shù)據(jù)進行采集,包括新聞、論壇、博客、視頻、微博、SNS等類型的互聯(lián)網(wǎng)輿情文件。并將每條信息轉化成統(tǒng)一格式的中間文件。步驟S23、上載輿情數(shù)據(jù)到數(shù)據(jù)庫。上載服務系統(tǒng)讀取已采集好的中間文件,向?qū)n}分析服務發(fā)送分析請求,判斷該信息是否符合專題規(guī)則。專題分析服務返回判斷結果,如果符合專題規(guī)則,則在專題增量表中增加一條對應的數(shù)據(jù),然后將該文件存入專題索引庫中;如果不符合專題規(guī)則,則跳過該步驟。步驟S24、生成專題熱點信息。專題索引服務的增量程序啟動,掃描規(guī)則專題增量表,判斷是否有新的數(shù)據(jù)進入。如果讀到新的數(shù)據(jù),則逐條進行處理。讀取一條數(shù)據(jù),包括正文、時間及其他相關信息,采用質(zhì)心比較或最近鄰比較等策略,確定與該文件最相近的專題;若該文件無法歸入現(xiàn)有專題,則將其列為新專題;若該文件被歸入某個專題,則調(diào)整被歸入專題。步驟S25、獲取輿情專題。應用服務定時向?qū)n}分析服務發(fā)送請求,請求讀取專題索引庫生成的專題。專題分析服務以XML格式返回專題。應用服務解析XML后,按照當前、當日、當周、當月的方式存放到專題索引庫中。步驟S36、輿情專題展示。應用服務按照專題樹的方式,展示該專題規(guī)則下面的所有專題。對每個專題可以進行如下操作:1.輿情專題包含的專題列表;2.專題聚類圖:以三維圖的方式展示各熱點事件之間的關聯(lián)關系。以圓球代表單個熱點事件,以圓球的空間大小表示其熱度。相關聯(lián)事件以相同顏色的圓球表示;顏色相同,并且距離很近的小球,代表相近似的專題;
3.專題演化圖:以二維圖形的方式展示出一段時間內(nèi)受到關注的幾個不同事件在網(wǎng)上的演化過程,包括其產(chǎn)生、發(fā)展、合并和分裂等情況。4.生成專題報告:對單一專題生成報告,包括專題標題、摘要、相關文檔及詳細信息、時間分布圖、網(wǎng)站分布圖等要素。5.傳播路徑分析:以FLASH動畫的方式展示出單一專題在網(wǎng)站間的傳播路徑關系。以橢圓形代表信息傳出的網(wǎng)站名稱,以箭頭和箭頭旁邊的數(shù)字表示信息的傳播途徑和傳播順序。6.專題分析:對專題提供網(wǎng)站分析、地域分析和時間分布等分析手段。圖3示出了根據(jù)本發(fā)明實施例的專題配置流程圖,該流程包括以下步驟:步驟S31:配置專題規(guī)則的各項內(nèi)容,包括專題名稱、專題規(guī)則內(nèi)容及選擇的專題分析服務地址。步驟S32:對配置的專題規(guī)則的各項進行有效性判斷,其中專題規(guī)則內(nèi)容是一個包含邏輯運算符(包括與運算和或運算)的表達式,需要判斷該表達式是否符合語法要求;步驟S33:對驗證合法的專題規(guī)則進行保存。步驟S34:在指定的專題分析服務中增加專題索引庫及增量任務。為生成專題熱點做準備。步驟S35:向?qū)n}分析服務中同步專題規(guī)則。步驟S36:更新專題規(guī)則的狀態(tài)。圖4示出了根據(jù)本發(fā)明實施例的專題獲取流程圖,該流程包括以下步驟:步驟S41:讀取已配置的所有專題規(guī)則信息,并組織發(fā)送專題分析請求需要的參數(shù)。發(fā)送的參數(shù)包括Action和IndexDBID。其中Action表明該請求是獲取專題;IndexDBID表示獲取那些專題規(guī)則下面的專題。步驟S42:向?qū)n}分析服務發(fā)送請求,并等待返回結果;步驟S43:對專題分析服務返回的結果進行判斷,在返回正常的情況下,對返回的XML進行解析處理。步驟S44:循環(huán)遍歷XML內(nèi)容,分析出單個專題規(guī)則下的信息,獲取專題及其包含的文檔信息,并放置在內(nèi)存中。步驟S45:判斷該專題規(guī)則下當日是否已有信息,如果有信息,則將該專題規(guī)則下的專題及其關聯(lián)信息全部刪除。步驟S46:將內(nèi)存中分析后的專題及包含的文檔信息等保存到專題索引庫中。圖5示出了根據(jù)本發(fā)明實施例的專題展示流程圖,該流程包括以下步驟步驟S51:判斷選擇的專題節(jié)點是否葉子節(jié)點。如果是葉子節(jié)點,跳轉到步驟S54。否則進入步驟S52.
步驟S52:獲取所選分類的合并專題;步驟S53:獲取所選分類下所有葉子節(jié)點的專題,進入步驟S55 ;步驟S54:獲取指定專題的所有專題。步驟S55:依據(jù)相關度的大小,獲取各專題一定數(shù)量的相關文檔。步驟S56:獲取各專題的第一張推薦圖片。數(shù)據(jù)讀取完畢,供客戶端進行顯示處理。圖6示出了根據(jù)本發(fā)明實施例的互聯(lián)網(wǎng)輿情的專題分析裝置的示意圖,包括:采集模塊10,用于采集互聯(lián)網(wǎng)輿情文件;匹配模塊20,用于采用預設的專題規(guī)則匹配互聯(lián)網(wǎng)輿情文件;生成模塊30,用于對匹配成功的互聯(lián)網(wǎng)輿情文件生成專題。本裝置實現(xiàn)了在海量輿情數(shù)據(jù)中及時準確地得到專題。優(yōu)選地,從以下至少一種互聯(lián)網(wǎng)信息源中采集互聯(lián)網(wǎng)輿情文件:新聞網(wǎng)站、論壇、博客、微博、即時通信、SNS。本優(yōu)選實施例覆蓋了常見的互聯(lián)網(wǎng)信息源。優(yōu)選地,匹配模塊包括:讀取模塊,用于讀取互聯(lián)網(wǎng)輿情文件的內(nèi)容;拼音模塊,用于確定內(nèi)容的拼音;檢索模塊,用于以專題規(guī)則中的拼音形式的關鍵詞檢索式檢索內(nèi)容的拼音。本裝置簡單易行。圖7示出了根據(jù)本發(fā)明優(yōu)選實施例的網(wǎng)絡輿情專題分析裝置的示意圖。如圖7所示,該系統(tǒng)包括采集模塊101,與采集模塊101連接的上載模塊102,與上載模塊102連接的過濾模塊103,與過濾模塊103連接的專題規(guī)則庫模塊104和專題索引庫模塊107,與專題索引庫模塊107連接的分析模塊105,與分析模塊105連接的專題上傳模塊106,與專題上傳模塊106連接的專題索引庫模塊107,與專題索引庫模塊107連接的顯示模塊108。采集模塊101用于采集互聯(lián)網(wǎng)輿情文件。上載模塊102用于上載互聯(lián)網(wǎng)輿情文件。過濾模塊103用于判斷互聯(lián)網(wǎng)輿情文件是否符合專題規(guī)則庫中規(guī)則互聯(lián)網(wǎng)輿情文件。專題規(guī)則庫模塊104用于存儲一組或者多組專題規(guī)則,每一組規(guī)則就是一個數(shù)據(jù)
隹A
口 O分析模塊105用于依據(jù)一定的算法為每組專題規(guī)則生成熱點信息。專題上傳模塊106用于獲取分析模塊105中分析的結果,并將結果保存到專題索引庫。專題索引庫模塊107用于存儲互聯(lián)網(wǎng)輿情文件及專題分析結果。顯示模塊108用于對專題的展示。從以上的描述中可以看出,本發(fā)明實現(xiàn)了可以在海量數(shù)據(jù)中,更快更準確地命中與用戶相關的網(wǎng)絡熱點信息,從而輔助用戶更好更快地應對網(wǎng)絡突發(fā)事件,變被動為主動,提高工作效率。顯然,本領域的技術人員應該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計算裝置來實現(xiàn),它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成的網(wǎng)絡上,可選地,它們可以用計算裝置可執(zhí)行的程序代碼來實現(xiàn),從而,可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結合。以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領域的技術人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。
權利要求
1.一種互聯(lián)網(wǎng)輿情的專題分析方法,其特征在于,包括: 采集互聯(lián)網(wǎng)輿情文件; 采用預設的專題規(guī)則匹配所述互聯(lián)網(wǎng)輿情文件; 對匹配成功的所述互聯(lián)網(wǎng)輿情文件生成專題。
2.根據(jù)權利要求2所述的方法,其特征在于,從以下至少一種互聯(lián)網(wǎng)信息源中采集所述互聯(lián)網(wǎng)輿情文件:新聞網(wǎng)站、論壇、博客、微博、即時通信、SNS。
3.根據(jù)權利要求1所述的方法,其特征在于,采用預設的專題規(guī)則匹配所述互聯(lián)網(wǎng)輿情文件包括: 讀取所述互聯(lián)網(wǎng)輿情文件的內(nèi)容; 確定將所述內(nèi)容的拼音; 以所述專題規(guī)則中的拼音形式的關鍵詞檢索式檢索所述內(nèi)容的拼音。
4.根據(jù)權利要求1所述的方法,其特征在于,對匹配成功的所述互聯(lián)網(wǎng)輿情文件生成專題包括: 讀取所述匹配成功的互聯(lián)網(wǎng)輿情文件的內(nèi)容、時間、標題、網(wǎng)站類型、網(wǎng)站資質(zhì)、訪問量、回帖量和所屬網(wǎng)站信息; 采用質(zhì)心比較方法或最近鄰比較方法,確定與所述匹配成功的互聯(lián)網(wǎng)輿情文件最相近的專題; 若不存在與所述匹配成功的互聯(lián)網(wǎng)輿情相近的專題,則將其列為新專題;若存在與所述匹配成功的互聯(lián)網(wǎng)輿情相近的專題,則將其加入所述最相近的專題。
5.根據(jù)權利要求4所述的方法,其特征在于,所述質(zhì)心比較方法包括: 將所述讀取到的內(nèi)容與已有專題進行比較,同時考慮時間特征和內(nèi)容特征,計算所選輿情文件和專題間的相似度,所述已有專題本身通過其中綜合權重最高的文章來表達。
6.根據(jù)權利要求4所述的方法,其特征在于,所述最近鄰比較方法包括: 當以一個所述專題規(guī)則處理設置數(shù)量的所述輿情文章之后,對該專題規(guī)則內(nèi)專題兩兩比較;如果兩個專題的相似度大于合并閾值,則將其合并;對各專題內(nèi)的輿情文章進行淘汰:重新計算輿情文章和該主題的相似度,對相似度低于聚類閾值、或者不滿足特定限制條件的輿情文章進行淘汰。
7.根據(jù)權利要求1所述的方法,其特征在于,還包括按照以下至少一種展示方式展示所述專題: 按照樹的方式展示所述專題,其中,所述專題在所述樹中的從屬關系與其相應的所述專題規(guī)則之間的從屬關系保持一致; 展示所述專題的列表; 以三維圖的方式展示各熱點事件之間的關聯(lián)關系,以圓球代表單個熱點事件,以圓球的空間大小表示其熱度,相關聯(lián)事件以相同顏色的圓球表示,顏色相同,并且距離很近的小球,代表相近似的主題; 以二維圖形的方式展示出一段時間內(nèi)受到關注的幾個不同事件在網(wǎng)上的演化過程,包括其產(chǎn)生、發(fā)展、合并和分裂情況; 對單一專題生成報告,包括專點標題、摘要、相關文檔及詳細信息、時間分布圖、網(wǎng)站分布圖、信息類型分布圖、褒貶義;以FLASH動畫的方式展示出單一專題在網(wǎng)站間的傳播路徑關系,以橢圓形代表信息傳出的網(wǎng)站名稱,以箭頭和箭頭旁邊的數(shù)字表示信息的傳播途徑和傳播順序; 對所述專題提供網(wǎng)站分析、地域分析、時間分布、信息類型分布和褒貶義分布分析。
8.—種互聯(lián)網(wǎng)輿情的專題分析裝置,其特征在于,包括: 采集模塊,用于采集互聯(lián)網(wǎng)輿情文件; 匹配模塊,用于采用預設的專題規(guī)則匹配所述互聯(lián)網(wǎng)輿情文件; 生成模塊,用于對匹配成功的所述互聯(lián)網(wǎng)輿情文件生成專題。
9.根據(jù)權利要求8所述的裝置,其特征在于,從以下至少一種互聯(lián)網(wǎng)信息源中采集所述互聯(lián)網(wǎng)輿情文件:新聞網(wǎng)站、論壇、博客、微博、即時通信、SNS。
10.根據(jù)權利要求8所述的裝置,其特征在于,所述匹配模塊包括: 讀取模塊,用于讀取所述互聯(lián)網(wǎng)輿情文件的內(nèi)容; 拼音模塊,用于確定將所述內(nèi)容的拼音; 檢索模塊,用于以所述專題規(guī)則中`的拼音形式的關鍵詞檢索式檢索所述內(nèi)容的拼音。
全文摘要
本發(fā)明提供了一種互聯(lián)網(wǎng)輿情的專題分析方法,包括采集互聯(lián)網(wǎng)輿情文件;采用預設的專題規(guī)則匹配互聯(lián)網(wǎng)輿情文件;對匹配成功的互聯(lián)網(wǎng)輿情文件生成專題。本發(fā)明提供了一種互聯(lián)網(wǎng)輿情的專題分析裝置,包括采集模塊,用于采集互聯(lián)網(wǎng)輿情文件;匹配模塊,用于采用預設的專題規(guī)則匹配互聯(lián)網(wǎng)輿情文件;生成模塊,用于對匹配成功的互聯(lián)網(wǎng)輿情文件生成專題。本發(fā)明實現(xiàn)了在海量輿情數(shù)據(jù)中及時準確地得到專題。
文檔編號G06F17/30GK103186600SQ201110455219
公開日2013年7月3日 申請日期2011年12月28日 優(yōu)先權日2011年12月28日
發(fā)明者孫紅娥, 張丹, 王松, 梁汝峰, 楊建武, 吳新麗 申請人:北大方正集團有限公司, 北京大學, 北京北大方正電子有限公司