国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種網絡輿情傳播態(tài)勢媒體聯(lián)動分析方法

      文檔序號:9631617閱讀:1578來源:國知局
      一種網絡輿情傳播態(tài)勢媒體聯(lián)動分析方法
      【技術領域】
      [0001] 本發(fā)明涉及一種網絡輿情傳播態(tài)勢媒體聯(lián)動分析方法。
      【背景技術】
      [0002] 根據(jù)CNNIC今年的最新統(tǒng)計,我國現(xiàn)已有網民6. 49億;手機網民規(guī)模達5. 57億, 網站335萬個,域名總數(shù)為2060萬個。網絡媒體作為一種新的信息傳播形式,已深入人們 的日常生活。網友言論活躍已達到前所未有的程度,不論是國內還是國際重大事件,都能馬 上形成網上輿論,通過這種網絡來表達觀點、傳播思想,進而產生巨大的輿論壓力,達到任 何部門、機構都無法忽視的地步??梢哉f,互聯(lián)網已成為思想文化信息的集散地和社會輿論 的放大器。因此,如何精準的預測網絡輿情的傳播態(tài)勢去積極化解網絡輿論危機顯得越來 越重要。
      [0003] 目前已經有一些技術能夠對網絡輿情的傳播態(tài)勢進行分析和評估。其中有很大 一部分是通過統(tǒng)計一定時期內相關的輿情事件或細化主題的相關信息傳播擴散狀況,如通 過統(tǒng)計不同的統(tǒng)計期內相關主題的網頁頁面數(shù)量,從而形成在一段較長時間內連續(xù)的網頁 頁面變化走勢;還有部分是通過網頁轉載關系等單一因子來分析網絡輿情傳播態(tài)勢的。不 同廠家的業(yè)務背景在技術上形成了各自的特色,但普遍存在著一些明顯的不足,主要體現(xiàn) 在:
      [0004] 1)單純統(tǒng)計所有站點的網站頁面總數(shù)量,即認為所有站點重要度相同,忽略了站 點的影響力差異,導致統(tǒng)計結果無法客觀反映出站點聯(lián)動時不同站點的差異性。
      [0005] 2)單純的對新聞,論壇,微博進行獨立分析,忽略了不同互聯(lián)網媒體間的互動,無 法進行不同媒體聯(lián)動的輿情分析,為分析的結果帶來了不準確性。

      【發(fā)明內容】

      [0006] 本發(fā)明要解決的技術問題是提供一種網絡輿情傳播態(tài)勢媒體聯(lián)動分析方法。
      [0007] 為了解決上述技術問題,本發(fā)明采用的技術方案是,一種網絡輿情傳播態(tài)勢媒體 聯(lián)動分析方法,包括以下步驟:
      [0008] (1)網絡信息收集和索引
      [0009] 使用網絡信息采集雷達采集網站發(fā)布的互聯(lián)網信息,該信息通常為html格式,運 用網頁預處理算法對正文中的標題,發(fā)表時間,正文進行數(shù)據(jù)提取,并將抽取后的數(shù)據(jù)發(fā)送 到索引模塊,索引模塊在對上述字段進行分詞處理后,建立倒排索引,實現(xiàn)文本的檢索; [0010] ⑵網站影響力的加權估算
      [0011] 基于上述采集數(shù)據(jù),采用考慮原創(chuàng)性、閱讀量、轉載量、評論量的影響力指標對網 站的影響力進行加權計算,對每個網站的綜合影響力進行打分,該分數(shù)作為后續(xù)統(tǒng)計分析 時的站點權重;
      [0012] 其中:
      [0013] 所述原創(chuàng)性指網站內容是指作者首創(chuàng),非抄襲的內容;
      [0014] 所述閱讀量指網絡用戶對當前網站內容的瀏覽量;
      [0015] 所述轉載量指的是當前網站內容被轉載的次數(shù);
      [0016] 所述評論量指網絡用戶對當前網站內容的評論數(shù);
      [0017] (3)相關主題文章檢索
      [0018] 用戶根據(jù)相應的關注主題設定相關的高級布爾查詢表達式,系統(tǒng)根據(jù)用戶設定的 表達式進行信息檢索,查詢出所有和該主題有關的文章信息;
      [0019] ⑷輿情聯(lián)動趨勢分析
      [0020] 根據(jù)用戶設定的統(tǒng)計時間間隔,計算出每個時間段文章加權總數(shù)量值的變化情 況,即文章總數(shù)量由單篇文章的權重累加得出,然后對計算得到的權重值按照設定標準劃 分為四個層次,由低到高分別為無聯(lián)動、弱聯(lián)動、中級聯(lián)動以及強聯(lián)動,在坐標軸中繪制出 統(tǒng)計坐標,橫軸為時間軸,縱軸為文章加權數(shù)量值,每個坐標值表示在當前時間點和前一個 時間點之間互聯(lián)網中出現(xiàn)的相關文章的加權值,每個坐標值所在層為當前的聯(lián)動級別。
      [0021] 作為優(yōu)選,步驟(1)中所述網頁預處理算法包括以下步驟:
      [0022] 對網頁中的內容進行預處理時,會先創(chuàng)建一個預處理對象,預處理對象調用本地 的自然語言解析腳本對網頁中的正文進行信息預處理;
      [0023] 所述的本地的自然語言解析腳本主要包含了對自然語言的噪音的過濾、信息的歸 約以及變換。
      [0024] 本發(fā)明的有益效果是:
      [0025] 通過采集互聯(lián)網信息,進行信息抽取和索引后,使用網站的歷史影響力(考慮原 創(chuàng)性,閱讀量、轉載量、評論量以及網站存在時間等影響力指標)對檢索出來的每個時間段 出現(xiàn)的文章數(shù)量進行加權統(tǒng)計,實現(xiàn)了對輿情傳播態(tài)勢的聯(lián)動分析。
      【附圖說明】
      [0026] 下面結合附圖和【具體實施方式】對本發(fā)明作進一步詳細的說明。
      [0027] 圖1是本發(fā)明實施例的流程圖。
      [0028]圖2是本發(fā)明實施例的索引倒排表結構。
      [0029]圖3是運用現(xiàn)有的輿情態(tài)勢分析方法(沒有考慮到媒體差異)的輿情分析圖。
      [0030]圖4是本發(fā)明實施例的進行媒體(站點)聯(lián)動分析的輿情分析圖。
      【具體實施方式】
      [0031] 如圖1所示,一種網絡輿情傳播態(tài)勢媒體聯(lián)動分析方法的具體步驟如下:
      [0032] -、網頁信息采集和索引
      [0033] 該采集過程具體步驟如下:
      [0034]1、規(guī)劃好要監(jiān)測的網站,并將網站入口加入到監(jiān)測隊列中去。
      [0035] 2、選取一個網站入口進行下載,抽取出相關正文URL后,將其放入到待下載隊列 中。
      [0036] 3、從待下載隊列中選取一個URL進行下載,完成后識別出相關的網頁編碼,并按 照預先設定的模板進行標題、發(fā)文時間、作者、正文、點擊數(shù)、回復數(shù)、是否轉載等關鍵字段 的抽取。
      [0037] 4、將抽取后的標題、正文文本、時間、作者字段直接發(fā)送到索引模塊。同時將站點 名、點擊數(shù)、評論數(shù)、是否轉載字段信息發(fā)送到聯(lián)動站點分析模塊。
      [0038] 索引過程具體步驟如下:
      [0039] 1、接收到采集模塊發(fā)送信息后,分詞組件對標題和正文文本進行分詞處理,把文 檔分詞一個一個單獨的詞元,并去掉標點符號和停用詞。
      [0040] 2、語言處理組件對詞元進行處理,對于英語,變成小寫;單詞變成詞根形式。
      [0041] 3、索引組件對處理后的詞建立詞典,對詞典按字母順序進行排序,并按照詞-> 文檔列表的結構建立倒排表。倒排表結構如圖2所示(數(shù)字為文檔編號)。
      [0042] 二、站點影響力的加權估算
      [0043] 該過程需完成對存儲信息的統(tǒng)計分析,具體過程如下:
      [0044] 1、分發(fā)模塊接收到采集和索引模塊發(fā)送的字段信息后,根據(jù)站點名將該信息發(fā)送 到響應的站點統(tǒng)計模塊。
      [0045]2、站點統(tǒng)計模塊初始化頁面總數(shù)量(N)、頁面總點擊數(shù)(C)、頁面總轉載量(RJ、頁 面總評論數(shù)(R)、原創(chuàng)數(shù)量(I)為0。接收到分發(fā)模塊發(fā)送的頁面信息后,執(zhí)行累加操作如 下:
      [0046]N=N+n?C=C+c?Re=Re+re?R=R+r?I=I+i〇
      [0047] 其中c、re、r、i、t分別為該頁面的點擊數(shù)量、轉載數(shù)量、評論數(shù)量、是否原創(chuàng)(當 為原創(chuàng)時,i為1,否則為〇)。
      [0048] 3、站點統(tǒng)計模塊完成每個站點的影響力計算,包括計算單個頁面的平均點擊量 (CR)、平均轉載量(ReR)、平均評論量(RR)、平均原創(chuàng)比率(IR)。定義:CR=C/N,ReR=Re/ N,RR=R/N,IR=I/N。
      [0049] 4、對每個站點的平均點擊量、平均轉載量、平均評論量、平均原創(chuàng)比例進行歸一化 處理。具體方法如下:
      [0054] 其中:
      [0055] maxeR為所有站點的最大CR值,mineRS所有站點中的最小的CR值,new_maxCR = 1,new-minCR= 0;
      [0056] 為所有站點的最大ReR值,min為所有站點中的最小的ReR值,
      [0057]maxRR為所有站點的最大RR值,minRRS所有站點中的最小的RR值,new_maxRR = 1,new-minRR= 0;
      [0058]maxIRS所有站點最大的原創(chuàng)比率,min1[;為所有站點最小的原創(chuàng)比率,new_maxIR =1,new_minIR= 00
      [0059]5、基于Cf,ReW,Rf,If對每個站點進行影響力計算,具體計算公式如下:
      [0060]
      ,根據(jù)經驗,WCR可以取值為0. 50, ?·.*> 1'βΛ%·ν ^ ·** "... 取值為〇. 15,WRR取值為0. 25,WIR取值為0. 1。
      [0061]6、將上述計算出的每個站點的影響力數(shù)據(jù)存入站點影響力數(shù)據(jù)庫。
      [0062] 該步驟完成用戶指定主題的信息檢索,并返回相關查詢結果。具體過程如下:
      [0063] 1)對用戶輸入的主題查詢語句進行詞法分析,并生成關鍵字組合。
      [0064] 2)對查詢關鍵字組合進行同義詞擴展。
      [0065] 3)根據(jù)查詢語句的語法規(guī)則(包括時間范圍,關鍵詞之間的與、或、非組合)建立 語法分析樹。
      [0066] 4)根據(jù)解析后的結果對索引進行查詢,并對查詢結果按照與、或、非進行合并操 作,并得到查詢結果列表。
      [0067] 5)對查詢結果按時間進行排序,并以時間范圍為條件,按照時間段(小時,天,月) 進行數(shù)量統(tǒng)計。
      [0068] 三、輿情聯(lián)動趨勢分析
      [0069] 該步驟基于上述步驟結果,生成輿情發(fā)展趨勢分析圖。其中橫軸為時間軸,縱軸為 文章加權數(shù)量值,每一個統(tǒng)計時間間隔均對應一個加權值,表示該段時間間隔內的文檔加 權總數(shù)量值。具體計算公式如下:
      [0070]
      ,其中W為該段時間間隔內的文檔加權數(shù)量值,N表示該段時間內相關 主題的又草思數(shù),Si表示第i篇文章所在站點的影響力因子。
      [0071] 實施案例
      [0072] 假定要監(jiān)測某一特定時間(該特定時間需要把事
      當前第1頁1 2 
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1