国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      輿情熱點(diǎn)自動(dòng)監(jiān)測(cè)系統(tǒng)的制作方法

      文檔序號(hào):8922598閱讀:1012來源:國(guó)知局
      輿情熱點(diǎn)自動(dòng)監(jiān)測(cè)系統(tǒng)的制作方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及互聯(lián)網(wǎng)輿情信息獲取和利用,尤其涉及輿情熱點(diǎn)自動(dòng)監(jiān)測(cè)系統(tǒng)。
      【背景技術(shù)】
      [0002] 目前,我們?cè)诨ヂ?lián)網(wǎng)輿情信息獲取和利用方面,與工作要求仍存在著較大的差距, 主要表現(xiàn)在:
      [0003] 1、互聯(lián)網(wǎng)信息的獲取能力不足。面對(duì)復(fù)雜龐大、類型多樣、數(shù)據(jù)量巨大的互聯(lián)網(wǎng)數(shù) 據(jù),還不能全面、快速、有效地找到并獲取滿足實(shí)際需要的信息。通過傳統(tǒng)方法獲取的數(shù)據(jù) 總量少、覆蓋面窄、來源單一,極大地限制了工作有效開展;
      [0004] 2、互聯(lián)網(wǎng)信息的挖掘處理能力不足。對(duì)于已經(jīng)獲取的互聯(lián)網(wǎng)數(shù)據(jù),不能按照實(shí)際 工作需要,開展數(shù)據(jù)挖掘處理,從中找出事件背景和原因,查明主體之間的內(nèi)在關(guān)系,及時(shí) 發(fā)現(xiàn)社會(huì)熱點(diǎn)問題,預(yù)測(cè)事件發(fā)展趨勢(shì)等;
      [0005] 3、缺乏適用的互聯(lián)網(wǎng)輿情監(jiān)測(cè)分析系統(tǒng)。還沒建立滿足工作需要的互聯(lián)網(wǎng)輿情監(jiān) 測(cè)分析應(yīng)用系統(tǒng),不能對(duì)海量互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行處理,不能及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)輿情熱點(diǎn),不能做好 處置準(zhǔn)備工作。
      [0006] 為了維護(hù)社會(huì)政治穩(wěn)定,加強(qiáng)互聯(lián)網(wǎng)管理、組織力量展開互聯(lián)網(wǎng)輿情監(jiān)測(cè)分析成 為目前主要政府部門急需解決的現(xiàn)實(shí)問題。要解決這一問題,需要有智能的輿情監(jiān)測(cè)分析 系統(tǒng),用來實(shí)現(xiàn)針對(duì)互聯(lián)網(wǎng)海量輿情自動(dòng)實(shí)時(shí)的監(jiān)測(cè)分析,從而有效地解決政府部門以傳 統(tǒng)的人工方式對(duì)網(wǎng)絡(luò)輿情監(jiān)測(cè)的實(shí)施難題。輿情監(jiān)測(cè)分析系統(tǒng)需要整合互聯(lián)網(wǎng)技術(shù)及信息 智能處理技術(shù),對(duì)境內(nèi)、境外互聯(lián)網(wǎng)海量信息進(jìn)行自動(dòng)抓取和分析,實(shí)現(xiàn)網(wǎng)絡(luò)輿情熱點(diǎn)監(jiān)測(cè) 和分析的信息需求,為政府全面掌握群眾思想動(dòng)態(tài)提供分析依據(jù)。
      [0007] 及時(shí)開展政府部門互聯(lián)網(wǎng)網(wǎng)輿情監(jiān)測(cè)分析系統(tǒng)研究,建設(shè)為實(shí)際工作服務(wù)的互聯(lián) 網(wǎng)信息挖掘應(yīng)用系統(tǒng),具有極高的重要性和緊迫性。
      [0008] 綜上所述,針對(duì)現(xiàn)有技術(shù)存在的不足,特別需要輿情熱點(diǎn)自動(dòng)監(jiān)測(cè)系統(tǒng),以解決現(xiàn) 有技術(shù)的不足。

      【發(fā)明內(nèi)容】

      [0009] 本發(fā)明的目的是提供自行車防盜物聯(lián)網(wǎng)監(jiān)控系統(tǒng),解決校園中自行車隨意停放和 自行車經(jīng)常被盜的現(xiàn)象。
      [0010] 本發(fā)明為解決其技術(shù)問題所采用的技術(shù)方案是,
      [0011] 輿情熱點(diǎn)自動(dòng)監(jiān)測(cè)系統(tǒng),該系統(tǒng)包括有漢語(yǔ)自動(dòng)分詞模塊、特征提取模塊;
      [0012] 漢語(yǔ)自動(dòng)分詞模塊包括有自動(dòng)分詞的基本算法單元、未登陸詞的識(shí)別單元、漢語(yǔ) 自動(dòng)分詞的切分歧義及其消除單元;
      [0013] 特提提取模塊包括有特征表示單元、向量空間模型單元;
      [0014] 該系統(tǒng)的自動(dòng)監(jiān)測(cè)方法的步驟如下:
      [0015] 1、從數(shù)據(jù)源讀入一篇報(bào)道,對(duì)多個(gè)網(wǎng)絡(luò)新聞數(shù)據(jù)源進(jìn)行不間斷地監(jiān)測(cè),從網(wǎng)絡(luò)中 自動(dòng)抓取新聞報(bào)道,解析出新聞報(bào)道的時(shí)間、標(biāo)題和正文信息等,如果沒有從報(bào)道中找到時(shí) 間,則以抓取時(shí)間為準(zhǔn);
      [0016] 由于多個(gè)數(shù)據(jù)源之間存在相當(dāng)?shù)闹貜?fù),對(duì)新抓取的新聞報(bào)道,根據(jù)報(bào)道的文本內(nèi) 容進(jìn)行消重處理;如果新報(bào)道和之前已經(jīng)處理的新聞報(bào)道重復(fù)度大于重復(fù)閾值9d,則認(rèn) 為是重復(fù)的新聞報(bào)道,本實(shí)施例中設(shè)定的重復(fù)閾值0d為0. 9 ;
      [0017] 由于新聞報(bào)道的范圍過于寬泛,采用基于來源的規(guī)則分類以及基于內(nèi)容的自動(dòng)分 類相結(jié)合的方法,對(duì)新聞報(bào)道進(jìn)行分類,規(guī)則分類根據(jù)新聞來源以及作者等進(jìn)行分類,基于 內(nèi)容的自動(dòng)分類采用向量空間模型(VSM)和支持向量機(jī)算法(SVM),根據(jù)報(bào)道內(nèi)容和標(biāo)題 對(duì)新聞報(bào)道進(jìn)行自動(dòng)分類;并且按照所屬類別c進(jìn)行步驟2 -步驟7的處理;
      [0018] 2、采用質(zhì)心比較策略,將報(bào)道與所屬類別c內(nèi)現(xiàn)有監(jiān)測(cè)到的新聞主題進(jìn)行比較, 同時(shí)考慮時(shí)間特征和內(nèi)容特征,計(jì)算報(bào)道和主題間的相似度,并記錄最大相似度Smax以及 相似度最大的主題Es,確定與當(dāng)前報(bào)道最相近的主題;主題本身通過主題內(nèi)部所有新聞中 綜合權(quán)重最高的若干個(gè)特征詞來表達(dá);新聞報(bào)道和主題之間的相似度基于向量空間模型, 通過兩者的夾角余弦值(cosine)來計(jì)算,同時(shí)新聞報(bào)道的標(biāo)題賦予較高權(quán)重;
      [0019] 3、根據(jù)步驟2計(jì)算得到的最大相似度Smax以及相似度最大的主題Es,對(duì)當(dāng)前報(bào)道 采取如下措施:
      [0020] A.如果Smax小于創(chuàng)新閾值0n(本實(shí)施例中為0. 25):在該報(bào)道所屬類別內(nèi)創(chuàng)建 一個(gè)新主題;
      [0021] B.如果Smax大于0n而小于聚類閾值0c(本實(shí)施例中為0.30):不作處理,返回 步驟1);
      [0022] C.如果Smax大于0c而小于貢獻(xiàn)閾值0t(本實(shí)施例中為0. 35):歸入當(dāng)前主題;
      [0023] D.如果Smax大于0t:歸入主題Es,并調(diào)整Es;
      [0024] 上述的Smax、0n、0c、0t的取值范圍均大于0而小于等于1 ;
      [0025] 4、當(dāng)一個(gè)類處理用戶確定的固定數(shù)量的新增報(bào)道之后,對(duì)該類別內(nèi)新聞主題兩兩 比較;如果兩個(gè)主題的相似度大于合并閾值0u,則將其合并,主題之間的相似度計(jì)算公式 可以采用傳統(tǒng)聚類算法中計(jì)算兩個(gè)聚類相似度的方法,綜合考慮兩個(gè)主題中所有新聞報(bào)道 之間的兩兩相似度,采用如下公式:
      [0027] 其中,El,E2是兩個(gè)監(jiān)測(cè)到的新聞主題,di,dj分別為El,E2中的新聞報(bào)道,Sim (El,E2)是兩個(gè)新聞報(bào)道之間的相似度,|E」,|E2|分別為兩個(gè)主題中包含的新聞報(bào)道數(shù) 目;
      [0028] 5、當(dāng)一個(gè)類處理用戶確定的固定數(shù)量的新增報(bào)道之后,對(duì)各主題內(nèi)的新聞報(bào)道進(jìn) 行淘汰:重新計(jì)算新聞報(bào)道和該主題的相似度,對(duì)相似度低于聚類閾值9c、或者不滿足限 制條件的新聞報(bào)道進(jìn)行淘汰;然后再重新計(jì)算主題內(nèi)部表示及其權(quán)重;
      [0029] 6、若當(dāng)前類別內(nèi)的主題數(shù)量超過主題窗口大小,對(duì)類別內(nèi)的所有新聞主題進(jìn)行排 序:結(jié)合新聞主題的時(shí)間特性和數(shù)量特性,計(jì)算新聞主題的得分值并排序;計(jì)算得分值時(shí) 同時(shí)考慮多個(gè)不同的排序,同時(shí)考慮最近12個(gè)小時(shí)、1天、3天、7天、30天等,只有當(dāng)主題在 任何排序中都不在主題窗口內(nèi)時(shí),才將該主題淘汰;這樣,多重排序就給用戶提供了不同粒 度的信息參考,系統(tǒng)將不在主題窗中的新聞主題淘汰,用于提高系統(tǒng)處理的效率;
      [0030] 7、根據(jù)用戶要求,對(duì)外輸出監(jiān)測(cè)結(jié)果:對(duì)于類別內(nèi)的當(dāng)前所有主題,計(jì)算其描述; 同時(shí),結(jié)合主題的時(shí)間特性和主題內(nèi)的新聞報(bào)道數(shù)量特性,從所有類別中選擇出得分最高 的若干個(gè)新聞主題,作為該類別最熱點(diǎn)的新聞主題,輸出主題描述和包含的新聞報(bào)道列表, 其中,主題描述的生成過程如下:
      [0031]A.讀取主題內(nèi)部權(quán)重最高的若干個(gè)特征詞;
      [0032]B.在與主題相似度大于主題閾值0e的主題內(nèi)新聞報(bào)道中,選擇時(shí)間最近的一篇 新聞報(bào)道的標(biāo)題;主題閾值還可以采取按照比例的方式;
      [0033] C.綜合A和B,輸出該主題的描述。
      [0034] 進(jìn)一步,所述的自動(dòng)分詞的基本算法單元包括有最大匹配法、全切分算法、概率乘 算法;
      [0035] 最大匹配法是機(jī)械分詞的算法不考慮任何詞與詞之間的連接可能性,只按照長(zhǎng)度 在詞典中尋找句子里出現(xiàn)的字符串:算法比較成熟,以最大匹配法(MaximumMatching,簡(jiǎn) 稱MM)最具有代表性;
      [0036] 最大匹配法的思想是:從輸入流中取最大長(zhǎng)度(本系統(tǒng)中取6)字符串,在詞典中 進(jìn)行查找,匹配則輸出,繼續(xù)取,否則,回溯,繼續(xù)查找,直到長(zhǎng)度為1,此時(shí)需在輸入流中前 進(jìn)一格,此過程進(jìn)行到取完輸入流;
      [0037] 全切分算法是一種不存在切分盲點(diǎn)的算法;所謂全切分算法,就是求出形式上所 有符合詞典的切分形式;采用此算法,涉及到一個(gè)選取最優(yōu)切分式的問題;
      [0038] 概率乘算法是基于統(tǒng)計(jì)的方法利用字與字間、詞與詞間的同現(xiàn)頻率作為分詞的依 據(jù);這種方法的優(yōu)點(diǎn)在于它不受應(yīng)用領(lǐng)域的限制,而且也不局限于實(shí)現(xiàn)建立的分詞詞典; 該方法需要大規(guī)模的訓(xùn)練文本,用以訓(xùn)練模型參數(shù);
      [0039] 訓(xùn)練文本的選擇也將對(duì)分詞的結(jié)果產(chǎn)生明顯的影響;
      [0040] 設(shè)S=sl,s,…,sm是待切分的漢字串,假設(shè)S有n個(gè)切分式,W=wl,w2,…,wk,是 第i個(gè)切分式,i=l~n;
      [0041] 設(shè)P(W/S)是漢字串S切分為W的概率,則基于統(tǒng)計(jì)的分詞方法就是從S的n 個(gè)切分式中找到概率最大的切分式,
      [0042]即P(W/S)=MAX(P(W1/S),P(W2/S)...,P(Wn/S)),P(W/S)稱為評(píng)價(jià)函數(shù);
      [0043] 根據(jù)貝葉斯公式,有:P(W/S)=P(W)P(S/W) /P(S)對(duì)于S的多種切分方 式,P(S)為一常數(shù),而P(S/W)是在給定詞串的條件下出現(xiàn)句子S的概率,故P(S/W) =1,所以P(W/S)~P(W)。
      [0044] 進(jìn)一步,所述的未登陸詞的識(shí)別單元包含有兩個(gè)性能指標(biāo):
      [0045] 1.召回率(Recall):指識(shí)別出來的某種類型的未登錄詞的數(shù)量和文本中屬于該類 型的未登錄詞總數(shù)之比,
      [0046] 2.精確率(Accuracy):指在識(shí)別出來的未登錄詞中,屬于該類型未登錄詞的數(shù)目 和辨識(shí)出來的未登錄詞的總數(shù)之比。
      [0047] 進(jìn)一步,所述的漢語(yǔ)自動(dòng)分詞的切分歧義及其消除單元:漢語(yǔ)的分詞是一個(gè)理解 的過程,這個(gè)過程綜合了司法、語(yǔ)法、語(yǔ)義等各種信息,漢語(yǔ)自動(dòng)分詞與這些信息的運(yùn)用是 既相互聯(lián)系又相互制約的一種相輔相成的關(guān)系,純粹的機(jī)械切分必然會(huì)帶來切分歧義;
      [0048] 切分歧義是指漢語(yǔ)句子中的某些字段,如果純粹根據(jù)詞表做簡(jiǎn)單的字符串匹配, 則它可能存在多種切分形式,含有切分歧義的漢字串稱為歧義字段,切分歧義是漢語(yǔ)自動(dòng) 分詞研究中的一個(gè)難點(diǎn),切分歧義的基本類型有三種:
      [0049] 1.交叉歧義:也稱交集型切分歧義,即漢字串ABC既可以切分成AB/C形式,也 可切分成A/BC形式,即AB是詞,BC也是詞;
      [0050] 2.組合歧義:漢字串
      當(dāng)前第1頁(yè)1 2 3 4 5 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1