国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種面向網(wǎng)絡(luò)話題的熱度評價方法

      文檔序號:8299111閱讀:558來源:國知局
      一種面向網(wǎng)絡(luò)話題的熱度評價方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,更具體地,涉及一種面向網(wǎng)絡(luò)話題的熱度評價方 法。
      【背景技術(shù)】
      [0002] 互聯(lián)網(wǎng)已成為最重要的信息傳播載體,并依靠其自由和便利性鞏固了其在新聞傳 播中的主力地位。海量的各種類型的數(shù)據(jù)在網(wǎng)絡(luò)上形成一個極其豐富的信息源,網(wǎng)絡(luò)新聞 媒體已被公認為是繼報紙、廣播、電視之后的"第四媒體"。人們已經(jīng)習慣于通過網(wǎng)絡(luò)查看最 新資訊,然而新聞數(shù)量的龐大要求網(wǎng)民必須有選擇地閱讀新聞,因此最新最熱的事件相關(guān) 信息成為關(guān)注的重點.
      [0003] 網(wǎng)絡(luò)信息數(shù)據(jù)經(jīng)過信息采集與抽取后,半結(jié)構(gòu)化或者結(jié)構(gòu)化的網(wǎng)頁信息變成了易 于處理的結(jié)構(gòu)化的文本內(nèi)容,其中包括標題、內(nèi)容、作者、點擊量、評論量等屬性。TDT技術(shù) 能夠自動將文本按照內(nèi)容聚類成話題,一般選取聚類集合中的一篇文檔的標題來代表該話 題。話題的數(shù)量較原始的互聯(lián)網(wǎng)網(wǎng)頁的數(shù)量大大降低。但是互聯(lián)網(wǎng)中話題的數(shù)量相對于用 戶的精力來說仍然比較龐大,對用戶獲悉熱點、洞察整個互聯(lián)網(wǎng)的發(fā)展態(tài)勢帶來了困難。對 話題熱度的評價是解決這個問題的一種方法,熱度評價可以衡量話題在網(wǎng)絡(luò)中受到的關(guān)注 程度、能夠方便用戶對熱點事件的把握,具有實用性。
      [0004] 目前,對話題熱度的研宄主要是從排序問題入手的,現(xiàn)有技術(shù)大多考慮用戶關(guān)注 度和媒體關(guān)注度。其中一種方法考慮新聞網(wǎng)頁、來源網(wǎng)站和話題之間的相關(guān)增強。另有一 種方法將熱度定義為這兩者的加權(quán)和,其中使用相關(guān)報道數(shù)量來量化一定時間內(nèi)站點上主 題的媒體關(guān)注度,并且使用用戶的瀏覽行為來量化用戶關(guān)注度;或者采用話題相關(guān)的文章 數(shù)目來計算媒體關(guān)注度,并且使用用戶的搜索日志來計算用戶關(guān)注度。此外,還有一種方法 進一步增加了時效性,利用回歸模型來研宄話題熱度。
      [0005] 盡管對于話題熱度的研宄已有不少成果,但大多缺乏統(tǒng)一的衡量標準,熱度值的 范圍往往是不確定的,用戶無法通過數(shù)值對事件當前的受關(guān)注程度獲得一個直觀的理解; 并且,對于計算過程中的參數(shù)的獲取多數(shù)是通過人工指定或者打分得到的,這樣計算得到 的結(jié)果偏重主觀性;此外,不同時段之間的熱度值可比性較弱,現(xiàn)有方法往往是采用某一段 時間內(nèi)的語料來計算話題排序,從而無法用于話題趨勢的描述。

      【發(fā)明內(nèi)容】

      [0006] 為解決上述問題,根據(jù)本發(fā)明的一個實施例,提供一種面向網(wǎng)絡(luò)話題的熱度評價 方法,包括:
      [0007] 步驟1)、從目標時段的文檔流中獲得要進行熱度評價的網(wǎng)絡(luò)話題;
      [0008] 步驟2)、將網(wǎng)絡(luò)話題的屬性與規(guī)則中的屬性進行對比;其中,所述規(guī)則是經(jīng)過訓 練得到的,且用于指示網(wǎng)絡(luò)話題的屬性與熱度值的對應(yīng)關(guān)系;
      [0009] 步驟3)、根據(jù)對比的結(jié)果得到該網(wǎng)絡(luò)話題的熱度值。
      [0010] 上述方法中,步驟2)包括:
      [0011] 計算所述網(wǎng)絡(luò)話題的屬性向量與規(guī)則中的屬性向量的距離,其中,屬性向量的各 分量是所屬網(wǎng)絡(luò)話題的各屬性值。
      [0012] 上述方法中,步驟3)包括:
      [0013] 將與所述網(wǎng)絡(luò)話題的屬性向量距離最小的規(guī)則中的屬性向量所對應(yīng)的熱度值,作 為所述網(wǎng)絡(luò)話題的熱度值。
      [0014] 上述方法中,步驟1)還包括:
      [0015] 獲得所述網(wǎng)絡(luò)話題的屬性向量;根據(jù)訓練得到的離散點集合離散化所述網(wǎng)絡(luò)話題 的屬性向量的分量;其中,每個離散點集合與一種屬性相對應(yīng),其包括一個或多個按大小順 序排列的值,用于與網(wǎng)絡(luò)話題的屬性向量中對應(yīng)的分量進行比較以將該分量轉(zhuǎn)換為預(yù)定范 圍內(nèi)的值。
      [0016] 上述方法中,對于屬性Am對應(yīng)的非空離散點集合{Pl,…,pK},其中R彡1且為整 數(shù),根據(jù)下式離散化所述網(wǎng)絡(luò)話題的屬性向量的對應(yīng)分量:
      【主權(quán)項】
      1. 一種面向網(wǎng)絡(luò)話題的熱度評價方法,包括: 步驟1)、從目標時段的文檔流中獲得要進行熱度評價的網(wǎng)絡(luò)話題; 步驟2)、將網(wǎng)絡(luò)話題的屬性與規(guī)則中的屬性進行對比;其中,所述規(guī)則是經(jīng)過訓練得 到的,且用于指示網(wǎng)絡(luò)話題的屬性與熱度值的對應(yīng)關(guān)系; 步驟3)、根據(jù)對比的結(jié)果得到該網(wǎng)絡(luò)話題的熱度值。
      2. 根據(jù)權(quán)利要求1所述的方法,其中,步驟2)包括: 計算所述網(wǎng)絡(luò)話題的屬性向量與規(guī)則中的屬性向量的距離,其中,屬性向量的各分量 是所屬網(wǎng)絡(luò)話題的各屬性值。
      3. 根據(jù)權(quán)利要求2所述的方法,其中,步驟3)包括: 將與所述網(wǎng)絡(luò)話題的屬性向量距離最小的規(guī)則中的屬性向量所對應(yīng)的熱度值,作為所 述網(wǎng)絡(luò)話題的熱度值。
      4. 根據(jù)權(quán)利要求2或3所述的方法,其中,步驟1)還包括: 獲得所述網(wǎng)絡(luò)話題的屬性向量。
      5. 根據(jù)權(quán)利要求4所述的方法,其中,步驟1)還包括: 根據(jù)訓練得到的離散點集合離散化所述網(wǎng)絡(luò)話題的屬性向量的分量;其中,每個離散 點集合與一種屬性相對應(yīng),其包括一個或多個按順序排列的值,用于與網(wǎng)絡(luò)話題的屬性向 量中對應(yīng)的分量進行比較以將該分量轉(zhuǎn)換為預(yù)定范圍內(nèi)的值。
      6. 根據(jù)權(quán)利要求5所述的方法,其中,對于屬性A,寸應(yīng)的非空離散點集合{p i,…,pK}, 其中R多1且為整數(shù),根據(jù)下式離散化所述網(wǎng)絡(luò)話題的屬性向量的對應(yīng)分量:
      其中,DU!(4,)表示在目標時段t網(wǎng)絡(luò)話題i的屬性向量中與屬性Am對應(yīng)的離散化分 量,U丨(為,)表示在目標時段t網(wǎng)絡(luò)話題i的屬性向量中與屬性Am對應(yīng)的分量; 對于屬性Am對應(yīng)的空離散點集合,DU丨(4,) =〇。
      7. 根據(jù)權(quán)利要求2或3所述的方法,其中,所述網(wǎng)絡(luò)話題的屬性向量的分量包括在目標 時段的網(wǎng)頁內(nèi)容屬性的屬性值和所述網(wǎng)絡(luò)話題在目標時段的前一時段的熱度值。
      8. 根據(jù)權(quán)利要求5所述的方法,其中,根據(jù)以下步驟訓練所述離散點集合以及所述規(guī) 則: 步驟a)、按時段采集網(wǎng)頁,得到每個時段的網(wǎng)絡(luò)話題; 步驟b)、給定熱度值的范圍,由不同知識背景的參與者對每個時段的每個網(wǎng)絡(luò)話題進 行熱度評價,得到每個時段的每個網(wǎng)絡(luò)話題的熱度值; 步驟c)、得到訓練集;其中,所述訓練集的樣本為每個時段的每個網(wǎng)絡(luò)話題的屬性向 量,網(wǎng)絡(luò)話題的屬性向量的分量包括該網(wǎng)絡(luò)話題在該時段的網(wǎng)頁內(nèi)容屬性的屬性值以及該 話題在該時段和前一時段的熱度值; 步驟d)、在所述訓練集中,對于每個時段的每個網(wǎng)絡(luò)話題,將該網(wǎng)絡(luò)話題在該時段的網(wǎng) 頁內(nèi)容屬性的屬性值和在前一時段的熱度值作為條件屬性并且將該網(wǎng)路話題在該時段的 熱度值作為決策屬性,學習得到所述離散點集合以及所述規(guī)則。
      9. 根據(jù)權(quán)利要求8所述的方法,其中,步驟d)包括: 步驟dl)、初始化離散點集合Pm,其中m= 1,???,且M表示網(wǎng)頁內(nèi)容屬性的個數(shù);初始 化候選點集合慫={"丨(么)= 1,. . ?,K,t = 1,. . .,T},m = 1,…,M,其中///(么)表示網(wǎng) 絡(luò)話題i在t時段的網(wǎng)頁內(nèi)容屬性Am的值,K為每個時段的網(wǎng)絡(luò)話題數(shù)量,T為采集的時段 數(shù);初始化臨時候選點集合Lm= P' m,m = 1,…,M ;將最小不一致數(shù)(T初始化為訓練集中 的樣本數(shù);以及,初始化變量存放集合Q ; 步驟d2)、選擇一個臨時候選點集合Lm,m = 1,…,M,從所選的臨時候選點集合中選擇 一個元素P放入離散點集合Pm,根據(jù)離散點集合離散化訓練集中屬性向量的對應(yīng)分量,并將 離散化的結(jié)果保存到集合S d,將該元素p從Lm中刪除; 步驟d3)、根據(jù)下式計算離散化后的不一致數(shù)C : C = a C:+ 0 C2 其中,q表示離散化后條件屬性相同但決策屬性不同的樣本對數(shù)量,C2表示離散化后 條件屬性的大小關(guān)系與決策屬性的大小關(guān)系不一致的樣本對數(shù)量,a、0為〇到1之間的 參數(shù)且二者之和為1 ; 記錄 Q = {Q ; {p,m,C}}; 步驟d4)、將放入離散點集合Pm中的元素p從P m中清除,并且清空S d; 步驟d5)、如果存在Lm,其中m= 1,…,M,非空,則返回步驟d2);否則,從Q中找不一 致數(shù)C最低的三元組{p,m,C},若C彡C%則更新最小不一致數(shù)(f= C、將p加入Pm中且從 m中刪除、更新Lm=P' m,清空Q,并且返回步驟d2); 步驟d6)、使用所得到的每個離散點集合Pm,m= 1,…,M,對訓練集中屬性向量的對應(yīng) 分量進行離散化; 步驟d7)、從離散化后的訓練集中歸納得到網(wǎng)絡(luò)話題的屬性與熱度值的對應(yīng)關(guān)系,從而 得到所述規(guī)則。
      10. 根據(jù)權(quán)利要求9所述的方法,其中,巧(4)表示如下:
      其中,dk(Am)表示在t時段文檔dk對應(yīng)的屬性A m的值,且文檔dk與t時段的話題i相 關(guān)聯(lián);)是與;/丨相關(guān)聯(lián)的t時段的文檔數(shù)量。
      11. 根據(jù)權(quán)利要求8所述的方法,其中,步驟a)包括: 步驟al)、對于所采集的每個時段的網(wǎng)頁的文檔,基于詞典建立該文檔的向量表示;其 中,文檔的向量表示的每個分量是詞典中的對應(yīng)詞在該文檔中的權(quán)重; 步驟a2)、將每個時段的文檔進行聚類,用聚類后類中的文檔的向量表示的平均值來表 示該時段的話題,所得到的每個時段的每個話題與該話題所屬的類中的文檔相關(guān)聯(lián)。
      【專利摘要】本發(fā)明提供一種面向網(wǎng)絡(luò)話題的熱度評價方法,包括:將網(wǎng)絡(luò)話題的屬性與規(guī)則中的屬性進行對比;其中,所述規(guī)則是經(jīng)過訓練得到的,且用于指示網(wǎng)絡(luò)話題的屬性與熱度值的對應(yīng)關(guān)系;以及根據(jù)對比的結(jié)果得到該網(wǎng)絡(luò)話題的熱度值。本發(fā)明定義了數(shù)值評價體系,方便了用戶理解話題的熱度程度,有利于話題之間的熱度比較;以及,采用粗糙集相關(guān)理論最優(yōu)化訓練集中的不一致性,學習出熱度值與屬性之間的關(guān)系,提供了高熱度評價的效果,其中,將無限制的屬性值離散化到有限的數(shù)值范圍內(nèi),減小了計算的復(fù)雜度;此外,綜合多種背景知識的用戶的評價得到訓練集,使得樣本數(shù)據(jù)更為全面,盡可能地減輕了個體的偏見。
      【IPC分類】G06F17-30
      【公開號】CN104615685
      【申請?zhí)枴緾N201510032875
      【發(fā)明人】程學旗, 杜慧, 伍大勇, 張瑾, 郭巖, 余智華, 劉悅, 劉瑋
      【申請人】中國科學院計算技術(shù)研究所
      【公開日】2015年5月13日
      【申請日】2015年1月22日
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1