国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種微博傳播趨勢(shì)預(yù)測(cè)方法及裝置的制造方法

      文檔序號(hào):9200413閱讀:486來(lái)源:國(guó)知局
      一種微博傳播趨勢(shì)預(yù)測(cè)方法及裝置的制造方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及通信技術(shù)領(lǐng)域,尤其涉及一種微博傳播趨勢(shì)預(yù)測(cè)方法及裝置。
      【背景技術(shù)】
      [0002]目前,隨著傳統(tǒng)社會(huì)經(jīng)濟(jì)活動(dòng)向社會(huì)化、網(wǎng)絡(luò)化方向發(fā)展,以社會(huì)化媒體為載體、以突發(fā)、熱點(diǎn)事件為焦點(diǎn)的社會(huì)輿情成為關(guān)注重點(diǎn)。在涉及國(guó)家安全、社會(huì)穩(wěn)定、社會(huì)民生的突發(fā)、敏感事件的發(fā)酵和傳播過(guò)程中,微博都起到了重要的推動(dòng)甚至導(dǎo)向性作用。流行度預(yù)測(cè)是維護(hù)網(wǎng)絡(luò)輿情安全的重要手段,對(duì)微博消息流行度以及微博傳播模式做出快速、準(zhǔn)確的預(yù)測(cè),能夠及早發(fā)現(xiàn)可能引發(fā)大規(guī)模爆發(fā)的微博,提早防范有害信息擴(kuò)散和傳播。
      [0003]社交網(wǎng)絡(luò)是一個(gè)多維度的復(fù)雜系統(tǒng),節(jié)點(diǎn)間相互影響與相互作用頻繁。在社交網(wǎng)絡(luò)中,信息傳播和用戶群體行為一般都具有逐漸積累、混合發(fā)酵到瞬間爆發(fā)的特點(diǎn),而這樣的過(guò)程并不是線性的,不是單個(gè)因素作用簡(jiǎn)單迭加而成的,往往是多方面因素上一系列細(xì)微變化,綜合作用使得整個(gè)系統(tǒng)達(dá)到某個(gè)臨界狀態(tài)時(shí),出現(xiàn)涌現(xiàn)現(xiàn)象,微博的爆發(fā)是社交網(wǎng)絡(luò)信息涌現(xiàn)現(xiàn)象在內(nèi)容層面的一種表現(xiàn)形式。
      [0004]在此系統(tǒng)特征背景下的微博傳播趨勢(shì)預(yù)測(cè)方法通常圍繞微博轉(zhuǎn)發(fā)特征挖掘和消息傳播趨勢(shì)建模兩方面開展。在社交網(wǎng)絡(luò)中基于泊松過(guò)程模型的事件流行度預(yù)測(cè)方法(申請(qǐng)?zhí)?201410334425.6)提出了一種對(duì)微博傳播鏈上關(guān)鍵用戶的轉(zhuǎn)發(fā)行為進(jìn)行泊松過(guò)程建模的方法進(jìn)行事件流行度預(yù)測(cè)。然而,該方法需要對(duì)通過(guò)轉(zhuǎn)發(fā)關(guān)系恢復(fù)完整的微博轉(zhuǎn)發(fā)鏈,在實(shí)際應(yīng)用中,爬取完整轉(zhuǎn)發(fā)鏈面臨好時(shí)較長(zhǎng)和社交網(wǎng)絡(luò)屏蔽、限制等多種困難,另外,該方法還需要對(duì)每個(gè)用戶進(jìn)行關(guān)鍵用戶和非關(guān)鍵用戶的識(shí)別,時(shí)間復(fù)雜度高,且建模過(guò)程的準(zhǔn)確性過(guò)于依賴關(guān)鍵用戶判別方法的準(zhǔn)確性,使得其準(zhǔn)確性較低。微博轉(zhuǎn)發(fā)量預(yù)測(cè)模型生成方法及微博轉(zhuǎn)發(fā)量預(yù)測(cè)方法(申請(qǐng)?zhí)?201410157342.4)提出的方法首先對(duì)微博轉(zhuǎn)發(fā)量進(jìn)行分級(jí),然后提取每條微博的基本特征,建立基本特征與轉(zhuǎn)發(fā)量類別之間的多分類模型,進(jìn)而根據(jù)每一個(gè)轉(zhuǎn)發(fā)量類別,建立基本特征與微博轉(zhuǎn)發(fā)量之間的回歸模型,最后利用訓(xùn)練好的多分類模型和回歸模型進(jìn)行待預(yù)測(cè)微博的轉(zhuǎn)發(fā)量,可是該方法沒(méi)有考慮傳播過(guò)程的動(dòng)態(tài)趨勢(shì),很多初始條件和內(nèi)容相似的微博由于傳播過(guò)程參與者等因素的不同而導(dǎo)致最終轉(zhuǎn)發(fā)量存在巨大差異,僅依靠微博基本特征對(duì)微博最終轉(zhuǎn)發(fā)量進(jìn)行預(yù)測(cè)準(zhǔn)確性較低。

      【發(fā)明內(nèi)容】

      [0005]本發(fā)明提供一種微博傳播趨勢(shì)預(yù)測(cè)方法及裝置,用于解決現(xiàn)有技術(shù)中對(duì)微博傳播趨勢(shì)預(yù)測(cè)的方法準(zhǔn)確性較低的問(wèn)題。
      [0006]根據(jù)本發(fā)明的一個(gè)方面,提供了一種微博傳播趨勢(shì)預(yù)測(cè)方法,包括:獲取待預(yù)測(cè)微博的基本屬性特征以及傳播過(guò)程特征;計(jì)算待預(yù)測(cè)微博與訓(xùn)練數(shù)據(jù)的基本屬性特征、傳播過(guò)程特征的相似度,根據(jù)計(jì)算得到的相似度按照傳播過(guò)程類別對(duì)待預(yù)測(cè)微博進(jìn)行分類,得到待預(yù)測(cè)微博所屬的傳播過(guò)程類別,傳播過(guò)程類別由訓(xùn)練數(shù)據(jù)的傳播過(guò)程特征相似度聚類得到;根據(jù)待預(yù)測(cè)微博的傳播過(guò)程類別選擇對(duì)應(yīng)的回歸模型,回歸模型為預(yù)先根據(jù)訓(xùn)練數(shù)據(jù)建立的回歸模型;根據(jù)選擇的回歸模型對(duì)待預(yù)測(cè)微博的傳播趨勢(shì)進(jìn)行預(yù)測(cè)。
      [0007]其中,上述傳播過(guò)程特征包括:微博數(shù)據(jù)的傳播過(guò)程中的內(nèi)容特征、微博數(shù)據(jù)的傳播過(guò)程中的轉(zhuǎn)發(fā)數(shù)據(jù)特征以及微博數(shù)據(jù)傳播過(guò)程中的用戶特征。
      [0008]進(jìn)一步的,上述方法還包括:
      [0009]在獲取待預(yù)測(cè)微博的基本屬性特征以及傳播過(guò)程特征之前,根據(jù)訓(xùn)練數(shù)據(jù)的傳播過(guò)程類別分別建立訓(xùn)練數(shù)據(jù)的傳播中的內(nèi)容特征、轉(zhuǎn)發(fā)數(shù)據(jù)特征以及用戶特征與訓(xùn)練數(shù)據(jù)的基本特征以及傳播過(guò)程特征的線性回歸模型。
      [0010]其中,根據(jù)選擇的回歸模型對(duì)待預(yù)測(cè)微博的傳播趨勢(shì)進(jìn)行預(yù)測(cè),包括:
      [0011]依次根據(jù)選擇的回歸模型對(duì)待預(yù)測(cè)微博的內(nèi)容關(guān)鍵詞的個(gè)數(shù)、待預(yù)測(cè)微博的轉(zhuǎn)發(fā)量以及待預(yù)測(cè)微博的傳播范圍進(jìn)行預(yù)測(cè)。
      [0012]其中,上述基本屬性特征,包括:發(fā)帖用戶的屬性以及微博內(nèi)容的屬性。
      [0013]根據(jù)本發(fā)明的另一個(gè)方面,提供了一種微博傳播趨勢(shì)預(yù)測(cè)裝置,包括:獲取模塊,用于獲取待預(yù)測(cè)微博的基本屬性特征以及傳播過(guò)程特征;分類模塊,用于計(jì)算待預(yù)測(cè)微博與訓(xùn)練數(shù)據(jù)的基本屬性特征、傳播過(guò)程特征的相似度,根據(jù)計(jì)算得到的相似度按照訓(xùn)傳播過(guò)程類別對(duì)待預(yù)測(cè)微博進(jìn)行分類,得到待預(yù)測(cè)微博所屬的傳播過(guò)程類別,傳播過(guò)程類別由訓(xùn)練數(shù)據(jù)的傳播過(guò)程特征相似度聚類得到;選擇模塊,用于根據(jù)待預(yù)測(cè)微博的傳播過(guò)程類別選擇對(duì)應(yīng)的回歸模型,訓(xùn)練回歸為預(yù)先根據(jù)訓(xùn)練數(shù)據(jù)建立的回歸模型;預(yù)測(cè)模塊,用于根據(jù)選擇的回歸模型對(duì)待預(yù)測(cè)微博的傳播趨勢(shì)進(jìn)行預(yù)測(cè)。
      [0014]其中,上述傳播過(guò)程特征包括:微博數(shù)據(jù)的傳播過(guò)程中的內(nèi)容特征、微博數(shù)據(jù)的傳播過(guò)程中的轉(zhuǎn)發(fā)數(shù)據(jù)特征以及微博數(shù)據(jù)傳播過(guò)程中的用戶特征。
      [0015]進(jìn)一步的,上述裝置還包括:建立模塊,用于在獲取待預(yù)測(cè)微博的基本屬性特征以及傳播過(guò)程特征之前,根據(jù)訓(xùn)練數(shù)據(jù)的傳播過(guò)程類別分別建立訓(xùn)練數(shù)據(jù)的傳播中的內(nèi)容特征、轉(zhuǎn)發(fā)數(shù)據(jù)特征以及用戶特征與訓(xùn)練數(shù)據(jù)的基本特征以及傳播過(guò)程特征的線性回歸模型。
      [0016]其中,上述預(yù)測(cè)模塊用于:依次根據(jù)選擇的回歸模型對(duì)待預(yù)測(cè)微博的內(nèi)容關(guān)鍵詞的個(gè)數(shù)、待預(yù)測(cè)微博的轉(zhuǎn)發(fā)量以及待預(yù)測(cè)微博的傳播范圍進(jìn)行預(yù)測(cè)。
      [0017]其中,上述基本屬性特征,包括:發(fā)帖用戶的屬性以及微博內(nèi)容的屬性。
      [0018]本發(fā)明實(shí)施例提供的方案,充分考慮了微博傳播過(guò)程的動(dòng)態(tài)因素,基于微博傳播過(guò)程中的多種傳播過(guò)程特征來(lái)預(yù)測(cè)微博傳播趨勢(shì),提高了微博傳播趨勢(shì)預(yù)測(cè)的準(zhǔn)確性。
      【附圖說(shuō)明】
      [0019]為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
      [0020]圖1是本發(fā)明實(shí)施例1提供的微博傳播趨勢(shì)預(yù)測(cè)方法的流程圖;
      [0021]圖2為本發(fā)明實(shí)施例2提供的建立回歸模型的流程圖;
      [0022]圖3是本發(fā)明實(shí)施例2提供的待預(yù)測(cè)微博的傳播趨勢(shì)預(yù)測(cè)的流程圖;
      [0023]圖4是本發(fā)明是實(shí)施例3提供的微博傳播趨勢(shì)預(yù)測(cè)裝置的結(jié)構(gòu)框圖。
      【具體實(shí)施方式】
      [0024]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
      [0025]實(shí)施例1
      [0026]本實(shí)施例提供了一種微博傳播趨勢(shì)預(yù)測(cè)方法,如圖1所示,該方法包括如下步驟:
      [0027]步驟101:獲取待預(yù)測(cè)微博的基本屬性特征以及各傳播過(guò)程特征;
      [0028]其中,上述基本屬性特征,包括:發(fā)帖用戶的屬性以及微博內(nèi)容的屬性,發(fā)帖用戶屬性包括用戶是否加V、用戶粉絲數(shù)、用戶發(fā)帖數(shù),微博內(nèi)容屬性包括是否含有URL (UniformResource Locator,統(tǒng)一資源定位符)、是否含有圖片、是否含有視頻、所含關(guān)鍵詞個(gè)數(shù)和比例以及所含情感詞個(gè)數(shù)和比例。
      [0029]其中,微博的傳播過(guò)程特征包括:微博數(shù)據(jù)的傳播過(guò)程中的內(nèi)容特征、微博數(shù)據(jù)的傳播過(guò)程中的轉(zhuǎn)發(fā)數(shù)據(jù)特征以及微博數(shù)據(jù)傳播過(guò)程中的用戶特征。
      [0030]其中,內(nèi)容特征包括以下信息:
      [0031]內(nèi)容關(guān)鍵詞:對(duì)微博內(nèi)容進(jìn)行分詞、統(tǒng)計(jì)詞頻,計(jì)算關(guān)鍵詞特征向量;
      [0032]內(nèi)容實(shí)體詞:提取內(nèi)容關(guān)鍵詞中的實(shí)體詞,形成實(shí)體詞特征向量;
      [0033]實(shí)體連接密度:依據(jù)知網(wǎng)等外部知識(shí)庫(kù),計(jì)算實(shí)體詞之間的連接密度,計(jì)算方法為,首先形成詞為頂點(diǎn)、共現(xiàn)關(guān)系為連邊的實(shí)體詞圖,共現(xiàn)一次則連邊權(quán)重加1,連接密度為實(shí)體詞之間的連邊數(shù)量與全連通圖連邊數(shù)量的比值;該指標(biāo)表明微博內(nèi)容涉及的實(shí)體間的相互關(guān)系緊密程度,越緊密表示未來(lái)越有可能更多的出現(xiàn)在一起,衍生出新話題的概率越大,微博得到更多轉(zhuǎn)發(fā)的概率也就越大;
      [0034]內(nèi)容關(guān)鍵詞變化率:去掉垃圾回復(fù)(如推廣鏈接和廣告鏈接)和無(wú)實(shí)詞回復(fù)(如“呵呵”和表情符號(hào)),取微博前100條回復(fù),將內(nèi)容加入到微博內(nèi)容計(jì)算內(nèi)容關(guān)鍵詞特征向量,計(jì)算第i天相比第1-ι天微博內(nèi)容的增長(zhǎng)量;
      [0035]內(nèi)容實(shí)體詞變化率:內(nèi)容實(shí)體詞變化率的計(jì)算方法,提取每天的內(nèi)容關(guān)鍵詞中的實(shí)體詞,形成實(shí)體詞特征向量,計(jì)算第i天相比第1-ι天微博內(nèi)容所含實(shí)體的增長(zhǎng)量;
      [0036]數(shù)量特征:
      [0037]日轉(zhuǎn)發(fā)量:從發(fā)帖時(shí)間到觀測(cè)結(jié)束,每天的轉(zhuǎn)發(fā)次數(shù);
      [0038]轉(zhuǎn)發(fā)量增長(zhǎng)速度:計(jì)算第i天相比第i_l天轉(zhuǎn)發(fā)量的增長(zhǎng)量;表明微博持續(xù)被關(guān)注程度,增速越大,表明轉(zhuǎn)發(fā)量增長(zhǎng)越快;
      [0039]飽和度:飽和度總和為1,分別計(jì)算達(dá)到飽和度為10%到100%的時(shí)間,以10%為步長(zhǎng);
      [0040]用戶特征:
      [0041]發(fā)帖用戶粉絲數(shù):計(jì)算第i天相比第i_l天發(fā)帖用戶粉絲總數(shù)的增長(zhǎng)量,增長(zhǎng)越快,表明有V用戶加入微博轉(zhuǎn)發(fā)過(guò)程,微博越有可能獲得更多的曝光量,也就越有可能得到更多的轉(zhuǎn)發(fā)次數(shù);
      [0042]發(fā)帖用戶關(guān)系網(wǎng)絡(luò)連接密度:首先形成以發(fā)帖用戶為頂點(diǎn),關(guān)注關(guān)系為連邊的關(guān)注關(guān)系網(wǎng)絡(luò),計(jì)算發(fā)帖用戶的連接密度,連接密度越高表明微博參與人之間關(guān)系越緊密,要么表明是一個(gè)討論熱烈的小圈子,要么是水軍互相轉(zhuǎn)發(fā)以提高轉(zhuǎn)發(fā)率。
      [0043]步驟102:計(jì)算待預(yù)測(cè)微博與訓(xùn)練數(shù)據(jù)的基本屬性特征、傳播過(guò)程特征的相似度,根據(jù)計(jì)算得到的相似度按照訓(xùn)練數(shù)據(jù)的傳播過(guò)程類別對(duì)待預(yù)測(cè)微博進(jìn)行分類,得到待預(yù)測(cè)微
      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1