基于微博文本情感計(jì)算的網(wǎng)絡(luò)社會影響最大化算法
【專利摘要】本發(fā)明公開了基于微博文本情感計(jì)算的網(wǎng)絡(luò)社會影響最大化算法,主要涉及文本情感計(jì)算、網(wǎng)絡(luò)社會計(jì)算及影響最大化領(lǐng)域,尤其涉及微博情感傾向性計(jì)算方法和網(wǎng)絡(luò)社區(qū)關(guān)系結(jié)構(gòu)抽取方法。首先,針對微博中出現(xiàn)的變形詞和新詞新意(如“表哥”),構(gòu)造微博特殊詞典。結(jié)合知網(wǎng)詞典分析微博文本的情感傾向性。其次,根據(jù)多種用戶的互動操作關(guān)系構(gòu)建網(wǎng)絡(luò)社區(qū)用戶關(guān)系樹。最后,根據(jù)微博文本的情感傾向性和網(wǎng)絡(luò)社區(qū)用戶關(guān)系樹,進(jìn)行網(wǎng)絡(luò)設(shè)計(jì)情感影響最大化計(jì)算。本發(fā)明解決了網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)中用戶關(guān)系單一,最大化影響問題計(jì)算不全面的問題,能夠更準(zhǔn)確計(jì)算微博情感傾向性和得到更符合實(shí)際的網(wǎng)絡(luò)情感影響最大化用戶集。
【專利說明】基于微博文本情感計(jì)算的網(wǎng)絡(luò)社會影響最大化算法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本情感計(jì)算、網(wǎng)絡(luò)社會計(jì)算及影響最大化領(lǐng)域,具體是基于微博文本情感計(jì)算的網(wǎng)絡(luò)社會影響最大化算法。
【背景技術(shù)】
[0002]網(wǎng)絡(luò)影響最大化計(jì)算能夠找出網(wǎng)絡(luò)中那些最有影響力的成員,向他們提供信息或商業(yè)樣品,希望借助于他們的推薦,達(dá)到向網(wǎng)絡(luò)中其他成員傳播或營銷的目的。隨著WEB2.0的出現(xiàn)及流行,很多大型在線社交網(wǎng)站的成員數(shù)目也急劇上升,這使得傳統(tǒng)的影響最大化算法和傳播模型研究都面臨著巨大的挑戰(zhàn),社會網(wǎng)絡(luò)中影響最大化算法再次成為研究熱點(diǎn)。
[0003]目前該領(lǐng)域的研究方法主要是I)利用用戶交互數(shù)據(jù)擴(kuò)大網(wǎng)絡(luò)影響范圍。主要是通過計(jì)算用戶之間交互數(shù)據(jù)的影響概率,或者對用戶的歷史行為日志進(jìn)行統(tǒng)計(jì),來估計(jì)用戶之間的影響度。然而這種方法并不考慮用戶之間交互數(shù)據(jù)的內(nèi)容對影響范圍的作用。2)對基于信息傳播模型的算法進(jìn)行改進(jìn),以達(dá)到降低算法的時間復(fù)雜度的目的。
[0004]綜上,目前關(guān)于網(wǎng)絡(luò)影響最大化的研究大多基于網(wǎng)絡(luò)結(jié)構(gòu),其主要存在兩個問題:
[0005]I)沒有充分挖掘用戶交互數(shù)據(jù)的內(nèi)容在網(wǎng)絡(luò)影響最大化模型中的作用。在微博、評論、說說等新興系統(tǒng)中,用戶提交的內(nèi)容數(shù)據(jù)和用戶之間互相回復(fù)、交流的文本能夠更如實(shí)地反映用戶之間的關(guān)系和影響。因此,這些數(shù)據(jù)對于網(wǎng)絡(luò)影響最大化的計(jì)算具有更強(qiáng)的說服力。
[0006]2)在網(wǎng)絡(luò)影響最大化計(jì)算中沒有充分考慮包含在用戶發(fā)布內(nèi)容中的情感信息。情感信息對于理解網(wǎng)絡(luò)社會關(guān)系具有十分重要的應(yīng)用價值。例如,在網(wǎng)絡(luò)輿情監(jiān)控中,如果能對那些具有最大負(fù)面影響的用戶進(jìn)行重點(diǎn)監(jiān)控,就能夠及時遏制謠言、對防治虛假信息和惡性社會事件的擴(kuò)散提供有力的技術(shù)保障。
[0007]為此,將情感計(jì)算引入網(wǎng)絡(luò)影響最大化計(jì)算中,將能提高影響最大化計(jì)算的準(zhǔn)確度和計(jì)算結(jié)果的說服力。
[0008]將情感計(jì)算引入影響最大化模型領(lǐng)域,目前國內(nèi)僅見一篇報道——面向微博的情感影響最大化模型。該文針對目前影響最大化的求解算法僅僅依賴社交網(wǎng)絡(luò)圖的不足,基于微博的轉(zhuǎn)發(fā)關(guān)系樹和微博內(nèi)容的情感傾向性,以及用戶的社交網(wǎng)絡(luò)圖,提出了一個能夠
刻畫用戶情感影響的情感影響最大化模型-情感影響分配模型(sentiment influence
distribution, SID)。附圖⑴為SID模型的實(shí)現(xiàn)方案圖。
[0009](I)SID模型在計(jì)算微博情感傾向性的時候,采用基于情感詞典的方法。情感詞典采用知網(wǎng)的情感分析用詞語集(HowNet)。并用方案圖中的公式I計(jì)算。然而微博中的詞語表達(dá)方式非常豐富,有一些特有的詞語跟字面上的意思是相反的,如加了引號的“高興”、“幸?!钡龋蛞恍┰~語是網(wǎng)絡(luò)的新流行詞語(如“表哥”),是知網(wǎng)情感分析詞語集中沒有的,所以在計(jì)算情感傾向性時,現(xiàn)有技術(shù)的方法過于簡單,情感傾向性分析結(jié)果還可以進(jìn)一步提聞。
[0010](2)SID模型在計(jì)算情感影響最大化時,網(wǎng)絡(luò)社區(qū)的關(guān)系結(jié)構(gòu)是用轉(zhuǎn)發(fā)關(guān)系樹來反映的。然而在實(shí)際的微博系統(tǒng)中,很多用戶在表達(dá)觀點(diǎn)的時候,并不轉(zhuǎn)發(fā)其關(guān)注用戶的微博,還有的用戶習(xí)慣以評論或回復(fù)其關(guān)注用戶的微博為表達(dá)觀點(diǎn)的方式。因此,轉(zhuǎn)發(fā)關(guān)系樹并不能全面的反映社區(qū)的關(guān)系,從而也就不能很好的表現(xiàn)影響最大化的群體。
【發(fā)明內(nèi)容】
[0011]本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,提供一種基于微博文本情感計(jì)算的網(wǎng)絡(luò)社會影響最大化計(jì)算方法。
[0012]本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:
[0013]基于微博文本情感計(jì)算的網(wǎng)絡(luò)社會影響最大化算法,操作步驟如下:
[0014]1.微博特殊詞典構(gòu)造,具體方法如下:
[0015]針對微博中有很多變形詞,新流行詞的特點(diǎn),運(yùn)用中文信息處理技術(shù)(分詞、提取特征等),將得到的變形詞、新詞進(jìn)行注解;分析其詞性、詞義、同位詞、上下位詞、傾向性及索引結(jié)構(gòu),并以詞典形式存儲。
[0016]2.微博情感傾向性分析,具體方法如下:
[0017]在知網(wǎng)情感分析詞語集(HowNet)和微博特殊詞詞典的基礎(chǔ)上,對微博進(jìn)行情感傾向性分析。首先判斷微博中的詞語是否出現(xiàn)在HowNet中,若不是,則檢索微博特殊詞典,然后輸出該詞語的傾向性,統(tǒng)計(jì)所有詞語的傾向性,并最終獲得微博的情感傾向性計(jì)算結(jié)果。
[0018]微博d的情感傾向性(EScore)的計(jì)算方法:
【權(quán)利要求】
1.基于微博文本情感計(jì)算的網(wǎng)絡(luò)社會影響最大化算法,操作步驟如下: 1)微博特殊詞典構(gòu)造,具體方法如下: 針對微博中有很多變形詞,新流行詞的特點(diǎn),運(yùn)用中文信息處理技術(shù)如分詞、提取特征,將得到的變形詞、新詞進(jìn)行注解;分析其詞性、詞義、同位詞、上下位詞、傾向性及索引結(jié)構(gòu),并以詞典形式存儲; 2)微博情感傾向性分析,具體方法如下: 在知網(wǎng)情感分析詞語集HowNet和微博特殊詞詞典的基礎(chǔ)上,對微博進(jìn)行情感傾向性分析,首先判斷微博中的詞語是否出現(xiàn)在HowNet中,若不是,則檢索微博特殊詞典,然后輸出該詞語的傾向性,統(tǒng)計(jì)所有詞語的傾向性,并最終獲得微博的情感傾向性計(jì)算結(jié)果, 微博d的情感傾向性(EScore)的計(jì)算方法:
【文檔編號】G06F17/30GK103530360SQ201310475440
【公開日】2014年1月22日 申請日期:2013年10月12日 優(yōu)先權(quán)日:2013年10月12日
【發(fā)明者】覃曉, 元昌安, 唐濤, 元建 申請人:廣西師范學(xué)院