一種在線社交網(wǎng)絡(luò)中社群話題的發(fā)現(xiàn)方法
【專利摘要】本發(fā)明涉及一種在線社交網(wǎng)絡(luò)中社群話題的發(fā)現(xiàn)方法,該具體過程為:基于網(wǎng)絡(luò)爬蟲對(duì)目標(biāo)社交網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)采集;基于采集到的社交網(wǎng)絡(luò)中用戶對(duì)象之間的交互關(guān)系,計(jì)算每個(gè)用戶對(duì)象在交互網(wǎng)絡(luò)拓?fù)渲械南嚓P(guān)度;構(gòu)建用戶對(duì)象靜態(tài)的交互網(wǎng)絡(luò);利用層次聚類,根據(jù)用戶對(duì)象的相關(guān)度得到緊密的用戶社群結(jié)構(gòu);對(duì)于劃分出的每個(gè)社群,查找數(shù)據(jù)庫獲得該社群對(duì)應(yīng)的文本信息,將其作為文檔輸入,使用SVM分類,計(jì)算出該社群的熱門話題。本發(fā)明提出了一種基于社群劃分的社群話題發(fā)現(xiàn)方法,與現(xiàn)有的在線社交網(wǎng)絡(luò)話題發(fā)現(xiàn)方法相比,可以有效排除噪音數(shù)據(jù),獲得更為緊密的社群之間的話題,有助于更深入地了解社交網(wǎng)絡(luò)的信息傳播規(guī)律。
【專利說明】一種在線社交網(wǎng)絡(luò)中社群話題的發(fā)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及社會(huì)計(jì)算【技術(shù)領(lǐng)域】,尤其涉及一種在線社交網(wǎng)絡(luò)中社群話題的發(fā)現(xiàn)方法。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,互聯(lián)網(wǎng)正逐漸成為人們交往的重要渠道,人與人之間的社會(huì)網(wǎng)絡(luò)關(guān)系蘊(yùn)藏進(jìn)了互聯(lián)網(wǎng)中,誕生了社交網(wǎng)絡(luò)服務(wù)。在社交網(wǎng)站通過在線服務(wù)向其用戶提供服務(wù)的過程中,用戶間形成了基于網(wǎng)絡(luò)的成員之間的社交網(wǎng)絡(luò)關(guān)系。社交網(wǎng)絡(luò)在我們的日常生活扮演重要角色。人們通過社會(huì)性關(guān)系來完成互相間的通信和信息分享。在這個(gè)過程中,形成了社交網(wǎng)絡(luò)中的話題。
[0003]社交網(wǎng)絡(luò)是基于用戶關(guān)系實(shí)現(xiàn)信息的分享、獲取以及傳播的互聯(lián)網(wǎng)平臺(tái)。用戶利用社交網(wǎng)絡(luò)構(gòu)建和維持著自身的人際網(wǎng)絡(luò)關(guān)系,并在相關(guān)平臺(tái)上發(fā)布消息。社交網(wǎng)絡(luò)中通常包括一些松散的用戶集群,其中的成員相互聯(lián)系較之其余用戶更加密切,我們稱之為社群。發(fā)現(xiàn)這種固有的社會(huì)結(jié)構(gòu)中的話題分布有助于我們更深入地了解社交網(wǎng)絡(luò)的信息傳播規(guī)律。
[0004]中國專利200880124053.7,201210210349.9提出了一些在線社交網(wǎng)絡(luò)的社群識(shí)別方法,但是無法在劃分的社群中發(fā)現(xiàn)話題。專利201210514421.7提出使用專家知識(shí)人工去除噪音用戶發(fā)現(xiàn)社交網(wǎng)絡(luò)中的重要目標(biāo)和專利201210054254.2采用分析用戶話題鏈接行為識(shí)別社交網(wǎng)絡(luò)中的話題領(lǐng)袖,都只能獲得社交網(wǎng)絡(luò)核心用戶的話題內(nèi)容。專利201210350117.3提出了一種發(fā)現(xiàn)社交網(wǎng)絡(luò)中弱鏈接的方法,可以有效尋找到話題路徑,但是無法發(fā)現(xiàn)具體的話題。專利201210210349.9能夠挖掘社交網(wǎng)絡(luò)中話題核心圈,依舊無法覆蓋所有社群的話題。
[0005]鑒于上述缺陷,本發(fā)明創(chuàng)作者經(jīng)過長時(shí)間的研究和實(shí)踐終于獲得了本創(chuàng)作。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的在于提供一種在線社交網(wǎng)絡(luò)中社群話題的發(fā)現(xiàn)方法,用以克服上述技術(shù)缺陷。
[0007]為實(shí)現(xiàn)上述目的,本發(fā)明提供一種在線社交網(wǎng)絡(luò)中社群話題的發(fā)現(xiàn)方法,該具體過程為:
[0008]步驟1,基于網(wǎng)絡(luò)爬蟲對(duì)目標(biāo)社交網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)采集;
[0009]步驟2,基于采集到的社交網(wǎng)絡(luò)中用戶對(duì)象之間的交互關(guān)系,計(jì)算每個(gè)用戶對(duì)象在交互網(wǎng)絡(luò)拓?fù)渲械南嚓P(guān)度;
[0010]步驟3,構(gòu)建用戶對(duì)象靜態(tài)的交互網(wǎng)絡(luò);
[0011]步驟4,利用層次聚類,根據(jù)用戶對(duì)象的相關(guān)度得到緊密的用戶社群結(jié)構(gòu);
[0012]步驟5,對(duì)于劃分出的每個(gè)社群,查找數(shù)據(jù)庫獲得該社群對(duì)應(yīng)的文本信息,將其作為文檔輸入,使用SVM分類,計(jì)算出該社群的熱門話題。[0013]進(jìn)一步,
[0014]通過下述公式(I)計(jì)算用戶之間的相關(guān)度Hij,并存入數(shù)據(jù)庫中,
【權(quán)利要求】
1.一種在線社交網(wǎng)絡(luò)中社群話題的發(fā)現(xiàn)方法,其特征在于,該具體過程為: 步驟1,基于網(wǎng)絡(luò)爬蟲對(duì)目標(biāo)社交網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)采集; 步驟2,基于采集到的社交網(wǎng)絡(luò)中用戶對(duì)象之間的交互關(guān)系,計(jì)算每個(gè)用戶對(duì)象在交互網(wǎng)絡(luò)拓?fù)渲械南嚓P(guān)度; 步驟3,構(gòu)建用戶對(duì)象靜態(tài)的交互網(wǎng)絡(luò); 步驟4,利用層次聚類,根據(jù)用戶對(duì)象的相關(guān)度得到緊密的用戶社群結(jié)構(gòu); 步驟5,對(duì)于劃分出的每個(gè)社群,查找數(shù)據(jù)庫獲得該社群對(duì)應(yīng)的文本信息,將其作為文檔輸入,使用SVM分類,計(jì)算出該社群的熱門話題。
2.根據(jù)權(quán)利要求1所述的在線社交網(wǎng)絡(luò)中社群話題的發(fā)現(xiàn)方法,其特征在于, 通過下述公式(I)計(jì)算用戶之間的相關(guān)度,并存入數(shù)據(jù)庫中,
3.根據(jù)權(quán)利2所述的在線社交網(wǎng)絡(luò)中社群話題的發(fā)現(xiàn)方法,其特征在于,在上述步驟3中,對(duì)于一個(gè)含有η個(gè)用戶的社群Q,設(shè)其中的用戶分別為U1、U2、...U1...Un,對(duì)于其中任意個(gè)用戶Ui,通過公式(I)的用戶相關(guān)度公式,可以計(jì)算出其和其它N-1個(gè)用戶的相關(guān)度n ij ; 定義向量&= ( η ii , η i2 ,…,η ij ,..., η in )為用戶i的社群相關(guān)度向量,則該向量表示用戶i對(duì)于社群中所有用戶的相關(guān)度; 計(jì)算出社群中所有用戶的相關(guān)度向量Ai后,定義矩陣MQ = (h ,
, Xi ;..., Sn ) τ為社群Q的相關(guān)度矩陣。
4.根據(jù)權(quán)利I所述的在線社交網(wǎng)絡(luò)中社群話題的發(fā)現(xiàn)方法,其特征在于, 所述層次聚類,將網(wǎng)絡(luò)中聚類最近的兩個(gè)點(diǎn)或者集合不斷的聚集在一起,形成新的集合,最后會(huì)形成一顆聚類二叉樹,根據(jù)給定的社群數(shù)量,可以將其分割為任意數(shù)量的子樹,每個(gè)子樹對(duì)應(yīng)的用戶集合就是一個(gè)社群,在裁剪的過程中,不斷丟棄那些子樹個(gè)數(shù)為一的孤立節(jié)點(diǎn),實(shí)現(xiàn)對(duì)噪音數(shù)據(jù)的過濾。
5.根據(jù)權(quán)利4所述的在線社交網(wǎng)絡(luò)中社群話題的發(fā)現(xiàn)方法,其特征在于, 在上述步驟4中,對(duì)目標(biāo)社交網(wǎng)絡(luò)劃分為K個(gè)社群的過程具體過程為: 步驟41:對(duì)于一個(gè)社交網(wǎng)絡(luò)的相關(guān)度矩陣MQ,使用層次聚類方法獲得其聚類樹ClusterTree ; 步驟42:將ClusterTree加入聚類樹集合Q中; 步驟43:如果Q中的聚類集合數(shù)量大于K直接進(jìn)入步驟44,否則選取集合Q中根節(jié)點(diǎn)距離最大的聚類樹拆為兩顆子樹,如果子樹的根節(jié)點(diǎn)數(shù)量小于2,則刪除該子樹,否則將子樹添加到集合Q中;步驟44:如果Q中的聚類集合數(shù)量小于K直接進(jìn)入步驟45,否則選取集合Q中根節(jié)點(diǎn)距離最小的兩顆聚類樹合并為一顆子樹; 步驟45:如果Q中的聚類集合數(shù)量等于K則結(jié)束,否則返回43。
6.根據(jù)權(quán)利2所述的在線社交網(wǎng)絡(luò)中社群話題的發(fā)現(xiàn)方法,其特征在于,根據(jù)三種操作的重要程度不同和比例關(guān)系,所述hl=0.45 ;h2 = 0.3,h3=0.25。
7.根據(jù)權(quán)利6所述的在線社交網(wǎng)絡(luò)中社群話題的發(fā)現(xiàn)方法,其特征在于, 所述步驟I中采集信息包括用戶發(fā)布的所有新鮮事文本,以及新鮮事條目下其他用戶對(duì)其進(jìn)行的轉(zhuǎn)發(fā)、分享、評(píng)論等交互操作;并在采集過程中,解析新鮮事信息中包含的交互操 作。
【文檔編號(hào)】G06F17/30GK103793489SQ201410025323
【公開日】2014年5月14日 申請(qǐng)日期:2014年1月16日 優(yōu)先權(quán)日:2014年1月16日
【發(fā)明者】於志文, 張星, 梁韻基, 郭斌, 倪紅波, 王柱 申請(qǐng)人:西北工業(yè)大學(xué)