本發(fā)明涉及社區(qū)搜索,尤其涉及基于主題感知與影響力融合的社區(qū)搜索方法。
背景技術(shù):
1、隨著在線社交網(wǎng)絡(luò)(如facebook、x、微博等)的迅速發(fā)展,大型圖已被廣泛用于數(shù)據(jù)分析,并且人們對(duì)于在其中獲取有用信息的需求日益增長(zhǎng)。在這些大型圖中,社區(qū)(community)是一個(gè)重要組成部分,它通常被定義為圖中一小群緊密連接的頂點(diǎn)所形成的內(nèi)聚子圖。而從圖中尋找社區(qū)的工作被稱為社區(qū)搜索(community?search,cs),它是大數(shù)據(jù)分析中的一個(gè)基本問(wèn)題,并且已經(jīng)廣泛應(yīng)用于廣告投放、社交推薦、事件組織等領(lǐng)域當(dāng)中。近年來(lái),研究人員開始將社會(huì)影響力納入至社區(qū)搜索問(wèn)題中,旨在找到一組不僅緊密相連,且具有高度影響力的頂點(diǎn),或者是將主題納入至社區(qū)搜索問(wèn)題當(dāng)中,找到一組連接緊密、主題關(guān)聯(lián)的頂點(diǎn)。盡管研究人員對(duì)這兩類問(wèn)題進(jìn)行了廣泛研究,但只有少數(shù)嘗試將社會(huì)影響力和主題同時(shí)納入至cs問(wèn)題當(dāng)中,并且僅有的一些關(guān)于影響力和主題感知結(jié)合的cs問(wèn)題的研究仍然存在一些局限性:
2、1)內(nèi)聚性定義單調(diào)
3、在內(nèi)聚性的定義中,現(xiàn)有技術(shù)采用了經(jīng)典的k-core和k-truss模型及其變體。但這些模型不能表示不同主題上用戶之間關(guān)系的強(qiáng)度,因?yàn)樗鼈冎豢紤]兩個(gè)頂點(diǎn)之間是否存在邊(即連接)。
4、2)沒(méi)有考慮更貼近實(shí)際的不確定圖場(chǎng)景
5、它們并沒(méi)有捕捉到社區(qū)形成的不確定性,因?yàn)樗鼈兊亩x都是基于確定性圖的,即邊生成概率一定為1。
6、3)沒(méi)有考慮不同主題下的影響力變化
7、在影響力方面,大多數(shù)工作預(yù)先為每個(gè)頂點(diǎn)指定一個(gè)固定的影響力分?jǐn)?shù)。這樣的方案并沒(méi)有反映出用戶的影響力隨著主題的變化而變化,并且信息在社交網(wǎng)絡(luò)中的傳播通常由隨機(jī)擴(kuò)散模型來(lái)描述,如獨(dú)立級(jí)聯(lián)(ic)模型。
8、以上這些限制會(huì)阻礙現(xiàn)有cs方法在現(xiàn)實(shí)場(chǎng)景中的應(yīng)用。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)的不足而提供的一種基于主題感知的最具影響力社區(qū)在線搜索方法。該方法是為解決在更為復(fù)雜的社交網(wǎng)絡(luò)圖下,搜索到一個(gè)潛在社區(qū),該社區(qū)同時(shí)滿足與查詢主題的高度關(guān)聯(lián)、給定主題下最高的對(duì)外影響力、社區(qū)內(nèi)極高的內(nèi)聚度等三個(gè)特征。
2、實(shí)現(xiàn)本發(fā)明目的的具體技術(shù)方案是:
3、步驟1:獲取社交網(wǎng)絡(luò)圖用戶給定的查詢主題分布q以及內(nèi)聚參數(shù)k,l,η。
4、該社交網(wǎng)絡(luò)圖中的每個(gè)頂點(diǎn)代表一個(gè)用戶實(shí)體,每條有向邊e∈ε上擁有主題分布,表示兩個(gè)用戶實(shí)體之間在不同主題下的社交關(guān)系權(quán)重,即ω(e)=(ω1(e),...,ωz(e)),e=(u,v)∈ε,其中z表示主題數(shù)量,ωi(e)表示用戶u對(duì)用戶v在第i個(gè)主題上的關(guān)系權(quán)重。而本發(fā)明的目的便是在這樣一個(gè)復(fù)雜的社交網(wǎng)絡(luò)中根據(jù)用戶給定的查詢主題q以及用戶希望的內(nèi)聚程度搜索到對(duì)應(yīng)的潛在社區(qū)。
5、步驟2:根據(jù)用戶給定的主題分布q,將社交網(wǎng)絡(luò)圖轉(zhuǎn)化為基于主題分布q的交互圖gq=(vq,eq,p)。
6、基于主題的交互圖gq=(vq,eq,p)是從步驟1給定的社交網(wǎng)絡(luò)圖中提取的與向量q相關(guān)的一個(gè)有向不確定圖,其中p是將每條邊e∈ε映射到[0,1]區(qū)間內(nèi)的概率值p(e)的集合。具體來(lái)說(shuō),這個(gè)概率值由社交網(wǎng)絡(luò)圖中每條邊的主題分布與用戶給定的主題分布q運(yùn)算得來(lái),即p(e)=f(<ω(e),q>),其中<,>表示兩個(gè)向量的點(diǎn)積,而f(·)是一個(gè)單調(diào)函數(shù),用于將任意非負(fù)實(shí)數(shù)歸一化到范圍[0,1]區(qū)間內(nèi)。相應(yīng)地,eq={e∈ε∣p(e)>0},vq={u∣(u,v)∈eq}∪{v∣(u,v)∈eq}。
7、步驟3:定義并提供一種有向不確定圖密度指標(biāo)(k,l,η)-core和一種社區(qū)模型(k,l,η)-影響力社區(qū)。
8、步驟3-1:(k,l,η)-core是一個(gè)在k-core之上擴(kuò)展的結(jié)構(gòu)凝聚力評(píng)估指標(biāo),它適用于有向不確定圖,也是本發(fā)明之一。具體來(lái)說(shuō),它是用來(lái)提取步驟2中交互圖gq=(vq,eq,p)的內(nèi)聚子圖,一個(gè)(k,l,η)-core是一個(gè)滿足的極大誘導(dǎo)子圖c=(vc,ec,p),其中表示頂點(diǎn)v在圖c中的入度,而表示頂點(diǎn)v在圖c中的出度。此外,由于假設(shè)每條邊的存在都是獨(dú)立的,因此可以等價(jià)于與的乘積。
9、步驟3-2:(k,l,η)-影響力社區(qū)是本發(fā)明要搜索的潛在社區(qū)的模型,它更加契合于有向不確定圖。每個(gè)(k,l,η)-影響力社區(qū)c'都有對(duì)應(yīng)的社區(qū)影響力分?jǐn)?shù)它表明了不同社區(qū)在步驟1中給定主題q下的影響力,而的影響力分?jǐn)?shù)定義為c'內(nèi)頂點(diǎn)影響力最小值,即此外,一個(gè)(k,l,η)-影響力社區(qū)c'需要滿足三個(gè)特性:1)弱連通特性;2)內(nèi)聚性,即c'是步驟2中交互圖gq的一個(gè)(k,l,η)-core;3)極大性,即不存在其他誘導(dǎo)子圖c”滿足前兩個(gè)特性并包含c'的同時(shí),也滿足
10、步驟4:從gq中搜索多個(gè)極大(k,l,η)-core并存入集合包括以下子步驟:
11、步驟4-1:為了找到滿足(k,l,η)-core的子圖,第一步是計(jì)算gq中每個(gè)頂點(diǎn)v的和概率,它們的具體計(jì)算方法采用了bonchi等人提出的動(dòng)態(tài)規(guī)劃方法。
12、步驟4-2:判斷當(dāng)前gq中是否還存在某個(gè)頂點(diǎn)v不滿足(k,l,η)-core的條件,即如果是則執(zhí)行步驟4-3,否則執(zhí)行步驟4-5。
13、步驟4-3:刪除與頂點(diǎn)v相鄰的所有入邊e=(u,v),并更新指向v的鄰居頂點(diǎn)u的出度滿足≥l的概率,即類似地,還需要?jiǎng)h除與頂點(diǎn)v相鄰的所有出邊e=(v,u),更新v作為起點(diǎn)所指向的鄰居頂點(diǎn)u的入度滿足≥k的概率,即
14、步驟4-4:從gq當(dāng)中刪除頂點(diǎn)v。
15、步驟4-5:重復(fù)上述步驟4-1至步驟4-4,直到gq中每個(gè)頂點(diǎn)v∈vq都滿足當(dāng)每個(gè)頂點(diǎn)都滿足后,此時(shí)的gq可以被視為一個(gè)全局的(k,l,η)-core。但由于它不能保證連通,因此還需要將gq當(dāng)中所有弱連通子圖(即局部(k,l,η)-core)c插入到集合當(dāng)中。
16、步驟5:利用基于主題的ic模型模擬信息傳播,并使用ris技術(shù)計(jì)算gq中每個(gè)頂點(diǎn)在主題分布q下的近似影響力包括以下子步驟:
17、步驟5-1:從gq當(dāng)中采樣θ個(gè)子圖g'1,…,g'θ,并對(duì)每個(gè)頂點(diǎn)u∈vq計(jì)算θ個(gè)rr集合rr(u,g'1),…,rr(u,g'θ)。其中采樣子圖g'i是通過(guò)在gq當(dāng)中以概率1-pp(e)的概率隨機(jī)去除每條邊e∈eq而獲得,并且pp(e)=ap(e),α∈(0,1]則是一個(gè)放縮因子,用來(lái)加速收斂。另外,rr集合也被稱為反向可達(dá)集合,rr(u,g'i)意為在采樣子圖g'i中可以到達(dá)u的頂點(diǎn)集合;
18、步驟5-2:對(duì)于每個(gè)頂點(diǎn)u∈vq,獲得每個(gè)采樣子圖中包含u的rr集合的平均數(shù)量作為其影響得分,即以此來(lái)計(jì)算所有頂點(diǎn)的近似影響力。此外,本發(fā)明還運(yùn)用霍夫丁不等式給出了對(duì)該近似影響力結(jié)果的理論保證,即當(dāng)時(shí),對(duì)于每個(gè)頂點(diǎn)v∈vq有至少1-δ的概率保證
19、步驟6:在gq中搜索最具影響力的(k,l,η)-影響力社區(qū)c'q,包括以下子步驟:
20、步驟6-1:在得到每個(gè)頂點(diǎn)的近似影響力分?jǐn)?shù)和(k,l,η)-core的集合后,創(chuàng)建一個(gè)大頂堆將集合當(dāng)中的每個(gè)(k,l,η)-corec按照近似影響力的降序插入至中。
21、步驟6-2:初始化和前者用于存放目標(biāo)社區(qū),后者用于維護(hù)當(dāng)前最大的近似影響力分?jǐn)?shù)。
22、步驟6-3:判斷是否為空,如果是則執(zhí)行步驟6-3,否則跳轉(zhuǎn)至6-8;
23、步驟6-4:取的堆頂(k,l,η)-corec,并將其從堆中移出;
24、步驟6-5:如果那么更新
25、步驟6-6:尋找當(dāng)前c中近似影響力最低的頂點(diǎn)并將它從c中刪除。
26、步驟6-7:首先刪除與v*相連的鄰邊,并分別更新鄰居頂點(diǎn)u的與隨后繼續(xù)判斷當(dāng)前c中是否還有不滿足條的頂點(diǎn),即如果有則繼續(xù)刪除,直到剩余頂點(diǎn)均滿足(k,l,η)-core的特性為止。
27、步驟6-8:將c中余下的所有弱連通子圖繼續(xù)插入至大頂堆當(dāng)中,因?yàn)槟承╉旤c(diǎn)的刪除,可能會(huì)導(dǎo)致c不滿足連通性。
28、步驟6-9:重復(fù)上述步驟6-3至步驟6-8,直到大頂堆為空為止。最后返回維護(hù)后的c'q,即在主題q下滿足最具影響力的潛在社區(qū)。
29、基于以上方法,本發(fā)明還提出了一種基于主題感知的最具影響力社區(qū)在線搜索系統(tǒng),包括:存儲(chǔ)器和處理器;所述存儲(chǔ)器上存儲(chǔ)有計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí),實(shí)現(xiàn)本發(fā)明上述的方法。
30、本發(fā)明還提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)本發(fā)明上述的方法。
31、總體而言,通過(guò)本發(fā)明所構(gòu)思的以上技術(shù)方案與現(xiàn)有技術(shù)相比,能夠取得下列有益效果:
32、1)該發(fā)明所考慮的是更為復(fù)雜的有向不確定圖場(chǎng)景,相比于現(xiàn)有技術(shù),它具有極大的挑戰(zhàn),并且由于現(xiàn)有技術(shù)中并沒(méi)有適用于該圖場(chǎng)景下的社區(qū)模型,本發(fā)明分別定義并提供了(k,l,η)-core以及(k,l,η)-影響力社區(qū)模型。
33、2)大多數(shù)基于影響力的cs方法簡(jiǎn)單地預(yù)先為每個(gè)頂點(diǎn)指定一個(gè)固定的影響力分?jǐn)?shù),而忽略了影響力隨主題變化而變化的一個(gè)特性。本發(fā)明則通過(guò)利用擴(kuò)散模型模擬圖中頂點(diǎn)的影響力傳播很好地解決了這個(gè)問(wèn)題,但由于計(jì)算精確的影響力分?jǐn)?shù)是一個(gè)#p難問(wèn)題,本發(fā)明結(jié)合了速度更快的ris技術(shù)計(jì)算近似的影響力分?jǐn)?shù),并給出了結(jié)果的理論保證。