社交賬號挖掘方法及裝置的制造方法
【專利摘要】本發(fā)明公開了一種社交賬號挖掘方法與裝置,屬于互聯(lián)網(wǎng)領(lǐng)域,所述方法包括:將N個社交網(wǎng)絡(luò)群組進(jìn)行聚類,得到n個第一聚類集合;將M個網(wǎng)絡(luò)地址群組進(jìn)行聚類,得到m個第二聚類集合;對于該n個第一聚類集合中的每個第一聚類集合,基于該n個第一聚類集合包括的社交賬號之間的關(guān)系鏈、該m個第二聚類集合包括的社交賬號之間的關(guān)系鏈和該m個第二聚類集合包括的社交賬號與該第一聚類集合包括的社交賬號之間的關(guān)系鏈,從該m個第二聚類集合包括的社交賬號中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號。本發(fā)明通過確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號,從而使挖掘社交賬號的計(jì)算量較小,提高了挖掘社交賬號的效率。
【專利說明】
社交賬號挖掘方法及裝置
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,特別涉及一種社交賬號挖掘方法及裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的普及,用戶可以通過社交應(yīng)用隨時(shí)進(jìn)行日常交流、信息發(fā)布等操作。通常用戶在使用社交應(yīng)用進(jìn)行通信時(shí),往往需要對社交賬號進(jìn)行挖掘,從而進(jìn)行人際關(guān)系的擴(kuò)展。
[0003]為了便于描述,將當(dāng)前需要進(jìn)行社交賬號挖掘的社交賬號稱為第一社交賬號,當(dāng)對第一社交賬號進(jìn)行社交賬號挖掘時(shí),可以獲取與第一社交賬號具有好友關(guān)系或群組關(guān)系的多個第二社交賬號,對于該多個第二社交賬號中的每個第二社交賬號,獲取與該第二社交賬號具有好友關(guān)系或群組關(guān)系的多個第三社交賬號,且該多個第三社交賬號與第一社交賬號不存在好友關(guān)系或者群組關(guān)系,但是該多個第三社交賬號對應(yīng)的用戶信息與第一社交賬號對應(yīng)的用戶信息之間存在交集,將獲取的多個第三社交賬號推送給第一社交賬號。重復(fù)上述步驟,實(shí)現(xiàn)社交賬號的挖掘。
[0004]在進(jìn)行社交賬號挖掘時(shí),需要獲取與第一社交賬號具有好友關(guān)系或群組關(guān)系的第二社交賬號,然后通過第二社交賬號,獲取與該第一社交賬號對應(yīng)的用戶信息存在交集的第三社交賬號,并且當(dāng)?shù)谝簧缃毁~號的數(shù)量較多時(shí),需要進(jìn)行大量的計(jì)算,不僅對時(shí)間需求較大,同時(shí)給服務(wù)器帶來負(fù)擔(dān),降低了挖掘社交賬號的效率。
【發(fā)明內(nèi)容】
[0005]為了解決上述技術(shù)的問題,本發(fā)明實(shí)施例提供了一種社交賬號挖掘方法及裝置。所述技術(shù)方案如下:
[0006]—方面,提供了一種社交賬號挖掘方法,所述方法包括:
[0007]將N個社交網(wǎng)絡(luò)群組進(jìn)行聚類,得到η個第一聚類集合,所述N個社交網(wǎng)絡(luò)群組中的每個社交網(wǎng)絡(luò)群組為在社交應(yīng)用中將多個社交賬號組成的群組,所述N和所述η均大于或等于I,且所述N大于或等于所述η;
[0008]將M個網(wǎng)絡(luò)地址群組進(jìn)行聚類,得到m個第二聚類集合,所述M個網(wǎng)絡(luò)地址群組中的每個網(wǎng)絡(luò)地址群組為通過同一地址信息登錄所述社交應(yīng)用的多個社交賬號組成的群組,所述M和所述m均大于或等于I,且所述M大于或等于所述m;
[0009]對于所述η個第一聚類集合中的每個第一聚類集合,基于所述η個第一聚類集合包括的社交賬號之間的關(guān)系鏈、所述m個第二聚類集合包括的社交賬號之間的關(guān)系鏈和所述m個第二聚類集合包括的社交賬號與所述第一聚類集合包括的社交賬號之間的關(guān)系鏈,從所述m個第二聚類集合包括的社交賬號中,確定對所述第一聚類集合中每個社交賬號挖掘得到的社交賬號。
[0010]另一方面,提供了一種社交賬號挖掘裝置,所述裝置包括:
[0011 ]第一聚類模塊,用于將N個社交網(wǎng)絡(luò)群組進(jìn)行聚類,得到η個第一聚類集合,所述N個社交網(wǎng)絡(luò)群組中的每個社交網(wǎng)絡(luò)群組為在社交應(yīng)用中將多個社交賬號組成的群組,所述N和所述η均大于或等于I,且所述N大于或等于所述η;
[0012]第二聚類模塊,用于將M個網(wǎng)絡(luò)地址群組進(jìn)行聚類,得到m個第二聚類集合,所述M個網(wǎng)絡(luò)地址群組中的每個網(wǎng)絡(luò)地址群組為通過同一地址信息登錄所述社交應(yīng)用的多個社交賬號組成的群組,所述M和所述m均大于或等于I,且所述M大于或等于所述m;
[0013]第一確定模塊,用于對于所述η個第一聚類集合中的每個第一聚類集合,基于所述η個第一聚類集合包括的社交賬號之間的關(guān)系鏈、所述m個第二聚類集合包括的社交賬號之間的關(guān)系鏈和所述m個第二聚類集合包括的社交賬號與所述第一聚類集合包括的社交賬號之間的關(guān)系鏈,從所述m個第二聚類集合包括的社交賬號中,確定對所述第一聚類集合中每個社交賬號挖掘得到的社交賬號。
[0014]本發(fā)明實(shí)施例提供的技術(shù)方案帶來的有益效果是:在本發(fā)明實(shí)施例中,服務(wù)器通過將該N個社交網(wǎng)絡(luò)群組進(jìn)行聚類得到η個第一聚類集合,并通過將該M個社交網(wǎng)絡(luò)群組進(jìn)行聚類得到m個第二聚類集合后,對于該η個第一聚類集合中的每個第一聚類集合,可以基于η個第一聚類集合包括的社交賬號之間的關(guān)系鏈、m個第二聚類集合包括的社交賬號之間的關(guān)系鏈和該m個第二聚類集合包括的社交賬號與第一聚類集合包括的社交賬號之間的關(guān)系鏈,從m個第二聚類集合包括的社交賬號中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號,從而使服務(wù)器不需要通過對每個社交賬號進(jìn)行擴(kuò)展計(jì)算,就可以得到一個較大的關(guān)系網(wǎng),并從該關(guān)系網(wǎng)中可以進(jìn)行社交賬號的挖掘。同時(shí),由于服務(wù)器通過第一聚類集合、第二聚類集合以及社交賬號之間的關(guān)系鏈進(jìn)行社交賬號的挖掘,對社交賬號挖掘的準(zhǔn)確度更高。并且在該社交賬號挖掘的過程中,該服務(wù)器只進(jìn)行了第一聚類集合的獲取、第二聚類集合的獲取和根據(jù)關(guān)系鏈從m個第二聚類集合包括的社交賬號中,確定挖掘得到的社交賬號這3次計(jì)算過程,該挖掘社交賬號的計(jì)算量較小,計(jì)算次數(shù)也較少,從而提高了挖掘社交賬號的效率。
【附圖說明】
[0015]為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對實(shí)施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0016]圖1是本發(fā)明實(shí)施例提供的一種社交賬號挖掘方法流程圖;
[0017]圖2A是本發(fā)明實(shí)施例提供的另一種社交賬號挖掘方法流程圖;
[0018]圖2B(a)是本發(fā)明實(shí)施例提供的一種第一聚類集合的示意圖;
[0019]圖2B(b)是本發(fā)明實(shí)施例提供的另一種第一聚類集合的示意圖;
[0020]圖2C(a)是本發(fā)明實(shí)施例提供的第一種第二聚類集合的示意圖;
[0021]圖2C(b)是本發(fā)明實(shí)施例提供的第二種第二聚類集合的示意圖;
[0022]圖2C(c)是本發(fā)明實(shí)施例提供的第三種第二聚類集合的示意圖;
[0023]圖3A是本發(fā)明實(shí)施例提供的一種社交賬號挖掘裝置結(jié)構(gòu)示意圖;
[0024]圖3B是本發(fā)明實(shí)施例提供的一種第一確定模塊的結(jié)構(gòu)示意圖;
[0025]圖3C是本發(fā)明實(shí)施例提供的一種第一聚類模塊的結(jié)構(gòu)示意圖;
[0026]圖3D是本發(fā)明實(shí)施例提供的一種第二聚類模塊的結(jié)構(gòu)示意圖;
[0027]圖4是本發(fā)明實(shí)施例提供的另一種社交賬號挖掘裝置結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0028]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。
[0029]圖1是本發(fā)明實(shí)施例提供的一種社交賬號挖掘方法的流程圖,參見圖1,該方法包括:
[0030]步驟101:將N個社交網(wǎng)絡(luò)群組進(jìn)行聚類,得到η個第一聚類集合,該N個社交網(wǎng)絡(luò)群組中的每個社交網(wǎng)絡(luò)群組為在社交應(yīng)用中將多個社交賬號組成的群組,該N和該η均大于或等于I,且該N大于或等于該η。
[0031]步驟102:將M個網(wǎng)絡(luò)地址群組進(jìn)行聚類,得到m個第二聚類集合,該M個網(wǎng)絡(luò)地址群組中的每個網(wǎng)絡(luò)地址群組為通過同一地址信息登錄該社交應(yīng)用的多個社交賬號組成的群組,該M和該m均大于或等于I,且該M大于或等于該m。
[0032]步驟103:對于該η個第一聚類集合中的每個第一聚類集合,基于該η個第一聚類集合包括的社交賬號之間的關(guān)系鏈、該m個第二聚類集合包括的社交賬號之間的關(guān)系鏈和該m個第二聚類集合包括的社交賬號與該第一聚類集合包括的社交賬號之間的關(guān)系鏈,從該m個第二聚類集合包括的社交賬號中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號。
[0033]在本發(fā)明實(shí)施例中,服務(wù)器通過將該N個社交網(wǎng)絡(luò)群組進(jìn)行聚類得到η個第一聚類集合,并通過將該M個社交網(wǎng)絡(luò)群組進(jìn)行聚類得到m個第二聚類集合后,對于該η個第一聚類集合中的每個第一聚類集合,可以基于該η個第一聚類集合包括的社交賬號之間的關(guān)系鏈、m個第二聚類集合包括的社交賬號之間的關(guān)系鏈和該m個第二聚類集合包括的社交賬號與第一聚類集合包括的社交賬號之間的關(guān)系鏈,從m個第二聚類集合包括的社交賬號中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號,從而使服務(wù)器不需要通過對每個社交賬號進(jìn)行擴(kuò)展計(jì)算,就可以得到一個較大的關(guān)系網(wǎng),并從該關(guān)系網(wǎng)中可以進(jìn)行社交賬號的挖掘。同時(shí),由于服務(wù)器通過第一聚類集合、第二聚類集合以及社交賬號之間的關(guān)系鏈進(jìn)行社交賬號的挖掘,對社交賬號挖掘的準(zhǔn)確度更高。并且在該社交賬號挖掘的過程中,該服務(wù)器只進(jìn)行了第一聚類集合的獲取、第二聚類集合的獲取和根據(jù)關(guān)系鏈從m個第二聚類集合包括的社交賬號中,確定挖掘得到的社交賬號這3次計(jì)算過程,該挖掘社交賬號的計(jì)算量較小,計(jì)算次數(shù)也較少,從而提高了挖掘社交賬號的效率。
[0034]可選地,基于該η個第一聚類集合包括的社交賬號之間的關(guān)系鏈、該m個第二聚類集合包括的社交賬號之間的關(guān)系鏈和該m個第二聚類集合包括的社交賬號與該第一聚類集合包括的社交賬號之間的關(guān)系鏈,從該m個第二聚類集合包括的社交賬號中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號,包括:
[0035]計(jì)算該第一聚類集合分別與該m個第二聚類集合之間的相似度;
[0036]從該m個第二聚類集合中,選擇至少一個第二聚類集合,該至少一個第二聚類集合為與該第一聚類集合之間的相似度大于或等于相似度閾值的第二聚類集合;
[0037]將該第一聚類集合分別與該至少一個第二聚類集合進(jìn)行合并,得到至少一個第三聚類集合;
[0038]基于該至少一個第三聚類集合包括的社交賬號之間的關(guān)系鏈,從該至少一個第三聚類集合中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號。
[0039]可選地,基于該至少一個第三聚類集合包括的社交賬號之間的關(guān)系鏈,從該至少一個第三聚類集合中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號,包括:
[0040]對于該至少一個第三聚類集合中的每個第三聚類集合,基于該第三聚類集合包括的社交賬號之間的關(guān)系鏈,確定該第三聚類集合中每個社交賬號的關(guān)聯(lián)系數(shù),該每個社交賬號的關(guān)聯(lián)系數(shù)為與該每個社交賬號具有社交關(guān)系的社交賬號個數(shù);
[0041]從該第三聚類集合中選擇關(guān)聯(lián)系數(shù)大于或等于系數(shù)閾值的社交賬號;
[0042]對于該第三聚類集合中的每個社交賬號,將選擇的社交賬號中除與該社交賬號存在社交關(guān)系之外的社交賬號確定為對該社交賬號挖掘得到的社交賬號。
[0043]可選地,該將N個社交網(wǎng)絡(luò)群組進(jìn)行聚類,得到η個第一聚類集合,包括:
[0044]將該N個社交網(wǎng)絡(luò)群組劃分為η組,每組包括存在相同社交賬號的至少兩個社交網(wǎng)絡(luò)群組;
[0045]將該η組中每組包括的至少兩個社交網(wǎng)絡(luò)群組進(jìn)行合并,得到η個第一聚類集合。
[0046]可選地,該方法還包括:
[0047]在合并得到該η個第一聚類集合的過程中,對于該η個第一聚類集合中的每個第一聚類集合,對于構(gòu)成該第一聚類集合的至少兩個社交網(wǎng)絡(luò)群組中的每個社交網(wǎng)絡(luò)群組,對該社交網(wǎng)絡(luò)群組與構(gòu)成該第一聚類集合的至少兩個社交網(wǎng)絡(luò)群組中其他社交網(wǎng)絡(luò)群組之間存在相同社交賬號的個數(shù)進(jìn)行統(tǒng)計(jì),得到X個個數(shù),X為該第一聚類集合中至少兩個社交網(wǎng)絡(luò)群組的個數(shù)減I;
[0048]將該X個個數(shù)進(jìn)行相加,得到第一數(shù)值;
[0049]將該第一數(shù)值除以該社交網(wǎng)絡(luò)群組包括的社交賬號的個數(shù),得到第二數(shù)值;
[0050]將該至少兩個社交網(wǎng)絡(luò)群組中第二數(shù)值最大的社交網(wǎng)絡(luò)群組的屬性信息確定為該第一聚類集合的屬性信息。
[0051 ]可選地,將M個網(wǎng)絡(luò)地址群組進(jìn)行聚類,得到m個第二聚類集合,包括:
[0052]將該M個網(wǎng)絡(luò)地址群組劃分為m組,每組包括存在相同社交賬號的至少兩個網(wǎng)絡(luò)地址群組;
[0053]對于該m組中每組包括的至少兩個網(wǎng)絡(luò)地址群組進(jìn)行合并,得到m個第二聚類集入口 ο
[0054]可選地,該方法還包括:
[0055]在合并得到該m個第二聚類集合的過程中,對于該m個第二聚類集合中的每個第二聚類集合,對于構(gòu)成該第二聚類集合的至少兩個網(wǎng)絡(luò)地址群組中的每個網(wǎng)絡(luò)地址群組,對該網(wǎng)絡(luò)地址群組與構(gòu)成該第二聚類集合的至少兩個網(wǎng)絡(luò)地址群組中其他網(wǎng)絡(luò)地址群組之間存在相同社交賬號的個數(shù)進(jìn)行統(tǒng)計(jì),得到Y(jié)個個數(shù),Y為該第二聚類集合中至少兩個網(wǎng)絡(luò)地址群組的個數(shù)減I ;
[0056]將該Y個個數(shù)進(jìn)行相加,得到第三數(shù)值;
[0057]將該第三數(shù)值除以該網(wǎng)絡(luò)地址群組包括的社交賬號的個數(shù),得到第四數(shù)值;
[0058]將該構(gòu)成該第一聚類集合的至少兩個網(wǎng)絡(luò)地址群組中第四數(shù)值最大的網(wǎng)絡(luò)地址群組的屬性信息確定為該第一聚類集合的屬性信息。
[0059]上述所有可選技術(shù)方案,均可按照任意結(jié)合形成本發(fā)明的可選技術(shù)方案,本發(fā)明實(shí)施例對此不再一一贅述。
[0060]圖2A是本發(fā)明實(shí)施例提供的一種社交賬號挖掘方法的流程圖,參見圖2A,該方法包括:
[0061 ]步驟201:服務(wù)器將N個社交網(wǎng)絡(luò)群組進(jìn)行聚類,得到η個第一聚類集合,該N個社交網(wǎng)絡(luò)群組中的每個社交網(wǎng)絡(luò)群組為在社交應(yīng)用中將多個社交賬號組成的群組,該N和η均大于或等于I,且該N大于或等于η。
[0062]具體地,服務(wù)器將該N個社交網(wǎng)絡(luò)群組劃分為η組,每組包括存在相同社交賬號的至少兩個社交網(wǎng)絡(luò)群組;將該η組中每組包括的至少兩個社交網(wǎng)絡(luò)群組進(jìn)行合并,得到η個第一聚類集合。
[0063]比如,服務(wù)器將5個社交網(wǎng)絡(luò)群組進(jìn)行聚類,該5個社交網(wǎng)絡(luò)群組分別為社交群組Al、社交群組B1、社交群組Cl、社交群組Dl和社交群組El,由于該社交群組Al、社交群組BI和社交群組Cl相互之間存在相同社交賬號,社交群組Dl和社交群組El之間存在相同社交賬號。因此,將社交群組Al、社交群組BI和社交群組Cl進(jìn)行合并,得到第一聚類集合IDl,將該社交群組Dl和社交群組E進(jìn)行合并,得到第二聚類ID2。
[0064]需要說明的是,服務(wù)器將該N個社交網(wǎng)絡(luò)群組進(jìn)行聚類時(shí),可以通過聚類算法將該N個社交網(wǎng)絡(luò)群組進(jìn)行聚類,也可以通過其他方式將該N個社交網(wǎng)絡(luò)群組進(jìn)行聚類,本發(fā)明實(shí)施例對此不做具體限定。
[0065]還需要說明的是,服務(wù)器通過聚類算法將該N個社交網(wǎng)絡(luò)群組進(jìn)行聚類的操作可以參考相關(guān)技術(shù),本發(fā)明實(shí)施例對此不再進(jìn)行一一贅述。
[0066]其中,在合并得到該η個第一聚類集合的過程中,對于該η個第一聚類集合中的每個第一聚類集合,對于構(gòu)成該第一聚類集合的至少兩個社交網(wǎng)絡(luò)群組中的每個社交網(wǎng)絡(luò)群組,服務(wù)器還可以對該社交網(wǎng)絡(luò)群組與構(gòu)成該第一聚類集合的至少兩個社交網(wǎng)絡(luò)群組中其他社交網(wǎng)絡(luò)群組之間存在相同社交賬號的個數(shù)進(jìn)行統(tǒng)計(jì),得到X個個數(shù),X為該第一聚類集合中至少兩個社交網(wǎng)絡(luò)群組的個數(shù)減I;并將該X個個數(shù)進(jìn)行相加,得到第一數(shù)值;將該第一數(shù)值除以該社交網(wǎng)絡(luò)群組包括的社交賬號的個數(shù),得到第二數(shù)值;將該至少兩個社交網(wǎng)絡(luò)群組中第二數(shù)值最大的社交網(wǎng)絡(luò)群組的屬性信息確定為該第一聚類集合的屬性信息。
[0067]需要說明的是,由于第二數(shù)值越大,證明該社交網(wǎng)絡(luò)群組中存在相同的社交賬號的個數(shù)越多,對該第一聚類集合的屬性信息的影響越大,因此,將該至少兩個社交網(wǎng)絡(luò)群組中第二數(shù)值最大的社交網(wǎng)絡(luò)群組的屬性信息確定為該第一聚類集合的屬性信息。
[0068]比如,對于構(gòu)成第一聚類集合IDl中的社交網(wǎng)絡(luò)群組Al,該社交網(wǎng)絡(luò)群組Al中包括的社交賬號為10個,該社交網(wǎng)絡(luò)群組Al和社交網(wǎng)絡(luò)群組BI之間存在的相同社交賬號個數(shù)為4個,該社交網(wǎng)絡(luò)群組Al和社交網(wǎng)絡(luò)群組Cl之間存在的相同社交賬號個數(shù)為5個,將4和5相加得到第一數(shù)值9,將第一數(shù)值9除以社交網(wǎng)絡(luò)群組Al包括的社交賬號的個數(shù)10,得到第二數(shù)值0.9;對于構(gòu)成第一聚類集合IDl中的社交網(wǎng)絡(luò)群組BI,該社交網(wǎng)絡(luò)群組BI中包括的社交賬號為8個,該社交網(wǎng)絡(luò)群組BI和社交網(wǎng)絡(luò)群組Al之間存在的相同社交賬號個數(shù)為4個,該社交網(wǎng)絡(luò)群組BI和社交網(wǎng)絡(luò)群組Cl之間存在的相同社交賬號個數(shù)為6個,將4和6相加得到第一數(shù)值10,將第一數(shù)值10除以社交網(wǎng)絡(luò)群組BI包括的社交賬號的個數(shù)8,得到第二數(shù)值1.25;對于構(gòu)成第一聚類集合IDl中的社交網(wǎng)絡(luò)群組Cl,該社交網(wǎng)絡(luò)群組Cl中包括的社交賬號為20個,該社交網(wǎng)絡(luò)群組Cl和社交網(wǎng)絡(luò)群組Al之間存在的相同社交賬號個數(shù)為5個,該社交網(wǎng)絡(luò)群組Cl和社交網(wǎng)絡(luò)群組BI之間存在的相同社交賬號個數(shù)為6個,將5和6相加得到第一數(shù)值11,將第一數(shù)值11除以社交網(wǎng)絡(luò)群組Cl包括的社交賬號的個數(shù)20,得到第二數(shù)值0.55;其中,該第一聚類集合IDl中第二數(shù)值最大的社交網(wǎng)絡(luò)群組為社交網(wǎng)絡(luò)群組BI,因此,將該社交網(wǎng)絡(luò)群組BI的屬性信息確定為第一聚類集合IDl的屬性信息。
[0069]需要說明的是,屬性信息用于描述對應(yīng)的社交網(wǎng)絡(luò)群組的屬性,比如,社交網(wǎng)絡(luò)群組A為同學(xué)群,則該社交網(wǎng)絡(luò)群組A的屬性信息為同學(xué)或老鄉(xiāng),本發(fā)明實(shí)施例對此不做具體限定。
[0070]還需要說明的是,對于該η個第一聚類集合中的每個第一聚類集合,對于構(gòu)成該第一聚類集合的至少兩個社交網(wǎng)絡(luò)群組中的每個社交網(wǎng)絡(luò)群組,當(dāng)該至少兩個社交網(wǎng)絡(luò)群組的第二數(shù)值均相同時(shí),將該至少兩個社交網(wǎng)絡(luò)群組中的任一個社交網(wǎng)絡(luò)群組的屬性信息確定為該第一聚類集合的屬性信息。當(dāng)然,還可以通過其他方式確定該第一聚類集合的屬性信息,本發(fā)明實(shí)施例對此不做具體限定。
[0071]另外,對于η個第一聚類集合中的每個第一聚類集合,該第一聚類集合可能包括多個社交網(wǎng)絡(luò)群組,也可能包括一個社交網(wǎng)絡(luò)群組,本發(fā)明實(shí)施例對此不做具體限定。
[0072]需要說明的是,當(dāng)該第一聚類集合中只包括一個社交網(wǎng)絡(luò)群組時(shí),可以直接將該社交網(wǎng)絡(luò)群組的屬性信息確定為該第一聚類集合的屬性信息,而無需通過上述的方法進(jìn)行確定,可以減少計(jì)算量。
[0073]另外,在本發(fā)明實(shí)施例中,服務(wù)器可以將該N個社交網(wǎng)絡(luò)群組中的每個社交網(wǎng)絡(luò)群組作為一個節(jié)點(diǎn),將該N個社交網(wǎng)絡(luò)群組轉(zhuǎn)化為η個網(wǎng)絡(luò)圖,從而便于對該η個網(wǎng)絡(luò)圖進(jìn)行操作,降低了服務(wù)器的運(yùn)行負(fù)擔(dān)。
[0074]比如,如圖2Β(a)所示,該節(jié)點(diǎn)Al為該社交網(wǎng)絡(luò)群組Al轉(zhuǎn)化為網(wǎng)絡(luò)圖后的節(jié)點(diǎn),節(jié)點(diǎn)BI為該社交網(wǎng)絡(luò)群組BI轉(zhuǎn)換為網(wǎng)絡(luò)圖后的節(jié)點(diǎn),該節(jié)點(diǎn)Cl為該社交網(wǎng)絡(luò)群組Cl轉(zhuǎn)化為網(wǎng)絡(luò)圖后的節(jié)點(diǎn),該節(jié)點(diǎn)Al、節(jié)點(diǎn)BI和節(jié)點(diǎn)Cl構(gòu)成一個第一聚類集合IDl。如圖2B(b),節(jié)點(diǎn)Dl為該社交網(wǎng)絡(luò)群組DI轉(zhuǎn)換為網(wǎng)絡(luò)圖后的節(jié)點(diǎn),該節(jié)點(diǎn)EI為該社交網(wǎng)絡(luò)群組EI轉(zhuǎn)化為網(wǎng)絡(luò)圖后的節(jié)點(diǎn),節(jié)點(diǎn)Dl和節(jié)點(diǎn)El構(gòu)成另一個第一聚類集合ID2。
[0075]還需要說明的是,在本發(fā)明實(shí)施例中,服務(wù)器對步驟201和步驟202的執(zhí)行次序不分先后。也即是,在該服務(wù)器執(zhí)行上述步驟201的過程中,可以同時(shí)執(zhí)行下述步驟202的操作,或者,該服務(wù)器可以首先執(zhí)行上述步驟201的操作,然后繼續(xù)執(zhí)行下述步驟202的操作。當(dāng)然,該服務(wù)器還可以首先執(zhí)行下述步驟202的操作,然后執(zhí)行上述步驟201的操作,本發(fā)明實(shí)施例對此不做具體限定。
[0076]步驟202:服務(wù)器將M個網(wǎng)絡(luò)地址群組進(jìn)行聚類,得到m個第二聚類集合,該M個網(wǎng)絡(luò)地址群組中的每個網(wǎng)絡(luò)地址群組為通過同一地址信息登錄該社交應(yīng)用的多個社交賬號組成的群組,該M和該m均大于或等于I,且該M大于或等于該m。
[OO77 ] 需要說明的是,該地址信息可以為接入點(diǎn)的MAC (Med i aAc ce s s Contrο I,媒體訪問控制)地址,也可以是其他地址,且該接入點(diǎn)可以為路由器等可以提供無線網(wǎng)絡(luò)的設(shè)備,該無線網(wǎng)絡(luò)可以為wifi(Wireless Fidelity,無線保真)等,本發(fā)明實(shí)施例對此不作具體限定。
[0078]其中,服務(wù)器將M個網(wǎng)絡(luò)地址群組進(jìn)行聚類,得到m個第二聚類集合的操作可以為:將該M個網(wǎng)絡(luò)地址群組劃分為m組,每組包括存在相同社交賬號的至少兩個網(wǎng)絡(luò)地址群組;對于該m組中每組包括的至少兩個網(wǎng)絡(luò)地址群組進(jìn)行合并,得到m個第二聚類集合。
[0079]比如,服務(wù)器將7個網(wǎng)絡(luò)地址群組進(jìn)行聚類,該7個網(wǎng)絡(luò)地址群組分別為網(wǎng)絡(luò)地址群組A2、網(wǎng)絡(luò)地址群組B2、網(wǎng)絡(luò)地址群組C2、網(wǎng)絡(luò)地址群組D2、網(wǎng)絡(luò)地址群組E2、網(wǎng)絡(luò)地址群組F2和網(wǎng)絡(luò)地址群組G2,由于網(wǎng)絡(luò)地址群組A2、網(wǎng)絡(luò)地址群組B2和網(wǎng)絡(luò)地址群組D2之間存在相同的社交賬號,網(wǎng)絡(luò)地址群組C2和網(wǎng)絡(luò)地址群組E2之間存在相同的社交賬號,網(wǎng)絡(luò)地址群組F2和網(wǎng)絡(luò)地址群組G2之間存在相同的社交賬號。因此,將網(wǎng)絡(luò)地址群組A2、網(wǎng)絡(luò)地址群組B2和網(wǎng)絡(luò)地址群組C2進(jìn)行合并,得到第二聚類集合IDl,將該網(wǎng)絡(luò)地址群組D2和網(wǎng)絡(luò)地址群組E2進(jìn)行合并,得到第二聚類集合ID2,將該網(wǎng)絡(luò)地址群組F2和網(wǎng)絡(luò)地址群組G2進(jìn)行合并,得到第三聚類集合ID3。
[0080]需要說明的是,服務(wù)器將該M個網(wǎng)絡(luò)地址群組進(jìn)行聚類時(shí),可以通過聚類算法將該M個網(wǎng)絡(luò)地址群組進(jìn)行聚類,也可以通過其他方式將該M個網(wǎng)絡(luò)地址群組進(jìn)行聚類,本發(fā)明實(shí)施例對此不做具體限定。
[0081]還需要說明的是,服務(wù)器通過聚類算法將該M個網(wǎng)絡(luò)地址群組進(jìn)行聚類的操作可以參考相關(guān)技術(shù),本發(fā)明實(shí)施例對此不再進(jìn)行一一贅述。
[0082]其中,在合并得到該m個第二聚類集合的過程中,對于該m個第二聚類集合中的每個第二聚類集合,對于構(gòu)成該第二聚類集合的至少兩個網(wǎng)絡(luò)地址群組中的每個網(wǎng)絡(luò)地址群組,服務(wù)器對該網(wǎng)絡(luò)地址群組與構(gòu)成該第二聚類集合的至少兩個網(wǎng)絡(luò)地址群組中其他網(wǎng)絡(luò)地址群組之間存在相同社交賬號的個數(shù)進(jìn)行統(tǒng)計(jì),得到Y(jié)個個數(shù),Y為該第二聚類集合中至少兩個網(wǎng)絡(luò)地址群組的個數(shù)減I;將該Y個個數(shù)進(jìn)行相加,得到第三數(shù)值;并將該第三數(shù)值除以該網(wǎng)絡(luò)地址群組包括的社交賬號的個數(shù),得到第四數(shù)值;將構(gòu)成該第一聚類集合的至少兩個網(wǎng)絡(luò)地址群組中第四數(shù)值最大的網(wǎng)絡(luò)地址群組的屬性信息確定為該第一聚類集合的屬性信息。
[0083]需要說明的是,由于第四數(shù)值越大,證明該網(wǎng)絡(luò)地址群組中存在相同的社交賬號的個數(shù)越多,對該第二聚類集合的屬性信息的影響越大,因此,將該至少兩個網(wǎng)絡(luò)地址群組中第四數(shù)值最大的網(wǎng)絡(luò)地址群組的屬性信息確定為該第二聚類集合的屬性信息。
[0084]比如,對于構(gòu)成第二聚類集合IDl中的網(wǎng)絡(luò)地址群組A2,該網(wǎng)絡(luò)地址群組A2中包括的社交賬號為15個,該網(wǎng)絡(luò)地址群組A2和網(wǎng)絡(luò)地址群組B2之間存在的相同社交賬號個數(shù)為10個,該網(wǎng)絡(luò)地址群組A2和網(wǎng)絡(luò)地址群組D2之間存在的相同社交賬號個數(shù)為5個,將10和5相加得到第三數(shù)值15,將第三數(shù)值15除以網(wǎng)絡(luò)地址群組A2包括的社交賬號的個數(shù)15,得到第四數(shù)值I;對于構(gòu)成第二聚類集合IDl中的網(wǎng)絡(luò)地址群組B2,該網(wǎng)絡(luò)地址群組B2中包括的社交賬號為12個,該網(wǎng)絡(luò)地址群組B2和網(wǎng)絡(luò)地址群組A2之間存在的相同社交賬號個數(shù)為10個,該網(wǎng)絡(luò)地址群組B2和網(wǎng)絡(luò)地址群組D2之間存在的相同社交賬號個數(shù)為3個,將10和3相加得到第三數(shù)值13,將第三數(shù)值13除以網(wǎng)絡(luò)地址群組B包括的社交賬號的個數(shù)12,得到第四數(shù)值1.08;對于構(gòu)成第二聚類集合IDl中的網(wǎng)絡(luò)地址群組D2,該網(wǎng)絡(luò)地址群組D2中包括的社交賬號為15個,該網(wǎng)絡(luò)地址群組D2和網(wǎng)絡(luò)地址群組A2之間存在的相同社交賬號個數(shù)為5個,該網(wǎng)絡(luò)地址群組D2和網(wǎng)絡(luò)地址群組B2之間存在的相同社交賬號個數(shù)為3個,將5和3相加得到第三數(shù)值8,將第三數(shù)值8除以網(wǎng)絡(luò)地址群組D2包括的社交賬號的個數(shù)15,得到第二數(shù)值0.53;其中,該第二聚類集合IDl中第四數(shù)值最大的網(wǎng)絡(luò)地址群組為網(wǎng)絡(luò)地址群組B2,因此,將該網(wǎng)絡(luò)地址群組B2的屬性信息確定為第二聚類集合IDl的屬性信息。
[0085]還需要說明的是,對于該M個第二聚類集合中的每個第二聚類集合,對于構(gòu)成該第二聚類集合的至少兩個網(wǎng)絡(luò)地址群組中的每個網(wǎng)絡(luò)地址群組,當(dāng)該至少兩個網(wǎng)絡(luò)地址群組的第四數(shù)值相同時(shí),將該至少兩個網(wǎng)絡(luò)地址群組中的任一個網(wǎng)絡(luò)地址群組的屬性信息為該第二聚類集合的屬性信息。當(dāng)然,還可以通過其他方式確定該第二聚類集合的屬性信息,本發(fā)明實(shí)施例對此不做具體限定。
[0086]另外,對于m個第二聚類集合中的每個第二聚類集合,該第二聚類集合可能包括多個網(wǎng)絡(luò)地址群組,也可能包括一個網(wǎng)絡(luò)地址群組,本發(fā)明實(shí)施例對此不做具體限定。
[0087]需要說明的是,當(dāng)該第二聚類集合中只包括一個網(wǎng)絡(luò)地址群組時(shí),可以直接將該網(wǎng)絡(luò)地址群組的屬性信息確定為該第二聚類集合的屬性信息,而無需通過上述的方法進(jìn)行確定,可以減少計(jì)算量。
[0088]另外,在本發(fā)明實(shí)施例中,服務(wù)器同樣可以將該M個網(wǎng)絡(luò)地址群組中的每個網(wǎng)絡(luò)地址群組作為一個節(jié)點(diǎn),并將該M個網(wǎng)絡(luò)地址群組轉(zhuǎn)化為m個網(wǎng)絡(luò)圖,從而便于對該m個網(wǎng)絡(luò)圖進(jìn)行操作,降低了服務(wù)器的運(yùn)行負(fù)擔(dān)。
[0089]比如,如圖2C(a)所示,該節(jié)點(diǎn)A2為該網(wǎng)絡(luò)地址群組A2轉(zhuǎn)化為網(wǎng)絡(luò)圖后的節(jié)點(diǎn),節(jié)點(diǎn)B2為該網(wǎng)絡(luò)地址群組B2轉(zhuǎn)換為網(wǎng)絡(luò)圖后的節(jié)點(diǎn),節(jié)點(diǎn)D2為該網(wǎng)絡(luò)地址群組D2轉(zhuǎn)換為網(wǎng)絡(luò)圖后的節(jié)點(diǎn),該節(jié)點(diǎn)A2、節(jié)點(diǎn)B2和節(jié)點(diǎn)D2構(gòu)成第一個第一聚類集合ID1。參見圖2C(b),該節(jié)點(diǎn)C2為該網(wǎng)絡(luò)地址群組C2轉(zhuǎn)化為網(wǎng)絡(luò)圖后的節(jié)點(diǎn),該節(jié)點(diǎn)E2為該網(wǎng)絡(luò)地址群組E2轉(zhuǎn)化為網(wǎng)絡(luò)圖后的節(jié)點(diǎn),節(jié)點(diǎn)C和節(jié)點(diǎn)E構(gòu)成第二個第一聚類集合ID2。參見圖2C(c),節(jié)點(diǎn)F2為該網(wǎng)絡(luò)地址群組F2轉(zhuǎn)換為網(wǎng)絡(luò)圖后的節(jié)點(diǎn),該節(jié)點(diǎn)G2為該網(wǎng)絡(luò)地址群組G2轉(zhuǎn)化為網(wǎng)絡(luò)圖后的節(jié)點(diǎn)。節(jié)點(diǎn)F2和節(jié)點(diǎn)G2構(gòu)成第三個第一聚類集合ID2。
[0090]步驟203:對于該η個第一聚類集合中的每個第一聚類集合,服務(wù)器基于該η個第一聚類集合包括的社交賬號之間的關(guān)系鏈、該m個第二聚類集合包括的社交賬號之間的關(guān)系鏈和該m個第二聚類集合包括的社交賬號與該第一聚類集合包括的社交賬號之間的關(guān)系鏈,從該m個第二聚類集合包括的社交賬號中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號。
[0091 ]具體地,對于該η個第一聚類集合中的每個第一聚類集合,服務(wù)器可以計(jì)算該第一聚類集合分別與該m個第二聚類集合之間的相似度;從該m個第二聚類集合中,選擇至少一個第二聚類集合,該至少一個第二聚類集合為與該第一聚類集合之間的相似度大于或等于相似度閾值的第二聚類集合;將該第一聚類集合分別與該至少一個第二聚類集合進(jìn)行合并,得到至少一個第三聚類集合;基于該至少一個第三聚類集合包括的社交賬號之間的關(guān)系鏈,從該至少一個第三聚類集合中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號。
[0092]其中,服務(wù)器計(jì)算該第一聚類集合分別與該m個第二聚類集合之間的相似度的操作可以為:對于該m個第二聚類集合中的每個第二聚類集合,獲取該第一聚類集合與該第二聚類集合之間存在的相同社交賬號的個數(shù),得到第五數(shù)值,以及獲取該第一聚類集合包括的社交賬號和該第二聚類集合包括的社交賬號的總個數(shù),將該總個數(shù)減去第五數(shù)值,得到第六數(shù)值,將第五數(shù)值除以第六數(shù)值,得到該第一聚類集合與該第二聚類集合之間的相似度。也即是,用第一聚類集合包括的社交賬號與第二聚類集合包括的社交賬號之間的交集除以第一聚類集合包括的社交賬號與第二聚類集合包括的社交賬號之間的并集,得到該第一聚類集合與該第二聚類集合之間的相似度。
[0093]需要說明的是,在本發(fā)明實(shí)施例中,服務(wù)器計(jì)算該第一聚類集合分別與該m個第二聚類集合之間的相速度的操作不僅可以包括上述方法,還可以包括其他方法,本發(fā)明實(shí)施例對此不做具體限定。
[0094]還需要說明的是,相似度閾值用于篩選可與第一聚類集合進(jìn)行合并的第二聚類集合,且該相似度閾值可以事先設(shè)置,比如,該相似度閾值可以為0.4、0.5、0.6等,本發(fā)明實(shí)施例對此不做具體限定。
[0095]另外,在本發(fā)明實(shí)施例中,當(dāng)該服務(wù)器獲取該至少一個第三聚類集合后,對于該至少一個第三聚類集合中的每個第三聚類集合,由于該第三聚類集合中可能包括一些與其他社交賬號只是臨時(shí)關(guān)系的社交賬號,比如當(dāng)某一個用戶臨時(shí)通過某一地址信息登錄該社交應(yīng)用,該用戶的社交賬號可能就與該地址信息對應(yīng)的網(wǎng)絡(luò)地址群中的社交賬號為臨時(shí)關(guān)系。因此,該服務(wù)器可以基于該第三聚類集合包括的社交賬號之間的關(guān)系鏈,對該第三聚類集合中社交賬號之間的關(guān)系進(jìn)行修正,從而從該至少一個第三聚類集合中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號。
[0096]需要說明的是,在本發(fā)明實(shí)施例中,該臨時(shí)關(guān)系的社交賬號可以是為了進(jìn)行一次合作而臨時(shí)加入的社交賬號,或者,通過路由器只進(jìn)行一次臨時(shí)登錄的社交賬號等,本發(fā)明實(shí)施例對此不做具體限定。
[0097]其中,服務(wù)器基于該至少一個第三聚類集合包括的社交賬號之間的關(guān)系鏈,從該至少一個第三聚類集合中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號的操作可以為:對于該至少一個第三聚類集合中的每個第三聚類集合,基于該第三聚類集合包括的社交賬號之間的關(guān)系鏈,確定該第三聚類集合中每個社交賬號的關(guān)聯(lián)系數(shù),該每個社交賬號的關(guān)聯(lián)系數(shù)為與該每個社交賬號具有社交關(guān)系的社交賬號個數(shù);從該第三聚類集合中選擇關(guān)聯(lián)系數(shù)大于或等于系數(shù)閾值的社交賬號;對于該第三聚類集合中的每個社交賬號,將選擇的社交賬號中除與該社交賬號存在社交關(guān)系之外的社交賬號確定為對該社交賬號挖掘得到的社交賬號。
[0098]需要說明的是,系數(shù)閾值用于從第三聚類集合中選擇出與其他社交賬號關(guān)系最少的社交賬號,且該系數(shù)閾值可以事先設(shè)置,比如該系數(shù)閾值可以為1、2等,本發(fā)明實(shí)施例對此不做具體限定。
[0099]由于服務(wù)器可以將該M個網(wǎng)絡(luò)地址群組和N個社交網(wǎng)絡(luò)群組轉(zhuǎn)化為網(wǎng)絡(luò)圖,同樣,服務(wù)器還可以將第三聚類集合中每個社交賬號作為節(jié)點(diǎn),從而將該第三聚類集合轉(zhuǎn)換為網(wǎng)絡(luò)圖的形式,因此,該服務(wù)器可以從該網(wǎng)絡(luò)圖中確定每個社交賬號節(jié)點(diǎn)的度數(shù),從而確定該第三聚類集合中每個社交賬號的關(guān)聯(lián)系數(shù)。
[0100]需要說明的是,度數(shù)在網(wǎng)絡(luò)圖中是指該網(wǎng)絡(luò)圖中任一節(jié)點(diǎn)的分支個數(shù),由于該度數(shù)對應(yīng)于本發(fā)明實(shí)施例中的關(guān)聯(lián)系數(shù),因此,對于第三聚類集合中的每個社交賬號,該關(guān)聯(lián)系數(shù)是指與該社交賬號具有直接關(guān)系的其他社交賬號的個數(shù)。
[0101]另外,該服務(wù)器還可以通過該關(guān)聯(lián)系數(shù),將關(guān)聯(lián)系數(shù)小于系數(shù)閾值的社交賬號從該第三聚類集合中濾除,從而保證了該第三聚類集合包括的社交賬號之間的關(guān)聯(lián)性。
[0102]還需要說明的是,在本發(fā)明實(shí)施例中,服務(wù)器不僅可以通過上述方式確定每個社交賬號的關(guān)聯(lián)系數(shù),還可以通過其他的方式確定,本發(fā)明實(shí)施例對此不做具體限定。
[0103]再者,當(dāng)該服務(wù)器獲取得到該至少一個第三聚類集合后,對于該至少一個第三聚類集合中的每個第三聚類集合,該服務(wù)器可以在指定時(shí)間段內(nèi)對該第三聚類集合進(jìn)行檢測,當(dāng)?shù)谌垲惣习l(fā)生變化時(shí),對該第三聚類集合進(jìn)行更新。進(jìn)一步地,該服務(wù)器還可以對該第三聚類集合進(jìn)行檢測,當(dāng)對該第三聚類集合的更新次數(shù)大于或等于指定更新次數(shù)時(shí),停止對該第三聚類集合的檢測,本發(fā)明實(shí)施例對此不做具體限定。
[0104]由于該第三聚類集合是通過第一聚類集合和第二聚類集合合并構(gòu)成,因此,當(dāng)該第一聚類集合或第二聚類集合包括的社交賬號發(fā)生變化時(shí),都可以認(rèn)為該第三聚類集合發(fā)生變化。當(dāng)然,在實(shí)際應(yīng)用中,還可以通過其他方式判斷該第三聚類集合是否發(fā)生變化,本發(fā)明實(shí)施例對此不做具體限定。
[0105]需要說明的是,指定時(shí)間段用于限制服務(wù)器更新第三聚類集合的更新時(shí)間,且該指定時(shí)間段可以事先設(shè)置,比如,該指定時(shí)間段可以為I小時(shí)、2小時(shí)等,本發(fā)明實(shí)施例對此不做具體限定。
[0106]還需要說明的是,指定次數(shù)用于限制服務(wù)器更新第三聚類集合的更新次數(shù),且該指定更新次數(shù)同樣可以事先設(shè)置,比如,該指定更新次數(shù)可以為5次10次等,本發(fā)明實(shí)施例對此不做具體限定。
[0107]進(jìn)一步地,當(dāng)該服務(wù)器將該第一聚類集合分別與該至少一個第二聚類集合進(jìn)行合并,得到至少一個第三聚類集合之后,對于該至少一個第三聚類集合中的每個第三聚類集合,該服務(wù)器可以通過LDA(Latent Dirichlet Allocat1n,文檔主題生成模塊)確定該第三聚類集合的屬性信息。
[0108]其中,由于在構(gòu)成第一聚類集合和第二聚類集合的過程中已經(jīng)取得了該第一聚類集合和第二聚類集合的屬性信息,因此,該服務(wù)器可以獲取構(gòu)成該第三聚類集合的第一聚類集合的屬性信息以及第二聚類集合的屬性信息,通過LDA對該第一聚類集合的屬性信息和第二聚類集合的屬性信息進(jìn)行聚類分析,從而確定該第三聚類集合的屬性信息。
[0109]需要說明的是,服務(wù)器可以通過LDA確定該第三聚類集合的屬性信息,也可以通過其他方式確定,本發(fā)明實(shí)施例對此不做具體限定。
[0110]另外,在本發(fā)明實(shí)施例中,服務(wù)器還可以在通過N個社交網(wǎng)絡(luò)群組進(jìn)行聚類得到η個第一聚類集合,并通過M個網(wǎng)絡(luò)地址群組進(jìn)行聚類得到m個第二聚類集合時(shí),不確定該η個第一聚類集合和m個第二聚類集合的屬性信息,而是在服務(wù)器確定該至少一個第三聚類集合后,通過LDA對該第三聚類集合中包括的多個社交網(wǎng)絡(luò)群組和多個網(wǎng)絡(luò)地址群組的屬性信息進(jìn)行聚類分析,從而確定該第三聚類集合的屬性信息。
[0111]在本發(fā)明實(shí)施例中,服務(wù)器通過將該N個社交網(wǎng)絡(luò)群組進(jìn)行聚類得到η個第一聚類集合,并通過將該M個社交網(wǎng)絡(luò)群組進(jìn)行聚類得到m個第二聚類集合后,對于該η個第一聚類集合中的每個第一聚類集合,通過計(jì)算該第一聚類集合分別與該m個第二聚類集合之間的相似度,從而選擇與第一聚類集合之間的相似度大于相似度閾值的至少一個第二聚類集合,將該至少一個第二聚類集合分別與該第一聚類集合進(jìn)行合并,得到至少一個第三聚類集合,從而提高了第三聚類集合中多個社交賬號之間的關(guān)聯(lián)性,同時(shí),由于將該第一聚類集合和第二聚類集合進(jìn)行合并得到第三聚類集合的計(jì)算量較小,計(jì)算次數(shù)也較少,從而提高了獲取至少一個第三聚類集合的效率,并且根據(jù)該第三聚類集合包括的社交賬號之間的關(guān)系鏈,可以進(jìn)行賬號的挖掘,進(jìn)而提高了挖掘社交賬號的效率。
[0112]圖3A是本發(fā)明實(shí)施例提供的一種社交賬號挖掘裝置的結(jié)構(gòu)示意圖,參見圖3A,該裝置包括:第一聚類模塊301、第二聚類模塊302和第三聚類模塊303。
[0113]第一聚類模塊301,用于將N個社交網(wǎng)絡(luò)群組進(jìn)行聚類,得到η個第一聚類集合,該N個社交網(wǎng)絡(luò)群組中的每個社交網(wǎng)絡(luò)群組為在社交應(yīng)用中將多個社交賬號組成的群組,該N和該η均大于或等于I,且該N大于或等于該η。
[0114]第二聚類模塊302,用于將M個網(wǎng)絡(luò)地址群組進(jìn)行聚類,得到m個第二聚類集合,該M個網(wǎng)絡(luò)地址群組中的每個網(wǎng)絡(luò)地址群組為通過同一地址信息登錄該社交應(yīng)用的多個社交賬號組成的群組,該M和該m均大于或等于I,且該M大于或等于該m。
[0115]第一確定模塊303,用于對于該η個第一聚類集合中的每個第一聚類集合,基于該η個第一聚類集合包括的社交賬號之間的關(guān)系鏈、該m個第二聚類集合包括的社交賬號之間的關(guān)系鏈和該m個第二聚類集合包括的社交賬號與該第一聚類集合包括的社交賬號之間的關(guān)系鏈,從該m個第二聚類集合包括的社交賬號中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號。
[0116]可選地,參見圖3B,該第一確定模塊303包括:
[0117]計(jì)算單元3031,用于計(jì)算該第一聚類集合分別與該m個第二聚類集合之間的相似度;
[0118]選擇單元3032,用于從該m個第二聚類集合中,選擇至少一個第二聚類集合,該至少一個第二聚類集合為與該第一聚類集合之間的相似度大于或等于相似度閾值的第二聚類集合;
[0119]第一合并單元3033,用于將該第一聚類集合分別與該至少一個第二聚類集合進(jìn)行合并,得到至少一個第三聚類集合;
[0120]確定單元3034,用于基于該至少一個第三聚類集合包括的社交賬號之間的關(guān)系鏈,從該至少一個第三聚類集合中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號。
[0121]可選地,該確定單元3034包括:
[0122]第一確定子單元30341,用于對于該至少一個第三聚類集合中的每個第三聚類集合,基于該第三聚類集合包括的社交賬號之間的關(guān)系鏈,確定該第三聚類集合中每個社交賬號的關(guān)聯(lián)系數(shù),該每個社交賬號的關(guān)聯(lián)系數(shù)為與該每個社交賬號具有社交關(guān)系的社交賬號個數(shù);
[0123]選擇子單元30342,用于從該第三聚類集合中選擇關(guān)聯(lián)系數(shù)大于或等于系數(shù)閾值的社交賬號;
[0124]第二確定子單元30343,用于對于該第三聚類集合中的每個社交賬號,將選擇的社交賬號中除與該社交賬號存在社交關(guān)系之外的社交賬號確定為對該社交賬號挖掘得到的社交賬號。
[0125]可選地,參見圖3C,該第一聚類模塊301包括:
[0126]第一劃分單元3011,用于將該N個社交網(wǎng)絡(luò)群組劃分為η組,每組包括存在相同社交賬號的至少兩個社交網(wǎng)絡(luò)群組;
[0127]第二合并單元3012,用于將該η組中每組包括的至少兩個社交網(wǎng)絡(luò)群組進(jìn)行合并,得到η個第一聚類集合。
[0128]可選地,該裝置還包括:
[0129]第一統(tǒng)計(jì)模塊304,用于在合并得到該η個第一聚類集合的過程中,對于該η個第一聚類集合中的每個第一聚類集合,對于構(gòu)成該第一聚類集合的至少兩個社交網(wǎng)絡(luò)群組中的每個社交網(wǎng)絡(luò)群組,對該社交網(wǎng)絡(luò)群組與構(gòu)成該第一聚類集合的至少兩個社交網(wǎng)絡(luò)群組中其他社交網(wǎng)絡(luò)群組之間存在相同社交賬號的個數(shù)進(jìn)行統(tǒng)計(jì),得到X個個數(shù),X為該第一聚類集合中至少兩個社交網(wǎng)絡(luò)群組的個數(shù)減I;
[0130]第一計(jì)算模塊305,用于將該X個個數(shù)進(jìn)行相加,得到第一數(shù)值;
[0131]第二計(jì)算模塊,用于將該第一數(shù)值除以該社交網(wǎng)絡(luò)群組包括的社交賬號的個數(shù),得到第二數(shù)值;
[0132]第二確定模塊306,用于將該至少兩個社交網(wǎng)絡(luò)群組中第二數(shù)值最大的社交網(wǎng)絡(luò)群組的屬性信息確定為該第一聚類集合的屬性信息。
[0133]可選地,參見圖3D,該第二聚類模塊302包括:
[0134]第二劃分單元3021,用于將該M個網(wǎng)絡(luò)地址群組劃分為m組,每組包括存在相同社交賬號的至少兩個網(wǎng)絡(luò)地址群組;
[0135]第三合并單元3022,用于對于該m組中每組包括的至少兩個網(wǎng)絡(luò)地址群組進(jìn)行合并,得到m個第二聚類集合。
[0136]可選地,該裝置還包括:
[0137]第二統(tǒng)計(jì)模塊307,用于在合并得到該m個第二聚類集合的過程中,對于該m個第二聚類集合中的每個第二聚類集合,對于構(gòu)成該第二聚類集合的至少兩個網(wǎng)絡(luò)地址群組中的每個網(wǎng)絡(luò)地址群組,對該網(wǎng)絡(luò)地址群組與構(gòu)成該第二聚類集合的至少兩個網(wǎng)絡(luò)地址群組中其他網(wǎng)絡(luò)地址群組之間存在相同社交賬號的個數(shù)進(jìn)行統(tǒng)計(jì),得到Y(jié)個個數(shù),Y為該第二聚類集合中至少兩個網(wǎng)絡(luò)地址群組的個數(shù)減I;
[0138]第三計(jì)算模塊308,用于將該Y個個數(shù)進(jìn)行相加,得到第三數(shù)值;
[0139]第四計(jì)算模塊309,將該第三數(shù)值除以該網(wǎng)絡(luò)地址群組包括的社交賬號的個數(shù),得到第四數(shù)值;
[0140]第三確定模塊310,用于將該構(gòu)成該第一聚類集合的至少兩個網(wǎng)絡(luò)地址群組中第四數(shù)值最大的網(wǎng)絡(luò)地址群組的屬性信息確定為該第一聚類集合的屬性信息。
[0141]綜上所述,在本發(fā)明實(shí)施例中,服務(wù)器通過將該N個社交網(wǎng)絡(luò)群組進(jìn)行聚類得到η個第一聚類集合,并通過將該M個社交網(wǎng)絡(luò)群組進(jìn)行聚類得到m個第二聚類集合后,對于該η個第一聚類集合中的每個第一聚類集合,通過計(jì)算該第一聚類集合分別與該m個第二聚類集合之間的相似度,從而選擇與第一聚類集合之間的相似度大于相似度閾值的至少一個第二聚類集合,將該至少一個第二聚類集合分別與該第一聚類集合進(jìn)行合并,得到至少一個第三聚類集合,從而提高了第三聚類集合中多個社交賬號之間的關(guān)聯(lián)性,同時(shí),由于將該第一聚類集合和第二聚類集合進(jìn)行合并得到第三聚類集合的計(jì)算量較小,計(jì)算次數(shù)也較少,從而提高了獲取至少一個第三聚類集合的效率,并且根據(jù)該第三聚類集合包括的社交賬號之間的關(guān)系鏈,可以進(jìn)行賬號的挖掘,進(jìn)而提高了挖掘社交賬號的效率。
[0142]圖4是本發(fā)明實(shí)施例提供的一種社交賬號挖掘裝置的服務(wù)器結(jié)構(gòu)示意圖。該服務(wù)器可以是后臺服務(wù)器集群中的服務(wù)器。具體來講:
[0143]服務(wù)器400包括中央處理單元(CPU)401、包括隨機(jī)存取存儲器(RAM)402和只讀存儲器(R0M)403的系統(tǒng)存儲器404,以及連接系統(tǒng)存儲器404和中央處理單元401的系統(tǒng)總線405。服務(wù)器400還包括幫助計(jì)算機(jī)內(nèi)的各個器件之間傳輸信息的基本輸入/輸出系統(tǒng)(I/O系統(tǒng))406,和用于存儲操作系統(tǒng)413、應(yīng)用程序414和其他程序模塊415的大容量存儲設(shè)備407。
[0144]基本輸入/輸出系統(tǒng)406包括有用于顯示信息的顯示器408和用于用戶輸入信息的諸如鼠標(biāo)、鍵盤之類的輸入設(shè)備409。其中顯示器408和輸入設(shè)備409都通過連接到系統(tǒng)總線405的輸入輸出控制器410連接到中央處理單元401?;据斎?輸出系統(tǒng)406還可以包括輸入輸出控制器410以用于接收和處理來自鍵盤、鼠標(biāo)、或電子觸控筆等多個其他設(shè)備的輸入。類似地,輸入輸出控制器410還提供輸出到顯示屏、打印機(jī)或其他類型的輸出設(shè)備。
[0145]大容量存儲設(shè)備407通過連接到系統(tǒng)總線405的大容量存儲控制器(未示出)連接到中央處理單元401。大容量存儲設(shè)備407及其相關(guān)聯(lián)的計(jì)算機(jī)可讀介質(zhì)為服務(wù)器400提供非易失性存儲。也就是說,大容量存儲設(shè)備407可以包括諸如硬盤或者CD-ROM驅(qū)動器之類的計(jì)算機(jī)可讀介質(zhì)(未示出)。
[0146]不失一般性,計(jì)算機(jī)可讀介質(zhì)可以包括計(jì)算機(jī)存儲介質(zhì)和通信介質(zhì)。計(jì)算機(jī)存儲介質(zhì)包括以用于存儲諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù)等信息的任何方法或技術(shù)實(shí)現(xiàn)的易失性和非易失性、可移動和不可移動介質(zhì)。計(jì)算機(jī)存儲介質(zhì)包括RAM、R0M、EPR0M、EEPR0M、閃存或其他固態(tài)存儲其技術(shù),CD-R0M、DVD或其他光學(xué)存儲、磁帶盒、磁帶、磁盤存儲或其他磁性存儲設(shè)備。當(dāng)然,本領(lǐng)域技術(shù)人員可知計(jì)算機(jī)存儲介質(zhì)不局限于上述幾種。上述的系統(tǒng)存儲器404和大容量存儲設(shè)備407可以統(tǒng)稱為存儲器。
[0147]根據(jù)本發(fā)明的各種實(shí)施例,服務(wù)器400還可以通過諸如因特網(wǎng)等網(wǎng)絡(luò)連接到網(wǎng)絡(luò)上的遠(yuǎn)程計(jì)算機(jī)運(yùn)行。也即服務(wù)器400可以通過連接在系統(tǒng)總線405上的網(wǎng)絡(luò)接口單元411連接到網(wǎng)絡(luò)412,或者說,也可以使用網(wǎng)絡(luò)接口單元411來連接到其他類型的網(wǎng)絡(luò)或遠(yuǎn)程計(jì)算機(jī)系統(tǒng)(未示出)。
[0148]上述存儲器還包括一個或者一個以上的程序,一個或者一個以上程序存儲于存儲器中,被配置由CPU執(zhí)行。所述一個或者一個以上程序包含用于進(jìn)行本發(fā)明實(shí)施例提供的如下所述的社交賬號挖掘方法的指令,包括:
[0149]將N個社交網(wǎng)絡(luò)群組進(jìn)行聚類,得到η個第一聚類集合,該N個社交網(wǎng)絡(luò)群組中的每個社交網(wǎng)絡(luò)群組為在社交應(yīng)用中將多個社交賬號組成的群組,該N和該η均大于或等于1,且該N大于或等于該η。
[0150]將M個網(wǎng)絡(luò)地址群組進(jìn)行聚類,得到m個第二聚類集合,該M個網(wǎng)絡(luò)地址群組中的每個網(wǎng)絡(luò)地址群組為通過同一地址信息登錄該社交應(yīng)用的多個社交賬號組成的群組,該M和該m均大于或等于I,且該M大于或等于該m。
[0151]對于該η個第一聚類集合中的每個第一聚類集合,基于該m個第二聚類集合包括的社交賬號之間的關(guān)系鏈和該m個第二聚類集合包括的社交賬號與該第一聚類集合包括的社交賬號之間的關(guān)系鏈,從該m個第二聚類集合包括的社交賬號中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號。
[0152]可選地,基于該m個第二聚類集合包括的社交賬號之間的關(guān)系鏈和該m個第二聚類集合包括的社交賬號與該第一聚類集合包括的社交賬號之間的關(guān)系鏈,從該m個第二聚類集合包括的社交賬號中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號,包括:
[0153]計(jì)算該第一聚類集合分別與該m個第二聚類集合之間的相似度;
[0154]從該m個第二聚類集合中,選擇至少一個第二聚類集合,該至少一個第二聚類集合為與該第一聚類集合之間的相似度大于或等于相似度閾值的第二聚類集合;
[0155]將該第一聚類集合分別與該至少一個第二聚類集合進(jìn)行合并,得到至少一個第三聚類集合;
[0156]基于該至少一個第三聚類集合包括的社交賬號之間的關(guān)系鏈,從該至少一個第三聚類集合中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號。
[0157]可選地,基于該至少一個第三聚類集合包括的社交賬號之間的關(guān)系鏈,從該至少一個第三聚類集合中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號,包括:
[0158]對于該至少一個第三聚類集合中的每個第三聚類集合,基于該第三聚類集合包括的社交賬號之間的關(guān)系鏈,確定該第三聚類集合中每個社交賬號的關(guān)聯(lián)系數(shù),該每個社交賬號的關(guān)聯(lián)系數(shù)為與該每個社交賬號具有社交關(guān)系的社交賬號個數(shù);
[0159]從該第三聚類集合中選擇關(guān)聯(lián)系數(shù)大于或等于系數(shù)閾值的社交賬號;
[0160]對于該第三聚類集合中的每個社交賬號,將選擇的社交賬號中除與該社交賬號存在社交關(guān)系之外的社交賬號確定為對該社交賬號挖掘得到的社交賬號。
[0161 ]可選地,將N個社交網(wǎng)絡(luò)群組進(jìn)行聚類,得到η個第一聚類集合,包括:
[0162]將該N個社交網(wǎng)絡(luò)群組劃分為η組,每組包括存在相同社交賬號的至少兩個社交網(wǎng)絡(luò)群組;
[0163]將該η組中每組包括的至少兩個社交網(wǎng)絡(luò)群組進(jìn)行合并,得到η個第一聚類集合。
[0164]可選地,該方法還包括:
[0165]在合并得到該η個第一聚類集合的過程中,對于該η個第一聚類集合中的每個第一聚類集合,對于構(gòu)成該第一聚類集合的至少兩個社交網(wǎng)絡(luò)群組中的每個社交網(wǎng)絡(luò)群組,對該社交網(wǎng)絡(luò)群組與構(gòu)成該第一聚類集合的至少兩個社交網(wǎng)絡(luò)群組中其他社交網(wǎng)絡(luò)群組之間存在相同社交賬號的個數(shù)進(jìn)行統(tǒng)計(jì),得到X個數(shù)值;
[0166]將該X個數(shù)值進(jìn)行相加,得到第一數(shù)值;
[0167]將該第一數(shù)值除以該社交網(wǎng)絡(luò)群組包括的社交賬號的個數(shù),得到第二數(shù)值;
[0168]將該至少兩個社交網(wǎng)絡(luò)群組中第二數(shù)值最大的社交網(wǎng)絡(luò)群組的屬性信息確定為該第一聚類集合的屬性信息。
[0169]可選地,將M個網(wǎng)絡(luò)地址群組進(jìn)行聚類,得到m個第二聚類集合,包括:
[0170]將該M個網(wǎng)絡(luò)地址群組劃分為m組,每組包括存在相同社交賬號的至少兩個網(wǎng)絡(luò)地址群組;
[0171]對于該m組中每組包括的至少兩個網(wǎng)絡(luò)地址群組進(jìn)行合并,得到m個第二聚類集入口 ο
[0172]可選地,該方法還包括:
[0173]在合并得到該m個第二聚類集合的過程中,對于該m個第二聚類集合中的每個第二聚類集合,對于構(gòu)成該第二聚類集合的至少兩個網(wǎng)絡(luò)地址群組中的每個網(wǎng)絡(luò)地址群組,對該網(wǎng)絡(luò)地址群組與構(gòu)成該第二聚類集合的至少兩個網(wǎng)絡(luò)地址群組中其他網(wǎng)絡(luò)地址群組之間存在相同社交賬號的個數(shù)進(jìn)行統(tǒng)計(jì),得到Y(jié)個數(shù)值;
[0174]將該Y個數(shù)值進(jìn)行相加,得到第三數(shù)值;
[0175]將該第三數(shù)值除以該網(wǎng)絡(luò)地址群組包括的社交賬號的個數(shù),得到第四數(shù)值;
[0176]將該構(gòu)成該第一聚類集合的至少兩個網(wǎng)絡(luò)地址群組中第四數(shù)值最大的網(wǎng)絡(luò)地址群組的屬性信息確定為該第一聚類集合的屬性信息。
[0177]在本發(fā)明實(shí)施例中,服務(wù)器通過將該N個社交網(wǎng)絡(luò)群組進(jìn)行聚類得到η個第一聚類集合,并通過將該M個社交網(wǎng)絡(luò)群組進(jìn)行聚類得到m個第二聚類集合后,對于該η個第一聚類集合中的每個第一聚類集合,可以基于η個第一聚類集合包括的社交賬號之間的關(guān)系鏈、m個第二聚類集合包括的社交賬號之間的關(guān)系鏈和該m個第二聚類集合包括的社交賬號與第一聚類集合包括的社交賬號之間的關(guān)系鏈,從m個第二聚類集合包括的社交賬號中,確定對該第一聚類集合中每個社交賬號挖掘得到的社交賬號,從而使服務(wù)器不需要通過對每個社交賬號進(jìn)行擴(kuò)展計(jì)算,就可以得到一個較大的關(guān)系網(wǎng),并從該關(guān)系網(wǎng)中可以進(jìn)行社交賬號的挖掘。同時(shí),由于服務(wù)器通過第一聚類集合、第二聚類集合以及社交賬號之間的關(guān)系鏈進(jìn)行社交賬號的挖掘,對社交賬號挖掘的準(zhǔn)確度更高。并且在該社交賬號挖掘的過程中,該服務(wù)器只進(jìn)行了第一聚類集合的獲取、第二聚類集合的獲取和根據(jù)關(guān)系鏈從m個第二聚類集合包括的社交賬號中,確定挖掘得到的社交賬號這3次計(jì)算過程,該挖掘社交賬號的計(jì)算量較小,計(jì)算次數(shù)也較少,從而提高了挖掘社交賬號的效率。
[0178]需要說明的是:上述實(shí)施例提供的社交賬號挖掘裝置在挖掘社交賬號時(shí),僅以上述各功能模塊的劃分進(jìn)行舉例說明,實(shí)際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將裝置的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。另外,上述實(shí)施例提供的社交賬號挖掘裝置與社交賬號挖掘方法實(shí)施例屬于同一構(gòu)思,其具體實(shí)現(xiàn)過程詳見方法實(shí)施例,這里不再贅述。
[0179]本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例的全部或部分步驟可以通過硬件來完成,也可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲于一種計(jì)算機(jī)可讀存儲介質(zhì)中,上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。
[0180]以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.一種社交賬號挖掘方法,其特征在于,所述方法包括: 將N個社交網(wǎng)絡(luò)群組進(jìn)行聚類,得到η個第一聚類集合,所述N個社交網(wǎng)絡(luò)群組中的每個社交網(wǎng)絡(luò)群組為在社交應(yīng)用中將多個社交賬號組成的群組,所述N和所述η均大于或等于I,且所述N大于或等于所述η; 將M個網(wǎng)絡(luò)地址群組進(jìn)行聚類,得到m個第二聚類集合,所述M個網(wǎng)絡(luò)地址群組中的每個網(wǎng)絡(luò)地址群組為通過同一地址信息登錄所述社交應(yīng)用的多個社交賬號組成的群組,所述M和所述m均大于或等于I,且所述M大于或等于所述m; 對于所述η個第一聚類集合中的每個第一聚類集合,基于所述η個第一聚類集合包括的社交賬號之間的關(guān)系鏈、所述m個第二聚類集合包括的社交賬號之間的關(guān)系鏈和所述m個第二聚類集合包括的社交賬號與所述第一聚類集合包括的社交賬號之間的關(guān)系鏈,從所述m個第二聚類集合包括的社交賬號中,確定對所述第一聚類集合中每個社交賬號挖掘得到的社交賬號。2.如權(quán)利要求1所述的方法,其特征在于,所述所述η個第一聚類集合包括的社交賬號之間的關(guān)系鏈、基于所述m個第二聚類集合包括的社交賬號之間的關(guān)系鏈和所述m個第二聚類集合包括的社交賬號與所述第一聚類集合包括的社交賬號之間的關(guān)系鏈,從所述m個第二聚類集合包括的社交賬號中,確定對所述第一聚類集合中每個社交賬號挖掘得到的社交賬號,包括: 計(jì)算所述第一聚類集合分別與所述m個第二聚類集合之間的相似度; 從所述m個第二聚類集合中,選擇至少一個第二聚類集合,所述至少一個第二聚類集合為與所述第一聚類集合之間的相似度大于或等于相似度閾值的第二聚類集合; 將所述第一聚類集合分別與所述至少一個第二聚類集合進(jìn)行合并,得到至少一個第三聚類集合; 基于所述至少一個第三聚類集合包括的社交賬號之間的關(guān)系鏈,從所述至少一個第三聚類集合中,確定對所述第一聚類集合中每個社交賬號挖掘得到的社交賬號。3.如權(quán)利要求2所述的方法,其特征在于,所述基于所述至少一個第三聚類集合包括的社交賬號之間的關(guān)系鏈,從所述至少一個第三聚類集合中,確定對所述第一聚類集合中每個社交賬號挖掘得到的社交賬號,包括: 對于所述至少一個第三聚類集合中的每個第三聚類集合,基于所述第三聚類集合包括的社交賬號之間的關(guān)系鏈,確定所述第三聚類集合中每個社交賬號的關(guān)聯(lián)系數(shù),所述每個社交賬號的關(guān)聯(lián)系數(shù)為與所述每個社交賬號具有社交關(guān)系的社交賬號個數(shù); 從所述第三聚類集合中選擇關(guān)聯(lián)系數(shù)大于或等于系數(shù)閾值的社交賬號; 對于所述第三聚類集合中的每個社交賬號,將選擇的社交賬號中除與所述社交賬號存在社交關(guān)系之外的社交賬號確定為對所述社交賬號挖掘得到的社交賬號。4.如權(quán)利要求1所述的方法,其特征在于,所述將N個社交網(wǎng)絡(luò)群組進(jìn)行聚類,得到η個第一聚類集合,包括: 將所述N個社交網(wǎng)絡(luò)群組劃分為η組,每組包括存在相同社交賬號的至少兩個社交網(wǎng)絡(luò)群組; 將所述η組中每組包括的至少兩個社交網(wǎng)絡(luò)群組進(jìn)行合并,得到η個第一聚類集合。5.如權(quán)利要求4所述的方法,其特征在于,所述方法還包括: 在合并得到所述η個第一聚類集合的過程中,對于所述η個第一聚類集合中的每個第一聚類集合,對于構(gòu)成所述第一聚類集合的至少兩個社交網(wǎng)絡(luò)群組中的每個社交網(wǎng)絡(luò)群組,對所述社交網(wǎng)絡(luò)群組與構(gòu)成所述第一聚類集合的至少兩個社交網(wǎng)絡(luò)群組中其他社交網(wǎng)絡(luò)群組之間存在相同社交賬號的個數(shù)進(jìn)行統(tǒng)計(jì),得到X個個數(shù),所述X為所述第一聚類集合中至少兩個社交網(wǎng)絡(luò)群組的個數(shù)減I; 將所述X個個數(shù)進(jìn)行相加,得到第一數(shù)值; 將所述第一數(shù)值除以所述社交網(wǎng)絡(luò)群組包括的社交賬號的個數(shù),得到第二數(shù)值; 將所述至少兩個社交網(wǎng)絡(luò)群組中第二數(shù)值最大的社交網(wǎng)絡(luò)群組的屬性信息確定為所述第一聚類集合的屬性信息。6.如權(quán)利要求1所述的方法,其特征在于,所述將M個網(wǎng)絡(luò)地址群組進(jìn)行聚類,得到m個第二聚類集合,包括: 將所述M個網(wǎng)絡(luò)地址群組劃分為m組,每組包括存在相同社交賬號的至少兩個網(wǎng)絡(luò)地址群組; 對于所述m組中每組包括的至少兩個網(wǎng)絡(luò)地址群組進(jìn)行合并,得到m個第二聚類集合。7.如權(quán)利要求6所述的方法,其特征在于,所述方法還包括: 在合并得到所述m個第二聚類集合的過程中,對于所述m個第二聚類集合中的每個第二聚類集合,對于構(gòu)成所述第二聚類集合的至少兩個網(wǎng)絡(luò)地址群組中的每個網(wǎng)絡(luò)地址群組,對所述網(wǎng)絡(luò)地址群組與構(gòu)成所述第二聚類集合的至少兩個網(wǎng)絡(luò)地址群組中其他網(wǎng)絡(luò)地址群組之間存在相同社交賬號的個數(shù)進(jìn)行統(tǒng)計(jì),得到Y(jié)個個數(shù),所述Y為所述第二聚類集合中至少兩個網(wǎng)絡(luò)地址群組的個數(shù)減I; 將所述Y個個數(shù)進(jìn)行相加,得到第三數(shù)值; 將所述第三數(shù)值除以所述網(wǎng)絡(luò)地址群組包括的社交賬號的個數(shù),得到第四數(shù)值; 將所述構(gòu)成所述第一聚類集合的至少兩個網(wǎng)絡(luò)地址群組中第四數(shù)值最大的網(wǎng)絡(luò)地址群組的屬性信息確定為所述第一聚類集合的屬性信息。8.一種社交賬號挖掘裝置,其特征在于,所述裝置包括: 第一聚類模塊,用于將N個社交網(wǎng)絡(luò)群組進(jìn)行聚類,得到η個第一聚類集合,所述N個社交網(wǎng)絡(luò)群組中的每個社交網(wǎng)絡(luò)群組為在社交應(yīng)用中將多個社交賬號組成的群組,所述N和所述η均大于或等于I,且所述N大于或等于所述η; 第二聚類模塊,用于將M個網(wǎng)絡(luò)地址群組進(jìn)行聚類,得到m個第二聚類集合,所述M個網(wǎng)絡(luò)地址群組中的每個網(wǎng)絡(luò)地址群組為通過同一地址信息登錄所述社交應(yīng)用的多個社交賬號組成的群組,所述M和所述m均大于或等于I,且所述M大于或等于所述m; 第一確定模塊,用于對于所述η個第一聚類集合中的每個第一聚類集合,基于所述η個第一聚類集合包括的社交賬號之間的關(guān)系鏈、所述m個第二聚類集合包括的社交賬號之間的關(guān)系鏈和所述m個第二聚類集合包括的社交賬號與所述第一聚類集合包括的社交賬號之間的關(guān)系鏈,從所述m個第二聚類集合包括的社交賬號中,確定對所述第一聚類集合中每個社交賬號挖掘得到的社交賬號。9.如權(quán)利要求8所述的方法,其特征在于,所述第一確定模塊包括: 計(jì)算單元,用于計(jì)算所述第一聚類集合分別與所述m個第二聚類集合之間的相似度; 選擇單元,用于從所述m個第二聚類集合中,選擇至少一個第二聚類集合,所述至少一個第二聚類集合為與所述第一聚類集合之間的相似度大于或等于相似度閾值的第二聚類集合; 第一合并單元,用于將所述第一聚類集合分別與所述至少一個第二聚類集合進(jìn)行合并,得到至少一個第三聚類集合;確定單元,用于基于所述至少一個第三聚類集合包括的社交賬號之間的關(guān)系鏈,從所述至少一個第三聚類集合中,確定對所述第一聚類集合中每個社交賬號挖掘得到的社交賬號。10.如權(quán)利要求9所述的裝置,其特征在于,所述確定單元包括: 第一確定子單元,用于對于所述至少一個第三聚類集合中的每個第三聚類集合,基于所述第三聚類集合包括的社交賬號之間的關(guān)系鏈,確定所述第三聚類集合中每個社交賬號的關(guān)聯(lián)系數(shù),所述每個社交賬號的關(guān)聯(lián)系數(shù)為與所述每個社交賬號具有社交關(guān)系的社交賬號個數(shù); 選擇子單元,用于從所述第三聚類集合中選擇關(guān)聯(lián)系數(shù)大于或等于系數(shù)閾值的社交賬號; 第二確定子單元,用于對于所述第三聚類集合中的每個社交賬號,將選擇的社交賬號中除與所述社交賬號存在社交關(guān)系之外的社交賬號確定為對所述社交賬號挖掘得到的社交賬號。11.如權(quán)利要求8所述的裝置,其特征在于,所述第一聚類模塊包括: 第一劃分單元,用于將所述N個社交網(wǎng)絡(luò)群組劃分為η組,每組包括存在相同社交賬號的至少兩個社交網(wǎng)絡(luò)群組; 第二合并單元,用于將所述η組中每組包括的至少兩個社交網(wǎng)絡(luò)群組進(jìn)行合并,得到η個第一聚類集合。12.如權(quán)利要求11所述的裝置,其特征在于,所述裝置還包括: 第一統(tǒng)計(jì)模塊,用于在合并得到所述η個第一聚類集合的過程中,對于所述η個第一聚類集合中的每個第一聚類集合,對于構(gòu)成所述第一聚類集合的至少兩個社交網(wǎng)絡(luò)群組中的每個社交網(wǎng)絡(luò)群組,對所述社交網(wǎng)絡(luò)群組與構(gòu)成所述第一聚類集合的至少兩個社交網(wǎng)絡(luò)群組中其他社交網(wǎng)絡(luò)群組之間存在相同社交賬號的個數(shù)進(jìn)行統(tǒng)計(jì),得到X個個數(shù),所述X為所述第一聚類集合中至少兩個社交網(wǎng)絡(luò)群組的個數(shù)減I; 第一計(jì)算模塊,用于將所述X個個數(shù)進(jìn)行相加,得到第一數(shù)值; 第二計(jì)算模塊,用于將所述第一數(shù)值除以所述社交網(wǎng)絡(luò)群組包括的社交賬號的個數(shù),得到第二數(shù)值; 第二確定模塊,用于將所述至少兩個社交網(wǎng)絡(luò)群組中第二數(shù)值最大的社交網(wǎng)絡(luò)群組的屬性信息確定為所述第一聚類集合的屬性信息。13.如權(quán)利要求8所述的裝置,其特征在于,所述第二聚類模塊包括: 第二劃分單元,用于將所述M個網(wǎng)絡(luò)地址群組劃分為m組,每組包括存在相同社交賬號的至少兩個網(wǎng)絡(luò)地址群組; 第三合并單元,用于對于所述m組中每組包括的至少兩個網(wǎng)絡(luò)地址群組進(jìn)行合并,得到m個第二聚類集合。14.如權(quán)利要求13所述的裝置,其特征在于,所述裝置還包括: 第二統(tǒng)計(jì)模塊,用于在合并得到所述m個第二聚類集合的過程中,對于所述m個第二聚類集合中的每個第二聚類集合,對于構(gòu)成所述第二聚類集合的至少兩個網(wǎng)絡(luò)地址群組中的每個網(wǎng)絡(luò)地址群組,對所述網(wǎng)絡(luò)地址群組與構(gòu)成所述第二聚類集合的至少兩個網(wǎng)絡(luò)地址群組中其他網(wǎng)絡(luò)地址群組之間存在相同社交賬號的個數(shù)進(jìn)行統(tǒng)計(jì),得到Y(jié)個個數(shù),所述Y為所述第二聚類集合中至少兩個網(wǎng)絡(luò)地址群組的個數(shù)減I; 第三計(jì)算模塊,用于將所述Y個個數(shù)進(jìn)行相加,得到第三數(shù)值; 第四計(jì)算模塊,將所述第三數(shù)值除以所述網(wǎng)絡(luò)地址群組包括的社交賬號的個數(shù),得到第四數(shù)值; 第三確定模塊,用于將所述構(gòu)成所述第一聚類集合的至少兩個網(wǎng)絡(luò)地址群組中第四數(shù)值最大的網(wǎng)絡(luò)地址群組的屬性信息確定為所述第一聚類集合的屬性信息。
【文檔編號】G06K9/62GK106095843SQ201610387718
【公開日】2016年11月9日
【申請日】2016年6月2日 公開號201610387718.X, CN 106095843 A, CN 106095843A, CN 201610387718, CN-A-106095843, CN106095843 A, CN106095843A, CN201610387718, CN201610387718.X
【發(fā)明人】李霖, 陳謙, 陳培炫
【申請人】騰訊科技(深圳)有限公司