一種移動社會網(wǎng)絡(luò)中的人群劃分方法
【專利摘要】本發(fā)明公開了一種移動社會網(wǎng)絡(luò)中的人群劃分方法,包括以下步驟:a、導(dǎo)入用戶地理軌跡日志文件,計算任意兩個用戶之間的離散地理軌跡相似度si,j;b、基于任意兩用戶的離散地理軌跡相似度,建立User-User相似性矩陣G、Locate-User矩陣L和User-Locate矩陣U;c、導(dǎo)入用戶社交活動日志,根據(jù)用戶彼此之間的手機(jī)呼叫歷史記錄建立社交網(wǎng)絡(luò)模型,計算社交網(wǎng)絡(luò)鄰接矩陣F;d、計算分塊矩陣并劃分人群。本發(fā)明通過對手機(jī)網(wǎng)絡(luò)或基于位置在線社交網(wǎng)絡(luò)中的用戶精準(zhǔn)劃分,可應(yīng)用于個性化內(nèi)容推薦系統(tǒng),向目標(biāo)用戶推送個性化內(nèi)容。
【專利說明】一種移動社會網(wǎng)絡(luò)中的人群劃分方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)挖掘與用戶行為分析技術(shù),具體涉及一種移動社會網(wǎng)絡(luò)中的人群劃分方法。通過對手機(jī)網(wǎng)絡(luò)或基于位置在線社交網(wǎng)絡(luò)中的用戶精準(zhǔn)劃分,可應(yīng)用于個性化內(nèi)容推薦系統(tǒng)。
【背景技術(shù)】
[0002]準(zhǔn)確劃分人群中的社團(tuán)或聚類對于優(yōu)化基于位置的互聯(lián)網(wǎng)服務(wù)等個性化內(nèi)容推薦系統(tǒng)具有重大意義,根據(jù)人群劃分結(jié)果,可準(zhǔn)確地向目標(biāo)用戶推送個性化內(nèi)容。
[0003]現(xiàn)有劃分人群的方法一般可以分為基于社會網(wǎng)絡(luò)社團(tuán)探測方法和基于數(shù)據(jù)特征的聚類方法。
[0004]一方面,基于社會網(wǎng)絡(luò)的社團(tuán)探測的方法根據(jù)個體之間的社交關(guān)系的緊密程度來劃分傳統(tǒng)意義上的社團(tuán),由于這種方法獲得的社團(tuán)可以很直觀的反映社團(tuán)內(nèi)外的社交關(guān)系,因此很容易用來分析并解釋一些普遍現(xiàn)象,可以很方便的應(yīng)用到純社交網(wǎng)絡(luò)服務(wù)推薦或其他與社交關(guān)系緊密相關(guān)的問題研究中,但是人群并不一定僅僅具有社交屬性,其他屬性例如地理屬性,社會屬性等同樣影響到個體的行為乃至社團(tuán)的劃分,進(jìn)而影響其應(yīng)用面。
[0005]另一方面,基于共同特征的數(shù)據(jù)聚類方法在數(shù)據(jù)挖掘領(lǐng)域已經(jīng)有很多應(yīng)用。這種方法基于不同個體維度的屬性的相似性來獲得個體之間的共同特征的聚類,從而劃分不同類型的人群。這種方法已廣泛應(yīng)用到例如電子商務(wù)、多媒體內(nèi)容推送等個性化推薦領(lǐng)域中,但這種方法針對性相對較強,僅能分析并探測用戶在特定屬性維度上的行為。
【發(fā)明內(nèi)容】
[0006]針對現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提出一種移動社會網(wǎng)絡(luò)中的人群劃分方法,該方法基于離散地理軌跡相似性,同時結(jié)合個體的地理屬性與社交屬性,劃分更為精準(zhǔn)。
[0007]為實現(xiàn)以上發(fā)明目的,本發(fā)明采用以下技術(shù)方案:
[0008]一種移動社會網(wǎng)絡(luò)中的人群劃分方法,包括以下步驟:
[0009]a、導(dǎo)入用戶地理軌跡日志文件,計算任意兩個用戶之間的離散地理軌跡相似度Si,j,其中,給定總用戶數(shù)N,用戶活動區(qū)域由M個基站完全覆蓋,所述用戶地理軌跡日志由用戶ID與用戶活動的基站序號列表組成;
[0010]b、基于任意兩用戶的離散地理軌跡相似度,建立User-User相似性矩陣G、Locate-User矩陣L和User-Locate矩陣U,其中,N*M維User-Locate矩陣U的矩陣兀素PVij表示用戶i在位置j的出現(xiàn)概率;M*N維Locate-User矩陣L的矩陣元素LVij表示位置i上用戶j出現(xiàn)的概率;N*N維User-User相似性矩陣G為:
[0011]
【權(quán)利要求】
1.一種移動社會網(wǎng)絡(luò)中的人群劃分方法,包括以下步驟: a、導(dǎo)入用戶地理軌跡日志文件,計算任意兩個用戶之間的離散地理軌跡相似度Si,j,其中,給定總用戶數(shù)N,用戶活動區(qū)域由M個基站完全覆蓋,所述用戶地理軌跡日志由用戶ID與用戶活動的基站序號列表組成; b、基于任意兩用戶的離散地理軌跡相似度,建立User-User相似性矩陣G、Locate-User矩陣L和User-Locate矩陣U,其中,N*M維User-Locate矩陣U的矩陣兀素PVij表示用戶i在位置j的出現(xiàn)概率;M*N維Locate-User矩陣L的矩陣元素LVij表示位置i上用戶j出現(xiàn)的概率;N*N維User-User相似性矩陣G為:
2.根據(jù)權(quán)利要求1所述的劃分方法,其中,任意用戶i,j之間的離散地理軌跡相似度表示為兩者所有共同位置的余弦相似性指標(biāo)之和:
3.根據(jù)權(quán)利要求2所述的劃分方法,其中,步驟a具體為: 首先導(dǎo)入任意兩個用戶的歷史基站序號列表,對比兩者共同的基站數(shù)量以及占各自的比例,計算各自在所有共有基站位置I的出現(xiàn)概率Pu,然后計算對應(yīng)的余弦相似性指標(biāo),最后求和得到任意兩用戶的離散地理軌跡相似度。
4.根據(jù)權(quán)利要求1所述的劃分方法,其中,步驟b還包括: 利用對稱非負(fù)矩陣分解算法(SNMF)對User-User相似性矩陣G進(jìn)行矩陣分解,得到個體地理軌跡的初步劃分,即所屬各分塊矩陣的分屬度。
5.根據(jù)權(quán)利要求1所述的劃分方法,其中,所述用戶i,j的社交關(guān)系的權(quán)重具體為用戶i,j的社交互動頻次,即用戶i,j之間的通信次數(shù)與通話時長。
6.根據(jù)權(quán)利要求1所述的劃分方法,其中,步驟c具體為:導(dǎo)入N個用戶的社交活動日志,初始化N*N社交網(wǎng)絡(luò)鄰接矩陣F = O,循環(huán)讀取每個用戶的社交活動日志中對應(yīng)的目標(biāo)用戶,根據(jù)個體間社交關(guān)系的權(quán)重,更新社交網(wǎng)絡(luò)鄰接矩陣中相應(yīng)的矩陣元素,從而建立群體的社交網(wǎng)絡(luò)鄰接矩陣。
7.根據(jù)權(quán)利要求1所述的劃分方法,其中,步驟d具體為:導(dǎo)入步驟b中的User-User相似性矩陣G、User_Locate矩陣U、Locate_User矩陣L以及步驟c中的社交網(wǎng)絡(luò)鄰接矩陣F,設(shè)定目標(biāo)分塊矩陣的初值X為步驟b中對User-User相似性矩陣G進(jìn)行矩陣分解而得到的分屬度矩陣,采用聯(lián)合非負(fù)矩陣分解算法(JNMF)做矩陣分解,反復(fù)迭代直到目標(biāo)分塊矩陣I滿足前后兩次迭代的差值的模小于預(yù)定值,輸出各節(jié)點所屬各分塊矩陣及其分屬度,即得到群體的劃分情況。`
【文檔編號】G06Q50/00GK103700018SQ201310686372
【公開日】2014年4月2日 申請日期:2013年12月16日 優(yōu)先權(quán)日:2013年12月16日
【發(fā)明者】陳述, 涂來, 黃本雄, 馬雪琴 申請人:華中科技大學(xué)