本發(fā)明涉及一種移動(dòng)社交的用戶信息處理方法,尤其涉及一種同事用戶關(guān)系鏈的挖掘方法。
背景技術(shù):
在網(wǎng)絡(luò)時(shí)代特別是移動(dòng)互聯(lián)網(wǎng)時(shí)代,信息分享已成為互聯(lián)網(wǎng)社會(huì)化媒體營(yíng)銷的主要途徑和方式,人的社交化程度大大加深。
騰訊微博、新浪微博網(wǎng)站信息關(guān)系鏈屬于一個(gè)基于用戶關(guān)系信息分享、傳播以及獲取的平臺(tái)。用戶可以根據(jù)自己的興趣偏好,依據(jù)對(duì)方發(fā)布內(nèi)容的類別與質(zhì)量,來(lái)選擇是否“關(guān)注”某用戶,同時(shí)對(duì)所有“關(guān)注”的用戶群進(jìn)行分類,基于用戶現(xiàn)有的“關(guān)注”與被“關(guān)注”的數(shù)量,用戶發(fā)布信息的吸引力、新聞性越強(qiáng),對(duì)該用戶感興趣、關(guān)注該用戶的人數(shù)也越多,然而用戶通過(guò)自主建立的關(guān)系網(wǎng)組建個(gè)人社區(qū)用戶關(guān)系鏈的信息關(guān)系鏈。
人人網(wǎng)為整個(gè)中國(guó)互聯(lián)網(wǎng)用戶提供服務(wù)的SNS社交網(wǎng)站,給不同身份的人提供了一個(gè)全方位的互動(dòng)交流平臺(tái),通過(guò)提供發(fā)布日志、保存相冊(cè)、音樂(lè)視頻等站內(nèi)外資源分享等功能建立了一個(gè)多種用戶群體的交流互動(dòng)平臺(tái)。
現(xiàn)有技術(shù)的主要缺點(diǎn)如下:
1)傳統(tǒng)的網(wǎng)站信息關(guān)系鏈,如著名的騰訊微博、新浪微博以及人人網(wǎng)、開心網(wǎng)等,信息的交換途徑均是通過(guò)提供發(fā)布內(nèi)容簡(jiǎn)短的即時(shí)信息,日志、保存相冊(cè)、音樂(lè)視頻等用戶自主建立的關(guān)系網(wǎng),信息的產(chǎn)生大多就需要有一定量的用戶基礎(chǔ)以及穩(wěn)定的用戶關(guān)系,才能形成龐大的用戶群體關(guān)系圈。
2)對(duì)用戶而言,每個(gè)用戶都會(huì)與不認(rèn)識(shí)的,只通過(guò)興趣關(guān)注素未謀面的用戶形成一個(gè)圈子,雖然積聚了大量的用戶,這對(duì)傳統(tǒng)網(wǎng)站信息關(guān)系鏈來(lái)說(shuō)是個(gè)好處,既包含了熟人關(guān)系,也包含了陌生人關(guān)系,缺乏精準(zhǔn)的用戶之間關(guān)系的判斷。
3)海量信息難以管理,需要一個(gè)非常龐大的數(shù)據(jù)庫(kù),維護(hù)起來(lái)非常困難。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種同事用戶關(guān)系鏈的挖掘方法,能夠精準(zhǔn)快速地?cái)U(kuò)展同事用戶關(guān)系圈,系統(tǒng)實(shí)時(shí)性采集要求低,信息準(zhǔn)確穩(wěn)定,并可大大減少模型復(fù)雜度和維護(hù)難度。
本發(fā)明為解決上述技術(shù)問(wèn)題而采用的技術(shù)方案是提供一種同事用戶關(guān)系鏈的挖掘方法,包括如下步驟:a)獲取移動(dòng)原始CDR數(shù)據(jù),定位用戶工作日的主要活動(dòng)區(qū)域;b)統(tǒng)計(jì)主被叫用戶間的通話次數(shù)/位置、短信次數(shù)/位置,基于互動(dòng)統(tǒng)計(jì)關(guān)系使用裂變算法獲取多層用戶關(guān)系圈;c)基于關(guān)系類型場(chǎng)景特征計(jì)算同事關(guān)系的關(guān)系類型。
上述的同事用戶關(guān)系鏈的挖掘方法,其中,所述原始CDR數(shù)據(jù)包括呼叫、短信和位置更新,所述步驟a)通過(guò)2/3G的MC口-CS_AIU_MM位置移動(dòng)信令以及4G網(wǎng)絡(luò)S1口-S1-MME信令數(shù)據(jù),獲取移動(dòng)、電信或聯(lián)通的2/3/4G網(wǎng)絡(luò)手機(jī)移動(dòng)終端用戶的位置區(qū)信息,通過(guò)統(tǒng)計(jì)篩選位置更新次數(shù),形成用戶主要活動(dòng)區(qū)域信息表。
上述的同事用戶關(guān)系鏈的挖掘方法,其中,所述步驟a)根據(jù)時(shí)間劃分篩選出工作日用戶日間位置信息表,并選取用戶日間位置信息表里面的位置更新次數(shù)排名前三的位置服務(wù)小區(qū),作為該手機(jī)移動(dòng)終端用戶的主要活動(dòng)區(qū)域。
上述的同事用戶關(guān)系鏈的挖掘方法,其中,所述步驟b)獲取用戶一段時(shí)間內(nèi)全部呼叫詳細(xì)記錄表和短信詳細(xì)記錄表,選取主叫用戶號(hào)碼、被叫用戶號(hào)碼、通話/短信時(shí)間和通話/短信次數(shù)字段信息,形成用戶通話/短信互動(dòng)統(tǒng)計(jì)表。
上述的同事用戶關(guān)系鏈的挖掘方法,其中,所述呼叫詳細(xì)記錄表包括CS_AIU_MOC、CS_AIU_MOSMS、CSFB、CS_AIU_MM和S1-MME 5張全業(yè)務(wù)CDR表。
上述的同事用戶關(guān)系鏈的挖掘方法,其中,所述步驟b)根據(jù)輸入的用戶號(hào)碼作為主被叫在呼叫/短信詳細(xì)記錄表里面找出第一層呼叫號(hào)碼,通過(guò)第一層呼叫號(hào)碼與輸入的用戶號(hào)碼的主要活動(dòng)區(qū)域進(jìn)行匹配,如果存在有交集的主要活動(dòng)區(qū)域則納入用戶關(guān)系圈。
上述的同事用戶關(guān)系鏈的挖掘方法,其中,所述步驟b)通過(guò)Web界面輸入任意用戶的號(hào)碼,后臺(tái)獲取到該用戶號(hào)碼的MSISDN信息,根據(jù)裂變算法,計(jì)算出每一層的用戶關(guān)系圈與初始輸入的用戶號(hào)碼主要活動(dòng)區(qū)域存在交集的集合,最終輸出同事用戶關(guān)系圈。
上述的同事用戶關(guān)系鏈的挖掘方法,其中,所述步驟b)中裂變算法如下:首先,對(duì)于某個(gè)移動(dòng)用戶A,在工作日日間的排名前三的活動(dòng)區(qū)域信息表中,所有與移動(dòng)用戶A有過(guò)直接互動(dòng)行為的用戶形成直接互動(dòng)集合S;如果移動(dòng)用戶A的排名前三的活動(dòng)區(qū)域與集合S里某用戶的排名前三的活動(dòng)區(qū)域有交集,則判定移動(dòng)用戶A與該用戶為同事關(guān)系,形成第一層用戶關(guān)系圈;然后,對(duì)集合S里面的號(hào)碼作為主叫/被叫時(shí),裂變出相應(yīng)的被叫/主叫號(hào)碼,同樣匹配出裂變后的被叫/主叫號(hào)碼的主要活動(dòng)區(qū)域,如果裂變出的用戶與移動(dòng)用戶A的主要活動(dòng)區(qū)域存在交集,則判斷為同事關(guān)系,形成第二層用戶關(guān)系圈;以此類推,通過(guò)裂變形成多層用戶關(guān)系圈,獲得以移動(dòng)用戶A為中心的同事關(guān)系圈。
上述的同事用戶關(guān)系鏈的挖掘方法,其中,所述裂變的次數(shù)為5次。
本發(fā)明對(duì)比現(xiàn)有技術(shù)有如下的有益效果:本發(fā)明提供的同事用戶關(guān)系鏈的挖掘方法,基于移動(dòng)位置區(qū)與通信行為信令擴(kuò)展同事用戶關(guān)系圈,信令數(shù)據(jù)源記錄的用戶行為特征信息更新快,系統(tǒng)實(shí)時(shí)性采集要求低,信息準(zhǔn)確穩(wěn)定;采用裂變算法則可以大大減少模型復(fù)雜度和維護(hù)難度。
附圖說(shuō)明
圖1為本發(fā)明同事用戶關(guān)系鏈的挖掘流程示意圖;
圖2為本發(fā)明同事用戶關(guān)系裂變算法示意圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的描述。
圖1為本發(fā)明同事用戶關(guān)系鏈的挖掘流程示意圖。
請(qǐng)參見圖1,本發(fā)明提供的同事用戶關(guān)系鏈的挖掘方法,主要分為如下四個(gè)步驟:
步驟S1:預(yù)先通過(guò)2/3G的MC口-CS_AIU_MM位置移動(dòng)信令以及4G網(wǎng)絡(luò)S1口-S1-MME信令數(shù)據(jù),獲取移動(dòng)、電信或聯(lián)通的2/3/4G網(wǎng)絡(luò)手機(jī)移動(dòng)終端用戶的位置區(qū)信息,通過(guò)統(tǒng)計(jì)篩選位置更新次數(shù),形成用戶主要活動(dòng)區(qū)域信息表;根據(jù)時(shí)間劃分,篩選出工作日用戶日間周一~周五(9:00~12:00&14:00~18:00)位置信息表;為了便于定位手機(jī)移動(dòng)終端用戶的主要活動(dòng)區(qū)域以及常駐位置,篩選用戶位置信息統(tǒng)計(jì)表里面的位置更新次數(shù)最多的TOP3位置服務(wù)小區(qū);基于2/3/4G網(wǎng)絡(luò)服務(wù)小區(qū)基礎(chǔ)維表信息關(guān)聯(lián)用戶主要活動(dòng)區(qū)域信息表,匹配出TOP3位置服務(wù)小區(qū)的經(jīng)緯度信息,工作日日間用戶位置信息統(tǒng)計(jì)表包括如下數(shù)據(jù):月份、號(hào)碼、位置區(qū)、小區(qū)、位置更新次數(shù)、經(jīng)度、緯度。
步驟S2:獲取用戶一段時(shí)間內(nèi)全部呼叫/短信詳細(xì)記錄表數(shù)據(jù),選取主叫用戶號(hào)碼、被叫用戶號(hào)碼、通話/短信時(shí)間、通話/短信次數(shù)字段信息,形成用戶通話/短信互動(dòng)統(tǒng)計(jì)表。
步驟S3:根據(jù)輸入的用戶號(hào)碼作為主被叫在呼叫/短信詳細(xì)記錄表里面找出第一層呼叫號(hào)碼,通過(guò)第一層呼叫號(hào)碼與輸入的用戶號(hào)碼的主要TOP3活動(dòng)區(qū)域進(jìn)行匹配,存在有交集主要活動(dòng)區(qū)域則納入本發(fā)明定義的用戶精準(zhǔn)圈;所述呼叫詳細(xì)記錄表通過(guò)FTP技術(shù)采集,包括CS_AIU_MOC、CS_AIU_MOSMS、CSFB、CS_AIU_MM、S1-MME 5張全業(yè)務(wù)CDR表;各表的內(nèi)容說(shuō)明如下:
步驟S4:通過(guò)Web界面輸入任意用戶的號(hào)碼,后臺(tái)獲取到該用戶號(hào)碼的MSISDN信息,根據(jù)裂變FISSION算法,計(jì)算出每一層的用戶精準(zhǔn)圈為與初始輸入的用戶號(hào)碼主要TOP3活動(dòng)區(qū)域存在交集(每層用戶與用戶A之間的主要TOP3活動(dòng)區(qū)域的經(jīng)緯度兩兩之間的距離小于100m以內(nèi))的集合,最終輸出絕對(duì)同事用戶關(guān)系圈。
本發(fā)明所采用的技術(shù)方案是基于移動(dòng)2/3G的MC口-CS_AIU_MM位置移動(dòng)信令以及4G網(wǎng)絡(luò)S1口-S1-MME信令數(shù)據(jù),通過(guò)手機(jī)移動(dòng)終端用戶MSISDN(移動(dòng)用戶綜合業(yè)務(wù)唯一識(shí)別碼,Mobile Subscriber International ISDN/PSTN number)在通話或者位置更新的過(guò)程中,可以關(guān)聯(lián)出手機(jī)移動(dòng)終端用戶之間的關(guān)系,然而進(jìn)行互動(dòng)關(guān)系統(tǒng)計(jì),使用原始CDR數(shù)據(jù)(包括呼叫、短信、位置更新)統(tǒng)計(jì)主被叫用戶間的通話次數(shù)/位置、短信次數(shù)/位置和用戶的工作日的日間主要活動(dòng)區(qū)域,基于互動(dòng)關(guān)系統(tǒng)計(jì)使用裂變FISSION算法算出多層用戶關(guān)系圈,基于關(guān)系類型場(chǎng)景特征計(jì)算同事關(guān)系的關(guān)系類型;本發(fā)明的關(guān)系類型場(chǎng)景分為同事、朋友、親屬三種類型場(chǎng)景,本發(fā)明主要根據(jù)同事關(guān)系類型場(chǎng)景特征來(lái)計(jì)算同事關(guān)系的關(guān)系類型。判斷同事關(guān)系類型則通過(guò)通信行為、時(shí)間、主要活動(dòng)區(qū)域等來(lái)計(jì)算。本發(fā)明的處理數(shù)據(jù)可以采用輸出報(bào)表展示,系統(tǒng)輸出報(bào)表數(shù)據(jù)呈現(xiàn)如下:
本發(fā)明提供的用戶關(guān)系鏈的絕對(duì)同事關(guān)系圈裂變FISFION算法,解決了傳統(tǒng)網(wǎng)站信息關(guān)系鏈中初期需要一定量的用戶基礎(chǔ)以及穩(wěn)定的用戶關(guān)系才能統(tǒng)計(jì)完整的用戶關(guān)系絕對(duì)同事關(guān)系圈問(wèn)題。此外,本發(fā)明提供的用戶關(guān)系鏈挖掘方法中的裂變FISFION算法,易于統(tǒng)計(jì)完整的同事用戶關(guān)系,如圖2所示,具體算法如下:
首先,對(duì)于某個(gè)移動(dòng)用戶A,在工作日日間(9:00~12:00&14:00~18:00)的TOP3主要活動(dòng)區(qū)域信息表,所有和用戶A有過(guò)直接互動(dòng)行為(主叫或被叫或發(fā)短信或收短信)的用戶形成直接互動(dòng)集合S(包含b、c、d、e、f)。根據(jù)a用戶的主要TOP3活動(dòng)區(qū)域(TOP-a1、TOP-a2、TOP-a3)與集合S里面的b、c、d、e、f用戶的主要TOP3活動(dòng)區(qū)域(TOP-b1、TOP-b2、TOP-b3等)有交集(即每層用戶與用戶A之間的主要TOP3活動(dòng)區(qū)域的經(jīng)緯度兩兩之間的距離小于100m以內(nèi)),則判定為同事關(guān)系,形成第一層用戶關(guān)系圈。
然后,對(duì)集合S里面的號(hào)碼作為主叫/被叫時(shí),裂變出相應(yīng)的被叫/主叫號(hào)碼(如w、u、v、k等),同樣匹配出裂變后的被叫/主叫號(hào)碼的主要TOP3活動(dòng)區(qū)域(TOP-w1、TOP-w2、TOP-w3等)與移動(dòng)用戶A的主要TOP3活動(dòng)區(qū)域(TOP-a1、TOP-a2、TOP-a3)進(jìn)行交集,若存在交集,則判斷為同事關(guān)系;形成第二層用戶關(guān)系圈。
以此類推,通過(guò)裂變到第五層,則可擴(kuò)大以移動(dòng)用戶A為中心的絕對(duì)同事關(guān)系圈。
綜上所述,本發(fā)明提供的同事用戶關(guān)系鏈的挖掘方法,具體優(yōu)點(diǎn)如下:1)結(jié)合用戶通信行為的多層裂變算法,進(jìn)一步擴(kuò)展了完整的同事用戶群體關(guān)系,快速準(zhǔn)確地計(jì)算通話行為中多層的同事用戶關(guān)系圈。2)本發(fā)明基于移動(dòng)Mc口以及MME口信令詳單信息,數(shù)據(jù)信息量大,用戶位置軌跡以及行為記錄信息完整,無(wú)須用戶自主建立的關(guān)系網(wǎng)。3)位置區(qū)與通信模型建立復(fù)雜度低,數(shù)據(jù)庫(kù)簡(jiǎn)單,同時(shí)易于維護(hù)。4)移動(dòng)信令詳單信息更新實(shí)時(shí)性高,做到用戶關(guān)系在通信模型中及時(shí)更新。5)系統(tǒng)采集實(shí)時(shí)性要求低,可結(jié)合多日數(shù)據(jù)完善同事用戶關(guān)系鏈。
雖然本發(fā)明已以較佳實(shí)施例揭示如上,然其并非用以限定本發(fā)明,任何本領(lǐng)域技術(shù)人員,在不脫離本發(fā)明的精神和范圍內(nèi),當(dāng)可作些許的修改和完善,因此本發(fā)明的保護(hù)范圍當(dāng)以權(quán)利要求書所界定的為準(zhǔn)。