專利名稱:用戶數(shù)據(jù)處理方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)處理技術(shù),尤其涉及一種用戶數(shù)據(jù)處理方法及裝置。
背景技術(shù):
為了有效掌握用戶信息及用戶狀態(tài)變化,運(yùn)營商需要收集大量用戶數(shù)據(jù)來進(jìn)行分析,用戶數(shù)據(jù)通常包括基本信息、社會(huì)信息、愛好信息、使用信息和接觸信息等多個(gè)方面,每個(gè)方面即為一組維度。因此,對于每一個(gè)用戶,通??梢孕纬梢粋€(gè)幾百,甚至上千個(gè)維度的長向量來描述該用戶及其行為特征。
隨著用戶數(shù)量的不斷增長,用戶數(shù)據(jù)也呈爆炸式增加。由于用戶數(shù)據(jù)的維數(shù)較多, 且各維數(shù)據(jù)之間的關(guān)聯(lián)性較為稀疏,必然增加了用戶數(shù)據(jù)的分析難度,亟需一種海量、高維用戶數(shù)據(jù)的處理方法。發(fā)明內(nèi)容
本發(fā)明提供一種用戶數(shù)據(jù)處理方法及裝置,以提高對用戶數(shù)據(jù)的處理效果。
本發(fā)明第一個(gè)方面提供一種用戶數(shù)據(jù)處理方法,包括
獲取多個(gè)用戶樣本數(shù)據(jù),對所述多個(gè)用戶樣本數(shù)據(jù)分別進(jìn)行降維處理,對多個(gè)降維處理后的用戶樣本數(shù)據(jù)進(jìn)行訓(xùn)練,生成多個(gè)狀態(tài)碼本;
將待處理的用戶數(shù)據(jù)進(jìn)行降維處理,將降維處理后的用戶數(shù)據(jù)進(jìn)行歸一化處理, 將歸一化處理后的用戶數(shù)據(jù)映射到所述多個(gè)狀態(tài)碼本中的一個(gè)狀態(tài)碼本,以根據(jù)所映射到的狀態(tài)碼本進(jìn)行用戶分析。
本發(fā)明另一個(gè)方面提供一種用戶數(shù)據(jù)處理裝置,包括
狀態(tài)碼本生成模塊,用于獲取多個(gè)用戶樣本數(shù)據(jù),對所述多個(gè)用戶樣本數(shù)據(jù)分別進(jìn)行降維處理,對多個(gè)降維處理后的用戶樣本數(shù)據(jù)進(jìn)行訓(xùn)練,生成多個(gè)狀態(tài)碼本;
處理模塊,用于將待處理的用戶數(shù)據(jù)進(jìn)行降維處理,將降維處理后的用戶數(shù)據(jù)進(jìn)行歸一化處理,將歸一化處理后的用戶數(shù)據(jù)映射到所述多個(gè)狀態(tài)碼本中的一個(gè)狀態(tài)碼本, 以根據(jù)所映射到的狀態(tài)碼本進(jìn)行用戶分析。
由上述技術(shù)方案可知,本發(fā)明提供的用戶數(shù)據(jù)處理方法及裝置,獲取多個(gè)用戶樣本數(shù)據(jù),對多個(gè)用戶樣本數(shù)據(jù)分別進(jìn)行降維處理,對多個(gè)降維處理后的用戶樣本數(shù)據(jù)進(jìn)行訓(xùn)練,生成多個(gè)狀態(tài)碼本,將待處理的用戶數(shù)據(jù)進(jìn)行降維處理,將降維處理后的用戶數(shù)據(jù)進(jìn)行歸一化處理,將歸一化處理后的用戶數(shù)據(jù)映射到多個(gè)狀態(tài)碼本中的一個(gè)狀態(tài)碼本,以根據(jù)所映射到的狀態(tài)碼本進(jìn)行用戶分析。通過狀態(tài)碼本的生成,可以通過狀態(tài)碼本實(shí)現(xiàn)標(biāo)準(zhǔn)化、統(tǒng)一化、低維度的用戶狀態(tài)表示,將狀態(tài)碼本作為深度用戶分析的統(tǒng)一基準(zhǔn),再將待處理的用戶數(shù)據(jù)進(jìn)行降維和歸一化處理,將多維且維度信息稀疏的用戶數(shù)據(jù)處理成為便于分析的數(shù)據(jù),再將該處理后的用戶數(shù)據(jù)映射到一個(gè)狀態(tài)碼本,通過該映射到狀態(tài)碼本即可實(shí)現(xiàn)用戶分析,大大提高了用戶數(shù)據(jù)的處理效果。
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖I為本發(fā)明實(shí)施例提供的一種用戶數(shù)據(jù)處理方法流程圖2為本發(fā)明實(shí)施例提供的另一種用戶數(shù)據(jù)處理方法流程圖3為本發(fā)明實(shí)施例提供的一種用戶數(shù)據(jù)處理裝置結(jié)構(gòu)示意圖4為本發(fā)明實(shí)施例提供的另一種用戶數(shù)據(jù)處理裝置結(jié)構(gòu)示意圖。
具體實(shí)施方式
圖I為本發(fā)明實(shí)施例提供的一種用戶數(shù)據(jù)處理方法流程圖。如圖I所示,本實(shí)施例提供的用戶數(shù)據(jù)處理方法具體可以應(yīng)用于對運(yùn)營商收集到的用戶數(shù)據(jù)進(jìn)行處理,可以通過用戶數(shù)據(jù)處理裝置來執(zhí)行,該用戶數(shù)據(jù)處理裝置可以通過軟和/或硬件的方式來實(shí)現(xiàn)。
本實(shí)施例提供的用戶數(shù)據(jù)處理方法具體包括
步驟10、獲取多個(gè)用戶樣本數(shù)據(jù),對多個(gè)用戶樣本數(shù)據(jù)分別進(jìn)行降維處理,對多個(gè)降維處理后的用戶樣本數(shù)據(jù)進(jìn)行訓(xùn)練,生成多個(gè)狀態(tài)碼本;
具體地,用戶樣本數(shù)據(jù)具體為采集到的用戶歷史數(shù)據(jù),獲取到的用戶樣本數(shù)據(jù)可以為以用戶和時(shí)間進(jìn)行標(biāo)識(shí)的一維向量數(shù)據(jù),該用戶樣本數(shù)據(jù)具體包括多個(gè)維度,維度信息具體可以包括用戶基本信息、客戶信息、帳戶信息、產(chǎn)品信息、社會(huì)信息、愛好偏好、使用信息、接觸信息、繳費(fèi)信息、欠費(fèi)信息等等。以訂購業(yè)務(wù)為例,用戶樣本數(shù)據(jù)所包括的維度信息為訂購實(shí)例標(biāo)識(shí),年,月,省分,地區(qū),入網(wǎng)地市,客戶標(biāo)識(shí),客戶類型,客戶分級標(biāo)識(shí),證件類型,證件號(hào)碼,賬戶標(biāo)識(shí),業(yè)務(wù)類型,品牌,主產(chǎn)品標(biāo)識(shí),訂購實(shí)例狀態(tài),付費(fèi)方式,城鄉(xiāng)類型,發(fā)展人,渠道標(biāo)識(shí),渠道類型,入網(wǎng)方式,接入號(hào)碼,在網(wǎng)時(shí)長,停機(jī)時(shí)長,是否本期新發(fā)展,是否本期新增,終端型號(hào),集團(tuán)標(biāo)識(shí),首次通話時(shí)間,上期是否出賬,是否零通話,是否互轉(zhuǎn),是否上網(wǎng),是否短信,訂單標(biāo)識(shí),業(yè)務(wù)類型,預(yù)付費(fèi)標(biāo)識(shí),銷售號(hào)碼,終端設(shè)備型號(hào),終端設(shè)備品牌,擔(dān)保類型,預(yù)約號(hào)碼,預(yù)約日期,營業(yè)廳標(biāo)識(shí),增值業(yè)務(wù)類型,增值業(yè)務(wù)發(fā)展人,增值業(yè)務(wù)發(fā)展渠道標(biāo)識(shí),首次使用時(shí)間,是否體驗(yàn),是否重復(fù)體驗(yàn),出賬費(fèi)用,基本月租,套餐月租,其它月租,(分層級費(fèi)用項(xiàng),常用約100項(xiàng))移動(dòng)業(yè)務(wù)使用情況(分層級業(yè)務(wù)使用情況, 時(shí)長/次數(shù)等,常用約100-200項(xiàng)),固話業(yè)務(wù)使用情況(約50項(xiàng)),流量/互聯(lián)網(wǎng)/短信/增值業(yè)務(wù)等使用情況,初始信用度,臨時(shí)信用度,當(dāng)前信用度,等等。由此可見,用戶樣本數(shù)據(jù)涉及到很多維度,但是并不是所有的維度信息都是有用的。
用戶樣本數(shù)據(jù)的數(shù)量可以根據(jù)實(shí)際的需要來設(shè)置,例如可以為幾百到幾千個(gè)。用戶樣本數(shù)據(jù)的數(shù)量越多,依此為基礎(chǔ)生成的狀態(tài)碼本越能反映用戶狀況,但是相對處理過程就越復(fù)雜,處理時(shí)間較長。
具體可以根據(jù)用戶分析需要對用戶樣本數(shù)據(jù)進(jìn)行降維處理,可以通過特征選擇或奇異值分接等方法將冗余的或者不重要的維度信息刪除或者合并,在保留最大區(qū)分度信息的前提下,降低向量維度,即降低用戶樣本數(shù)據(jù)的維度。例如若從業(yè)務(wù)角度考慮用戶分析需求,降維、歸一化和碼本化的目的是進(jìn)行通用的數(shù)據(jù)挖掘和監(jiān)控,因此對于年、月、證件類型、證件號(hào)碼、訂單標(biāo)識(shí)、預(yù)約號(hào)碼、發(fā)展人等人員信息、以及細(xì)粒度的數(shù)據(jù)(如細(xì)化費(fèi)用項(xiàng)) 等信息并不關(guān)注,可以刪除,或匯總到更高層級,需要時(shí)再追溯相關(guān)粒度數(shù)據(jù)。若從技術(shù)角度考慮用戶分析需求,則更多地是從數(shù)據(jù)自身層面進(jìn)行選擇、歸并,以達(dá)到降維的目的。完整的向量可能長達(dá)800-1000維,可以按其原始分組(如使用信息)進(jìn)行組內(nèi)的特征篩選(降維)。需要將相關(guān)維度數(shù)字化,如統(tǒng)一轉(zhuǎn)化為0-100之間的數(shù)字,然后采用特征選擇算法,按預(yù)期的維度長度(如設(shè)定為50維)獲得降維后的結(jié)果。具體地,對所有的用戶樣本數(shù)據(jù)采用相同的降維處理方法,以保證降維處理后的用戶樣本數(shù)據(jù)的對應(yīng)性。
再對多個(gè)降維處理后的用戶樣本數(shù)據(jù)進(jìn)行訓(xùn)練,生成多個(gè)狀態(tài)碼本,對用戶樣本數(shù)據(jù)的訓(xùn)練具體可以采用聚類算法,如最近鄰聚類算法、k-means算法或K-Medioids算法等,也可以采用分類算法,如基于信息熵的分類算法或決策樹算法等,也可以既采用聚類算法又采用分類算法對降維后的用戶樣本數(shù)據(jù)進(jìn)行訓(xùn)練。狀態(tài)碼本具體為表示用戶狀態(tài)的標(biāo)準(zhǔn)化、低維度的向量,用以表示用戶在某一時(shí)間段或時(shí)點(diǎn)的狀態(tài)??梢允褂靡粋€(gè)有限的狀態(tài)碼本集合來建立用戶特定時(shí)間段/時(shí)點(diǎn)的標(biāo)準(zhǔn)化狀態(tài),可以將多個(gè)狀態(tài)碼本形成狀態(tài)碼本序列U= (ul,u2,…,皿),例如,將用戶一年中12個(gè)月的狀態(tài)碼本形成狀態(tài)碼本序列,則n=12o
以下具體對狀態(tài)碼本的形式進(jìn)行說明,例如
碼本1: (3,20,50,5,8,......)
碼本2 :(10,20,50,10,20,......)
......
碼本N : (100,80,90,100,100,......)
步驟20、將待處理的用戶數(shù)據(jù)進(jìn)行降維處理,將降維處理后的用戶數(shù)據(jù)進(jìn)行歸一化處理,將歸一化處理后的用戶數(shù)據(jù)映射到多個(gè)狀態(tài)碼本中的一個(gè)狀態(tài)碼本,以根據(jù)所映射到的狀態(tài)碼本進(jìn)行用戶分析。
待處理的用戶數(shù)據(jù)具體需要分析的用戶對應(yīng)的用戶數(shù)據(jù),該用戶數(shù)據(jù)具體也可以為通過時(shí)間進(jìn)行標(biāo)識(shí)的一維向量數(shù)據(jù),也可以為該用戶某個(gè)時(shí)間段的數(shù)據(jù)。當(dāng)用戶數(shù)據(jù)為某個(gè)時(shí)間段的數(shù)據(jù),則可以根據(jù)分析需要將該時(shí)間段分成多個(gè)時(shí)間片,再根據(jù)時(shí)間片對用戶數(shù)據(jù)進(jìn)行劃分,以生成多個(gè)一維向量數(shù)據(jù)。將待處理的用戶數(shù)據(jù)進(jìn)行降維處理,該降維處理所采用的方法具體可以與對用戶樣本數(shù)據(jù)進(jìn)行降維處理時(shí)所采用的方法相同。將降維處理后的用戶數(shù)據(jù)進(jìn)行歸一化處理,以使用戶數(shù)據(jù)的維度信息具有可比對性。將歸一化處理后的用戶數(shù)據(jù)映射到多個(gè)狀態(tài)碼本中的一個(gè)狀態(tài)碼本,可以采用預(yù)設(shè)映射標(biāo)準(zhǔn)進(jìn)行映射處理,該預(yù)設(shè)映射標(biāo)準(zhǔn)具體與訓(xùn)練生成狀態(tài)碼本時(shí)采用的方法相對應(yīng),以使歸一化處理后的用戶數(shù)據(jù)可以正確地映射到唯一的狀態(tài)碼本上。在碼本訓(xùn)練過程中使用了歸一化方案,在識(shí)別/使用中,實(shí)際數(shù)據(jù)/測試數(shù)據(jù)要采用相同的處理過程,才能與碼本進(jìn)行匹配。如,將所有維度統(tǒng)一轉(zhuǎn)換為0-100之間的數(shù)字,具體方式可以根據(jù)數(shù)據(jù)特點(diǎn)進(jìn)行選擇,如狀態(tài)(是 /否),可以轉(zhuǎn)換為100和0,通話時(shí)長可以按分布情況,將其映射到0-100之間,如O分鐘映射為O,2000分 鐘以上映射為100,中間可以分段映射??梢宰鼍€性映射,也可以做非線性映射,以便將相關(guān)維度轉(zhuǎn)換到特定的數(shù)值范圍內(nèi)。
則可以根據(jù)所映射到的狀態(tài)碼本進(jìn)行用戶分析,如分群、預(yù)警或其他行為預(yù)測類分析等。
本實(shí)施例提供的用戶數(shù)據(jù)處理方法,獲取多個(gè)用戶樣本數(shù)據(jù),對多個(gè)用戶樣本數(shù)據(jù)分別進(jìn)行降維處理,對多個(gè)降維處理后的用戶樣本數(shù)據(jù)進(jìn)行訓(xùn)練,生成多個(gè)狀態(tài)碼本,將待處理的用戶數(shù)據(jù)進(jìn)行降維處理,將降維處理后的用戶數(shù)據(jù)進(jìn)行歸一化處理,將歸一化處理后的用戶數(shù)據(jù)映射到多個(gè)狀態(tài)碼本中的一個(gè)狀態(tài)碼本,以根據(jù)所映射到的狀態(tài)碼本進(jìn)行用戶分析。通過狀態(tài)碼本的生成,可以通過狀態(tài)碼本實(shí)現(xiàn)標(biāo)準(zhǔn)化、統(tǒng)一化、低維度的用戶狀態(tài)表示,將狀態(tài)碼本作為深度用戶分析的統(tǒng)一基準(zhǔn),再將待處理的用戶數(shù)據(jù)進(jìn)行降維和歸一化處理,將多維且維度信息稀疏的用戶數(shù)據(jù)處理成為便于分析的數(shù)據(jù),再將該處理后的用戶數(shù)據(jù)映射到一個(gè)狀態(tài)碼本,通過該映射到狀態(tài)碼本即可實(shí)現(xiàn)用戶分析,大大提高了用戶數(shù)據(jù)的處理效果。
圖2為本發(fā)明實(shí)施例提供的另一種用戶數(shù)據(jù)處理方法流程圖。如圖2所示,在本實(shí)施例中,步驟10中的,對多個(gè)降維處理后的用戶樣本數(shù)據(jù)進(jìn)行訓(xùn)練,生成多個(gè)狀態(tài)碼本, 具體可以包括如下步驟
將多個(gè)降維處理后的用戶樣本數(shù)據(jù)進(jìn)行分類處理,將多個(gè)分類處理后的用戶樣本數(shù)據(jù)進(jìn)行聚類處理,生成多個(gè)狀態(tài)碼本。
在本實(shí)施例中,步驟20中的,將待處理的用戶數(shù)據(jù)進(jìn)行降維處理,將降維處理后的用戶數(shù)據(jù)進(jìn)行歸一化處理,具體可以包括如下步驟
若判斷獲知待處理的用戶數(shù)據(jù)為一定時(shí)間段內(nèi)的用戶數(shù)據(jù),則將一定時(shí)間段劃分為至少兩個(gè)時(shí)間片,將待處理的用戶數(shù)據(jù)劃分為分別對應(yīng)至少兩個(gè)時(shí)間片中每個(gè)時(shí)間片的時(shí)間維度向量,將每個(gè)時(shí)間維度向量進(jìn)行降維處理,將每個(gè)降維處理后的時(shí)間維度向量進(jìn)行量化處理和歸一化處理。
當(dāng)待處理的用戶數(shù)據(jù)為一定時(shí)間段的用戶數(shù)據(jù),則按照該時(shí)間段所包含的時(shí)間片對該用戶數(shù)據(jù)進(jìn)行劃分,以降低用戶數(shù)據(jù)的復(fù)雜性。而且,通過時(shí)間片對用戶數(shù)據(jù)進(jìn)行劃分,為對用戶狀態(tài)變化監(jiān)控提供基礎(chǔ)。
將待處理的用戶數(shù)據(jù)劃分為分別對應(yīng)至少兩個(gè)時(shí)間片中每個(gè)時(shí)間片的時(shí)間維度向量,即每個(gè)時(shí)間片對應(yīng)一個(gè)時(shí)間維度向量,將每個(gè)時(shí)間維度向量進(jìn)行降維處理,再將每個(gè)降維處理后的時(shí)間維度向量進(jìn)行量化處理和歸一化處理,當(dāng)時(shí)間維度向量中包含的維度信息為非定量數(shù)據(jù)時(shí),對該維度信息進(jìn)行量化處理,有利于提高維度向量的可處理性。
在本實(shí)施例中,步驟20中的,將歸一化處理后的用戶數(shù)據(jù)映射到多個(gè)狀態(tài)碼本中的一個(gè)狀態(tài)碼本之后,具體還可以包括如下步驟
步驟30、獲取同一用戶的用戶數(shù)據(jù)所映射到的至少一個(gè)狀態(tài)碼本和用戶的至少一個(gè)用戶狀態(tài),根據(jù)至少一個(gè)狀態(tài)碼本與至少一個(gè)用戶狀態(tài)生成狀態(tài)變更映射關(guān)系,根據(jù)狀態(tài)變更映射關(guān)系對用戶進(jìn)行狀態(tài)監(jiān)控。
同一用戶在一段時(shí)間內(nèi)的用戶數(shù)據(jù)可能映射到多個(gè)狀態(tài)碼本,而在這段時(shí)間內(nèi), 用戶可能具有多個(gè)用戶狀態(tài),則形成狀態(tài)碼本與用戶狀態(tài)的狀態(tài)變更映射關(guān)系,以通過該狀態(tài)變更映射關(guān)系發(fā)現(xiàn)異常,實(shí)現(xiàn)對用戶進(jìn)行狀態(tài)監(jiān)測,對于幅度較大的用戶狀態(tài)波動(dòng),可以根據(jù)該波動(dòng)具體分析運(yùn)營中所存在的問題。狀態(tài)變更映射關(guān)系具體可以采用馬爾科夫模型或有限狀態(tài)機(jī)來實(shí)現(xiàn)。
在本實(shí)施例中,步驟20中的,將歸一化處理后的用戶數(shù)據(jù)映射到多個(gè)狀態(tài)碼本中的一個(gè)狀態(tài)碼本之后,具體還可以包括如下步驟
根據(jù)所映射到的狀態(tài)碼本進(jìn)行用戶分析,其中,用戶分析所采用的分析方法包括以下至少一種聚類、分類和關(guān)聯(lián)分析。
用戶分析具體可以包括用戶分群、精細(xì)化營銷、離網(wǎng)預(yù)警、原因探查和行為預(yù)測等,可以根據(jù)具體的分析需求采用相應(yīng)的分析方法。
圖3為本發(fā)明實(shí)施例提供的一種用戶數(shù)據(jù)處理裝置結(jié)構(gòu)示意圖。如圖3所示,本實(shí)施例提供的用戶數(shù)據(jù)處理裝置具體可以實(shí)現(xiàn)本發(fā)明任意實(shí)施例提供的用戶數(shù)據(jù)處理方法的各個(gè)步驟,在此不再贅述。本實(shí)施例提供的用戶數(shù)據(jù)處理裝置具體圖包括狀態(tài)碼本生成模塊11和處理模塊12。狀態(tài)碼本生成模塊11用于獲取多個(gè)用戶樣本數(shù)據(jù),對多個(gè)用戶樣本數(shù)據(jù)分別進(jìn)行降維處理,對多個(gè)降維處理后的用戶樣本數(shù)據(jù)進(jìn)行訓(xùn)練,生成多個(gè)狀態(tài)碼本。處理模塊12用于將待處理的用戶數(shù)據(jù)進(jìn)行降維處理,將降維處理后的用戶數(shù)據(jù)進(jìn)行歸一化處理,將歸一化處理后的用戶數(shù)據(jù)映射到多個(gè)狀態(tài)碼本中的一個(gè)狀態(tài)碼本,以根據(jù)所映射到的狀態(tài)碼本進(jìn)行用戶分析。
本實(shí)施例提供的用戶數(shù)據(jù)處理裝置,狀態(tài)碼本生成模塊11獲取多個(gè)用戶樣本數(shù)據(jù),對多個(gè)用戶樣本數(shù)據(jù)分別進(jìn)行降維處理,對多個(gè)降維處理后的用戶樣本數(shù)據(jù)進(jìn)行訓(xùn)練, 生成多個(gè)狀態(tài)碼本。處理模塊12將待處理的用戶數(shù)據(jù)進(jìn)行降維處理,將降維處理后的用戶數(shù)據(jù)進(jìn)行歸一化處理,將歸一化處理后的用戶數(shù)據(jù)映射到多個(gè)狀態(tài)碼本中的一個(gè)狀態(tài)碼本,以根據(jù)所映射到的狀態(tài)碼本進(jìn)行用戶分析。通過狀態(tài)碼本的生成,可以通過狀態(tài)碼本實(shí)現(xiàn)標(biāo)準(zhǔn)化、統(tǒng)一化、低維度的用戶狀態(tài)表示,將狀態(tài)碼本作為深度用戶分析的統(tǒng)一基準(zhǔn),再將待處理的用戶數(shù)據(jù)進(jìn)行降維和歸一化處理,將多維且維度信息稀疏的用戶數(shù)據(jù)處理成為便于分析的數(shù)據(jù),再將該處理后的用戶數(shù)據(jù)映射到一個(gè)狀態(tài)碼本,通過該映射到狀態(tài)碼本即可實(shí)現(xiàn)用戶分析,大大提高了用戶數(shù)據(jù)的處理效果。
圖4為本發(fā)明實(shí)施例提供的另一種用戶數(shù)據(jù)處理裝置結(jié)構(gòu)示意圖。如圖4所示, 在本實(shí)施例中,狀態(tài)碼本生成模塊11還可以用于將多個(gè)降維處理后的用戶樣本數(shù)據(jù)進(jìn)行分類處理,將多個(gè)分類處理后的用戶樣本數(shù)據(jù)進(jìn)行聚類處理,生成多個(gè)狀態(tài)碼本。
在本實(shí)施例中,處理模塊12還用于若判斷獲知待處理的用戶數(shù)據(jù)為一定時(shí)間段內(nèi)的用戶數(shù)據(jù),則將一定時(shí)間段劃分為至少兩個(gè)時(shí)間片,將待處理的用戶數(shù)據(jù)劃分為分別對應(yīng)至少兩個(gè)時(shí)間片中每個(gè)時(shí)間片的時(shí)間維度向量,將每個(gè)時(shí)間維度向量進(jìn)行降維處理, 將每個(gè)降維處理后的時(shí)間維度向量進(jìn)行量化處理和歸一化處理。
當(dāng)待處理的用戶數(shù)據(jù)為一定時(shí)間段的用戶數(shù)據(jù),則按照該時(shí)間段所包含的時(shí)間片對該用戶數(shù)據(jù)進(jìn)行劃分,以降低用戶數(shù)據(jù)的復(fù)雜性。而且,通過時(shí)間片對用戶數(shù)據(jù)進(jìn)行劃分,為對用戶狀態(tài)變化監(jiān)控提供基礎(chǔ)。
將待處理的用戶數(shù)據(jù)劃分為分別對應(yīng)至少兩個(gè)時(shí)間片中每個(gè)時(shí)間片的時(shí)間維度向量,即每個(gè)時(shí)間片對應(yīng)一個(gè)時(shí)間維度向量,將每個(gè)時(shí)間維度向量進(jìn)行降維處理,再將每個(gè)降維處理后的時(shí)間維度向量進(jìn)行量化處理和歸一化處理,當(dāng)時(shí)間維度向量中包含的維度信息為非定量數(shù)據(jù)時(shí),對該維度信息進(jìn)行量化處理,有利于提高維度向量的可處理性。
在本實(shí)施例中,該用戶數(shù)據(jù)處理裝置進(jìn)一步還可以包括用戶狀態(tài)監(jiān)控模塊13,用戶狀態(tài)監(jiān)控模塊13用于獲取同一用戶的用戶數(shù)據(jù)所映射到的至少一個(gè)狀態(tài)碼本和用戶的至少一個(gè)用戶狀態(tài),根據(jù)至少一個(gè)狀態(tài)碼本與至少一個(gè)用戶狀態(tài)生成狀態(tài)變更映射關(guān)系, 根據(jù)狀態(tài)變更映射關(guān)系對用戶進(jìn)行狀態(tài)監(jiān)控。
實(shí)現(xiàn)對用戶進(jìn)行狀態(tài)監(jiān)測,對于幅度較大的用戶狀態(tài)波動(dòng),可以根據(jù)該波動(dòng)具體分析運(yùn)營中所存在的問題。
在本實(shí)施例中,該用戶數(shù)據(jù)處理裝置進(jìn)一步還可以包括分析模塊14,分析模塊14 用于根據(jù)所映射到的狀態(tài)碼本進(jìn)行用戶分析,其中,用戶分析所采用的分析方法包括以下至少一種聚類、分類和關(guān)聯(lián)分析。
本發(fā)明實(shí)施例提供的用戶數(shù)據(jù)處理方法及裝置,通過狀態(tài)碼本的生成,提供了統(tǒng)一的標(biāo)準(zhǔn)化的用戶狀態(tài)表示,基于該標(biāo)準(zhǔn)化低維度的狀態(tài)碼本的深度分析挖掘,實(shí)現(xiàn)用戶分析以及對用戶狀態(tài)監(jiān)控,減少了基于高維度向量分析帶來的各種問題,例如高維度帶來的數(shù)據(jù)稀疏問題、過度靈活和隨意的降維造成的重復(fù)加工、重復(fù)、耗時(shí)問題、深度分析缺乏統(tǒng)一的數(shù)據(jù)基準(zhǔn)等問題,大大提高了用戶數(shù)據(jù)的處理效果。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述方法實(shí)施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成,前述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),執(zhí)行包括上述方法實(shí)施例的步驟;而前述的存儲(chǔ)介質(zhì)包括R0M、RAM、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
最后應(yīng)說明的是以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解其依然可以對前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍。
權(quán)利要求
1.一種用戶數(shù)據(jù)處理方法,其特征在于,包括 獲取多個(gè)用戶樣本數(shù)據(jù),對所述多個(gè)用戶樣本數(shù)據(jù)分別進(jìn)行降維處理,對多個(gè)降維處理后的用戶樣本數(shù)據(jù)進(jìn)行訓(xùn)練,生成多個(gè)狀態(tài)碼本; 將待處理的用戶數(shù)據(jù)進(jìn)行降維處理,將降維處理后的用戶數(shù)據(jù)進(jìn)行歸一化處理,將歸一化處理后的用戶數(shù)據(jù)映射到所述多個(gè)狀態(tài)碼本中的一個(gè)狀態(tài)碼本,以根據(jù)所映射到的狀態(tài)碼本進(jìn)行用戶分析。
2.根據(jù)權(quán)利要求I所述的用戶數(shù)據(jù)處理方法,其特征在于,對多個(gè)降維處理后的用戶樣本數(shù)據(jù)進(jìn)行訓(xùn)練,生成多個(gè)狀態(tài)碼本,包括 將所述多個(gè)降維處理后的用戶樣本數(shù)據(jù)進(jìn)行分類處理,將多個(gè)分類處理后的用戶樣本數(shù)據(jù)進(jìn)行聚類處理,生成所述多個(gè)狀態(tài)碼本。
3.根據(jù)權(quán)利要求I所述的用戶數(shù)據(jù)處理方法,其特征在于,將待處理的用戶數(shù)據(jù)進(jìn)行降維處理,將降維處理后的用戶數(shù)據(jù)進(jìn)行歸一化處理,包括 若判斷獲知所述待處理的用戶數(shù)據(jù)為一定時(shí)間段內(nèi)的用戶數(shù)據(jù),則將所述一定時(shí)間段劃分為至少兩個(gè)時(shí)間片,將所述待處理的用戶數(shù)據(jù)劃分為分別對應(yīng)所述至少兩個(gè)時(shí)間片中每個(gè)時(shí)間片的時(shí)間維度向量,將每個(gè)時(shí)間維度向量進(jìn)行降維處理,將每個(gè)降維處理后的時(shí)間維度向量進(jìn)行量化處理和歸一化處理。
4.根據(jù)權(quán)利要求3所述的用戶數(shù)據(jù)處理方法,其特征在于,將歸一化處理后的用戶數(shù)據(jù)映射到所述多個(gè)狀態(tài)碼本中的一個(gè)狀態(tài)碼本之后,還包括 獲取同一用戶的用戶數(shù)據(jù)所映射到的至少一個(gè)狀態(tài)碼本和所述用戶的至少一個(gè)用戶狀態(tài),根據(jù)所述至少一個(gè)狀態(tài)碼本與所述至少一個(gè)用戶狀態(tài)生成狀態(tài)變更映射關(guān)系,根據(jù)所述狀態(tài)變更映射關(guān)系對所述用戶進(jìn)行狀態(tài)監(jiān)控。
5.根據(jù)權(quán)利要求I所述的用戶數(shù)據(jù)處理方法,其特征在于,將歸一化處理后的用戶數(shù)據(jù)映射到所述多個(gè)狀態(tài)碼本中的一個(gè)狀態(tài)碼本之后,還包括 根據(jù)所映射到的狀態(tài)碼本進(jìn)行用戶分析,其中,所述用戶分析所采用的分析方法包括以下至少一種聚類、分類和關(guān)聯(lián)分析。
6.一種用戶數(shù)據(jù)處理裝置,其特征在于,包括 狀態(tài)碼本生成模塊,用于獲取多個(gè)用戶樣本數(shù)據(jù),對所述多個(gè)用戶樣本數(shù)據(jù)分別進(jìn)行降維處理,對多個(gè)降維處理后的用戶樣本數(shù)據(jù)進(jìn)行訓(xùn)練,生成多個(gè)狀態(tài)碼本; 處理模塊,用于將待處理的用戶數(shù)據(jù)進(jìn)行降維處理,將降維處理后的用戶數(shù)據(jù)進(jìn)行歸一化處理,將歸一化處理后的用戶數(shù)據(jù)映射到所述多個(gè)狀態(tài)碼本中的一個(gè)狀態(tài)碼本,以根據(jù)所映射到的狀態(tài)碼本進(jìn)行用戶分析。
7.根據(jù)權(quán)利要求6所述的用戶數(shù)據(jù)處理裝置,其特征在于所述狀態(tài)碼本生成模塊還用于將所述多個(gè)降維處理后的用戶樣本數(shù)據(jù)進(jìn)行分類處理,將多個(gè)分類處理后的用戶樣本數(shù)據(jù)進(jìn)行聚類處理,生成所述多個(gè)狀態(tài)碼本。
8.根據(jù)權(quán)利要求6所述的用戶數(shù)據(jù)處理裝置,其特征在于所述處理模塊還用于若判斷獲知所述待處理的用戶數(shù)據(jù)為一定時(shí)間段內(nèi)的用戶數(shù)據(jù),則將所述一定時(shí)間段劃分為至少兩個(gè)時(shí)間片,將所述待處理的用戶數(shù)據(jù)劃分為分別對應(yīng)所述至少兩個(gè)時(shí)間片中每個(gè)時(shí)間片的時(shí)間維度向量,將每個(gè)時(shí)間維度向量進(jìn)行降維處理,將每個(gè)降維處理后的時(shí)間維度向量進(jìn)行量化處理和歸一化處理。
9.根據(jù)權(quán)利要求8所述的用戶數(shù)據(jù)處理裝置,其特征在于,還包括 用戶狀態(tài)監(jiān)控模塊,用于獲取同一用戶的用戶數(shù)據(jù)所映射到的至少一個(gè)狀態(tài)碼本和所述用戶的至少一個(gè)用戶狀態(tài),根據(jù)所述至少一個(gè)狀態(tài)碼本與所述至少一個(gè)用戶狀態(tài)生成狀態(tài)變更映射關(guān)系,根據(jù)所述狀態(tài)變更映射關(guān)系對所述用戶進(jìn)行狀態(tài)監(jiān)控。
10.根據(jù)權(quán)利要求6所述的用戶數(shù)據(jù)處理裝置,其特征在于,還包括 分析模塊,用于根據(jù)所映射到的狀態(tài)碼本進(jìn)行用戶分析,其中,所述用戶分析所采用的分析方法包括以下至少一種聚類、分類和關(guān)聯(lián)分析。
全文摘要
本發(fā)明提供一種用戶數(shù)據(jù)處理方法及裝置,該用戶數(shù)據(jù)處理方法包括獲取多個(gè)用戶樣本數(shù)據(jù),對多個(gè)用戶樣本數(shù)據(jù)分別進(jìn)行降維處理,對多個(gè)降維處理后的用戶樣本數(shù)據(jù)進(jìn)行訓(xùn)練,生成多個(gè)狀態(tài)碼本;將待處理的用戶數(shù)據(jù)進(jìn)行降維處理,將降維處理后的用戶數(shù)據(jù)進(jìn)行歸一化處理,將歸一化處理后的用戶數(shù)據(jù)映射到多個(gè)狀態(tài)碼本中的一個(gè)狀態(tài)碼本,以根據(jù)所映射到的狀態(tài)碼本進(jìn)行用戶分析。本發(fā)明提供的用戶數(shù)據(jù)處理方法及裝置,通過狀態(tài)碼本實(shí)現(xiàn)標(biāo)準(zhǔn)化、統(tǒng)一化、低維度的用戶狀態(tài)表示,將狀態(tài)碼本作為深度用戶分析的統(tǒng)一基準(zhǔn),大大提高了用戶數(shù)據(jù)的處理效果。
文檔編號(hào)G06F17/30GK102982077SQ20121042543
公開日2013年3月20日 申請日期2012年10月30日 優(yōu)先權(quán)日2012年10月30日
發(fā)明者李凈, 張?jiān)朴? 王志山, 童曉渝 申請人:中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司