本申請(qǐng)涉及數(shù)據(jù)管理技術(shù)領(lǐng)域,更具體地說(shuō),涉及一種數(shù)據(jù)管理方法及裝置。
背景技術(shù):
客戶流失,是指由于各種原因所導(dǎo)致的客戶與企業(yè)終止合作的情況。就銀行業(yè)而言,客戶在一定時(shí)間內(nèi)不再發(fā)生主動(dòng)交易,甚至注銷服務(wù),均可視為客戶流失。
客戶流失對(duì)企業(yè)會(huì)帶來(lái)?yè)p失。以信用卡為例,它是當(dāng)今發(fā)展最快的一項(xiàng)金融業(yè)務(wù)之一,作為一種可在一定范圍內(nèi)替代傳統(tǒng)現(xiàn)金流通的電子貨幣,有著廣闊的發(fā)展前景,是各金融機(jī)構(gòu)的營(yíng)銷熱點(diǎn)。然而,在信用卡用戶不斷新增的同時(shí),老信用卡用戶也在不斷流失。這些客戶有些已經(jīng)超過(guò)6個(gè)月以上沒有發(fā)生任何主動(dòng)交易,有些甚至已沒有有效的貸記卡。吸引一個(gè)新用戶,固然可以擴(kuò)大用戶群體,刺激消費(fèi),相應(yīng)的增加收入。但是,吸引一個(gè)新客戶的成本遠(yuǎn)比挽留一名老客戶、延長(zhǎng)客戶的生命周期要高得多。
因此,本申請(qǐng)?zhí)峁┮环N數(shù)據(jù)管理方法及裝置,以減少客戶流失,是亟待解決的問題。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本申請(qǐng)實(shí)施例提供一種數(shù)據(jù)管理方法及裝置,通過(guò)對(duì)客戶流失進(jìn)行預(yù)測(cè)、分群以及挽留的方式,減少客戶流失現(xiàn)象。
為了實(shí)現(xiàn)上述目的,現(xiàn)提出的方案如下:
一種數(shù)據(jù)管理方法,包括:
接收數(shù)據(jù)管理請(qǐng)求,所述數(shù)據(jù)管理請(qǐng)求中攜帶待預(yù)測(cè)用戶集;
利用預(yù)先設(shè)置的客戶流失預(yù)測(cè)模型,分別對(duì)所述待預(yù)測(cè)用戶集中的每個(gè)待預(yù)測(cè)用戶進(jìn)行客戶流失預(yù)測(cè),得到目標(biāo)用戶集;所述目標(biāo)用戶集中包括所述待預(yù)測(cè)用戶集中的所有的目標(biāo)用戶,其中,所述目標(biāo)用戶進(jìn)行客戶流失預(yù)測(cè)的結(jié)果指示所述目標(biāo)用戶為預(yù)流失客戶;
利用預(yù)先設(shè)置的聚類算法對(duì)所述目標(biāo)用戶集中的所有目標(biāo)用戶進(jìn)行分群,得到至少一個(gè)含有特定用戶特征的目標(biāo)用戶群;
針對(duì)每個(gè)所述目標(biāo)用戶群,利用與所述目標(biāo)用戶群對(duì)應(yīng)的挽留策略,對(duì)所述目標(biāo)用戶群中的目標(biāo)用戶進(jìn)行挽留。
優(yōu)選的,所述利用與所述目標(biāo)用戶群對(duì)應(yīng)的挽留策略,對(duì)所述目標(biāo)用戶群中的目標(biāo)用戶進(jìn)行挽留包括:
獲取與所述目標(biāo)用戶群對(duì)應(yīng)的挽留策略;
響應(yīng)選擇操作,從所述目標(biāo)用戶群中確定與所述選擇操作對(duì)應(yīng)的待挽留目標(biāo)用戶群;
按照所述挽留策略,對(duì)所述待挽留目標(biāo)用戶群中的各個(gè)目標(biāo)用戶進(jìn)行挽留。
優(yōu)選的,還包括:
判斷當(dāng)前時(shí)間與對(duì)所述待挽留目標(biāo)用戶群中的各個(gè)目標(biāo)用戶進(jìn)行挽留的時(shí)間之間的時(shí)間間隔是否滿足預(yù)設(shè)時(shí)間閾值;
當(dāng)是時(shí),統(tǒng)計(jì)所述待挽留目標(biāo)用戶群中的流失客戶數(shù)量;
根據(jù)所述流失客戶數(shù)量以及所述待挽留目標(biāo)用戶群中的目標(biāo)用戶數(shù)量,計(jì)算所述待挽留目標(biāo)用戶群所屬的目標(biāo)用戶群對(duì)應(yīng)的挽留策略的挽留成功率。
優(yōu)選的,所述客戶流失預(yù)測(cè)模型的生成過(guò)程包括:
獲取訓(xùn)練樣本集,所述訓(xùn)練樣本集中包括多個(gè)訓(xùn)練樣本,每個(gè)所述訓(xùn)練樣本包括標(biāo)記信息以及屬性信息,其中,所述標(biāo)記信息指示所述訓(xùn)練樣本為流失客戶/未流失客戶;
針對(duì)所述訓(xùn)練樣本集中的每個(gè)所述訓(xùn)練樣本,對(duì)所述訓(xùn)練樣本的屬性信息進(jìn)行數(shù)據(jù)預(yù)處理,得到目標(biāo)屬性信息;
對(duì)所述目標(biāo)屬性信息所屬的目標(biāo)屬性進(jìn)行自動(dòng)指標(biāo)篩選,得到至少一個(gè)最終目標(biāo)屬性;
針對(duì)每個(gè)所述訓(xùn)練樣本,根據(jù)所述訓(xùn)練樣本的標(biāo)記信息以及每個(gè)所述最終目標(biāo)屬性對(duì)應(yīng)的所述訓(xùn)練樣本的目標(biāo)屬性信息,利用預(yù)設(shè)模型構(gòu)建算法,構(gòu)建客戶流失預(yù)測(cè)模型。
優(yōu)選的,當(dāng)所述預(yù)設(shè)模型構(gòu)建算法為決策樹算法時(shí),所述對(duì)所述訓(xùn)練樣本的屬性信息進(jìn)行數(shù)據(jù)預(yù)處理,得到目標(biāo)屬性信息包括:
確定所述訓(xùn)練樣本中的各個(gè)目標(biāo)連續(xù)屬性信息;
對(duì)各個(gè)所述目標(biāo)連續(xù)屬性信息依次進(jìn)行離散化處理、屬性變換,得到第一目標(biāo)屬性信息;
將得到的各個(gè)所述第一目標(biāo)屬性信息確定為目標(biāo)屬性信息。
優(yōu)選的,當(dāng)所述預(yù)設(shè)模型構(gòu)建算法為邏輯回歸算法時(shí),所述對(duì)所述訓(xùn)練樣本的屬性信息進(jìn)行數(shù)據(jù)預(yù)處理,得到目標(biāo)屬性信息包括:
確定所述訓(xùn)練樣本中的各個(gè)目標(biāo)連續(xù)屬性信息;
對(duì)各個(gè)所述目標(biāo)連續(xù)屬性信息依次進(jìn)行離散化處理、屬性變換,得到第一目標(biāo)屬性信息;
確定所述訓(xùn)練樣本中的各個(gè)類別類屬性信息;
對(duì)各個(gè)所述類別類屬性信息進(jìn)行二元化處理,得到第二目標(biāo)屬性信息;
將得到的各個(gè)所述第一目標(biāo)屬性信息和第二目標(biāo)屬性信息確定為目標(biāo)屬性信息。
一種數(shù)據(jù)管理裝置,包括:
數(shù)據(jù)管理請(qǐng)求接收單元,用于接收數(shù)據(jù)管理請(qǐng)求,所述數(shù)據(jù)管理請(qǐng)求中攜帶待預(yù)測(cè)用戶集;
客戶流失預(yù)測(cè)單元,用于利用預(yù)先設(shè)置的客戶流失預(yù)測(cè)模型,分別對(duì)所述待預(yù)測(cè)用戶集中的每個(gè)待預(yù)測(cè)用戶進(jìn)行客戶流失預(yù)測(cè),得到目標(biāo)用戶集;所述目標(biāo)用戶集中包括所述待預(yù)測(cè)用戶集中的所有的目標(biāo)用戶,其中,所述目標(biāo)用戶進(jìn)行客戶流失預(yù)測(cè)的結(jié)果指示所述目標(biāo)用戶為預(yù)流失客戶;
目標(biāo)用戶分群?jiǎn)卧?,用于利用預(yù)先設(shè)置的聚類算法對(duì)所述目標(biāo)用戶集中的所有目標(biāo)用戶進(jìn)行分群,得到至少一個(gè)含有特定用戶特征的目標(biāo)用戶群;
挽留單元,用于針對(duì)每個(gè)所述目標(biāo)用戶群,利用與所述目標(biāo)用戶群對(duì)應(yīng)的挽留策略,對(duì)所述目標(biāo)用戶群中的目標(biāo)用戶進(jìn)行挽留。
優(yōu)選的,所述挽留單元包括:
挽留策略獲取單元,用于獲取與所述目標(biāo)用戶群對(duì)應(yīng)的挽留策略;
待挽留目標(biāo)用戶群確定單元,用于響應(yīng)選擇操作,從所述目標(biāo)用戶群中確定與所述選擇操作對(duì)應(yīng)的待挽留目標(biāo)用戶群;
挽留子單元,用于按照所述挽留策略,對(duì)所述待挽留目標(biāo)用戶群中的各個(gè)目標(biāo)用戶進(jìn)行挽留。
優(yōu)選的,還包括:
挽留成功率計(jì)算單元,用于判斷當(dāng)前時(shí)間與對(duì)所述待挽留目標(biāo)用戶群中的各個(gè)目標(biāo)用戶進(jìn)行挽留的時(shí)間之間的時(shí)間間隔是否滿足預(yù)設(shè)時(shí)間閾值;以及,當(dāng)是時(shí),統(tǒng)計(jì)所述待挽留目標(biāo)用戶群中的流失客戶數(shù)量;以及,根據(jù)所述流失客戶數(shù)量以及所述待挽留目標(biāo)用戶群中的目標(biāo)用戶數(shù)量,計(jì)算所述待挽留目標(biāo)用戶群所屬的目標(biāo)用戶群對(duì)應(yīng)的挽留策略的挽留成功率。
優(yōu)選的,還包括客戶流失預(yù)測(cè)模型生成單元,用于獲取訓(xùn)練樣本集,所述訓(xùn)練樣本集中包括多個(gè)訓(xùn)練樣本,每個(gè)所述訓(xùn)練樣本包括標(biāo)記信息以及屬性信息,其中,所述標(biāo)記信息指示所述訓(xùn)練樣本為流失客戶/未流失客戶;以及,針對(duì)所述訓(xùn)練樣本集中的每個(gè)所述訓(xùn)練樣本,對(duì)所述訓(xùn)練樣本的屬性信息進(jìn)行數(shù)據(jù)預(yù)處理,得到目標(biāo)屬性信息;以及,對(duì)所述目標(biāo)屬性信息所屬的目標(biāo)屬性進(jìn)行自動(dòng)指標(biāo)篩選,得到至少一個(gè)最終目標(biāo)屬性;以及,針對(duì)每個(gè)所述訓(xùn)練樣本,根據(jù)所述訓(xùn)練樣本的標(biāo)記信息以及每個(gè)所述最終目標(biāo)屬性對(duì)應(yīng)的所述訓(xùn)練樣本的目標(biāo)屬性信息,利用預(yù)設(shè)模型構(gòu)建算法,構(gòu)建客戶流失預(yù)測(cè)模型。
本申請(qǐng)?zhí)峁┮环N數(shù)據(jù)管理方法及裝置,通過(guò)接收攜帶待預(yù)測(cè)用戶集的數(shù)據(jù)管理請(qǐng)求,利用預(yù)先設(shè)置的客戶流失預(yù)測(cè)模型分別對(duì)待預(yù)測(cè)用戶集中的每個(gè)待預(yù)測(cè)用戶進(jìn)行客戶流失預(yù)測(cè),得到目標(biāo)用戶集,并對(duì)目標(biāo)用戶集中的所有目標(biāo)用戶進(jìn)行分群得到至少一個(gè)目標(biāo)用戶群,進(jìn)而對(duì)目標(biāo)用戶群中的目標(biāo)用戶進(jìn)行挽留的方式,實(shí)現(xiàn)了對(duì)客戶流失的預(yù)測(cè)、分群以及挽留,減少了客戶流失現(xiàn)象。
附圖說(shuō)明
為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請(qǐng)的實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
圖1為本申請(qǐng)實(shí)施例提供的一種數(shù)據(jù)管理方法流程圖;
圖2為本申請(qǐng)實(shí)施例提供的一種利用與目標(biāo)用戶群對(duì)應(yīng)的挽留策略,對(duì)目標(biāo)用戶群中的目標(biāo)用戶進(jìn)行挽留的方法流程圖;
圖3為本申請(qǐng)實(shí)施例提供的一種客戶流失預(yù)測(cè)模型的生成方法流程圖;
圖4為本申請(qǐng)實(shí)施例提供的一種對(duì)訓(xùn)練樣本的屬性信息進(jìn)行數(shù)據(jù)預(yù)處理,得到目標(biāo)屬性信息的方法流程圖;
圖5為本申請(qǐng)實(shí)施例提供的一種對(duì)訓(xùn)練樣本的屬性信息進(jìn)行數(shù)據(jù)預(yù)處理,得到目標(biāo)屬性信息的方法流程圖;
圖6為本申請(qǐng)實(shí)施例提供的一種數(shù)據(jù)管理裝置的結(jié)構(gòu)示意圖;
圖7為本申請(qǐng)實(shí)施例提供的一種挽留單元的詳細(xì)結(jié)構(gòu)示意圖;
圖8為本申請(qǐng)實(shí)施例提供的另一種數(shù)據(jù)管理裝置的結(jié)構(gòu)示意圖;
圖9為本申請(qǐng)實(shí)施例提供的又一種數(shù)據(jù)管理裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例。基于本申請(qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。
實(shí)施例:
圖1為本申請(qǐng)實(shí)施例提供的一種數(shù)據(jù)管理方法流程圖。
如圖1所示,該方法包括:
S101、接收數(shù)據(jù)管理請(qǐng)求,數(shù)據(jù)管理請(qǐng)求中攜帶待預(yù)測(cè)用戶集;
在本申請(qǐng)實(shí)施例中,優(yōu)選的,待預(yù)測(cè)用戶集中包括至少一個(gè)待預(yù)測(cè)用戶。
S102、利用預(yù)先設(shè)置的客戶流失預(yù)測(cè)模型,分別對(duì)待預(yù)測(cè)用戶集中的每個(gè)待預(yù)測(cè)用戶進(jìn)行客戶流失預(yù)測(cè),得到目標(biāo)用戶集;
在本申請(qǐng)實(shí)施例中,優(yōu)選的,目標(biāo)用戶集中包括待預(yù)測(cè)用戶集中的所有的目標(biāo)用戶。其中,目標(biāo)用戶進(jìn)行客戶流失預(yù)測(cè)的結(jié)果指示目標(biāo)用戶為預(yù)流失客戶。
在本申請(qǐng)實(shí)施例中,優(yōu)選的,客戶流失預(yù)測(cè)模型對(duì)待預(yù)測(cè)用戶進(jìn)行客戶流失預(yù)測(cè)時(shí),需要用到待預(yù)測(cè)用戶的屬性信息。因此,同樣需要數(shù)據(jù)管理請(qǐng)求中攜帶的待預(yù)測(cè)用戶集中的每個(gè)待預(yù)測(cè)用戶均攜帶客戶流失預(yù)測(cè)模型需要用到的各個(gè)最終目標(biāo)屬性信息。
S103、利用預(yù)先設(shè)置的聚類算法對(duì)目標(biāo)用戶集中的所有目標(biāo)用戶進(jìn)行分群,得到至少一個(gè)含有特定用戶特征的目標(biāo)用戶群;
S104、針對(duì)每個(gè)目標(biāo)用戶群,利用與目標(biāo)用戶群對(duì)應(yīng)的挽留策略,對(duì)目標(biāo)用戶群中的目標(biāo)用戶進(jìn)行挽留。
在本申請(qǐng)實(shí)施例中,優(yōu)選的,當(dāng)?shù)玫街辽僖粋€(gè)目標(biāo)用戶群(每個(gè)目標(biāo)用戶群中包括至少一個(gè)目標(biāo)用戶)后,可針對(duì)每個(gè)目標(biāo)用戶群,利用與該目標(biāo)用戶群對(duì)應(yīng)的挽留策略,對(duì)該目標(biāo)用戶群中的目標(biāo)用戶進(jìn)行挽留。
圖2為本申請(qǐng)實(shí)施例提供的一種利用與目標(biāo)用戶群對(duì)應(yīng)的挽留策略,對(duì)目標(biāo)用戶群中的目標(biāo)用戶進(jìn)行挽留的方法流程圖。
如圖2所示,該方法包括:
S201、獲取與目標(biāo)用戶群對(duì)應(yīng)的挽留策略;
在本申請(qǐng)實(shí)施例中,優(yōu)選的,與目標(biāo)用戶群對(duì)應(yīng)的挽留策略包括:與該目標(biāo)用戶群對(duì)應(yīng)的優(yōu)惠方案。
S202、響應(yīng)選擇操作,從目標(biāo)用戶群中確定與選擇操作對(duì)應(yīng)的待挽留目標(biāo)用戶群;
在本申請(qǐng)實(shí)施例中,優(yōu)選的,目標(biāo)用戶群中包括至少一個(gè)目標(biāo)用戶,響應(yīng)選擇操作,從目標(biāo)用戶群中確定與選擇操作對(duì)應(yīng)的待挽留目標(biāo)用戶群。其中,該待挽留目標(biāo)用戶群中包括其所屬的目標(biāo)用戶群中的所有/部分目標(biāo)用戶。
S203、按照挽留策略,對(duì)待挽留目標(biāo)用戶群中的各個(gè)目標(biāo)用戶進(jìn)行挽留。
在本申請(qǐng)實(shí)施例中,優(yōu)選的,按照挽留策略,對(duì)待挽留目標(biāo)用戶群中的各個(gè)目標(biāo)用戶進(jìn)行挽留的方式包括:分別向待挽留目標(biāo)用戶群中的每個(gè)目標(biāo)用戶發(fā)送提醒信息,具體的,該提醒信息為從預(yù)先設(shè)置的多個(gè)提醒信息中,搜索到的與待挽留目標(biāo)用戶群所屬的目標(biāo)用戶群對(duì)應(yīng)的挽留策略所對(duì)應(yīng)提醒信息。
進(jìn)一步的,在本申請(qǐng)實(shí)施例提供的一種數(shù)據(jù)管理方法中,還包括:判斷當(dāng)前時(shí)間與對(duì)待挽留目標(biāo)用戶群中的各個(gè)目標(biāo)用戶進(jìn)行挽留的時(shí)間之間的時(shí)間間隔是否滿足預(yù)設(shè)時(shí)間閾值;以及,當(dāng)是時(shí),統(tǒng)計(jì)待挽留目標(biāo)用戶群中的流失客戶數(shù)量;以及,根據(jù)流失客戶數(shù)量以及待挽留目標(biāo)用戶群中的目標(biāo)用戶數(shù)量,計(jì)算待挽留目標(biāo)用戶群所屬的目標(biāo)用戶群對(duì)應(yīng)的挽留策略的挽留成功率。
在本申請(qǐng)實(shí)施例中,優(yōu)選的,還可判斷當(dāng)前時(shí)間與對(duì)待挽留目標(biāo)用戶群中的各個(gè)目標(biāo)用戶進(jìn)行挽留的時(shí)間之間的時(shí)間間隔是否大于預(yù)設(shè)時(shí)間閾值;當(dāng)是時(shí),統(tǒng)計(jì)當(dāng)前時(shí)間待挽留目標(biāo)用戶群中的流失客戶數(shù)量,并將待挽留目標(biāo)用戶群中的目標(biāo)用戶總數(shù)減去流失客戶數(shù)量得到待挽留目標(biāo)用戶群中未流失客戶數(shù)量,進(jìn)而將未流失客戶數(shù)量除以待挽留目標(biāo)用戶群中的用戶總數(shù)得到的結(jié)果作為待挽留目標(biāo)用戶所屬目標(biāo)用戶群對(duì)應(yīng)的挽留策略的挽留成功率。
圖3為本申請(qǐng)實(shí)施例提供的一種客戶流失預(yù)測(cè)模型的生成方法流程圖。
如圖3所示,該方法包括:
S301、獲取訓(xùn)練樣本集,訓(xùn)練樣本集中包括多個(gè)訓(xùn)練樣本,每個(gè)訓(xùn)練樣本包括標(biāo)記信息以及屬性信息。
在本申請(qǐng)實(shí)施例中,優(yōu)選的,標(biāo)記信息指示訓(xùn)練樣本為流失客戶/未流失客戶。
具體的,每個(gè)訓(xùn)練樣本包括的標(biāo)記信息均指示該訓(xùn)練樣本的客戶類型(如該訓(xùn)練樣本為流失客戶或者未流失客戶)。
在本申請(qǐng)實(shí)施例中,優(yōu)選的,每個(gè)訓(xùn)練樣本包括一個(gè)標(biāo)記信息和若干個(gè)屬性信息。
在本申請(qǐng)實(shí)施例中,優(yōu)選的,屬性信息包括屬性以及屬性的屬性值。比如,訓(xùn)練樣本的每個(gè)屬性信息包括訓(xùn)練樣本的對(duì)應(yīng)該屬性信息的屬性以及訓(xùn)練樣本在該屬性的屬性值。
S302、針對(duì)訓(xùn)練樣本集中的每個(gè)訓(xùn)練樣本,對(duì)訓(xùn)練樣本的屬性信息進(jìn)行數(shù)據(jù)預(yù)處理,得到目標(biāo)屬性信息;
在本申請(qǐng)實(shí)施例中,優(yōu)選的,每個(gè)訓(xùn)練樣本包括的屬性信息為至少一個(gè),對(duì)訓(xùn)練樣本中屬性信息進(jìn)行數(shù)據(jù)處理,可得到若干個(gè)目標(biāo)屬性信息,其中,目標(biāo)屬性信息包括對(duì)應(yīng)該目標(biāo)屬性信息的新的屬性(也就是目標(biāo)屬性)以及該目標(biāo)屬性的屬性值。
S303、對(duì)目標(biāo)屬性信息所屬的目標(biāo)屬性進(jìn)行自動(dòng)指標(biāo)篩選,得到至少一個(gè)最終目標(biāo)屬性;
在本申請(qǐng)實(shí)施例中,優(yōu)選的,當(dāng)?shù)玫饺舾蓚€(gè)目標(biāo)屬性信息后,可對(duì)每個(gè)目標(biāo)屬性信息所屬的目標(biāo)屬性(也就是該目標(biāo)屬性信息對(duì)應(yīng)的目標(biāo)屬性)進(jìn)行自動(dòng)指標(biāo)篩選,以得到至少一個(gè)最終目標(biāo)屬性。
在這一步中,系統(tǒng)對(duì)初步得到的多個(gè)目標(biāo)屬性進(jìn)行自動(dòng)指標(biāo)篩選,在降低維度的同時(shí)選取最有區(qū)分度的最終目標(biāo)屬性。系統(tǒng)中使用信息增益算法(InfoGainAttributeEval)和相關(guān)系數(shù)屬性選擇算法(CFSSubsetAttributeEval)來(lái)進(jìn)行這個(gè)步驟,將最終目標(biāo)屬性篩選至20個(gè)。
以系統(tǒng)優(yōu)化得到的默認(rèn)值為例,所使用的20個(gè)最終目標(biāo)屬性參見表1。
表1客戶流失預(yù)測(cè)模型輸入最終目標(biāo)屬性
在本申請(qǐng)實(shí)施例中,優(yōu)選的,用戶可根據(jù)需要自行進(jìn)行篩選,結(jié)果因數(shù)據(jù)的不同而可能有所不同。
S304、針對(duì)每個(gè)訓(xùn)練樣本,根據(jù)訓(xùn)練樣本的標(biāo)記信息以及每個(gè)最終目標(biāo)屬性對(duì)應(yīng)的訓(xùn)練樣本的目標(biāo)屬性信息,利用預(yù)設(shè)模型構(gòu)建算法,構(gòu)建客戶流失預(yù)測(cè)模型。
圖4為本申請(qǐng)實(shí)施例提供的一種對(duì)訓(xùn)練樣本的屬性信息進(jìn)行數(shù)據(jù)預(yù)處理,得到目標(biāo)屬性信息的方法流程圖;
如圖4所示的對(duì)訓(xùn)練樣本的屬性信息進(jìn)行數(shù)據(jù)預(yù)處理,得到目標(biāo)屬性信息的方法應(yīng)用于預(yù)設(shè)模型構(gòu)建算法為決策樹算法的情況下。
具體的,如圖4所示,該方法包括:
S401、確定訓(xùn)練樣本中的各個(gè)目標(biāo)連續(xù)屬性信息;
在本申請(qǐng)實(shí)施例中,優(yōu)選的,針對(duì)每個(gè)訓(xùn)練樣本而言,從該訓(xùn)練樣本的所有屬性信息中,確定出哪些屬性信息是連續(xù)的屬性信息,進(jìn)而將確定出的每個(gè)連續(xù)的屬性信息作為一個(gè)目標(biāo)連續(xù)屬性信息。
S402、對(duì)各個(gè)目標(biāo)連續(xù)屬性信息依次進(jìn)行離散化處理、屬性變換,得到第一目標(biāo)屬性信息;
在本申請(qǐng)實(shí)施例中,優(yōu)選的,對(duì)各個(gè)目標(biāo)連續(xù)屬性信息進(jìn)行離散化處理的方法包括:等頻度離散化處理方法和/或基于最小描述距離的離散化處理方法。
具體的,對(duì)于目標(biāo)連續(xù)屬性新進(jìn)行離散化處理(discretization)。具體的,本步驟主要處理那些對(duì)目標(biāo)確定的指導(dǎo)作用遜于離散值的屬性信息。用戶可選擇等頻度離散化處理(Equal Frequency Discretization)和基于最小描述長(zhǎng)度的離散化處理(Minimum Description Length)。優(yōu)選的,默認(rèn)情況下使用基于最小描述距離的離散化處理。
等頻度離散化處理是一種無(wú)監(jiān)督學(xué)習(xí),需要預(yù)先設(shè)定劃分區(qū)域的個(gè)數(shù)K,然后算法自動(dòng)計(jì)算根據(jù)頻度合重新將數(shù)據(jù)分布。經(jīng)過(guò)反復(fù)實(shí)驗(yàn),優(yōu)選的,固定將屬性分成3個(gè)區(qū)域。
而基于最小描述長(zhǎng)度離散化處理(MDL)是一種監(jiān)督學(xué)習(xí),常常被應(yīng)用到?jīng)Q策樹建立的過(guò)程中。使用時(shí)算法會(huì)根據(jù)標(biāo)記類別計(jì)算信息熵值(Entropy),然后選擇獲得最小信息量(最小描述長(zhǎng)度)的劃分方法,自動(dòng)分成若干個(gè)區(qū)域。
信息熵(Entropy)是表示一套數(shù)據(jù)集的平均信息量,簡(jiǎn)單說(shuō)來(lái)數(shù)據(jù)分布越單一信息量越小,數(shù)據(jù)平均分布式信息量最大。
可見,離散化處理之后的數(shù)據(jù)分布明顯有利于分類算法,離散化之后的取值對(duì)流失客戶和非流失客戶由于較強(qiáng)的分別。經(jīng)過(guò)反復(fù)試驗(yàn),默認(rèn)情況下,采用基于最小描述距離的離散化處理。
在本申請(qǐng)實(shí)施例中,優(yōu)選的,針對(duì)每個(gè)目標(biāo)連續(xù)屬性信息而言,當(dāng)對(duì)該目標(biāo)連續(xù)屬性信息進(jìn)行離散化處理后,需對(duì)進(jìn)行離散化處理后的該目標(biāo)連續(xù)屬性信息進(jìn)行屬性變換以得到第一目標(biāo)屬性信息。
具體的,對(duì)離散化處理后的目標(biāo)連續(xù)屬性信息進(jìn)行屬性變換的方法包括:標(biāo)準(zhǔn)化屬性變換處理,或者,正常化屬性變換處理。
優(yōu)選的,對(duì)于部分連續(xù)屬性信息,數(shù)據(jù)分布有特定的區(qū)間,對(duì)數(shù)據(jù)的區(qū)間進(jìn)行重分布有利于K-Means等算法的距離計(jì)算和線性模型的學(xué)習(xí)。系統(tǒng)會(huì)進(jìn)行屬性變換,使其落入一定的數(shù)字范圍之內(nèi)。用戶可選擇標(biāo)準(zhǔn)化處理(Standardization)或正?;幚?Normalization)。默認(rèn)情況下,系統(tǒng)使用正常化處理。這里的標(biāo)準(zhǔn)化處理即是上述提到的標(biāo)準(zhǔn)化屬性變換處理,同樣,這里的正常化處理即是上述提到的正?;瘜傩宰儞Q處理。
標(biāo)準(zhǔn)化屬性變換處理使數(shù)據(jù)原數(shù)據(jù)減去平均值再除以標(biāo)準(zhǔn)差,因此生成的新數(shù)據(jù)的平均值為0,標(biāo)準(zhǔn)差為1。
正?;瘜傩宰儞Q處理使原數(shù)據(jù)減去最小值除以最大值和最小值得差,產(chǎn)生的新分布在(0,1)之間。
標(biāo)準(zhǔn)化屬性變換處理和正?;瘜傩宰儞Q處理都是對(duì)數(shù)據(jù)范圍的重分布,不會(huì)對(duì)分布本身進(jìn)行改變。但是為了計(jì)算距離時(shí)不偏袒某個(gè)指標(biāo),使每一個(gè)指標(biāo)在統(tǒng)一的取值范圍內(nèi),我們默認(rèn)使用正?;瘜傩宰儞Q處理。
S403、將得到的各個(gè)第一目標(biāo)屬性信息確定為目標(biāo)屬性信息。
圖5為本申請(qǐng)實(shí)施例提供的一種對(duì)訓(xùn)練樣本的屬性信息進(jìn)行數(shù)據(jù)預(yù)處理,得到目標(biāo)屬性信息的方法流程圖;
如圖5所示的對(duì)訓(xùn)練樣本的屬性信息進(jìn)行數(shù)據(jù)預(yù)處理,得到目標(biāo)屬性信息的方法應(yīng)用于預(yù)設(shè)模型構(gòu)建算法為邏輯回歸算法的情況下。
具體的,如圖5所示,該方法包括:
S501、確定訓(xùn)練樣本中的各個(gè)目標(biāo)連續(xù)屬性信息;
S502、對(duì)各個(gè)目標(biāo)連續(xù)屬性信息依次進(jìn)行離散化處理、屬性變換,得到第一目標(biāo)屬性信息;
S503、確定訓(xùn)練樣本中的各個(gè)類別類屬性信息;
在本申請(qǐng)實(shí)施例中,優(yōu)選的,針對(duì)每個(gè)訓(xùn)練樣本而言,從該訓(xùn)練樣本的所有屬性信息中,確定出哪些屬性信息是類別類屬性信息。
S504、對(duì)各個(gè)類別類屬性信息進(jìn)行二元化處理,得到第二目標(biāo)屬性信息;
在本申請(qǐng)實(shí)施例中,優(yōu)選的,類別類屬性信息通常使用常用的1-of-K編碼進(jìn)而二元化處理,將一個(gè)變量轉(zhuǎn)換為K個(gè)。優(yōu)選的,K為8,參見表2。例如,作為類別類屬性信息的逾期程度由原理的一個(gè)屬性類別屬性變?yōu)榱?個(gè)二元屬性。
表2對(duì)類別類屬性進(jìn)行二元化處理
S505、將得到的各個(gè)第一目標(biāo)屬性信息和第二目標(biāo)屬性信息確定為目標(biāo)屬性信息。
圖6為本申請(qǐng)實(shí)施例提供的一種數(shù)據(jù)管理裝置的結(jié)構(gòu)示意圖。
如圖6所示,該裝置包括:
數(shù)據(jù)管理請(qǐng)求接收單元61,用于接收數(shù)據(jù)管理請(qǐng)求,數(shù)據(jù)管理請(qǐng)求中攜帶待預(yù)測(cè)用戶集;
客戶流失預(yù)測(cè)單元62,用于利用預(yù)先設(shè)置的客戶流失預(yù)測(cè)模型,分別對(duì)待預(yù)測(cè)用戶集中的每個(gè)待預(yù)測(cè)用戶進(jìn)行客戶流失預(yù)測(cè),得到目標(biāo)用戶集;目標(biāo)用戶集中包括待預(yù)測(cè)用戶集中的所有的目標(biāo)用戶,其中,目標(biāo)用戶進(jìn)行客戶流失預(yù)測(cè)的結(jié)果指示目標(biāo)用戶為預(yù)流失客戶;
目標(biāo)用戶分群?jiǎn)卧?3,用于利用預(yù)先設(shè)置的聚類算法對(duì)目標(biāo)用戶集中的所有目標(biāo)用戶進(jìn)行分群,得到至少一個(gè)含有特定用戶特征的目標(biāo)用戶群;
挽留單元64,用于針對(duì)每個(gè)目標(biāo)用戶群,利用與目標(biāo)用戶群對(duì)應(yīng)的挽留策略,對(duì)目標(biāo)用戶群中的目標(biāo)用戶進(jìn)行挽留。
圖7為本申請(qǐng)實(shí)施例提供的一種挽留單元的詳細(xì)結(jié)構(gòu)示意圖。
如圖7所示,挽留單元包括:
挽留策略獲取單元71,用于獲取與目標(biāo)用戶群對(duì)應(yīng)的挽留策略;
待挽留目標(biāo)用戶群確定單元72,用于響應(yīng)選擇操作,從目標(biāo)用戶群中確定與選擇操作對(duì)應(yīng)的待挽留目標(biāo)用戶群;
挽留子單元73,用于按照挽留策略,對(duì)待挽留目標(biāo)用戶群中的各個(gè)目標(biāo)用戶進(jìn)行挽留。
圖8為本申請(qǐng)實(shí)施例提供的另一種數(shù)據(jù)管理裝置的結(jié)構(gòu)示意圖。
如圖8所示,該裝置包括:
數(shù)據(jù)管理請(qǐng)求接收單元61,用于接收數(shù)據(jù)管理請(qǐng)求,數(shù)據(jù)管理請(qǐng)求中攜帶待預(yù)測(cè)用戶集;
客戶流失預(yù)測(cè)單元62,用于利用預(yù)先設(shè)置的客戶流失預(yù)測(cè)模型,分別對(duì)待預(yù)測(cè)用戶集中的每個(gè)待預(yù)測(cè)用戶進(jìn)行客戶流失預(yù)測(cè),得到目標(biāo)用戶集;目標(biāo)用戶集中包括待預(yù)測(cè)用戶集中的所有的目標(biāo)用戶,其中,目標(biāo)用戶進(jìn)行客戶流失預(yù)測(cè)的結(jié)果指示目標(biāo)用戶為預(yù)流失客戶;
目標(biāo)用戶分群?jiǎn)卧?3,用于利用預(yù)先設(shè)置的聚類算法對(duì)目標(biāo)用戶集中的所有目標(biāo)用戶進(jìn)行分群,得到至少一個(gè)含有特定用戶特征的目標(biāo)用戶群;
挽留單元64,用于針對(duì)每個(gè)目標(biāo)用戶群,利用與目標(biāo)用戶群對(duì)應(yīng)的挽留策略,對(duì)目標(biāo)用戶群中的目標(biāo)用戶進(jìn)行挽留;
挽留成功率計(jì)算單元81,用于判斷當(dāng)前時(shí)間與對(duì)待挽留目標(biāo)用戶群中的各個(gè)目標(biāo)用戶進(jìn)行挽留的時(shí)間之間的時(shí)間間隔是否滿足預(yù)設(shè)時(shí)間閾值;以及,當(dāng)是時(shí),統(tǒng)計(jì)待挽留目標(biāo)用戶群中的流失客戶數(shù)量;以及,根據(jù)流失客戶數(shù)量以及待挽留目標(biāo)用戶群中的目標(biāo)用戶數(shù)量,計(jì)算待挽留目標(biāo)用戶群所屬的目標(biāo)用戶群對(duì)應(yīng)的挽留策略的挽留成功率。
圖9為本申請(qǐng)實(shí)施例提供的又一種數(shù)據(jù)管理裝置的結(jié)構(gòu)示意圖。
如圖9所示,該裝置包括:
客戶流失預(yù)測(cè)模型生成單元91,用于獲取訓(xùn)練樣本集,訓(xùn)練樣本集中包括多個(gè)訓(xùn)練樣本,每個(gè)訓(xùn)練樣本包括標(biāo)記信息以及屬性信息,其中,標(biāo)記信息指示訓(xùn)練樣本為流失客戶/未流失客戶;以及,針對(duì)訓(xùn)練樣本集中的每個(gè)訓(xùn)練樣本,對(duì)訓(xùn)練樣本的屬性信息進(jìn)行數(shù)據(jù)預(yù)處理,得到目標(biāo)屬性信息;以及,對(duì)目標(biāo)屬性信息所屬的目標(biāo)屬性進(jìn)行自動(dòng)指標(biāo)篩選,得到至少一個(gè)最終目標(biāo)屬性;以及,針對(duì)每個(gè)訓(xùn)練樣本,根據(jù)訓(xùn)練樣本的標(biāo)記信息以及每個(gè)最終目標(biāo)屬性對(duì)應(yīng)的訓(xùn)練樣本的目標(biāo)屬性信息,利用預(yù)設(shè)模型構(gòu)建算法,構(gòu)建客戶流失預(yù)測(cè)模型;
數(shù)據(jù)管理請(qǐng)求接收單元61,用于接收數(shù)據(jù)管理請(qǐng)求,數(shù)據(jù)管理請(qǐng)求中攜帶待預(yù)測(cè)用戶集;
客戶流失預(yù)測(cè)單元62,用于利用預(yù)先設(shè)置的客戶流失預(yù)測(cè)模型,分別對(duì)待預(yù)測(cè)用戶集中的每個(gè)待預(yù)測(cè)用戶進(jìn)行客戶流失預(yù)測(cè),得到目標(biāo)用戶集;目標(biāo)用戶集中包括待預(yù)測(cè)用戶集中的所有的目標(biāo)用戶,其中,目標(biāo)用戶進(jìn)行客戶流失預(yù)測(cè)的結(jié)果指示目標(biāo)用戶為預(yù)流失客戶;
目標(biāo)用戶分群?jiǎn)卧?3,用于利用預(yù)先設(shè)置的聚類算法對(duì)目標(biāo)用戶集中的所有目標(biāo)用戶進(jìn)行分群,得到至少一個(gè)含有特定用戶特征的目標(biāo)用戶群;
挽留單元64,用于針對(duì)每個(gè)目標(biāo)用戶群,利用與目標(biāo)用戶群對(duì)應(yīng)的挽留策略,對(duì)目標(biāo)用戶群中的目標(biāo)用戶進(jìn)行挽留;
挽留成功率計(jì)算單元81,用于判斷當(dāng)前時(shí)間與對(duì)待挽留目標(biāo)用戶群中的各個(gè)目標(biāo)用戶進(jìn)行挽留的時(shí)間之間的時(shí)間間隔是否滿足預(yù)設(shè)時(shí)間閾值;以及,當(dāng)是時(shí),統(tǒng)計(jì)待挽留目標(biāo)用戶群中的流失客戶數(shù)量;以及,根據(jù)流失客戶數(shù)量以及待挽留目標(biāo)用戶群中的目標(biāo)用戶數(shù)量,計(jì)算待挽留目標(biāo)用戶群所屬的目標(biāo)用戶群對(duì)應(yīng)的挽留策略的挽留成功率。
本申請(qǐng)?zhí)峁┮环N數(shù)據(jù)管理方法及裝置,通過(guò)接收攜帶待預(yù)測(cè)用戶集的數(shù)據(jù)管理請(qǐng)求,利用預(yù)先設(shè)置的客戶流失預(yù)測(cè)模型分別對(duì)待預(yù)測(cè)用戶集中的每個(gè)待預(yù)測(cè)用戶進(jìn)行客戶流失預(yù)測(cè),得到目標(biāo)用戶集,并對(duì)目標(biāo)用戶集中的所有目標(biāo)用戶進(jìn)行分群得到至少一個(gè)目標(biāo)用戶群,進(jìn)而對(duì)目標(biāo)用戶群中的目標(biāo)用戶進(jìn)行挽留的方式,實(shí)現(xiàn)了對(duì)客戶流失的預(yù)測(cè)、分群以及挽留,減少了客戶流失現(xiàn)象。
最后,還需要說(shuō)明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。
本說(shuō)明書中各個(gè)實(shí)施例采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似部分互相參見即可。
對(duì)所公開的實(shí)施例的上述說(shuō)明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本申請(qǐng)。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域的專業(yè)技術(shù)人員來(lái)說(shuō)將是顯而易見的,本文中所定義的一般原理可以在不脫離本申請(qǐng)的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本申請(qǐng)將不會(huì)被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開的原理和新穎特點(diǎn)相一致的最寬的范圍。