一種基于關(guān)聯(lián)規(guī)則和雙聚類的航空客戶數(shù)據(jù)挖掘方法
【專利摘要】本發(fā)明公開了一種基于關(guān)聯(lián)規(guī)則和雙聚類的航空客戶數(shù)據(jù)挖掘方法,包括如下步驟:(1)獲取數(shù)據(jù):收集航空客戶對飛機(jī)上產(chǎn)品或服務(wù)的評分?jǐn)?shù)據(jù),構(gòu)造客戶-產(chǎn)品或客戶-服務(wù)矩陣D,其中每行代表一位客戶,每列代表一種產(chǎn)品,其中每個元素代表一位客戶對一種產(chǎn)品或服務(wù)的評分;(2)基于一致演化類型的雙聚類模型,結(jié)合并行計(jì)算技術(shù)對客戶評分?jǐn)?shù)據(jù)進(jìn)行挖掘,獲知在不同產(chǎn)品或服務(wù)項(xiàng)目上持相同或相近偏好態(tài)度的客戶群體,從而實(shí)現(xiàn)對客戶的細(xì)分。本發(fā)明能找到所有偏好或習(xí)慣相近的客戶群,精確地細(xì)分客戶,提高了客戶細(xì)分方法的魯棒性和準(zhǔn)確性,降低計(jì)算量,從而提高航空客戶細(xì)分的速度和精度。
【專利說明】一種基于關(guān)聯(lián)規(guī)則和雙聚類的航空客戶數(shù)據(jù)挖掘方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】,提供基于關(guān)聯(lián)規(guī)則和雙聚類的航空客戶數(shù)據(jù)挖掘方法。
【背景技術(shù)】
[0002]隨著經(jīng)濟(jì)全球化,企業(yè)面臨著越來越激烈的市場競爭。對企業(yè)來說,單純地滿足客戶需求,強(qiáng)調(diào)為所有客戶提供同樣優(yōu)質(zhì)的服務(wù),很可能是事倍功半,得不償失。從競爭的角度看,一個真正有效的客戶價值判斷系統(tǒng)應(yīng)該通過對客戶進(jìn)行細(xì)分,使企業(yè)能夠?yàn)椴煌瑢哟蔚目蛻籼峁┎煌降姆?wù),并因此獲得最大的投入產(chǎn)出比。企業(yè)根據(jù)客戶的屬性、行為、需求、偏好以及價值等因素對于客戶進(jìn)行分類,可以提供具有針對性的產(chǎn)品和服務(wù)。高效的客戶關(guān)系以扎實(shí)的客戶細(xì)分為基礎(chǔ)??蛻艏?xì)分已經(jīng)成為貫穿于企業(yè)的客戶獲取、客戶保持及客戶發(fā)展等過程的重要基礎(chǔ)分析手段。通過客戶細(xì)分,企業(yè)可以更好的識別不同的客戶群體,區(qū)別對待不同客戶,采取不同的客戶戰(zhàn)略,改善產(chǎn)品與服務(wù),增大銷售,提高效率與效果,進(jìn)而達(dá)到最優(yōu)化配置客戶資源、追求最大盈利的目的。目前,客戶細(xì)分主要應(yīng)用于傳統(tǒng)的旅游業(yè)、餐飲業(yè)、零售業(yè)、傳媒業(yè),也包括新興的網(wǎng)絡(luò)服務(wù)及其它電子商務(wù)領(lǐng)域。
[0003]目前常用的客戶細(xì)分指標(biāo)主要基于客戶的購買行為、營銷份額、滿意度等。作為重要的細(xì)分指標(biāo),客戶滿意度指航空客戶通過對一個產(chǎn)品的可感知效果與他的期望價值相比較之后,所形成的愉悅或失望的感覺狀態(tài)。研究以航空客戶滿意度為指標(biāo)的客戶細(xì)分體現(xiàn)了客戶價值判斷的精髓:一切關(guān)注客戶,一切以客戶滿意為中心。目前,基于客戶滿意度的客戶細(xì)分的技術(shù)有很多,包括經(jīng)驗(yàn)分析法、決策樹法、神經(jīng)網(wǎng)絡(luò)法和聚類方法等。其中,聚類方法是基于客戶滿意度的客戶細(xì)分技術(shù)的主流方法,且聚類方法與大多數(shù)方法(包括經(jīng)驗(yàn)分析法、決策樹法和神經(jīng)網(wǎng)絡(luò)法等)相比,它更易于理解。
[0004]聚類分析的基本思路是把性質(zhì)相近的個體歸為一類,性質(zhì)差異較大的個體歸于不同的類,最終達(dá)到類內(nèi)個體具有較高的同質(zhì)性,類間個體具有較高的異質(zhì)性。聚類方法根據(jù)一群客戶某些特征(如購買行為、客戶份額等)的相似程度,將客戶分為若干組,其中相似的客戶構(gòu)成一組。尤其當(dāng)特征輸入變量數(shù)值型時,這種方法效果比較好。聚類方法是一種無監(jiān)督的方法,不需要使用者具備相應(yīng)的先驗(yàn)知識。常用的聚類方法有K-means方法和模糊C均值(FCM)方類方法。
[0005]但是使用聚類方法處理高維數(shù)據(jù)對客戶進(jìn)行細(xì)分時會遇到下面幾個問題:
[0006](I)高維客戶數(shù)據(jù)集中存在大量與問題無關(guān)的屬性,使得基于所有維度的客戶特征進(jìn)行聚類的可行性不高。
[0007](2)不同客戶對產(chǎn)品或服務(wù)的打分標(biāo)準(zhǔn)不同。有的客戶打分偏低或偏高。聚類方法較難找到偏好或習(xí)慣相近的客戶群。
[0008](3)高維數(shù)據(jù)集中存在著大量的局部信息,這是傳統(tǒng)聚類方法難以挖掘出來的客戶特征。
[0009](4)大數(shù)據(jù)分析的計(jì)算復(fù)雜度高,引起系統(tǒng)性能下降。[0010]聚類方法基于距離或密度來衡量客戶相似程度,如歐氏距離、余弦相似度、Pearson相關(guān)系數(shù)等常見相似度計(jì)算方法。如K均值方法,層次聚類等一些傳統(tǒng)的聚類方法都是采用基于距離或密度的方法來進(jìn)行聚類。在聚類普通維數(shù)較低的數(shù)據(jù)時,效果較好,能夠聚類出數(shù)據(jù)間的全局信息,以此對客戶分類。但是在聚類高維的客戶數(shù)據(jù)時,由于高維數(shù)據(jù)的特點(diǎn),這些聚類方法在聚類效果上很難達(dá)到要求。聚類方法都是在行或列上進(jìn)行聚類,聚類結(jié)果都是包含所有行或列的。分析研究眾多傳統(tǒng)聚類方法發(fā)現(xiàn),使用基于滿意度的客戶細(xì)分聚類方法只能找到在所有評分項(xiàng)目構(gòu)成的屬性空間相距較近的客戶群體,而一般無法找到部分偏好或習(xí)慣相近的客戶群。聚類得到的信息屬于全局信息,因此高維數(shù)據(jù)中的局部信息將不被發(fā)現(xiàn)(現(xiàn)有客戶細(xì)分方法一般采用聚類技術(shù),以歐氏距離衡量客戶相似程度。聚類方法在客戶數(shù)據(jù)分析的過程中把全部客戶看成是待分類的對象,特征空間由全局決定并且由聚類結(jié)果共同占有。這種聚類方法只是全局的聚類,因此使用基于滿意度的客戶細(xì)分聚類方法只能找到在所有評分項(xiàng)目構(gòu)成的屬性空間上相距較近的客戶群體,而一般無法找到僅在部分項(xiàng)目上偏好或習(xí)慣相近的客戶群)。
[0011]雙聚類方法能直接避免以上不足之處。雙聚類最初是為了發(fā)現(xiàn)基因表達(dá)數(shù)據(jù)矩陣中具有生物意義的子模式而提出的新聚類方法。目前雙聚類方法不僅可以應(yīng)用于DNA芯片的分析,還大量應(yīng)用于金融預(yù)測等領(lǐng)域。雙聚類并不是在全部行或列上進(jìn)行聚類,而是在行和列兩個維上同時聚類。雙聚類的組織沒有預(yù)先的約束,行或列的信息既可以屬于多個聚類,也可以不在任何簇中,因此雙聚類這種不受限制的結(jié)構(gòu)使得雙聚類的產(chǎn)生擁有了更大的自由度,從而可以使得隱藏在數(shù)據(jù)矩陣中的各種局部聚類信息得以充分發(fā)現(xiàn)。雙聚類與聚類在數(shù)據(jù)處理方法上的區(qū)別如圖2。
[0012]當(dāng)前大多數(shù)主流的雙聚類方法的特點(diǎn)是應(yīng)用啟發(fā)式的策略尋找對實(shí)際問題有意義的雙聚類。傳統(tǒng)找雙聚類的方法是Cheng anD Church提出的,他們定義了一個度量量叫均方殘差(MSE),用來度量(capture)微陣列數(shù)據(jù)矩陣中子矩陣的表達(dá)水平的一致性。CC方法利用貪心的啟發(fā)式策略來尋找在基因微陣列矩陣中部分基因在部分實(shí)驗(yàn)條件下具有一致的表達(dá)的子矩陣,即雙聚類。傳統(tǒng)雙聚類方法應(yīng)用在客戶細(xì)分上主要有以下問題:
[0013](I)傳統(tǒng)方法利用貪心的啟發(fā)式策略,只能夠找到部分有用的雙聚類。
[0014](2)傳統(tǒng)方法通常需要設(shè)定初始的參數(shù),而結(jié)果對參數(shù)的值極其敏感,導(dǎo)致使用雙聚類方法的效果情況不穩(wěn)定。
[0015](3)不同客戶對產(chǎn)品或服務(wù)的打分標(biāo)準(zhǔn)不同。利用傳統(tǒng)方法找的雙聚類一般找不到偏好或習(xí)慣相近的客戶群。
[0016]本發(fā)明為了找到偏好或習(xí)慣相近的客戶群,在原有客戶-產(chǎn)品(或服務(wù))矩陣中找出具有一致演變趨勢的雙聚類,即在數(shù)據(jù)矩陣中找到一個子矩陣,如果在某一行中,存在對該子矩陣的一個列的置換,使得每一行的值的序列都是嚴(yán)格遞增的,那么這個子矩陣是一致演變趨勢的雙聚類。圖3所示為例。
[0017]為了精確找出所有具有類似愛好和消費(fèi)習(xí)慣的客戶組,需要同時在客戶和產(chǎn)品(或服務(wù))兩個維上聚類,找出演變趨勢一致的雙聚類。這樣的結(jié)果包含客戶的一個子集,并且涉及產(chǎn)品的一個子集,且同一個雙聚類里的客戶對其中的產(chǎn)品或服務(wù)評分的數(shù)值變化趨勢相近。
[0018]客戶-產(chǎn)品(或服務(wù))矩陣中的雙聚類具有以下特點(diǎn):[0019](I)只有少量的客戶參與一個雙聚類;
[0020](2) 一個雙聚類只包含少量產(chǎn)品(或服務(wù));
[0021](3) 一個客戶可能參與多個雙聚類,也可能不參與任何雙聚類;
[0022](4) 一種產(chǎn)品(或服務(wù))可能被多個雙聚類所涉及,也可能完全不被任何雙聚類所涉及;
[0023](5)同一個雙聚類里的客戶對其中的產(chǎn)品或服務(wù)評分的數(shù)值變化趨勢相近。
【發(fā)明內(nèi)容】
[0024]本發(fā)明的目的在于克服現(xiàn)有技術(shù)存在的上述不足,提供一種基于關(guān)聯(lián)規(guī)則和雙聚類的航空客戶數(shù)據(jù)挖掘方法。在關(guān)聯(lián)規(guī)則和雙聚類的基礎(chǔ)上,通過并行計(jì)算尋找頻繁k項(xiàng)集矩陣,從而找出所有具有一致演變趨勢的雙聚類。本發(fā)明在現(xiàn)有技術(shù)的基礎(chǔ)上,進(jìn)一步提高了客戶細(xì)分方法的魯棒性和準(zhǔn)確性,精確地細(xì)分客戶,找到所有偏好或習(xí)慣相近、購買行為相似的客戶群,進(jìn)一步豐富了客戶細(xì)分的技術(shù)方法。具體技術(shù)方案如下:
[0025]一種基于關(guān)聯(lián)規(guī)則和雙聚類的航空客戶數(shù)據(jù)挖掘方法,包括如下步驟:
[0026](I)獲取數(shù)據(jù):收集航空客戶對飛機(jī)上產(chǎn)品或服務(wù)的評分?jǐn)?shù)據(jù),構(gòu)造客戶-產(chǎn)品或客戶-服務(wù)矩陣D,矩陣D為m行*n列的實(shí)數(shù)矩陣;其中每行代表一位客戶,每列代表一種產(chǎn)品,其中每個元素代表一位客戶對一種產(chǎn)品或服務(wù)的評分;
[0027](2)基于一致演化類型的雙聚類模型,結(jié)合并行計(jì)算技術(shù)對上述客戶的評分?jǐn)?shù)據(jù)進(jìn)行挖掘,獲知在不同產(chǎn)品或服務(wù)項(xiàng)目上持相同或相近偏好態(tài)度的客戶群體,從而實(shí)現(xiàn)對客戶的細(xì)分。
[0028]上述方法中,步驟(I)中,收集的數(shù)據(jù)包括客戶對飛機(jī)上空乘服務(wù)、廣播水平、機(jī)上餐食、客艙設(shè)施、機(jī)上娛樂、航班延誤等項(xiàng)目的評分?jǐn)?shù)據(jù),其分值大小是范圍從10到100的實(shí)數(shù)。根據(jù)這些數(shù)據(jù)構(gòu)造客戶-產(chǎn)品或客戶-服務(wù)矩陣矩陣D,矩陣D為m行*n列的實(shí)數(shù)矩陣。D = GXC.,其中,行的集合G代表航空客戶,列的集合C表示機(jī)上不同的產(chǎn)品或服務(wù)項(xiàng)目。矩陣D中的每個元素Du則代表了某航空客戶對相應(yīng)的機(jī)上產(chǎn)品或服務(wù)項(xiàng)目的評分。
[0029]步驟(2)中,在關(guān)聯(lián)規(guī)則和雙聚類的基礎(chǔ)上,通過并行計(jì)算尋找頻繁k項(xiàng)集矩陣來找到所有具有一致演化趨勢的雙聚類,從而精確地細(xì)分客戶,獲知所有偏好或習(xí)慣相近、購買行為相似的客戶群,所述k為所找到的雙聚類的列數(shù)。
[0030]進(jìn)一步的,步驟(2)包括如下步驟:
[0031](2.1)選定矩陣D的第一行為參考行并對該行全部元素進(jìn)行由小到大的排序,按照初始的列號順序做列的置換;再選擇任意一對呈單增關(guān)系的元素,并針對這兩個元素所在的兩列,掃描整個數(shù)據(jù)集中全部行;如果在這兩列所在位置上滿足單調(diào)遞增關(guān)系的元素足夠多,即行數(shù)大于所定閾值,則認(rèn)為這些滿足單調(diào)遞增關(guān)系的元素所在的行(包括參考行在內(nèi))與該兩列一起構(gòu)成一個頻繁2項(xiàng)集矩陣;通過這種方法,找到以參考行中任意兩個單增關(guān)系為基礎(chǔ),且其它行同樣在對應(yīng)兩列位置是單增關(guān)系的全部頻繁2項(xiàng)集矩陣;
[0032](2.2)在(2.1)的基礎(chǔ)上,選擇兩個含有共同一列的頻繁2項(xiàng)集矩陣,并判斷其共有的行數(shù)是否大于給定閾值;若是,則判定這兩個頻繁2項(xiàng)集矩陣可以生成一個頻繁3項(xiàng)集矩陣,該矩陣的行為兩頻繁2項(xiàng)集矩陣的共同行,列為兩頻繁2項(xiàng)集矩陣的并集,即有3列;
[0033](2.3)參照(2.2),在已有所有基于參考行第一行的頻繁(k-Ι)項(xiàng)集矩陣的基礎(chǔ)上,選擇兩個含有共同k-Ι列的頻繁(k-1)項(xiàng)集矩陣,并判斷該兩個含有共同k-Ι列的頻繁(k-Ι)項(xiàng)集矩陣共有的行數(shù)是否大于給定閾值;若是,則判定這兩個頻繁(k-Ι)矩陣可以生成一個頻繁k項(xiàng)集矩陣,該矩陣的行為兩頻繁(k-Ι)項(xiàng)集矩陣的共同行,列為兩頻繁(k-1)項(xiàng)集矩陣的并集,即有k列;
[0034](2.4)依次改變參考行為第二行、第三行......第m行,對不同參考行執(zhí)行與針對參
考行為第一行的上述步驟(2.0- (2.3),找到基于不同參考行的全部頻繁k項(xiàng)集矩陣。
[0035]上述基于關(guān)聯(lián)規(guī)則和雙聚類的航空客戶數(shù)據(jù)挖掘方法中,步驟(2.4)找到的基于不同參考行的全部頻繁k項(xiàng)集矩陣,即為具有一致演化趨勢的雙聚類,每個雙聚類都可以表示成矩陣D’ =G’ XC’,行的集合G’代表客戶,列的集合C’表示產(chǎn)品或服務(wù)項(xiàng)目,矩陣D’表示該雙聚類包含客戶的一個子集及該子集中的客戶涉及的產(chǎn)品的一個子集,且同一個雙聚類中的客戶對其中的產(chǎn)品或服務(wù)評分的數(shù)值變化趨勢相近;由此獲知對若干產(chǎn)品或服務(wù)項(xiàng)目上持相同或相近偏好態(tài)度的客戶群體,實(shí)現(xiàn)客戶細(xì)分的目標(biāo)。
[0036]與現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)點(diǎn)和技術(shù)效果:
[0037]I)現(xiàn)有客戶細(xì)分技術(shù)一般使用聚類方法,在客戶細(xì)分當(dāng)中基于全部特征對客戶進(jìn)行相似性度量,難以發(fā)現(xiàn)對應(yīng)于局部特征中某些模式的客戶群體。本發(fā)明通過一致演化類型的雙聚類方法,提高數(shù)據(jù)挖掘的效率和精確度;能基于局部特征精確地細(xì)分客戶,找到所有偏好或習(xí)慣相近、購買行為相似的客戶群,提供有針對性的產(chǎn)品、服務(wù)和業(yè)務(wù)模式。
[0038]2)目前雙聚類方法大多是啟發(fā)式的,不能找到全部雙聚類模式,而且對初值極為敏感。本發(fā)明通過尋找新定義的頻繁項(xiàng)集矩陣,將基于關(guān)聯(lián)規(guī)則和雙聚類的方法運(yùn)用到航空客戶細(xì)分中,在包含客戶信息的數(shù)據(jù)矩陣固定地由上而下搜索雙聚類,能找到所有滿足最小支持度的雙聚類,是精確的方法,且具有魯棒性。
[0039]3 )目前一般使用串行技術(shù)進(jìn)行客戶細(xì)分。本發(fā)明運(yùn)用并行計(jì)算技術(shù)對提出的基于關(guān)聯(lián)規(guī)則的雙聚類方法實(shí)現(xiàn)并行化處理,能顯著降低計(jì)算時間,提高系統(tǒng)的運(yùn)行速度,更適用于大數(shù)據(jù)分析的任務(wù)。
【專利附圖】
【附圖說明】
[0040]圖1為本發(fā)明實(shí)現(xiàn)過程的流程圖。
[0041]圖2為雙聚類和聚類數(shù)據(jù)處理方法的比較圖。
[0042]圖3為演變趨勢一致的雙聚類示例圖。
[0043]圖4為用雙聚類方法細(xì)分出的某一類航空客戶例圖。
[0044]圖5為并行方法中實(shí)驗(yàn)數(shù)據(jù)集參數(shù)。
[0045]圖6為并行方法加速比實(shí)驗(yàn)結(jié)果。
【具體實(shí)施方式】
[0046]以下結(jié)合附圖和實(shí)例對本發(fā)明的具體實(shí)施作進(jìn)一步說明。
[0047]系統(tǒng)測試:在一個實(shí)際的航空客戶對機(jī)上項(xiàng)目評分的數(shù)據(jù)集上實(shí)驗(yàn),以此例說明雙聚類方法細(xì)分客戶的效果以及檢驗(yàn)本并行程序的加速性能;實(shí)現(xiàn)流程如圖1所示。
[0048]( I)首先進(jìn)行調(diào)研,收集客戶對相應(yīng)的機(jī)上服務(wù)項(xiàng)目的評分?jǐn)?shù)據(jù)。實(shí)驗(yàn)數(shù)據(jù)集是一家國內(nèi)航空公司的客戶對機(jī)上各種服務(wù)項(xiàng)目(service projects)的評分,構(gòu)造30行,30列的客戶-產(chǎn)品(或服務(wù))矩陣D。其中行表示航空客戶,列表示機(jī)上服務(wù)項(xiàng)目,每個元素值則代表了某航空客戶對相應(yīng)的機(jī)上服務(wù)項(xiàng)目的評分,其分值大小是范圍從10到100的實(shí)數(shù),實(shí)驗(yàn)中閾值Hi0設(shè)為15。
[0049](2)然后基于一致演化類型的雙聚類模型,結(jié)合并行計(jì)算技術(shù)對客戶評分?jǐn)?shù)據(jù)進(jìn)行挖掘,獲知在不同產(chǎn)品或服務(wù)項(xiàng)目上持相同或相近偏好態(tài)度的客戶群體,從而實(shí)現(xiàn)對客戶的細(xì)分。
[0050]上述方法中,步驟(2)中所述挖掘過程包括:
[0051](2.1)選定矩陣D的第一行為參考行并對該行全部元素進(jìn)行由小到大的排序,按照初始的列號順序做列的置換;再選擇任意一對呈單增關(guān)系的元素,并針對這兩個元素所在的兩列,掃描整個數(shù)據(jù)集中全部行;如果在這兩列所在位置上滿足單調(diào)遞增關(guān)系的元素足夠多,即行數(shù)大于所定閾值,則認(rèn)為這些滿足單調(diào)遞增關(guān)系的元素所在的行(包括參考行和前述步驟中滿足條件的其他行)與該兩列一起構(gòu)成一個頻繁2項(xiàng)集矩陣;通過這種方法,找到以參考行中任意兩個單增關(guān)系為基礎(chǔ),且其它行同樣在對應(yīng)兩列位置是單增關(guān)系的全部頻繁2項(xiàng)集矩陣;
[0052](2.2)在(2.1)的基礎(chǔ)上,選擇兩個含有共同一列的頻繁2項(xiàng)集矩陣,并判斷其共有的行數(shù)是否大于給定閾值;若是,則判定這兩個頻繁2項(xiàng)集矩陣可以生成一個頻繁3項(xiàng)集矩陣,該矩陣的行為兩頻繁2項(xiàng)集矩陣的共同行,列為兩頻繁2項(xiàng)集矩陣的并集,即有3列;
[0053](2.3)參照(2.2),在已有所有基于參考行第一行的頻繁(k-Ι)項(xiàng)集矩陣的基礎(chǔ)上,選擇兩個含有共同k-Ι列的頻繁(k-1)項(xiàng)集矩陣,并判斷該兩個含有共同k-Ι列的頻繁(k-Ι)項(xiàng)集矩陣共有的行數(shù)是否大于給定閾值;若是,則判定這兩個頻繁(k-Ι)矩陣可以生成一個頻繁k項(xiàng)集矩陣,該矩陣的行為兩頻繁(k-Ι)項(xiàng)集矩陣的共同行,列為兩頻繁(k-1)項(xiàng)集矩陣的并集,即有k列;
[0054](2.4)依次改變參考行為第二行、第三行......第m行,對不同參考行執(zhí)行與針對參
考行為第一行的上述步驟(2.0- (2.3),找到基于不同參考行的全部頻繁k項(xiàng)集矩陣。
[0055]最終,一共有3809個雙聚類(bicluster)被發(fā)現(xiàn)。因?yàn)槠拗疲@里只給出一個找到的雙聚類。該雙聚類可以表示成矩陣D’ =G’ XC’,行的集合G’代表17個客戶,列的集合C’表示6個機(jī)上服務(wù)項(xiàng)目,這6個機(jī)上服務(wù)項(xiàng)目分別是A (空乘服務(wù))、B (廣播水平)、C (機(jī)上餐食)、D (客艙設(shè)施)、E (機(jī)上娛樂)、F (航班延誤率)。矩陣D’中的元素為17個客戶對6個服務(wù)項(xiàng)目的評分。矩陣D’中這些客戶對涉及的服務(wù)項(xiàng)目的評分的數(shù)值變化趨勢相近。該雙聚類說明在全部30個客戶中有17個客戶對空乘服務(wù)、廣播水平、機(jī)上餐食、客艙設(shè)施、機(jī)上娛樂、航班延誤率這6個機(jī)上服務(wù)項(xiàng)目的評價態(tài)度是一致的。如圖4所示。顯然,超過一半的客戶認(rèn)為第二項(xiàng)和第四項(xiàng)服務(wù)指標(biāo)表現(xiàn)最差,而對第一項(xiàng)服務(wù)指標(biāo)評價普遍很高,因此民航公司迫切需要提升廣播水平和機(jī)上娛樂兩個服務(wù)項(xiàng)目的水平,以避免客戶流失。同樣,所找到的3809個非重疊的雙聚類也都分別表征了若干客戶構(gòu)成的群體對相應(yīng)的若干個機(jī)上服務(wù)項(xiàng)目的評價態(tài)度是一致的。
[0056]因此,由實(shí)驗(yàn)結(jié)果可知,本發(fā)明的方法能把航空客戶群體分成若干簇(cluster),在各簇中包含的客戶對若干機(jī)上項(xiàng)目的評價態(tài)度是一致的,而航空公司可以根據(jù)這些不同的客戶簇特征實(shí)行相對應(yīng)的服務(wù)策略來提高航空客戶對航空公司服務(wù)項(xiàng)目的滿意度,從而實(shí)現(xiàn)促進(jìn)航空公司發(fā)展的目的。因此,本發(fā)明提出的方法發(fā)現(xiàn)的雙聚類對于指導(dǎo)客戶細(xì)分(customer segmentation)和防止客戶流失有著重要的意義。該方法與傳統(tǒng)聚類(clustering)方法相比,能夠找到局部一致的信息,比傳統(tǒng)聚類更加靈活和精細(xì)。
[0057]本實(shí)例還做了檢驗(yàn)并行方法的加速比的實(shí)驗(yàn)。實(shí)驗(yàn)從客戶對若干機(jī)上項(xiàng)目的評價數(shù)據(jù)集中Dl,D2,D3三個不同尺寸大小的客戶對若干機(jī)上項(xiàng)目的評價數(shù)據(jù)集,完成了各數(shù)據(jù)集分別在2,4,6,8核上進(jìn)行并行計(jì)算的加速比實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)集參數(shù)如圖5所示。
[0058]并行實(shí)驗(yàn)結(jié)果如圖6所示,由實(shí)驗(yàn)結(jié)果可知:(I)無論數(shù)據(jù)集尺寸多大,當(dāng)核數(shù)大于2時,并行程序執(zhí)行總時間隨著核數(shù)的增加顯著減少;(2)加速比從Dl數(shù)據(jù)集的2核的
1.55增加到D3數(shù)據(jù)集的8核的4.13,擴(kuò)展性非常好。
【權(quán)利要求】
1.一種基于關(guān)聯(lián)規(guī)則和雙聚類的航空客戶數(shù)據(jù)挖掘方法,其特征在于包括如下步驟: (1)獲取數(shù)據(jù):收集航空客戶對飛機(jī)上產(chǎn)品或服務(wù)的評分?jǐn)?shù)據(jù),構(gòu)造客戶-產(chǎn)品或客戶-服務(wù)矩陣D,矩陣D為m行*n列的實(shí)數(shù)矩陣;其中每行代表一位客戶,每列代表一種產(chǎn)品,其中每個元素代表一位客戶對一種產(chǎn)品或服務(wù)的評分; (2)基于一致演化類型的雙聚類模型,結(jié)合并行計(jì)算技術(shù)對上述客戶的評分?jǐn)?shù)據(jù)進(jìn)行挖掘,獲知在不同產(chǎn)品或服務(wù)項(xiàng)目上持相同或相近偏好態(tài)度的客戶群體,從而實(shí)現(xiàn)對客戶的細(xì)分。
2.根據(jù)權(quán)利要求1所述的基于關(guān)聯(lián)規(guī)則和雙聚類的航空客戶數(shù)據(jù)挖掘方法,其特征在于步驟(2)中,在關(guān)聯(lián)規(guī)則和雙聚類的基礎(chǔ)上,通過并行計(jì)算尋找頻繁k項(xiàng)集矩陣來找到所有具有一致演化趨勢的雙聚類,從而精確地細(xì)分客戶,獲知所有偏好或習(xí)慣相近、購買行為相似的客戶群,所述k為所找到的雙聚類的列數(shù)。
3.根據(jù)權(quán)利要求1所述的基于關(guān)聯(lián)規(guī)則和雙聚類的航空客戶數(shù)據(jù)挖掘方法,其特征在于步驟(2)進(jìn)一步包括如下步驟: (2.1)選定矩陣D的第一行為參考行并對該行全部元素進(jìn)行由小到大的排序,按照初始的列號順序做列的置換;再選擇任意一對呈單增關(guān)系的元素,并針對這兩個元素所在的兩列,掃描整個數(shù)據(jù)集中全部行;如果在這兩列所在位置上滿足單調(diào)遞增關(guān)系的元素足夠多,即行數(shù)大于所定閾值,則認(rèn)為這些滿足單調(diào)遞增關(guān)系的元素所在的行與該兩列一起構(gòu)成一個頻繁2項(xiàng)集矩陣;通過這種方法,找到以參考行中任意兩個單增關(guān)系為基礎(chǔ),且其它行同樣在對應(yīng)兩列位置是單增關(guān)系的全部頻繁2項(xiàng)集矩陣; (2.2)在(2.1)的基礎(chǔ)上,選擇兩個含有共同一列的頻繁2項(xiàng)集矩陣,并判斷其共有的行數(shù)是否大于給定閾值;若是,則判定這兩個頻繁2項(xiàng)集矩陣可以生成一個頻繁3項(xiàng)集矩陣,該矩陣的行為兩頻繁2項(xiàng)集矩陣的共同行,列為兩頻繁2項(xiàng)集矩陣的并集,即有3列; (2.3)參照(2.2),在已有所有基于參考行第一行的頻繁(k-Ι)項(xiàng)集矩陣的基礎(chǔ)上,選擇兩個含有共同k-Ι列的頻繁(k-1)項(xiàng)集矩陣,并判斷該兩個含有共同k-Ι列的頻繁(k-1)項(xiàng)集矩陣共有的行數(shù)是否大于給定閾值;若是,則判定這兩個頻繁(k-1)矩陣可以生成一個頻繁k項(xiàng)集矩陣,該矩陣的行為兩頻繁(k-1)項(xiàng)集矩陣的共同行,列為兩頻繁(k-1)項(xiàng)集矩陣的并集,即有k列; (2.4)依次改變參考行為第二行、第三行......第m行,對不同參考行執(zhí)行與針對參考行為第一行的上述步驟(2.0- (2.3),找到基于不同參考行的全部頻繁k項(xiàng)集矩陣。
4.根據(jù)權(quán)利要求3所述的基于關(guān)聯(lián)規(guī)則和雙聚類的航空客戶數(shù)據(jù)挖掘方法,其特征在于步驟(2.4)找到的基于不同參考行的全部頻繁k項(xiàng)集矩陣,即為具有一致演化趨勢的雙聚類,每個雙聚類都可以表示成矩陣D’ =G’ XC’,行的集合G’代表客戶,列的集合C’表示產(chǎn)品或服務(wù)項(xiàng)目,矩陣D’表示該雙聚類包含客戶的一個子集及該子集中的客戶涉及的產(chǎn)品的一個子集,且同一個雙聚類中的客戶對其中的產(chǎn)品或服務(wù)評分的數(shù)值變化趨勢相近;由此獲知對若干產(chǎn)品或服務(wù)項(xiàng)目上持相同或相近偏好態(tài)度的客戶群體,實(shí)現(xiàn)客戶細(xì)分的目標(biāo)。
【文檔編號】G06F17/30GK103455578SQ201310374289
【公開日】2013年12月18日 申請日期:2013年8月23日 優(yōu)先權(quán)日:2013年8月23日
【發(fā)明者】薛云, 李鐵臣, 徐惠欣, 蔡倩華, 李美航, 胡曉暉 申請人:華南師范大學(xué)