快速的負序列挖掘模式在客戶購買行為分析中的應用【
技術領域:
】[0001]本發(fā)明涉及快速的負序列挖掘模式在客戶購買行為分析中的應用,屬于負序列模式的應用
技術領域:
。【
背景技術:
】[0002]隨著互聯(lián)網(wǎng)高潮來臨,使得網(wǎng)絡購物的用戶規(guī)模不斷上升。對消費者來說,網(wǎng)絡購物已經成為一種全新的購物體驗,并逐步成為生活中不可或缺的一部分。互聯(lián)網(wǎng)提供了一個新的交互的購物渠道,消費者獲得巨大的優(yōu)勢:豐富的商品信息,克服地理與時間的障礙,獲得有價格競爭力的商品,產品的個性化、定制化,更多的商品選擇,更大的購物便利等。近年來,網(wǎng)絡購物呈爆發(fā)式增長,每年都以幾何數(shù)級增長,與此同時很多大型的電子商務網(wǎng)站,如Amazon、阿里巴巴旗下的淘寶和天貓商城、京東等都積累了大量的客戶交易數(shù)據(jù)。如何充分利用這些數(shù)據(jù)對客戶購買行為進行有效的分析、組織利用,如何了解到客戶盡可能多的愛好和價值取向,以優(yōu)化網(wǎng)站設計,為客戶提供個性化服務,成為電子商務發(fā)展迫切要解決的問題。[0003]與傳統(tǒng)的經營方式相比,網(wǎng)絡購物的產品信息量大,數(shù)量、種類豐富,選擇范圍廣。在傳統(tǒng)購物環(huán)境下,消費者獲取商品信息的來源主要靠生活積累,搜集過程較長,得到的信息比較片面。在網(wǎng)絡購物環(huán)境下,消費者就可以集中時間搜集、查找大量的有關商品的信息。網(wǎng)上商品種類豐富,有些商品消費者想要購買而傳統(tǒng)商鋪不容易找到,就可以通過網(wǎng)絡商店方便的查詢購買,補充了傳統(tǒng)商店某些產品的短缺。但是目前的電子商務商家通常不能直觀的去了解客戶,獲取的相關的數(shù)據(jù)有限(比如用戶的注冊信息,購買記錄等)。通過對大量的客戶購買記錄進行分析和挖掘,發(fā)現(xiàn)客戶的頻繁訪問序列模式,針對不同的客戶屬性和網(wǎng)上購物步驟,采用不同的商品推薦形式,適時的向客戶推薦恰當?shù)纳唐?,并?yōu)化電子商務網(wǎng)站商品的擺放位置,可以有效的增加客戶的交易機會,將網(wǎng)站瀏覽者轉變?yōu)橘徺I者,提高交叉銷售能力,提高客戶的忠誠度,以及提高購物網(wǎng)站的服務質量和經濟效益。[0004]序列模式分析所要解決的問題是客戶在完成一次交易之后,在以后的特定時間內,還會購買什么商品,是發(fā)現(xiàn)交易之間關系規(guī)律的過程,使得售貨方能夠根據(jù)當前的商品買賣情況來預測以后的商品買賣情況,從而能夠更好的安排商品的擺放。它的主要目的是研宄商品購買的先后關系,找出其中的規(guī)律,即不僅需要知道商品是否被購買,而且需要確定該商品與其它商品購買的先后順序,例如,在線購買DVD的一個典型的順序是購買"星球大戰(zhàn)",之后很有可能繼續(xù)購買"帝國反擊戰(zhàn)",再是購買"杰達武士歸來"。因此序列模式能夠發(fā)現(xiàn)數(shù)據(jù)庫中某一段時間內的一個頻繁序列,即在這個時間段內哪些商品會被客戶購買的比較多,多或少的標準是由最小支持度來決定的。每個序列是按照交易的時間排列的一組集合,可以設置最小支持度來挖掘滿足不同頻繁程度的序列。但在應用序列模式分析客戶購買行為,解決個性化商品推薦問題時,他們僅考慮了已發(fā)生的事件,也稱為正序列模式(PositiveSequentialPattern,PSP)挖掘。[0005]與傳統(tǒng)的正序列模式(PositiveSequentialPattern,PSP)不同,負序列模式(NegativeSequentialPattern,NSP)挖掘不僅考慮了已經發(fā)生的事件,還關注于未發(fā)生事件,它能夠更深入地分析和理解數(shù)據(jù)中的潛在含義,從而挖掘出容易被人們忽略但是非常有價值的信息。例如:a代表面包,b代表咖啡,c代表茶,d代表糖,〈ab^cd〉表示一個客戶購買序列模式,該模式說明在某一段時間內,該客戶在購買了商品a、b后,在沒有購買商品c的情況下,購買了商品d。如今負序列模式的價值越來越被人們認可,在深入理解和處理許多商業(yè)應用方面,如對客戶購買行為分析方面,它更有一種不可替代的作用。[0006]目前,關于負序列模式挖掘算法的研宄成果較少,如,NSPM,PNSP,Neg-GSP,e-NSP等等。但是目前大多數(shù)的負序列挖掘算法的效率都很低,有很多困難擺在挖掘負模式面前,因為負模式不符合Apriori規(guī)則,因此不能用傳統(tǒng)的剪枝方法減少負候選序列的生成,所以大部分算法的負候選序列非常龐大,如PNSP和Neg-GSP。并且在計算負候選序列的支持度時往往需要重復掃描數(shù)據(jù)庫,這就帶來了極大的時空消耗,使得挖掘出負序列模式更為困難,因此我們就需要一個高效快速的負序列挖掘算法來解決目前的問題。目前e-NSP是較為高效的負序列挖掘算法,但是我們發(fā)現(xiàn)e-NSP中很大一部分的時間是消耗在了計算客戶ID的并集上面,為了更快提高挖掘負序列的效率,我們提出了一種更快的負模式算法,名為f-NSP。將f-NSP算法應用到客戶購買行為分析中,可以更快的找出商品交易間的負序列關系,從而給售貨方提供更好的銷售策略。[0007]以電子商務平臺中的網(wǎng)站用戶購買訂單數(shù)據(jù)為挖掘的數(shù)據(jù)源。[0008]以5個客戶在2個月內的交易為例,如表1是由客戶ID和交易時間為關鍵字所排序的事務數(shù)據(jù)庫。一個事務數(shù)據(jù)庫,一個事務代表一筆交易,一個單項代表交易的商品,單項屬性中的字母記錄的是商品ID。[0009]表1事務數(shù)據(jù)庫[0010]【主權項】1.一種快速的負序列挖掘模式在客戶購買行為分析中的應用,包括步驟如下:(1)對負包含的定義約束1,元素內部不允許有負項;約束2,不存在連續(xù)2個或2個以上的負元素;約束3,本應用挖掘的負序列其正偶序列是頻繁的;定義一個負侯選序列ns=〈a-bc_d>:MPS(ns)是指一個由客戶購買的商品組成的負序列ns的最大正子序列,其由ns中包含的所有正元素按照原順序組成;正偶P(ns),是指將一個由客戶購買的商品組成的負序列ns中的負元素全部轉化為對應的正元素;l-negMSns:負序列ns的子序列,并且該子序列是由MPS(ns)以及一個負元素組成;l-negMSSns:包含負序列ns的所有序列的集合;p(l-negMS):序列1-negMS中的正元素不變,將負元素轉換為相應的正元素;對于一個數(shù)據(jù)序列ds和一個大小為m并且含有n個負元素的序列ns,滿足所述的三個約束,且滿足以下條件,則ds包含ns:MPS(ns)eds;每一個1-negMS滿足/)(丨-wg/V/5");(2)利用f-NSP算法的步驟如下:首先,用正序列模式挖掘算法GSP挖掘得到所有的正序列模式,即在某一段時間內,客戶購買量大的商品,并且對每一個頻繁正序列都使用高效的位圖存儲結構來保存包含其的數(shù)據(jù)序列;然后,基于所述正序列模式生成相應的負侯選序列(negativesequentialcandidates,NSC);對所述位圖進行與、或、異或計算負候選支持度;再從所述負侯選序列里篩選出符合最小支持度要求的負序列模式,再用現(xiàn)有適當?shù)暮Y選方法將能用于決策的序列模式篩選出來,利用所述用于決策的序列模式對客戶的購買行為進行分析;商家根據(jù)分析結果針對客戶提供個性化服務,根據(jù)客戶購買習慣安排商品的推薦順序和頻率;(3)E-msNSP負侯選序列的生成改變正序列模式中任意不相鄰元素為負元素;(4)位圖存儲結構e-NSP算法的傳統(tǒng)數(shù)據(jù)結構是使用hashtable,用來存儲挖掘出來的頻繁正序列模式,值對應著包含此頻繁模式的數(shù)據(jù)序列的sid,將所述頻繁模式的數(shù)據(jù)序列的sid轉化為位圖格式存儲,將在計算支持度上更快的計算sid集合的并集和異或運算;表3.f-NSP數(shù)據(jù)結構_(5)計算負侯選序列的支持度大小為m并且含有n個負元素的序列ns,對于'Vl-negMSiel-negMSl(1彡i彡n),在序列數(shù)據(jù)庫D中ns的支持度sup(ns)是:若ns的大小為1,并且它只有1個負元素,則它的支持度為:sup(ns)=|D|-sup(p(ns))(i)若ns只包含一個負項,則序列ns的支持度是:sup(ns)=sup(MPS(ns))_sup(p(ns))(ii)其余的,ns的支持度為:sup(ns)=OBiBUlPS(ns))?-negMS(iii)其中,I是位圖的或運算符號,?是位圖的異或運算符號;(6)算法偽代碼所述f-NSP算法是基于正序列模式來挖掘負序列模式,算法f-NSP包括步驟如下:其中,輸入:D:客戶購買序列數(shù)據(jù)庫;min_sup最小項支持度;輸出:NSP:用于分析客戶購買行為的序列模式的集合;所述步驟(1)是用GSP等正序列挖掘算法從序列數(shù)據(jù)庫中挖掘出所有的正序列模式;所有的正侯選序列以及它的支持度和sid的位圖都被存儲到哈希表PSPHash;所述步驟(4)是對于每一個正序列模式,通過負侯選序列的生成方法來生成負侯選序列NSC;步驟(5)至步驟(17),通過公式(i)-(iii)計算出NSC中的每一個nsc的支持度;步驟(18)至步驟(19)然后判斷出哪些是負序列模式NSP;步驟(6)至步驟(9),通過公式(i)和公式(ii)計算出只含有一個負元素的nsc的支持度,對于包含多于一個負元素的nsc的支持度,通過公式(iii)計算出如步驟(9)至步驟(17);如果nsc.support〉=min_sup(nsc)那么nsc被加入到NSP中,如步驟(19)至步驟(19);返回結果,如步驟(22),再用適當?shù)暮Y選方法將能用于決策的序列模式篩選出來,利用這些篩選后的序列模式來分析客戶的購買行為?!緦@勘景l(fā)明提供一種快速的負序列挖掘模式在客戶購買行為分析中的應用。本發(fā)明提出一個名為f-NSP的快速算法來高效的挖掘負序列模式,所述算法的主要思想是首先通過正序列模式挖掘算法得到正序列模式,然后對每一個頻繁正序列都使用高效的位圖存儲結構來保存包含其的數(shù)據(jù)序列;之后使用與e-NSP同樣的生成負候選序列方法來生成負候選;最后,依托公式對數(shù)據(jù)位圖進行與、或、異或操作快速的計算負候選支持度,挖掘出滿足最小支持度的負序列模式,而無需再次掃描數(shù)據(jù)庫。利用這些篩選后的序列模式來分析客戶的購買行為,使得售貨方能夠根據(jù)當前的商品買賣情況來預測以后的商品買賣情況,從而能夠更好的安排商品的擺放,提高商品銷售量?!綢PC分類】G06Q30-02,G06F17-30【公開號】CN104574153【申請?zhí)枴緾N201510026575【發(fā)明人】董祥軍,宮永順【申請人】齊魯工業(yè)大學【公開日】2015年4月29日【申請日】2015年1月19日