一種基于簽到數(shù)據(jù)的用戶行為軌跡聚類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,特別是涉及一種基于簽到數(shù)據(jù)的用戶行為軌跡聚類方 法。
【背景技術(shù)】
[0002] 隨著我國國民經(jīng)濟(jì)的高速發(fā)展和城市化進(jìn)程的加快,交通擁堵已經(jīng)成為影響城市 可持續(xù)發(fā)展的一個(gè)全局性問題。為了解決交通擁堵,國家對(duì)城市道路交通基礎(chǔ)設(shè)施和交通 管理相當(dāng)重視,投入了大量的人力、物力、財(cái)力,經(jīng)過多年建設(shè),城市交通基礎(chǔ)設(shè)施已取得了 很大的成就。但是,隨著汽車保有量的激增,交通基礎(chǔ)設(shè)施的建設(shè)已經(jīng)滿足不了交通發(fā)展的 需要,城市道路擁堵和交通安全已成為迫切需要解決的難題。交通信息服務(wù)系統(tǒng)作為智能 交通的重要組成部分,可以通過提供快捷、有效的道路交通流信息,方便公眾出行,緩解交 通阻塞,提高道路通過能力,減少交通事故,降低能源消耗和減輕環(huán)境污染,滿足城市和諧 與持續(xù)發(fā)展的需要。
[0003] 公眾出行交通信息服務(wù)系統(tǒng)的本質(zhì)包括以下幾個(gè)方面:第一,在路網(wǎng)條件下,通過 先進(jìn)的技術(shù)手段采集交通信息;第二,對(duì)采集到的動(dòng)態(tài)交通信息進(jìn)行處理并為公眾出行提 供準(zhǔn)確、及時(shí)的道路交通流信息。資料表明,已經(jīng)建成的交通信息服務(wù)系統(tǒng)有電臺(tái)、可變情 報(bào)板、網(wǎng)站、手機(jī)短信等多種渠道,交通信息的內(nèi)容也比較豐富和準(zhǔn)確,但對(duì)于交通管理者 和出行者來說,目前的交通信息服務(wù)水平遠(yuǎn)遠(yuǎn)沒有達(dá)到交通參與者的需求。為了進(jìn)一步提 高出行者的出行效率,降低交通擁堵,學(xué)術(shù)界和工業(yè)界近期提出了構(gòu)建基于智能手機(jī)的交 通信息服務(wù)平臺(tái)的思想,希望通過對(duì)采集到的數(shù)據(jù)(如手機(jī)用戶簽到歷史數(shù)據(jù))進(jìn)行分析, 準(zhǔn)確刻畫公眾出行的行為特征,從而為用戶提供合適的出行線路,其關(guān)鍵技術(shù)之一在于設(shè) 計(jì)合適的基于用戶行為軌跡的聚類算法。
[0004] 在沒有先驗(yàn)知識(shí)的情況下,將物理或抽象對(duì)象的集合分成由類似對(duì)象組成的多個(gè) 類的過程稱為聚類。傳統(tǒng)的聚類分析計(jì)算方法主要有:劃分方法(如K-MEANS、K-MED0IDS、 CLARANS等算法);層次方法(如BIRCH、CURE、CHAMELEON等算法);基于密度的方法(如 DBSCAN、OPTICS、DENCLUE等算法);基于網(wǎng)格的方法(如STING、CLIQUE、WAVE-CLUSTER等算 法)。以上算法主要用來聚類時(shí)間無關(guān)的數(shù)值類型的數(shù)據(jù)。而時(shí)空軌跡聚類分析方法主要用 于處理移動(dòng)對(duì)象的時(shí)空軌跡數(shù)據(jù),通過從時(shí)空軌跡數(shù)據(jù)中提取相似性與異常,發(fā)現(xiàn)其中有 意義的模式,目的是將具有相似行為的時(shí)空對(duì)象劃分到一起,而將具有相異行為的時(shí)空對(duì) 象劃分開來,其關(guān)鍵是根據(jù)時(shí)空軌跡數(shù)據(jù)的特點(diǎn),設(shè)計(jì)與定義不同軌跡間的相似性度量方 法。根據(jù)所涉及的不同時(shí)間區(qū)間,可將現(xiàn)有的時(shí)空軌跡相似性度量方法劃分為以下幾種:時(shí) 間全區(qū)間相似(主要采用軌跡間歐式距離、最小外包矩形距離等相似性度量方法);全區(qū)間 變換對(duì)應(yīng)相似(主要有DTW方法);多子區(qū)間對(duì)應(yīng)相似(主要有最長公共子序列距離、編輯距 離等方法);單子區(qū)間對(duì)應(yīng)相似(主要有子軌跡聚類、時(shí)間聚焦聚類、移動(dòng)微聚類、移動(dòng)聚類 等方法);單點(diǎn)對(duì)應(yīng)相似(主要有歷史最近距離等方法);無時(shí)間區(qū)間對(duì)應(yīng)相似(主要有單向距 離、特征提取等方法)。這6類方法對(duì)于相似時(shí)間區(qū)間的要求是逐漸放松的,從要求時(shí)間全 區(qū)間相似,到局部時(shí)間區(qū)間相似,最后到無時(shí)間區(qū)間對(duì)應(yīng)相似,反映了時(shí)空軌跡相似性度量 方法的發(fā)展過程。分析表明,GPS日志可以持續(xù)跟蹤用戶的行為軌跡,而在基于位置服務(wù)的 社交網(wǎng)絡(luò)中,用戶僅在到達(dá)某位置后才簽到,沒有對(duì)用戶的行為軌跡進(jìn)行全程持續(xù)的跟蹤, 且用戶簽到具有一定的隨意性和重復(fù)性。同時(shí),用戶在不同位置上簽到次數(shù)差異較大,少數(shù) 用戶完成了大多數(shù)簽到,一些位置很少被簽到,數(shù)據(jù)呈現(xiàn)出稀疏性。除此之外,用戶的時(shí)空 行為隨時(shí)間在不斷變化,簽到日期越接近當(dāng)前,越能反映用戶當(dāng)前的行為軌跡。基于上述簽 到數(shù)據(jù)的特點(diǎn),需要我們?cè)O(shè)計(jì)合適的用戶行為軌跡聚類方法,以構(gòu)建基于智能手機(jī)的交通 信息服務(wù)系統(tǒng)。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明所要解決的技術(shù)問題是:針對(duì)手機(jī)簽到數(shù)據(jù)的特點(diǎn)以及構(gòu)建基于智能手機(jī) 的交通信息服務(wù)系統(tǒng)在用戶行為軌跡聚類方面存在的問題,如何創(chuàng)新地設(shè)計(jì)一種合適的基 于簽到數(shù)據(jù)的用戶行為軌跡聚類方法。
[0006] 為了解決上述問題,本發(fā)明公開了一種基于簽到數(shù)據(jù)的用戶行為軌跡聚類方法, 其技術(shù)方案包括以下步驟: 步驟1:獲取用戶簽到數(shù)據(jù),包括用戶ID、簽到位置、簽到時(shí)間以及簽到日期等; 步驟2 :對(duì)用戶簽到數(shù)據(jù)進(jìn)行預(yù)處理,包括無用數(shù)據(jù)過濾、類型轉(zhuǎn)換和格式統(tǒng)一; 步驟3 :簽到數(shù)據(jù)反映了用戶的時(shí)空行為方式,帶有時(shí)間標(biāo)記的簽到位置序列構(gòu)成了 用戶行為軌跡,在綜合考慮了用戶簽到日期的邊際效應(yīng)和簽到次數(shù)差異的影響的基礎(chǔ)上, 計(jì)算用戶在簽到位置上的簽到值; 步驟4 :任意選擇k個(gè)用戶作為初始聚類中心;對(duì)于剩下的其它用戶,采用余弦相似性 方法計(jì)算用戶與k個(gè)初始聚類中心的相似性,然后劃分到與其最相似的聚類; 步驟5 :在每個(gè)簇內(nèi),采用余弦相似性方法計(jì)算每個(gè)用戶與其余用戶的相似度之和,選 擇相似度和最大的用戶作為該簇新的聚類中心;當(dāng)k個(gè)新的聚類中心確定后,對(duì)于剩下的 其它用戶,采用余弦相似性方法計(jì)算用戶與k個(gè)新的聚類中心的相似性,然后劃分到與其 最相似的聚類; 步驟6 :重復(fù)步驟5,直到滿足預(yù)設(shè)聚類精度的要求。
[0007] 所述的基于簽到數(shù)據(jù)的用戶行為軌跡聚類方法,所述步驟3還包括: 步驟21 :把簽到日期的每一天都分成T個(gè)時(shí)間區(qū)間,cu,t,p=l表示用戶u曾經(jīng)在 時(shí)間區(qū)間t、位置p處簽到,c^p=0表示用戶u在時(shí)間區(qū)間t、位置p處沒有簽到,其 中teT,peL,L為用戶簽到位置的集合;在綜合考慮用戶簽到日期的邊際效應(yīng) 和簽到次數(shù)差異的影響的基礎(chǔ)上,將用戶u在時(shí)間區(qū)間t、位置p處的簽到值定義為
t為用戶u在時(shí)間區(qū)間t簽到的總次數(shù),Nu,t,p
為用戶u在時(shí)間區(qū)間t、位置p處簽到的次數(shù), 時(shí)間區(qū)間t、位置p、簽到日期為d的邊際效應(yīng)函數(shù),其中d。為當(dāng)前日期,Η為預(yù)先設(shè)定的閾 值,Η等于所有簽到日期中與當(dāng)前日期差值的絕對(duì)值的最大值。
[0008] 所述的基于簽到數(shù)據(jù)的用戶行為軌跡聚類方法,所述步驟4還包括:
的基礎(chǔ)上,用戶u和用戶ν在時(shí)間區(qū)間t、位置ρ處的簽到值。
[0009] 所述的基于簽到數(shù)據(jù)的用戶行為軌跡聚類方法,所述步驟6還包括: 步驟41 :聚類精度,是指采用余弦相似性方法計(jì)算當(dāng)前輪與上一輪對(duì)應(yīng)聚類中心的相 似性,然后求和;如果相似度和大于預(yù)設(shè)的閾值,則聚類迭代過程終止。
[0010] 與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn): (1)本發(fā)明采用了一種基于簽到數(shù)據(jù)的用戶行為軌跡聚類方法,與K均值聚類算法比 較,我們考慮了時(shí)間維度,將K均值聚類算法中點(diǎn)狀對(duì)象的相似性度量擴(kuò)展到線狀對(duì)象即 用戶行為軌跡的比較。同時(shí),在定義用戶之間的余弦相似性時(shí),我們把簽到時(shí)間、日期因素 弓丨入到傳統(tǒng)的"用戶-簽到位置"矩陣,變成了"用戶-簽到時(shí)間(日期)_簽到位置"立方體。 除此之外,在更新聚類中心時(shí),我們選擇了相似度和最大的用戶作為該簇新的聚類中心。
[0011] (2)為了體現(xiàn)用戶在不