r>[0042] 例如,劃分單元120可以首先對(duì)每個(gè)停留點(diǎn)的主題分布和邊界劃分值進(jìn)行初始 化,然后迭代地調(diào)整每個(gè)停留點(diǎn)的主題分布和邊界劃分值,直到每個(gè)停留點(diǎn)的主題分布和 所有的邊界劃分值變得穩(wěn)定。優(yōu)選地,劃分單元120以隨機(jī)方式對(duì)每個(gè)停留點(diǎn)的主題分布 和邊界劃分值進(jìn)行初始化,并基于特定原則迭代地調(diào)整每個(gè)停留點(diǎn)的主題分布和邊界劃分 值,直到每個(gè)停留點(diǎn)的主題分布和所有的邊界劃分值變得穩(wěn)定。以下,通過(guò)LDA模型為例來(lái) 描述劃分單元120的操作。然而,本領(lǐng)域技術(shù)人員可以理解,還可以通過(guò)其他各種模型來(lái)實(shí) 現(xiàn)劃分單元120的操作。
[0043] 某于LDA樽型的劃分橾作
[0044] 本示例所描述的自適應(yīng)劃分模型是在LDA模型基礎(chǔ)上做出的改進(jìn)。具體說(shuō)來(lái),基 于以下3個(gè)原則來(lái)構(gòu)建本申請(qǐng)的LDA自適應(yīng)劃分模型:
[0045] 1 :位置越近的停留點(diǎn)越可能被劃分到同一個(gè)片段內(nèi)。
[0046] 2 :位置轉(zhuǎn)移規(guī)律越強(qiáng)的停留點(diǎn)越可能被劃分到同一個(gè)片段內(nèi)。例如A和B兩個(gè)停 留點(diǎn),從位置A轉(zhuǎn)移到位置B (即A->B)的可能性越大,它們被劃分到同一個(gè)片段內(nèi)的可能 性也越大。否則,如果A和B之間的位置轉(zhuǎn)移規(guī)律不強(qiáng)(有時(shí)A->B,有時(shí)B->A,有時(shí)A->C->B 等),那么它們被劃分到同一個(gè)片段內(nèi)的可能性會(huì)變小。
[0047] 3 :如果一個(gè)停留點(diǎn)的停留時(shí)間越長(zhǎng),該點(diǎn)成為軌跡劃分的邊界的可能性越大。 [0048] 可以使用基于采樣的算法來(lái)求解。這一類采樣算法通過(guò)對(duì)模型中的隱藏變量進(jìn)行 米樣,構(gòu)建一個(gè)平穩(wěn)的馬爾可夫鏈,從而生成目標(biāo)概率分布的樣本。在整個(gè)模型中,有兩個(gè) 隱變量(即每個(gè)停留點(diǎn)對(duì)應(yīng)的主題,以及在每個(gè)停留點(diǎn)是否進(jìn)行切分的指示變量Ci)是未 知的,其他的變量都是已知變量。因此,求解過(guò)程就是生成這兩個(gè)隱變量的過(guò)程。具體過(guò)程 如下:
[0049] 1)首先,初始化每個(gè)停留點(diǎn)的主題分布和指示每個(gè)停留點(diǎn)是否為劃分邊界點(diǎn)的參 數(shù)Ci (取值為0或1,Ci=O表示第i個(gè)停留點(diǎn)不是軌跡劃分的邊界,Ci=I表示第i個(gè)停留 點(diǎn)是軌跡劃分的邊界)。
[0050] 2)利用Gibbs采樣算法,即:對(duì)任意一個(gè)停留點(diǎn),在以其他停留點(diǎn)(除當(dāng)前要采樣 的點(diǎn)以外)的主題分布和所有停留點(diǎn)的指示變量為已知的基礎(chǔ)上,采樣得到該停留點(diǎn)對(duì)應(yīng) 的主題。然后,在以其他停留點(diǎn)(除當(dāng)前要采樣的點(diǎn)以外)的指示變量Ci和所有停留點(diǎn)的 主題分布為已知的基礎(chǔ)上,基于上述3個(gè)原則對(duì)該停留點(diǎn)的指示變量Ci進(jìn)行采樣,得到該 停留點(diǎn)的指示變量Ci的值。
[0051] 3)重復(fù)上述第2步,直至所有變量的取值穩(wěn)定不變。最后,輸出停留點(diǎn)的主題分布 和指示變量Ci。
[0052] 聚類單元130被配置為對(duì)劃分后的停留點(diǎn)序列片段進(jìn)行聚類,以獲得個(gè)體活動(dòng)模 式。由于用戶的活動(dòng)規(guī)律在時(shí)間和空間上都具有多樣性,即使同樣主題的活動(dòng),其停留點(diǎn)序 列也并不會(huì)每次都完全一樣,所以需要使用聚類單元130將類似的活動(dòng)序列片段聚成一類 來(lái)表示。
[0053] 在本申請(qǐng)中,活動(dòng)模式可以用序列模式來(lái)表示,也可以用非序列模式來(lái)表示。作為 示意性示例,以下僅介紹非序列的活動(dòng)模式的聚類,其結(jié)果為非序列的活動(dòng)模式。
[0054] 聚類單元130可以將每一個(gè)停留點(diǎn)序列片段用向量來(lái)表示,并且對(duì)所有的向量進(jìn) 行聚類,以獲得個(gè)體活動(dòng)模式。該向量的維數(shù)表示停留點(diǎn)序列片段中的停留點(diǎn)的數(shù)目。該向 量中每一個(gè)元素表示與該元素相對(duì)應(yīng)的停留點(diǎn)的停留時(shí)間。例如向量Seg(Tl,T2,T3,… Tm),其中m是向量的維數(shù),即該用戶活動(dòng)歷史中所有停留點(diǎn)的數(shù)目,每個(gè)停留點(diǎn)可以用一 個(gè)數(shù)字來(lái)表示,共m個(gè)。Ti是在該序列片段中,用戶在第i個(gè)停留點(diǎn)的停留時(shí)間。如果Ti 值為〇,表示用戶在該活動(dòng)序列片段中未到過(guò)停留點(diǎn)i。
[0055] 在以下的示例中,描述了聚類單元130基于K一means算法對(duì)所有的序列片段向量 進(jìn)行聚類的過(guò)程。然而,本領(lǐng)域技術(shù)人員可以理解,還可以通過(guò)其他各種算法來(lái)實(shí)現(xiàn)聚類單 元130的聚類操作。
[0056] (1)從序列片段向量集合中隨機(jī)選取k個(gè)向量作為質(zhì)心,每個(gè)質(zhì)心代表一類。
[0057] (2)計(jì)算集合中剩余的每個(gè)向量到每個(gè)質(zhì)心的距離,并把該向量歸到距離最近的 質(zhì)心的類。其中,距離的度量用歐式距離。兩個(gè)向量Segl和Seg2的距離的計(jì)算公式為 :
[0058]
【主權(quán)項(xiàng)】
1. 一種用于挖掘個(gè)體活動(dòng)模式的設(shè)備,包括: 計(jì)算單元,被配置為根據(jù)個(gè)體的歷史位置數(shù)據(jù)來(lái)計(jì)算個(gè)體的停留點(diǎn),形成包含停留時(shí) 間的停留點(diǎn)序列; 劃分單元,被配置為根據(jù)個(gè)體活動(dòng)的主題將停留點(diǎn)序列劃分為相應(yīng)的停留點(diǎn)序列片 段;以及 聚類單元,被配置為對(duì)劃分后的停留點(diǎn)序列片段進(jìn)行聚類,以獲得個(gè)體活動(dòng)模式。
2. 根據(jù)權(quán)利要求1所述的設(shè)備,其中,所述計(jì)算單元被配置為: 對(duì)個(gè)體的歷史位置數(shù)據(jù)進(jìn)行聚類; 計(jì)算個(gè)體在與特定類別相對(duì)應(yīng)的區(qū)域中的停留時(shí)間;以及 如果所述停留時(shí)間大于指定閾值,判斷與所述特定類別相對(duì)應(yīng)的區(qū)域是停留點(diǎn)。
3. 根據(jù)權(quán)利要求1所述的設(shè)備,其中,所述劃分單元被配置為: 對(duì)每個(gè)停留點(diǎn)的主題分布和邊界劃分值進(jìn)行初始化;以及 迭代地調(diào)整每個(gè)停留點(diǎn)的主題分布和邊界劃分值,直到每個(gè)停留點(diǎn)的主題分布和所有 的邊界劃分值變得穩(wěn)定。
4. 根據(jù)權(quán)利要求1所述的設(shè)備,其中,所述聚類單元被配置為: 將每一個(gè)停留點(diǎn)序列片段用向量來(lái)表示,并且對(duì)所有的向量進(jìn)行聚類,以獲得個(gè)體活 動(dòng)模式。
5. 根據(jù)權(quán)利要求2所述的設(shè)備,其中,所述計(jì)算單元被配置為:使用基于密度的聚類算 法,對(duì)個(gè)體的歷史位置數(shù)據(jù)進(jìn)行聚類。
6. 根據(jù)權(quán)利要求3所述的設(shè)備,其中,所述劃分單元被配置為: 以隨機(jī)方式對(duì)每個(gè)停留點(diǎn)的主題分布和邊界劃分值進(jìn)行初始化;以及 基于特定原則,迭代地調(diào)整每個(gè)停留點(diǎn)的主題分布和邊界劃分值,直到每個(gè)停留點(diǎn)的 主題分布和所有的邊界劃分值變得穩(wěn)定。
7. 根據(jù)權(quán)利要求6所述的設(shè)備,其中,所述特定原則包括: 兩個(gè)停留點(diǎn)的位置越接近,被劃分到同一個(gè)停留點(diǎn)序列片段中的概率越大; 兩個(gè)停留點(diǎn)之間的位置轉(zhuǎn)移規(guī)律越強(qiáng),被劃分到同一個(gè)停留點(diǎn)序列片段中的概率越 大;以及 某個(gè)停留點(diǎn)的停留時(shí)間越長(zhǎng),該停留點(diǎn)成為劃分邊界的概率越大。
8. 根據(jù)權(quán)利要求4所述的設(shè)備,其中,所述向量的維數(shù)表示停留點(diǎn)序列片段中的停留 點(diǎn)的數(shù)目,所述向量中每一個(gè)元素表示與該元素相對(duì)應(yīng)的停留點(diǎn)的停留時(shí)間。
9. 根據(jù)權(quán)利要求4所述的設(shè)備,其中,所述聚類單元被配置為:使用K一means算法對(duì) 所有的向量進(jìn)行聚類。
10. 根據(jù)權(quán)利要求3所述的設(shè)備,其中,所述劃分單元被配置為:使用吉布斯采樣算法, 迭代地調(diào)整每個(gè)停留點(diǎn)的主題分布和邊界劃分值,直到每個(gè)停留點(diǎn)的主題分布和所有的邊 界劃分值變得穩(wěn)定。
11. 一種用于挖掘個(gè)體活動(dòng)模式的方法,包括: 根據(jù)個(gè)體的歷史位置數(shù)據(jù)來(lái)計(jì)算個(gè)體的停留點(diǎn),形成包含停留時(shí)間的停留點(diǎn)序列; 根據(jù)個(gè)體活動(dòng)的主題將停留點(diǎn)序列劃分為相應(yīng)的停留點(diǎn)序列片段;以及 對(duì)劃分后的停留點(diǎn)序列片段進(jìn)行聚類,以獲得個(gè)體活動(dòng)模式。
12. 根據(jù)權(quán)利要求11所述的方法,其中,計(jì)算個(gè)體的停留點(diǎn)包括: 對(duì)個(gè)體的歷史位置數(shù)據(jù)進(jìn)行聚類; 計(jì)算個(gè)體在與特定類別相對(duì)應(yīng)的區(qū)域中的停留時(shí)間;以及 如果所述停留時(shí)間大于指定閾值,判斷與所述特定類別相對(duì)應(yīng)的區(qū)域是停留點(diǎn)。
13. 根據(jù)權(quán)利要求11所述的方法,其中,將停留點(diǎn)序列劃分為相應(yīng)的停留點(diǎn)序列片段 包括: 對(duì)每個(gè)停留點(diǎn)的主題分布和邊界劃分值進(jìn)行初始化;以及 迭代地調(diào)整每個(gè)停留點(diǎn)的主題分布和邊界劃分值,直到每個(gè)停留點(diǎn)的主題分布和所有 的邊界劃分值變得穩(wěn)定。
14. 根據(jù)權(quán)利要求11所述的方法,其中,所述聚類包括: 將每一個(gè)停留點(diǎn)序列片段用向量來(lái)表示,并且對(duì)所有的向量進(jìn)行聚類,以獲得個(gè)體活 動(dòng)模式。
15. 根據(jù)權(quán)利要求12所述的方法,其中,計(jì)算個(gè)體的停留點(diǎn)包括:使用基于密度的聚類 算法,對(duì)個(gè)體的歷史位置數(shù)據(jù)進(jìn)行聚類。
16. 根據(jù)權(quán)利要求13所述的方法,其中,將停留點(diǎn)序列劃分為相應(yīng)的停留點(diǎn)序列片段 包括: 以隨機(jī)方式對(duì)每個(gè)停留點(diǎn)的主題分布和邊界劃分值進(jìn)行初始化;以及 基于特定原則,迭代地調(diào)整每個(gè)停留點(diǎn)的主題分布和邊界劃分值,直到每個(gè)停留點(diǎn)的 主題分布和所有的邊界劃分值變得穩(wěn)定。
17. 根據(jù)權(quán)利要求16所述的方法,其中,所述特定原則包括: 兩個(gè)停留點(diǎn)的位置越接近,被劃分到同一個(gè)停留點(diǎn)序列片段中的概率越大; 兩個(gè)停留點(diǎn)之間的位置轉(zhuǎn)移規(guī)律越強(qiáng),被劃分到同一個(gè)停留點(diǎn)序列片段中的概率越 大;以及 某個(gè)停留點(diǎn)的停留時(shí)間越長(zhǎng),該停留點(diǎn)成為劃分邊界的概率越大。
18. 根據(jù)權(quán)利要求14所述的方法,其中,所述向量的維數(shù)表示停留點(diǎn)序列片段中的停 留點(diǎn)的數(shù)目,所述向量中每一個(gè)元素表示與該元素相對(duì)應(yīng)的停留點(diǎn)的停留時(shí)間。
19. 根據(jù)權(quán)利要求14所述的方法,其中,對(duì)劃分后的停留點(diǎn)序列片段進(jìn)行聚類包括:使 用K一means算法對(duì)所有的向量進(jìn)行聚類。
20. 根據(jù)權(quán)利要求13所述的方法,其中,使用吉布斯采樣算法,迭代地調(diào)整每個(gè)停留點(diǎn) 的主題分布和邊界劃分值,直到每個(gè)停留點(diǎn)的主題分布和所有的邊界劃分值變得穩(wěn)定。
【專利摘要】本發(fā)明提供了一種用于挖掘個(gè)體活動(dòng)模式的設(shè)備,包括:計(jì)算單元,被配置為根據(jù)個(gè)體的歷史位置數(shù)據(jù)來(lái)計(jì)算個(gè)體的停留點(diǎn),形成包含停留時(shí)間的停留點(diǎn)序列;劃分單元,被配置為根據(jù)個(gè)體活動(dòng)的主題將停留點(diǎn)序列劃分為相應(yīng)的停留點(diǎn)序列片段;以及聚類單元,被配置為對(duì)劃分后的停留點(diǎn)序列片段進(jìn)行聚類,以獲得個(gè)體活動(dòng)模式。還提供了一種用于挖掘個(gè)體活動(dòng)模式的方法。本發(fā)明可以挖掘出非固定長(zhǎng)度內(nèi)的個(gè)體活動(dòng)模式,而且能挖掘出更全面的具有代表性的個(gè)體活動(dòng)模式。
【IPC分類】G06F17-30
【公開(kāi)號(hào)】CN104731795
【申請(qǐng)?zhí)枴緾N201310705722
【發(fā)明人】李曼, 胡衛(wèi)松
【申請(qǐng)人】日本電氣株式會(huì)社
【公開(kāi)日】2015年6月24日
【申請(qǐng)日】2013年12月19日