国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種時(shí)空軌跡的模式挖掘方法

      文檔序號:6544221閱讀:1124來源:國知局
      一種時(shí)空軌跡的模式挖掘方法
      【專利摘要】本發(fā)明涉及一種時(shí)空軌跡的模式挖掘方法,其特征在于方法包括的步驟為:A、根據(jù)現(xiàn)有的時(shí)空點(diǎn)進(jìn)行數(shù)據(jù)統(tǒng)計(jì),根據(jù)原始信息進(jìn)行數(shù)據(jù)預(yù)處理,從而生成時(shí)空軌跡;B、將生成的時(shí)空軌跡進(jìn)行模式挖掘,所述的挖掘方法在于重新定義了時(shí)空相似性的度量方法,將時(shí)空相似性演變?yōu)闀r(shí)空距離來進(jìn)行計(jì)算;C、時(shí)空相似度的特征集只包含時(shí)間和空間兩個(gè)元素;D、沿用PrefixSpan方法,使用步驟B定義的時(shí)空相似性,得到頻繁項(xiàng),即用戶頻繁走動(dòng)的路線、地點(diǎn);E、將采集到的信息存儲(chǔ)時(shí)采用了一種可變換的隨機(jī)靈活的存儲(chǔ)方式,即偽投影的存儲(chǔ)方式;F、最后將用本發(fā)明所涉及的方法挖掘到的頻繁項(xiàng)在系統(tǒng)平臺(tái)得以展示。本發(fā)明采用了PrefixSpan方法的邏輯結(jié)構(gòu),保證軌跡模式中時(shí)空點(diǎn)的有序性。
      【專利說明】一種時(shí)空軌跡的模式挖掘方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及一種數(shù)據(jù)挖掘技術(shù),更確切地說是一種在節(jié)點(diǎn)移動(dòng)情況下對時(shí)空軌跡的模式挖掘方法。
      [0002]背景介紹
      [0003]所述的時(shí)空軌跡的模式挖掘,即對個(gè)人用戶的大量歷史軌跡進(jìn)行挖掘,從而找出滿足閾值要求(最小頻繁度)的頻繁時(shí)空序列。比如,當(dāng)廣告商想到一類用戶進(jìn)行廣告投遞,將廣告牌放置在哪里被看到的可能性最大?而當(dāng)?shù)弥?dāng)前時(shí)刻在路段A上的交通情況,如何綜合路段A上所有用戶的駕駛信息預(yù)測出下一時(shí)刻路段B的交通狀況并對這些要進(jìn)入擁堵路段B的用戶進(jìn)行提醒?事實(shí)上,還有許許多多類似的問題,但是綜合起來就是:對于某個(gè)人來說,他/她走的最多的路線是哪條?或者,當(dāng)確定了起點(diǎn)為A,終點(diǎn)為B時(shí),已知他的歷史信息,最可能會(huì)選擇哪條路線?以上幾種假設(shè)即是時(shí)空軌跡模式挖掘的最實(shí)際應(yīng)用。
      [0004]而時(shí)空關(guān)聯(lián)點(diǎn)分析是側(cè)重于時(shí)空點(diǎn)之間的連通性分析,它的實(shí)現(xiàn)基于已得到的頻繁時(shí)空序列。然而現(xiàn)有的傳統(tǒng)序列模式挖掘方法均不能滿足要求。
      [0005]例如,Apriori方法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的方法。依據(jù)項(xiàng)集的兩個(gè)基本性質(zhì),即:1)頻繁項(xiàng)集的所有非空子集必然是頻繁項(xiàng)集;2)任何非頻繁項(xiàng)集的超集也是非頻繁項(xiàng)集。這樣,在挖掘過程中就產(chǎn)生了大量的候選項(xiàng)集,并且需要反復(fù)掃描相應(yīng)存儲(chǔ)數(shù)據(jù)的序列數(shù)據(jù)庫。
      [0006]在當(dāng)前的大數(shù)據(jù)時(shí)代,當(dāng)數(shù)據(jù)量不斷增長時(shí),就暴露出了一個(gè)巨大的缺點(diǎn),由于候選項(xiàng)集巨大,需要存儲(chǔ)的數(shù)據(jù)非常之多,使得數(shù)據(jù)庫的存儲(chǔ)量非常大,并且對存儲(chǔ)在數(shù)據(jù)庫中的信息進(jìn)行查詢時(shí)需要掃描很久,所以該方法的計(jì)算量將呈現(xiàn)指數(shù)級的爆炸性增長。這對于大批量的移動(dòng)數(shù)據(jù)來說,無疑是一個(gè)不可能實(shí)現(xiàn)的任務(wù)。
      [0007]又如,F(xiàn)P增長方法是一種試圖通過不產(chǎn)生候選頻繁項(xiàng)集的方法稱為頻繁模式增長,簡稱FP增長。它首先將提供頻繁項(xiàng)的數(shù)據(jù)庫壓縮到一棵頻繁模式樹(或者FP樹),但仍然保留項(xiàng)集關(guān)聯(lián)信息。然后將壓縮后的數(shù)據(jù)庫劃分成一組條件數(shù)據(jù)庫(一種特殊的類型的投影數(shù)據(jù)庫),每個(gè)關(guān)聯(lián)一個(gè)頻繁項(xiàng),并分別挖掘每個(gè)條件數(shù)據(jù)庫。
      [0008]這個(gè)方法雖然效率提高了許多,但對于時(shí)空軌跡模式的挖掘卻仍然不合適,因?yàn)樵谒龇椒ㄖ兴玫降哪J絻?nèi)部,元素的順序是沒有嚴(yán)格規(guī)定的,它只是反映出了空間上的先后順序,沒有涉及時(shí)間元素,但是時(shí)空數(shù)據(jù)挖掘?qū)@點(diǎn)要求很高。比如某人上午出現(xiàn)在A地,而下午出現(xiàn)在C地,晚上又出現(xiàn)在B地。在FP增長方法的存儲(chǔ)中只有(ABC)這一種存儲(chǔ)方式,而我們需要的是ACB這種存儲(chǔ)方式,所以這是一個(gè)常識性的時(shí)空序列,也只有在時(shí)間和空間性的約束下才會(huì)有意義,所以由此看來這種方法也是不合適的。
      [0009]從上述兩種方法看出,一種基于目前數(shù)據(jù)量大的、能包括時(shí)間與空間的新型軌跡表示方法有待提出,基于模式增長的方法不但可以快速的挖掘出頻繁序列模式,而且還能保證模式內(nèi)部的有序性?;谀J皆鲩L的方法是首先找出各個(gè)頻繁項(xiàng),然后產(chǎn)生投影數(shù)據(jù)庫的集合,每個(gè)投影數(shù)據(jù)庫關(guān)聯(lián)一個(gè)頻繁項(xiàng)。每個(gè)數(shù)據(jù)庫進(jìn)行單獨(dú)的挖掘。其中最好的就是PrefixSpan方法,即前綴投影序列模式增長。[0010]在所述的方法中本發(fā)明擬采用前綴模式,與后綴模式關(guān)聯(lián)得到頻繁模式,從而避免產(chǎn)生大量的候選集,防止因所需存儲(chǔ)的數(shù)據(jù)量太大而無法實(shí)施或者掃描數(shù)據(jù)庫時(shí)需要花費(fèi)太多時(shí)間。所述的方法僅僅檢測稱為前綴的前段序列片,將數(shù)據(jù)庫在這個(gè)前綴上投影,挖掘其中的頻繁項(xiàng),然后擴(kuò)充到前綴中,繼續(xù)發(fā)掘,直到挖掘出所有的頻繁序列。相比于Apriori方法在時(shí)空效率上有了較大的提高。從而構(gòu)筑成本發(fā)明的構(gòu)思。

      【發(fā)明內(nèi)容】

      [0011]本發(fā)明的目的在于提供一種時(shí)空軌跡的模式挖掘方法,本發(fā)明所述的一種時(shí)空軌跡的模式挖掘方法是利用了 PrefixSpan方法的優(yōu)勢,重新定義了時(shí)空相似性的度量方法,沿用PrefixSpan方法的優(yōu)點(diǎn),不產(chǎn)生候選序列,從而減少了需要存儲(chǔ)的數(shù)據(jù)量并使得存儲(chǔ)方式關(guān)聯(lián)到時(shí)間元素和空間元素兩大特性。這種方法能夠在諸多的軌跡中判斷出哪些軌跡是最相似的,隨后根據(jù)這些軌跡生成用戶最頻繁移動(dòng)的路線,隨后應(yīng)用于工業(yè)化中。
      [0012]本發(fā)明所述的時(shí)空軌跡模式的挖掘方法,其特征在于:
      [0013]A、時(shí)空軌跡的模式挖掘方法包括以下步驟:
      [0014]I)根據(jù)現(xiàn)有的時(shí)空點(diǎn)進(jìn)行數(shù)據(jù)統(tǒng)計(jì),具體是根據(jù)原始信息進(jìn)行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)集成、數(shù)據(jù)清理、數(shù)據(jù)變換,從而生成時(shí)空軌跡;
      [0015]2)將生成的時(shí)空軌跡進(jìn)行模式挖掘,所述的挖掘方法的創(chuàng)新之處在于重新定義了時(shí)空相似性的度量方法,將時(shí)空相似性演變?yōu)闀r(shí)空距離來進(jìn)行計(jì)算;
      [0016]3)重新定義時(shí)空相似度的特征集只包含時(shí)間和空間兩個(gè)元素,從而給出時(shí)空相似性的方法;
      [0017]4)根據(jù)本發(fā)明所描述的方法進(jìn)行時(shí)空軌跡模式挖掘,沿用最新的PrefixSpan方法所描述的原理,使用步驟2)定義時(shí)空相似性,得到頻繁項(xiàng),即用戶頻繁走動(dòng)的路線、地
      占.[0018]5)將采集到的信息存儲(chǔ)時(shí)采用了一種可變換的隨機(jī)靈活的存儲(chǔ)方式,即偽投影方法;
      [0019]6)最后將用本發(fā)明所涉及的方法所挖掘到的頻繁項(xiàng)在系統(tǒng)平臺(tái)得以展示;
      [0020]B、所述的方法利用了 PrefixSpan方法的優(yōu)勢,重新定義了時(shí)空相似性的度量方法,沿用PrefixSpan算法的優(yōu)點(diǎn),不產(chǎn)生候選序列;
      [0021]C、所述的方法能夠判斷出哪些軌跡是最相似,隨之綜合這些軌跡得到最頻繁的移動(dòng)路線;
      [0022]D、所述的頻繁項(xiàng)即在本次挖掘中頻繁被搜索出來的項(xiàng)。例如在超市中可以挖掘出某一種商品經(jīng)常被購買,用戶的走動(dòng)路線中哪一條線路的車流量巨大等等。所謂頻繁項(xiàng)集,即所有頻繁項(xiàng)的集合,比如超市購買物品的頻繁項(xiàng)集可以寫為牛奶、面包或雞蛋;
      [0023]E、所述的方法其時(shí)空相相似度的特征集只有兩個(gè)元素:時(shí)間和空間。
      [0024]F、所述的方法相似性是時(shí)空距離的一種變換,所以時(shí)空相似性的計(jì)算方法為:
      [0025]SpatiTemporalDistance(Pointl, Point2)=SpaceDistance (Pointl,Poin t2)*k+TimeDifference(Pointl, Point2)*(1-k), 0 ^ k ^ I ;
      [0026] G、所述的PrefixSpan方法的核心在于以SDB劃分搜索空間,分別挖掘含有這些頻繁序列為前綴的長度為K+1的頻繁序列,直到挖掘結(jié)果為空;[0027]H、所述的方法會(huì)產(chǎn)生許多投影數(shù)據(jù)庫,每個(gè)頻繁的前綴子序列對應(yīng)一個(gè)。偽投影可以記錄對應(yīng)序列的索引(或標(biāo)識符)以及序列中投影后綴的起始位置,而不是建立物理投影;
      [0028]1、所述的序列的物理投影被記錄序列的標(biāo)識符和投影位置的索引點(diǎn)所取代;
      [0029]J、所述的方法分為三個(gè)部分,第一部分為程序的入口,即聲明并初始化序列標(biāo)識符的進(jìn)行,第二部分為遞歸調(diào)用的方法的主體,它主要是實(shí)現(xiàn)時(shí)空軌跡模式挖掘,第三部分為在系統(tǒng)平臺(tái)的實(shí)現(xiàn);
      [0030]K、所述軌跡的生成方法為:
      [0031]1)將已有的點(diǎn)進(jìn)行數(shù)據(jù)統(tǒng)計(jì),即發(fā)現(xiàn)頻繁點(diǎn);
      [0032]2)把位置、時(shí)間相鄰的點(diǎn)合并,產(chǎn)生進(jìn)出時(shí)間序列;如,(Ai, Starttime1-Gndtimei);
      [0033]3)按此分段規(guī)則,將起點(diǎn)和終點(diǎn)加入到軌跡中;
      [0034]4)截?cái)嘬壽E;
      [0035]L、所述的方法中采用了 PrefixSpan方法的邏輯結(jié)構(gòu),所以可以保證軌跡模式中時(shí)空點(diǎn)的有序性。同時(shí)因?yàn)樵撍惴◣в蠥priori性質(zhì),能夠利用頻繁度的一些基本性質(zhì)對可能情況進(jìn)行快速剪裁,且利用了新的自定義時(shí)空相似度測量方法,所以是正確且高效的。
      [0036]通常所說的時(shí)空相似度是兩個(gè)人或者兩條軌跡都在確定的某一個(gè)時(shí)間點(diǎn)或者某個(gè)時(shí)間段都經(jīng)過了 A點(diǎn)(這其中既包括了時(shí)間元素又包含空間元素),時(shí)空相似性的評價(jià)與數(shù)據(jù)挖掘的聚類分析中的特征集距離量化有些相似的,只不過時(shí)空相似度中特征集只有兩個(gè)元素:時(shí)間和空間。所以在本發(fā)明中相似性也就是時(shí)空距離SpatiTemporalDistance的一種變換,所以時(shí)空距離Distance計(jì)算方法就是SpatiTemporalDistance (Pointl, Point2)=SpaceDistance(Pointl, Point2)*k+TimeDifference(Pointl, Point2)*(1-k), 0 ^ k^ 10在具體實(shí)例中,k可以調(diào)整。
      [0037]設(shè)序列數(shù)據(jù)庫為S,它是元組〈sequencelD, sequence〉的集合。其中sequence為一
      個(gè)序列,sequencelD為其編號。而sequence又可以定義為一些事件的有序集G1, e2, e3......>,其中每一個(gè)ei (I ^ i ^n)代表的是一個(gè)事件序列中的一個(gè)事件。比如在購物的序列數(shù)據(jù)庫中,S為用戶所有的消費(fèi)記錄,sequencei為在第i條記錄中購買行為的序列,e」為在第i條記錄中的第j次消費(fèi)行為。
      [0038]首先來定義序列的包含關(guān)系,A是B的子序列,如果存在整數(shù)I ( J^j2……
      <jm ( η,使得 aigbji,a2gbj2.,......, amQ5jm。 如 A=〈a, be, d>, B=sequence=<sd, abc, bcn,
      f, sd>。而包含關(guān)系則是指在序列A滿足上述的子序列定義的情況下,元組〈sequencelD,sequence)包含了序列A,或者說,序列A在序列數(shù)據(jù)庫S中有一次出現(xiàn)。而序列A在序列數(shù)據(jù)庫S中的頻繁度為數(shù)據(jù)庫中包含A的元組的個(gè)數(shù)。所以,如果某個(gè)序列sequencePattern是一個(gè)序列模式,即頻繁序列,貝1J必須滿足:在S中sequencePattern的頻繁度大于最小頻繁度閾值,即S中sequencePattern出現(xiàn)的次數(shù)會(huì)大于某個(gè)給定的最小值。
      [0039]在得到了最初的原始數(shù)據(jù)以后對數(shù)據(jù)進(jìn)行預(yù)處理,根據(jù)上述的序列模式生成符合要求的時(shí)空軌跡序列,生成時(shí)空軌跡的存儲(chǔ)模式參照附圖2。
      [0040]a.對軌跡進(jìn)行分段,定義軌跡的起點(diǎn)和終點(diǎn)。如果在某地的時(shí)間超過某段時(shí)間,則該點(diǎn)即為當(dāng)前軌跡的終點(diǎn),而如果該點(diǎn)與其下一個(gè)點(diǎn)的時(shí)間距離不超過某個(gè)閥值(Interval)時(shí),貝U其也為下一條軌跡的起始點(diǎn);
      [0041]b.軌跡的重定義。不同于GPS的完整性,其側(cè)重于起始點(diǎn)和終點(diǎn)的參與度;
      [0042]c.根據(jù)起始點(diǎn)和終點(diǎn)相關(guān)的POI (Point of Interest興趣點(diǎn)),關(guān)注并挖掘背景知識;
      [0043]故定義軌跡T如下:
      [0044](A1, Starttimerendtime1) (A2, starttime2-endtime2)...(An,starttimen_endtimen).[0045]然后我們沿用Prefix方法及上述的時(shí)空相似度的計(jì)算方法對上述形成的時(shí)空軌跡進(jìn)行挖掘,以SDB劃分搜索空間,分別挖掘含有這些頻繁序列為前綴長度為K+1的頻繁序列,直到挖掘結(jié)果為空。
      [0046]在這個(gè)過程中,本發(fā)明所述的方法的特征在于在挖掘過程中不產(chǎn)生候選序列,然而可能生成許多投影數(shù)據(jù)庫,每個(gè)頻繁的前綴子序列對應(yīng)一個(gè)。如果投影必須產(chǎn)生一個(gè)新的數(shù)據(jù)庫,那隨之而來會(huì)生成較多數(shù)量的數(shù)據(jù)庫。
      [0047]由此可見,本發(fā)明所述的時(shí)空軌跡本質(zhì)是一個(gè)時(shí)空點(diǎn)的序列。對于時(shí)空軌跡模式,不但需要滿足一般序列模式的要求,同時(shí),還要滿足以下特點(diǎn):
      [0048]I)序列中的每個(gè)點(diǎn)都帶有嚴(yán)格的時(shí)間性質(zhì),如進(jìn)入時(shí)間,離開時(shí)間,持續(xù)時(shí)間;
      [0049]2)序列中的每個(gè)時(shí)空點(diǎn)就是一個(gè)獨(dú)立的事件ei;
      [0050]3)兩個(gè)序列中的時(shí)空點(diǎn)ei,ej進(jìn)行匹配時(shí),傳統(tǒng)的相似性度量標(biāo)準(zhǔn)已經(jīng)不適用,所以必須定義新的測距方法;
      [0051]4)與一般的序列模式不同,時(shí)空軌跡模式挖掘中必須依據(jù)背景信息,對所得到的模式進(jìn)行過濾和篩選;
      [0052]本發(fā)明所述的方法是在挖掘過程中不產(chǎn)生候選序列,然而可能生成許多投影數(shù)據(jù)庫,每個(gè)頻繁的前綴子序列對應(yīng)一個(gè)。如果投影數(shù)據(jù)必須物理地產(chǎn)生,則遞歸構(gòu)建了大量投影數(shù)據(jù)庫就成了本發(fā)明所述的方法的主要開銷。
      [0053]所以本發(fā)明所述的方法中采用了一種稱為偽投影的存儲(chǔ)方式,所述偽投影是指序列的物理投影被記錄序列的標(biāo)識符和投影位置的索引點(diǎn)所取代。當(dāng)偽投影可以在內(nèi)存中實(shí)現(xiàn),投影的開銷顯著降低,如果偽投影基于硬盤訪問,就不那么有效了。如果原始軌跡數(shù)據(jù)庫或者投影數(shù)據(jù)庫太大,不能放到內(nèi)存中,應(yīng)使用物理投影,一旦投影數(shù)據(jù)庫能放到內(nèi)存中時(shí),應(yīng)該使用偽投影。
      [0054]因?yàn)椴捎昧?PrefixSpan方法的邏輯結(jié)構(gòu),所以可以保證軌跡模式中時(shí)間與空間元素結(jié)合的特性,保證了時(shí)空點(diǎn)的有序性。同時(shí)因?yàn)楸景l(fā)明所述的方法帶有Apriori性質(zhì),能夠利用頻繁度的一些基本性質(zhì)對可能情況進(jìn)行快速剪裁,且利用了新的自定義時(shí)空相似度測量方法,所以是正確且高效的,這也正是這種方法的實(shí)用之處,如果采用原傳統(tǒng)方法,首先由于數(shù)據(jù)存儲(chǔ)量較大,所以實(shí)施起來是很困難的。其次傳統(tǒng)方法不能保證時(shí)間元素和空間元素的共存性,常常顧此失彼,不能很好地展現(xiàn)用戶移動(dòng)的地點(diǎn)和路線。所以本發(fā)明所述的方法不僅實(shí)用而且高效,而非純計(jì)算方法,雖本發(fā)明包含智力活動(dòng)的規(guī)則和方法的內(nèi)容,但又包含相應(yīng)的技術(shù)特征。
      【專利附圖】

      【附圖說明】[0055]圖1為時(shí)空軌跡模式挖掘在整個(gè)數(shù)據(jù)處理的過程;
      [0056]圖2為時(shí)空軌跡模式挖掘結(jié)果可視化;
      [0057]圖3時(shí)空軌跡模式挖掘運(yùn)行過程。
      [0058]具體實(shí)施方法
      [0059]下面通過【專利附圖】
      附圖
      【附圖說明】及【具體實(shí)施方式】進(jìn)一步闡明本發(fā)明的實(shí)質(zhì)性特點(diǎn)和顯著的進(jìn)步,但本發(fā)明決非僅局限于實(shí)施例。
      [0060]圖1展示了新型時(shí)空軌跡模式挖掘處理數(shù)據(jù)的過程,首先將收集到的原始數(shù)據(jù)(如手機(jī)位置數(shù)據(jù)、GPS信號數(shù)據(jù)等)進(jìn)行數(shù)據(jù)預(yù)處理,這個(gè)過程包括數(shù)據(jù)集成、數(shù)據(jù)清理、數(shù)據(jù)變換,將所收集到的雜亂數(shù)據(jù)轉(zhuǎn)化為整齊、統(tǒng)一的數(shù)據(jù)庫存儲(chǔ)格式,隨后生成時(shí)空軌跡。利用新型時(shí)空軌跡挖掘方法挖掘出時(shí)空軌跡的頻繁項(xiàng)(即個(gè)人經(jīng)常走動(dòng)的地點(diǎn)或者路線),并時(shí)行時(shí)空關(guān)聯(lián)分析。根據(jù)這些信息進(jìn)行情景感知和預(yù)測,并在系統(tǒng)中加以展示,將個(gè)人位置信息可視化(即在google地圖上得以展示)。
      [0061]依圖1數(shù)據(jù)挖掘過程為:
      [0062]I)、讀入序列數(shù)據(jù)庫SDB (SDB為此數(shù)據(jù)庫名稱)及最小頻繁度閾值(一般從I開始);
      [0063]2)、預(yù)設(shè)第一次序列長度K=I,從映射數(shù)據(jù)庫中發(fā)現(xiàn)長度為K的頻繁序列集SDBjB圖所示首先挖掘頻繁項(xiàng)為a或b或c的頻繁項(xiàng)形成一個(gè)數(shù)據(jù)庫,頻繁序列是數(shù)據(jù)庫中發(fā)生次數(shù)不小于閾值的序列;
      [0064]3)、分別挖掘含有這些頻繁序列為前綴的長度為K+1的頻繁序列,即在形成的前綴為a的子數(shù)據(jù)庫中再添加一個(gè)頻繁項(xiàng),即繼續(xù)在子數(shù)據(jù)庫中搜索前綴為ab的頻繁項(xiàng),如果挖掘結(jié)果為空,則停止;
      [0065]4)、將序列長度K增加1,將3)所找到的L賦予SDB,再轉(zhuǎn)到3);
      [0066]5 )、記錄并輸出所有挖掘到的頻繁序列。
      [0067]圖2顯示了用戶名為91961的用戶在幾個(gè)基站區(qū)域位置的時(shí)間次數(shù),從他移動(dòng)的路線可以看出他走動(dòng)的范圍。
      [0068]圖3展示了時(shí)空軌跡模式挖掘的過程。由該圖可以看出,群體用戶在h時(shí)刻(或時(shí)段)經(jīng)過A地點(diǎn)4次,在t2時(shí)刻(或時(shí)段)經(jīng)過B地點(diǎn)4次,在t3時(shí)刻(或時(shí)段)經(jīng)過C地點(diǎn)4次。最終原始數(shù)據(jù)經(jīng)過生成的時(shí)空軌跡如右側(cè)框圖中所示。
      [0069]本發(fā)明所述的挖掘方法分為三個(gè)部分,第一部分為程序的入口,聲明并初始化序列標(biāo)識符的進(jìn)行;第二部分為遞歸調(diào)用的方法主體,主要是實(shí)現(xiàn)時(shí)空軌跡模式挖掘,第三部分即與實(shí)際系統(tǒng)平臺(tái)得以應(yīng)用。
      [0070]第一部分:初始化主調(diào)方法GetFrequentSet如下:
      [0071]IGetFrequentSet(ChosenNumber, setlnterval)
      [0072]2for i — Ito sequenceSet.Count// 初始化標(biāo)識符數(shù)組,設(shè)為 03doinitiallndex.Add(O)
      [0073]4ProcessProjectedDB(intialIndex, setFrequency)// 即將開始方法調(diào)用分析
      [0074]本步驟是將所有的標(biāo)識歸置到原始位置,說明數(shù)組的初始狀態(tài),準(zhǔn)備開始進(jìn)行軌跡挖掘。
      [0075]第二部分基于模式增長的時(shí)空數(shù)據(jù)挖掘方法的描述如下:[0076]ProcessProjectedDB (sequencelndex, frequency, preStr)
      [0077]Ifor i — Ito sequencelndex.Count//首先統(tǒng)計(jì)每一類時(shí)空點(diǎn)出現(xiàn)的頻率
      [0078]2do if sequencelndex [i] <sequenceSet [i].Count// 如果標(biāo)識符未超過該序列的長度
      [0079]3then for j — IsequenceIndex[i] to sequenceSet [i].Count//統(tǒng)計(jì)投影數(shù)據(jù)庫
      [0080]4do Count the number of each space-time point as a Term.By comparing theSpatiTemporalDistance(Pointl, Point2)with a threshold to know if the two pointsare similar.[0081]5for each term in termCount
      [0082]6do if number (term) >frequency
      [0083]7then if frequentSet.ContainsKey (preStr+term) =FALSE//模式不存在時(shí)添加
      [0084]8Then frequentPatternSet.Add (preStr+term,number (term))
      [0085]9for k — Ito sequencelndex.Count//更新標(biāo)識符數(shù)組
      [0086]IOdo fori — sequencelndex [k] to sequenceSet [k].Count//尋找下一個(gè)索引
      [0087]lido Find the index of current term in sequenceSet[k]
      [0088]12and Get the new sequencelndex to newlndex
      [0089]13ProcessPro jectedDB (newlndex, frequency, preStr) // 遞歸調(diào)用
      [0090]本步驟首先統(tǒng)計(jì)了每一類時(shí)空點(diǎn)出現(xiàn)的頻率,如果所統(tǒng)計(jì)的時(shí)空點(diǎn)標(biāo)識符沒有超過所規(guī)定的長度,則將標(biāo)識符投影到數(shù)據(jù)庫中進(jìn)行存儲(chǔ),并進(jìn)行數(shù)據(jù)預(yù)處理,即進(jìn)行數(shù)據(jù)集成、數(shù)據(jù)清洗、數(shù)據(jù)變換。如果時(shí)空點(diǎn)標(biāo)識符超過所規(guī)定的長度,則說明這個(gè)模式不存在,則繼續(xù)尋找下一個(gè)標(biāo)識符。最終結(jié)果保存于模式集合中,每個(gè)模式的形式如下:
      [0091](Ci1, Ume1) (ci2,time2) (cia,timea)......(cinJ timen):Number
      [0092]其中Cii表示所處基站的標(biāo)號ID,timei為進(jìn)入用戶該基站的時(shí)間,而Number則表示該模式的頻繁度(即此模式在此次挖掘中第幾次出現(xiàn))。
      [0093]第三部分與實(shí)際系統(tǒng)平臺(tái)結(jié)合的應(yīng)用
      [0094]本部分將所述的方法應(yīng)用于一個(gè)實(shí)際系統(tǒng)平臺(tái)。當(dāng)有一份新數(shù)據(jù)到來時(shí),可以通過數(shù)據(jù)預(yù)處理將其加入到一個(gè)數(shù)據(jù)庫中進(jìn)行統(tǒng)一管理。而后由新數(shù)據(jù)觸發(fā)軌跡生成處理模塊,得到最新的移動(dòng)軌跡數(shù)據(jù)。數(shù)據(jù)挖掘模塊可以作為單獨(dú)的一個(gè)處理邏輯,它包含了各種挖掘處理所需要的算法與控制機(jī)制。同時(shí)為保證系統(tǒng)的高效性,也將該模塊的一些挖掘結(jié)果存入數(shù)據(jù)庫中,以便需要時(shí)直接訪問。
      【權(quán)利要求】
      1.一種時(shí)空軌跡的模式挖掘方法,其特征在于包括以下步驟: A、根據(jù)現(xiàn)有的時(shí)空點(diǎn)進(jìn)行數(shù)據(jù)統(tǒng)計(jì),根據(jù)原始信息進(jìn)行數(shù)據(jù)預(yù)處理,從而生成時(shí)空軌跡; B、將生成的時(shí)空軌跡進(jìn)行模式挖掘,所述的挖掘方法在于重新定義了時(shí)空相似性的度量方法,將時(shí)空相似性演變?yōu)闀r(shí)空距離來進(jìn)行計(jì)算; C、時(shí)空相似度的特征集只包含時(shí)間和空間兩個(gè)元素; D、沿用PrefixSpan方法,使用步驟B定義的時(shí)空相似性,得到頻繁項(xiàng),即用戶頻繁走動(dòng)的路線、地點(diǎn); E、將采集到的信息存儲(chǔ)時(shí)采用了一種可變換的隨機(jī)靈活的存儲(chǔ)方式,即偽投影的存儲(chǔ)方式; F、最后將用本發(fā)明所涉及的方法挖掘到的頻繁項(xiàng)在系統(tǒng)平臺(tái)得以展示。
      2.根據(jù)權(quán)利要求1所述的方法,其特征在于沿用PrefixSpan方法,不產(chǎn)生候選序列。
      3.根據(jù)權(quán)利要求1所述的方法,其特征在于能夠判斷出哪些軌跡是最相似,隨之都過綜合這些軌跡得到最頻繁的移動(dòng)路線。
      4.根據(jù)權(quán)利要求1所述的方法,其特征在于在所述的挖掘方法中頻繁被搜索出的頻繁項(xiàng)的集合,稱之頻繁項(xiàng)集。
      5.根據(jù)權(quán)利要求1所述的方法,其特征在于所述的相似性是時(shí)空距離的一種變換,所以時(shí)空相似性的計(jì)算方法為 SpatiTemporalDistance (Pointl, Point2) =SpaceDistance (Pointi, Point2)*k+TimeDifference(Pointl, Point2)* (1-k), 0 ^ k ^ I。
      6.根據(jù)權(quán)利要求1所述的方法,其特征在于所述偽投影是指序列的物理投影被記錄序列的標(biāo)識符和投影位置的索引點(diǎn)所取代。
      【文檔編號】G06F17/30GK103914563SQ201410157418
      【公開日】2014年7月9日 申請日期:2014年4月18日 優(yōu)先權(quán)日:2014年4月18日
      【發(fā)明者】劉燁, 張帥, 趙魯陽, 王金芳, 劉新, 吉艷冰 申請人:中國科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
      1