一種軌跡數(shù)據(jù)中的頻繁子軌跡查找方法及裝置制造方法
【專利摘要】本發(fā)明適用于數(shù)據(jù)處理【技術領域】,提供了一種軌跡數(shù)據(jù)中的頻繁子軌跡查找方法及裝置,包括:分離軌跡數(shù)據(jù)中的空間信息和時間信息;將所述空間信息編碼成第一類字符,每個所述第一類字符用于表示一個地理位置;將所述時間信息編碼成第二類字符,每個所述第二類字符用于表示一段間隔時間;根據(jù)編碼成所述第一類字符的所述空間信息和編碼成所述第二類字符的所述時間信息,建立廣義后綴樹;查找所述廣義后綴樹中的頻繁子字符串;將查找出的所述頻繁子字符串轉換成頻繁子軌跡。本發(fā)明通過使用較為高效的字符串算法來處理較為復雜的多維數(shù)值數(shù)據(jù),使得整個頻繁子軌跡查找過程的計算復雜度大大降低。
【專利說明】一種軌跡數(shù)據(jù)中的頻繁子軌跡查找方法及裝置
【技術領域】
[0001]本發(fā)明屬于數(shù)據(jù)處理【技術領域】,尤其涉及一種軌跡數(shù)據(jù)中的頻繁子軌跡查找方法及裝置。
【背景技術】
[0002]軌跡數(shù)據(jù)就是時空環(huán)境下,通過對一個或者多個移動對象運動過程的采樣所獲得的數(shù)據(jù)信息,包括采樣點位置、采樣時間、速度等,這些采樣點數(shù)據(jù)信息根據(jù)采樣先后順序構成了軌跡數(shù)據(jù)。常見的軌跡數(shù)據(jù)包括車輛行駛軌跡、移動互聯(lián)網用戶的旅行軌跡、移動互聯(lián)網用戶的簽到軌跡,等等,海量的軌跡數(shù)據(jù)里蘊含著豐富的信息,其頻繁子軌跡可以表現(xiàn)大多數(shù)人的行為模式及習慣,或者表現(xiàn)氣候的變化規(guī)律等。
[0003]由于軌跡數(shù)據(jù)是數(shù)值數(shù)據(jù),不能直接套用目前已相當成熟的字符串頻繁子串的查找算法來查找軌跡數(shù)據(jù)中的頻繁子軌跡,因此,現(xiàn)有技術中大多直接對軌跡數(shù)據(jù)進行劃分并聚類,將長度為0(n)的軌跡劃分為0(n2)個子軌跡,再對這些子軌跡進行聚類分析來發(fā)現(xiàn)頻繁子軌跡,整個過程計算復雜度高,運算時間長。
【發(fā)明內容】
[0004]本發(fā)明實施例的目的在于提供一種軌跡數(shù)據(jù)中的頻繁子軌跡查找方法,旨在解決現(xiàn)有的在軌跡數(shù)據(jù)中查找頻繁子軌跡的算法計算復雜度高的問題。
[0005]本發(fā)明實施例是這樣實現(xiàn)的,一種軌跡數(shù)據(jù)中的頻繁子軌跡查找方法,包括:
[0006]分離軌跡數(shù)據(jù)中的空間信息和時間信息;
[0007]將所述空間信息編碼成第一類字符,每個所述第一類字符用于表示一個地理位置;
[0008]將所述時間信息編碼成第二類字符,每個所述第二類字符用于表示一段間隔時間;
[0009]根據(jù)編碼成所述第一類字符的所述空間信息和編碼成所述第二類字符的所述時間信息,建立廣義后綴樹;
[0010]查找所述廣義后綴樹中的頻繁子字符串;
[0011]將查找出的所述頻繁子字符串轉換成頻繁子軌跡。
[0012]本發(fā)明實施例的另一目的在于提供一種軌跡數(shù)據(jù)中的頻繁子軌跡查找裝置,包括:
[0013]分離單元,用于分離軌跡數(shù)據(jù)中的空間信息和時間信息;
[0014]第一編碼單元,用于將所述空間信息編碼成第一類字符,每個所述第一類字符用于表示一個地理位置;
[0015]第二編碼單元,用于將所述時間信息編碼成第二類字符,每個所述第二類字符用于表示一段間隔時間;
[0016]建立單元,用于根據(jù)編碼成所述第一類字符的所述空間信息和編碼成所述第二類字符的所述時間信息,建立廣義后綴樹;
[0017]查找單元,用于查找所述廣義后綴樹中的頻繁子字符串;
[0018]轉換單元,用于將查找出的所述頻繁子字符串轉換成頻繁子軌跡。
[0019]本發(fā)明實施例結合了數(shù)據(jù)挖掘技術、后綴樹算法以及非精確匹配,從而實現(xiàn)了較優(yōu)的軌跡數(shù)據(jù)中的頻繁子軌跡的查找,通過使用較為高效的字符串算法來處理較為復雜的多維數(shù)值數(shù)據(jù),使得整個頻繁子軌跡查找過程的計算復雜度大大降低。
【專利附圖】
【附圖說明】
[0020]圖1是本發(fā)明實施例提供的軌跡數(shù)據(jù)中的頻繁子軌跡查找方法的實現(xiàn)流程圖;
[0021]圖2是本發(fā)明實施例提供的軌跡數(shù)據(jù)中的頻繁子軌跡查找方法S102的具體實現(xiàn)流程圖;
[0022]圖3是本發(fā)明實施例提供的軌跡數(shù)據(jù)中的頻繁子軌跡查找方法對空間信息進行聚類的示意圖;
[0023]圖4是本發(fā)明實施例提供的軌跡數(shù)據(jù)中的頻繁子軌跡查找方法S103的具體實現(xiàn)流程圖;
[0024]圖5是本發(fā)明實施例提供的軌跡數(shù)據(jù)中的頻繁子軌跡查找方法建立的廣義后綴樹的不意圖;
[0025]圖6是本發(fā)明實施例提供的軌跡數(shù)據(jù)中的頻繁子軌跡查找裝置的結構框圖?!揪唧w實施方式】
[0026]為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結合附圖及實施例,對本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0027]圖1示出了本發(fā)明實施例提供的軌跡數(shù)據(jù)中的頻繁子軌跡查找方法的實現(xiàn)流程,詳述如下:
[0028]在SlOl中,分離軌跡數(shù)據(jù)中的空間信息和時間信息。
[0029]軌跡數(shù)據(jù)中包括了空間信息和時間信息,其中,空間信息一般包括所在位置的經度、緯度等,而時間信息通常通過unix時間戳進行表示。
[0030]表1為一段軌跡數(shù)據(jù)的具體示例,其中,記錄的時間信息為進入對應的經度及緯度的unix時間戳:
[0031]表1
[0032]
【權利要求】
1.一種軌跡數(shù)據(jù)中的頻繁子軌跡查找方法,其特征在于,包括: 分離軌跡數(shù)據(jù)中的空間信息和時間信息; 將所述空間信息編碼成第一類字符,每個所述第一類字符用于表示一個地理位置;將所述時間信息編碼成第二類字符,每個所述第二類字符用于表示一段間隔時間;根據(jù)編碼成所述第一類字符的所述空間信息和編碼成所述第二類字符的所述時間信息,建立廣乂后綴樹; 查找所述廣義后綴樹中的頻繁子字符串; 將查找出的所述頻繁子字符串轉換成頻繁子軌跡。
2.如權利要求1所述的方法,其特征在于,所述將所述空間信息編碼成第一類字符包括: 對所述空間信息進行聚類,生成N個簇,所述N為大于I的整數(shù); 分別確定生成的每個簇所對應的地理位置; 根據(jù)為生成的每個簇所對應的地理位置進行字符編碼,分別生成每個簇對應的所述第一類字符。
3.如權利要求1所述的方法,其特征在于,所述將所述時間信息編碼成第二類字符,每個所述第二類字符用于表示一段間隔時間包括: 將所述時間信息由時間戳轉換成間隔時間; 標準化所述間隔時間; 為每個標準化后的所述間隔時間匹配第二類字符。
4.如權利要求3所述的方法,其特征在于,所述為每個標準化后的所述間隔時間匹配第二類字符包括: 確定所述標準化后的所述間隔時間所在的預設數(shù)值區(qū)間的兩個數(shù)值端點; 將所述兩個數(shù)值端點分別對應的兩個第二類字符匹配給該標準化后的所述間隔時間。
5.如權利要求1所述的方法,其特征在于,在所述建立廣義后綴樹之后,所述查找所述廣義后綴樹中的頻繁子字符串之前,所述方法還包括: 為所述廣義后綴樹中的每個節(jié)點增加一個計數(shù)屬性,所述計數(shù)屬性用于對該節(jié)點對應的字符串在所述廣義后綴樹中出現(xiàn)的次數(shù)進行計數(shù); 所述查找所述廣義后綴樹中的頻繁子字符串包括: 將所述廣義后綴樹中的所述計數(shù)屬性大于預設閾值的節(jié)點所對應的字符串確定為所述頻繁子字符串。
6.一種軌跡數(shù)據(jù)中的頻繁子軌跡查找裝置,其特征在于,包括: 分離單元,用于分離軌跡數(shù)據(jù)中的空間信息和時間信息; 第一編碼單元,用于將所述空間信息編碼成第一類字符,每個所述第一類字符用于表示一個地理位置; 第二編碼單元,用于將所述時間信息編碼成第二類字符,每個所述第二類字符用于表示一段間隔時間; 建立單元,用于根據(jù)編碼成所述第一類字符的所述空間信息和編碼成所述第二類字符的所述時間信息,建立廣義后綴樹; 查找單元,用于查找所述廣義后綴樹中的頻繁子字符串;轉換單元,用于將查找出的所述頻繁子字符串轉換成頻繁子軌跡。
7.如權利要求6所述的裝置,其特征在于,所述第一編碼單元包括: 聚類子單元,用于對所述空間信息進行聚類,生成N個簇,所述N為大于I的整數(shù); 確定子單元,用于分別確定生成的每個簇所對應的地理位置; 編碼子單元,用于根據(jù)為生成的每個簇所對應的地理位置進行字符編碼,分別生成每個簇對應的所述第一類字符。
8.如權利要求6所述的裝置,其特征在于,所述第二編碼單元包括: 轉換子單元,用于將所述時間信息由時間戳轉換成間隔時間; 標準化子單元,用于標準化所述間隔時間; 匹配子單元,用于為每個標準化后的所述間隔時間匹配第二類字符。
9.如權利要求8所述的裝置,其特征在于,所述匹配子單元具體用于: 確定所述標準化后的所述間隔時間所在的預設數(shù)值區(qū)間的兩個數(shù)值端點; 將所述兩個數(shù)值端點分別對應的兩個第二類字符匹配給該標準化后的所述間隔時間。
10.如權利要求6所述的裝置,其特征在于,所述裝置還包括: 增加單元,用于為所述廣義后綴樹中的每個節(jié)點增加一個計數(shù)屬性,所述計數(shù)屬性用于對該節(jié)點對應的字符串在所述廣義后綴樹中出現(xiàn)的次數(shù)進行計數(shù); 所述查找單元具體用 于: 將所述廣義后綴樹中的所述計數(shù)屬性大于預設閾值的節(jié)點所對應的字符串確定為所述頻繁子字符串。
【文檔編號】G06F17/30GK103744861SQ201310687107
【公開日】2014年4月23日 申請日期:2013年12月12日 優(yōu)先權日:2013年12月12日
【發(fā)明者】黃鑫, 羅軍 申請人:深圳先進技術研究院