国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      時間序列數據的周期挖掘方法

      文檔序號:8430861閱讀:1074來源:國知局
      時間序列數據的周期挖掘方法
      【技術領域】
      [0001]本發(fā)明涉及一種時間序列數據的周期挖掘方法,屬于計算機模式識別與數據挖掘技術領域。
      【背景技術】
      [0002]隨著技術的發(fā)展,移動的物體有很多種方式被監(jiān)測到,從而產生了大量移動數據。我們可以通過定位系統獲取一個人的移動數據;動物學家也可以通過定位系統來獲取野生動物的數據以得到它們的移動模式。而交通傳感器已經被大量安裝在了各種道路上以及十字路口處,通常是監(jiān)測一小段時間里車的平均速度和交通流量,來產生大量需要分析的數據。
      [0003]這里主要有兩類移動數據:一個是個體的,一個是總和的。在個體數據或者說是面向單個對象的交通數據,我們可以分開來分析出單個對象的某些模式,在總和數據中,個體特征不再能夠被偵測,而集體特征則能夠被分析。
      [0004]時間序列數據挖掘有很多不同應用,比如道路交通數據挖掘,能夠幫助我們更好地管理城市的交通以及確定哪里需要修建新的道路,還能夠將大量復雜的交通數據變成可以應用的知識,來讓人們選擇兩個地點之間最佳的出行路線。然而從原始數據中挖掘出這些信息面臨很多挑戰(zhàn):首先數據量很大,可能很短的時間間隔就收集兩次,并且受外部因素影響,數據含有很多噪聲,采集失敗導致部分數據缺失;其次,除去數據部分的原因,真實世界里的數據的模式也很復雜,可能有多種模式,或者多種模式相互影響,導致很難給它們建模。
      [0005]其中移動物體數據模式挖掘中一種很重要經常用到的模式就是周期,發(fā)現移動物體周期性行為對總結了解和總結物體的移動模式很重要,我們可以只存儲行為特征而不必存儲所有數據,實際應用中挖掘交通流量的周期存在兩個難點:(I)某個模式不一定每次都在準確一個點上重復,可能是在鄰近時間點重復;(2)這里可能有多個周期,周期與周期之間會相互覆蓋相互影響,使他們很難被挖掘出來。類似地,諸如水文數據、地震觀測數據、氣候數據等的周期挖掘中同樣存在這樣的問題。
      [0006]現有時間序列數據周期挖掘的方法主要是傅里葉變換和自相關函數方法,這兩種方法都能很有效地對適量的均勻采樣的數據進行周期提取,然而,對于處理采樣不均勻得到的不完整數據,這兩種方法存在很大的局限性,并且當數據量動態(tài)增長時,增加了數據量,也大大增加了計算時間。

      【發(fā)明內容】

      [0007]本發(fā)明所要解決的技術問題在于克服現有技術不足,提供一種時間序列數據的周期挖掘方法,可有效解決觀測數據不均勻所帶來的周期確定不準確的問題,且算法簡單,實時性更好。
      [0008]本發(fā)明時間序列數據的周期挖掘方法,包括以下步驟: 步驟1、對原始時間序列數據進行預處理,將其劃分為N個不同的等級,每個數據賦予相應的等級值,從而得到預處理后的時間序列,N為大于2的整數;
      步驟2、設定一系列不同的候選周期,并按照以下方法計算每一個候選周期的綜合指標:步驟2-1、按照該周期對預處理后的時間序列進行劃分,并將所得到的各時間片進行疊加,從而在該候選周期的疊加后時間片的每個時間戳上得到一個等級值集合;
      步驟2-2、以每個時間戳所對應的等級值集合中眾數所占的比例作為該時間戳的重疊度指標,并選出重疊度指標大于預設重疊度閾值的時間戳作為有效時間戳;
      步驟2-3、將具有相同眾數且連續(xù)的有效時間戳合并為密集域;對每個等級值,統計其在密集域中作為眾數出現的頻次與其在預處理后的時間序列中出現的總頻次之間的比值,并以N個等級值的比值之和或者N個等級值的比值均值作為該候選周期的綜合指標;
      步驟3、從具有最大綜合指標的候選周期中選出最小的候選周期作為原始時間序列數據的周期。
      [0009]上述技術方案可用于離線或在線的周期挖掘,為了充分利用最新的流量數據對周期進行實時更新,本發(fā)明進一步提出了以下技術方案:
      如上所述周期挖掘方法,還包括:
      步驟4、當新增數據的時間跨度達到步驟3所確定的周期時,則按照以下方法計算新增數據的迎合度:按照步驟I的方法對新增數據進行預處理,得到預處理后的新增數據時間片;根據步驟3所確定周期的密集域位置,從預處理后的新增數據時間片中選出與步驟3所確定周期的密集域相對應的時間戳,然后比較所選出的每個時間戳的等級值是否等于其所對應的密集域的眾數,如是,則迎合度加1,如否,則迎合度減I ;所選出的時間戳全部比較完成后即得到新增數據的迎合度;
      步驟5、比較新增數據的迎合度是否大于預設迎合度閾值,如是,則轉至步驟4,繼續(xù)計算下一個周期新增數據的迎合度;如否,則從新增數據的最后位置開始,向前截取一段預設長度的數據作為新的原始時間序列數據,轉至步驟I。
      [0010]相比現有技術,本發(fā)明及其進一步改進技術方案具有以下有益效果:
      (1)解決觀測數據不均勻問題:由于設備等客觀因素,往往會導致采集數據殘缺,存在噪聲,以往的方法均只對均勻采樣有效,而本發(fā)明使用概率分布的方法,可以很好解決這個問題,同時算法更簡單,實時性更好;
      (2)數據隨著時間不斷增長,舊數據的作用可能沒有新數據強,而不斷進行周期計算,計算量較大,而本發(fā)明采用在線增量式更新方法則能很好地解決實時周期更新問題。
      【附圖說明】
      [0011]圖1是本發(fā)明一個優(yōu)選實施例的基本原理示意圖;
      圖2是本發(fā)明優(yōu)選實施例具體實現算法的流程示意圖;
      圖3是本發(fā)明優(yōu)選實施例中的車流量采樣數據時間序列圖;
      圖4是本發(fā)明優(yōu)選實施例中車流量采樣數據分等級后的時間序列圖;
      圖5是本發(fā)明優(yōu)選實施例中車流量候選周期綜合指數折線圖。
      【具體實施方式】
      [0012]下面結合附圖對本發(fā)明的技術方案進行詳細說明:
      本發(fā)明針對現有技術在觀測數據不均勻的條件下難以獲得準確周期的不足,提出了一種時間序列數據的周期挖掘方法,采用概率分布估計的方式進行周期挖掘,可在觀測數據不均勻的條件下獲得準確周期,且算法更簡單,實時性更好;在此基礎上,本發(fā)明進一步采用在線增量式更新方式解決實時周期更新問題,使得在線周期更新所花費的資源和時間更少。
      [0013]下面以本發(fā)明方法在交通流量數據分析中的應用為例進行進一步說明。
      [0014]本發(fā)明一個優(yōu)選實施例的基本原理如圖1所示,其具體包括以下步驟:
      步驟1、對原始交通流量數據進行預處理,將其劃分為N個不同的流量等級,每個數據賦予相應的流量等級值,從而得到預處理后的時間序列,N為大于2的整數;經實際驗證發(fā)現,對于交通流量數據的周期挖掘而言,N的較佳取值范圍為5?8 ;
      步驟2、設定一系列不同的候選周期,并按照以下方法計算每一個候選周期的綜合指標:步驟2-1、按照該周期對所述時間序列進行劃分,并將所得到的各時間片進行疊加,從而在該候選周期的疊加后時間片的每個時間戳上得到一個流量等級值集合;
      步驟2-2、以每個時間戳所對應的流量等級值集合中眾數所占的比例作為該時間戳的重疊度指標,并選出重疊度指標大于預設重疊度閾值的時間戳作為有效時間戳;
      步驟2-3、將具有相同眾數且連續(xù)的有效時間戳合并為密集域;對每個流量等級值,統計其在密集域中作為眾數出現的頻次與其在預處理后的時間序列中出現的總頻次之間的比值,并以N個流量等級值的比值之和或者N個流量等級值的比值均值作為該候選周期的綜合指標;
      步驟3、從具有最大綜合指標的候選周期中選出最小的候選周期作為交通流量數據的周期;
      步驟4、當新增交通流量數據的時間跨度達到步驟3所確定的周期時,則按照以下方法計算新增交通流量數據的迎合度:按照步驟I的方法對新增交通流量數據進行預處理,得到預處理后的新增交通流量數據時間片;根據步驟3所確定周期的密集域位置,從預處理后的新增交通流量數據時間片中選出與步驟3所確定周期的密集域相對應的時間戳,然后比較所選出的每個時間戳的流量等級值是否等于其所對應的密集域的眾數,如是
      當前第1頁1 2 
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1