一種時間序列分類方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及實際序列數(shù)據(jù)挖掘領(lǐng)域,更具體的說是涉及一種時間序列分類方法和
目.0
【背景技術(shù)】
[0002]時間序列是某種現(xiàn)象或統(tǒng)計指標(biāo)在不同時間點上的各個數(shù)據(jù),按照時間順序排列而成的有序序列。
[0003]隨著數(shù)據(jù)時代的到來,快速有效地對雜亂無章的時間序列進行分類尤為重要。時間序列的分類問題一直是時間序列數(shù)據(jù)挖掘領(lǐng)域重點研宄的方向之一,時間序列的分類問題可以分解為兩個子問題,即如何對時間序列進行的表示(或者如何用一定的存儲空間容納更多的時間序列),以及如何將待測時間序列與已知類別的時間序列進行對比從而確定待測數(shù)據(jù)的類別。
[0004]當(dāng)前通常將分段矢量量化引入時間序列的分類問題中,在生成碼詞后引入歐氏距離進行未知時間序列的重構(gòu),并通過計算重構(gòu)時間序列與訓(xùn)練樣例間的歐氏距離來判斷未知樣例的類別。但是,歐氏距離易受模式特征量綱的影響,可能會導(dǎo)致分類精度的降低。
【發(fā)明內(nèi)容】
[0005]有鑒于此,本發(fā)明提供一種時間序列分類方法和裝置,該方法引入馬氏距離來判斷待測時間序列的類別,提高了分類精度。
[0006]為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
[0007]一種時間序列分類方法,包括:
[0008]對待測時間序列和所有已知類別的樣本時間序列進行分段處理,得到多個待測時間序列子序列和多個樣本時間序列子序列;
[0009]對所有樣本時間序列子序列進行聚類處理,得到多個碼詞;
[0010]從所述多個碼詞中確定與所述待測時間子序列馬氏距離最短的第一碼詞,以及與所述樣本時間序列子序列馬氏最短的第二碼詞;
[0011]利用所述第一碼詞替代對應(yīng)的待測時間子序列,所述第二碼詞替代對應(yīng)的樣本時間序列子序列,對待測時間序列和所有樣本時間序列進行重構(gòu),得到重構(gòu)待測時間序列和多個重構(gòu)樣本時間序列;
[0012]計算所述重構(gòu)待測時間序列與各個重構(gòu)樣本時間序列之間馬氏距離,將最短馬氏距離對應(yīng)的重構(gòu)時間序列的類別作為待測時間序列的類別。
[0013]優(yōu)選的,所述對待測時間序列和所有已知類別的樣本時間序列進行分段處理,包括:
[0014]對待測時間序列和所述已知類別的樣本時間序列進行同等分段處理。
[0015]優(yōu)選的,所述對所有樣本時間訓(xùn)練子序列進行聚類處理,得到多個碼詞,具體包括:
[0016]采用K均值聚類算法對所有樣本時間序列子序列進行聚類處理,生成K個聚類中心,將所述聚類中心作為所述碼詞。
[0017]優(yōu)選的,所述從所述多個碼詞中確定與所述待測時間子序列馬氏距離最短的第一碼詞,包括:
[0018]基于馬氏距離算法,計算所述待測時間子序列與各個碼詞之間的馬氏距離;
[0019]確定所有馬氏距離中最短的馬氏距離對應(yīng)碼詞為所述第一碼詞。
[0020]優(yōu)選的,所述從所述多個碼詞中確定與所述樣本時間序列子序列馬氏最短的第二碼詞,包括:
[0021]基于馬氏距離算法,計算所述樣本時間序列子序列與各個碼詞之間的馬氏距離;
[0022]確定所有馬氏距離中最短的馬氏距離對應(yīng)的碼詞為所述第二碼詞。
[0023]優(yōu)選的,所述計算所述重構(gòu)待測時間序列與各個重構(gòu)樣本時間序列之間馬氏距離,包括:
[0024]計算各個碼詞間的馬氏距離,構(gòu)建碼詞距離矩陣;
[0025]根據(jù)所述碼詞距離矩陣,計算所述重構(gòu)待測時間序列與各個重構(gòu)樣本時間序列之間馬氏距離。
[0026]一種時間序列分類裝置,包括:
[0027]時間序列預(yù)處理單元,用于對待測時間序列和所有已知類別的樣本時間序列進行分段處理,得到多個待測時間序列子序列和多個樣本時間序列子序列;
[0028]碼詞生成單元,用于對所有樣本時間序列子序列進行聚類處理,得到多個碼詞;
[0029]篩選單元,用于從所述多個碼詞中確定與所述待測時間子序列馬氏距離最短的第一碼詞,以及與所述樣本時間序列子序列馬氏最短的第二碼詞;
[0030]時間序列重構(gòu)單元,用于利用所述第一碼詞替代對應(yīng)的待測時間子序列,所述第二碼詞替代對應(yīng)的樣本時間序列子序列,對待測時間序列和所有樣本時間序列進行重構(gòu),得到重構(gòu)待測時間序列和多個重構(gòu)樣本時間序列;
[0031]時間序列分類單元,用于計算所述重構(gòu)待測時間序列與各個重構(gòu)樣本時間序列之間馬氏距離,將最短馬氏距離對應(yīng)的重構(gòu)時間序列的類別作為待測時間序列的類別。
[0032]優(yōu)選的,所述篩選單元包括:
[0033]第一計算子單元,用于基于馬氏距離算法,計算所述待測時間子序列與各個碼詞之間的馬氏距離,以及計算所述樣本時間序列子序列與各個碼詞之間的馬氏距離;
[0034]第一碼詞確定子單元,用于從待測時間子序列與各個碼詞之間的馬氏距離中,確定最短馬氏距離對應(yīng)的碼詞為第一碼詞;
[0035]第二碼詞確定子單元,用于從樣本時間序列子序列與各個碼詞之間的馬氏距離中,確定最短馬氏距離對應(yīng)的碼詞為第二碼詞。
[0036]優(yōu)選的,所述時間序列分類單元包括:
[0037]矩陣構(gòu)建子單元,用于計算各個碼詞間的馬氏距離,構(gòu)建碼詞距離矩陣;
[0038]第二計算子單元,用于根據(jù)所述碼詞距離矩陣,計算所述重構(gòu)待測時間序列與各個重構(gòu)樣本時間序列之間馬氏距離;
[0039]分類子單元,用于確定最短馬氏距離對應(yīng)的重構(gòu)時間序列,并將該重構(gòu)時間序列的類別作為待測時間序列的類別。
[0040]經(jīng)由上述的技術(shù)方案可知,本發(fā)明公開了一種時間序列分類方法和裝置。該方法在對待測時間序列和所有已知類別的樣本時間序列進行分段處理后,對處理后的樣本時間序列進行聚類處理,得到多個碼詞。進而從多個碼詞中確定與待測時間序列子序列馬氏距離最短的第一碼詞和樣本時間序列子序列馬氏距離最短的第二碼詞,并用利用第一碼詞和第二碼詞對待測時間序列和樣本時間序列進行重構(gòu)。進一步,利用重構(gòu)待測時間序列與各個重構(gòu)樣本時間序列之間馬氏距離,確定待測時間序列的類別。與現(xiàn)有技術(shù)相比,本發(fā)明解決了歐氏距離作為相似性度量容易受模式特征量綱的影響,引入馬氏距離作為相似性度量,在消除量綱影響的同時,也消除了碼詞間相關(guān)性對算法準(zhǔn)確率的影響,提高了分類的精度。
【附圖說明】
[0041]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
[0042]圖1示出了本發(fā)明一實施例公開的一種時間序列分類方法的流程示意圖;
[0043]圖2示出了本發(fā)明另一實施例公開的一種時間序列分類裝置的結(jié)構(gòu)示意圖;
[0044]圖3示出了本發(fā)明一實施例公開的篩選單元的結(jié)構(gòu)示意圖;
[0045]圖4示出了本發(fā)明一實施例公開的時間序列分類單元的結(jié)構(gòu)示意圖。
【具體實施方式】
[0046]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0047]參見圖1示出了本發(fā)明一實施例公開的一種時間序列分類方法的流程示意圖。
[0048]由圖1可知,該方法包括:
[0049]101:對待測時間序列和所有已知類別的樣本時間序列進行分段處理,得到多個待測時間序列子序列和多個樣本時間序列子序列。
[0050]需要說明的是,所述待測時間序列和所述樣本時間序列長度相同。在對所述待測時間序列和所述樣本時間序列進行分段處理時,為了保證分類精度通常對所述待測時間序列和所述樣本時間序列進行同等分段處理,即將所述待測時間序列和所述樣本時間序列分為同等的段數(shù),因而所述待測時間序列子序列和所述樣本時間序列子序列的長度也相同。
[0051]102:對所有樣本時間序列子序列進行聚類處理,得到多個碼詞。
[0052]對應(yīng)步驟101中生成的所有樣本時間序列子序列,采用K均值聚類算法,生成K個聚類中心。其中,所述K個聚類中心即為所有樣本時間序列子序列的碼詞,K個碼詞組成的集合即為所有樣本時間序列子序列的碼本。需要說明的是,該碼詞的長度與待測時間序列子序列和所述樣本時間序列子序列的長度相同。
[0053]103:從所述多個碼詞中確定與所述待測時間子序列馬氏距離最短的第一碼詞,以及與所述樣本時間序列子序列馬氏最短的第二碼詞。
[0054]對于任意一個時間序列(待測時間序列或樣本時間序列),采用馬氏距離算法計算該時間序列與各個碼詞之間的馬氏距離,并確定得到的馬氏距離中最短的馬氏距離,并將該最短馬氏距離對應(yīng)的碼詞作為目標(biāo)碼詞,即第一碼詞和第二碼詞。
[0055]104:利用所述第一碼詞替代對應(yīng)的待測時間子序列,所述第二碼詞替代對應(yīng)的樣本時間序列子序列,對待測時間序列和所有樣本時間序列進行重構(gòu),得到重構(gòu)待測時間序列和多個重構(gòu)樣本時間序列。
[0056]105:計算所述重構(gòu)待測時間序列與各個重構(gòu)樣本時間序列之間馬氏距離,將最短馬氏距離對應(yīng)的重構(gòu)時間序列的類別作為待測時間序列的類別。
[0057]需要說明的是,在此步驟中由于距離的計算僅在碼詞之間進行,為了提高算法運算速度,可以事先計算各碼詞間的馬氏距離。進而,根據(jù)各個碼詞間的馬氏距離構(gòu)建一個碼詞距離矩陣。在計算時,可利用該碼詞距離矩陣計算所述重構(gòu)待測時間序列與各個重構(gòu)樣本時間序列之間馬氏距離。
[0058]由以上實施例可知,本發(fā)明公開了一種時間序列分類方法和裝置。該方法在對待測時間序列和所有已知類別的樣本時間序列進行分段處理后,對處理后的樣本時間序列