時(shí)間序列數(shù)據(jù)的一種符號(hào)化表示方法
【專利摘要】本發(fā)明公開了時(shí)間序列數(shù)據(jù)的一種符號(hào)化表示方法,包括以下步驟:S1:獲取時(shí)間序列數(shù)據(jù);S2:采用分段聚合近似表示算法獲取時(shí)間序列數(shù)據(jù)子序列分段信息;S3:將各子時(shí)序數(shù)據(jù)段三等分且計(jì)算各子序列段均值;S4:對(duì)各子序列段中相鄰段均值作殘差,接著定義趨勢(shì)閾值,當(dāng)殘差的絕對(duì)值大于該閾值即判定上升或者下降,小于閾值則判定為平緩。本發(fā)明將符號(hào)化算法與所獲得的趨勢(shì)特征融合,形成時(shí)間序列數(shù)據(jù)一種具有趨勢(shì)特征的符號(hào)化表示方法。該方法不僅保留了符號(hào)化算法的優(yōu)點(diǎn),且結(jié)合閾值定義趨勢(shì),實(shí)現(xiàn)了符號(hào)化算法的趨勢(shì)特征描述。
【專利說明】
時(shí)間序列數(shù)據(jù)的_種符號(hào)化表τ方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及時(shí)間序列數(shù)據(jù)挖掘領(lǐng)域,特別涉及時(shí)間序列數(shù)據(jù)的一種具有趨勢(shì)特征 的符號(hào)化表示方法。
【背景技術(shù)】
[0002] 隨著信息與數(shù)據(jù)庫技術(shù)的發(fā)展,不同類型的海量數(shù)據(jù)廣泛存在于人們?nèi)粘J聞?wù) 中。傳統(tǒng)的數(shù)據(jù)査詢、統(tǒng)計(jì)等分析操作過程正轉(zhuǎn)向基于人工智能的數(shù)據(jù)分析過程。其中時(shí)間 序列數(shù)據(jù)是最常見的高維流數(shù)據(jù)之一,廣泛存在于金融、工業(yè)、氣象、交通、互聯(lián)網(wǎng)等領(lǐng)域。 時(shí)間序列數(shù)據(jù)中通常包含很多有價(jià)值的信息,包括顯式的直觀信息和隱式的內(nèi)在信息。如 復(fù)雜工業(yè)過程的流數(shù)據(jù)變化在一定程度反應(yīng)設(shè)備及其運(yùn)行狀態(tài)。如何有效地提取時(shí)間序列 數(shù)據(jù)特征,通過降維后分析其中蘊(yùn)含的信息和知識(shí),對(duì)科學(xué)研究和實(shí)際應(yīng)用都具有重要的 理論意義和現(xiàn)實(shí)意義。
[0003] 傳統(tǒng)的時(shí)間序列數(shù)據(jù)符號(hào)化方法(Symbolic Aggregate Approximation,SAX)這 些符號(hào)化算法首先通過分段聚合近似表示方法(Piecewise Aggregate Approximation, PAA)實(shí)現(xiàn)分段。降維比例也是由分段數(shù)目決定,分段數(shù)目越少,降維比例越大,但特征表示 越精細(xì),反之亦然。然后根據(jù)正態(tài)分布將時(shí)間序列轉(zhuǎn)換為符號(hào)化字符。SAX在時(shí)間序列數(shù)據(jù) 降維與特征提取方面雖然簡(jiǎn)便高效,但是SAX算法均取各子序列段中的均值來符號(hào)化。因此 不可避免會(huì)產(chǎn)生一些局限,即:SAX對(duì)子序列段的信息描述不夠精準(zhǔn),難以反映子序列段內(nèi) 數(shù)據(jù)更細(xì)微的特征,如極大極小值、統(tǒng)計(jì)特征與趨勢(shì)特征等。這些局限性限制了其在某些領(lǐng) 域的應(yīng)用。如金融時(shí)間序列數(shù)據(jù)分析常有變化趨勢(shì)的要求,復(fù)雜工業(yè)過程的流數(shù)據(jù)的趨勢(shì) 變化也在過程狀態(tài)檢測(cè)中占有重要的地位。因此,SAX只能近似的描述時(shí)間序列數(shù)據(jù)的大致 特征。
[0004] 缺點(diǎn):當(dāng)前符號(hào)化的時(shí)間序列數(shù)據(jù)表示由于只提取自序列段均值,存在難以描述 段內(nèi)數(shù)據(jù)變化趨勢(shì)等特征提取問題。
[0005] 因此亟需時(shí)間序列數(shù)據(jù)的一種具有趨勢(shì)特征的符號(hào)化表示方法。
【發(fā)明內(nèi)容】
[0006] 有鑒于此,本發(fā)明所要解決的技術(shù)問題是提供一種既能保留原符號(hào)化表示的優(yōu) 點(diǎn),又能使其在一定程度上表征數(shù)據(jù)變化趨勢(shì)的方法。該方法將子序列數(shù)據(jù)段內(nèi)再分段通 過均值差與所給閾值的比較得到其段內(nèi)趨勢(shì)符號(hào)表示。結(jié)合原符號(hào)化時(shí)間序列表示理論, 得到時(shí)間序列數(shù)據(jù)的一種具有趨勢(shì)特征的符號(hào)化表示方法。
[0007] 本發(fā)明的目的是這樣實(shí)現(xiàn)的:
[0008] 本發(fā)明提供的時(shí)間序列數(shù)據(jù)的一種具有趨勢(shì)特征的符號(hào)化表示方法,包括以下步 驟:
[0009] S1:獲取時(shí)間序列數(shù)據(jù);
[0010] S2:采用分段聚合近似表示算法獲取時(shí)間序列數(shù)據(jù)子序列分段信息;
[0011] S3:并將各子時(shí)序段三等分并計(jì)算各子序列段均值;
[0012] S4:對(duì)各子段內(nèi)相鄰段均值作殘差與閾值作差獲取趨勢(shì),再與符號(hào)化算法結(jié)合。
[0013]進(jìn)一步,所述步驟S2中的分段聚合近似表示算法,具體步驟如下:
[0014] S21:利用數(shù)據(jù)一致性算法對(duì)所獲取的時(shí)間序列數(shù)據(jù)進(jìn)行歸一化處理;
[0015] S22:對(duì)經(jīng)過歸一化處理后得到的時(shí)間序列數(shù)據(jù)進(jìn)行等長(zhǎng)分段,取各段的均值組成 一個(gè)低維向量以近似表示原時(shí)間序列數(shù)據(jù)。設(shè)原時(shí)間序列維度為n,處理后所得維度為N。那 么低維特征時(shí)間序列為:^ = ..了、,并且第i子段均值可由下述公式確定:
[0016] 進(jìn)一步,所述步驟S3中的將各子時(shí)序段三等分并計(jì)算各子序列段均值方法,具體 步驟如下:
[0017] S31:保留步驟S2所得均值并對(duì)其實(shí)施原符號(hào)化表示算法;
[0018] S32:對(duì)于各子序列段,再對(duì)其進(jìn)行三等分并分別計(jì)算三段均值,獲取其三段均值 數(shù)值。
[0019] 進(jìn)一步,所述步驟4對(duì)各子段內(nèi)相鄰段均值作殘差與閾值差獲取趨勢(shì),再與符號(hào)化 算法結(jié)合方法,具體步驟如下:
[0020] 對(duì)各子時(shí)序數(shù)據(jù)段內(nèi)均值依次作差并結(jié)合專家知識(shí)所定義的趨勢(shì)閾值確定各子 序列段內(nèi)趨勢(shì)。若差值的絕對(duì)值小于所給閾值),即定義為平緩趨勢(shì);若差值大 于所給閾值,即定義為上升(in-士2>€)或下降(ifl-趨勢(shì)。因此每個(gè)子段內(nèi)部將 有兩種趨勢(shì)表示,結(jié)合原符號(hào)化表示即可將每個(gè)子段表示為具有趨勢(shì)特征的符號(hào)化表示。
[0021] 本發(fā)明的優(yōu)點(diǎn)在于:本發(fā)明將分段聚合近似表示方法用于時(shí)間序列數(shù)據(jù)的降維, 保證了距離下界準(zhǔn)則從而避免了后續(xù)相似查詢中的漏查行為。本發(fā)明應(yīng)用了經(jīng)典的符號(hào)化 表示,使得其能在數(shù)據(jù)降維的基礎(chǔ)上進(jìn)行距離計(jì)算,為后續(xù)應(yīng)用如相似查詢、異常檢測(cè)等提 供理論依據(jù)。最重要的是本發(fā)明通過均值差表征以表征段內(nèi)時(shí)間序列數(shù)據(jù)的趨勢(shì),克服了 經(jīng)典符號(hào)化表示算法的缺點(diǎn),如無法表征段內(nèi)數(shù)據(jù)的精確性及其變化趨勢(shì)。而這大大阻礙 了其在某些領(lǐng)域的應(yīng)用。因此趨勢(shì)特征的引入解決了上述問題。實(shí)現(xiàn)了具有趨勢(shì)特征的符 號(hào)化表不方法。
【附圖說明】
[0022]為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明作進(jìn) 一步的詳細(xì)描述,其中:
[0023] 圖1為時(shí)間序列數(shù)據(jù)的一種具有趨勢(shì)特征的符號(hào)化表示方法流程圖;
[0024] 圖2為趨勢(shì)特征的提取及其與符號(hào)化算法結(jié)合的流程圖。
[0025] 具體實(shí)施細(xì)則
[0026] 以下將結(jié)合附圖,對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行詳細(xì)的描述;應(yīng)當(dāng)理解,優(yōu)選實(shí)施例 僅為了說明本發(fā)明,而不是為了限制本發(fā)明的保護(hù)范圍。
[0027] 圖1為時(shí)間序列數(shù)據(jù)的一種具有趨勢(shì)特征的符號(hào)化表示方法流程圖,圖2為趨勢(shì)特 征的提取及其與符號(hào)化算法結(jié)合的流程圖,如圖所示:時(shí)間序列數(shù)據(jù)的一種符號(hào)化表示方 法,包括以下步驟:
[0028] S1:獲取時(shí)間序列數(shù)據(jù);
[0029] S2:采用分段聚合近似表示算法獲取時(shí)間序列數(shù)據(jù)子序列分段信息;
[0030] S21:利用數(shù)據(jù)一致性算法對(duì)所獲取的時(shí)間序列數(shù)據(jù)進(jìn)行歸一化處理;
[0031] S22:對(duì)經(jīng)過歸一化處理后得到的時(shí)間序列數(shù)據(jù)進(jìn)行等長(zhǎng)分段,取各段的均值組成 一個(gè)低維向量以近似表示原時(shí)間序列數(shù)據(jù)。設(shè)原時(shí)間序列維度為n,處理后所得維度為N。那 么低維特征時(shí)間序列為? = ,厶,并且第i子段均值可由下述公式確定:
[0032] S3:并將各子時(shí)序段三等分并計(jì)算各子序列段均值;
[0033] S31:保留步驟S2所得均值并對(duì)其實(shí)施原符號(hào)化表示算法;
[0034] S32:對(duì)于各子序列段,再對(duì)其進(jìn)行三等分并分別計(jì)算三段均值,獲取其三段均值 數(shù)值。
[0035] S4:對(duì)各子段內(nèi)相鄰段均值作殘差與閾值作差獲取趨勢(shì),再與符號(hào)化算法結(jié)合。具 體步驟如下:
[0036] 對(duì)各子時(shí)序數(shù)據(jù)段內(nèi)均值依次作差并結(jié)合專家知識(shí)所定義的趨勢(shì)閾值確定各子 序列段內(nèi)趨勢(shì)。若差值的絕對(duì)值小于所給閾值即定義為平緩趨勢(shì);若差值大 于所給閾值,即定義為上升(^ > ? )或下降(& -< -,)趨勢(shì)。因此每個(gè)子段內(nèi)部將 有兩種趨勢(shì)表示,結(jié)合原符號(hào)化表示即可將每個(gè)子段表示為具有趨勢(shì)特征的符號(hào)化表示。
[0037] 以上所述僅為本發(fā)明的優(yōu)選實(shí)施例,并不用于限制本發(fā)明,顯然,本領(lǐng)域的技術(shù)人 員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的 這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些 改動(dòng)和變型在內(nèi)。
【主權(quán)項(xiàng)】
1. 時(shí)間序列數(shù)據(jù)的一種符號(hào)化表示方法,其特征在于:包括W下步驟: S1:獲取時(shí)間序列數(shù)據(jù); S2:采用分段聚合近似表示算法獲取時(shí)間序列數(shù)據(jù)子序列分段信息; S3:并將各子時(shí)序段Ξ等分并計(jì)算各子序列段均值; S4:對(duì)各子段內(nèi)相鄰段均值作殘差與闊值作差獲取趨勢(shì),再與符號(hào)化算法結(jié)合。2. 根據(jù)權(quán)利要求1所述的時(shí)間序列數(shù)據(jù)的一種符號(hào)化表示方法,其特征在于:所述步驟 S2中的分段聚合近似表示算法,具體步驟如下: S21:利用數(shù)據(jù)一致性算法對(duì)所獲取的時(shí)間序列數(shù)據(jù)進(jìn)行歸一化處理; S22:對(duì)經(jīng)過歸一化處理后得到的時(shí)間序列數(shù)據(jù)進(jìn)行等長(zhǎng)分段,取各段的均值組成一個(gè) 低維向量W近似表示原時(shí)間序列數(shù)據(jù)。設(shè)原時(shí)間序列維度為n,處理后所得維度為N。那么低 維特征時(shí)間序列為玄=;,,;2,...,;^,并且第1子段均值可由下述公式確定:3. 根據(jù)權(quán)利要求1所述的時(shí)間序列數(shù)據(jù)的一種符號(hào)化表示方法,其特征在于:所述步驟 S3中的將各子時(shí)序段Ξ等分并計(jì)算各子序列段均值方法,具體步驟如下: S31:保留步驟S2所得均值并對(duì)其實(shí)施原符號(hào)化表示算法; S32:對(duì)于各子序列段,再對(duì)其進(jìn)行Ξ等分并分別計(jì)算Ξ段均值,獲取其Ξ段均值數(shù)值。4. 根據(jù)權(quán)利要求3所述的將各子時(shí)序段Ξ等分并計(jì)算各子序列段均值方法,其特征在 于:所述步驟4對(duì)各子段內(nèi)相鄰段均值作殘差與闊值差獲取趨勢(shì),再與符號(hào)化算法結(jié)合方 法,具體步驟如下: 對(duì)各子時(shí)序數(shù)據(jù)段內(nèi)均值依次作差并結(jié)合專家知識(shí)所定義的趨勢(shì)闊值確定各子序列 段內(nèi)趨勢(shì)。若差值的絕對(duì)值小于所給闊值(|;n -;n| < f ),即定義為平緩趨勢(shì);若差值大于所 給闊值,即定義為上升域下降( <~6)趨勢(shì)。因此每個(gè)子段內(nèi)部將有兩 種趨勢(shì)表示,結(jié)合原符號(hào)化表示即可將每個(gè)子段表示為具有趨勢(shì)特征的符號(hào)。
【文檔編號(hào)】G06F17/30GK106095787SQ201610367520
【公開日】2016年11月9日
【申請(qǐng)日】2016年5月30日
【發(fā)明人】柴毅, 張可, 毛永芳, 黃磊, 許水清
【申請(qǐng)人】重慶大學(xué)