一種增量式的在線特征提取分析方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種增量式的在線特征提取分析方法及系統(tǒng),該方法和系統(tǒng)通過將工業(yè)控制時(shí)序數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫,原始的數(shù)據(jù)經(jīng)過數(shù)據(jù)預(yù)處理得到干凈的數(shù)據(jù),特征提取模塊提取特征數(shù)據(jù)存儲(chǔ)到特征數(shù)據(jù)表,增量觸發(fā)器實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)庫系統(tǒng)的原始數(shù)據(jù)量,超過觸發(fā)閾值,觸發(fā)特征提取模塊實(shí)現(xiàn)增量讀取原始數(shù)據(jù),并提取對(duì)應(yīng)的特征,存儲(chǔ)到特征數(shù)據(jù)表中。本發(fā)明優(yōu)勢(shì)在于提出了一個(gè)增量式特征提取分析的框架,增加增量觸發(fā)監(jiān)督程序,實(shí)現(xiàn)了對(duì)數(shù)據(jù)庫系統(tǒng)的監(jiān)控和特征的增量提取,最終實(shí)現(xiàn)了特征的實(shí)時(shí)在線提取和數(shù)據(jù)的在線分析,效率高,可擴(kuò)展性好。
【專利說明】
一種増量式的在線特征提取分析方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于數(shù)據(jù)分析技術(shù)領(lǐng)域,具體涉及一種增量式的在線特征提取分析方法及 系統(tǒng)。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)積累的越來越多,我們被淹沒在數(shù)據(jù)里,大數(shù)據(jù)分析和數(shù) 據(jù)挖掘給人們帶來了希望,數(shù)據(jù)挖掘是從數(shù)據(jù)中辨別有效的、新穎的、潛在有用的、最終可 理解的模式的過程。數(shù)據(jù)挖掘中很關(guān)鍵的一步就是特征提取,特征提取是基于原始的粗糙 數(shù)據(jù)進(jìn)行適當(dāng)?shù)囊?guī)約與變換,提取一個(gè)特征集來表示原始的粗糙數(shù)據(jù),特征的好壞直接影 響到數(shù)據(jù)挖掘模型的效果。
[0003] 在一個(gè)工業(yè)控制過程中,工業(yè)控制參數(shù)很多。工業(yè)控制器以及其相關(guān)聯(lián)的I/O設(shè)備 是現(xiàn)代自動(dòng)化系統(tǒng)的操作的中心,這些控制器與工廠底層的現(xiàn)場(chǎng)設(shè)備進(jìn)行交互以控制與如 下目標(biāo)有關(guān)的自動(dòng)化過程:該目標(biāo)例如為產(chǎn)品制造、材料處理、批量處理、監(jiān)控以及其他這 樣的應(yīng)用。工業(yè)控制器存儲(chǔ)并執(zhí)行用戶定義的控制程序以結(jié)合受控的過程來實(shí)現(xiàn)決策制 定,這樣的程序可以包括但不限于梯形邏輯、順序功能圖、功能框圖、結(jié)構(gòu)化文本或其他這 樣的編程結(jié)構(gòu)。一般地,工業(yè)控制器從提供與受控系統(tǒng)的一個(gè)或更多個(gè)狀態(tài)有關(guān)的謹(jǐn)慎和 遙測(cè)數(shù)據(jù)的傳感器和測(cè)量設(shè)備讀取輸入數(shù)據(jù),并基于這些輸入根據(jù)用戶定義的程序來生成 的控制輸出。
[0004] 工業(yè)控制產(chǎn)生的數(shù)據(jù)存放在關(guān)系型數(shù)據(jù)庫系統(tǒng)中,數(shù)據(jù)是時(shí)序性的實(shí)時(shí)變化和增 加的,面對(duì)這樣環(huán)境下的數(shù)據(jù)分析,找到一個(gè)合理的特征提取方法尤為關(guān)鍵。在時(shí)序數(shù)據(jù)的 特征提取過程中,數(shù)據(jù)隨著時(shí)間而變化,傳統(tǒng)的方法是每次進(jìn)行數(shù)據(jù)分析時(shí),統(tǒng)一從數(shù)據(jù)庫 讀取所有的數(shù)據(jù)然后提取特征,這樣的方法時(shí)間開銷大,性能差,而且提取的特征結(jié)構(gòu)不清 晰,系統(tǒng)的可擴(kuò)展性差。
【發(fā)明內(nèi)容】
[0005] 針對(duì)現(xiàn)有技術(shù)所存在的上述技術(shù)問題,本發(fā)明提供了一種增量式的在線特征提取 分析方法及系統(tǒng),通過增量觸發(fā)監(jiān)督程序?qū)崿F(xiàn)特征的實(shí)時(shí)在線提取和數(shù)據(jù)的在線分析,效 率高,可擴(kuò)展性好。
[0006] -種增量式的在線特征提取分析方法,包括:
[0007] 首先,利用數(shù)據(jù)庫存儲(chǔ)大量的原始時(shí)序數(shù)據(jù);然后,讀取數(shù)據(jù)庫中的原始時(shí)序數(shù)據(jù) 依次進(jìn)行預(yù)處理和特征提取,最后,基于提取得到的特征信息進(jìn)行數(shù)據(jù)分析;
[0008] 但當(dāng)數(shù)據(jù)庫中的原始時(shí)序數(shù)據(jù)量超過觸發(fā)閾值后,則不再一次性從數(shù)據(jù)庫中讀取 所有的原始時(shí)序數(shù)據(jù)依次進(jìn)行預(yù)處理、特征提取以及數(shù)據(jù)分析的操作;而是直接從數(shù)據(jù)庫 中讀取一張?jiān)隽康臄?shù)據(jù)庫表,并依次進(jìn)行預(yù)處理、特征提取以及數(shù)據(jù)分析的操作,所述增量 的數(shù)據(jù)庫表只存儲(chǔ)數(shù)據(jù)庫新增的原始時(shí)序數(shù)據(jù)。
[0009] 所述的數(shù)據(jù)庫包含有多張數(shù)據(jù)庫表,所述的數(shù)據(jù)庫表用于存儲(chǔ)原始時(shí)序數(shù)據(jù)。所 述的原始時(shí)序數(shù)據(jù)采用與工業(yè)控制相關(guān)的原始時(shí)序數(shù)據(jù)。
[0010]所述的預(yù)處理過程包括缺失值處理、數(shù)據(jù)采集頻率過濾以及數(shù)據(jù)錯(cuò)誤檢測(cè)三部 分。
[0011] 所述數(shù)據(jù)采集頻率過濾的標(biāo)準(zhǔn)為:當(dāng)原始時(shí)序數(shù)據(jù)的真實(shí)采集頻率大于等于預(yù)設(shè) 的頻率閾值的話,則接受該原始時(shí)序數(shù)據(jù),否則剔除該原始時(shí)序數(shù)據(jù)。
[0012] 對(duì)所述的原始時(shí)序數(shù)據(jù)進(jìn)行預(yù)處理后,得到完整正確的時(shí)序數(shù)據(jù),進(jìn)而對(duì)預(yù)處理 后得到的時(shí)序數(shù)據(jù)進(jìn)行特征提取,并將提取得到的特征信息存儲(chǔ)至特征數(shù)據(jù)表中。
[0013] 所述的特征提取過程采用提取時(shí)序數(shù)據(jù)的平均值、方差、時(shí)間和斜率作為時(shí)序數(shù) 據(jù)的特征信息。
[0014] -種增量式的在線特征提取分析系統(tǒng),包括:
[0015] 數(shù)據(jù)庫模塊,用于存儲(chǔ)大量的原始時(shí)序數(shù)據(jù);
[0016] 預(yù)處理模塊,用于對(duì)數(shù)據(jù)庫模塊中的原始時(shí)序數(shù)據(jù)進(jìn)行預(yù)處理,得到完整正確的 時(shí)序數(shù)據(jù);
[0017] 特征提取模塊,用于對(duì)預(yù)處理后得到的時(shí)序數(shù)據(jù)進(jìn)行特征提取,以得到時(shí)序數(shù)據(jù) 的特征信息;
[0018] 數(shù)據(jù)分析模塊,基于所述的特征信息進(jìn)行數(shù)據(jù)分析;
[0019] 增量觸發(fā)器,用于監(jiān)控所述數(shù)據(jù)庫模塊中的原始時(shí)序數(shù)據(jù)量,當(dāng)數(shù)據(jù)庫模塊中的 原始時(shí)序數(shù)據(jù)量超過觸發(fā)閾值,則觸發(fā)預(yù)處理模塊、特征提取模塊和數(shù)據(jù)分析模塊直接從 數(shù)據(jù)庫模塊中讀取一張?jiān)隽康臄?shù)據(jù)庫表,并依次進(jìn)行預(yù)處理、特征提取以及數(shù)據(jù)分析的操 作,所述增量的數(shù)據(jù)庫表只存儲(chǔ)數(shù)據(jù)庫新增的原始時(shí)序數(shù)據(jù)。
[0020] 由上述的增量式在線特征提取分析方法及系統(tǒng)的流程可以看出,現(xiàn)有的特征提取 方法大多數(shù)采用一次性讀取數(shù)據(jù)庫系統(tǒng)中所有數(shù)據(jù)方法,效率和性能低下,可擴(kuò)展性差。本 發(fā)明采用了以上技術(shù)方案,具有顯著的技術(shù)效果:
[0021] (1)本發(fā)明首先在數(shù)據(jù)系統(tǒng)中建立數(shù)據(jù)特征表,存儲(chǔ)數(shù)據(jù)特征數(shù)據(jù),實(shí)現(xiàn)實(shí)時(shí)地在 線和離線數(shù)據(jù)分析。
[0022] (2)本發(fā)明利用增量觸發(fā)監(jiān)督程序,實(shí)現(xiàn)了對(duì)數(shù)據(jù)庫系統(tǒng)的監(jiān)控和特征的增量提 取,最終實(shí)現(xiàn)了特征的實(shí)時(shí)在線提取和數(shù)據(jù)的在線分析,效率高,可擴(kuò)展性好。
【附圖說明】
[0023] 圖1為本發(fā)明增量式在線特征提取分析方法實(shí)現(xiàn)的系統(tǒng)架構(gòu)示意圖。
[0024]圖2為關(guān)于升溫上部溫度的預(yù)處理后時(shí)序數(shù)據(jù)的曲線示意圖。
[0025]圖3為關(guān)于升溫蒸汽壓力的預(yù)處理后時(shí)序數(shù)據(jù)的曲線示意圖。
【具體實(shí)施方式】
[0026]為了更為具體地描述本發(fā)明,下面結(jié)合附圖及【具體實(shí)施方式】對(duì)本發(fā)明的技術(shù)方案 進(jìn)行詳細(xì)說明。
[0027] 實(shí)施例1
[0028]本發(fā)明增量式在線特征提取分析方法實(shí)現(xiàn)的系統(tǒng)架構(gòu)如圖1所示,包括以下具體 的步驟:
[0029] (1)本發(fā)明的增量式的在線特征提取方法首先建立數(shù)據(jù)庫系統(tǒng)模塊,數(shù)據(jù)庫系統(tǒng) 模塊主要存儲(chǔ)工業(yè)控制相關(guān)的原始時(shí)序數(shù)據(jù),數(shù)據(jù)庫系統(tǒng)模塊同時(shí)提供與其他模塊之間的 數(shù)據(jù)連接查詢;數(shù)據(jù)庫系統(tǒng)模塊包括多張數(shù)據(jù)庫表,數(shù)據(jù)庫表主要存儲(chǔ)時(shí)序數(shù)據(jù),數(shù)據(jù)的存 儲(chǔ)結(jié)構(gòu)繁雜。
[0030] (2)數(shù)據(jù)預(yù)處理模塊將步驟(1)中原始時(shí)序數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,原始的時(shí)序數(shù) 據(jù)是不完整的、有噪音的,因此數(shù)據(jù)預(yù)處理模塊可以處理這些粗糙數(shù)據(jù),并且最終得到完整 正確的時(shí)序數(shù)據(jù)。
[0031] 數(shù)據(jù)預(yù)處理模塊包括缺失值處理、數(shù)據(jù)樣本的采集頻率過濾和數(shù)據(jù)錯(cuò)誤檢測(cè)三個(gè) 部分。數(shù)據(jù)樣本的采集頻率過濾主要是針對(duì)時(shí)序數(shù)據(jù),尤其是工業(yè)控制的時(shí)序數(shù)據(jù),過濾公 式如下: 接受該頻率數(shù)據(jù)
[0032] \ Ifw <c,拒絕該頻率數(shù)據(jù)
[0033]其中:Fre3al表示數(shù)據(jù)的真實(shí)采集頻率,C表示數(shù)據(jù)的頻率閾值,C采取所有數(shù)據(jù)的 90 %分割點(diǎn)。
[0034] (3)特征提取模塊采用時(shí)序數(shù)據(jù)的特征提取方法提取步驟(2)中的時(shí)序數(shù)據(jù)的特 征,并且在數(shù)據(jù)庫系統(tǒng)中建立對(duì)應(yīng)的特征數(shù)據(jù)表,將特征數(shù)據(jù)存儲(chǔ)到特征數(shù)據(jù)表中;對(duì)于時(shí) 序數(shù)據(jù)·一船平於I倍、卞·差、時(shí)_和斜率作為初始特征參考,具體的特征值計(jì)算如下:
[0035]
[0036]其中:Vi表不苐i個(gè)時(shí)間米集點(diǎn)的值,T表示時(shí)間采集頻度,其中斜率特征本實(shí)施方 式采用一次函數(shù)擬合時(shí)序數(shù)據(jù)曲線,并獲取其斜率作為數(shù)據(jù)的特征。
[0037] (4)采用增量觸發(fā)器,該觸發(fā)器主要監(jiān)控?cái)?shù)據(jù)庫系統(tǒng)模塊中的時(shí)序數(shù)據(jù),具體采用 檢測(cè)程序?qū)崿F(xiàn),實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)庫系統(tǒng)的數(shù)據(jù),一旦時(shí)序數(shù)據(jù)到達(dá)了觸發(fā)的閾值,觸發(fā)器會(huì)觸 發(fā)特征提取模塊,從而增量地從數(shù)據(jù)庫系統(tǒng)模塊中抽取數(shù)據(jù),數(shù)據(jù)預(yù)處理,最后提取特征, 增量寫入到特征數(shù)據(jù)表。
[0038] (5)數(shù)據(jù)分析模塊,讀取特征數(shù)據(jù),根據(jù)分析需求,建立對(duì)應(yīng)的數(shù)據(jù)分析模型。但數(shù) 據(jù)分析模塊的數(shù)據(jù)源有兩種,一種是傳統(tǒng)的一次獲取方式,整個(gè)特征數(shù)據(jù)一次性全部從原 始數(shù)據(jù)庫讀出,預(yù)處理到特征提取;另外一種是直接從增量的數(shù)據(jù)庫表中讀出,只需要讀取 一張數(shù)據(jù)庫表。
[0039] 實(shí)施例2
[0040] (1)本實(shí)施例選擇某種藥品的生產(chǎn)的時(shí)序數(shù)據(jù)作為原始數(shù)據(jù),建立對(duì)應(yīng)的數(shù)據(jù)庫 系統(tǒng)。
[0041] (2)對(duì)原始的數(shù)據(jù)進(jìn)行預(yù)處理,預(yù)處理主要剔除錯(cuò)誤值、空值和采集頻率較低的 值,預(yù)處理后的值可視化如圖2和圖3所示,對(duì)應(yīng)藥品生產(chǎn)提煉過程中升溫上部溫度和升溫 蒸汽壓力的數(shù)據(jù)信號(hào)。
[0042] (3)特征提取針對(duì)時(shí)序數(shù)據(jù),基準(zhǔn)的特征為:平均值、方差和時(shí)間的長度,將提取到 的特征數(shù)據(jù)存儲(chǔ)到特征數(shù)據(jù)表中。
[0043] (4)增量觸發(fā)器的觸發(fā)閾值設(shè)為1000,也就是當(dāng)數(shù)據(jù)庫系統(tǒng)模塊對(duì)應(yīng)的數(shù)據(jù)量增 加到1000時(shí),觸發(fā)一次特征提取操作,增量式地提取特征,寫入到特征數(shù)據(jù)表中,特征數(shù)據(jù) 表的結(jié)構(gòu)如表1所不:
[0044]表 1
[0046] (5)數(shù)據(jù)分析模炔基于以上特征數(shù)據(jù)表,進(jìn)行數(shù)據(jù)分析的模型建立,可以做分類、 聚類和相關(guān)性分析的工作。
[0047] 上述的對(duì)實(shí)施例的描述是為便于本技術(shù)領(lǐng)域的普通技術(shù)人員能理解和應(yīng)用本發(fā) 明。熟悉本領(lǐng)域技術(shù)的人員顯然可以容易地對(duì)上述實(shí)施例做出各種修改,并把在此說明的 一般原理應(yīng)用到其他實(shí)施例中而不必經(jīng)過創(chuàng)造性的勞動(dòng)。因此,本發(fā)明不限于上述實(shí)施例, 本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的揭示,對(duì)于本發(fā)明做出的改進(jìn)和修改都應(yīng)該在本發(fā)明的保護(hù) 范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種增量式的在線特征提取分析方法,其特征在于: 首先,利用數(shù)據(jù)庫存儲(chǔ)大量的原始時(shí)序數(shù)據(jù);然后,讀取數(shù)據(jù)庫中的原始時(shí)序數(shù)據(jù)依次 進(jìn)行預(yù)處理和特征提取,最后,基于提取得到的特征信息進(jìn)行數(shù)據(jù)分析; 但當(dāng)數(shù)據(jù)庫中的原始時(shí)序數(shù)據(jù)量超過觸發(fā)閾值后,則不再一次性從數(shù)據(jù)庫中讀取所有 的原始時(shí)序數(shù)據(jù)依次進(jìn)行預(yù)處理、特征提取以及數(shù)據(jù)分析的操作;而是直接從數(shù)據(jù)庫中讀 取一張?jiān)隽康臄?shù)據(jù)庫表,并依次進(jìn)行預(yù)處理、特征提取以及數(shù)據(jù)分析的操作,所述增量的數(shù) 據(jù)庫表只存儲(chǔ)數(shù)據(jù)庫新增的原始時(shí)序數(shù)據(jù)。2. 根據(jù)權(quán)利要求1所述的在線特征提取分析方法,其特征在于:所述的數(shù)據(jù)庫包含有多 張數(shù)據(jù)庫表,所述的數(shù)據(jù)庫表用于存儲(chǔ)原始時(shí)序數(shù)據(jù)。3. 根據(jù)權(quán)利要求1所述的在線特征提取分析方法,其特征在于:所述的原始時(shí)序數(shù)據(jù)采 用與工業(yè)控制相關(guān)的原始時(shí)序數(shù)據(jù)。4. 根據(jù)權(quán)利要求1所述的在線特征提取分析方法,其特征在于:所述的預(yù)處理過程包括 缺失值處理、數(shù)據(jù)采集頻率過濾以及數(shù)據(jù)錯(cuò)誤檢測(cè)三部分。5. 根據(jù)權(quán)利要求4所述的在線特征提取分析方法,其特征在于:所述數(shù)據(jù)采集頻率過濾 的標(biāo)準(zhǔn)為:當(dāng)原始時(shí)序數(shù)據(jù)的真實(shí)采集頻率大于等于預(yù)設(shè)的頻率閾值的話,則接受該原始 時(shí)序數(shù)據(jù),否則剔除該原始時(shí)序數(shù)據(jù)。6. 根據(jù)權(quán)利要求1所述的在線特征提取分析方法,其特征在于:對(duì)所述的原始時(shí)序數(shù)據(jù) 進(jìn)行預(yù)處理后,得到完整正確的時(shí)序數(shù)據(jù),進(jìn)而對(duì)預(yù)處理后得到的時(shí)序數(shù)據(jù)進(jìn)行特征提取, 并將提取得到的特征信息存儲(chǔ)至特征數(shù)據(jù)表中。7. 根據(jù)權(quán)利要求1所述的在線特征提取分析方法,其特征在于:所述的特征提取過程采 用提取時(shí)序數(shù)據(jù)的平均值、方差、時(shí)間和斜率作為時(shí)序數(shù)據(jù)的特征信息。8. -種增量式的在線特征提取分析系統(tǒng),其特征在于,包括: 數(shù)據(jù)庫模塊,用于存儲(chǔ)大量的原始時(shí)序數(shù)據(jù); 預(yù)處理模塊,用于對(duì)數(shù)據(jù)庫模塊中的原始時(shí)序數(shù)據(jù)進(jìn)行預(yù)處理,得到完整正確的時(shí)序 數(shù)據(jù); 特征提取模塊,用于對(duì)預(yù)處理后得到的時(shí)序數(shù)據(jù)進(jìn)行特征提取,以得到時(shí)序數(shù)據(jù)的特 征信息; 數(shù)據(jù)分析模塊,基于所述的特征信息進(jìn)行數(shù)據(jù)分析; 增量觸發(fā)器,用于監(jiān)控所述數(shù)據(jù)庫模塊中的原始時(shí)序數(shù)據(jù)量,當(dāng)數(shù)據(jù)庫模塊中的原始 時(shí)序數(shù)據(jù)量超過觸發(fā)閾值,則觸發(fā)預(yù)處理模塊、特征提取模塊和數(shù)據(jù)分析模塊直接從數(shù)據(jù) 庫模塊中讀取一張?jiān)隽康臄?shù)據(jù)庫表,并依次進(jìn)行預(yù)處理、特征提取以及數(shù)據(jù)分析的操作,所 述增量的數(shù)據(jù)庫表只存儲(chǔ)數(shù)據(jù)庫新增的原始時(shí)序數(shù)據(jù)。
【文檔編號(hào)】G06F17/30GK105843891SQ201610165185
【公開日】2016年8月10日
【申請(qǐng)日】2016年3月22日
【發(fā)明人】姜曉紅, 包友軍, 付釗, 李金昌
【申請(qǐng)人】浙江大學(xué)