本發(fā)明涉及基于數(shù)據(jù)驅(qū)動的多元統(tǒng)計過程監(jiān)控(multivariatestatisticalprocessmonitoring,mspm)技術(shù)領(lǐng)域,尤其涉及一種基于limited-dtw的mkpca間歇過程故障監(jiān)測方法。
背景技術(shù):
基于數(shù)據(jù)驅(qū)動的多元統(tǒng)計方法在用于間歇過程的過程監(jiān)控時,不需要考慮復雜的過程機理特性,通過對歷史數(shù)據(jù)的建模和分析,判斷生產(chǎn)過程的運行狀態(tài)是否出現(xiàn)異常。間歇過程作為現(xiàn)代流程工業(yè)中的重要生產(chǎn)方式之一,被廣泛用于生物醫(yī)藥、食品及生化產(chǎn)品的制備,特別是青霉素(penicillin,或音譯盤尼西林)藥品的制備。與連續(xù)生產(chǎn)過程相比,間歇過程有著明顯的區(qū)別,其中批次數(shù)據(jù)不等長是其固有特征之一。
為了運用傳統(tǒng)的統(tǒng)計分析方法,假設(shè)批次數(shù)據(jù)是等長的,因此操作事件在批次上是同步化的。然而,這種假設(shè)通常是不成立的。另外,在進行間歇過程建模時,一般都基于一個默認假設(shè),同一個時刻的數(shù)據(jù)屬于同一階段,即同一個階段在所有的生產(chǎn)批次中都是等長的。但是實際生產(chǎn)過程中并不是如此,不同批次的生產(chǎn)由于種種條件的不同,導致不同批次間的階段長度會有所差異。這也是導致批次不等長的原因之一?,F(xiàn)有的解決批次不等長問題的方法,最常用的是最短長度法,即直接按最短批次數(shù)據(jù)軌跡的長度切割其余批次,方法簡單,但使數(shù)據(jù)軌跡的過程大量丟失,并且使點對點數(shù)據(jù)的相關(guān)性降低,導致數(shù)據(jù)可靠性降低。neogi和undey均提出采用指示變量法解決批次間的同步問題,但是指示變量法可能會扭曲原始過程變量的自相關(guān)及變量之間的交叉相關(guān)關(guān)系。另外,并不是每個工業(yè)過程中都存在這樣的“指示”變量。所以,在進行在線監(jiān)控前,解決批次數(shù)據(jù)不等長問題是十分重要的。
技術(shù)實現(xiàn)要素:
本發(fā)明針對間歇過程批次數(shù)據(jù)不等長問題,提供一種基于limited-dtw的mkpca間歇過程故障監(jiān)測方法,通過使原始批次按照軌跡中點與點的模式進行動態(tài)的方法匹配解決批次不等長問題。
為實現(xiàn)上述目的,本發(fā)明采用如下的技術(shù)方案:
一種基于limited-dtw的mkpca間歇過程故障監(jiān)測方法,包括以下步驟:
步驟1、針對青霉素的發(fā)酵過程數(shù)據(jù)進行數(shù)據(jù)預處理
將選取的青霉素發(fā)酵過程的10個批次在數(shù)據(jù)預處理時采用了沿批次展開方法,之后將沿批次對數(shù)據(jù)進行按列標準化處理,其中,10個批次數(shù)據(jù)為矩陣x,;
步驟2、將提取的過程數(shù)據(jù)的平均軌跡進行縮放
選取braw,i,i=1,...,i為參考軌跡,它包含來自i個正常批次的原始測量值,i等于10,通過平均每個批次的范圍來找到每個變量平均范圍,然后存儲這些值,將所有批次中的每個變量除以其平均范圍,得到bi,定義bi,i=1,...,i作為生成的縮放批次軌跡;
步驟3、利用limited-dtw方法對不同批次軌跡進行同步處理
具體過程如下:在所有軌跡中選擇一個軌跡bk作為規(guī)整軌跡,令bref=bk,令w為limited-dtw算法中的權(quán)重矩陣,設(shè)w等于單位矩陣,對指定的最大迭代次數(shù)執(zhí)行以下步驟,
(1)在bi,i=1,...,i和bref之間進行l(wèi)imited-dtw同步,同步時,在dtw算法的基礎(chǔ)上,搜索空間減少為上一步所提出的圖中菱形和兩條平行線之間交叉的部分,
令
(2)計算平均軌跡
(3)根據(jù)
其中,k代表迭代空間的橫坐標,j代表迭代空間的縱坐標,
然后歸一化w,使得權(quán)重的和等于變量的數(shù)量,即令w等于
(4)對于前三次迭代,保持相同的參考軌跡:bref=bk,
對于后續(xù)迭代,將參考設(shè)置為等于平均軌跡:
(5)規(guī)整后的各批次數(shù)據(jù)形成新的矩陣x,此時,各批次數(shù)據(jù)等長;
步驟4、發(fā)酵過程故障監(jiān)測
對同步后的批次進行mkpca建模,對于完成上述數(shù)據(jù)處理的數(shù)據(jù)x(i×kj)進行mkpca建模,其中,mkpca模型表達式如下:
x=tpt+e
其中,p(j×r)為負載矩陣,t(i×kr)為得分矩陣,e(i×kj)為殘差矩陣,r為由累計方差貢獻率保留的主元數(shù)目;
最終由mkpca模型確定得分矩陣t,進而求得x的非線性主元。
作為優(yōu)選,對dtw算法增加全局路徑限制和失真度閾值限制,得到limited-dtw方法。
本發(fā)明的基于limited-dtw的mkpca間歇過程故障監(jiān)測方法,針對間歇過程固有的批次不等長特性,也為了克服傳統(tǒng)解決批次間同步問題方法數(shù)據(jù)浪費、扭曲原始過程變量的自相關(guān)及變量之間的交叉相關(guān)關(guān)系的嚴重缺陷,本發(fā)明方法引入了全局路徑限制和失真度閾值限制對動態(tài)時間規(guī)整(dynamictimewarping,dtw)方法進行改進,避免算法長時間運行造成的監(jiān)控弊端,并且解決了其處理過程的復雜性與其離線性導致其實際應用的困難。limited-dtw和基于mkpca的監(jiān)測方法的組合用于離線和在線實施;實驗設(shè)計由青霉素發(fā)酵仿真平臺和重組大腸桿菌實際生產(chǎn)過程完成,結(jié)果顯示了本文方法的可行性和有效性。
有益效果
針對dtw在處理批次不等長問題中存在的缺陷,對其增加全局路徑限制和失真度閾值限制,通過在全局最優(yōu)路徑的查找過程中約束路徑的斜率的方法,可以大大減少全局路徑的查找范圍,進而減少約三分之二的計算量。而且節(jié)省存儲空間,降低運算復雜度,進而提升算法的實時性,提高了監(jiān)控性能。
附圖說明
圖1為基于limited-dtw的mkpca間歇過程故障監(jiān)測方法流程圖;
圖2為dtw全局路徑限制的示意圖;
圖3為limited-dtw算法的示意圖,其中,包括dtw失真度閾值限制;
圖4a為最短長度法mkpca對故障批次的監(jiān)控結(jié)果t2統(tǒng)計量;
圖4b為最短長度法mkpca對故障批次的監(jiān)控結(jié)果spe統(tǒng)計量;
圖5a為dtwmkpca對故障批次的監(jiān)控結(jié)果t2統(tǒng)計量;
圖5b為dtwmkpca對故障批次的監(jiān)控結(jié)果spe統(tǒng)計量;
圖6a為limited-dtwmkpca對正常批次的監(jiān)控結(jié)果t2統(tǒng)計量;
圖6b為limited-dtwmkpca對正常批次的監(jiān)控結(jié)果spe統(tǒng)計量。
具體實施方式
動態(tài)時間規(guī)整(dynamictimewarping,dtw)算法最早用于語音識別領(lǐng)域,是結(jié)合時間規(guī)整和間距測量計算的非線性規(guī)整技術(shù),是一種計算時間矢量序列間相似度的常用方法。動態(tài)時間規(guī)整算法是一種柔性模式匹配算法,能夠?qū)Υ嬖谌只蚓植繑U展、壓縮或變形的模式進行匹配,解決動態(tài)模式的相似度量和分類問題,其實質(zhì)是運用動態(tài)規(guī)劃思想,按局部最優(yōu)自動尋找一條路徑。這種方法雖然按照軌跡中點與點的模式進行動態(tài)匹配,但其處理過程的復雜性與其離線性導致其實際應用的困難。所以本發(fā)明提出了基于limited-dtw的mkpca間歇過程故障監(jiān)測方法,該方法通過對dtw算法增加全局路徑限制和設(shè)定失真度閾值限制,減少算法運算量,使其可以快速有效的用于批次不等長現(xiàn)實問題的解決。
青霉素(penicillin,或音譯盤尼西林)是一種常見的臨床抗菌藥品,其生產(chǎn)制備過程具有典型的批次間不等長特性。本文基于美國illinois州立理工學院cinar教授研究開發(fā)的具有廣泛國際影響力的pensim仿真平臺對間歇過程進行在線監(jiān)測仿真研究。青霉素發(fā)酵過程的生產(chǎn)批次持續(xù)時間為400h左右,采樣間隔為1h。在線監(jiān)控時,選取10個主要的過程變量用于監(jiān)控過程的運行狀況,選取的過程變量如表1所示。本文選取了青霉素發(fā)酵過程的10個批次進行實驗仿真。
表1過程變量
tab.1processvariables
基于以上描述,按照發(fā)明內(nèi)容,將具體過程在matlab中實現(xiàn)如下,如圖1所示:
ⅰ進行數(shù)據(jù)預處理。mkpca作為mspm技術(shù)的核心方法,在將其用于發(fā)酵過程監(jiān)測時,面對三維形式的數(shù)據(jù)需要進行必要的預處理操作。本文將選取的青霉素發(fā)酵過程的10個批次在數(shù)據(jù)預處理時采用了沿批次展開方法,之后將沿批次對數(shù)據(jù)進行按列標準化處理,提取過程數(shù)據(jù)的平均軌跡。其中,10個批次數(shù)據(jù)為矩陣x,。
ⅱ將提取的過程數(shù)據(jù)的平均軌跡進行縮放。選取braw,i,i=1,...,i為參考軌跡,它包含來自i個正常批次的原始測量值,本文中i等于10。通過平均每個批次的范圍來找到每個變量平均范圍,然后存儲這些值,將所有批次中的每個變量除以其平均范圍,得到bi,定義bi,i=1,...,i作為生成的縮放批次軌跡。
ⅲ對dtw算法增加全局路徑限制和失真度閾值限制,即本文提出的limited-dtw方法。limited-dtw方法對dtw算法改進如下:
(1)對dtw算法增加全局路徑限制。根據(jù)動態(tài)規(guī)劃條件,增加全局路徑限制。dtw算法雖然簡潔,對資源的硬件要求也較小,但運算量很大,能否減少運算量又不降低識別率,對dtw算法的實際應用非常關(guān)鍵。隨著索引序列庫的不斷增大,會影響動態(tài)識別的效率,這將是一個嚴重缺點。針對上述問題,本文提出了對dtw算法的全局路徑限制。如圖2所示,實線為全局路徑限制線,在算法進行匹配路徑搜索時,則只需要對中間菱形的部分進行搜索。根據(jù)發(fā)酵過程的數(shù)據(jù)特性,通過交叉驗證法,選取約束斜率k滿足
增加全局路徑之后,算法在尋找匹配的最優(yōu)路徑時,只計算菱形之內(nèi)某點和其之前點的匹配距離,比較過程如下:
當xa=xb時,比較分為兩段:
當xa<xb時:
當xa>xb時,比較方法與上式類似。
其中,m和n分別為參與匹配的兩組特征向量序列的長度。a為測試特征向量序列。
(2)對dtw算法增加失真度閾值限制。隨著特征向量序列長度變大,該算法的復雜度也會隨著增大。假設(shè)測試特征向量序列為a,則該特征向量序列與a的模之間的失真度應最小。最優(yōu)路徑長度均處于m、n中較大值與m+n之間,最優(yōu)路徑中不匹配的次數(shù)與最優(yōu)路徑長度成正比關(guān)系,選用α×(m+n)(α為正比例系數(shù))作為失真度閾值。本文綜合考慮上述因素以及通過實驗結(jié)果的驗證及分析,選取失真度閾值為0.25×(m+n),如圖3所示。
全局路徑限制和失真度閾值限制結(jié)合使用,如圖3所示,在這種情況下,搜索空間將是圖中菱形和兩條平行線之間交叉的部分。
ⅳ利用limited-dtw方法對不同批次軌跡進行同步處理,具體算法如下。在所有軌跡中選擇一個軌跡bk作為規(guī)整軌跡,令bref=bk。
令w為limited-dtw算法中的權(quán)重矩陣,設(shè)w等于單位矩陣,對指定的最大迭代次數(shù)執(zhí)行以下步驟。
(1)在bi,i=1,...,i和bref之間進行l(wèi)imited-dtw同步。同步時,在dtw算法的基礎(chǔ)上,搜索空間減少為上一步所提出的圖中菱形和兩條平行線之間交叉的部分。
令
(2)計算平均軌跡
(3)根據(jù)
其中,k代表迭代空間的橫坐標,j代表迭代空間的縱坐標。
然后歸一化w,使得權(quán)重的和等于變量的數(shù)量,即令w等于
(4)對于前三次迭代,保持相同的參考軌跡:bref=bk。
對于后續(xù)迭代,將參考設(shè)置為等于平均軌跡:
迭代過程結(jié)束時的同步軌跡的長度將等于最初用作參考批次的軌跡的長度?;蛘?,可以從初始軌跡估計平均持續(xù)時間,并且其持續(xù)時間最接近平均持續(xù)時間的軌跡可以用作前三次迭代的bref。通過這樣做,結(jié)束時的同步軌跡的持續(xù)時間將為平均持續(xù)時間。初始參考軌跡的選擇是用戶偏好的問題。最大迭代次數(shù)是用戶設(shè)置的方法的另一個參數(shù)。還可以監(jiān)測權(quán)重矩陣w從一次迭代到下一次迭代的變化,并將其用作趨同的指標。
(5)規(guī)整后的各批次數(shù)據(jù)形成新的矩陣x,此時,各批次數(shù)據(jù)等長。
ⅴ發(fā)酵過程故障監(jiān)測。
對同步后的批次進行mkpca建模;對于完成上述數(shù)據(jù)處理的數(shù)據(jù)x(i×kj)進行mkpca建模,
mkpca模型表達式如下:
x=tpt+e(7)
其中p(j×r)為負載矩陣,t(i×kr)為得分矩陣,e(i×kj)為殘差矩陣,r為由累計方差貢獻率保留的主元數(shù)目。
最終由mkpca模型確定得分矩陣t,進而求得x的非線性主元。
發(fā)酵仿真使用在相近的初始條件下產(chǎn)生的30個批次的正常過程數(shù)據(jù),分別按照t2統(tǒng)計量和spe統(tǒng)計量所遵循的概率分布求取控制限。
本文選用的待監(jiān)測的故障批次是由底物流加速率在200時刻引入1%的斜坡故障產(chǎn)生,延續(xù)至反應結(jié)束。為了保證仿真環(huán)境與實際生產(chǎn)現(xiàn)場環(huán)境的一致性,對訓練樣本集加入了一定的白噪聲干擾。
為了驗證本文方法用于過程監(jiān)控的有效性,文中分別本文引入了傳統(tǒng)dtw方法和limited-dtw方法對30批數(shù)據(jù)進行批次間不等長處理建立正常批次模型后對故障批次進行監(jiān)測對比分析驗證。為進一步表明本文方法的優(yōu)越性,本文還引入了最短長度法方法處理批次數(shù)據(jù)與本文方法進行對比分析。從圖4a、4b、5a、5b、6a、6b中可以看出,最短長度法處理數(shù)據(jù)后建立的mkpca模型的t2統(tǒng)計量在208時刻檢測到故障,spe統(tǒng)計量在209時刻左右檢測到故障,但其存在較高的誤報率和漏報率;傳統(tǒng)dtw在故障檢測的準確率上有所提高,但對故障的檢測存在較大的延遲,其t2統(tǒng)計量在222時刻檢測到故障,spe統(tǒng)計量在223時刻檢測到故障。而本文提出的limited-dtw方法對dtw方法在尋優(yōu)過程中增加了全局路徑限制和失真度閾值限制,減少了對數(shù)據(jù)處理的計算量,因此較傳統(tǒng)dtw方法在故障檢測的實時性上有了很大提高,同時減小了誤報率和漏報率。