專(zhuān)利名稱(chēng):基于隨機(jī)采樣一致集的譜圖異常樣本點(diǎn)檢測(cè)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及化學(xué)計(jì)量學(xué)多元校正模型數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種基于隨機(jī)采樣一致集的譜圖異常樣本點(diǎn)檢測(cè)方法。
背景技術(shù):
隨著現(xiàn)代分析儀器的發(fā)展,檢測(cè)信號(hào)已由傳統(tǒng)的單一數(shù)值變化為完整的譜圖,甚至是圖像。對(duì)于光譜數(shù)據(jù),維數(shù)相對(duì)于采集的樣本個(gè)數(shù)來(lái)說(shuō)通常是很高的,此時(shí)校正回歸問(wèn)題嚴(yán)重病態(tài),傳統(tǒng)的一元單變量校正方法難以對(duì)這些數(shù)據(jù)進(jìn)行分析,取而代之的是多元校正方法[1]?;瘜W(xué)計(jì)量學(xué)多元校正技術(shù)直接利用測(cè)量信號(hào),通過(guò)降維、特征提取、特征變換以及多元回歸技術(shù)建立光譜信號(hào)與樣品濃度之間的定量模型,以實(shí)現(xiàn)定量分析。然而,經(jīng)典的多元校正方法,如多元線性回歸、主成分回歸、偏最小二乘回歸[2_3]通常特別易受異常樣本點(diǎn)的影響。一般地,與數(shù)據(jù)集中大部分樣本相比,異常樣本就是無(wú)關(guān)的、或者某種程度上是錯(cuò)誤的和不正常的樣本。異常樣本一般是由儀器故障、采集條件因素、人為操作誤差或數(shù)據(jù)自身缺陷等原因引起的。異常樣本的存在會(huì)影響模型的質(zhì)量,導(dǎo)致建立的模型無(wú)法反映數(shù)據(jù)的真實(shí)關(guān)系,無(wú)法得到準(zhǔn)確的預(yù)測(cè)結(jié)果。因此,需要剔除異常樣本點(diǎn)的影響建立穩(wěn)健的模型[4]。對(duì)于主成分回歸,一般采用穩(wěn)健的協(xié)方差估計(jì)替代傳統(tǒng)的數(shù)據(jù)協(xié)方差矩陣,從而實(shí)現(xiàn)穩(wěn)健的主成分回歸。對(duì)于偏最小二乘(PLS)回歸,不同的穩(wěn)健PLS模型被提出,如將PLS方法中所涉及到的最小二乘回歸方法,部分或全部替換成某種穩(wěn)健回歸方法,如迭代重加權(quán)最小二乘(IRLS)、最小中位數(shù)平方法(LMS)和截尾最小二乘法(LTS)等;迭代重加權(quán)偏最小二乘(IRPLS)方法[5];偏穩(wěn)健M回歸方法[6] ;RSIMPLS方法[7]。還有一類(lèi)方法通過(guò)交叉驗(yàn)證來(lái)檢測(cè)異常樣本,如基于留一交叉驗(yàn)證得到每個(gè)樣本對(duì)應(yīng)的光譜殘差或濃度殘差,然后判定殘差超出某個(gè)閾值的樣本為異常樣本M ;類(lèi)似地,模特卡羅交叉驗(yàn)證也被用于異常樣本檢測(cè),該方法首先建立模特卡羅交叉驗(yàn)證模型,然后根據(jù)預(yù)測(cè)誤差平方和排序,并統(tǒng)計(jì)每個(gè)樣本在不同模型中的出現(xiàn)頻次,最終基于異常樣本與正常樣本的出現(xiàn)頻次差異來(lái)判定樣本是否異常。然而,基于交叉驗(yàn)證的異常樣本檢測(cè)方法,可能會(huì)產(chǎn)生“掩蓋”現(xiàn)象,導(dǎo)致無(wú)法檢測(cè)出或錯(cuò)誤識(shí)別異常樣本。穩(wěn)健的主成分回歸或偏最小二乘回歸對(duì)于數(shù)據(jù)集中異常樣本較多時(shí)檢測(cè)效果較差?;谧畲蠛篁?yàn)概率隨機(jī)采樣一致集[9],進(jìn)行多元校正異常樣本檢測(cè),是一種新的方法,它能夠通過(guò)不斷地隨機(jī)采樣,剔除數(shù)據(jù)中的異常樣本,目前還未見(jiàn)成熟的技術(shù)與文獻(xiàn)。現(xiàn)實(shí)應(yīng)用中的各種復(fù)雜情形,如觀測(cè)條件、操作因素等,均會(huì)導(dǎo)致異常樣本點(diǎn)的出現(xiàn)。各種不同類(lèi)型的異常樣本點(diǎn)對(duì)校正模型的影響程度不同,如何有效消除這些異常樣本的影響是化學(xué)計(jì)量學(xué)多元校正技術(shù)的一個(gè)難題。[l]Martens H, Nas T. Multivariate calibration. Wiley, 1992[2]ffold H. Soft modelling by latent variables:the nonlineariterativepartial least squares approach.Perspectives in Probability andStatistics.
權(quán)利要求
1.一種基于隨機(jī)采樣一致集的譜圖異常樣本點(diǎn)檢測(cè)方法,其特征在于,包括如下具體步驟 步驟(I):對(duì)給定光譜數(shù)據(jù)X進(jìn)行穩(wěn)健主成分分析,檢測(cè)并消除異常光譜樣本點(diǎn),得到校正樣本集X。,記校正樣本集X。中樣本數(shù)目為m。; 步驟(2):在所述步驟(I)中的校正樣本集X。上進(jìn)行隨機(jī)采樣,得到當(dāng)前的訓(xùn)練集Xs ; 步驟(3):基于所述步驟(2)中的訓(xùn)練集Xs建立多元校正模型,并計(jì)算模型預(yù)測(cè)殘量誤差Es ; 步驟(4):利用步驟(3)中的多元校正模型和模型預(yù)測(cè)殘量誤差Es,評(píng)價(jià)模型的性能并得出評(píng)價(jià)得分,并將步驟(I)中的校正樣本集X。確定為內(nèi)點(diǎn)集U。; 步驟(5):重復(fù)步驟(2)至步驟(4)N次,其中N定義為自然數(shù),從而得到N個(gè)評(píng)價(jià)得分,選擇其中評(píng)價(jià)得分最高的多元校正模型所對(duì)應(yīng)的校正樣本集為最終的內(nèi)點(diǎn)集um。
2.根據(jù)權(quán)利要求1所述的基于隨機(jī)采樣一致集的譜圖異常樣本點(diǎn)檢測(cè)方法,其特征在于,所述步驟(I)包括如下具體步驟 步驟(11):建立模型X=TPt,其中Ttt1, t2,…,ta]T定義為得分矩陣,Ρ[ρι,ρ2,…,pa]TS義為載荷矩陣,a定義為主成分個(gè)數(shù); 步驟(12):利用公式t—i^mediani^,t2,…ta)計(jì)算主成分得分向量tp t2,…,ta的中信t ·I 1-°* ^median, 步驟(13):基于步驟(12)中的中值tmedian以及如下公式 Smad=1- 4826median (| I^tmedian |,| t2_tmedian |,…| ta_tmedian |) 計(jì)算出數(shù)據(jù)的中值絕對(duì)偏差Smad ; 步驟(14):利用公式計(jì)算出每個(gè)主成分得分?jǐn)?shù)據(jù)與中值之間的誤差值Cli,其中i=l,…,m。,剔除Cli ^ 3 X Smad的樣本點(diǎn),得到的數(shù)據(jù)集為校正樣本集X。。
3.根據(jù)權(quán)利要求2所述的基于隨機(jī)采樣一致集的譜圖異常樣本點(diǎn)檢測(cè)方法,其特征在于,所述步驟(2)包括如下具體處理 在校正集X。上進(jìn)行隨機(jī)采樣,隨機(jī)地挑選出πι=πιε/2個(gè)樣本,其中,m定義為正偶數(shù),形成樣本子集
4.根據(jù)權(quán)利要求3所述的基于隨機(jī)采樣一致集的譜圖異常樣本點(diǎn)檢測(cè)方法,其特征在于,所述步驟(3)包括如下具體處理 建立濃度值多元校正模型Ys=XsB,并利用公式
5.根據(jù)權(quán)利要求4所述的基于隨機(jī)采樣一致集的譜圖異常樣本點(diǎn)檢測(cè)方法,其特征在于,所述步驟(4)包括如下具體處理 步驟(41):利用公式
全文摘要
本發(fā)明公開(kāi)了一種基于隨機(jī)采樣一致集的譜圖異常樣本點(diǎn)檢測(cè)方法,以最大后驗(yàn)概率隨機(jī)采樣一致集為基礎(chǔ),從給定光譜數(shù)據(jù)入手,通過(guò)主成分分析預(yù)先剔除部分異常樣本得到校正樣本集,進(jìn)行隨機(jī)采樣,建立多元校正模型并評(píng)價(jià)模型性能,通過(guò)多次隨機(jī)采樣,選擇合適的樣本子集為內(nèi)點(diǎn)集。本發(fā)明所設(shè)計(jì)的基于隨機(jī)采樣一致集的譜圖異常樣本點(diǎn)檢測(cè)方法快速有效、準(zhǔn)確度高和適用范圍廣。
文檔編號(hào)G01N21/25GK103018177SQ20121051918
公開(kāi)日2013年4月3日 申請(qǐng)日期2012年12月6日 優(yōu)先權(quán)日2012年12月6日
發(fā)明者王海燕, 劉軍, 姜久英 申請(qǐng)人:江蘇易譜恒科技有限公司