一種光譜波數(shù)的選擇方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明設(shè)及光譜分析領(lǐng)域,尤其是設(shè)及一種光譜波數(shù)的選擇方法。
【背景技術(shù)】
[0002] 光譜分析技術(shù)作為一種快速無損的定量分析方法,已成功應(yīng)用于食品、農(nóng)業(yè)、石油 化工等領(lǐng)域。然而光譜檢測中獲得的譜圖往往重疊嚴(yán)重,光譜信息冗余,特征吸收區(qū)域不明 顯。為了提高模型預(yù)測精度和簡化模型,需要對波數(shù)進(jìn)行優(yōu)選,選擇與待測樣本信息最相關(guān) 的特征波數(shù)用于模型的建立。
[0003] 目前,關(guān)于光譜分析中波長(波長是波數(shù)的倒數(shù))選擇方法的研究,主要有基于間 隔的波長選擇策略、無信息變量消除算法等方法?;陂g隔的波長選擇策略,波長區(qū)間大小 的選擇難W確定,且特征波長可能只是單獨的點,而選擇出的波長段中可能含有無關(guān)的波 長,并不能最大程度地消除無關(guān)波長;無信息變量消除算法消除無關(guān)變量也是一種常用的 波長選擇方法,其采用對校正光譜矩陣人為產(chǎn)生一噪聲矩陣,消除信息小于噪聲變量的波 長的方法進(jìn)行特征波長提取,但運種方法也存在一定的主觀性,并且噪聲矩陣的選擇影響 著波長選擇的結(jié)果,最終波長選擇結(jié)果通常存在較多的冗余。上述現(xiàn)有方法的局限性,影響 了模型的穩(wěn)健性與精度。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的在于,針對現(xiàn)有技術(shù)的不足,提供一種光譜波數(shù)的選擇方法。
[0005] 為此,本發(fā)明采用如下解決方案:
[0006] -種光譜波數(shù)的選擇方法,所述光譜波數(shù)的選擇方法針對光譜的波數(shù),多次隨機(jī) 抽取校正樣本,建立偏最小二乘回歸模型,計算每個波數(shù)的變量投影重要性系數(shù)(化riable Impodance in the Projection,VIP),按降序排序,并得到與之相應(yīng)排列順序的波數(shù)集, 對重排后的波數(shù)集進(jìn)行逐步波數(shù)篩選,統(tǒng)計每次波數(shù)選擇的結(jié)果,得到波數(shù)初選集;然后統(tǒng) 計所有波數(shù)初選集內(nèi)每個波數(shù)的偏最小二乘回歸系數(shù)的絕對值并作相應(yīng)的處理,對處理后 的偏最小二乘回歸系數(shù)按降序排序,記錄對應(yīng)的波數(shù)排列次序,再采用反向剔除弱相關(guān)的 波數(shù)的策略,從而獲得最優(yōu)特征波數(shù)集。
[0007] 本發(fā)明的基于變量投影重要性系數(shù)與偏最小二乘回歸系數(shù)協(xié)同的光譜特征波數(shù) 選擇方法,所述方法包括W下步驟:
[000引步驟(1),對于樣本個數(shù)為m、波數(shù)個數(shù)為P的樣本集,建立樣本光譜矩陣X(mXp), 樣本性質(zhì)矩陣為Y(mXl),樣本原波數(shù)集¥=^1,^,一,^};設(shè)定最大統(tǒng)計次數(shù)1',設(shè)定建模 過程中最大篩選次數(shù)KMAX,初始化統(tǒng)計次數(shù)t = 1;同時,將樣本集劃分為校正集及預(yù)測集;
[0009] 步驟(2),從步驟(1)所述的校正集內(nèi)隨機(jī)抽取S個樣本作為校正樣本集,對校正樣 本集建立偏最小二乘(Partial Least Squares,化S)回歸模型;
[0010] 步驟(3),基于步驟(2)中建立的偏最小二乘回歸模型,通過變量投影重要性系數(shù) (VIP)來判斷每個波數(shù)對建立模型的重要程度,VIP值大的波數(shù)對模型的重要程度高,將VIP 值按降序排列,并得到和VIP值排列順序相對應(yīng)的波數(shù)集Vt, 1,然后,根據(jù)每個波數(shù)對模型的 重要程度,逐步淘汰波數(shù),并計算第k次淘汰波數(shù)時建模的交叉驗證均方根誤差RMSECVt,k (Root Mean Square lirror of Cross Validation),記錄第k次淘汰波數(shù)時波數(shù)子集Vt,k, 其中k為從巧化MAX的自然數(shù);
[OOW 步驟(4),查找交叉驗證均方根誤差RM沈0^1<化=1,2。',謂4乂)的最小值,將此次 波數(shù)選擇的波數(shù)子集Vt,k記為波數(shù)初選集selectett,并記錄波數(shù)子集selectecLt對應(yīng)的 回歸模型系數(shù)矩陣絕對值w_t;
[0012]步驟(5),重復(fù)步驟(2)到步驟(4),直至達(dá)到最大統(tǒng)計次數(shù)T,獲得波數(shù)子集 selected_t(t=l,2,…,T),同時得到每個波數(shù)子集對應(yīng)的回歸模型系數(shù)矩陣絕對值集合 {w_l,w_2,---,w_T};
[OOU]步驟(6),統(tǒng)計出每個波數(shù)在步驟(5)中的集合{w丄w_2,一,w_T}相應(yīng)的回歸模型 系數(shù)值之和,并做歸一化處理得到矩陣WlXp,并將WlXp每個波數(shù)按大小從高至低排列,得到 矩陣WSixp;記與矩陣WSixp相對應(yīng)的原波數(shù)重排后的波數(shù)集為reso;rt_wave = {V 1,χ/ 2,…, X%},其中為原波數(shù)集內(nèi)偏最小二乘回歸系數(shù)最大的波數(shù)點,χ/ρ為原波數(shù)集內(nèi)偏最小二 乘回歸系數(shù)最小的波數(shù)點;
[0014]步驟(7),針對步驟(6)所述的波數(shù)集采取反向剔除法,即從低位開始逐個剔除系 數(shù)值小的波數(shù);剔除個數(shù)設(shè)定闊值g,所述闊值g為自然數(shù),所述闊值g大于等于2同時小于步 驟(1)所述的波數(shù)個數(shù)P,在步驟(6)所述的波數(shù)集resod_wave = {χ/1,χ/ 2,· · ·,χ/ P}中,將波 數(shù)子集iVp-g+i,…,xVi,x%}剔除,將波數(shù)子集iVi,…,xVg-i,xVg}保留并作為最優(yōu)特征 波數(shù)子集 selected_wave。
[001引優(yōu)選地,所述步驟(1)中,所述最大統(tǒng)計次數(shù)T的取值范圍優(yōu)選化00到1000之間。
[0016] 優(yōu)選地,所述最大篩選次數(shù)KMAX的取值范圍為1到波數(shù)個數(shù)P,優(yōu)選在20到200之 間。
[0017] 優(yōu)選地,所述步驟(7)中,所述闊值g的優(yōu)選值設(shè)定方法為:基于所述步驟(6)劃分 的波數(shù)集,第1步首先從所述步驟(6)中所述的波數(shù)集resod_wave = {V 1,χ/ 2,…,χ/ P}中剔 除偏最小二乘回歸系數(shù)最小的波數(shù)點χ/ρ,將剩余的波數(shù)子集?νι,···,χ/ρ-ι}按所述步驟(1) 中已劃分好的校正集及預(yù)測集的樣本建立化S回歸模型,計算波數(shù)集剔除數(shù)目為1時模型的 綜合評價指標(biāo)CPi;第2步從波數(shù)子集{χ/ι,···,χ/ρ-ι}中剔除χ/ρ-1,將剩余波數(shù)子集{χ/ι,···, 按所述步驟(1)中已劃分好的校正集及預(yù)測集的樣本建立化S回歸模型,計算波數(shù)集 易齡數(shù)目為2時模型的綜合評價指標(biāo)CP2;第k步從波數(shù)子集{V 1,…,XVk+i}中剔除XVk+i, 將剩余的波數(shù)子集{χ/1,…,x%-k}按所述步驟(1)中已劃分好的校正集及預(yù)測集的樣本建 立化S回歸模型,計算波數(shù)集剔除數(shù)目為k時模型的綜合評價指標(biāo)CPk;重復(fù)上述計算,直至 第(P-2)步,計算波數(shù)集剔除數(shù)目為(P-2)時的綜合評價指標(biāo)化-2,此時僅剩偏最小二乘回 歸系數(shù)最大的兩個波數(shù)χ/1和χ/ 2;所述CPi( i = 1,…,p-2)最小值所對應(yīng)的波數(shù)剔除數(shù)目為 闊值g的優(yōu)選值;所述CPi(i = 1,…,P-2)的值,優(yōu)選模型校正標(biāo)準(zhǔn)偏差RMSECV與模型預(yù)測標(biāo) 準(zhǔn)偏差RMSEP的加和。
[0018] 本發(fā)明所提供的光譜波數(shù)的選擇方法具有W下優(yōu)點:
[0019] (1)采用隨機(jī)采樣的方式來確定校正樣本,消除人為劃分校正樣本建模的主觀因 素;
[0020] (2)結(jié)合變量投影重要性系數(shù)與偏最小二乘回歸系數(shù)共同進(jìn)行波數(shù)篩選,最大化 地甄別出有益波數(shù);
[0021] (3)統(tǒng)計多次波數(shù)選擇的結(jié)果,克服由于由所選擇的校正樣本對于波數(shù)重要性評 價的影響,最大限度地提取特征波數(shù);
[0022] (4)經(jīng)過優(yōu)選波數(shù)變量,能使用較少波數(shù)建立簡化模型,且所建模型穩(wěn)健性好、精 度高。
【附圖說明】
[0023] 圖1為本發(fā)明基于變量投影重要性系數(shù)與偏最小二乘回歸系數(shù)協(xié)同的光譜特征波 數(shù)選擇方法的流程圖;
[0024] 圖2為生物柴油調(diào)和油拉曼光譜的原始光譜圖;
[0025] 圖3為全部波數(shù)及其回歸模型系數(shù)指標(biāo)的統(tǒng)計圖,圓圈標(biāo)出的點是最終篩選出的 特征波數(shù);
[0026] 圖4為波數(shù)子集數(shù)目與模型的綜合評價指標(biāo)CP的關(guān)系圖;
[0027] 圖5為篩選出的特征波