一種基于lasso的近紅外光譜變量選擇方法
【技術(shù)領(lǐng)域】
[0001] 本方法發(fā)明屬于分析化學領(lǐng)域的無損分析技術(shù)領(lǐng)域,具體涉及一種基于LASSO的 近紅外光譜變量選擇方法。
【背景技術(shù)】
[0002] 近紅外光譜分析技術(shù)是分析化學領(lǐng)域里高速發(fā)展的技術(shù),它具有分析效率高、檢 測速度快、無需樣品預處理等優(yōu)點,已廣泛的應用于食品、石油等行業(yè)。在近紅外光譜和被 測物質(zhì)的含量或類別之間建立模型,可以實現(xiàn)復雜物質(zhì)的直接定性定量分析。近紅外光譜 建模中非常重要的一個問題就是光譜中存在冗余波長。一般的近紅外光譜(NIR)包含成百 上千的波長變量點,而其中一些波長與研究的性質(zhì)是不相關(guān)的,這些不相關(guān)波長點,會影響 模型質(zhì)量,導致其預測能力下降。因此變量選擇一直是光譜建模分析的重要內(nèi)容。
[0003] 光譜數(shù)據(jù)分析中常用的變量選擇方法主要包括基于智能優(yōu)化算法的方法以及基 于統(tǒng)計學的方法。前者主要有模擬退火(simulated annealing,SA,參見Swierenga H, de Groot P J? de ffeijer A P? Derksen MWJ? Buydens LMC? Improvement of PLS model transferability by robust wavelength selection, Chemom Intell Lab Syst,1998, 41,237-248)、遺傳算法(genetic algorithm,GA,參見 Leardi R,Gonzalez AL,Genetic algorithms applied to feature selection in PLS regression :how and when to use them,Chemom Intell Lab 378七,1998,41,195_207)、禁忌搜索(丁&131186&1'。11,丁3, 參見 Hageman JA,Streppel M? ffehrens R? Wavelength selection with Tabu Search, J Chemometrics,2003,17,427-437)、蟻群算法(ant colony optimization,AC0,參見 Shamsipur M,Zare-Shahabadi V,Hemmateenejad B,Akhond M,Ant colony optimization : a powerful tool for wavelength selection,J Chemometrics,2006, 20,146-157)、粒子 群算法(particle swarm optimization,PS0,參見Xu L,Jiang JH,Wu HL,Shen GL,Yu RQ, Variable-weighted PLS,Chemom Intell Lab Syst,2007,85,140-143)等,這些最優(yōu)化的 方法存在需要大量的參數(shù)、搜索時間較長以及容易陷入局部最優(yōu)等缺陷。后者主要有無信 息變量消除方法(Uninformative Variable Elimination,UVE,參見 Centner V,Massart D L,de Noord 0 E,Jong S,Vandeginste BM,Sterna C,Elimination of uninformative variables for multivariate calibration. Anal Chem,1996,68, 3851-3858)、蒙特卡洛 結(jié)合無信息變量消除方法(Monte Carlo Uninformative Variable Elimination,MCUVE, 參見 Cai WS? Li YK,Shao XG,A variable selection method based on uninformative variable elimination for multivariate calibration of near-infrared spectra, Chemom Intell Lab Syst,2008,90,188_194)、基于隨機檢驗的變量篩選方法 (Randomization Test,RT,參見 Xu H,Liu ZC,Cai WS,Shao X G,A wavelength selection method based on randomization test for near-infrared spectral analysis. Chemom Intell Lab Syst,2009,97,189-193)等。UVE方法采用了留一法交叉驗證來獲取變量穩(wěn)定 性值,該過程需要多次反復的運算,而且還需要引入與原始光譜所包含變量數(shù)目相等的隨 機噪聲變量,所以當數(shù)據(jù)集數(shù)目較大時,該方法計算效率低,耗時較長。MCUVE算法和RT方 法都引入多次建模技術(shù),產(chǎn)生的多個模型往往比單一模型更能有效地從數(shù)據(jù)的不同方面和 不同層面抽取并表達自變量和因變量之間的復雜關(guān)系,有利于更合理、可靠地選擇變量。但 由于每次建模樣本的隨機選擇,使得這兩種方法的運算結(jié)果存在一定的不穩(wěn)定性,而且在 數(shù)據(jù)量較大時也比較費時。因此,有必要進一步發(fā)展新型快速的變量選擇方法,提高模型的 穩(wěn)定性與預測精度。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是針對上述存在問題,提供一種快速、穩(wěn)定的變量選擇方法。該方法 在一個回歸系數(shù)的絕對值之和小于一個常數(shù)的條件下,使殘差平方和最小化,從而較嚴格 地使某些回歸系數(shù)變?yōu)榱?,相應的變量被刪除,實現(xiàn)變量選擇。
[0005] 具體步驟如下:
[0006] (1)收集m個待測樣本。設定光譜參數(shù),采集樣本的近紅外光譜,得到樣本的光譜 矩陣X。用常規(guī)方法測定樣本的被測組分含量,得到濃度向量y。采用一定分組方式將數(shù)據(jù) 分為訓練集和預測集,其中訓練集樣本用來建立模型并優(yōu)化參數(shù),預測集樣本用來檢驗模 型的預測能力。
[0007] (2)采用交叉驗證確定LASSO的約束值t。t控制著壓縮的程度,t越小,壓縮的程 度越強,由于這個限制條件,最后結(jié)果會使得回歸系數(shù)0的某些分量變成0,達到了變量選 擇的目的。
[0008](3)利用最小角回歸算法求解LASSO的回歸系數(shù)0,保存回歸系數(shù)不為0的波長 點位置-
[0009]
[0010] 最小角回歸算法過程如下:
[0011]①更新模型入選變量集(active set),計算相關(guān)系數(shù)絕對值
[0012]
[0013] 更新 active setA (k),
[0014]
[0015] ②確定最小角方向(uk)
[0016] 令 Xk= (...sa…)』EA(k)
[0017] 其中,
[0018] lk是所有分量為1的向量,其長度等于|A|。計算最小角方向:uk= xk?k③計算 步長
[0019]當j*A(k),令
[0020] 若|A| = d,則乂 =:&/為,算法終止。
[0021]
[0022]
[0023]
[0024]
[0025]
[0026]
[0027]
[0028]
[0029] 當j G A時,&e,否則〇返回執(zhí)行步驟①。
[0030] (4)根據(jù)保留的波長點位置,僅保留訓練集光譜矩陣相應的波長列,得到新的光譜 矩陣,并且與訓練集樣本被測成分濃度向量建立偏最小二乘回歸(PLS)模型。其中PLS模 型的因子數(shù)通過蒙特卡羅交叉驗證結(jié)合F檢驗確定。利用這個模型,測定預測集樣本被測 成分的濃度含量。
[0031] 與現(xiàn)有變量選擇方法相比,本發(fā)明具有運行速度快、選擇變量具有可重復性的優(yōu) 點,而且能用更少的變量數(shù)達到更好的預測結(jié)果。
【附圖說明】
[0032] 圖1 :煙草樣本的近紅外光譜圖
[0033] 圖2 :煙草近紅外光譜數(shù)據(jù)訓練集進行1000次交叉驗證的殘差平方和(SSR)平均 值以及方差隨著歸一化的約束值t的變化圖,其中豎線代表最優(yōu)模型對應的t值
[0034] 圖3 :煙草近紅外光譜數(shù)據(jù)訓練集進行LASSO變量選擇后所有變量對應的回歸系 數(shù)0
[0035] 圖4 :UVE、MCUVE、RT、LASSO四種變量選擇方法保留變量的分布圖
[0036] 圖5 :香油與大豆油、稻米油三元摻混樣本的近紅外光譜圖
[0037] 圖6 :香油與大豆油、稻米油三元摻混樣本的光譜數(shù)據(jù)訓練集進行1000次交叉驗 證的殘差平方和(SSR)平均值以及方差隨著歸一化的約束值t的變化圖,其中豎線代表最 優(yōu)模型對應的t值
[0038] 圖7 :香油與大豆油、稻米油三元摻混樣本光譜數(shù)據(jù)訓練集進行LASSO變量選擇后 所有變量對應的回歸系數(shù)0
[0039] 圖8 :UVE、MCUVE、RT、LASSO四種變量選擇方法保留變量的分布圖
【具體實施方式】
[0040] 為更好理解本發(fā)明,下面結(jié)合實施例對本發(fā)