一種基于lasso的近紅外光譜變量選擇方法

文檔序號：9451023閱讀：721來源：國知局

一種基于lasso的近紅外光譜變量選擇方法
【技術(shù)領(lǐng)域】
[0001] 本方法發(fā)明屬于分析化學領(lǐng)域的無損分析技術(shù)領(lǐng)域，具體涉及一種基于LASSO的近紅外光譜變量選擇方法。
【背景技術(shù)】
[0002] 近紅外光譜分析技術(shù)是分析化學領(lǐng)域里高速發(fā)展的技術(shù)，它具有分析效率高、檢測速度快、無需樣品預處理等優(yōu)點，已廣泛的應用于食品、石油等行業(yè)。在近紅外光譜和被測物質(zhì)的含量或類別之間建立模型，可以實現(xiàn)復雜物質(zhì)的直接定性定量分析。近紅外光譜建模中非常重要的一個問題就是光譜中存在冗余波長。一般的近紅外光譜（NIR)包含成百上千的波長變量點，而其中一些波長與研究的性質(zhì)是不相關(guān)的，這些不相關(guān)波長點，會影響模型質(zhì)量，導致其預測能力下降。因此變量選擇一直是光譜建模分析的重要內(nèi)容。
[0003] 光譜數(shù)據(jù)分析中常用的變量選擇方法主要包括基于智能優(yōu)化算法的方法以及基于統(tǒng)計學的方法。前者主要有模擬退火（simulated annealing，SA，參見Swierenga H， de Groot P J? de ffeijer A P? Derksen MWJ? Buydens LMC? Improvement of PLS model transferability by robust wavelength selection， Chemom Intell Lab Syst，1998， 41，237-248)、遺傳算法（genetic algorithm，GA，參見 Leardi R，Gonzalez AL，Genetic algorithms applied to feature selection in PLS regression ：how and when to use them，Chemom Intell Lab 378七，1998,41，195_207)、禁忌搜索（丁&131186&1'。11，丁3，參見 Hageman JA，Streppel M? ffehrens R? Wavelength selection with Tabu Search， J Chemometrics，2003,17,427-437)、蟻群算法（ant colony optimization，AC0，參見 Shamsipur M，Zare-Shahabadi V，Hemmateenejad B，Akhond M，Ant colony optimization ： a powerful tool for wavelength selection，J Chemometrics，2006, 20,146-157)、粒子群算法（particle swarm optimization，PS0,參見Xu L，Jiang JH，Wu HL，Shen GL，Yu RQ， Variable-weighted PLS，Chemom Intell Lab Syst，2007,85,140-143)等，這些最優(yōu)化的方法存在需要大量的參數(shù)、搜索時間較長以及容易陷入局部最優(yōu)等缺陷。后者主要有無信息變量消除方法（Uninformative Variable Elimination，UVE，參見 Centner V，Massart D L，de Noord 0 E，Jong S，Vandeginste BM，Sterna C，Elimination of uninformative variables for multivariate calibration. Anal Chem，1996,68, 3851-3858)、蒙特卡洛結(jié)合無信息變量消除方法（Monte Carlo Uninformative Variable Elimination，MCUVE，參見 Cai WS? Li YK，Shao XG，A variable selection method based on uninformative variable elimination for multivariate calibration of near-infrared spectra， Chemom Intell Lab Syst，2008,90，188_194)、基于隨機檢驗的變量篩選方法 (Randomization Test，RT，參見 Xu H，Liu ZC，Cai WS，Shao X G，A wavelength selection method based on randomization test for near-infrared spectral analysis. Chemom Intell Lab Syst，2009,97，189-193)等。UVE方法采用了留一法交叉驗證來獲取變量穩(wěn)定性值，該過程需要多次反復的運算，而且還需要引入與原始光譜所包含變量數(shù)目相等的隨機噪聲變量，所以當數(shù)據(jù)集數(shù)目較大時，該方法計算效率低，耗時較長。MCUVE算法和RT方法都引入多次建模技術(shù)，產(chǎn)生的多個模型往往比單一模型更能有效地從數(shù)據(jù)的不同方面和不同層面抽取并表達自變量和因變量之間的復雜關(guān)系，有利于更合理、可靠地選擇變量。但由于每次建模樣本的隨機選擇，使得這兩種方法的運算結(jié)果存在一定的不穩(wěn)定性，而且在數(shù)據(jù)量較大時也比較費時。因此，有必要進一步發(fā)展新型快速的變量選擇方法，提高模型的穩(wěn)定性與預測精度。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的是針對上述存在問題，提供一種快速、穩(wěn)定的變量選擇方法。該方法在一個回歸系數(shù)的絕對值之和小于一個常數(shù)的條件下，使殘差平方和最小化，從而較嚴格地使某些回歸系數(shù)變?yōu)榱?，相應的變量被刪除，實現(xiàn)變量選擇。
[0005] 具體步驟如下：
[0006] (1)收集m個待測樣本。設定光譜參數(shù)，采集樣本的近紅外光譜，得到樣本的光譜矩陣X。用常規(guī)方法測定樣本的被測組分含量，得到濃度向量y。采用一定分組方式將數(shù)據(jù) 分為訓練集和預測集，其中訓練集樣本用來建立模型并優(yōu)化參數(shù)，預測集樣本用來檢驗模型的預測能力。
[0007] (2)采用交叉驗證確定LASSO的約束值t。t控制著壓縮的程度，t越小，壓縮的程度越強，由于這個限制條件，最后結(jié)果會使得回歸系數(shù)0的某些分量變成0,達到了變量選擇的目的。
[0008](3)利用最小角回歸算法求解LASSO的回歸系數(shù)0，保存回歸系數(shù)不為0的波長點位置-
[0009]
[0010] 最小角回歸算法過程如下：
[0011]①更新模型入選變量集（active set)，計算相關(guān)系數(shù)絕對值
[0012]
[0013] 更新 active setA (k)，
[0014]
[0015] ②確定最小角方向（uk)
[0016] 令 Xk= (...sa…）』EA(k)
[0017] 其中，
[0018] lk是所有分量為1的向量，其長度等于|A|。計算最小角方向：uk= xk?k③計算步長
[0019]當j*A(k)，令
[0020] 若|A| = d，則乂 =：&/為，算法終止。
[0021]
[0022]
[0023]
[0024]
[0025]
[0026]
[0027]
[0028]
[0029] 當j G A時，&e，否則〇返回執(zhí)行步驟①。
[0030] (4)根據(jù)保留的波長點位置，僅保留訓練集光譜矩陣相應的波長列，得到新的光譜矩陣，并且與訓練集樣本被測成分濃度向量建立偏最小二乘回歸（PLS)模型。其中PLS模型的因子數(shù)通過蒙特卡羅交叉驗證結(jié)合F檢驗確定。利用這個模型，測定預測集樣本被測成分的濃度含量。
[0031] 與現(xiàn)有變量選擇方法相比，本發(fā)明具有運行速度快、選擇變量具有可重復性的優(yōu) 點，而且能用更少的變量數(shù)達到更好的預測結(jié)果。
【附圖說明】
[0032] 圖1 :煙草樣本的近紅外光譜圖
[0033] 圖2 :煙草近紅外光譜數(shù)據(jù)訓練集進行1000次交叉驗證的殘差平方和（SSR)平均值以及方差隨著歸一化的約束值t的變化圖，其中豎線代表最優(yōu)模型對應的t值
[0034] 圖3 :煙草近紅外光譜數(shù)據(jù)訓練集進行LASSO變量選擇后所有變量對應的回歸系數(shù)0
[0035] 圖4 :UVE、MCUVE、RT、LASSO四種變量選擇方法保留變量的分布圖
[0036] 圖5 :香油與大豆油、稻米油三元摻混樣本的近紅外光譜圖
[0037] 圖6 :香油與大豆油、稻米油三元摻混樣本的光譜數(shù)據(jù)訓練集進行1000次交叉驗證的殘差平方和（SSR)平均值以及方差隨著歸一化的約束值t的變化圖，其中豎線代表最優(yōu)模型對應的t值
[0038] 圖7 :香油與大豆油、稻米油三元摻混樣本光譜數(shù)據(jù)訓練集進行LASSO變量選擇后所有變量對應的回歸系數(shù)0
[0039] 圖8 :UVE、MCUVE、RT、LASSO四種變量選擇方法保留變量的分布圖
【具體實施方式】
[0040] 為更好理解本發(fā)明，下面結(jié)合實施例對本發(fā)

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：卞希慧;顏鼎荷;李淑娟;譚小耀;李翔;
技術(shù)所有人：天津工業(yè)大學;
我是此專利的發(fā)明人

上一篇：氣體成分在線實時監(jiān)測的裝置及方法
上一篇：一種由近紅外光譜預測脫硫胺液中硫化氫含量的方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、邢老師：1.機械設計及理論 2.生物醫(yī)學材料及器械 3.聲發(fā)射檢測技術(shù)。
2、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
3、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
4、張老師：1.機械設計的應力分析、強度校核的計算機仿真 2.生物反應器研制 3.生物力學
5、趙老師：檢測與控制技術(shù)、機器人技術(shù)、機電一體化技術(shù)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

近紅外光譜預處理方法相關(guān)技術(shù)

近紅外光譜相關(guān)技術(shù)

近紅外光譜技術(shù)相關(guān)技術(shù)

近紅外光譜分析儀相關(guān)技術(shù)

近紅外光譜分析技術(shù)相關(guān)技術(shù)

近紅外光譜分析相關(guān)技術(shù)

近紅外光譜技術(shù)的應用相關(guān)技術(shù)

近紅外光譜法相關(guān)技術(shù)

紫外可見近紅外光譜相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于lasso的近紅外光譜變量選擇方法