本方法發(fā)明屬于分析化學(xué)領(lǐng)域的無損分析技術(shù)領(lǐng)域,具體涉及基于自加權(quán)變量組合集群分析的近紅外光譜變量選擇方法。
背景技術(shù):
隨著近紅外光譜技術(shù)和化學(xué)計(jì)量學(xué)的發(fā)展,變量選擇技術(shù)已經(jīng)成為了近紅外光譜分析高維度數(shù)據(jù)領(lǐng)域的關(guān)鍵環(huán)節(jié),對光譜變量進(jìn)行變量選擇可以提高預(yù)測模型的預(yù)測能力。降低光譜數(shù)據(jù)維度和增強(qiáng)預(yù)測模型的可解釋性。同時,變量選擇也是一個非常具有挑戰(zhàn)性的問題,隨著變量空間的增大找到一組最佳的變量組合是一個非常困難的問題。
國內(nèi)外常見的變量選擇方法有無信息變量消除法(uninformativevariableseliminationuve,參見張巧杰熊鳴祁鯤無信息變量消除法在糙米直鏈淀粉波長選擇中的應(yīng)用光譜儀器與分析2005-10-15)、蒙特卡洛無信息變量消除法(montecarlobaseduve,mc-uve,參見w-scai,y–kli,x-gshao,avariableselectionmethodbasedonuninformativevariableeliminationformultivariatecalibrationofnear-infraredspectra[j],chemometr,intell.lab.syst.2008,90,188-194)、遺傳學(xué)算法(geneticalgorithm,ga,參見leardir,gonzalezal,geneticalgorithmsappliedtofeatureselectioninplsregression:howandwhentousethem,chemomintelllabsyst,1998,41,195-207)等。隨著mpa思想的發(fā)展,一些新的變量選擇方法如:隨機(jī)蛙跳法(randomfrog,rf,參見朱逢樂何勇邵詠妮應(yīng)用近紅外高光譜成像預(yù)測三文魚肉的水分含量光譜學(xué)與光譜分析2015-1,113-117)、迭代保留有信息變量法(iterativelyretainsinformativevariablesiriv,參見yong-huanyun,wei-tingwang,min-litan,yi-zengliang,hong-dongli,dong-shengcao,hong-meilu,qing-songxu,astrategythatiterativelyretainsinformativevariablesforselectingoptimalvariablesubsetinmultivariatecalibration,anal.chim.acta,2014,807,36-45)、競爭自適應(yīng)重采樣法(cars,參見h-dli,y-zliang,q-sxu,d-scao,keywavelengthsscreeningusingcompetitiveadaptivereweightedsamplingmethodformultivariatecalibration,anal.chim.acta,2009,648,77-84)和變量組合集群分析法(variablecombinationpopulationanalysisvcpa,參見yong-huanyun,wei-tingwang,bai-chuandeng,guang-bilai,xin-boliu,da-bingren,yi-zengliang,weifan,qing-songxu,usingvariablecombinationpopulationanalysisforvariableselectioninmultivariatecalibration,anal.chimacta,2015,862,14-23)等被提出。然而對于變量的重要性通常采用信息向量(ivs)來判定,常見的信息向量有偏最小二乘回歸系數(shù)(reg)、相關(guān)系數(shù)向量(cor)、殘差向量(res)、投影變量重要性向量(vip)、凈信號向量(nas)、信噪比向量(stn)、協(xié)方差向量(cov)、選擇比向量(sr)、預(yù)測殘差向量(ssr)、變量出現(xiàn)頻率(fre)和協(xié)方差向量(covsel)等。
雖然大量的變量選擇方法被提出,但是每一種變量選擇方法都只采用這些信息向量中的一種作為變量重要性判斷依據(jù),進(jìn)而忽略了其他信息向量對預(yù)測模型的影響,因此很容易產(chǎn)生預(yù)測模型的過擬合現(xiàn)象,此外現(xiàn)有算法模型的預(yù)測精度較低,切不穩(wěn)定因素較多,會造成模型預(yù)測精度的不穩(wěn)定。
技術(shù)實(shí)現(xiàn)要素:
針對現(xiàn)有技術(shù)的不足及缺陷,本發(fā)明提出了一種新的變量選擇方法稱為自加權(quán)變量組合集群分析法,該方法基于mpa思想采用rmsecv最小原則的情況下,對fre和reg兩種信息向量的結(jié)果進(jìn)行歸一化加權(quán)處理,計(jì)算出每個光譜變量的貢獻(xiàn)值,進(jìn)而考慮了兩種信息向量對每個光譜變量的影響,提高了預(yù)測模型的精度及穩(wěn)定性。
具體步驟如下:
a應(yīng)用近紅外光纖光譜儀測試所收集樣本的近紅外光譜,運(yùn)用kennard-stone算法分為校正集和預(yù)測集;
b通過二進(jìn)制矩陣采樣法從變量空間中采樣k次,得到k個變量子集,每一個變量子集都含有一組隨機(jī)的變量組合,其中k值為1000;
c利用偏最小二乘法計(jì)算出每個變量組合的交互檢驗(yàn)均方根誤差,并選取其交互檢驗(yàn)均方根誤差最小的前σ×k個變量子集作為變量集,其中σ值取10%,σ×k的值為100;
d統(tǒng)計(jì)變量集中每個變量出現(xiàn)的頻率并進(jìn)行歸一化處理,進(jìn)而得到了一個變量重要性判斷依據(jù)稱為第一類信息向量;
e計(jì)算出變量集中每個變量在不同變量集中的偏最小二乘回歸系數(shù)的絕對值,并進(jìn)行歸一化處理,最后對變量集中每個變量在不同變量集中的歸一化回歸系數(shù)絕對值進(jìn)行求和,變量歸一化回歸系數(shù)絕對值之和的大小與變量的重要性成正比,進(jìn)而得到又一個變量重要性判據(jù)稱為第二類信息向量;
f根據(jù)每種信息向量的交互檢驗(yàn)均方根誤差設(shè)置第一類信息向量和第二類信息向量的權(quán)重;
g根據(jù)第一類信息向量和第二類信息向量的權(quán)重,計(jì)算出變量集中每個變量的貢獻(xiàn)值;
h運(yùn)用指數(shù)衰減函數(shù)刪除那些貢獻(xiàn)值較小的變量,保留其貢獻(xiàn)值較大的變量,得到一個新的變量空間r;
i變量空間r中的變量繼續(xù)通過步驟b~步驟h進(jìn)行變量篩選,此過程迭代n次,n值為50,最終剩下l個變量,l值為14,計(jì)算出這l個變量之間所有變量組合的交互檢驗(yàn)均方根誤差,其值最小的變量組合為最終特征波長選取結(jié)果。
根據(jù)上述的基于自加權(quán)變量組合集群分析的近紅外光譜變量選擇方法,通過每個變量在變量集中變量出現(xiàn)頻率和偏最小二乘回歸系數(shù)的絕對值之和兩種信息向量加權(quán)思想與模型集群分析思想相結(jié)合計(jì)算出每個光譜變量的貢獻(xiàn)值,具體計(jì)算過程如下,信息向量的權(quán)重計(jì)算公式:
w1:第一類信息向量的權(quán)重;w2:第二類信息向量的權(quán)重;rmsecv1:第一類信息向量的交互檢驗(yàn)均方根誤差;rmsecv2:第二類信息向量的交互檢驗(yàn)均方根誤差;
每個光譜變量的貢獻(xiàn)值計(jì)算公式如下:
yi:第i個變量貢獻(xiàn)值,其值越大則該變量越重要;
變量保留率的計(jì)算公式如下:
rn=e-θ×nⅳ
rn:指數(shù)衰減函數(shù)運(yùn)行n次時變量保留率;θ:曲線控制參數(shù),它與指數(shù)衰減函數(shù)的執(zhí)行次數(shù)有關(guān),指數(shù)衰減函數(shù)執(zhí)行的次數(shù)越多,其θ值越小,n:指數(shù)衰減函數(shù)的執(zhí)行次數(shù),
曲線控制參數(shù)的計(jì)算公式為:
公式ⅴ中p為指數(shù)衰減函數(shù)執(zhí)行n-1次后所保留的變量數(shù)目,l為指數(shù)衰減函數(shù)運(yùn)行結(jié)束之后剩余變量數(shù)目。
與現(xiàn)有算法模型相比,本發(fā)明提出的基于自加權(quán)變量組合集群分析法的近紅外光譜變量選擇方法,采用的兩種信息向量加權(quán)的方式判斷變量的重要性,考慮了兩種信息向量對預(yù)測模型的影響,彌補(bǔ)了只采用一種信息變量作為變量重要性判斷依據(jù)的缺陷,避免了模型過擬合,提升了預(yù)測模型的穩(wěn)定性和可靠性;同時由于采用了fre和reg兩種信息向量加權(quán)思想與模型集群思想相結(jié)合,減少了光譜變量,簡化了預(yù)測模型,大大的提升了其模型的預(yù)測精度。
附圖說明
下面結(jié)合附圖及實(shí)施方式對本發(fā)明作進(jìn)一步說明:
圖1為本發(fā)明awvcpa算法流程圖
圖2為玉米樣本的近紅外光譜圖
圖3為每個光譜變量基于awvcpa運(yùn)行50次被選取為特征變量的頻率分布圖
圖4為預(yù)測集真實(shí)值與預(yù)測值之間的散點(diǎn)圖分布
圖5為平均光譜與每種變量選擇方法最終所選取的特征變量分布圖
具體實(shí)施方式
實(shí)施方案一:為了證明本發(fā)明的適用性,結(jié)合實(shí)例進(jìn)行詳細(xì)的說明。但是本發(fā)明也可以應(yīng)用于本次所采用的實(shí)例之外的光譜數(shù)據(jù)。
圖1是本發(fā)明提供的一種基于自加權(quán)變量組合集群分析法(awvcpa)算法的流程圖,可見,本發(fā)明具體包括以下步驟:
(1)所收集的玉米近紅外光譜數(shù)據(jù)包含了80個玉米樣本,每個樣本的近紅外光譜波長分布在1100-2498nm,運(yùn)用光譜儀測試每個玉米樣本的近紅外光譜,并用化學(xué)方法測試每個樣本含油量的化學(xué)值。運(yùn)用kennard-stone(k-s)方法選取其中60個樣本光譜數(shù)據(jù)和化學(xué)值數(shù)據(jù)作為校正集建立預(yù)測模型,將剩余的20個樣本的光譜數(shù)據(jù)和化學(xué)值數(shù)據(jù)作為預(yù)測集樣本檢驗(yàn)?zāi)P偷目尚行裕衩捉t外光譜圖如圖2所示。
(2)運(yùn)用二進(jìn)制矩陣采樣法(bms)從玉米近紅外光譜變量空間中采樣1000次得到1000組不同的變量子集,之后運(yùn)用偏最小二乘法(pls)計(jì)算出這1000組不同變量子集的交互檢驗(yàn)均方根誤差(rmsecv),選取其rmsecv值最小的前10%組變量子集作為變量集,進(jìn)而得到了100組變量集。
(3)記錄這100組變量集中每個光譜變量的出現(xiàn)次數(shù)并進(jìn)行歸一化處理得到每個光譜變量的fre。
(4)記錄每個光譜變量在這100組不同的變量集中的偏最小二乘回歸系數(shù)并進(jìn)行歸一化處理,最后對變量集中相同變量的歸一化偏最小二乘回歸系數(shù)的絕對值進(jìn)行求和得到每個光譜變量的reg。
(5)通過公式(ⅰ)(ⅱ)分別計(jì)算這兩類ivs的權(quán)重,并根據(jù)公式(ⅲ)計(jì)算出變量集中每個光譜變量的貢獻(xiàn)值。
信息向量的權(quán)重計(jì)算公式
w1:第一類信息向量的權(quán)重;w2:第二類信息向量的權(quán)重;rmsecv1:第一類信息向量的交互檢驗(yàn)均方根誤差;rmsecv2:第二類信息向量的交互檢驗(yàn)均方根誤差;
每個光譜變量的貢獻(xiàn)值計(jì)算公式如下:
(6)運(yùn)用指數(shù)衰減函數(shù)刪除那些貢獻(xiàn)值較小的光譜變量,保留其貢獻(xiàn)值較大的光譜變量,得到一個新的變量空間r。
rn=e-θ×n(ⅳ)
rn:指數(shù)衰減函數(shù)運(yùn)行n次時變量保留率;θ:曲線控制參數(shù),它與指數(shù)衰減函數(shù)的執(zhí)行次數(shù)有關(guān),指數(shù)衰減函數(shù)執(zhí)行的次數(shù)越多,其θ值越小。n:指數(shù)衰減函數(shù)的執(zhí)行次數(shù)。曲線控制參數(shù)的計(jì)算公式為
(7)對r中的變量重復(fù)(2)~(6)過程,此過程迭代50次,最終只剩下14個光譜變量,計(jì)算出這14個光譜變量之間所有變量組合的rmsecv,其值最小的變量組合為最終選取的特征變量。
為了避免算法運(yùn)行過程中算法隨機(jī)性對變量選擇結(jié)果的影響,將awvcpa運(yùn)行50次,每個光譜變量基于awvcpa運(yùn)行50次選取為特征變量的頻率如圖3所示,選取awvcpa預(yù)測精度最高的一組特征變量作為最終特征變量選取的結(jié)果,最終通過awvcpa-pls建立玉米中含油量的預(yù)測模型的預(yù)測結(jié)果如圖4所示。
為了說明awvcpa變量選擇方法的優(yōu)越性,將玉米近紅外光譜數(shù)據(jù)在相同的條件下分別采用了ga、mc-uve、cars、vcpa和awvcpa五種變量選擇方法進(jìn)行特征變量提取,由于每種變量選擇方法在運(yùn)行過程中都帶有一定的隨機(jī)性,進(jìn)而影響模型的可靠性,所以我們將以上每種變量選擇方法運(yùn)行50次,計(jì)算出每種變量選擇方法在建模過程中的rmsep平均值,并選其每種算法預(yù)測精度最高的一組特征變量作為最終的特征變量選取結(jié)果,利用pls建立預(yù)測模型,每種變量選擇方法所選取的特征變量結(jié)果如圖5所示,每種建模方法的結(jié)果見表1。
表1不同建模方法的玉米中含油量的預(yù)測精度對比
本發(fā)明實(shí)施方式說明到此結(jié)束。