本發(fā)明屬于復(fù)雜樣品定量分析領(lǐng)域,具體涉及一種穩(wěn)健的boosting極限學(xué)習(xí)機(jī)集成建模方法。
背景技術(shù):
由黃廣斌等人提出的極限學(xué)習(xí)機(jī)(Huang,Guang-Bin;Zhu,Qin-Yu;Siew,Chee-Kheong,Extreme learning machine:Theory and applications,Neurocomputing,2006,70(1-3):489-501)是一種有監(jiān)督的單隱層前饋神經(jīng)網(wǎng)絡(luò)的新算法,因其結(jié)構(gòu)簡單、學(xué)習(xí)速度快和泛化性能強(qiáng)等優(yōu)點(diǎn),近年來在復(fù)雜樣品定量分析方面引起了廣泛關(guān)注(Bian,Xi-Hui;Li,Shu-Juan;Fan,Meng-Ran;Guo,Yu-Gao;Chang,Na;Wang,Jiang-Jiang,Spectral quantitative analysis of complex samples based on the extreme learning machine,Analytical Methods,2016,8(23):4674-4679)。與梯度下降法尋優(yōu)方式不同的是,極限學(xué)習(xí)機(jī)可以隨機(jī)產(chǎn)生輸入權(quán)重和隱含層閾值且不需要參數(shù)調(diào)整(Chen,Wo-Ruo;Bin,Jun;Lu,Hong-Mei;Zhang,Zhi-Min;Liang,Yi-Zeng,Calibration transfer via an extreme learning machine auto-encoder,Analyst,2016,141(6):1973-1980),且該方法在保證泛化性能的同時(shí),極大地提高了學(xué)習(xí)速度、減少了優(yōu)化參數(shù)的數(shù)目。然而由于極限學(xué)習(xí)機(jī)的輸入權(quán)重和隱含層閾值是隨機(jī)設(shè)置的,使得模型的運(yùn)行結(jié)果具有不穩(wěn)定性。另一方面,由于極限學(xué)習(xí)機(jī)的輸出權(quán)重是一個(gè)最小二乘解,而最小二乘算法對奇異樣本比較敏感。而實(shí)際復(fù)雜樣品光譜數(shù)據(jù)中奇異樣本的存在往往不可避免,因此,極限學(xué)習(xí)機(jī)算法對復(fù)雜樣品進(jìn)行分析時(shí)存在穩(wěn)健性差的問題。
集成建模方法,如bagging和boosting等,是提高單一建模方法穩(wěn)定性和精確度的最佳途徑。目前已經(jīng)提出了bagging極限學(xué)習(xí)機(jī)算法(He,Yan-Lin;Geng,Zhi-Qiang;Zhu,Qun-Xiong,Soft sensor development for the key variables of complex chemical processes using a novel robust bagging nonlinear model integrating improved extreme learning machine with partial least square,Chemometrics and Intelligent Laboratory Systems,2016,151:78-88),來提高單一極限學(xué)習(xí)機(jī)建模方法的穩(wěn)定性。但是boosting與極限學(xué)習(xí)機(jī)相結(jié)合的算法研究較少。另一方面,為了降低奇異樣本對極限學(xué)習(xí)機(jī)模型的影響,也已經(jīng)提出了穩(wěn)健極限學(xué)習(xí)機(jī)的算法(Zhang,Kai;Luo,Min-Xia,Outlier-robust extreme learning machine for regression problems,Neurocomputing,2015,151:1519-1527)。但是如何同時(shí)提高極限學(xué)習(xí)機(jī)的穩(wěn)健性和穩(wěn)定性還沒有得到解決。
研究表明,boosting的集成建模效果比bagging略好。Boosting算法是源于機(jī)器學(xué)習(xí),通過一系列粗糙的、不準(zhǔn)確的子模型獲得一個(gè)精確結(jié)果的預(yù)測方法。該方法根據(jù)樣本取樣權(quán)重的分布,從訓(xùn)練集中選取一定的樣本作為訓(xùn)練子集建立子模型。初始時(shí)對訓(xùn)練集中所有樣品賦予相等的取樣權(quán)重,以后的迭代過程中預(yù)測誤差大的樣本給予大的取樣權(quán)重。這種賦權(quán)方法會導(dǎo)致在迭代過程中奇異樣本總是被選取到訓(xùn)練集中,從而降低甚至破壞模型的性能。近年來,一個(gè)穩(wěn)健版本的boosting被提出,并用于提高偏最小二乘(Shao,Xue-Guang;Bian,Xi-Hui;Cai,Wen-Sheng,An improved boosting partial least squares method for near-infrared spectroscopic quantitative analysis,Analytica Chimica Acta,2010,666(1-2):32-37)以及回歸樹(Jiao,Jian;Tan,Shi-Miao;Luo,Rui-Ming;Zhou,Yan-Ping.A Robust boosting regression tree with applications in quantitative structure-activity relationship studies of organic compounds,Journal of Chemical Information and Modeling,2011,51(4):816-828.)等基礎(chǔ)建模方法的預(yù)測精度及穩(wěn)健性。與普通的boosting相比,穩(wěn)健boosting是在更新權(quán)重之前引入一個(gè)穩(wěn)健步驟,該穩(wěn)健步驟通過對預(yù)測誤差特別大的樣本的取樣權(quán)重設(shè)置為零來避免這些樣本被取到訓(xùn)練子集中,從而提高boosting的穩(wěn)健性。
本發(fā)明結(jié)合極限學(xué)習(xí)機(jī)及穩(wěn)健boosting方法的優(yōu)勢,提出了一種穩(wěn)健的boosting極限學(xué)習(xí)機(jī)集成建模方法,并用于復(fù)雜樣品定量分析,既保留了極限學(xué)習(xí)機(jī)學(xué)習(xí)速度快,泛化性能強(qiáng)等優(yōu)勢,又提高了極限學(xué)習(xí)機(jī)的穩(wěn)定性和穩(wěn)健性。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是針對上述存在的問題,將boosting算法與極限學(xué)習(xí)機(jī)(ELM)相結(jié)合,同時(shí)加入一個(gè)穩(wěn)健步驟,建立一種穩(wěn)健的boosting極限學(xué)習(xí)機(jī)集成建模方法(流程如圖1所示),以提高模型的預(yù)測精度、穩(wěn)健性及穩(wěn)定性,具體步驟為:
1)收集一定數(shù)目的樣本,采集樣本的光譜數(shù)據(jù),測定被測組分的含量。將數(shù)據(jù)集劃分為訓(xùn)練集和預(yù)測集;
2)對訓(xùn)練集中所有樣本i(i=1,2,......,m)賦予相等的取樣權(quán)重wi,1;
3)根據(jù)樣本的取樣權(quán)重按照概率取樣選取一定數(shù)目的樣本作為一個(gè)訓(xùn)練子集;
4)確定極限學(xué)習(xí)機(jī)最佳隱含層節(jié)點(diǎn)數(shù)和激勵函數(shù),用訓(xùn)練子集的樣品建立極限學(xué)習(xí)機(jī)子模型,用這個(gè)子模型預(yù)測訓(xùn)練集中所有樣本,得到預(yù)測濃度;
5)計(jì)算訓(xùn)練集中每個(gè)樣本i已知濃度與預(yù)測濃度的誤差的絕對值ei,t,其中t為迭代次數(shù);
6)加入一個(gè)穩(wěn)健步驟來改善樣本的取樣權(quán)重,對于預(yù)測誤差絕對值特別大的樣本,將其預(yù)測誤差設(shè)置為0,即
7)根據(jù)誤差依次計(jì)算損失函數(shù)Li,t、平均損失函數(shù)和模型的自信率βt;
8)根據(jù)公式
計(jì)算每個(gè)樣本新的取樣權(quán)重,并歸一化,保證
重復(fù)步驟(3)~(8)多次,得到T個(gè)子模型;
9)對于未知樣本,對T個(gè)子模型的預(yù)測結(jié)果,通過權(quán)重中位值法得到最終預(yù)測結(jié)果,且權(quán)重中位值公式為:
其中r為將T個(gè)預(yù)測值進(jìn)行升序排列的第r個(gè)預(yù)測值。
本發(fā)明中,極限學(xué)習(xí)機(jī)參數(shù)優(yōu)化的方法:定義一個(gè)模型性能的評價(jià)參數(shù)相關(guān)系數(shù)平均值與方差的比值(MSR),如果多次運(yùn)行所得相關(guān)系數(shù)的均值越大(代表精確度好),方差越小(代表穩(wěn)定性好),那么MSR就越大,模型性能越佳。因此,通過觀察MSR隨著隱含層節(jié)點(diǎn)數(shù)以及激勵函數(shù)的變化來確定最佳參數(shù),其中MSR最大值對應(yīng)的隱含層節(jié)點(diǎn)數(shù)及激勵函數(shù)為最佳參數(shù)。
本發(fā)明中,子模型個(gè)數(shù)即迭代次數(shù)T的確定方法:固定每個(gè)數(shù)據(jù)集的訓(xùn)練子集樣本數(shù)為總樣本數(shù)的50%,給定一個(gè)足夠大的子模型數(shù)目,計(jì)算1~T個(gè)子模型boosting ELM集成建模的交叉驗(yàn)證均方根誤差(RMSECV)。根據(jù)RMSECV隨著子模型個(gè)數(shù)的變化,RMSECV值幾乎不變(趨于穩(wěn)定)時(shí)對應(yīng)子模型個(gè)數(shù)即為所需建立的子模型個(gè)數(shù)T。
本發(fā)明中,訓(xùn)練子集樣本百分?jǐn)?shù)的確定方法:子模型數(shù)為T、固定穩(wěn)健中位值倍數(shù)為某個(gè)值,分別從訓(xùn)練集中選取其樣本總數(shù)的5%~100%作為訓(xùn)練子集,間隔5%,建立boosting ELM,并觀察RMSEP隨著訓(xùn)練子集樣本百分?jǐn)?shù)的變化,RMSEP最小值對應(yīng)的訓(xùn)練子集百分?jǐn)?shù)最佳。
本發(fā)明中,穩(wěn)健中位值倍數(shù)的選擇方法:子模型數(shù)為T、采用最佳訓(xùn)練子集樣本百分?jǐn)?shù),把中位值倍數(shù)從1~8依次改變,間隔0.5建模一次,并觀察RMSEP隨著中位值倍數(shù)的變化,RMSEP最小值對應(yīng)的倍數(shù)為最佳值。
本發(fā)明的優(yōu)點(diǎn)是:該建模方法結(jié)合了集成建模技術(shù)boosting和極限學(xué)習(xí)機(jī)的優(yōu)勢,同時(shí)對奇異樣本具有很好的穩(wěn)健性,提高了極限學(xué)習(xí)機(jī)算法的預(yù)測精度與穩(wěn)定性,為復(fù)雜樣品多元校正分析提供了一種新的建模方法。本發(fā)明方法可廣泛應(yīng)用于石油、煙草、食品、中藥等領(lǐng)域的復(fù)雜物質(zhì)定量分析。
附圖說明
圖1是boosting極限學(xué)習(xí)機(jī)原理圖
圖2是小麥近紅外數(shù)據(jù)的極限學(xué)習(xí)機(jī)參數(shù)優(yōu)化圖
圖3是小麥近紅外數(shù)據(jù)預(yù)測均方根誤差值隨著訓(xùn)練集百分?jǐn)?shù)變化圖
圖4是小麥近紅外數(shù)據(jù)預(yù)測均方根誤差值隨著中位值倍數(shù)變化圖
圖5是燃油近紅外數(shù)據(jù)的極限學(xué)習(xí)機(jī)參數(shù)優(yōu)化圖
圖6是燃油近紅外數(shù)據(jù)預(yù)測均方根誤差值隨著訓(xùn)練集百分?jǐn)?shù)變化圖
圖7是燃油樣本數(shù)據(jù)預(yù)測均方根誤差值隨著中位值倍數(shù)變化圖
圖8是輕汽油和柴油燃料紫外數(shù)據(jù)的極限學(xué)習(xí)機(jī)參數(shù)優(yōu)化圖
圖9是輕汽油和柴油燃料紫外數(shù)據(jù)預(yù)測均方根誤差值隨著訓(xùn)練集百分?jǐn)?shù)變化圖
圖10是輕汽油和柴油燃料紫外數(shù)據(jù)預(yù)測均方根誤差值隨著中位值倍數(shù)變化圖
具體實(shí)施方式
為更好地理解本發(fā)明,下面結(jié)合實(shí)施例對本發(fā)明做進(jìn)一步地詳細(xì)說明,但是本發(fā)明要求保護(hù)的范圍并不局限于實(shí)施例所表示的范圍。
實(shí)施例1:
本實(shí)施例是應(yīng)用于可見-近紅外光譜分析,對小麥樣本中蛋白質(zhì)含量值進(jìn)行研究(該數(shù)據(jù)中含有2個(gè)奇異樣本)。具體的步驟如下:
1)收集884個(gè)加拿大的小麥樣本,采集這些樣本的可見-近紅外外光譜數(shù)據(jù),波長范圍為400-2498nm,采樣間隔為2nm,包含1050個(gè)波長點(diǎn),光譜采用Foss Model 6500近紅外光譜儀測定,下載網(wǎng)址:http://www.idrc-chambersburg.org/shootout2008.html。該數(shù)據(jù)中第680和681號樣本為奇異樣本,采用網(wǎng)站上對數(shù)據(jù)集的劃分的描述,778個(gè)樣本用作訓(xùn)練集,107個(gè)樣本用作預(yù)測集。
2)將訓(xùn)練集中所有樣本i(i=1,2,......,778)賦予相等的取樣權(quán)重wi,1。
3)根據(jù)樣本的取樣權(quán)重選取按照概率取樣選取一定數(shù)目的樣本作為一個(gè)訓(xùn)練子集。
4)確定極限學(xué)習(xí)機(jī)最佳隱含層節(jié)點(diǎn)數(shù)和激勵函數(shù),用訓(xùn)練子集的樣本建立極限學(xué)習(xí)機(jī)子模型,用這個(gè)子模型預(yù)測訓(xùn)練集中所有樣本,得到預(yù)測濃度。
5)計(jì)算訓(xùn)練集中每個(gè)樣本i已知濃度與預(yù)測濃度的誤差的絕對值ei,t,其中t為迭代次數(shù)。
6)加入一個(gè)穩(wěn)健步驟來改善樣本的取樣權(quán)重,對于預(yù)測誤差絕對值特別大的樣本,將其預(yù)測誤差設(shè)置為0,即
7)根據(jù)誤差依次計(jì)算損失函數(shù)Li,t、平均損失函數(shù)模型的自信率βt。
8)根據(jù)公式
計(jì)算每個(gè)樣本新的取樣權(quán)重,并歸一化,保證
重復(fù)步驟(3)~(8)多次,得到T個(gè)子模型。
9)對于未知樣本,對T個(gè)子模型的預(yù)測結(jié)果,通過權(quán)重中位值法得到最終預(yù)測結(jié)果。且權(quán)重中位值公式為:
其中r為將T個(gè)預(yù)測值進(jìn)行升序排列的第r個(gè)預(yù)測值。
極限學(xué)習(xí)機(jī)參數(shù)優(yōu)化的方法:定義一個(gè)模型性能的評價(jià)參數(shù)相關(guān)系數(shù)平均值與方差的比值(MSR),如果多次運(yùn)行所得相關(guān)系數(shù)的均值越大(代表精確度好),方差越小(代表穩(wěn)定性好),那么MSR就越大,模型性能越佳。該實(shí)施例中MSR隨著隱層節(jié)點(diǎn)數(shù)及激勵函數(shù)的變化如圖2所示,當(dāng)MSR最大時(shí)對應(yīng)的隱含層節(jié)點(diǎn)數(shù)及激勵函數(shù)分別為95和S型函數(shù)。
子模型個(gè)數(shù)即迭代次數(shù)的確定方法:固定每個(gè)數(shù)據(jù)集的訓(xùn)練子集樣本數(shù)為總樣本數(shù)的50%,給定500個(gè)子模型數(shù)目值,計(jì)算每個(gè)子模型boosting ELM集成建模的交叉驗(yàn)證均方根誤差(RMSECV),并觀察RMSECV隨著子模型個(gè)數(shù)的變化,當(dāng)RMSECV值幾乎不變(趨于穩(wěn)定)時(shí)對應(yīng)子模型個(gè)數(shù)500,即為所需建立的子模型個(gè)數(shù)。
訓(xùn)練子集樣本百分?jǐn)?shù)的確定方法:子模型數(shù)為500、固定穩(wěn)健中位值倍數(shù)為6,分別從訓(xùn)練集中選取其樣本總數(shù)的5%~100%作為訓(xùn)練子集,間隔5%,建立boosting ELM,并觀察RMSEP隨著訓(xùn)練子集樣本百分?jǐn)?shù)的變化,RMSEP最小值對應(yīng)的訓(xùn)練子集百分?jǐn)?shù)最佳。該實(shí)施例中RMSEP值隨著訓(xùn)練子集樣本百分?jǐn)?shù)的變化如圖3所示,隨著訓(xùn)練集百分?jǐn)?shù)的增加,RMSEP先快速下降,當(dāng)訓(xùn)練集百分?jǐn)?shù)大于20%后又逐漸上升,故訓(xùn)練子集樣本百分?jǐn)?shù)為20%時(shí)為最佳值。
穩(wěn)健中位值倍數(shù)的選擇方法:子模型數(shù)為500、采用最佳訓(xùn)練子集樣本百分?jǐn)?shù)20%,把中位值倍數(shù)從1~8依次改變,間隔0.5建模一次,并觀察RMSEP隨著中位值倍數(shù)的變化,RMSEP最小值對應(yīng)的倍數(shù)為最佳值。該實(shí)施例中RMSEP值隨中位值倍數(shù)的變化如圖4所示,當(dāng)RMSEP最小時(shí)對應(yīng)的中位值倍數(shù)5.5為最佳值。
利用模型對蛋白質(zhì)含量未知的預(yù)測集樣本進(jìn)行濃度測定,并與不加穩(wěn)健步驟的boosting ELM、ELM和PLS方法比較。結(jié)果表明,利用傳統(tǒng)PLS建模,其預(yù)測均方根誤差RMSEP為0.7476;利用ELM建模,其預(yù)測均方根誤差RMSEP為0.6760,標(biāo)準(zhǔn)偏差為0.0830;利用沒有穩(wěn)健步驟的boosting ELM建模,其預(yù)測均方根誤差RMSEP為0.6965,標(biāo)準(zhǔn)偏差為0.0625;利用加穩(wěn)健步驟的boosting ELM建模,其預(yù)測均方根誤差RMSEP為0.4366,標(biāo)準(zhǔn)偏差為0.0105。通過比較可以得出,基于ELM方法的模型的預(yù)測精度要優(yōu)于PLS;基于boosting集成的ELM方法穩(wěn)定性要明顯優(yōu)于ELM方法;該數(shù)據(jù)中存在奇異樣本,穩(wěn)健步驟的加入可以極大地提高boosting ELM模型的穩(wěn)健性、穩(wěn)定性及預(yù)測精度。
實(shí)施例2:
本實(shí)施例是應(yīng)用于近紅外光譜分析,對柴油機(jī)燃料樣本中的總芳香烴含量進(jìn)行測定(該數(shù)據(jù)中不含奇異樣本)。具體的步驟如下:
1)收集263個(gè)燃油樣本,采集這些樣本的近紅外光譜數(shù)據(jù),波長范圍為750-1550nm,包括401個(gè)波長點(diǎn),根據(jù)美國測試和材料協(xié)會(American Society of Testing and Materials,ASTM)的標(biāo)準(zhǔn)分別測定,下載網(wǎng)址:http://www.eigenvector.com/Data/SWRI。該數(shù)據(jù)中無奇異樣本,采用網(wǎng)站上對數(shù)據(jù)集劃分的描述,142個(gè)樣本用作訓(xùn)練集,121個(gè)樣本用作預(yù)測集。
2)將訓(xùn)練集中所有樣本i(i=1,2,......,142)賦予相等的取樣權(quán)重wi,1。
3)根據(jù)樣本的取樣權(quán)重選取按照概率取樣選取一定數(shù)目的樣本作為一個(gè)訓(xùn)練子集。
4)確定極限學(xué)習(xí)機(jī)最佳隱含層節(jié)點(diǎn)數(shù)和激勵函數(shù),用訓(xùn)練子集的樣本建立極限學(xué)習(xí)機(jī)子模型,用這個(gè)子模型預(yù)測訓(xùn)練集中所有樣本,得到預(yù)測濃度。
5)計(jì)算訓(xùn)練集中每個(gè)樣本i已知濃度與預(yù)測濃度的誤差的絕對值ei,t,其中t為迭代次數(shù)。
6)加入一個(gè)穩(wěn)健步驟來改善樣本的取樣權(quán)重,對于預(yù)測誤差絕對值特別大的樣本,將其預(yù)測誤差設(shè)置為0,即
7)根據(jù)誤差依次計(jì)算損失函數(shù)Li,t、平均損失函數(shù)模型的自信率βt。
8)根據(jù)公式
計(jì)算每個(gè)樣本新的取樣權(quán)重,并歸一化,保證
重復(fù)步驟(3)~(8)多次,得到T個(gè)子模型。
9)對于未知樣本,對T個(gè)子模型的預(yù)測結(jié)果,通過權(quán)重中位值法得到最終預(yù)測結(jié)果。且權(quán)重中位值公式為:
其中r為將T個(gè)預(yù)測值進(jìn)行升序排列的第r個(gè)預(yù)測值。
極限學(xué)習(xí)機(jī)參數(shù)優(yōu)化的方法:定義一個(gè)模型性能的評價(jià)參數(shù)相關(guān)系數(shù)平均值與方差的比值(MSR),如果多次運(yùn)行所得相關(guān)系數(shù)的均值越大(代表精確度好),方差越小(代表穩(wěn)定性好),那么MSR就越大,模型性能越佳。該實(shí)施例中MSR隨著隱層節(jié)點(diǎn)數(shù)及激勵函數(shù)的變化如圖5所示,當(dāng)MSR最大時(shí)對應(yīng)的隱含層節(jié)點(diǎn)數(shù)及激勵函數(shù)分別為48和正弦函數(shù)。
子模型個(gè)數(shù)即迭代次數(shù)的確定方法:固定每個(gè)數(shù)據(jù)集的訓(xùn)練子集樣本數(shù)為總樣本數(shù)的50%,給定500個(gè)子模型數(shù)目值,計(jì)算每個(gè)子模型boosting ELM集成建模的交叉驗(yàn)證均方根誤差(RMSECV),并觀察RMSECV隨著子模型個(gè)數(shù)的變化,當(dāng)RMSECV值幾乎不變(趨于穩(wěn)定)時(shí)對應(yīng)子模型個(gè)數(shù)500,即為所需建立的子模型個(gè)數(shù)。
訓(xùn)練子集樣本百分?jǐn)?shù)的確定方法:子模型數(shù)為500、固定穩(wěn)健中位值倍數(shù)為6,分別從訓(xùn)練集中選取其樣本總數(shù)的5%~100%作為訓(xùn)練子集,間隔5%,建立boosting ELM,并觀察RMSEP隨著訓(xùn)練子集樣本百分?jǐn)?shù)的變化,RMSEP最小值對應(yīng)的訓(xùn)練子集百分?jǐn)?shù)最佳。該實(shí)施例中RMSEP值隨著訓(xùn)練子集樣本百分?jǐn)?shù)的變化如圖6所示,當(dāng)訓(xùn)練集百分?jǐn)?shù)小于15%時(shí),隨著訓(xùn)練集百分?jǐn)?shù)的增加,RMSEP迅速減小,當(dāng)訓(xùn)練集百分?jǐn)?shù)在15-50%時(shí),RMSEP基本保持不變,當(dāng)訓(xùn)練集百分?jǐn)?shù)大于50%后,RMSEP緩慢減小后又保持平穩(wěn),故訓(xùn)練子集樣本百分?jǐn)?shù)為80%時(shí)為最佳值。
穩(wěn)健中位值倍數(shù)的選擇方法:子模型數(shù)為500、采用最佳訓(xùn)練子集樣本百分?jǐn)?shù)80%,把中位值倍數(shù)從1~8依次改變,間隔0.5建模一次,并觀察RMSEP隨著中位值倍數(shù)的變化,RMSEP最小值對應(yīng)的倍數(shù)為最佳值。該實(shí)施例中RMSEP值隨中位值倍數(shù)的變化如圖7所示,當(dāng)RMSEP最小時(shí)對應(yīng)的中位值倍數(shù)5.5為最佳值。
利用模型對總芳香烴含量未知的預(yù)測集樣本進(jìn)行濃度測定,并與不加穩(wěn)健步驟的boosting ELM、ELM和PLS方法比較。結(jié)果表明,利用傳統(tǒng)PLS建模,其預(yù)測均方根誤差RMSEP為0.7032;利用ELM建模,其預(yù)測均方根誤差RMSEP為0.6226,標(biāo)準(zhǔn)偏差為0.0485;利用沒有穩(wěn)健步驟的boosting ELM建模,其預(yù)測均方根誤差RMSEP為0.5185,標(biāo)準(zhǔn)偏差為0.0064;利用加穩(wěn)健步驟的boosting ELM建模,其預(yù)測均方根誤差RMSEP為0.5176,標(biāo)準(zhǔn)偏差為0.0062。通過比較可以得出,基于ELM方法的模型的預(yù)測精度要優(yōu)于PLS;基于boosting集成的ELM方法的預(yù)測精度及穩(wěn)定性要明顯優(yōu)于ELM方法;該數(shù)據(jù)中不存在奇異樣本,有穩(wěn)健步驟與沒有穩(wěn)健步驟加入的boosting ELM的預(yù)測效果相當(dāng)。
實(shí)施例3:
本實(shí)施例是應(yīng)用于紫外光譜分析,對輕汽油和柴油燃料中的單環(huán)芳香烴含量進(jìn)行測定(該數(shù)據(jù)中含有1個(gè)奇異樣本)。具體的步驟如下:
1)收集115個(gè)輕汽油和柴油燃料樣本,采集這些樣本的紫外光譜數(shù)據(jù),波長范圍為200-400nm,采樣間隔為0.35nm,包含572個(gè)波長點(diǎn),光譜采用Cary 3 UV-visible分光光度計(jì)(Varian Instruments,San Fernando,Calif.)測定。單環(huán)芳香族化合物含量采用HPG1205A超臨界流體色譜進(jìn)行測定,下載網(wǎng)址:http://myweb.dal.ca/pdwentze/downloads.html。該數(shù)據(jù)中第115號樣本為奇異樣本,采用網(wǎng)站上對數(shù)據(jù)集劃分的描述,前70個(gè)樣本用作訓(xùn)練集,后44個(gè)樣本用作預(yù)測集。
2)將訓(xùn)練集中所有樣本i(i=1,2,......,70)賦予相等的取樣權(quán)重wi,1。
3)根據(jù)樣本的取樣權(quán)重選取按照概率取樣選取一定數(shù)目的樣本作為一個(gè)訓(xùn)練子集。
4)確定極限學(xué)習(xí)機(jī)最佳隱含層節(jié)點(diǎn)數(shù)和激勵函數(shù),用訓(xùn)練子集的樣本建立極限學(xué)習(xí)機(jī)子模型,用這個(gè)子模型預(yù)測訓(xùn)練集中所有樣本,得到預(yù)測濃度。
5)計(jì)算訓(xùn)練集中每個(gè)樣本i已知濃度與預(yù)測濃度的誤差的絕對值ei,t,其中t為迭代次數(shù)。
6)加入一個(gè)穩(wěn)健步驟來改善樣本的取樣權(quán)重,對于預(yù)測誤差絕對值特別大的樣本,將其預(yù)測誤差設(shè)置為0,即
7)根據(jù)誤差依次計(jì)算損失函數(shù)Li,t、平均損失函數(shù)模型的自信率βt。
8)根據(jù)公式
計(jì)算每個(gè)樣本新的取樣權(quán)重,并歸一化,保證
重復(fù)步驟(3)~(8)多次,得到T個(gè)子模型。
9)對于未知樣本,對T個(gè)子模型的預(yù)測結(jié)果,通過權(quán)重中位值法得到最終預(yù)測結(jié)果。且權(quán)重中位值公式為:
其中r為將T個(gè)預(yù)測值進(jìn)行升序排列的第r個(gè)預(yù)測值。
極限學(xué)習(xí)機(jī)參數(shù)優(yōu)化的方法:定義一個(gè)模型性能的評價(jià)參數(shù)相關(guān)系數(shù)平均值與方差的比值(MSR),如果多次運(yùn)行所得相關(guān)系數(shù)的均值越大(代表精確度好),方差越小(代表穩(wěn)定性好),那么MSR就越大,模型性能越佳。該實(shí)施例中MSR隨著隱層節(jié)點(diǎn)數(shù)及激勵函數(shù)的變化如圖8所示,當(dāng)MSR最大時(shí)對應(yīng)的隱含層節(jié)點(diǎn)數(shù)及激勵函數(shù)分別為9和S型函數(shù)。
子模型個(gè)數(shù)即迭代次數(shù)的確定方法:固定每個(gè)數(shù)據(jù)集的訓(xùn)練子集樣本數(shù)為總樣本數(shù)的50%,給定500個(gè)子模型數(shù)目值,計(jì)算每個(gè)子模型boosting ELM集成建模的交叉驗(yàn)證均方根誤差(RMSECV),并觀察RMSECV隨著子模型個(gè)數(shù)的變化,當(dāng)RMSECV值幾乎不變(趨于穩(wěn)定)時(shí)對應(yīng)子模型個(gè)數(shù)500,即為所需建立的子模型個(gè)數(shù)。
訓(xùn)練子集樣本百分?jǐn)?shù)的確定方法:子模型數(shù)為500、固定穩(wěn)健中位值倍數(shù)為6,分別從訓(xùn)練集中選取其樣本總數(shù)的5%~100%作為訓(xùn)練子集,間隔5%,建立boosting ELM,并觀察RMSEP隨著訓(xùn)練子集樣本百分?jǐn)?shù)的變化,RMSEP最小值對應(yīng)的訓(xùn)練子集百分?jǐn)?shù)最佳。該實(shí)施例中RMSEP值隨著訓(xùn)練子集樣本百分?jǐn)?shù)的變化如圖9所示,訓(xùn)練集百分?jǐn)?shù)小于20%時(shí),隨著訓(xùn)練集百分?jǐn)?shù)的增加,RMSEP迅速減小,但當(dāng)訓(xùn)練集百分?jǐn)?shù)大于20%之后略有增加但基本保持不變。故當(dāng)樣本百分?jǐn)?shù)為20%時(shí)為最佳值。
穩(wěn)健中位值倍數(shù)的選擇方法:子模型數(shù)為500、采用最佳訓(xùn)練子集樣本百分?jǐn)?shù)20%,把中位值倍數(shù)從1~8依次改變,間隔0.5建模一次,并觀察RMSEP隨著中位值倍數(shù)的變化,RMSEP最小值對應(yīng)的倍數(shù)為最佳值。該實(shí)施例中RMSEP值隨中位值倍數(shù)的變化如圖10所示,當(dāng)RMSEP最小時(shí)對應(yīng)的中位值倍數(shù)6.5為最佳值。
利用模型對單環(huán)芳香烴含量未知的預(yù)測集樣本進(jìn)行濃度測定,并與不加穩(wěn)健步驟的boosting ELM、ELM和PLS方法比較。結(jié)果表明,利用傳統(tǒng)PLS建模,其預(yù)測均方根誤差RMSEP為0.8708;利用ELM建模,其預(yù)測均方根誤差RMSEP為0.8249,標(biāo)準(zhǔn)偏差為0.1073;利用沒有穩(wěn)健步驟的boosting ELM建模,其預(yù)測均方根誤差RMSEP為0.6689,標(biāo)準(zhǔn)偏差為0.0199;利用加穩(wěn)健步驟的boosting ELM建模,其預(yù)測均方根誤差RMSEP為0.6126,標(biāo)準(zhǔn)偏差為0.0146。通過比較可以得出,基于ELM方法的模型的預(yù)測精度要優(yōu)于PLS;基于boosting集成的ELM方法穩(wěn)定性要明顯優(yōu)于ELM方法;該數(shù)據(jù)中存在奇異樣本,穩(wěn)健步驟的加入可以提高boosting ELM模型的預(yù)測精度及穩(wěn)定性。