一種穩(wěn)健的boosting極限學(xué)習(xí)機(jī)集成建模方法與流程

文檔序號：11143514閱讀：1164來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種穩(wěn)健的boosting極限學(xué)習(xí)機(jī)集成建模方法與制造工藝

本發(fā)明屬于復(fù)雜樣品定量分析領(lǐng)域，具體涉及一種穩(wěn)健的boosting極限學(xué)習(xí)機(jī)集成建模方法。

背景技術(shù)：

由黃廣斌等人提出的極限學(xué)習(xí)機(jī)(Huang，Guang-Bin；Zhu，Qin-Yu；Siew，Chee-Kheong，Extreme learning machine：Theory and applications，Neurocomputing，2006，70(1-3)：489-501)是一種有監(jiān)督的單隱層前饋神經(jīng)網(wǎng)絡(luò)的新算法，因其結(jié)構(gòu)簡單、學(xué)習(xí)速度快和泛化性能強(qiáng)等優(yōu)點(diǎn)，近年來在復(fù)雜樣品定量分析方面引起了廣泛關(guān)注(Bian，Xi-Hui；Li，Shu-Juan；Fan，Meng-Ran；Guo，Yu-Gao；Chang，Na；Wang，Jiang-Jiang，Spectral quantitative analysis of complex samples based on the extreme learning machine，Analytical Methods，2016，8(23)：4674-4679)。與梯度下降法尋優(yōu)方式不同的是，極限學(xué)習(xí)機(jī)可以隨機(jī)產(chǎn)生輸入權(quán)重和隱含層閾值且不需要參數(shù)調(diào)整(Chen，Wo-Ruo；Bin，Jun；Lu，Hong-Mei；Zhang，Zhi-Min；Liang，Yi-Zeng，Calibration transfer via an extreme learning machine auto-encoder，Analyst，2016，141(6)：1973-1980)，且該方法在保證泛化性能的同時(shí)，極大地提高了學(xué)習(xí)速度、減少了優(yōu)化參數(shù)的數(shù)目。然而由于極限學(xué)習(xí)機(jī)的輸入權(quán)重和隱含層閾值是隨機(jī)設(shè)置的，使得模型的運(yùn)行結(jié)果具有不穩(wěn)定性。另一方面，由于極限學(xué)習(xí)機(jī)的輸出權(quán)重是一個(gè)最小二乘解，而最小二乘算法對奇異樣本比較敏感。而實(shí)際復(fù)雜樣品光譜數(shù)據(jù)中奇異樣本的存在往往不可避免，因此，極限學(xué)習(xí)機(jī)算法對復(fù)雜樣品進(jìn)行分析時(shí)存在穩(wěn)健性差的問題。

集成建模方法，如bagging和boosting等，是提高單一建模方法穩(wěn)定性和精確度的最佳途徑。目前已經(jīng)提出了bagging極限學(xué)習(xí)機(jī)算法(He，Yan-Lin；Geng，Zhi-Qiang；Zhu，Qun-Xiong，Soft sensor development for the key variables of complex chemical processes using a novel robust bagging nonlinear model integrating improved extreme learning machine with partial least square，Chemometrics and Intelligent Laboratory Systems，2016，151：78-88)，來提高單一極限學(xué)習(xí)機(jī)建模方法的穩(wěn)定性。但是boosting與極限學(xué)習(xí)機(jī)相結(jié)合的算法研究較少。另一方面，為了降低奇異樣本對極限學(xué)習(xí)機(jī)模型的影響，也已經(jīng)提出了穩(wěn)健極限學(xué)習(xí)機(jī)的算法(Zhang，Kai；Luo，Min-Xia，Outlier-robust extreme learning machine for regression problems，Neurocomputing，2015，151：1519-1527)。但是如何同時(shí)提高極限學(xué)習(xí)機(jī)的穩(wěn)健性和穩(wěn)定性還沒有得到解決。

研究表明，boosting的集成建模效果比bagging略好。Boosting算法是源于機(jī)器學(xué)習(xí)，通過一系列粗糙的、不準(zhǔn)確的子模型獲得一個(gè)精確結(jié)果的預(yù)測方法。該方法根據(jù)樣本取樣權(quán)重的分布，從訓(xùn)練集中選取一定的樣本作為訓(xùn)練子集建立子模型。初始時(shí)對訓(xùn)練集中所有樣品賦予相等的取樣權(quán)重，以后的迭代過程中預(yù)測誤差大的樣本給予大的取樣權(quán)重。這種賦權(quán)方法會導(dǎo)致在迭代過程中奇異樣本總是被選取到訓(xùn)練集中，從而降低甚至破壞模型的性能。近年來，一個(gè)穩(wěn)健版本的boosting被提出，并用于提高偏最小二乘(Shao，Xue-Guang；Bian，Xi-Hui；Cai，Wen-Sheng，An improved boosting partial least squares method for near-infrared spectroscopic quantitative analysis，Analytica Chimica Acta，2010，666(1-2)：32-37)以及回歸樹(Jiao，Jian；Tan，Shi-Miao；Luo，Rui-Ming；Zhou，Yan-Ping.A Robust boosting regression tree with applications in quantitative structure-activity relationship studies of organic compounds，Journal of Chemical Information and Modeling，2011，51(4)：816-828.)等基礎(chǔ)建模方法的預(yù)測精度及穩(wěn)健性。與普通的boosting相比，穩(wěn)健boosting是在更新權(quán)重之前引入一個(gè)穩(wěn)健步驟，該穩(wěn)健步驟通過對預(yù)測誤差特別大的樣本的取樣權(quán)重設(shè)置為零來避免這些樣本被取到訓(xùn)練子集中，從而提高boosting的穩(wěn)健性。

本發(fā)明結(jié)合極限學(xué)習(xí)機(jī)及穩(wěn)健boosting方法的優(yōu)勢，提出了一種穩(wěn)健的boosting極限學(xué)習(xí)機(jī)集成建模方法，并用于復(fù)雜樣品定量分析，既保留了極限學(xué)習(xí)機(jī)學(xué)習(xí)速度快，泛化性能強(qiáng)等優(yōu)勢，又提高了極限學(xué)習(xí)機(jī)的穩(wěn)定性和穩(wěn)健性。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的是針對上述存在的問題，將boosting算法與極限學(xué)習(xí)機(jī)(ELM)相結(jié)合，同時(shí)加入一個(gè)穩(wěn)健步驟，建立一種穩(wěn)健的boosting極限學(xué)習(xí)機(jī)集成建模方法(流程如圖1所示)，以提高模型的預(yù)測精度、穩(wěn)健性及穩(wěn)定性，具體步驟為：

1)收集一定數(shù)目的樣本，采集樣本的光譜數(shù)據(jù)，測定被測組分的含量。將數(shù)據(jù)集劃分為訓(xùn)練集和預(yù)測集；

2)對訓(xùn)練集中所有樣本i(i＝1，2，......，m)賦予相等的取樣權(quán)重w_i，1；

3)根據(jù)樣本的取樣權(quán)重按照概率取樣選取一定數(shù)目的樣本作為一個(gè)訓(xùn)練子集；

4)確定極限學(xué)習(xí)機(jī)最佳隱含層節(jié)點(diǎn)數(shù)和激勵函數(shù)，用訓(xùn)練子集的樣品建立極限學(xué)習(xí)機(jī)子模型，用這個(gè)子模型預(yù)測訓(xùn)練集中所有樣本，得到預(yù)測濃度；

5)計(jì)算訓(xùn)練集中每個(gè)樣本i已知濃度與預(yù)測濃度的誤差的絕對值e_i，t，其中t為迭代次數(shù)；

6)加入一個(gè)穩(wěn)健步驟來改善樣本的取樣權(quán)重，對于預(yù)測誤差絕對值特別大的樣本，將其預(yù)測誤差設(shè)置為0，即

7)根據(jù)誤差依次計(jì)算損失函數(shù)L_i，t、平均損失函數(shù)和模型的自信率β_t；

8)根據(jù)公式

計(jì)算每個(gè)樣本新的取樣權(quán)重，并歸一化，保證

重復(fù)步驟(3)～(8)多次，得到T個(gè)子模型；

9)對于未知樣本，對T個(gè)子模型的預(yù)測結(jié)果，通過權(quán)重中位值法得到最終預(yù)測結(jié)果，且權(quán)重中位值公式為：

其中r為將T個(gè)預(yù)測值進(jìn)行升序排列的第r個(gè)預(yù)測值。

本發(fā)明中，極限學(xué)習(xí)機(jī)參數(shù)優(yōu)化的方法：定義一個(gè)模型性能的評價(jià)參數(shù)相關(guān)系數(shù)平均值與方差的比值(MSR)，如果多次運(yùn)行所得相關(guān)系數(shù)的均值越大(代表精確度好)，方差越小(代表穩(wěn)定性好)，那么MSR就越大，模型性能越佳。因此，通過觀察MSR隨著隱含層節(jié)點(diǎn)數(shù)以及激勵函數(shù)的變化來確定最佳參數(shù)，其中MSR最大值對應(yīng)的隱含層節(jié)點(diǎn)數(shù)及激勵函數(shù)為最佳參數(shù)。

本發(fā)明中，子模型個(gè)數(shù)即迭代次數(shù)T的確定方法：固定每個(gè)數(shù)據(jù)集的訓(xùn)練子集樣本數(shù)為總樣本數(shù)的50％，給定一個(gè)足夠大的子模型數(shù)目，計(jì)算1～T個(gè)子模型boosting ELM集成建模的交叉驗(yàn)證均方根誤差(RMSECV)。根據(jù)RMSECV隨著子模型個(gè)數(shù)的變化，RMSECV值幾乎不變(趨于穩(wěn)定)時(shí)對應(yīng)子模型個(gè)數(shù)即為所需建立的子模型個(gè)數(shù)T。

本發(fā)明中，訓(xùn)練子集樣本百分?jǐn)?shù)的確定方法：子模型數(shù)為T、固定穩(wěn)健中位值倍數(shù)為某個(gè)值，分別從訓(xùn)練集中選取其樣本總數(shù)的5％～100％作為訓(xùn)練子集，間隔5％，建立boosting ELM，并觀察RMSEP隨著訓(xùn)練子集樣本百分?jǐn)?shù)的變化，RMSEP最小值對應(yīng)的訓(xùn)練子集百分?jǐn)?shù)最佳。

本發(fā)明中，穩(wěn)健中位值倍數(shù)的選擇方法：子模型數(shù)為T、采用最佳訓(xùn)練子集樣本百分?jǐn)?shù)，把中位值倍數(shù)從1～8依次改變，間隔0.5建模一次，并觀察RMSEP隨著中位值倍數(shù)的變化，RMSEP最小值對應(yīng)的倍數(shù)為最佳值。

本發(fā)明的優(yōu)點(diǎn)是：該建模方法結(jié)合了集成建模技術(shù)boosting和極限學(xué)習(xí)機(jī)的優(yōu)勢，同時(shí)對奇異樣本具有很好的穩(wěn)健性，提高了極限學(xué)習(xí)機(jī)算法的預(yù)測精度與穩(wěn)定性，為復(fù)雜樣品多元校正分析提供了一種新的建模方法。本發(fā)明方法可廣泛應(yīng)用于石油、煙草、食品、中藥等領(lǐng)域的復(fù)雜物質(zhì)定量分析。

附圖說明

圖1是boosting極限學(xué)習(xí)機(jī)原理圖

圖2是小麥近紅外數(shù)據(jù)的極限學(xué)習(xí)機(jī)參數(shù)優(yōu)化圖

圖3是小麥近紅外數(shù)據(jù)預(yù)測均方根誤差值隨著訓(xùn)練集百分?jǐn)?shù)變化圖

圖4是小麥近紅外數(shù)據(jù)預(yù)測均方根誤差值隨著中位值倍數(shù)變化圖

圖5是燃油近紅外數(shù)據(jù)的極限學(xué)習(xí)機(jī)參數(shù)優(yōu)化圖

圖6是燃油近紅外數(shù)據(jù)預(yù)測均方根誤差值隨著訓(xùn)練集百分?jǐn)?shù)變化圖

圖7是燃油樣本數(shù)據(jù)預(yù)測均方根誤差值隨著中位值倍數(shù)變化圖

圖8是輕汽油和柴油燃料紫外數(shù)據(jù)的極限學(xué)習(xí)機(jī)參數(shù)優(yōu)化圖

圖9是輕汽油和柴油燃料紫外數(shù)據(jù)預(yù)測均方根誤差值隨著訓(xùn)練集百分?jǐn)?shù)變化圖

圖10是輕汽油和柴油燃料紫外數(shù)據(jù)預(yù)測均方根誤差值隨著中位值倍數(shù)變化圖

具體實(shí)施方式

為更好地理解本發(fā)明，下面結(jié)合實(shí)施例對本發(fā)明做進(jìn)一步地詳細(xì)說明，但是本發(fā)明要求保護(hù)的范圍并不局限于實(shí)施例所表示的范圍。

實(shí)施例1：

本實(shí)施例是應(yīng)用于可見-近紅外光譜分析，對小麥樣本中蛋白質(zhì)含量值進(jìn)行研究(該數(shù)據(jù)中含有2個(gè)奇異樣本)。具體的步驟如下：

1)收集884個(gè)加拿大的小麥樣本，采集這些樣本的可見-近紅外外光譜數(shù)據(jù)，波長范圍為400-2498nm，采樣間隔為2nm，包含1050個(gè)波長點(diǎn)，光譜采用Foss Model 6500近紅外光譜儀測定，下載網(wǎng)址：http://www.idrc-chambersburg.org/shootout2008.html。該數(shù)據(jù)中第680和681號樣本為奇異樣本，采用網(wǎng)站上對數(shù)據(jù)集的劃分的描述，778個(gè)樣本用作訓(xùn)練集，107個(gè)樣本用作預(yù)測集。

2)將訓(xùn)練集中所有樣本i(i＝1，2，......，778)賦予相等的取樣權(quán)重w_i，1。

3)根據(jù)樣本的取樣權(quán)重選取按照概率取樣選取一定數(shù)目的樣本作為一個(gè)訓(xùn)練子集。

4)確定極限學(xué)習(xí)機(jī)最佳隱含層節(jié)點(diǎn)數(shù)和激勵函數(shù)，用訓(xùn)練子集的樣本建立極限學(xué)習(xí)機(jī)子模型，用這個(gè)子模型預(yù)測訓(xùn)練集中所有樣本，得到預(yù)測濃度。

5)計(jì)算訓(xùn)練集中每個(gè)樣本i已知濃度與預(yù)測濃度的誤差的絕對值e_i，t，其中t為迭代次數(shù)。

6)加入一個(gè)穩(wěn)健步驟來改善樣本的取樣權(quán)重，對于預(yù)測誤差絕對值特別大的樣本，將其預(yù)測誤差設(shè)置為0，即

7)根據(jù)誤差依次計(jì)算損失函數(shù)L_i，t、平均損失函數(shù)模型的自信率β_t。

8)根據(jù)公式

計(jì)算每個(gè)樣本新的取樣權(quán)重，并歸一化，保證

重復(fù)步驟(3)～(8)多次，得到T個(gè)子模型。

9)對于未知樣本，對T個(gè)子模型的預(yù)測結(jié)果，通過權(quán)重中位值法得到最終預(yù)測結(jié)果。且權(quán)重中位值公式為：

其中r為將T個(gè)預(yù)測值進(jìn)行升序排列的第r個(gè)預(yù)測值。

極限學(xué)習(xí)機(jī)參數(shù)優(yōu)化的方法：定義一個(gè)模型性能的評價(jià)參數(shù)相關(guān)系數(shù)平均值與方差的比值(MSR)，如果多次運(yùn)行所得相關(guān)系數(shù)的均值越大(代表精確度好)，方差越小(代表穩(wěn)定性好)，那么MSR就越大，模型性能越佳。該實(shí)施例中MSR隨著隱層節(jié)點(diǎn)數(shù)及激勵函數(shù)的變化如圖2所示，當(dāng)MSR最大時(shí)對應(yīng)的隱含層節(jié)點(diǎn)數(shù)及激勵函數(shù)分別為95和S型函數(shù)。

子模型個(gè)數(shù)即迭代次數(shù)的確定方法：固定每個(gè)數(shù)據(jù)集的訓(xùn)練子集樣本數(shù)為總樣本數(shù)的50％，給定500個(gè)子模型數(shù)目值，計(jì)算每個(gè)子模型boosting ELM集成建模的交叉驗(yàn)證均方根誤差(RMSECV)，并觀察RMSECV隨著子模型個(gè)數(shù)的變化，當(dāng)RMSECV值幾乎不變(趨于穩(wěn)定)時(shí)對應(yīng)子模型個(gè)數(shù)500，即為所需建立的子模型個(gè)數(shù)。

訓(xùn)練子集樣本百分?jǐn)?shù)的確定方法：子模型數(shù)為500、固定穩(wěn)健中位值倍數(shù)為6，分別從訓(xùn)練集中選取其樣本總數(shù)的5％～100％作為訓(xùn)練子集，間隔5％，建立boosting ELM，并觀察RMSEP隨著訓(xùn)練子集樣本百分?jǐn)?shù)的變化，RMSEP最小值對應(yīng)的訓(xùn)練子集百分?jǐn)?shù)最佳。該實(shí)施例中RMSEP值隨著訓(xùn)練子集樣本百分?jǐn)?shù)的變化如圖3所示，隨著訓(xùn)練集百分?jǐn)?shù)的增加，RMSEP先快速下降，當(dāng)訓(xùn)練集百分?jǐn)?shù)大于20％后又逐漸上升，故訓(xùn)練子集樣本百分?jǐn)?shù)為20％時(shí)為最佳值。

穩(wěn)健中位值倍數(shù)的選擇方法：子模型數(shù)為500、采用最佳訓(xùn)練子集樣本百分?jǐn)?shù)20％，把中位值倍數(shù)從1～8依次改變，間隔0.5建模一次，并觀察RMSEP隨著中位值倍數(shù)的變化，RMSEP最小值對應(yīng)的倍數(shù)為最佳值。該實(shí)施例中RMSEP值隨中位值倍數(shù)的變化如圖4所示，當(dāng)RMSEP最小時(shí)對應(yīng)的中位值倍數(shù)5.5為最佳值。

利用模型對蛋白質(zhì)含量未知的預(yù)測集樣本進(jìn)行濃度測定，并與不加穩(wěn)健步驟的boosting ELM、ELM和PLS方法比較。結(jié)果表明，利用傳統(tǒng)PLS建模，其預(yù)測均方根誤差RMSEP為0.7476；利用ELM建模，其預(yù)測均方根誤差RMSEP為0.6760，標(biāo)準(zhǔn)偏差為0.0830；利用沒有穩(wěn)健步驟的boosting ELM建模，其預(yù)測均方根誤差RMSEP為0.6965，標(biāo)準(zhǔn)偏差為0.0625；利用加穩(wěn)健步驟的boosting ELM建模，其預(yù)測均方根誤差RMSEP為0.4366，標(biāo)準(zhǔn)偏差為0.0105。通過比較可以得出，基于ELM方法的模型的預(yù)測精度要優(yōu)于PLS；基于boosting集成的ELM方法穩(wěn)定性要明顯優(yōu)于ELM方法；該數(shù)據(jù)中存在奇異樣本，穩(wěn)健步驟的加入可以極大地提高boosting ELM模型的穩(wěn)健性、穩(wěn)定性及預(yù)測精度。

實(shí)施例2：

本實(shí)施例是應(yīng)用于近紅外光譜分析，對柴油機(jī)燃料樣本中的總芳香烴含量進(jìn)行測定(該數(shù)據(jù)中不含奇異樣本)。具體的步驟如下：

1)收集263個(gè)燃油樣本，采集這些樣本的近紅外光譜數(shù)據(jù)，波長范圍為750-1550nm，包括401個(gè)波長點(diǎn)，根據(jù)美國測試和材料協(xié)會(American Society of Testing and Materials，ASTM)的標(biāo)準(zhǔn)分別測定，下載網(wǎng)址：http://www.eigenvector.com/Data/SWRI。該數(shù)據(jù)中無奇異樣本，采用網(wǎng)站上對數(shù)據(jù)集劃分的描述，142個(gè)樣本用作訓(xùn)練集，121個(gè)樣本用作預(yù)測集。

2)將訓(xùn)練集中所有樣本i(i＝1，2，......，142)賦予相等的取樣權(quán)重w_i，1。

3)根據(jù)樣本的取樣權(quán)重選取按照概率取樣選取一定數(shù)目的樣本作為一個(gè)訓(xùn)練子集。

5)計(jì)算訓(xùn)練集中每個(gè)樣本i已知濃度與預(yù)測濃度的誤差的絕對值e_i，t，其中t為迭代次數(shù)。

6)加入一個(gè)穩(wěn)健步驟來改善樣本的取樣權(quán)重，對于預(yù)測誤差絕對值特別大的樣本，將其預(yù)測誤差設(shè)置為0，即

7)根據(jù)誤差依次計(jì)算損失函數(shù)L_i，t、平均損失函數(shù)模型的自信率β_t。

8)根據(jù)公式

計(jì)算每個(gè)樣本新的取樣權(quán)重，并歸一化，保證

重復(fù)步驟(3)～(8)多次，得到T個(gè)子模型。

9)對于未知樣本，對T個(gè)子模型的預(yù)測結(jié)果，通過權(quán)重中位值法得到最終預(yù)測結(jié)果。且權(quán)重中位值公式為：

其中r為將T個(gè)預(yù)測值進(jìn)行升序排列的第r個(gè)預(yù)測值。

極限學(xué)習(xí)機(jī)參數(shù)優(yōu)化的方法：定義一個(gè)模型性能的評價(jià)參數(shù)相關(guān)系數(shù)平均值與方差的比值(MSR)，如果多次運(yùn)行所得相關(guān)系數(shù)的均值越大(代表精確度好)，方差越小(代表穩(wěn)定性好)，那么MSR就越大，模型性能越佳。該實(shí)施例中MSR隨著隱層節(jié)點(diǎn)數(shù)及激勵函數(shù)的變化如圖5所示，當(dāng)MSR最大時(shí)對應(yīng)的隱含層節(jié)點(diǎn)數(shù)及激勵函數(shù)分別為48和正弦函數(shù)。

訓(xùn)練子集樣本百分?jǐn)?shù)的確定方法：子模型數(shù)為500、固定穩(wěn)健中位值倍數(shù)為6，分別從訓(xùn)練集中選取其樣本總數(shù)的5％～100％作為訓(xùn)練子集，間隔5％，建立boosting ELM，并觀察RMSEP隨著訓(xùn)練子集樣本百分?jǐn)?shù)的變化，RMSEP最小值對應(yīng)的訓(xùn)練子集百分?jǐn)?shù)最佳。該實(shí)施例中RMSEP值隨著訓(xùn)練子集樣本百分?jǐn)?shù)的變化如圖6所示，當(dāng)訓(xùn)練集百分?jǐn)?shù)小于15％時(shí)，隨著訓(xùn)練集百分?jǐn)?shù)的增加，RMSEP迅速減小，當(dāng)訓(xùn)練集百分?jǐn)?shù)在15-50％時(shí)，RMSEP基本保持不變，當(dāng)訓(xùn)練集百分?jǐn)?shù)大于50％后，RMSEP緩慢減小后又保持平穩(wěn)，故訓(xùn)練子集樣本百分?jǐn)?shù)為80％時(shí)為最佳值。

穩(wěn)健中位值倍數(shù)的選擇方法：子模型數(shù)為500、采用最佳訓(xùn)練子集樣本百分?jǐn)?shù)80％，把中位值倍數(shù)從1～8依次改變，間隔0.5建模一次，并觀察RMSEP隨著中位值倍數(shù)的變化，RMSEP最小值對應(yīng)的倍數(shù)為最佳值。該實(shí)施例中RMSEP值隨中位值倍數(shù)的變化如圖7所示，當(dāng)RMSEP最小時(shí)對應(yīng)的中位值倍數(shù)5.5為最佳值。

利用模型對總芳香烴含量未知的預(yù)測集樣本進(jìn)行濃度測定，并與不加穩(wěn)健步驟的boosting ELM、ELM和PLS方法比較。結(jié)果表明，利用傳統(tǒng)PLS建模，其預(yù)測均方根誤差RMSEP為0.7032；利用ELM建模，其預(yù)測均方根誤差RMSEP為0.6226，標(biāo)準(zhǔn)偏差為0.0485；利用沒有穩(wěn)健步驟的boosting ELM建模，其預(yù)測均方根誤差RMSEP為0.5185，標(biāo)準(zhǔn)偏差為0.0064；利用加穩(wěn)健步驟的boosting ELM建模，其預(yù)測均方根誤差RMSEP為0.5176，標(biāo)準(zhǔn)偏差為0.0062。通過比較可以得出，基于ELM方法的模型的預(yù)測精度要優(yōu)于PLS；基于boosting集成的ELM方法的預(yù)測精度及穩(wěn)定性要明顯優(yōu)于ELM方法；該數(shù)據(jù)中不存在奇異樣本，有穩(wěn)健步驟與沒有穩(wěn)健步驟加入的boosting ELM的預(yù)測效果相當(dāng)。

實(shí)施例3：

本實(shí)施例是應(yīng)用于紫外光譜分析，對輕汽油和柴油燃料中的單環(huán)芳香烴含量進(jìn)行測定(該數(shù)據(jù)中含有1個(gè)奇異樣本)。具體的步驟如下：

1)收集115個(gè)輕汽油和柴油燃料樣本，采集這些樣本的紫外光譜數(shù)據(jù)，波長范圍為200-400nm，采樣間隔為0.35nm，包含572個(gè)波長點(diǎn)，光譜采用Cary 3 UV-visible分光光度計(jì)(Varian Instruments，San Fernando，Calif.)測定。單環(huán)芳香族化合物含量采用HPG1205A超臨界流體色譜進(jìn)行測定，下載網(wǎng)址：http://myweb.dal.ca/pdwentze/downloads.html。該數(shù)據(jù)中第115號樣本為奇異樣本，采用網(wǎng)站上對數(shù)據(jù)集劃分的描述，前70個(gè)樣本用作訓(xùn)練集，后44個(gè)樣本用作預(yù)測集。

2)將訓(xùn)練集中所有樣本i(i＝1，2，......，70)賦予相等的取樣權(quán)重w_i，1。

3)根據(jù)樣本的取樣權(quán)重選取按照概率取樣選取一定數(shù)目的樣本作為一個(gè)訓(xùn)練子集。

5)計(jì)算訓(xùn)練集中每個(gè)樣本i已知濃度與預(yù)測濃度的誤差的絕對值e_i，t，其中t為迭代次數(shù)。

6)加入一個(gè)穩(wěn)健步驟來改善樣本的取樣權(quán)重，對于預(yù)測誤差絕對值特別大的樣本，將其預(yù)測誤差設(shè)置為0，即

7)根據(jù)誤差依次計(jì)算損失函數(shù)L_i，t、平均損失函數(shù)模型的自信率β_t。

8)根據(jù)公式

計(jì)算每個(gè)樣本新的取樣權(quán)重，并歸一化，保證

重復(fù)步驟(3)～(8)多次，得到T個(gè)子模型。

9)對于未知樣本，對T個(gè)子模型的預(yù)測結(jié)果，通過權(quán)重中位值法得到最終預(yù)測結(jié)果。且權(quán)重中位值公式為：

其中r為將T個(gè)預(yù)測值進(jìn)行升序排列的第r個(gè)預(yù)測值。

極限學(xué)習(xí)機(jī)參數(shù)優(yōu)化的方法：定義一個(gè)模型性能的評價(jià)參數(shù)相關(guān)系數(shù)平均值與方差的比值(MSR)，如果多次運(yùn)行所得相關(guān)系數(shù)的均值越大(代表精確度好)，方差越小(代表穩(wěn)定性好)，那么MSR就越大，模型性能越佳。該實(shí)施例中MSR隨著隱層節(jié)點(diǎn)數(shù)及激勵函數(shù)的變化如圖8所示，當(dāng)MSR最大時(shí)對應(yīng)的隱含層節(jié)點(diǎn)數(shù)及激勵函數(shù)分別為9和S型函數(shù)。

訓(xùn)練子集樣本百分?jǐn)?shù)的確定方法：子模型數(shù)為500、固定穩(wěn)健中位值倍數(shù)為6，分別從訓(xùn)練集中選取其樣本總數(shù)的5％～100％作為訓(xùn)練子集，間隔5％，建立boosting ELM，并觀察RMSEP隨著訓(xùn)練子集樣本百分?jǐn)?shù)的變化，RMSEP最小值對應(yīng)的訓(xùn)練子集百分?jǐn)?shù)最佳。該實(shí)施例中RMSEP值隨著訓(xùn)練子集樣本百分?jǐn)?shù)的變化如圖9所示，訓(xùn)練集百分?jǐn)?shù)小于20％時(shí)，隨著訓(xùn)練集百分?jǐn)?shù)的增加，RMSEP迅速減小，但當(dāng)訓(xùn)練集百分?jǐn)?shù)大于20％之后略有增加但基本保持不變。故當(dāng)樣本百分?jǐn)?shù)為20％時(shí)為最佳值。

穩(wěn)健中位值倍數(shù)的選擇方法：子模型數(shù)為500、采用最佳訓(xùn)練子集樣本百分?jǐn)?shù)20％，把中位值倍數(shù)從1～8依次改變，間隔0.5建模一次，并觀察RMSEP隨著中位值倍數(shù)的變化，RMSEP最小值對應(yīng)的倍數(shù)為最佳值。該實(shí)施例中RMSEP值隨中位值倍數(shù)的變化如圖10所示，當(dāng)RMSEP最小時(shí)對應(yīng)的中位值倍數(shù)6.5為最佳值。

利用模型對單環(huán)芳香烴含量未知的預(yù)測集樣本進(jìn)行濃度測定，并與不加穩(wěn)健步驟的boosting ELM、ELM和PLS方法比較。結(jié)果表明，利用傳統(tǒng)PLS建模，其預(yù)測均方根誤差RMSEP為0.8708；利用ELM建模，其預(yù)測均方根誤差RMSEP為0.8249，標(biāo)準(zhǔn)偏差為0.1073；利用沒有穩(wěn)健步驟的boosting ELM建模，其預(yù)測均方根誤差RMSEP為0.6689，標(biāo)準(zhǔn)偏差為0.0199；利用加穩(wěn)健步驟的boosting ELM建模，其預(yù)測均方根誤差RMSEP為0.6126，標(biāo)準(zhǔn)偏差為0.0146。通過比較可以得出，基于ELM方法的模型的預(yù)測精度要優(yōu)于PLS；基于boosting集成的ELM方法穩(wěn)定性要明顯優(yōu)于ELM方法；該數(shù)據(jù)中存在奇異樣本，穩(wěn)健步驟的加入可以提高boosting ELM模型的預(yù)測精度及穩(wěn)定性。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：卞希慧;徐楊;張彩霞;范清杰;徐紅梅
技術(shù)所有人：天津工業(yè)大學(xué);天津格潤賽?？萍加邢薰?/span>
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種穩(wěn)健的boosting極限學(xué)習(xí)機(jī)集成建模方法與流程