基于模型集群分析的激光誘導(dǎo)擊穿光譜變量選擇方法
【專利摘要】本發(fā)明公開了一種基于模型集群分析思想適用于支持向量機的變量選擇方法,其通過蒙特卡洛采樣從全光譜數(shù)據(jù)矩陣中獲取子數(shù)據(jù)集,針對每個子數(shù)據(jù)集建立一個SVM子模型并預(yù)測分類,然后使用Mann-WhitneyU檢驗對所有子模型的預(yù)測正確率進(jìn)行統(tǒng)計分析,挑選出對模型預(yù)測能力有顯著作用的有用變量。該方法不以一次性建模結(jié)果為依據(jù),而是通過有放回的重采樣最大限度地有效利用數(shù)據(jù)信息,充分考察數(shù)據(jù)集中各變量間的內(nèi)在關(guān)系,對不同結(jié)果的統(tǒng)計分布進(jìn)行分析,因此具有更好的普遍性和穩(wěn)定性。
【專利說明】基于模型集群分析的激光誘導(dǎo)擊穿光譜變量選擇方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于模型集群分析的激光誘導(dǎo)擊穿光譜變量選擇方法,屬于光譜分析【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]激光誘導(dǎo)擊穿光譜(laser-1nducedbreakdown spectroscopy, LIBS)是一種基于原子發(fā)射光譜的檢測物質(zhì)組分與含量的分析技術(shù)。強激光脈沖聚焦在樣品上形成等離子體,在等離子體冷卻過程中,樣品中處于激發(fā)態(tài)的原子和離子向低能級或基態(tài)躍遷產(chǎn)生特定頻率的特征發(fā)射譜線。LIBS分析簡便、快速,不需要樣品預(yù)處理并能同時進(jìn)行多元素測定,因此在多個領(lǐng)域被廣泛應(yīng)用。由于特征發(fā)射譜線和被測樣品的元素組成成分之間有著一一對應(yīng)的關(guān)系,因此根據(jù)不同種類物質(zhì)LIBS光譜的特征譜線,借助化學(xué)計量學(xué)方法能夠判別物質(zhì)所屬類別從而實現(xiàn)對物質(zhì)的分類,即化學(xué)模式識別。
[0003]支持向量機(Support vector machine, SVM)是一種基于統(tǒng)計學(xué)習(xí)理論的機器學(xué)習(xí)算法。它以訓(xùn)練誤差作為優(yōu)化問題的約束條件,以置信范圍值最小化作為優(yōu)化目標(biāo),即SVM是一種基于結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則的學(xué)習(xí)方法,其推廣能力明顯優(yōu)于基于經(jīng)驗風(fēng)險最小化的傳統(tǒng)機器學(xué)習(xí)方法。支持向量機通過引入核函數(shù)將輸入樣本空間非線性映射到新的高維特征空間,在高維空間中進(jìn)行相應(yīng)的線性操作,從而實現(xiàn)非線性關(guān)系向線性關(guān)系的轉(zhuǎn)化,在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢。因此將支持向量機和激光誘導(dǎo)擊穿光譜技術(shù)相結(jié)合能夠很好地對物質(zhì)進(jìn)行判別分類。
[0004]通常LIBS光譜都是高維數(shù)據(jù),而且在光譜中存在大量的無用變量。這些無用變量主要是噪音和測試中的波動信號,與元素成分組成沒有關(guān)系,對判別分析也沒有幫助。因此使用全光譜會影響到分類效果,同時過大的數(shù)據(jù)量對計算成本也提出了很高的要求,不利于現(xiàn)場快速分析。另一方面,全光譜中包含測試環(huán)境中的大量信息,這些信息也會對建模分類產(chǎn)生影響。當(dāng)測試環(huán)境改變時,環(huán)境信息也會變化從而嚴(yán)重影響分類模型的穩(wěn)定性。因此使用一種專屬于支持向量機的變量選擇方法將光譜中真正能夠代表物質(zhì)成分特征并對分類有重要作用的變量挑選出來就顯得很有必要了。
[0005]但目前還沒有一種普遍能被接受和認(rèn)可并適用于支持向量機的變量選擇方法,傳統(tǒng)的遺傳算法、粒子群算法等優(yōu)化算法雖然也能用于提取變量,但這些算法計算繁瑣、耗時較長,還需要設(shè)置大量初始參數(shù),而且容易出現(xiàn)局部最優(yōu)解。本發(fā)明提出的基于模型集群分析的變量選擇方法通過重采樣對各種變量組合情況統(tǒng)計分析,直接分析各變量對預(yù)測結(jié)果的影響,不會陷入局部最優(yōu)解,且原理簡單,計算速度快,結(jié)果穩(wěn)定可靠。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的是使用一種基于模型集群分析的激光誘導(dǎo)擊穿光譜變量選擇方法來挑選真正能夠代表物質(zhì)成分特征并對分類效果有促進(jìn)作用的有用變量,避免噪音、環(huán)境信息、冗余數(shù)據(jù)等無用變量對分類的影響,同時大大減少數(shù)據(jù)量,顯著降低計算成本。[0007]為實現(xiàn)上述目的本發(fā)明采用的技術(shù)方案是:
一種基于模型集群分析的激光誘導(dǎo)擊穿光譜變量選擇方法,包括以下步驟:
(1)利用激光誘導(dǎo)擊穿光譜系統(tǒng)對不同牌號的鋼材樣品分別在不同的測量位點進(jìn)行光譜數(shù)據(jù)采集獲得全光譜數(shù)據(jù);
(2)對全光譜數(shù)據(jù)矩陣進(jìn)行蒙特卡洛采樣
將全光譜波段劃分為若干變量,每個變量為包含一定波長點數(shù)的波段,對于全光譜數(shù)據(jù)Xnixn,其中m為光譜個數(shù),η為變量數(shù),每次采樣無放回地從Xnixn中抽取s個光譜和q個變量組成一個子數(shù)據(jù)矩陣RsXq,從Xmxn余下的數(shù)據(jù)中抽取同樣的q個變量組成T (m_s) Xq,重復(fù)進(jìn)行N次采樣可得到N個子數(shù)據(jù)矩陣;
(3)子數(shù)據(jù)矩陣建模分類
將每個經(jīng)蒙特卡洛采樣得到的子數(shù)據(jù)矩陣Rsxq作為訓(xùn)練集,對應(yīng)的T (ffl_s)Xq作為測試集,用一種改進(jìn)的支持向量機分類方法——組合模型——對訓(xùn)練集建立子模型,然后用測試集預(yù)測分類并計算預(yù)測正確率;最后N次采樣共得到N個子模型和N個預(yù)測正確率;
(4)挑選候選有用變量
對每一個變量依次進(jìn)行統(tǒng)計分析檢驗其是否是有用變量,對于變量i,將N個子模型對應(yīng)的預(yù)測正確率分為兩組:包含變量i的子模型對應(yīng)的預(yù)測正確率分為A組,不包含變量i的子模型對應(yīng)的預(yù)測正確率分為B組;兩組預(yù)測正確率的平均值之差Dmeani=MeanijA-Meani;B,如果DmeaniX),則將變量i作為候選有用變量,否則變量i被認(rèn)為是無用變量;
(5)通過無參數(shù)檢驗確定真實有用變量
如果變量i是候選有用變量,利用Mann-Whitney U檢驗變量i的A組預(yù)測正確率和B組預(yù)測正確率進(jìn)行分析并計算P值,如果P值小于預(yù)設(shè)閾值,則認(rèn)為變量i是真正有用變量,否則判定變量i為無用變量。
[0008]上述步驟(2)中進(jìn)行蒙特卡洛采樣時需要確定三個參數(shù),蒙特卡洛采樣次數(shù)N,每次采樣抽取光譜個數(shù)s和每次采樣抽取變量個數(shù)q,為了充分獲取各種變量組合的情況,N越大越好,但考慮到計算成本,N通常為5000—10000,s值取光譜總數(shù)m的1/2—2/3,q值往往會對預(yù)測結(jié)果造成影響,因此設(shè)置一系列取值范圍,通過對比選擇最適合本組數(shù)據(jù)的q值,通常q值的取值范圍為5-500。
[0009]上述步驟(3)中,所述的組合模型先將數(shù)據(jù)進(jìn)行一對多建模模糊分類篩選出候選類別,然后在候選類別范圍內(nèi)進(jìn)行一對一精細(xì)分類,通過循環(huán)迭代,逐步縮小候選類別,最終確定預(yù)測類別。
[0010]上述在步驟(5)中,利用Mann-Whitney U檢驗對A組預(yù)測正確率和B組預(yù)測正確率進(jìn)行統(tǒng)計分析,其中P值是評估兩組預(yù)測正確率是否有顯著性差異的參數(shù),當(dāng)P值小于預(yù)設(shè)閾值,說明變量i的加入對預(yù)測能力有顯著提高,是真正有用變量,否則認(rèn)為變量i對模型預(yù)測沒有影響或者有消極影響,是無用變量,其中閾值通常為0.01-0.05。
[0011 ] 本發(fā)明的優(yōu)點與積極效果:
(I)本發(fā)明基于模型集群分析思想,通過蒙特卡洛采樣獲得子模型,對子模型進(jìn)行建模,然后統(tǒng)計分析模型預(yù)測正確率的分布得出結(jié)果,通過隨機重采樣計算得到穩(wěn)定結(jié)果比一次性建模分析的結(jié)果更具有可靠性和普遍性;(2)使用一種改進(jìn)的支持向量機分類方法:組合模型。先將數(shù)據(jù)進(jìn)行一對多建模模糊分類篩選出候選類別,避免無用類別的干擾。然后在候選類別范圍內(nèi)進(jìn)行一對一精細(xì)分類,由于沒有無用類別的干擾,而且一對一分類考慮到所有候選類別間的差異,通過循環(huán)迭代,逐步縮小候選類別,最終確定預(yù)測結(jié)果,因此模型預(yù)測能力被顯著提高;
(3)通過Mann-WhitneyU檢驗統(tǒng)計分析各種變量組合對模型預(yù)測的影響,挑選出能夠顯著性提高模型預(yù)測能力的變量,這樣得到的結(jié)果相比于傳統(tǒng)尋優(yōu)算法是具有統(tǒng)計學(xué)意義,且不會陷入局部最優(yōu)解的情況。
【專利附圖】
【附圖說明】
[0012]圖1是本發(fā)明操作流程圖;
圖2是有用變量和無用變量預(yù)測正確率分布圖;
圖3是不同q值時本專利選擇變量的預(yù)測正確率;
圖4是實例中鋼鐵樣品20#的LIBS全光譜圖;
圖5是只包含有用變量的20#LIBS光譜圖。
【具體實施方式】
[0013]如圖1所示,本發(fā)明基于模型集群分析的激光誘導(dǎo)擊穿光譜變量選擇方法包括以下步驟:
(I)利用激光誘導(dǎo)擊穿光譜系統(tǒng)對不同牌號的鋼材樣品分別在不同的測量位點進(jìn)行光譜數(shù)據(jù)采集獲得全光譜數(shù)據(jù)。
`[0014](2)對全光譜數(shù)據(jù)矩陣進(jìn)行蒙特卡洛采樣
將全光譜波段劃分為若干變量,每個變量為包含一定波長點數(shù)的波段,對于全光譜數(shù)據(jù)Xnixn,其中m為光譜個數(shù),η為變量數(shù),每次采樣無放回地從Xnixn中抽取S個光譜和q個變量組成一個子數(shù)據(jù)矩陣RsXq,從Xmxn余下的數(shù)據(jù)中抽取同樣的q個變量組成T (m_s) Xq,重復(fù)進(jìn)行N次采樣可得到N個子數(shù)據(jù)矩陣。此步驟需要確定三個參數(shù):蒙特卡洛采樣次數(shù)N,每次采樣抽取光譜個數(shù)s和每次采樣抽取變量個數(shù)q。為了充分獲取各種變量組合的情況,N越大越好,但考慮到計算成本,N通常為5000—10000,s值取光譜總數(shù)m的1/2—2/3,q值往往會對預(yù)測結(jié)果造成影響,因此設(shè)置一系列取值范圍,通過對比選擇最適合本組數(shù)據(jù)的q值,通常q值的取值范圍為5-500。
[0015](3)子數(shù)據(jù)矩陣建模分類
將每個經(jīng)蒙特卡洛采樣得到的子數(shù)據(jù)矩陣Rsxq作為訓(xùn)練集,對應(yīng)的T (ffl_s)Xq作為測試集,用一種改進(jìn)的支持向量機分類方法——組合模型——對訓(xùn)練集建立子模型,用測試集數(shù)據(jù)預(yù)測分類并計算預(yù)測正確率,N次采樣共得到N個子模型和N個預(yù)測正確率。
[0016]組合模型的建模預(yù)測具體步驟如下:
A.一對多建模模糊分類:對于第a類,將訓(xùn)練集數(shù)據(jù)中屬于第^類的數(shù)據(jù)設(shè)為正標(biāo)簽,其他所有類別的數(shù)據(jù)都設(shè)為負(fù)標(biāo)簽,并建立針對第a類的二元分類器,總共A類數(shù)據(jù)共需建立左個二元分類器。然后將測試集數(shù)據(jù)依次帶入各分類器預(yù)測,綜合A個分類器的預(yù)測值得出一對多模型的模糊分類預(yù)測結(jié)果,如果一對多模型判斷該數(shù)據(jù)屬于某一類別,則整個預(yù)測過程結(jié)束;如果預(yù)測結(jié)果出現(xiàn)多分類情況,則把數(shù)據(jù)可能屬于的類別作為候選類別;B.一對一建模精細(xì)分類:將所有候選類別兩兩組合,每兩個候選類別建立一個二元分類器,對于f個候選類別,則共需建立/(/-1) /2個二元分類器。然后測試數(shù)據(jù)被所有二元分類器依次預(yù)測,每個二元分類器做出判斷后按如下方法投票:對于a—6類二元分類器,如果該分類器判斷測試數(shù)據(jù)為第a類,則第a類得票數(shù)加1,否則第6類得票數(shù)加I。所有分類器均按上述方法判斷并投票后,統(tǒng)計各類別總得票數(shù),以得票數(shù)最高的類別為最終預(yù)測結(jié)果。如果最高得票數(shù)的類別不止一種,則將最高得票數(shù)的所有類別作為新的候選類別,然后重復(fù)迭代步驟6中一對一建模分類方法直至最終確定唯一類別,即為最終預(yù)測類別;或者連續(xù)兩次候選類別完全相同,此時判定該數(shù)據(jù)“無法分類”。
[0017](4)挑選候選有用變量
對每一個變量依次進(jìn)行統(tǒng)計分析檢驗其是否是有用變量。對于變量i,將N個子模型對應(yīng)的預(yù)測正確率分為兩組:包含變量i的子模型對應(yīng)的預(yù)測正確率分為A組,不包含變量i的子模型對應(yīng)的預(yù)測正確率分為B組。兩組預(yù)測正確率的平均值之差Dmeani=Meanij A-Meani;B,如果Dmeani>0 ,說明變量i加入模型可能對SVM的預(yù)測能力有所提升,因此將其作為候選有用變量。如果Dmeani含0,則可認(rèn)為加入變量i對模型的預(yù)測能力沒有影響或者會降低預(yù)測能力,此時認(rèn)為變量i是無用變量。
[0018](5)通過無參數(shù)檢驗確定真實有用變量
如果變量i是候選有用變量,說明加入變量i的模型預(yù)測正確率平均值高于沒有變量i的模型預(yù)測正確率平均值。為了驗證這種提高是否具有顯著性,利用Mann-Whitney U檢驗對變量i的A組預(yù)測正確率和B組預(yù)測正確率進(jìn)行分析并計算P值,如果P值小于預(yù)設(shè)閾值,則認(rèn)為變量i對預(yù)測能力有顯著提高,是真實有用變量,否則判定變量i為無用變量。
[0019]實施例1
以下以對九種不同牌號的圓`鋼樣品的建模分類過程中的變量選擇為例,結(jié)合附圖和實例來進(jìn)一步說明本發(fā)明的操作流程,但本發(fā)明不限于此例。
[0020]本實例使用的的LIBS系統(tǒng)主要由調(diào)Q脈沖Nd: YAG激光器,中階梯光譜儀(ARYELLE-UV-VIS, LTB150, German),可移動樣品臺和計算機等組成。激光能量為61mJ,基頻光波長1064nm,脈寬10為ns,重復(fù)頻率為IOHz,光譜范圍為220nm-800nm,共有29888個波長點。
[0021]選擇九種不同牌號的圓鋼樣品:20#(Φ20Χ900πιπι),20Cr(Φ20X900mm), 20CrMηΤ?(Φ30Χ 900mm),20CrMo (Φ 20 X 900mm),20CrNiMo (Φ 20 X 900mm),35# (Φ 20 X 900mm),35CrMo (Φ 20 X 900mm), 40Cr (Φ 20 X 900mm), 42CrMo (Φ 25 X 900mm)(西寧特殊鋼股份有限公
司)。每一類樣品在不同位置截取三個6mm高的鋼柱,經(jīng)打磨處理后放置在樣品臺上,利用激光誘導(dǎo)擊穿光譜系統(tǒng)對樣品進(jìn)行測量。
[0022]在每個鋼柱的每個截面上隨機挑選五十個測量點,在每個測量點經(jīng)20次連續(xù)激光脈沖打擊后得到一個測量光譜,每五個測量光譜經(jīng)平均得到一個分析光譜,最終九類鋼材共獲得540個分析光譜(一類鋼材三個樣品,一個樣品兩個截面,一個截面10個分析光譜)。
[0023]考慮到鋼材樣品具有整體成分不均一,局部成分均勻的特點,如果將所有光譜隨機分為訓(xùn)練集和測試集則容易出現(xiàn)過擬合導(dǎo)致預(yù)測準(zhǔn)確率虛高。因此,每類樣品中隨機選擇4個截面的光譜數(shù)據(jù)作為訓(xùn)練集,其余為測試集。[0024]為了避免過擬合,變量選擇過程中只使用訓(xùn)練集,待確定真實有用變量后再用測試集數(shù)據(jù)檢驗效果。
[0025]另外,如果以每一個波長點為一個變量,則計算量過大且沒有意義,因此將29888個波長點中每30個波長點做一個變量,最后不足30個波長點的用O補足。
[0026]這樣整個光譜共有997個變量,每個變量為包含30個波長點的光譜波段。
[0027]按圖1所示流程進(jìn)行變量提取,對于全光譜數(shù)據(jù)X36cix997,每次采樣無放回地從X360X997中抽取240個光譜和q個變量組成一個子數(shù)據(jù)矩陣R24tixq,其中q值分別為5、10、30、50、100、150、200。
[0028]從X36tix997余下的數(shù)據(jù)中抽取同樣的q個變量組成T12tixqt5重復(fù)進(jìn)行5000次采樣可得到5000個子數(shù)據(jù)矩陣。
[0029]將每個經(jīng)蒙特卡洛采樣得到的子數(shù)據(jù)矩陣R24tixq作為訓(xùn)練集,對應(yīng)的T12tixq作為測試集,用一種改進(jìn)的支持向量機分類方法——組合模型——對訓(xùn)練集建立子模型。
[0030]建模過程中選擇多項式核函數(shù),使用訓(xùn)練集數(shù)據(jù)通過網(wǎng)格法對多項式參數(shù)d(l—10)和懲罰因子C(10_5 — IO5)進(jìn)行尋優(yōu),最終確定最優(yōu)參數(shù)d=l,C=I,然后用測試集數(shù)據(jù)預(yù)測分類并計算預(yù)測正確率。5000次采樣共得到5000個子模型和5000個預(yù)測正確率。對每一個變量依次進(jìn)行統(tǒng)計分析檢驗其是否是有用變量。
[0031]對于變量i,將5000個子模型對應(yīng)的預(yù)測正確率分為兩組:包含變量i的子模型對應(yīng)的預(yù)測正確率分為A組,不包含變量i的子模型對應(yīng)的預(yù)測正確率分為B組。
[0032]兩組預(yù)測正確率的平均值之差Dmeani=Meanu-Meani,如果DmeaniX),則將變量i作為候選有用變量,否則變量i被認(rèn)為是無用變量。
[0033]如果變量i是候選有用變量,利用Mann-Whitney U檢驗對變量i的A組預(yù)測正確率和B組預(yù)測正確率進(jìn)行分析并計算P值。
[0034]如果P值小于預(yù)設(shè)閾值0.05,則認(rèn)為變量i對預(yù)測能力有顯著提高,是真實有用變量,否則仍然判定變量i為無用變量。
[0035]挑選出真實有用變量后,從原數(shù)據(jù)矩陣中抽取真實有用變量組成新的矩陣,然后建模對測試集數(shù)據(jù)進(jìn)行預(yù)測并計算預(yù)測正確率。
[0036]圖2A是典型的有用變量(第303號變量,q=50)對預(yù)測正確率分布的影響,其中條紋是A組預(yù)測正確率分布圖,黑色是B組預(yù)測正確率分布圖。從圖中可以看出當(dāng)?shù)?03號變量加入模型后,預(yù)測正確率的分布明顯右移,說明該變量使SVM的預(yù)測能力有所提高,而且這種提高是顯著的(P值=2.28X 10_21)。
[0037]圖2B是典型的無用變量(第544號變量,q=50)對預(yù)測正確率分布的影響,其中條紋是A組預(yù)測正確率分布圖,黑色是B組預(yù)測正確率分布圖??梢钥吹降?44號變量加入模型后,預(yù)測正確率并沒有明顯變化,因此該變量對SVM分類沒有幫助,是無用變量。
[0038]由于變量選擇的過程是基于蒙特卡洛采樣,采樣過程具有隨機性,因此每次運行本專利進(jìn)行變量選擇的結(jié)果都會存在一定的差異。
[0039]為了檢驗這種差異對結(jié)果穩(wěn)定性造成的影響,選擇一系列q值,在每一個q值下運行本專利20次,用每次挑選出的有用變量組成新的數(shù)據(jù)矩陣建模預(yù)測,然后計算20次預(yù)測正確率的平均值和標(biāo)準(zhǔn)偏差。表1列出了不同q值時運行本專利20次挑選出的有用變童信息
平均預(yù)測平均有用平均訓(xùn)練時間平坶測試時間斤少)q 正確率變童個數(shù)(360個光譜)(18 Q個光譜)
5 1193661322.0774L3163
10 0.9583941.19120.?260
30 0.9747520.60320,2200
50 0.9802350.40480.1520
100 0.9711260.32380.2260
150 0,9547220.28080.1850
200 0.9233180.25800.2155
全光譜 0.927899714.8621.65
[0040]通過圖3可看到,隨著q值的增加,預(yù)測正確率顯著升高,當(dāng)q=50時,達(dá)到最大值
98.03%,然后開始下降,而標(biāo)準(zhǔn)偏差的變化趨勢和預(yù)測正確率的變化趨勢相反,q=50時,標(biāo)
準(zhǔn)偏差最小。
[0041]這表明通過本專利挑選有用變量對提高SVM預(yù)測能力有顯著幫助,而選擇合理的
變量采樣數(shù)q能夠降低蒙特卡洛采樣隨機性造成的偏差,提高本專利的穩(wěn)定性。
[0042]結(jié)合表1和圖3可確定對于本數(shù)據(jù)最優(yōu)q值為50。
[0043]對q=50時運行本專利20次挑選的有用信息進(jìn)行統(tǒng)計,將被選中作為真實有用變
量次數(shù)最多的前35個變量當(dāng)做本專利變量提取的最終結(jié)果。
[0044]圖4是20#的全光譜譜圖,圖5是只包含有用變量的光譜圖。
【權(quán)利要求】
1.基于模型集群分析的激光誘導(dǎo)擊穿光譜變量選擇方法,其特征在于包括以下步驟: (1)利用激光誘導(dǎo)擊穿光譜系統(tǒng)對不同牌號的鋼材樣品分別在不同的測量位點進(jìn)行光譜數(shù)據(jù)采集獲得全光譜數(shù)據(jù); (2)對全光譜數(shù)據(jù)矩陣進(jìn)行蒙特卡洛采樣 將全光譜波段劃分為若干變量,每個變量為包含一定波長點數(shù)的波段,對于全光譜數(shù)據(jù)Xnixn,其中m為光譜個數(shù),η為變量數(shù),每次采樣無放回地從Xnixn中抽取s個光譜和q個變量組成一個子數(shù)據(jù)矩陣RsXq,從Xmxn余下的數(shù)據(jù)中抽取同樣的q個變量組成T (m_s) Xq,重復(fù)進(jìn)行N次采樣可得到N個子數(shù)據(jù)矩陣; (3)子數(shù)據(jù)矩陣建模分類 將每個經(jīng)蒙特卡洛采樣得到的子數(shù)據(jù)矩陣Rsxq作為訓(xùn)練集,對應(yīng)的T (ffl_s)Xq作為測試集,用一種改進(jìn)的支持向量機分類方法——組合模型——對訓(xùn)練集建立子模型,然后用測試集預(yù)測分類并計算預(yù)測正確率;最后N次采樣共得到N個子模型和N個預(yù)測正確率; (4)挑選候選有用變量 對每一個變量依次進(jìn)行統(tǒng)計分析檢驗其是否是有用變量,對于變量i,將N個子模型對應(yīng)的預(yù)測正確率分為兩組:包含變量i的子模型對應(yīng)的預(yù)測正確率分為A組,不包含變量i的子模型對應(yīng)的預(yù)測正確率分為B組;兩組預(yù)測正確率的平均值之差Dmeani=MeanijA-Meani;B,如果DmeaniX),則將變量i作為候選有用變量,否則變量i被認(rèn)為是無用變量; (5)通過無參數(shù)檢驗確定真實有用變量 如果變量i是候選有用變量,利用Mann-Whitney U檢驗變量i的A組預(yù)測正確率和B組預(yù)測正確率進(jìn)行分析并計算P值,如果P值小于預(yù)設(shè)閾值,則認(rèn)為變量i是真正有用變量,否則判定變量i為無用變量。
2.根據(jù)權(quán)利要求1所述的基于模型集群分析的激光誘導(dǎo)擊穿光譜變量選擇方法,其特征在于:步驟(2)中進(jìn)行蒙特卡洛采樣時需要確定三個參數(shù),蒙特卡洛采樣次數(shù)N,每次采樣抽取光譜個數(shù)s和每次采樣抽取變量個數(shù)q,其中N通常為5000—10000,s值取光譜總數(shù)m的1/2 — 2/3,q值的取值范圍為5-500。
3.根據(jù)權(quán)利要求1所述的基于模型集群分析的激光誘導(dǎo)擊穿光譜變量選擇方法,其特征在于:步驟(3)中,所述的組合模型先將數(shù)據(jù)進(jìn)行一對多建模模糊分類篩選出候選類另O,然后在候選類別范圍內(nèi)進(jìn)行一對一精細(xì)分類,通過循環(huán)迭代,逐步縮小候選類別,最終確定預(yù)測類別。
4.根據(jù)權(quán)利要求1所述的基于模型集群分析的激光誘導(dǎo)擊穿光譜變量選擇方法,其特征在于,在步驟(5)中,利用Mann-Whitney U檢驗對A組預(yù)測正確率和B組預(yù)測正確率進(jìn)行統(tǒng)計分析,其中P值是評估兩組預(yù)測正確率是否有顯著性差異的參數(shù),當(dāng)P值小于預(yù)設(shè)閾值,說明變量i的加入對預(yù)測能力有顯著提高,是真正有用變量,否則認(rèn)為變量i對模型預(yù)測沒有影響或者有消極影響,是無用變量,其中閾值通常為0.01-0.05。
【文檔編號】G01N21/63GK103487410SQ201310388287
【公開日】2014年1月1日 申請日期:2013年9月1日 優(yōu)先權(quán)日:2013年9月1日
【發(fā)明者】李華, 梁龍, 湯宏勝, 王康, 張?zhí)忑? 孫昆侖, 李吉光, 盛麗雯 申請人:西北大學(xué)