本發(fā)明屬于光譜分析及物質(zhì)材料組成成分分析領(lǐng)域,具體的說是一種基于遺傳算法選擇最優(yōu)光譜譜段的方法及其應(yīng)用。
背景技術(shù):
LIBS(激光誘導(dǎo)擊穿光譜)技術(shù)是一種新型光譜分析技術(shù)。它利用高功率密度的脈沖激光照射樣品表面,使樣品表面附近的原子經(jīng)過多光子吸收及碰撞電離等過程從基態(tài)躍遷到激發(fā)態(tài),形成等離子體。通過測量等離子體自發(fā)輻射譜線的波長即可獲知樣品中元素組成,從而完成定性分析;通過對(duì)譜線強(qiáng)度進(jìn)行分析即可獲知元素含量,進(jìn)而完成定量分析。相比于傳統(tǒng)檢測方法,激光誘導(dǎo)擊穿光譜分析具有多元素同時(shí)分析、速度快、低損耗、無輻射等優(yōu)點(diǎn),在煤炭冶金工業(yè)、材料與制造業(yè)、地理化學(xué)及考古學(xué)研究、煙氣及爆炸物檢測等領(lǐng)域均有著廣闊的應(yīng)用潛力。
傳統(tǒng)的LIBS定性分析模型依賴整個(gè)光譜區(qū)域,而隨著光譜的數(shù)據(jù)量越來越大,由此建立的定性分析模型越來越復(fù)雜。但光譜各特征譜線之間彼此具有較強(qiáng)的線性相關(guān),因此,從原始光譜中選擇并提取合適的光譜信息成為快速準(zhǔn)確的建立定性分析模型的關(guān)鍵問題。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)現(xiàn)有技術(shù)中存在的上述不足之處,本發(fā)明要解決的技術(shù)問題是提供一種基于遺傳算法選擇最優(yōu)光譜譜段的方法及其應(yīng)用,尋找最優(yōu)光譜信息譜段,并利用該譜段信息訓(xùn)練分類器的物質(zhì)組成定性分析,對(duì)樣品進(jìn)行快速分類,通過類別確定其元素組成。
本發(fā)明為實(shí)現(xiàn)上述目的所采用的技術(shù)方案是:一種基于遺傳算法選擇最優(yōu)光譜譜段的方法,包括以下步驟:
步驟1:獲取訓(xùn)練樣品的光譜數(shù)據(jù),確定波長和強(qiáng)度范圍;
步驟2:根據(jù)光譜數(shù)據(jù)、起始位置范圍及需要的譜段長度,確定光譜分段參 數(shù)編碼位數(shù),進(jìn)行對(duì)應(yīng)的遺傳算法染色體編碼,形成遺傳算法初始種群;
步驟3:對(duì)初始種群中的每個(gè)個(gè)體對(duì)應(yīng)譜段進(jìn)行主成分分析,提取主成分信息;
步驟4:使用人工神經(jīng)網(wǎng)絡(luò)算法,以步驟3提取出的主成分信息作為輸入,已知的訓(xùn)練樣品類別作為輸出訓(xùn)練分類器;
步驟5:根據(jù)網(wǎng)絡(luò)對(duì)由多個(gè)訓(xùn)練樣品構(gòu)成的訓(xùn)練集和由多個(gè)訓(xùn)練樣品構(gòu)成的驗(yàn)證集數(shù)據(jù)進(jìn)行評(píng)價(jià),得到最優(yōu)網(wǎng)絡(luò)及相應(yīng)的網(wǎng)絡(luò)精度;
步驟6:對(duì)初始種群進(jìn)行選擇、交叉和突變操作,重插入原種群形成新種群;
步驟7:重復(fù)步驟3~步驟6,直至遺傳算法滿足結(jié)束條件,輸出最終得到的最優(yōu)譜段及其對(duì)應(yīng)的最優(yōu)分類網(wǎng)絡(luò)。
所述訓(xùn)練樣品為已知分類的樣品。
所述編碼為對(duì)于最優(yōu)譜段的起始波長和譜段長度進(jìn)行混合編碼,單一染色體的對(duì)應(yīng)編碼位置分別代表起始波長位置和譜段長度,通過調(diào)節(jié)染色體整體長度和對(duì)應(yīng)編碼位置長度控制起始波長和譜段長度范圍。
所述提取主成分信息具體為:設(shè)定主成分信息閾值,通過主成分分析算法選擇包含全部信息量大于閾值的前n個(gè)主成分,n為主成分分析算法根據(jù)閾值自動(dòng)選擇的主成分?jǐn)?shù),根據(jù)不同樣品自動(dòng)確定。
所述主成分信息閾值一般為全部信息量的95%。
所述以使網(wǎng)絡(luò)對(duì)訓(xùn)練集樣品具有高分類準(zhǔn)確率和低均方根誤差(RMSE)作為訓(xùn)練目標(biāo),運(yùn)用BP人工神經(jīng)網(wǎng)絡(luò)算法,以主成分分析得到的n個(gè)主成分為輸入,以1位的分類類別信息作為輸出,以經(jīng)驗(yàn)公式確定隱藏層神經(jīng)元個(gè)數(shù),對(duì)訓(xùn)練樣品進(jìn)行訓(xùn)練,得到具有單一隱藏層的三層人工神經(jīng)網(wǎng)絡(luò)作為分類模型。
所述以訓(xùn)練出的人工神經(jīng)網(wǎng)絡(luò)對(duì)驗(yàn)證集樣品的分類準(zhǔn)確率及均方根誤差的加權(quán)和值作為適應(yīng)度函數(shù),判斷遺傳算法種群中個(gè)體的優(yōu)劣。
所述結(jié)束條件為種群在一定代數(shù)內(nèi)沒有被優(yōu)化或進(jìn)化代數(shù)達(dá)到預(yù)設(shè)的上 限。
所述步驟5具體為:根據(jù)網(wǎng)絡(luò)對(duì)由多個(gè)訓(xùn)練樣品構(gòu)成的訓(xùn)練集和由多個(gè)訓(xùn)練樣品構(gòu)成的驗(yàn)證集數(shù)據(jù)的分類準(zhǔn)確率和均方根誤差RMSE的加權(quán)函數(shù)作為評(píng)價(jià)函數(shù)對(duì)種群中的每個(gè)個(gè)體對(duì)應(yīng)的網(wǎng)絡(luò)進(jìn)行評(píng)價(jià),得到最優(yōu)網(wǎng)絡(luò)及相應(yīng)的網(wǎng)絡(luò)精度。
一種根據(jù)權(quán)利要求1所述的基于遺傳算法選擇最優(yōu)光譜譜段的方法的應(yīng)用,所述最終得到的最優(yōu)譜段及其對(duì)應(yīng)的最優(yōu)分類網(wǎng)絡(luò)用于對(duì)未知樣品進(jìn)行分類。
本發(fā)明具有以下優(yōu)點(diǎn)及有益效果:
1.本發(fā)明結(jié)合遺傳算法、主成分分析和人工神經(jīng)網(wǎng)絡(luò)算法,給出一種從原始光譜中提取特征豐富的光譜譜段的方法,并使用由該方法選出的最優(yōu)譜段建立分類模型,對(duì)樣品進(jìn)行定性分析;由于提取出原始光譜中最有效的信息,在大幅減小數(shù)據(jù)量的同時(shí),可以提升分析結(jié)果。
2.無需建立元素光譜數(shù)據(jù)庫,僅需利用已知種類的若干樣品訓(xùn)練分類器,即可對(duì)其他樣品進(jìn)行準(zhǔn)確分類。
3.適用但并不局限于LIBS光譜數(shù)據(jù),對(duì)于各種寬譜段光譜均可應(yīng)用。
4.可以實(shí)現(xiàn)對(duì)金屬、巖石等各類材料樣品的分類,應(yīng)用領(lǐng)域廣泛。
附圖說明
圖1為本發(fā)明方法實(shí)現(xiàn)流程圖;
圖2為人工神經(jīng)網(wǎng)絡(luò)示意圖;
圖3為各類鋼樣品最優(yōu)子譜段內(nèi)譜線圖;
圖4為最優(yōu)分類器對(duì)驗(yàn)證集的分類結(jié)果。
具體實(shí)施方式
下面結(jié)合附圖及實(shí)施例對(duì)本發(fā)明做進(jìn)一步的詳細(xì)說明。
如圖1所示,方法開始后讀取由LIBS實(shí)驗(yàn)平臺(tái)獲取的訓(xùn)練樣品原始光譜數(shù)據(jù)作為輸入,通過結(jié)合主成分分析技術(shù)和人工神經(jīng)網(wǎng)絡(luò)算法的遺傳算法選擇最優(yōu)光譜譜段和最優(yōu)分類器作為輸出,得到一個(gè)可對(duì)特定(訓(xùn)練樣品分類范圍內(nèi)) 材料進(jìn)行準(zhǔn)確分類的網(wǎng)絡(luò)模型。具體實(shí)現(xiàn)步驟如下:
步驟1:獲取樣品的LIBS光譜數(shù)據(jù),確定波長和強(qiáng)度范圍。
步驟2:根據(jù)光譜數(shù)據(jù)對(duì)光譜分段參數(shù)進(jìn)行編碼,形成遺傳算法初始種群。
其中,根據(jù)需要設(shè)置子譜段數(shù)目后,參與編碼形成染色體的參數(shù)包括譜段起始位置和譜段長度,染色體編碼位數(shù)由光譜數(shù)據(jù)波長范圍、分辨率大小及譜段長度允許范圍共同決定,編碼采用二進(jìn)制格雷碼,最終形成遺傳算法初始種群。
步驟3:對(duì)種群中的每個(gè)個(gè)體對(duì)應(yīng)譜段進(jìn)行主成分分析,提取適當(dāng)數(shù)量的主成分信息。
設(shè)定主成分信息閾值,只選擇包含全部信息量大于閾值的前n個(gè)主成分輸出到下一級(jí)網(wǎng)絡(luò)。
步驟4:使用人工神經(jīng)網(wǎng)絡(luò)算法,以步驟3提取出的n個(gè)主成分作為輸入、訓(xùn)練樣品類別作為輸出訓(xùn)練分類器。
如圖2所示,以步驟3提取的n個(gè)主成分作為輸入,僅有一個(gè)類別信息作為輸出,訓(xùn)練三層ANN網(wǎng)絡(luò),其中隱含層神經(jīng)元數(shù)目按照設(shè)置,其中m為1,a設(shè)為3,隱含層神經(jīng)元個(gè)數(shù)由主成分分析確定的主成分?jǐn)?shù)決定。
步驟5:根據(jù)訓(xùn)練集和驗(yàn)證集數(shù)據(jù)對(duì)種群中每個(gè)個(gè)體訓(xùn)練得到的網(wǎng)絡(luò)進(jìn)行評(píng)價(jià),得到最優(yōu)網(wǎng)絡(luò)及相應(yīng)的網(wǎng)絡(luò)精度。
設(shè)定分類準(zhǔn)確率及均方根誤差(RMSE)的加權(quán)和值作為訓(xùn)練得到的ANN網(wǎng)絡(luò)的適應(yīng)度函數(shù),以驗(yàn)證集相應(yīng)主成分?jǐn)?shù)據(jù)作為輸入,計(jì)算網(wǎng)絡(luò)對(duì)驗(yàn)證集樣品的分類準(zhǔn)確率及RMSE,得出各個(gè)個(gè)體的適應(yīng)度。
步驟6:對(duì)初始種群進(jìn)行選擇(復(fù)制)、交叉和突變操作,重插入原種群形成新種群。
設(shè)定代溝、交叉和突變概率,產(chǎn)生子代種群,按步驟3-5計(jì)算出其適應(yīng)度函數(shù),將子代適應(yīng)度高的個(gè)體插入父代,替代低適應(yīng)度個(gè)體,形成新種群。
步驟7:重復(fù)步驟6,直至遺傳算法滿足結(jié)束條件,結(jié)束整個(gè)算法過程,輸 出最終得到的最優(yōu)譜段及其對(duì)應(yīng)的最優(yōu)分類網(wǎng)絡(luò)。
整個(gè)遺傳算法滿足以下兩個(gè)條件之一則算法結(jié)束:1)適應(yīng)度函數(shù)在N代內(nèi)沒有變好;2)進(jìn)化代數(shù)達(dá)到上限。算法結(jié)束時(shí)相應(yīng)進(jìn)化代數(shù)中適應(yīng)度最高的染色體對(duì)應(yīng)的譜段即本方法得到的最優(yōu)譜段,其對(duì)應(yīng)的網(wǎng)絡(luò)即最優(yōu)分類網(wǎng)絡(luò)。
步驟8:應(yīng)用最終得到的分類器對(duì)未知樣品進(jìn)行分類。
按上述方法訓(xùn)練對(duì)碳鋼、低合金鋼、高合金鋼和不銹鋼四類鋼材分類的網(wǎng)絡(luò),在固定選擇譜段長度為2048條強(qiáng)度譜線的前提下,得到的最優(yōu)子譜段如圖3所示,可見在方法選擇的最優(yōu)子譜段范圍內(nèi)有較清晰和豐富的Fe、Ni、Cr元素譜線,而這三者含量的不同正是判別不同種類鋼材的關(guān)鍵。
利用圖3對(duì)應(yīng)最優(yōu)譜段所對(duì)應(yīng)的分類網(wǎng)絡(luò)對(duì)測試樣品進(jìn)行分類,分類結(jié)果如圖4所示,其中RMSE計(jì)算公式如下:
其中,Oi為算法輸出(Oi取值為非整數(shù)值),Ti為樣品的標(biāo)準(zhǔn)類別(Ti取值為1~4的整數(shù)值,分別對(duì)應(yīng)四類鋼材)。
由圖4可以看出,在訓(xùn)練樣品類別明確的情況下,本專利涉及的方法可以準(zhǔn)確的對(duì)未知樣品進(jìn)行分類,并且具有非常低的均方根誤差(RMSE)。