本發(fā)明涉及重金屬污染土壤修復(fù),具體為一種基于機(jī)器學(xué)習(xí)的土壤重金屬穩(wěn)定化效果預(yù)測(cè)方法。
背景技術(shù):
1、固化/穩(wěn)定化技術(shù)(solidification/stabilization,簡(jiǎn)稱(chēng)s/s)是目前處理重金屬污染土壤的常用方法之一,其操作簡(jiǎn)單、成本低、見(jiàn)效快,在重金屬污染土壤修復(fù)項(xiàng)目中得到了廣泛應(yīng)用。固化/穩(wěn)定化技術(shù)是指向土壤中添加固化/穩(wěn)定化材料,通過(guò)吸附、沉淀、離子交換等作用改變重金屬在土壤中的賦存形態(tài),降低重金屬在土壤環(huán)境中的浸出毒性、溶解遷移性和生物有效性,以減少由于食物鏈傳播或地下水污染對(duì)人體健康和生態(tài)環(huán)境造成的危害。
2、申請(qǐng)?zhí)朿n202310030466.5的一種基于機(jī)器學(xué)習(xí)的土壤重金屬含量預(yù)測(cè)方法,從文獻(xiàn)數(shù)據(jù)庫(kù)和專(zhuān)業(yè)數(shù)據(jù)庫(kù)中篩選重金屬污染數(shù)據(jù),作為樣本數(shù)據(jù)集;基于土壤重金屬環(huán)境質(zhì)量標(biāo)準(zhǔn)剔除樣本數(shù)據(jù)集中的異常數(shù)據(jù),得到第一處理樣本數(shù)據(jù)集;對(duì)第一處理樣本數(shù)據(jù)集進(jìn)行預(yù)處理得到預(yù)處理樣本數(shù)據(jù)集;將預(yù)處理樣本數(shù)據(jù)集劃分為訓(xùn)練集以及測(cè)試集,基于訓(xùn)練集及測(cè)試集訓(xùn)練并評(píng)價(jià)機(jī)器學(xué)習(xí)模型,并確定土壤重金屬含量預(yù)測(cè)模型;據(jù)土壤重金屬含量預(yù)測(cè)模型對(duì)未知重金屬含量的土壤點(diǎn)進(jìn)行重金屬含量預(yù)測(cè),但是沒(méi)有進(jìn)一步對(duì)修復(fù)方案進(jìn)行預(yù)測(cè)和設(shè)計(jì)。
3、現(xiàn)有的技術(shù)多是基于培養(yǎng)實(shí)驗(yàn),少量的基于機(jī)器學(xué)習(xí)的方法也是建立在原位觀測(cè)的基礎(chǔ)之上,并且都無(wú)法實(shí)現(xiàn)對(duì)重金屬穩(wěn)定化效能的精準(zhǔn)預(yù)測(cè)。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述缺點(diǎn)與不足,本發(fā)明提供一種基于機(jī)器學(xué)習(xí)的土壤重金屬穩(wěn)定化效果預(yù)測(cè)方法,通過(guò)幾個(gè)機(jī)器學(xué)習(xí)預(yù)測(cè)模型的比較和特征優(yōu)化,模型對(duì)土壤重金屬穩(wěn)定化效果的預(yù)測(cè)結(jié)果的準(zhǔn)確度大大提高,簡(jiǎn)化了模型。
2、為了達(dá)到上述目的,本發(fā)明采用的主要技術(shù)方案包括:
3、一種基于機(jī)器學(xué)習(xí)的土壤重金屬穩(wěn)定化效果預(yù)測(cè)方法,其特征在于,包括以下步驟:
4、s1、選取試驗(yàn)土壤并獲取土壤特征實(shí)驗(yàn)數(shù)據(jù),確定目標(biāo)函數(shù);
5、s2、對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,得到模型輸入數(shù)據(jù)集;將模型輸入數(shù)據(jù)集分為測(cè)試數(shù)據(jù)集和訓(xùn)練數(shù)據(jù)集;
6、s3、對(duì)于訓(xùn)練數(shù)據(jù)集,分別通過(guò)多個(gè)模型進(jìn)行訓(xùn)練,得到多組經(jīng)過(guò)不同模型訓(xùn)練過(guò)的數(shù)據(jù),并進(jìn)行參數(shù)優(yōu)化;
7、s4、優(yōu)化后的訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集對(duì)比,分別計(jì)算不同模型擬合結(jié)果的擬合度,確定最優(yōu)模型;
8、s5、對(duì)最優(yōu)模型的特征重要度排序并選取最優(yōu)模型中對(duì)模型擬合累積貢獻(xiàn)率高的特征,重新訓(xùn)練模型;
9、s6、比較s4得到的最優(yōu)模型與s5得到的重新訓(xùn)練后模型的aic值,確定最后的預(yù)測(cè)模型后采用bootstrap算法,預(yù)測(cè)重金屬污染土壤穩(wěn)定化平均效能及其95%置信區(qū)間。
10、所述s1中,所述試驗(yàn)土壤為實(shí)際重金屬污染的工業(yè)場(chǎng)地的土壤;所述試驗(yàn)修復(fù)對(duì)象為as、pb、hg、cd、cr、cu、ni、zn共8種重金屬中的一種或多種。
11、獲取土壤實(shí)驗(yàn)數(shù)據(jù)的特征包括土壤場(chǎng)地的行業(yè)類(lèi)別、土壤重金屬污染物種類(lèi)、土壤中重金屬的含量、初始浸出濃度、土壤質(zhì)地類(lèi)型、土壤有機(jī)質(zhì)含量、土壤ph值、土壤陽(yáng)離子交換量、土壤電導(dǎo)率、穩(wěn)定化藥劑種類(lèi)、藥劑添加量、穩(wěn)定化培養(yǎng)時(shí)間、培養(yǎng)溫度以及培養(yǎng)含水率。
12、確定目標(biāo)函數(shù)具體為,采用響應(yīng)比ln r,以穩(wěn)定化修復(fù)后實(shí)驗(yàn)組和對(duì)照組土壤重金屬浸出濃度數(shù)據(jù)確定目標(biāo)函數(shù),公式為:
13、;
14、式中, x t為穩(wěn)定化修復(fù)后實(shí)驗(yàn)組土壤重金屬浸出濃度, x c為穩(wěn)定化修復(fù)后對(duì)照組土壤重金屬浸出濃度。
15、所述s2中對(duì)數(shù)據(jù)進(jìn)行預(yù)處理具體為:對(duì)數(shù)據(jù)中包括土壤場(chǎng)地行業(yè)類(lèi)別、土壤重金屬污染物種類(lèi)、土壤質(zhì)地類(lèi)型和穩(wěn)定化藥劑種類(lèi)的字符型數(shù)據(jù)進(jìn)行特征編碼,對(duì)數(shù)據(jù)集中的缺失值采用了線性插值方式進(jìn)行填補(bǔ)。
16、所述s3具體為:參與訓(xùn)練的機(jī)器學(xué)習(xí)模型包括:神經(jīng)網(wǎng)絡(luò)模型、決策樹(shù)模型、隨機(jī)森林模型、knn模型、gbdt模型。
17、進(jìn)行參數(shù)優(yōu)化具體為:在模型訓(xùn)練時(shí)采用gridsearchcv模型優(yōu)化參數(shù),通過(guò)交叉驗(yàn)證的方式遍歷多種參數(shù)組合,確定最優(yōu)的模型參數(shù)設(shè)置。
18、所述s4具體為:通過(guò)模型擬合結(jié)果的rmse值和r2值來(lái)比較模型的擬合度,rmse值越小、r2值越大表明模型擬合程度越高。
19、所述s6具體為:首先計(jì)算步驟s4得到的最優(yōu)模型的aic值 a 1,再計(jì)算步驟s5得到的最優(yōu)模型中對(duì)模型擬合累積貢獻(xiàn)率高的特征重新訓(xùn)練后的模型的aic值 a 2,比較兩個(gè)aic值 a 1與 a 2,若 a 1> a 2,則選用重新訓(xùn)練后的模型為最后的預(yù)測(cè)模型;若 a 2> a 1,則選用s4得到的最優(yōu)模型為最后的預(yù)測(cè)模型;aic值計(jì)算公式為:;
20、其中,k為試驗(yàn)數(shù)據(jù)特征個(gè)數(shù),n表示試驗(yàn)數(shù)據(jù)個(gè)數(shù),?表示試驗(yàn)數(shù)據(jù)中效果實(shí)測(cè)值,?表示試驗(yàn)數(shù)據(jù)對(duì)應(yīng)的效果模型預(yù)測(cè)值,表示試驗(yàn)數(shù)據(jù)中效果實(shí)測(cè)值的均值。
21、本發(fā)明具有以下有益效果及優(yōu)點(diǎn):
22、1、通過(guò)幾個(gè)機(jī)器學(xué)習(xí)預(yù)測(cè)模型的比較和特征優(yōu)化,模型對(duì)土壤重金屬穩(wěn)定化效果的預(yù)測(cè)結(jié)果的準(zhǔn)確度大大提高,簡(jiǎn)化了模型;本發(fā)明可以給土壤重金屬穩(wěn)定化方案的修復(fù)效果預(yù)測(cè)提供參考,且可以為其他土壤修復(fù)效果預(yù)測(cè)模型的建立提供參考;
23、2、本模型是建立多個(gè)常見(jiàn)機(jī)器學(xué)習(xí)模型后選取效果最佳的模型,大大提高模型預(yù)測(cè)的可信度;
24、3、本模型對(duì)特征處理采用特征貢獻(xiàn)度排列,去掉影響較小的特征,大大簡(jiǎn)化了模型的計(jì)算量,且模型預(yù)測(cè)時(shí)可自動(dòng)填補(bǔ)缺失數(shù)據(jù),提高預(yù)測(cè)準(zhǔn)確度。
1.一種基于機(jī)器學(xué)習(xí)的土壤重金屬穩(wěn)定化效果預(yù)測(cè)方法,其特征在于:包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于機(jī)器學(xué)習(xí)的土壤重金屬穩(wěn)定化效果預(yù)測(cè)方法,其特征在于:所述s1中,所述試驗(yàn)土壤為實(shí)際重金屬污染的工業(yè)場(chǎng)地的土壤;所述試驗(yàn)修復(fù)對(duì)象為as、pb、hg、cd、cr、cu、ni、zn共8種重金屬中的一種或多種。
3.根據(jù)權(quán)利要求1所述的一種基于機(jī)器學(xué)習(xí)的土壤重金屬穩(wěn)定化效果預(yù)測(cè)方法,其特征在于:所述s1中,獲取土壤實(shí)驗(yàn)數(shù)據(jù)的特征包括土壤場(chǎng)地的行業(yè)類(lèi)別、土壤重金屬污染物種類(lèi)、土壤中重金屬的含量、初始浸出濃度、土壤質(zhì)地類(lèi)型、土壤有機(jī)質(zhì)含量、土壤ph值、土壤陽(yáng)離子交換量、土壤電導(dǎo)率、穩(wěn)定化藥劑種類(lèi)、藥劑添加量、穩(wěn)定化培養(yǎng)時(shí)間、培養(yǎng)溫度以及培養(yǎng)含水率。
4.根據(jù)權(quán)利要求1所述的一種基于機(jī)器學(xué)習(xí)的土壤重金屬穩(wěn)定化效果預(yù)測(cè)方法,其特征在于:所述s1中確定目標(biāo)函數(shù)具體為,采用響應(yīng)比lnr,以穩(wěn)定化修復(fù)后實(shí)驗(yàn)組和對(duì)照組土壤重金屬浸出濃度數(shù)據(jù)確定目標(biāo)函數(shù),公式為:
5.根據(jù)權(quán)利要求1所述的一種基于機(jī)器學(xué)習(xí)的土壤重金屬穩(wěn)定化效果預(yù)測(cè)方法,其特征在于:所述s2中對(duì)數(shù)據(jù)進(jìn)行預(yù)處理具體為:對(duì)數(shù)據(jù)中包括土壤場(chǎng)地行業(yè)類(lèi)別、土壤重金屬污染物種類(lèi)、土壤質(zhì)地類(lèi)型和穩(wěn)定化藥劑種類(lèi)的字符型數(shù)據(jù)進(jìn)行特征編碼,對(duì)數(shù)據(jù)集中的缺失值采用了線性插值方式進(jìn)行填補(bǔ)。
6.根據(jù)權(quán)利要求1所述的一種基于機(jī)器學(xué)習(xí)的土壤重金屬穩(wěn)定化效果預(yù)測(cè)方法,其特征在于:所述s3具體為:參與訓(xùn)練的機(jī)器學(xué)習(xí)模型包括:神經(jīng)網(wǎng)絡(luò)模型、決策樹(shù)模型、隨機(jī)森林模型、knn模型、gbdt模型。
7.根據(jù)權(quán)利要求1所述的一種基于機(jī)器學(xué)習(xí)的土壤重金屬穩(wěn)定化效果預(yù)測(cè)方法,其特征在于:所述s3中進(jìn)行參數(shù)優(yōu)化具體為:在模型訓(xùn)練時(shí)采用gridsearchcv模型優(yōu)化參數(shù),通過(guò)交叉驗(yàn)證的方式遍歷多種參數(shù)組合,確定最優(yōu)的模型參數(shù)設(shè)置。
8.根據(jù)權(quán)利要求1所述的一種基于機(jī)器學(xué)習(xí)的土壤重金屬穩(wěn)定化效果預(yù)測(cè)方法,其特征在于:所述s4具體為:通過(guò)模型擬合結(jié)果的rmse值和r2值來(lái)比較模型的擬合度,rmse值越小、r2值越大表明模型擬合程度越高。
9.根據(jù)權(quán)利要求1所述的一種基于機(jī)器學(xué)習(xí)的土壤重金屬穩(wěn)定化效果預(yù)測(cè)方法,其特征在于:所述s6具體為:首先計(jì)算步驟s4得到的最優(yōu)模型的aic值a1,再計(jì)算步驟s5得到的最優(yōu)模型中對(duì)模型擬合累積貢獻(xiàn)率高的特征重新訓(xùn)練后的模型的aic值a2,比較兩個(gè)aic值a1與a2,若a1>a2,則選用重新訓(xùn)練后的模型為最后的預(yù)測(cè)模型;若a2>a1,則選用s4得到的最優(yōu)模型為最后的預(yù)測(cè)模型;aic值計(jì)算公式為:;