本發(fā)明涉及混凝土氯離子擴(kuò)散系數(shù)預(yù)測領(lǐng)域,特別涉及一種基于混合機(jī)器學(xué)習(xí)模型的氯離子擴(kuò)散系數(shù)預(yù)測方法。
背景技術(shù):
1、混凝土是一種由水泥、粗骨料和細(xì)骨料等組成的非均質(zhì)、多尺度結(jié)構(gòu)的材料,氯離子是導(dǎo)致混凝土結(jié)構(gòu)中鋼筋腐蝕的主要原因之一,當(dāng)氯離子通過擴(kuò)散進(jìn)入混凝土內(nèi)部并達(dá)到鋼筋表面時(shí),會破壞鋼筋的鈍化膜,導(dǎo)致鋼筋腐蝕,不同的混凝土配合比和材料選擇會顯著影響氯離子的擴(kuò)散性能,研究氯離子擴(kuò)散系數(shù),可以優(yōu)化混凝土的配合比和材料選擇,增強(qiáng)混凝土的抗氯離子侵蝕能力,耐久性差的混凝土結(jié)構(gòu)頻繁維修和更換不僅增加了資源的消耗,還對環(huán)境造成了負(fù)面影響,混凝土氯離子擴(kuò)散系數(shù)的預(yù)測對混凝土結(jié)構(gòu)的耐久性設(shè)計(jì)具有重要意義。
2、目前對于混凝土氯離子擴(kuò)散系數(shù)的研究大多采傳統(tǒng)實(shí)驗(yàn)方法,從混凝土中某些特殊物理結(jié)構(gòu)進(jìn)行分析,從某些含有特殊材料混凝土出發(fā),從某一齡期的混凝土的氯離子擴(kuò)散系數(shù)角度出發(fā),部分已有方法對研究混凝土氯離子擴(kuò)散系數(shù)研究提供了特定視角但可能面對適用性有限問題,但隨著計(jì)算機(jī)領(lǐng)域的飛速發(fā)展,特別是人工智能領(lǐng)域的發(fā)展,基于機(jī)器學(xué)習(xí)算法的混凝土氯離子擴(kuò)散系數(shù)方法應(yīng)當(dāng)被更深地發(fā)掘,機(jī)器學(xué)習(xí)回歸預(yù)測僅需采集混凝土的各個(gè)特征參數(shù)即可做出預(yù)測,但一般單一機(jī)器學(xué)習(xí)回歸算法直接作用在混凝土氯離子擴(kuò)散系數(shù)預(yù)測領(lǐng)域各有優(yōu)點(diǎn),如有些算法精度較高而有些算法功能更強(qiáng)大,機(jī)器學(xué)習(xí)對于混凝土氯離子擴(kuò)散系數(shù)的預(yù)測雖然整體精度高但難免存在誤差,復(fù)合的機(jī)器學(xué)習(xí)模型的預(yù)測誤差可能不僅不收斂反而會發(fā)散,不能揭示氯離子擴(kuò)散系數(shù)的可能分布情況。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明所要解決的問題是:提供一種基于混合機(jī)器學(xué)習(xí)模型的氯離子擴(kuò)散系數(shù)預(yù)測方法,通過融合lightgbm模型與gpr模型,解決了復(fù)合模型誤差不僅不收斂反而發(fā)散的問題,提高了混凝土氯離子擴(kuò)散系數(shù)的預(yù)測精度。
2、本發(fā)明采用如下技術(shù)方案:一種基于混合機(jī)器學(xué)習(xí)模型的氯離子擴(kuò)散系數(shù)預(yù)測方法,包括如下步驟:
3、步驟1、收集實(shí)測樣本數(shù)據(jù),并對樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗;
4、步驟2、對清洗后的樣本數(shù)據(jù)進(jìn)行l(wèi)asso回歸特征選擇:將樣本數(shù)據(jù)潛在的特征變量放入lasso回歸中進(jìn)行處理,經(jīng)過交叉驗(yàn)證后,選取均方誤差最小時(shí)對應(yīng)的潛在特征變量系數(shù),保留對目標(biāo)值有所貢獻(xiàn)的特征;
5、步驟3、采用隨機(jī)抽樣進(jìn)行樣本數(shù)據(jù)的訓(xùn)練,構(gòu)建訓(xùn)練集和測試集;
6、步驟4、構(gòu)建基于決策樹算法的分布式梯度提升算法(lightgbm),在訓(xùn)練集上訓(xùn)練lightgbm模型,并給出訓(xùn)練好的lightgbm模型在訓(xùn)練集和測試集上的預(yù)測值;
7、步驟5、將lightgbm模型的預(yù)測值作為增加列,對訓(xùn)練集和測試集數(shù)據(jù)進(jìn)行升維處理;
8、步驟6、構(gòu)建高斯過程回歸(gpr)模型,將升維后的測試集數(shù)據(jù)作為gpr模型的輸入,實(shí)測數(shù)據(jù)的真實(shí)值作為gpr模型的輸出,訓(xùn)練gpr模型;
9、步驟7、分析gpr模型在訓(xùn)練集上的預(yù)測能力,通過貝葉斯參數(shù)優(yōu)化方法進(jìn)行g(shù)pr模型超參數(shù)的自動優(yōu)化,得到優(yōu)化后的gpr模型;
10、步驟8、融合lightgbm模型與優(yōu)化后的gpr模型,得到lightgbm-gpr模型:將步驟5中升維處理后測試集的參數(shù)矩陣,作為優(yōu)化后的gpr模型的輸入,根據(jù)gpr模型的輸出得到lightgbm-gpr模型的預(yù)測結(jié)果;
11、步驟9、對lightgbm-gpr模型的預(yù)測結(jié)果進(jìn)行整體評估,得到預(yù)測的氯離子擴(kuò)散系數(shù)的數(shù)值和氯離子擴(kuò)散系數(shù)的不確定性概率區(qū)間。
12、具體地,步驟1中,原始數(shù)據(jù)中少量數(shù)據(jù)可能有空缺項(xiàng),對于有空缺的數(shù)據(jù)可進(jìn)行刪除處理,原始數(shù)據(jù)中也可能有因?yàn)楦鞣N原因?qū)е聰?shù)據(jù)記錄錯誤,對于部分異常數(shù)據(jù),可以通過一些經(jīng)典數(shù)據(jù)清洗方法清除;
13、比如:使用四分位距(iqr)方法,通過計(jì)算每個(gè)參數(shù)列的四分位距(iqr),將低于第1四分位數(shù)以下1.5倍iqr或高于第3四分位數(shù)1.5倍iqr的值視為異常值。
14、又比如:使用標(biāo)準(zhǔn)分?jǐn)?shù)(z-score)法,將經(jīng)過空缺數(shù)據(jù)刪除操作后數(shù)據(jù)按參數(shù)列進(jìn)行標(biāo)準(zhǔn)化表現(xiàn)為z=(x-μ)/σ,其中,μ為每列均值,σ為每列標(biāo)準(zhǔn)差,將z-score絕對值大于3的異常值刪除。
15、具體地,步驟2中,將lasso回歸特征選擇的目標(biāo)函數(shù)設(shè)置為:
16、
17、其中,yi為每行數(shù)據(jù)對應(yīng)的氯離子擴(kuò)散系數(shù)真實(shí)值,xi為1行j列的行向量,它包含j個(gè)參數(shù)值,i為數(shù)據(jù)集中總數(shù)據(jù)數(shù),j為參數(shù)總數(shù),β為j行1列的列向量,它包含了對j種參數(shù)的賦值,λ為懲罰系數(shù),||||1為l1范數(shù);
18、lasso回歸采用l1正則化,通過調(diào)整懲罰系數(shù)大小將冗余變量的稀疏系數(shù)壓縮至0從而實(shí)現(xiàn)特征篩選。
19、具體地,步驟3中,為使訓(xùn)練時(shí)樣本均衡,提高模型性能,采用隨機(jī)抽樣進(jìn)行訓(xùn)練,可令訓(xùn)練樣本占總樣本數(shù)據(jù)量的80%,測試樣本占總樣本數(shù)據(jù)量的20%。
20、具體地,步驟4中,對處理好的樣本數(shù)據(jù)在訓(xùn)練集上調(diào)用lightgbm模型,lightgbm模型訓(xùn)練好后即可根據(jù)訓(xùn)練集和測試集上數(shù)據(jù)的參數(shù)給出相應(yīng)預(yù)測值,lightgbm是對經(jīng)典算法梯度提升決策樹(gbdt)的優(yōu)化和高效實(shí)現(xiàn),在效果和原理方面,它有更快的訓(xùn)練效率。
21、構(gòu)建lightgbm模型,基于histogram的決策樹算法,一個(gè)葉子節(jié)點(diǎn)的histogram可以直接由父節(jié)點(diǎn)的histogram和兄弟節(jié)點(diǎn)的histogram做差得到,大大提升訓(xùn)練速度,低內(nèi)存使用:lightgbm模型使用的是直方圖算法(histogram?algorithm),占用的內(nèi)存更低,數(shù)據(jù)分割的復(fù)雜度更低,更高的準(zhǔn)確率:lightgbm模型采用leaf-wise(按葉子生長)生長策略,每次從當(dāng)前所有葉子中找到分裂增益最大(一般也是數(shù)據(jù)量最大)的一個(gè)葉子,然后分裂,如此循環(huán),同xgboost的level-wise相比,在分裂次數(shù)相同的情況下,leaf-wise可以降低更多的誤差,得到更好的精度。
22、進(jìn)一步地,lightgbm模型支持并行化學(xué)習(xí):包括支持特征并行和數(shù)據(jù)并行的兩種,針對這兩種并行方法都做了優(yōu)化。
23、具體地,步驟5中,假設(shè)收集到的原始樣本數(shù)據(jù)經(jīng)過刪除缺損項(xiàng)和排除異常值后得到一張數(shù)據(jù)表,經(jīng)隨機(jī)抽樣后,以訓(xùn)練集為例,表為一張m行n+1列的矩陣,其中m為數(shù)據(jù)個(gè)數(shù),n為氯離子擴(kuò)散系數(shù)的參數(shù)個(gè)數(shù),第n+1列為氯離子擴(kuò)散系數(shù)的真實(shí)值,前n列每一列均為該列參數(shù)所對應(yīng)的值,在步驟2中經(jīng)過lasso回歸特征選擇后,假設(shè)數(shù)據(jù)表變?yōu)閙行q+1列的矩陣,其中q≤n,第q+1列仍為氯離子擴(kuò)散系數(shù)的真實(shí)值,此時(shí)如果去掉最后一列真實(shí)值而只考慮參數(shù)數(shù)據(jù),可得m行q列的參數(shù)矩陣。
24、此時(shí),將lightgbm模型的預(yù)測值添加到參數(shù)矩陣的最后一列進(jìn)行數(shù)據(jù)升維操作,即對參數(shù)矩陣進(jìn)行列增廣操作,得到m行q+1列的參數(shù)矩陣,將lightgbm預(yù)測值作為參數(shù)加入,增加了gpr模型輸入的有效信息。
25、進(jìn)一步地,步驟6中,將升維后的數(shù)據(jù)即m行q+1列的參數(shù)矩陣作為gpr模型的輸入,氯離子擴(kuò)散系數(shù)真實(shí)值作為gpr模型的輸出來訓(xùn)練gpr模型。
26、所述gpr模型是一種非參數(shù)貝葉斯回歸方法,在機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)中廣泛應(yīng)用,它以高斯過程為基礎(chǔ),能夠提供預(yù)測的同時(shí),還能量化預(yù)測的不確定性,gpr原理為先驗(yàn)分布和數(shù)據(jù)的似然函數(shù)計(jì)算得到結(jié)果的后驗(yàn)分布,過程核心為核函數(shù),核函數(shù)為正定協(xié)方差矩陣,計(jì)算訓(xùn)練集的自相關(guān)性,基于貝葉斯框架可得測試集的后驗(yàn)分布和輸出值和協(xié)方差函數(shù),基于上述結(jié)果可簡單計(jì)算出95%置信區(qū)間。
27、進(jìn)一步地,步驟7中,分析gpr在訓(xùn)練集上的預(yù)測能力,如比較均方誤差(mse),均方根誤差(rmse)和決定系數(shù)(r2),若誤差較大評估能力較弱則用貝葉斯參數(shù)優(yōu)化方法進(jìn)行g(shù)pr模型超參數(shù)的自動優(yōu)化。
28、所述貝葉斯參數(shù)優(yōu)化方法,適用于機(jī)器學(xué)習(xí)模型的超參數(shù)調(diào)優(yōu),貝葉斯優(yōu)化通過使用一個(gè)代理模型(如高斯過程)來近似目標(biāo)函數(shù),代理模型根據(jù)已知的觀察數(shù)據(jù)進(jìn)行訓(xùn)練,捕捉目標(biāo)函數(shù)的行為,使用采集函數(shù)來決定下一個(gè)參數(shù)的采樣位置,根據(jù)新的參數(shù)采樣結(jié)果更新代理模型和采集函數(shù),并重復(fù)上述過程,直到達(dá)到優(yōu)化目標(biāo)或達(dá)到停止條件。
29、進(jìn)一步地,步驟8中,對于在訓(xùn)練集上經(jīng)過貝葉斯參數(shù)調(diào)優(yōu)的gpr模型,用訓(xùn)練好的lightgbm模型在測試集上給出預(yù)測值,并對測試集上的數(shù)據(jù)進(jìn)行升維作為調(diào)優(yōu)后的gpr的輸入,此時(shí)gpr模型給出每個(gè)數(shù)據(jù)對應(yīng)的氯離子擴(kuò)散系數(shù)的預(yù)測均值與預(yù)測方差,計(jì)算出每個(gè)數(shù)據(jù)對應(yīng)的預(yù)測置信區(qū)間。
30、本發(fā)明技術(shù)方案還提供了:一種電子設(shè)備,包括:
31、一個(gè)或多個(gè)處理器;
32、存儲裝置,其上存儲有一個(gè)或多個(gè)程序;
33、當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行,使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)上述任一所述的基于混合機(jī)器學(xué)習(xí)模型的氯離子擴(kuò)散系數(shù)預(yù)測方法。
34、本發(fā)明技術(shù)方案還提供了一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)上述任一項(xiàng)基于混合機(jī)器學(xué)習(xí)模型的氯離子擴(kuò)散系數(shù)預(yù)測方法中的步驟。
35、本發(fā)明采用以上技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下技術(shù)效果:
36、1、本發(fā)明氯離子擴(kuò)散系數(shù)預(yù)測方法,融合了lightgbm模型與gpr模型,既保留了lightgbm模型預(yù)測精度高的特點(diǎn),又將gpr模型預(yù)測數(shù)據(jù)均值、方差及置信區(qū)間的功能保留,在預(yù)測精度上較lightgbm模型與gpr模型均有提升。
37、2、已有復(fù)合gpr模型的模型,通常將其他回歸模型第一次的預(yù)測結(jié)果直接作為gpr的輸入,數(shù)據(jù)真實(shí)值作為gpr輸出來訓(xùn)練模型,本發(fā)明方法將原有參數(shù)信息保留,在使用gpr模型前進(jìn)行獨(dú)有的數(shù)據(jù)升維處理,減少了復(fù)合gpr模型時(shí)信息損失問題,使得預(yù)測誤差更小,解決了復(fù)合模型誤差不僅不收斂反而發(fā)散的問題。
38、3、本發(fā)明氯離子擴(kuò)散系數(shù)預(yù)測方法,將混凝土特征與其氯離子擴(kuò)散系數(shù)的物理規(guī)律封裝進(jìn)機(jī)器學(xué)習(xí)算法,僅需獲得混凝土的相關(guān)參數(shù)即可對氯離子擴(kuò)散系數(shù)進(jìn)行預(yù)測,具有簡便精確的特點(diǎn)。
39、4、本發(fā)明氯離子擴(kuò)散系數(shù)預(yù)測方法,通過復(fù)合模型(lightgbm-gpr模型)預(yù)測混凝土氯離子擴(kuò)散系數(shù),與直接運(yùn)用經(jīng)典機(jī)器學(xué)習(xí)回歸算法預(yù)測相比,具有精度高的優(yōu)點(diǎn)并且提供不確定性概率區(qū)間預(yù)測的功能。