本發(fā)明涉及大氣污染物濃度估算與模擬,尤其涉及一種融合實(shí)時(shí)監(jiān)測數(shù)據(jù)與lightgbm模型的pm2.5濃度估算及在線可視化方法。
背景技術(shù):
1、21世紀(jì)以來,我國經(jīng)歷了快速的城鎮(zhèn)化與社會(huì)經(jīng)濟(jì)發(fā)展,但也面臨著嚴(yán)峻的大氣污染問題。pm2.5是大氣環(huán)境的主要污染物之一,pm2.5長期、短期暴露均可導(dǎo)致一定的疾病與死亡風(fēng)險(xiǎn)。地面監(jiān)測是pm2.5濃度數(shù)據(jù)的主要來源,但我國空氣質(zhì)量監(jiān)測站點(diǎn)依然稀疏,區(qū)域和城鄉(xiāng)不均衡問題明顯,其在反映大氣污染物濃度的空間差異方面也存在明顯缺陷,嚴(yán)重限制了精確的大氣污染健康效應(yīng)評(píng)估研究,也不能提供監(jiān)測站點(diǎn)之外尤其是遠(yuǎn)離城市的鄉(xiāng)村和偏遠(yuǎn)地區(qū)的大氣環(huán)境信息。增設(shè)監(jiān)測站點(diǎn)顯然會(huì)大幅度增加建設(shè)成本。大氣污染物濃度進(jìn)行估算或模擬,已成為收集和獲取數(shù)據(jù),并進(jìn)行精確健康效應(yīng)評(píng)估的重要途徑。除對公共健康具有明顯的負(fù)面效應(yīng)外,大氣污染還會(huì)影響農(nóng)業(yè)系統(tǒng)作物產(chǎn)量、交通出行規(guī)劃、區(qū)域美譽(yù)度和吸引力,甚至導(dǎo)致氣候變化。在此背景下,實(shí)時(shí)估算并展示空間全覆蓋的pm2.5濃度,可為相關(guān)科研人員提供基礎(chǔ)數(shù)據(jù)支撐,為政府制定污染治理措施提供參考,并為個(gè)人污染規(guī)避行為決策提供指導(dǎo),顯得尤為迫切和重要。
2、目前,大氣污染物濃度估算與模擬方法主要包括數(shù)值模式方法、統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法。數(shù)值模式方法基于空氣動(dòng)力學(xué)理論和物理化學(xué)過程,能夠模擬大氣污染物的稀釋與擴(kuò)散,可以動(dòng)態(tài)預(yù)測污染物濃度的變化,其結(jié)果精度較高。但該類方法一方面高度依賴于排放清單,而排放清單通常實(shí)效性差,高分辨率排放清單的編制成本也較高;另一方面,該類方法用數(shù)學(xué)方程模擬大氣過程,計(jì)算量巨大,通常需要超級(jí)計(jì)算機(jī)才能滿足計(jì)算需求,其計(jì)算耗時(shí)很長,難以實(shí)時(shí)快速模擬。統(tǒng)計(jì)建模方法和機(jī)器學(xué)習(xí)方法主要是基于歷史監(jiān)測數(shù)據(jù)進(jìn)行建模,試圖得到污染物濃度空間或時(shí)空變化特征的參數(shù),污染物濃度與協(xié)變量之間關(guān)系的參數(shù),并基于模型參數(shù)對無監(jiān)測值地區(qū)污染物濃度進(jìn)行估算。而統(tǒng)計(jì)方法通常又難以建立復(fù)雜非線性模型,無法精確模擬大氣污染復(fù)雜非線性的時(shí)空變異。其估算成本和預(yù)測精度都難以控制,具有數(shù)據(jù)封閉性較高、開放性較差的局限。機(jī)器學(xué)習(xí)方法在模擬變量間復(fù)雜非線性關(guān)系方面具有獨(dú)特優(yōu)勢,同時(shí)適用于大規(guī)模數(shù)據(jù)的計(jì)算,效率較高。尤其是,lightgbm模型作為一種新興的基于梯度提升框架的機(jī)器學(xué)習(xí)算法,其快速高效、消耗內(nèi)存少、準(zhǔn)確度高,在大規(guī)模數(shù)據(jù)處理中得到廣泛認(rèn)可。近年來,該方法也被應(yīng)用于大氣污染物濃度的模擬研究。但在相關(guān)研究中該方法主要應(yīng)用于過去某段時(shí)間大氣污染物濃度年值、日值的模擬,尚未用于實(shí)時(shí)的污染物濃度模擬。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明針對目前pm2.5濃度估算時(shí)效性差,可用性差的問題,考慮到對實(shí)時(shí)大氣污染物濃度數(shù)據(jù)的迫切需求,本發(fā)明將爬蟲技術(shù)、機(jī)器學(xué)習(xí)方法與webgis技術(shù)相結(jié)合,通過實(shí)時(shí)爬取大氣污染監(jiān)測數(shù)據(jù)、氣象監(jiān)測數(shù)據(jù),采用lightgbm模型對公里網(wǎng)格尺度大氣污染物濃度進(jìn)行估算,并利用webgis技術(shù)進(jìn)行可視化展示,建立一種融合實(shí)時(shí)監(jiān)測數(shù)據(jù)與lightgbm模型的pm2.5濃度估算及在線可視化方法。本發(fā)明具體基于空氣質(zhì)量監(jiān)測和氣象監(jiān)測數(shù)據(jù)的歷史數(shù)據(jù)及dem、道路密度等輔助數(shù)據(jù),構(gòu)建lightgbm模型,根據(jù)模型驗(yàn)證結(jié)果,選定模型變量與參數(shù),結(jié)合實(shí)時(shí)爬取的空氣質(zhì)量監(jiān)測數(shù)據(jù)、氣象監(jiān)測數(shù)據(jù),采用lightgbm模型對實(shí)時(shí)pm2.5濃度進(jìn)行預(yù)測,得到高分辨率實(shí)時(shí)的pm2.5濃度數(shù)據(jù)。通過webgis(webgeographic?information?system,網(wǎng)絡(luò)地理信息系統(tǒng))技術(shù)搭建前端框架,構(gòu)建數(shù)據(jù)可視化平臺(tái),通過可視化平臺(tái)展示高分辨率實(shí)時(shí)的pm2.5濃度。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:
3、本發(fā)明提出一種融合實(shí)時(shí)監(jiān)測數(shù)據(jù)與lightgbm模型的pm2.5濃度估算及在線可視化方法,包括:
4、步驟1:采集氣象監(jiān)測歷史數(shù)據(jù)、空氣質(zhì)量監(jiān)測歷史數(shù)據(jù)以及空氣質(zhì)量監(jiān)測點(diǎn)坐標(biāo),并收集dem數(shù)據(jù)與路網(wǎng)數(shù)據(jù),對上述數(shù)據(jù)進(jìn)行預(yù)處理;所述空氣質(zhì)量監(jiān)測歷史數(shù)據(jù)包括pm2.5濃度歷史數(shù)據(jù);
5、步驟2:根據(jù)預(yù)處理后的上述數(shù)據(jù),生成空間數(shù)據(jù)集;
6、步驟3:基于生成的空間數(shù)據(jù)集,以氣象監(jiān)測歷史數(shù)據(jù)作為氣象要素,dem數(shù)據(jù)和道路密度數(shù)據(jù)作為下墊面要素,通過lightgbm構(gòu)建空氣質(zhì)量估算模型;所述道路密度數(shù)據(jù)根據(jù)路網(wǎng)數(shù)據(jù)得出;
7、步驟4:爬取實(shí)時(shí)空氣質(zhì)量監(jiān)測數(shù)據(jù)和氣象監(jiān)測數(shù)據(jù),輸入空氣質(zhì)量估算模型,對目標(biāo)區(qū)域1km空間分辨率格網(wǎng)的pm2.5濃度進(jìn)行估算,得到實(shí)時(shí)的高分辨率pm2.5濃度數(shù)據(jù);
8、步驟5:采用geoserver發(fā)布pm2.5濃度估算結(jié)果,以地圖形式對pm2.5濃度估算結(jié)果進(jìn)行可視化,更新實(shí)時(shí)氣象監(jiān)測數(shù)據(jù)和空氣質(zhì)量監(jiān)測數(shù)據(jù),重復(fù)步驟3-5,將pm2.5濃度估算結(jié)果實(shí)時(shí)更新至webgis系統(tǒng);
9、步驟6:將webgis系統(tǒng)部署到服務(wù)器,以使用戶通過互聯(lián)網(wǎng)訪問。
10、進(jìn)一步地,所述步驟1包括:
11、步驟1.1:從國家氣象科學(xué)數(shù)據(jù)中心獲取氣象監(jiān)測歷史數(shù)據(jù),從中國環(huán)境監(jiān)測總站的全國城市空氣質(zhì)量實(shí)時(shí)發(fā)布平臺(tái)和公共環(huán)境研究中心的全球空氣質(zhì)量監(jiān)測數(shù)據(jù)平臺(tái)采集pm2.5濃度歷史數(shù)據(jù);
12、步驟1.2:查看各指標(biāo)數(shù)據(jù)結(jié)構(gòu)與統(tǒng)計(jì)特征,篩選數(shù)據(jù)中na值、異常值、重復(fù)值,對數(shù)據(jù)進(jìn)行清洗,處理缺失值和異常值,確保數(shù)據(jù)的質(zhì)量和完整性;
13、步驟1.3:獲取氣象監(jiān)測歷史數(shù)據(jù)與空氣質(zhì)量監(jiān)測歷史數(shù)據(jù)的時(shí)間信息、空間位置信息;依據(jù)監(jiān)測歷史數(shù)據(jù)空間位置信息,生成矢量空間數(shù)據(jù);將氣象監(jiān)測值與空氣質(zhì)量監(jiān)測值作為屬性信息,與對應(yīng)矢量空間數(shù)據(jù)進(jìn)行連接,得到氣象和空氣質(zhì)量矢量數(shù)據(jù);
14、步驟1.4:將氣象和空氣質(zhì)量矢量數(shù)據(jù)與dem、路網(wǎng)數(shù)據(jù)地理投影進(jìn)行轉(zhuǎn)換和統(tǒng)一,生成初始空間數(shù)據(jù)集。
15、進(jìn)一步地,所述氣象監(jiān)測歷史數(shù)據(jù)包括氣溫、氣壓、降雨、風(fēng)速和相對濕度指標(biāo)數(shù)據(jù)。
16、進(jìn)一步地,所述步驟2包括:
17、步驟2.1:基于路網(wǎng)數(shù)據(jù),采用線密度方法計(jì)算得到道路密度數(shù)據(jù);
18、步驟2.2:根據(jù)空氣質(zhì)量監(jiān)測點(diǎn)坐標(biāo),采用點(diǎn)值提取方法,提取當(dāng)前和前1小時(shí)、6小時(shí)、12小時(shí)和24小時(shí)的5個(gè)時(shí)間點(diǎn)的各氣象監(jiān)測數(shù)據(jù);
19、步驟2.3:根據(jù)空氣質(zhì)量監(jiān)測點(diǎn)坐標(biāo),提取各空氣質(zhì)量監(jiān)測點(diǎn)的dem數(shù)據(jù);以1-10公里為半徑構(gòu)建緩沖區(qū),提取空氣質(zhì)量監(jiān)測點(diǎn)不同緩沖區(qū)內(nèi)平均道路密度;整合空氣質(zhì)量監(jiān)測數(shù)據(jù)和提取的氣象監(jiān)測數(shù)據(jù)、dem數(shù)據(jù)、平均道路密度數(shù)據(jù),生成最終的空間數(shù)據(jù)集。
20、進(jìn)一步地,所述步驟3包括:
21、以氣象要素和下墊面要素作為輸入特征,以pm2.5濃度作為輸出標(biāo)簽,利用lightgbm模型擬合監(jiān)測站點(diǎn)pm2.5濃度和各要素的非線性關(guān)系,構(gòu)建訓(xùn)練模型;驗(yàn)證模型,根據(jù)各要素與pm2.5濃度的相關(guān)性,確定最終影響要素與參數(shù),構(gòu)建空氣質(zhì)量估算模型。
22、選取空間數(shù)據(jù)集中80%樣本作為訓(xùn)練集,用于模型的訓(xùn)練,選取數(shù)據(jù)集中20%樣本作為測試集,用于模型的評(píng)估。選取的lightgbm算法如下:
23、
24、其中,ht(x)表示第t個(gè)學(xué)習(xí)器。lightgbm假設(shè)有一個(gè)訓(xùn)練集{x1,x2,,,xn}的數(shù)據(jù)量為n,訓(xùn)練集中xi是輸入空間xs中第i個(gè)維度為s的向量。ht-1(x)代表通過前一輪迭代訓(xùn)練獲得的學(xué)習(xí)器,其損失函數(shù)為l(y,ht-1(x)),那么尋找一個(gè)能夠使本輪損失函數(shù)達(dá)到最小的弱學(xué)習(xí)器ht(x)。
25、構(gòu)造的估算模型如下:
26、pt=f(tem,uls)
27、式中pt為實(shí)時(shí)pm2.5濃度,tem為氣象要素,uls為下墊面要素,氣象要素和下墊面要素可以包括多種要素。
28、采用均方根誤差(rmse)和擬合優(yōu)度(r2)作為模型評(píng)估的關(guān)鍵指標(biāo),根據(jù)模型評(píng)估結(jié)果篩選具體的輸入特征,并對模型參數(shù)進(jìn)行調(diào)優(yōu),提高模型預(yù)測的準(zhǔn)確性和泛化能力。計(jì)算公式如下:
29、
30、式中,n為數(shù)據(jù)的數(shù)量,ym為預(yù)測結(jié)果,yo為真實(shí)值,和分別表示預(yù)測結(jié)果和真實(shí)結(jié)果的平均值。
31、進(jìn)一步地,所述步驟4包括:
32、步驟4.1:通過構(gòu)建爬蟲系統(tǒng),從中國氣象數(shù)據(jù)平臺(tái)(該平臺(tái)通過中國氣象局多源融合氣象實(shí)況分析產(chǎn)品,每四分鐘進(jìn)行一次數(shù)據(jù)更新,能夠很好的反應(yīng)天氣實(shí)況)收集實(shí)時(shí)氣象監(jiān)測數(shù)據(jù),從公共環(huán)境研究中心的全球空氣質(zhì)量監(jiān)測數(shù)據(jù)平臺(tái)(該平臺(tái)匯總?cè)珖嗉?jí)生態(tài)環(huán)境部門、環(huán)境監(jiān)測部門的空氣質(zhì)量數(shù)據(jù),每小時(shí)進(jìn)行一次數(shù)據(jù)發(fā)布)采集實(shí)時(shí)pm2.5濃度數(shù)據(jù);
33、步驟4.2:預(yù)處理實(shí)時(shí)數(shù)據(jù),包括對數(shù)據(jù)進(jìn)行清洗、缺失值和異常值處理,對實(shí)時(shí)采集的氣象監(jiān)測數(shù)據(jù)和pm2.5濃度數(shù)據(jù)通過站點(diǎn)坐標(biāo)匹配,形成實(shí)時(shí)監(jiān)測數(shù)據(jù)集;
34、步驟4.3:把步驟4.2獲取的實(shí)時(shí)監(jiān)測數(shù)據(jù)集導(dǎo)入空氣質(zhì)量估算模型,對目標(biāo)區(qū)域1km空間分辨率格網(wǎng)的pm2.5濃度進(jìn)行估算,得到實(shí)時(shí)的高分辨率pm2.5濃度數(shù)據(jù)。
35、進(jìn)一步地,所述步驟5包括:
36、步驟5.1:采用html/css、javascript開發(fā)前端,基于vue3框架搭建前端展示系統(tǒng),配置可視化體系,對估算結(jié)果進(jìn)行分級(jí)顯示,按照中國空氣質(zhì)量等級(jí)標(biāo)準(zhǔn)劃分級(jí)別,進(jìn)行可視化展示;具體按照pm2.5濃度(μg/m3)劃分為優(yōu)(0-35)、良(35-75)、輕度污染(75-115)、中度污染(115-150)、重度污染(150-250)、嚴(yán)重污染(250-500)、爆表(500+)七個(gè)等級(jí)標(biāo)準(zhǔn),按照分級(jí)設(shè)色的方法,依次從綠色向紅色分級(jí)展示;
37、步驟5.2:將步驟4中得到的實(shí)時(shí)高分辨率pm2.5濃度數(shù)據(jù)通過geoserver發(fā)布,生成供web服務(wù)使用的數(shù)據(jù)類型與服務(wù)器連接;
38、步驟5.3:獲取服務(wù)器傳遞的數(shù)據(jù),按照設(shè)置的分級(jí)體系將數(shù)據(jù)加載在地圖上直觀展示。
39、與現(xiàn)有技術(shù)相比,本發(fā)明具有的有益效果:
40、(1)本發(fā)明考慮氣象要素對大氣污染物濃度的實(shí)時(shí)影響,及下墊面要素如地形、交通對初級(jí)排放和二次污染物排放的影響,采用lightgbm模型訓(xùn)練并模擬相關(guān)因素與pm2.5濃度之間的非線性關(guān)系;基于模型參數(shù)對全區(qū)域pm2.5濃度進(jìn)行估算,并采用webgis技術(shù)對其進(jìn)行可視化展示。本發(fā)明可用于實(shí)現(xiàn)空間全覆蓋的實(shí)時(shí)大氣污染數(shù)據(jù)采集,并展示實(shí)時(shí)大氣污染狀況。
41、(2)本發(fā)明通過使用實(shí)時(shí)氣象監(jiān)測數(shù)據(jù),顧及下墊面因素的影響,綜合多種要素構(gòu)建lightgbm估算模型,得到實(shí)時(shí)pm2.5濃度估算值,為生成高分辨率的實(shí)時(shí)pm2.5濃度數(shù)據(jù)提供技術(shù)支持。
42、(3)本發(fā)明不同于常見的對年尺度或日尺度歷史數(shù)據(jù)進(jìn)行估算的方式,采用新興的機(jī)器學(xué)習(xí)算法lightgbm,構(gòu)建對每小時(shí)pm2.5濃度估算的模型,實(shí)現(xiàn)降低預(yù)測模型構(gòu)建成本,并提升預(yù)測結(jié)果精度。