本發(fā)明涉及人口數(shù)據(jù)空間化的理論領(lǐng)域,更具體地,涉及一種基于隨機(jī)森林模型的人口數(shù)據(jù)空間化方法;該方法可以應(yīng)用于科學(xué)制定區(qū)域發(fā)展規(guī)劃、災(zāi)害風(fēng)險(xiǎn)防范與救助、經(jīng)濟(jì)建設(shè)、環(huán)境與生態(tài)保護(hù)等相關(guān)政策中所需的人口信息的精確快捷獲取。
技術(shù)背景
作為生產(chǎn)力中最重要的因素,人口的集聚不僅會(huì)產(chǎn)生集聚效應(yīng),在降低人均生活成本的同時(shí)還能提高土地集約利用程度,但是如果人口的增長(zhǎng)超過(guò)某一地區(qū)土地的負(fù)載能力,就會(huì)破壞環(huán)境和生態(tài)的良性循環(huán),最后損害人類自身。而且隨著人口密度的不斷增加,城市在面臨例如火災(zāi)、地震、臺(tái)風(fēng)、洪水等傳統(tǒng)威脅的同時(shí),也給城市管理帶來(lái)了新的問(wèn)題,如交通擁擠、公共設(shè)施承載量過(guò)大、城市部件大量增加等。這些問(wèn)題與城市人口的分布都有著密切關(guān)系。
當(dāng)前廣泛使用的人口數(shù)據(jù)通常是以行政區(qū)劃為單元,通過(guò)普查、抽樣統(tǒng)計(jì)等方式逐級(jí)匯總獲得的典型人口統(tǒng)計(jì)數(shù)據(jù),在實(shí)際應(yīng)用中存在以下三方面的不足:第一,時(shí)間分辨率低,全國(guó)人口普查每10年1次,數(shù)據(jù)更新周期長(zhǎng),難以準(zhǔn)確揭示人口狀況的。第二,空間分辨率低,以行政區(qū)為單元獲得的人口數(shù)據(jù)在行政單元內(nèi)是均勻分布的,不能體現(xiàn)人口數(shù)據(jù)的空間分布特征;第三,不利于多源數(shù)據(jù)融合和綜合空間分析,以行政區(qū)為單元的統(tǒng)計(jì)數(shù)據(jù)與自然地理單元存在空間不匹配的問(wèn)題,限制了人口統(tǒng)計(jì)數(shù)據(jù)在多學(xué)科領(lǐng)域的應(yīng)用。所以非常有必要將人口數(shù)據(jù)網(wǎng)格化,利于實(shí)現(xiàn)人口數(shù)據(jù)與其它社會(huì)統(tǒng)計(jì)數(shù)據(jù)、資源數(shù)據(jù)、環(huán)境數(shù)據(jù)融合,提高人口、資源、環(huán)境綜合管理能力。
隨著科學(xué)技術(shù)的不斷進(jìn)步,特別是近年來(lái)地球信息科學(xué)的突飛猛進(jìn),遙感影像信息提取可以提供大量變量因子空間分布和變化的信息,遙感技術(shù)和GIS技術(shù)結(jié)合使用而進(jìn)行人口數(shù)據(jù)空間化的方法發(fā)展迅速,取得了巨大成就,但還存在著精度較低、模型運(yùn)行速度較慢、變量因子解釋性差的不足。
隨機(jī)森林模型指的是利用多棵樹對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的一種分類器,該分類器可以輸入大量變量,快速學(xué)習(xí)后輸出高準(zhǔn)確度的分類或回歸結(jié)果,同時(shí)評(píng)估變量的重要性,不會(huì)產(chǎn)生過(guò)擬合的問(wèn)題。隨機(jī)森林以其上述優(yōu)點(diǎn)非常適合用于人口數(shù)據(jù)的空間化,可快速學(xué)習(xí)變量因子與人口數(shù)據(jù)之間的關(guān)系并給出變量因子的重要性評(píng)價(jià)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問(wèn)題在于,提供一種快速且準(zhǔn)確、能夠大幅度提高人口數(shù)據(jù)空間化精度的基于隨機(jī)森林模型的人口數(shù)據(jù)空間化方法。
為達(dá)到上述目的,本發(fā)明提供的基于隨機(jī)森林模型的人口數(shù)據(jù)空間化方法,包括以下步驟:
(1)獲取行政區(qū)的常住人口數(shù)、燈光數(shù)據(jù)以及其它對(duì)人口分布具有影響的自然和社會(huì)經(jīng)濟(jì)因素的原始數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,得到變量因子距離數(shù)據(jù)、燈光數(shù)據(jù)、行政區(qū)人口密度的對(duì)數(shù)和二值化柵格轉(zhuǎn)換后的變量因子數(shù)據(jù);
(2)統(tǒng)計(jì)各個(gè)行政區(qū)內(nèi)的每個(gè)變量因子的平均值或最常出現(xiàn)的值并匹配到行政區(qū)邊界;
(3)將步驟(1)預(yù)處理后得到的變量因子距離數(shù)據(jù)、燈光數(shù)據(jù)和行政區(qū)人口密度的對(duì)數(shù)、二值化變量因子?xùn)鸥駭?shù)據(jù)、步驟(2)得到的變量因子的平均值或最常出現(xiàn)值作為隨機(jī)森林模型的輸入,來(lái)尋找變量因子與人口密度的對(duì)數(shù)之間的關(guān)系并輸出變量因子重要性,基于這個(gè)關(guān)系反演出L×L米網(wǎng)格的人口數(shù),得到人口數(shù)據(jù)空間化的初步結(jié)果;
(4)利用分區(qū)密度制圖修正人口數(shù)據(jù)空間化的初步結(jié)果,最終實(shí)現(xiàn)基于隨機(jī)森林模型的L米網(wǎng)格的人口數(shù)據(jù)空間化。
所述的步驟(1)中的預(yù)處理進(jìn)一步包括:
步驟S11,將所有空間數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一投影坐標(biāo)系以及參考橢球體。
步驟S12,將行政區(qū)的常住人口數(shù)除以行政區(qū)面積得到行政區(qū)的人口密度,并對(duì)人口密度取對(duì)數(shù);
步驟S13,對(duì)燈光數(shù)據(jù)進(jìn)行雙線性的重采樣成L×L米的柵格;
步驟S14,對(duì)建成區(qū)、河流、水體、道路等其它對(duì)人口分布具有影響的自然和社會(huì)經(jīng)濟(jì)變量因子進(jìn)行歐氏距離計(jì)算。
步驟S15,對(duì)其它矢量格式的對(duì)人口分布具有影響的自然和社會(huì)經(jīng)濟(jì)變量因子進(jìn)行二值化柵格轉(zhuǎn)換。
所述的步驟(1)中步驟S15的二值化柵格轉(zhuǎn)換是將矢量格式的變量因子轉(zhuǎn)換成柵格格式,并和行政區(qū)范圍進(jìn)行合并,0表示變量因子為空,1表示變量因子不為空。
上述的一種基于隨機(jī)森林模型的L米網(wǎng)格的人口分布的估算方法,其特征在于:所述的步驟(2)中的統(tǒng)計(jì)各個(gè)行政區(qū)內(nèi)的每個(gè)變量因子的平均值或最常出現(xiàn)的值具體是指對(duì)于變量因子的距離數(shù)據(jù)及其他連續(xù)變量因子進(jìn)行平均值的統(tǒng)計(jì),對(duì)于二值化的變量因子?xùn)鸥駭?shù)據(jù)進(jìn)行最常出現(xiàn)值的統(tǒng)計(jì)。
上述的一種基于隨機(jī)森林模型的L米網(wǎng)格的人口分布的估算方法,其特征在于:所述的步驟(4)中的分區(qū)密度制圖法是按照隨機(jī)森林得到的每個(gè)網(wǎng)格的人口占一個(gè)行政區(qū)的所有網(wǎng)格的總?cè)丝诘谋壤匦路峙涿總€(gè)網(wǎng)格的人口數(shù),計(jì)算公式如下:
Pi=Sj×Di/Dj
式中,Pi為每個(gè)網(wǎng)格內(nèi)的人口數(shù),Sj為該網(wǎng)格所在的行政區(qū)的人口總數(shù),Di為該網(wǎng)格根據(jù)隨機(jī)森林模型估計(jì)得到的人口數(shù),Dj為該網(wǎng)格所在的行政區(qū)的所有網(wǎng)格的根據(jù)隨機(jī)森林模型估計(jì)得到的人口總數(shù)。
與現(xiàn)有技術(shù)相比,本發(fā)明克服了傳統(tǒng)方法對(duì)人口數(shù)據(jù)空間化建模精度低、模型運(yùn)行速度慢、變量因子解釋性差的缺點(diǎn),利用地表覆蓋數(shù)據(jù)以及燈光數(shù)據(jù)作為人口分布的變量因子,運(yùn)用隨機(jī)森林模型建立人口密度與變量因子之間的關(guān)系,并利用生成的隨機(jī)森林樹對(duì)每個(gè)L×L米柵格的人口密度進(jìn)行估算,最后通過(guò)分區(qū)密度制圖修正模型結(jié)果成功實(shí)現(xiàn)L×L米網(wǎng)格的人口分布估算。
附圖說(shuō)明
圖1為本發(fā)明的一種基于隨機(jī)森林模型的人口數(shù)據(jù)空間化方法的流程圖;
圖2為本發(fā)明中的數(shù)據(jù)預(yù)處理的框架圖;
圖3為本發(fā)明實(shí)施例中將矢量數(shù)據(jù)二值化柵格轉(zhuǎn)換的結(jié)果;
圖4為本發(fā)明實(shí)施例中變量因子的重要性;
圖5為本發(fā)明實(shí)施例中隨機(jī)森林模型反演得到的珠三角2010年30m網(wǎng)格的人口數(shù)據(jù)空間化初步結(jié)果圖;
圖6為本發(fā)明實(shí)施例中珠三角2010年30m網(wǎng)格人口分布示意圖。
具體實(shí)施方式
圖1出示了一個(gè)實(shí)例中的基于隨機(jī)森林模型的人口數(shù)據(jù)空間化方法的實(shí)施方式,包括以下步驟:
(1)獲取行政區(qū)的常住人口數(shù)、燈光數(shù)據(jù)以及其它對(duì)人口分布具有影響的自然和社會(huì)經(jīng)濟(jì)因素的原始數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,得到變量因子距離數(shù)據(jù)、燈光數(shù)據(jù)、行政區(qū)人口密度的對(duì)數(shù)和二值化柵格轉(zhuǎn)換后的變量因子數(shù)據(jù);
(2)統(tǒng)計(jì)各個(gè)行政區(qū)內(nèi)的每個(gè)變量因子的平均值或最常出現(xiàn)的值并匹配到行政區(qū)邊界;
(3)將步驟(1)預(yù)處理后得到的變量因子距離數(shù)據(jù)、燈光數(shù)據(jù)和行政區(qū)人口密度的對(duì)數(shù)、二值化變量因子?xùn)鸥駭?shù)據(jù)、步驟(2)得到的變量因子的平均值或最常出現(xiàn)值作為隨機(jī)森林模型的輸入,來(lái)尋找變量因子與人口密度的對(duì)數(shù)之間的關(guān)系并輸出變量因子重要性,基于這個(gè)關(guān)系反演出L×L米網(wǎng)格的人口數(shù),得到人口數(shù)據(jù)空間化的初步結(jié)果;
(4)利用分區(qū)密度制圖修正人口數(shù)據(jù)空間化的初步結(jié)果,最終實(shí)現(xiàn)基于隨機(jī)森林模型的L米網(wǎng)格的人口數(shù)據(jù)空間化的初步結(jié)果。
步驟(1)中的預(yù)處理進(jìn)一步包括:
步驟S11,將所有空間數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一投影坐標(biāo)系以及參考橢球體。
步驟S12,將行政區(qū)的常住人口數(shù)除以行政區(qū)面積得到行政區(qū)的人口密度,并對(duì)人口密度取對(duì)數(shù);
步驟S13,對(duì)燈光數(shù)據(jù)進(jìn)行雙線性的重采樣成L×L米的柵格;
步驟S14,對(duì)建成區(qū)、河流、水體、道路等其它對(duì)人口分布具有影響的自然和社會(huì)經(jīng)濟(jì)變量因子進(jìn)行歐氏距離計(jì)算。
步驟S15,對(duì)其它矢量格式的對(duì)人口分布具有影響的自然和社會(huì)經(jīng)濟(jì)變量因子進(jìn)行二值化柵格轉(zhuǎn)換。
步驟(1)中步驟S15的二值化柵格轉(zhuǎn)換是將矢量格式的變量因子轉(zhuǎn)換成柵格格式,并和行政區(qū)范圍進(jìn)行合并,0表示變量因子為空,1表示變量因子不為空。
步驟(2)中的統(tǒng)計(jì)各個(gè)行政區(qū)內(nèi)的每個(gè)變量因子的平均值或最常出現(xiàn)的值具體是指對(duì)于變量因子的距離數(shù)據(jù)及其他連續(xù)變量因子進(jìn)行平均值的統(tǒng)計(jì),對(duì)于二值化的變量因子?xùn)鸥駭?shù)據(jù)進(jìn)行最常出現(xiàn)值的統(tǒng)計(jì)。
步驟(4)中的分區(qū)密度制圖法是按照隨機(jī)森林得到的每個(gè)網(wǎng)格的人口占一個(gè)行政區(qū)的所有網(wǎng)格的總?cè)丝诘谋壤匦路峙涿總€(gè)網(wǎng)格的人口數(shù),計(jì)算公式如下:
Pi=Sj×Di/Dj
式中,Pi為每個(gè)網(wǎng)格內(nèi)的人口數(shù),Sj為該網(wǎng)格所在的行政區(qū)的人口總數(shù),Di為該網(wǎng)格根據(jù)隨機(jī)森林模型估計(jì)得到的人口數(shù),Dj為該網(wǎng)格所在的行政區(qū)的所有網(wǎng)格的根據(jù)隨機(jī)森林模型估計(jì)得到的人口總數(shù)。
下面結(jié)合一個(gè)實(shí)施例和附圖來(lái)具體闡述基于隨機(jī)森林模型的人口數(shù)據(jù)空間化方法,以進(jìn)一步了解本案的目的、方案和功能,但并非作為對(duì)本案后附權(quán)利要求保護(hù)范圍的限制。圖1為本發(fā)明的一種基于隨機(jī)森林模型的30m網(wǎng)格的人口分布的估算方法的流程圖,參考圖1,該人口數(shù)據(jù)空間化方法包括:
(1)獲取珠三角43個(gè)區(qū)縣級(jí)行政區(qū)2010年的常住人口數(shù)、燈光數(shù)據(jù)以及其它對(duì)人口分布具有影響的自然和社會(huì)經(jīng)濟(jì)因素的原始數(shù)據(jù)如道路、河流、水體、高程、坡度、建成區(qū),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,得到建成區(qū)、河流、水體、道路的距離數(shù)據(jù)、燈光數(shù)據(jù)、行政區(qū)人口密度的對(duì)數(shù)和二值化柵格轉(zhuǎn)換后的建成區(qū)、河流、水體、道路數(shù)據(jù);
圖2為數(shù)據(jù)預(yù)處理的框架圖,參考圖2,預(yù)處理進(jìn)一步包括:
步驟S11,將所有空間數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的Albers投影,中央經(jīng)線東經(jīng)105°,起始緯度為0°,標(biāo)準(zhǔn)線為北緯25°和北緯47°,參考橢球選擇Krasovsky_1940橢球體。
步驟S12,將人口數(shù)據(jù)與珠三角區(qū)縣級(jí)行政區(qū)劃邊界根據(jù)區(qū)縣名稱相匹配,保存為ESRI shapefile格式文件,其中的屬性表字段包括行政區(qū)域名稱和相應(yīng)的人口數(shù)。利用ArcGIS屬性表的地理計(jì)算工具統(tǒng)計(jì)各個(gè)區(qū)縣的面積,將珠三角43個(gè)區(qū)縣級(jí)行政區(qū)2010年的常住人口數(shù)除以行政區(qū)面積得到行政區(qū)的人口密度,并對(duì)人口密度取對(duì)數(shù);
步驟S13,對(duì)燈光數(shù)據(jù)進(jìn)行雙線性的重采樣成30×30m的柵格;
步驟S14,對(duì)于河流、水體、道路網(wǎng)和建成區(qū)的矢量格式數(shù)據(jù),計(jì)算出珠三角范圍內(nèi)分別到河流、水體、道路網(wǎng)和建設(shè)用地的歐氏距離。
步驟S15,對(duì)變量因子數(shù)據(jù)進(jìn)行二值化柵格轉(zhuǎn)換。圖3為本發(fā)明中將矢量數(shù)據(jù)二值化柵格轉(zhuǎn)換的結(jié)果,二值化柵格轉(zhuǎn)換是將矢量格式的變量因子如道路、建成區(qū)、水體、河流數(shù)據(jù)轉(zhuǎn)換成柵格數(shù)據(jù)格式,柵格大小為30×30m,最后把柵格數(shù)據(jù)與行政區(qū)劃邊界疊加得到二值化柵格數(shù)據(jù),即如果一個(gè)柵格的土地利用類型為河流或水體或道路網(wǎng)或建成區(qū),則該柵格的值為1,否則為0。
(2)使用ArcGIS的zonal statistic工具的mean方式統(tǒng)計(jì)每個(gè)區(qū)縣內(nèi)分別到河流、水體、道路網(wǎng)和建成區(qū)的平均距離,把這四組平均距離添加到步驟S12中的屬性表文件中;對(duì)于柵格數(shù)據(jù)格式的燈光數(shù)據(jù)、高程數(shù)據(jù)和坡度數(shù)據(jù),使用ArcGIS的zonal statistic工具的mean方式統(tǒng)計(jì)得到每個(gè)區(qū)縣內(nèi)的平均燈光強(qiáng)度、平均高程和平均坡度,并把統(tǒng)計(jì)結(jié)果合并到步驟S12中的屬性表文件中。對(duì)于二值化的柵格數(shù)據(jù),使用ArcGIS的zonal statistic工具的majority方式統(tǒng)計(jì)每個(gè)區(qū)縣內(nèi)出現(xiàn)次數(shù)最多的值,并把統(tǒng)計(jì)結(jié)果合并到步驟S12中的屬性表文件中。
(3)將步驟(1)預(yù)處理后得到的變量因子距離數(shù)據(jù)、燈光數(shù)據(jù)和行政區(qū)人口密度的對(duì)數(shù)、二值化變量因子?xùn)鸥駭?shù)據(jù)、步驟(2)得到的屬性表文件作為隨機(jī)森林模型的輸入,來(lái)尋找變量因子與人口密度的對(duì)數(shù)之間的關(guān)系并輸出變量因子重要性,圖4為本發(fā)明實(shí)施例中變量因子的重要性,基于這個(gè)關(guān)系反演出30×30m網(wǎng)格的人口數(shù)。圖5為本發(fā)明中隨機(jī)森林模型反演得到的珠三角30m網(wǎng)格的人口數(shù)據(jù)空間化初步結(jié)果圖。
(4)利用分區(qū)密度制圖修正人口數(shù)據(jù)空間化初步結(jié)果,最終實(shí)現(xiàn)基于隨機(jī)森林模型的30m網(wǎng)格的人口數(shù)據(jù)空間化,如圖6所示。分區(qū)密度制圖法是按照隨機(jī)森林得到的每個(gè)網(wǎng)格的人口占一個(gè)行政區(qū)的所有網(wǎng)格的總?cè)丝诘谋壤匦路峙涿總€(gè)網(wǎng)格的人口數(shù),計(jì)算公式如下:
Pi=Sj×Di/Dj
式中,Pi為每個(gè)網(wǎng)格內(nèi)的人口數(shù),Sj為該網(wǎng)格所在的行政區(qū)的人口總數(shù),Di為該網(wǎng)格根據(jù)隨機(jī)森林模型估計(jì)得到的人口數(shù),Dj為該網(wǎng)格所在的行政區(qū)的所有網(wǎng)格的根據(jù)隨機(jī)森林模型估計(jì)得到的人口總數(shù)。
在本發(fā)明提供的這種基于隨機(jī)森林模型的人口數(shù)據(jù)空間化方法中,采用的隨機(jī)森林模型可以同時(shí)輸入大量與人口分布相關(guān)的變量,通過(guò)快速的機(jī)器學(xué)習(xí)后輸出回歸結(jié)果并且不會(huì)產(chǎn)生過(guò)擬合的問(wèn)題,估算精度顯著提高,同時(shí)可以評(píng)估影響人口分布的變量因子的重要性,在一定程度上解決了遙感技術(shù)和GIS技術(shù)結(jié)合使用而進(jìn)行人口數(shù)據(jù)空間化的方法中精度較低、模型運(yùn)行速度較慢、變量因子解釋性差的問(wèn)題。
以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳盡,但并不能因此而理解為對(duì)本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。