本發(fā)明屬于數(shù)據(jù)處理領(lǐng)域,具體的涉及一種基于歸納學(xué)習(xí)的時空數(shù)據(jù)的插值方法、系統(tǒng)和裝置。
背景技術(shù):
1、隨著全球氣候變化、城市化進程的發(fā)展,時空數(shù)據(jù)的監(jiān)測、分析和預(yù)測逐漸成為重要的研究領(lǐng)域。時空數(shù)據(jù)在多個領(lǐng)域中扮演著至關(guān)重要的角色,例如,環(huán)境監(jiān)測中的大氣和水體污染、交通管理中的擁堵預(yù)測、公共健康中的傳染病傳播、地理信息系統(tǒng)中的資源分布,以及智能城市規(guī)劃中的人群流動等。時空數(shù)據(jù)的豐富性和多樣性,使其在各領(lǐng)域的決策和管理過程中具有不可替代的應(yīng)用價值。
2、然而,由于數(shù)據(jù)采集的復(fù)雜性,時空數(shù)據(jù)往往呈現(xiàn)出稀疏、分布不均的特點。特別是在復(fù)雜或廣闊的環(huán)境下,如大規(guī)模海洋、大氣等領(lǐng)域,數(shù)據(jù)空缺現(xiàn)象更加顯著。傳統(tǒng)的插值方法(如克里金法、逆距離加權(quán)法等)盡管能夠填補部分空缺數(shù)據(jù),但它們對時空數(shù)據(jù)中的復(fù)雜依賴特征的捕捉能力有限,因此在精度上存在明顯的不足。這些方法通?;陬A(yù)設(shè)的假設(shè),無法靈活地適應(yīng)數(shù)據(jù)中存在的非線性和非平穩(wěn)特征,特別是在時空變化顯著的區(qū)域,插值效果往往不夠理想。
技術(shù)實現(xiàn)思路
1、本發(fā)明針對上述技術(shù)問題提供一種基于歸納學(xué)習(xí)的時空數(shù)據(jù)插值方法,所述方法通過構(gòu)建更加復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,利用深度學(xué)習(xí)捕捉時空數(shù)據(jù)中的非線性關(guān)系,進而實現(xiàn)對未采樣位置的精準預(yù)測。
2、本發(fā)明是通過如下技術(shù)方案來實現(xiàn)的:
3、一種基于歸納學(xué)習(xí)的時空數(shù)據(jù)插值方法,包括以下步驟:
4、步驟1:使用相應(yīng)儀器采集時空數(shù)據(jù),然后對時空數(shù)據(jù)集進行預(yù)處理階段;
5、進一步,所述的數(shù)據(jù)集必須涵蓋了必要的時間戳和空間信息,然后進行數(shù)據(jù)清洗和歸一化處理,處理后的數(shù)據(jù)組織成歷史數(shù)據(jù)矩陣,同時,構(gòu)建一個初始全零的掩碼矩陣,用于后續(xù)標記數(shù)據(jù)中的缺失值和模擬未采樣節(jié)點,根據(jù)歷史數(shù)據(jù)矩陣中的數(shù)據(jù)缺失,更新數(shù)據(jù)缺失矩陣,將歷史數(shù)據(jù)矩陣按照比例劃分為訓(xùn)練集、驗證集和測試集。
6、步驟2:利用步驟1的數(shù)據(jù)集構(gòu)造時空數(shù)據(jù)插值模型的訓(xùn)練樣本,以生成能夠使模型泛化到未知節(jié)點和圖結(jié)構(gòu)的訓(xùn)練樣本;
7、進一步,所述步驟2的方法如下:首先,在歷史數(shù)據(jù)矩陣的時間范圍內(nèi)隨機選擇時間點,根據(jù)選定的時間節(jié)點從完整的歷史數(shù)據(jù)矩陣中提取子矩陣;子矩陣包含了特定時間點上所有節(jié)點的觀測數(shù)據(jù);在子矩陣中隨機選擇10%-20%節(jié)點,模擬未采樣點節(jié)點;在掩碼矩陣中將設(shè)置的未采樣點節(jié)點對應(yīng)的位置置1,通過模型訓(xùn)練重構(gòu)這些未采樣節(jié)點的數(shù)據(jù)。
8、步驟3:利用步驟2構(gòu)造的時空數(shù)據(jù)插值模型的訓(xùn)練樣本構(gòu)建一種屬于圖神經(jīng)網(wǎng)絡(luò)的空間聚合網(wǎng)絡(luò);
9、進一步,將時空數(shù)據(jù)中的空間位置看成圖中一個節(jié)點,可達性、距離關(guān)系看成等圖中的連接關(guān)系,通過空間聚合網(wǎng)絡(luò)來提取時空數(shù)據(jù)的空間依賴,使用聚合函數(shù)來整合鄰居節(jié)點的特征,學(xué)習(xí)并更新節(jié)點的特征;
10、進一步,在圖神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,空間聚合網(wǎng)絡(luò)在同一層中使用聚合函數(shù)和距離信息來捕捉復(fù)雜的空間依賴性。
11、所述的聚合函數(shù)包括平均聚合、加權(quán)平均聚合、softmax聚合、softmin聚合、標準差聚合、最大池化、最小池化、均值距離聚合、標準距離偏差聚合或自注意力聚合;
12、進一步,空間聚合網(wǎng)絡(luò)使用尺度器來考慮不同特征的影響,調(diào)整特征值范圍或分布,使用張量積將聚合函數(shù)和尺度器結(jié)合在一起,增強模型的學(xué)習(xí)能力。
13、步驟4:構(gòu)建時間編碼器;
14、進一步,所述的步驟4構(gòu)建時間編碼器:使用一個以上不同大小的一維卷積核并行對單個節(jié)點的時間序列數(shù)據(jù)進行卷積操作,提取局部和長時的時間特征,在卷積操作之前進行零填充;將卷積生成的所有特征通道拼接在一起,并使用門控機制,傳遞對任務(wù)至關(guān)重要的信息,同時時間編碼器使用不同的激活函數(shù)、殘差連接和跳躍連接的方式增強網(wǎng)絡(luò)的學(xué)習(xí)能力、避免梯度消失問題。
15、步驟5:訓(xùn)練時空數(shù)據(jù)插值模型;
16、進一步,確定模型的超參數(shù)設(shè)置,訓(xùn)練開始時,使用空間聚合網(wǎng)絡(luò)層和時間編碼器層交替堆疊來學(xué)習(xí)時空數(shù)據(jù)的空間和時間特征;在每一層中,空間聚合網(wǎng)絡(luò)層利用一種以上聚合函數(shù)綜合鄰居節(jié)點的信息,而時間編碼器則通過多尺度卷積操作捕捉時間序列的動態(tài)變化;在模型中引入殘差連接;在每次迭代中,根據(jù)訓(xùn)練批量參數(shù)確定的樣本數(shù)量,從歷史數(shù)據(jù)中隨機抽取訓(xùn)練樣本,并應(yīng)用掩碼策略模擬數(shù)據(jù)缺失情況;通過最小化損失函數(shù)均方根誤差或平均絕對誤差來調(diào)整模型參數(shù);利用adam優(yōu)化器梯度下降方法,根據(jù)反向傳播算法計算得到的梯度更新模型的可學(xué)習(xí)參數(shù);
17、訓(xùn)練過程中,采用早停機制監(jiān)控驗證集上的損失,當(dāng)連續(xù)多個迭代損失沒有顯著下降時,提前終止訓(xùn)練以避免過擬合;當(dāng)模型在驗證集上的性能達到穩(wěn)定或滿足預(yù)設(shè)的訓(xùn)練條件時,得到最終的目標模型。
18、進一步,所述的超參數(shù)包括網(wǎng)絡(luò)層數(shù)、訓(xùn)練批量大小和最大訓(xùn)練周期以及缺失節(jié)點比例、訓(xùn)練數(shù)據(jù)的輸入序列長度、時間編碼器中時間卷積核長度、鄰居節(jié)點數(shù)。
19、步驟6:步驟5訓(xùn)練得到的目標模型用于模擬生成新的傳感器數(shù)據(jù)以及生成未采樣節(jié)點的數(shù)據(jù);將需要插值的數(shù)據(jù)集作為訓(xùn)練模型的基礎(chǔ),確定需要插值的區(qū)域,包括未采樣節(jié)點的位置和時間段,將數(shù)據(jù)處理成步驟5所述的插值模型能夠接受的輸入,鄰接矩陣需要包含未采樣節(jié)點信息,同時在掩碼矩陣中置零來標識未采樣節(jié)點,使用訓(xùn)練好的步驟5所述的插值模型進行插值;
20、進一步,在氣象或海洋領(lǐng)域,通過生成虛擬數(shù)據(jù)來填補監(jiān)測網(wǎng)絡(luò)的空白,提高數(shù)據(jù)的空間覆蓋率;在交通監(jiān)測中,生成未采樣路段的交通流量數(shù)據(jù),幫助進行更全面的交通分析和決策;在自然災(zāi)害監(jiān)測中,生成未采樣區(qū)域的數(shù)據(jù)幫助更好地評估風(fēng)險和制定應(yīng)對措施。
21、一種基于歸納學(xué)習(xí)的時空數(shù)據(jù)插值系統(tǒng),所述系統(tǒng)包括數(shù)據(jù)輸入和處理模塊、構(gòu)造時空數(shù)據(jù)插值模型的訓(xùn)練樣本模塊、構(gòu)建空間聚合網(wǎng)絡(luò)模塊、構(gòu)建時間編碼器模塊、訓(xùn)練時空數(shù)據(jù)插值模型模塊和對數(shù)據(jù)進行插值模塊;
22、所述的數(shù)據(jù)輸入和處理模塊,用于獲取數(shù)據(jù)并對數(shù)據(jù)進行預(yù)處理,所述模塊運行所述的步驟(1);
23、所述的構(gòu)造時空數(shù)據(jù)插值模型的訓(xùn)練樣本模塊運行所述方法的步驟(2);
24、所述的建空間聚合網(wǎng)絡(luò)模塊運行所述方法的步驟(3);
25、所述的構(gòu)建時間編碼器模塊運行所述方法的步驟(4);
26、所述的訓(xùn)練時空數(shù)據(jù)插值模型模塊運行所述方法的步驟(5);
27、所述的對數(shù)據(jù)進行插值模塊運行所述方法的步驟(6)。
28、本發(fā)明還提供一種基于歸納學(xué)習(xí)的時空數(shù)據(jù)插值裝置,所述裝置搭載有所述系統(tǒng)。
29、本發(fā)明與現(xiàn)有技術(shù)相比具有有益效果:
30、本發(fā)明方法不僅提升了時空插值的精度,還具備更好的適應(yīng)性和通用性。能夠充分利用時空依賴特征的高精度插值的模型,在數(shù)據(jù)稀缺的情況下,實現(xiàn)對未觀測點的精準插值,具有重要的應(yīng)用價值。
1.一種基于歸納學(xué)習(xí)的時空數(shù)據(jù)插值方法,其特征在于,所述方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于歸納學(xué)習(xí)的時空數(shù)據(jù)插值方法,其特征在于,所述的步驟1中所述的數(shù)據(jù)集必須涵蓋時間戳和空間信息,然后進行數(shù)據(jù)清洗和歸一化處理,處理后的數(shù)據(jù)組織成歷史數(shù)據(jù)矩陣,同時,構(gòu)建一個初始全零的掩碼矩陣,用于后續(xù)標記數(shù)據(jù)中的缺失值和模擬未采樣節(jié)點,根據(jù)歷史數(shù)據(jù)矩陣中的數(shù)據(jù)缺失,更新數(shù)據(jù)缺失矩陣,將歷史數(shù)據(jù)矩陣按照比例劃分為訓(xùn)練集、驗證集和測試集。
3.根據(jù)權(quán)利要求2所述的一種基于歸納學(xué)習(xí)的時空數(shù)據(jù)插值方法,其特征在于,所述步驟2的方法如下:在歷史數(shù)據(jù)矩陣的時間范圍內(nèi)隨機選擇時間點,根據(jù)選定的時間節(jié)點從完整的歷史數(shù)據(jù)矩陣中提取子矩陣;子矩陣包含了特定時間點上所有節(jié)點的觀測數(shù)據(jù);在子矩陣中隨機選擇10%-20%節(jié)點,模擬未采樣點節(jié)點;在掩碼矩陣中將設(shè)置的未采樣點節(jié)點對應(yīng)的位置置1,通過模型訓(xùn)練重構(gòu)這些未采樣節(jié)點的數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的一種基于歸納學(xué)習(xí)的時空數(shù)據(jù)插值方法,其特征在于,所述步驟3:將時空數(shù)據(jù)中的空間位置看成圖中一個節(jié)點,可達性、距離關(guān)系看成等圖中的連接關(guān)系,通過空間聚合網(wǎng)絡(luò)來提取時空數(shù)據(jù)的空間依賴,使用聚合函數(shù)來整合鄰居節(jié)點的特征,學(xué)習(xí)并更新節(jié)點的特征;
5.根據(jù)權(quán)利要求4所述的一種基于歸納學(xué)習(xí)的時空數(shù)據(jù)插值方法,其特征在于,所述的聚合函數(shù)包括平均聚合、加權(quán)平均聚合、softmax聚合、softmin聚合、標準差聚合、最大池化、最小池化、均值距離聚合、標準距離偏差聚合或自注意力聚合,空間聚合網(wǎng)絡(luò)使用尺度器來考慮不同特征的影響,調(diào)整特征值范圍或分布,使用張量積將聚合函數(shù)和尺度器結(jié)合在一起,增強模型的學(xué)習(xí)能力。
6.根據(jù)權(quán)利要求5所述的一種基于歸納學(xué)習(xí)的時空數(shù)據(jù)插值方法,其特征在于,所述的步驟4構(gòu)建時間編碼器:使用一個以上不同大小的一維卷積核并行對單個節(jié)點的時間序列數(shù)據(jù)進行卷積操作,提取局部和長時的時間特征,在卷積操作之前進行零填充;將卷積生成的所有特征通道拼接在一起,并使用門控機制,傳遞對任務(wù)至關(guān)重要的信息,同時時間編碼器使用不同的激活函數(shù)、殘差連接和跳躍連接的方式增強網(wǎng)絡(luò)的學(xué)習(xí)能力、避免梯度消失問題。
7.根據(jù)權(quán)利要求6所述的一種基于歸納學(xué)習(xí)的時空數(shù)據(jù)插值方法,其特征在于,所述步驟5:確定模型的超參數(shù)設(shè)置,訓(xùn)練開始時,使用空間聚合網(wǎng)絡(luò)層和時間編碼器層交替堆疊來學(xué)習(xí)時空數(shù)據(jù)的空間和時間特征;在每一層中,空間聚合網(wǎng)絡(luò)層利用一種以上聚合函數(shù)綜合鄰居節(jié)點的信息,而時間編碼器則通過多尺度卷積操作捕捉時間序列的動態(tài)變化;在模型中引入殘差連接;在每次迭代中,根據(jù)訓(xùn)練批量參數(shù)確定的樣本數(shù)量,從歷史數(shù)據(jù)中隨機抽取訓(xùn)練樣本,并應(yīng)用掩碼策略模擬數(shù)據(jù)缺失情況;通過最小化損失函數(shù)均方根誤差或平均絕對誤差來調(diào)整模型參數(shù);利用adam優(yōu)化器梯度下降方法,根據(jù)反向傳播算法計算得到的梯度更新模型的可學(xué)習(xí)參數(shù);
8.根據(jù)權(quán)利要求1所述的一種基于歸納學(xué)習(xí)的時空數(shù)據(jù)插值方法,其特征在于,所述步驟6:在氣象或海洋領(lǐng)域,通過生成虛擬數(shù)據(jù)來填補監(jiān)測網(wǎng)絡(luò)的空白,提高數(shù)據(jù)的空間覆蓋率;在交通監(jiān)測中,生成未采樣路段的交通流量數(shù)據(jù),幫助進行更全面的交通分析和決策;在自然災(zāi)害監(jiān)測中,生成未采樣區(qū)域的數(shù)據(jù)幫助更好地評估風(fēng)險和制定應(yīng)對措施。
9.一種基于歸納學(xué)習(xí)的時空數(shù)據(jù)插值系統(tǒng),其特征在于,所述系統(tǒng)包括數(shù)據(jù)輸入和處理模塊、構(gòu)造時空數(shù)據(jù)插值模型的訓(xùn)練樣本模塊、構(gòu)建空間聚合網(wǎng)絡(luò)模塊、構(gòu)建時間編碼器模塊、訓(xùn)練時空數(shù)據(jù)插值模型模塊和對數(shù)據(jù)進行插值模塊;
10.一種基于歸納學(xué)習(xí)的時空數(shù)據(jù)插值裝置,其特征在于,所述裝置搭載有權(quán)利要求9所述的系統(tǒng)。