国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      空氣污染物濃度預(yù)報方法及系統(tǒng)與流程

      文檔序號:12178250閱讀:520來源:國知局
      空氣污染物濃度預(yù)報方法及系統(tǒng)與流程

      本發(fā)明涉及環(huán)境工程技術(shù)領(lǐng)域,尤其涉及一種空氣污染物濃度預(yù)報方法及系統(tǒng)。



      背景技術(shù):

      近年來,隨著國家經(jīng)濟(jì)的高速發(fā)展、城市化進(jìn)程的加快和工業(yè)規(guī)模的擴(kuò)大,空氣污染問題日益嚴(yán)重,引起了全球范圍內(nèi)的廣泛關(guān)注。以細(xì)顆粒物PM2.5為首要污染物的空氣污染現(xiàn)象日益突出,對公眾健康構(gòu)成較大威脅。因此,有必要開展空氣質(zhì)量預(yù)報,更好地反映空氣污染的變化趨勢,并提供迅速和全面的環(huán)境質(zhì)量信息,為環(huán)境管理和避免嚴(yán)重的空氣污染事故提供決策支持。

      目前,空氣質(zhì)量預(yù)報通常采用數(shù)值預(yù)報模型和統(tǒng)計學(xué)預(yù)報模型進(jìn)行空氣質(zhì)量預(yù)報。數(shù)值預(yù)報方法采用采用大氣動力學(xué)理論來模擬污染物排放、轉(zhuǎn)移、擴(kuò)散和消散的過程,運(yùn)用基于模型驅(qū)動的方法來對空氣質(zhì)量進(jìn)行建模和預(yù)報。然而,由于不可靠的污染物排放數(shù)據(jù),復(fù)雜的下墊面(大氣下層直接接觸的地球表面)狀況和不完整的理論基礎(chǔ),模擬結(jié)果精度較低。

      統(tǒng)計學(xué)預(yù)報方法則以數(shù)據(jù)驅(qū)動方式使用統(tǒng)計建模手段來預(yù)報空氣質(zhì)量,如多元線性回歸(Multi-variable Linear Regression,簡稱MLR)模型和自回歸移動平均(Auto Regression Moving Average,簡稱ARMA)模型都常用于空氣質(zhì)量預(yù)報。然而,這些方法因不能模擬空氣污染物濃度中的非線性模式而精度較低,在極端空氣污染物濃度預(yù)報上的精度尤其偏低。



      技術(shù)實現(xiàn)要素:

      本發(fā)明的目的在于克服現(xiàn)有技術(shù)中存在的上述不足,而提供一種空氣污染物濃度預(yù)報方法和系統(tǒng),以解決空氣污染物濃度預(yù)報精度較低,在極端空氣污染物濃度預(yù)報上的精度尤其偏低的問題。

      第一方面,本發(fā)明提供了一種空氣污染物濃度預(yù)報方法,包括:將輸入層的節(jié)點(diǎn)個數(shù)的多個待選值、棧式自編碼器的層數(shù)的多個待選值、棧式自編碼器的每層的節(jié)點(diǎn)個數(shù)的多個待選值進(jìn)行組合確定出多個待定模型,設(shè)置每個待定模型的輸出層的節(jié)點(diǎn)個數(shù)為m;其中,輸入層的節(jié)點(diǎn)個數(shù)是輸出層的節(jié)點(diǎn)個數(shù)m的n倍,n為時間步參數(shù);根據(jù)時間步參數(shù)n的多個待選值和指定的預(yù)報時延r,獲取來自m個監(jiān)測站點(diǎn)的空氣污染物的多組歷史濃度數(shù)據(jù),從所述歷史濃度數(shù)據(jù)中提取出訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集;使用所述訓(xùn)練數(shù)據(jù)集對各待定模型進(jìn)行訓(xùn)練直至待定模型收斂,記錄訓(xùn)練完成的各待定模型相應(yīng)的模型權(quán)重矩陣和模型偏置向量;將所述驗證數(shù)據(jù)集中用于輸入的數(shù)據(jù)輸入至訓(xùn)練完成的各待定模型,計算各待定模型的輸出結(jié)果與所述驗證數(shù)據(jù)集中用于驗證的數(shù)據(jù)的綜合誤差,將最小的綜合誤差對應(yīng)的待定模型確定為預(yù)報模型,其中,所述預(yù)報模型的時間步參數(shù)的值為nr;將來自m個監(jiān)測站點(diǎn)、時間步參數(shù)為nr的空氣污染物濃度的觀測數(shù)據(jù)組成預(yù)報數(shù)據(jù)集,將所述預(yù)報數(shù)據(jù)集輸入至所述預(yù)報模型,將所述預(yù)報模型的輸出結(jié)果作為預(yù)報時延為r的預(yù)報結(jié)果。

      上述方法還可以具有以下特點(diǎn):所述使用所述訓(xùn)練數(shù)據(jù)集對各個待定模型進(jìn)行訓(xùn)練直至待定模型收斂包括:使用所述訓(xùn)練數(shù)據(jù)集采用逐層訓(xùn)練法對棧式自編碼器的權(quán)重矩陣和偏置向量進(jìn)行訓(xùn)練;將棧式自編碼器的最后一層的輸出向量作為輸出層的輸入,并采用反向傳播算法對棧式自編碼器和輸出層的權(quán)重矩陣和偏置向量自后向前進(jìn)行調(diào)整直至待定模型收斂。

      上述方法還可以具有以下特點(diǎn):采用逐層訓(xùn)練法對棧式自編碼器的權(quán)重矩陣和偏置向量進(jìn)行訓(xùn)練時,采用最小化具有稀疏限制條件的重構(gòu)誤差來調(diào)整每層自編碼器的權(quán)重矩陣W1和W2及偏置向量b和c,所述具有稀疏限制條件的重構(gòu)誤差如下式:

      其中,yj=f(W1x+bj),x={x(1),...,x(i),...,x(N)},z(i)=g(W2y+ci),i=1,...,N,j=1,...,HD,λ是正則化項的權(quán)重,μ是稀疏項的權(quán)重,N是輸入的批訓(xùn)練樣本個數(shù),HD是當(dāng)前層自編碼器的節(jié)點(diǎn)個數(shù),||W1||2是W1的L2范數(shù),||W2||2是W2的L2范數(shù),ρ是稀疏參數(shù),x(i)為當(dāng)前層自編碼器的第i個輸入向量,yj為編碼后向量的第j個元素,z(i)為當(dāng)前層自編碼器第i個輸入向量對應(yīng)的的解碼向量。

      上述方法還可以具有以下特點(diǎn):采用逐層訓(xùn)練法對棧式自編碼器的權(quán)重矩陣和偏置向量進(jìn)行訓(xùn)練時,為每層自編碼器設(shè)置單獨(dú)的迭代次數(shù)和學(xué)習(xí)速率,并在訓(xùn)練過程中不斷減小學(xué)習(xí)速率;采用反向傳播算法對棧式自編碼器和輸出層的權(quán)重矩陣和偏置向量自后向前進(jìn)行調(diào)整時,在調(diào)整過程中不斷減小學(xué)習(xí)速率。

      上述方法還可以具有以下特點(diǎn):所述各待定模型的輸出結(jié)果與所述驗證數(shù)據(jù)集中用于驗證的數(shù)據(jù)的綜合誤差包括均方根誤差、平均絕對誤差及平均絕對百分誤差。

      上述方法還可以具有以下特點(diǎn):所述獲取來自m個監(jiān)測站點(diǎn)的空氣污染物的多組歷史濃度數(shù)據(jù)還包括:根據(jù)空氣污染物的濃度數(shù)據(jù)的物理含義,采用箱線圖剔除歷史濃度數(shù)據(jù)中的異常值;和/或使用線性插值方法對歷史濃度數(shù)據(jù)中的缺失值進(jìn)行填補(bǔ);和/或采用最大最小歸一化方法,對歷史濃度數(shù)據(jù)進(jìn)行歸一化處理。

      上述方法還可以具有以下特點(diǎn):所述棧式自編碼器中每層自碼器的編碼器如下式:解碼器如下式:

      上述方法還可以具有以下特點(diǎn):每個所述待定模型的輸出層的激活函數(shù)為

      上述方法還可以具有以下特點(diǎn):所述空氣污染物為細(xì)顆粒物、可吸入顆粒、二氧化硫、二氧化氮、一氧化碳及臭氧中的任一種。

      本發(fā)明提供的空氣污染物濃度預(yù)報方法基于STDL模型進(jìn)行空氣污染物濃度的預(yù)報,具體地,采用棧式自編碼(Stacked Auto-Encoder,簡稱SAE)模型來對多個監(jiān)測站點(diǎn)的空氣污染物濃度數(shù)據(jù)進(jìn)行建模,從而可以提取空氣污染物濃度數(shù)據(jù)中的深層次特征及數(shù)據(jù)中隱含的時空相關(guān)性,并同步得到多監(jiān)測站點(diǎn)的預(yù)報數(shù)據(jù),預(yù)報精度高;鑒于STDL模型為非線性模型,因而也可以改善在極端空氣污染物濃度預(yù)報上的精度。

      第二方面,本發(fā)明提供了一種空氣污染物濃度預(yù)報系統(tǒng),包括:待定模型確定單元,用于將輸入層的節(jié)點(diǎn)個數(shù)的多個待選值、棧式自編碼器的層數(shù)的多個待選值、棧式自編碼器的每層的節(jié)點(diǎn)個數(shù)的多個待選值進(jìn)行組合確定出多個待定模型,設(shè)置每個待定模型的輸出層的節(jié)點(diǎn)個數(shù)為m;其中,輸入層的節(jié)點(diǎn)個數(shù)是輸出層的節(jié)點(diǎn)個數(shù)m的n倍,n為時間步參數(shù);歷史濃度數(shù)據(jù)處理單元,用于根據(jù)時間步參數(shù)n的多個待選值和指定的預(yù)報時延r,獲取來自m個監(jiān)測站點(diǎn)的空氣污染物的多組歷史濃度數(shù)據(jù),從所述歷史濃度數(shù)據(jù)中提取出訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集;待定模型訓(xùn)練單元,用于使用所述訓(xùn)練數(shù)據(jù)集對各待定模型進(jìn)行訓(xùn)練直至待定模型收斂,記錄訓(xùn)練完成的各待定模型相應(yīng)的模型權(quán)重矩陣和模型偏置向量;預(yù)報模型確定單元,用于將所述驗證數(shù)據(jù)集中用于輸入的數(shù)據(jù)輸入至訓(xùn)練完成的各待定模型,計算各待定模型的輸出結(jié)果與所述驗證數(shù)據(jù)集中用于驗證的數(shù)據(jù)的綜合誤差,將最小的綜合誤差對應(yīng)的待定模型確定為預(yù)報模型,其中,所述預(yù)報模型的時間步參數(shù)的值為nr;空氣污染物濃度預(yù)報單元,用于將來自m個監(jiān)測站點(diǎn)、時間步參數(shù)為nr的空氣污染物濃度的觀測數(shù)據(jù)組成預(yù)報數(shù)據(jù)集,將所述預(yù)報數(shù)據(jù)集輸入至所述預(yù)報模型,將所述預(yù)報模型的輸出結(jié)果作為預(yù)報時延為r的預(yù)報結(jié)果。

      本發(fā)明提供的空氣污染物濃度預(yù)報系統(tǒng)基于STDL模型進(jìn)行空氣污染物濃度的預(yù)報,可以提取空氣污染物濃度數(shù)據(jù)中隱含的時空相關(guān)性,并同步得到多監(jiān)測站點(diǎn)的預(yù)報數(shù)據(jù),預(yù)報精度高;也可以改善在極端空氣污染物濃度預(yù)報上的精度。

      附圖說明

      構(gòu)成本發(fā)明的一部分的附圖用來提供對本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:

      圖1是一種空氣污染物濃度預(yù)報方法的流程圖;

      圖2為一種空氣污染物濃度預(yù)報系統(tǒng)的組成圖。

      具體實施方式

      為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互任意組合。

      圖1是空氣污染物濃度預(yù)報方法的流程圖。如圖1所示,本發(fā)明提供的空氣污染物濃度預(yù)報方法,包括:

      步驟S10:將輸入層的節(jié)點(diǎn)個數(shù)的多個待選值、棧式自編碼器的層數(shù)的多個待選值、棧式自編碼器的每層的節(jié)點(diǎn)個數(shù)的多個待選值進(jìn)行組合確定出多個待定模型,設(shè)置每個待定模型的輸出層的節(jié)點(diǎn)個數(shù)為m;其中,輸入層的節(jié)點(diǎn)個數(shù)是輸出層的節(jié)點(diǎn)個數(shù)m的n倍,n為時間步參數(shù),m和n均為正整數(shù);

      步驟S20:根據(jù)時間步參數(shù)n的多個待選值和指定的預(yù)報時延r,獲取來自m個監(jiān)測站點(diǎn)的空氣污染物的多組歷史濃度數(shù)據(jù),從所述歷史濃度數(shù)據(jù)中提取出訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集;

      步驟S30:使用所述訓(xùn)練數(shù)據(jù)集對各待定模型進(jìn)行訓(xùn)練直至待定模型收斂,記錄訓(xùn)練完成的各待定模型相應(yīng)的模型權(quán)重矩陣和模型偏置向量;

      步驟S40:將所述驗證數(shù)據(jù)集中用于輸入的數(shù)據(jù)輸入至訓(xùn)練完成的各待定模型,計算各待定模型的輸出結(jié)果與所述驗證數(shù)據(jù)集中用于驗證的數(shù)據(jù)的綜合誤差,將最小的綜合誤差對應(yīng)的待定模型確定為預(yù)報模型,其中,所述預(yù)報模型的時間步參數(shù)的值為nr

      步驟S50:將來自m個監(jiān)測站點(diǎn)、時間步參數(shù)為nr的空氣污染物濃度的觀測數(shù)據(jù)組成預(yù)報數(shù)據(jù)集,將所述預(yù)報數(shù)據(jù)集輸入至所述預(yù)報模型,將所述預(yù)報模型的輸出結(jié)果作為預(yù)報時延為r的預(yù)報結(jié)果。

      本發(fā)明采用時空深度學(xué)習(xí)(Spatio-Temporal Deep Learning,簡稱STDL)模型來構(gòu)建空氣污染物濃度預(yù)報模型,該STDL模型具有依次連接的輸入層、棧式自編碼器和輸出層;并采用網(wǎng)格搜索(Grid Search,簡稱GD)方法對該時空深度學(xué)習(xí)模型的結(jié)構(gòu)參數(shù)進(jìn)行優(yōu)化。具體地,將輸入層的節(jié)點(diǎn)個數(shù)的多個待選值、棧式自編碼器的層數(shù)的多個待選值、棧式自編碼器的每層的節(jié)點(diǎn)個數(shù)的多個待選值進(jìn)行組合,從而確定出多個待定模型,進(jìn)而從這多個待定模型中找出綜合誤差最小的待選模型為預(yù)報模型。

      需要說明的是,與通??梢钥s短所需要的優(yōu)化搜索時間的啟發(fā)式搜索或者隨機(jī)搜索方法相比,盡管啟發(fā)式搜索和隨機(jī)搜索的效率更高,但是優(yōu)化效果較差。網(wǎng)格搜索方法盡管所需的時間較長,但其對多組待選參數(shù)進(jìn)行排列組合的方法,近似于窮舉,因此可以更大概率地找到最優(yōu)解,也就是最優(yōu)的STDL模型的結(jié)構(gòu)參數(shù)組合。

      具體地,根據(jù)空氣污染物監(jiān)測站點(diǎn)的數(shù)目m,設(shè)置每個待定模型的輸出層的節(jié)點(diǎn)個數(shù)為m,則輸入層的節(jié)點(diǎn)個數(shù)是輸出層的節(jié)點(diǎn)個數(shù)m的n倍,其中,n為時間步參數(shù),m和n均為正整數(shù)。

      進(jìn)一步地,根據(jù)時間步參數(shù)n的多個待選值和指定的預(yù)報時延r,獲取來自m個監(jiān)測站點(diǎn)的空氣污染物的多組歷史濃度數(shù)據(jù)。每組歷史濃度數(shù)據(jù)具有不同的時間步參數(shù)n和相同的預(yù)報時延r。每一組歷史濃度數(shù)據(jù)中的來自單個站點(diǎn)的每個樣本中包含用于作為輸入的n個數(shù)據(jù)點(diǎn)和用于作為輸出的具有預(yù)報時延r的1個數(shù)據(jù)點(diǎn);每一組歷史濃度數(shù)據(jù)中來自m個監(jiān)測站點(diǎn)的單個樣本集具有相同的數(shù)據(jù)點(diǎn)數(shù)p,具體為:p=m×(n+1)。需要說明的是,每一組歷史濃度數(shù)據(jù)中包括多個具有p個數(shù)據(jù)點(diǎn)的樣本集,用于后續(xù)采用批處理的方式對每個待定模型進(jìn)行批處理訓(xùn)練。

      優(yōu)選地,空氣污染物濃度數(shù)據(jù)的物理含義為空氣污染物小時平均濃度,每一組歷史濃度數(shù)據(jù)中的來自單個站點(diǎn)的每個樣本中包含的用于作為輸入的n個數(shù)據(jù)點(diǎn)中,相鄰數(shù)據(jù)點(diǎn)之間的時間間隔為1小時;用于作為輸出的那一個數(shù)據(jù)點(diǎn)距離時序上最近的數(shù)據(jù)點(diǎn)的時間間隔為r小時。

      優(yōu)選地,空氣污染物濃度數(shù)據(jù)的物理含義為空氣污染物小時平均濃度,每一組歷史濃度數(shù)據(jù)中的來自單個站點(diǎn)的每個樣本中包含的用于作為輸入的n個數(shù)據(jù)點(diǎn)中,相鄰數(shù)據(jù)點(diǎn)之間的時間間隔為r小時;用于作為輸出的那一個數(shù)據(jù)點(diǎn)距離時序上最近的數(shù)據(jù)點(diǎn)的時間間隔為r小時。

      進(jìn)一步地,將所述歷史濃度數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集。其中,訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集均包括多個具有p個數(shù)據(jù)點(diǎn)的樣本集。

      在確定了對應(yīng)于該多個待定模型的訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集之后,使用所述訓(xùn)練數(shù)據(jù)集對各待定模型進(jìn)行訓(xùn)練直至待定模型收斂,并記錄訓(xùn)練完成的各待定模型相應(yīng)的模型權(quán)重矩陣和模型偏置向量。

      在確定了該多個待定模型的模型權(quán)重矩陣和模型偏置向量之后,將所述驗證數(shù)據(jù)集中用于輸入的數(shù)據(jù)輸入至訓(xùn)練完成的各待定模型,計算各待定模型的輸出結(jié)果與所述驗證數(shù)據(jù)集中用于驗證的數(shù)據(jù)的綜合誤差,將最小的綜合誤差對應(yīng)的待定模型確定為預(yù)報模型。

      具體地,所述各待定模型的輸出結(jié)果與所述驗證數(shù)據(jù)集中用于驗證的數(shù)據(jù)的綜合誤差可以包括均方根誤差(Root Mean Square Error,簡稱RMSE)、平均絕對誤差(Mean Absolute Error,簡稱MAE)和平均絕對百分誤差(Mean Absolute Percentage Error,簡稱MAPE)。其中,RMSE、MAE和MAPE分別具有本技術(shù)領(lǐng)域內(nèi)的通常含義,這里不再詳細(xì)列出其分別對應(yīng)的計算公式。

      需要說明的是,上述的綜合誤差可以是有量綱的RMSE和MAE的加權(quán)平均值,也可以是無量綱的MAPE的值。如果需要優(yōu)選出絕對誤差小的預(yù)報模型,則需要選擇有量綱的誤差指標(biāo);如果需要優(yōu)選出相對誤差小的預(yù)報模型,則需要選擇無量綱的指標(biāo)。在物理含義不沖突的情況下,三者可以相互任意組合。

      在確定了預(yù)報模型之后,將來自m個監(jiān)測站點(diǎn)、時間步參數(shù)為nr的空氣污染物濃度的觀測數(shù)據(jù)組成預(yù)報數(shù)據(jù)集,將所述預(yù)報數(shù)據(jù)集輸入至所述預(yù)報模型,將所述預(yù)報模型的輸出結(jié)果作為預(yù)報時延為r的預(yù)報結(jié)果,即同步得到m個監(jiān)測站點(diǎn)預(yù)報時延為r的空氣污染物濃度數(shù)據(jù)。

      本發(fā)明提供的空氣污染物濃度預(yù)報方法基于STDL模型進(jìn)行空氣污染物濃度的預(yù)報,具體地,采用棧式自編碼(Stacked Auto-Encoder,簡稱SAE)模型來對多個監(jiān)測站點(diǎn)的空氣污染物濃度數(shù)據(jù)進(jìn)行建模,從而可以提取空氣污染物濃度數(shù)據(jù)中的深層次特征及數(shù)據(jù)中隱含的時空相關(guān)性,并同步得到多監(jiān)測站點(diǎn)的預(yù)報數(shù)據(jù),預(yù)報精度高;鑒于STDL模型為非線性模型,因而也可以改善在極端空氣污染物濃度預(yù)報上的精度。

      具體地,所述使用所述訓(xùn)練數(shù)據(jù)集對各個待定模型進(jìn)行訓(xùn)練直至待定模型收斂包括:使用所述訓(xùn)練數(shù)據(jù)集采用逐層訓(xùn)練法對棧式自編碼器的權(quán)重矩陣和偏置向量進(jìn)行訓(xùn)練;將棧式自編碼器的最后一層的輸出向量作為輸出層的輸入向量,并采用反向傳播算法對棧式自編碼器和輸出層的權(quán)重矩陣和偏置向量自后向前進(jìn)行調(diào)整直至待定模型收斂。

      鑒于傳統(tǒng)的反向傳播算法在訓(xùn)練時空深度學(xué)習(xí)模型時容易陷入局部極值,采用Hinton提出的逐層訓(xùn)練法(Greedy Layer-wise Training)對棧式自編碼器的權(quán)重矩陣和偏置向量進(jìn)行預(yù)訓(xùn)練,通過自下而上逐層訓(xùn)練,可以得到收斂、且全局最優(yōu)的棧式自編碼器。

      進(jìn)一步地,將收斂的棧式自編碼器的最后一層的輸出向量作為輸出層的輸入,并采用反向傳播算法對棧式自編碼器和輸出層的權(quán)重矩陣和偏置向量自后向前進(jìn)行調(diào)整直至待定模型收斂。

      在每個待定模型訓(xùn)練時,先采用逐層訓(xùn)練法自下而上對棧式自編碼器進(jìn)行預(yù)訓(xùn)練直至收斂,再結(jié)合收斂的棧式自編碼器,通過反向傳播算法自后向前對整個深度學(xué)習(xí)深度網(wǎng)絡(luò)進(jìn)行微調(diào)直至待定模型收斂。這種預(yù)訓(xùn)練和微調(diào)相結(jié)合的訓(xùn)練策略訓(xùn)練精度高,訓(xùn)練速度快。

      具體地,采用逐層訓(xùn)練法對棧式自編碼器的權(quán)重矩陣和偏置向量進(jìn)行訓(xùn)練時,采用最小化具有稀疏限制條件的重構(gòu)誤差來調(diào)整每層自編碼器的權(quán)重矩陣W1和W2及偏置向量b和c,所述具有稀疏限制條件的重構(gòu)誤差如下式:

      其中,θ指代上述等式右邊式子中包含的所有未知參數(shù),即(W1,W2,b,c),也即J(θ)=J(W1,W2,b,c);為x與z的普通最小二乘誤差;(W1||2+||W2||2)為正則化項,||W1||2是W1的L2范數(shù),||W2||2是W2的L2范數(shù),λ是正則化項的權(quán)重;是稀疏項,μ是稀疏項的權(quán)重,j=1,...,HD,HD是當(dāng)前層自編碼器的節(jié)點(diǎn)個數(shù);是對比散度(Kullback–Leibler Divergence),用于增強(qiáng)編碼過程的稀疏限制,其定義如下式:其中,ρ是稀疏參數(shù),一般為0或者接近于0;是自編碼器的節(jié)點(diǎn)j對應(yīng)于輸入向量x的平均激勵,其定義如下式:其中,yj為編碼后向量的第j個元素,也即編碼后第j個節(jié)點(diǎn)的值,yj=f(W1x+bj);x為當(dāng)前層自編碼器的輸入向量,x={x(1),...,x(i),...x(N)},x(i)∈Rd,x(i)為當(dāng)前層自編碼器的第i個輸入向量;另外,z(i)為當(dāng)前層自編碼器第i個輸入向量對應(yīng)的解碼向量,z(i)=g(W2y+ci);i=1,...,N,N是輸入的批訓(xùn)練樣本個數(shù);y為當(dāng)前層自編碼器的編碼向量。

      本發(fā)明提供的空氣污染物濃度預(yù)報方法采用Ranzato提出的稀疏自編碼器來改進(jìn)常規(guī)自編碼器,即采用最小化具有稀疏限制條件的重構(gòu)誤差來調(diào)整每層自編碼器的權(quán)重矩陣W1和W2及偏置向量b和c,以避免“簡單復(fù)制數(shù)據(jù)”或者“最大化交互信息”,最大化地提取出數(shù)據(jù)中有代表性的特征。

      鑒于在深度神經(jīng)網(wǎng)絡(luò)建模時,訓(xùn)練過程(包括預(yù)訓(xùn)練和微調(diào)過程)中的學(xué)習(xí)速率過大會導(dǎo)致重構(gòu)誤差震蕩而不收斂,學(xué)習(xí)速率太小會是網(wǎng)絡(luò)收斂過慢,權(quán)值難以趨于穩(wěn)定,采用逐層訓(xùn)練法對棧式自編碼器的權(quán)重矩陣和偏置向量進(jìn)行訓(xùn)練時,訓(xùn)練過程中不斷減小學(xué)習(xí)速率;采用反向傳播算法對棧式自編碼器和輸出層的權(quán)重矩陣和偏置向量自后向前進(jìn)行調(diào)整時,在調(diào)整過程中不斷減小學(xué)習(xí)速率。

      在預(yù)訓(xùn)練過程中,每層自學(xué)習(xí)編碼器可以設(shè)置單獨(dú)的迭代次數(shù)和學(xué)習(xí)速率,當(dāng)重構(gòu)誤差滿足收斂條件時,即可停止該層的預(yù)訓(xùn)練,從而提高訓(xùn)練速度。

      在獲取來自m個監(jiān)測站點(diǎn)的空氣污染物的多組歷史濃度數(shù)據(jù)時,需要視數(shù)據(jù)質(zhì)量,選擇性地采用以下的預(yù)處理方法:

      根據(jù)空氣污染物的濃度數(shù)據(jù)的物理含義,采用箱線圖剔除歷史濃度數(shù)據(jù)中的異常值;使用線性插值方法對歷史濃度數(shù)據(jù)中的缺失值進(jìn)行填補(bǔ);采用最大最小歸一化方法,對歷史濃度數(shù)據(jù)進(jìn)行歸一化處理。

      歸一化處理可以加快模型訓(xùn)練速度。具體地,最大最小歸一化方法通過遍歷所有監(jiān)測站點(diǎn)空氣污染物濃度數(shù)據(jù),查找其中的最大值a和最小值b,并采用下式對原始空氣質(zhì)量X進(jìn)行歸一化處理:

      優(yōu)選地,本發(fā)明采用的時空深度學(xué)習(xí)模型中,所述棧式自編碼器中每層自碼器的編碼器如下式:解碼器如下式:每個所述待定模型的輸出層的激活函數(shù)為

      具體地,每個所述待定模型的輸出層為邏輯回歸層,其激活函數(shù)為邏輯回歸函數(shù)。邏輯回歸函數(shù)是實現(xiàn)簡單且能夠較好對數(shù)據(jù)中的非線性特征進(jìn)行建模。另外,所述待定模型的輸出層也可以采用SVR回歸模型,以實現(xiàn)更好的非線性建模,但實現(xiàn)復(fù)雜,消耗的計算資源多。

      可選地,本發(fā)明提供的空氣污染物濃度預(yù)報方法中,所述空氣污染物為細(xì)顆粒物、可吸入顆粒、二氧化硫、二氧化氮、一氧化碳及臭氧中的任一種。也即,本發(fā)明提供的空氣污染物濃度預(yù)報方法可以分別對細(xì)顆粒物(PM2.5)、可吸入顆粒(PM10)、二氧化硫(SO2)、二氧化氮(NO2)、一氧化碳(CO)、臭氧(O3)等6種污染物的濃度進(jìn)行預(yù)報。

      本發(fā)明采用Hinton提出的逐層訓(xùn)練法對棧式自編碼器的權(quán)重矩陣和偏置向量進(jìn)行預(yù)訓(xùn)練,在預(yù)訓(xùn)練結(jié)束之后,采用反向傳播算法自后向前來微調(diào)整個網(wǎng)絡(luò)的參數(shù)。模型訓(xùn)練的具體流程如下:

      (a)設(shè)定隱含層層數(shù)及每層節(jié)點(diǎn)數(shù)、預(yù)訓(xùn)練迭代次數(shù)、預(yù)訓(xùn)練學(xué)習(xí)速率、微調(diào)迭代次數(shù)、微調(diào)學(xué)習(xí)速率、批處理大小。

      (b)網(wǎng)絡(luò)預(yù)訓(xùn)練:初始化正則化項和稀疏項的權(quán)重,隨機(jī)初始化網(wǎng)絡(luò)各層的權(quán)重矩陣和偏置向量;使用訓(xùn)練集訓(xùn)練第一層;使用逐層預(yù)訓(xùn)練的方式來訓(xùn)練后續(xù)訓(xùn)練隱含層。在預(yù)訓(xùn)練過程中,每層可設(shè)置單獨(dú)的迭代次數(shù)和學(xué)習(xí)速率,當(dāng)重構(gòu)誤差滿足收斂條件時,即可停止該層的預(yù)訓(xùn)練。

      (c)網(wǎng)絡(luò)微調(diào):使用棧式自編碼器最后一個隱含層的輸出作為邏輯回歸層的輸入;隨機(jī)初始化邏輯回歸層的權(quán)重矩陣和偏置向量;使用反向傳播算法自后向前來微調(diào)整個網(wǎng)絡(luò)的參數(shù)。在網(wǎng)絡(luò)微調(diào)過程中,當(dāng)模型預(yù)報誤差收斂時,即可停止迭代。

      另外,在采用優(yōu)化后的預(yù)測模型進(jìn)行空氣污染濃度預(yù)測后,可以將預(yù)測結(jié)果與后續(xù)實際測量的空氣污染濃度數(shù)據(jù)進(jìn)行比較,并若預(yù)測精度不能滿足預(yù)定要求,則可以更換STDL模型中的各結(jié)構(gòu)參數(shù),按照前述最優(yōu)化預(yù)測模型的方法,另外尋找一個優(yōu)選的預(yù)測模型。

      圖2為空氣污染物濃度預(yù)報系統(tǒng)的組成圖,空氣污染物濃度預(yù)報系統(tǒng)是空氣污染物濃度預(yù)報方法對應(yīng)的虛擬裝置。如圖2所示,本發(fā)明提供的空氣污染物濃度預(yù)報系統(tǒng),包括:待定模型確定單元100,用于將輸入層的節(jié)點(diǎn)個數(shù)的多個待選值、棧式自編碼器的層數(shù)的多個待選值、棧式自編碼器的每層的節(jié)點(diǎn)個數(shù)的多個待選值進(jìn)行組合確定出多個待定模型,設(shè)置每個待定模型的輸出層的節(jié)點(diǎn)個數(shù)為m;其中,輸入層的節(jié)點(diǎn)個數(shù)是輸出層的節(jié)點(diǎn)個數(shù)m的n倍,n為時間步參數(shù);歷史濃度數(shù)據(jù)處理單元200,用于根據(jù)時間步參數(shù)n的多個待選值和指定的預(yù)報時延r,獲取來自m個監(jiān)測站點(diǎn)的空氣污染物的多組歷史濃度數(shù)據(jù),從所述歷史濃度數(shù)據(jù)中提取出訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集;待定模型訓(xùn)練單元300,用于使用所述訓(xùn)練數(shù)據(jù)集對各待定模型進(jìn)行訓(xùn)練直至待定模型收斂,記錄訓(xùn)練完成的各待定模型相應(yīng)的模型權(quán)重矩陣和模型偏置向量;預(yù)報模型確定單元400,用于將所述驗證數(shù)據(jù)集中用于輸入的數(shù)據(jù)輸入至訓(xùn)練完成的各待定模型,計算各待定模型的輸出結(jié)果與所述驗證數(shù)據(jù)集中用于驗證的數(shù)據(jù)的綜合誤差,將最小的綜合誤差對應(yīng)的待定模型確定為預(yù)報模型,其中,所述預(yù)報模型的時間步參數(shù)的值為nr;空氣污染物濃度預(yù)報單元500,用于將來自m個監(jiān)測站點(diǎn)、時間步參數(shù)為nr的空氣污染物濃度的觀測數(shù)據(jù)組成預(yù)報數(shù)據(jù)集,將所述預(yù)報數(shù)據(jù)集輸入至所述預(yù)報模型,將所述預(yù)報模型的輸出結(jié)果作為預(yù)報時延為r的預(yù)報結(jié)果。

      本發(fā)明提供的空氣污染物濃度預(yù)報系統(tǒng)基于STDL模型進(jìn)行空氣污染物濃度的預(yù)報,可以提取空氣污染物濃度數(shù)據(jù)中隱含的時空相關(guān)性,并同步得到多監(jiān)測站點(diǎn)的預(yù)報數(shù)據(jù),預(yù)報精度高;也可以改善在極端空氣污染物濃度預(yù)報上的精度。

      實施例:

      采用北京市市區(qū)12個空氣質(zhì)量監(jiān)測站2014年1月1日至2016年5月28日逐小時PM2.5平均濃度數(shù)據(jù),利用本發(fā)明提供的空氣污染物濃度預(yù)報方法進(jìn)行PM2.5小時平均濃度數(shù)據(jù)預(yù)報。也即,預(yù)報時延r為一小時;每個歷史濃度樣本中,相鄰時序的數(shù)據(jù)之間的時間間隔均為一小時。

      經(jīng)過預(yù)處理之后,歷史數(shù)據(jù)集中包含20196條PM2.5小時平均濃度記錄。通過隨機(jī)挑選60%的數(shù)據(jù)作為訓(xùn)練集,20%的數(shù)據(jù)作為驗證集,余下20%數(shù)據(jù)作為測試集。

      在待定模型訓(xùn)練和待定模型參數(shù)優(yōu)化過程中,各參數(shù)的待選集合如表1所示。

      表1空氣質(zhì)量預(yù)報待定模型參數(shù)

      經(jīng)過網(wǎng)格搜索優(yōu)化,時間步參數(shù)為8且棧式自編碼器的層數(shù)為3且每層自編碼器具有300個節(jié)點(diǎn)時,PM2.5小時平均濃度的預(yù)報效果最好。針對某一站點(diǎn),其PM2.5小時平均濃度預(yù)報值和真實值比較接近,具體的預(yù)報精度指標(biāo)分別為:MAE=8.44μg/m3,RMSE=14μg/m3,MAPE=18.6%。

      進(jìn)一步地,對本發(fā)明提供的空氣污染物濃度預(yù)報方法使用的STDL模型與時空人工神經(jīng)網(wǎng)絡(luò)(Spatio-Temporal Artificial Neural Network,簡稱STANN)模型、支持向量機(jī)模型(Support Vector Machine,簡稱SVR)和ARMA模型分別進(jìn)行對比試驗。這些模型使用相同的訓(xùn)練集和測試集,但是模型輸入略有不同。STANN模型使用相同的數(shù)據(jù),能夠?qū)Χ鄠€站點(diǎn)的空氣質(zhì)量進(jìn)行同步預(yù)報。但STANN模型不使用逐層預(yù)訓(xùn)練方法,而是使用普通神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方式,也即反向傳播算法。對于SVR模型和ARMA模型,它們是時間序列模型,因而需要針對每個站點(diǎn)分別進(jìn)行單獨(dú)的建模和預(yù)報。

      上述4種方法的預(yù)報精度如表2所示,從表2中可以看出,本發(fā)明提供的空氣污染物濃度預(yù)報方法使用的時空深度學(xué)習(xí)模型的預(yù)報精度是最高的,MAPE提高了5.12%以上。STANN模型的預(yù)報精度比其他兩種時間序列模型(ARMA模型和SVR模型)的預(yù)報精度高,說明了對空氣質(zhì)量數(shù)據(jù)建模時考慮空間相關(guān)性是十分有效的。

      表2空氣質(zhì)量預(yù)報模型精度對比

      上面描述的內(nèi)容可以單獨(dú)地或者以各種方式組合起來實施,而這些變型方式都在本發(fā)明的保護(hù)范圍之內(nèi)。

      本領(lǐng)域普通技術(shù)人員可以理解上述方法中的全部或部分步驟可通過程序來指令相關(guān)硬件完成,所述程序可以存儲于計算機(jī)可讀存儲介質(zhì)中,如只讀存儲器、磁盤或光盤等。可選地,上述實施例的全部或部分步驟也可以使用一個或多個集成電路來實現(xiàn),相應(yīng)地,上述實施例中的各模塊/單元可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。本發(fā)明不限制于任何特定形式的硬件和軟件的結(jié)合。

      需要說明的是,在本文中,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括……”限定的要素,并不排除在包括所述要素的物品或者設(shè)備中還存在另外的相同要素。

      以上實施例僅用以說明本發(fā)明的技術(shù)方案而非限制,僅僅參照較佳實施例對本發(fā)明進(jìn)行了詳細(xì)說明。本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,可以對本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明技術(shù)方案的精神和范圍,均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。

      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1