基于傳播時間聚類分析的多模型集成洪水預(yù)報方法
【專利摘要】本發(fā)明公開了一種基于傳播時間聚類分析的多模型集成洪水預(yù)報方法,屬于水文預(yù)報【技術(shù)領(lǐng)域】。首先采用派生的動態(tài)時間彎曲匹配方法進(jìn)行洪水過程相似性分析,估計上下游各站點的流量傳播時間,并通過對流量傳播時間進(jìn)行聚類分析將樣本分解為若干簇,然后分別對子流量序列建立SVM回歸模型模擬洪水形成過程,最后再將這些子模型合并成一個綜合模型。將該方法的綜合預(yù)測結(jié)果與常規(guī)條件下的單一模型和基于流量聚類的模型預(yù)測結(jié)果相比較,結(jié)果顯示該模型綜合表現(xiàn)更佳。
【專利說明】基于傳播時間聚類分析的多模型集成洪水預(yù)報方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種洪水預(yù)報方法,尤其涉及一種基于傳播時間聚類分析的多模型集成洪水預(yù)報方法,屬于水文預(yù)報【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]在水文時間序列預(yù)測分析中,徑流預(yù)報是一類經(jīng)典的水文問題,對水資源調(diào)配管理和防洪減災(zāi)調(diào)度決策有著重要的意義。然而由于上游站點流量以及氣候與下墊面等因素的綜合影響,流量往往表現(xiàn)出復(fù)雜的非線性和非平穩(wěn)性特征。
[0003]目前已經(jīng)有很多進(jìn)行水文時間序列預(yù)測的方法,其中最為簡單的是線性模型預(yù)測方法,如AR、ARMA等。但應(yīng)用線性模型預(yù)測非線性時間序列很難取得良好的效果。非線性模型由于其本身非線性特性適用于非線性時間序列建模,如人工神經(jīng)網(wǎng)絡(luò)、二次回歸模型、混沌模型、支持向量機(jī)回歸模型等。由于單個水文預(yù)報模型往往強(qiáng)化了水文預(yù)報的某些方面而忽視了另一些方面,文獻(xiàn)[張馳,周惠成,李偉.基于數(shù)據(jù)分析技術(shù)的水文組合預(yù)報應(yīng)用研究,大連理工大學(xué)學(xué)報,2007,47 (2):246-251]、文獻(xiàn)[Kunhui Lin, Qiang Lin, ChangleZhou, et al.Time Series Prediction Based on LinearRegression and SVR.ThirdInternational Conference on Natural Computation, ICNC2OO7:688_691]米用多模型結(jié)合預(yù)報的方法,從多角度模擬流域狀況,得到更符合實際情況、更加理想的預(yù)測效果。在實際應(yīng)用中,不同的洪水預(yù)報模型有不同的適用范圍,甚至在同一流域,不同時間情況下,最適合采用的模型也應(yīng)是不同的。目前,已有一些研究采用不同的方法對流量或水位過程進(jìn)行分解聚類,提高神經(jīng)網(wǎng)絡(luò)預(yù)報精度。尹雄銳等(尹雄銳,張翔,夏軍.基于聚類分析的人工神經(jīng)網(wǎng)絡(luò)洪水預(yù)報模型研究,四川大學(xué)學(xué)報(工程科學(xué)版),2007,39 (3):34-40)應(yīng)用模糊C均值和自組織映射網(wǎng)絡(luò)對洪水流量聚類成不同的類別,然后采用相同的輸入分別建模、預(yù)測。胡鐵松等(胡鐵松,丁晶.徑流長期分級預(yù)報的Kohonen網(wǎng)絡(luò)方法.水電站設(shè)計,1997
(6):13 (2))提出了徑流長期分級預(yù)報的一種新的模式識別方法,通過Kohonen自組織神經(jīng)網(wǎng)絡(luò)對歷史樣本的學(xué)習(xí),識別出了蘊含在樣本中徑流級別與其因子之間的規(guī)律性,并證明了該方法的有效性。王玲和黃國如(王玲,黃國如.基于徑流分類的日徑流量預(yù)測神經(jīng)網(wǎng)絡(luò)模型[J].灌溉排水,2002,21 (4):45-48)通過對將時間分為枯水期、2個濕潤期和一個豐水期,進(jìn)而達(dá)到對流量分類的目的,建立的綜合神經(jīng)網(wǎng)絡(luò)模型較單一的神經(jīng)網(wǎng)絡(luò)模型有更好的精度。
[0004]不同的流量,水流速度不一樣,導(dǎo)致洪水傳播時間有所變化,且不同的時間段雨量大小變化較大,最后導(dǎo)致降雨徑流預(yù)報輸入輸出關(guān)系的側(cè)重點有所不同,如果只用單一的模型,很難將各部分的數(shù)據(jù)同時擬合得很好。
【發(fā)明內(nèi)容】
[0005]本發(fā)明所要解決的技術(shù)問題在于克服現(xiàn)有技術(shù)不足,提供一種基于傳播時間聚類分析的多模型集成洪水預(yù)報方法,能有效的提高整體預(yù)測能力,特別是對洪水期流量較大的情況下的預(yù)測精度有顯著的提高。
[0006]本發(fā)明的基于傳播時間聚類分析的多模型集成洪水預(yù)報方法,首先根據(jù)歷史流量/水位數(shù)據(jù)建立包含多個子模型的洪水預(yù)報綜合模型,然后利用所建立的洪水預(yù)報綜合模型進(jìn)行洪水預(yù)報;具體包括以下步驟:
[0007]步驟1、對于目標(biāo)站點的歷史流量/水位數(shù)據(jù)中的每個流量/水位數(shù)據(jù),利用各上游站點與目標(biāo)站點之間的流量傳播時間構(gòu)造對應(yīng)于該流量/水位數(shù)據(jù)的傳播時間向量,目標(biāo)站點的歷史流量/水位數(shù)據(jù)中的所有流量/水位數(shù)據(jù)所對應(yīng)的傳播時間向量構(gòu)成傳播時間向量集合;
[0008]步驟2、對所述傳播時間向量集合進(jìn)行聚類,得到k個簇,并對聚類得到的每個簇分別進(jìn)行以下處理:
[0009]對于每一個上游站點,統(tǒng)計該簇中所包含的該上游站點與目標(biāo)站點之間的流量傳播時間的分布情況,并將出現(xiàn)頻次最低的部分流量傳播時間剔除,剩余的流量傳播時間作為該簇中該上游站點的可用流量傳播時間,最終得到該簇中各上游站點的可用流量傳播時間;
[0010]步驟3、構(gòu)建k個訓(xùn)練樣本集,k個訓(xùn)練樣本集與步驟2得到的k個簇一一對應(yīng),k為聚類得到的類別數(shù);其中任意一個訓(xùn)練樣本集中的訓(xùn)練樣本按照以下方法得到:
[0011]選取一組目標(biāo)站點的歷史流量/水位數(shù)據(jù)分別作為該訓(xùn)練樣本集中各訓(xùn)練樣本的輸出;
[0012]對每一個訓(xùn)練樣本的輸出,根據(jù)其所屬訓(xùn)練樣本集所對應(yīng)的簇中各上游站點的可用流量傳播時間,從各上游站點的歷史流量/水位數(shù)據(jù)中確定相應(yīng)的流量/水位數(shù)據(jù),并結(jié)合相應(yīng)的雨量輸入信息及目標(biāo)站點的其它輸入歷史流量/水位數(shù)據(jù),構(gòu)成該訓(xùn)練樣本的輸入;步驟4、利用所構(gòu)建的k個訓(xùn)練樣本集各自對預(yù)測模型進(jìn)行訓(xùn)練,得到k個預(yù)測子模型,這k個預(yù)測子模型共同構(gòu)成洪水預(yù)報綜合模型;
[0013]步驟5、根據(jù)測試樣本按照以下方法從洪水預(yù)報綜合模型中選擇相應(yīng)的預(yù)測子模型:對測試樣本中目標(biāo)站點的流量/水位數(shù)據(jù),利用各上游站點與目標(biāo)站點之間的流量傳播時間構(gòu)造對應(yīng)于該流量/水位數(shù)據(jù)的傳播時間向量,并從步驟2中聚類得到的各個簇中選出簇中心與該傳播時間向量的距離最小的簇,距離最小的簇所對應(yīng)的預(yù)測子模型即為所選擇的預(yù)測子模型;
[0014]步驟6、以所述測試樣本作為輸入,利用所選擇的預(yù)測子模型進(jìn)行目標(biāo)站點的洪水預(yù)報。
[0015]優(yōu)選地,所述各上游站點與目標(biāo)站點之間的流量傳播時間利用派生動態(tài)時間彎曲算法獲取。進(jìn)一步地,在利用用派生動態(tài)時間彎曲算法獲取各上游站點與目標(biāo)站點之間的流量傳播時間時,針對上游站點流量/水位的特征點,若該特征點是極小點,則將該特征點所匹配的目標(biāo)站點若干流量/水位數(shù)據(jù)點中出現(xiàn)極小值的那一個作為上游站點流量/水位的特征點的唯一匹配;若是極大點,則將該特征點所匹配的目標(biāo)站點若干流量/水位數(shù)據(jù)點中出現(xiàn)極大值的那一個作為上游站點流量/水位的特征點的唯一匹配;對于非極值點出現(xiàn)多個匹配情況,則采用與該點之前最近的極值點傳播時間最相近的傳播時間。
[0016]優(yōu)選地,所述聚類使用基于DBI指標(biāo)的K-means聚類方法。
[0017]優(yōu)選地,步驟2中所述將出現(xiàn)頻次最低的部分流量傳播時間剔除,具體是指將每個上游站點所對應(yīng)的流量傳播時間中出現(xiàn)頻次最低的總出現(xiàn)頻次10%的流量傳播時間剔除。
[0018]本發(fā)明采用基于傳播時間來劃分模型,通過聚類將整個序列分解為若干個小組,對于不同傳播時間分布的流量建立不同的子模型,并根據(jù)樣本傳播時間分布選擇相應(yīng)的子模型進(jìn)行洪水預(yù)報。相比現(xiàn)有技術(shù),本發(fā)明方法簡單有效,不僅可以準(zhǔn)確估算出各模型的洪峰傳播時間,還有利于幫助準(zhǔn)確確定各模型輸入,最終的預(yù)測精度比較理想。
【專利附圖】
【附圖說明】
[0019]圖1為本發(fā)明方法的流程示意圖,其中左側(cè)為訓(xùn)練過程流程,右側(cè)為測試過程流程;
[0020]圖2為淮河潢川站與王家壩站2006年一段洪水過程的DDTW匹配結(jié)果;
[0021]圖3為DBI指標(biāo)隨聚類類別數(shù)目變化的波動情況;
[0022]圖4 Ca)?圖4 (c)依次為息縣、潢川、班臺三個站點的傳播時間直方圖。
【具體實施方式】
[0023]下面結(jié)合附圖對本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)說明:
[0024]本發(fā)明針對現(xiàn)有的單一時間序列預(yù)測模型的不足,以及洪水預(yù)報時經(jīng)常出現(xiàn)的高流量峰值預(yù)測不準(zhǔn)以及預(yù)測“延時”的現(xiàn)象,提出一種基于傳播時間聚類分析的多模型集成洪水預(yù)報方法,和常規(guī)的流量分類預(yù)測思想不同,本發(fā)明采用基于傳播時間來劃分模型,通過聚類將整個序列分解為若干個小組,對于不同傳播時間分布的流量建立不同的子模型。
[0025]本發(fā)明基于傳播時間聚類分析的多模型集成洪水預(yù)報方法與現(xiàn)有技術(shù)相同,都包括訓(xùn)練階段和測試階段,其流程如圖1所示,具體包括以下步驟:
[0026]步驟1、對于目標(biāo)站點的歷史流量/水位數(shù)據(jù)中的每個流量/水位數(shù)據(jù),利用各上游站點與目標(biāo)站點之間的流量傳播時間構(gòu)造對應(yīng)于該流量/水位數(shù)據(jù)的傳播時間向量,目標(biāo)站點的歷史流量/水位數(shù)據(jù)中的所有流量/水位數(shù)據(jù)所對應(yīng)的傳播時間向量構(gòu)成傳播時間向量集合。
[0027]洪水預(yù)報,不僅需要準(zhǔn)確預(yù)報洪峰的值,更要能準(zhǔn)確掌握洪水到達(dá)的時間。所謂流量傳播時間是指上游站點的某時刻流量傳到下游站點所需的時間。流量傳播時間的確定是進(jìn)行流量預(yù)報、洪水演進(jìn)過程分析、水量調(diào)度等的基礎(chǔ),也是流量預(yù)報的一項重要內(nèi)容。以往的研究大多是根據(jù)經(jīng)驗由水文業(yè)務(wù)人員提供的平均傳播時間直接確定輸入信息來預(yù)測洪峰流量的值,但是實際上隨著自然和社會條件的變化,洪水傳播時間也會逐漸發(fā)生變化,特別是不同量級洪水的傳播時間差異更大。
[0028]近年來,有一些學(xué)者對流量傳播時間的算法進(jìn)行研究,已有的算法包括:相關(guān)水位法、灰色關(guān)聯(lián)分析法、分段積分法、相關(guān)分析法等。而在實際洪水傳播過程中,影響因素較多,如流速、河床粗糙率等。用水文學(xué)上的傳統(tǒng)理論方法去計算洪水傳播時間非常復(fù)雜,而且效果也不好。對洪水傳播時間的研究其實可以歸納為時間序列研究中的相似性搜索問題。時間序列相似性搜索常用的一個經(jīng)典算法是動態(tài)時間彎曲匹配(Dynamic TimeWarping, DTW),它是基于動態(tài)規(guī)劃的一種模式匹配方法,解決了歐式距離在進(jìn)行相似性度量時時間序列長度必須一致的問題,同時具備時間軸和幅度上的伸縮能力。[0029]如果兩個序列只在時間軸上局部不一致,DTW可以取得理想的匹配效果。當(dāng)兩個序列同時在Y軸上不一致時,如果是序列全局的不一致,比如不同的均值,不同的幅度等,可以通過偏移量轉(zhuǎn)化,幅度標(biāo)準(zhǔn)化等一些預(yù)處理解決。但當(dāng)兩個序列在Y軸上出現(xiàn)局部的不一致時,DTW的匹配就出現(xiàn)了問題。為了使序列的特征點(如峰、谷等)很好的匹配,文獻(xiàn)(李士進(jìn),張曉花,萬定生等.基于DTW的測站水位影響關(guān)系估計,江南大學(xué)學(xué)報(自然科學(xué)版),2007,6 (6):678-682)引入派生動態(tài)時間彎曲(Derivative Dynamic Time Warping, DDTff)0本發(fā)明優(yōu)選采用派生動態(tài)時間彎曲算法(DDTW)來確定各上游站點與目標(biāo)站點之間的流量傳播時間。在介紹DDTW之前,我們先給出DTW的匹配原理。
[0030]設(shè)有兩個時間序列Q和C,長度分別為η和m。
[0031]Q=(q1;..., qi;..., qn)
[0032]C= (C1,..., Cj,..., cm) (I)
[0033]為利用DTW將兩個時間序列對準(zhǔn),首先構(gòu)造一個η行m列矩陣M,矩陣中的元素(i, j)為兩時間序列數(shù)據(jù)中對準(zhǔn)點Qi和h之間的距離d(qi,Cp,計算公式如下:
[0034](Kqi, C」)Kq1-Cj)2 (2)
[0035]彎曲路徑W是矩陣中鄰近元素的集合。
[0036]W= ω ” ω2,...,ωk,...ωK max (m, n)≤K ≤ m+n-1 (3)
[0037]它是序列Q與C之間的一個映射。DTW距離取彎曲路徑總長度的最小值,即
[0038]
【權(quán)利要求】
1.基于傳播時間聚類分析的多模型集成洪水預(yù)報方法,首先根據(jù)歷史流量/水位數(shù)據(jù)建立包含多個子模型的洪水預(yù)報綜合模型,然后利用所建立的洪水預(yù)報綜合模型進(jìn)行洪水預(yù)報;其特征在于,具體包括以下步驟: 步驟1、對于目標(biāo)站點的歷史流量/水位數(shù)據(jù)中的每個流量/水位數(shù)據(jù),利用各上游站點與目標(biāo)站點之間的流量傳播時間構(gòu)造對應(yīng)于該流量/水位數(shù)據(jù)的傳播時間向量,目標(biāo)站點的歷史流量/水位數(shù)據(jù)中的所有流量/水位數(shù)據(jù)所對應(yīng)的傳播時間向量構(gòu)成傳播時間向量集合; 步驟2、對所述傳播時間向量集合進(jìn)行聚類,得到A個簇,并對聚類得到的每個簇分別進(jìn)行以下處理: 對于每一個上游站點,統(tǒng)計該簇中所包含的該上游站點與目標(biāo)站點之間的流量傳播時間的分布情況,并將出現(xiàn)頻次最低的部分流量傳播時間剔除,剩余的流量傳播時間作為該簇中該上游站點的可用流量傳播時間,最終得到該簇中各上游站點的可用流量傳播時間; 步驟3、構(gòu)建A個訓(xùn)練樣本集j個訓(xùn)練樣本集與步驟2得到的A個簇一一對應(yīng)j為聚類得到的類別數(shù);其中任意一個訓(xùn)練樣本集中的訓(xùn)練樣本按照以下方法得到: 選取一組目標(biāo)站點的歷史流量/水位數(shù)據(jù)分別作為該訓(xùn)練樣本集中各訓(xùn)練樣本的輸出;對每一個訓(xùn)練樣本的輸出,根據(jù)其所屬訓(xùn)練樣本集所對應(yīng)的簇中各上游站點的可用流量傳播時間,從各上游站點的歷史流量/水位數(shù)據(jù)中確定相應(yīng)的流量/水位數(shù)據(jù),并結(jié)合相應(yīng)的雨量輸入信息及目標(biāo)站點的預(yù)見期前的歷史流量/水位數(shù)據(jù),構(gòu)成該訓(xùn)練樣本的輸A ; 步驟4、利用所構(gòu)建的A個訓(xùn)練樣本集各自對預(yù)測模型進(jìn)行訓(xùn)練,得到A個預(yù)測子模型,這左個預(yù)測子模型共同構(gòu)成洪水預(yù)報綜合模型; 步驟5、根據(jù)測試樣本按照以`下方法從洪水預(yù)報綜合模型中選擇相應(yīng)的預(yù)測子模型:對測試樣本中目標(biāo)站點的流量/水位數(shù)據(jù),利用各上游站點與目標(biāo)站點之間的流量傳播時間構(gòu)造對應(yīng)于該流量/水位數(shù)據(jù)的傳播時間向量,并從步驟2中聚類得到的各個簇中選出簇中心與該傳播時間向量的距離最小的簇,距離最小的簇所對應(yīng)的預(yù)測子模型即為所選擇的預(yù)測子模型; 步驟6、以所述測試樣本作為輸入,利用所選擇的預(yù)測子模型進(jìn)行目標(biāo)站點的洪水預(yù)報。
2.如權(quán)利要求1所述基于傳播時間聚類分析的多模型集成洪水預(yù)報方法,其特征在于,所述各上游站點與目標(biāo)站點之間的流量傳播時間利用派生動態(tài)時間彎曲算法獲取。
3.如權(quán)利要求2所述基于傳播時間聚類分析的多模型集成洪水預(yù)報方法,其特征在于,在利用用派生動態(tài)時間彎曲算法獲取各上游站點與目標(biāo)站點之間的流量傳播時間時,針對上游站點流量/水位的特征點,若該特征點是極小點,則將該特征點所匹配的目標(biāo)站點若干流量/水位數(shù)據(jù)點中出現(xiàn)極小值的那一個作為上游站點流量/水位的特征點的唯一匹配;若是極大點,則將該特征點所匹配的目標(biāo)站點若干流量/水位數(shù)據(jù)點中出現(xiàn)極大值的那一個作為上游站點流量/水位的特征點的唯一匹配;對于非極值點出現(xiàn)多個匹配情況,則采用與該點之前最近的極值點傳播時間最相近的傳播時間。
4.如權(quán)利要求1所述基于傳播時間聚類分析的多模型集成洪水預(yù)報方法,其特征在于,所述聚類使用基于DBI指標(biāo)的K-means聚類方法。
5.如權(quán)利要求1所述基于傳播時間聚類分析的多模型集成洪水預(yù)報方法,其特征在于,所述預(yù)測模型為支持向量機(jī)回歸模型。
6.如權(quán)利要求1所述基于傳播時間聚類分析的多模型集成洪水預(yù)報方法,其特征在于,步驟2中所述將出現(xiàn)頻次最低的部分流量傳播時間剔除,具體是指將每個上游站點所對應(yīng)的流量傳播時間中出現(xiàn)頻次最低的總出現(xiàn)頻次10%的流量傳播時間剔除。
7.如權(quán)利要求1所述基于傳播時間聚類分析的多模型集成洪水預(yù)報方法,其特征在于,所述簇中心與傳播時間向量的距離為歐氏距離。
8.如權(quán)利要求1所述基于傳播時間聚類分析的多模型集成洪水預(yù)報方法,其特征在于,所述訓(xùn)練樣本中的雨量輸入信息利用相關(guān)系數(shù)分析方法確定。
【文檔編號】G06F19/00GK103729550SQ201310699773
【公開日】2014年4月16日 申請日期:2013年12月18日 優(yōu)先權(quán)日:2013年12月18日
【發(fā)明者】李士進(jìn), 朱躍龍, 姜玲玲, 王亞明, 王繼民, 萬定生, 馮鈞 申請人:河海大學(xué)