本發(fā)明涉及深度學習時間序列預測,具體為一種基于動態(tài)加權機制的深度學習預測方法。
背景技術:
1、近年來,人工智能技術突飛猛進,尤其是深度學習技術,在諸多行業(yè)中取得了突破性進展,其廣泛應用于時間序列預測領域,為各個重要行業(yè)如金融分析、氣象預報及能源管理等提供了前所未有的預測能力。這些進步主要得益于深度學習技術的能力,它可以通過綜合分析多個因素如何共同影響未來趨勢,來提供更精準細致的洞察。通過深入挖掘時間序列數據內的眾多影響因素,深度學習模型揭示了目標變量與這些因素之間的深層次關聯。
2、在當前深度學習模型應用于多因子時間序列預測的實踐中,仍存在對特征挖掘不充分問題。具體來說,這些模型未能充分評估不同特征及其類型對預測結果的具體影響。此外,在預測過程中,往往沒有對特征進行細致的分類處理,缺乏對不同特征組的置信度評估以及根據各特征組在不同時間點的預測誤差進行動態(tài)權重分配的機制。這種方法忽略了特征之間的相互作用和影響力差異,從而可能導致預測結果沒有充分反映各個特征的真實影響力。為解決這一問題,需要設計更為精細的特征分析和權重分配機制。通過對不同特征組進行分類,并根據它們的置信度和在預測中的表現動態(tài)調整權重,可以更精確地捕捉和反映各特征對最終預測結果的貢獻度。這種方法能夠確保預測模型更加細致和全面地考慮各種特征的影響,從而提高時間序列預測的準確性和可靠性。
3、經檢索,中國專利申請?zhí)枮閏n202410177554,申請公布日為2024年03月22日,公開了一種劑量學與深度學習特征預測放射性肺炎的方法及系統(tǒng)。該方法包括通過對放射治療前的定位ct圖像上的正常肺組織進行細致勾畫,劃分出lung-ptv和ptv-gtv兩個關鍵的感興趣區(qū)域(roi),然后采用深度學習網絡獨立對這兩種roi進行特征提取。為了精細化篩選這些特征,采用spearman相關分析和lasso方法,剔除冗余并保留最具代表性的特征。隨后,利用這些經過篩選的特征,通過五折交叉驗證的多層感知機(mlp)方法進行模型訓練,以確定最佳模型。在選定的最優(yōu)模型基礎上,進一步結合單因子分析篩選出的特征,采用mlp進行聯合模型的構建,用以預測放射性肺炎的風險。雖然該專利通過特征篩選和聯合在預測精度上取得了一定的提升,但是在分析過程中,對于不同特征及其類型對預測結果的影響評估不足,忽視了特征之間的交互作用和差異性。這種做法可能未能充分揭示各個特征對預測結果的真實貢獻,影響了預測的全面性和準確性。
4、經檢索,中國專利申請?zhí)枮閏n202111007838,申請公布日為2023年09月29日,公開了一種基于特征工程和多路深度學習的電力負荷預測方法。該方法包括通過基于關鍵特征將數據集拆分為多個子集,對每個子集使用徑向基函數網絡進行獨立訓練,形成多個專門的預測模型。選取部分模型,并將它們對同一測試數據的預測結果進行綜合,以獲得更為準確的電力負荷預測結果。這種做法利用了集成學習的原理,通過結合多個模型的預測,旨在提高最終預測的準確性和可靠性。盡管該專利通過劃分數據集并利用多個預測結果的平均值作為最終預測,但它在預測過程中未能充分考慮各特征對預測置信度的影響。此外,它也未對不同的特征組進行區(qū)分,以及根據它們的置信度和預測性能動態(tài)調整權重,這在處理多因素預測時表現出了一定的局限性。
5、以上兩種方法雖然在深度學習多因子預測任務中根據特征的差異性做出了相應的篩選聯合或者數據集切分,但是沒有對特征進行細致的分類處理,缺乏對不同特征組的置信度評估以及根據各特征組在不同時間點的預測誤差進行動態(tài)權重分配的機制,因此在預測性能上存在一定限制,而且當前深度學習模型在多因子時間序列預測任務中,存在未能充分評估不同特征及其類型對預測結果的具體影響,以及在預測過程中沒有對特征進行細致的分類處理,缺乏結合特征組置信度以及特征組預測誤差進行動態(tài)權重分配問題。
技術實現思路
1、本發(fā)明的目的在于提供一種基于動態(tài)加權機制的深度學習預測方法,以解決上述背景技術中提出的問題。
2、為了解決上述技術問題,本發(fā)明提供如下技術方案:
3、步驟s1:構建源樣本數據庫,所述源樣本數據庫由源樣本數據集組成,所述源樣本數據集中記錄有目標變量和目標變量的影響特征;基于影響特征,生成影響特征和特征類別之間的映射關系,其中,一個特征類別對應至少一個影響特征;
4、步驟s2:通過灰色關聯度分析模型,計算影響特征與目標變量之間的關聯度;
5、步驟s3:基于源樣本數據庫,生成目標變量樣本集,以影響特征為切分特征,以影響特征的不同特征觀測值為決策樹的不同節(jié)點,分別生成左側觀測值數據集和右側觀測值數據集;基于決策樹模型中的不純度衡量函數,計算影響特征作為切分特征時的不純度;
6、步驟s4:基于不純度,計算節(jié)點對應的特征觀測值的影響度;基于影響度和不純度,計算影響特征的重要度;
7、步驟s5:基于關聯度和重要度,計算影響特征的置信度;
8、步驟s6:基于映射關系數據庫和映射關系,生成特征組,并計算特征組置信度;
9、步驟s7:通過隨機采樣的方式,生成深度學習模型的輸入樣本數據庫,并構建出訓練集和測試集;基于映射關系數據庫和映射關系,生成訓練集特征組和測試集特征組;
10、步驟s8:基于訓練集特征組,計算出訓練集特征組對應的特征組置信度;基于測試集特征組,計算源樣本數據子集中影響特征在特征類別下的預測權重;
11、步驟s9:基于預測權重,計算源樣本數據集的預測結果,并輸出。
12、進一步的,所述步驟s1包括:
13、步驟s11:建立源樣本數據庫,記為rn×(n+1)={se|e∈[1,n]},其中,se表示第e個源樣本數據集,且se={f1,f2,f3,…,fn,ptarget},f1,f2,f3,…,fn分別表示第1,2,3,…,n個影響特征,ptarget表示目標變量,n表示時間序列長度,且一個時間序列下對應生成一個源樣本數據集,n表示影響特征的總數量;
14、步驟s12:建立映射關系數據庫,記為其中,fi:cj表示第i個影響特征fi與第j個特征類別cj之間存在映射關系,j表示特征類別的總數量,fi∈{f1,f2,f3,…,fn}∈se。
15、進一步的,所述步驟s2包括:
16、步驟s21:計算灰色關聯系數:
17、其中,ξi(k)表示灰色關聯系數,ptarget(k)表示目標變量ptarget的第k個目標觀測值,fi(k)表示影響特征fi的第k個特征觀測值,ρ表示分辨系數,且ρ∈(0,1),δik表示目標觀測值ptarget(k)與特征觀測值fi(k)之間差值的絕對值,且δik=|ptarget(k)-fi(k)|,δmin表示二級最小差,且δmin=miniminkδik,minimink表示在絕對值δik中取最小值,δmax表示二級最大差,且δmax=maximaxkδik,maximaxk表示在絕對值δik中取最大值;
18、步驟s22:計算關聯度corri:
19、進一步的,所述步驟s3包括:
20、步驟s31:基于源樣本數據庫rn×(n+1),如果fi∈se,則在源樣本數據集se中提取出目標變量ptarget;統(tǒng)籌影響特征fi對應提取的全部目標變量,并生成影響特征fi對應的目標變量樣本集,記為ns;
21、以影響特征fi為切分特征,以影響特征fi的第k個特征觀測值為決策樹的第k個節(jié)點,將目標變量樣本集ns分別隨機切分到影響特征fi的左右兩邊,則將左邊切分到的目標變量生成目標變量左側樣本集nleft,將右邊切分到的目標變量生成目標變量右側樣本集nright;
22、基于目標變量左側樣本集nleft,生成目標變量的左側觀測值數據集,記為xleft;基于目標變量右側樣本集nright,生成目標變量的右側觀測值數據集,記為xright;且目標變量左側樣本集或目標變量右側樣本集中任意一個目標變量,分別對應選取一個目標觀測值,并分別記入左側觀測值數據集中和右側觀測值數據集中;
23、步驟s32:基于決策樹模型中的不純度衡量函數h(·),分別得到左側不純度衡量函數h(xleft),且和右側不純度衡量函數h(xright),且其中,num(xleft)表示左側觀測值數據集xleft中包含的目標觀測值的數量,num(xright)表示右側觀測值數據集xright中包含的目標觀測值的數量,且ya∈xleft,yb∈xright,表示目標變量左側樣本集nleft中各個目標變量對應的實際值計算出的左側平均值,表示目標變量右側樣本集nright中各個目標變量對應的實際值計算出的右側平均值;
24、基于不純度衡量函數,計算影響特征fi作為切分特征時的不純度gi(k)=gleft+gright;其中,num(ns)表示目標變量樣本集ns中包含的目標變量的數量,num(nleft)表示目標變量左側樣本集nleft中包含的目標變量的數量,num(nright)表示目標變量右側樣本集nright中包含的目標變量的數量,且
25、進一步的,所述步驟s4包括:
26、步驟s41:基于不純度,計算節(jié)點對應的第k個特征觀測值的影響度ik=wk×gi(k)-wleft×gleft-wright×gright,其中,wk,wleft,wright分別表示權重系數;
27、步驟s42:計算影響特征的重要度:
28、
29、
30、其中,impi表示影響特征fi的重要度,impi表示影響特征fi的誤差度,m表示影響特征的最大編碼號。
31、進一步的,所述步驟s5包括:
32、計算影響特征fi的置信度:
33、
34、其中,confi表示影響特征fi的置信度,為指數衰減系數,wcor、wimp和wτ分別表示權重系數;
35、且,
36、
37、
38、進一步的,所述步驟s6包括:
39、步驟s61:基于映射關系數據庫和映射關系,生成特征組,記為
40、fg(cj)={fi|i∈[1,m]};
41、步驟s62:基于特征組fg(cj),計算特征組fg(cj)的置信度:
42、
43、其中,表示特征組fg(cj)的置信度,interact(cj)表示特征組fg(cj)內所有特征對之間相關系數的平均值,α取值為0或1,當α取值為1時,則表示考慮特征組fg(cj)內特征對之間相互作用的影響,當α為0時,則表示不考慮特征組fg(cj)內特征對之間相互作用的影響;
44、且,其中,ρ(fp,fq)表示影響特征fp和影響特征fq之間組成的特征對的皮爾遜相關系數,c(m,2)表示特征組fg(cj)中各個影響特征之間組成的特征對的個數。
45、進一步的,所述步驟s7包括:
46、步驟s71:對源樣本數據庫進行源樣本數據集的隨機采樣,隨機采樣的次數為每次隨機采樣時,在源樣本數據集se中隨機選取個影響特征,生成源樣本數據子集,記為soe,且soe∈se,則構成源樣本數據子庫,記為rt×(u+1)={soe|e∈[1,n]},且rt×(u+1)∈rn×(n+1),并將源樣本數據子庫rt×(u+1),作為深度學習模型的輸入樣本數據庫;將源樣本數據子集soe,按照6:4的比例,劃分為訓練集和測試集,將訓練集記為soetrain,將測試集記為soetest,且soetrain≠soetest,soetrain∪soetest=soe;
47、步驟s72:執(zhí)行步驟s61,基于映射關系數據庫和映射關系,生成訓練集特征組和測試集特征組,將訓練集soetrain對應生成的訓練集特征組,記為soetrain(cj),將測試集soetesi對應生成的測試集特征組,記為soetrain(cj)。
48、進一步的,所述步驟s8包括:
49、步驟s81:返回步驟s3,并基于訓練集特征組soetrain(cj),計算出訓練集特征組soetrain(cj)對應的特征組置信度,記為
50、步驟s82:在測試集特征組soetrain(cj)中任意選取第t個影響特征ft,獲取影響特征ft的第k個特征觀測值,記為獲取源樣本數據子集soe對應的源樣本數據集se中目標變量ptarget的第k個目標觀測值,記為
51、計算源樣本數據子集soe中影響特征ft在特征類別cj下的預測權重:
52、
53、對預測權重進行標準化,使得其中,表示預測權重,將標準化后的預測權重記為
54、進一步的,所述步驟s9包括:
55、基于預測權重,計算源樣本數據集se的預測結果:
56、
57、其中,表示源樣本數據集se的預測結果。
58、與現有技術相比,本發(fā)明所達到的有益效果是:本發(fā)明揭示了一種基于動態(tài)加權機制的深度學習預測方法,解決了深度學習模型在多因子時間序列預測任務中存在的特征影響評估不足問題以及在預測過程中沒有對特征進行細致的分類處理,缺乏結合特征組置信度以及特征組預測誤差進行動態(tài)權重分配問題;且針對深度學習在處理多因素時間序列預測時遇到的關鍵難題——特征影響評估不足和對特征組分類處理的缺失,提供了一項創(chuàng)新解決方案;具體的,通過聯合特征相關性以及特征重要性兩個層面來全面分析各個特征對預測結果的影響,并且計算特征組置信度作為特征級別評估,此外,本發(fā)明還引入了一種機制,用于評估不同特征組的置信度,以及在預測過程中結合每個特征組在不同時間點的預測誤差,動態(tài)地調整特征組預測權重;進而增強了模型對于特征差異性的理解和處理能力,并提高了預測的整體準確性和可信度。