本發(fā)明屬于計算機(jī)應(yīng)用,具體涉及一種基于lstm-gat的項目作業(yè)資源預(yù)測方法。
背景技術(shù):
1、作業(yè)資源管理軟件在對集群內(nèi)節(jié)點的資源收集與處理以及在對作業(yè)調(diào)度和資源管理定制策略時,如果只是考慮到作業(yè)提交當(dāng)時的資源情況,那么對整個系統(tǒng)的了解只是停留在整個系統(tǒng)歷史和當(dāng)前的資源使用情況,而對整個系統(tǒng)未來一段時間的資源利用情況以及對發(fā)生的狀況沒有一定的分析和估計,從而無法預(yù)知系統(tǒng)可能會出現(xiàn)的意外情況。對項目所需資源的需求預(yù)測是進(jìn)行快速資源配置進(jìn)而實現(xiàn)資源管理及智能調(diào)度的有效解決方法。近年來,資源預(yù)測算法和系統(tǒng)對于在集群中進(jìn)行恰當(dāng)?shù)馁Y源分配變得不可或缺。
2、已有的預(yù)測算法,例如多層感知器模型(mlp),作為神經(jīng)網(wǎng)絡(luò)的最簡單形式,也有使用深度信念網(wǎng)絡(luò)(dbn),以及圖卷積網(wǎng)絡(luò)(gcn)和長短期記憶網(wǎng)絡(luò)(lstm)的混合深度學(xué)習(xí)框架,最近的一些研究也關(guān)注較長期的預(yù)測,例如,深度學(xué)習(xí)堆疊自編碼器方法,或采用lstm神經(jīng)網(wǎng)絡(luò)捕捉長期時間依賴性。mlp模型缺點在于其太過簡單,一旦數(shù)據(jù)集不是線性可分,其應(yīng)用就要受到極大限制。dbn模型因為其是一個概率模型,預(yù)測準(zhǔn)確率不高。圖卷積網(wǎng)絡(luò)(gcn)和長短期記憶網(wǎng)絡(luò)(lstm)的混合深度學(xué)習(xí)框架訓(xùn)練速度很慢,并且需要大量的計算資源,有時候會出現(xiàn)過擬合現(xiàn)象。深度學(xué)習(xí)堆疊自編碼器方法往往需要大量數(shù)據(jù),訓(xùn)練時間也長,需要調(diào)整大量超參數(shù)。lstm神經(jīng)網(wǎng)絡(luò)并行處理上存在劣勢,計算費時。
3、圖注意力網(wǎng)絡(luò)(gat)的出現(xiàn)修改了gcn中的卷積操作,通過關(guān)注節(jié)點的鄰居來計算圖中每個節(jié)點的隱藏表示,從而對圖數(shù)據(jù)結(jié)構(gòu)執(zhí)行節(jié)點分類,因此gat執(zhí)行g(shù)cn的功能,同時使自己適應(yīng)網(wǎng)絡(luò)中的最重要的特定特性。gat還承諾了高效的、可并行的操作,應(yīng)用于不同程度的圖節(jié)點,并適用于歸納學(xué)習(xí)問題。
技術(shù)實現(xiàn)思路
1、為解決公知技術(shù)中存在的以上不足,本發(fā)明旨在提供一種基于lstm-gat的項目作業(yè)資源預(yù)測方法,以達(dá)到提高資源的使用效率,減少項目排隊等待時間,對項目所需資源進(jìn)行有效預(yù)測的目的。
2、為實現(xiàn)上述目的,本發(fā)明所采用的技術(shù)方案如下:
3、一種基于lstm-gat的項目作業(yè)資源預(yù)測方法,該方法包括依次進(jìn)行的以下步驟:
4、p1、計算項目作業(yè)資源需求間的標(biāo)準(zhǔn)化互信息,利用標(biāo)準(zhǔn)化互信息度量項目作業(yè)的相關(guān)性,通過閾值法構(gòu)造項目作業(yè)資源利用網(wǎng)絡(luò);
5、p2、利用門控循環(huán)單元網(wǎng)絡(luò)學(xué)習(xí)每個項目作業(yè)在項目作業(yè)資源利用時間窗內(nèi)的狀態(tài),確定項目作業(yè)的類型;
6、p3、將相同類型的項目作業(yè)視作一個單獨的類別,每個類別建立一個全連接網(wǎng)絡(luò);
7、p4、使用圖注意力網(wǎng)絡(luò)學(xué)習(xí)相同類型項目作業(yè)之間的相互關(guān)系,將資源利用時間窗內(nèi)的狀態(tài)作為初始狀態(tài)輸入到圖注意力網(wǎng)絡(luò)中,同時將項目資源利用間的邊關(guān)系輸入到圖注意力網(wǎng)絡(luò)中;
8、p5、圖注意力網(wǎng)絡(luò)學(xué)習(xí)類別內(nèi)項目作業(yè)資源利用之間的注意力權(quán)重后,再利用注意力權(quán)重來聚合同一個類別內(nèi)的信息,并通過激活函數(shù)relu進(jìn)行修正,得到每個項目作業(yè)通過圖注意力網(wǎng)絡(luò)加權(quán)修正后的類別內(nèi)狀態(tài);
9、p6、將每個類別單獨作為一個節(jié)點,構(gòu)造類別全連接網(wǎng)絡(luò),使用基于前饋神經(jīng)網(wǎng)絡(luò)的注意力機(jī)制來學(xué)習(xí)每個類別內(nèi)項目作業(yè)的注意力權(quán)重,并通過每個類別內(nèi)的所有項目作業(yè)的已加權(quán)的類別內(nèi)狀態(tài)聚合出每個類別的類別間狀態(tài);
10、p7、將所有類別的類別間狀態(tài)輸入到圖注意力網(wǎng)絡(luò)中,通過類別間相互加權(quán)聚合得到加權(quán)修正后的類別間狀態(tài);
11、p8、將項目資源利用的加權(quán)修正后的類別內(nèi)狀態(tài)和加權(quán)修正后的類別間狀態(tài)進(jìn)行拼接,再經(jīng)過線性變換以及激活函數(shù)的修正,將經(jīng)過線性變換以及激活函數(shù)修正后的狀態(tài)信息作為最終的項目資源利用狀態(tài)信息,項目在時間窗內(nèi)產(chǎn)生的最終特征為:
12、
13、其中,為項目s所屬類別,wf為可學(xué)習(xí)的參數(shù)矩陣,為項目s在圖注意力網(wǎng)絡(luò)中的權(quán)重,為項目s在前饋神經(jīng)網(wǎng)絡(luò)中的權(quán)重,τi(πc)為類別πc在資源利用時間窗內(nèi)到加權(quán)修正后的類別間狀態(tài),當(dāng)項目屬于多個類別時,τi(πc)取項目s所屬多個類別的類別間狀態(tài)的平均值。
14、作為限定,所述步驟p1中采用數(shù)值分析法計算作業(yè)資源需求間的標(biāo)準(zhǔn)化互信息,且計算方法按如下步驟依次進(jìn)行:
15、a1)項目i的參數(shù)特征si[s1,s2,…sn]對應(yīng)的項目參數(shù)區(qū)間為[minsi,maxsi],將項目參數(shù)特征區(qū)間等分為k個子區(qū)間,計算項目i的參數(shù)特征si落在第k個子區(qū)間的頻數(shù)fi,k,用頻率近似概率pi,k:
16、
17、其中,d是樣本容量,則si的熵為:
18、
19、a2)設(shè)項目j的參數(shù)特征sj[s1,s2,…sn]對應(yīng)的項目參數(shù)區(qū)間為[minsj,maxsj],對于聯(lián)合熵,將[minsi,maxsi]*[minsj,maxsj]劃分為k*k個子區(qū)間,計算項目i和項目j的聯(lián)合收益率(si,sj)落在子區(qū)間(k,l)的頻數(shù)fi,j,k,l,用頻率近似概率pi,j,k,l:
20、
21、聯(lián)合收益率(si,sj)的聯(lián)合熵為:
22、
23、將h(si)和h(si,sj)代入標(biāo)準(zhǔn)化互信息的計算公式,得到標(biāo)準(zhǔn)化互信息的近似值,以此來表示項目之間的相關(guān)性。
24、作為第二種限定,所述步驟p1中的閾值法是通過調(diào)整閾值,控制對網(wǎng)絡(luò)信息的過濾,當(dāng)兩個項目參數(shù)之間的標(biāo)準(zhǔn)化互信息不超過閾值時,則刪除兩個項目參數(shù)節(jié)點之間對應(yīng)的邊。
25、作為第三種限定,所述步驟p2中每個項目作業(yè)在項目作業(yè)資源利用時間窗內(nèi)的狀態(tài)表示為:
26、hi=lstm(vi)
27、vi={vi1,vi2,...,vin},
28、其中,hi為項目i在項目資源利用時間窗內(nèi)的輸出狀態(tài),vi代表項目i在項目資源利用時間窗內(nèi)的輸入?yún)?shù)狀態(tài)。
29、作為第四種限定,所述步驟p5中的類別內(nèi)項目作業(yè)之間的注意力權(quán)重表示為:
30、
31、每個項目作業(yè)通過圖注意力網(wǎng)絡(luò)加權(quán)修正后的類別內(nèi)狀態(tài)表示為:
32、gs=gat(s)=relu(∑s'∈γ(s)βss'whs'),
33、其中βss'代表在項目資源利用時間窗內(nèi)項目s'對項目s的注意力權(quán)重,gs代表項目s通過圖注意力網(wǎng)絡(luò)加權(quán)修正后的類別內(nèi)狀態(tài),gat代表圖注意力網(wǎng)絡(luò),γ(s)代表項目s的所有相鄰項目及其自身,w是可學(xué)習(xí)的共享線性變換矩陣,r是可學(xué)習(xí)的共享關(guān)注機(jī)制,rt是矩陣r的轉(zhuǎn)置,h為項目資源利用時間窗內(nèi)的輸出狀態(tài),項目s和項目s'是項目i中的兩個相鄰項目。
34、作為第五種限定,所述步驟p6中每個類別內(nèi)項目作業(yè)的注意力權(quán)重為:
35、
36、其中,表示類別πc中項目的注意力權(quán)重,是類別πc對應(yīng)的可學(xué)習(xí)的參數(shù)矩陣;
37、每個類別的類別間狀態(tài)為:
38、
39、其中,為第πc個類別在資源利用時間窗內(nèi)的類別間狀態(tài);
40、
41、其中,為類別πc中包含的所有項目作業(yè),|πc|為類別πc中所包含的項目作業(yè)個數(shù),是類別πc中所有項目作業(yè)的集合。
42、作為第六種限定,所述步驟p7中將所有類別的類別間狀態(tài)輸入到圖注意力網(wǎng)絡(luò)中,通過類別間相互加權(quán)聚合得到加權(quán)修正后的類別間狀態(tài),可以用公式表示為:
43、
44、其中,
45、是類別π對類別πc的注意力權(quán)重,wπ是類別π的可學(xué)習(xí)的共享線性變換矩陣,rπ是類別π的可學(xué)習(xí)的共享關(guān)注機(jī)制,是類別π的可學(xué)習(xí)的共享關(guān)注機(jī)制的轉(zhuǎn)置,gπ是類別全連接網(wǎng)絡(luò),π'是不同于類別π的一種類別。
46、作為第七種限定,所述步驟p1中的項目作業(yè)資源包括節(jié)點數(shù)、cpu、gpu、存儲、完成時間。
47、由于采用了上述的技術(shù)方案,本發(fā)明與現(xiàn)有技術(shù)相比,所取得的有益效果是:
48、(1)本發(fā)明方法實現(xiàn)了更好的管理資源與項目,提高資源的使用效率,減少項目排隊等待時間,對項目所需資源進(jìn)行有效的預(yù)測;
49、(2)本發(fā)明方法輔助實現(xiàn)智能化的任務(wù)調(diào)度,根據(jù)申請員提交的歷史表單,分析數(shù)據(jù),建立預(yù)測模型,預(yù)測每個任務(wù)(作業(yè))所需要的節(jié)點數(shù)、cpu、gpu、存儲、完成時間等。
50、綜上所述,本發(fā)明可以提高資源的使用效率,減少項目排隊等待時間,實現(xiàn)了對項目所需資源進(jìn)行有效的預(yù)測。