本公開涉及數(shù)據(jù)處理,具體而言,涉及一種分布式集群的運行控制方法和裝置、電子設備、存儲介質。
背景技術:
1、在分布式集群的數(shù)據(jù)處理過程中,一項業(yè)務數(shù)據(jù)通常會被分解成多個分布式任務,將多個分布式任務分配給多個物理節(jié)點進行并行計算;可以將多個分布子任務連接到一起組成任務。但是對于一項業(yè)務來講,其在不同時期的數(shù)據(jù)量可能會存在較大差異,這就需要對任務并行度、集群硬件資源等進行適應性調整。
2、目前,通常是根據(jù)以往經驗,在數(shù)據(jù)量可能發(fā)生較大變化之前,人工對分布式集群進行實時任務的壓測和硬件資源的容量調整。這樣會造成調整時機把握不準確,帶來的資源浪費或系統(tǒng)計算性能下降的問題,影響系統(tǒng)運行的穩(wěn)定性,同時耗費人力。
3、需要說明的是,在上述背景技術部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構成對本領域普通技術人員已知的現(xiàn)有技術的信息。
技術實現(xiàn)思路
1、本公開實施例的目的在于提供一種分布式集群的運行控制方法和裝置、電子設備、存儲介質,進而在一定程度上解決了相關技術中人工調整集群運行參數(shù)帶來的資源浪費或系統(tǒng)計算性能下降,影響系統(tǒng)運行的穩(wěn)定性的問題。
2、根據(jù)本公開的第一方面,提供了一種分布式集群的運行控制方法,包括:獲取分布式集群在當前時間點之前的第一時間范圍內的集群處理數(shù)據(jù)和集群運行數(shù)據(jù);對所述集群處理數(shù)據(jù)和所述集群運行數(shù)據(jù)分別進行多維度特征提取,獲得每個維度對應的特征數(shù)據(jù);將多個維度的特征數(shù)據(jù)按時間序列輸入?yún)?shù)預測模型,確定當前時間點之后的第二時間范圍內的集群目標運行數(shù)據(jù),以使集群控制平臺根據(jù)所述集群目標運行數(shù)據(jù),對所述分布式集群進行相應操作以控制集群運行;所述集群目標運行數(shù)據(jù)包括多個集群運行參數(shù),所述參數(shù)預測模型為采用集群歷史數(shù)據(jù)對具有封裝器層的循環(huán)神經網(wǎng)絡進行訓練得到的。
3、可選地,所述方法還包括:響應于所述第二時間范圍包括第一目標期限,確定所述第一時間范圍包括第二目標期限;所述第一目標期限和所述第二目標期限分別為包括目標事件的時間范圍。
4、可選地,所述對數(shù)據(jù)進行多維度特征提取,包括:按照第一時間維度,對所述集群處理數(shù)據(jù)和所述集群運行數(shù)據(jù)分別進行指標化處理,獲得第一特征數(shù)據(jù);對所述第一特征數(shù)據(jù)進行離散度特征提取,獲得第二特征數(shù)據(jù);按照多個第二時間維度,對所述集群處理數(shù)據(jù)和所述集群運行數(shù)據(jù)分別進行趨勢分析,獲得各第二時間維度對應的第三特征數(shù)據(jù)。
5、可選地,所述集群目標運行數(shù)據(jù)包括集群目標資源參數(shù)和集群目標運行參數(shù),所述確定當前時間點之后的第二時間范圍內的集群目標運行數(shù)據(jù),包括:將多個維度的特征數(shù)據(jù)按時間序列輸入所述循環(huán)神經網(wǎng)絡,以獲得隱藏層輸出;利用封裝器層對所述隱藏層輸出的每個時間步長進行相同的層處理,以獲得集群目標資源參數(shù)和集群目標運行參數(shù)。
6、可選地,所述參數(shù)預測模型的訓練過程,包括:利用keras創(chuàng)建具有封裝器層的循環(huán)神經網(wǎng)絡模型;向所述網(wǎng)絡模型輸入時間窗口參數(shù)和特征數(shù)量參數(shù);獲取包括所述目標事件的歷史時間段的歷史集群數(shù)據(jù),并對所述歷史集群數(shù)據(jù)進行多維度特征提?。粚⑻崛√卣鬏斎胨鼍W(wǎng)絡模型,以根據(jù)時間窗口參數(shù)和所述特征數(shù)量參數(shù)訓練所述網(wǎng)絡模型。
7、可選地,所述方法還包括:將所述集群目標運行數(shù)據(jù)推送給對應數(shù)據(jù)庫,以通過調用所述數(shù)據(jù)庫的數(shù)據(jù)接口獲得最新的集群目標運行數(shù)據(jù),并根據(jù)所述最新的集群目標運行數(shù)據(jù)調整所述分布式集群的運行數(shù)據(jù)。
8、可選地,所述獲取集群處理數(shù)據(jù)和集群運行數(shù)據(jù),包括:響應于定時任務的觸發(fā),或者,響應于監(jiān)控集群的數(shù)據(jù)處理量大于預設閾值,獲取所述分布式集群在當前時間點及其之前的第一時間范圍內的集群處理數(shù)據(jù)和集群運行數(shù)據(jù)。
9、根據(jù)本公開的第二方面,提供一種分布式集群的運行控制裝置,裝置包括:獲取模塊、特征提取模塊和控制模塊,其中:獲取模塊,用于獲取分布式集群在當前時間點之前的第一時間范圍內的集群處理數(shù)據(jù)和集群運行數(shù)據(jù);特征提取模塊,用于對所述集群處理數(shù)據(jù)和所述集群運行數(shù)據(jù)分別進行多維度特征提取,獲得每個維度對應的特征數(shù)據(jù);控制模塊,用于將多個維度的特征數(shù)據(jù)按時間序列輸入?yún)?shù)預測模型,確定當前時間點之后的第二時間范圍內的集群目標運行數(shù)據(jù),以使集群控制平臺根據(jù)所述集群目標運行數(shù)據(jù),對所述分布式集群進行相應操作以控制集群運行;所述集群目標運行數(shù)據(jù)包括多個集群運行參數(shù),所述參數(shù)預測模型為采用集群歷史數(shù)據(jù)對具有封裝器層的循環(huán)神經網(wǎng)絡進行訓練得到的。
10、根據(jù)本公開的第三方面,提供一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述任一實施例所述的方法。
11、根據(jù)本公開的第四方面,提供一種電子設備,包括:一個或多個處理器;以及存儲裝置,用于一個或多個程序,當所述一個或多個程序被所述一個或多個處理器執(zhí)行時,使得所述一個或多個處理器執(zhí)行上述任一實施例所述的方法。
12、本公開示例性實施例可以具有以下部分或全部有益效果:
13、在本公開示例實施方式所提供的分布式集群的運行控制方法中,一方面,可以使用具有封裝器層的循環(huán)神經網(wǎng)絡組成的參數(shù)預測模型,實現(xiàn)從第一時間范圍的多維度特征的輸入到第二時間范圍的多個集群運行參數(shù)輸出的多對多的預測過程,結合了集群處理數(shù)據(jù)和集群運行數(shù)據(jù)多個維度的數(shù)據(jù)特征,提高了集群運行參數(shù)的預測準確性,提高集群運行穩(wěn)定性。另一方面,可以實現(xiàn)集群運行參數(shù)的自動化調整,避免人工調整帶來的浪費計算資源或系統(tǒng)性能下降的問題,節(jié)省人力資源。
14、應當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本公開。
1.一種分布式集群的運行控制方法,其特征在于,包括:
2.根據(jù)權利要求1所述的分布式集群的運行控制方法,其特征在于,所述方法還包括:
3.根據(jù)權利要求1所述的分布式集群的運行控制方法,其特征在于,所述對數(shù)據(jù)進行多維度特征提取,包括:
4.根據(jù)權利要求3所述的分布式集群的運行控制方法,其特征在于,所述集群目標運行數(shù)據(jù)包括集群目標資源參數(shù)和集群目標運行參數(shù),所述確定當前時間點之后的第二時間范圍內的集群目標運行數(shù)據(jù),包括:
5.根據(jù)權利要求4所述的分布式集群的運行控制方法,其特征在于,所述參數(shù)預測模型的訓練過程,包括:
6.根據(jù)權利要求1所述的分布式集群的運行控制方法,其特征在于,所述方法還包括:
7.根據(jù)權利要求1所述的分布式集群的運行控制方法,其特征在于,所述獲取集群處理數(shù)據(jù)和集群運行數(shù)據(jù),包括:
8.一種分布式集群的運行控制裝置,其特征在于,所述裝置包括:
9.一種電子設備,其特征在于,包括:一個或多個處理器;以及
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述程序被處理器執(zhí)行時實現(xiàn)如權利要求1-7中任一項所述的方法。