本申請涉及互聯(lián)網(wǎng),尤其涉及一種大數(shù)據(jù)運維管理方法、裝置、設(shè)備及可讀存儲介質(zhì)。
背景技術(shù):
1、大數(shù)據(jù)運維是指對大數(shù)據(jù)系統(tǒng)進行運營和維護的工作,然而目前大部分用戶仍處于工具化運維時代,運維人員可以通過管理工具了解hadoop組件服務(wù)的健康狀態(tài),對企業(yè)版hadoop熟悉的用戶日常運維操作可以通過管理界面或者相關(guān)運維工具人工半自動化來完成。
2、然而在集群數(shù)量和規(guī)模日益擴大的情況下,通過工具人工半自動化進行大數(shù)據(jù)運維方式已經(jīng)無法滿足大數(shù)據(jù)集群運維需求了,并且大數(shù)據(jù)集群的運維門檻比較高,運維人員要求嚴格,單一的管理工具已無法有效的解決問題。
技術(shù)實現(xiàn)思路
1、本申請?zhí)峁┝艘环N大數(shù)據(jù)運維管理方法、裝置、設(shè)備及可讀存儲介質(zhì),至少能夠解決相關(guān)技術(shù)中通過運維工具半自動化已經(jīng)無法滿足當(dāng)前大數(shù)據(jù)集群運維需求的問題。
2、本申請實施例第一方面提供了一種大數(shù)據(jù)運維管理方法,包括:
3、獲取待管理集群的集群信息;
4、對所述集群信息進行多維度分析,并獲取所述集群信息對應(yīng)的分析數(shù)據(jù);
5、當(dāng)所述分析數(shù)據(jù)的數(shù)據(jù)指標(biāo)達到預(yù)警指標(biāo)時,向管理終端發(fā)送預(yù)警信息;
6、若檢測到所述數(shù)據(jù)指標(biāo)對應(yīng)的故障發(fā)生,則根據(jù)所述預(yù)警信息匹配自動恢復(fù)方案進行故障修復(fù)。
7、通過采用上述方案,對運維平臺中的集群信息進行多維度分析,并獲取對應(yīng)的分析數(shù)據(jù),當(dāng)分析數(shù)據(jù)的數(shù)據(jù)指標(biāo)達到預(yù)警指標(biāo)時,向管理終端發(fā)送預(yù)警信息,若數(shù)據(jù)指標(biāo)意見發(fā)生故障,則根據(jù)預(yù)警信息匹配對應(yīng)的自動修復(fù)方案對故障進行修復(fù),提高大數(shù)據(jù)平臺的運維效率。
8、可選的,所述集群信息包括集群資源,所述對所述集群信息進行多維度分析,并獲取所述集群信息對應(yīng)的分析數(shù)據(jù)的步驟,包括:
9、確定所述集群資源在對應(yīng)集群內(nèi)的分配信息;
10、根據(jù)所述分配信息對所述集群的資源使用信息進行分析,并獲取資源分析數(shù)據(jù)。
11、通過采用上述方案,根據(jù)集群資源在對應(yīng)集群內(nèi)的分配信息確定集群的資源使用信息,并分析集群內(nèi)各資源的變化趨勢,從而確定集群內(nèi)的資源分析數(shù)據(jù),提高集群運維管理的準(zhǔn)確性。
12、可選的,所述集群信息還包括日志信息,所述對所述集群信息進行多維度分析,并獲取所述集群信息對應(yīng)的分析數(shù)據(jù)的步驟,還包括:
13、確定所述日志信息的檢索關(guān)鍵字;
14、根據(jù)所述檢索關(guān)鍵字在運維知識庫中進行匹配分析;
15、根據(jù)分析結(jié)果獲取所述日志信息存在的異常信息。
16、通過采用上述方案,根據(jù)檢索關(guān)鍵字在運維知識庫中進行匹配分析,能夠準(zhǔn)確查找出日志信息中可能存在的異常信息,提高日志信息的準(zhǔn)確性。
17、可選的,所述分析數(shù)據(jù)包括所述資源分析數(shù)據(jù)以及所述異常信息,所述當(dāng)所述分析數(shù)據(jù)的數(shù)據(jù)指標(biāo)達到預(yù)警指標(biāo)時,向管理終端發(fā)送預(yù)警信息的步驟,包括:
18、獲取所述集群信息的指標(biāo)數(shù)據(jù);
19、根據(jù)所述指標(biāo)數(shù)據(jù)的變化趨勢確定確定預(yù)警指標(biāo);
20、對所述分析數(shù)據(jù)的數(shù)據(jù)指標(biāo)進行預(yù)估分析;
21、當(dāng)所述數(shù)據(jù)指標(biāo)達到所述預(yù)警指標(biāo)時,根據(jù)所述運維知識庫中對所述異常信息的處理方案向管理終端發(fā)送預(yù)警信息。
22、通過采用上述方案,當(dāng)數(shù)據(jù)指標(biāo)達到預(yù)警指標(biāo)時,確定運維知識庫中對達到預(yù)警指標(biāo)的異常信息對應(yīng)的處理方案,并將該異常信息以及處理方案通過預(yù)警信息的方式發(fā)送至管理終端,使運維人員能夠及時對集群中可能出現(xiàn)的問題進行預(yù)防。
23、可選的,所述若檢測到所述數(shù)據(jù)指標(biāo)對應(yīng)的故障發(fā)生,則根據(jù)所述預(yù)警信息匹配自動恢復(fù)方案進行故障修復(fù)的步驟,包括:
24、若檢測到所述數(shù)據(jù)指標(biāo)對應(yīng)的故障發(fā)生,則根據(jù)所述預(yù)警信息確定發(fā)生故障的目標(biāo)集群;
25、根據(jù)所述目標(biāo)集群的故障信息匹配自動恢復(fù)方案;
26、若所述自動恢復(fù)方案中存在所述異常信息的解決方案,則觸發(fā)自動處置流程對所述故障進行修復(fù)。
27、通過采用上述方案,根據(jù)預(yù)警信息中對應(yīng)的故障信息匹配自動恢復(fù)方案,并觸發(fā)自動恢復(fù)方案對于的處置流程,在運維人員未對集群的故障進行處理時,自動對發(fā)生故障的集群進行故障修復(fù),提高集群的運行效率。
28、可選的,所述觸發(fā)自動處置流程對所述故障進行修復(fù)的步驟之后,還包括:
29、檢測所述故障是否被自動修復(fù);
30、若所述故障未被自動修復(fù),則獲取所述管理終端對所述故障進行修復(fù)的修復(fù)日志;
31、根據(jù)所述修復(fù)日志確定所述故障的修復(fù)方案;
32、將所述故障以及所述修復(fù)方案更新至所述運維知識庫。
33、可選的,所述方法還包括:
34、在預(yù)設(shè)周期內(nèi)對所述待管理集群的組件參數(shù)進行檢測;
35、判斷所述組件參數(shù)的配置是否預(yù)警配置;
36、若所述配置低于預(yù)警配置,則通過對所述組件參數(shù)進行測試,確定最優(yōu)組件參數(shù)配置。
37、通過采用上述方案,在預(yù)設(shè)周期內(nèi)對其組件參數(shù)進行檢測,若組件參數(shù)的配置低于預(yù)警配置,則通過對組件參數(shù)進行測試,確定最優(yōu)組件參數(shù)配置,有效提高待管理集群的性能和穩(wěn)定性,確保系統(tǒng)的正常運行。
38、本申請實施例第二方面提供了一種大數(shù)據(jù)運維管理裝置,包括:
39、獲取模塊,用于獲取待管理集群的集群信息;
40、分析模塊,用于對所述集群信息進行多維度分析,并獲取所述集群信息對應(yīng)的分析數(shù)據(jù);
41、發(fā)送模塊,用于當(dāng)所述分析數(shù)據(jù)的數(shù)據(jù)指標(biāo)達到預(yù)警指標(biāo)時,向管理終端發(fā)送預(yù)警信息;
42、修復(fù)模塊,用于若檢測到所述數(shù)據(jù)指標(biāo)對應(yīng)的故障發(fā)生,則根據(jù)所述預(yù)警信息匹配自動恢復(fù)方案進行故障修復(fù)。
43、本申請實施例第三方面提供了一種電子設(shè)備,包括存儲器及處理器,其中,所述處理器用于執(zhí)行存儲在所述存儲器上的計算機程序,所述處理器執(zhí)行所述計算機程序時,實現(xiàn)上述本申請實施例第一方面提供的大數(shù)據(jù)運維管理方法中的各步驟。
44、本申請實施例第四方面提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,計算機程序被處理器執(zhí)行時,實現(xiàn)上述本申請實施例第一方面提供的大數(shù)據(jù)運維管理方法中的各步驟。
45、綜上所述,本申請的有益效果為:
46、1.對運維平臺中的集群信息進行多維度分析,并獲取對應(yīng)的分析數(shù)據(jù),當(dāng)分析數(shù)據(jù)的數(shù)據(jù)指標(biāo)達到預(yù)警指標(biāo)時,向管理終端發(fā)送預(yù)警信息,若數(shù)據(jù)指標(biāo)意見發(fā)生故障,則根據(jù)預(yù)警信息匹配對應(yīng)的自動修復(fù)方案對故障進行修復(fù),提高大數(shù)據(jù)平臺的運維效率。
47、2.在預(yù)設(shè)周期內(nèi)對其組件參數(shù)進行檢測,若組件參數(shù)的配置低于預(yù)警配置,則通過對組件參數(shù)進行測試,確定最優(yōu)組件參數(shù)配置,有效提高待管理集群的性能和穩(wěn)定性,確保系統(tǒng)的正常運行。
1.一種大數(shù)據(jù)運維管理方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的大數(shù)據(jù)運維管理方法,其特征在于,所述集群信息包括集群資源,所述對所述集群信息進行多維度分析,并獲取所述集群信息對應(yīng)的分析數(shù)據(jù)的步驟,包括:
3.根據(jù)權(quán)利要求1所述的大數(shù)據(jù)運維管理方法,其特征在于,所述集群信息還包括日志信息,所述對所述集群信息進行多維度分析,并獲取所述集群信息對應(yīng)的分析數(shù)據(jù)的步驟,還包括:
4.根據(jù)權(quán)利要求3所述的大數(shù)據(jù)運維管理方法,其特征在于,所述分析數(shù)據(jù)包括所述資源分析數(shù)據(jù)以及所述異常信息,所述當(dāng)所述分析數(shù)據(jù)的數(shù)據(jù)指標(biāo)達到預(yù)警指標(biāo)時,向管理終端發(fā)送預(yù)警信息的步驟,包括:
5.根據(jù)權(quán)利要求4所述的大數(shù)據(jù)運維管理方法,其特征在于,所述若檢測到所述數(shù)據(jù)指標(biāo)對應(yīng)的故障發(fā)生,則根據(jù)所述預(yù)警信息匹配自動恢復(fù)方案進行故障修復(fù)的步驟,包括:
6.根據(jù)權(quán)利要求5所述的大數(shù)據(jù)運維管理方法,其特征在于,所述觸發(fā)自動處置流程對所述故障進行修復(fù)的步驟之后,還包括:
7.根據(jù)權(quán)利要求1所述的大數(shù)據(jù)運維管理方法,其特征在于,所述方法還包括:
8.一種大數(shù)據(jù)運維管理裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,包括存儲器及處理器,其中:
10.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時,實現(xiàn)權(quán)利要求1至7中的任意一項所述大數(shù)據(jù)運維管理方法中的步驟。