本發(fā)明涉及it運(yùn)維,尤其是涉及一種基于大模型的告警分類(lèi)分級(jí)方法及裝置、介質(zhì)、設(shè)備。
背景技術(shù):
1、隨著信息技術(shù)的迅猛發(fā)展和企業(yè)對(duì)it系統(tǒng)的依賴性增加,it運(yùn)維行業(yè)的重要性日益凸顯。it運(yùn)維即it?operations是指對(duì)企業(yè)信息技術(shù)系統(tǒng)的運(yùn)行、維護(hù)和優(yōu)化進(jìn)行管理的一系列活動(dòng),以確保系統(tǒng)的穩(wěn)定性、安全性和高效性。在it運(yùn)維過(guò)程中,告警是一種常見(jiàn)的現(xiàn)象,告警指的是系統(tǒng)或應(yīng)用程序發(fā)生異?;蚬收蠒r(shí)發(fā)出的警報(bào)。告警的目的是及時(shí)通知運(yùn)維人員有關(guān)系統(tǒng)問(wèn)題的信息,以便他們可以迅速采取行動(dòng)解決問(wèn)題,減少業(yè)務(wù)中斷和損失。然而,隨著it系統(tǒng)的復(fù)雜性和規(guī)模的增加,運(yùn)維人員面臨著日益增長(zhǎng)的告警數(shù)據(jù)量。這些告警數(shù)據(jù)可能包括系統(tǒng)監(jiān)控?cái)?shù)據(jù)、日志文件、用戶反饋等多種類(lèi)型,其數(shù)量之大和處理難度之高,使得傳統(tǒng)的告警處理方法已經(jīng)無(wú)法滿足現(xiàn)代it運(yùn)維的需求。
2、傳統(tǒng)的告警處理方法主要依賴于人工經(jīng)驗(yàn),通過(guò)設(shè)置閾值和規(guī)則來(lái)觸發(fā)告警,并進(jìn)行人工的篩選和分類(lèi)。這種方法存在一些問(wèn)題。首先,人工處理效率低下,無(wú)法快速響應(yīng)大量的告警信息。其次,人工經(jīng)驗(yàn)容易出現(xiàn)誤判和漏判,導(dǎo)致重要的告警被忽略或次要的告警被過(guò)度處理。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)以上至少一個(gè)技術(shù)問(wèn)題,本發(fā)明實(shí)施例提供一種基于大模型的告警分類(lèi)分級(jí)方法及裝置、介質(zhì)、設(shè)備。
2、根據(jù)第一方面,本發(fā)明實(shí)施例提供的基于大模型的告警分類(lèi)分級(jí)方法包括:
3、獲取告警事件的告警數(shù)據(jù);
4、對(duì)所述告警數(shù)據(jù)進(jìn)行預(yù)處理;
5、從預(yù)處理后的告警數(shù)據(jù)中提取出告警特征;其中,所述告警特征中包括與告警分類(lèi)分級(jí)相關(guān)的特征以及告警上下文特征;
6、將所述告警特征輸入至預(yù)先訓(xùn)練得到的告警分析大模型中,得到所述告警事件的分析結(jié)果;其中,所述告警事件的分析結(jié)果中包括所述告警事件的嚴(yán)重程度和影響范圍;
7、根據(jù)所述嚴(yán)重程度和所述影響范圍,確定所述告警事件的緊急程度;
8、根據(jù)所述與告警分類(lèi)分級(jí)相關(guān)的特征,確定所述告警事件的類(lèi)型;
9、將所述告警事件的類(lèi)型和緊急程度返回至相關(guān)的運(yùn)維人員。
10、在一個(gè)實(shí)施例中,所述對(duì)所述告警數(shù)據(jù)進(jìn)行預(yù)處理,包括:
11、對(duì)所述告警數(shù)據(jù)進(jìn)行清洗處理;其中,清洗方式包括去重、糾錯(cuò)和填補(bǔ)缺失值中的至少一項(xiàng);
12、對(duì)清洗處理后的告警數(shù)據(jù)中的文本數(shù)據(jù)轉(zhuǎn)換為數(shù)值數(shù)據(jù),并將清洗處理后的告警數(shù)據(jù)中的時(shí)間數(shù)據(jù)的格式轉(zhuǎn)換為統(tǒng)一格式;
13、將格式轉(zhuǎn)換后的告警數(shù)據(jù)歸一化到預(yù)設(shè)范圍;
14、將歸一化后的告警數(shù)據(jù)轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布形式;
15、將轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布形式的告警數(shù)據(jù)整理為表格或者向量。
16、在一個(gè)實(shí)施例中,所述將所述告警特征輸入至預(yù)先訓(xùn)練得到的告警分析大模型中之前,所述方法還包括如下至少一項(xiàng):
17、從所述告警特征中進(jìn)行有效特征篩選,得到有效告警特征;
18、采用主成分分析方法或者線性判別分析方法,將所述告警特征進(jìn)行降維,得到降維后的告警特征;
19、對(duì)應(yīng)的,所述將所述告警特征輸入至預(yù)先訓(xùn)練得到的告警分析大模型,包括:將所述有效告警特征或者所述降維后的告警特征輸入至所述告警分析大模型中。
20、在一個(gè)實(shí)施例中,所述與告警分類(lèi)分級(jí)相關(guān)的特征包括告警事件的類(lèi)型、發(fā)生時(shí)間、持續(xù)時(shí)間和告警源中的至少一項(xiàng);所述告警上下文特征包括系統(tǒng)負(fù)載、網(wǎng)絡(luò)流量和用戶行為中的至少一項(xiàng)。
21、在一個(gè)實(shí)施例中,所述告警分析大模型具體用于:若類(lèi)型為物理機(jī)告警,則分析所述告警特征中的物理機(jī)信息,所述物理機(jī)信息包括硬件狀態(tài)和性能指標(biāo),并根據(jù)所述物理機(jī)信息輸出所述嚴(yán)重程度和所述影響范圍;若類(lèi)型為虛機(jī)告警,則分析所述告警特征的虛機(jī)特征信息,所述虛機(jī)特征信息中包括虛擬化環(huán)境中的資源使用情況和網(wǎng)絡(luò)連接狀態(tài),并根據(jù)所述虛機(jī)特征信息輸出所述嚴(yán)重程度和所述影響范圍;若類(lèi)型為服務(wù)組件告警,則分析所述告警特征的服務(wù)組件特征信息,所述服務(wù)組件特征信息包括性能指標(biāo)和故障狀態(tài),并根據(jù)所述服務(wù)組件特征信息輸出所述嚴(yán)重程度和所述影響范圍;若類(lèi)型為應(yīng)用系統(tǒng)告警,則分析所述告警特征的應(yīng)用系統(tǒng)特征信息,所述應(yīng)用系統(tǒng)特征信息包括業(yè)務(wù)流程狀態(tài)和應(yīng)用程序性能,并根據(jù)所述應(yīng)用系統(tǒng)特征信息輸出所述嚴(yán)重程度和所述影響范圍。
22、在一個(gè)實(shí)施例中,所述告警分析大模型的訓(xùn)練過(guò)程包括:
23、從多種數(shù)據(jù)源采集多種類(lèi)型告警事件的歷史告警數(shù)據(jù);
24、對(duì)所述歷史告警數(shù)據(jù)進(jìn)行預(yù)處理;
25、從預(yù)處理后的歷史告警數(shù)據(jù)中提取出歷史告警特征;
26、對(duì)每一個(gè)告警事件的歷史告警特征打標(biāo)簽,得到一條訓(xùn)練樣本;其中,標(biāo)簽內(nèi)容為該告警事件的的嚴(yán)重程度和影響范圍;
27、將多條訓(xùn)練樣本劃分為訓(xùn)練集和測(cè)試集;
28、基于告警事件特點(diǎn),選擇匹配的模型算法;
29、利用所述訓(xùn)練集,在所述模型算法的基礎(chǔ)上進(jìn)行模型訓(xùn)練,得到收斂的所述告警分析大模型;
30、利用所述測(cè)試集對(duì)所述告警分析大模型進(jìn)行性能評(píng)估,并根據(jù)性能評(píng)估結(jié)果對(duì)所述告警分析大模型進(jìn)行調(diào)優(yōu),得到調(diào)優(yōu)后的告警分析大模型。
31、在一個(gè)實(shí)施例中,所述告警分析大模型為多個(gè)子模型融合后的大模型,所述子模型的模型算法包括決策樹(shù)算法、支持向量機(jī)算法、隨機(jī)森林算法和神經(jīng)網(wǎng)絡(luò)算法中的至少兩個(gè)。
32、根據(jù)第二方面,本發(fā)明實(shí)施例提供的基于大模型的告警分類(lèi)分級(jí)裝置包括:
33、數(shù)據(jù)獲取模塊,用于獲取告警事件的告警數(shù)據(jù);
34、預(yù)處理模塊,用于對(duì)所述告警數(shù)據(jù)進(jìn)行預(yù)處理;
35、特征提取模塊,用于從預(yù)處理后的告警數(shù)據(jù)中提取出告警特征;其中,所述告警特征中包括與告警分類(lèi)分級(jí)相關(guān)的特征以及告警上下文特征;
36、模型分析模塊,用于將所述告警特征輸入至預(yù)先訓(xùn)練得到的告警分析大模型中,得到所述告警事件的分析結(jié)果;其中,所述告警事件的分析結(jié)果中包括所述告警事件的嚴(yán)重程度和影響范圍;
37、分級(jí)確定模塊,用于根據(jù)所述嚴(yán)重程度和所述影響范圍,確定所述告警事件的緊急程度;
38、類(lèi)型確定模塊,用于根據(jù)所述與告警分類(lèi)分級(jí)相關(guān)的特征,確定所述告警事件的類(lèi)型;
39、結(jié)果推送模塊,用于將所述告警事件的類(lèi)型和緊急程度返回至相關(guān)的運(yùn)維人員。
40、根據(jù)第三方面,本發(fā)明實(shí)施例提供計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序在計(jì)算機(jī)中執(zhí)行時(shí),令計(jì)算機(jī)執(zhí)行實(shí)現(xiàn)第一方面提供的方法。
41、根據(jù)第四方面,本發(fā)明實(shí)施例提供的計(jì)算設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼,所述處理器執(zhí)行所述可執(zhí)行代碼時(shí),實(shí)現(xiàn)第一方面提供的方法。
42、本發(fā)明實(shí)施例提供的基于大模型的告警分類(lèi)分級(jí)方法及裝置、介質(zhì)、設(shè)備,獲取告警事件的告警數(shù)據(jù),對(duì)所述告警數(shù)據(jù)進(jìn)行預(yù)處理,從預(yù)處理后的告警數(shù)據(jù)中提取出告警特征,進(jìn)而將所述告警特征輸入至告警分析大模型中,得到所述告警事件的分析結(jié)果,根據(jù)分析結(jié)果中的所述嚴(yán)重程度和所述影響范圍確定所述告警事件的緊急程度;從與告警分類(lèi)分級(jí)相關(guān)的特征中得知所述告警事件的類(lèi)型,最后將告警事件的類(lèi)型和緊急程度返回至相關(guān)的運(yùn)維人員。由于告警分析大模型可以自動(dòng)處理大量數(shù)據(jù),運(yùn)維團(tuán)隊(duì)可以減少對(duì)告警數(shù)據(jù)的手動(dòng)分析,減少人工干預(yù)的工作量,提高告警處理的效率?;诖竽P偷妮敵鲂畔⑦M(jìn)行告警分級(jí),能夠更準(zhǔn)確地判斷告警事件的緊急程度,避免漏報(bào)和誤報(bào)的情況發(fā)生,大大提高運(yùn)維處理的準(zhǔn)確性。由于告警分析大模型是基于大量數(shù)據(jù)訓(xùn)練得到的,它能夠更好地捕捉到告警數(shù)據(jù)中的復(fù)雜關(guān)系和潛在規(guī)律,從而提高告警分類(lèi)分級(jí)的準(zhǔn)確性。總之,本發(fā)明實(shí)施例利用了人工智能技術(shù)的優(yōu)勢(shì),通過(guò)對(duì)告警數(shù)據(jù)進(jìn)行提取分析,并引入大模型技術(shù)實(shí)現(xiàn)告警的快速分級(jí),有效提高運(yùn)維處理的效率和準(zhǔn)確性。