本發(fā)明涉及網(wǎng)絡(luò)運(yùn)維過(guò)程中的故障管理,尤其涉及一種故障根因定位方法及模型訓(xùn)練方法。
背景技術(shù):
1、在當(dāng)今信息技術(shù)高速發(fā)展的時(shí)代,隨著網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大和業(yè)務(wù)量的不斷增加,頻繁出現(xiàn)的故障告警消息給網(wǎng)絡(luò)運(yùn)維工作中的故障管理帶來(lái)了巨大挑戰(zhàn),當(dāng)服務(wù)器與終端之間收發(fā)信號(hào)的過(guò)程中發(fā)生網(wǎng)絡(luò)故障時(shí),網(wǎng)絡(luò)運(yùn)營(yíng)商將收到大量告警消息并對(duì)告警信息進(jìn)行分析后存入數(shù)據(jù)庫(kù),再對(duì)故障進(jìn)行根因定位并派發(fā)故障工單至維護(hù)人員進(jìn)行故障排查及維修,告警和故障是網(wǎng)絡(luò)運(yùn)維過(guò)程中有著密切關(guān)聯(lián)的兩個(gè)不同概念,告警和故障的發(fā)生時(shí)間沒(méi)有固定的先后順序,告警可以是故障發(fā)生之前的預(yù)示,也可以是故障發(fā)生之后的告示。
2、現(xiàn)有技術(shù)中,傳統(tǒng)的故障排查方式需要依賴(lài)于工程師個(gè)人經(jīng)驗(yàn),面對(duì)大量告警消息和產(chǎn)生的工單,效率低下且缺乏針對(duì)性,面對(duì)不同的故障原因需要采取不同的處理措施且傳統(tǒng)方式難以做到精準(zhǔn)分類(lèi)和快速響應(yīng),故障處理周期延長(zhǎng)的同時(shí)浪費(fèi)資源;現(xiàn)有的多數(shù)智能故障根因定位方法使用簡(jiǎn)單的模型來(lái)處理大量運(yùn)維數(shù)據(jù),定位準(zhǔn)確率低且在信息量較少的情況下會(huì)影響根因定位結(jié)果;it運(yùn)維人工智能系列利用各種人工智能技術(shù)對(duì)運(yùn)維數(shù)據(jù)進(jìn)行自動(dòng)分析和處理,從而發(fā)現(xiàn)潛在問(wèn)題,提前預(yù)警和預(yù)防故障的發(fā)生,目前針對(duì)it運(yùn)維人工智能中網(wǎng)絡(luò)故障根因分析這一場(chǎng)景,現(xiàn)有研究中關(guān)于基于含少量信息的數(shù)據(jù)完成特征提取并達(dá)到較高根因定位準(zhǔn)確率的問(wèn)題很少;現(xiàn)有技術(shù)中關(guān)于故障根因定位的模型包括神經(jīng)網(wǎng)絡(luò)模型和傳統(tǒng)機(jī)器學(xué)習(xí)模型,神經(jīng)網(wǎng)絡(luò)模型包括長(zhǎng)短期記憶網(wǎng)絡(luò)模型和多層感知器模型,傳統(tǒng)的機(jī)器學(xué)習(xí)模型包括k鄰近模型、樸素貝葉斯算法模型和支持向量機(jī)模型,進(jìn)一步的,現(xiàn)有模型缺乏知識(shí)增強(qiáng),無(wú)法實(shí)現(xiàn)故障根因定位的高準(zhǔn)確率。
技術(shù)實(shí)現(xiàn)思路
1、鑒于此,本發(fā)明實(shí)施例提供了一種故障根因定位方法及模型訓(xùn)練方法,以消除或改善現(xiàn)有技術(shù)中存在的一個(gè)或更多個(gè)缺陷,解決了現(xiàn)有技術(shù)中故障根因定位準(zhǔn)確率低的問(wèn)題。
2、本發(fā)明的一個(gè)方面提供了一種故障根因定位的模型訓(xùn)練方法,該方法包括以下步驟:
3、獲取訓(xùn)練樣本集,所述訓(xùn)練樣本集包含多個(gè)樣本,每個(gè)樣本包含統(tǒng)計(jì)數(shù)據(jù)集和嵌入向量集,所述統(tǒng)計(jì)數(shù)據(jù)集包括但不限于故障發(fā)生時(shí)間點(diǎn)的歷史時(shí)間段和未來(lái)時(shí)間段內(nèi)發(fā)生的告警次數(shù)、告警種類(lèi)、故障次數(shù)、所述歷史時(shí)間段故障發(fā)生的時(shí)間間隔、告警發(fā)生的時(shí)間間隔和各類(lèi)別的故障占比,所述嵌入向量集由各所述歷史時(shí)間段和未來(lái)時(shí)間段內(nèi)的時(shí)序告警序列和時(shí)序故障序列,以及通過(guò)構(gòu)建知識(shí)圖譜補(bǔ)充告警等級(jí)后進(jìn)行的嵌入操作獲得,對(duì)所述訓(xùn)練樣本集中的多個(gè)樣本添加故障根因分類(lèi)標(biāo)簽;
4、獲取初始神經(jīng)網(wǎng)絡(luò)模型,所述初始神經(jīng)網(wǎng)絡(luò)以所述訓(xùn)練樣本集的樣本為輸入,以故障根因的分類(lèi)識(shí)別結(jié)果為輸出;所述初始神經(jīng)網(wǎng)絡(luò)模型采用transformer-fl模型;所述transformer-fl模型包括連續(xù)設(shè)置的第一線性變換層、多頭自注意力層、第一殘差連接與歸一化層、前饋神經(jīng)網(wǎng)絡(luò)層、第二殘差連接與歸一化層、第二線性變換層和參數(shù)更新層;所述第一線性變換層的輸出和所述第一殘差連接與歸一化層的輸入建立殘差短連接,所述第一殘差連接與歸一化層的輸出與所述第二殘差連接與歸一化層的輸入建立殘差短連接;
5、構(gòu)建損失函數(shù),以最小化所述損失函數(shù)為目標(biāo),采用所述訓(xùn)練樣本集對(duì)所述初始神經(jīng)網(wǎng)絡(luò)進(jìn)行參數(shù)更新至收斂,將更新后的所述初始神經(jīng)網(wǎng)絡(luò)構(gòu)建為故障根因定位模型。
6、在一些實(shí)施例中,所述多頭自注意力層的運(yùn)行機(jī)制包括:
7、獲取輸入序列并通過(guò)三個(gè)不同的線性變換獲得查詢(xún)矩陣、鍵矩陣和值矩陣;
8、將所述查詢(xún)矩陣、所述鍵矩陣和所述值矩陣分解為設(shè)定數(shù)量個(gè)頭,每個(gè)頭具有對(duì)應(yīng)的權(quán)重,將單個(gè)頭獨(dú)立計(jì)算的頭注意力權(quán)重應(yīng)用到對(duì)應(yīng)的值矩陣獲得單個(gè)頭注意力計(jì)算結(jié)果,表達(dá)式為:
9、
10、其中,q表示查詢(xún)矩陣、k表示鍵矩陣,v表示值矩陣,表示縮放因子,qkt是查詢(xún)和鍵的點(diǎn)積矩陣,softmax是激活函數(shù);
11、將設(shè)定數(shù)量個(gè)頭的注意力計(jì)算結(jié)果進(jìn)行拼接并對(duì)拼接結(jié)果進(jìn)行線性變換后獲得目標(biāo)輸出矩陣。
12、在一些實(shí)施例中,所述前饋神經(jīng)網(wǎng)絡(luò)層包括連續(xù)設(shè)置的第三線性變換層、非線性激活函數(shù)層和第四線性變換層,所述前饋神經(jīng)網(wǎng)絡(luò)的表達(dá)式為:
13、ffn(x)=max(0,xw1+b1)w2+b2;
14、其中,x表示輸入數(shù)據(jù)。w1表示第一權(quán)重矩陣,b1表示第一偏置向量,w2表示第二權(quán)重矩陣,b2表示第二偏置向量。
15、在一些實(shí)施例中,所述初始神經(jīng)網(wǎng)絡(luò)在所述第二線性變換層的輸出端連接softmax函數(shù)層預(yù)測(cè)故障根因分類(lèi)任務(wù)中各故障根因的類(lèi)別概率。
16、在一些實(shí)施例中,所述損失函數(shù)采用焦點(diǎn)損失函數(shù),所述損失函數(shù)的表達(dá)式為:
17、fl(pt)=-αt(1-pt)γlog(pt);
18、其中,pt是模型對(duì)于類(lèi)別t的預(yù)測(cè)概率,αt是類(lèi)別t的權(quán)重,(1-pt)γ表示調(diào)制因子,γ表示聚焦參數(shù)。
19、另一方面,本發(fā)明還提供一種故障根因定位方法,所述方法包括:
20、獲取故障發(fā)生時(shí)間點(diǎn)的歷史時(shí)間段和未來(lái)時(shí)間段內(nèi)發(fā)生的告警次數(shù)、告警種類(lèi)和故障次數(shù),計(jì)算所述歷史時(shí)間段故障發(fā)生的時(shí)間間隔、告警發(fā)生的時(shí)間間隔和各類(lèi)別的故障占比,將包括但不限于所述告警次數(shù)、所述告警種類(lèi)、所述故障次數(shù)、所述故障發(fā)生的時(shí)間間隔、所述告警發(fā)生的時(shí)間間隔和所述各類(lèi)別的故障占比作為統(tǒng)計(jì)數(shù)據(jù);
21、獲取所述歷史時(shí)間段和未來(lái)時(shí)間段內(nèi)的時(shí)序告警序列和時(shí)序故障序列,將所述時(shí)序告警序列和所述時(shí)序故障序列作為文字序列數(shù)據(jù);
22、通過(guò)基站、告警、故障和告警等級(jí)四個(gè)節(jié)點(diǎn)以及發(fā)生、導(dǎo)致和定級(jí)三種關(guān)系構(gòu)建知識(shí)圖譜并將所述告警等級(jí)補(bǔ)充至所述文字序列數(shù)據(jù),補(bǔ)充告警等級(jí)后的所述文字序列數(shù)據(jù)通過(guò)嵌入操作后獲得嵌入向量;
23、將所述統(tǒng)計(jì)數(shù)據(jù)和所述嵌入向量拼接后獲得的全部特征輸入上述故障根因定位的模型訓(xùn)練方法中的故障根因定位模型,并輸出故障根因的分類(lèi)識(shí)別結(jié)果。
24、在一些實(shí)施例中,所述方法還包括:將所述知識(shí)圖譜導(dǎo)入數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)和可視化管理。
25、在一些實(shí)施例中,所述方法還包括:將分為嚴(yán)重類(lèi)告警等級(jí)、一般類(lèi)告警等級(jí)、其他告警和未知告警的告警等級(jí)添加至所述文字序列數(shù)據(jù)。
26、在一些實(shí)施例中,所述方法還包括:將獲取數(shù)據(jù)過(guò)程、對(duì)所述數(shù)據(jù)預(yù)處理獲得所述統(tǒng)計(jì)數(shù)據(jù)和所述嵌入向量過(guò)程、構(gòu)建所述知識(shí)圖譜過(guò)程和所述故障根因定位模型運(yùn)行過(guò)程中的狀況和性能數(shù)據(jù)存儲(chǔ)為日志。
27、另一方面,本發(fā)明還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述方法的步驟。
28、本發(fā)明的有益效果至少是:
29、本發(fā)明所述故障根因定位方法及模型訓(xùn)練方法中,獲取包含統(tǒng)計(jì)數(shù)據(jù)集和嵌入向量集的樣本并對(duì)所述樣本添加故障根因分類(lèi)標(biāo)簽,將所述樣本輸入transformer-fl模型進(jìn)行分類(lèi)識(shí)別,通過(guò)焦點(diǎn)損失函數(shù)對(duì)所述transformer-fl模型進(jìn)行參數(shù)更新,最終獲得故障根因定位模型;故障發(fā)生時(shí),獲取故障發(fā)生時(shí)間點(diǎn)的歷史時(shí)間段和未來(lái)時(shí)間段的告警數(shù)據(jù)和故障數(shù)據(jù)作為統(tǒng)計(jì)數(shù)據(jù),時(shí)序告警序列和時(shí)序故障序列作為文字序列數(shù)據(jù),對(duì)所述文字序列數(shù)據(jù)通過(guò)知識(shí)增強(qiáng)補(bǔ)充告警等級(jí)并通過(guò)嵌入操作獲得嵌入向量,將所述統(tǒng)計(jì)數(shù)據(jù)和嵌入向量輸入所述故障根因定位模型后獲得故障根因的分類(lèi)識(shí)別結(jié)果,將故障根因定位問(wèn)題轉(zhuǎn)化為多分類(lèi)識(shí)別問(wèn)題,根據(jù)故障的發(fā)生信號(hào)及時(shí)做出反應(yīng),提高故障處理效率以及故障根因定位的準(zhǔn)確性。
30、進(jìn)一步的,本發(fā)明通過(guò)構(gòu)建知識(shí)圖譜來(lái)為所述文字序列數(shù)據(jù)進(jìn)行知識(shí)增強(qiáng)處理以引入告警等級(jí),為故障根因分類(lèi)提供等級(jí)信息的同時(shí)增加所述文本序列的深度和廣度,并提高所述文本序列的知識(shí)質(zhì)量和應(yīng)用效果。
31、本發(fā)明的附加優(yōu)點(diǎn)、目的,以及特征將在下面的描述中將部分地加以闡述,且將對(duì)于本領(lǐng)域普通技術(shù)人員在研究下文后部分地變得明顯,或者可以根據(jù)本發(fā)明的實(shí)踐而獲知。本發(fā)明的目的和其它優(yōu)點(diǎn)可以通過(guò)在說(shuō)明書(shū)以及附圖中具體指出的結(jié)構(gòu)實(shí)現(xiàn)到并獲得。
32、本領(lǐng)域技術(shù)人員將會(huì)理解的是,能夠用本發(fā)明實(shí)現(xiàn)的目的和優(yōu)點(diǎn)不限于以上具體所述,并且根據(jù)以下詳細(xì)說(shuō)明將更清楚地理解本發(fā)明能夠?qū)崿F(xiàn)的上述和其他目的。