本發(fā)明涉及核電dcs系統(tǒng),尤其涉及一種基于大語(yǔ)言模型的核電dcs運(yùn)維信息抽取系統(tǒng)和方法。
背景技術(shù):
1、核電dcs(distributed?control?system,分布式控制系統(tǒng))運(yùn)維數(shù)據(jù)中蘊(yùn)含著豐富的專(zhuān)家經(jīng)驗(yàn)知識(shí)及dcs健康管理知識(shí),精準(zhǔn)地將專(zhuān)家經(jīng)驗(yàn)和實(shí)踐知識(shí)轉(zhuǎn)換成計(jì)算機(jī)可理解的知識(shí)并開(kāi)展應(yīng)用,可有效幫助運(yùn)維人員快速報(bào)警響應(yīng),有助于獲得規(guī)范化高質(zhì)量的響應(yīng)結(jié)果,有助于開(kāi)展dcs狀態(tài)風(fēng)險(xiǎn)預(yù)測(cè),對(duì)電廠運(yùn)維人員進(jìn)行報(bào)警培訓(xùn)、風(fēng)險(xiǎn)預(yù)警、報(bào)警干預(yù)等進(jìn)行指導(dǎo)。因此,從核電廠dcs運(yùn)維需求出發(fā),如何對(duì)dcs多源異構(gòu)的運(yùn)維數(shù)據(jù)進(jìn)行知識(shí)抽取,進(jìn)而開(kāi)展下游應(yīng)用,已成為電廠亟待解決的問(wèn)題。然而,傳統(tǒng)的數(shù)據(jù)處理方法難以有效地從這些復(fù)雜的文本數(shù)據(jù)中提取出有用的知識(shí),存在自動(dòng)化程度低、處理效率低下等問(wèn)題。因此,開(kāi)發(fā)一種基于大語(yǔ)言模型的核電dcs多源異構(gòu)運(yùn)維數(shù)據(jù)信息抽取方法及系統(tǒng)顯得尤為必要。
2、核電dcs運(yùn)維領(lǐng)域具有大量的、多源、異構(gòu)數(shù)據(jù),但在實(shí)際的工程應(yīng)用中,核電dcs數(shù)據(jù)和技術(shù)文檔數(shù)據(jù)挖掘的效率不高。主要受到三個(gè)方面的影響。一、數(shù)據(jù)來(lái)源范圍且數(shù)據(jù)量大。核電dcs日志數(shù)據(jù)、運(yùn)維數(shù)據(jù)、工單數(shù)據(jù)等數(shù)據(jù)種類(lèi)繁多,且分散在不同系統(tǒng),難以批量獲得,且龐大的數(shù)據(jù)量也增加了數(shù)據(jù)分析的難度。二、受限于專(zhuān)業(yè)領(lǐng)域知識(shí)的限制。文檔管理人員和信息技術(shù)人員對(duì)核電技術(shù)文檔只能從編目、格式、結(jié)構(gòu)等方面進(jìn)行管理分析,并不能從內(nèi)容角度提取關(guān)鍵內(nèi)容進(jìn)行邏輯重組,以至于數(shù)據(jù)的二次利用率較低。三、關(guān)系型數(shù)據(jù)庫(kù)不利于快速響應(yīng)。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)在存儲(chǔ)日志數(shù)據(jù)、工單數(shù)據(jù)等規(guī)則過(guò)于冗余,且經(jīng)常存在信息孤島,難以對(duì)不同數(shù)據(jù)進(jìn)行關(guān)聯(lián)或難以表示數(shù)據(jù)可能具有的不同屬性以及基于多表進(jìn)行規(guī)則的快速查詢(xún)。這些問(wèn)題直接限制了對(duì)核電dcs運(yùn)維數(shù)據(jù)的全面認(rèn)知與科學(xué)管理,也一定程度制約了dcs報(bào)警異常的快速響應(yīng)。
3、目前,常見(jiàn)的信息抽取方法主要包括:基于規(guī)則、統(tǒng)計(jì)和深度學(xué)習(xí)的方法。傳統(tǒng)的基于規(guī)則的方法,需要先驗(yàn)知識(shí)來(lái)設(shè)定規(guī)則,對(duì)于復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù)識(shí)別效果不佳,而基于統(tǒng)計(jì)的方法則需要大量領(lǐng)域知識(shí)作為研究支撐,對(duì)于研究者的要求較高;基于深度學(xué)習(xí)的常用方法有長(zhǎng)短期記憶(long?short?time?memory,lstm)神經(jīng)網(wǎng)絡(luò)和圖神經(jīng)網(wǎng)絡(luò)等,雖然可以有效地提取上下文文本特征,但需要大量的數(shù)據(jù)標(biāo)注工作。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于大語(yǔ)言模型的核電dcs運(yùn)維信息抽取系統(tǒng)和方法,解決了多源異構(gòu)運(yùn)維數(shù)據(jù)在缺少專(zhuān)業(yè)領(lǐng)域知識(shí)和大量標(biāo)注情況的信息抽取的問(wèn)題。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
3、一方面,本發(fā)明提供了一種基于大語(yǔ)言模型的核電dcs運(yùn)維信息抽取系統(tǒng),包括:
4、核電dcs多源異構(gòu)運(yùn)維數(shù)據(jù)收集模塊,用于收集核電dcs領(lǐng)域的多源異構(gòu)運(yùn)維數(shù)據(jù);
5、核電dcs多源異構(gòu)運(yùn)維數(shù)據(jù)預(yù)處理模塊,用于將收集的核電dcs領(lǐng)域的多源異構(gòu)運(yùn)維數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,形成數(shù)據(jù)樣本集;
6、核電dcs多源異構(gòu)運(yùn)維數(shù)據(jù)領(lǐng)域詞匯嵌入模塊,用于用于使用嵌入(embedding)模型將dcs領(lǐng)域詞匯進(jìn)行嵌入,提升大語(yǔ)言模型對(duì)dcs領(lǐng)域特殊詞匯的識(shí)別能力;
7、核電dcs多源異構(gòu)運(yùn)維數(shù)據(jù)信息抽取模塊,用于本地化部署大語(yǔ)言模型,利用“分步”提示的提示工程模板,引導(dǎo)大語(yǔ)言模型按提示工程進(jìn)行信息抽取,提升大語(yǔ)言模型信息抽取質(zhì)量;同時(shí),依托提示工程,利用大語(yǔ)言模型對(duì)抽取后的英文文本信息進(jìn)行翻譯;
8、核電dcs多源異構(gòu)運(yùn)維數(shù)據(jù)信息融合模塊,用于將大語(yǔ)言模型及其他方法抽取的信息進(jìn)行知識(shí)融合,形成本地知識(shí)庫(kù)。
9、在一些實(shí)施例中,多源異構(gòu)運(yùn)維數(shù)據(jù)既包含清單、列表等結(jié)構(gòu)化數(shù)據(jù),也包含報(bào)告、手冊(cè)、規(guī)程等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。具體包括報(bào)警日志、故障手冊(cè)、報(bào)警規(guī)程、風(fēng)險(xiǎn)分析、檢修方案、搶修報(bào)告等數(shù)據(jù)文件。
10、在一些實(shí)施例中,核電dcs多源異構(gòu)運(yùn)維數(shù)據(jù)預(yù)處理模塊對(duì)收集的數(shù)據(jù)進(jìn)行清洗,去除噪聲和冗余信息,將不同格式的數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為標(biāo)準(zhǔn)格式。
11、在一些實(shí)施例中,核電dcs多源異構(gòu)運(yùn)維數(shù)據(jù)信息抽取模塊通過(guò)本地化部署大語(yǔ)言模型,利用滿(mǎn)足信息抽取的提示方法,引導(dǎo)大語(yǔ)言模型按用戶(hù)需求開(kāi)展信息抽取任務(wù),并結(jié)合上述提示工程開(kāi)展信息抽取并對(duì)抽取內(nèi)容翻譯。。
12、另一方面,本發(fā)明提供一種基于大語(yǔ)言模型的核電dcs運(yùn)維信息抽取方法,包括:
13、步驟1:收集與核電運(yùn)維的多源異構(gòu)文本數(shù)據(jù);
14、步驟2:對(duì)步驟1中收集的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理;
15、步驟3:使用嵌入(embedding)模型將dcs領(lǐng)域詞匯進(jìn)行嵌入;
16、步驟4:用大語(yǔ)言模型進(jìn)行信息抽取,本地化部署大語(yǔ)言模型,利用“分步”提示的提示工程,針對(duì)多源異構(gòu)數(shù)據(jù)樣本,采用“分步”提示方法+大語(yǔ)言模型抽取數(shù)據(jù)中的關(guān)鍵信息,并實(shí)現(xiàn)抽取文本的自動(dòng)翻譯;
17、步驟5:對(duì)抽取的多源異構(gòu)運(yùn)維數(shù)據(jù)進(jìn)行融合,消除冗余信息和矛盾信息。
18、在一些實(shí)施例中,步驟2包括:
19、步驟2.1:對(duì)收集的數(shù)據(jù)進(jìn)行清洗,去除噪聲和冗余信息;
20、步驟2.2:將不同格式的數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為標(biāo)準(zhǔn)格式;
21、步驟2.3:針對(duì)中文文本,進(jìn)行分詞處理,并去除停用詞,以降低特征向量的維度大小、提高抽取知識(shí)的準(zhǔn)確度;
22、步驟2.4:對(duì)少量部分?jǐn)?shù)據(jù)進(jìn)行標(biāo)注,為大語(yǔ)言模型的信息抽取提供少量標(biāo)注樣本。
23、步驟3中,將dcs領(lǐng)域字詞映射到低維向量空間,對(duì)文本進(jìn)行向量編碼,將自然語(yǔ)言文本轉(zhuǎn)換成計(jì)算機(jī)能夠識(shí)別的向量表示,詞嵌入公式表達(dá)為:
24、e:v→rd
25、
26、式中,e為嵌入函數(shù),v為詞匯表,d為嵌入的維度,v為詞匯表中的詞。
27、步驟4中,利用提示工程,基于提示學(xué)習(xí)和少樣本學(xué)習(xí)的大語(yǔ)言模型進(jìn)行實(shí)體抽??;同時(shí),依托提示工程,對(duì)抽取后的英文文本信息進(jìn)行英譯中的詞匯翻譯。對(duì)于結(jié)構(gòu)化數(shù)據(jù),利用抽取關(guān)鍵字段的提示模版,通過(guò)大語(yǔ)言模型讀取dcs系統(tǒng)導(dǎo)出的字段的數(shù)據(jù),經(jīng)數(shù)據(jù)預(yù)處理后直接作為抽取信息;對(duì)于半結(jié)構(gòu)化數(shù)據(jù),利用正則表達(dá)式匹配、詞典匹配、模板匹配等基于規(guī)則的提示模版,抽取日志數(shù)據(jù)中實(shí)體信息;對(duì)于非結(jié)構(gòu)化數(shù)據(jù),使用“分步”提示的提示學(xué)習(xí)和少樣本學(xué)習(xí)的大語(yǔ)言模型進(jìn)行實(shí)體抽取。
28、步驟4中,對(duì)于非結(jié)構(gòu)化數(shù)據(jù),以langchain+chatglm3-6b(也可改為其他開(kāi)源大語(yǔ)言模型,如llama/baichuan/qwen等)為基礎(chǔ)模型,在prompt提示方面,以條件和任務(wù)進(jìn)行驅(qū)動(dòng),采用“分步提示法”(需求提示、領(lǐng)域知識(shí)提示、樣例提示)提示進(jìn)行抽取。
29、步驟5中,將提取的同類(lèi)別實(shí)體進(jìn)行向量化編碼,進(jìn)行文本相似度計(jì)算,余弦相似度計(jì)算公式為:
30、
31、式中,a·b是向量a和向量b的點(diǎn)積,||a||和||b||是向量的歐幾里得范數(shù);
32、歐式距離計(jì)算公式為:
33、
34、與現(xiàn)有技術(shù)相比,本發(fā)明提供的基于大語(yǔ)言模型的核電dcs運(yùn)維信息抽取系統(tǒng)和方法具有以下有益效果:
35、本發(fā)明基于大語(yǔ)言模型(large?language?model,llm)對(duì)自然語(yǔ)言的理解能力和上下文推理能力,提供了一種基于大語(yǔ)言模型的核電dcs運(yùn)維信息抽取方法及系統(tǒng),能夠免去一般信息抽取繁重的數(shù)據(jù)標(biāo)注工作,更好地處理多源異構(gòu)復(fù)雜的文本數(shù)據(jù)。
36、本發(fā)明具有高效的數(shù)據(jù)處理和強(qiáng)大的理解能力,利用大語(yǔ)言模型處理多源異構(gòu)運(yùn)維數(shù)據(jù),提高數(shù)據(jù)整合和知識(shí)抽取的效率。大語(yǔ)言模型經(jīng)過(guò)大量文本數(shù)據(jù)的訓(xùn)練,具備較強(qiáng)的語(yǔ)義理解能力,能夠更好地理解文本內(nèi)容和上下文關(guān)系。
37、本發(fā)明具有自動(dòng)化程度高和準(zhǔn)確的語(yǔ)義理解,大語(yǔ)言模型可以自動(dòng)執(zhí)行實(shí)體識(shí)別任務(wù),減少了對(duì)人工標(biāo)注的依賴(lài),提高了自動(dòng)化程度。大語(yǔ)言模型具備強(qiáng)大的語(yǔ)義理解能力,能夠準(zhǔn)確提取和處理文本中的關(guān)鍵信息。
38、本發(fā)明能提高構(gòu)建效率和易于集成、擴(kuò)展,大語(yǔ)言模型可以快速處理大量文本數(shù)據(jù),提高信息抽取的效率;大語(yǔ)言模型易于與其他系統(tǒng)和工具集成,也便于根據(jù)需要進(jìn)行擴(kuò)展和優(yōu)化。