本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及一種基于雙向關(guān)系集成圖的常識知識生成方法、系統(tǒng)、存儲介質(zhì)及終端。
背景技術(shù):
1、在許多知識密集型應(yīng)用中,常識知識圖譜獲取(commonsense?knowledge?graphacquisition,ckga)是至關(guān)重要的。傳統(tǒng)的ckga方法依賴于節(jié)點(diǎn)級別和單向關(guān)系,使其在實(shí)體與關(guān)系之間的理解上存在淺薄之處。此外,這些方法還需要昂貴且勞動密集的人工注釋,導(dǎo)致生成的常識知識缺乏多樣性和質(zhì)量。
2、現(xiàn)有的ckga方法主要有以下幾類:
3、1.基于眾包的方法:例如,wordnet和conceptnet,通過人類專家或大眾群體的標(biāo)注來獲取高質(zhì)量的常識知識。然而,這些方法的成本高昂,且難以大規(guī)模擴(kuò)展。
4、2.基于語言模式的方法:通過從文本中提取的模式來獲取常識知識,這些方法通常包含復(fù)雜的工程流程,如文檔檢索、基于規(guī)則的抽取和知識聚類。這類方法的質(zhì)量不穩(wěn)定,因?yàn)槊恳徊襟E的效果都會顯著影響最終結(jié)果。
5、3.基于語言模型(lm)的方法:利用預(yù)訓(xùn)練語言模型(如gpt系列)生成知識,這些方法通過精心設(shè)計(jì)的提示詞查詢模型,以生成符合特定關(guān)系的知識。然而,現(xiàn)有方法通常處理節(jié)點(diǎn)級別關(guān)系,忽略了反向關(guān)系的語義,從而導(dǎo)致模型在理解關(guān)系時(shí)存在局限性。
6、除上述幾種流行的方法之外,基于大語言模型(large?language?models,llms)如chatgpt、gpt-4等的補(bǔ)全方法,已經(jīng)展示出處理各種復(fù)雜問題的潛力。然而,直接利用這些模型進(jìn)行常識知識生成存在質(zhì)量、格式和新穎性問題。
7、綜上,現(xiàn)有技術(shù)的缺陷和不足如下:
8、1.成本高,規(guī)模有限
9、傳統(tǒng)的眾包方法雖然能夠獲得高質(zhì)量的常識資源,但其勞動強(qiáng)度和成本限制了資源的可擴(kuò)展性?;谡Z言模式的方法雖然在一定程度上解決了成本問題,但其生成的知識質(zhì)量和穩(wěn)定性受限于文本選擇、提取策略等多個(gè)步驟的影響。
10、2.單向關(guān)系的局限
11、現(xiàn)有方法大多關(guān)注單向關(guān)系(如a是b的一部分),忽略了反向關(guān)系(如b包含a)。這種局限導(dǎo)致知識圖譜在處理復(fù)雜推理任務(wù)時(shí)存在明顯缺陷。例如,學(xué)習(xí)“a是b”時(shí)未必能自動推理出“b是a”,這種問題被稱為“反轉(zhuǎn)詛咒”(reversal?curse)。
12、3.語義理解不足
13、現(xiàn)有方法在處理常識知識時(shí)多采用節(jié)點(diǎn)級別的處理方式,直接將實(shí)體和關(guān)系輸入模型,這種方式未能充分利用上下文信息,導(dǎo)致語義理解不夠深刻。例如,許多方法在處理文本時(shí)未能有效結(jié)合上下文的語義信息,導(dǎo)致知識抽取的效果不理想。
14、4.人工標(biāo)注的高成本
15、基于眾包的方法雖然能夠獲取高質(zhì)量的常識知識,但對人工注釋的依賴較大,其過程費(fèi)時(shí)費(fèi)力,成本高昂,限制了資源的規(guī)模和擴(kuò)展性。
16、5.生成質(zhì)量和多樣性不足
17、現(xiàn)有方法生成的常識知識在質(zhì)量和多樣性上存在不足,往往需要進(jìn)一步的人工驗(yàn)證和調(diào)整。
18、6.缺乏系統(tǒng)化解決方案
19、現(xiàn)有的對比學(xué)習(xí)方法在知識圖譜補(bǔ)全任務(wù)中取得了一定成效,但大多數(shù)方法只關(guān)注某個(gè)特定的方面,如優(yōu)化模型架構(gòu)或改進(jìn)學(xué)習(xí)算法,缺乏一個(gè)綜合的、閉環(huán)的系統(tǒng)解決方案。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于克服現(xiàn)有技術(shù)中存在的至少一個(gè)技術(shù)問題,提供了一種基于雙向關(guān)系集成圖的常識知識生成方法、系統(tǒng)、存儲介質(zhì)及終端,實(shí)現(xiàn)生成高質(zhì)量的常識知識。
2、本發(fā)明的目的是通過以下技術(shù)方案來實(shí)現(xiàn)的:
3、第一方面,提供一種基于雙向關(guān)系集成圖的常識知識生成方法,所述方法包括以下步驟:
4、s1、構(gòu)建雙向關(guān)系數(shù)據(jù)集:通過引入反向關(guān)系構(gòu)建對稱圖;
5、s2、對比預(yù)訓(xùn)練:利用正反向?qū)Ρ葘W(xué)習(xí)增強(qiáng)模型對常識知識的雙向理解;
6、s3、指令調(diào)優(yōu):在對比預(yù)訓(xùn)練的基礎(chǔ)上進(jìn)行任務(wù)驅(qū)動的指令調(diào)優(yōu),確保模型有效生成符合要求的常識知識;
7、s4、判斷調(diào)優(yōu)后的模型是否達(dá)標(biāo),若不達(dá)標(biāo),則返回步驟s3繼續(xù)調(diào)優(yōu);
8、s5、使用調(diào)好的模型生成新知識。
9、優(yōu)選地,所述方法還包括步驟:
10、s6、判斷生成的新知識是否合理。
11、優(yōu)選地,構(gòu)建雙向關(guān)系數(shù)據(jù)集,包括:
12、使用種子數(shù)據(jù)集和模板句子生成正向和反向三元組。
13、優(yōu)選地,所述對比預(yù)訓(xùn)練包括:
14、利用正反向?qū)Ρ葘W(xué)習(xí),計(jì)算正向樣本與負(fù)樣本相似度,優(yōu)化對比學(xué)習(xí)損失函數(shù),更新模型權(quán)重。
15、優(yōu)選地,所述指令調(diào)優(yōu)包括:
16、構(gòu)建正向指令微調(diào)數(shù)據(jù)集、反向指令微調(diào)數(shù)據(jù)集以及二分類指令微調(diào)數(shù)據(jù)集;
17、使用三種指令微調(diào)數(shù)據(jù)集進(jìn)行指令微調(diào),三種任務(wù)的比例是8:1:1。
18、優(yōu)選地,所述判斷調(diào)優(yōu)后的模型是否達(dá)標(biāo),包括:
19、通過初步過濾和多層評分機(jī)制,確保生成知識的準(zhǔn)確性和新穎性。
20、優(yōu)選地,基于偏見去除的bert模型進(jìn)行初步過濾,多層評分機(jī)制采用結(jié)合三級評分制度和新穎度計(jì)算的評分模型。
21、第二方面,提供一種基于雙向關(guān)系集成圖的常識知識生成系統(tǒng),所述系統(tǒng)包括:
22、雙向關(guān)系數(shù)據(jù)集構(gòu)建模塊,用于構(gòu)建雙向關(guān)系數(shù)據(jù)集,其中通過引入反向關(guān)系構(gòu)建對稱圖;
23、對比預(yù)訓(xùn)練模塊,用于對比預(yù)訓(xùn)練,其中利用正反向?qū)Ρ葘W(xué)習(xí)增強(qiáng)模型對常識知識的雙向理解;
24、指令調(diào)優(yōu)模塊,用于指令調(diào)優(yōu),其中在對比預(yù)訓(xùn)練的基礎(chǔ)上進(jìn)行任務(wù)驅(qū)動的指令調(diào)優(yōu),確保模型有效生成符合要求的常識知識;
25、模型調(diào)優(yōu)判斷模塊,用于判斷調(diào)優(yōu)后的模型是否達(dá)標(biāo),若不達(dá)標(biāo),則返回指令調(diào)優(yōu)模塊繼續(xù)調(diào)優(yōu);
26、新知識生成模塊,用于使用調(diào)好的模型生成新知識。
27、第三方面,提供一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)任意一項(xiàng)所述的常識知識生成方法。
28、第四方面,提供一種終端,包括存儲器和處理器,存儲器上存儲有可在處理器上運(yùn)行的計(jì)算機(jī)指令,處理器運(yùn)行計(jì)算機(jī)指令時(shí)執(zhí)行所述的常識知識生成方法。
29、需要進(jìn)一步說明的是,上述各選項(xiàng)對應(yīng)的技術(shù)特征在不沖突的情況下可以相互組合或替換構(gòu)成新的技術(shù)方案。
30、與現(xiàn)有技術(shù)相比,本發(fā)明通過引入雙向關(guān)系集成圖對比預(yù)訓(xùn)練方法(birght),在常識知識圖譜獲取領(lǐng)域展現(xiàn)出顯著的優(yōu)勢,主要有益效果如下:
31、1.解決了成本高、規(guī)模有限的問題
32、傳統(tǒng)的眾包方法雖然能夠獲得高質(zhì)量的常識資源,但其勞動強(qiáng)度和成本限制了資源的可擴(kuò)展性。本發(fā)明通過引入大語言模型(large?language?models,llms),如chatgpt、gpt-4等,利用對比預(yù)訓(xùn)練和任務(wù)驅(qū)動的指令調(diào)優(yōu),降低了知識獲取的成本,擴(kuò)大了知識圖譜的規(guī)模。
33、2.克服了單向關(guān)系的局限性
34、現(xiàn)有方法大多關(guān)注單向關(guān)系(如a是b的一部分),忽略了反向關(guān)系(如b包含a)。這種局限導(dǎo)致知識圖譜在處理復(fù)雜推理任務(wù)時(shí)存在明顯缺陷。本發(fā)明通過構(gòu)建正向和反向關(guān)系的對稱圖,利用雙向關(guān)系集成圖,確保模型能夠同時(shí)學(xué)習(xí)正向和反向關(guān)系,解決了“反轉(zhuǎn)詛咒”(reversal?curse)問題,提高了模型的關(guān)系理解能力。
35、3.提高了語義理解深度
36、現(xiàn)有方法在處理常識知識時(shí)多采用節(jié)點(diǎn)級別的處理方式,直接將實(shí)體和關(guān)系輸入模型,未能充分利用上下文信息,導(dǎo)致語義理解不夠深刻。本發(fā)明通過設(shè)計(jì)自然語言模板句,將每種關(guān)系轉(zhuǎn)化為多樣化的句子模板,增強(qiáng)了模型對上下文的理解能力,從而提高了語義理解的深度和準(zhǔn)確性。
37、4.提供了系統(tǒng)化的解決方案
38、現(xiàn)有的對比學(xué)習(xí)方法在知識圖譜補(bǔ)全任務(wù)中取得了一定成效,但大多數(shù)方法只關(guān)注某個(gè)特定的方面,缺乏一個(gè)綜合的、閉環(huán)的系統(tǒng)解決方案。本發(fā)明通過引入語料構(gòu)建、對比預(yù)訓(xùn)練、任務(wù)驅(qū)動的指令調(diào)優(yōu)以及多層過濾與評價(jià)機(jī)制,提供了一個(gè)系統(tǒng)化的解決方案,確保生成的知識在質(zhì)量和多樣性上的全面提升。
39、5.創(chuàng)新的過濾與評分機(jī)制
40、本發(fā)明采用基于偏見去除的bert模型進(jìn)行初步過濾,結(jié)合三級評分制度和新穎度計(jì)算的評分模型,確保生成知識的準(zhǔn)確性和新穎性。三級評分制度通過gpt-3.5和gpt-4的多層評估,結(jié)合人工評分,確保評估結(jié)果的可靠性。新穎度評分通過基于嵌入模型的余弦相似度計(jì)算,克服了字符匹配方法的局限性,確保新生成知識的語義一致性和創(chuàng)新性。
41、6.提高了知識生成的效率和質(zhì)量
42、通過對比預(yù)訓(xùn)練和任務(wù)驅(qū)動的指令調(diào)優(yōu),本發(fā)明在生成常識知識的效率和質(zhì)量上取得了顯著的提升。采用多樣化的束搜索方法和精細(xì)化的指令調(diào)優(yōu),模型能夠生成符合要求的高質(zhì)量知識三元組,并通過多層過濾與評分機(jī)制確保其合理性和創(chuàng)新性。