本發(fā)明涉及人工智能,尤其涉及一種基于大模型的知識抽取方法、裝置、設備和介質(zhì)。
背景技術(shù):
1、知識圖譜(knowledge?graph,kg)在現(xiàn)代信息系統(tǒng)中具有廣泛的應用,包括但不限于搜索引擎、社交媒體和電商等傳統(tǒng)領(lǐng)域,同時也逐步擴展到金融、醫(yī)療、教育等多個行業(yè)。知識圖譜是由頭實體、尾實體和它們之間的關(guān)系三部分組成的知識庫,從非結(jié)構(gòu)化數(shù)據(jù)中提取這些知識是構(gòu)建知識圖譜的重要基礎(chǔ)。當前,知識圖譜在各種應用場景中展現(xiàn)出其強大的組織和關(guān)聯(lián)能力,能夠顯著提升信息檢索、推薦系統(tǒng)以及智能問答等任務的性能。
2、目前常用的知識抽取方法依賴于大量標注數(shù)據(jù),利用深度學習算法實現(xiàn)抽取,即給定需要抽取的實體和關(guān)系類型,通過監(jiān)督學習訓練模型,得到具體的實體和關(guān)系。例如,實體提取的經(jīng)典算法是bilstm+crf(雙向長短期記憶網(wǎng)絡加條件隨機場),關(guān)系提取的代表性算法包括卷積神經(jīng)網(wǎng)絡(cnn)。這些方法雖然在一定程度上提高了知識抽取的自動化水平,但其嚴重依賴于大量的人工標注,勞動強度大,而且在針對垂直領(lǐng)域時,需要領(lǐng)域?qū)I(yè)知識,這進一步增加了標注過程的復雜度。雖然目前已有遠程監(jiān)督、遷移學習等方法來緩解標注數(shù)據(jù)有限的問題,但這些方法對于特定的垂直領(lǐng)域而言效果并不完美。因此,特定領(lǐng)域知識圖譜的推進很大程度上依賴于行業(yè)專家的參與,而數(shù)據(jù)標注成為其進步的重大障礙。
技術(shù)實現(xiàn)思路
1、為了解決依賴于大量標注數(shù)據(jù)進行知識抽取的技術(shù)問題,本發(fā)明提供了一種基于大模型的知識抽取方法、裝置、設備和介質(zhì)。
2、第一方面,本發(fā)明提供了一種基于大模型的知識抽取方法,所述方法包括:
3、獲取預設領(lǐng)域的本體,所述本體包括多個知識表示,所述知識表示中包括所述預設領(lǐng)域的實體類型和關(guān)系類型;
4、通過思維鏈cot提示、所述預設領(lǐng)域的自然語言文本和本體,對大模型進行調(diào)整修正;
5、依據(jù)所述cot提示,通過所述大模型對所述預設領(lǐng)域的待抽取文本進行識別,得到所述待抽取文本的三元組信息。
6、基于上述技術(shù)方案,進一步地,所述通過思維鏈cot提示、所述預設領(lǐng)域的自然語言文本和本體,對大模型進行調(diào)整修正,包括:
7、將所述預設領(lǐng)域的自然語言文本輸入所述大模型中,利用所述cot提示,逐步識別所述預設領(lǐng)域的自然語文文本中的實體和實體關(guān)系;
8、將識別到的所述預設領(lǐng)域的自然語文文本中的實體和實體關(guān)系和所述預設領(lǐng)域的本體進行比對對齊;
9、根據(jù)比對對齊結(jié)果,指導所述大模型進行修正。
10、基于上述技術(shù)方案,進一步地,所述將所述預設領(lǐng)域的自然語言文本輸入所述大模型中,利用所述cot提示,逐步識別所述預設領(lǐng)域的自然語文文本中的實體和實體關(guān)系,包括:
11、基于所述cot提示和所述預設領(lǐng)域的多個知識表示,將所述預設領(lǐng)域的示例輸入文本和示例輸出文本輸入所述大模型中,以使得所述大模型學會所述預設領(lǐng)域的三元組標準輸出格式;
12、利用所述預設領(lǐng)域的自然語言文本和推理步驟,得到所述預設領(lǐng)域的自然語言文本中的相關(guān)實體和關(guān)系。
13、基于上述技術(shù)方案,進一步地,所述利用所述預設領(lǐng)域的自然語言文本和推理步驟,得到所述預設領(lǐng)域的自然語言文本中的相關(guān)實體和關(guān)系,具體包括:
14、將所述預設領(lǐng)域的自然語言文本輸入所述大模型;
15、依據(jù)推理步驟,所述大模型對所述預設領(lǐng)域的自然語言文本執(zhí)行對應的操作,輸出所述預設領(lǐng)域的自然語言文本中的相關(guān)實體和關(guān)系。
16、基于上述技術(shù)方案,進一步地,所述依據(jù)推理步驟,所述大模型對所述預設領(lǐng)域的自然語言文本執(zhí)行對應的操作,輸出所述預設領(lǐng)域的自然語言文本中的相關(guān)實體和關(guān)系,包括:
17、依據(jù)所述引導詞中的推理步驟的順序詞和推理過程提示語句,所述大模型對所述預設領(lǐng)域的自然語文文本執(zhí)行處理后,輸出所述預設領(lǐng)域的自然語言文本中的相關(guān)實體和關(guān)系。
18、基于上述技術(shù)方案,進一步地,所述依據(jù)所述cot提示,通過所述大模型對所述預設領(lǐng)域的待抽取文本進行識別,得到所述待抽取文本的三元組信息,包括:
19、獲取所述預設領(lǐng)域的待抽取文本;
20、利用所述cot提示,獲取所述待抽取文本中的實體,再抽取所述待抽取文本中實體關(guān)系;
21、將所述待抽取文本中的實體和實體關(guān)系,與所述預設領(lǐng)域的本體進行比對后,按照所述預設領(lǐng)域的三元組標準輸出格式輸出所述待抽取文本的三元組信息。
22、第二方面,本發(fā)明還提供了一種基于大模型的知識抽取裝置,所述裝置包括:
23、第一處理模塊,用于獲取預設領(lǐng)域的本體,所述本體包括多個知識表示,所述知識表示中包括所述預設領(lǐng)域的實體類型和關(guān)系類型;
24、第二處理模塊,用于通過思維鏈cot提示、所述預設領(lǐng)域的自然語言文本和本體,對大模型進行調(diào)整修正;
25、第三處理模塊,用于依據(jù)所述cot提示,通過所述大模型對所述預設領(lǐng)域的待抽取文本進行識別,得到所述待抽取文本的三元組信息。
26、基于上述技術(shù)方案,進一步地,所述第二處理模塊,具體用于所述第二處理模塊,具體用于將所述預設領(lǐng)域的自然語言文本輸入所述大模型中,利用所述cot提示,逐步識別所述預設領(lǐng)域的自然語文文本中的實體和實體關(guān)系;
27、將識別到的所述預設領(lǐng)域的自然語文文本中的實體和實體關(guān)系和所述預設領(lǐng)域的本體進行比對對齊;
28、根據(jù)比對對齊結(jié)果,指導所述大模型進行修正。
29、基于上述技術(shù)方案,進一步地,所述第二處理模塊,具體用于基于所述cot提示和所述預設領(lǐng)域的多個知識表示,將所述預設領(lǐng)域的示例輸入文本和示例輸出文本輸入所述大模型中,以使得所述大模型學會所述預設領(lǐng)域的三元組標準輸出格式;
30、利用所述預設領(lǐng)域的自然語言文本和推理步驟,得到所述預設領(lǐng)域的自然語言文本中的相關(guān)實體和關(guān)系。
31、基于上述技術(shù)方案,進一步地,所述第二處理模塊,具體用于將所述預設領(lǐng)域的自然語言文本輸入所述大模型;
32、依據(jù)推理步驟,所述大模型對所述預設領(lǐng)域的自然語言文本執(zhí)行對應的操作,輸出所述預設領(lǐng)域的自然語言文本中的相關(guān)實體和關(guān)系。
33、基于上述技術(shù)方案,進一步地,所述第二處理模塊,具體用于依據(jù)所述引導詞中的推理步驟的順序詞和推理過程提示語句,所述大模型對所述預設領(lǐng)域的自然語文文本執(zhí)行處理后,輸出所述預設領(lǐng)域的自然語言文本中的相關(guān)實體和關(guān)系。
34、基于上述技術(shù)方案,進一步地,所述第三處理模塊,具體用于獲取所述預設領(lǐng)域的待抽取文本;
35、利用所述cot提示,獲取所述待抽取文本中的實體,再抽取所述待抽取文本中實體關(guān)系;
36、將所述待抽取文本中的實體和實體關(guān)系,與所述預設領(lǐng)域的本體進行比對后,按照所述預設領(lǐng)域的三元組標準輸出格式輸出所述待抽取文本的三元組信息。
37、第三方面,本發(fā)明還提供一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述技術(shù)方案中任一項所述的基于大模型的知識抽取方法。
38、第四方面,本發(fā)明還提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述技術(shù)方案中任一項所述的基于大模型的知識抽取方法。
39、本發(fā)明提供的一種基于大模型的知識抽取方法,包括獲取預設領(lǐng)域的本體,所述本體包括多個知識表示,所述知識表示中包括所述預設領(lǐng)域的實體類型和關(guān)系類型;通過思維鏈cot提示、所述預設領(lǐng)域的自然語言文本和本體,對大模型進行調(diào)整修正;依據(jù)所述cot提示,通過所述大模型對所述預設領(lǐng)域的待抽取文本進行識別,得到所述待抽取文本的三元組信息。本發(fā)明顯著提升了三元組提取的準確性和一致性,同時降低了對專家注釋的依賴,推動了知識圖譜構(gòu)建的自動化進程。