本發(fā)明涉及計(jì)算機(jī)技術(shù)應(yīng)用領(lǐng)域,尤其涉及一種基于大語言模型的文獻(xiàn)內(nèi)容抽取方法和系統(tǒng)。
背景技術(shù):
1、在目前大模型技術(shù)較為流行的背景下,面向科研領(lǐng)域,科研工作者在日常科研工作中需要閱讀大量文獻(xiàn)資料,以便聚焦某些有用的數(shù)據(jù)和內(nèi)容,通常閱讀文獻(xiàn)就占據(jù)了工作中大部分時(shí)間,而其中涉及相關(guān)研究領(lǐng)域的內(nèi)容寥寥甚少,科研人員因?yàn)殚喿x文獻(xiàn)造成的科研產(chǎn)出效率不高的情況普遍存在。在這樣的背景下,部分追求提升科研效率的工作者提出了相關(guān)訴求,希望能夠通過大模型技術(shù),發(fā)揮其語義理解優(yōu)勢,在科研文獻(xiàn)閱讀和關(guān)鍵數(shù)據(jù)內(nèi)容提取上有所實(shí)踐。目前市面上針對(duì)文獻(xiàn)抽取的產(chǎn)品應(yīng)用并不廣泛,尤其在針對(duì)某個(gè)科研領(lǐng)域的專業(yè)化模型應(yīng)用層面更不夠深入和成熟,本發(fā)明選取地質(zhì)學(xué)領(lǐng)域作為切入口,希望解決其領(lǐng)域內(nèi)科研人員對(duì)文獻(xiàn)閱讀和內(nèi)容獲取低效的問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于科研工作場景下,針對(duì)文獻(xiàn)閱讀,個(gè)性化采集文獻(xiàn)重點(diǎn)內(nèi)容,提供一種基于大語言模型的文獻(xiàn)內(nèi)容抽取方法和系統(tǒng),用于幫助科研人員提升效率,減少無效時(shí)間投入,并個(gè)性化保存規(guī)整文獻(xiàn)數(shù)據(jù)。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種基于大語言模型的文獻(xiàn)內(nèi)容抽取方法,包括以下步驟:
3、步驟一:對(duì)文獻(xiàn)內(nèi)容進(jìn)行格式化處理,形成結(jié)構(gòu)化數(shù)據(jù)視圖;
4、步驟二:基于所述步驟一得到的結(jié)構(gòu)化數(shù)據(jù)視圖,選擇目標(biāo)文獻(xiàn)的抽取方式;所述抽取方式包括表格抽取、基礎(chǔ)抽取和自定義屬性抽?。?/p>
5、步驟三:根據(jù)所述步驟二選擇的抽取方式,調(diào)用大語言模型中的抽取算法進(jìn)行文獻(xiàn)內(nèi)容的抽取;
6、步驟四:將所述步驟三抽取的數(shù)據(jù)進(jìn)行展示;
7、步驟五:將所述步驟四展示的數(shù)據(jù)全量保存為記錄,或根據(jù)用戶自定義保存成歸檔數(shù)據(jù)。
8、進(jìn)一步地,所述步驟一具體為:上傳pdf格式的文獻(xiàn)文件;識(shí)別文獻(xiàn)的元數(shù)據(jù)內(nèi)容,元數(shù)據(jù)主要包括作者、年限、摘要、段落內(nèi)容、表格元素和圖片元素;將識(shí)別到的元數(shù)據(jù)通過mmd文件或json數(shù)據(jù)保存到對(duì)象文件存儲(chǔ)中,形成結(jié)構(gòu)化數(shù)據(jù)視圖。
9、進(jìn)一步地,所述步驟二中,所述表格抽取為:直接提取文獻(xiàn)中的表格數(shù)據(jù),并以latex語言輸出;
10、所述基礎(chǔ)抽取為:執(zhí)行固定輸入?yún)?shù),提取文獻(xiàn)中的基礎(chǔ)元數(shù)據(jù)信息,包括作者、年代、摘要、論點(diǎn)、結(jié)論、討論方向;
11、所述自定義屬性抽取為:輸入屬性定義和屬性關(guān)系;其中,屬性定義包括屬性名稱、屬性描述、屬性類型、屬性提示詞;屬性關(guān)系用于確定屬性間的父子關(guān)系,若沒有指定父屬性,則采用同級(jí)屬性策略抽取。
12、進(jìn)一步地,所述步驟三中,若抽取方式為表格抽取,則直接提取文獻(xiàn)結(jié)構(gòu)化內(nèi)容數(shù)據(jù);
13、若抽取方式為基礎(chǔ)抽取,則調(diào)用大模型,通過大模型輸出的結(jié)果,匯總基礎(chǔ)屬性數(shù)據(jù)返回;
14、若抽取方式為自定義屬性抽取,則依據(jù)用戶定義的屬性,通過大模型語義理解,返回相關(guān)屬性的抽取結(jié)果;對(duì)抽取結(jié)果進(jìn)行溯源,找到其在文獻(xiàn)中相關(guān)內(nèi)容的具體位置,并以坐標(biāo)集合的形式返回。
15、進(jìn)一步地,所述步驟三中,抽取過程采用并發(fā)抽取方式,其并發(fā)拆分策略為先按照文檔,再按照屬性層面拆分并發(fā)數(shù)。
16、進(jìn)一步地,所述步驟四具體為:若抽取類型為表格抽取數(shù)據(jù),則使用latex語言進(jìn)行描述,并通過前端渲染成對(duì)應(yīng)的表格視圖;
17、若抽取類型為基礎(chǔ)抽取或自定義屬性抽取數(shù)據(jù),則通過二維表格展示,其中,表格的列用于表示屬性名,行則根據(jù)主屬性的抽取值進(jìn)行分組,以展示不同屬性值組合的內(nèi)容。
18、進(jìn)一步地,所述步驟五中,將抽取的數(shù)據(jù)根據(jù)用戶自定義保存成歸檔數(shù)據(jù)包括:用戶創(chuàng)建個(gè)人數(shù)據(jù)庫表用于關(guān)聯(lián)保存本次抽取數(shù)據(jù);若抽取的數(shù)據(jù)為二維表格數(shù)據(jù),則選擇單元格的方式,識(shí)別并轉(zhuǎn)換成文檔型數(shù)據(jù)格式保存到數(shù)據(jù)庫中。
19、為實(shí)現(xiàn)上述目的,本發(fā)明還提供了一種基于大語言模型的文獻(xiàn)內(nèi)容抽取系統(tǒng),包括:
20、文獻(xiàn)導(dǎo)入模塊,用于將格式化處理后的文獻(xiàn)導(dǎo)入抽取工具中;
21、屬性管理模塊,用于定義抽取屬性集合信息,其中,基礎(chǔ)抽取和自定義屬性抽取均依賴屬性管理模塊定義的屬性集合信息;
22、數(shù)據(jù)抽取模塊,用于調(diào)用大語言模型中的抽取算法進(jìn)行文獻(xiàn)內(nèi)容的抽取,實(shí)現(xiàn)系統(tǒng)和大語言模型算法服務(wù)的交互;
23、記錄保存模塊,用于解析和保存抽取過程數(shù)據(jù)和結(jié)果數(shù)據(jù),實(shí)現(xiàn)不同數(shù)據(jù)的解析和轉(zhuǎn)換;
24、個(gè)人數(shù)據(jù)庫管理模塊,用于自定義選擇存入個(gè)人數(shù)據(jù)庫的二維表格數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)存。
25、為實(shí)現(xiàn)上述目的,本發(fā)明還提供了一種電子設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器與所述處理器耦接;其中,所述存儲(chǔ)器用于存儲(chǔ)程序數(shù)據(jù),所述處理器用于執(zhí)行所述程序數(shù)據(jù)以實(shí)現(xiàn)上述的基于大語言模型的文獻(xiàn)內(nèi)容抽取方法。
26、為實(shí)現(xiàn)上述目的,本發(fā)明還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的基于大語言模型的文獻(xiàn)內(nèi)容抽取方法。
27、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:本發(fā)明可定義多種不同類型的抽取數(shù)據(jù),提供自定義屬性抽取,相較于現(xiàn)有文獻(xiàn)抽取工具預(yù)置的固定抽取內(nèi)容更為靈活。同時(shí),對(duì)抽取后數(shù)據(jù)的保存也采用了自由選擇的方式,針對(duì)有效數(shù)據(jù)的處理更加準(zhǔn)確和靈活。
1.一種基于大語言模型的文獻(xiàn)內(nèi)容抽取方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于大語言模型的文獻(xiàn)內(nèi)容抽取方法,其特征在于,所述步驟一具體為:上傳pdf格式的文獻(xiàn)文件;識(shí)別文獻(xiàn)的元數(shù)據(jù)內(nèi)容,元數(shù)據(jù)主要包括作者、年限、摘要、段落內(nèi)容、表格元素和圖片元素;將識(shí)別到的元數(shù)據(jù)通過mmd文件或json數(shù)據(jù)保存到對(duì)象文件存儲(chǔ)中,形成結(jié)構(gòu)化數(shù)據(jù)視圖。
3.根據(jù)權(quán)利要求1所述的基于大語言模型的文獻(xiàn)內(nèi)容抽取方法,其特征在于,所述步驟二中,所述表格抽取為:直接提取文獻(xiàn)中的表格數(shù)據(jù),并以latex語言輸出;
4.根據(jù)權(quán)利要求3所述的基于大語言模型的文獻(xiàn)內(nèi)容抽取方法,其特征在于,所述步驟三中,若抽取方式為表格抽取,則直接提取文獻(xiàn)結(jié)構(gòu)化內(nèi)容數(shù)據(jù);
5.根據(jù)權(quán)利要求1所述的基于大語言模型的文獻(xiàn)內(nèi)容抽取方法,其特征在于,所述步驟三中,抽取過程采用并發(fā)抽取方式,其并發(fā)拆分策略為先按照文檔,再按照屬性層面拆分并發(fā)數(shù)。
6.根據(jù)權(quán)利要求1所述的基于大語言模型的文獻(xiàn)內(nèi)容抽取方法,其特征在于,所述步驟四具體為:若抽取類型為表格抽取數(shù)據(jù),則使用latex語言進(jìn)行描述,并通過前端渲染成對(duì)應(yīng)的表格視圖;
7.根據(jù)權(quán)利要求6所述的基于大語言模型的文獻(xiàn)內(nèi)容抽取方法,其特征在于,所述步驟五中,將抽取的數(shù)據(jù)根據(jù)用戶自定義保存成歸檔數(shù)據(jù)包括:用戶創(chuàng)建個(gè)人數(shù)據(jù)庫表用于關(guān)聯(lián)保存本次抽取數(shù)據(jù);若抽取的數(shù)據(jù)為二維表格數(shù)據(jù),則選擇單元格的方式,識(shí)別并轉(zhuǎn)換成文檔型數(shù)據(jù)格式保存到數(shù)據(jù)庫中。
8.一種實(shí)現(xiàn)如權(quán)利要求1所述方法的基于大語言模型的文獻(xiàn)內(nèi)容抽取系統(tǒng),其特征在于,包括:
9.一種電子設(shè)備,包括存儲(chǔ)器和處理器,其特征在于,所述存儲(chǔ)器與所述處理器耦接;其中,所述存儲(chǔ)器用于存儲(chǔ)程序數(shù)據(jù),所述處理器用于執(zhí)行所述程序數(shù)據(jù)以實(shí)現(xiàn)上述權(quán)利要求1-7任一項(xiàng)所述的基于大語言模型的文獻(xiàn)內(nèi)容抽取方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-7任一項(xiàng)所述的基于大語言模型的文獻(xiàn)內(nèi)容抽取方法。