本發(fā)明涉及自然語言處理和信息抽取,具體涉及一種基于假設(shè)關(guān)系識別的科學(xué)假說圖譜生成方法。
背景技術(shù):
1、在科學(xué)研究領(lǐng)域,科學(xué)假說的提出和驗證是推動學(xué)科發(fā)展的核心環(huán)節(jié)??茖W(xué)假說通常是在大量已有研究和理論的基礎(chǔ)上提出的,并且需要通過系統(tǒng)的實驗和數(shù)據(jù)分析來驗證。然而,隨著科學(xué)文獻(xiàn)的數(shù)量急劇增加,研究人員面臨著巨大的挑戰(zhàn),即如何從海量的文獻(xiàn)中有效地提取、整理和分析假設(shè)關(guān)系,以構(gòu)建科學(xué)假說圖譜,幫助指導(dǎo)后續(xù)研究。
2、近年來,隨著自然語言處理技術(shù)的發(fā)展,尤其是語義理解和關(guān)系抽取技術(shù)的進步,使得從非結(jié)構(gòu)化的科學(xué)文獻(xiàn)中自動提取有價值的信息成為可能。通過構(gòu)建科學(xué)假說圖譜,可以實現(xiàn)對復(fù)雜科學(xué)問題的可視化表達(dá),幫助研究人員更直觀地理解各假設(shè)之間的聯(lián)系及其與已知事實的關(guān)系。然而,現(xiàn)有科學(xué)假說圖譜構(gòu)建方法多依賴于手動標(biāo)注或者僅能處理特定領(lǐng)域的封閉知識體系,缺乏對領(lǐng)域假設(shè)關(guān)系的遷移能力,且自動化程度不高,難以適應(yīng)快速變化的科研環(huán)境。
技術(shù)實現(xiàn)思路
1、發(fā)明目的:本發(fā)明的目的是提供一種基于假設(shè)關(guān)系識別的科學(xué)假說圖譜生成方法,以解決背景技術(shù)中存在的問題。
2、技術(shù)方案:本發(fā)明所述的一種基于假設(shè)關(guān)系識別的科學(xué)假說圖譜生成方法,包括以下步驟:
3、(1)收集目標(biāo)領(lǐng)域?qū)W術(shù)文獻(xiàn):收集目標(biāo)領(lǐng)域的大規(guī)模學(xué)術(shù)文獻(xiàn),針對學(xué)術(shù)摘要和全文本內(nèi)容進行結(jié)構(gòu)化解析;
4、(2)識別與篩選假設(shè)關(guān)系陳述句:基于大語言模型、少樣本學(xué)習(xí)技術(shù)和大語言模型結(jié)構(gòu)化輸出工具,從學(xué)術(shù)文獻(xiàn)中自動識別結(jié)構(gòu)化假設(shè)關(guān)系陳述句;構(gòu)建語法特征與規(guī)則模板相結(jié)合的分類器,從假設(shè)關(guān)系陳述句中篩選符合條件的句子;
5、(3)識別多類型結(jié)構(gòu)化假設(shè)關(guān)系:結(jié)合大語言模型微調(diào)技術(shù)和預(yù)定義的假設(shè)關(guān)系架構(gòu)模式,從假設(shè)關(guān)系陳述句中識別多類型、結(jié)構(gòu)化假設(shè)關(guān)系;
6、(4)判別多類型假設(shè)關(guān)系:結(jié)合大語言模型與定制化規(guī)則模板,通過語義解析與邏輯推理機制自動甄別假設(shè)間的多種關(guān)系類型;
7、(5)處理假設(shè)關(guān)系標(biāo)準(zhǔn)化:基于數(shù)據(jù)驗證、縮寫擴展和詞形還原操作進行假設(shè)關(guān)系實體消歧、邏輯關(guān)系糾錯與假設(shè)沖突消融;
8、(6)自動生成科學(xué)假說圖譜:基于圖數(shù)據(jù)庫構(gòu)建領(lǐng)域科學(xué)假說圖譜,假設(shè)變量作為圖譜節(jié)點,多種假設(shè)關(guān)系類型作為圖譜邊屬性,實現(xiàn)領(lǐng)域知識因果關(guān)聯(lián)和結(jié)構(gòu)邏輯可視化。
9、進一步的,步驟(1)中,獲取目標(biāo)文獻(xiàn)的全文內(nèi)容,對于pdf格式內(nèi)容,使用pymupdf等python庫解析為文本格式;對于網(wǎng)頁全文內(nèi)容,使用elsevier?api或其他學(xué)術(shù)出版商api,獲取全文內(nèi)容;將學(xué)術(shù)文本的摘要和全文進行清洗后保存;其中,學(xué)術(shù)文獻(xiàn)的類型為公開出版的學(xué)術(shù)文獻(xiàn)。
10、進一步的,步驟(2)中,結(jié)構(gòu)化假設(shè)關(guān)系陳述句包括:假設(shè)關(guān)系陳述句類型、假設(shè)關(guān)系陳述句具體內(nèi)容、假設(shè)關(guān)系陳述句來源學(xué)術(shù)文本id,以及其他相關(guān)屬性;語法特征包括:句子的主謂賓結(jié)構(gòu)分析、時態(tài)分析、語義角色標(biāo)注;規(guī)則模板是指使用正則表達(dá)式從學(xué)術(shù)文本潛在包含假設(shè)關(guān)系的章節(jié)抽取基本結(jié)構(gòu)的模板;假設(shè)關(guān)系陳述句表示為:
11、
12、其中,”type”是假設(shè)關(guān)系陳述句的類型(假設(shè)部分、結(jié)果部分或結(jié)論部分),”sentence”是具體的內(nèi)容,”source”是所在的學(xué)術(shù)文本id;
13、分類器表示為:
14、;
15、其中, c(s)是分類結(jié)果,如果句子 s符合匹配條件,分類器標(biāo)記為1,否則標(biāo)記為0。
16、進一步的,步驟(3)中,預(yù)定義的假設(shè)關(guān)系架構(gòu)模式是指用于從假設(shè)關(guān)系陳述句中抽取多種類型的假設(shè)關(guān)系框架及其相應(yīng)的數(shù)據(jù)組織結(jié)構(gòu),其中,架構(gòu)模式采用嵌套json格式進行組織,以確保假設(shè)關(guān)系的多維度、層次化抽??;多類型、結(jié)構(gòu)化假設(shè)關(guān)系包括:自變量、因變量、效應(yīng)、中介變量、調(diào)節(jié)變量;具體如下:
17、設(shè) v代表假設(shè)變量類型的集合,集合 v被分為五個組成部分:自變量 v ind、因變量 v dep、效應(yīng) v eff、中介變量 v med和調(diào)節(jié)變量 v mod,則:
18、;
19、其中,自變量 v ind被視為其他變量變化的潛在原因;因變量 v dep會響應(yīng)自變量的變化,而效應(yīng) v eff則說明這些影響的正向或負(fù)向機制;中介變量 v med的作用是傳遞或解釋自變量和因變量之間的關(guān)系;調(diào)節(jié)變量 v mod展示了外部條件如何影響自變量和因變量之間關(guān)系的強度或方向;設(shè) r代表關(guān)系的集合,集合 r被構(gòu)建為一個嵌套的json對象:
20、;
21、在 r中,每個 v n都有一個paperid,鏈接到相應(yīng)的學(xué)術(shù)論文;接著,采用有監(jiān)督的微調(diào)來訓(xùn)練一個能夠從學(xué)術(shù)文本中提取變量的模型。
22、進一步的,步驟(4)中,多種關(guān)系類型,包括:正向關(guān)系、負(fù)向關(guān)系、調(diào)節(jié)作用、中介作用以及因果效應(yīng)。
23、本發(fā)明所述的一種基于假設(shè)關(guān)系識別的科學(xué)假說圖譜生成系統(tǒng),包括:
24、收集模塊(用于收集目標(biāo)領(lǐng)域?qū)W術(shù)文獻(xiàn)):收集目標(biāo)領(lǐng)域的大規(guī)模學(xué)術(shù)文獻(xiàn),針對學(xué)術(shù)摘要和全文本內(nèi)容進行結(jié)構(gòu)化解析;
25、陳述句模塊(用于識別與篩選假設(shè)關(guān)系陳述句):基于大語言模型、少樣本學(xué)習(xí)技術(shù)和大語言模型結(jié)構(gòu)化輸出工具,從學(xué)術(shù)全文中自動識別結(jié)構(gòu)化假設(shè)關(guān)系陳述句;構(gòu)建語法特征與規(guī)則模板相結(jié)合的分類器,從假設(shè)關(guān)系陳述句中篩選符合條件的句子;
26、多類型結(jié)構(gòu)化假設(shè)關(guān)系抽取模塊(用于識別多類型結(jié)構(gòu)化假設(shè)關(guān)系):結(jié)合大語言模型微調(diào)技術(shù)和預(yù)定義的假設(shè)關(guān)系架構(gòu)模式,從假設(shè)關(guān)系陳述句中識別多類型、結(jié)構(gòu)化假設(shè)關(guān)系;
27、判別模塊(用于判別多類型假設(shè)關(guān)系):結(jié)合大語言模型與定制化規(guī)則模板,通過語義解析與邏輯推理機制自動甄別假設(shè)間的多種關(guān)系類型;
28、標(biāo)準(zhǔn)化模塊(用于處理假設(shè)關(guān)系標(biāo)準(zhǔn)化):基于數(shù)據(jù)驗證、縮寫擴展和詞形還原操作進行假設(shè)關(guān)系實體消歧、邏輯關(guān)系糾錯與假設(shè)沖突消融;
29、科學(xué)假說圖譜模塊(用于自動生成科學(xué)假說圖譜):基于圖數(shù)據(jù)庫構(gòu)建領(lǐng)域科學(xué)假說圖譜,假設(shè)變量作為圖譜節(jié)點,多種假設(shè)關(guān)系類型作為圖譜邊屬性,實現(xiàn)領(lǐng)域知識因果關(guān)聯(lián)和結(jié)構(gòu)邏輯可視化。
30、進一步的,收集模塊中,獲取目標(biāo)文獻(xiàn)的摘要和全文內(nèi)容,對于pdf格式內(nèi)容,使用pymupdf等python庫解析為文本格式;對于網(wǎng)頁全文內(nèi)容,使用elsevier?api或其他學(xué)術(shù)出版商api,獲取全文內(nèi)容;將學(xué)術(shù)文本的摘要和全文進行清洗后保存;其中,學(xué)術(shù)文獻(xiàn)的類型為公開出版的學(xué)術(shù)文獻(xiàn)。
31、進一步的,陳述句模塊中,結(jié)構(gòu)化假設(shè)關(guān)系陳述句包括:假設(shè)關(guān)系陳述句類型、假設(shè)關(guān)系陳述句具體內(nèi)容、假設(shè)關(guān)系陳述句來源學(xué)術(shù)文本id,以及其他相關(guān)屬性;語法特征包括:句子的主謂賓結(jié)構(gòu)分析、時態(tài)分析、語義角色標(biāo)注;規(guī)則模板是指使用正則表達(dá)式從學(xué)術(shù)文本潛在包含假設(shè)關(guān)系的章節(jié)抽取基本結(jié)構(gòu)的模板。假設(shè)關(guān)系陳述句表示為:
32、
33、其中,”type”是假設(shè)關(guān)系陳述句的類型(假設(shè)部分、結(jié)果部分或結(jié)論部分),”sentence”是具體的內(nèi)容,”source”是所在的學(xué)術(shù)文本id;
34、分類器表示為:
35、;
36、其中, c(s)是分類結(jié)果,如果句子 s符合匹配條件,分類器標(biāo)記為1,否則標(biāo)記為0。
37、進一步的,多類型結(jié)構(gòu)化假設(shè)關(guān)系模塊中,預(yù)定義的假設(shè)關(guān)系架構(gòu)模式是指用于從假設(shè)關(guān)系陳述句中抽取多種類型的假設(shè)關(guān)系框架及其相應(yīng)的數(shù)據(jù)組織結(jié)構(gòu),其中,架構(gòu)模式采用嵌套json格式進行組織,以確保假設(shè)關(guān)系的多維度、層次化抽?。欢囝愋?、結(jié)構(gòu)化假設(shè)關(guān)系包括:自變量、因變量、效應(yīng)、中介變量、調(diào)節(jié)變量;具體如下:
38、設(shè) v代表假設(shè)變量類型的集合,集合 v被分為五個組成部分:自變量 v ind、因變量 v dep、效應(yīng) v eff、中介變量 v med和調(diào)節(jié)變量 v mod,則:
39、
40、其中,自變量 v ind被視為其他變量變化的潛在原因;因變量 v dep會響應(yīng)自變量的變化,而效應(yīng) v eff則說明這些影響的正向或負(fù)向機制;中介變量 v med的作用是傳遞或解釋自變量和因變量之間的關(guān)系;調(diào)節(jié)變量 v mod展示了外部條件如何影響自變量和因變量之間關(guān)系的強度或方向;設(shè) r代表關(guān)系的集合,集合 r被構(gòu)建為一個嵌套的json對象:
41、
42、在 r中,每個 v n都有一個paperid,鏈接到相應(yīng)的學(xué)術(shù)論文;接著,采用有監(jiān)督的微調(diào)來訓(xùn)練一個能夠從學(xué)術(shù)文本中提取變量的模型。
43、進一步的,判別模塊中,多種關(guān)系類型,包括:正向關(guān)系、負(fù)向關(guān)系、調(diào)節(jié)作用、中介作用以及因果效應(yīng)。
44、有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明具有如下顯著優(yōu)點:通過抽取學(xué)術(shù)文本中的多維變量關(guān)系,建立自變量、因變量、效應(yīng)、中介變量、調(diào)節(jié)變量等結(jié)構(gòu)化變量的假設(shè)關(guān)系,并基于數(shù)據(jù)驗證、縮寫擴展和詞形還原等操作進行假設(shè)關(guān)系實體消歧、邏輯關(guān)系糾錯與假設(shè)沖突消融,全面提高學(xué)術(shù)文本中假設(shè)關(guān)系的識別精確度和自動化水平,構(gòu)建系統(tǒng)化、結(jié)構(gòu)化的科學(xué)假說圖譜。