基于AI的檔案信息資源智能共享方法和系統(tǒng)

文檔序號：40400043發(fā)布日期：2024-12-20 12:23閱讀：3來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及檔案信息查詢，具體為基于ai的檔案信息資源智能共享方法和系統(tǒng)。

背景技術(shù)：

1、在當(dāng)前的信息化時代，檔案信息資源的管理與共享已成為各行各業(yè)不可或缺的一部分。目前，一些基于關(guān)鍵詞匹配的檔案信息資源共享方法被提出，試圖通過用戶輸入的關(guān)鍵詞在檔案數(shù)據(jù)庫中進(jìn)行檢索，以找到相關(guān)的檔案信息。然而，目前的關(guān)鍵詞匹配方法缺乏語義理解能力，無法處理用戶查詢中的同義詞、近義詞或上下文相關(guān)信息。這導(dǎo)致檢索結(jié)果往往不夠準(zhǔn)確，無法滿足用戶的實際需求。例如，用戶可能使用“項目資料”來查詢，而檔案中可能使用的是“項目文件”或“項目檔案”等不同的表述方式，傳統(tǒng)的關(guān)鍵詞匹配方法可能因此錯過這些相關(guān)信息。

2、而且，現(xiàn)有的檔案信息資源共享方法往往局限于單一的數(shù)據(jù)庫或文檔集合，無法跨多個維度的數(shù)據(jù)模塊進(jìn)行智能檢索和融合。這限制了檢索結(jié)果的全面性和準(zhǔn)確性，使得用戶難以獲得完整、準(zhǔn)確的檔案信息。

技術(shù)實現(xiàn)思路

1、本發(fā)明的目的在于提供基于ai的檔案信息資源智能共享方法和系統(tǒng)，以解決上述背景技術(shù)中提出的問題。

2、為實現(xiàn)上述目的，本發(fā)明提供如下技術(shù)方案：基于ai的檔案信息資源智能共享方法，所述方法包括：

3、步驟1：根據(jù)業(yè)務(wù)數(shù)據(jù)類型，預(yù)先構(gòu)建多個維度的數(shù)據(jù)模塊，包括檔案系統(tǒng)數(shù)據(jù)庫模塊、高維文檔向量數(shù)據(jù)庫模塊和檔案業(yè)務(wù)知識圖譜模塊；

4、步驟2：接收用戶輸入的檔案信息資源查詢請求，獲得第一查詢請求文本；

5、步驟3：利用自然語言處理工具對第一查詢請求文本進(jìn)行解析，包括分詞、詞性標(biāo)注、依存句法分析和關(guān)鍵詞提取，形成結(jié)構(gòu)化的關(guān)鍵詞列表；

6、步驟4：將結(jié)構(gòu)化后的關(guān)鍵詞列表傳入預(yù)訓(xùn)練的檔案信息資源理解大模型，并接收該模型輸出結(jié)果，作為第二查詢請求文本；所述檔案信息資源理解大模型用于對關(guān)鍵詞列表的語義進(jìn)行解析，生成增強(qiáng)的查詢文本；

7、步驟5：從多個維度的數(shù)據(jù)模塊中召回第二查詢請求文本，獲取多個候選答案；

8、步驟6：將第二查詢請求文本和多個候選答案按照預(yù)設(shè)的問答模版封裝成問答上下文文本，進(jìn)一步將問答上下文文本傳入通用大語言模型，利用通用大語言模型的自然語言理解能力，將多個候選答案進(jìn)行融合和優(yōu)化；

9、步驟7：獲取通用大語言模型的輸出，作為最優(yōu)回答，并將最優(yōu)回答返回給當(dāng)前用戶。

10、優(yōu)選的，步驟3中，結(jié)合tf-idf算法和textrank算法對關(guān)鍵詞進(jìn)行提取，首先利用tf-idf算法計算每個詞語的重要性權(quán)重，然后利用textrank算法基于依存句法樹構(gòu)建的圖結(jié)構(gòu)進(jìn)行迭代計算，最終選取權(quán)重較高的詞語作為關(guān)鍵詞，形成結(jié)構(gòu)化的關(guān)鍵詞列表；對于詞語wi，其tf-idf值為：

11、

12、其中，tf(wi)為詞語wi在文本中的出現(xiàn)頻率，df(wi)為包含詞語wi的文檔數(shù)，n為總文檔數(shù)。

13、優(yōu)選的，采用transformer架構(gòu)作為預(yù)訓(xùn)練檔案信息資源理解大模型的基礎(chǔ)，該架構(gòu)包含多個編碼器和解碼器層，每層由多頭自注意力機(jī)制和全連接神經(jīng)網(wǎng)絡(luò)組成，用于捕捉輸入文本的上下文信息和語義特征，模型構(gòu)建的步驟包括：

14、s1：收集并整理檔案庫中檔案信息資源文本數(shù)據(jù)，包括歷史檔案、政策文件和業(yè)務(wù)報告，作為預(yù)訓(xùn)練模型的語料庫；

15、s2：對語料庫進(jìn)行清洗、去重和分詞處理，形成預(yù)訓(xùn)練用的文本序列；

16、s3：在預(yù)訓(xùn)練過程中，隨機(jī)掩蓋語料庫中文本序列的一部分詞語，利用剩余的詞語序列作為輸入，訓(xùn)練模型預(yù)測被掩蓋的詞語，采用交叉熵?fù)p失函數(shù)作為優(yōu)化目標(biāo)，通過梯度下降算法更新模型參數(shù)；

17、設(shè)輸入文本序列為x＝{x1,x2,…,xn}，其中部分詞語被掩蓋得到xmasked，模型預(yù)測的被掩蓋詞語概率分布為pmodel(xxmasked)，真實被掩蓋詞語的分布為ptrue(x)，交叉熵?fù)p失函數(shù)為：

18、

19、s4：在預(yù)訓(xùn)練完成后，將模型在特定的檔案信息資源理解任務(wù)上進(jìn)行微調(diào)，以適應(yīng)不同的查詢需求和業(yè)務(wù)場景；微調(diào)過程中，根據(jù)任務(wù)需求調(diào)整模型輸出層，并采用相應(yīng)的損失函數(shù)和優(yōu)化算法進(jìn)行訓(xùn)練；

20、s5：在測試集上評估預(yù)訓(xùn)練檔案信息資源理解大模型的性能，包括準(zhǔn)確率、召回率和f1分?jǐn)?shù)指標(biāo)。

21、優(yōu)選的，所述步驟4中，將關(guān)鍵詞列表輸入到預(yù)訓(xùn)練的檔案信息資源理解大模型中，模型通過其內(nèi)部的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對關(guān)鍵詞列表進(jìn)行語義解析，包括對關(guān)鍵詞之間關(guān)系的識別、語義角色的標(biāo)注以及上下文信息的整合；基于模型對關(guān)鍵詞列表的語義解析結(jié)果，生成一個增強(qiáng)查詢文本，所述增強(qiáng)查詢文本不僅包含用戶原始查詢請求中的關(guān)鍵信息，還通過模型的語義理解能力進(jìn)行了擴(kuò)展和細(xì)化。

22、優(yōu)選的，所述步驟5中，根據(jù)步驟4生成的增強(qiáng)查詢文本，從預(yù)先構(gòu)建的多個維度的數(shù)據(jù)模塊中進(jìn)行檢索，數(shù)據(jù)模塊包括檔案系統(tǒng)數(shù)據(jù)庫模塊、高維文檔向量數(shù)據(jù)庫模塊和檔案業(yè)務(wù)知識圖譜模塊，多個維度的數(shù)據(jù)模塊分別存儲了不同類型的檔案信息資源；將各個數(shù)據(jù)模塊中召回的候選答案進(jìn)行融合，形成一個包含多個候選答案的集合。

23、優(yōu)選的，在每個數(shù)據(jù)模塊中，利用相應(yīng)的檢索算法和匹配機(jī)制，召回與查詢文本相關(guān)的候選答案：

24、對于檔案系統(tǒng)數(shù)據(jù)庫模塊，采用sql查詢語句進(jìn)行檢索；

25、對于高維文檔向量數(shù)據(jù)庫模塊，利用向量相似性計算來召回相似的文檔；

26、對于檔案業(yè)務(wù)知識圖譜模塊，利用圖遍歷算法或語義匹配算法找到與查詢相關(guān)的知識點(diǎn)。

27、優(yōu)選的，在s3中，梯度下降算法更新參數(shù)的公式為：

28、

29、其中，θ表示模型參數(shù)，包含模型需要學(xué)習(xí)的所有權(quán)重和偏置；α表示學(xué)習(xí)率，用于控制參數(shù)更新的步長；表示損失函數(shù)j(θ)關(guān)于參數(shù)θ的梯度，它是一個向量，指向損失函數(shù)增長最快的方向；:＝表示賦值操作，即更新參數(shù)θ的值。

30、優(yōu)選的，在步驟6中，將構(gòu)建好的問答上下文文本傳入通用大語言模型，利用通用大語言模型的自然語言理解能力，對多個候選答案進(jìn)行融合；融合過程中，通用大語言模型分析候選答案之間的邏輯關(guān)系、內(nèi)容相似度和信息互補(bǔ)性，生成一個綜合各個候選答案優(yōu)點(diǎn)的融合答案。

31、優(yōu)選的，一種基于ai的檔案信息資源智能共享系統(tǒng)，所述系統(tǒng)包括：

32、數(shù)據(jù)模塊構(gòu)建單元，用于根據(jù)業(yè)務(wù)數(shù)據(jù)類型，預(yù)先構(gòu)建多個維度的數(shù)據(jù)模塊；

33、用戶請求接收單元，用于接收用戶輸入的檔案信息資源查詢請求，并獲得第一查詢請求文本；

34、自然語言處理單元，用于利用自然語言處理工具對第一查詢請求文本進(jìn)行解析，解析過程包括分詞、詞性標(biāo)注、依存句法分析和關(guān)鍵詞提取，形成結(jié)構(gòu)化的關(guān)鍵詞列表；

35、語義解析單元，包括一個預(yù)訓(xùn)練的檔案信息資源理解大模型，用于接收結(jié)構(gòu)化后的關(guān)鍵詞列表，并對關(guān)鍵詞列表的語義進(jìn)行解析，生成增強(qiáng)查詢文本，作為第二查詢請求文本；

36、候選答案召回單元，用于從多個維度的數(shù)據(jù)模塊中召回第二查詢請求文本，并獲取多個候選答案；

37、答案融合優(yōu)化單元，用于將第二查詢請求文本和多個候選答案按照預(yù)設(shè)的問答模版封裝成問答上下文文本，并將問答上下文文本傳入通用大語言模型，利用通用大語言模型的自然語言理解能力，對多個候選答案進(jìn)行融合和優(yōu)化；

38、輸出單元，用于獲取通用大語言模型的輸出，將其作為最優(yōu)回答，并將最優(yōu)回答返回給當(dāng)前用戶。

39、與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果是：

40、本發(fā)明通過利用自然語言處理工具和預(yù)訓(xùn)練的檔案信息資源理解大模型，對用戶查詢請求進(jìn)行深度解析和語義擴(kuò)展，不僅能夠準(zhǔn)確識別用戶查詢中的關(guān)鍵詞，還能理解其同義詞、近義詞及上下文相關(guān)信息，從而大幅提升查詢的準(zhǔn)確性和全面性。

41、傳統(tǒng)方法往往局限于單一的數(shù)據(jù)庫或文檔集合，而本發(fā)明則構(gòu)建了多個維度的數(shù)據(jù)模塊，包括檔案系統(tǒng)數(shù)據(jù)庫模塊、高維文檔向量數(shù)據(jù)庫模塊和檔案業(yè)務(wù)知識圖譜模塊，使得系統(tǒng)能夠跨多個維度進(jìn)行智能檢索和融合，從而獲取更完整、更準(zhǔn)確的檔案信息，滿足用戶多樣化的查詢需求。

42、通過引入通用大語言模型，本發(fā)明能夠?qū)Χ鄠€候選答案進(jìn)行融合和優(yōu)化。這不僅能夠提升答案的準(zhǔn)確性和相關(guān)性，還能使答案更加符合用戶的自然語言習(xí)慣，從而提升用戶體驗。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：雷敏,曹潔,宋會俠,閆斌
技術(shù)所有人：中國地質(zhì)科學(xué)院地質(zhì)研究所
我是此專利的發(fā)明人

上一篇：一種可調(diào)光的滑板車車燈的制作方法
上一篇：一種粗苯脫水裝置及加工設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于AI的檔案信息資源智能共享方法和系統(tǒng)