本發(fā)明涉及檔案信息查詢,具體為基于ai的檔案信息資源智能共享方法和系統(tǒng)。
背景技術(shù):
1、在當(dāng)前的信息化時代,檔案信息資源的管理與共享已成為各行各業(yè)不可或缺的一部分。目前,一些基于關(guān)鍵詞匹配的檔案信息資源共享方法被提出,試圖通過用戶輸入的關(guān)鍵詞在檔案數(shù)據(jù)庫中進(jìn)行檢索,以找到相關(guān)的檔案信息。然而,目前的關(guān)鍵詞匹配方法缺乏語義理解能力,無法處理用戶查詢中的同義詞、近義詞或上下文相關(guān)信息。這導(dǎo)致檢索結(jié)果往往不夠準(zhǔn)確,無法滿足用戶的實際需求。例如,用戶可能使用“項目資料”來查詢,而檔案中可能使用的是“項目文件”或“項目檔案”等不同的表述方式,傳統(tǒng)的關(guān)鍵詞匹配方法可能因此錯過這些相關(guān)信息。
2、而且,現(xiàn)有的檔案信息資源共享方法往往局限于單一的數(shù)據(jù)庫或文檔集合,無法跨多個維度的數(shù)據(jù)模塊進(jìn)行智能檢索和融合。這限制了檢索結(jié)果的全面性和準(zhǔn)確性,使得用戶難以獲得完整、準(zhǔn)確的檔案信息。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供基于ai的檔案信息資源智能共享方法和系統(tǒng),以解決上述背景技術(shù)中提出的問題。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:基于ai的檔案信息資源智能共享方法,所述方法包括:
3、步驟1:根據(jù)業(yè)務(wù)數(shù)據(jù)類型,預(yù)先構(gòu)建多個維度的數(shù)據(jù)模塊,包括檔案系統(tǒng)數(shù)據(jù)庫模塊、高維文檔向量數(shù)據(jù)庫模塊和檔案業(yè)務(wù)知識圖譜模塊;
4、步驟2:接收用戶輸入的檔案信息資源查詢請求,獲得第一查詢請求文本;
5、步驟3:利用自然語言處理工具對第一查詢請求文本進(jìn)行解析,包括分詞、詞性標(biāo)注、依存句法分析和關(guān)鍵詞提取,形成結(jié)構(gòu)化的關(guān)鍵詞列表;
6、步驟4:將結(jié)構(gòu)化后的關(guān)鍵詞列表傳入預(yù)訓(xùn)練的檔案信息資源理解大模型,并接收該模型輸出結(jié)果,作為第二查詢請求文本;所述檔案信息資源理解大模型用于對關(guān)鍵詞列表的語義進(jìn)行解析,生成增強(qiáng)的查詢文本;
7、步驟5:從多個維度的數(shù)據(jù)模塊中召回第二查詢請求文本,獲取多個候選答案;
8、步驟6:將第二查詢請求文本和多個候選答案按照預(yù)設(shè)的問答模版封裝成問答上下文文本,進(jìn)一步將問答上下文文本傳入通用大語言模型,利用通用大語言模型的自然語言理解能力,將多個候選答案進(jìn)行融合和優(yōu)化;
9、步驟7:獲取通用大語言模型的輸出,作為最優(yōu)回答,并將最優(yōu)回答返回給當(dāng)前用戶。
10、優(yōu)選的,步驟3中,結(jié)合tf-idf算法和textrank算法對關(guān)鍵詞進(jìn)行提取,首先利用tf-idf算法計算每個詞語的重要性權(quán)重,然后利用textrank算法基于依存句法樹構(gòu)建的圖結(jié)構(gòu)進(jìn)行迭代計算,最終選取權(quán)重較高的詞語作為關(guān)鍵詞,形成結(jié)構(gòu)化的關(guān)鍵詞列表;對于詞語wi,其tf-idf值為:
11、
12、其中,tf(wi)為詞語wi在文本中的出現(xiàn)頻率,df(wi)為包含詞語wi的文檔數(shù),n為總文檔數(shù)。
13、優(yōu)選的,采用transformer架構(gòu)作為預(yù)訓(xùn)練檔案信息資源理解大模型的基礎(chǔ),該架構(gòu)包含多個編碼器和解碼器層,每層由多頭自注意力機(jī)制和全連接神經(jīng)網(wǎng)絡(luò)組成,用于捕捉輸入文本的上下文信息和語義特征,模型構(gòu)建的步驟包括:
14、s1:收集并整理檔案庫中檔案信息資源文本數(shù)據(jù),包括歷史檔案、政策文件和業(yè)務(wù)報告,作為預(yù)訓(xùn)練模型的語料庫;
15、s2:對語料庫進(jìn)行清洗、去重和分詞處理,形成預(yù)訓(xùn)練用的文本序列;
16、s3:在預(yù)訓(xùn)練過程中,隨機(jī)掩蓋語料庫中文本序列的一部分詞語,利用剩余的詞語序列作為輸入,訓(xùn)練模型預(yù)測被掩蓋的詞語,采用交叉熵?fù)p失函數(shù)作為優(yōu)化目標(biāo),通過梯度下降算法更新模型參數(shù);
17、設(shè)輸入文本序列為x={x1,x2,…,xn},其中部分詞語被掩蓋得到xmasked,模型預(yù)測的被掩蓋詞語概率分布為pmodel(xxmasked),真實被掩蓋詞語的分布為ptrue(x),交叉熵?fù)p失函數(shù)為:
18、
19、s4:在預(yù)訓(xùn)練完成后,將模型在特定的檔案信息資源理解任務(wù)上進(jìn)行微調(diào),以適應(yīng)不同的查詢需求和業(yè)務(wù)場景;微調(diào)過程中,根據(jù)任務(wù)需求調(diào)整模型輸出層,并采用相應(yīng)的損失函數(shù)和優(yōu)化算法進(jìn)行訓(xùn)練;
20、s5:在測試集上評估預(yù)訓(xùn)練檔案信息資源理解大模型的性能,包括準(zhǔn)確率、召回率和f1分?jǐn)?shù)指標(biāo)。
21、優(yōu)選的,所述步驟4中,將關(guān)鍵詞列表輸入到預(yù)訓(xùn)練的檔案信息資源理解大模型中,模型通過其內(nèi)部的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對關(guān)鍵詞列表進(jìn)行語義解析,包括對關(guān)鍵詞之間關(guān)系的識別、語義角色的標(biāo)注以及上下文信息的整合;基于模型對關(guān)鍵詞列表的語義解析結(jié)果,生成一個增強(qiáng)查詢文本,所述增強(qiáng)查詢文本不僅包含用戶原始查詢請求中的關(guān)鍵信息,還通過模型的語義理解能力進(jìn)行了擴(kuò)展和細(xì)化。
22、優(yōu)選的,所述步驟5中,根據(jù)步驟4生成的增強(qiáng)查詢文本,從預(yù)先構(gòu)建的多個維度的數(shù)據(jù)模塊中進(jìn)行檢索,數(shù)據(jù)模塊包括檔案系統(tǒng)數(shù)據(jù)庫模塊、高維文檔向量數(shù)據(jù)庫模塊和檔案業(yè)務(wù)知識圖譜模塊,多個維度的數(shù)據(jù)模塊分別存儲了不同類型的檔案信息資源;將各個數(shù)據(jù)模塊中召回的候選答案進(jìn)行融合,形成一個包含多個候選答案的集合。
23、優(yōu)選的,在每個數(shù)據(jù)模塊中,利用相應(yīng)的檢索算法和匹配機(jī)制,召回與查詢文本相關(guān)的候選答案:
24、對于檔案系統(tǒng)數(shù)據(jù)庫模塊,采用sql查詢語句進(jìn)行檢索;
25、對于高維文檔向量數(shù)據(jù)庫模塊,利用向量相似性計算來召回相似的文檔;
26、對于檔案業(yè)務(wù)知識圖譜模塊,利用圖遍歷算法或語義匹配算法找到與查詢相關(guān)的知識點(diǎn)。
27、優(yōu)選的,在s3中,梯度下降算法更新參數(shù)的公式為:
28、
29、其中,θ表示模型參數(shù),包含模型需要學(xué)習(xí)的所有權(quán)重和偏置;α表示學(xué)習(xí)率,用于控制參數(shù)更新的步長;表示損失函數(shù)j(θ)關(guān)于參數(shù)θ的梯度,它是一個向量,指向損失函數(shù)增長最快的方向;:=表示賦值操作,即更新參數(shù)θ的值。
30、優(yōu)選的,在步驟6中,將構(gòu)建好的問答上下文文本傳入通用大語言模型,利用通用大語言模型的自然語言理解能力,對多個候選答案進(jìn)行融合;融合過程中,通用大語言模型分析候選答案之間的邏輯關(guān)系、內(nèi)容相似度和信息互補(bǔ)性,生成一個綜合各個候選答案優(yōu)點(diǎn)的融合答案。
31、優(yōu)選的,一種基于ai的檔案信息資源智能共享系統(tǒng),所述系統(tǒng)包括:
32、數(shù)據(jù)模塊構(gòu)建單元,用于根據(jù)業(yè)務(wù)數(shù)據(jù)類型,預(yù)先構(gòu)建多個維度的數(shù)據(jù)模塊;
33、用戶請求接收單元,用于接收用戶輸入的檔案信息資源查詢請求,并獲得第一查詢請求文本;
34、自然語言處理單元,用于利用自然語言處理工具對第一查詢請求文本進(jìn)行解析,解析過程包括分詞、詞性標(biāo)注、依存句法分析和關(guān)鍵詞提取,形成結(jié)構(gòu)化的關(guān)鍵詞列表;
35、語義解析單元,包括一個預(yù)訓(xùn)練的檔案信息資源理解大模型,用于接收結(jié)構(gòu)化后的關(guān)鍵詞列表,并對關(guān)鍵詞列表的語義進(jìn)行解析,生成增強(qiáng)查詢文本,作為第二查詢請求文本;
36、候選答案召回單元,用于從多個維度的數(shù)據(jù)模塊中召回第二查詢請求文本,并獲取多個候選答案;
37、答案融合優(yōu)化單元,用于將第二查詢請求文本和多個候選答案按照預(yù)設(shè)的問答模版封裝成問答上下文文本,并將問答上下文文本傳入通用大語言模型,利用通用大語言模型的自然語言理解能力,對多個候選答案進(jìn)行融合和優(yōu)化;
38、輸出單元,用于獲取通用大語言模型的輸出,將其作為最優(yōu)回答,并將最優(yōu)回答返回給當(dāng)前用戶。
39、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
40、本發(fā)明通過利用自然語言處理工具和預(yù)訓(xùn)練的檔案信息資源理解大模型,對用戶查詢請求進(jìn)行深度解析和語義擴(kuò)展,不僅能夠準(zhǔn)確識別用戶查詢中的關(guān)鍵詞,還能理解其同義詞、近義詞及上下文相關(guān)信息,從而大幅提升查詢的準(zhǔn)確性和全面性。
41、傳統(tǒng)方法往往局限于單一的數(shù)據(jù)庫或文檔集合,而本發(fā)明則構(gòu)建了多個維度的數(shù)據(jù)模塊,包括檔案系統(tǒng)數(shù)據(jù)庫模塊、高維文檔向量數(shù)據(jù)庫模塊和檔案業(yè)務(wù)知識圖譜模塊,使得系統(tǒng)能夠跨多個維度進(jìn)行智能檢索和融合,從而獲取更完整、更準(zhǔn)確的檔案信息,滿足用戶多樣化的查詢需求。
42、通過引入通用大語言模型,本發(fā)明能夠?qū)Χ鄠€候選答案進(jìn)行融合和優(yōu)化。這不僅能夠提升答案的準(zhǔn)確性和相關(guān)性,還能使答案更加符合用戶的自然語言習(xí)慣,從而提升用戶體驗。