本發(fā)明涉及信息提取,更具體的說,它涉及一種基于語義理解和語義生成模型的檢索增強方法。
背景技術:
1、rag(retrieval-augmented?generation)作為目前l(fā)lm最廣泛的落地場景,能夠有效的彌補llm無法實時更新本身知識庫的缺陷,還能在一定程度上減少其生成時的幻覺,提升可解釋性。現(xiàn)有的rag實現(xiàn)方案一般分為幾個部分:文檔預處理與切分、文本向量化、索引構建、問句檢索、召回重排等。每一個環(huán)節(jié)處理的好壞都會影響到系統(tǒng)最終的性能,因此對rag進行優(yōu)化是一個系統(tǒng)化的過程。目前主要缺陷在于:首先,目前主流的文檔切分方法主要是基于規(guī)則實現(xiàn)的,如按照文檔排版格式切分或者按照文本長度進行截斷,這種做法很容易導致文本的語義連貫性遭到破壞;其次,處理完的文檔切片直接向量化后構建檢索,一方面,往往會因為文檔切片和用戶問的語義分布差異導致匹配效果差強人意,另一方面,文檔切片如果過長會包含過多的信息,用戶問進行匹配往往只需要其中一部分信息,冗余的內(nèi)容可能會影響最終的匹配效果;再者,使用原始問句進行向量檢索可能會存在和文檔中文本表述的語義差異、詞匯差異、歧義問題等,導致檢索效果大打折扣。
技術實現(xiàn)思路
1、本發(fā)明克服了現(xiàn)有技術的不足,提供利用語義理解以及語義生成模型對rag的各個模塊進行優(yōu)化,以實現(xiàn)通用的、高性能的、可靠的一種基于語義理解和語義生成模型的檢索增強方法。
2、本發(fā)明的技術方案如下:
3、一種基于語義理解和語義生成模型的檢索增強方法,具體包括如下步驟:
4、1)文檔預處理步驟:從相應網(wǎng)站獲取所需的文檔數(shù)據(jù),并對文檔內(nèi)容進行清洗,得到文本數(shù)據(jù);
5、2)文檔處理步驟:按照文檔的排版結構或者標點符號進行切分得到第一處理結果;通過語義承接關系模型對第一處理結果按照順序進行預測,合并存在承接關系的切片,得到第二處理結果;
6、3)長度限制步驟:對第二處理結果的內(nèi)容進行限定最大文檔切片長度,如果超過最大長度,則對切片內(nèi)容進行關鍵信息抽取,得到第三處理結果;
7、4)構建片段向量索引步驟:對第三處理結果進行向量化,構建得到片段向量的索引;
8、5)構建關鍵詞向量索引步驟:通過對第三處理結果進行關鍵詞提取,并使用關鍵詞生成模型,以生成輸入文本中的核心關鍵詞,接著使用向量模型對關鍵詞進行向量化,構建得到關鍵詞向量的索引;
9、6)問句檢索步驟:對用戶提出的問句采用問句改寫生成模型,其基于上下文內(nèi)容改寫原始問句,并對改寫后原始問句的問句進行關鍵詞提取,分別將關鍵詞和改寫問句向量化,利用關鍵詞索引、片段向量索引進行相關片段檢索,分別召回前幾的相關知識片段,去重后作為最終的檢索結果;
10、7)答案生成步驟:將檢索的內(nèi)容和改寫原始問句后的問句合并成提示詞prompt輸入到大語言模型llm進行答案生成。
11、進一步的,文檔預處理步驟中文檔內(nèi)容進行清洗包括去除html格式、特殊符號、亂碼字符。
12、進一步的,將在長度限制步驟中使用一個摘要生成模型,以其提煉出輸入文本中的關鍵信息。
13、進一步的,召回采用片段直接召回、關鍵詞召回,并對兩者召回結果進行合并處理;
14、片段直接召回:將改寫后的用戶問,使用語義表征模型轉換成句向量,直接基于余弦相似度利用片段索引檢索最相關的文檔片段,并按照相似度進行倒排取前top?k個片段內(nèi)容作為召回結果;
15、關鍵詞召回:將從用戶問提煉出來的關鍵詞使用語義表征模型轉換成詞向量,再基于余弦相似度利用關鍵詞索引檢索最相似的關鍵詞及其對應的文檔片段集合,結合相似度和關鍵詞覆蓋度篩選出top?k個文檔片段;
16、召回結果合并:將兩部分召回結果進行去重,合并為檢索部分的最終召回結果。
17、本發(fā)明相比現(xiàn)有技術優(yōu)點在于:
18、本發(fā)明基于語義層面對文檔進行切分,能夠極大程度上保留拆分結果的語義完整性,該拆分方式相較于已有方法更為合理;對過長的文檔片段進一步提取關鍵信息,能夠有效減少干擾信息,從而提升匹配的性能;結合歷史對話內(nèi)容對原始用戶問進行改寫,能夠補全用戶問中缺失的必要信息、消除歧義,從而提升檢索和問答的效果;利用用戶問中生成的關鍵詞實現(xiàn)不同維度的召回策略,使得召回的內(nèi)容更全面。
1.一種基于語義理解和語義生成模型的檢索增強方法,其特征在于:具體包括如下步驟:
2.根據(jù)權利要求1所述的一種基于語義理解和語義生成模型的檢索增強方法,其特征在于:文檔預處理步驟中文檔內(nèi)容進行清洗包括去除html格式、特殊符號、亂碼字符。
3.根據(jù)權利要求1所述的一種基于語義理解和語義生成模型的檢索增強方法,其特征在于:將在長度限制步驟中使用一個摘要生成模型,以其提煉出輸入文本中的關鍵信息。
4.根據(jù)權利要求1所述的一種基于語義理解和語義生成模型的檢索增強方法,其特征在于:召回采用片段直接召回、關鍵詞召回,并對兩者召回結果進行合并處理;