本申請涉及大模型應(yīng)用,尤其涉及一種召回準確性評估方法、系統(tǒng)、設(shè)備、介質(zhì)及產(chǎn)品。
背景技術(shù):
1、大語言模型用海量數(shù)據(jù)進行訓(xùn)練,使用數(shù)十億個參數(shù)為回答問題、翻譯語言和完成句子等任務(wù)生成原始輸出。檢索增強生成技術(shù)用于對大語言模型輸出進行優(yōu)化,使大語言模型能夠在生成回答之前引用訓(xùn)練數(shù)據(jù)來源之外的知識庫。在大語言模型本就強大的功能基礎(chǔ)上,檢索增強生成技術(shù)可以將其擴展為能訪問特定領(lǐng)域或組織的內(nèi)部知識庫。具體地,檢索增強生成技術(shù)的第一步是讀取外部數(shù)據(jù),即大語言模型原始訓(xùn)練數(shù)據(jù)集之外的新數(shù)據(jù)。新數(shù)據(jù)可以來自多個數(shù)據(jù)來源,例如ap?i、數(shù)據(jù)庫或文檔存儲庫。第二步是通過嵌入語言模型技術(shù)將數(shù)據(jù)轉(zhuǎn)換為數(shù)字表示形式并將其存儲在向量數(shù)據(jù)庫中。這個過程會創(chuàng)建一個生成式人工智能模型可以理解的知識庫。第三步是執(zhí)行相關(guān)性搜索,把用戶查詢轉(zhuǎn)換為向量表示形式,并與向量數(shù)據(jù)庫匹配。例如一個可以回答組織人力資源問題的檢索增強生成技術(shù)應(yīng)用,如果員工搜索:“我有多少年假?”,系統(tǒng)將檢索年假政策文件以及員工個人過去的休假記錄。這些特定文件將被召回,因為它們與員工輸入的內(nèi)容高度相關(guān)。接下來,檢索增強生成技術(shù)模型通過在上下文中添加檢索到的相關(guān)數(shù)據(jù)來增強用戶輸入。最后,再將增強后的內(nèi)容一并提供給大語言模型為用戶查詢生成更相關(guān)的回答。
2、然而,在通過檢索增強生成技術(shù)為大語言模型應(yīng)用注入數(shù)據(jù)搜索能力時,還需要衡量搜索出來的相關(guān)召回內(nèi)容準確性?,F(xiàn)如今,通常通過人力對召回內(nèi)容準確性進行評估,然而,人力評估需要人工的多次參與,需要較高的成本。
3、因此,如何在評估召回準確性時降低評估所需的成本,是本領(lǐng)域技術(shù)人員尚待解決的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、本申請的主要目的在于提供一種召回準確性評估方法、系統(tǒng)、設(shè)備、介質(zhì)及產(chǎn)品,旨在解決如何在評估召回準確性時降低評估所需的成本的技術(shù)問題。
2、為實現(xiàn)上述目的,本申請?zhí)岢鲆环N召回準確性評估方法,所述方法包括:
3、將預(yù)設(shè)的知識庫劃分為各個知識塊,并通過大語言模型,生成各所述知識塊各自對應(yīng)的問題;
4、將各所述問題分別輸入至所述大語言模型,得到各所述問題各自對應(yīng)的知識塊溯源結(jié)果,其中,所述知識塊溯源結(jié)果為所述大語言模型基于輸入的問題召回的知識塊;
5、根據(jù)各所述問題各自對應(yīng)的所述知識塊和各自對應(yīng)的所述知識塊溯源結(jié)果,自動評估召回準確性。
6、在一實施例中,所述根據(jù)各所述問題各自對應(yīng)的所述知識塊和各自對應(yīng)的所述知識塊溯源結(jié)果,自動評估召回準確性的步驟,包括:
7、對于各所述問題,將對應(yīng)于同一問題的知識塊和知識塊溯源結(jié)果進行比較,得到各所述問題各自對應(yīng)的知識塊比對結(jié)果;
8、根據(jù)各所述知識塊比對結(jié)果,計算命中率和/或者平均排名倒數(shù),并根據(jù)所述命中率和/或所述平均排名倒數(shù)自動評估召回準確性。
9、在一實施例中,所述將預(yù)設(shè)的知識庫劃分為各個知識塊的步驟,包括:
10、識別預(yù)設(shè)的知識庫中的數(shù)據(jù)類型,其中,所述數(shù)據(jù)類型為一個或者多個;
11、根據(jù)所述數(shù)據(jù)類型,將所述知識庫劃分為各個知識塊。
12、在一實施例中,在檢測到所述數(shù)據(jù)類型的數(shù)量為一個時,所述根據(jù)所述數(shù)據(jù)類型,將所述知識庫劃分為各個知識塊的步驟,包括:
13、在檢測到所述數(shù)據(jù)類型為文本時,按照章節(jié)將所述知識庫劃分為各個知識塊;
14、在檢測到所述數(shù)據(jù)類型為表格時,將每個單元格作為一個知識塊,以得到各個知識塊。
15、在一實施例中,在檢測到所述數(shù)據(jù)類型的數(shù)量為多個時,所述根據(jù)所述數(shù)據(jù)類型,將所述知識庫劃分為各個知識塊的步驟,包括:
16、根據(jù)各所述數(shù)據(jù)類型,將所述知識庫切分為多個知識區(qū);
17、獲取各所述數(shù)據(jù)類型各自對應(yīng)的劃分規(guī)則,并基于各所述劃分規(guī)則,將各所述知識區(qū)切分為各個知識塊。
18、在一實施例中,所述將各所述問題分別輸入至所述大語言模型,得到各所述問題各自對應(yīng)的知識塊溯源結(jié)果的步驟,包括:
19、將各所述知識塊分別轉(zhuǎn)換為向量,并將各所述向量存儲至rag應(yīng)用中;
20、將各所述問題分別輸入至所述大語言模型,并通過所述大語言模型,在所述rag應(yīng)用所存儲的向量中確定各所述問題各自對應(yīng)的目標向量;
21、將各所述目標向量各自對應(yīng)的知識塊作為各所述問題各自對應(yīng)的知識塊溯源結(jié)果,并輸出各所述知識塊溯源結(jié)果。
22、此外,為實現(xiàn)上述目的,本申請還提出一種召回準確性評估系統(tǒng),所述召回準確性評估系統(tǒng)包括:
23、問題生成模塊,用于將預(yù)設(shè)的知識庫劃分為各個知識塊,并通過大語言模型,生成各所述知識塊各自對應(yīng)的問題;
24、數(shù)據(jù)召回模塊,用于將各所述問題分別輸入至所述大語言模型,得到各所述問題各自對應(yīng)的知識塊溯源結(jié)果,其中,所述知識塊溯源結(jié)果為所述大語言模型基于輸入的問題召回的知識塊;
25、自動評估模塊,用于根據(jù)各所述問題各自對應(yīng)的所述知識塊和各自對應(yīng)的所述知識塊溯源結(jié)果,自動評估召回準確性。
26、此外,為實現(xiàn)上述目的,本申請還提出一種召回準確性評估設(shè)備,所述設(shè)備包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述計算機程序配置為實現(xiàn)如上文所述的召回準確性評估方法的步驟。
27、此外,為實現(xiàn)上述目的,本申請還提出一種存儲介質(zhì),所述存儲介質(zhì)為計算機可讀存儲介質(zhì),所述存儲介質(zhì)上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上文所述的召回準確性評估方法的步驟。
28、此外,為實現(xiàn)上述目的,本申請還提供一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上文所述的召回準確性評估方法的步驟。
29、在本申請中,通過將預(yù)設(shè)的知識庫劃分為各個知識塊,并通過大語言模型,生成各所述知識塊各自對應(yīng)的問題,可以建立起知識塊與問題之間的對應(yīng)關(guān)系;然后將各所述問題分別輸入至所述大語言模型,得到各所述問題各自對應(yīng)的知識塊溯源結(jié)果,其中,所述知識塊溯源結(jié)果為所述大語言模型基于輸入的問題召回的知識塊,可以基于大語言模型得到問題與召回的知識塊之間的對應(yīng)關(guān)系;最后根據(jù)各所述問題各自對應(yīng)的所述知識塊和各自對應(yīng)的所述知識塊溯源結(jié)果,自動評估召回準確性,可以依據(jù)問題與知識塊,以及,問題與召回的知識塊之間的對應(yīng)關(guān)系,評估大語言模型的召回準確性。
30、如此,本申請可以在無人工參與的前提下,自動化地評估召回準確性,從而降低了評估召回準確性時所需的成本。并且,本申請還通過將知識庫分塊的方式,使得問題與知識塊對應(yīng)關(guān)系是明確的,然后,通過將知識塊與知識塊溯源結(jié)果進行比較的方式,使得得到的召回結(jié)果必然為準確或者不準確中的一種,從而從整體上提高了召回準確性評估的準確程度。
1.一種召回準確性評估方法,其特征在于,所述召回準確性評估方法包括:
2.如權(quán)利要求1所述的召回準確性評估方法,其特征在于,所述根據(jù)各所述問題各自對應(yīng)的所述知識塊和各自對應(yīng)的所述知識塊溯源結(jié)果,自動評估召回準確性的步驟,包括:
3.如權(quán)利要求1所述的召回準確性評估方法,其特征在于,所述將預(yù)設(shè)的知識庫劃分為各個知識塊的步驟,包括:
4.如權(quán)利要求3所述的召回準確性評估方法,其特征在于,在檢測到所述數(shù)據(jù)類型的數(shù)量為一個時,所述根據(jù)所述數(shù)據(jù)類型,將所述知識庫劃分為各個知識塊的步驟,包括:
5.如權(quán)利要求3所述的召回準確性評估方法,其特征在于,在檢測到所述數(shù)據(jù)類型的數(shù)量為多個時,所述根據(jù)所述數(shù)據(jù)類型,將所述知識庫劃分為各個知識塊的步驟,包括:
6.如權(quán)利要求1所述的召回準確性評估方法,其特征在于,所述將各所述問題分別輸入至所述大語言模型,得到各所述問題各自對應(yīng)的知識塊溯源結(jié)果的步驟,包括:
7.一種召回準確性評估系統(tǒng),其特征在于,所述召回準確性評估系統(tǒng)包括:
8.一種召回準確性評估設(shè)備,其特征在于,所述召回準確性評估設(shè)備包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述計算機程序配置為實現(xiàn)如權(quán)利要求1至6中任一項所述的召回準確性評估方法的步驟。
9.一種存儲介質(zhì),其特征在于,所述存儲介質(zhì)為計算機可讀存儲介質(zhì),所述存儲介質(zhì)上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6中任一項所述的召回準確性評估方法的步驟。
10.一種計算機程序產(chǎn)品,其特征在于,所述計算機程序產(chǎn)品包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6中任一項所述的召回準確性評估方法的步驟。