本技術涉及人工智能,特別是涉及一種問答處理方法、表單數(shù)據(jù)的輸入方法及對應裝置。
背景技術:
1、隨著人工智能技術的不斷發(fā)展,基于大語言模型的答復生成模型能夠深入理解自然語言,從而根據(jù)用戶輸入的問題自動生成針對該問題的答復并反饋給用戶。隨著各種類型文檔的不斷累積,以文檔作為主要知識的檢索增強問答技術應運而生,但如何提高答復生成的準確性成為亟待解決的問題。
技術實現(xiàn)思路
1、有鑒于此,本技術提供了一種問答處理方法、表單數(shù)據(jù)的輸入方法及對應裝置,以便于提高針對用戶的問題所生成答復的準確性。
2、本技術提供了如下方案:
3、根據(jù)第一方面,提供了一種問答處理方法,所述方法包括:
4、獲取問題文本;
5、將所述問題文本在預設的問題集合中進行檢索,確定所述問題集合中與所述問題文本匹配的一個以上的問題作為參考問題;
6、依據(jù)預先建立的問題集合中問題與文檔片段集合中文檔片段之間的對應關系,確定所述文檔片段集合中與所述參考問題對應的文檔片段作為候選片段,其中所述文檔片段集合是對至少一個文檔進行切片后得到的;
7、利用所述問題文本和所述候選片段生成提示文本;
8、將所述提示文本輸入答復生成模型,獲取所述答復生成模型針對所述問題文本生成的答復。
9、根據(jù)本技術實施例中一種可實現(xiàn)的方式,所述獲取問題文本包括:
10、獲取用戶問題,利用第一大語言模型對所述用戶問題進行改寫,得到所述問題文本;或者,
11、獲取用戶問題,利用第二大語言模型對所述用戶問題進行一輪以上的反問對話,利用所述用戶問題和所述反問對話的內容得到所述問題文本。
12、根據(jù)本技術實施例中一種可實現(xiàn)的方式,所述用戶問題包括:
13、用戶通過用戶界面輸入的自然語言類的問題;或者,
14、用戶在所述用戶界面上所觸發(fā)組件對應的問題。
15、根據(jù)本技術實施例中一種可實現(xiàn)的方式,在將所述問題文本在預設的問題集合中進行檢索之前,還包括:
16、預先采用預設的切片規(guī)則對至少一個文檔進行切片,將得到的文檔片段構成所述文檔片段集合;
17、利用第三大語言模型對所述文檔片段集合中的文檔片段與所述預設的問題集合中的問題進行關聯(lián)性評分,依據(jù)所述關聯(lián)性評分建立所述問題集合中問題與文檔片段集合中文檔片段之間的對應關系。
18、根據(jù)本技術實施例中一種可實現(xiàn)的方式,所述方法還包括對所述問題文本執(zhí)行以下匹配處理中的一種或任意組合以得到候選片段:
19、對所述問題文本進行編碼,得到所述問題文本的向量表示,將所述問題文本的向量表示與所述文檔片段集合中各文檔片段的向量表示進行基于向量相似度的匹配,利用匹配得到的文檔片段得到候選片段;
20、對所述問題文本進行編碼,得到所述問題文本的向量表示,將所述問題文本的向量表示與所述文檔片段集合中各文檔片段對應的標題信息的向量表示進行基于向量相似度的匹配,利用匹配得到的標題信息對應的文檔片段得到候選片段;
21、將所述問題文本與所述文檔片段集合中各文檔片段進行基于關鍵詞的匹配,利用匹配得到的文檔片段得到候選片段;
22、將所述問題文本與所述文檔片段集合中各文檔片段對應的標題信息進行基于關鍵詞的匹配,利用匹配得到的標題信息對應的文檔片段得到候選片段。
23、根據(jù)本技術實施例中一種可實現(xiàn)的方式,所述方法還包括:
24、預先對所述文檔片段集合中各文檔片段和各文檔片段對應的標題信息進行編碼,得到各文檔片段的向量表示和各文檔片段對應的標題信息的向量表示并進行存儲;
25、其中,所述文檔片段對應的標題信息為所述文檔片段所屬的文檔標題和/或子標題。
26、根據(jù)本技術實施例中一種可實現(xiàn)的方式,在將所述問題文本在預設的問題集合中進行檢索之前,還包括:
27、確定當前計算資源是否滿足預設的并發(fā)性能要求,如果是,則繼續(xù)執(zhí)行將所述問題文本在預設的問題集合中進行檢索;否則,執(zhí)行對所述問題文本執(zhí)行以下匹配處理中的一種或任意組合以得到候選片段。
28、根據(jù)本技術實施例中一種可實現(xiàn)的方式,利用所述問題文本和所述候選片段生成提示文本包括:
29、依據(jù)所述候選片段在對應匹配處理中的匹配排序信息,對所述候選片段進行綜合排序,得到綜合排序信息;
30、依據(jù)所述綜合排序信息從所述候選片段中選擇預設數(shù)量的候選片段;
31、利用所述問題文本和選擇出的候選片段生成提示文本。
32、根據(jù)第二方面,提供了一種表單數(shù)據(jù)的輸入方法,所述方法包括:
33、獲取用戶輸入的文檔;
34、采用預設的切片規(guī)則對所述文檔進行切片得到多個文檔片段以構成文檔片段集合,建立預設的問題集合中問題與所述文檔片段集合中文檔片段之間的對應關系;
35、獲取表單中目標表單元素對應的問題文本;
36、將所述問題文本在所述問題集合中進行檢索,確定所述問題集合中與所述問題文本匹配的一個以上的問題作為參考問題;
37、依據(jù)所述對應關系,確定所述文檔片段集合中與所述參考問題對應的文檔片段作為候選片段;
38、利用所述問題文本和所述候選片段生成提示文本;
39、將所述提示文本輸入答復生成模型,獲取所述答復生成模型針對所述問題文本生成的答復;
40、利用所述答復確定輸入所述目標表單元素的數(shù)據(jù)。
41、根據(jù)第三方面,提供一種問答處理方法,應用于云端服務器,所述方法包括:
42、獲取來自用戶終端的問題文本;
43、將所述問題文本在預設的問題集合中進行檢索,確定所述問題集合中與所述問題文本匹配的一個以上的問題作為參考問題,其中所述文檔片段集合是對至少一個文檔進行切片后得到的;
44、依據(jù)預先建立的問題集合中問題與文檔片段集合中文檔片段之間的對應關系,確定所述文檔片段集合中與所述參考問題對應的文檔片段作為候選片段;
45、利用所述問題文本和所述候選片段生成提示文本;
46、將所述提示文本輸入答復生成模型,獲取所述答復生成模型針對所述問題文本生成的答復;
47、將所述答復返回給所述用戶終端以進行展示。
48、根據(jù)第四方面,提供了一種問答處理裝置,所述裝置包括:
49、問題獲取單元,被配置為獲取問題文本;
50、第一檢索單元,被配置為將所述問題文本在預設的問題集合中進行檢索,確定所述問題集合中與所述問題文本匹配的一個以上的問題作為參考問題;依據(jù)預先建立的問題集合中問題與文檔片段集合中文檔片段之間的對應關系,確定所述文檔片段集合中與所述參考問題對應的文檔片段作為候選片段,其中所述文檔片段集合是對至少一個文檔進行切片后得到的;
51、提示生成單元,被配置為利用所述問題文本和所述候選片段生成提示文本;
52、答復生成單元,被配置為將所述提示文本輸入答復生成模型,獲取所述答復生成模型針對所述問題文本生成的答復。
53、根據(jù)第五方面,提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)上述第一方面至第三方面中任一項所述的方法的步驟。
54、根據(jù)第六方面,提供了一種電子設備,包括:
55、一個或多個處理器;以及
56、與所述一個或多個處理器關聯(lián)的存儲器,所述存儲器用于存儲程序指令,所述程序指令在被所述一個或多個處理器讀取執(zhí)行時,執(zhí)行上述第一方面至第三方面中任一項所述的方法的步驟。
57、根據(jù)第七方面,提供了一種計算機程序產品,包括計算機程序,其特征在于,該計算機程序被處理器執(zhí)行時實現(xiàn)如上第一方面至第三方面中任一項所述方法的步驟。
58、根據(jù)本技術提供的具體實施例,本技術公開了以下技術效果:
59、1)由于文檔數(shù)據(jù)庫中很多文檔通常是描述性的內容,在語義上通常與用戶的問題存在較大差異,更像問題的答復所具有的語義,因此,本技術預先建立問題集合中問題與文檔片段集合中文檔片段之間的對應關系,在獲取到問題文本后將問題文本在預設問題集合中進行檢索,確定問題集合中與問題文本匹配的一個以上的問題作為參考問題,再依據(jù)預先建立的對應關系確定文檔片段集合中與參考問題對應的文檔片段作為候選片段,得到的候選片段能夠更好地匹配問題,進而基于候選片段生成的答復也更加準確、更符合用戶需求。這種方式解決了問題和答復之間的信息鴻溝,提高了生成答復的準確性。
60、2)本技術利用第一大語言模型對用戶問題進行改寫得到問題文本,或者利用第二大語言模型對用戶問題進行一輪以上的反問對話進而得到問題文本,使得得到的問題文本語義更加清晰和準確,更進一步提高生成答復的準確性。
61、3)本技術進一步通過諸如向量相似度、關鍵詞相似度等多路匹配處理得到候選片段,極大提高了召回的魯棒性,加強了文檔知識檢索的有效性,進而提升答復的生成效果。
62、4)本技術可以依據(jù)計算資源是否滿足預設并發(fā)性能要求,選擇采用基于問題的匹配還是選擇其他匹配方式,從而保證實現(xiàn)更加靈活,降低對計算資源的性能影響。
63、5)本技術提供的表單數(shù)據(jù)的輸入方法使得用戶整個過程僅需要上傳文檔即可實現(xiàn)對表單元素的表單數(shù)據(jù)輸入,而無需人工針對各表單元素逐一輸入表單數(shù)據(jù)的具體內容,大大降低了用戶的輸入成本,提高了效率和使用體驗。
64、當然,實施本技術的任一產品并不一定需要同時達到以上所述的所有優(yōu)點。