本技術涉及智能問答處理,具體而言,涉及一種融合語義圖的向量數(shù)據庫問答處理方法、設備及存儲介質。
背景技術:
1、在自然語言處理領域中,可以使用與大語言模型(large?language?model,簡稱llm)、檢索增強生成模型(retrieval-augmented?generation,簡稱rag)和向量數(shù)據庫的結合有關的問答處理方法,對自然語言進行處理,從而推動了人工智能的智能化與實用性。具體地,rag模型中的檢索模塊可以使用基于bert的向量化方法,將查詢和文檔映射到相同的向量空間中,并通過計算向量之間的相似度來快速找到與查詢最相關的文檔。這些文檔隨后被傳遞給生成模塊,生成模塊則利用llm的生成能力,結合檢索到的背景信息,生成連貫、準確且信息豐富的回答。
2、但是,這種問答處理方法依賴于關鍵詞匹配和簡單的語法分析,難以準確理解用戶的真實意圖,尤其在處理復雜或模糊查詢時表現(xiàn)較差,同時,在處理海量數(shù)據時,信息檢索效率較低,難以快速提供準確答案。
技術實現(xiàn)思路
1、本技術的目的在于,針對上述現(xiàn)有技術中的不足,提供一種融合語義圖的向量數(shù)據庫問答處理方法、設備及存儲介質,以解決現(xiàn)有技術中難以準確理解用戶的真實意圖的問題。
2、為實現(xiàn)上述目的,本技術實施例采用的技術方案如下:
3、第一方面,本技術一實施例提供了一種融合語義圖的向量數(shù)據庫問答處理方法,所述方法包括:
4、根據多個原始文檔構建向量數(shù)據庫,所述向量數(shù)據庫中存儲有第一數(shù)據,所述第一數(shù)據包括:多個原始文檔的數(shù)據,各原始文檔的數(shù)據包括:與所述原始文檔的文本結構對應的多個答案向量以及各所述答案向量的位置信息,所述位置信息用于指示所述答案向量在所述原始文檔中對應的位置;
5、根據所述向量數(shù)據庫,構建語義數(shù)據庫,所述語義數(shù)據庫中存儲有第二數(shù)據,所述第二數(shù)據包括:所述向量數(shù)據庫中各答案向量兩兩之間的相似度、各所述答案向量以及各所述答案向量的所述位置信息;
6、對用戶輸入的待查詢問題進行向量化處理,得到待查詢向量;
7、根據所述向量數(shù)據庫中存儲的所述第一數(shù)據,和/或,所述語義數(shù)據庫中存儲的所述第二數(shù)據,檢索得到所述待查詢向量對應的答案文本;
8、根據所述答案文本以及預先訓練得到的大模型,生成待查詢問題的目標答案。
9、在一種可能的實現(xiàn)方式中,所述根據所述向量數(shù)據庫中存儲的所述第一數(shù)據,和/或,所述語義數(shù)據庫中存儲的所述第二數(shù)據,檢索得到所述待查詢向量對應的答案文本,包括:
10、根據所述向量數(shù)據庫中存儲的所述第一數(shù)據,從所述向量數(shù)據庫中檢索得到所述待查詢向量對應的至少一個第一中間向量,并根據各所述第一中間向量的位置信息,確定與各所述第一中間向量位置相關的至少一個第二中間向量,將各所述第一中間向量以及各所述第二中間向量分別作為一個目標中間向量并加入目標中間向量集合中;
11、根據所述待查詢向量、所述目標中間向量集合以及所述語義數(shù)據庫中存儲的所述第二數(shù)據,從所述語義數(shù)據庫中檢索得到所述待查詢向量對應的答案文本。
12、在一種可能的實現(xiàn)方式中,所述根據各第一中間向量的位置信息,確定與各所述第一中間向量位置相關的至少一個第二中間向量,包括:
13、確定所述第一中間向量在所述原始文檔中的層級;
14、根據所述第一中間向量在所述原始文檔中的層級,確定與所述第一中間向量位置相關的至少一個第二中間向量。
15、在一種可能的實現(xiàn)方式中,所述根據所述待查詢向量、所述目標中間向量集合以及所述語義數(shù)據庫中存儲的所述第二數(shù)據,從所述語義數(shù)據庫中檢索得到所述待查詢向量對應的答案文本,包括:
16、根據所述語義數(shù)據庫中存儲的所述第二數(shù)據,基于路徑搜索算法確定所述目標中間向量集合的路徑搜索結果,所述路徑搜索結果包括:至少一個路徑,各所述路徑中包括依次相鄰的至少一個節(jié)點,其中,路徑上的各節(jié)點分別用于表征所述語義數(shù)據庫中的一個答案向量;
17、根據所述路徑搜索結果,確定各所述路徑上的各節(jié)點與所述待查詢向量的距離;
18、根據各節(jié)點與所述待查詢向量的距離以及所述第二數(shù)據,確定所述待查詢向量對應的答案文本。
19、在一種可能的實現(xiàn)方式中,所述根據所述語義數(shù)據庫中存儲的所述第二數(shù)據,基于路徑搜索算法確定所述目標中間向量集合的路徑搜索結果,包括:
20、a、從所述目標中間向量集合中確定當前節(jié)點;
21、b、根據所述第二數(shù)據,確定與所述當前節(jié)點之間的相似度滿足預設條件的至少一個目標向量,將所述目標向量加入當前節(jié)點對應的路徑中,得到所述當前節(jié)點對應的路徑,并重新執(zhí)行a;
22、c、循環(huán)執(zhí)行a-b,直至所述目標中間向量集合中所有的向量均已作為當前節(jié)點。
23、在一種可能的實現(xiàn)方式中,所述根據各節(jié)點與所述待查詢向量的距離以及所述第二數(shù)據,確定所述待查詢向量對應的答案文本,包括:
24、對各節(jié)點與所述待查詢向量的距離進行排序,根據排序結果以及所述第二數(shù)據,確定所述待查詢向量對應的答案文本。
25、在一種可能的實現(xiàn)方式中,所述根據排序結果以及所述第二數(shù)據,確定所述待查詢向量對應的答案文本,包括:
26、根據排序結果,確定滿足第一相似度條件的至少一個目標答案向量;
27、根據滿足第一相似度條件的目標答案向量,確定所述待查詢向量對應的答案文本。
28、在一種可能的實現(xiàn)方式中,所述根據所述向量數(shù)據庫中存儲的所述第一數(shù)據,和/或,所述語義數(shù)據庫中存儲的所述第二數(shù)據,檢索得到所述待查詢向量對應的答案文本,包括:
29、從所述語義數(shù)據庫中隨機抽取多個答案向量組成隨機向量集合;
30、根據所述隨機向量集合以及所述語義數(shù)據庫中存儲的所述第二數(shù)據,從所述語義數(shù)據庫中檢索得到所述待查詢向量對應的答案文本。
31、第二方面,本技術另一實施例提供了一種融合語義圖的向量數(shù)據庫問答處理裝置,所述裝置包括:
32、第一構建模塊,用于根據多個原始文檔構建向量數(shù)據庫,所述向量數(shù)據庫中存儲有第一數(shù)據,所述第一數(shù)據包括:多個原始文檔的數(shù)據,各原始文檔的數(shù)據包括:與所述原始文檔的文本結構對應的多個答案向量以及各所述答案向量的位置信息,所述位置信息用于指示所述答案向量在所述原始文檔中對應的位置;
33、第二構建模塊,用于根據所述向量數(shù)據庫,構建語義數(shù)據庫,所述語義數(shù)據庫中存儲有第二數(shù)據,所述第二數(shù)據包括:所述向量數(shù)據庫中各答案向量兩兩之間的相似度、各所述答案向量以及各所述答案向量的所述位置信息;
34、向量化模塊,用于對用戶輸入的待查詢問題進行向量化處理,得到待查詢向量;
35、檢索模塊,用于根據向量數(shù)據庫中存儲的所述第一數(shù)據,和/或,所述語義數(shù)據庫中存儲的所述第二數(shù)據,檢索得到所述待查詢向量對應的答案文本;
36、生成模塊,用于根據所述答案文本以及預先訓練得到的大模型,生成待查詢問題的目標答案。
37、在一種可能的實現(xiàn)方式中,所述檢索模塊,具體用于:
38、根據向量數(shù)據庫中存儲的所述第一數(shù)據,從所述向量數(shù)據庫中檢索得到所述待查詢向量對應的至少一個第一中間向量,并根據各第一中間向量的位置信息,確定與各所述第一中間向量位置相關的至少一個第二中間向量,將各第一中間向量以及各第二中間向量分別作為一個目標中間向量并加入目標中間向量集合中;
39、根據所述待查詢向量、所述目標中間向量集合以及所述語義數(shù)據庫中存儲的所述第二數(shù)據,從所述語義數(shù)據庫中檢索得到所述待查詢向量對應的答案文本。
40、在一種可能的實現(xiàn)方式中,所述檢索模塊,具體用于:
41、確定所述第一中間向量在所述原始文檔中的層級;
42、根據所述第一中間向量在所述原始文檔中的層級,確定與所述第一中間向量位置相關的至少一個第二中間向量。
43、在一種可能的實現(xiàn)方式中,所述檢索模塊,具體用于:
44、根據所述語義數(shù)據庫中存儲的所述第二數(shù)據,基于路徑搜索算法確定所述目標中間向量集合的路徑搜索結果,所述路徑搜索結果包括:至少一個路徑,各路徑中包括依次相鄰的至少一個節(jié)點,其中,路徑上的各節(jié)點分別用于表征所述語義數(shù)據庫中的一個答案向量;
45、根據所述路徑搜索結果,確定各路徑上的各節(jié)點與所述待查詢向量的距離;
46、根據各節(jié)點與所述待查詢向量的距離以及所述第二數(shù)據,確定所述待查詢向量對應的答案文本。
47、在一種可能的實現(xiàn)方式中,所述檢索模塊,具體用于:
48、a、從所述目標中間向量集合中確定當前節(jié)點;
49、b、根據所述第二數(shù)據,確定與所述當前節(jié)點之間的相似度滿足預設條件的至少一個目標向量,將所述目標向量加入當前節(jié)點對應的路徑中,得到所述當前節(jié)點對應的路徑,并重新執(zhí)行a;
50、c、循環(huán)執(zhí)行a-b,直至所述目標中間向量集合中所有的向量均已作為當前節(jié)點。
51、在一種可能的實現(xiàn)方式中,所述檢索模塊,具體用于:
52、對各節(jié)點與所述待查詢向量的距離進行排序,根據排序結果以及所述第二數(shù)據,確定所述待查詢向量對應的答案文本。
53、在一種可能的實現(xiàn)方式中,所述檢索模塊,具體用于:
54、根據排序結果,確定滿足第一相似度條件的至少一個目標答案向量;
55、根據滿足第一相似度條件的目標答案向量,確定所述待查詢向量對應的答案文本。
56、在一種可能的實現(xiàn)方式中,所述檢索模塊,具體用于:
57、從所述語義數(shù)據庫中隨機抽取多個答案向量組成隨機向量集合;
58、根據所述隨機向量集合以及所述語義數(shù)據庫中存儲的所述第二數(shù)據,從所述語義數(shù)據庫中檢索得到所述待查詢向量對應的答案文本。
59、第三方面,本技術另一實施例提供了一種電子設備,包括:處理器、存儲介質和總線,所述存儲介質存儲有所述處理器可執(zhí)行的機器可讀指令,當電子設備運行時,所述處理器與所述存儲介質之間通過總線通信,所述處理器執(zhí)行所述機器可讀指令,以執(zhí)行如上述第一方面任一所述方法的步驟。
60、第四方面,本技術另一實施例提供了一種存儲介質,所述存儲介質上存儲有計算機程序,所述計算機程序被處理器運行時執(zhí)行如上述第一方面任一所述方法的步驟。
61、本技術的有益效果是:通過多個原始文檔構建得到存儲有第一數(shù)據的向量數(shù)據庫,并通過向量數(shù)據庫,構建得到存儲有第二數(shù)據的語義數(shù)據庫,能夠對多個原始文檔中的答案向量以及各答案向量之間的關聯(lián)關系進行存儲,在此基礎上,對用戶輸入的待查詢問題進行向量化處理,得到待查詢向量,并根據向量數(shù)據庫中存儲的第一數(shù)據,和/或,語義數(shù)據庫中存儲的第二數(shù)據,檢索得到待查詢向量對應的答案文本,從而能夠根據答案文本以及預先訓練得到的大模型,生成待查詢問題的目標答案。本技術使得在對用戶輸入的待查詢問題進行檢索時,可以從向量數(shù)據庫和/或語義數(shù)據庫中檢索得到對應的答案文本,提高得到答案文本過程中的靈活性,并且不再局限于關鍵詞匹配與簡單的語法分析,能夠提高得到的答案文本的準確性。
62、同時,由于在向量數(shù)據庫中存儲有與原始文檔的文本結構對應的多個答案向量以及各答案向量的位置信息,且語義數(shù)據庫中存儲有各答案向量以及各答案向量的位置信息,使得能夠對原始文檔的文本結構進行整體表征,從而使得檢索得到的答案文本中,包括有原始文檔中的圖片或公式等其他內容,從而使得答案文本的豐富程度以及準確度得到保證。
63、此外,通過在語義數(shù)據庫中,使用相似度或距離對各答案向量之間的關聯(lián)關系進行表征,能夠對多個原始文檔之間的聯(lián)系進行考慮,使得可以得到與待查詢問題相關的更多以及更全面的答案文本,能夠對單個文本切片與全域文本切片的深層聯(lián)系進行體現(xiàn),提供了超越向量數(shù)據庫的廣度搜索能力,不但能夠提高得到的答案文本的準確性,還能提高得到的答案文本的全面性,在處理復雜或模糊查詢時也能得到準確的答案文本。