本發(fā)明屬于數(shù)據(jù)管理領(lǐng)域,公開了一種航跡領(lǐng)域知識庫的大模型微調(diào)方法和場景適配系統(tǒng)。
背景技術(shù):
1、text-to-sql是一種自然語言處理技術(shù),旨在將自然語言查詢轉(zhuǎn)換為數(shù)據(jù)庫查詢語言,通常是sql(structured?query?language)。它在數(shù)據(jù)庫查詢和自然語言理解之間架起了一座橋梁,使得非技術(shù)用戶能夠以自然語言的方式與數(shù)據(jù)庫進行交互,而無需了解復(fù)雜的查詢語言。在過去的幾年中,text-to-sql?技術(shù)已經(jīng)取得了長足的進步,得益于深度學(xué)習(xí)和自然語言處理領(lǐng)域的發(fā)展。傳統(tǒng)的方法通常依賴于手工設(shè)計的規(guī)則和模板,而深度學(xué)習(xí)方法則利用神經(jīng)網(wǎng)絡(luò)模型從大量的語言-數(shù)據(jù)庫配對數(shù)據(jù)中進行學(xué)習(xí),從而能夠更準確地理解自然語言查詢的意圖,并將其轉(zhuǎn)換為等效的數(shù)據(jù)庫查詢語言。隨著語言大模型的發(fā)展,最近依靠通用的語言大模型配合在提示(prompt)中做前置的信息輸入,成為text-to-sql新的趨勢。
2、但是在實際使用中存在問題,語言大模型,是通過接口的方式進行調(diào)用,調(diào)用的成本和輸入的詞元(token)數(shù)量相關(guān),每一次調(diào)用都需要消耗不低的成本;傳統(tǒng)的前置問答類型分類錯誤可能傳遞到后續(xù)的鏈路中導(dǎo)致整體判斷出錯,而且目前的語言大模型存在輸出不穩(wěn)定性,系統(tǒng)的結(jié)果無法保證等缺陷。
技術(shù)實現(xiàn)思路
1、發(fā)明目的,提供一種航跡領(lǐng)域知識庫的大模型微調(diào)方法和場景適配系統(tǒng),以解決現(xiàn)有技術(shù)存在的上述問題。
2、技術(shù)方案,航跡領(lǐng)域知識庫的大模型微調(diào)方法,包括如下步驟:
3、s1、獲取語音數(shù)據(jù),對語音數(shù)據(jù)進行預(yù)處理,調(diào)用預(yù)配置的多模態(tài)語音識別模型將預(yù)處理后的語音數(shù)據(jù)轉(zhuǎn)換為初始文本數(shù)據(jù);
4、s2、構(gòu)建航跡領(lǐng)域知識圖譜,基于航跡領(lǐng)域知識圖譜對初始文本數(shù)據(jù)進行多階段糾錯處理,得到糾錯后的文本數(shù)據(jù);對糾錯后的文本數(shù)據(jù)進行后處理,包括數(shù)字識別轉(zhuǎn)換和問句結(jié)構(gòu)重寫,生成改寫后的文本數(shù)據(jù);
5、s3、獲取歷史對話數(shù)據(jù),基于歷史對話數(shù)據(jù),構(gòu)建上下文表示,基于上下文表示和改寫后的文本數(shù)據(jù),形成模型輸入數(shù)據(jù);
6、s4、構(gòu)建text-to-sql模型,基于模型輸入數(shù)據(jù),對text-to-sql模型進行訓(xùn)練,得到訓(xùn)練好的text-to-sql模型;
7、s5、使用訓(xùn)練好的text-to-sql模型,生成初始sql查詢,對初始sql查詢進行優(yōu)化,得到最終sql查詢。
8、航跡領(lǐng)域知識庫的場景適配系統(tǒng),包括:
9、至少一個處理器;以及,
10、與至少一個所述處理器通信連接的存儲器;其中,
11、所述存儲器存儲有可被所述處理器執(zhí)行的指令,所述指令用于被所述處理器執(zhí)行以實現(xiàn)上述任一項技術(shù)方案所述的航跡領(lǐng)域知識庫的大模型微調(diào)方法。
12、有益效果,本發(fā)明通過多階段糾錯處理和后處理,減少了每次調(diào)用所需的詞元數(shù)量和對語言大模型的依賴,從而降低了調(diào)用成本;通過多模態(tài)融合錯誤識別算法和圖神經(jīng)網(wǎng)絡(luò)進行上下文推理,增強了糾錯能力,減少了前置問答類型分類錯誤對后續(xù)鏈路的影響,提高了文本數(shù)據(jù)的準確性;通過引入多頭注意力機制、前饋神經(jīng)網(wǎng)絡(luò)和自適應(yīng)知識蒸餾法,增強了模型的穩(wěn)定性和準確性。
1.航跡領(lǐng)域知識庫的大模型微調(diào)方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的航跡領(lǐng)域知識庫的大模型微調(diào)方法,其特征在于,步驟s1進一步為:
3.根據(jù)權(quán)利要求2所述的航跡領(lǐng)域知識庫的大模型微調(diào)方法,其特征在于,步驟s2進一步為:
4.根據(jù)權(quán)利要求3所述的航跡領(lǐng)域知識庫的大模型微調(diào)方法,其特征在于,步驟s3進一步為:
5.根據(jù)權(quán)利要求4所述的航跡領(lǐng)域知識庫的大模型微調(diào)方法,其特征在于,步驟s4進一步為:
6.根據(jù)權(quán)利要求5所述的航跡領(lǐng)域知識庫的大模型微調(diào)方法,其特征在于,步驟s5進一步為:
7.根據(jù)權(quán)利要求6所述的航跡領(lǐng)域知識庫的大模型微調(diào)方法,其特征在于,步驟s14進一步為:
8.根據(jù)權(quán)利要求6所述的航跡領(lǐng)域知識庫的大模型微調(diào)方法,其特征在于,步驟s22進一步為:
9.根據(jù)權(quán)利要求6所述的航跡領(lǐng)域知識庫的大模型微調(diào)方法,其特征在于,步驟s32進一步為:
10.航跡領(lǐng)域知識庫的場景適配系統(tǒng),其特征在于,包括: