航跡領(lǐng)域知識庫的大模型微調(diào)方法和場景適配系統(tǒng)與流程

文檔序號：39346561發(fā)布日期：2024-09-10 12:11閱讀：29來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

航跡領(lǐng)域知識庫的大模型微調(diào)方法和場景適配系統(tǒng)與流程

本發(fā)明屬于數(shù)據(jù)管理領(lǐng)域，公開了一種航跡領(lǐng)域知識庫的大模型微調(diào)方法和場景適配系統(tǒng)。

背景技術(shù)：

1、text-to-sql是一種自然語言處理技術(shù)，旨在將自然語言查詢轉(zhuǎn)換為數(shù)據(jù)庫查詢語言，通常是sql（structured?query?language）。它在數(shù)據(jù)庫查詢和自然語言理解之間架起了一座橋梁，使得非技術(shù)用戶能夠以自然語言的方式與數(shù)據(jù)庫進行交互，而無需了解復(fù)雜的查詢語言。在過去的幾年中，text-to-sql?技術(shù)已經(jīng)取得了長足的進步，得益于深度學(xué)習(xí)和自然語言處理領(lǐng)域的發(fā)展。傳統(tǒng)的方法通常依賴于手工設(shè)計的規(guī)則和模板，而深度學(xué)習(xí)方法則利用神經(jīng)網(wǎng)絡(luò)模型從大量的語言-數(shù)據(jù)庫配對數(shù)據(jù)中進行學(xué)習(xí)，從而能夠更準確地理解自然語言查詢的意圖，并將其轉(zhuǎn)換為等效的數(shù)據(jù)庫查詢語言。隨著語言大模型的發(fā)展，最近依靠通用的語言大模型配合在提示(prompt)中做前置的信息輸入，成為text-to-sql新的趨勢。

2、但是在實際使用中存在問題，語言大模型，是通過接口的方式進行調(diào)用，調(diào)用的成本和輸入的詞元(token)數(shù)量相關(guān)，每一次調(diào)用都需要消耗不低的成本；傳統(tǒng)的前置問答類型分類錯誤可能傳遞到后續(xù)的鏈路中導(dǎo)致整體判斷出錯，而且目前的語言大模型存在輸出不穩(wěn)定性，系統(tǒng)的結(jié)果無法保證等缺陷。

技術(shù)實現(xiàn)思路

1、發(fā)明目的，提供一種航跡領(lǐng)域知識庫的大模型微調(diào)方法和場景適配系統(tǒng)，以解決現(xiàn)有技術(shù)存在的上述問題。

2、技術(shù)方案，航跡領(lǐng)域知識庫的大模型微調(diào)方法，包括如下步驟：

3、s1、獲取語音數(shù)據(jù)，對語音數(shù)據(jù)進行預(yù)處理，調(diào)用預(yù)配置的多模態(tài)語音識別模型將預(yù)處理后的語音數(shù)據(jù)轉(zhuǎn)換為初始文本數(shù)據(jù)；

4、s2、構(gòu)建航跡領(lǐng)域知識圖譜，基于航跡領(lǐng)域知識圖譜對初始文本數(shù)據(jù)進行多階段糾錯處理，得到糾錯后的文本數(shù)據(jù)；對糾錯后的文本數(shù)據(jù)進行后處理，包括數(shù)字識別轉(zhuǎn)換和問句結(jié)構(gòu)重寫，生成改寫后的文本數(shù)據(jù)；

5、s3、獲取歷史對話數(shù)據(jù)，基于歷史對話數(shù)據(jù)，構(gòu)建上下文表示，基于上下文表示和改寫后的文本數(shù)據(jù)，形成模型輸入數(shù)據(jù)；

6、s4、構(gòu)建text-to-sql模型，基于模型輸入數(shù)據(jù)，對text-to-sql模型進行訓(xùn)練，得到訓(xùn)練好的text-to-sql模型；

7、s5、使用訓(xùn)練好的text-to-sql模型，生成初始sql查詢，對初始sql查詢進行優(yōu)化，得到最終sql查詢。

8、航跡領(lǐng)域知識庫的場景適配系統(tǒng)，包括：

9、至少一個處理器；以及，

10、與至少一個所述處理器通信連接的存儲器；其中，

11、所述存儲器存儲有可被所述處理器執(zhí)行的指令，所述指令用于被所述處理器執(zhí)行以實現(xiàn)上述任一項技術(shù)方案所述的航跡領(lǐng)域知識庫的大模型微調(diào)方法。

12、有益效果，本發(fā)明通過多階段糾錯處理和后處理，減少了每次調(diào)用所需的詞元數(shù)量和對語言大模型的依賴，從而降低了調(diào)用成本；通過多模態(tài)融合錯誤識別算法和圖神經(jīng)網(wǎng)絡(luò)進行上下文推理，增強了糾錯能力，減少了前置問答類型分類錯誤對后續(xù)鏈路的影響，提高了文本數(shù)據(jù)的準確性；通過引入多頭注意力機制、前饋神經(jīng)網(wǎng)絡(luò)和自適應(yīng)知識蒸餾法，增強了模型的穩(wěn)定性和準確性。

技術(shù)特征：

1.航跡領(lǐng)域知識庫的大模型微調(diào)方法，其特征在于，包括如下步驟：

2.根據(jù)權(quán)利要求1所述的航跡領(lǐng)域知識庫的大模型微調(diào)方法，其特征在于，步驟s1進一步為：

3.根據(jù)權(quán)利要求2所述的航跡領(lǐng)域知識庫的大模型微調(diào)方法，其特征在于，步驟s2進一步為：

4.根據(jù)權(quán)利要求3所述的航跡領(lǐng)域知識庫的大模型微調(diào)方法，其特征在于，步驟s3進一步為：

5.根據(jù)權(quán)利要求4所述的航跡領(lǐng)域知識庫的大模型微調(diào)方法，其特征在于，步驟s4進一步為：

6.根據(jù)權(quán)利要求5所述的航跡領(lǐng)域知識庫的大模型微調(diào)方法，其特征在于，步驟s5進一步為：

7.根據(jù)權(quán)利要求6所述的航跡領(lǐng)域知識庫的大模型微調(diào)方法，其特征在于，步驟s14進一步為：

8.根據(jù)權(quán)利要求6所述的航跡領(lǐng)域知識庫的大模型微調(diào)方法，其特征在于，步驟s22進一步為：

9.根據(jù)權(quán)利要求6所述的航跡領(lǐng)域知識庫的大模型微調(diào)方法，其特征在于，步驟s32進一步為：

10.航跡領(lǐng)域知識庫的場景適配系統(tǒng)，其特征在于，包括：

技術(shù)總結(jié)
本發(fā)明公開了一種航跡領(lǐng)域知識庫的大模型微調(diào)方法和場景適配系統(tǒng)，該方法包括獲取語音數(shù)據(jù)，對語音數(shù)據(jù)進行預(yù)處理，調(diào)用預(yù)配置的多模態(tài)語音識別模型將語音數(shù)據(jù)轉(zhuǎn)換為初始文本數(shù)據(jù)；構(gòu)建航跡領(lǐng)域知識圖譜，對初始文本數(shù)據(jù)進行多階段糾錯處理，得到糾錯后的文本數(shù)據(jù)；對糾錯后的文本數(shù)據(jù)進行后處理，生成改寫后的文本數(shù)據(jù)；獲取歷史對話數(shù)據(jù)，構(gòu)建上下文表示，基于上下文表示和改寫后的文本數(shù)據(jù)，形成模型輸入數(shù)據(jù)；構(gòu)建Text?to?SQL模型，對Text?to?SQL模型進行訓(xùn)練，生成初始SQL查詢，對初始SQL查詢進行優(yōu)化，得到最終SQL查詢。本發(fā)明不僅降低了調(diào)用成本，還提高了文本數(shù)據(jù)和模型的準確性，增強了模型的穩(wěn)定性。

技術(shù)研發(fā)人員：黃光昊,孫立國
受保護的技術(shù)使用者：中科南京人工智能創(chuàng)新研究院
技術(shù)研發(fā)日：
技術(shù)公布日：2024/9/9

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃光昊,孫立國
技術(shù)所有人：中科南京人工智能創(chuàng)新研究院
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

航跡領(lǐng)域知識庫的大模型微調(diào)方法和場景適配系統(tǒng)與流程