本發(fā)明涉及信息處理,具體是基于大模型的高校招生錄取分數(shù)線查詢系統(tǒng)的工作方法。
背景技術:
1、在高考人數(shù)屢創(chuàng)新高的背景下,家長和學生對高校的認識存在差異,選擇學校和專業(yè)面臨困難。同時,高校也面臨如何吸引高質(zhì)量生源的挑戰(zhàn)。招生咨詢工作成為高校競爭的關鍵;傳統(tǒng)的招生宣傳資料,如宣傳冊、海報等,提供了高校的基本信息和錄取分數(shù)線。這種查詢方式直觀易懂,但信息更新速度慢,且不易于快速檢索和比較不同高校的數(shù)據(jù);
2、現(xiàn)代的高校招生網(wǎng)站提供了在線查詢服務,允許學生通過互聯(lián)網(wǎng)訪問最新的錄取分數(shù)線信息;然而,這些系統(tǒng)通常功能單一,僅限于分數(shù)線查詢,缺乏個性化推薦和深入分析;基于常見問題解答(faq)的系統(tǒng)能夠快速回應學生關于招生的常見疑問,盡管這種方式可以提供標準化的答案,但它通常缺乏對復雜查詢的適應性,且無法處理非標準化的問題;基于以上不足,本發(fā)明提出基于大模型的高校招生錄取分數(shù)線查詢系統(tǒng)的工作方法。
技術實現(xiàn)思路
1、本發(fā)明旨在至少解決現(xiàn)有技術中存在的技術問題之一;為此,本發(fā)明提出了基于大模型的高校招生錄取分數(shù)線查詢系統(tǒng)的工作方法。
2、為實現(xiàn)上述目的,本發(fā)明的第一方面提供了基于大模型的高校招生錄取分數(shù)線查詢系統(tǒng)的工作方法,包括如下步驟:
3、步驟一:考生或電話咨詢者通過電話進線,系統(tǒng)使用tts技術將語音咨詢問題轉換為文本;然后系統(tǒng)利用問題識別大模型對轉換后的文本進行問題類別識別,判斷用戶咨詢的問題是否屬于“分數(shù)線類問題”;
4、步驟二:當識別為“分數(shù)線類問題”時,系統(tǒng)自動進入分數(shù)線查詢流程,系統(tǒng)和客戶進行多輪對話,通過信息收集模塊分別收集客戶的科類、專業(yè)和生源地信息;根據(jù)收集的信息進行數(shù)據(jù)庫查詢,得到用戶所需的分數(shù)線信息;
5、步驟三:若識別結果不是“分數(shù)線類問題”,則系統(tǒng)進入faq模塊;在faq模塊中,系統(tǒng)對問題進行向量召回,得到最相似的問題及相似度得分;
6、步驟四:對于召回得分高于預設閾值的問題,系統(tǒng)直接將問題對應答案返回給用戶;對于召回得分低于預設閾值的問題,系統(tǒng)將問題轉交給rag模塊;rag模塊利用檢索增強技術,結合大模型的生成能力,對問題進行深入分析和回答。
7、進一步地,所述問題識別大模型基于問題意圖識別模塊訓練得到;所述問題意圖識別模塊用于收集分數(shù)線相關語料信息,構建prompt,將語料和標注整理成大模型訓練語料,進行模型訓練,得到問題識別大模型。
8、進一步地,所述信息收集模塊的具體工作步驟如下:
9、s21:科類收集:收集科類相關語料信息,清洗出所需要的類型枚舉值,構建prompt,將語料和標注整理成大模型訓練語料,進行模型訓練;
10、s22:專業(yè)收集,具體包括:
11、收集專業(yè)相關語料信息,清洗出標簽,構建prompt,將語料和標注整理成大模型訓練語料,進行模型訓練;
12、收集專業(yè)說法以及專業(yè)說法對應的標準專業(yè),將所有專業(yè)以及專業(yè)說法進行向量化;大模型提取到專業(yè)之后進行專業(yè)向量召回,對于相似度大于0.9的專業(yè)說法返回專業(yè)標準說法;
13、s23:生源地信息收集,具體包括:
14、收集專業(yè)相關語料信息,清洗出標簽,構建prompt,將語料和標注整理成大模型訓練語料,進行模型訓練;
15、收集地址相關數(shù)據(jù),基于預訓練的bert模型進行微調(diào),訓練地址提取的垂直域bert模型;根據(jù)高德地址庫,抽取前四級地址進行地址模糊匹配、補全的地址糾偏模型構建;
16、使用大模型將用戶上下文中的生源地地址信息提取出來;使用地址提取bert模型進行地址提取,使用地址糾偏引擎對地址進行糾偏。
17、進一步地,所述faq模塊的具體工作步驟如下:
18、構建問答庫,所述問答庫包括大量業(yè)務梳理出來的問答對;
19、問答對中的問題通過向量抽取模型,將問題轉換成向量,通過聚類模型將問題向量進行聚類,并且分別記錄每個問題所屬類別以及該類別的質(zhì)心;
20、將客戶的問題通過向量抽取模型轉換成向量,然后對該向量和所有質(zhì)心向量進行相似度計算,選取topk最接近的質(zhì)心;
21、將客戶問題向量和topk質(zhì)心所屬類別的所有向量進行相似度打分,從中找到相似度得分最高的問題以及對應的答案。
22、進一步地,所述rag模塊的具體工作步驟如下:
23、s31:知識信息采集:利用網(wǎng)絡爬蟲技術,從高校官方網(wǎng)站、教育論壇、學術論文庫渠道,收集與高校相關的知識信息;
24、s32:信息預處理:對收集到的知識信息進行清洗,包括去除無關內(nèi)容、糾正錯誤信息、標準化格式;通過自然語言處理技術,對信息進行去重;
25、s33:知識向量化:將清洗后的知識信息按照段落進行切片,使用自然語言處理技術將其轉換為向量表示,并存入向量數(shù)據(jù)庫;
26、s34:問題向量化與知識檢索:
27、將用戶提出的問題進行向量化處理,并與知識庫中的向量進行匹配;利用向量相似度計算,從知識庫中召回與問題最相關的top10知識片段;
28、s35:知識融合與答案生成:將問題上下文與召回的知識片段作為輸入,送入預訓練的大型語言模型;對輸入信息進行融合和推理,最終生成問題答案;所述大型語言模型是指llm模型。
29、進一步地,該方法還包括:對問題識別大模型、rag大模型、bert地址提取模型進行模型蒸餾和并行解碼。
30、與現(xiàn)有技術相比,本發(fā)明的有益效果是:
31、1、本發(fā)明中系統(tǒng)利用問題識別大模型對轉換后的文本進行問題類別識別,判斷用戶咨詢的問題是否屬于“分數(shù)線類問題”,極大提升了用戶問題的意圖識別精度和準確率;當識別為“分數(shù)線類問題”時,信息收集模塊使用大模型進行科類收集(科類可以被枚舉);使用大模型進行專業(yè)說法收集,并且使用向量庫進行專業(yè)規(guī)范化;使用地址提取加上地址糾偏功能的地址信息收集進行考生信息收集,極大提高了信息收集的準確性、靈活性和智能化;
32、2、本發(fā)明中如果問題類別識別結果不是“分數(shù)線類問題”,則系統(tǒng)進入faq模塊;在faq模塊中,系統(tǒng)對問題進行向量召回,得到最相似的問題及相似度得分;對于召回得分高于預設閾值(例如0.95分)的問題,系統(tǒng)直接將問題對應答案返回給用戶,以提供快速響應;對于召回得分低于預設閾值的問題,系統(tǒng)將問題轉交給rag模塊;rag模塊利用檢索增強技術,結合大模型的生成能力,對問題進行深入分析和回答,使得系統(tǒng)能夠快速理解并響應用戶的復雜查詢需求,顯著提升了查詢效率,改善了用戶體驗。
1.基于大模型的高校招生錄取分數(shù)線查詢系統(tǒng)的工作方法,其特征在于,包括如下步驟:
2.根據(jù)權利要求1所述的基于大模型的高校招生錄取分數(shù)線查詢系統(tǒng)的工作方法,其特征在于,所述問題識別大模型基于問題意圖識別模塊訓練得到;所述問題意圖識別模塊用于收集分數(shù)線相關語料信息,構建prompt,將語料和標注整理成大模型訓練語料,進行模型訓練,得到問題識別大模型。
3.根據(jù)權利要求1所述的基于大模型的高校招生錄取分數(shù)線查詢系統(tǒng)的工作方法,其特征在于,所述信息收集模塊的具體工作步驟如下:
4.根據(jù)權利要求1所述的基于大模型的高校招生錄取分數(shù)線查詢系統(tǒng)的工作方法,其特征在于,所述faq模塊的具體工作步驟如下:
5.根據(jù)權利要求1所述的基于大模型的高校招生錄取分數(shù)線查詢系統(tǒng)的工作方法,其特征在于,所述rag模塊的具體工作步驟如下:
6.根據(jù)權利要求3所述的基于大模型的高校招生錄取分數(shù)線查詢系統(tǒng)的工作方法,其特征在于,該方法還包括:對問題識別大模型、rag大模型、bert地址提取模型進行模型蒸餾和并行解碼。