本發(fā)明涉及大語言模型的,尤其是涉及基于大語言模型的問題生成方法。
背景技術(shù):
1、現(xiàn)有的大語言模型有思維鏈(chainofthought,cot)的能力,可以通過在生成過程中引入大模型思考的過程來提升數(shù)學推理、agent交流、工具使用等一系列下游任務(wù)的表現(xiàn)。
2、自動問答任務(wù)根據(jù)用戶所提的問題反饋直接精準的答案,現(xiàn)已應(yīng)用到如網(wǎng)上購物、網(wǎng)上醫(yī)療、網(wǎng)上教育等各個領(lǐng)域,為用戶提供了更方便快捷的服務(wù),在人類社會的各行各業(yè)都具有廣泛的應(yīng)用場景。但自動問答任務(wù)(questionanswering,qa)需要利用與業(yè)務(wù)場景有關(guān)的大量高質(zhì)量問答對作為語料進行訓練,因此問答數(shù)據(jù)的規(guī)模和質(zhì)量是影響自動問答系統(tǒng)最終性能的關(guān)鍵,從而帶來了高昂的人工和時間成本。
3、在當前技術(shù)中,文本段落中包含大量的信息,即使是一個相同的段落,不同的計算機系統(tǒng)也可以提出許許多多的問題,即使這些問題全部正確,也會有些問題比較重要,有些問題較為不重要,不重要的問題對問題生成的預(yù)訓練效果不佳,且浪費算力。
技術(shù)實現(xiàn)思路
1、根據(jù)現(xiàn)有技術(shù)存在的不足,本發(fā)明的目的是提供基于大語言模型的問題生成方法,以解決上述技術(shù)問題。
2、本發(fā)明的上述技術(shù)目的是通過以下技術(shù)方案得以實現(xiàn)的:
3、基于大語言模型的問題生成方法,包括以下步驟:
4、s1、獲取文本數(shù)據(jù),組成包含段落-問題-答案的訓練集;
5、s2、自動標注訓練集上的復(fù)制詞,具體方法為:遍歷段落中的詞語,如果某詞語不在停詞表中,且出現(xiàn)在問題中,則將其標注為復(fù)制詞;
6、s3、通過復(fù)制詞分類模型得到段落中每個分詞的復(fù)制詞或非復(fù)制詞概率;
7、s4、對復(fù)制詞分類模型輸出結(jié)果進行后處理;
8、s5、基于問題生成模型,在輸入層添加復(fù)制詞特征,生成高價值的問題。
9、本發(fā)明在一較佳示例中可以進一步配置為:所述停詞表為人工標注的停用詞集合,工作人員為節(jié)省存儲空間和提高搜索效率,在處理自然語言數(shù)據(jù)之前或之后過濾掉某些字或詞,這些字或詞是人工輸入、非自動化生成的,生成后的停用詞會形成一個停用詞表。
10、本發(fā)明在一較佳示例中可以進一步配置為:所述復(fù)制詞分類模型由嵌入向量模塊、多層雙向自注意力編碼模塊和復(fù)制詞分類模塊組成。
11、本發(fā)明在一較佳示例中可以進一步配置為:所述對復(fù)制詞分類模型輸出結(jié)果進行后處理,具體方法為:
12、1)工作人員將可能為復(fù)制詞的詞組的概率閾值調(diào)低,然后將不合格的特征閾值調(diào)高;
13、2)設(shè)定復(fù)制詞分類的閾值,經(jīng)過復(fù)制詞分類模型進行分析的結(jié)果大于閾值,則該詞組為復(fù)制詞,否則不為復(fù)制詞;
14、經(jīng)過后處理的復(fù)制詞分類結(jié)果將作為特征添加到問題生成模型的輸入之中,對問題生成模型進行優(yōu)化,提高問題生成模型的精確度。
15、本發(fā)明在一較佳示例中可以進一步配置為:所述問題生成模型包括含復(fù)制詞特征的嵌入向量模塊、多層序列到序列自注意力編碼器模塊、問題生成模塊,所述含復(fù)制詞特征的嵌入向量模塊中,復(fù)制詞特征嵌入向量與分詞嵌入、位置嵌入、片段嵌入、任務(wù)嵌入相加,復(fù)制詞的編碼設(shè)置為1,非復(fù)制詞的編碼設(shè)置為0。
16、本發(fā)明在一較佳示例中可以進一步配置為:所述問題生成模型包括預(yù)訓練模塊,所述預(yù)訓練模塊的訓練方法為:
17、將問題生成和答案提取集成到統(tǒng)一框架中,目標文檔經(jīng)bart編碼器編碼后得到文檔的語義向量,將語義向量送入解碼器中進行問題生成;將解碼器末端向量與文檔語義向量按照交叉注意方式得到答案預(yù)測模塊的初始化向量,經(jīng)預(yù)測后得到問題在原文的答案位置;答案預(yù)測產(chǎn)生的損失與bart模型原問題生成任務(wù)產(chǎn)生的損失共同進行反向傳播算法,從而更新模型的參數(shù)。
18、本發(fā)明在一較佳示例中可以進一步配置為:所述bart編碼器是一個雙向編碼器,從兩個方向?qū)斎胝Z句進行編碼,以獲得更多上下文信息;
19、所述解碼器是一個自回歸解碼器,訓練過程中使用初始化解碼模塊并結(jié)合句子的開始標記來生成第一個詞,隨后將第一個詞與上一歷史時刻的隱藏狀態(tài)繼續(xù)加入下一步的輸入,依次循環(huán)進行,直到生成結(jié)束標志為止,解碼器融合了所有已經(jīng)輸入的向量來輸出下一個向量。
20、本發(fā)明在一較佳示例中可以進一步配置為:所述問題生成方法的評價方法為:
21、首先將訓練數(shù)據(jù)分成相等的部分,將數(shù)據(jù)隨機分成兩組文檔。一半的文檔用于訓練問答數(shù)據(jù)生成模型,而另一半的文檔則用于生成合成數(shù)據(jù)以微調(diào)mrc模型;然后在開發(fā)集上評估微調(diào)的mrc模型,其中評估結(jié)果用作合成數(shù)據(jù)質(zhì)量的替代度量。
22、綜上所述,本發(fā)明包括以下至少一種有益技術(shù)效果:
23、本發(fā)明在問題生成模型的輸入層中融合了復(fù)制詞特征,可以減輕問題生成任務(wù)模型所面臨的“一對多”現(xiàn)象,在一定程度上限制了模型的解空間,降低了模型在訓練過程中擬合的難度,有助于提升問題生成的價值,減少浪費算力。
1.基于大語言模型的問題生成方法,其特征在于:包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于大語言模型的問題生成方法,其特征在于:所述停詞表為人工標注的停用詞集合,工作人員為節(jié)省存儲空間和提高搜索效率,在處理自然語言數(shù)據(jù)之前或之后過濾掉某些字或詞,這些字或詞是人工輸入、非自動化生成的,生成后的停用詞會形成一個停用詞表。
3.根據(jù)權(quán)利要求2所述的基于大語言模型的問題生成方法,其特征在于:所述復(fù)制詞分類模型由嵌入向量模塊、多層雙向自注意力編碼模塊和復(fù)制詞分類模塊組成。
4.根據(jù)權(quán)利要求3所述的基于大語言模型的問題生成方法,其特征在于:所述對復(fù)制詞分類模型輸出結(jié)果進行后處理,具體方法為:
5.根據(jù)權(quán)利要求4所述的基于大語言模型的問題生成方法,其特征在于:所述問題生成模型包括含復(fù)制詞特征的嵌入向量模塊、多層序列到序列自注意力編碼器模塊、問題生成模塊,所述含復(fù)制詞特征的嵌入向量模塊中,復(fù)制詞特征嵌入向量與分詞嵌入、位置嵌入、片段嵌入、任務(wù)嵌入相加,復(fù)制詞的編碼設(shè)置為1,非復(fù)制詞的編碼設(shè)置為0。
6.根據(jù)權(quán)利要求5所述的基于大語言模型的問題生成方法,其特征在于:所述問題生成模型包括預(yù)訓練模塊,所述預(yù)訓練模塊的訓練方法為:
7.根據(jù)權(quán)利要求6所述的基于大語言模型的問題生成方法,其特征在于:所述bart編碼器是一個雙向編碼器,從兩個方向?qū)斎胝Z句進行編碼,以獲得更多上下文信息;
8.根據(jù)權(quán)利要求7所述的基于大語言模型的問題生成方法,其特征在于:所述問題生成方法的評價方法為: