一種基于self-instruction和Lag-DPO的自動(dòng)化事實(shí)取證方法及電子設(shè)備

文檔序號(hào)：40443106發(fā)布日期：2024-12-24 15:17閱讀：15來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于self-instruction和Lag-DPO的自動(dòng)化事實(shí)取證方法及電子設(shè)備

本發(fā)明屬于軟件領(lǐng)域，尤其涉及一種基于self-instruction和lag-dpo的自動(dòng)化事實(shí)取證方法。

背景技術(shù)：

1、事實(shí)取證是一個(gè)重要且廣泛應(yīng)用的自然語言處理任務(wù)。它旨在給定相關(guān)事實(shí)的前提下，判斷一個(gè)聲明的真實(shí)性。高質(zhì)量的事實(shí)取證系統(tǒng)對(duì)于社會(huì)的健康發(fā)展至關(guān)重要，它可以：1.減少虛假信息的傳播，提高公眾對(duì)信息的信任度；2.幫助媒體從業(yè)者甄別報(bào)道內(nèi)容的真實(shí)性；3.為政府部門、企業(yè)提供可靠的信息決策支持；4.培養(yǎng)公眾的批判性思維，增強(qiáng)媒體素養(yǎng)。

2、自動(dòng)事實(shí)取證是指使用人工智能等技術(shù)完成自動(dòng)化的事實(shí)取證，從而節(jié)省大量的人力物力，是自然語言處理領(lǐng)域的一個(gè)重要前沿，也關(guān)乎社會(huì)公眾的知情權(quán)和信息安全。當(dāng)前的自動(dòng)事實(shí)取證方法大致可以分為兩大類。一種是基于預(yù)訓(xùn)練模型的方法，它們將事實(shí)取證問題視為一個(gè)多分類任務(wù)。這種方法成本較低，準(zhǔn)確性較高，但缺乏可解釋性和泛化能力。另一種是基于大語言模型提示工程的方法，這是一個(gè)新興的研究方向。這種方法具有較強(qiáng)的可解釋性，但相對(duì)準(zhǔn)確性較低，成本也較高。

3、名詞解釋：

4、self-instruction：是一種將預(yù)訓(xùn)練語言模型與指令對(duì)齊的方法。可以通過模型自己來生成數(shù)據(jù)，而不需要大量的人工標(biāo)注

5、lag-dpo：一種對(duì)dpo的改進(jìn)方法。該方法使用拉格朗日法約束。

6、zero-shot：指模型在沒有對(duì)特定任務(wù)進(jìn)行任何訓(xùn)練或?qū)W習(xí)樣本的情況下，通自身的泛化能力來完成任務(wù)。

7、prompt：是一種用于指導(dǎo)或引導(dǎo)大語言模型執(zhí)行特定任務(wù)的文本輸入。通過精心設(shè)計(jì)的prompt，我們可以讓模型產(chǎn)生符合預(yù)期的輸出結(jié)果。prompt可以包括任務(wù)描述、背景信息、示例輸入/輸出等內(nèi)容。prompt工程是利用prompt來優(yōu)化和控制大語言模型輸出的一個(gè)重要領(lǐng)域。精心設(shè)計(jì)的prompt可以讓模型產(chǎn)生高質(zhì)量、相關(guān)性強(qiáng)的輸出。

8、dpo：是一種偏好對(duì)齊算法，通過直接優(yōu)化語言模型，避免了傳統(tǒng)rlhf中的獎(jiǎng)勵(lì)模型構(gòu)建和強(qiáng)化學(xué)習(xí)步驟，以更好地滿足人類偏好。dpo簡化了偏好學(xué)習(xí)過程并提高效率和準(zhǔn)確性

技術(shù)實(shí)現(xiàn)思路

1、為解決上述技術(shù)問題，本發(fā)明的技術(shù)方案為：

2、一種基于self-instruction和lag-dpo的自動(dòng)化事實(shí)取證方法，包括如下步驟：

3、s1.二維數(shù)據(jù)增強(qiáng)：構(gòu)建訓(xùn)練集數(shù)據(jù)集，然后對(duì)訓(xùn)練集數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)，得到增強(qiáng)后訓(xùn)練數(shù)據(jù)集d；

4、s2.偏好數(shù)據(jù)對(duì)構(gòu)建：使用大語言模型以zero-shot的方式測試增強(qiáng)后訓(xùn)練數(shù)據(jù)集中每條數(shù)據(jù)的難度，確定數(shù)據(jù)采樣率，然后根據(jù)確定的數(shù)據(jù)采樣率從增強(qiáng)后訓(xùn)練數(shù)據(jù)集采樣偏好數(shù)據(jù)；

5、s3.lag-dpo偏好對(duì)齊訓(xùn)練：將增強(qiáng)后訓(xùn)練數(shù)據(jù)集采樣偏好數(shù)據(jù)輸入lag-dpo來微調(diào)大語言模型，將可解釋性事實(shí)取證任務(wù)視為偏好對(duì)齊訓(xùn)練，使用改良的直接偏好對(duì)齊算法——lag-dpo來微調(diào)大語言模型，獲得微調(diào)后的大語言模型；

6、s4.事實(shí)取證預(yù)測：向微調(diào)后的大語言模型輸入聲明以及相關(guān)證據(jù)，微調(diào)后的大語言模型生成聲明真實(shí)標(biāo)簽，并將聲明真實(shí)性判斷的推理過程作為可解釋性內(nèi)容。

7、進(jìn)一步的改進(jìn)，所述s1中的數(shù)據(jù)增強(qiáng)方法如下：

8、s1_1.反事實(shí)數(shù)據(jù)增強(qiáng)：通過修改訓(xùn)練集數(shù)據(jù)集中原數(shù)據(jù)的聲明或給定證據(jù)，生成語義相似，標(biāo)簽相反的反事實(shí)數(shù)據(jù)形成合成數(shù)據(jù)，將原數(shù)據(jù)與合成數(shù)據(jù)進(jìn)行合并，增大數(shù)據(jù)集規(guī)模；

9、s1_2.自我指導(dǎo)的可解釋性內(nèi)容生成，在給定不同標(biāo)簽的前提下，根據(jù)原數(shù)據(jù)的給定證據(jù)，聲明，標(biāo)簽信息，生成h條解釋性內(nèi)容作為樣本，如果標(biāo)簽是正確的，則生成的內(nèi)容為正樣本，反之則為負(fù)樣本。

10、進(jìn)一步的改進(jìn)，步驟s1_2的具體方法如下：

11、a.訓(xùn)練集數(shù)據(jù)集中若原數(shù)據(jù)為給定證據(jù)-聲明二元組，則以zero-shot的方式生成多條數(shù)據(jù)，其中每條數(shù)據(jù)的形式是：標(biāo)簽-解釋二元組，如公式(1)所示，其中π()表示大語言模型，c表示聲明，e表示證據(jù)，i()表示設(shè)計(jì)好的prompt；e表示給定標(biāo)簽y下的解釋性內(nèi)容；

12、b.訓(xùn)練集數(shù)據(jù)集中若原數(shù)據(jù)為給定證據(jù)-聲明-標(biāo)簽三元組，以self-instructed的方式，生成h條解釋性內(nèi)容作為樣本，如果標(biāo)簽是正確的，則生成的內(nèi)容為正樣本，反之則為負(fù)樣本，如公式(2)(3)所示；其中，yno表示否定標(biāo)簽，即聲明-證據(jù)對(duì)不存在矛盾，yyes表示肯定標(biāo)簽，即聲明-證據(jù)對(duì)存在矛盾，eno表示給出yno的前提下模型生成的解釋性內(nèi)容，eyes表示給出yyes的前提下模型生成的解釋性內(nèi)容，p()表示概率分布；

13、c.若數(shù)據(jù)是通過s1_1生成的反事實(shí)數(shù)據(jù)，該數(shù)據(jù)會(huì)包含反編輯信息，則為給定證據(jù)-聲明-正標(biāo)簽-編輯信息四元組，生成包含更加準(zhǔn)確信息的正樣例，如公式(4)所示，其中tips表示編輯信息；etips表示給出正確標(biāo)簽y和編輯信息tips的前提下模型生成的解釋性內(nèi)容；

14、p(y，e|c，e)＝π(y，e|i(c，e))#(1)

15、p(eno|c，e，yno)＝π(eno|i(c，e，yno))#(2)

16、p(eyes|c，e，yyes)＝π(eno|i(c，e，yyes))#(3)

17、p(etips|c，e，y，tips)＝π(etips|i(c，e，tips,y))#(4)。

18、進(jìn)一步的改進(jìn)，步驟s2的具體步驟如下：

19、s2_1.數(shù)據(jù)難易度評(píng)估：采用大語言模型對(duì)增強(qiáng)后訓(xùn)練數(shù)據(jù)集進(jìn)行zero-shot評(píng)估，重復(fù)k次，統(tǒng)計(jì)計(jì)算正確的結(jié)果n，確定數(shù)據(jù)的量化困難度d，如公式(5)所示：

20、

21、s2_2.正負(fù)樣例采樣：按照公式(6)確定對(duì)增強(qiáng)后訓(xùn)練數(shù)據(jù)集的采樣的次數(shù)t，其中，base為基礎(chǔ)采樣次數(shù)，max表示從兩個(gè)數(shù)中取最大值的操作。最后，從正負(fù)樣例中隨機(jī)采樣t次，正負(fù)樣例隨機(jī)兩兩組合，并匹配其對(duì)應(yīng)的標(biāo)簽，生成t條偏好數(shù)據(jù)對(duì)：

22、t＝2*max(base，d*h)#(6)

23、h表示表示正樣本或負(fù)樣本數(shù)；

24、s2_3.偏好數(shù)據(jù)集構(gòu)建，對(duì)于增強(qiáng)后訓(xùn)練數(shù)據(jù)集d每個(gè)數(shù)據(jù)條目，都執(zhí)行步驟s2_2的操作，得到|d|*h規(guī)模的數(shù)據(jù)偏好數(shù)據(jù)對(duì)，將所有數(shù)據(jù)對(duì)進(jìn)行打亂并存儲(chǔ)，得到偏好數(shù)據(jù)集；其中，|d|表示增強(qiáng)后訓(xùn)練數(shù)據(jù)集d的大小。

25、進(jìn)一步的改進(jìn)，步驟s3中，使用改良的直接偏好對(duì)齊算法——lag-dpo來微調(diào)大語言模型的具體方法如下：

26、s3_1.構(gòu)建dpo的損失函數(shù)，dpo的損失函數(shù)ldpo如公式(7)所示，其中πref()表示原模型，πθ()表示微調(diào)模型，ychosen是正樣例，yrejected是負(fù)樣例，x是輸入的聲明-證據(jù)對(duì)，β是超參數(shù)，σ表示sigmoid函數(shù)；

27、

28、引用兩個(gè)約束項(xiàng)cchosen和crejected約束dpo的損失函數(shù)，如公式(8)和公式(9)所示，a1和a2均是超參數(shù)；

29、

30、在訓(xùn)練過程中，必須滿足公式(10)：

31、argmindldpo

32、cchosen≤0#(10)

33、crejected≤0

34、argminθ表示求解模型參數(shù)θ，使得損失函數(shù)ldpo達(dá)到最小值；

35、引入μ1和μ2作為拉格朗日乘子，使用拉格朗日法解決上述問題，將公式(7)-(10)將轉(zhuǎn)化為無條件最優(yōu)化問題，如公式(11)所示。

36、loss＝ldpo+logσ[β(μ1cchosen+μ2crejected)]#(11)

37、s3_2.基于偏好數(shù)據(jù)集的偏好對(duì)齊微調(diào)：將可解釋性事實(shí)取證任務(wù)視為偏好對(duì)齊訓(xùn)練，其中正樣例為正確的標(biāo)簽-解釋對(duì)ychosen，負(fù)樣例為錯(cuò)誤的標(biāo)簽-解釋對(duì)yrejected，輸入的證據(jù)-聲明對(duì)為x；對(duì)于損失函數(shù)loss，使用梯度下降法優(yōu)化至損失函數(shù)loss收斂即得到微調(diào)后的大語言模型，對(duì)于μ1和μ2，使用公式(12)和公式(13)優(yōu)化，其中l(wèi)rμ是拉格朗日乘子的學(xué)習(xí)率；max表示取最大值；

38、μ1＝max(μ1-lrμ*cchosen，0)#(12)

39、μ2＝max(μ2-lrμ*crejected，0)#(13)。

40、進(jìn)一步的改進(jìn)，所述大語言模型為llama2-7b。

41、一種電子設(shè)備，包括存儲(chǔ)器和處理器，所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí)，使得所述處理器執(zhí)行如上任一項(xiàng)所述方法的步驟。

42、本發(fā)明的優(yōu)點(diǎn)：

43、本發(fā)明實(shí)現(xiàn)了self-instruction和lag-dpo相結(jié)合的可解釋性自動(dòng)化事實(shí)取證方法，其中，前者用于生成偏好數(shù)據(jù)集，后者用于lag-dpo的微調(diào)。該發(fā)明兼具了傳統(tǒng)微調(diào)方法的優(yōu)點(diǎn)：高準(zhǔn)確率，以及大語言模型的優(yōu)點(diǎn)：高可解釋性。除此之外，我們的實(shí)驗(yàn)表明該方法具有一定的泛化性。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉玉玲,陸廣耀
技術(shù)所有人：湖南大學(xué)
我是此專利的發(fā)明人

上一篇：冷卻板組件和電池包的制作方法
上一篇：一種蓋板翹曲度的自動(dòng)測試篩選設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于self-instruction和Lag-DPO的自動(dòng)化事實(shí)取證方法及電子設(shè)備