国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      數(shù)據(jù)處理方法、電子設(shè)備和計(jì)算機(jī)程序產(chǎn)品與流程

      文檔序號(hào):40376644發(fā)布日期:2024-12-20 11:59閱讀:3來源:國(guó)知局
      數(shù)據(jù)處理方法、電子設(shè)備和計(jì)算機(jī)程序產(chǎn)品與流程

      本申請(qǐng)涉及大模型技術(shù)和數(shù)據(jù)查詢,具體而言,涉及一種數(shù)據(jù)處理方法、電子設(shè)備和計(jì)算機(jī)程序產(chǎn)品。


      背景技術(shù):

      1、目前,大語言模型(large?language?models,簡(jiǎn)稱llms)的快速進(jìn)步為自然語言處理相關(guān)的各種方案提供了更好的文本生成能力、語言理解能力和語言交互能力。為了進(jìn)一步提升模型性能,大語言模型的訓(xùn)練數(shù)據(jù)規(guī)模被大幅度擴(kuò)展,訓(xùn)練數(shù)據(jù)中的敏感數(shù)據(jù)(比如版權(quán)書籍、用戶私人信息、聯(lián)系方式等)可能會(huì)在大語言模型的生成內(nèi)容中暴露。為了確保llms的生成內(nèi)容不會(huì)泄露敏感數(shù)據(jù),相關(guān)技術(shù)領(lǐng)域中提出機(jī)器遺忘(machine?unlearning,簡(jiǎn)稱mu)技術(shù),從llms的訓(xùn)練數(shù)據(jù)中移除敏感數(shù)據(jù)從而完成訓(xùn)練。

      2、相關(guān)技術(shù)中的mu技術(shù)通常通過對(duì)llms進(jìn)行參數(shù)微調(diào)或者通過在預(yù)先設(shè)計(jì)的數(shù)據(jù)集上進(jìn)行梯度上升,由此調(diào)整llms的記憶以減少敏感數(shù)據(jù)暴露的風(fēng)險(xiǎn),但是,上述mu技術(shù)會(huì)為llms的訓(xùn)練帶來較高的計(jì)算成本,削弱llms的整體性能。由于訓(xùn)練數(shù)據(jù)中的敏感數(shù)據(jù)以及遺忘技術(shù)的需求環(huán)境會(huì)在實(shí)際應(yīng)用場(chǎng)景中會(huì)動(dòng)態(tài)變化,這會(huì)進(jìn)一步提升現(xiàn)有mu技術(shù)中參數(shù)更新的難度,進(jìn)一步增加計(jì)算成本。此外,根據(jù)現(xiàn)有的mu技術(shù),在llms的訓(xùn)練過程中訪問模型參數(shù)將會(huì)限制訓(xùn)練得到的llms在更廣泛的場(chǎng)景中的應(yīng)用。

      3、由上可知,如何提升大語言模型訓(xùn)練中的遺忘性能以降低敏感數(shù)據(jù)泄露風(fēng)險(xiǎn)、降低模型訓(xùn)練成本稱為相關(guān)技術(shù)領(lǐng)域中的重要技術(shù)問題之一。

      4、針對(duì)上述的問題,目前尚未提出有效的解決方案。


      技術(shù)實(shí)現(xiàn)思路

      1、本申請(qǐng)實(shí)施例提供了一種數(shù)據(jù)處理方法、電子設(shè)備和計(jì)算機(jī)程序產(chǎn)品,以至少解決相關(guān)技術(shù)中采用模型參數(shù)更新或者梯度上升的方式訓(xùn)練查詢數(shù)據(jù)處理模型其模型遺忘性能較差、數(shù)據(jù)泄露風(fēng)險(xiǎn)高、模型訓(xùn)練成本高的技術(shù)問題。

      2、根據(jù)本申請(qǐng)實(shí)施例的一個(gè)方面,提供了一種數(shù)據(jù)處理方法,包括:獲取待處理的查詢數(shù)據(jù),其中,查詢數(shù)據(jù)用于提供待解答的提問內(nèi)容;將查詢數(shù)據(jù)與檢索數(shù)據(jù)輸入至語言模型,生成初始回復(fù)數(shù)據(jù),其中,檢索數(shù)據(jù)為依據(jù)查詢數(shù)據(jù)從目標(biāo)數(shù)據(jù)集中檢索到的待移除數(shù)據(jù),初始回復(fù)數(shù)據(jù)為查詢數(shù)據(jù)的預(yù)測(cè)過程中產(chǎn)生的誤導(dǎo)數(shù)據(jù);將查詢數(shù)據(jù)、檢索數(shù)據(jù)以及初始回復(fù)數(shù)據(jù)輸入至語言模型,獲取查詢數(shù)據(jù)對(duì)應(yīng)的目標(biāo)回復(fù)數(shù)據(jù)。

      3、根據(jù)本申請(qǐng)實(shí)施例的另一方面,還提供了一種數(shù)據(jù)處理方法,包括:獲取待處理的文化知識(shí)查詢數(shù)據(jù),其中,文化知識(shí)查詢數(shù)據(jù)用于提供待解答的文化知識(shí)提問內(nèi)容;將文化知識(shí)查詢數(shù)據(jù)與文化知識(shí)檢索數(shù)據(jù)輸入至語言模型,生成文化知識(shí)初始回復(fù)數(shù)據(jù),其中,文化知識(shí)檢索數(shù)據(jù)為依據(jù)文化知識(shí)查詢數(shù)據(jù)從目標(biāo)數(shù)據(jù)集中獲取的待移除數(shù)據(jù),文化知識(shí)初始回復(fù)數(shù)據(jù)為對(duì)文化知識(shí)查詢數(shù)據(jù)的預(yù)測(cè)過程產(chǎn)生誤導(dǎo)的知識(shí);將文化知識(shí)查詢數(shù)據(jù)、文化知識(shí)檢索數(shù)據(jù)以及文化知識(shí)初始回復(fù)數(shù)據(jù)輸入至語言模型,獲取文化知識(shí)查詢數(shù)據(jù)對(duì)應(yīng)的文化知識(shí)目標(biāo)回復(fù)數(shù)據(jù)。

      4、根據(jù)本申請(qǐng)實(shí)施例的另一方面,還提供了一種數(shù)據(jù)處理方法,包括:通過第一應(yīng)用程序編程接口獲取查詢處理請(qǐng)求;通過第二應(yīng)用程序編程接口返回查詢處理響應(yīng);其中,查詢處理請(qǐng)求中攜帶的請(qǐng)求數(shù)據(jù)包括:待處理的查詢數(shù)據(jù),查詢數(shù)據(jù)用于提供待解答的提問內(nèi)容,查詢處理響應(yīng)中攜帶的響應(yīng)數(shù)據(jù)包括:查詢數(shù)據(jù)對(duì)應(yīng)的目標(biāo)回復(fù)數(shù)據(jù),目標(biāo)回復(fù)數(shù)據(jù)利用查詢數(shù)據(jù)、檢索數(shù)據(jù)以及初始回復(fù)數(shù)據(jù)獲取得到,初始回復(fù)數(shù)據(jù)基于查詢數(shù)據(jù)與檢索數(shù)據(jù)生成,檢索數(shù)據(jù)為依據(jù)查詢數(shù)據(jù)從目標(biāo)數(shù)據(jù)集中獲取的數(shù)據(jù),初始回復(fù)數(shù)據(jù)為對(duì)查詢數(shù)據(jù)的預(yù)測(cè)過程產(chǎn)生誤導(dǎo)的知識(shí)。

      5、根據(jù)本申請(qǐng)實(shí)施例的另一方面,還提供了一種數(shù)據(jù)處理方法,包括:獲取當(dāng)前輸入的查詢處理對(duì)話請(qǐng)求;響應(yīng)于查詢處理對(duì)話請(qǐng)求,返回查詢處理對(duì)話回復(fù);其中,查詢處理對(duì)話請(qǐng)求中攜帶的請(qǐng)求數(shù)據(jù)包括:待處理的查詢數(shù)據(jù),查詢數(shù)據(jù)用于提供待解答的提問內(nèi)容,查詢處理對(duì)話回復(fù)中攜帶的信息包括:查詢數(shù)據(jù)對(duì)應(yīng)的目標(biāo)回復(fù)數(shù)據(jù),目標(biāo)回復(fù)數(shù)據(jù)利用查詢數(shù)據(jù)、檢索數(shù)據(jù)以及初始回復(fù)數(shù)據(jù)獲取得到,初始回復(fù)數(shù)據(jù)基于查詢數(shù)據(jù)與檢索數(shù)據(jù)生成,檢索數(shù)據(jù)為依據(jù)查詢數(shù)據(jù)從目標(biāo)數(shù)據(jù)集中獲取的數(shù)據(jù),初始回復(fù)數(shù)據(jù)為對(duì)查詢數(shù)據(jù)的預(yù)測(cè)過程產(chǎn)生誤導(dǎo)的知識(shí);在圖形用戶界面內(nèi)展示目標(biāo)回復(fù)數(shù)據(jù)。

      6、根據(jù)本申請(qǐng)實(shí)施例的另一方面,還提供了一種電子設(shè)備,包括:存儲(chǔ)器,存儲(chǔ)有可執(zhí)行程序;處理器,用于運(yùn)行程序,其中,程序運(yùn)行時(shí)執(zhí)行上述任意一項(xiàng)的數(shù)據(jù)處理方法。

      7、根據(jù)本申請(qǐng)實(shí)施例的另一方面,還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括存儲(chǔ)的可執(zhí)行程序,其中,在可執(zhí)行程序運(yùn)行時(shí)控制計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行上述任意一項(xiàng)的數(shù)據(jù)處理方法。

      8、根據(jù)本申請(qǐng)實(shí)施例的另一方面,還提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任意一項(xiàng)的數(shù)據(jù)處理方法。

      9、在本申請(qǐng)實(shí)施例中,獲取待處理的查詢數(shù)據(jù),其中,查詢數(shù)據(jù)用于提供待解答的提問內(nèi)容;將查詢數(shù)據(jù)與檢索數(shù)據(jù)輸入至語言模型,生成初始回復(fù)數(shù)據(jù),其中,檢索數(shù)據(jù)為依據(jù)查詢數(shù)據(jù)從目標(biāo)數(shù)據(jù)集中檢索到的待移除數(shù)據(jù),初始回復(fù)數(shù)據(jù)為查詢數(shù)據(jù)的預(yù)測(cè)過程中產(chǎn)生的誤導(dǎo)數(shù)據(jù);將查詢數(shù)據(jù)、檢索數(shù)據(jù)以及初始回復(fù)數(shù)據(jù)輸入至語言模型,獲取查詢數(shù)據(jù)對(duì)應(yīng)的目標(biāo)回復(fù)數(shù)據(jù)。由此,本申請(qǐng)利用查詢數(shù)據(jù)對(duì)應(yīng)的遺忘知識(shí)集中的知識(shí)生成初始回復(fù)數(shù)據(jù),從而通過初始回復(fù)數(shù)據(jù)得到目標(biāo)回復(fù)數(shù)據(jù),實(shí)現(xiàn)查詢數(shù)據(jù)處理中的模型遺忘機(jī)制,這種模型遺忘機(jī)制不但能降低查詢處理中的數(shù)據(jù)泄露風(fēng)險(xiǎn),還不會(huì)帶來較多的成本增加,也就是說,本申請(qǐng)達(dá)到了以較低成本針對(duì)查詢數(shù)據(jù)給出準(zhǔn)確的目標(biāo)回復(fù)數(shù)據(jù)的目的,從而實(shí)現(xiàn)了提升查詢數(shù)據(jù)處理模型的遺忘性能、降低敏感數(shù)據(jù)泄露風(fēng)險(xiǎn)以及降低查詢數(shù)據(jù)處理成本的技術(shù)效果,進(jìn)而解決了相關(guān)技術(shù)中采用模型參數(shù)更新或者梯度上升的方式訓(xùn)練查詢數(shù)據(jù)處理模型其模型遺忘性能較差、數(shù)據(jù)泄露風(fēng)險(xiǎn)高、模型訓(xùn)練成本高的技術(shù)問題。

      10、容易注意到的是,上面的通用描述和后面的詳細(xì)描述僅僅是為了對(duì)本申請(qǐng)進(jìn)行舉例和解釋,并不構(gòu)成對(duì)本申請(qǐng)的限定。



      技術(shù)特征:

      1.一種數(shù)據(jù)處理方法,其特征在于,包括:

      2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,其特征在于,所述數(shù)據(jù)處理方法還包括:

      3.根據(jù)權(quán)利要求2所述的數(shù)據(jù)處理方法,其特征在于,依據(jù)所述查詢數(shù)據(jù)對(duì)所述目標(biāo)數(shù)據(jù)集進(jìn)行數(shù)據(jù)檢索,得到所述查詢數(shù)據(jù)關(guān)聯(lián)的主題與實(shí)體包括:

      4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,其特征在于,將所述查詢數(shù)據(jù)與所述檢索數(shù)據(jù)輸入至所述語言模型,生成所述初始回復(fù)數(shù)據(jù)包括:

      5.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,其特征在于,將所述查詢數(shù)據(jù)、所述檢索數(shù)據(jù)以及所述初始回復(fù)數(shù)據(jù)輸入至所述語言模型,獲取所述查詢數(shù)據(jù)對(duì)應(yīng)的所述目標(biāo)回復(fù)數(shù)據(jù)包括:

      6.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,其特征在于,所述數(shù)據(jù)處理方法還包括:

      7.根據(jù)權(quán)利要求6所述的數(shù)據(jù)處理方法,其特征在于,基于所述分布內(nèi)數(shù)據(jù)與所述合成數(shù)據(jù)生成所述目標(biāo)數(shù)據(jù)集包括:

      8.根據(jù)權(quán)利要求7所述的數(shù)據(jù)處理方法,其特征在于,基于所述分布內(nèi)數(shù)據(jù)與所述合成數(shù)據(jù)生成所述目標(biāo)數(shù)據(jù)集還包括:

      9.一種數(shù)據(jù)處理方法,其特征在于,包括:

      10.根據(jù)權(quán)利要求9所述的數(shù)據(jù)處理方法,其特征在于,所述數(shù)據(jù)處理方法還包括:

      11.一種數(shù)據(jù)處理方法,其特征在于,包括:

      12.一種數(shù)據(jù)處理方法,其特征在于,包括:

      13.一種電子設(shè)備,其特征在于,包括:

      14.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括存儲(chǔ)的可執(zhí)行程序,其中,在所述可執(zhí)行程序運(yùn)行時(shí)控制所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行權(quán)利要求1至12中任意一項(xiàng)所述的數(shù)據(jù)處理方法。

      15.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至12中任意一項(xiàng)所述的數(shù)據(jù)處理方法。


      技術(shù)總結(jié)
      本申請(qǐng)公開了一種數(shù)據(jù)處理方法、電子設(shè)備和計(jì)算機(jī)程序產(chǎn)品,涉及大模型技術(shù)和數(shù)據(jù)查詢技術(shù)領(lǐng)域。其中,該方法包括:獲取待處理的查詢數(shù)據(jù),其中,查詢數(shù)據(jù)用于提供待解答的提問內(nèi)容;將查詢數(shù)據(jù)與檢索數(shù)據(jù)輸入至語言模型,生成初始回復(fù)數(shù)據(jù),其中,檢索數(shù)據(jù)為依據(jù)查詢數(shù)據(jù)從目標(biāo)數(shù)據(jù)集中檢索到的待移除數(shù)據(jù),初始回復(fù)數(shù)據(jù)為查詢數(shù)據(jù)的預(yù)測(cè)過程中產(chǎn)生的誤導(dǎo)數(shù)據(jù);將查詢數(shù)據(jù)、檢索數(shù)據(jù)以及初始回復(fù)數(shù)據(jù)輸入至語言模型,獲取查詢數(shù)據(jù)對(duì)應(yīng)的目標(biāo)回復(fù)數(shù)據(jù)。本申請(qǐng)解決了相關(guān)技術(shù)中采用模型參數(shù)更新或者梯度上升的方式訓(xùn)練查詢數(shù)據(jù)處理模型其模型遺忘性能較差、數(shù)據(jù)泄露風(fēng)險(xiǎn)高、模型訓(xùn)練成本高的技術(shù)問題。

      技術(shù)研發(fā)人員:李趙東暉,汪會(huì)明,蘇德文,叢高,邴立東
      受保護(hù)的技術(shù)使用者:阿里巴巴(中國(guó))有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/19
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1