本發(fā)明涉及人工智能,尤其涉及一種數(shù)據(jù)集的生成方法、裝置、設備、存儲介質及程序產(chǎn)品。
背景技術:
1、通用大模型通常在大規(guī)模的通用數(shù)據(jù)集上進行預訓練,這導致它們在特定行業(yè)或領域內知識不足。特殊領域往往需要深入的專業(yè)知識,而通用模型無法很好地理解和處理這些專業(yè)知識。因此,為了更好的將通用模型應用于特定領域,微調是最有效的方式之一,然而,目前現(xiàn)有大模型微調數(shù)據(jù)集具有很多缺陷,例如:數(shù)據(jù)集標注耗時且成本高;數(shù)據(jù)質量參差不齊,無法保證數(shù)據(jù)集的高質量。
技術實現(xiàn)思路
1、本發(fā)明提供一種數(shù)據(jù)集的生成方法、裝置、設備、存儲介質及程序產(chǎn)品,可以提高生成數(shù)據(jù)集的質量,同時降低生成數(shù)據(jù)集的時間以及成本。
2、第一方面,本公開實施例提供了一種數(shù)據(jù)集的生成方法,包括:通過第一智能代理基于知識片段以及設定問題標準生成第一目標問題;通過第二智能代理基于所述知識片段、所述第一目標問題以及設定答案標準生成所述第一目標問題對應的第一目標答案;通過第三智能代理基于所述知識片段、所述第一目標問題、所述第一目標問題對應的第一目標答案以及設定評分標準生成目標評分標準對應的第二目標問題以及所述第二目標問題對應的第二目標答案;基于所述目標評分標準對應的第二目標問題以及所述第二目標問題對應的第二目標答案形成所述數(shù)據(jù)集。
3、第二方面,本公開實施例還提供了一種數(shù)據(jù)集的生成裝置,包括:問題生成模塊,用于通過第一智能代理基于知識片段以及設定問題標準生成第一目標問題;答案生成模塊,用于通過第二智能代理基于所述知識片段、所述第一目標問題以及設定答案標準生成所述第一目標問題對應的第一目標答案;目標問題答案對生成模塊,用于通過第三智能代理基于所述知識片段、所述第一目標問題、所述第一目標問題對應的第一目標答案以及設定評分標準生成目標評分標準對應的第二目標問題以及所述第二目標問題對應的第二目標答案;數(shù)據(jù)集形成模塊,用于基于所述目標評分標準對應的第二目標問題以及所述第二目標問題對應的第二目標答案形成所述數(shù)據(jù)集。
4、第三方面,本公開實施例還提供了一種電子設備,所述電子設備包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序,當所述一個或多個程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器實現(xiàn)如本公開實施例所述數(shù)據(jù)集的生成方法。
5、第四方面,本公開實施例還提供了一種包含計算機可執(zhí)行指令的存儲介質,所述計算機可執(zhí)行指令在由計算機處理器執(zhí)行時用于執(zhí)行如本公開實施例所述的數(shù)據(jù)集的生成方法。
6、第五方面,本公開實施例還提供了一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)如本公開實施例所述的數(shù)據(jù)集的生成方法。
7、本公開實施例的技術方案,通過第一智能代理基于知識片段以及設定問題標準生成第一目標問題;通過第二智能代理基于所述知識片段、所述第一目標問題以及設定答案標準生成所述第一目標問題對應的第一目標答案;通過第三智能代理基于所述知識片段、所述第一目標問題、所述第一目標問題對應的第一目標答案以及設定評分標準生成目標評分標準對應的第二目標問題以及所述第二目標問題對應的第二目標答案;基于所述目標評分標準對應的第二目標問題以及所述第二目標問題對應的第二目標答案形成所述數(shù)據(jù)集。本公開實施例,通過第一智能代理、第二智能代理以及第三智能代理進行協(xié)同工作的方式,形成一個自動化的流程,無需人工參與,提高生成數(shù)據(jù)集的效率,通過設定問題標準、設定答案標準以及設定評分標準,可以確保生成的問題答案對的質量,提高生成的數(shù)據(jù)集的質量。
1.一種數(shù)據(jù)集的生成方法,其特征在于,包括:
2.根據(jù)權利要求1所述的方法,其特征在于,通過第一智能代理基于知識片段以及設定問題標準生成第一目標問題,包括:
3.根據(jù)權利要求1所述的方法,其特征在于,通過第二智能代理基于所述知識片段、所述第一目標問題以及設定答案標準生成所述第一目標問題對應的第一目標答案,包括:
4.根據(jù)權利要求1所述的方法,其特征在于,通過第三智能代理基于所述知識片段、所述第一目標問題、所述第一目標問題對應的第一目標答案以及設定評分標準生成目標評分標準對應的第二目標問題以及所述第二目標問題對應的第二目標答案,包括:
5.根據(jù)權利要求1所述的方法,其特征在于,在通過第一智能代理基于知識片段以及設定問題標準生成第一目標問題之前,還包括:
6.根據(jù)權利要求1所述的方法,其特征在于,其中,所述第一智能代理、所述第二智能代理以及所述第三智能代理均運行于本地;所述第三智能代理輸出的目標評分標準對應的第二目標問題以及所述第二目標問題對應的第二目標答案被存入本地數(shù)據(jù)庫。
7.根據(jù)權利要求1所述的方法,其特征在于,其中,所述第一智能代理、所述第二智能代理以及所述第三智能代理各自采用相應的設定語言大模型進行相應的任務處理,所述設定語言大模型由任務類型和/或資源狀態(tài)確定。
8.一種數(shù)據(jù)集的生成裝置,其特征在于,包括:
9.一種電子設備,其特征在于,所述電子設備包括:
10.一種包含計算機可執(zhí)行指令的存儲介質,所述計算機可執(zhí)行指令在由計算機處理器執(zhí)行時用于執(zhí)行如權利要求1-7中任一所述的數(shù)據(jù)集的生成方法。
11.一種計算機程序產(chǎn)品,包括計算機程序,其特征在于,所述計算機程序在被處理器執(zhí)行時實現(xiàn)如權利要求1-7中任一項所述的數(shù)據(jù)集的生成方法。