用于多任務(wù)大語(yǔ)言模型的數(shù)據(jù)整理方法及系統(tǒng)與流程

文檔序號(hào)：40385082發(fā)布日期：2024-12-20 12:07閱讀：6來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

用于多任務(wù)大語(yǔ)言模型的數(shù)據(jù)整理方法及系統(tǒng)與流程

本技術(shù)涉及自然語(yǔ)言處理，具體涉及用于多任務(wù)大語(yǔ)言模型的數(shù)據(jù)整理方法及系統(tǒng)。

背景技術(shù)：

1、多任務(wù)大語(yǔ)言模型是指能夠處理多個(gè)不同自然語(yǔ)言處理任務(wù)的通用性自然語(yǔ)言模型，通過(guò)利用多種任務(wù)類(lèi)型數(shù)據(jù)集進(jìn)行訓(xùn)練，使大語(yǔ)言模型適用于多種任務(wù)類(lèi)型。多任務(wù)大語(yǔ)言模型能夠靈活地應(yīng)用于不同的自然語(yǔ)言處理任務(wù)，也能夠擴(kuò)展到更大的規(guī)模，處理更復(fù)雜的任務(wù)。多任務(wù)大語(yǔ)言模型需要處理多種不同的任務(wù)，包括文本分類(lèi)，命名實(shí)體識(shí)別、文本生成、機(jī)器翻譯等任務(wù)。對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行關(guān)鍵詞提取的數(shù)據(jù)整理，有助于訓(xùn)練集數(shù)據(jù)的分類(lèi)和快速檢索，也能夠說(shuō)明模型在不同任務(wù)之間共享訓(xùn)練集數(shù)據(jù)，提高多任務(wù)大語(yǔ)言模型處理的流暢度。

2、根據(jù)任務(wù)需求、處理目的以及應(yīng)用場(chǎng)景的不同，往往需要對(duì)獲取的樣本進(jìn)行不同的處理構(gòu)建特定訓(xùn)練集訓(xùn)練適用性較好的大語(yǔ)言模型。多個(gè)適應(yīng)性較好的大語(yǔ)言模型能夠部署到一個(gè)定制平臺(tái)中形成能夠針對(duì)不同應(yīng)用場(chǎng)景的、可定制化的多任務(wù)大模型系統(tǒng)，并能夠提供軟件運(yùn)營(yíng)服務(wù)saas，使得用戶(hù)能夠通過(guò)網(wǎng)絡(luò)連接使用基于大模型的應(yīng)用程度。

3、現(xiàn)階段，在訓(xùn)練適用不同應(yīng)用場(chǎng)景的大語(yǔ)言模型時(shí)，先利用大量的多任務(wù)數(shù)據(jù)訓(xùn)練通用性的大語(yǔ)言模型作為初始模型，其次利用初始模型的訓(xùn)練數(shù)據(jù)去微調(diào)特定訓(xùn)練集訓(xùn)練的大語(yǔ)言模型，減少每個(gè)應(yīng)用場(chǎng)景下大語(yǔ)言模型的訓(xùn)練時(shí)間，提高對(duì)應(yīng)用場(chǎng)景的適用性。而在模型訓(xùn)練、微調(diào)過(guò)程中，訓(xùn)練集的質(zhì)量尤為重要，對(duì)獲取樣本的整理是構(gòu)建大語(yǔ)言模型的關(guān)鍵環(huán)節(jié)。在自然語(yǔ)言處理任務(wù)中，為了提高樣本精度、減少模型訓(xùn)練時(shí)間，通常是對(duì)文本數(shù)據(jù)進(jìn)行關(guān)鍵詞抽取，利用關(guān)鍵詞的整理結(jié)果構(gòu)建高質(zhì)量的訓(xùn)練集?；趖f-idf的關(guān)鍵詞提取算法簡(jiǎn)單易實(shí)現(xiàn)，對(duì)于大規(guī)模訓(xùn)練集處理速度快，但是需要手動(dòng)定義和過(guò)濾無(wú)用詞，也無(wú)法捕捉分詞與分詞之間的關(guān)系。對(duì)一些場(chǎng)景下自然語(yǔ)言任務(wù)獲取文本中關(guān)鍵詞的提取效果較差，無(wú)法通過(guò)上下文理解文本情感表達(dá)提取真正有用的關(guān)鍵詞，從而造成多任務(wù)大語(yǔ)言模型訓(xùn)練數(shù)據(jù)微調(diào)模型的效果較差，進(jìn)而導(dǎo)致多個(gè)大語(yǔ)言模型形成的多任務(wù)大模型系統(tǒng)的可用性較差。

技術(shù)實(shí)現(xiàn)思路

1、為了解決上述技術(shù)問(wèn)題，本技術(shù)的目的在于提供用于多任務(wù)大語(yǔ)言模型的數(shù)據(jù)整理方法及系統(tǒng)，所采用的技術(shù)方案具體如下：

2、第一方面，本技術(shù)實(shí)施例提供了用于多任務(wù)大語(yǔ)言模型的數(shù)據(jù)整理方法，該方法包括以下步驟：

3、獲取多任務(wù)的初始樣本集，所述初始樣本集中包含大量的樣本；

4、根據(jù)任務(wù)要求將多任務(wù)劃分為情感顯著任務(wù)、情感非顯著任務(wù)兩類(lèi)；采用語(yǔ)句匹配算法基于初始樣本集中樣本的詞性標(biāo)注結(jié)果確定樣本中各名詞的所有修飾詞的數(shù)據(jù)標(biāo)簽類(lèi)別及類(lèi)別強(qiáng)度；

5、根據(jù)每個(gè)樣本中各名詞的所有修飾詞在不同數(shù)據(jù)標(biāo)簽類(lèi)別下的類(lèi)別強(qiáng)度的分布情況，確定每個(gè)樣本中各名詞的類(lèi)別表達(dá)向量；

6、根據(jù)每個(gè)樣本中每個(gè)名詞與其相同名詞之間的分詞數(shù)量，以及每個(gè)名詞與其相同名詞的類(lèi)別表達(dá)向量之間的相似性確定每個(gè)名詞的類(lèi)別特征相似度；

7、基于所述類(lèi)別特征相似度、每個(gè)樣本中每個(gè)名詞在不同數(shù)據(jù)標(biāo)簽類(lèi)別下的類(lèi)別強(qiáng)度以及每個(gè)名詞與其相同名詞類(lèi)別表達(dá)向量之間的差異，確定每個(gè)樣本中各名詞在不同數(shù)據(jù)標(biāo)簽類(lèi)別下的特征權(quán)重以及特征權(quán)重向量；

8、基于每個(gè)樣本中每個(gè)名詞在所有數(shù)據(jù)標(biāo)簽類(lèi)別下的特征權(quán)重和每個(gè)名詞的詞頻統(tǒng)計(jì)結(jié)果，確定每個(gè)樣本中每個(gè)名詞的重要性指數(shù)；

9、基于每個(gè)樣本中不同名詞的特征權(quán)重向量之間的相似度以及所述重要性指數(shù)提取每個(gè)樣本中的關(guān)鍵詞；

10、分別利用情感顯著任務(wù)、情感非顯著任務(wù)下的所有初始樣本集內(nèi)樣本中的關(guān)鍵詞的特征權(quán)重向量組成通用訓(xùn)練集、特定訓(xùn)練集；

11、利用通用訓(xùn)練集訓(xùn)練初始大語(yǔ)言模型并保存權(quán)重參數(shù)；基于權(quán)重參數(shù)微調(diào)特定訓(xùn)練集訓(xùn)練的多任務(wù)大語(yǔ)言模型，將多個(gè)多任務(wù)大語(yǔ)言模型部署到定制化平臺(tái)上形成多任務(wù)大模型系統(tǒng)。

12、優(yōu)選的，所述每個(gè)樣本中各名詞的類(lèi)別表達(dá)向量的確定方法為：

13、每個(gè)樣本內(nèi)各名詞的所有修飾詞在每個(gè)數(shù)據(jù)標(biāo)簽類(lèi)別下類(lèi)別強(qiáng)度的累加和，記為每個(gè)樣本內(nèi)各名詞在每個(gè)數(shù)據(jù)標(biāo)簽類(lèi)別下的綜合類(lèi)別強(qiáng)度；

14、每個(gè)樣本內(nèi)各名詞在所有數(shù)據(jù)標(biāo)簽類(lèi)別下的綜合類(lèi)別強(qiáng)度，組成每個(gè)樣本內(nèi)各名詞的類(lèi)別表達(dá)向量。

15、優(yōu)選的，所述每個(gè)名詞的類(lèi)別特征相似度的確定方法為：

16、將每個(gè)名詞與其各個(gè)相同名詞之間分詞數(shù)量按照從大到小的順序排序，將排序結(jié)果中前默認(rèn)數(shù)量個(gè)元素對(duì)應(yīng)的相同名詞，記為每個(gè)樣本內(nèi)每個(gè)名詞的鄰近同詞；

17、分析每個(gè)樣本內(nèi)每個(gè)名詞的類(lèi)別表達(dá)向量與其各鄰近同詞的類(lèi)別表達(dá)向量的距離；

18、分析每個(gè)樣本內(nèi)每個(gè)名詞與其各鄰近同詞間分詞的數(shù)量及所述距離的比值，記為每個(gè)樣本內(nèi)每個(gè)名詞與其各鄰近同詞的第一比值；

19、每個(gè)樣本內(nèi)每個(gè)名詞的類(lèi)別特征相似度為每個(gè)樣本內(nèi)每個(gè)名詞與其所有鄰近同詞的第一比值融合的結(jié)果。

20、優(yōu)選的，所述每個(gè)樣本中各名詞在不同數(shù)據(jù)標(biāo)簽類(lèi)別下的特征權(quán)重以及特征權(quán)重向量的確定方法為：

21、基于每個(gè)樣本內(nèi)各名詞的類(lèi)別特征相似度及類(lèi)別表達(dá)向量的異常程度，確定每個(gè)樣本內(nèi)各名詞的任務(wù)數(shù)據(jù)可信度；

22、基于每個(gè)樣本內(nèi)各名詞在各數(shù)據(jù)標(biāo)簽類(lèi)別下的綜合類(lèi)別強(qiáng)度及所述任務(wù)數(shù)據(jù)可信度，確定每個(gè)樣本內(nèi)各名詞在各數(shù)據(jù)標(biāo)簽類(lèi)別下的特征權(quán)重；

23、將每個(gè)名詞在所有數(shù)據(jù)標(biāo)簽類(lèi)別下的特征權(quán)重組成的向量作為每個(gè)名詞的特征權(quán)重向量。

24、優(yōu)選的，所述每個(gè)樣本內(nèi)各名詞的任務(wù)數(shù)據(jù)可信度的確定方法為：

25、將每個(gè)樣本內(nèi)各名詞的類(lèi)別表達(dá)向量到其所有相同名詞的類(lèi)別表達(dá)向量的距離取均值，作為異常得分算法的輸入，得到每個(gè)文本文內(nèi)各名詞的異常得分值；

26、每個(gè)樣本內(nèi)各名詞的任務(wù)數(shù)據(jù)可信度的表達(dá)式為：式中，表示第i個(gè)樣本內(nèi)第j個(gè)名詞的任務(wù)數(shù)據(jù)可信度；是第i個(gè)樣本內(nèi)第j個(gè)名詞的類(lèi)別特征相似度；是第i個(gè)樣本內(nèi)第j個(gè)名詞的異常得分值。

27、優(yōu)選的，所述每個(gè)樣本內(nèi)各名詞在各數(shù)據(jù)標(biāo)簽類(lèi)別下的特征權(quán)重的表達(dá)式為：式中，wi,j(a)表示第i個(gè)樣本內(nèi)第j個(gè)名詞在第a種數(shù)據(jù)標(biāo)簽類(lèi)別下的特征權(quán)重；表示第i個(gè)樣本內(nèi)第j個(gè)名詞的所有相同名詞中第x個(gè)相同名詞的任務(wù)數(shù)據(jù)可信度；表示第i個(gè)樣本內(nèi)第j個(gè)名詞的所有相同名詞中第x個(gè)相同名詞在第a種數(shù)據(jù)標(biāo)簽類(lèi)別下的綜合類(lèi)別強(qiáng)度；x表示第i個(gè)樣本內(nèi)第j個(gè)名詞的數(shù)量。

28、優(yōu)選的，所述每個(gè)樣本中每個(gè)名詞的重要性指數(shù)為每個(gè)樣本內(nèi)各名詞在所有數(shù)據(jù)標(biāo)簽類(lèi)別下特征權(quán)重的和值及對(duì)應(yīng)名詞的詞頻-逆文文件頻率相乘結(jié)果的歸一化值。

29、優(yōu)選的，所述提取每個(gè)樣本中的關(guān)鍵詞的過(guò)程為：

30、每個(gè)樣本內(nèi)各名詞在所有數(shù)據(jù)標(biāo)簽類(lèi)別下的特征權(quán)重，組成每個(gè)樣本內(nèi)各名詞的特征權(quán)重向量；

31、將每個(gè)樣本內(nèi)各名詞作為有向圖的節(jié)點(diǎn)，將兩個(gè)名詞的特征權(quán)重向量之間的相似度作為兩個(gè)名詞對(duì)應(yīng)節(jié)點(diǎn)之間連線的邊權(quán)構(gòu)建每個(gè)樣本的有向圖；

32、將每個(gè)樣本的有向圖作為textrank算法的輸入，各名詞的重要性指數(shù)作為各名詞的初始權(quán)重，輸出每個(gè)樣本中所有名詞各自的textrank分?jǐn)?shù)并按降序排列，排列結(jié)果中前預(yù)設(shè)數(shù)目個(gè)名詞作為每個(gè)樣本的關(guān)鍵詞。

33、優(yōu)選的，所述基于權(quán)重參數(shù)微調(diào)特定訓(xùn)練集訓(xùn)練的多任務(wù)大語(yǔ)言模型，包括：

34、分析每個(gè)樣本內(nèi)所有關(guān)鍵詞的特征權(quán)重向量的向量和，記為每個(gè)樣本的特征向量；

35、分別將每個(gè)情感顯著任務(wù)、每個(gè)情感非顯著任務(wù)下初始樣本集內(nèi)所有樣本的特征向量作為聚類(lèi)算法的輸入，得到各聚類(lèi)簇，同簇內(nèi)所有特征向量對(duì)應(yīng)的樣本歸為一類(lèi)；

36、利用每個(gè)情感非顯著任務(wù)下初始樣本集內(nèi)樣本分類(lèi)結(jié)果中每一類(lèi)樣本的特征向量構(gòu)建一類(lèi)訓(xùn)練樣本，所有訓(xùn)練樣本組成通用訓(xùn)練集；利用通用訓(xùn)練集訓(xùn)練初始大語(yǔ)言模型并保留權(quán)重參數(shù)；

37、利用每個(gè)情感顯著任務(wù)下初始樣本集內(nèi)樣本分類(lèi)結(jié)果中每一類(lèi)樣本的特征向量構(gòu)建情感顯著任務(wù)的一類(lèi)訓(xùn)練樣本，情感顯著任務(wù)的所有訓(xùn)練樣本組成特定訓(xùn)練集；

38、將所述權(quán)重參數(shù)作為特定訓(xùn)練集訓(xùn)練大語(yǔ)言模型時(shí)模型權(quán)重的初始參數(shù)，進(jìn)行權(quán)重遷移，將訓(xùn)練所得模型作為多任務(wù)大語(yǔ)言模型。

39、第二方面，本技術(shù)實(shí)施例還提供了用于多任務(wù)大語(yǔ)言模型的數(shù)據(jù)整理系統(tǒng)，包括內(nèi)存、處理器以及存儲(chǔ)在所述內(nèi)存中并在所述處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述任意一項(xiàng)所述用于多任務(wù)大語(yǔ)言模型的數(shù)據(jù)整理方法的步驟。

40、本技術(shù)至少具有如下有益效果：

41、首先，本技術(shù)采用語(yǔ)句分配算法獲取每個(gè)樣本內(nèi)各名詞的所有修飾詞的類(lèi)別強(qiáng)度及所屬數(shù)據(jù)標(biāo)簽類(lèi)別，對(duì)多任務(wù)的初始樣本集中的樣本特征進(jìn)行分類(lèi)和量化，能夠以更高的細(xì)粒度去分析樣本內(nèi)的數(shù)據(jù)特征，以保證后續(xù)提取關(guān)鍵詞構(gòu)建訓(xùn)練集的質(zhì)量；之后，根據(jù)樣本中相同名詞之間的位置間隔以及相同名詞在不同位置所表達(dá)的數(shù)據(jù)標(biāo)簽類(lèi)別特征的相似性確定類(lèi)別特征相似度，能夠解決由于樣本來(lái)源不同導(dǎo)致的類(lèi)別特征差異造成的數(shù)據(jù)標(biāo)簽類(lèi)別混淆問(wèn)題；其次，基于樣本內(nèi)各名詞在數(shù)據(jù)標(biāo)簽類(lèi)別下的綜合類(lèi)別強(qiáng)度，結(jié)合各名詞的類(lèi)別表達(dá)向量與其所有相同名詞類(lèi)別表達(dá)向量的差異及所述類(lèi)別特征相似度，確定樣本內(nèi)各名詞在各數(shù)據(jù)標(biāo)簽類(lèi)別下的特征權(quán)重，有助于在不同類(lèi)型任務(wù)時(shí)，從各個(gè)初始樣本集中識(shí)別對(duì)樣本整體特征貢獻(xiàn)度較大的名詞；之后，基于每個(gè)名詞在各數(shù)據(jù)標(biāo)簽類(lèi)別下的特征權(quán)重結(jié)合各名詞及其所有相同名詞在所有名詞中的占比，確定每個(gè)名詞的重要性指數(shù)，以便于后續(xù)提取每個(gè)初始樣本集時(shí)所構(gòu)建有向圖能夠基于樣本內(nèi)名詞所表達(dá)的數(shù)據(jù)標(biāo)簽類(lèi)別特征不同自適應(yīng)確定初始權(quán)重，提高提取關(guān)鍵詞的準(zhǔn)確度；隨后，基于關(guān)鍵詞的特征權(quán)重向量確定每個(gè)樣本的特征向量，完成對(duì)情感顯著任務(wù)、情感非顯著任務(wù)下不同初始樣本集的分析，相較于直接利用初始樣本集進(jìn)行訓(xùn)練有利于后續(xù)構(gòu)建高質(zhì)量的訓(xùn)練集；之后，基于已分類(lèi)的通用訓(xùn)練集訓(xùn)練初始大語(yǔ)言模型，并基于初始大語(yǔ)言模型的權(quán)重?cái)?shù)據(jù)對(duì)多任務(wù)大語(yǔ)言模型進(jìn)行微調(diào)，使得多任務(wù)大語(yǔ)言模型既具有處理多任務(wù)數(shù)據(jù)的能力，在針對(duì)特定任務(wù)時(shí)具有較高的準(zhǔn)確率精度；最后，針對(duì)多個(gè)特定任務(wù)得到多個(gè)多任務(wù)大語(yǔ)言模型，提高了多個(gè)多任務(wù)大語(yǔ)言模型所形成多任務(wù)大模型系統(tǒng)的可用性，滿(mǎn)足用戶(hù)使用基于大模型的智能應(yīng)用時(shí)定制化的需求。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：封帆
技術(shù)所有人：深圳云啟時(shí)代科技有限公司
我是此專(zhuān)利的發(fā)明人

上一篇：一種工程施工用可調(diào)式圍擋的制作方法
上一篇：氣體過(guò)濾器的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

用于多任務(wù)大語(yǔ)言模型的數(shù)據(jù)整理方法及系統(tǒng)與流程