本發(fā)明涉及數(shù)據傳輸,特別是涉及一種模型訓練數(shù)據的傳輸方法及裝置、電子設備、介質。
背景技術:
1、隨著人工智能(ai)和深度學習技術的快速發(fā)展,大規(guī)模模型在各種領域的應用日益廣泛。這些大模型的訓練通常需要大量的數(shù)據,而這些數(shù)據往往包含用戶的個人隱私信息。因此,在大模型訓練過程中,確保數(shù)據的安全傳輸和隱私保護變得尤為重要。
2、在實際應用中,大模型的訓練數(shù)據可以來自各種不同的來源,包括但不限于以下幾種:
3、公開數(shù)據集:許多研究項目使用公開數(shù)據集進行模型訓練,這些數(shù)據通常已經被匿名化或脫敏處理,以保護個人隱私。
4、企業(yè)內部數(shù)據:許多企業(yè)擁有海量的內部數(shù)據,這些數(shù)據可能包含用戶的個人信息、交易記錄等敏感信息。
5、合作數(shù)據:企業(yè)之間可能會進行數(shù)據共享合作,將各自的數(shù)據用于模型訓練。在這種情況下,數(shù)據的安全傳輸和隱私保護是至關重要的。
6、在處理這些數(shù)據時,通常需要進行數(shù)據過濾和脫敏操作,以降低敏感信息的泄露風險。
7、在實際應用中,數(shù)據過濾是指從原始數(shù)據中篩選出對模型訓練有用的信息,并刪除不相關或敏感的數(shù)據。這有助于減少模型訓練的噪聲和不必要的干擾,同時保護用戶隱私。
8、數(shù)據脫敏則是一種常見的數(shù)據保護方法,通過對數(shù)據進行匿名化或加密處理,使得即便數(shù)據被泄露,也難以還原出原始信息。常見的脫敏技術包括數(shù)據加密、數(shù)據替換、數(shù)據擾動等。
9、盡管數(shù)據過濾和脫敏可以一定程度上保護用戶隱私,但在模型訓練過程中,仍然存在一些潛在的隱私風險。例如,模型參數(shù)的更新可能會泄露關于訓練數(shù)據的一些信息,從而導致隱私泄露。
技術實現(xiàn)思路
1、鑒于上述問題,提出了以便提供克服上述問題或者至少部分地解決上述問題的一種模型訓練數(shù)據的傳輸方法及裝置、電子設備、介質,包括:
2、一種模型訓練數(shù)據的傳輸方法,所述方法包括:
3、在檢測到模型訓練過程中的詞向量數(shù)據將從第一數(shù)據處理節(jié)點發(fā)送至第二數(shù)據處理節(jié)點時,獲取所述第一數(shù)據處理節(jié)點的當前時間數(shù)據;
4、基于所述當前時間數(shù)據生成可逆的擾動矩陣;
5、依照所述可逆的擾動矩陣對所述詞向量數(shù)據進行處理,得到傳輸數(shù)據;
6、將所述傳輸數(shù)據傳輸至所述第二數(shù)據處理節(jié)點。
7、可選地,所述基于所述當前時間數(shù)據生成可逆的擾動矩陣,包括:
8、確定所述詞向量數(shù)據的第一向量維度;
9、基于所述第一向量維度,確定可逆的擾動矩陣的第二向量維度;
10、根據所述第二向量維度和所述當前時間數(shù)據,生成可逆的擾動矩陣。
11、可選地,所述根據所述第二向量維度和所述當前時間數(shù)據,生成可逆的擾動矩陣,包括:
12、確定用于生成可逆矩陣元素的預設公式;
13、將所述第二向量維度對應的行列值和所述當前時間數(shù)據輸入所述預設公式確定可逆的擾動矩陣中所述行列值對應的矩陣元素;
14、將所述矩陣元素按照對應的行列值組合,得到可逆的擾動矩陣。
15、可選地,所述基于所述第一向量維度,確定可逆的擾動矩陣的第二向量維度,包括:
16、將所述第一向量維度中列數(shù)作為可逆的擾動矩陣的行數(shù);
17、基于所述第一向量維度行數(shù)與列數(shù)最小值確定所述可逆的擾動矩陣的列數(shù);
18、依照所述可逆的擾動矩陣的行數(shù)和列數(shù)確定所述可逆的擾動矩陣的第二向量維度。
19、可選地,所述依照所述可逆的擾動矩陣對所述詞向量數(shù)據進行處理,得到傳輸數(shù)據,包括:
20、將所述可逆的擾動矩陣與所述詞向量數(shù)據相乘,得到傳輸數(shù)據。
21、可選地,還包括:
22、在進行模型訓練前,對所述第一數(shù)據處理節(jié)點和所述第二數(shù)據處理節(jié)點進行時鐘同步;
23、在所述第二數(shù)據處理節(jié)點接收到傳輸數(shù)據后,基于所述第二數(shù)據處理節(jié)點的當前時間數(shù)據對所述傳輸數(shù)據進行解密,得到所述詞向量數(shù)據。
24、可選地,所述基于所述第二數(shù)據處理節(jié)點的當前時間數(shù)據對所述傳輸數(shù)據進行解密,得到所述詞向量數(shù)據,包括:
25、基于所述第二數(shù)據處理節(jié)點的當前時間數(shù)據生成所述可逆的擾動矩陣的逆矩陣;
26、依照所述逆矩陣對所述傳輸數(shù)據進行解密,得到所述詞向量數(shù)據。
27、一種模型訓練數(shù)據的傳輸裝置,所述裝置包括:
28、當前時間數(shù)據獲取模塊,用于在檢測到模型訓練過程中的詞向量數(shù)據將從第一數(shù)據處理節(jié)點發(fā)送至第二數(shù)據處理節(jié)點時,獲取所述第一數(shù)據處理節(jié)點的當前時間數(shù)據;
29、擾動矩陣生成模塊,用于基于所述當前時間數(shù)據生成可逆的擾動矩陣;
30、數(shù)據處理模塊,用于依照所述可逆的擾動矩陣對所述詞向量數(shù)據進行處理,得到傳輸數(shù)據;
31、傳輸模塊,用于將所述傳輸數(shù)據傳輸至所述第二數(shù)據處理節(jié)點。
32、一種電子設備,包括處理器、存儲器及存儲在所述存儲器上并能夠在所述處理器上運行的計算機程序,所述計算機程序被所述處理器執(zhí)行時實現(xiàn)如上所述模型訓練數(shù)據的傳輸方法。
33、一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上所述模型訓練數(shù)據的傳輸方法。
34、本發(fā)明實施例具有以下優(yōu)點:
35、在本發(fā)明實施例中,在檢測到模型訓練過程中的詞向量數(shù)據將從第一數(shù)據處理節(jié)點發(fā)送至第二數(shù)據處理節(jié)點時,獲取第一數(shù)據處理節(jié)點的當前時間數(shù)據;基于當前時間數(shù)據生成可逆的擾動矩陣;依照可逆的擾動矩陣對詞向量數(shù)據進行處理,得到傳輸數(shù)據;將傳輸數(shù)據傳輸至第二數(shù)據處理節(jié)點。實現(xiàn)了在模型處理數(shù)據傳輸過程中依照時間參數(shù)進行處理,確保數(shù)據傳輸?shù)陌踩浴?/p>
技術特征:
1.一種模型訓練數(shù)據的傳輸方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述基于所述當前時間數(shù)據生成可逆的擾動矩陣,包括:
3.根據權利要求2所述的方法,其特征在于,所述根據所述第二向量維度和所述當前時間數(shù)據,生成可逆的擾動矩陣,包括:
4.根據權利要求2所述的方法,其特征在于,所述基于所述第一向量維度,確定可逆的擾動矩陣的第二向量維度,包括:
5.根據權利要求1所述的方法,其特征在于,所述依照所述可逆的擾動矩陣對所述詞向量數(shù)據進行處理,得到傳輸數(shù)據,包括:
6.根據權利要求2所述的方法,其特征在于,還包括:
7.根據權利要求6所述的方法,其特征在于,所述基于所述第二數(shù)據處理節(jié)點的當前時間數(shù)據對所述傳輸數(shù)據進行解密,得到所述詞向量數(shù)據,包括:
8.一種模型訓練數(shù)據的傳輸裝置,其特征在于,所述裝置包括:
9.一種電子設備,其特征在于,包括處理器、存儲器及存儲在所述存儲器上并能夠在所述處理器上運行的計算機程序,所述計算機程序被所述處理器執(zhí)行時實現(xiàn)如權利要求1至7中任一項所述模型訓練數(shù)據的傳輸方法。
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權利要求1至7中任一項所述模型訓練數(shù)據的傳輸方法。