本發(fā)明屬于無線通信,尤其涉及一種基于ac-gan和動態(tài)概率調(diào)度的可靠聯(lián)邦學(xué)習(xí)方法及系統(tǒng)。
背景技術(shù):
1、近些年,人工智能的發(fā)展已經(jīng)在多個領(lǐng)域引起了深遠(yuǎn)的影響,它已經(jīng)成為當(dāng)今科技進(jìn)步的關(guān)鍵推動力之一。視頻推薦算法、智能穿戴設(shè)備、ai大模型、醫(yī)療圖像識別技術(shù)等在現(xiàn)實領(lǐng)域中應(yīng)用廣泛,改變了人們的生活方式、提高了生產(chǎn)效率和生活質(zhì)量。在人工智能發(fā)展和應(yīng)用中,數(shù)據(jù)扮演著至關(guān)重要的角色。人工智能的發(fā)展需要大量數(shù)據(jù)的支持,人工智能的應(yīng)用會導(dǎo)致大量數(shù)據(jù)的產(chǎn)生。隨著大量數(shù)據(jù)的出現(xiàn),如何獲取、利用這些大量數(shù)據(jù)又成為人工智能發(fā)展的瓶頸。機(jī)器學(xué)習(xí)作為一種人工智能技術(shù),通過收集數(shù)據(jù)并訓(xùn)練高性能機(jī)器學(xué)習(xí)模型,能夠?qū)Υ罅繑?shù)據(jù)表現(xiàn)出良好的學(xué)習(xí)能力。然而,隨著時間推移,人們意識到數(shù)據(jù)并非總是以可供大規(guī)模分析的、統(tǒng)一的、完整的形式存在。相反,數(shù)據(jù)往往呈現(xiàn)出小規(guī)模、碎片化的特點,分散在不同的地方。舉例來說,隨著終端設(shè)備的不斷涌現(xiàn),這些設(shè)備產(chǎn)生的數(shù)據(jù)被零散地存儲在各處,機(jī)構(gòu)難以隨意地收集這些碎片化數(shù)據(jù)。同時,用戶對隱私和數(shù)據(jù)安全的關(guān)注更使得將所有數(shù)據(jù)聚合到一起并進(jìn)行處理變得更加困難。在這樣的背景下,產(chǎn)生了一種應(yīng)對分散數(shù)據(jù)和隱私安全問題的分布式機(jī)器學(xué)習(xí)方案—聯(lián)邦學(xué)習(xí)。聯(lián)邦學(xué)習(xí)允許多個用戶在自己的終端設(shè)備上進(jìn)行本地訓(xùn)練,協(xié)同地構(gòu)建一個高性能的機(jī)器學(xué)習(xí)模型,避免了將所有用戶的私有數(shù)據(jù)收集到一個中心服務(wù)器上,減少數(shù)據(jù)收集、數(shù)據(jù)傳輸?shù)拈_銷,同時滿足了用戶對隱私和數(shù)據(jù)保密性的要求。聯(lián)邦學(xué)習(xí)的訓(xùn)練過程基于分布式學(xué)習(xí)的思想,一般包括一個中心服務(wù)器和多個參與方,訓(xùn)練過程通常包括以下步驟:i)訓(xùn)練開始前,中心服務(wù)器初始化一個共享的全局模型并發(fā)送給所有參與聯(lián)邦學(xué)習(xí)訓(xùn)練的用戶;ii)用戶利用本地數(shù)據(jù)對全局模型進(jìn)行訓(xùn)練,訓(xùn)練完成后向服務(wù)器發(fā)送本地模型參數(shù);iii)服務(wù)器聚合所有用戶的模型參數(shù),形成全局模型的更新并發(fā)送給所有用戶。重復(fù)步驟iii)、iii)直到模型收斂或達(dá)到預(yù)設(shè)的停止條件。通過這種方式,聯(lián)邦學(xué)習(xí)成為構(gòu)建對數(shù)據(jù)隱私具有高度敏感性的機(jī)器學(xué)習(xí)模型的關(guān)鍵技術(shù)。
2、然而,在現(xiàn)實的研究和應(yīng)用中,用戶的數(shù)據(jù)往往具有不同水平的噪聲標(biāo)簽,噪聲數(shù)據(jù)引入了額外的誤差,全局模型可能傾向于學(xué)習(xí)這些噪聲而不是真正的模式或規(guī)律;由于數(shù)據(jù)的特征不受外界的控制,不同用戶的數(shù)據(jù)在統(tǒng)計上可能是異構(gòu)的;而且,聯(lián)邦學(xué)習(xí)的參與方中可能存在惡意用戶,他們通過提交定制的本地更新,執(zhí)行投毒攻擊和拜占庭攻擊;另外,盡管聯(lián)邦學(xué)習(xí)在保護(hù)數(shù)據(jù)隱私性方面具有得天獨厚的優(yōu)勢,但是其本身的安全和隱私問題引起了廣泛的關(guān)注,例如半誠實的服務(wù)器可能主動推斷參與方的敏感數(shù)據(jù),造成用戶隱私泄露問題。
3、聯(lián)邦學(xué)習(xí)應(yīng)用于無線網(wǎng)絡(luò)環(huán)境中又稱為無線聯(lián)邦學(xué)習(xí),受制于無線網(wǎng)絡(luò),無線聯(lián)邦學(xué)習(xí)又會面臨新挑戰(zhàn)。首先,無線網(wǎng)絡(luò)可能受到干擾、信號衰減或者連接不穩(wěn)定等問題影響,這會導(dǎo)致模型更新在傳輸過程中出現(xiàn)數(shù)據(jù)包丟失或者延遲問題,從而影響模型的準(zhǔn)確性和收斂速度;其次,無線網(wǎng)絡(luò)環(huán)境是一個開放的空間,進(jìn)行無線通信的信息傳播者,所有的調(diào)制信息都暴露在公共空間中,因此無線網(wǎng)絡(luò)中的數(shù)據(jù)傳輸比有線網(wǎng)絡(luò)的數(shù)據(jù)傳輸更容易受到竊聽或篡改的威脅。上述的問題會使聯(lián)邦學(xué)習(xí)過程受到不利影響,導(dǎo)致全局模型準(zhǔn)確性降低,甚至無法收斂。因此,在無線聯(lián)邦學(xué)習(xí)中采取適當(dāng)措施以增強(qiáng)數(shù)據(jù)質(zhì)量控制、有效應(yīng)對異構(gòu)數(shù)據(jù)問題和提升系統(tǒng)的安全性,對于增強(qiáng)聯(lián)邦學(xué)習(xí)的可靠性、保障數(shù)據(jù)安全以及提高模型的收斂速度具有重要價值。
4、通過上述分析,現(xiàn)有技術(shù)存在的問題及缺陷為:
5、(1)在現(xiàn)實的研究和應(yīng)用中,用戶的數(shù)據(jù)往往具有不同水平的噪聲標(biāo)簽,噪聲數(shù)據(jù)引入了額外的誤差,全局模型可能傾向于學(xué)習(xí)這些噪聲而不是真正的模式或規(guī)律;
6、(2)由于數(shù)據(jù)的特征不受外界的控制,不同用戶的數(shù)據(jù)在統(tǒng)計上可能是異構(gòu)的;而且,聯(lián)邦學(xué)習(xí)的參與方中可能存在惡意用戶,他們通過提交定制的本地更新,執(zhí)行投毒攻擊和拜占庭攻擊;
7、(3)盡管聯(lián)邦學(xué)習(xí)在保護(hù)數(shù)據(jù)隱私性方面具有得天獨厚的優(yōu)勢,但是其本身的安全和隱私問題引起了廣泛的關(guān)注,例如半誠實的服務(wù)器可能主動推斷參與方的敏感數(shù)據(jù),造成用戶隱私泄露問題。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)存在的問題,本發(fā)明提供了一種基于ac-gan和動態(tài)概率調(diào)度的可靠聯(lián)邦學(xué)習(xí)方法及系統(tǒng)。
2、本發(fā)明是這樣實現(xiàn)的,一種基于ac-gan和動態(tài)概率調(diào)度的可靠聯(lián)邦學(xué)習(xí)方法包括:
3、步驟1,服務(wù)器在一個小基準(zhǔn)數(shù)據(jù)集上訓(xùn)練ac-gan模型并部署到各個用戶設(shè)備上;
4、步驟2,用戶根據(jù)利用ac-gan模型對本地數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,形成干凈數(shù)據(jù)集;
5、步驟3,用戶根據(jù)利用ac-gan模型對本地數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),形成增強(qiáng)數(shù)據(jù)集;
6、步驟4,協(xié)調(diào)服務(wù)器構(gòu)建用戶選擇概率表,用戶利用本地數(shù)據(jù)進(jìn)行訓(xùn)練形成本地模型,并將加密后的本地模型參數(shù)發(fā)送給協(xié)調(diào)服務(wù)器;
7、步驟5,協(xié)調(diào)服務(wù)器對加密模型執(zhí)行模型加噪后發(fā)送給參數(shù)服務(wù)器,參數(shù)服務(wù)器執(zhí)行惡意攻擊檢測以及模型聚合,形成加噪后的全局模型,對全局模型重加密后發(fā)送給協(xié)調(diào)服務(wù)器;
8、步驟6,協(xié)調(diào)服務(wù)器進(jìn)行模型去噪以及模型分發(fā);
9、步驟7,經(jīng)過一定的通信輪次,協(xié)調(diào)服務(wù)器根據(jù)用戶選擇概率表構(gòu)建惡意用戶集和良性用戶集。
10、進(jìn)一步,所述基于ac-gan和動態(tài)概率調(diào)度的可靠聯(lián)邦學(xué)習(xí)方法具體包括:
11、步驟一,密鑰生成;密鑰生成中心kgc首先為參數(shù)服務(wù)器ps和所有聯(lián)邦學(xué)習(xí)ue生成唯一的密鑰對;生成密鑰對后,kgc通過安全的通信渠道將私鑰分發(fā)給各自的擁有者,公鑰公開;密鑰對生成和分發(fā)完成后,系統(tǒng)中的各方可以開始進(jìn)行加密通信和數(shù)據(jù)交換;kgc還負(fù)責(zé)密鑰的維護(hù)和更新工作,在密鑰使用周期內(nèi),如果發(fā)現(xiàn)密鑰泄露或其他安全風(fēng)險,kgc需及時生成新的密鑰對,并重新分發(fā)和公開流程;
12、步驟二,協(xié)調(diào)服務(wù)器cs初始化;cs首先初始化聯(lián)邦學(xué)習(xí)任務(wù)相關(guān)的模型參數(shù),同時訓(xùn)練一個與任務(wù)相關(guān)的ac-gan模型;cs負(fù)責(zé)維護(hù)一個高質(zhì)量的小型基準(zhǔn)數(shù)據(jù)集,這個數(shù)據(jù)集被用來訓(xùn)練ac-gan模型;
13、步驟三,數(shù)據(jù)清洗dc;
14、包括:噪聲識別、質(zhì)量評估、噪聲矯正和清洗后驗證;
15、步驟四,數(shù)據(jù)增強(qiáng)da;
16、具體過程如下,ue首先統(tǒng)計本地數(shù)據(jù)集的各類別及其樣本數(shù)量的分布,以評估數(shù)據(jù)集的多樣性;ue依據(jù)自身的計算能力和存儲空間確定增強(qiáng)閾值,利用ac-gan模型的生成器為數(shù)據(jù)集中的每個類別生成新的數(shù)據(jù)樣本;這一步驟的目的是平衡類別分布并提高數(shù)據(jù)集的多樣性;接著,將新生成的數(shù)據(jù)樣本與原有數(shù)據(jù)樣本進(jìn)行樣本融合從而形成da后的數(shù)據(jù)集;最后,ue再次評估數(shù)據(jù)集的多樣性;
17、步驟五,ue本地訓(xùn)練;
18、在此階段,每個ue利用自身的數(shù)據(jù)集對初始全局模型進(jìn)行優(yōu)化;
19、步驟六,ckks加密;
20、當(dāng)ue發(fā)送加密模型至cs時,cs對接收到的加密數(shù)據(jù)進(jìn)行加噪處理;
21、步驟七,攻擊檢測;
22、ps與cs共同維護(hù)一個用戶選擇概率表,用于表征聯(lián)邦學(xué)習(xí)ue的可信度;在每輪模型更新的過程中,ps首先解密各個ue的模型參數(shù),然后通過計算并分析各個ue提交的模型參數(shù)與當(dāng)前全局模型之間的相似度,來識別可能提交了惡意更新的ue;
23、步驟八,模型聚合;
24、通過對當(dāng)前輪次中被識別為良性ue提交的模型參數(shù)執(zhí)行加權(quán)聚合操作,以此形成新一輪的全局模型;此聚合過程中,各良性ue的貢獻(xiàn)度按照其模型參數(shù)與全局模型相似度的比例進(jìn)行加權(quán);全局模型形成后,ps便參照用戶選擇概率表來挑選出將接收模型更新的ue,即選出所有選擇概率大于零的ue;隨后,ps利用各個ue的公鑰對全局模型進(jìn)行加密,確保僅目標(biāo)ue能夠解密并利用這些更新;最終,加密后的全局模型由cs負(fù)責(zé)分發(fā)至各個ue。
25、進(jìn)一步,所述步驟三的數(shù)據(jù)清洗方法具體包括:
26、服務(wù)器會在一個高質(zhì)量且規(guī)模較小的數(shù)據(jù)集上訓(xùn)練一個ac-gan,該網(wǎng)絡(luò)訓(xùn)練完成后,將被部署到所有ue中以協(xié)助進(jìn)行數(shù)據(jù)清洗;
27、當(dāng)ue獲取到ac-gan模型后,對于每個本地數(shù)據(jù)樣本xi,使用ac-gan的判別器e計算其與真實標(biāo)簽yi之間的損失值,如下所示:
28、
29、其中,dk表示用戶k的所有數(shù)據(jù)樣本,表示用戶集合;
30、所有樣本的損失值將作為特征被輸入到一個高斯混合模型(gaussian?mixtruemodel,gmm)中;gmm是一種概率模型,它假設(shè)所有數(shù)據(jù)點都是由有限數(shù)量的高斯分布混合而成,這一步的目的是識別損失值的潛在分布,每個分布代表數(shù)據(jù)中的一個組或類別,這些類別對應(yīng)于不同的噪聲水平和數(shù)據(jù)質(zhì)量;該gmm基于損失值對數(shù)據(jù)樣本進(jìn)行軟分類,生成軟分類標(biāo)簽如下所示:
31、
32、其中,components表示高斯分布的數(shù)量,components=2旨在捕捉噪聲樣本和非噪聲樣本的損失值分布,的數(shù)量對應(yīng)于components的值;
33、接下來,計算兩個高斯分布的均值并選取均值最大的分布作為噪聲數(shù)據(jù)的標(biāo)簽從而形成噪聲樣本集indexnoise,進(jìn)而確定噪聲樣本的數(shù)量占總數(shù)據(jù)量的比例,即噪聲水平levelk;通過預(yù)設(shè)的置信閾值trust和清洗閾值c確定最終重標(biāo)簽的數(shù)據(jù)樣本;最后,使用判別器e對這些數(shù)據(jù)樣本進(jìn)行重標(biāo)簽,即利用判別器的預(yù)測結(jié)果對噪聲數(shù)據(jù)集中的樣本進(jìn)行重新標(biāo)注;這一步驟是基于假設(shè):ac-gan判別器在高質(zhì)量數(shù)據(jù)集上的訓(xùn)練使其能夠有效識別和糾正噪聲標(biāo)簽;重標(biāo)簽的方式如下所示:
34、
35、進(jìn)一步,所述步驟四的數(shù)據(jù)增強(qiáng)方法具體包括:
36、服務(wù)器會在一個高質(zhì)量且規(guī)模較小的數(shù)據(jù)集上訓(xùn)練一個ac-gan,該網(wǎng)絡(luò)訓(xùn)練完成后,將被部署到所有ue中以協(xié)助進(jìn)行數(shù)據(jù)增強(qiáng);
37、對于每個首先統(tǒng)計本地數(shù)據(jù)集dk中各個類別i的數(shù)據(jù)量v;根
38、據(jù)預(yù)設(shè)的增強(qiáng)閾值r(0<r≤1)、確定每個類別數(shù)據(jù)量的目標(biāo)下限值lowk;如下所示:
39、
40、具體而言,先在本地數(shù)據(jù)集dk中尋找數(shù)量最多的類別所擁有的數(shù)據(jù)量,然后乘以增強(qiáng)閾值以作為每個類別所需要達(dá)到的數(shù)據(jù)量的下限;
41、在確定數(shù)據(jù)量下限lowk之后,對數(shù)據(jù)量低于dk的類別進(jìn)行數(shù)據(jù)增強(qiáng)以提升對應(yīng)類別下的數(shù)據(jù)量,確保數(shù)據(jù)集的均衡和多樣性;這個過程主要涉及以下三個步驟:
42、(1)生成隨機(jī)噪聲向量z:選取一個適當(dāng)?shù)木S度,從一個預(yù)定義的分布(高維正態(tài)分布)中隨機(jī)抽取向量;這個噪聲向量z將作為數(shù)據(jù)增強(qiáng)過程的輸入,以產(chǎn)生多樣化但與現(xiàn)有數(shù)據(jù)相一致的新數(shù)據(jù)點;
43、(2)生成新數(shù)據(jù):將隨機(jī)噪聲向量z和指定的類別標(biāo)簽i輸入到訓(xùn)練好的acgan生成器g中;生成器g會根據(jù)輸入的噪聲向量和類別標(biāo)簽,生成與該類別相對應(yīng)的新數(shù)據(jù)樣本
44、(3)將新數(shù)據(jù)加入數(shù)據(jù)集:將生成的新數(shù)據(jù)樣本及其對應(yīng)的類別標(biāo)簽i加入數(shù)據(jù)集中,形成一個更均衡多樣的數(shù)據(jù)集
45、進(jìn)一步,所述步驟六的ckks同態(tài)加密方案具體包括:
46、在聯(lián)邦學(xué)習(xí)的實施過程中,ue利用全局模型參數(shù)在各自的本地數(shù)據(jù)集上進(jìn)行模型訓(xùn)練;每個通信輪次中,uei基于全局模型參數(shù)完成本地訓(xùn)練后,會形成相應(yīng)的本地模型隨后,模型更新的安全傳輸,uei將使用ps的公鑰pkp對本地模型進(jìn)行加密,被cs調(diào)度;cs與隨機(jī)選擇的ue子組st中的用戶建立通信連接,請求他們傳輸加密后的模型更新
47、cs計算每個用戶的sinr,并與預(yù)設(shè)的信噪比閾值sinr0進(jìn)行比較;sinr小于閾值的ue被認(rèn)為其模型更新無法被cs正確接收,將其從子組st中移除;隨后,cs對用戶模型進(jìn)行加噪處理;具體而言,cs選擇d個隨機(jī)整數(shù)τj(j∈[1,d]),對每個ue的加密模型進(jìn)行加噪,形成掩飾模型并發(fā)送給ps。
48、進(jìn)一步,所述步驟七的用戶調(diào)度概率動態(tài)更新準(zhǔn)則具體包括:
49、初始狀態(tài)下,所有用戶的調(diào)度概率表示如下:
50、
51、其中k表示所有本地用戶數(shù),訓(xùn)練開始前所有用戶的調(diào)度概率相同;
52、引入了一個動態(tài)自適應(yīng)相似度閾值sim;當(dāng)ue提交的模型更新與全局模型的余弦相似度超過該閾值時;具體來說,是第t輪通信中,服務(wù)器計算的當(dāng)前調(diào)度ue子組和全局模型之間的相似度;服務(wù)器對大于等于0的相似度進(jìn)行歸一化操作,取歸一化后的均值作為當(dāng)前輪次的sim;歸一化操作表示如下:
53、
54、其中,s'表示從集合s中移除所有小于0的值后得到的新集合,min(s')表示s'中相似度的最小值,max(s')表示s'中相似度的最大值;
55、基于相似度閾值sim,可以將每一輪通信中的調(diào)度用戶分為兩個不同的組別:
56、
57、其中,表示第t輪通信中的良性ue集合,其中包括的ue是本地模型與全局模型相似度大于等于sim的ue集合;表示第t輪通信中的惡意ue集合,其中包含的ue是本地模型與全局模型相似度均小于sim的ue集合;
58、用戶選擇概率的調(diào)整只在當(dāng)前通信輪次中被調(diào)度的子組s內(nèi)進(jìn)行,而未被調(diào)度的ue的選擇概率不變;在第t輪通信中,設(shè)定為良性用戶集的大小,為惡意用戶集的大小,且n′+m′=k1,則更新后的用戶選擇概率可表示為:
59、
60、其中,pt表示第t輪通信中所有用戶的選擇概率,規(guī)定了良性用戶集用戶選擇概率的變化;對于中的用戶i,其中為在第t-1輪通信中用戶i的選擇概率,表示用戶選擇概率的增加量,x為一個可調(diào)整的參數(shù),用以控制概率的變化幅度;規(guī)定了惡意用戶集用戶選擇概率的變化量,對于中的用戶j,其中為在第t-1輪通信中用戶j的選擇概率,表示用戶選擇概率的減少量;規(guī)定了未調(diào)度的用戶k,其選擇概率保持不變。
61、本發(fā)明的另一目的在于提供一種基于ac-gan和動態(tài)概率調(diào)度的可靠聯(lián)邦學(xué)習(xí)系統(tǒng)包括:
62、密鑰生成模塊,用于密鑰生成中心為參數(shù)服務(wù)器和所有聯(lián)邦學(xué)習(xí)ue生成唯一密鑰對;
63、服務(wù)器初始化模塊,用于初始化聯(lián)邦學(xué)習(xí)任務(wù)相關(guān)的模型參數(shù),同時訓(xùn)練一個與任務(wù)相關(guān)的ac-gan模型;
64、數(shù)據(jù)清洗模塊,用于ue使用ac-gan模型對本地數(shù)據(jù)集進(jìn)行噪聲識別并糾正;
65、數(shù)據(jù)增強(qiáng)模塊,用于ue使用ac-gan模型對本地數(shù)據(jù)集進(jìn)行數(shù)據(jù)擴(kuò)充;
66、ue本地訓(xùn)練模塊,用于ue使用本地數(shù)據(jù)集對初始全局模型進(jìn)行優(yōu)化;
67、ckks加密模塊,用于使用ckks同態(tài)加密方案對ue的本地模型參數(shù)進(jìn)行加密;
68、攻擊檢測模塊,用于根據(jù)一定的規(guī)則區(qū)分每一個通信輪次中的惡意ue和良性ue;
69、模型聚合模塊,用于根據(jù)攻擊檢測模塊的分析結(jié)果,對當(dāng)前輪次中被識別為良性ue提交的模型參數(shù)執(zhí)行甲醛聚合操作,以形成新一輪的全局模型。
70、本發(fā)明的另一目的在于提供一種計算機(jī)設(shè)備,所述計算機(jī)設(shè)備包括存儲器和處理器,所述存儲器存儲有計算機(jī)程序,所述計算機(jī)程序被所述處理器執(zhí)行時,使得所述處理器執(zhí)行所述基于ac-gan和動態(tài)概率調(diào)度的可靠聯(lián)邦學(xué)習(xí)方法。
71、本發(fā)明的另一目的在于提供一種計算機(jī)可讀存儲介質(zhì),存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時,使得所述處理器執(zhí)行基于ac-gan和動態(tài)概率調(diào)度的可靠聯(lián)邦學(xué)習(xí)方法。
72、結(jié)合上述的技術(shù)方案和解決的技術(shù)問題,本發(fā)明所要保護(hù)的技術(shù)方案所具備的優(yōu)點及積極效果為:
73、第一,在噪聲標(biāo)簽、非獨立同分布數(shù)據(jù)和中毒攻擊共存的無線可靠聯(lián)邦學(xué)習(xí)應(yīng)用場景中,提高用戶本地數(shù)據(jù)集質(zhì)量、減輕非獨立同分布數(shù)據(jù)的影響以及抵御中毒攻擊從而保護(hù)聯(lián)邦訓(xùn)練網(wǎng)絡(luò)的隱私性以及提高低質(zhì)量數(shù)據(jù)可用性從而擴(kuò)充聯(lián)邦訓(xùn)練網(wǎng)絡(luò)數(shù)據(jù)集規(guī)模至關(guān)重要。為了在這類場景中正確實現(xiàn)數(shù)據(jù)質(zhì)量提升、緩解非獨立同分布數(shù)據(jù)的影響同時能夠抵御中毒攻擊,本發(fā)明公開了基于ac-gan和動態(tài)概率調(diào)度的可靠聯(lián)邦學(xué)習(xí)方法,通過服務(wù)器在小基準(zhǔn)數(shù)據(jù)集上訓(xùn)練一個ac-gan模型并部署在ue端,實現(xiàn)數(shù)據(jù)清洗和數(shù)據(jù)增強(qiáng)操作;通過加密用戶側(cè)模型參數(shù)信息防止用戶信息泄露,通過衡量用戶側(cè)模型與全局模型的余弦相似度并實施自適應(yīng)調(diào)度策略,從而構(gòu)建聯(lián)邦訓(xùn)練網(wǎng)絡(luò)中各用戶的調(diào)度概率表,進(jìn)而實現(xiàn)惡意用戶和良性用戶的區(qū)分。
74、通過針對噪聲標(biāo)簽、非獨立同分布數(shù)據(jù)和中毒攻擊共存的無線可靠聯(lián)邦學(xué)習(xí)應(yīng)用場景下用戶側(cè)模型的加密操作,本發(fā)明能夠有效地防止用戶模型信息泄露和各種中毒攻擊,如數(shù)據(jù)中毒攻擊、模型中毒攻擊以及后門攻擊,從而提高聯(lián)邦訓(xùn)練網(wǎng)絡(luò)的穩(wěn)定性和模型性能。本發(fā)明采用雙服務(wù)器架構(gòu),可以有效防止單個服務(wù)器解密破解用戶模型,從而推測用戶相關(guān)信息,實現(xiàn)了用戶的隱私保護(hù)。
75、綜上所述,本發(fā)明針對標(biāo)簽噪聲、非獨立同分布數(shù)據(jù)以及中毒攻擊共存的場景提出了有效的解決方法,能夠顯著提高聯(lián)邦訓(xùn)練網(wǎng)絡(luò)的安全性和可靠性,優(yōu)化了系統(tǒng)性能,這將對無線安全聯(lián)邦學(xué)習(xí)相關(guān)應(yīng)用領(lǐng)域產(chǎn)生積極影響。
76、本發(fā)明克服了標(biāo)簽噪聲、非獨立同分布數(shù)據(jù)和中毒攻擊對模型性能的影響,同時防止了用戶側(cè)模型泄露,合理有效地調(diào)度良性用戶參與聯(lián)邦訓(xùn)練,避免了無線網(wǎng)絡(luò)中信道資源浪費(fèi)的問題,極大提升了聯(lián)邦學(xué)習(xí)的效率,優(yōu)化了全局模型的訓(xùn)練過程。
77、本發(fā)明所要保護(hù)的技術(shù)方案針對標(biāo)簽噪聲、非獨立同分布數(shù)據(jù)以及中毒攻擊共存場景下的可靠聯(lián)邦學(xué)習(xí)問題,提供了基于ckks同態(tài)加密技術(shù)的解決方案。本發(fā)明具備以下技術(shù)效果和優(yōu)點:
78、更強(qiáng)的普適性:本發(fā)明考慮標(biāo)簽噪聲、非獨立同分布數(shù)據(jù)和中毒攻擊共存場景下的數(shù)據(jù)預(yù)處理和惡意用戶鑒別,利用數(shù)據(jù)清洗操作可以實現(xiàn)低質(zhì)量良性用戶向高質(zhì)量良性用戶的轉(zhuǎn)變,利用數(shù)據(jù)增強(qiáng)操作可以實現(xiàn)用戶本地數(shù)據(jù)集的擴(kuò)充,減輕非獨立同分布數(shù)據(jù)的消極影響,利用動態(tài)概率調(diào)度策略可以實現(xiàn)惡意用戶的過濾,使得本發(fā)明既可以應(yīng)對同時存在標(biāo)簽噪聲、非獨立同分布數(shù)據(jù)和中毒攻擊的復(fù)雜場景,也可以應(yīng)對只存在惡意用戶或者標(biāo)簽噪聲、非獨立同分布的簡單場景,具有更強(qiáng)的普適性。
79、提高網(wǎng)絡(luò)安全性和可靠性:本發(fā)明通過采用ckks同態(tài)加密技術(shù),可以有效防止用戶側(cè)模型的泄露,同時采用雙服務(wù)器架構(gòu),既避免了單服務(wù)器存在的弊端(如單點故障),也防止了服務(wù)器推測用戶相關(guān)信息的問題,提高了聯(lián)邦訓(xùn)練網(wǎng)絡(luò)的安全性和可靠性。
80、第二,作為本發(fā)明的權(quán)利要求的創(chuàng)造性輔助證據(jù),還體現(xiàn)在以下幾個重要方面:
81、(1)本發(fā)明的技術(shù)方案轉(zhuǎn)化后的預(yù)期收益和商業(yè)價值為:
82、本發(fā)明的技術(shù)方案針對標(biāo)簽噪聲、非獨立同分布數(shù)據(jù)和中毒攻擊共存場景下的可靠聯(lián)邦學(xué)習(xí)問題,提供了一種基于ac-gan和動態(tài)概率調(diào)度的解決方案。將本發(fā)明的技術(shù)方案轉(zhuǎn)化為具體產(chǎn)品后,預(yù)期收益和商業(yè)價值主要體現(xiàn)在以下幾個方面:
83、增強(qiáng)通信安全性和可靠性:本發(fā)明通過數(shù)據(jù)預(yù)處理方法(數(shù)據(jù)清洗和數(shù)據(jù)增強(qiáng))和動態(tài)概率調(diào)度策略,降低了標(biāo)簽噪聲、非獨立同分布數(shù)據(jù)以及中毒攻擊對整體聯(lián)邦學(xué)習(xí)過程的干擾,提高了模型的準(zhǔn)確性和可靠性;
84、推動相關(guān)行業(yè)的發(fā)展:本發(fā)明的技術(shù)方案在聯(lián)邦學(xué)習(xí)和網(wǎng)絡(luò)安全領(lǐng)域具有創(chuàng)新性,可廣泛應(yīng)用于多種聯(lián)邦學(xué)習(xí)場景,如醫(yī)療衛(wèi)生保健系統(tǒng)、網(wǎng)絡(luò)安全系統(tǒng)、交通運(yùn)輸系統(tǒng)等,有助于推動相關(guān)行業(yè)的發(fā)展,吸引投資和合作機(jī)會,為企業(yè)創(chuàng)造更多商業(yè)價值。
85、(2)本發(fā)明的技術(shù)方案填補(bǔ)了國內(nèi)外業(yè)內(nèi)技術(shù)空白:
86、本發(fā)明的技術(shù)方案針對標(biāo)簽噪聲、非獨立同分布數(shù)據(jù)以及中毒攻擊共存場景下的可靠聯(lián)邦學(xué)習(xí)問題,提供了一種基于ac-gan和動態(tài)概率調(diào)度的解決方案,有效地填補(bǔ)了國內(nèi)外業(yè)內(nèi)技術(shù)空白,具體體現(xiàn)在以下幾個方面:
87、標(biāo)簽噪聲、非獨立同分布數(shù)據(jù)以及中毒攻擊共存場景下的可靠聯(lián)邦學(xué)習(xí):在無線網(wǎng)絡(luò)中,標(biāo)簽噪聲、非獨立同分布數(shù)據(jù)以及中毒攻擊的存在對聯(lián)邦學(xué)習(xí)的性能和安全性提出了挑戰(zhàn)。通過采用基于ac-gan的數(shù)據(jù)預(yù)處理方法,結(jié)合動態(tài)概率調(diào)度策略,本發(fā)明填補(bǔ)了在該特定場景下的技術(shù)空白。
88、用戶側(cè)模型相似度作為正負(fù)向行為的衡量指標(biāo):相較于傳統(tǒng)的衡量指標(biāo)如準(zhǔn)確率、召回率和f1分?jǐn)?shù),本發(fā)明采用用戶側(cè)模型與全局模型的余弦相似度作為用戶正向行為和負(fù)向行為的衡量指標(biāo),針對全局模型訓(xùn)練前期準(zhǔn)確率較低的情況,該方法可以更直觀、更合理有效地評判用戶側(cè)模型的優(yōu)劣程度。
89、(3)本發(fā)明的技術(shù)方案是否解決了人們一直渴望解決、但始終未能獲得成功的技術(shù)難題:
90、本發(fā)明的技術(shù)方案有效地攻克了長期以來在標(biāo)簽噪聲、非獨立同分布數(shù)據(jù)以及中毒攻擊共存場景下如何正確提高本地數(shù)據(jù)質(zhì)量以及鑒別惡意用戶的技術(shù)問題。這一創(chuàng)新性解決方案將有力地推動聯(lián)邦學(xué)習(xí)可靠性問題的進(jìn)步,從而提升無線聯(lián)邦學(xué)習(xí)網(wǎng)絡(luò)的性能和安全性。具體體現(xiàn)在以下幾個方面:
91、標(biāo)簽噪聲、非獨立同分布數(shù)據(jù)以及中毒攻擊共存場景下的無線聯(lián)邦學(xué)習(xí):在標(biāo)簽噪聲、非獨立同分布數(shù)據(jù)以及中毒攻擊共存的可靠聯(lián)邦學(xué)習(xí)場景下,如何正確篩選真正的惡意用戶同時保證更多的良性用戶參與到聯(lián)邦訓(xùn)練一直是一個技術(shù)難題,本發(fā)明針對標(biāo)簽噪聲、非獨立同分布數(shù)據(jù)以及中毒攻擊共存場景的特點,提出了動態(tài)概率調(diào)度策略,同時采用ckks同態(tài)加密方案,有效地解決了這一問題。
92、基于ac-gan的數(shù)據(jù)預(yù)處理方法:標(biāo)簽噪聲以及非獨立同分布數(shù)據(jù)的存在,會導(dǎo)致用戶設(shè)備在本地數(shù)據(jù)集上訓(xùn)練的模型準(zhǔn)確性較低,當(dāng)這樣的用戶設(shè)備過多時,會導(dǎo)致全局模型性能的下降甚至發(fā)散。因此,為了解決這一問題,本發(fā)明提出了一種基于ac-gan的數(shù)據(jù)預(yù)處理方法,用戶設(shè)備通過使用訓(xùn)練好的ac-gan模型對本地數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)增強(qiáng),能夠有效提升數(shù)據(jù)質(zhì)量、緩解非獨立同分布數(shù)據(jù)的影響。
93、基于用戶選擇概率的動態(tài)概率調(diào)度策略:現(xiàn)有的以余弦相似度作為用戶正負(fù)向行為衡量指標(biāo)的惡意用戶鑒別方案中,多數(shù)采用“一次鑒別,直接定性”的策略,這可能導(dǎo)致部分良性用戶被錯誤劃分為惡意用戶,部分惡意用戶被劃分為良性用戶。本發(fā)明在此方面進(jìn)行了嘗試,提出了基于用戶選擇概率的動態(tài)概率調(diào)度策略,有效解決了惡意用戶錯誤識別的問題。
94、(4)本發(fā)明的技術(shù)方案克服了技術(shù)偏見:
95、本發(fā)明的技術(shù)方案成功克服了多個技術(shù)偏見,為標(biāo)簽噪聲、非獨立同分布數(shù)據(jù)以及中毒攻擊共存場景下的可靠聯(lián)邦學(xué)習(xí)提供了一種創(chuàng)新性的解決方案,這將有助于推動可靠聯(lián)邦學(xué)習(xí)的發(fā)展,增強(qiáng)無線聯(lián)邦學(xué)習(xí)的安全性和可靠性。具體體現(xiàn)在以下幾個方面:
96、突破傳統(tǒng)用戶正負(fù)向行為衡量指標(biāo)的局限:傳統(tǒng)的用戶正負(fù)向行為衡量指標(biāo)(如準(zhǔn)確率和f1分?jǐn)?shù))在標(biāo)簽噪聲、非獨立同分布數(shù)據(jù)以及中毒攻擊共存場景下無法反映用戶行為的連續(xù)性。本發(fā)明克服了這一技術(shù)偏見,將用戶側(cè)模型與上一輪全局模型的余弦相似性作為衡量指標(biāo),為標(biāo)簽噪聲、非獨立同分布數(shù)據(jù)以及中毒攻擊共存場景下的用戶行為分析提供了更有效的解決方案。
97、針對標(biāo)簽噪聲和非獨立同分布數(shù)據(jù)的數(shù)據(jù)預(yù)處理方法:現(xiàn)有技術(shù)中,缺乏對標(biāo)簽噪聲和非獨立同分布數(shù)據(jù)的統(tǒng)一處理。本發(fā)明克服了這一技術(shù)偏見,通過使用ac-gan模型對用戶設(shè)備本地數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)增強(qiáng),實現(xiàn)了用戶數(shù)據(jù)集的質(zhì)量提升和數(shù)據(jù)增強(qiáng)。
98、針對惡意用戶的自適應(yīng)調(diào)度策略:現(xiàn)有技術(shù)中,缺乏針對標(biāo)簽噪聲、非獨立同分布數(shù)據(jù)以及中毒攻擊共存場景的自適應(yīng)調(diào)度策略。本發(fā)明克服了這一技術(shù)偏見,根據(jù)網(wǎng)絡(luò)中各用戶側(cè)模型的余弦相似度,動態(tài)調(diào)整各用戶的調(diào)度概率值,實現(xiàn)了標(biāo)簽噪聲、非獨立同分布數(shù)據(jù)以及中毒攻擊共存場景下的惡意用戶鑒別。
99、第三,本發(fā)明解決的技術(shù)問題:
100、1)數(shù)據(jù)質(zhì)量問題:在聯(lián)邦學(xué)習(xí)中,由于各用戶設(shè)備的數(shù)據(jù)來源和收集方式多樣,數(shù)據(jù)質(zhì)量參差不齊,存在噪聲、標(biāo)簽錯誤等問題。這些問題直接影響模型訓(xùn)練的精度和泛化能力。
101、2)數(shù)據(jù)不平衡問題:用戶設(shè)備的數(shù)據(jù)集往往存在類別不平衡的問題,即某些類別的樣本數(shù)量遠(yuǎn)多于其他類別,這會導(dǎo)致模型偏向于樣本數(shù)量多的類別,影響整體性能。
102、3)安全問題:在聯(lián)邦學(xué)習(xí)中,數(shù)據(jù)傳輸和聚合過程中存在數(shù)據(jù)泄露和惡意攻擊的風(fēng)險。特別是惡意用戶可能通過提交錯誤或有害的模型更新來破壞全局模型。
103、4)通信效率和調(diào)度問題:傳統(tǒng)聯(lián)邦學(xué)習(xí)方法在調(diào)度用戶參與模型訓(xùn)練時,往往采用隨機(jī)或固定的調(diào)度策略,無法根據(jù)用戶數(shù)據(jù)的實際貢獻(xiàn)和可信度進(jìn)行動態(tài)調(diào)整,導(dǎo)致通信效率低下和全局模型性能受限。
104、####顯著的技術(shù)進(jìn)步:
105、1)提高數(shù)據(jù)質(zhì)量:通過引入ac-gan模型進(jìn)行數(shù)據(jù)清洗和增強(qiáng),本發(fā)明能夠自動識別和糾正數(shù)據(jù)中的噪聲和錯誤標(biāo)簽,同時根據(jù)數(shù)據(jù)集的多樣性進(jìn)行有針對性的數(shù)據(jù)增強(qiáng),顯著提升數(shù)據(jù)質(zhì)量,進(jìn)而提高模型訓(xùn)練的精度和魯棒性。
106、2)解決數(shù)據(jù)不平衡問題:數(shù)據(jù)增強(qiáng)模塊能夠根據(jù)用戶本地數(shù)據(jù)集的類別分布,有針對性地生成新的數(shù)據(jù)樣本,平衡各類別的樣本數(shù)量,從而解決數(shù)據(jù)不平衡問題,提升模型在不同類別上的泛化能力。
107、3)增強(qiáng)安全性:采用ckks同態(tài)加密方案對模型參數(shù)進(jìn)行加密傳輸,確保數(shù)據(jù)傳輸過程中的安全性。同時,通過攻擊檢測模塊識別并排除惡意用戶的模型更新,有效抵御惡意攻擊,保障全局模型的穩(wěn)定性和可靠性。
108、4)提高通信效率和調(diào)度效果:通過動態(tài)概率調(diào)度策略,根據(jù)用戶數(shù)據(jù)的實際貢獻(xiàn)和可信度動態(tài)調(diào)整用戶調(diào)度概率,優(yōu)先調(diào)度貢獻(xiàn)度高、可信度好的用戶參與模型訓(xùn)練,顯著提高通信效率和全局模型的收斂速度。此外,該策略還能夠自動識別和排除惡意用戶,進(jìn)一步保障全局模型的性能。
109、綜上所述,本發(fā)明通過引入ac-gan模型進(jìn)行數(shù)據(jù)清洗和增強(qiáng)、采用ckks同態(tài)加密方案保障數(shù)據(jù)安全、結(jié)合動態(tài)概率調(diào)度策略提高通信效率和調(diào)度效果,在多個方面實現(xiàn)了顯著的技術(shù)進(jìn)步,有效解決了聯(lián)邦學(xué)習(xí)中存在的數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、通信效率和調(diào)度策略等問題。