本發(fā)明涉及一種認(rèn)知無線網(wǎng)絡(luò)中基于圖論和深度q網(wǎng)絡(luò)聯(lián)合算法的動態(tài)頻譜接入方案,屬于認(rèn)知無線網(wǎng)絡(luò)中的鏈路層資源分配技術(shù)范疇。
背景技術(shù):
0、技術(shù)背景
1、在當(dāng)今飛速發(fā)展的信息時代,物聯(lián)網(wǎng)作為信息通信技術(shù)的重要應(yīng)用領(lǐng)域之一,已經(jīng)滲透到我們生活的方方面面。隨著物聯(lián)網(wǎng)設(shè)備數(shù)量的爆發(fā)式增長,對頻譜資源的需求日益迫切。頻譜資源的高效管理和利用已成為滿足物聯(lián)網(wǎng)通信日益增長需求的重要挑戰(zhàn)之一。
2、為了滿足日益增長的物聯(lián)網(wǎng)通信需求,傳統(tǒng)的頻譜分配方法通常采用基于靜態(tài)規(guī)則的策略,如靜態(tài)頻譜分配方案或簡單的隨機(jī)分配。例如,一些研究者研究了認(rèn)知無線電網(wǎng)絡(luò)的靜態(tài)博弈模型,通過仿真找到了價格博弈的均衡點(diǎn),并驗(yàn)證了主用戶在該點(diǎn)的最大效用。此外,還有研究人員考慮彈性光網(wǎng)絡(luò)中的靜態(tài)rsa問題,提出了兩種優(yōu)化模型,并制定了下界和上界來獲得精確的最優(yōu)解。然而,這些方法往往缺乏靈活性和適應(yīng)性,無法有效應(yīng)對頻譜環(huán)境的快速變化。特別是面對物聯(lián)網(wǎng)場景下頻譜環(huán)境的動態(tài)變化,傳統(tǒng)靜態(tài)分配方法的局限性顯得尤為明顯。
3、傳統(tǒng)靜態(tài)頻譜分配方案的不足推動了動態(tài)頻譜分配的發(fā)展。一些研究人員開始采用動態(tài)頻譜分配的ul-lte架構(gòu),提高了傳輸速率,降低了誤碼率,并提高了頻譜效率。然而,如果沒有深度學(xué)習(xí)的參與,傳統(tǒng)的動態(tài)頻譜分配方法仍存在決策效率低、適應(yīng)性差、計算量大、預(yù)測能力有限、靈活性差等缺點(diǎn)。在動態(tài)頻譜分配領(lǐng)域,深度學(xué)習(xí)技術(shù)能夠從海量數(shù)據(jù)中學(xué)習(xí)到頻譜分配的模式和規(guī)律,并根據(jù)實(shí)時環(huán)境變化進(jìn)行動態(tài)調(diào)整,從而提高頻譜分配的效率和性能。例如,一些研究人員提出了基于深度強(qiáng)化學(xué)習(xí)和gcn-lstm模型的動態(tài)頻譜訪問方案、基于客戶端-云學(xué)習(xí)框架的局部訓(xùn)練和全局優(yōu)化,以及結(jié)合聯(lián)邦學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)的動態(tài)頻譜分配方案,都進(jìn)一步提高了頻譜利用率和通信效率。
4、在頻譜分配領(lǐng)域,圖論方法自出現(xiàn)以來,在解決信道分配問題方面表現(xiàn)出了顯著的優(yōu)勢。傳統(tǒng)的單圖論著色方法可以在一定程度上為考慮相互關(guān)系的資源優(yōu)化配置提供解決方案,減少信道間的干擾并提高頻譜利用率。例如,一些研究者使用圖論方法有效地減少信道間干擾,提高頻譜利用率,同時避免頻譜資源的浪費(fèi)。有研究人員結(jié)合圖形著色技術(shù)提出了一種新的頻譜分配方案,通過考慮用戶的服務(wù)質(zhì)量閾值,減少密集部署的飛基站之間的干擾,提高頻譜效率。但是,隨著物聯(lián)網(wǎng)環(huán)境的復(fù)雜性和頻譜資源的動態(tài)性增加,傳統(tǒng)的單圖論方法已不足以實(shí)現(xiàn)頻譜管理的高效利用。因此,引入動態(tài)優(yōu)化方法和智能算法顯得尤為重要。
5、為了克服單一深度學(xué)習(xí)或圖論方案的局限性,本發(fā)明設(shè)計了一種創(chuàng)新的動態(tài)頻譜分配方案,該方案將圖論與dqn相結(jié)合。將這兩種方案結(jié)合起來,可以更好地考慮信道之間的相互作用和頻譜資源的分配,從而提高頻譜分配的靈活性和適應(yīng)性。與傳統(tǒng)的單圖論相比,本發(fā)明方案能更好地適應(yīng)頻譜環(huán)境的動態(tài)變化,避免陷入局部最優(yōu)解的困境。實(shí)驗(yàn)結(jié)果表明,與單圖理論和隨機(jī)著色方案相比,本發(fā)明方案顯著提高了頻譜利用率和用戶體驗(yàn),網(wǎng)絡(luò)效益優(yōu)于其他兩種模型。本發(fā)明的主要貢獻(xiàn)如下:
6、1、提出了一種結(jié)合圖論和dqn的動態(tài)頻譜接入方案來生成和優(yōu)化頻譜接入策略。
7、2、采用圖論著色模型,有效地生成初始信道分配策略,減少干擾,提高分配效率。此外,我們引入策略過濾步驟來評估和保留最有希望的初始策略,形成策略池。
8、3、使用了dqn來訓(xùn)練和優(yōu)化池中的策略,以適應(yīng)動態(tài)頻譜環(huán)境并提高整體性能。
9、4、圖論和dqn的結(jié)合保證了高質(zhì)量的初始策略和高效的優(yōu)化過程。此外,本發(fā)明方案可以根據(jù)環(huán)境變化動態(tài)調(diào)整策略,從而提高頻譜利用率。
技術(shù)實(shí)現(xiàn)思路
1、為了更好地提高無線網(wǎng)絡(luò)動態(tài)頻譜接入策略的效率,本發(fā)明的目的在于提出了一種基于基于圖論和深度q網(wǎng)絡(luò)聯(lián)合算法的動態(tài)頻譜接入方案。具體方案包括如下步驟:
2、步驟1,構(gòu)建圖論模型;
3、步驟2,構(gòu)建策略池;
4、步驟3,構(gòu)建dqn模型;
5、步驟4,代理訓(xùn)練;
6、進(jìn)一步地,步驟1中,根據(jù)認(rèn)知網(wǎng)絡(luò)的實(shí)際布局,構(gòu)建了由可用頻譜矩陣、網(wǎng)絡(luò)效益矩陣、干擾矩陣和無干擾分配矩陣組成的圖論模型??捎妙l譜矩陣和網(wǎng)絡(luò)效益矩陣可由主、從用戶的相對位置導(dǎo)出,頻譜矩陣l表示每個用戶的每個信道的可用性。
7、
8、網(wǎng)絡(luò)效益矩陣b表示每個用戶在每個信道上的網(wǎng)絡(luò)效益。矩陣元素bn,m表示用戶n在信道m(xù)上的網(wǎng)絡(luò)效益。網(wǎng)絡(luò)效益可根據(jù)信道質(zhì)量、信號干擾、傳輸速率等因素進(jìn)行計算。
9、
10、干擾矩陣c描述了用戶之間的干擾關(guān)系。矩陣元素cn,k,m表示用戶n和k同時使用信道m(xù)時是否會相互干擾。
11、c={cn,k,m|n,k=1,2,...,n;m=1,2,...,m}
12、無干擾分配矩陣a是表示信道分配的二進(jìn)制矩陣。矩陣元素an,m表示是否將信道m(xù)分配給用戶n。
13、
14、將每個用戶獲得的網(wǎng)絡(luò)效益定義為:
15、
16、下一步是在所有可能的方法中找到使特定網(wǎng)絡(luò)效益函數(shù)最大化的頻譜分配方法。在本發(fā)明中,我們選擇了網(wǎng)絡(luò)效益函數(shù)為msr和mpf函數(shù)。基于msr的網(wǎng)絡(luò)效益函數(shù),記為u(r),如公式所示。
17、
18、在進(jìn)行最優(yōu)分配時,需要根據(jù)期望的分配目標(biāo)來選擇頂點(diǎn)標(biāo)記規(guī)則。標(biāo)簽的大小反映了分配目標(biāo)和利益權(quán)重所確定的頂點(diǎn)的值,頂點(diǎn)的值越大,標(biāo)簽越高。每個標(biāo)簽對應(yīng)一種顏色,上色算法的準(zhǔn)則是優(yōu)先對最有價值的頂點(diǎn)上色。為了對不同的網(wǎng)絡(luò)效益函數(shù)達(dá)到不同的期望目標(biāo),會采用不同的標(biāo)注方法來滿足網(wǎng)絡(luò)效益函數(shù)的需求。本發(fā)明基于兩個網(wǎng)絡(luò)效益函數(shù)msr和mpf定義了兩條著色準(zhǔn)則,即cmsr和cmpf準(zhǔn)則。cmsr著色標(biāo)準(zhǔn)如下所示。
19、
20、cmpf著色標(biāo)準(zhǔn)下所示。
21、
22、進(jìn)一步地,步驟2中,構(gòu)建策略池階段,構(gòu)建策略池,需要對生成的通道訪問策略進(jìn)行初始過濾,以消除效率較低的策略。具體來說,這包括計算所有策略的平均網(wǎng)絡(luò)效益,過濾掉網(wǎng)絡(luò)效益低于平均網(wǎng)絡(luò)效益的策略,并將剩余的策略放入策略池中。
23、設(shè)第i個策略的網(wǎng)絡(luò)效益為ui,共n個策略。所有策略的平均網(wǎng)絡(luò)收益計算如下方程所示。
24、
25、在過濾掉網(wǎng)絡(luò)收益小于的策略后,剩下的策略集合p如下:
26、
27、然后將集合p中的所有策略放入策略池中以供進(jìn)一步使用。
28、步驟3中,構(gòu)建dqn模型階段,在構(gòu)建策略池之后,我們對策略子集進(jìn)行采樣,以構(gòu)建適合dqn訓(xùn)練的環(huán)境。每個策略的獎勵是基于網(wǎng)絡(luò)效益函數(shù)計算的。首先本發(fā)明進(jìn)行抽樣策略:從策略池p中隨機(jī)抽取一個策略子集,如下所示。
29、
30、然后定義環(huán)境:dqn的環(huán)境是使用采樣策略構(gòu)建的。環(huán)境中的每個狀態(tài)對應(yīng)于一個特定的策略,動作空間a包含了所有可能從每個狀態(tài)采取的操作。這里,pi表示與狀態(tài)si相關(guān)聯(lián)的特定策略。獎勵使用網(wǎng)絡(luò)效益函數(shù)計算每個策略pi的獎勵ri。網(wǎng)絡(luò)效益函數(shù)由策略的具體目標(biāo)決定,如下所示。
31、ri=upi(r)
32、一旦用采樣策略構(gòu)建了環(huán)境并定義了獎勵,dqn訓(xùn)練過程就可以開始了。訓(xùn)練過程包括基于獎勵和預(yù)期未來獎勵更新q值。q值使用以下公式更新,如下所示。
33、
34、q表更新后的方程如下所示。
35、
36、在步驟4的代理訓(xùn)練中,利用上述方程迭代更新q值,訓(xùn)練dqn模型得出最優(yōu)信道分配策略。訓(xùn)練過程可以總結(jié)如下:
37、(1)初始化q表:用任意值初始化q表。
38、(2)經(jīng)驗(yàn)回放:經(jīng)驗(yàn)存儲在重放存儲器中。
39、(3)小批量取樣:從回放記憶中取樣小批量的體驗(yàn)。
40、(4)q值計算:對于小批量中的每次體驗(yàn),使用即時q值更新公式計算q值。
41、(5)q表更新:使用q表更新公式更新q表中的q值。
42、(6)策略更新:使用更新后的q表得出最佳策略。
43、然后,dqn模型將相應(yīng)的信道分配策略傳遞給圖論著色模型以實(shí)現(xiàn)最佳結(jié)果。
44、整個階段旨在通過迭代優(yōu)化模型,不斷提高不同數(shù)據(jù)規(guī)模下動態(tài)頻譜接入系統(tǒng)的決策效率。在每次迭代中,通過使用記憶回放等方法逐步優(yōu)化agent模型,以提高系統(tǒng)整體性能和決策效率。這一階段的設(shè)計使系統(tǒng)能夠更靈活地適應(yīng)不同的數(shù)據(jù)場景,并不斷提高其在動態(tài)頻譜環(huán)境中的應(yīng)對能力,具體系統(tǒng)模型如圖1所示。