本發(fā)明屬于輸電線物聯(lián)網(wǎng)領(lǐng)域,具體是一種基于強(qiáng)化學(xué)習(xí)的高能效多跳與功率控制聯(lián)合方法。
背景技術(shù):
1、在當(dāng)今快速發(fā)展的數(shù)字化時(shí)代,感知物聯(lián)網(wǎng)(iot)正迅速成為人們?nèi)粘I詈凸I(yè)自動(dòng)化的核心組成部分,其設(shè)備通過(guò)實(shí)時(shí)監(jiān)測(cè)和數(shù)據(jù)交換,給人們的生活和工作帶來(lái)了極大的便利。然而,隨著物聯(lián)網(wǎng)設(shè)備的指數(shù)級(jí)增長(zhǎng),對(duì)能源的需求也在急劇上升。這些設(shè)備往往部署在難以接入傳統(tǒng)能源供應(yīng)的地方,且很多都依賴于電池供電。因此,提升感知物聯(lián)網(wǎng)的能效不僅是為了降低運(yùn)營(yíng)成本和維護(hù)難度,而是確保這些設(shè)備長(zhǎng)期穩(wěn)定運(yùn)行的關(guān)鍵。
2、在感知物聯(lián)網(wǎng)中,智能調(diào)度和資源分配是提升能效的關(guān)鍵技術(shù)之一,特別是在多跳網(wǎng)絡(luò)結(jié)構(gòu)中,數(shù)據(jù)需要通過(guò)多個(gè)節(jié)點(diǎn)傳輸?shù)侥康牡?,多跳選擇和功率控制顯得尤為重要。
3、多跳選擇(multi-hop?selection):在多跳網(wǎng)絡(luò)中,數(shù)據(jù)包的傳輸路徑不是直接從一個(gè)節(jié)點(diǎn)到另一個(gè)節(jié)點(diǎn),而是通過(guò)多個(gè)中間節(jié)點(diǎn)進(jìn)行轉(zhuǎn)發(fā)。智能的多跳選擇算法可以根據(jù)當(dāng)前網(wǎng)絡(luò)狀況、節(jié)點(diǎn)的剩余能量、通信距離以及擁塞程度等因素,選擇最優(yōu)的傳輸路徑;這樣可以減少因路徑選擇不當(dāng)導(dǎo)致的能源浪費(fèi)和數(shù)據(jù)傳輸延遲。
4、功率控制(power?control):能夠根據(jù)通信距離和鏈路質(zhì)量,動(dòng)態(tài)調(diào)整每個(gè)節(jié)點(diǎn)的發(fā)射功率。當(dāng)節(jié)點(diǎn)之間的距離較近或者信道條件較好時(shí),可以降低發(fā)射功率,從而減少能量消耗。同時(shí),功率控制還可以減少信號(hào)干擾,提高網(wǎng)絡(luò)的整體性能。
5、通過(guò)結(jié)合多跳選擇和功率控制,感知物聯(lián)網(wǎng)可以實(shí)現(xiàn)更加高效的能源利用和數(shù)據(jù)傳輸。例如,在智能電網(wǎng)、環(huán)境監(jiān)測(cè)或者工業(yè)自動(dòng)化等場(chǎng)景中,可以幫助物聯(lián)網(wǎng)設(shè)備根據(jù)實(shí)際需求和環(huán)境變化,靈活調(diào)整通信策略,延長(zhǎng)電池壽命,降低維護(hù)成本,同時(shí)保證數(shù)據(jù)傳輸?shù)目煽啃院蛯?shí)時(shí)性。
6、此外,感知物聯(lián)網(wǎng)還可以與機(jī)器學(xué)習(xí)算法相結(jié)合,實(shí)現(xiàn)自適應(yīng)的調(diào)度和資源分配,進(jìn)一步提高感知物聯(lián)網(wǎng)的能效和智能化水平。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)多個(gè)感知節(jié)點(diǎn)的輸電線網(wǎng)絡(luò)長(zhǎng)距離傳輸導(dǎo)致信號(hào)衰落嚴(yán)重,單節(jié)點(diǎn)負(fù)擔(dān)重的問(wèn)題,本發(fā)明提出了一種基于強(qiáng)化學(xué)習(xí)的高能效多跳與功率控制聯(lián)合方法,能夠根據(jù)環(huán)境動(dòng)態(tài)變化自適應(yīng)地選擇傳輸路徑和發(fā)射功率,提升系統(tǒng)能效的智能調(diào)度與資源分配。
2、所述基于強(qiáng)化學(xué)習(xí)的高能效多跳與功率控制聯(lián)合方法,具體步驟如下:
3、步驟一、在輸電線物聯(lián)網(wǎng)環(huán)境下,搭建包含n個(gè)感知節(jié)點(diǎn)和1個(gè)匯聚節(jié)點(diǎn)的鏈路型無(wú)線傳感網(wǎng)絡(luò)架構(gòu);n為正整數(shù);
4、感知節(jié)點(diǎn)周期性地感知輸電塔的健康狀態(tài),并將感知數(shù)據(jù)交付給匯聚節(jié)點(diǎn);
5、匯聚節(jié)點(diǎn)收集輸電塔健康狀態(tài)數(shù)據(jù)后判斷輸電塔是否正常運(yùn)行,是否需要人工維修等。
6、步驟二、鏈路型無(wú)線傳感網(wǎng)絡(luò)在學(xué)習(xí)時(shí),針對(duì)當(dāng)前時(shí)隙初始,各感知節(jié)點(diǎn)分別獲取自身狀態(tài)以及鄰居感知節(jié)點(diǎn)的觀測(cè)狀態(tài)st:
7、st={b(t),b1(t),…,bm(t),…,bm(t),e(t),e1(t),…,em(t),…,em(t)}
8、其中b(t)是感知節(jié)點(diǎn)智能體觀測(cè)到的自身數(shù)據(jù)緩存狀態(tài),e(t)是觀測(cè)到的自身剩余能量緩存狀態(tài),bm(t)是感知節(jié)點(diǎn)與鄰居節(jié)點(diǎn)交流后獲得的鄰居節(jié)點(diǎn)m的數(shù)據(jù)緩存信息,em(t)是感知節(jié)點(diǎn)與鄰居節(jié)點(diǎn)交流后獲得的鄰居節(jié)點(diǎn)m的剩余能量狀態(tài)信息。
9、步驟三、各感知節(jié)點(diǎn)在當(dāng)前時(shí)隙內(nèi)采集到感知數(shù)據(jù)或接收到鄰居感知節(jié)點(diǎn)發(fā)送的數(shù)據(jù)后,在同一時(shí)隙根據(jù)觀測(cè)狀態(tài)st選擇包含下一跳節(jié)點(diǎn)以及發(fā)送功率等級(jí)的動(dòng)作at,并執(zhí)行該動(dòng)作;
10、at~πθ(st),πθ(st)=softmax(θtφ(st))
11、φ(st)是觀測(cè)狀態(tài)st的特征向量,θ是策略網(wǎng)絡(luò)的參數(shù),后續(xù)根據(jù)環(huán)境反饋獎(jiǎng)勵(lì)進(jìn)行更新。
12、步驟四、同時(shí),各感知節(jié)點(diǎn)獲取的動(dòng)作決策同時(shí)執(zhí)行與環(huán)境進(jìn)行交互,得到全局效用函數(shù)rt;
13、
14、分別為權(quán)值系數(shù),re(t)為最小剩余能量獎(jiǎng)勵(lì),rb(t)為數(shù)據(jù)包滯留懲罰。
15、步驟五、當(dāng)前時(shí)隙結(jié)束,將每個(gè)感知節(jié)點(diǎn)的觀測(cè)狀態(tài)st,動(dòng)作at,全局效用函數(shù)r(t)以及下一時(shí)隙的觀測(cè)狀態(tài)st+1,組成各節(jié)點(diǎn)對(duì)應(yīng)的四元組<st,at,rt,st+1>,返回步驟二,繼續(xù)執(zhí)行下一個(gè)時(shí)隙。
16、步驟六、當(dāng)前回合的所有時(shí)隙都執(zhí)行完畢后,鏈路型無(wú)線傳感網(wǎng)絡(luò)記憶每個(gè)時(shí)隙下的n個(gè)四元組作為訓(xùn)練集,對(duì)多跳與功率控制模型進(jìn)行訓(xùn)練,更新該模型的參數(shù);
17、具體訓(xùn)練過(guò)程為:
18、首先,從鏈路型無(wú)線傳感網(wǎng)絡(luò)記憶緩存中隨機(jī)采樣一個(gè)批次
19、該批次包含若干對(duì)四元組數(shù)據(jù)<st,at,rt,st+1>,具體選擇的對(duì)數(shù)根據(jù)實(shí)際情況人為設(shè)定。
20、對(duì)于批次中的每一對(duì)四元組,分別計(jì)算各自的時(shí)間差分目標(biāo)td_target和td誤差δt:
21、td_target=rt+γvφ(st+1)×(1-dt+1)
22、δt=td_target-vφ(st)
23、其中st+1是下一時(shí)刻的狀態(tài),dt+1是episode是否結(jié)束的標(biāo)志,γ是折扣因子,vφ(st)是當(dāng)前狀態(tài)的值函數(shù)估計(jì);
24、然后,對(duì)于批次中的每一對(duì)四元組,使用gae方法計(jì)算每個(gè)狀態(tài)-動(dòng)作對(duì)的優(yōu)勢(shì)函數(shù):
25、
26、其中λ是gae的衰減參數(shù)。
27、接著,利用優(yōu)勢(shì)函數(shù)分別計(jì)算策略損失lppo(θ)與值網(wǎng)絡(luò)損失lvalue(φ):
28、
29、其中,表示在批次中采樣(st,at)的期望值。lclip(at|st)表示表示給定狀態(tài)st下采取動(dòng)作at的截?cái)鄵p失函數(shù)。πθ(at|st)是在當(dāng)前策略參數(shù)θ下,給定狀態(tài)st采取動(dòng)作at的概率。πold(at|st)表示舊策略參數(shù)θold下,給定狀態(tài)st采取動(dòng)作at的概率。∈是是一個(gè)預(yù)設(shè)的小正數(shù),表示截?cái)嗟膰?yán)格程度。
30、最后,利用策略損失lppo(θ)與值網(wǎng)絡(luò)損失lvalue(φ)執(zhí)行梯度下降,來(lái)更新策略網(wǎng)絡(luò)參數(shù)θ和值網(wǎng)絡(luò)參數(shù)φ,直至收斂,得到訓(xùn)練好的多跳與功率控制模型。
31、
32、其中,α,β分別代表兩個(gè)網(wǎng)絡(luò)的學(xué)習(xí)率。
33、步驟七、將訓(xùn)練好的多跳與功率控制模型部署在鏈路型無(wú)線傳感網(wǎng)絡(luò)的傳感器節(jié)點(diǎn)上,傳感器節(jié)點(diǎn)將獲取的信息輸入到多跳與功率控制模型中,輸出下一跳節(jié)點(diǎn)以及發(fā)送功率。
34、每個(gè)感知節(jié)點(diǎn)獲取的信息包括:數(shù)據(jù)包緩存非空時(shí),與鄰居節(jié)點(diǎn)交換的數(shù)據(jù),能量緩存信息,信道狀態(tài)、輸電線電磁干擾情況、自身剩余能量、自身數(shù)據(jù)緩存、鄰居節(jié)點(diǎn)剩余能量與鄰居數(shù)據(jù)緩存等。
35、步驟八、每個(gè)感知節(jié)點(diǎn)向選擇的下一跳節(jié)點(diǎn)以選定的發(fā)射功率發(fā)送數(shù)據(jù)包。
36、本發(fā)明的優(yōu)點(diǎn)在于:
37、1、一種基于強(qiáng)化學(xué)習(xí)的高能效多跳與功率控制聯(lián)合方法,能夠幫助節(jié)點(diǎn)進(jìn)行高能效的數(shù)據(jù)傳輸,達(dá)到提高網(wǎng)絡(luò)壽命,提高系統(tǒng)整體吞吐量的目的。
38、2、一種基于強(qiáng)化學(xué)習(xí)的高能效多跳與功率控制聯(lián)合方法,訓(xùn)練各節(jié)點(diǎn)學(xué)習(xí)不同能量與數(shù)據(jù)包積壓時(shí)的最優(yōu)下一跳選擇與功率控制策略,相比于傳統(tǒng)多跳與功率控制方法,本發(fā)明考慮了輸電線場(chǎng)景下長(zhǎng)距離傳輸與電磁干擾的特點(diǎn),聯(lián)合優(yōu)化下一跳節(jié)點(diǎn)選擇和功率控制,能夠智能地根據(jù)實(shí)時(shí)的網(wǎng)絡(luò)狀態(tài)和環(huán)境變化,動(dòng)態(tài)調(diào)整傳輸路徑和功率分配,從而最大化整個(gè)網(wǎng)絡(luò)的能量效率和傳輸可靠性,確保關(guān)鍵監(jiān)控?cái)?shù)據(jù)能夠穩(wěn)定、準(zhǔn)確地傳輸至sink節(jié)點(diǎn),對(duì)于保障超高壓輸電線路的安全運(yùn)行至關(guān)重要。