本發(fā)明屬于無線通信領(lǐng)域,尤其涉及一種基于短包的ris輔助isac系統(tǒng)的安全及時傳輸方法。
背景技術(shù):
1、在即將到來的6g時代,許多新興的時間敏感應(yīng)用將需要低延遲無線通信和高精度感知能力,如自動駕駛和工業(yè)物聯(lián)網(wǎng)。因此,通信感知一體化(isac)技術(shù)被視為一種有前途的方法,受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,isac系統(tǒng)可以利用相同的硬件、天線和頻譜資源來同時執(zhí)行感知和通信任務(wù),從而降低硬件和信令成本,提高能效和頻譜利用率。此外,超可靠低延遲通信(urllc)通常需要通過短數(shù)據(jù)包實現(xiàn)高可靠和低延遲信號傳輸來支持時間敏感應(yīng)用??芍貥?gòu)智能表面(ris)作為無源和低成本元件的平面陣列,能以期望的方式反射信號,創(chuàng)造有利的傳播環(huán)境,給isac系統(tǒng)帶來更多的自由度,從而提高系統(tǒng)性能。
2、然而,時間敏感應(yīng)用在很大程度上依賴于安全和及時地提供高質(zhì)量的信息。一方面,urllc服務(wù)在無線信道中傳輸大量機(jī)密和關(guān)鍵的控制信息,對傳輸安全提出了前所未有的挑戰(zhàn)。另一方面,信息新鮮度在時間敏感應(yīng)用中起著至關(guān)重要的作用,在這些應(yīng)用中,過時的信息會導(dǎo)致實時控制中的錯誤操作。因此,研究系統(tǒng)的信息新鮮度是必要的。信息年齡(aoi)指標(biāo)通常用于衡量系統(tǒng)的信息新鮮度。然而,現(xiàn)有研究中的傳輸方法無法應(yīng)對上述安全性和時效性挑戰(zhàn),則有必要考慮基于短包的ris輔助isac系統(tǒng)的安全性和信息新鮮度問題,設(shè)計有效的傳輸方法,以滿足時間敏感應(yīng)用的嚴(yán)格要求。
技術(shù)實現(xiàn)思路
1、為了研究基于短包的ris輔助isac系統(tǒng)中的物理層安全與信息新鮮度問題,本發(fā)明公開了一種基于短包的ris輔助isac系統(tǒng)的安全及時傳輸方法。
2、本發(fā)明實施例提供了如下技術(shù)方法:
3、一種基于短包的ris輔助isac系統(tǒng)的安全及時傳輸方法,所述方法包括:
4、步驟a,建立基于短包的ris輔助isac系統(tǒng),制定傳輸協(xié)議,構(gòu)建感知、通信和竊聽模型;
5、步驟b,計算表征感知安全的感知誤差和感知竊聽誤差;
6、步驟c,計算表征通信安全和信息新鮮度的安全信息年齡及其中斷概率;
7、步驟d,建立多目標(biāo)優(yōu)化問題,同時實現(xiàn)總saop的最小化和感知誤差與感知竊聽誤差之差的最大化;
8、步驟e,設(shè)計基于m-a3c的元強(qiáng)化學(xué)習(xí)算法,根據(jù)分解策略解決多目標(biāo)優(yōu)化問題,實現(xiàn)安全及時傳輸。
9、其中,步驟a具體包括:
10、a1,建立基于短包的ris輔助isac系統(tǒng)模型,該系統(tǒng)包括一個isac基站、一個ris、k個單天線用戶和一個竊聽者,其中,基站具有l(wèi)≥1根發(fā)射天線的均勻線性陣列,ris采用具有m個反射單元的均勻平面陣列,和表示用戶集和ris的反射元素集,并假設(shè)竊聽者也為單天線用戶,此外,假設(shè)k個用戶和竊聽者都位于直射鏈路不可達(dá)的區(qū)域,所以通過部署ris有效地協(xié)助合法通信和感知,而竊聽者也可以通過ris被動竊聽通信和感知信息;
11、a2,制定傳輸協(xié)議,考慮一個塊長度為n的狀態(tài)更新數(shù)據(jù)包,它包含np個導(dǎo)頻,由接收方和發(fā)射方已知,以及n-np個數(shù)據(jù)符號,接收方使用這些導(dǎo)頻符號來估計信道狀態(tài)信息,假設(shè)n是導(dǎo)頻數(shù)np的倍數(shù),并且導(dǎo)頻均勻地插入數(shù)據(jù)符號之間,在這種情況下,定義導(dǎo)頻系數(shù)ni,使得ni-1是兩個導(dǎo)頻之間的數(shù)據(jù)符號數(shù),得到n=ninp;
12、a3,在基站處發(fā)射的信號可以表示為其中,表示用戶的發(fā)射波束成形向量,xk表示用戶k的通信符號,且表示感知信號,定義感知信號的協(xié)方差為則基站處的發(fā)射協(xié)方差矩陣為
13、a4,構(gòu)建感知模型,考慮isac系統(tǒng)中的靜態(tài)感知模型,在該系統(tǒng)中,感知過程為信道參數(shù)估計過程,假設(shè)每個用戶處可以利用感知接收器進(jìn)行信道估計,感知接收器處接收到的信號表示為其中,從基站到ris的信道系數(shù)表示為從ris到感知接收器的信道系數(shù)表示為用表示ris的相移矩陣,為第m個反射元件的ris相移,表示感知接收器處接收到的加性高斯白噪聲,為噪聲功率,在(a)中,定義向量在(b)中,定義這里hs被稱為級聯(lián)信道;
14、a5,構(gòu)建通信模型,假設(shè)完美信道狀態(tài)信息難以獲得,用戶k只能利用感知接收器估計的信道狀態(tài)信息,則用戶k處接收到的信號為其中,表示用戶k處接收到的加性高斯白噪聲,為噪聲功率,從ris到用戶k的信道系數(shù)表示為es為感知接收器進(jìn)行信道估計的感知誤差,因此,用戶k處接收到信號的信干噪比為則用戶k的可實現(xiàn)速率為ck=log2(1+γk);
15、a6,構(gòu)建竊聽模型,竊聽者處接收到的信號為其中表示竊聽者處接收到的加性高斯白噪聲,為噪聲功率,從ris到竊聽者的信道系數(shù)表示為
16、因此,竊聽者對用戶k的信干噪比為則竊聽者竊聽用戶k的可實現(xiàn)速率為ce,k=log2(1+γe,k),此外,為了從理論上量化竊聽者具有最大竊聽能力的最壞情況下的通信性能,在完美的迫零檢測中,竊聽者的信干噪比上限為其信噪比,用戶k的信干噪比上限也為其信噪比,則存在
17、其中,步驟b具體包括:
18、b1,在感知接收器處考慮一個線性濾波器來根據(jù)接收信號觀測值zn估計信道狀態(tài)信息,在信道參數(shù)估計時,感知接收器用于估計級聯(lián)信道hs的發(fā)射信號為xi=1,i=nik,0≤k≤np-1,設(shè)是第n次使用時估計信道的特定線性濾波器,其在通信數(shù)據(jù)階段具有零個元素,最優(yōu)濾波器具有np個非零元素,即因此,估計的信道可以表示為其中,為采樣的接收信號向量,定義信道誤差為并將感知估計均方誤差定義為即感知誤差;
19、b2,線性最小均方誤差估計器可以寫為其中為z的相關(guān)矩陣,為z與hs之間的互相關(guān)矩陣,因此,感知誤差可以表示為其中,互相關(guān)矩陣rzhs計算為自相關(guān)矩陣rzz計算為其中,rhs[n]為自相關(guān)函數(shù),i是np階的單位矩陣,rp表示導(dǎo)頻自相關(guān)矩陣,它是一個半定厄米特矩陣,定義為
20、
21、b3,最后得到感知誤差為其中rn=[rhs[n],rhs[n-ni],...,rhs[n-ni(np-1)]]t,使用導(dǎo)頻自相關(guān)矩陣rp的特征值分解,感知誤差可以重寫為其中,為rp的特征值,qk為對應(yīng)的特征向量;
22、b4,假設(shè)竊聽者也具有感知信道參數(shù)的能力,則可以通過信道估計來減小信道狀態(tài)信息的誤差,且假設(shè)竊聽者可以知道基站與用戶間預(yù)先設(shè)定的傳輸協(xié)議,即知道導(dǎo)頻信息,因此,竊聽者也通過最小均方誤差估計器來感知竊聽信道系數(shù),同理可得到感知竊聽誤差為因此,竊聽者對用戶k的信噪比可以重寫為
23、其中,步驟c具體包括:
24、c1,假設(shè)每個用戶有u個狀態(tài)更新周期,在第u,u=1,...,u個狀態(tài)更新周期中,第u個狀態(tài)更新數(shù)據(jù)包被編碼成塊長度為n的碼字,編碼后的數(shù)據(jù)包傳輸?shù)接脩鬹,分別用和表示用戶k的第u個有限塊長度狀態(tài)更新數(shù)據(jù)包的到達(dá)時間、服務(wù)時間和離開時間,服務(wù)時間定義為從基站向用戶k發(fā)送第u個有限塊長度狀態(tài)更新數(shù)據(jù)包所需的時間,假設(shè)并應(yīng)用伯努利過程來模擬每個數(shù)據(jù)包的隨機(jī)到達(dá),定義為第i個狀態(tài)更新數(shù)據(jù)包與第j個狀態(tài)更新數(shù)據(jù)包的間隔時間,也可以表示為定義第i個狀態(tài)更新數(shù)據(jù)包到第j個狀態(tài)更新數(shù)據(jù)包的累計服務(wù)時間為考慮一個先到先服務(wù)隊列,則用戶k的第u個狀態(tài)更新數(shù)據(jù)包的到達(dá)時間為第u個狀態(tài)更新數(shù)據(jù)包的總逗留時間為
25、c2,定義用戶k的第u個狀態(tài)更新數(shù)據(jù)包的瞬時aoi為為了同時度量系統(tǒng)的信息新鮮度以及滿足通信安全的要求,采用安全信息年齡(saoi)指標(biāo),saoi定義為使竊聽者的瞬時aoi大于用戶k的瞬時aoi,即在竊聽者處的信息年齡比較舊,在該系統(tǒng)中,定義用戶k和竊聽者處第u個狀態(tài)更新數(shù)據(jù)包的瞬時aoi分別為δk(u)和δe(u),因此,瞬時saoi可以表示為δs(u)=[δe(u)-δk(u)]+,其中[.]+表示max{δe(u)-δk(u),0},因此,瞬時saoi的中斷概率(saop)定義為瞬時saoi小于等于閾值的概率,即其中,ηth為信道符號中的saoi閾值,為竊聽者和用戶k之間目標(biāo)信息滯后的閾值;
26、c3,由于saop不能直接計算,但可以用隨機(jī)網(wǎng)絡(luò)演算中的矩母函數(shù)推導(dǎo)出saop的上界表達(dá)式,矩母函數(shù)的數(shù)學(xué)表達(dá)式定義為:對于隨機(jī)過程x(s,t),若隨機(jī)過程x(s,t)的eθx期望存在,則隨機(jī)過程x(s,t)存在矩母函數(shù)且有θ>0是自由參數(shù);
27、c4,利用矩母函數(shù)可以得到saop上界的閉合表達(dá)式為其中,t表示每個信道符號的單位時間,εk(n,γk)和εe(n,γe,k)分別為用戶k和竊聽者傳輸數(shù)據(jù)包的解碼錯誤概率,計算公式為v(γk)=1-(1+γk)-2表示信道色散,為高斯函數(shù),rk為用戶k的最大可實現(xiàn)速率。
28、其中,步驟d具體包括:
29、d1,為了衡量基于短包的ris輔助isac系統(tǒng)的通信安全、感知安全和信息新鮮度,建立了一個多目標(biāo)優(yōu)化問題,具體地,通過聯(lián)合優(yōu)化發(fā)射波束成形向量wk、感知信號協(xié)方差s、ris相移φm和塊長度n實現(xiàn)總saop的最小化和感知誤差與感知竊聽誤差之差的最大化,同時要滿足基站發(fā)射功率約束、ris相移矩陣單位模量約束、最大感知誤差約束和最小竊聽誤差約束的要求;
30、d2,優(yōu)化問題表述可以為
31、
32、es≤ω,
33、ee≥λ,
34、
35、其中,pmax為最大發(fā)射功率,ω為感知誤差閾值,λ為感知竊聽誤差閾值,
36、為ris相移矩陣單位模量約束;
37、d3,由于優(yōu)化問題中最大感知誤差約束和最小感知竊聽誤差約束均為分?jǐn)?shù)約束,且存在耦合變量,則優(yōu)化問題是個非凸的多目標(biāo)優(yōu)化問題。
38、其中,步驟e具體包括:
39、e1,為解決該多目標(biāo)優(yōu)化問題,分解策略是設(shè)計多目標(biāo)優(yōu)化算法的一種簡單而有效的方法,通過引入j個權(quán)重向量滿足每個權(quán)重向量對應(yīng)于一個特定的子問題,求解每個子優(yōu)化問題得到一組潛在的帕累托最優(yōu)解,當(dāng)所有j個優(yōu)化問題都解決時,就可以得到期望的帕累托前沿,根據(jù)分解策略,可以將多目標(biāo)優(yōu)化問題分解為一組子問題,每個子問題被視為一個單目標(biāo)優(yōu)化問題,子問題可以表述為一個馬爾可夫決策過程;
40、e2,定義狀態(tài)空間,智能體在時刻t的狀態(tài)由當(dāng)前估計到的不完美信道狀態(tài)信息竊聽者當(dāng)前估計到的不完美信道狀態(tài)信息和發(fā)射功率pt組成,其中狀態(tài)可以表示為智能體的狀態(tài)由前一時刻的狀態(tài)和前一時刻采取的動作決定;
41、e3,定義動作空間,智能體的動作由時刻t的發(fā)射波束成形向量、感知信號協(xié)方差、ris相移和塊長度組成,表示為在每種狀態(tài)下,智能體根據(jù)既定的策略采取不同的動作以得到最大的回報;
42、e4,定義策略空間,智能體的策略定義為在給定狀態(tài)st選擇一個動作at的概率,表示為π(at|st);
43、e5,定義策略函數(shù),策略函數(shù)定義為是一個參數(shù)為θa的深度神經(jīng)網(wǎng)絡(luò),用來生成智能體的策略,這個策略函數(shù)將智能體的狀態(tài)作為輸入,并且輸出一個策略;
44、e6,定義獎勵函數(shù),獎勵函數(shù)用來衡量智能體所選動作的收益,為了同時最小化總saop和最大化感知誤差與感知竊聽誤差之差,將獎勵函數(shù)定義為與單目標(biāo)馬爾可夫決策過程不同,多目標(biāo)馬爾可夫決策過程中,在狀態(tài)st下選擇動作at后返回一組獎勵[r1,...,rj]t,用r(at|st)來表示獎勵向量;
45、e7,定義價值函數(shù),價值函數(shù)衡量的是每個狀態(tài)的價值,即每個狀態(tài)可實現(xiàn)的未來回報,對于一個初始狀態(tài)s0,定義其價值函數(shù)為其中γt是一個折扣因子;
46、e8,進(jìn)行任務(wù)訓(xùn)練,在一組訓(xùn)練任務(wù)上進(jìn)行訓(xùn)練,更新一組子模型參數(shù),子模型通過異步優(yōu)勢動作評估(a3c)來訓(xùn)練參數(shù),a3c是一種基于策略的方法,可以用于處理連續(xù)的動作和狀態(tài)空間,a3c通過多個并行的智能體實現(xiàn)快速而穩(wěn)定的訓(xùn)練,a3c的狀態(tài)價值函數(shù)可以表示為其中θv是用于估計價值函數(shù)的深度神經(jīng)網(wǎng)絡(luò)的參數(shù),a3c使用v步獎勵來更新其參數(shù),第v步的動作價值定義為引入優(yōu)勢函數(shù)來確定當(dāng)前狀態(tài)所采取動作的優(yōu)勢,在任務(wù)訓(xùn)練階段,首先從給定的權(quán)重向量分布p(λ)中隨機(jī)抽樣個權(quán)重向量對于每個權(quán)重向量λj,策略網(wǎng)絡(luò)(actor)的損失函數(shù)為其中,為策略的熵,ξ為步長,actor的累積梯度計算為
47、其中θa′為actor的線程參數(shù),價值網(wǎng)絡(luò)(critic)的損失函數(shù)為critic的累積梯度計算為其中θv′為critic的線程參數(shù);
48、e9,在a3c中,每個智能體在與環(huán)境交互后更新一次參數(shù)θa和θv,然后將參數(shù)傳遞給全局網(wǎng)絡(luò),在訓(xùn)練過程中每個智能體獨立的使用累積的梯度分別更新全局神經(jīng)網(wǎng)絡(luò)模型參數(shù),每個智能體周期性地從全局網(wǎng)絡(luò)中同步最新的參數(shù)來更新自己本地的網(wǎng)絡(luò)參數(shù),這個過程與平均場近似(mfa)的原理非常相似,整體的策略控制了每個參與者的最優(yōu)策略計算,而局部策略影響了整體優(yōu)化,因此,可以利用mfa來處理全局網(wǎng)絡(luò)的更新,用參數(shù)梯度的均值來更新全局網(wǎng)絡(luò)的參數(shù),可以表示為
49、
50、其中為第j個子模型的策略參數(shù)和價值參數(shù),基于平均場近似的a3c算法(m-a3c)既保證了神經(jīng)網(wǎng)絡(luò)在最優(yōu)方向上的迭代更新,又減少了神經(jīng)網(wǎng)絡(luò)收斂過程中振蕩的可能性;
51、e10,在元訓(xùn)練階段,利用任務(wù)訓(xùn)練階段得到策略對采樣的軌跡進(jìn)行聚合,并通過微分調(diào)整元模型的參數(shù),元模型的參數(shù)更新規(guī)則為
52、
53、其中ε為更新步長,訓(xùn)練完成后,訓(xùn)練后的模型將根據(jù)優(yōu)化后的參數(shù)適應(yīng)新的任務(wù),給定任何權(quán)重向量,只需要微調(diào)元模型以獲得一個令人滿意的子模型,從而得到對應(yīng)的帕累托前沿,解決原多目標(biāo)優(yōu)化問題,實現(xiàn)安全及時傳輸。
54、與現(xiàn)有技術(shù)相比,上述技術(shù)方法具有以下優(yōu)點:
55、本發(fā)明利用了基于短包的ris輔助isac系統(tǒng)來提供安全且及時的urllc服務(wù)以支持時間敏感應(yīng)用,并利用安全信息年齡及其中斷概率來同時度量信息新鮮度和通信安全,且考慮了感知安全保障。設(shè)計了基于m-a3c的元強(qiáng)化學(xué)習(xí)算法來實現(xiàn)總saop的最小化和感知誤差與感知竊聽誤差之差的最大化,解決了多目標(biāo)優(yōu)化問題,達(dá)到了感知和通信資源的動態(tài)分配效果,保證了系統(tǒng)的安全性和時效性。