本發(fā)明涉及衛(wèi)星通信,尤其涉及一種基于深度強化學(xué)習(xí)的低軌巨型星座衛(wèi)星切換方法及裝置。
背景技術(shù):
1、參考圖1,低軌巨型星座網(wǎng)絡(luò)主要由空間段、地面段和用戶段三部分組成。空間段由千顆以上的低軌衛(wèi)星和星間鏈路組成,形成空間傳輸?shù)闹鞲删W(wǎng)絡(luò)。地面段由信關(guān)站(ground?station)、綜合運控管理系統(tǒng)和地面骨干網(wǎng)(backbone)組成。用戶段包括各類用戶終端(u1,u2,u3)、綜合信息服務(wù)平臺和業(yè)務(wù)支撐系統(tǒng)。其中,與用戶終端建立連接的衛(wèi)星稱為接入衛(wèi)星,用戶終端與接入衛(wèi)星之間建立的星地鏈路稱為用戶鏈路;與信關(guān)站建立連接的衛(wèi)星稱為網(wǎng)關(guān)衛(wèi)星,信關(guān)站與網(wǎng)關(guān)衛(wèi)星之間建立的星地鏈路稱為饋電鏈路。用戶終端的數(shù)據(jù)發(fā)送至衛(wèi)星后經(jīng)星間鏈路轉(zhuǎn)發(fā),通過饋電鏈路下傳至信關(guān)站,由信關(guān)站接入地面骨干網(wǎng)完成寬帶通信。低軌巨型星座一般采用walker星座,在walker星座中,所有衛(wèi)星均采用圓軌道,所有衛(wèi)星具有相同的軌道高度、傾角和軌道周期,walker星座包括的多個軌道面沿赤道面均勻分布,軌道面間升交點赤經(jīng)差恒定,每個軌道面上均勻分布有多個衛(wèi)星,每個衛(wèi)星可與前后左右相鄰的四個衛(wèi)星建立星間鏈路,具體包括兩條同軌星間鏈路和兩條異軌星間鏈路。walker星座又具體包含walker-delta星座與walker-star星座兩類,其區(qū)別在于前者一般采用傾斜軌道,后者一般采用近極軌道。在采用walker-delta構(gòu)型的傾斜低軌巨型星座中,衛(wèi)星的網(wǎng)絡(luò)拓?fù)錁?gòu)型不變,星間鏈路可以保持穩(wěn)定的連接,按照衛(wèi)星在某一時刻的運行方向,分別將飛行過程中星下點緯度遞增和遞減的衛(wèi)星分別稱之為升軌道(ascending,a)衛(wèi)星和降軌道(descending,d)衛(wèi)星,如附圖1所示的具有朝上箭頭的軌道上的衛(wèi)星為升軌道衛(wèi)星,具有朝下箭頭的軌道上的衛(wèi)星為降軌道衛(wèi)星。
2、由于低軌巨型星座的密集覆蓋性和高動態(tài)性,同一時刻覆蓋用戶終端的衛(wèi)星數(shù)目有很多,但是覆蓋時間很短,為保證用戶終端與衛(wèi)星之間的連續(xù)通信,用戶終端與衛(wèi)星之間的星地鏈路需要不斷地在用戶終端的可視衛(wèi)星中進(jìn)行切換,從而保持穩(wěn)定的網(wǎng)絡(luò)連接。
3、目前,用戶終端在進(jìn)行接入衛(wèi)星切換時主要以剩余服務(wù)時間、衛(wèi)星仰角和可用空閑信道資源三個指標(biāo)作為切換因子。其中,剩余服務(wù)時間指的是用戶終端與衛(wèi)星的可視時間,主要影響衛(wèi)星的切換次數(shù)和信令開銷;衛(wèi)星仰角主要影響用戶終端與衛(wèi)星的通信質(zhì)量;可用信道資源主要影響衛(wèi)星的網(wǎng)絡(luò)負(fù)載。
4、基于上述三個指標(biāo),目前有采用僅考慮單一指標(biāo)的方式來確定接入衛(wèi)星,也有采用多種指標(biāo)組合加權(quán)的方式來確定接入衛(wèi)星。然而,僅考慮單一指標(biāo)時,無法在切換次數(shù)、網(wǎng)絡(luò)負(fù)載和切換成功率之間取得較好的折中效果;采用多種指標(biāo)組合加權(quán)僅能夠?qū)崿F(xiàn)上述多個指標(biāo)的權(quán)衡和折中,無法實現(xiàn)長期累積獎勵最大化。并且,現(xiàn)有的切換方式?jīng)]有考慮衛(wèi)星通過星間鏈路將用戶終端的數(shù)據(jù)包傳輸?shù)叫抨P(guān)站的端到端時延的影響,而用戶終端選擇不同的接入衛(wèi)星會產(chǎn)生不同的時延,導(dǎo)致用戶體驗較差。
技術(shù)實現(xiàn)思路
1、為解決上述現(xiàn)有技術(shù)中存在的部分或全部技術(shù)問題,本發(fā)明提供一種基于深度強化學(xué)習(xí)的低軌巨型星座衛(wèi)星切換方法及裝置。
2、本發(fā)明的技術(shù)方案如下:
3、第一方面,提供了一種基于深度強化學(xué)習(xí)的低軌巨型星座衛(wèi)星切換方法,包括:
4、獲取用戶終端可視范圍內(nèi)的衛(wèi)星信息;
5、根據(jù)衛(wèi)星信息確定包括用戶終端與衛(wèi)星之間的可用信道容量、用戶終端與衛(wèi)星的剩余服務(wù)時間、衛(wèi)星對應(yīng)的升降軌道類型和衛(wèi)星到設(shè)定網(wǎng)關(guān)衛(wèi)星的最小跳數(shù)的狀態(tài)信息;
6、將狀態(tài)信息輸入預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)模型,得到第一神經(jīng)網(wǎng)絡(luò)模型輸出的狀態(tài)-動作價值函數(shù),所述第一神經(jīng)網(wǎng)絡(luò)模型采用深度強化學(xué)習(xí)算法進(jìn)行訓(xùn)練,動作定義為用戶終端選擇的衛(wèi)星,訓(xùn)練時的動作獎勵函數(shù)定義為根據(jù)用戶終端與衛(wèi)星之間的可用信道容量、用戶終端與衛(wèi)星的剩余服務(wù)時間和衛(wèi)星到設(shè)定網(wǎng)關(guān)衛(wèi)星的最小跳數(shù)構(gòu)建的效用函數(shù);
7、選取最大的狀態(tài)-動作價值函數(shù)對應(yīng)的衛(wèi)星作為接入衛(wèi)星進(jìn)行切換。
8、在一些可選的實現(xiàn)方式中,用戶終端與衛(wèi)星之間的可用信道容量利用以下公式計算:
9、cm,n(t)=blog2(1+γm,n(t));
10、cm,n(t)表示t時刻第m個用戶終端與第n個衛(wèi)星之間的可用信道容量,b表示頻譜的帶寬,γm,n(t)表示t時刻第m個用戶終端與第n個衛(wèi)星之間的信干噪比。
11、在一些可選的實現(xiàn)方式中,信干噪比γm,n(t)利用以下公式計算:
12、
13、pt表示信號發(fā)射功率,gt表示發(fā)射端天線增益,gr表示接收端天線增益,gm,n(t)表示t時刻第m個用戶終端與第n個衛(wèi)星之間的信道增益,gk,n(t)表示t時刻第k個用戶終端與第n個衛(wèi)星之間的信道增益,m表示用戶終端的數(shù)量,用于表示其他用戶終端與第n個衛(wèi)星相連時對第m個用戶終端信道造成的影響,σ2表示高斯噪聲功率。
14、在一些可選的實現(xiàn)方式中,信道增益gm,n(t)利用以下公式計算:
15、
16、lm,n(t)表示t時刻第m個用戶終端與第n個衛(wèi)星之間的傳輸路徑損耗,am,n(t)表示t時刻第m個用戶終端與第n個衛(wèi)星之間的大氣衰減,表示小尺度衰減;
17、傳輸路徑損耗lm,n(t)利用以下公式計算:
18、
19、大氣衰減am,n(t)利用以下公式計算:
20、
21、c表示光速,π表示圓周率,dm,m(t)表示t時刻第m個用戶終端與第n個衛(wèi)星之間的距離,fc表示信號載波頻率,χ表示信號穿過云和雨的衰減,h表示衛(wèi)星的軌道高度。
22、在一些可選的實現(xiàn)方式中,用戶終端與衛(wèi)星之間的剩余服務(wù)時間利用以下公式計算:
23、trem=tmax-(t-t0);
24、trem表示用戶終端與衛(wèi)星之間的剩余服務(wù)時間,tmax表示用戶終端與衛(wèi)星之間的最大服務(wù)時間,t表示當(dāng)前時刻,t0表示衛(wèi)星進(jìn)入用戶終端可視范圍的時刻。
25、在一些可選的實現(xiàn)方式中,衛(wèi)星到設(shè)定網(wǎng)關(guān)衛(wèi)星之間的最小跳數(shù)利用以下方式計算:
26、確定衛(wèi)星和設(shè)定網(wǎng)關(guān)衛(wèi)星的升降軌道類型;
27、根據(jù)兩個衛(wèi)星的升降軌道類型,分別計算兩個衛(wèi)星的相位;
28、根據(jù)兩個衛(wèi)星的相位,分別計算兩個衛(wèi)星位置相對于升交點的經(jīng)度差;
29、根據(jù)兩個衛(wèi)星位置相對于升交點的經(jīng)度差,計算兩個衛(wèi)星升交點的經(jīng)度差;
30、對兩個衛(wèi)星升交點的經(jīng)度差進(jìn)行歸一化處理,以使兩個衛(wèi)星升交點的經(jīng)度差歸一化至[-π,π]范圍;
31、根據(jù)歸一化處理后的兩個衛(wèi)星升交點的經(jīng)度差,計算異軌星間鏈路轉(zhuǎn)發(fā)跳數(shù);
32、根據(jù)異軌星間鏈路轉(zhuǎn)發(fā)跳數(shù),計算同軌星間鏈路轉(zhuǎn)發(fā)相位差;
33、對同軌星間鏈路轉(zhuǎn)發(fā)相位差進(jìn)行歸一化處理,以使同軌星間鏈路轉(zhuǎn)發(fā)相位差歸一化至[-π,π]范圍;
34、根據(jù)歸一化處理后的同軌星間鏈路轉(zhuǎn)發(fā)相位差,計算同軌星間鏈路轉(zhuǎn)發(fā)跳數(shù);
35、根據(jù)異軌星間鏈路轉(zhuǎn)發(fā)跳數(shù)和同軌星間鏈路轉(zhuǎn)發(fā)跳數(shù),得到衛(wèi)星到設(shè)定網(wǎng)關(guān)衛(wèi)星之間的最小跳數(shù)。
36、在一些可選的實現(xiàn)方式中,所述效用函數(shù)表示為:
37、um,n(t)=ω1n(cm,n(t))+ω2n(trem)+ω3n(hn)+ω4rn;
38、um,n(t)表示t時刻第m個用戶終端與第n個衛(wèi)星對應(yīng)的效用函數(shù),ω1、ω2、ω3和ω4表示權(quán)重參數(shù),ω1+ω2+ω3+ω4=1,n(·)表示歸一化函數(shù),hn表示第n個衛(wèi)星到設(shè)定網(wǎng)關(guān)衛(wèi)星之間的最小跳數(shù),rn表示第n個衛(wèi)星對應(yīng)的切換代價因子;
39、rn定義為:
40、
41、c表示正常數(shù),且c∈(0,1]。
42、在一些可選的實現(xiàn)方式中,所述第一神經(jīng)網(wǎng)絡(luò)模型通過以下方式訓(xùn)練:
43、步驟s301,構(gòu)建第一神經(jīng)網(wǎng)絡(luò)模型和第二神經(jīng)網(wǎng)絡(luò)模型,初始化第一神經(jīng)網(wǎng)絡(luò)模型和第二神經(jīng)網(wǎng)絡(luò)模型的參數(shù)、經(jīng)驗池容量和折扣因子,第一神經(jīng)網(wǎng)絡(luò)模型和第二神經(jīng)網(wǎng)絡(luò)模型具有相同的結(jié)構(gòu)且初始化參數(shù)相同;
44、步驟s302,根據(jù)用戶終端和低軌巨型星座的狀態(tài)信息,計算初始時刻用戶終端對應(yīng)的包括用戶終端與衛(wèi)星之間的可用信道容量、用戶終端與衛(wèi)星的剩余服務(wù)時間、衛(wèi)星對應(yīng)的升降軌道類型和衛(wèi)星到設(shè)定網(wǎng)關(guān)衛(wèi)星的最小跳數(shù)的狀態(tài)信息,并將初始時刻作為當(dāng)前時刻;
45、步驟s303,基于當(dāng)前時刻的狀態(tài)信息,采用ε-greedy策略選擇并執(zhí)行動作,得到對應(yīng)的動作獎勵和下一時刻的狀態(tài);
46、步驟s304,將當(dāng)前時刻和下一時刻的狀態(tài)、當(dāng)前時刻的動作和動作獎勵作為一個狀態(tài)轉(zhuǎn)移序列存入經(jīng)驗池中,其中,若經(jīng)驗池中存儲的狀態(tài)轉(zhuǎn)移序列數(shù)量達(dá)到經(jīng)驗池容量,從經(jīng)驗池中隨機抽取多個狀態(tài)轉(zhuǎn)移序列,根據(jù)多個狀態(tài)轉(zhuǎn)移序列、第二神經(jīng)網(wǎng)絡(luò)模型和預(yù)設(shè)的損失函數(shù),利用梯度下降法更新第一神經(jīng)網(wǎng)絡(luò)模型的參數(shù);
47、步驟s305,若當(dāng)前時刻不為終止時刻,則將下一時刻作為當(dāng)前時刻,并返回步驟s303繼續(xù)執(zhí)行,若當(dāng)前時刻為終止時刻,則重新執(zhí)行步驟s302-s305;
48、其中,每執(zhí)行預(yù)設(shè)次數(shù)的步驟s302-s305后,將第一神經(jīng)網(wǎng)絡(luò)模型的當(dāng)前參數(shù)作為第二神經(jīng)網(wǎng)絡(luò)模型的參數(shù)以更新第二神經(jīng)網(wǎng)絡(luò)模型的參數(shù);
49、其中,當(dāng)步驟s302-s305的循環(huán)執(zhí)行次數(shù)達(dá)到設(shè)定循環(huán)次數(shù)時,完成訓(xùn)練。
50、在一些可選的實現(xiàn)方式中,所述選取最大的狀態(tài)-動作價值函數(shù)對應(yīng)的衛(wèi)星作為接入衛(wèi)星進(jìn)行切換,進(jìn)一步包括:
51、向選取的接入衛(wèi)星發(fā)送切換請求,以使接入衛(wèi)星進(jìn)行資源預(yù)留并返回切換請求確認(rèn)信息;
52、在接收到接入衛(wèi)星的切換請求確認(rèn)信息后,向選取的接入衛(wèi)星發(fā)送切換操作請求,以使接入衛(wèi)星與用戶終端建立連接并返回切換操作確認(rèn)信息;
53、在接收到接入衛(wèi)星的切換操作確認(rèn)信息后,向上一個接入衛(wèi)星發(fā)送資源釋放請求,以使上一個接入衛(wèi)星與用戶終端解除連接并返回資源釋放確認(rèn)信息。
54、第二方面,還提供了一種基于深度強化學(xué)習(xí)的低軌巨型星座衛(wèi)星切換裝置,包括:
55、獲取單元,被配置為獲取用戶終端可視范圍內(nèi)的衛(wèi)星信息;
56、狀態(tài)信息確定單元,被配置為根據(jù)衛(wèi)星信息確定包括用戶終端與衛(wèi)星之間的可用信道容量、用戶終端與衛(wèi)星的剩余服務(wù)時間、衛(wèi)星對應(yīng)的升降軌道類型和衛(wèi)星到設(shè)定網(wǎng)關(guān)衛(wèi)星的最小跳數(shù)的狀態(tài)信息;
57、接入衛(wèi)星確定單元,被配置為將狀態(tài)信息輸入預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)模型,得到第一神經(jīng)網(wǎng)絡(luò)模型輸出的狀態(tài)-動作價值函數(shù),所述第一神經(jīng)網(wǎng)絡(luò)模型采用深度強化學(xué)習(xí)算法進(jìn)行訓(xùn)練,動作定義為用戶終端選擇的衛(wèi)星,訓(xùn)練時的動作獎勵函數(shù)定義為根據(jù)用戶終端與衛(wèi)星之間的可用信道容量、用戶終端與衛(wèi)星的剩余服務(wù)時間和衛(wèi)星到設(shè)定網(wǎng)關(guān)衛(wèi)星的最小跳數(shù)構(gòu)建的效用函數(shù);
58、衛(wèi)星切換單元,被配置為選取最大的狀態(tài)-動作價值函數(shù)對應(yīng)的衛(wèi)星作為接入衛(wèi)星進(jìn)行切換。
59、本發(fā)明技術(shù)方案的主要優(yōu)點如下:
60、本發(fā)明的基于深度強化學(xué)習(xí)的低軌巨型星座衛(wèi)星切換方法及裝置通過將用戶終端的接入衛(wèi)星與信關(guān)站的網(wǎng)關(guān)衛(wèi)星之間的最小跳數(shù)作為近似時延,在衛(wèi)星切換決策時,將可用信道容量、剩余服務(wù)時間和最小跳數(shù)作為考慮指標(biāo),并采用深度強化學(xué)習(xí)算法,以設(shè)計的多屬性加權(quán)獎勵函數(shù)訓(xùn)練用于確定接入衛(wèi)星的神經(jīng)網(wǎng)絡(luò)模型,能夠?qū)崿F(xiàn)網(wǎng)絡(luò)長期累積性能最大化,能夠在保證較低的切換次數(shù)同時顯著降低星間鏈路跳數(shù)水平,以保持較低的網(wǎng)絡(luò)時延,提升用戶體驗。此外,在采用深度強化學(xué)習(xí)算法訓(xùn)練時,僅將用戶終端的可視衛(wèi)星信息作為狀態(tài)空間,能夠顯著降低狀態(tài)空間維度,降低計算復(fù)雜度,提高訓(xùn)練效率。