專利名稱:基于ε-貪婪的在線序貫感知與機會接入方法
技術(shù)領(lǐng)域:
本發(fā)明涉及無線通信技術(shù)中的認知無線電領(lǐng)域,具體講是針對統(tǒng)計未知的機會頻譜接入系統(tǒng)中,最優(yōu)序貫感知順序的在線學(xué)習(xí)方法。
背景技術(shù):
受頻譜監(jiān)管部門的倡議和認知無線電技術(shù)進步的驅(qū)動,動態(tài)頻譜接入(DSA)已經(jīng)被廣泛認可為提高頻譜利用率的有效手段。為了保護主用戶通信不受影響,認知用戶在接入信道前需要對信道進行頻譜感知,以確保信道空閑。受限于硬件水平,認知終端通常一次只能感知整個頻段的一小部分。在此情況下,如何合理的安排感知順序,將直接影響系統(tǒng)的吞吐量和接入時延。實現(xiàn)最優(yōu)的信道感知與接入中的一個關(guān)鍵難點,就是難以預(yù)估的信道統(tǒng)計分布,尤其是實際的異構(gòu)網(wǎng)絡(luò)場景下,不同信道的可用概率和鏈路質(zhì)量不盡相同。在線學(xué)習(xí),由于其與生俱來的自適應(yīng)性和有效性,已經(jīng)被廣泛應(yīng)用于動態(tài)無線網(wǎng)絡(luò)中。通過限定認知用戶在每個時隙中只感知一個信道,現(xiàn)有的在線接入研究將此類問題建模為經(jīng)典的多臂老虎機(MAB =Mult1-Armed Bandit)分析模型。即用戶只需要根據(jù)對信道收益的統(tǒng)計,在每個時隙選擇一個信道接入,來最大化系統(tǒng)累計吞吐量。盡管這種簡單的“每時隙選一個信道”的研究模型在同步的周期感知系統(tǒng)中有一定的合理性,但在更多的分布式認知網(wǎng)絡(luò)里,尤其是點對點通信場景,這種簡單模型并不合適。一方面,由于信道感知時間通常都遠遠小于傳輸時隙(比如,TV信道的感知時間通常為10毫秒級,而主用戶保護約束下的傳輸時隙為2秒),當用戶感知發(fā)現(xiàn)當前信道占用時,直接切換到下一信道進行頻譜感知比在原信道等待下一次傳輸時隙更為合理且有效。另一方面,由于無線信道狀態(tài)的隨機性,切換信道進行感知通常都能獲得更多的傳輸機會,即獲得多信道分集增益。并且,由于可用信道的數(shù)目眾多 (比如,超過半數(shù)的用戶擁有20個以上的可用TV信道),這種分集增益還是非??捎^的?;诖?,本發(fā)明針對統(tǒng)計未知的異構(gòu)信道網(wǎng)絡(luò)下,提出一種基于在線學(xué)習(xí)的序貫信道感知與接入策略。不同于以往方法中限制每時隙只選擇一個信道感知接入,在本方案的模型中,允許用戶在每個時隙中序貫地感知信道,并機會的接入進行傳輸。由此,通過實時動態(tài)地調(diào)整感知順序和接入策略,最大化系統(tǒng)在一定時間段上的累積吞吐量收益。
發(fā)明內(nèi)容
本發(fā)明提出了一種動態(tài)頻譜環(huán)境中基于ε -貪婪的在線序貫感知與機會接入方法,以解決在統(tǒng)計信息未知時,序貫感知順序?qū)W習(xí)與累積吞吐量優(yōu)化的問題。本發(fā)明是采用以下技術(shù)方案實現(xiàn)的:一種基于ε -貪婪算法的在線序貫感知與機會接入方法,在每個時隙中,用戶序貫地感知信道,并機會的接入進行傳輸。本發(fā)明中,包括初始化相關(guān)參數(shù)的步驟和在每一個時隙進行的基于在線學(xué)習(xí)的接入決策的步驟。
本發(fā)明中,初始化相關(guān)參數(shù)的步驟具體包括:1.1對每個信道i,i e {I,..., N},初始化各信道空閑概率估計g = O,各信道被感知的次數(shù)統(tǒng)計IIi=O ;1.2初始化候選信道集合Stl=U,...,N},其中N為信道總數(shù);1.3初始化ε-貪婪算法的控制參數(shù)ε = ε(ι,ε ^的取值與信道總數(shù)N相關(guān),根據(jù)網(wǎng)絡(luò)場景中的信道數(shù)目N,Stl取0.5 2.5之間的一個值。本發(fā)明中,所述的算法控制參數(shù)ε ^的取值與信道總數(shù)N的關(guān)系,如表I所示;
權(quán)利要求
1.一種基于ε-貪婪算法的在線序貫感知與機會接入方法,其特征在于在每個時隙中,用戶序貫地感知信道,并機會的接入進行傳輸。
2.根據(jù)權(quán)利要求1所述的基于ε-貪婪的在線序貫感知與機會接入方法,其特征在于,包括初始化相關(guān)參數(shù)的步驟和在每一個時隙進行的基于在線學(xué)習(xí)的接入決策的步驟。
3.根據(jù)權(quán)利要求2所述的基于貪婪算法的在線序貫感知與機會接入方法,其特征在于,初始化相關(guān)參數(shù)的步驟具體包括: 1.1對每個信道i,i e {I,..., N},初始化各信道空閑概率估計^ = O,各信道被感知的次數(shù)統(tǒng)計Iii=O ; 1.2初始化候選信道集合Stl= {1,...,N},其中N為信道總數(shù); 1.3初始化貪婪算法的控制參數(shù)ε =、,^的取值與信道總數(shù)N相關(guān),根據(jù)網(wǎng)絡(luò)場景中的信道數(shù)目N,Stl取0.5 2.5之間的一個值。
4.根據(jù)權(quán)利要求3所述的基于貪婪算法的在線序貫感知與機會接入方法,其特征在于,所述的算法控制參數(shù)y ^的取值與信道總數(shù)N的關(guān)系,如表I所示;
5.根據(jù)權(quán)利要求2所述的基于貪婪的在線序貫感知與機會接入方法,其特征在于,在任一時隙j進行基于在線學(xué)習(xí)的信道接入決策的步驟具體包括: 步驟0.對每個信道i,i e {1,...,N},初始化各信道空閑概率估計~ =0,各信道被感知的次數(shù)統(tǒng)計Iii=O ; 步驟1.采用下述公式調(diào)整候選信道集合S和算法控制參數(shù)ε ;
全文摘要
一種基于ε-貪婪算法的在線序貫感知與機會接入方法,在每個時隙中,用戶序貫地感知信道,并機會的接入進行傳輸;包括初始化相關(guān)參數(shù)的步驟和在每一個時隙進行的基于在線學(xué)習(xí)的接入決策的步驟。本發(fā)明能夠主動的學(xué)習(xí)環(huán)境并自適應(yīng)環(huán)境的動態(tài)變化。本發(fā)明是一種在線的實施決策方法,系統(tǒng)根據(jù)每一次的決策和反饋實時調(diào)整下一步的決策,從而得以最大化系統(tǒng)的長期累積吞吐量收益。
文檔編號H04W74/08GK103179675SQ20131000634
公開日2013年6月26日 申請日期2013年1月8日 優(yōu)先權(quán)日2013年1月8日
發(fā)明者王金龍, 吳啟暉, 李柏文, 鄭學(xué)強 申請人:中國人民解放軍理工大學(xué)通信工程學(xué)院