本發(fā)明涉及認(rèn)知無線傳感器網(wǎng)絡(luò)和頻譜分配技術(shù),具體是一種分布式認(rèn)知無線傳感器網(wǎng)絡(luò)中基于Q學(xué)習(xí)的頻譜分配方法。
背景技術(shù):
:傳統(tǒng)的無線傳感器網(wǎng)絡(luò)所工作的免授權(quán)頻譜資源被日益增長(zhǎng)的其他無線通信技術(shù)設(shè)備所擠占,由此帶來的頻譜資源短缺問題也越加嚴(yán)峻。得益于認(rèn)知無線電理論的成熟和技術(shù)的進(jìn)步,為緩解頻譜資源緊張帶來了新的契機(jī)。具備認(rèn)知無線電技術(shù)的無線傳感器網(wǎng)絡(luò)可根據(jù)自身需求,通過對(duì)周圍利用率不高且空閑的授權(quán)頻譜實(shí)現(xiàn)實(shí)時(shí)感知和動(dòng)態(tài)接入,從而在提升授權(quán)頻譜利用效率的同時(shí)緩解無線傳感器網(wǎng)絡(luò)頻譜資源緊張的壓力。但認(rèn)知功能的引入也會(huì)增加相應(yīng)資源開銷,例如過多的頻譜競(jìng)爭(zhēng)和頻譜切換等,而無線傳感器網(wǎng)絡(luò)本身是一種運(yùn)算、存儲(chǔ)以及電量等資源受限的網(wǎng)絡(luò),因此不論從緩解頻譜資源短缺還是節(jié)約能耗的角度,尋求一個(gè)更加適用于認(rèn)知無線傳感器網(wǎng)絡(luò)特點(diǎn)的動(dòng)態(tài)頻譜分配算法來改善網(wǎng)絡(luò)的平均吞吐量以及平均能量效率比則是迫切的現(xiàn)實(shí)需求?,F(xiàn)有的認(rèn)知無線電網(wǎng)絡(luò)頻譜分配技術(shù)主要通過圖論上色、微觀經(jīng)濟(jì)學(xué)、人工智能以及馬爾科夫判決等算法來實(shí)現(xiàn)。具體實(shí)現(xiàn)中,有啟發(fā)式集中頻譜分配算法、納什Q學(xué)習(xí)算法、遺傳算法以及多臂賭博機(jī)等頻譜分配算法。以往算法多針對(duì)集中式的網(wǎng)絡(luò)環(huán)境,此類網(wǎng)絡(luò)結(jié)構(gòu)的中心節(jié)點(diǎn)一旦無法工作將面臨整個(gè)網(wǎng)絡(luò)傳輸中斷的風(fēng)險(xiǎn)。隨著科技的進(jìn)步,分布式無線傳感器網(wǎng)絡(luò)在高抗毀性能以及低成本等方面的優(yōu)勢(shì),使得傳感器網(wǎng)絡(luò)正朝著分布式的方向發(fā)展。雖然出現(xiàn)了針對(duì)分布式網(wǎng)絡(luò)的相關(guān)算法,但計(jì)算復(fù)雜度相對(duì)較高??紤]到認(rèn)知無線傳感器網(wǎng)絡(luò)本身是一種資源有限的網(wǎng)絡(luò),因此,結(jié)合分布式認(rèn)知無線傳感器網(wǎng)絡(luò)的特點(diǎn)來最大化網(wǎng)絡(luò)的平均吞吐量和平均能量效率比則非常有意義。技術(shù)實(shí)現(xiàn)要素:本發(fā)明提出一種分布式認(rèn)知無線傳感器網(wǎng)絡(luò)中基于Q學(xué)習(xí)的頻譜分配方法,該方法結(jié)合分布式認(rèn)知無線傳感器網(wǎng)絡(luò)的特點(diǎn)來最大化網(wǎng)絡(luò)的平均吞吐量和平均能量效率比,采用Q學(xué)習(xí)算法,是一種收斂速度快、計(jì)算開銷小、能效利用較高的頻譜分配方法。一種分布式認(rèn)知無線傳感器網(wǎng)絡(luò)中基于Q學(xué)習(xí)的頻譜分配方法,以網(wǎng)絡(luò)平均吞吐量或網(wǎng)絡(luò)平均能量效率比作為目標(biāo)函數(shù),以認(rèn)知傳感器節(jié)點(diǎn)作為智能體,以聯(lián)合頻譜狀態(tài)S(t)=[s1(t),...,sj(t),...,sM(t)]作為Q學(xué)習(xí)的環(huán)境狀態(tài)集合S,任一時(shí)隙內(nèi)認(rèn)知傳感器節(jié)點(diǎn)頻譜的分配動(dòng)作A(t)作為智能體Agent的動(dòng)作集合A,以認(rèn)知傳感器節(jié)點(diǎn)與授權(quán)頻譜和其他節(jié)點(diǎn)之間的對(duì)應(yīng)關(guān)系作為智能體的瞬時(shí)反饋獎(jiǎng)勵(lì)函數(shù),采用時(shí)序輪替機(jī)制下的最佳響應(yīng)Q學(xué)習(xí)迭代算法對(duì)網(wǎng)絡(luò)中各節(jié)點(diǎn)頻譜進(jìn)行分配,在迭代過程中設(shè)定探索利用率為et;其中,sj(t)∈{0,1},sj(t)=1表示授權(quán)頻譜Cj在時(shí)隙t處于占用狀態(tài),M表示授權(quán)頻譜數(shù)量;sj(t)=0則表示授權(quán)頻譜Cj在時(shí)隙t處于空閑狀態(tài)。在環(huán)境狀態(tài)變化服從或具備馬爾科夫性的情況下,轉(zhuǎn)移概率公式和Q值函數(shù)的迭代公式屬于已知公式。在同一時(shí)隙,若有多個(gè)認(rèn)知傳感器節(jié)點(diǎn)感知到同一授權(quán)頻譜為空閑狀態(tài),最終只有一個(gè)節(jié)點(diǎn)成功并獨(dú)占接入使用,其余競(jìng)爭(zhēng)失敗的節(jié)點(diǎn)均進(jìn)入休眠省電模式,假設(shè)單個(gè)時(shí)隙長(zhǎng)度為Tslot,認(rèn)知傳感器節(jié)點(diǎn)執(zhí)行一次頻譜感知的平均時(shí)長(zhǎng)和平均功率分別為τs、εs,認(rèn)知傳感器節(jié)點(diǎn)的數(shù)據(jù)平均發(fā)送速率和平均發(fā)射功率分別為R、εtr,認(rèn)知傳感器節(jié)點(diǎn)頻譜切換時(shí)間很短,對(duì)應(yīng)的頻譜切換能量平均消耗為Eh。在給定時(shí)隙t內(nèi),單個(gè)認(rèn)知無線傳感器節(jié)點(diǎn)SUi的吞吐量Ri(t)和能量消耗Ei(t)的計(jì)算方式如表所示:從圖2中的時(shí)隙結(jié)構(gòu)來看,多次感知將會(huì)壓縮數(shù)據(jù)傳輸?shù)臅r(shí)間,當(dāng)傳輸速率R恒定的時(shí)候,會(huì)直接影響認(rèn)知節(jié)點(diǎn)的數(shù)據(jù)吞吐量。以最大化網(wǎng)絡(luò)平均吞吐量和網(wǎng)絡(luò)平均能量效率比η作為目標(biāo)函數(shù),具體計(jì)算公式如下:maxπη*(t)η=Eπ[limT→∞Σt=1TΣi=1NRi(Aη*(t),S(t)|S(1))Σt=1TΣi=1NEi(Aη*(t),S(t)|S(1))]]]>所述目標(biāo)函數(shù)包括兩種表達(dá)形式,具體如下:(1)---maxπ(t)ηs.t.C1:A(t)=[aij(t)]N×M,∀aij(t)∈{0,1,2},C2:∀i∈N,ifaip(t)=1,thenCp∈Λ,andΣi=1Naip(t)=1,C3:∀i∈N,ifaip(t)=1,aiq(t)≠1,thenCq∈Λ‾,and(Σq≠pMaiq(t)=2orΣq≠pMaiq(t)=0)]]>其中,aij(t)表示在時(shí)隙t,認(rèn)知傳感器節(jié)點(diǎn)頻譜的分配動(dòng)作A(t)中授權(quán)頻譜Cj被網(wǎng)絡(luò)中的認(rèn)知節(jié)點(diǎn)SUi分配的情況;aij(t)=1表示在t時(shí)隙內(nèi),認(rèn)知傳感器節(jié)點(diǎn)SUi將Cj作為第一選擇頻譜用來感知并接入,aij(t)=2表示認(rèn)知傳感器節(jié)點(diǎn)SUi將Cj作為第二選擇頻譜用來感知并接入,aij(t)=0則表示認(rèn)知傳感器節(jié)點(diǎn)SUi在t時(shí)隙內(nèi)未將Cj作為第一或第二選擇頻譜用來感知并接入;N表示認(rèn)知傳感器節(jié)點(diǎn)數(shù)量,且N≤M,Λ表示將M個(gè)授權(quán)頻譜按照各自的空閑概率值θ從大到小排序后,取前N個(gè)空閑概率最高的授權(quán)頻譜所構(gòu)成的集合,剩余M-N個(gè)頻譜則構(gòu)成集合Cp表示任一屬于集合Λ的授權(quán)頻譜,aip(t)表示在時(shí)隙t,授權(quán)頻譜Cp被網(wǎng)絡(luò)中的認(rèn)知節(jié)點(diǎn)SUi分配的情況,Cq表示任意一個(gè)屬于集合的授權(quán)頻譜。aiq(t)表示在時(shí)隙t時(shí),在集合中的授權(quán)頻譜Cq被網(wǎng)絡(luò)中的任一認(rèn)知節(jié)點(diǎn)SUi分配的情況。所述探索利用率按以下公式設(shè)定:et+1=f(et)=μet,0<μ<1。“探索”是為了對(duì)“狀態(tài)動(dòng)作”空間實(shí)現(xiàn)遍歷,從而避免算法收斂于一個(gè)局部最優(yōu)解,而“利用”可防止學(xué)習(xí)過程過于震蕩而不收斂。所述采用時(shí)序輪替機(jī)制下的最佳響應(yīng)Q學(xué)習(xí)迭代算法對(duì)網(wǎng)絡(luò)中各節(jié)點(diǎn)頻譜進(jìn)行分配的具體過程如下:步驟1:初始化,在時(shí)隙t=0時(shí)刻,令所有認(rèn)知傳感器節(jié)點(diǎn)的“狀態(tài)動(dòng)作”Q值函數(shù)Qt(S,ai)=0,概率設(shè)定在時(shí)隙t,網(wǎng)絡(luò)具有唯一學(xué)習(xí)權(quán)限的認(rèn)知傳感器節(jié)點(diǎn)標(biāo)識(shí)為current_agent(t),初始化為1,current_agent(t)的取值表示當(dāng)前具有學(xué)習(xí)權(quán)限的節(jié)點(diǎn)為第幾個(gè)認(rèn)知傳感器節(jié)點(diǎn),取值范圍為1~N;步驟2:在時(shí)隙t內(nèi),依次對(duì)每個(gè)認(rèn)知傳感器節(jié)點(diǎn)進(jìn)行如下操作;步驟3:判斷認(rèn)知傳感器節(jié)點(diǎn)SUi是否為當(dāng)前唯一具有學(xué)習(xí)權(quán)限的智能體,若認(rèn)知傳感器節(jié)點(diǎn)SUi為當(dāng)前具有學(xué)習(xí)權(quán)限的智能體,則執(zhí)行步驟4,若認(rèn)知傳感器節(jié)點(diǎn)SUi不具有學(xué)習(xí)權(quán)限,則執(zhí)行步驟9;步驟4:產(chǎn)生一個(gè)隨機(jī)數(shù)e用于比較探索利用率et的大小,若隨機(jī)數(shù)e小于et,則執(zhí)行步驟5,若隨機(jī)數(shù)e大于等于et,則執(zhí)行步驟6;步驟5:認(rèn)知傳感器節(jié)點(diǎn)SUi執(zhí)行“探索”過程,隨機(jī)分配一個(gè)授權(quán)頻譜ai=random(M),計(jì)算隨后跳轉(zhuǎn)步驟7;t表示從0時(shí)隙到t時(shí)隙的長(zhǎng)度,也可表示當(dāng)前處于第幾個(gè)時(shí)隙,例如t=5既可以理解為第5個(gè)時(shí)隙,也可以認(rèn)為從初始化到當(dāng)前經(jīng)歷的5個(gè)時(shí)隙的時(shí)間長(zhǎng)度;其中,當(dāng)處于t時(shí)隙,若此時(shí)狀態(tài)為S,當(dāng)認(rèn)知節(jié)點(diǎn)SUi分配授權(quán)頻譜為ai時(shí),其概率更新可通過等號(hào)右邊的sum(ai|S)/t來估算;sum(ai|S)表示在狀態(tài)S下,SUi分配授權(quán)頻譜為ai的歷史次數(shù);步驟6:認(rèn)知傳感器節(jié)點(diǎn)SUi執(zhí)行“利用”過程,當(dāng)前節(jié)點(diǎn)SUi根據(jù)公式分配最佳頻譜ai,計(jì)算隨后跳轉(zhuǎn)步驟7;步驟7:根據(jù)頻譜分配后的結(jié)果,觀測(cè)環(huán)境的下一聯(lián)合狀態(tài)S′,將獲得的瞬時(shí)反饋獎(jiǎng)勵(lì)函數(shù)r(S,ai)代入式迭代更新Qt+1(S,ai);步驟8:計(jì)算t時(shí)隙認(rèn)知傳感器節(jié)點(diǎn)SUi的學(xué)習(xí)充分性因子比較與門限值ξ的大小,若current_agent(t)保持不變,否則,current_agent(t)值加1;若current_agent(t)等于N,則令current_agent(t)等于1;步驟9:不具備學(xué)習(xí)權(quán)限的認(rèn)知傳感器節(jié)點(diǎn)SUk直接根據(jù)公式分配最佳頻譜ak;授權(quán)頻譜空閑可利用率為[θ1,...,θM],單個(gè)時(shí)隙長(zhǎng)度為Tslot,認(rèn)知傳感器節(jié)點(diǎn)執(zhí)行一次頻譜感知的平均時(shí)長(zhǎng)和平均功率分別為τs、εs,且頻譜感知無誤差,認(rèn)知傳感器節(jié)點(diǎn)的數(shù)據(jù)平均發(fā)送速率和平均發(fā)射功率分別為R、εtr,認(rèn)知傳感器節(jié)點(diǎn)頻譜切換能量平均消耗為Eh;學(xué)習(xí)速率為αt,折扣因子為γ,探索利用率為et,學(xué)習(xí)充分性門限值為ξ。給定時(shí)隙t內(nèi)具備學(xué)習(xí)權(quán)限的認(rèn)知傳感器節(jié)點(diǎn)SUi的“學(xué)習(xí)充分性因子”按以下公式計(jì)算:Δit=|ΣaiP[πi*(S)=ai][Qt+1(S,ai)-Qt(S,ai)]|.]]>在時(shí)隙t,不具備學(xué)習(xí)權(quán)限的認(rèn)知傳感器節(jié)點(diǎn)SUk,最佳頻譜分配策略所對(duì)應(yīng)的概率為按如下公式設(shè)置:P[πk*(S)=ak]=1,∀k≠current_agent(t)]]>若認(rèn)知傳感器節(jié)點(diǎn)SUk無學(xué)習(xí)權(quán)限,則其對(duì)應(yīng)的最佳頻譜分配策略以概率1保持靜態(tài),也即此時(shí)具備學(xué)習(xí)權(quán)限的節(jié)點(diǎn)SUi的頻譜分配策略則為其他節(jié)點(diǎn)的最佳響應(yīng)。根據(jù)認(rèn)知傳感器節(jié)點(diǎn)SUi采用不同頻譜分配動(dòng)作aij(t)所產(chǎn)生的不同結(jié)果,瞬時(shí)反饋獎(jiǎng)勵(lì)函數(shù)r(S,ai)設(shè)定如下:其中,參數(shù)δ為正整數(shù),δ≤10。其他的設(shè)置值也能達(dá)到類似效果,但不同結(jié)果下對(duì)應(yīng)的取值大小規(guī)律必須按照上面的規(guī)律來設(shè)定,也即反饋獎(jiǎng)勵(lì)負(fù)的越大,說明結(jié)果越嚴(yán)重,越不是網(wǎng)絡(luò)性能所期望的。上面的值的取值只是表明一個(gè)相對(duì)的量,例如也可設(shè)置如下:有益效果本發(fā)明提出了一種分布式認(rèn)知無線傳感器網(wǎng)絡(luò)中基于Q學(xué)習(xí)的頻譜分配方法,以最大化分布式認(rèn)知無線傳感器網(wǎng)絡(luò)的平均吞吐量和平均能量效率比為目標(biāo),認(rèn)知無線傳感器網(wǎng)絡(luò)中各節(jié)點(diǎn)針對(duì)周圍授權(quán)頻譜狀態(tài)變化以及其他節(jié)點(diǎn)分配策略相互學(xué)習(xí)并最終適應(yīng),將該過程映射成分布式多智能體Q學(xué)習(xí)的過程,并通過執(zhí)行時(shí)序輪替機(jī)制下的最佳響應(yīng)Q學(xué)習(xí)迭代算法來逼近最佳頻譜分配策略。本發(fā)明具有收斂速度快、計(jì)算復(fù)雜度低、改善認(rèn)知無線傳感器網(wǎng)絡(luò)平均吞吐量和平均能量效率比的特點(diǎn)。附圖說明圖1是本發(fā)明實(shí)施方式中分布式認(rèn)知無線傳感器網(wǎng)絡(luò)模型示意圖;圖2是本發(fā)明實(shí)施方式時(shí)隙結(jié)構(gòu)和節(jié)點(diǎn)在相同授權(quán)頻譜競(jìng)爭(zhēng)過程示意圖;圖3是本發(fā)明實(shí)施方式中分布式多智能體Q學(xué)習(xí)過程示意圖;圖4是本發(fā)明實(shí)施方式中各智能體學(xué)習(xí)權(quán)限進(jìn)行時(shí)序輪替的示意圖;圖5是本發(fā)明實(shí)施方式的基于時(shí)序輪替機(jī)制下的最佳響應(yīng)Q學(xué)習(xí)迭代頻譜分配算法流程示意圖;圖6是本發(fā)明實(shí)施例在授權(quán)頻譜數(shù)M為8,參數(shù)δ為1的情況下,各算法的網(wǎng)絡(luò)平均吞吐量隨時(shí)間變化示意圖;圖7是本發(fā)明實(shí)施例在圖6的給定的相同參數(shù)條件下,各算法的網(wǎng)絡(luò)平均能量效率比隨時(shí)間變化示意圖。具體實(shí)施方式下面結(jié)合具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說明。以下實(shí)施例將有助于本領(lǐng)域的技術(shù)人員進(jìn)一步理解本發(fā)明,但不以任何形式限制本發(fā)明。應(yīng)當(dāng)指出的是,對(duì)本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn)。這些都屬于本發(fā)明的保護(hù)范圍。本發(fā)明給定N個(gè)認(rèn)知傳感器節(jié)點(diǎn),M個(gè)授權(quán)頻譜(M≥N),其中授權(quán)頻譜空閑可利用率為[θ1,...,θM],單個(gè)時(shí)隙長(zhǎng)度為Tslot,認(rèn)知傳感器節(jié)點(diǎn)執(zhí)行一次頻譜感知的平均時(shí)長(zhǎng)和平均功率分別為τs、εs,且頻譜感知無誤差,認(rèn)知傳感器節(jié)點(diǎn)的數(shù)據(jù)平均發(fā)送速率和平均發(fā)射功率分別為R、εtr,認(rèn)知傳感器節(jié)點(diǎn)頻譜切換時(shí)間很短,對(duì)應(yīng)的頻譜切換能量平均消耗為Eh。學(xué)習(xí)速率為αt,折扣因子為γ,探索利用率為et,學(xué)習(xí)充分性門限值為ξ,所使用的網(wǎng)絡(luò)模型如圖1所示,認(rèn)知無線傳感器網(wǎng)絡(luò)是一種無基站、控制中心等基礎(chǔ)服務(wù)設(shè)施的分布式網(wǎng)絡(luò),其中各認(rèn)知傳感器采用Overlay模式機(jī)會(huì)地利用授權(quán)頻譜來完成數(shù)據(jù)的傳輸。本發(fā)明一種分布式認(rèn)知無線傳感器網(wǎng)絡(luò)中基于Q學(xué)習(xí)的頻譜分配方法,如圖5所示,具體步驟如下:1、初始化,在時(shí)隙t=0時(shí)刻,令所有認(rèn)知傳感器節(jié)點(diǎn)的“狀態(tài)動(dòng)作”Q值函數(shù)Qt(S,ai)=0,概率設(shè)定當(dāng)前具有學(xué)習(xí)權(quán)限的智能體current_agent(t)初始化為1;2、在時(shí)隙t內(nèi),對(duì)于所有i=1,2,…,N,重復(fù)下面第3~9步;3、判斷認(rèn)知傳感器節(jié)點(diǎn)SUi是否為當(dāng)前具有學(xué)習(xí)權(quán)限的智能體,若認(rèn)知傳感器節(jié)點(diǎn)SUi為當(dāng)前具有學(xué)習(xí)權(quán)限的智能體(i=current_agent(t)),則執(zhí)行第4步,若認(rèn)知傳感器節(jié)點(diǎn)SUi不具有學(xué)習(xí)權(quán)限(i≠current_agent(t)),則執(zhí)行第9步4、產(chǎn)生一個(gè)隨機(jī)數(shù)e用于比較探索利用率et的大小,若隨機(jī)數(shù)e小于et,則執(zhí)行第5步,若隨機(jī)數(shù)e大于等于et,則執(zhí)行第6步5、認(rèn)知傳感器節(jié)點(diǎn)SUi執(zhí)行“探索”過程,也即隨機(jī)分配一個(gè)授權(quán)頻譜ai=random(M),計(jì)算隨后跳轉(zhuǎn)第7步6、認(rèn)知傳感器節(jié)點(diǎn)SUi執(zhí)行“利用”過程,也即當(dāng)前節(jié)點(diǎn)SUi根據(jù)公式分配最佳頻譜ai,計(jì)算隨后跳轉(zhuǎn)第7步7、根據(jù)頻譜分配后的結(jié)果,觀測(cè)環(huán)境的下一聯(lián)合狀態(tài)S′,將獲得的瞬時(shí)反饋獎(jiǎng)勵(lì)函數(shù)r(S,ai)代入式迭代更新Qt+1(S,ai)8、計(jì)算當(dāng)前時(shí)隙認(rèn)知傳感器節(jié)點(diǎn)SUi的學(xué)習(xí)充分性因子比較與門限值ξ的大小,若current_agent(t)保持不變,否則,current_agent(t)值加1;若current_agent(t)等于N,則重新令current_agent(t)等于1;該輪替過程如圖4所示。9、不具備學(xué)習(xí)權(quán)限的認(rèn)知傳感器節(jié)點(diǎn)SUk直接根據(jù)公式分配最佳頻譜ak,且令用來對(duì)照的“MCGA”理想頻譜分配算法出自“OpportunisticSpectrumAccesswithTwoChannelSensinginCognitiveRadioNetworks”(認(rèn)知無線電網(wǎng)絡(luò)中連續(xù)兩信道感知的機(jī)會(huì)式頻譜接入,IEEETRANSACTIONSONMOBILECOMPUTING2015),其網(wǎng)絡(luò)模型為帶有基礎(chǔ)服務(wù)設(shè)施的(例如基站)集中式結(jié)構(gòu),各節(jié)點(diǎn)的頻譜分配由基礎(chǔ)服務(wù)設(shè)施來完成,隨后在馬爾科夫鏈環(huán)境下采用基于貪婪的頻譜分配算法將空閑利用率最高的授權(quán)頻譜分配給各節(jié)點(diǎn),因此是一種較為理想的頻譜分配方式,可將該算法所對(duì)應(yīng)的網(wǎng)絡(luò)平均吞吐量和平均能效比作為一個(gè)理想的理論上界。用來對(duì)照的“WoLF-PHC”算法出自“Multiagentlearningusingavariablelearningrate”(可變學(xué)習(xí)速率下的多智能體增強(qiáng)學(xué)習(xí)算法,ArtificialIntelligence2002)該算法被證明是一種收斂的、有效的分布式多智能體迭代Q學(xué)習(xí)算法,因此可將該算法用來對(duì)比所提發(fā)明的有效性和收斂速度。用來對(duì)照的“TIQL”(TraditionalIndependentQ-Learning)算法為傳統(tǒng)的分布式多智能體獨(dú)立Q學(xué)習(xí)迭代算法,也即各智能體在同一時(shí)隙均具有學(xué)習(xí)權(quán)限,可獨(dú)立地進(jìn)行環(huán)境學(xué)習(xí),但各智能體頻譜分配動(dòng)作不是最佳響應(yīng),且缺乏有效的協(xié)調(diào)機(jī)制,彼此頻譜分配策略容易受到影響。用來對(duì)照的“隨機(jī)頻譜分配算法”中各認(rèn)知傳感器節(jié)點(diǎn)隨機(jī)分配某一授權(quán)頻譜進(jìn)行感知和接入,其分配策略最為簡(jiǎn)單,算法對(duì)應(yīng)的網(wǎng)絡(luò)平均吞吐量和平均能效比隨機(jī)性較大,因此可將其作為一種理論下界。圖6是本發(fā)明實(shí)施例在授權(quán)頻譜數(shù)M為8,對(duì)應(yīng)空閑可利用率θ分別為0.9/0.8/0.7/0.6/0.5/0.4/0.3/0.2,認(rèn)知傳感器節(jié)點(diǎn)數(shù)N為4,單個(gè)時(shí)隙長(zhǎng)度Tslot為22ms,認(rèn)知傳感器節(jié)點(diǎn)執(zhí)行一次頻譜感知的平均時(shí)長(zhǎng)τs和平均功率εs分別為2ms、3mW,認(rèn)知傳感器節(jié)點(diǎn)的數(shù)據(jù)平均發(fā)送速率R和平均發(fā)射功率εtr分別為10Mb/s、10mW,認(rèn)知傳感器節(jié)點(diǎn)頻譜切換能量消耗Eh為3×10-6J。學(xué)習(xí)速率αt為0.8/(1+t),折扣因子γ為常數(shù)0.6,探索利用率et為0.6×0.7t,學(xué)習(xí)充分性門限值ξ為常數(shù)0.4,參數(shù)δ為1的情況下,各算法的網(wǎng)絡(luò)平均吞吐量隨時(shí)間變化示意圖??梢钥吹?,在最開始一段的時(shí)間,各算法的網(wǎng)絡(luò)平均吞吐量都急劇上升,主要是計(jì)算平均吞吐量的公式中分母t相對(duì)分子過小:但隨著算法持續(xù)進(jìn)行,圖3中本發(fā)明提出的算法與WoLF-PHC算法分別大約從第390時(shí)隙和第630時(shí)隙開始出現(xiàn)曲線正常增長(zhǎng)的過程,這說明本文算法收斂性相比較WoLF-PHC算法有優(yōu)勢(shì),對(duì)環(huán)境變化適應(yīng)更快。經(jīng)過遍歷后,TIQL算法直到第2790時(shí)隙才開始有所增長(zhǎng),這正說明TIQL算法中各傳感器節(jié)點(diǎn)缺乏對(duì)周圍環(huán)境和其他節(jié)點(diǎn)動(dòng)作的最佳響應(yīng),導(dǎo)致算法收斂性差。而采用隨機(jī)頻譜分配的方式,平均吞吐量在圖中很難有明顯增長(zhǎng),說明該算法對(duì)網(wǎng)絡(luò)的平均吞吐量性能沒有改善,對(duì)環(huán)境的適應(yīng)能力也比其他算法差。從圖中還可以看到,在經(jīng)歷長(zhǎng)時(shí)間的算法演進(jìn)后,本發(fā)明算法、WoLF-PHC算法以及TIQL算法都有一個(gè)趨近最優(yōu)值的過程,而本發(fā)明算法所獲得的平均吞吐量更接近于MCGA理想頻譜分配算法,相比于WoLF-PHC算法有4.16%的改善,相比于TIQL算法則有8.85%的提升。圖7是本發(fā)明實(shí)施例在圖6相同參數(shù)設(shè)置下的各算法的網(wǎng)絡(luò)平均能量效率比隨時(shí)間變化示意圖。和圖6類似,本發(fā)明算法和WoLF-PHC算法分別大約從第390時(shí)隙和第630時(shí)隙開始正常增長(zhǎng),說明這兩種算法能帶來更高的網(wǎng)絡(luò)平均能效比以及具有更好的環(huán)境適應(yīng)性,可花費(fèi)較少的時(shí)間即可學(xué)習(xí)到針對(duì)周圍環(huán)境的頻譜分配策略,隨著時(shí)間的推移,兩者都趨于收斂,但本文算法收斂策略顯然更好,更加逼近最佳情況。TIQL算法經(jīng)過遍歷之后大約在第2790時(shí)隙開始也有所增長(zhǎng),但收斂效果顯然不及前兩種算法。由于隨機(jī)頻譜分配算法節(jié)點(diǎn)間缺乏內(nèi)在的協(xié)調(diào)性和針對(duì)環(huán)境變化的反饋信息,所以在提高能量效率上能力同樣十分有限。從圖7中可以得到本發(fā)明所提算法的平均能量效率比相比WoLF-PHC算法改善了2%,比TIQL算法提高了6%。以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁1 2 3