一種分布式認(rèn)知無線傳感器網(wǎng)絡(luò)中基于Q學(xué)習(xí)的頻譜分配方法與流程

文檔序號(hào)：12755687閱讀：261來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

一種分布式認(rèn)知無線傳感器網(wǎng)絡(luò)中基于Q學(xué)習(xí)的頻譜分配方法與流程

本發(fā)明涉及認(rèn)知無線傳感器網(wǎng)絡(luò)和頻譜分配技術(shù)，具體是一種分布式認(rèn)知無線傳感器網(wǎng)絡(luò)中基于Q學(xué)習(xí)的頻譜分配方法。
背景技術(shù)：
：傳統(tǒng)的無線傳感器網(wǎng)絡(luò)所工作的免授權(quán)頻譜資源被日益增長(zhǎng)的其他無線通信技術(shù)設(shè)備所擠占，由此帶來的頻譜資源短缺問題也越加嚴(yán)峻。得益于認(rèn)知無線電理論的成熟和技術(shù)的進(jìn)步，為緩解頻譜資源緊張帶來了新的契機(jī)。具備認(rèn)知無線電技術(shù)的無線傳感器網(wǎng)絡(luò)可根據(jù)自身需求，通過對(duì)周圍利用率不高且空閑的授權(quán)頻譜實(shí)現(xiàn)實(shí)時(shí)感知和動(dòng)態(tài)接入，從而在提升授權(quán)頻譜利用效率的同時(shí)緩解無線傳感器網(wǎng)絡(luò)頻譜資源緊張的壓力。但認(rèn)知功能的引入也會(huì)增加相應(yīng)資源開銷，例如過多的頻譜競(jìng)爭(zhēng)和頻譜切換等，而無線傳感器網(wǎng)絡(luò)本身是一種運(yùn)算、存儲(chǔ)以及電量等資源受限的網(wǎng)絡(luò)，因此不論從緩解頻譜資源短缺還是節(jié)約能耗的角度，尋求一個(gè)更加適用于認(rèn)知無線傳感器網(wǎng)絡(luò)特點(diǎn)的動(dòng)態(tài)頻譜分配算法來改善網(wǎng)絡(luò)的平均吞吐量以及平均能量效率比則是迫切的現(xiàn)實(shí)需求?，F(xiàn)有的認(rèn)知無線電網(wǎng)絡(luò)頻譜分配技術(shù)主要通過圖論上色、微觀經(jīng)濟(jì)學(xué)、人工智能以及馬爾科夫判決等算法來實(shí)現(xiàn)。具體實(shí)現(xiàn)中，有啟發(fā)式集中頻譜分配算法、納什Q學(xué)習(xí)算法、遺傳算法以及多臂賭博機(jī)等頻譜分配算法。以往算法多針對(duì)集中式的網(wǎng)絡(luò)環(huán)境，此類網(wǎng)絡(luò)結(jié)構(gòu)的中心節(jié)點(diǎn)一旦無法工作將面臨整個(gè)網(wǎng)絡(luò)傳輸中斷的風(fēng)險(xiǎn)。隨著科技的進(jìn)步，分布式無線傳感器網(wǎng)絡(luò)在高抗毀性能以及低成本等方面的優(yōu)勢(shì)，使得傳感器網(wǎng)絡(luò)正朝著分布式的方向發(fā)展。雖然出現(xiàn)了針對(duì)分布式網(wǎng)絡(luò)的相關(guān)算法，但計(jì)算復(fù)雜度相對(duì)較高?？紤]到認(rèn)知無線傳感器網(wǎng)絡(luò)本身是一種資源有限的網(wǎng)絡(luò)，因此，結(jié)合分布式認(rèn)知無線傳感器網(wǎng)絡(luò)的特點(diǎn)來最大化網(wǎng)絡(luò)的平均吞吐量和平均能量效率比則非常有意義。技術(shù)實(shí)現(xiàn)要素：本發(fā)明提出一種分布式認(rèn)知無線傳感器網(wǎng)絡(luò)中基于Q學(xué)習(xí)的頻譜分配方法，該方法結(jié)合分布式認(rèn)知無線傳感器網(wǎng)絡(luò)的特點(diǎn)來最大化網(wǎng)絡(luò)的平均吞吐量和平均能量效率比，采用Q學(xué)習(xí)算法，是一種收斂速度快、計(jì)算開銷小、能效利用較高的頻譜分配方法。一種分布式認(rèn)知無線傳感器網(wǎng)絡(luò)中基于Q學(xué)習(xí)的頻譜分配方法，以網(wǎng)絡(luò)平均吞吐量或網(wǎng)絡(luò)平均能量效率比作為目標(biāo)函數(shù)，以認(rèn)知傳感器節(jié)點(diǎn)作為智能體，以聯(lián)合頻譜狀態(tài)S(t)＝[s1(t),...,sj(t),...,sM(t)]作為Q學(xué)習(xí)的環(huán)境狀態(tài)集合S，任一時(shí)隙內(nèi)認(rèn)知傳感器節(jié)點(diǎn)頻譜的分配動(dòng)作A(t)作為智能體Agent的動(dòng)作集合A，以認(rèn)知傳感器節(jié)點(diǎn)與授權(quán)頻譜和其他節(jié)點(diǎn)之間的對(duì)應(yīng)關(guān)系作為智能體的瞬時(shí)反饋獎(jiǎng)勵(lì)函數(shù)，采用時(shí)序輪替機(jī)制下的最佳響應(yīng)Q學(xué)習(xí)迭代算法對(duì)網(wǎng)絡(luò)中各節(jié)點(diǎn)頻譜進(jìn)行分配，在迭代過程中設(shè)定探索利用率為et；其中，sj(t)∈{0,1}，sj(t)＝1表示授權(quán)頻譜Cj在時(shí)隙t處于占用狀態(tài)，M表示授權(quán)頻譜數(shù)量；sj(t)＝0則表示授權(quán)頻譜Cj在時(shí)隙t處于空閑狀態(tài)。在環(huán)境狀態(tài)變化服從或具備馬爾科夫性的情況下，轉(zhuǎn)移概率公式和Q值函數(shù)的迭代公式屬于已知公式。在同一時(shí)隙，若有多個(gè)認(rèn)知傳感器節(jié)點(diǎn)感知到同一授權(quán)頻譜為空閑狀態(tài)，最終只有一個(gè)節(jié)點(diǎn)成功并獨(dú)占接入使用，其余競(jìng)爭(zhēng)失敗的節(jié)點(diǎn)均進(jìn)入休眠省電模式，假設(shè)單個(gè)時(shí)隙長(zhǎng)度為Tslot，認(rèn)知傳感器節(jié)點(diǎn)執(zhí)行一次頻譜感知的平均時(shí)長(zhǎng)和平均功率分別為τs、εs，認(rèn)知傳感器節(jié)點(diǎn)的數(shù)據(jù)平均發(fā)送速率和平均發(fā)射功率分別為R、εtr，認(rèn)知傳感器節(jié)點(diǎn)頻譜切換時(shí)間很短，對(duì)應(yīng)的頻譜切換能量平均消耗為Eh。在給定時(shí)隙t內(nèi)，單個(gè)認(rèn)知無線傳感器節(jié)點(diǎn)SUi的吞吐量Ri(t)和能量消耗Ei(t)的計(jì)算方式如表所示：從圖2中的時(shí)隙結(jié)構(gòu)來看，多次感知將會(huì)壓縮數(shù)據(jù)傳輸?shù)臅r(shí)間，當(dāng)傳輸速率R恒定的時(shí)候，會(huì)直接影響認(rèn)知節(jié)點(diǎn)的數(shù)據(jù)吞吐量。以最大化網(wǎng)絡(luò)平均吞吐量和網(wǎng)絡(luò)平均能量效率比η作為目標(biāo)函數(shù)，具體計(jì)算公式如下：maxπη*(t)η=Eπ[limT→∞Σt=1TΣi=1NRi(Aη*(t),S(t)|S(1))Σt=1TΣi=1NEi(Aη*(t),S(t)|S(1))]]]>所述目標(biāo)函數(shù)包括兩種表達(dá)形式，具體如下：(1)---maxπ(t)ηs.t.C1:A(t)=[aij(t)]N×M,∀aij(t)∈{0,1,2},C2:∀i∈N,ifaip(t)=1,thenCp∈Λ,andΣi=1Naip(t)=1,C3:∀i∈N,ifaip(t)=1,aiq(t)≠1,thenCq∈Λ‾,and(Σq≠pMaiq(t)=2orΣq≠pMaiq(t)=0)]]>其中，aij(t)表示在時(shí)隙t，認(rèn)知傳感器節(jié)點(diǎn)頻譜的分配動(dòng)作A(t)中授權(quán)頻譜Cj被網(wǎng)絡(luò)中的認(rèn)知節(jié)點(diǎn)SUi分配的情況；aij(t)＝1表示在t時(shí)隙內(nèi)，認(rèn)知傳感器節(jié)點(diǎn)SUi將Cj作為第一選擇頻譜用來感知并接入，aij(t)＝2表示認(rèn)知傳感器節(jié)點(diǎn)SUi將Cj作為第二選擇頻譜用來感知并接入，aij(t)＝0則表示認(rèn)知傳感器節(jié)點(diǎn)SUi在t時(shí)隙內(nèi)未將Cj作為第一或第二選擇頻譜用來感知并接入；N表示認(rèn)知傳感器節(jié)點(diǎn)數(shù)量，且N≤M，Λ表示將M個(gè)授權(quán)頻譜按照各自的空閑概率值θ從大到小排序后，取前N個(gè)空閑概率最高的授權(quán)頻譜所構(gòu)成的集合，剩余M-N個(gè)頻譜則構(gòu)成集合Cp表示任一屬于集合Λ的授權(quán)頻譜，aip(t)表示在時(shí)隙t，授權(quán)頻譜Cp被網(wǎng)絡(luò)中的認(rèn)知節(jié)點(diǎn)SUi分配的情況，Cq表示任意一個(gè)屬于集合的授權(quán)頻譜。aiq(t)表示在時(shí)隙t時(shí)，在集合中的授權(quán)頻譜Cq被網(wǎng)絡(luò)中的任一認(rèn)知節(jié)點(diǎn)SUi分配的情況。所述探索利用率按以下公式設(shè)定：et+1＝f(et)＝μet，0<μ<1。“探索”是為了對(duì)“狀態(tài)動(dòng)作”空間實(shí)現(xiàn)遍歷，從而避免算法收斂于一個(gè)局部最優(yōu)解，而“利用”可防止學(xué)習(xí)過程過于震蕩而不收斂。所述采用時(shí)序輪替機(jī)制下的最佳響應(yīng)Q學(xué)習(xí)迭代算法對(duì)網(wǎng)絡(luò)中各節(jié)點(diǎn)頻譜進(jìn)行分配的具體過程如下：步驟1：初始化，在時(shí)隙t＝0時(shí)刻，令所有認(rèn)知傳感器節(jié)點(diǎn)的“狀態(tài)動(dòng)作”Q值函數(shù)Qt(S,ai)＝0，概率設(shè)定在時(shí)隙t，網(wǎng)絡(luò)具有唯一學(xué)習(xí)權(quán)限的認(rèn)知傳感器節(jié)點(diǎn)標(biāo)識(shí)為current_agent(t)，初始化為1，current_agent(t)的取值表示當(dāng)前具有學(xué)習(xí)權(quán)限的節(jié)點(diǎn)為第幾個(gè)認(rèn)知傳感器節(jié)點(diǎn)，取值范圍為1～N；步驟2：在時(shí)隙t內(nèi)，依次對(duì)每個(gè)認(rèn)知傳感器節(jié)點(diǎn)進(jìn)行如下操作；步驟3：判斷認(rèn)知傳感器節(jié)點(diǎn)SUi是否為當(dāng)前唯一具有學(xué)習(xí)權(quán)限的智能體，若認(rèn)知傳感器節(jié)點(diǎn)SUi為當(dāng)前具有學(xué)習(xí)權(quán)限的智能體，則執(zhí)行步驟4，若認(rèn)知傳感器節(jié)點(diǎn)SUi不具有學(xué)習(xí)權(quán)限，則執(zhí)行步驟9；步驟4：產(chǎn)生一個(gè)隨機(jī)數(shù)e用于比較探索利用率et的大小，若隨機(jī)數(shù)e小于et，則執(zhí)行步驟5，若隨機(jī)數(shù)e大于等于et，則執(zhí)行步驟6；步驟5：認(rèn)知傳感器節(jié)點(diǎn)SUi執(zhí)行“探索”過程，隨機(jī)分配一個(gè)授權(quán)頻譜ai＝random(M)，計(jì)算隨后跳轉(zhuǎn)步驟7；t表示從0時(shí)隙到t時(shí)隙的長(zhǎng)度，也可表示當(dāng)前處于第幾個(gè)時(shí)隙，例如t＝5既可以理解為第5個(gè)時(shí)隙，也可以認(rèn)為從初始化到當(dāng)前經(jīng)歷的5個(gè)時(shí)隙的時(shí)間長(zhǎng)度；其中，當(dāng)處于t時(shí)隙，若此時(shí)狀態(tài)為S，當(dāng)認(rèn)知節(jié)點(diǎn)SUi分配授權(quán)頻譜為ai時(shí)，其概率更新可通過等號(hào)右邊的sum(ai|S)/t來估算；sum(ai|S)表示在狀態(tài)S下，SUi分配授權(quán)頻譜為ai的歷史次數(shù)；步驟6：認(rèn)知傳感器節(jié)點(diǎn)SUi執(zhí)行“利用”過程，當(dāng)前節(jié)點(diǎn)SUi根據(jù)公式分配最佳頻譜ai，計(jì)算隨后跳轉(zhuǎn)步驟7；步驟7：根據(jù)頻譜分配后的結(jié)果，觀測(cè)環(huán)境的下一聯(lián)合狀態(tài)S′，將獲得的瞬時(shí)反饋獎(jiǎng)勵(lì)函數(shù)r(S,ai)代入式迭代更新Qt+1(S,ai)；步驟8：計(jì)算t時(shí)隙認(rèn)知傳感器節(jié)點(diǎn)SUi的學(xué)習(xí)充分性因子比較與門限值ξ的大小，若current_agent(t)保持不變，否則，current_agent(t)值加1；若current_agent(t)等于N，則令current_agent(t)等于1；步驟9：不具備學(xué)習(xí)權(quán)限的認(rèn)知傳感器節(jié)點(diǎn)SUk直接根據(jù)公式分配最佳頻譜ak；授權(quán)頻譜空閑可利用率為[θ1,...,θM]，單個(gè)時(shí)隙長(zhǎng)度為Tslot，認(rèn)知傳感器節(jié)點(diǎn)執(zhí)行一次頻譜感知的平均時(shí)長(zhǎng)和平均功率分別為τs、εs，且頻譜感知無誤差，認(rèn)知傳感器節(jié)點(diǎn)的數(shù)據(jù)平均發(fā)送速率和平均發(fā)射功率分別為R、εtr，認(rèn)知傳感器節(jié)點(diǎn)頻譜切換能量平均消耗為Eh；學(xué)習(xí)速率為αt，折扣因子為γ，探索利用率為et，學(xué)習(xí)充分性門限值為ξ。給定時(shí)隙t內(nèi)具備學(xué)習(xí)權(quán)限的認(rèn)知傳感器節(jié)點(diǎn)SUi的“學(xué)習(xí)充分性因子”按以下公式計(jì)算：Δit=|ΣaiP[πi*(S)=ai][Qt+1(S,ai)-Qt(S,ai)]|.]]>在時(shí)隙t，不具備學(xué)習(xí)權(quán)限的認(rèn)知傳感器節(jié)點(diǎn)SUk，最佳頻譜分配策略所對(duì)應(yīng)的概率為按如下公式設(shè)置：P[πk*(S)=ak]=1,∀k≠current_agent(t)]]>若認(rèn)知傳感器節(jié)點(diǎn)SUk無學(xué)習(xí)權(quán)限，則其對(duì)應(yīng)的最佳頻譜分配策略以概率1保持靜態(tài)，也即此時(shí)具備學(xué)習(xí)權(quán)限的節(jié)點(diǎn)SUi的頻譜分配策略則為其他節(jié)點(diǎn)的最佳響應(yīng)。根據(jù)認(rèn)知傳感器節(jié)點(diǎn)SUi采用不同頻譜分配動(dòng)作aij(t)所產(chǎn)生的不同結(jié)果，瞬時(shí)反饋獎(jiǎng)勵(lì)函數(shù)r(S,ai)設(shè)定如下：其中，參數(shù)δ為正整數(shù)，δ≤10。其他的設(shè)置值也能達(dá)到類似效果，但不同結(jié)果下對(duì)應(yīng)的取值大小規(guī)律必須按照上面的規(guī)律來設(shè)定，也即反饋獎(jiǎng)勵(lì)負(fù)的越大，說明結(jié)果越嚴(yán)重，越不是網(wǎng)絡(luò)性能所期望的。上面的值的取值只是表明一個(gè)相對(duì)的量，例如也可設(shè)置如下：有益效果本發(fā)明提出了一種分布式認(rèn)知無線傳感器網(wǎng)絡(luò)中基于Q學(xué)習(xí)的頻譜分配方法，以最大化分布式認(rèn)知無線傳感器網(wǎng)絡(luò)的平均吞吐量和平均能量效率比為目標(biāo)，認(rèn)知無線傳感器網(wǎng)絡(luò)中各節(jié)點(diǎn)針對(duì)周圍授權(quán)頻譜狀態(tài)變化以及其他節(jié)點(diǎn)分配策略相互學(xué)習(xí)并最終適應(yīng)，將該過程映射成分布式多智能體Q學(xué)習(xí)的過程，并通過執(zhí)行時(shí)序輪替機(jī)制下的最佳響應(yīng)Q學(xué)習(xí)迭代算法來逼近最佳頻譜分配策略。本發(fā)明具有收斂速度快、計(jì)算復(fù)雜度低、改善認(rèn)知無線傳感器網(wǎng)絡(luò)平均吞吐量和平均能量效率比的特點(diǎn)。附圖說明圖1是本發(fā)明實(shí)施方式中分布式認(rèn)知無線傳感器網(wǎng)絡(luò)模型示意圖；圖2是本發(fā)明實(shí)施方式時(shí)隙結(jié)構(gòu)和節(jié)點(diǎn)在相同授權(quán)頻譜競(jìng)爭(zhēng)過程示意圖；圖3是本發(fā)明實(shí)施方式中分布式多智能體Q學(xué)習(xí)過程示意圖；圖4是本發(fā)明實(shí)施方式中各智能體學(xué)習(xí)權(quán)限進(jìn)行時(shí)序輪替的示意圖；圖5是本發(fā)明實(shí)施方式的基于時(shí)序輪替機(jī)制下的最佳響應(yīng)Q學(xué)習(xí)迭代頻譜分配算法流程示意圖；圖6是本發(fā)明實(shí)施例在授權(quán)頻譜數(shù)M為8，參數(shù)δ為1的情況下，各算法的網(wǎng)絡(luò)平均吞吐量隨時(shí)間變化示意圖；圖7是本發(fā)明實(shí)施例在圖6的給定的相同參數(shù)條件下，各算法的網(wǎng)絡(luò)平均能量效率比隨時(shí)間變化示意圖。具體實(shí)施方式下面結(jié)合具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說明。以下實(shí)施例將有助于本領(lǐng)域的技術(shù)人員進(jìn)一步理解本發(fā)明，但不以任何形式限制本發(fā)明。應(yīng)當(dāng)指出的是，對(duì)本領(lǐng)域的普通技術(shù)人員來說，在不脫離本發(fā)明構(gòu)思的前提下，還可以做出若干變形和改進(jìn)。這些都屬于本發(fā)明的保護(hù)范圍。本發(fā)明給定N個(gè)認(rèn)知傳感器節(jié)點(diǎn)，M個(gè)授權(quán)頻譜(M≥N)，其中授權(quán)頻譜空閑可利用率為[θ1,...,θM]，單個(gè)時(shí)隙長(zhǎng)度為Tslot，認(rèn)知傳感器節(jié)點(diǎn)執(zhí)行一次頻譜感知的平均時(shí)長(zhǎng)和平均功率分別為τs、εs，且頻譜感知無誤差，認(rèn)知傳感器節(jié)點(diǎn)的數(shù)據(jù)平均發(fā)送速率和平均發(fā)射功率分別為R、εtr，認(rèn)知傳感器節(jié)點(diǎn)頻譜切換時(shí)間很短，對(duì)應(yīng)的頻譜切換能量平均消耗為Eh。學(xué)習(xí)速率為αt，折扣因子為γ，探索利用率為et，學(xué)習(xí)充分性門限值為ξ，所使用的網(wǎng)絡(luò)模型如圖1所示，認(rèn)知無線傳感器網(wǎng)絡(luò)是一種無基站、控制中心等基礎(chǔ)服務(wù)設(shè)施的分布式網(wǎng)絡(luò)，其中各認(rèn)知傳感器采用Overlay模式機(jī)會(huì)地利用授權(quán)頻譜來完成數(shù)據(jù)的傳輸。本發(fā)明一種分布式認(rèn)知無線傳感器網(wǎng)絡(luò)中基于Q學(xué)習(xí)的頻譜分配方法，如圖5所示，具體步驟如下：1、初始化，在時(shí)隙t＝0時(shí)刻，令所有認(rèn)知傳感器節(jié)點(diǎn)的“狀態(tài)動(dòng)作”Q值函數(shù)Qt(S,ai)＝0，概率設(shè)定當(dāng)前具有學(xué)習(xí)權(quán)限的智能體current_agent(t)初始化為1；2、在時(shí)隙t內(nèi)，對(duì)于所有i＝1,2,…,N，重復(fù)下面第3～9步；3、判斷認(rèn)知傳感器節(jié)點(diǎn)SUi是否為當(dāng)前具有學(xué)習(xí)權(quán)限的智能體，若認(rèn)知傳感器節(jié)點(diǎn)SUi為當(dāng)前具有學(xué)習(xí)權(quán)限的智能體(i＝current_agent(t))，則執(zhí)行第4步，若認(rèn)知傳感器節(jié)點(diǎn)SUi不具有學(xué)習(xí)權(quán)限(i≠current_agent(t))，則執(zhí)行第9步4、產(chǎn)生一個(gè)隨機(jī)數(shù)e用于比較探索利用率et的大小，若隨機(jī)數(shù)e小于et，則執(zhí)行第5步，若隨機(jī)數(shù)e大于等于et，則執(zhí)行第6步5、認(rèn)知傳感器節(jié)點(diǎn)SUi執(zhí)行“探索”過程，也即隨機(jī)分配一個(gè)授權(quán)頻譜ai＝random(M)，計(jì)算隨后跳轉(zhuǎn)第7步6、認(rèn)知傳感器節(jié)點(diǎn)SUi執(zhí)行“利用”過程，也即當(dāng)前節(jié)點(diǎn)SUi根據(jù)公式分配最佳頻譜ai，計(jì)算隨后跳轉(zhuǎn)第7步7、根據(jù)頻譜分配后的結(jié)果，觀測(cè)環(huán)境的下一聯(lián)合狀態(tài)S′，將獲得的瞬時(shí)反饋獎(jiǎng)勵(lì)函數(shù)r(S,ai)代入式迭代更新Qt+1(S,ai)8、計(jì)算當(dāng)前時(shí)隙認(rèn)知傳感器節(jié)點(diǎn)SUi的學(xué)習(xí)充分性因子比較與門限值ξ的大小，若current_agent(t)保持不變，否則，current_agent(t)值加1；若current_agent(t)等于N，則重新令current_agent(t)等于1；該輪替過程如圖4所示。9、不具備學(xué)習(xí)權(quán)限的認(rèn)知傳感器節(jié)點(diǎn)SUk直接根據(jù)公式分配最佳頻譜ak，且令用來對(duì)照的“MCGA”理想頻譜分配算法出自“OpportunisticSpectrumAccesswithTwoChannelSensinginCognitiveRadioNetworks”(認(rèn)知無線電網(wǎng)絡(luò)中連續(xù)兩信道感知的機(jī)會(huì)式頻譜接入，IEEETRANSACTIONSONMOBILECOMPUTING2015),其網(wǎng)絡(luò)模型為帶有基礎(chǔ)服務(wù)設(shè)施的(例如基站)集中式結(jié)構(gòu)，各節(jié)點(diǎn)的頻譜分配由基礎(chǔ)服務(wù)設(shè)施來完成，隨后在馬爾科夫鏈環(huán)境下采用基于貪婪的頻譜分配算法將空閑利用率最高的授權(quán)頻譜分配給各節(jié)點(diǎn)，因此是一種較為理想的頻譜分配方式，可將該算法所對(duì)應(yīng)的網(wǎng)絡(luò)平均吞吐量和平均能效比作為一個(gè)理想的理論上界。用來對(duì)照的“WoLF-PHC”算法出自“Multiagentlearningusingavariablelearningrate”(可變學(xué)習(xí)速率下的多智能體增強(qiáng)學(xué)習(xí)算法，ArtificialIntelligence2002)該算法被證明是一種收斂的、有效的分布式多智能體迭代Q學(xué)習(xí)算法，因此可將該算法用來對(duì)比所提發(fā)明的有效性和收斂速度。用來對(duì)照的“TIQL”(TraditionalIndependentQ-Learning)算法為傳統(tǒng)的分布式多智能體獨(dú)立Q學(xué)習(xí)迭代算法，也即各智能體在同一時(shí)隙均具有學(xué)習(xí)權(quán)限，可獨(dú)立地進(jìn)行環(huán)境學(xué)習(xí)，但各智能體頻譜分配動(dòng)作不是最佳響應(yīng)，且缺乏有效的協(xié)調(diào)機(jī)制，彼此頻譜分配策略容易受到影響。用來對(duì)照的“隨機(jī)頻譜分配算法”中各認(rèn)知傳感器節(jié)點(diǎn)隨機(jī)分配某一授權(quán)頻譜進(jìn)行感知和接入，其分配策略最為簡(jiǎn)單，算法對(duì)應(yīng)的網(wǎng)絡(luò)平均吞吐量和平均能效比隨機(jī)性較大，因此可將其作為一種理論下界。圖6是本發(fā)明實(shí)施例在授權(quán)頻譜數(shù)M為8，對(duì)應(yīng)空閑可利用率θ分別為0.9/0.8/0.7/0.6/0.5/0.4/0.3/0.2，認(rèn)知傳感器節(jié)點(diǎn)數(shù)N為4，單個(gè)時(shí)隙長(zhǎng)度Tslot為22ms，認(rèn)知傳感器節(jié)點(diǎn)執(zhí)行一次頻譜感知的平均時(shí)長(zhǎng)τs和平均功率εs分別為2ms、3mW，認(rèn)知傳感器節(jié)點(diǎn)的數(shù)據(jù)平均發(fā)送速率R和平均發(fā)射功率εtr分別為10Mb/s、10mW，認(rèn)知傳感器節(jié)點(diǎn)頻譜切換能量消耗Eh為3×10-6J。學(xué)習(xí)速率αt為0.8/(1+t)，折扣因子γ為常數(shù)0.6，探索利用率et為0.6×0.7t，學(xué)習(xí)充分性門限值ξ為常數(shù)0.4，參數(shù)δ為1的情況下，各算法的網(wǎng)絡(luò)平均吞吐量隨時(shí)間變化示意圖?？梢钥吹?，在最開始一段的時(shí)間，各算法的網(wǎng)絡(luò)平均吞吐量都急劇上升，主要是計(jì)算平均吞吐量的公式中分母t相對(duì)分子過小：但隨著算法持續(xù)進(jìn)行，圖3中本發(fā)明提出的算法與WoLF-PHC算法分別大約從第390時(shí)隙和第630時(shí)隙開始出現(xiàn)曲線正常增長(zhǎng)的過程，這說明本文算法收斂性相比較WoLF-PHC算法有優(yōu)勢(shì)，對(duì)環(huán)境變化適應(yīng)更快。經(jīng)過遍歷后，TIQL算法直到第2790時(shí)隙才開始有所增長(zhǎng)，這正說明TIQL算法中各傳感器節(jié)點(diǎn)缺乏對(duì)周圍環(huán)境和其他節(jié)點(diǎn)動(dòng)作的最佳響應(yīng)，導(dǎo)致算法收斂性差。而采用隨機(jī)頻譜分配的方式，平均吞吐量在圖中很難有明顯增長(zhǎng)，說明該算法對(duì)網(wǎng)絡(luò)的平均吞吐量性能沒有改善，對(duì)環(huán)境的適應(yīng)能力也比其他算法差。從圖中還可以看到，在經(jīng)歷長(zhǎng)時(shí)間的算法演進(jìn)后，本發(fā)明算法、WoLF-PHC算法以及TIQL算法都有一個(gè)趨近最優(yōu)值的過程，而本發(fā)明算法所獲得的平均吞吐量更接近于MCGA理想頻譜分配算法，相比于WoLF-PHC算法有4.16％的改善，相比于TIQL算法則有8.85％的提升。圖7是本發(fā)明實(shí)施例在圖6相同參數(shù)設(shè)置下的各算法的網(wǎng)絡(luò)平均能量效率比隨時(shí)間變化示意圖。和圖6類似，本發(fā)明算法和WoLF-PHC算法分別大約從第390時(shí)隙和第630時(shí)隙開始正常增長(zhǎng)，說明這兩種算法能帶來更高的網(wǎng)絡(luò)平均能效比以及具有更好的環(huán)境適應(yīng)性，可花費(fèi)較少的時(shí)間即可學(xué)習(xí)到針對(duì)周圍環(huán)境的頻譜分配策略，隨著時(shí)間的推移，兩者都趨于收斂，但本文算法收斂策略顯然更好，更加逼近最佳情況。TIQL算法經(jīng)過遍歷之后大約在第2790時(shí)隙開始也有所增長(zhǎng)，但收斂效果顯然不及前兩種算法。由于隨機(jī)頻譜分配算法節(jié)點(diǎn)間缺乏內(nèi)在的協(xié)調(diào)性和針對(duì)環(huán)境變化的反饋信息，所以在提高能量效率上能力同樣十分有限。從圖7中可以得到本發(fā)明所提算法的平均能量效率比相比WoLF-PHC算法改善了2％，比TIQL算法提高了6％。以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已，并不用于限制本發(fā)明，對(duì)于本領(lǐng)域的技術(shù)人員來說，本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁1 2 3

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：曾凡仔;劉翰山;
技術(shù)所有人：湖南大學(xué);
我是此專利的發(fā)明人

上一篇：一種火車牽引系統(tǒng)的牽引中心銷的制作方法與工藝
上一篇：一種園林用土豆去皮清洗裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種分布式認(rèn)知無線傳感器網(wǎng)絡(luò)中基于Q學(xué)習(xí)的頻譜分配方法與流程