專利名稱:部分可觀測(cè)馬爾可夫決策過程中可伸縮視頻流的優(yōu)化調(diào)度方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的是一種部分可觀測(cè)馬爾可夫決策過程中可伸縮視頻流的優(yōu)化調(diào)度方法。
背景技術(shù):
伴隨視頻編碼與通信技術(shù)的飛速發(fā)展,在無(wú)線網(wǎng)絡(luò)上傳輸視頻流已經(jīng)成為多媒體應(yīng)用的 一個(gè)非常重要的發(fā)展方向?;贖. 264/AVC的可伸縮擴(kuò)展標(biāo)準(zhǔn)(Scalable Video Coding, SVC) 于2007年正式形成,它實(shí)現(xiàn)了單一碼流同時(shí)在時(shí)間、空間和質(zhì)量多維尺度上的可伸縮性。在 無(wú)線網(wǎng)絡(luò)中傳輸可伸縮視頻流,異構(gòu)用戶根據(jù)信道實(shí)時(shí)狀況和接收能力得到同一內(nèi)容在不同 尺度組合下的視頻圖像,可以進(jìn)一步提高傳輸可靠性和接收質(zhì)量。
數(shù)據(jù)包調(diào)度是可伸縮視頻流傳輸中的一個(gè)關(guān)鍵問題,調(diào)度策略的優(yōu)異將直接影響用戶整 體接收質(zhì)量以及網(wǎng)絡(luò)資源的合理利用。傳統(tǒng)的調(diào)度算法包括排序優(yōu)先型(sorted-priority) 和幀結(jié)構(gòu)型(framed-based)兩大類都是基于公平性的調(diào)度原則,要求節(jié)點(diǎn)必須公平地為每 個(gè)視頻流提供服務(wù),鏈路帶寬必須在不同的視頻流之間進(jìn)行公平分配。然而,可伸縮視頻流 不同層次碼流之間存在嚴(yán)格的隸屬依賴關(guān)系,公平性調(diào)度方法無(wú)法實(shí)現(xiàn)視頻流的最優(yōu)化質(zhì)量 接收。Dong Nguyen等人探討了在無(wú)線單播和廣播環(huán)境下,AP (無(wú)線接入點(diǎn))進(jìn)行通訊等數(shù) 據(jù)交換操作,釆用馬爾可夫決策過程(Markov decision process, MDP)進(jìn)行數(shù)據(jù)包優(yōu)化調(diào)度, 隨后提出了基于隨機(jī)網(wǎng)絡(luò)編碼的調(diào)度算法。兩種算法均假設(shè)用戶的狀態(tài)信息是完全可知的, 在現(xiàn)實(shí)世界中難以實(shí)現(xiàn)。S. H. Kang提出了一種基于數(shù)據(jù)包優(yōu)先級(jí)的調(diào)度算法,僅僅考慮了 數(shù)據(jù)包的不同重要性,而忽略了調(diào)度性能的整體優(yōu)化問題。對(duì)于系統(tǒng)狀態(tài)信息部分可知的情 況,DihongTian等人提出了點(diǎn)對(duì)點(diǎn)通信模型下的數(shù)據(jù)包調(diào)度策略。對(duì)于多描述編碼視頻流,
Ali C.Begen等人提出了多點(diǎn)對(duì)單點(diǎn)的數(shù)據(jù)包調(diào)度算法。
發(fā)明內(nèi)容
本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)存在的不足,提供一種部分可觀測(cè)馬爾可夫決策過程中可 伸縮視頻流的優(yōu)化調(diào)度方法,該方法能提高視頻流的平均PSNR值,進(jìn)而以實(shí)現(xiàn)用戶整體視頻 接收質(zhì)量的最佳化。
為達(dá)到上述目的,本發(fā)明的構(gòu)思是上述部分可觀測(cè)馬爾可夫決策過程中可伸縮視頻流 的優(yōu)化調(diào)度方法,針對(duì)無(wú)線廣播下的環(huán)境進(jìn)行假設(shè)簡(jiǎn)化,在用戶狀態(tài)不確定或部分可觀測(cè)的 條件下,對(duì)可伸縮視頻流進(jìn)行調(diào)度,采用部分可觀測(cè)馬爾可夫決策過程建立數(shù)據(jù)包調(diào)度優(yōu)化 模型,該模型包括狀態(tài)集合、行動(dòng)集合、狀態(tài)轉(zhuǎn)移概率、報(bào)酬函數(shù)、觀察集合、觀察概率, 給出具體調(diào)度過程,其步驟如下
6(1)、假設(shè)一個(gè)無(wú)線廣播傳輸環(huán)境模型,其具體如下(1-1) 、 AP需要將視頻流發(fā)送給M個(gè)接收者r1,,,…,/^ ;
(1-2)、 AP需要在iV個(gè)時(shí)隙內(nèi)將i:個(gè)包的集合丄二仏,/2,…,/J發(fā)送給接收者;(1-3)、每一幀數(shù)據(jù)(丄個(gè)包)的最大發(fā)送時(shí)間均為iV個(gè)時(shí)隙。W個(gè)時(shí)隙結(jié)束之后,AP轉(zhuǎn)向下一幀數(shù)據(jù)的發(fā)送;
(1-4)、 AP轉(zhuǎn)發(fā)1個(gè)數(shù)據(jù)包的時(shí)間是一個(gè)時(shí)隙;
(l-5)、假設(shè)無(wú)線信道的丟包率服從參數(shù)為A的伯努利分布,
(2)、分別對(duì)可伸縮視頻流的每一幀數(shù)據(jù)分為Z層,每層打包為一個(gè)數(shù)據(jù)包,每一幀的數(shù)據(jù)包集合記為丄二仏,/2,…,/J,設(shè)立數(shù)據(jù)包調(diào)度優(yōu)化模型,它包括如下
(2-1)、狀態(tài)集合
在任一給定的時(shí)間節(jié)點(diǎn),假設(shè)接收者^收到了若干數(shù)據(jù)包,它是Z的一個(gè)子集。該子集可以用丄位矢量表示,即(^,《,…A"T,其中6e(0,1)。 6,;1表示,擁有數(shù)據(jù)包/,,否則
6,-0。共有M個(gè)接收者,系統(tǒng)的狀態(tài)s用一個(gè)矩陣來(lái)表示>y =
6) 6 …6:
,系統(tǒng)一共有2
個(gè)狀態(tài)。
S-^^,…,^J表示M個(gè)用戶擁有的數(shù)據(jù)包的狀態(tài)集合,"[^,A,…,;7,]表示對(duì)應(yīng)
狀態(tài)的概率分布2/^=1。
1=1
(2-2)、行動(dòng)集合
^^",a"…,a,J表示M個(gè)用戶擁有的數(shù)據(jù)包的行動(dòng)集合,在每一個(gè)時(shí)隙內(nèi)AP選擇一個(gè)
需要發(fā)送的數(shù)據(jù)包,a,表示"發(fā)送第/個(gè)數(shù)據(jù)包";(2-3)、狀態(tài)轉(zhuǎn)移概率
在給定參數(shù)為A的伯努利丟包模型下,直接計(jì)算出狀態(tài)轉(zhuǎn)移概率尸(&, =^>,=")。
例如,發(fā)送兩個(gè)包到兩個(gè)接收者,似=2,丄=2。假設(shè)《=
'10、、0)
,s =
、01,、11,
。在f時(shí)刻,系統(tǒng)
處在s狀態(tài),即一擁有數(shù)據(jù)包/,,,擁有數(shù)據(jù)包/2。此時(shí),AP選擇行動(dòng)a廣"發(fā)送/,",那么轉(zhuǎn)
7移到狀態(tài)5的概率是<formula>formula see original document page 8</formula>;如果選擇行動(dòng)fl,"發(fā)送/2",那么轉(zhuǎn)移到的概率是<formula>formula see original document page 8</formula>(2-4)、報(bào)酬函數(shù)
報(bào)酬的選擇必須使每一時(shí)間節(jié)點(diǎn)下的瞬時(shí)報(bào)酬K&o)的總和能準(zhǔn)確地反應(yīng)既定目標(biāo)——
視頻流質(zhì)量的最優(yōu)化。把接收者接收到每一個(gè)特定數(shù)據(jù)包所減少的失真作為瞬時(shí)報(bào)酬,視頻
質(zhì)量最優(yōu)等價(jià)于所有M個(gè)用戶的視頻失真總和最小。
事實(shí)上,在狀態(tài)^下采取行動(dòng)a后,并不會(huì)提供一個(gè)很明確的瞬時(shí)報(bào)酬。但是,可以很明
確地知道當(dāng)系統(tǒng)從s轉(zhuǎn)移到s后的回報(bào)值。舉例來(lái)說,給定一個(gè)SVC分層視頻流,并且接收到
每一層后相應(yīng)的失真減少值已經(jīng)給出。如果狀態(tài)s表示一個(gè)接收者擁有第一層和第二層視頻
流,狀態(tài)s表示接收者擁有第一層、第二層和第三層視頻流,則從狀態(tài)s轉(zhuǎn)移到s的瞬時(shí)報(bào)酬
值是r(s,",該值等于第三層貢獻(xiàn)的失真減少值。采取行動(dòng)"后的狀態(tài)轉(zhuǎn)移概率已知,瞬時(shí)報(bào)酬K&")可以通過下式計(jì)算<formula>formula see original document page 8</formula>
(2-5)、觀察集合
O表示AP能觀察到的觀察集合<formula>formula see original document page 8</formula>表示在/時(shí)刻M個(gè)用戶的聯(lián)合觀察<formula>formula see original document page 8</formula>其中
乂CK:確認(rèn)收到數(shù)據(jù)包的反饋A^《沒有收到數(shù)據(jù)包的反饋(2-6)、觀察概率
由于觀察結(jié)果的不確定性,觀察結(jié)果o在狀態(tài)s下采取行動(dòng)a后,用一個(gè)條件概率函數(shù)<formula>formula see original document page 8</formula>來(lái)給出。
(3)、對(duì)可伸縮視頻流優(yōu)化調(diào)度
一個(gè)//幀的視頻流,每一幀由丄層組成,每一層打成一個(gè)包,假設(shè)初始信念狀態(tài)為
<formula>formula see original document page 8</formula> , ^^第2M"個(gè)狀^為所有接收者成功接收到所有數(shù)據(jù)包的
目標(biāo)狀態(tài),針對(duì)某一幀數(shù)據(jù)包的具體調(diào)度步驟如下(3-1)、部分可觀測(cè)馬爾可夫決策過程參數(shù)輸入初始信念狀態(tài)6'。=[^,^,..,《;];(3-2)、選擇需要發(fā)送的數(shù)據(jù)包在每一個(gè)時(shí)隙內(nèi)AP通過下式選擇需要發(fā)送的最優(yōu)數(shù)據(jù)
包,
n^。,f。) = argmax(《[A: | ^6。,g + i ,2^ | s,,6。,g +…《[A: |《 0]}
其中n"6。,/。)表示一步部分可觀測(cè)馬爾可夫決策過程需要發(fā)送的最優(yōu)數(shù)據(jù)包;
及r^k,6。,,。]表示,。時(shí)刻在初始信念為6。的情況下,發(fā)送第A:個(gè)數(shù)據(jù)包后第附個(gè)用戶獲得的一步失真減少;Q(O表示在?時(shí)刻需要發(fā)送的數(shù)據(jù)包的集合,初始時(shí)刻的Q(g-(l,2,…,Zh(3-3)、信念狀態(tài)更新一次每發(fā)送一個(gè)數(shù)據(jù)包,進(jìn)行一次聯(lián)合觀察o,0(0二^(0,O2(0,…,Om(0〉,其中o,(/)e^4C7i:,A^",系統(tǒng)發(fā)生狀態(tài)轉(zhuǎn)移,從狀態(tài)s,.轉(zhuǎn)移到狀態(tài)~ ,根據(jù)接收到的反饋的不同,~的取值 一 共有2M種情況,即
A/位
。二^^f^,…,《…18,《…^, 6'。的一次更新過程如下
(3-3-1)、 o = {》/1尺,A^K, . A/^K, A64力
(3-3-2) 、 o = {iV肌iV風(fēng)...iV肌JOT}
^=0
+
II收益值為
m,{i 11[*|>yi,6。,g + J 12[A^,,6。,g + 《[6U,,6。,,0]},
巧(6。,f。)表示一步部分可觀測(cè)馬爾可夫決策過程的收益值。每發(fā)送一次,概率更新一次,
狀態(tài)的確定度越來(lái)越大;
(3-4)、判斷發(fā)送時(shí)隙"是否大于最大發(fā)送時(shí)隙數(shù)iV,若大于,則轉(zhuǎn)移到下一幀的數(shù)據(jù)包
進(jìn)行發(fā)送;否則接著發(fā)送此幀的數(shù)據(jù)包。經(jīng)過"步后,部分可觀測(cè)馬爾可夫決策過程的最大
失真減少及其最優(yōu)策略分別如下
// (6o,0 = ,X{i 》|、6。,,。] + i ,^,,6。,g + 《[W^6"]}
n (6。, f。 ) = ar g max {《[A: I ^, 6。, g + i "2 [ A: U,, 6。, ,。] +…[ A: I , 6。, g}
經(jīng)過W個(gè)時(shí)隙后,轉(zhuǎn)移到下一幀數(shù)據(jù)包的調(diào)度,直至//幀的視頻流的數(shù)據(jù)包調(diào)度完成。本發(fā)明的部分可觀測(cè)馬爾可夫決策過程中可伸縮視頻流的優(yōu)化調(diào)度方法與現(xiàn)有技術(shù)相比較具有的優(yōu)點(diǎn)是該方法在用戶狀態(tài)不確定或部分可觀測(cè)條件下,建立了可伸縮視頻流的數(shù)據(jù)包調(diào)度優(yōu)化模型。仿真結(jié)果表明隨著丟包率以及調(diào)度規(guī)模的增大,該方法逐漸逼近最優(yōu)化
調(diào)度算法——MDP算法;而與傳統(tǒng)的調(diào)度算法FIFO和RR相比,能提高視頻流的平均PSNR值,
以實(shí)現(xiàn)用戶整體視頻接收質(zhì)量的最佳化。
圖1本發(fā)明針對(duì)多個(gè)用戶的無(wú)線廣播模型的示意圖;圖2(a)本發(fā)明丟包率對(duì)"Bus"序列與其它算法比較的平均PSNR示意圖;圖2(b)本發(fā)明丟包率對(duì)"Foreman"序列與其它算法比較的平均PSNR示意圖;圖3(a)本發(fā)明發(fā)送時(shí)隙對(duì)"Bus"序列與其它算法比較的平均PSNR示意圖;圖3(b)本發(fā)明發(fā)送時(shí)隙對(duì)"Foreman"序列與其它算法比較的平均PSNR示意圖;圖4(a)本發(fā)明用戶數(shù)目對(duì)"Bus"序列與其它算法比較的平均PSNR示意圖;圖4(b)本發(fā)明用戶數(shù)目對(duì)"Foreman"序列與其它算法比較的平均PSNR示意圖;圖5本發(fā)明所述方法針對(duì)某一幀數(shù)據(jù)包的核心模塊流程框圖。
具體實(shí)施例方式
以下結(jié)合附圖對(duì)本發(fā)明的實(shí)施例作進(jìn)一步的詳細(xì)說明。
下面對(duì)本發(fā)明的實(shí)施例作詳細(xì)說明,本實(shí)施例以本發(fā)明的技術(shù)方案為前提下進(jìn)行實(shí)施,給出了詳細(xì)的實(shí)施方式,但本發(fā)明的保護(hù)范圍不限于下述的實(shí)施例。
如圖1所示,上述部分可觀測(cè)馬爾可夫決策過程中可伸縮視頻流的優(yōu)化調(diào)度方法,其具
10體步驟如下
(1) 、假設(shè)一個(gè)無(wú)線廣播模型,其具體如下(1-1) 、 AP需要將視頻流發(fā)送給2個(gè)接收者一,一 ;
(1-2)、 AP需要在7V個(gè)時(shí)隙內(nèi)將丄個(gè)包的集合丄-仏,/2,…,/^發(fā)送給接收者;
(1-3)、每一幀數(shù)據(jù)(£個(gè)包)的最大發(fā)送時(shí)間均為7V個(gè)時(shí)隙。7V個(gè)時(shí)隙結(jié)束之后,AP轉(zhuǎn)向下一幀數(shù)據(jù)的發(fā)送;
(1-4)、 AP轉(zhuǎn)發(fā)1個(gè)數(shù)據(jù)包的時(shí)間是一個(gè)時(shí)隙;
(1-5)、假設(shè)無(wú)線信道的丟包率服從參數(shù)為A的伯努利分布。
(2) 、對(duì)2個(gè)用戶的可伸縮視頻流的每一幀數(shù)據(jù)分為Z層,每層打包為一個(gè)數(shù)據(jù)包, 一幀的數(shù)據(jù)包集合記為丄=(H…,/J ,其部分可觀測(cè)馬爾可夫決策過程的數(shù)據(jù)包調(diào)度優(yōu)化模型定義如下
(2-1)、狀態(tài)集合
在任一給定的時(shí)間節(jié)點(diǎn),假設(shè)接收者^已經(jīng)收到了若干數(shù)據(jù)包,它是丄的一個(gè)子集。該子集可以用Z位矢量表示,即(^,《,…,6;"f,其中6€{0,1}。 6,.=1表示^擁有數(shù)據(jù)包
/,,否則6,-0。只有2個(gè)接收者,系統(tǒng)的狀態(tài)J用一個(gè)矩陣來(lái)表示5 =
、"i "i 乂
,系統(tǒng)一共
有2"個(gè)狀態(tài)。
5 = ",52, ,522,}表示一,一擁有的數(shù)據(jù)包的狀態(tài)集合,6二[p,,/72,…,p^]表示對(duì)應(yīng)狀態(tài)的
概率分布,J>,=1。(2-2)、行動(dòng)集合
」二&,,A,…,ad表示八一擁有的數(shù)據(jù)包的行動(dòng)集合,在每一個(gè)時(shí)隙內(nèi)AP選擇一個(gè)需要
發(fā)送的數(shù)據(jù)包,",表示"發(fā)送第/個(gè)數(shù)據(jù)包"。(2-3)、狀態(tài)轉(zhuǎn)移概率
在給定參數(shù)為A的伯努利丟包模型下,可以直接計(jì)算出狀態(tài)轉(zhuǎn)移概率
一
p(、,s =a)。例如,發(fā)送兩個(gè)數(shù)據(jù)包到兩個(gè)接收者,M = 2,丄=2。假設(shè)s二
、01乂<formula>formula see original document page 12</formula>
。在r時(shí)刻,系統(tǒng)處在^狀態(tài),即—擁有數(shù)據(jù)包/,, 一擁有數(shù)據(jù)包/2。此時(shí),AP選擇
行動(dòng)^="發(fā)送/,",那么轉(zhuǎn)移到狀態(tài)y的概率是尸(&, =s -s,a, =") = 0;如果選擇行動(dòng)"2 =
"發(fā)送/2",那么轉(zhuǎn)移到的概率是尸0,+1 =s k, = J,a, =a) = l-a 。(2-4)、報(bào)酬函數(shù)
報(bào)酬函數(shù)的選擇必須使每一時(shí)間節(jié)點(diǎn)下的瞬時(shí)報(bào)酬r(s,力的總和能準(zhǔn)確地反應(yīng)既定目標(biāo)
——視頻流質(zhì)量的最優(yōu)化,可以把接收者接收到每一個(gè)特定數(shù)據(jù)包所減少的失真作為瞬時(shí)報(bào)酬。視頻質(zhì)量最優(yōu)就等價(jià)于兩個(gè)用戶的視頻失真總和最小。
事實(shí)上,在狀態(tài)s下采取行動(dòng)fl后,并不會(huì)提供一個(gè)很明確的瞬時(shí)報(bào)酬。但是,可以很明
確地知道當(dāng)系統(tǒng)從s轉(zhuǎn)移到s后的回報(bào)值。舉例來(lái)說,給定一個(gè)SVC分層視頻流,并且接收到
每一層后相應(yīng)的失真減少值已經(jīng)給出。如果狀態(tài)s表示一個(gè)接收者擁有第一層和第二層視頻
流,狀態(tài)s表示接收者擁有第一層、第二層和第三層視頻流,則從狀態(tài)s轉(zhuǎn)移到s的瞬時(shí)報(bào)酬
值是K^,",該值等于第三層貢獻(xiàn)的失真減少值。采取行動(dòng)fl后的狀態(tài)轉(zhuǎn)移概率已知,瞬時(shí)
報(bào)酬")可以通過下式計(jì)算
(2-5)、觀察集合
O表示AP能觀察到的觀察集合,0 = {^XA^/C}, 0(0-V(/),o力))表示在f時(shí)刻2個(gè)
用戶的聯(lián)合觀察,o'(0eMC尺,iVv4/0,其中
jCA::確認(rèn)收到數(shù)據(jù)包的feedbacka^4/::沒有收到數(shù)據(jù)包的feedback(2-6)、觀察概率
由于觀察結(jié)果的不確定性,觀察結(jié)果o在狀態(tài)s下采取行動(dòng)a后,用一個(gè)條件概率函數(shù)ZO,a,o) = ; Ko I s,")來(lái)給出。
(3)、可伸縮視頻流的優(yōu)化調(diào)度,如圖5所示, 一個(gè)/Z幀的視頻流,每一幀由丄層組
12成,每一層打成一個(gè)包,假設(shè)初始信念狀態(tài)為[:^""r,:^f"r,…,^"r,0],設(shè)定第2"個(gè)
2 —12 —l 2 —1
狀態(tài)為所有接收者成功接收到所有數(shù)據(jù)包的目標(biāo)狀態(tài),針對(duì)某一幀的數(shù)據(jù)包具體調(diào)度步驟如下-
(3-1)、部分可觀測(cè)馬爾可夫決策過程參數(shù)輸入初始信念狀態(tài)6'。[A'。,;^,…,;^":h(3-2)、選擇需要發(fā)送的數(shù)據(jù)包在每一個(gè)時(shí)隙內(nèi)AP通過下式選擇需要發(fā)送的數(shù)據(jù)
包,
n!(6。J。) = argmax(i ;[A; | s,》。,/。] +| ^,6。〃0]}
其中n,(6。"。)表示一步部分可觀測(cè)馬爾可夫決策過程需要發(fā)送的最優(yōu)數(shù)據(jù)包;^"^k,6。人]表示,。時(shí)刻在初始信念為6。的情況下,發(fā)送第^個(gè)數(shù)據(jù)包后第附個(gè)用戶獲得的
一步失真減少;Q(f)表示在f時(shí)刻需要發(fā)送的數(shù)據(jù)包的集合,初始時(shí)刻的Q(0^仏2,…,Q;
(3-3)、信念狀態(tài)更新一次每發(fā)送一個(gè)數(shù)據(jù)包,進(jìn)行一次聯(lián)合觀察o, 0(0々),02(0〉,其中o,(,)e^4C^:,A^尺),系統(tǒng)發(fā)生狀態(tài)轉(zhuǎn)移,從狀態(tài)&轉(zhuǎn)移到狀態(tài)^,根據(jù)接收到的反饋的不同,^的取值一共有4種情況,即~=",^〗,/;,".},各個(gè)元素的含義如下-
A:,和一都沒有收到第A:層數(shù)據(jù)包一收到第A層數(shù)據(jù)包, 一沒收到,收到第it層數(shù)據(jù)包,,沒收到/和一都收到第A層數(shù)據(jù)包
6'。的一次更新過程如下
(3-3-1)、
p;',。=《。冷=4
(3-3-2)、 o = {A^,^C/Q
13A'
0
力。=p)。4《+rf
(3-3-3)、 o-^Oi:,A^尺〉
'_0
4=4
(3-3-4)、 o = {JC/d《}
W = 0
P〉,,《,,=/^+"。
收益值為:
//,(6。,/。)表示一步的部分可觀測(cè)馬爾可夫決策過程收益值。每發(fā)送一次,概率更新一次,
狀態(tài)的確定度越來(lái)越大;
(3-4)、判斷發(fā)送時(shí)隙"是否大于最大發(fā)送時(shí)隙數(shù)W,若大于,則轉(zhuǎn)移到下一幀的數(shù)據(jù)包
進(jìn)行發(fā)送;否則接著發(fā)送此幀的數(shù)據(jù)包。經(jīng)過"步后,部分可觀測(cè)馬爾可夫決策過程的最大
失真減少及其最優(yōu)策略分別如下
^(6。,0、n^x(《[A:l、6。,g +《[A;ls,,6。,g)
n (6。,f。) = argmax{《| ^,60,f。] +《[A | ,6。,^]}
經(jīng)過7V個(gè)時(shí)隙后轉(zhuǎn)移到下一幀數(shù)據(jù)包的調(diào)度,直至//幀的視頻流的數(shù)據(jù)包調(diào)度完成。圖2(a)、 2(b)、 3(a)、 3(b)、 4(a)、 4(b)分別把部分可觀測(cè)馬爾可夫決策過程算法與在狀態(tài)信息可知的最優(yōu)化調(diào)度算法MDP算法、傳統(tǒng)的FIFO算法,即只是簡(jiǎn)單的按照數(shù)據(jù)包到達(dá)的順序進(jìn)行發(fā)送,且每個(gè)數(shù)據(jù)包最多只有兩次發(fā)送機(jī)會(huì),以及輪詢調(diào)度算法(Round Robin,RR)。假設(shè)初始信念狀態(tài)為[^n,^T,…,^T,0],設(shè)定第2M"個(gè)狀態(tài)為所有接收者成功接收到所有數(shù)
據(jù)包的目標(biāo)狀態(tài)。圖中方塊符實(shí)線代表MDP算法的收益值的變化趨勢(shì),空心圓圈虛線代表部分可觀測(cè)馬爾可夫決策過程算法的變化趨勢(shì),五角星符雙劃線代表RR算法的變化趨勢(shì),菱形符點(diǎn)劃線代表FIFO算法的變化趨勢(shì)。圖2(a)、 2(b)只是針對(duì)兩種不同的序列做了仿真,四個(gè)用戶的丟包率相同,分別為A =P2 = P3 = A =0.2,0.3,0.5,0.6以及7V-3的情況下平均PSNR值的比較。從中可以看出隨著丟包率的增加,部分可觀測(cè)馬爾可夫決策過程逐漸接近MDP,丟包率越大,接收者正確接收到數(shù)據(jù)包的概率越小,此時(shí)網(wǎng)絡(luò)的吞吐量急劇減少,對(duì)數(shù)據(jù)包進(jìn)行優(yōu)化調(diào)度是十分關(guān)鍵的,而部分可觀測(cè)馬爾可夫決策過程和MDP都采用了優(yōu)化調(diào)度,兩者的差距越來(lái)越?。欢cFIFO的差距越來(lái)越大,隨著丟包率的增大,更加需要對(duì)數(shù)據(jù)包進(jìn)行調(diào)度,而FIFO仍然按照數(shù)據(jù)包到達(dá)的順序發(fā)送數(shù)據(jù)包。圖3(a)、 3(b)給出了發(fā)送時(shí)隙對(duì)平均psnr值的影響。四個(gè)用戶的丟包概率相同,即a-a-a-a:0.3,隨著7V的增加,部分可觀測(cè)馬爾可夫決策過程逐漸接近MDP, iV越大,部分可觀測(cè)馬爾可夫決策過程中的狀態(tài)的確定度也越來(lái)越大,兩種算法越來(lái)越接近;而隨著iV的增大,接收者成功接收到數(shù)據(jù)包的概率增加,三種算法隨著7V的增加差距越來(lái)越小。圖4(a)、 4(b)給出了用戶數(shù)目對(duì)平均PSNR值的影響。a-0.3,^:^0.4,a二0.5,a二0.6,即從一個(gè)到四個(gè)用戶的丟包概率是不同的,
iV = 3。從中可以看出隨著丟包率、發(fā)送時(shí)隙和用戶數(shù)目的增加,本算法逐漸逼近最優(yōu)化的調(diào)度算法MDP,與傳統(tǒng)的調(diào)度算法RR和FIFO相比,其PSNR值提高了大約1分貝。
權(quán)利要求
1、一種部分可觀測(cè)馬爾可夫決策過程中可伸縮視頻流的優(yōu)化調(diào)度方法,其特征在于,針對(duì)無(wú)線廣播下的環(huán)境進(jìn)行假設(shè)簡(jiǎn)化,在用戶狀態(tài)不確定或部分可觀測(cè)的條件下,對(duì)可伸縮視頻流進(jìn)行調(diào)度,采用部分可觀測(cè)馬爾可夫決策過程建立數(shù)據(jù)包調(diào)度優(yōu)化模型,該模型包括狀態(tài)集合、行動(dòng)集合、狀態(tài)轉(zhuǎn)移概率、報(bào)酬函數(shù)、觀察集合、觀察概率,給出具體的調(diào)度過程,其具體步驟如下(1)、假設(shè)一個(gè)無(wú)線廣播傳輸環(huán)境模型,其具體為(1-1)、AP需要將視頻流發(fā)送給M個(gè)接收者r1,r2,…,rM;(1-2)、AP需要在N個(gè)時(shí)隙內(nèi)將L個(gè)包的集合L={l1,l2,…,lL}發(fā)送給接收者;(1-3)、每一幀數(shù)據(jù)(L個(gè)包)的最大發(fā)送時(shí)間均為N個(gè)時(shí)隙,N個(gè)時(shí)隙結(jié)束之后,AP轉(zhuǎn)向下一幀數(shù)據(jù)包的發(fā)送;(1-4)、AP轉(zhuǎn)發(fā)1個(gè)數(shù)據(jù)包的時(shí)間是一個(gè)時(shí)隙;(1-5)、假設(shè)無(wú)線信道的丟包率服從參數(shù)為pi的伯努利分布。(2)、分別對(duì)可伸縮視頻流的每一幀數(shù)據(jù)分為L(zhǎng)層,每層打包為一個(gè)數(shù)據(jù)包,每一幀的數(shù)據(jù)包集合記為L(zhǎng)={l1,l2,…,lL},設(shè)立數(shù)據(jù)包調(diào)度優(yōu)化模型;(3)、對(duì)可伸縮視頻流優(yōu)化調(diào)度。
2、 根據(jù)權(quán)利要求1所述的部分可觀測(cè)馬爾可夫決策過程中可伸縮視頻流的優(yōu)化調(diào)度方 法,其特征在于所述的步驟(2)中的數(shù)據(jù)包調(diào)度優(yōu)化模型,它包括如下(2-1)、狀態(tài)集合在任一給定的時(shí)間節(jié)點(diǎn),假設(shè)接收者^收到了若干數(shù)據(jù)包,它是丄的一個(gè)子集,該子集 可以用丄位矢量表示,即(6r,^,…,^f ,其中6£{0,1}, 6,=1表示,擁有數(shù)據(jù)包/,.,否則6;=0,共有M個(gè)接收者,系統(tǒng)的狀態(tài)s用一個(gè)矩陣來(lái)表示s =<formula>formula see original document page 0</formula>,系統(tǒng)一共有2<formula>formula see original document page 0</formula>個(gè)狀態(tài),S:h,^,…^,J表示M個(gè)用戶擁有的數(shù)據(jù)包的狀態(tài)集合,"[A,A,…,; ,]表示對(duì)應(yīng)<formula>formula see original document page 0</formula>狀態(tài)的概率分布J>,=1。 (2-2)、行動(dòng)集合J-^,^,…,W表示M個(gè)用戶擁有的數(shù)據(jù)包的行動(dòng)集合,在每一個(gè)時(shí)隙內(nèi)AP選擇一個(gè)需要發(fā)送的數(shù)據(jù)包,",表示"發(fā)送第/個(gè)數(shù)據(jù)包"; (2-3)、狀態(tài)轉(zhuǎn)移概率在給定參數(shù)為p,的伯努利丟包模型下,可以直接計(jì)算出狀態(tài)轉(zhuǎn)移概率,10、|《="),例如,發(fā)送兩個(gè)包到兩個(gè)接收者,M = 2,Z = 2,假設(shè)《=01y=f1Q>l,在,時(shí)刻,系統(tǒng)處在s狀態(tài),即r'擁有數(shù)據(jù)包/" 一擁有數(shù)據(jù)包/2,此時(shí),AP選擇行動(dòng)a,="發(fā)送/,",那么轉(zhuǎn)移到狀態(tài)/的概率是尸(&, = s' k = = a) = 0;如果選擇行動(dòng)a2 ="發(fā)送/2",那么轉(zhuǎn)移到的概率是尸(^ = s k = = ") = 1 — ^ ; (2-4)、報(bào)酬函數(shù)報(bào)酬函數(shù)的選擇必須使每一時(shí)間節(jié)點(diǎn)下的瞬時(shí)報(bào)酬rCy,")的總和能準(zhǔn)確地反應(yīng)既定目標(biāo)——視頻流質(zhì)量的最優(yōu)化,可以把接收者接收到每一個(gè)特定數(shù)據(jù)包所減少的失真作為瞬時(shí)報(bào) 酬,視頻質(zhì)量最優(yōu)等價(jià)于所有M個(gè)用戶的視頻失真總和最小。采取行動(dòng)fl后的狀態(tài)轉(zhuǎn)移概率已知,瞬時(shí)報(bào)酬k^,")可以通過下式計(jì)算<formula>formula see original document page 2</formula>(2-5)、觀察集合O表示AP能觀察到的觀察集合,O = {JCX, A^《} , o(O = {o, (r),o2(f),…,oM (0}表示在f時(shí) 刻M個(gè)用戶的聯(lián)合觀察,o'(/)e{JO:,A^:},其中jca::確認(rèn)收到數(shù)據(jù)包的反饋沒有收到數(shù)據(jù)包的反饋(2-6)、觀察概率觀察結(jié)果的不確定性,觀察結(jié)果o在狀態(tài)s下采取行動(dòng)a后,用一個(gè)條件概率函數(shù) ZO , a, o) = pr(o I a)來(lái)給出。
3、根據(jù)權(quán)利要求2所述的部分可觀測(cè)馬爾可夫決策過程中可伸縮視頻流的優(yōu)化調(diào)度方 法,其特征在于所述的步驟(3)中的對(duì)可伸縮視頻流優(yōu)化調(diào)度,假設(shè)初始信念狀態(tài)為<formula>formula see original document page 4</formula>,0],設(shè)定第2M"個(gè)狀態(tài)為所有接收者成功接收到所有數(shù)據(jù)包的目標(biāo)狀態(tài),針對(duì)某一幀數(shù)據(jù)包的具體調(diào)度步驟如下(3-i)、部分可觀測(cè)馬爾可夫決策過程的參數(shù)輸入初始信念狀態(tài)6'。^[A'。,;^,…,;^"];(3-2)、選擇需要發(fā)送的數(shù)據(jù)包在每一個(gè)時(shí)隙內(nèi)AP通過下式選擇需要發(fā)送的數(shù)據(jù)包,其中n,(6。,g表示一步部分可觀測(cè)馬爾可夫決策過程需要發(fā)送的最優(yōu)數(shù)據(jù)包; ^"[Ak》。,,。]表示,。時(shí)刻在初始信念為6。的情況下,發(fā)送第A:個(gè)數(shù)據(jù)包后第m個(gè)用戶獲得的 一步失真減少;Q(,)表示在^時(shí)刻需要發(fā)送的數(shù)據(jù)包的集合,初始時(shí)刻的0(~) = {1,2,一,丄};(3-3)、信念狀態(tài)更新一次每發(fā)送一個(gè)數(shù)據(jù)包,進(jìn)行一次聯(lián)合觀察o, 0(0-(o々),oJ,),…,Om(01 ,其中o^)e^4C尺,iV^0,系統(tǒng)發(fā)生狀態(tài)轉(zhuǎn)移,從狀態(tài)s,轉(zhuǎn)移到 狀態(tài)~ ,根據(jù)接收到的反饋的不同,~的取值 一 共有2M種情況,即(3-3-1) ,《,《',,W的一次更新過程如下:<formula>formula see original document page 4</formula>o = {iV風(fēng)7V風(fēng) AC4《,7V竭外,,<formula>formula see original document page 4</formula><formula>formula see original document page 5</formula>收益值為<formula>formula see original document page 5</formula>^(6。,g表示一步部分可觀測(cè)馬爾可夫決策過程的收益值,每發(fā)送一次,概率更新一次,狀態(tài)的確定度越來(lái)越大;(3-4)、判斷發(fā)送時(shí)隙"是否大于最大發(fā)送時(shí)隙數(shù)7v,若大于,則轉(zhuǎn)移到下一幀的數(shù)據(jù)包進(jìn)行發(fā)送;否則接著發(fā)送此幀的數(shù)據(jù)包。經(jīng)過"步后,部分可觀測(cè)馬爾可夫決策過程的最大失真減少及其最優(yōu)策略分別如下<formula>formula see original document page 5</formula>經(jīng)過W個(gè)時(shí)隙后轉(zhuǎn)移到下一幀數(shù)據(jù)包的調(diào)度,直至/Z幀的視頻流的數(shù)據(jù)包調(diào)度完成c
全文摘要
本發(fā)明公開了一種部分可觀測(cè)馬爾可夫決策過程中可伸縮視頻流的優(yōu)化調(diào)度方法,該方法針對(duì)無(wú)線廣播下的環(huán)境進(jìn)行簡(jiǎn)化,在用戶狀態(tài)不確定或部分可觀測(cè)條件下,對(duì)可伸縮視頻流進(jìn)行調(diào)度,采用部分可觀測(cè)馬爾可夫決策過程建立數(shù)據(jù)包調(diào)度優(yōu)化模型,它包括狀態(tài)集合、行動(dòng)集合、狀態(tài)轉(zhuǎn)移函數(shù)、報(bào)酬函數(shù)、觀察集合、觀察概率,給出調(diào)度過程,其步驟(1)假設(shè)一個(gè)無(wú)線廣播傳輸環(huán)境模型;(2)對(duì)可伸縮視頻流的每一幀數(shù)據(jù)分為層,每層打包為一個(gè)數(shù)據(jù)包,每一幀的數(shù)據(jù)包集合記為,設(shè)立數(shù)據(jù)包調(diào)度優(yōu)化模型;(3)對(duì)可伸縮視頻流優(yōu)化調(diào)度。該方法建立可伸縮視頻流的數(shù)據(jù)包調(diào)度優(yōu)化模型,能提高視頻流的平均PSNR值,以實(shí)現(xiàn)用戶整體視頻接收質(zhì)量最佳化。
文檔編號(hào)H04N7/30GK101674482SQ200910196540
公開日2010年3月17日 申請(qǐng)日期2009年9月25日 優(yōu)先權(quán)日2009年9月25日
發(fā)明者兵 彭, 敏 汪, 范鳳軍, 鄒君妮 申請(qǐng)人:上海大學(xué)