專利名稱:用于測量視頻數(shù)據(jù)質(zhì)量的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于測量視頻數(shù)據(jù)質(zhì)量的方法和設(shè)備,尤其涉及一種在不參考源視頻數(shù)據(jù)的情況下估計(jì)畫面質(zhì)量的方法和系統(tǒng)。
視頻專家的最終目標(biāo)是為觀眾提供最能在感觀上吸引人的視頻圖像。其中一種確定最終圖像質(zhì)量好壞的方法是要求一組觀眾觀看某些視頻序列并要求他們提供自己的看法。另一種分析視頻序列的方法是提供一種自動機(jī)制來評估視頻質(zhì)量優(yōu)越或下降。為此目的,這其中使用了不同的量度來估計(jì)總的視頻質(zhì)量量度,其中包括例如清晰度、塊效應(yīng)(blocking)、振蕩(ringing)、削波(clipping)、噪聲、對比度和瞬時(shí)減損(temporal impairment)。在沒有客觀的質(zhì)量量度的情況下,要想使用正規(guī)的主觀測試來執(zhí)行視頻質(zhì)量的例行評估,那么這將會非常耗時(shí)并且成本很高,此外,對處于使用中的應(yīng)用來說,這是不可能實(shí)現(xiàn)的。因此,本發(fā)明提出了一種用于靜止和編碼視頻的客觀質(zhì)量評估,它能在不使用源數(shù)據(jù)的情況下測量視頻數(shù)據(jù)的改善和下降。
本發(fā)明針對的是一種在不使用參考圖像的情況下評估視頻數(shù)據(jù)質(zhì)量的設(shè)備和方法。
根據(jù)本發(fā)明的一個(gè)方面,在這里提供了一種生成用于估計(jì)輸入視頻數(shù)據(jù)質(zhì)量的主觀參考模型的方法。該方法包括以下步驟從多個(gè)采樣視頻數(shù)據(jù)中獲取多個(gè)平均主觀得分;為多個(gè)平均主觀得分中的每一個(gè)得分計(jì)算多個(gè)圖像量度;將多個(gè)圖像量度中的至少某些量度轉(zhuǎn)換成相應(yīng)的感覺質(zhì)量量度;以及基于多個(gè)圖像量度和感覺質(zhì)量量度來導(dǎo)出模型。然后,使用主觀參考模型來為任何給定輸入視頻數(shù)據(jù)產(chǎn)生一個(gè)客觀質(zhì)量量度。平均主觀得分則是如下獲取的在某種預(yù)定條件下向多個(gè)觀眾顯示多個(gè)采樣視頻數(shù)據(jù);根據(jù)預(yù)定準(zhǔn)則,將多個(gè)采樣視頻數(shù)據(jù)中的每一個(gè)數(shù)據(jù)轉(zhuǎn)換成多個(gè)經(jīng)過處理的視頻數(shù)據(jù);以及,基于多個(gè)采樣視頻數(shù)據(jù)和相應(yīng)的經(jīng)過處理的視頻數(shù)據(jù)來獲取平均主觀得分。在本實(shí)施例中,多個(gè)采樣視頻數(shù)據(jù)表示的是普通用戶通常會觀看的大范圍的視頻序列。多個(gè)圖像量度則包含了塊效應(yīng)、振蕩、削波、噪聲、對比度和清晰度量度中的至少一個(gè)量度,感覺質(zhì)量量度則包含了塊效應(yīng)、振蕩、削波和清晰度感覺量度中的至少一個(gè)量度。
從下文中附圖所示的優(yōu)選實(shí)施例的詳細(xì)描述中可以更清楚地了解到本發(fā)明的前述及其他特征和優(yōu)點(diǎn),在附圖不同的視圖中,相同的參考字符指的是相同的部分。這些附圖不必按比例繪制;相反,重點(diǎn)在于說明本發(fā)明的原理。
圖1是本發(fā)明實(shí)施例適用的簡化框圖;圖2是描述依照本發(fā)明獲取用于預(yù)測客觀質(zhì)量得分的主觀參考得分的操作步驟的流程圖;圖3是在圖2的獲取主觀參考得分的處理過程中生成的表格;圖4是在圖2的獲取主觀參考得分的處理過程中生成的另一個(gè)表格;圖5描述的是依照圖2所述的操作步驟而產(chǎn)生的主觀參考得分;圖6是依照本發(fā)明的圖像處理系統(tǒng)的詳細(xì)功能框圖;以及圖7是描述根據(jù)從依照本發(fā)明的主觀參考得分導(dǎo)出的常用函數(shù)來獲取客觀質(zhì)量得分成分的處理的功能圖。
在以下描述中將會對特有結(jié)構(gòu)、接口和技術(shù)等之類的細(xì)節(jié)進(jìn)行闡述,以便徹底理解本發(fā)明,但這僅僅是為了進(jìn)行說明而不是加以限制。此外,為了簡明起見,在這里將會省略關(guān)于公知設(shè)備、電路和方法的詳細(xì)描述,以免不必要的細(xì)節(jié)導(dǎo)致本發(fā)明的描述不清楚。
圖1描述的是本發(fā)明實(shí)施例適用的圖像處理系統(tǒng)10。如圖1所示,系統(tǒng)10包括一個(gè)或多個(gè)視頻/圖像源12、一個(gè)或多個(gè)輸入/輸出設(shè)備14、一個(gè)處理器16、一個(gè)存儲器18以及一個(gè)顯示設(shè)備20。輸入輸出設(shè)備14、處理器16和存儲器18可以經(jīng)由通信介質(zhì)22來進(jìn)行通信,其中通信介質(zhì)22可以表示總線、通信網(wǎng)絡(luò)、電路、電路卡或其他設(shè)備的一個(gè)或多個(gè)內(nèi)部連接,此外還可以表示這些和其他通信介質(zhì)的一部分或其組合。存儲器18不但可以表示基于盤片的光/磁存儲單元、電子存儲器,而且還可以表示這些和其他存儲設(shè)備的某些部分或組合。應(yīng)該注意的是,與圖像處理系統(tǒng)10相關(guān)聯(lián)的不同功能操作可以整體或者局部地在由存儲器18保存并由處理器16執(zhí)行的一個(gè)或多個(gè)軟件程序/信號處理例程中實(shí)施。然而在其他實(shí)施例中,也可以使用專用集成電路(ASIC)之類的硬件電路來取代軟件指令或是與之相結(jié)合以便實(shí)施本發(fā)明。
此外,在這里不應(yīng)將“處理器”或“控制器”的顯性使用解釋成僅僅指能夠執(zhí)行軟件的硬件,而且可以隱性包含但不局限于數(shù)字信號處理器(DSP)硬件、用于存儲軟件的只讀存儲器(ROM)、隨機(jī)存取存儲器(RAM)以及非易失存儲器。此外這其中也可以包含其他的常規(guī)和/或定制硬件。它們的功能可以通過程序邏輯操作、專用邏輯、程序控制與專用邏輯的交互作用、甚至是手動方式來加以實(shí)現(xiàn),從文中可以更為具體地了解到實(shí)施者可選的特定技術(shù)。
以下將參考圖2和5來對本發(fā)明的詳細(xì)描述進(jìn)行說明。
本領(lǐng)域普通技術(shù)人員將會了解,客觀質(zhì)量量度中的基本任務(wù)通常是模擬主觀圖像質(zhì)量,它表示的是觀眾群體在受控環(huán)境中的平均判定。主觀圖像質(zhì)量會受到減損和屬性之類的圖像特征的組合感覺的影響。因此,本發(fā)明提供了獲取主觀參考模型的裝置,該模型可用于產(chǎn)生表示輸入圖像質(zhì)量下降或提高的客觀質(zhì)量得分。
參考圖2,其中闡明的是產(chǎn)生主觀參考模型的過程,該模型被用于產(chǎn)生輸入視頻數(shù)據(jù)的客觀圖像量度。首先,在步驟100中產(chǎn)生一組n個(gè)視頻序列,這些序列指的是一般觀眾在大多數(shù)視頻應(yīng)用中所看到的內(nèi)容。從一組K個(gè)原始視頻(本領(lǐng)域普通技術(shù)人員將會了解,這是指那些直接來自視頻捕獲/生成設(shè)備的沒有減損或是特別增強(qiáng)的視頻)開始,每一個(gè)視頻都會經(jīng)受多種不同處理,例如數(shù)量為L的處理,在這些處理中將會應(yīng)用諸如塊效應(yīng)、噪聲、壓縮、清晰度、增強(qiáng)或其任何組合之類的變化等級的質(zhì)量影響因素,以便將視頻序列轉(zhuǎn)換成多個(gè)不同的視頻數(shù)據(jù),從而對其進(jìn)行評分。舉個(gè)例子,如圖4所示,其中結(jié)合了設(shè)定在0.25、0.5、0.75和1.0的清晰度來處理視頻序列S1,以便產(chǎn)生四個(gè)不同等級的清晰度,然后則要求觀眾觀看每一組視頻序列,以便獲取平均主觀得分S11、S12、S13以及S14。此外還對視頻序列S1執(zhí)行了設(shè)定在1Mb/s、2Mb/s和5Mb/s的位速率的壓縮,并且獲取了相應(yīng)的平均主觀得分S21、S22和S23。同樣,在這里還結(jié)合了三個(gè)不同等級的位速率來對同一個(gè)視頻序列S1進(jìn)行處理,同時(shí)在每一個(gè)等級都刪除了指定數(shù)量的塊效應(yīng),S31、S32、S33。就噪聲而言,在這里將大小為30dB、35dB和40dB的高斯噪聲進(jìn)一步應(yīng)用于視頻序列S1,并且通過對其進(jìn)行觀看而產(chǎn)生一個(gè)平均主觀得分S41、S42和S43。處于三個(gè)不同等級30dB、35dB和40dB的噪聲與三個(gè)清晰度等級0.25、0.5和0.75相混合,然后通過觀眾觀看來獲取平均設(shè)定值S51、S52、S53、S61、S62、S63、S71、S72以及S73。對0.25和0.5這兩個(gè)清晰度等級來說,大小為3Mb/s和5Mb/s的壓縮將會產(chǎn)生平均得分S81、S82、S83和S84。此外在這里還將噪聲和指定數(shù)量的噪聲縮減量引入視頻序列S1,以便產(chǎn)生平均主觀得分S91、S92和S93。如果我們要產(chǎn)生總數(shù)為n的測試序列,那么n將會等于K×L,或是將原始視頻數(shù)目與處理數(shù)目相乘,以便產(chǎn)生多個(gè)質(zhì)量等級。應(yīng)該指出的是,每一個(gè)原始視頻序列都轉(zhuǎn)換成了圖4所示的用于說明的特定數(shù)量的等級,并且由此不應(yīng)當(dāng)限制本發(fā)明的范圍。相應(yīng)地,根據(jù)本發(fā)明的教導(dǎo),在這里也可以進(jìn)行其他的轉(zhuǎn)換組合,由此不應(yīng)該對本發(fā)明的范圍構(gòu)成限制。
在步驟120中,通過向眾多測試觀眾(m)顯示多個(gè)視頻序列,可以獲取相應(yīng)的平均主觀質(zhì)量得分。舉個(gè)例子,在這里將多達(dá)21個(gè)觀眾分成3個(gè)一組(也就是說,每次使用三個(gè)觀眾來進(jìn)行測試)。然后則要求各組評估大范圍的視頻序列并對其進(jìn)行評分。為了提高可靠性,主觀質(zhì)量得分必須是使用一個(gè)可重復(fù)過程獲取的,例如國際電聯(lián)(ITU)建議500中描述的過程,其中該建議的內(nèi)容在這里引入作為參考。ITU提供了執(zhí)行主觀質(zhì)量記分時(shí)所要遵循的測試條件列表。
在步驟130中,對每n個(gè)視頻序列的主觀得分的平均值進(jìn)行計(jì)算。其結(jié)果制成了如圖3所示的表格,其中Vn表示的是不同的視頻序列,Sn表示的是從觀眾那里得到的相應(yīng)的平均主觀得分。如圖5所示,在步驟140,從步驟100生成的每n個(gè)視頻序列中提取涉及減損和屬性的多個(gè)圖像量度,例如塊效應(yīng)(B)、振蕩(R)、削波(C)、噪聲(N)、對比度(CN)以及清晰度(SH)。本領(lǐng)域普通技術(shù)人員將會了解,假設(shè)在圖像捕獲過程之后,原始視頻輸入沒有減損和增強(qiáng)。然而在接收端,視頻質(zhì)量將會因?yàn)榕c傳送(即噪聲)、壓縮(即MPEG假象(artifact))和圖像處理(即由有限精度算法所造成的削波)相關(guān)聯(lián)的不同因素而受到影響。如圖5所示,其中使用了圖像特征組來確定客觀質(zhì)量模型,該模型則從輸入視頻信號的所有塊效應(yīng)、振蕩、削波、噪聲、對比度和清晰度中計(jì)算步驟130中生成的主觀得分。本領(lǐng)域普通技術(shù)人員將會了解,如果步驟100中生成的視頻序列表示的是用戶視頻質(zhì)量,那么該客觀質(zhì)量模型將能預(yù)測該組中并未包含的新視頻序列的主觀質(zhì)量。
在步驟150中,根據(jù)如圖5所示的所獲取圖像量度來得到滿足各組圖像量度條件的主觀參考模型F(稍后將會對此進(jìn)行說明)。在本實(shí)施例中,以這種方式獲取的主觀參考模型提供了一個(gè)函數(shù)模型,該模型可以在沒有可用參考源視頻信號的情況下評估視頻質(zhì)量。
參考圖6,其中描述了根據(jù)圖2中步驟150的圖像量度來推導(dǎo)主觀參考模型的過程。方框210~300表示的是圖5所示的每一個(gè)圖像量度。各個(gè)圖像量度的計(jì)算可以通過多種方式實(shí)現(xiàn),盡管這一點(diǎn)在本領(lǐng)域是眾所周知的,然而為了完整起見,在下文中將會對計(jì)算各個(gè)圖像量度的特性以及某些示范性方式進(jìn)行簡要描述。
方框310表示的是塊效應(yīng)(B),它是因?yàn)榇植诹炕疢PEG編碼標(biāo)準(zhǔn)中的(8×8象素塊)DCT系數(shù)而造成的。本領(lǐng)域普通技術(shù)人員將會了解,其中一種最有名的MPEG假象就是塊假象。塊假象的數(shù)量和可視性會隨著壓縮的提高而增加,也就是說,較低的比特率將會增加其數(shù)量和可視性。壓縮視頻的感覺質(zhì)量在很大程度上受到塊假象的影響。塊假象可以作為在覆蓋該圖像的8×8的網(wǎng)格上發(fā)現(xiàn)的1×8的像素邊緣的數(shù)目來進(jìn)行測量。因此,塊效應(yīng)是以落在所使用的最可能的編碼網(wǎng)格上的垂直和水平邊緣數(shù)目為基礎(chǔ)的。
塊假象(B)的計(jì)算在本領(lǐng)域中是眾所周知的,它可以通過多種方式實(shí)施。舉例來說,其中一種公知的測量塊效應(yīng)的方法借助的是像素n和n+1的不連續(xù)性的大小,其中n是8(網(wǎng)格大小)的倍數(shù)。如果存在不連續(xù)性并且不連續(xù)性低于20這個(gè)閾值,那么這種不連續(xù)性處于一個(gè)塊邊緣。如果在8個(gè)連續(xù)行(從第i行到第i+8行)中發(fā)現(xiàn)邊緣,則將其視為一個(gè)塊假象。另一種量化不連續(xù)的方法是在塊的兩邊使用線性像素外推的不連續(xù)性大小。
參考圖6,假設(shè)B(k,l,t)=[xklt(i,j)](i,j)∈
2]]>是位于第k列第1行以及時(shí)間t的序列的亮度塊。如圖6所示,B(k,l,t)與B(k+1,l,t)這兩個(gè)塊之間的假象值即為使用相鄰象素外推值為八個(gè)行估計(jì)的邊界上的不連續(xù)性。因此,對這些塊的每個(gè)第j行而言,外推像素值是根據(jù)一階外推法估計(jì)的(El)j=32xklt(7,j)-12xklt(6,j),]]>(Er)j=32xk+1lt(0,j)-12xk+1lt(1,j).]]>因此,垂直假象值是八個(gè)不連續(xù)的均值Vm=18Σj=07(ΔAv)j=18|Σj=07((Er)j-(Ei)j)|.]]>方框320表示的是振蕩假象(R),它是第二知名的MPEG假象。與依賴于均勻或平滑區(qū)域存在與否的塊效應(yīng)所不同,振蕩取決于圖像中的邊緣數(shù)量。如果數(shù)值很高的單個(gè)象素接近變化很強(qiáng)的邊緣或是處于非自然平滑的區(qū)域(主要是在卡通之類的合成視頻中發(fā)現(xiàn)的),那么振蕩是作為這些象素的計(jì)數(shù)(導(dǎo)致局部變化超出某個(gè)閾值)而被檢測的。因此,振蕩是一種圍繞高對比度邊緣的閃爍(shimmering)效應(yīng),并且取決于其將本身顯示為邊緣雙倍的方向。振蕩假象(R)的測量在本領(lǐng)域是眾所周知的,它可以采用多種方式實(shí)施。例如,其中一種檢測和測量振蕩的方法包括以下步驟使用一個(gè)用于邊緣轉(zhuǎn)變的很高閾值來檢測強(qiáng)變化邊緣。
檢測與強(qiáng)變化邊緣相鄰并且變化很小的區(qū)域(低活動區(qū)域)。
將局部變化(通常是在一個(gè)方向上使用少至兩個(gè)的相鄰象素來進(jìn)行計(jì)算)很大的象素檢測成振蕩象素。舉例來說,如果在低活動區(qū)域中,附近象素的局部變化為3,那么振蕩象素的局部變化必須至少為該值的四倍。這其中可以使用下列條件(σv(i,j)>3)∧(σv(i,j)≥4.abs(Yi-1,j-Yi+1,j))或(σh(i,j)>3)∧(σv(i,j)≥4.abs(Yi,j-1-Yi,j+1))其中σv,h是像素Yi,j與其相鄰象素Yi+1,j之間的亮度差。圖像上的所有振蕩象素之和即為振蕩值。
方框340表示的是削波假象(C)。削波是所用處理的算術(shù)精度在圖象值(亮度與色度分量)的比特?cái)?shù)中施加的截?cái)?。它會?dǎo)致產(chǎn)生范圍有限的值,由此縮小了動態(tài)范圍,從而會出現(xiàn)細(xì)節(jié)丟失或是將失真引入高對比度區(qū)域中。然而,如果極值超出動態(tài)范圍限制,那么將會出現(xiàn)飽和現(xiàn)象并且象素將會被削波(也就是說,對8比特精度而言,像素將會選取大小為255或0的最大/最小值)。削波測量是圖像中發(fā)現(xiàn)的被削波像素?cái)?shù)目的一個(gè)函數(shù)。在沒有對象素削波的時(shí)候,削波量度定義為0.0,在對1%或更多象素進(jìn)行削波的時(shí)候,削波量度定義為1.0。通過在左邊、右邊、頂部和底部上將5%的邊緣應(yīng)用于圖像,可以避免對任何空白或黑條進(jìn)行計(jì)數(shù),并且可以加速測量。
削波(C)的計(jì)算在本領(lǐng)域是眾所周知的,它可以通過多種方式實(shí)施。例如,削波測量算法可以通過對圖像上除頂部、底部、左邊和右邊的5%的邊緣之外的每個(gè)像素進(jìn)行測試來執(zhí)行。然后,如果像素值為0或最大(如果精度為8比特,則其為255),那么我們將會增加削波象素的計(jì)數(shù)。在結(jié)束計(jì)數(shù)時(shí),我們將其與圖像中的像素總數(shù)(邊緣除外)相除,以便獲取一個(gè)作為百分?jǐn)?shù)的計(jì)數(shù)。削波像素百分?jǐn)?shù)則是使用以下規(guī)則轉(zhuǎn)換成一個(gè)削波量度的如果其為0%,那么削波為0;如果其小于1%,那么削波與其百分?jǐn)?shù)相等;以及如果其為1%或更大,則削波為1.0。
方框360表示的是噪聲假象(N)。在平滑區(qū)域或是具有平滑變換的區(qū)域,噪聲是最引人注目的。它會給出圖像不干凈的主觀印象,或者將某些非預(yù)期的內(nèi)容重疊在圖像上。因此,在空間和時(shí)間維度上,噪聲是一個(gè)隨機(jī)變化,它顯現(xiàn)的是與圖像傳送和生成相聯(lián)系的隨機(jī)處理所導(dǎo)致的視頻圖像變化程度。在某些情況下,非常少量的噪聲會增加紋理的逼真度(與塑料或合成外觀相比),此外還發(fā)現(xiàn),該少量噪聲會提高感覺質(zhì)量。然而,大多數(shù)噪聲會導(dǎo)致細(xì)節(jié)模糊,并且降低可視信息的質(zhì)量。
噪聲(N)的計(jì)算在本領(lǐng)域是眾所周知的,它可以通過多種方式實(shí)施。舉例來說,典型的算法包括以下步驟將圖像劃分成很小的塊。
對每個(gè)塊的強(qiáng)度變化進(jìn)行測量。
假設(shè)噪聲強(qiáng)度的幅度遠(yuǎn)遠(yuǎn)小于信號的幅度,那么變化最小的塊(或者變化最小的塊的平均值)應(yīng)該與一個(gè)恒定亮度區(qū)相對應(yīng)。
使用一組高通濾波器或是一個(gè)帶通濾波器來濾出DC分量。
使用濾波器的輸出總和來計(jì)算變化或噪聲。
以下給出了在該算法中使用的濾波器[-0.13,-0.32,-0.64,-0.77,-0.58,-0.13,0.58,1.22,1.54,1.22,0.58,-0.13,-0.58,-0.77,-0.64,-0.32,-0.13]
由此可以獲取在各個(gè)濾波器處于各個(gè)象素上的具有合成輸出的圖像(除了每一行兩端的8個(gè)邊界象素之外)。輸出是使用一個(gè)削波函數(shù)削波的,由此確保只對那些在感覺上有作用的噪聲進(jìn)行計(jì)數(shù)。所使用的削波函數(shù)是clip(x)={0→if(x<ThresholdLow)x→if(x>ThresholdHigh)((x-ThresholdLow)*ThresholdHigh(ThresholdHigh-ThresholdLow))→otherwise]]>削波函數(shù)閾值是從感覺閾值的沃森模型(Watson’s model)中導(dǎo)出的。該模型是用以下等式描述的Y(f)=100.466(log(f)+0.4)2-0.31]]>任何濾波器的削波閾值都是如下給出的Th= ∫Y(f′)S(f′)df′其中S(f’)是濾波器的空間頻譜響應(yīng)。f’是先前等式中的空間頻率f的歸一化版本,它補(bǔ)償?shù)氖怯^看距離。削波響應(yīng)是在變化最小的m個(gè)窗口中的各個(gè)窗口上取平均值的。m個(gè)此類響應(yīng)的平均值即為我們從某個(gè)濾波器中得到的噪聲量度。該算法的總的噪聲量度則是作為四個(gè)濾波器的噪聲量度之和來進(jìn)行計(jì)算的。
方框380表示的是對比度假象(CN)。對比度是所關(guān)注象素亮度與背景之間的差值,對比靈敏度則是區(qū)分對象和背景的能力。對比度(CN)的計(jì)算在本領(lǐng)域是眾所周知的,它可以通過多種方式實(shí)施。舉例來說,測量對比度的基本算法如下所示首先,對排除了左邊、右邊、頂部和底部的5%的邊緣的圖像的亮度直方圖進(jìn)行計(jì)算。其次,對各自包含了5%的總能量的直方圖上部和下部進(jìn)行分離。最后,通過將直方圖上部和下部之間的差值與直方圖中的最大亮度相除來對該差值進(jìn)行歸一化,由此計(jì)算出所述差值。
方框400表示的是清晰度量度,它既可以通過空間域中的邊緣定義來測量,也可以通過變換域中的高頻特性來測量。申請人在2002年6月14日提交了美國申請10/172,416,其中公開了一種基于局部邊緣峭度來計(jì)算清晰度量度的新方法,由此在這里引入這種與計(jì)算清晰度量度有關(guān)的公共主題來作為參考。簡要的說,清晰度量度考慮的是空間和局部頻率信息,并且使用了圍繞圖像邊緣的8×8的塊的加權(quán)峭度。結(jié)果,清晰度量度顯示出與感覺清晰度高度相關(guān),即只受清晰度影響的質(zhì)量變化。這樣一來,通過使用相應(yīng)美國申請08/846,982中公開的方法,可以確定感覺清晰度量度。
繼續(xù)參考圖4,在如上所述確定了相應(yīng)量度之后將會執(zhí)行方框320~360,以便將某些量度輸出修改成一個(gè)感覺量度。從一個(gè)模擬開始,振蕩和塊效應(yīng)值將會與一組壓縮視頻序列的主觀得分相比較,這個(gè)得分揭示的是對那些用高于5~8Mb/s的位速率編碼的序列來說,主觀得分是最高的,并且這些序列顯示了少量振蕩和塊效應(yīng)。雖然有時(shí)候它們是相關(guān)的,但是塊效應(yīng)和振蕩都是獨(dú)立的假象,必須分別對其進(jìn)行解釋。質(zhì)量與塊效應(yīng)和/或振蕩之間的相關(guān)性并不是線性的(也就是說,對質(zhì)量所造成的感覺效果很可能是一個(gè)對數(shù)或指數(shù)函數(shù))。在二者全都存在的時(shí)候,塊效應(yīng)和振蕩的組合效應(yīng)并不是線性累加的。而且,振蕩和塊效應(yīng)的相關(guān)比例并不是恒定的;有時(shí)候塊效應(yīng)會占據(jù)優(yōu)勢,有時(shí)候則是振蕩占據(jù)優(yōu)勢。同樣,需要將塊效應(yīng)/振蕩變換成感覺質(zhì)量單元,并且需要說明其對質(zhì)量所產(chǎn)生的組合感覺效應(yīng)。應(yīng)用于各個(gè)特征的感覺函數(shù)可以是從線性到對數(shù)或多項(xiàng)式形式的簡單變化,也可以是被發(fā)現(xiàn)與主觀數(shù)據(jù)(與用于衡量歸一化的常數(shù)因數(shù)相加)恰當(dāng)關(guān)聯(lián)的函數(shù)的應(yīng)用。因此,在這里將會執(zhí)行方框320~360,這樣一來,用于塊效應(yīng)(B)、振蕩(R)和噪聲(N)的感覺函數(shù)是平方根(此外還使用了一個(gè)大小為40的比例因數(shù)),對削波而言,它是該值與2.5相乘并且加1的結(jié)果,由此提升到了1.5的乘冪。
在將塊效應(yīng)、振蕩和削波變換成感覺質(zhì)量單元之后,方框380~460將被執(zhí)行,以便說明其對質(zhì)量的組合感覺影響。在數(shù)學(xué)上,這個(gè)處理是如下表示的方框380-(1+CN+SH5)B1/240,]]>
方框400-(1+CN+SH5)B(1+B)R1/240]]>方框420-(1+CN)(1+2.5C)3/2方框440-2(N)(SH)(CN)方框460-(NCN)1/2(1+2.5C)2]]>方框500+SH在步驟480中,當(dāng)通過確定客觀質(zhì)量得分來實(shí)現(xiàn)與主觀得分高度相關(guān)的時(shí)候,NROQM包含了所有的交互作用或是處于任何組合之中。
在數(shù)學(xué)上,NROOM可以如下表示NROQM(B,R,C,N,CN,SH)=]]>-(1+CN+SH5)B1/240---(1a)]]>-(1+CN+SH5)B(1+B)R1/240---(1b)]]>-(1+CN)(1+2.5C)3/2---(1c)]]>-2(N)(SH)(CN)---(1d)]]>-(NCN)1/2(1+2.5C)2---(1e)]]>-(0.6+CN)2---(1f)]]>+SH---(1g)]]>如上所示,NROQM包含了下列交互作用對比度和清晰度對塊效應(yīng)和振蕩的助長效果,這解釋了這些假象提高的可視性(參見在以上等式的部分1a和1b中的第一項(xiàng));塊效應(yīng)和振蕩之間的掩蔽效果,這使得振蕩在塊效應(yīng)很小的時(shí)候更為明顯(參見1b第二項(xiàng));對比度對削波的助長效果,這使得削波在對比度很高的情況下將會更為明顯(參見1c中的項(xiàng)(1+CN));清晰度和對比度對噪聲的助長效果(參見1d);削波和對比度對噪聲的掩蔽效應(yīng),這樣將會避免在存在削波的時(shí)候?qū)υ肼曔M(jìn)行太大的加權(quán),這受對比度的影響(參見1e)。
應(yīng)該指出的是,由于清晰度(1g)是其單獨(dú)支持的感覺清晰度的量度,因此清晰度是等式1中的唯一正項(xiàng)。在對比度高于0.4的情況下,1f項(xiàng)將被用于減少內(nèi)容的(小)基準(zhǔn)(baseline),如果使用的是一個(gè)無基準(zhǔn)對比度量度,那么這一項(xiàng)應(yīng)該是不存在的,但是說明對比度交互作用的項(xiàng)卻必須得到保留。同樣,在這種情況下也可以包括一個(gè)用于對比度的正項(xiàng)。
在一個(gè)替換實(shí)施例中,運(yùn)動假象的量度可以進(jìn)一步提高NROQM的總體性能。瞬時(shí)減損特征包含了以下各項(xiàng)中的至少三項(xiàng)的加權(quán)和連續(xù)幀中的能量差(在低速運(yùn)動情況下由它來指示假象);抖動(幀速率變換所導(dǎo)致的對運(yùn)動所進(jìn)行的不自然調(diào)制,否則該運(yùn)動為平滑運(yùn)動);IBP漂移(一個(gè)介于I幀與先前幀之間的差值,它是由運(yùn)動估計(jì)誤差造成的,該誤差在兩個(gè)I幀或GOP之間的B和P幀中增加);運(yùn)動矢量的運(yùn)動場平滑標(biāo)準(zhǔn)偏差(運(yùn)動矢量表示對象從一個(gè)圖像到下一個(gè)圖像的位置變化,低標(biāo)準(zhǔn)偏差表示的是平滑運(yùn)動);蚊式噪聲(固定邊緣周圍的噪聲,它是作為邊緣像素周圍的很小鄰域中的象素中的總和或是絕對幀差值來計(jì)算的);有鑒于上述內(nèi)容,替換的NROQM函數(shù)可以表示如下NROQMopt=NROQM(B,R,C,N,CN,SH)+F(MOT)+G(CN),其中F(MOT)表示運(yùn)動減損的加權(quán)和,G(CN)表示的是獨(dú)立于內(nèi)容的對比度量度。
參考圖6,一旦得到了常規(guī)函數(shù)模型,那么可以在一個(gè)系統(tǒng)中實(shí)現(xiàn)所述函數(shù),該系統(tǒng)可以包括電視、機(jī)頂盒、臺式機(jī)、膝上計(jì)算機(jī)或掌上計(jì)算機(jī)、便攜式可視電話、個(gè)人數(shù)字助理(PDA)以及視頻/圖像存儲設(shè)備,例如盒式磁帶錄像機(jī)(VCR)、數(shù)字?jǐn)z像器(DVR)、TiVO設(shè)備、常規(guī)視頻處理系統(tǒng)等等,此外還可以包括這些與其他設(shè)備的某些部分或組合,以便在不使用輸入數(shù)據(jù)的情況下估計(jì)輸入數(shù)據(jù)質(zhì)量。
從上文中可以明顯看出,本發(fā)明具有如下優(yōu)點(diǎn),那就是圖像量度系統(tǒng)10在沒有使用源參考數(shù)據(jù)的情況下提供了一個(gè)與主觀得分高度相關(guān)的質(zhì)量量度NROQM。在現(xiàn)有技術(shù)中,以原始視頻為參考并不適合進(jìn)行服務(wù)中質(zhì)量監(jiān)視以及連續(xù)質(zhì)量控制系統(tǒng)的研發(fā)。因此,本發(fā)明的教導(dǎo)有益于很多視頻應(yīng)用,例如視頻成像器的聚焦調(diào)整、視頻處理算法的研發(fā)、實(shí)時(shí)視頻質(zhì)量監(jiān)視/控制以及連網(wǎng)視頻的實(shí)時(shí)質(zhì)量控制。
雖然在這里說明和描述了本發(fā)明的優(yōu)選實(shí)施例,但是本領(lǐng)域技術(shù)人員將會了解,在不脫離本發(fā)明真實(shí)范圍的情況下,還可以進(jìn)行不同的修改和變化,并且可以使用等價(jià)物來替換其部件。此外還可以執(zhí)行多種修改,以便在不脫離中心范圍的情況下與特定情況以及本發(fā)明的教導(dǎo)相適應(yīng)。因此,本發(fā)明并不局限于那些作為執(zhí)行本發(fā)明的最佳模式而被公開的特定實(shí)施例,與此相反,本發(fā)明包含了落入所附權(quán)利要求范圍中的所有實(shí)施例。
權(quán)利要求
1.一種生成用于估計(jì)輸入視頻數(shù)據(jù)質(zhì)量的主觀參考模型的方法,該方法包括以下步驟從多個(gè)采樣視頻數(shù)據(jù)中獲取多個(gè)平均主觀得分;為多個(gè)所述平均主觀得分中的每一個(gè)得分計(jì)算多個(gè)圖像量度;將多個(gè)所述圖像量度中的至少一些量度轉(zhuǎn)換成相應(yīng)的感覺質(zhì)量量度;以及根據(jù)多個(gè)所述圖像量度以及所述感覺質(zhì)量量度來導(dǎo)出所述模型。
2.權(quán)利要求1的方法,還包括將所述主觀參考模型應(yīng)用于所述輸入視頻數(shù)據(jù),以便產(chǎn)生一個(gè)客觀質(zhì)量量度的步驟。
3.權(quán)利要求1的方法,其中,步驟(a)還包括如下步驟在預(yù)定條件下,將多個(gè)所述采樣視頻數(shù)據(jù)提供給多個(gè)觀眾;根據(jù)預(yù)定準(zhǔn)則而將多個(gè)所述采樣視頻數(shù)據(jù)中的每一個(gè)轉(zhuǎn)換成多個(gè)經(jīng)過處理的視頻數(shù)據(jù);以及根據(jù)多個(gè)所述采樣視頻數(shù)據(jù)以及相應(yīng)的所述經(jīng)過處理的視頻數(shù)據(jù)來獲取所述平均主觀得分。
4.權(quán)利要求3的方法,其中,轉(zhuǎn)換步驟還包括對多個(gè)所述采樣視頻數(shù)據(jù)的清晰度、壓縮、噪聲和塊效應(yīng)或是它們的任何組合進(jìn)行修改的步驟。
5.權(quán)利要求3的方法,其中,所述預(yù)定條件復(fù)合國際電信聯(lián)盟(ITU)的建議500。
6.權(quán)利要求1的方法,其中,多個(gè)所述采樣視頻數(shù)據(jù)表示的是普通用戶通常觀看的大范圍的視頻序列。
7.權(quán)利要求1的方法,其中,多個(gè)所述圖像量度包含塊效應(yīng)、振蕩、削波、噪聲、對比度以及清晰度量度中的至少一個(gè)。
8.權(quán)利要求1的方法,其中,所述感覺質(zhì)量量度包含塊效應(yīng)、振蕩、削波和清晰度感覺量度中的至少一個(gè)。
9.權(quán)利要求1的方法,其中,導(dǎo)出所述主觀參考模型的步驟還包括對所述計(jì)算得到的圖像量度與所述感覺圖像量度之間的組合感覺效果進(jìn)行計(jì)算的步驟。
10.權(quán)利要求9的方法,其中,計(jì)算所述組合感覺效果的步驟包括對從多個(gè)所述圖像量度中的至少一些量度中測得的對比度量度、感覺清晰度量度以及感覺塊效應(yīng)量度之間的交互作用進(jìn)行計(jì)算的步驟。
11.權(quán)利要求9的方法,其中,計(jì)算所述組合感覺效果的步驟包括對從多個(gè)所述圖像量度中的至少一些量度中測得的感覺振蕩量度以及感覺塊效應(yīng)量度之間的交互作用進(jìn)行計(jì)算的步驟。
12.權(quán)利要求9的方法,其中,計(jì)算所述組合感覺效果的步驟包括對從多個(gè)所述圖像量度中的至少一些量度中測得的對比度量度以及感覺削波量度之間的交互作用進(jìn)行計(jì)算的步驟。
13.權(quán)利要求9的方法,其中,計(jì)算所述組合感覺效果的步驟包括對從多個(gè)所述圖像量度中的至少一些量度中測得的感覺清晰度量度、對比度量度以及噪聲量度之間的交互作用進(jìn)行計(jì)算的步驟。
14.權(quán)利要求9的方法,其中,計(jì)算所述組合感覺效果的步驟包括對從多個(gè)所述圖像量度中的至少一些量度中測得的感覺削波量度、對比度量度以及噪聲量度之間的交互作用進(jìn)行計(jì)算的步驟。
15.一種生成用于估計(jì)輸入視頻數(shù)據(jù)質(zhì)量的主觀參考模型的設(shè)備,包括處理器;與所述處理器相耦合的存儲器,所述存儲器被配置成允許處理器進(jìn)行以下操作從多個(gè)采樣視頻數(shù)據(jù)中獲取多個(gè)平均主觀得分;為多個(gè)所述平均主觀得分中的每一個(gè)得分計(jì)算多個(gè)圖像量度;將多個(gè)所述圖像量度中的至少一些量度轉(zhuǎn)換成相應(yīng)的感覺質(zhì)量量度;以及根據(jù)多個(gè)所述圖像量度以及所述感覺質(zhì)量量度來導(dǎo)出所述模型。
16.權(quán)利要求15的設(shè)備,其中,所述存儲器還被配置成允許所述處理器將所述主觀參考模型應(yīng)用于所述輸入視頻數(shù)據(jù),以便產(chǎn)生一個(gè)客觀質(zhì)量量度。
17.權(quán)利要求15的設(shè)備,其中,為了獲取多個(gè)所述平均主觀得分,所述存儲器還被配置成允許所述處理器在預(yù)定條件下,將多個(gè)所述采樣視頻數(shù)據(jù)提供給多個(gè)觀眾;根據(jù)預(yù)定準(zhǔn)則而將多個(gè)所述采樣視頻數(shù)據(jù)中的每一個(gè)轉(zhuǎn)換成多個(gè)經(jīng)過處理的視頻數(shù)據(jù);以及根據(jù)多個(gè)所述采樣視頻數(shù)據(jù)以及相應(yīng)的所述經(jīng)過處理的視頻數(shù)據(jù)來獲取所述平均主觀得分。
18.權(quán)利要求17的設(shè)備,其中,為了根據(jù)所述預(yù)定準(zhǔn)則而將多個(gè)所述采樣視頻數(shù)據(jù)中的每一個(gè)都轉(zhuǎn)換成所述多個(gè)經(jīng)過處理的視頻數(shù)據(jù),所述存儲器還被配置成允許所述處理器對多個(gè)所述采樣視頻數(shù)據(jù)的清晰度、壓縮、噪聲和塊效應(yīng)或是它們的任何組合進(jìn)行修改。
19.權(quán)利要求15的設(shè)備,其中,多個(gè)所述圖像量度包含塊效應(yīng)、振蕩、削波、噪聲、對比度以及清晰度量度中的至少一個(gè)。
20.權(quán)利要求15的設(shè)備,其中,所述感覺質(zhì)量量度包含塊效應(yīng)、振蕩、削波和清晰度感覺量度中的至少一個(gè)。
21.權(quán)利要求15的設(shè)備,其中,所述存儲器還被配置成允許所述處理器對所述計(jì)算得到的圖像量度與所述感覺圖像量度之間的組合感覺效果進(jìn)行計(jì)算。
22.權(quán)利要求15的設(shè)備,其中,所述存儲器還被配置成允許所述處理器對從多個(gè)所述圖像量度中的至少一些量度中測得的對比度量度、感覺清晰度量度以及感覺塊效應(yīng)量度之間的交互作用進(jìn)行計(jì)算。
23.權(quán)利要求21的設(shè)備,其中,為了計(jì)算所述組合感覺效果,所述存儲器還被配置成允許所述處理器對從多個(gè)所述圖像量度中的至少一些量度中測得的感覺振蕩量度以及感覺塊效應(yīng)量度之間的交互作用進(jìn)行計(jì)算。
24.權(quán)利要求21的設(shè)備,其中,為了計(jì)算所述組合感覺效果,所述存儲器還被配置成允許所述處理器對從多個(gè)所述圖像量度中的至少一些量度中測得的對比度量度與感覺削波量度之間的交互作用進(jìn)行計(jì)算。
25.權(quán)利要求21的設(shè)備,其中,為了計(jì)算所述組合感覺效果,所述存儲器還被配置成允許所述處理器對從多個(gè)所述圖像量度中的至少一些量度中測得的感覺清晰度量度、對比度量度以及噪聲量度之間的交互作用進(jìn)行計(jì)算。
26.權(quán)利要求21的設(shè)備,其中,為了計(jì)算所述組合感覺效果,所述存儲器還被配置成允許所述處理器對從多個(gè)所述圖像量度中的至少一些量度中測得的感覺削波量度、對比度量度以及噪聲量度之間的交互作用進(jìn)行計(jì)算。
全文摘要
本發(fā)明涉及一種生成用于估計(jì)輸入視頻數(shù)據(jù)質(zhì)量的模型的方法和設(shè)備。該設(shè)備被配置成從多個(gè)采樣視頻數(shù)據(jù)中獲取多個(gè)平均主觀得分,并且為所述多個(gè)平均主觀得分中的每一個(gè)計(jì)算多個(gè)圖像量度。所述多個(gè)圖像量度中的一些量度轉(zhuǎn)換成相應(yīng)的感覺質(zhì)量量度,然后則基于計(jì)算得到的質(zhì)量量度以及感覺質(zhì)量量度來預(yù)測圖像質(zhì)量量度。
文檔編號H04N17/00GK1669338SQ03816772
公開日2005年9月14日 申請日期2003年6月20日 優(yōu)先權(quán)日2002年7月17日
發(fā)明者J·E·卡維德斯 申請人:皇家飛利浦電子股份有限公司