專(zhuān)利名稱(chēng):用于多媒體處理的內(nèi)容分類(lèi)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明的領(lǐng)域涉及通過(guò)壓縮算法以基于多媒體數(shù)據(jù)的內(nèi)容實(shí)施分析、分類(lèi)、量化及表示多媒體數(shù)據(jù)的多媒體數(shù)據(jù)處理。
背景技術(shù):
因特網(wǎng)和無(wú)線通信的廣泛使用已擴(kuò)大了對(duì)通過(guò)因特網(wǎng)和移動(dòng)/無(wú)線信道流注媒體的多媒體服務(wù)的需要。在因特網(wǎng)協(xié)議(IP)網(wǎng)絡(luò)中,多媒體數(shù)據(jù)可由服務(wù)器提供,且可由一個(gè)或多個(gè)有線或無(wú)線客戶(hù)端流化。有線連接包括撥號(hào)、集成服務(wù)數(shù)字網(wǎng)絡(luò)(ISDN)、電纜、數(shù)字用戶(hù)線路協(xié)議(統(tǒng)稱(chēng)為xDSL)、光纖、局域網(wǎng)絡(luò)(LAN)、廣域網(wǎng)絡(luò)(WAN)及其他網(wǎng)絡(luò)。利用無(wú)線通信的電子裝置包括電話(例如蜂窩式電話)、個(gè)人數(shù)據(jù)助理(PDA)、手持式及便攜式計(jì)算機(jī)及其他裝置。在多數(shù)(如果不是全部)這種應(yīng)用中,帶寬需求及/或約束迫使多媒體數(shù)據(jù)處理利用源編碼器集成多媒體壓縮算法來(lái)分析、量化及表示多媒體數(shù)據(jù),以通過(guò)花費(fèi)“最小”數(shù)量的位來(lái)傳達(dá)最多信息。這些算法的特征發(fā)生明顯變化,從而導(dǎo)致其性能(例如壓縮效率及位速率)的大范圍變化。使用壓縮算法的多媒體處理特征可基于內(nèi)容而發(fā)生明顯變化,從而可導(dǎo)致其性能(例如壓縮效率及位速率)的大范圍變化。
某些多媒體數(shù)據(jù)處理方案使用某些類(lèi)型的信息將多媒體數(shù)據(jù)分類(lèi)。通常,圖像分類(lèi)算法是基于某一形式的圖像分割方法。在針對(duì)MPEG-7的MPEG中已建議圖像聚類(lèi)算法(光聚類(lèi))。文中當(dāng)前建議及闡述的圖像分類(lèi)算法是基于多媒體數(shù)據(jù)的數(shù)學(xué)及統(tǒng)計(jì)方面。用于對(duì)多媒體數(shù)據(jù)實(shí)施處理及編碼的改進(jìn)方法及裝置可在有線及無(wú)線通信二者中具有大范圍的應(yīng)用,且其可有利于在所屬技術(shù)領(lǐng)域中利用及/或修改這種處理的特征以便開(kāi)發(fā)其特征以改進(jìn)現(xiàn)有產(chǎn)品并創(chuàng)造尚未開(kāi)發(fā)的新產(chǎn)品。
發(fā)明內(nèi)容
本發(fā)明的設(shè)備及方法的每一者均具有數(shù)個(gè)方面,任一單個(gè)方面均不能單獨(dú)決定其合意特征。在不限定本發(fā)明范疇的前提下,現(xiàn)將簡(jiǎn)要論述其主要特性。在考慮這一論述后,且尤其在讀取名稱(chēng)為“具體實(shí)施方式
”的部分后,我們將了解如何改進(jìn)多媒體數(shù)據(jù)處理設(shè)備及方法的特性。
在一個(gè)方面中,一種處理多媒體數(shù)據(jù)的方法包括確定多媒體數(shù)據(jù)的復(fù)雜度、基于所確定的復(fù)雜度將所述多媒體數(shù)據(jù)分類(lèi)、及基于其分類(lèi)確定用于對(duì)多媒體數(shù)據(jù)實(shí)施解碼的位速率。所述方法還可以包括確定多媒體數(shù)據(jù)的空間復(fù)雜度及時(shí)間復(fù)雜度,且將多媒體數(shù)據(jù)分類(lèi)可包括使空間復(fù)雜度與紋理值相關(guān)聯(lián),使時(shí)間復(fù)雜度與運(yùn)動(dòng)值相關(guān)聯(lián),及基于所述紋理值及運(yùn)動(dòng)值為所述多媒體數(shù)據(jù)指配內(nèi)容分類(lèi)。
在另一方面中,一種用于處理多媒體數(shù)據(jù)的設(shè)備包括用于確定多媒體數(shù)據(jù)的復(fù)雜度的構(gòu)件,用于基于所確定的復(fù)雜度將多媒體數(shù)據(jù)分類(lèi)的構(gòu)件,及用于基于其分類(lèi)確定用于對(duì)多媒體數(shù)據(jù)實(shí)施編碼的位速率的構(gòu)件。
在另一方面中,一種經(jīng)配置以處理多媒體數(shù)據(jù)的裝置包括處理器,所述處理器經(jīng)配置以去誒多能工多媒體數(shù)據(jù)的復(fù)雜度,經(jīng)配置以基于所確定的復(fù)雜度將多媒體數(shù)據(jù)分類(lèi),及進(jìn)一步經(jīng)配置以基于其分類(lèi)確定用于對(duì)多媒體數(shù)據(jù)實(shí)施編碼的位速率。
在另一方面中,一種用于實(shí)施一種用于處理多媒體數(shù)據(jù)的方法的計(jì)算機(jī)可讀媒體包括確定多媒體數(shù)據(jù)的復(fù)雜度,基于所確定的復(fù)雜度將多媒體數(shù)據(jù)分類(lèi),及基于其分類(lèi)確定用于將多媒體數(shù)據(jù)分類(lèi)的位速率。
在另一方面中,一種用于處理多媒體數(shù)據(jù)的設(shè)備包括第一確定器,以確定多媒體數(shù)據(jù)的復(fù)雜度;內(nèi)容分類(lèi)器,以基于所確定的復(fù)雜度將多媒體數(shù)據(jù)分類(lèi);及第二確定器,用于基于其分類(lèi)確定用于對(duì)多媒體數(shù)據(jù)實(shí)施編碼的位速率。在某些方面中,所述復(fù)雜度包括多媒體數(shù)據(jù)的空間復(fù)雜度及/或多媒體數(shù)據(jù)的時(shí)間復(fù)雜度,且所述多媒體數(shù)據(jù)的分類(lèi)可基于所述空間復(fù)雜度及/或時(shí)間復(fù)雜度。
在再一方面中,一種用于處理多媒體數(shù)據(jù)的方法及設(shè)備包括用于確定多媒體數(shù)據(jù)的復(fù)雜度的方法或裝置;及基于所確定的復(fù)雜度將多媒體數(shù)據(jù)分類(lèi)的方法或裝置。一種用于處理多媒體數(shù)據(jù)的方法及設(shè)備可包括用于確定多媒體數(shù)據(jù)復(fù)雜度的方法或裝置;及基于所確定的復(fù)雜度從至少一個(gè)多媒體過(guò)程中實(shí)施選擇的方法或裝置。一種用于處理多媒體數(shù)據(jù)的方法及設(shè)備可包括用于確定多媒體數(shù)據(jù)復(fù)雜度的方法或裝置;及基于所述多媒體數(shù)據(jù)復(fù)雜度來(lái)選擇一組編碼過(guò)程的方法或裝置。一種用于處理多媒體數(shù)據(jù)的方法及設(shè)備可包括用于基于所確定復(fù)雜度將多媒體數(shù)據(jù)分類(lèi)的方法或裝置;及基于其分類(lèi)確定用于對(duì)多媒體數(shù)據(jù)實(shí)施編碼的位速率的方法或裝置。一種用于處理多媒體數(shù)據(jù)的方法及設(shè)備可包括用于確定多媒體數(shù)據(jù)復(fù)雜度的方法或裝置;及基于所述多媒體數(shù)據(jù)復(fù)雜度來(lái)選擇一組解碼過(guò)程。一種用于處理多媒體數(shù)據(jù)的方法及設(shè)備可包括用于確定多媒體數(shù)據(jù)復(fù)雜度的方法或裝置;基于所確定復(fù)雜度將多媒體數(shù)據(jù)分類(lèi)及基于所述多媒體數(shù)據(jù)的分類(lèi)選擇一組解碼過(guò)程的方法或裝置。應(yīng)注意,所述方法及設(shè)備可由計(jì)算機(jī)可讀媒體及/或處理器實(shí)施。
圖1是用于對(duì)串流式多媒體數(shù)據(jù)實(shí)施編碼及解碼的一般通信系統(tǒng)的方塊圖, 圖2是圖解說(shuō)明傳統(tǒng)MPEG-4簡(jiǎn)單規(guī)范數(shù)據(jù)流的圖式, 圖3圖解說(shuō)明MPEG-4中的P幀構(gòu)建過(guò)程的實(shí)例, 圖4是內(nèi)容分類(lèi)組件的方塊圖, 圖5是視頻幀中一組宏塊的示意圖,其圖解說(shuō)明每一宏塊的平均值, 圖6是圖解說(shuō)明基于紋理及運(yùn)動(dòng)值的圖像分類(lèi)實(shí)例的圖表, 圖7是使用內(nèi)容分類(lèi)曲線及視覺(jué)感知質(zhì)量值來(lái)確定位速率的實(shí)例的圖式, 圖8是圖解說(shuō)明用于將多媒體數(shù)據(jù)分類(lèi)的過(guò)程的流程圖,及 圖9是圖解說(shuō)明用于基于其內(nèi)容分類(lèi)對(duì)多媒體數(shù)據(jù)實(shí)施編碼的過(guò)程的流程圖。
圖10是圖解說(shuō)明多個(gè)多媒體流或信道的編碼的系統(tǒng)圖式。
圖11是圖解說(shuō)明運(yùn)動(dòng)補(bǔ)償?shù)膱D式。
圖12是圖解說(shuō)明大λ的預(yù)加重的圖式。
具體實(shí)施例方式 下列詳細(xì)闡述旨在某些可使用的實(shí)施例。然而,所揭示實(shí)施例可以多種不同的方式實(shí)施。在本說(shuō)明書(shū)中所提及的“一個(gè)實(shí)施例”或“實(shí)施例”意指結(jié)合所述實(shí)施例闡述的特定特性、結(jié)構(gòu)或特征包含于至少一個(gè)實(shí)施例中。在本說(shuō)明書(shū)中不同位置處出現(xiàn)的用語(yǔ)“在一實(shí)施例中”、“根據(jù)一實(shí)施例”或“在某些實(shí)施例中”未必均指相同實(shí)施例,但也不排斥其他實(shí)施例的單獨(dú)或替代實(shí)施例。此外,本文闡述可由某些實(shí)施例而非其他實(shí)施例表現(xiàn)出的各種特征。同樣,本文闡述可能為某些實(shí)施例所要求而不為其他實(shí)施例所要求的各種要求。
下列說(shuō)明包括細(xì)節(jié)以提供對(duì)所述實(shí)例的透徹了解。然而,所屬技術(shù)領(lǐng)域的技術(shù)人員應(yīng)了解,即使本文未闡述或圖解說(shuō)明實(shí)例或?qū)嵤├械奶幚砥骰蜓b置的每一細(xì)節(jié),所述實(shí)例仍可實(shí)行。例如,方塊圖中可顯示電組件而不圖解說(shuō)明所述組件的每一電連接或每一電元件,以避免以不必要的細(xì)節(jié)淡化所述實(shí)例。于其他示例中,可詳細(xì)顯示這些組件、其它結(jié)構(gòu)及技術(shù)以進(jìn)一步解釋所述實(shí)例。
本文闡述用于對(duì)多媒體數(shù)據(jù)實(shí)施編碼的設(shè)備及方法的實(shí)例,其中利用基于所述多媒體數(shù)據(jù)的內(nèi)容將多媒體數(shù)據(jù)分類(lèi)為不同種類(lèi)(例如,一個(gè)或多個(gè)內(nèi)容分類(lèi))。所述方法及設(shè)備提供用于基于下列步驟對(duì)多媒體數(shù)據(jù)實(shí)施編碼的技術(shù)確定多媒體數(shù)據(jù)的空間及時(shí)間特征,及基于其復(fù)雜度特征的一者或多者將多媒體數(shù)據(jù)分類(lèi)。這些方法及設(shè)備使得能夠基于多媒體數(shù)據(jù)的內(nèi)容類(lèi)別來(lái)“調(diào)諧”多媒體數(shù)據(jù)處理及壓縮算法,以?xún)?yōu)化用于使用內(nèi)容信息對(duì)多媒體數(shù)據(jù)實(shí)施編碼并高效地遞送人眼感知的多媒體數(shù)據(jù)的所需質(zhì)量等級(jí)或另一質(zhì)量等級(jí)量度的方法及設(shè)備。
本文使用的“多媒體數(shù)據(jù)”是包括視頻數(shù)據(jù)(其可包括音頻數(shù)據(jù))、音頻數(shù)據(jù)、或視頻數(shù)據(jù)與音頻數(shù)據(jù)二者的廣義術(shù)語(yǔ)。本文用作廣義術(shù)語(yǔ)的“視頻數(shù)據(jù)”或“視頻”涉及包含文本或圖像信息及/或音頻數(shù)據(jù)的圖像序列,且可用于涉及多媒體數(shù)據(jù)(例如,所述術(shù)語(yǔ)可交互使用),除非另外指定。
多媒體編譯碼器系統(tǒng)一般并不考慮不同類(lèi)型的內(nèi)容。而是,針對(duì)所有內(nèi)容類(lèi)型以類(lèi)似方式完成編碼。通常,以恒定質(zhì)量或恒定位速率對(duì)多媒體數(shù)據(jù)實(shí)施編碼。以恒定位速率編碼會(huì)導(dǎo)致為低活性部分及高活性部分編碼的視頻的質(zhì)量差異。例如,包含體育剪輯的新聞序列可通過(guò)為每一部分分配相同數(shù)量的位來(lái)編碼。再觀看時(shí),體育剪輯部分將會(huì)看起來(lái)比談話頭像部分的質(zhì)量低,且總的結(jié)果可能不可接受。以恒定質(zhì)量編碼會(huì)導(dǎo)致位速率的低效使用。以高質(zhì)量對(duì)低活性視頻實(shí)施編碼會(huì)使用不必要的高位速率,從而導(dǎo)致浪費(fèi)帶寬。通過(guò)基于視頻序列中的紋理及運(yùn)動(dòng)將多媒體數(shù)據(jù)分類(lèi),而非僅基于所述序列中一般類(lèi)型的內(nèi)容,可基于所述特定數(shù)據(jù)的實(shí)際紋理化運(yùn)動(dòng)在所述序列上調(diào)整位速率。內(nèi)容分類(lèi)可用于大量應(yīng)用中,以導(dǎo)致較佳的位管理及可用位預(yù)算的更智能使用。例如,在某些實(shí)施例中,可使用內(nèi)容分類(lèi)用于視頻數(shù)據(jù)的場(chǎng)景變換檢測(cè)。
多媒體數(shù)據(jù)通信 傳送至客戶(hù)端裝置的多媒體數(shù)據(jù)通常是經(jīng)壓縮的。一對(duì)稱(chēng)作MPEG-x及H26x的視頻編碼標(biāo)準(zhǔn)闡述很好地適用于使用固定或可變長(zhǎng)度源編碼技術(shù)壓縮及傳送視頻、音頻及其它信息的數(shù)據(jù)處理及操縱技術(shù)(本文稱(chēng)作混合編碼)。具體來(lái)說(shuō),上述標(biāo)準(zhǔn)及其它混合編碼標(biāo)準(zhǔn)及技術(shù)例示性地使用幀內(nèi)編碼技術(shù)(例如,運(yùn)行長(zhǎng)度編碼、哈夫曼(Huffman)編碼及類(lèi)似方法)及幀間編碼技術(shù)(例如,正向及反向預(yù)測(cè)編碼、運(yùn)動(dòng)補(bǔ)償及類(lèi)似方法)來(lái)壓縮多媒體信息。具體來(lái)說(shuō),在多媒體處理系統(tǒng)的情形中,混合多媒體編碼系統(tǒng)是以通過(guò)使用幀內(nèi)及/或幀間運(yùn)動(dòng)補(bǔ)償編碼對(duì)多媒體幀實(shí)施基于預(yù)測(cè)的壓縮編碼為特征的。至少部分地基于內(nèi)容分類(lèi)的編碼可集成于這種壓縮算法中,以進(jìn)一步優(yōu)化多媒體處理。盡管本文所述實(shí)例是針對(duì)視頻編碼標(biāo)準(zhǔn)MPEG及H.26x來(lái)寫(xiě)的,但其他視頻編碼標(biāo)準(zhǔn)的類(lèi)似使用也是適用的。
幀內(nèi)編碼是指無(wú)需參考任一其它圖片而將圖片(字段或幀)編碼,但內(nèi)部編碼的圖片可用作其它圖片的參考。術(shù)語(yǔ)幀內(nèi)(Intra-frame)、內(nèi)部編碼的幀(Intra-coded frame)及I幀均是使用貫穿本申請(qǐng)案使用的內(nèi)部編碼而形成的視頻對(duì)象實(shí)例。。
中間或預(yù)測(cè)編碼是指參照另一圖片而將圖片(字段或幀)編碼。與內(nèi)部編碼的圖片相比,可以更高的效率對(duì)中間編碼或預(yù)測(cè)的圖片實(shí)施編碼。將貫穿本申請(qǐng)案使用的中間編碼圖片的實(shí)例是預(yù)測(cè)幀(正向或反向預(yù)測(cè),也稱(chēng)作P幀)、及雙向預(yù)測(cè)幀(也稱(chēng)作B幀)。用于中間編碼的其它術(shù)語(yǔ)包括高通編碼、剩余編碼、運(yùn)動(dòng)補(bǔ)償插值及所屬技術(shù)領(lǐng)域的技術(shù)人員熟知的其它方法。
稱(chēng)作可縮放編碼的技術(shù)可將內(nèi)部編碼的圖片及不同的中間編碼圖片(例如P幀或B幀)劃分至位流中的不同層內(nèi),例如基礎(chǔ)層及加強(qiáng)層??煽s放編碼適用于動(dòng)態(tài)信道,其中可縮放位流可經(jīng)調(diào)適以匹配網(wǎng)絡(luò)帶寬的波動(dòng)。在易出錯(cuò)信道中,可縮放編碼可通過(guò)對(duì)基礎(chǔ)層及加強(qiáng)層實(shí)施非均衡錯(cuò)誤保護(hù)來(lái)增加穩(wěn)健性??蓪?duì)較重要的層應(yīng)用較佳的錯(cuò)誤保護(hù)。
編碼多媒體數(shù)據(jù) 圖1是用于對(duì)多媒體數(shù)據(jù)內(nèi)容實(shí)施分類(lèi)、編碼、通信及對(duì)此種數(shù)據(jù)實(shí)施解碼的一般通信系統(tǒng)的方塊圖。系統(tǒng)100包括編碼器裝置105及解碼器裝置110。編碼器裝置105包括編碼器組件185,編碼器組件185包括內(nèi)部編碼器組件115及預(yù)測(cè)編碼器組件120。編碼器裝置105進(jìn)一步包括存儲(chǔ)器組件130、通信組件175及內(nèi)容分類(lèi)器組件190。編碼器裝置105能夠使用包含于通信組件175中的通信邏輯自外部源135接收數(shù)據(jù)。外部源135可以是(例如)外部存儲(chǔ)器、因特網(wǎng)、現(xiàn)場(chǎng)視頻及/或音頻饋送,且接收所述數(shù)據(jù)可包括有線及/或無(wú)線通信。包含于外部源135中的數(shù)據(jù)可以是原始(未編碼)格式或經(jīng)編碼狀態(tài)。內(nèi)部編碼器組件115用于對(duì)幀(數(shù)據(jù)片、宏塊及子宏塊)的內(nèi)部編碼部分實(shí)施編碼。預(yù)測(cè)編碼器組件120用于對(duì)幀的包括正向預(yù)測(cè)、反向預(yù)測(cè)及雙向預(yù)測(cè)的預(yù)測(cè)部分實(shí)施編碼。在編碼之后,將已編碼的幀存儲(chǔ)于存儲(chǔ)器組件130或外部存儲(chǔ)器內(nèi)。所述外部存儲(chǔ)器可包含于外部源135中,或是單獨(dú)的存儲(chǔ)器組件(未顯示)。
編碼器裝置105包括與編碼器裝置105中的存儲(chǔ)器組件130及一個(gè)或多個(gè)其他組件通信的處理器187。處理器187可執(zhí)行編碼器的任一其他組件的處理,且可包含主編碼過(guò)程。在某些實(shí)施例中,處理器187可能不是單獨(dú)組件(如圖所示),相反,所述處理器功能可集成于編碼器105的其他組件的一者或多者中。
通信組件175包括用于結(jié)合網(wǎng)絡(luò)140實(shí)施數(shù)據(jù)傳輸(Tx)的邏輯。網(wǎng)絡(luò)140可以是例如電話、電纜及光纖的有線系統(tǒng)或無(wú)線系統(tǒng)的一部分。在無(wú)線通信系統(tǒng)的清醒中,網(wǎng)絡(luò)140可包括例如碼分多址(CDMA或CDMA2000)通信系統(tǒng)的一部分,或者另一選擇為,所述系統(tǒng)可以是頻分多址(FDMA)系統(tǒng)、正交頻分復(fù)用(OFDMA)系統(tǒng)、例如用于服務(wù)行業(yè)的GSM/GPRS(通用封包無(wú)線電服務(wù))/EDGE(增強(qiáng)數(shù)據(jù)GSM環(huán)境)或TETRA(地面中繼無(wú)線電)移動(dòng)電話技術(shù)等時(shí)分多址(TDMA)系統(tǒng)、寬帶碼分多址(WCDMA)、高數(shù)據(jù)傳輸率(1xEV-DO或1xEV-DO金牌多播)系統(tǒng)、或一般而言任一使用各技術(shù)的組合的無(wú)線通信系統(tǒng)。在網(wǎng)絡(luò)140上傳輸(Tx)所述已編碼幀。下文將更全面地闡述由編碼器裝置105實(shí)施的編碼過(guò)程。
內(nèi)容分類(lèi)組件190包含用于確定自外部源135接收的多媒體數(shù)據(jù)的數(shù)據(jù)內(nèi)容分類(lèi)的邏輯。為對(duì)多媒體數(shù)據(jù)進(jìn)行分類(lèi),人的視力模型可用于量化人眼相對(duì)于圖像及/或運(yùn)動(dòng)圖像序列中的視覺(jué)信號(hào)空間及/或時(shí)間上下文對(duì)其亮度擾動(dòng)的敏感度。還考慮了人眼的空間及時(shí)間屏蔽效應(yīng)。一個(gè)方面包括使用運(yùn)動(dòng)估計(jì)或區(qū)塊匹配算法來(lái)表示視頻的時(shí)間方面。關(guān)于多媒體數(shù)據(jù)的信息(例如,視頻數(shù)據(jù)的空間及時(shí)間復(fù)雜度值)可由編碼器105的一個(gè)或多個(gè)組件確定,并結(jié)合視頻的空間及運(yùn)動(dòng)效應(yīng)感知性使用以將視頻數(shù)據(jù)內(nèi)容分類(lèi)為兩個(gè)或更多個(gè)類(lèi)別。這種分類(lèi)可用于預(yù)/后處理及壓縮(例如,場(chǎng)景變換檢測(cè)、速率控制、FRUC)算法中。內(nèi)容分類(lèi)向編碼器105提供關(guān)于在即將到來(lái)的視頻數(shù)據(jù)(例如,超幀)中想要哪一類(lèi)型的內(nèi)容的可靠估計(jì),以便編碼器105可基于所述內(nèi)容分類(lèi)并出于其他幀類(lèi)型決策的目的確定適合的位速率分配供實(shí)現(xiàn)特定等級(jí)的視覺(jué)感知質(zhì)量。超幀是一組針對(duì)預(yù)定時(shí)間周期或窗口的媒體數(shù)據(jù)-通常等于相當(dāng)于一秒的數(shù)據(jù),其用作用于確定內(nèi)容分類(lèi)、傳輸及任一其他目的的單元。內(nèi)容分類(lèi)可基于人眼可察覺(jué)的多媒體數(shù)據(jù)的特征,例如空間復(fù)雜度及時(shí)間復(fù)雜度。多媒體處理算法可經(jīng)優(yōu)化以用于各種內(nèi)容類(lèi)型,并在其編碼及傳送多媒體數(shù)據(jù)的性能方面提供可靠性及控制。
編碼器組件185可提供(例如,宏塊的)處理信息供內(nèi)容分類(lèi)組件190使用。例如,編碼器組件185可計(jì)算來(lái)自多媒體數(shù)據(jù)的信息,其中包括例如Dcsat值、對(duì)比定量值、運(yùn)動(dòng)向量(MV)等人的視覺(jué)靈敏度度量及絕對(duì)像素差(SAD)的和。編碼器組件185可將這一信息存儲(chǔ)至存儲(chǔ)器組件130,從而使其可由內(nèi)容分類(lèi)組件190找回,以確定多媒體數(shù)據(jù)的空間及時(shí)間復(fù)雜度、確定數(shù)據(jù)的紋理及運(yùn)動(dòng)、及隨后確定所產(chǎn)生的內(nèi)容分類(lèi)。在另一方面中,內(nèi)容分類(lèi)組件190或例如處理器187等另一組件計(jì)算來(lái)自多媒體數(shù)據(jù)的這一信息的至少一部分。
解碼過(guò)程 解碼器裝置110包含與編碼器裝置105中的某些組件類(lèi)似的組件,其包括內(nèi)部解碼器組件145、預(yù)測(cè)解碼器組件150、存儲(chǔ)器組件160、處理器167及通信組件180。解碼器裝置110接收已在網(wǎng)絡(luò)140上或自外部存儲(chǔ)器165傳輸?shù)囊丫幋a數(shù)據(jù)。通信組件180包括用于結(jié)合網(wǎng)絡(luò)140接收(Rx)已編碼數(shù)據(jù)的邏輯,以及用于自外部存儲(chǔ)器165接收已編碼數(shù)據(jù)的邏輯。外部存儲(chǔ)器165可以是(例如)外部RAM或ROM、或遠(yuǎn)程服務(wù)器。內(nèi)部解碼器組件145用于對(duì)內(nèi)部編碼的數(shù)據(jù)實(shí)施解碼。預(yù)測(cè)解碼器組件150用于對(duì)中間編碼的數(shù)據(jù)實(shí)施解碼。處理器17與解碼器裝置110中的存儲(chǔ)器組件160及其他組件的一者或多者通信。處理器167可執(zhí)行對(duì)解碼器的任一其他組件的處理,且可包含主解碼過(guò)程。預(yù)測(cè)解碼器組件150對(duì)P幀(經(jīng)正向或反向預(yù)測(cè))以及B幀二者實(shí)施解碼??衫糜糜趯?duì)P幀實(shí)施解碼的相同子組件使用多個(gè)參考依序?qū)幀實(shí)施解碼。用于B幀的多個(gè)參考可位于正向及反向參考幀內(nèi)、同處于相同參考幀內(nèi)、同處于單獨(dú)正向幀內(nèi)或同處于反向參考幀內(nèi)。
在解碼后,可使用顯示組件170來(lái)顯示所述經(jīng)解碼幀,或?qū)⑵浯鎯?chǔ)于內(nèi)部存儲(chǔ)器160或外部存儲(chǔ)器165中。顯示組件170可以是包括這些部分(包括一顯示屏幕)作為視頻顯示硬件及邏輯的解碼裝置的集成部分,或其可以是外部周邊裝置。下文將更全面地闡述由解碼器裝置110實(shí)施的解碼過(guò)程。
編碼實(shí)例-MPEG 在典型的MPEG解碼器中,參照參考幀(其中內(nèi)部幀或另一預(yù)測(cè)幀可充當(dāng)參考幀)對(duì)預(yù)測(cè)編碼像素區(qū)塊(例如,包括一個(gè)或多個(gè)運(yùn)動(dòng)向量及剩余錯(cuò)誤組份的區(qū)塊)實(shí)施解碼。圖2是圖解說(shuō)明傳統(tǒng)MPEG-4簡(jiǎn)單規(guī)范數(shù)據(jù)流的圖式,其描繪圖片組(GOP)的幀相依性。GOP 10由初始I幀12后跟數(shù)個(gè)正向預(yù)測(cè)P幀14構(gòu)成。由于P幀對(duì)前一I或P幀的相依性,任一P幀14的丟失可能導(dǎo)致丟失可能對(duì)將其他P幀解碼至關(guān)重要的信息。P幀的丟失或消除可能導(dǎo)致(例如)視頻抖動(dòng)或解碼器在標(biāo)記下一GOP開(kāi)始的下一I幀16之前不能繼續(xù)解碼。
P幀(或任何中間編碼段)可利用當(dāng)前圖片中的區(qū)域與參考圖片中的最佳匹配預(yù)測(cè)區(qū)域之間的暫時(shí)冗余。所述當(dāng)前區(qū)域與所述最佳匹配參考預(yù)測(cè)區(qū)域之間的差稱(chēng)為剩余錯(cuò)誤(或預(yù)測(cè)錯(cuò)誤)。所述參考幀內(nèi)的最佳匹配預(yù)測(cè)區(qū)域的位置可編碼于運(yùn)動(dòng)向量?jī)?nèi)。處理器167可執(zhí)行解碼器110的任一其他組件的處理,且可包含主解碼過(guò)程。在某些實(shí)施例中,處理器167可能不是單獨(dú)組件,而是,所述處理器功能可集成于解碼器110的一個(gè)或多個(gè)其他組件中。
圖3圖解說(shuō)明(例如)MPEG-4中的P幀構(gòu)造過(guò)程的實(shí)例。過(guò)程300包括由5x5個(gè)宏塊組成的當(dāng)前圖片305,其中這一實(shí)例中的宏塊數(shù)量是任意的。宏塊是相關(guān)聯(lián)像素的組群,且在這一實(shí)例中由16x16個(gè)像素組成。像素可由8位亮度值(Y)及兩個(gè)8位色度值(Cr及Cb)界定。在MPEG中,可以4:2:0格式存儲(chǔ)Y、Cr及Cb組份,其中Cr及Cb組份沿X及Y方向按2倍縮減取樣。因而,每一宏塊均將由256個(gè)Y組份、64個(gè)Cr組份及64個(gè)Cb組份組成。
在不同于當(dāng)前圖片305的時(shí)間點(diǎn)處根據(jù)參考圖片310預(yù)測(cè)當(dāng)前圖片305的宏塊315。在參考圖片310中進(jìn)行搜尋以定位在Y、Cr及Cb值上最接近于正被編碼的當(dāng)前宏塊315的最佳匹配宏塊320。所屬技術(shù)領(lǐng)域的技術(shù)人員熟知的用于搜尋最佳匹配宏塊320的方法包括a)將當(dāng)前宏塊315與參考圖片310宏塊之間的SAD(絕對(duì)像素差的和)最小化;b)將SSD(平方像素差的和)最小化;及c)將速率失真感測(cè)及其它方面的成本最小化。將參考圖片310內(nèi)的最佳匹配宏塊320的位置編碼于運(yùn)動(dòng)向量325中。參考圖片310可以是解碼器將在構(gòu)造當(dāng)前圖片305之前重構(gòu)的I幀或P幀。自當(dāng)前宏塊315中減去最佳匹配宏塊320(計(jì)算每一Y、Cr及Cb組份的差),從而導(dǎo)致剩余錯(cuò)誤330。使用2D離散余弦轉(zhuǎn)換(DCT)335將剩余錯(cuò)誤330編碼及隨后量化340。
可實(shí)施量化340以通過(guò)(例如)向高頻系數(shù)分配較少的位同時(shí)向低頻系數(shù)分配較多的位來(lái)提供空間壓縮。剩余錯(cuò)誤330的所述經(jīng)量化系數(shù)與運(yùn)動(dòng)向量325及參考圖片310標(biāo)識(shí)信息一起均是表示當(dāng)前宏塊315的已編碼信息。所述已編碼信息可存儲(chǔ)于存儲(chǔ)器中,供將來(lái)使用或出于(例如)錯(cuò)誤修正或圖像增強(qiáng)的目的來(lái)操作或在網(wǎng)絡(luò)345上傳輸。
剩余錯(cuò)誤330的所述已編碼的經(jīng)量化系數(shù)與已編碼的運(yùn)動(dòng)向量325一起可用于重構(gòu)所述編碼器中的當(dāng)前宏塊315,以用作接續(xù)的運(yùn)動(dòng)估計(jì)及補(bǔ)償?shù)膮⒖紟囊徊糠?。所述編碼器可模仿解碼器的過(guò)程用于這一P幀重建。所述解碼器的模仿可導(dǎo)致編碼器與解碼器二者使用同一參考圖片工作。本文提供所述重建過(guò)程,無(wú)論其是在編碼器中實(shí)施以用于進(jìn)一步的中間編碼還是在解碼器中實(shí)施。可在重建所述參考幀(或正被參考的圖片或幀的一部分)之后開(kāi)始重建P幀。解量化350所述已編碼的經(jīng)量化系數(shù),且隨后實(shí)施2D反向DCT或IDCT 355,從而產(chǎn)生經(jīng)解碼或經(jīng)重建的剩余錯(cuò)誤360。已編碼運(yùn)動(dòng)向量325用于在已重建的參考圖片310中定位已重建的最佳匹配宏塊365。然后,將經(jīng)重建的剩余錯(cuò)誤360添加至已重建的最佳匹配宏塊365以形成已重建宏塊370。經(jīng)重建的宏塊470可存儲(chǔ)于存儲(chǔ)器內(nèi)、單獨(dú)地或與其它經(jīng)重建宏塊一起顯示于圖片中或進(jìn)一步處理供圖片增強(qiáng)之用。
多媒體數(shù)據(jù)的內(nèi)容分類(lèi) 圖4是圖1中圖解說(shuō)明的內(nèi)容分類(lèi)組件190的方塊圖。內(nèi)容分類(lèi)組件190包括復(fù)雜度組件192,其經(jīng)配置以確定多媒體數(shù)據(jù)的空間復(fù)雜度及時(shí)間復(fù)雜度,且還使得紋理值與空間復(fù)雜度相關(guān)聯(lián)及使得運(yùn)動(dòng)值與時(shí)間復(fù)雜度相關(guān)聯(lián)。對(duì)于正被編碼的多媒體數(shù)據(jù),內(nèi)容分類(lèi)組件190自存儲(chǔ)器130取回關(guān)于數(shù)據(jù)內(nèi)容的已預(yù)處理信息。這一信息可包括(例如)一個(gè)或多個(gè)Dcsat值、對(duì)比率值、運(yùn)動(dòng)向量(MV)及絕對(duì)差的和(SAD)。在其中這一信息未被預(yù)處理器確定的方面中(例如,圖1所示編碼器組件185或處理器187),分類(lèi)組件190可包括計(jì)算這一信息的功能。
一般來(lái)說(shuō),多媒體數(shù)據(jù)包括一個(gè)或多個(gè)序列的圖像或幀。每一幀可被分解為多個(gè)像素區(qū)塊供處理之用??臻g復(fù)雜度是一般闡述幀內(nèi)的空間細(xì)節(jié)等級(jí)的量度的廣義術(shù)語(yǔ)。具有大致平滑或無(wú)變化或低變化的亮度及色度區(qū)域的場(chǎng)景可具有低空間復(fù)雜度。空間復(fù)雜度與視頻數(shù)據(jù)的紋理相關(guān)聯(lián)。在這一方面中,空間復(fù)雜度是基于稱(chēng)作Dcsat的人的視力靈敏度度量,其中計(jì)算每一區(qū)塊的Dcsat以作為本地空間頻率及周?chē)彰鞯暮瘮?shù)。所屬技術(shù)領(lǐng)域的技術(shù)人員了解用于使用空間頻率圖案及照明的技術(shù),并對(duì)比可視圖像的特征以利用人的視覺(jué)系統(tǒng)。大量靈敏度度量已知用于利用人的視覺(jué)系統(tǒng)的可察覺(jué)限制,且可借助本文所述方法來(lái)使用。
時(shí)間復(fù)雜度是一般用于闡述在幀序列內(nèi)各幀之間參考的多媒體數(shù)據(jù)中的運(yùn)動(dòng)等級(jí)量度的廣義術(shù)語(yǔ)。幾乎或完全沒(méi)有運(yùn)動(dòng)的場(chǎng)景(例如,視頻數(shù)據(jù)的幀序列)具有較低時(shí)間復(fù)雜度。時(shí)間復(fù)雜度可針對(duì)每一宏塊來(lái)計(jì)算,且可基于Dcsat值、運(yùn)動(dòng)向量及一個(gè)幀與另一幀(例如,參考幀)之間的絕對(duì)像素差的和。
場(chǎng)景變換檢測(cè) 場(chǎng)景變換檢測(cè)是用于任何視頻編碼系統(tǒng)自身以智能方式保持位而不通過(guò)以固定時(shí)間間隔內(nèi)插I幀來(lái)浪費(fèi)位的必要步驟。下列說(shuō)明顯示可如何檢測(cè)場(chǎng)景變換及其隨之在內(nèi)容分類(lèi)中的使用。
GOP的長(zhǎng)度可足夠長(zhǎng)以減少大I幀的效率損失,且足夠短以反對(duì)編碼器與解碼器之間的不匹配或信道減損。另外,P幀中的宏塊(MB)可出于同一原因而被內(nèi)部編碼。
在實(shí)際的流式視頻系統(tǒng)中,通信信道通常因位誤差或分組丟失而減損。放置I幀或I MB的位置可顯著影響已解碼視頻質(zhì)量及觀看經(jīng)歷?;驹瓌t是對(duì)與所配置的先前圖片或圖片部分具有明顯變化的圖片或圖片部分使用內(nèi)部編碼。這些區(qū)域不能使用運(yùn)動(dòng)估計(jì)而有效及高效地預(yù)知。因此,其可能免除使用中間編碼技術(shù)。在信道減損的上下文中,所述區(qū)域可能遭受誤差傳播。內(nèi)部編碼可用于減少誤差傳播。
需要內(nèi)部更新的區(qū)域可被分類(lèi)為三種類(lèi)別。
(1)突然場(chǎng)景變換這一類(lèi)別包括與前一幀明顯不同的幀,通常由于照相機(jī)操作而導(dǎo)致。由于這些幀的內(nèi)容不同于前一幀的內(nèi)容,則突變場(chǎng)景變換幀可被編碼為I幀。
(2)漸隱及其他慢場(chǎng)景變換這一類(lèi)別包括場(chǎng)景慢速切換,通常由于照相機(jī)拍攝的計(jì)算機(jī)處理而導(dǎo)致。兩個(gè)不同場(chǎng)景的漸進(jìn)混合可能在人類(lèi)看起來(lái)更賞心悅目,但對(duì)視頻編碼來(lái)說(shuō)是挑戰(zhàn)。運(yùn)動(dòng)補(bǔ)償可能不會(huì)有效降低所述幀的位速率。需要更新這些幀中的更多內(nèi)部MB。
(3)照相機(jī)閃光燈。照相機(jī)閃光燈突然且快速地提升圖片的亮度。照相機(jī)閃光燈的持續(xù)時(shí)間通常比人的視覺(jué)系統(tǒng)(HVS)的時(shí)間屏蔽持續(xù)時(shí)間(通常界定為44ms)短。人眼類(lèi)對(duì)光亮的這些短時(shí)突發(fā)的質(zhì)量并不敏感,且因此其可以粗略編碼。由于閃光幀可能無(wú)法使用運(yùn)動(dòng)補(bǔ)償進(jìn)行有效處理,且其是將來(lái)幀的較差預(yù)測(cè)候選者,則這些幀的粗略編碼不會(huì)降低將來(lái)幀的編碼效率。
在檢測(cè)到任一上述幀時(shí),宣告一拍攝事件。拍攝檢測(cè)不僅有益于改進(jìn)編碼質(zhì)量;其還可以輔助視頻內(nèi)容搜尋/標(biāo)引。下文闡述一種檢測(cè)算法。
用雙向運(yùn)動(dòng)補(bǔ)償器預(yù)處理所述序列。所述序列使得當(dāng)前幀的每一8x8區(qū)塊均與這一幀的兩個(gè)最接近的鄰幀(如圖11中圖解說(shuō)明的前一幀及后一幀)的區(qū)塊匹配。運(yùn)動(dòng)補(bǔ)償器為每一區(qū)塊產(chǎn)生運(yùn)動(dòng)向量及差度量。差度量可以是平方差(SSD)的和或絕對(duì)差(SAD)的和。在不失一般性的前提下,我們使用SAD作為這一文檔中的實(shí)例。
針對(duì)每一幀,SAD比率可計(jì)算如下 (方程式1) 其中SADP和SADN分別是正向和反向差度量的SAD。應(yīng)注意,分母包含小的正數(shù)ε以避免出現(xiàn)“除以零”的錯(cuò)誤。分子也包含ε以平衡分母中的一致性效果(effect of theunity)。例如,如果前一幀、當(dāng)前幀及下一幀相同,則運(yùn)動(dòng)搜尋會(huì)產(chǎn)生SADP=SADN=0。在這一情形中,上述計(jì)算的生成數(shù)γ=1而非0或無(wú)窮大。
我們還找出每一幀的亮度柱狀圖。在正常情況下,我們處理其亮度深度為8位的圖像。針對(duì)這一亮度深度,我們可以將頻段數(shù)設(shè)為16以獲得柱狀圖。下一度量估計(jì)柱狀圖差。
(方程式2) 其中NPi是前一幀的第i個(gè)頻段中的區(qū)塊數(shù),及NCi是當(dāng)前幀的第i個(gè)頻段中的區(qū)塊數(shù),及N是幀的總區(qū)塊數(shù)。顯而易見(jiàn),如果前一幀及當(dāng)前幀的柱狀圖無(wú)交集,則λ=2。
如方程式3中說(shuō)明,如果滿(mǎn)足下一判別式,則宣告一突然場(chǎng)景變換幀 (方程式3) 其中A是應(yīng)用程序選定的常數(shù),且T1是閾值。我們的模擬顯示A=1及T1=5會(huì)實(shí)現(xiàn)好的檢測(cè)性能。如果當(dāng)前幀是突然場(chǎng)景變換幀,則γC可能較大而γP可能較小。我們將M稱(chēng)作場(chǎng)景變換強(qiáng)度度量。可使用比率
代替僅γC,以便將所述度量歸一化至上下文的活動(dòng)等級(jí)。
應(yīng)注意,上述判別式以非線性方式使用亮度柱狀圖差λ。參照?qǐng)D12,可看出這是凸函數(shù)。在λ較小(接近0)時(shí),其幾乎沒(méi)有預(yù)加重。λ越大,所述函數(shù)傳導(dǎo)的加重越大。通過(guò)使用這一預(yù)加重,對(duì)于任一大于1.4的λ,如果將閾值T1設(shè)為5則可檢測(cè)到突然場(chǎng)景變換。
如果對(duì)于某一數(shù)量的連續(xù)幀,T2≤M≤T1(其中T2是閾值),則可檢測(cè)到漸隱及其他慢速場(chǎng)景變換。
為檢測(cè)照相機(jī)閃光燈事件,我們可以使用亮度柱狀圖統(tǒng)計(jì)值。例如,閃光燈事件通常使得亮度柱狀圖移至較亮側(cè)??墒褂孟乱慌袆e式來(lái)檢測(cè)照相機(jī)閃光燈事件 YC-YP≥T3,YC-YN≥T3,及SADP≥T4,SADN≥T4 (方程式4) T4=30會(huì)實(shí)現(xiàn)好的檢測(cè)性能。包含SAD值的原因是照相機(jī)閃光通常占據(jù)1幀,且由于亮度差異,這一幀可能不能使用正向及反向二者的運(yùn)動(dòng)補(bǔ)償來(lái)良好預(yù)測(cè)。
再次參照?qǐng)D1,盡管內(nèi)容分類(lèi)組件190可包括計(jì)算運(yùn)動(dòng)向量及絕對(duì)像素差的和的功能,但通常其他編碼器組件可以計(jì)算這一信息并將這一數(shù)據(jù)提供至內(nèi)容分類(lèi)組件190。Dcsat值還可以由復(fù)雜度組件192或編碼器105的另一組件或處理器187來(lái)計(jì)算。
另一選擇為,對(duì)比率可用于確定幀的空間復(fù)雜度。首先,計(jì)算幀中每一宏塊的對(duì)比率。給定宏塊的對(duì)比率是基于其相對(duì)于其鄰近宏塊的平均亮度值來(lái)計(jì)算的。圖5圖解說(shuō)明視頻幀中包括9個(gè)宏塊的組群,其中每一宏塊均是16x16個(gè)像素,μi表示給定宏塊1-9的平均值。使用下列方程式計(jì)算宏塊5-中央宏塊-的對(duì)比率計(jì)算值(CR5) CR5=[∑(μi-μ5)/∑μi]*MBLUMA5 其中i=1,2...9 (方程式.5) 其中MBLUMA5表示宏塊5的平均亮度對(duì)比值。宏塊1-4及6-9的對(duì)比率均以類(lèi)似方式計(jì)算。幀的對(duì)比率是通過(guò)取幀中所述9個(gè)宏塊的每一者的對(duì)比率值的平均數(shù)而獲得的。所述9個(gè)宏塊的對(duì)比率的標(biāo)準(zhǔn)偏差也經(jīng)計(jì)算并提供每一幀內(nèi)的紋理變化量的指示。
確定內(nèi)容分類(lèi)度量 內(nèi)容分類(lèi)度量可使用對(duì)比率值、其標(biāo)準(zhǔn)偏差及幀差度量來(lái)確定。
幀差度量 內(nèi)容分類(lèi)模塊的另一輸入是在預(yù)處理器中計(jì)算的幀差度量。幀差度量考慮運(yùn)動(dòng)量(例如,運(yùn)動(dòng)向量或MV)以及表示為預(yù)測(cè)符與當(dāng)前宏塊之間的絕對(duì)差的和(SAD)以給出兩個(gè)連續(xù)幀之間的差量度。幀差還提供雙向或單向預(yù)測(cè)效率的量度。
下文是基于自大概執(zhí)行運(yùn)動(dòng)補(bǔ)償解交錯(cuò)的預(yù)處理器接收的運(yùn)動(dòng)信息的幀差度量的實(shí)例。解交錯(cuò)器執(zhí)行雙向運(yùn)動(dòng)估計(jì),且因此可獲得雙向運(yùn)動(dòng)向量及SAD信息。
每一宏塊的SAD_MV表示的幀差可推導(dǎo)如下 SAD_MV=log10[SAD*exp(-min(1,MV))] (方程式6) 其中SAD=min(SADN,SADP),其中SADN是根據(jù)反向參考幀計(jì)算的SAD,及SADP是根據(jù)正向參考幀計(jì)算的SAD。
另一估計(jì)幀差的方法是通過(guò)計(jì)算度量γ如下 (方程式7) 其中SADP及SADN分別是正向及反向差度量的SAD。應(yīng)注意,分母包含小的正數(shù)ε以避免出現(xiàn)“除以零”的錯(cuò)誤。分子也包含ε以平衡分母中的一致性效果。
我們還找出每一幀的量度柱狀圖。在正常情況下,我們處理其亮度深度為8位的圖像。針對(duì)這一亮度深度,我們可以將頻段數(shù)設(shè)定為16以獲得柱狀圖。下一度量會(huì)估計(jì)柱狀圖差 (方程式8) 其中NPi是前一幀的第i個(gè)頻段中的區(qū)塊數(shù),及NCi是當(dāng)前幀的第i個(gè)頻段中的區(qū)塊數(shù),及N是幀的總區(qū)塊數(shù)。顯而易見(jiàn),如果前一幀及當(dāng)前幀的柱狀圖無(wú)交集,則λ=2。
我們計(jì)算幀差度量如方程式9中顯示 (方程式9) 分類(lèi)過(guò)程 下列方式利用比率值和幀差以獲得最終的視頻內(nèi)容分類(lèi)度量,最終視頻內(nèi)容分類(lèi)度量能夠可靠地預(yù)測(cè)給定視頻序列中的各特征。所提議的算法可以將內(nèi)容分類(lèi)為8種可能的類(lèi),類(lèi)似于根據(jù)基于R-D曲線的分析獲得的分類(lèi)。
所述算法相依于場(chǎng)景復(fù)雜度及所述超幀中的場(chǎng)景變換出現(xiàn)次數(shù)輸出每一超幀的位于0和1之間的范圍內(nèi)的值。
預(yù)處理器中的內(nèi)容分類(lèi)模塊將為每一超幀執(zhí)行下列步驟,以根據(jù)幀對(duì)比度及幀差獲得內(nèi)容分類(lèi)度量。
(1)根據(jù)所述宏塊對(duì)比度值來(lái)計(jì)算平均幀對(duì)比度及幀對(duì)比偏差。
(2)使用根據(jù)模擬獲得的值將幀對(duì)比度及幀差歸一化(其分別是40和5)。
(3)用于計(jì)算內(nèi)容分類(lèi)度量的一般方程式是 CC度量=CCW1*I幀對(duì)比度平均值+CCW2*幀差平均值-CCW3*I對(duì)比度偏差^2*exp(CCW4*幀差偏差^2)(方程式10) 其中CCW1、CCW2、CCW3和CCW4是加權(quán)因子。將CCW1、CCW2、CCW3和CCW4的值選為0.2、0.9、0.1和-0.00009。
(4)確定超幀中的場(chǎng)景變換次數(shù)。相依于場(chǎng)景變換的次數(shù),執(zhí)行下述情形的一者。
(a)無(wú)場(chǎng)景變換在超幀中無(wú)場(chǎng)景變換時(shí),所述度量整個(gè)相依于幀差,如下列方程式中顯示 CC度量=(CCW2+(CCW1/2))*幀差平均值-(CCW3-(CCW1/2))*1*exp(-CCW4*幀差偏差^2)(方程式11) (b)單場(chǎng)景變換 CC度量=CCW1*I幀對(duì)比度平均值+CCW2*幀差平均值-CCW3*I對(duì)比度偏差^2*exp(CCW4*幀差偏差^2)(方程式12) (c)兩個(gè)場(chǎng)景變換當(dāng)在給定超幀中觀察到最多2次場(chǎng)景變換時(shí),給予最后一個(gè)超幀比第一個(gè)超幀更大的權(quán)數(shù),因?yàn)榈谝粋€(gè)超幀將由后者快速刷新,如下列方程式中顯示 CC度量=0.1*I幀對(duì)比度平均值1+CCW1*I幀對(duì)比度平均值2+(CCW2-0.1)*幀差平均值-CCW3*I對(duì)比度偏差1^2*I對(duì)比度偏差2^2*exp(CCW4*幀差偏差^2)(方程式13) (d)三個(gè)或更多個(gè)場(chǎng)景變換如果觀察到給定超幀具有多于3個(gè)I幀(也就是N個(gè)),則賦予最后一個(gè)I幀更大的權(quán)數(shù),且賦予所有其他I幀0.05的加權(quán),如下列方程式中顯示 CC度量=0.05*I幀對(duì)比度平均值(1....N-1)+CCW1*I幀對(duì)比度平均值(N)+(CCW2-(0.05*(N-1)))*幀差平均值-CCW3*I對(duì)比度偏差(N)^2*I對(duì)比度偏差(1....N-1)^2*exp(CCW4*幀差偏差^2)(方程式14) (5)要求校正其中幀差平均值小于0.05時(shí)的低運(yùn)動(dòng)場(chǎng)景的情形中的度量。將偏移(CC偏移)0.33添加至所述CC度量。
復(fù)雜度組件192使用Dcsat值、運(yùn)動(dòng)向量及絕對(duì)差的和確定指示宏塊的空間復(fù)雜度的值(或所指配的視頻數(shù)據(jù)量)。時(shí)間復(fù)雜度由幀差度量的量度來(lái)確定。幀差度量計(jì)及運(yùn)動(dòng)量(具有運(yùn)動(dòng)向量)及各幀之間的絕對(duì)差的和來(lái)測(cè)量?jī)蓚€(gè)連續(xù)幀之間的差。
帶寬映像產(chǎn)生 人的視覺(jué)質(zhì)量V可以是編碼復(fù)雜度C與所分配位B(也稱(chēng)作帶寬)二者的函數(shù)。應(yīng)注意,編碼復(fù)雜度度量C自人的視覺(jué)角度考慮空間及時(shí)間頻率。對(duì)于人類(lèi)較敏感的失真而言,復(fù)雜度值會(huì)相應(yīng)地較高。通??杉僭O(shè)V在C中單調(diào)地減少,而在B中單調(diào)地增加。
為獲得恒定的視覺(jué)質(zhì)量,為第i個(gè)待編碼的對(duì)象(幀或MB)指配帶寬(Bi),所述帶寬(Bi)滿(mǎn)足方程式15及16中所表達(dá)的標(biāo)準(zhǔn)。
Bi=B(Ci,V)(方程式15) (方程式16) 在方程式15及/或16中,Ci是第i個(gè)對(duì)象的編碼復(fù)雜度,B是總的可用帶寬,且V是所述對(duì)象可達(dá)到的視覺(jué)質(zhì)量。人的視覺(jué)質(zhì)量很難以方程式形式來(lái)闡明。因此,上述方程組并非精確界定。然而,如果假設(shè)所述3-D模型的所有變量均連續(xù),則可認(rèn)為帶寬比率(Bi/B)在(C,V)對(duì)的附近不變。帶寬比率βi界定于方程式17中。
βi=Bi/B(方程式17) 因而可如方程式18中所表達(dá)來(lái)界定位分配問(wèn)題 βi=β(Ci) 其中(Ci,V)∈δ(C0,V0) (方程式18) 在上述方程式中,維護(hù)所述“鄰近關(guān)系”。
編碼復(fù)雜度受人的視覺(jué)靈敏度影響-就空間及時(shí)間兩方面而言。Girod的人體視覺(jué)模型是一種可用于界定空間復(fù)雜度的模型實(shí)例。這一模型考慮局部空間頻率及環(huán)境照明。所得到的度量稱(chēng)作Dcsat。在所述過(guò)程中的預(yù)處理點(diǎn)處,并不知曉是將圖片進(jìn)行內(nèi)部編碼還是中間編碼,且產(chǎn)生二者的帶寬比率。對(duì)于內(nèi)部編碼的圖片而言,帶寬比率表達(dá)于方程式19中 β內(nèi)=β0內(nèi)log10(1+α內(nèi)Y2Dcsat) (方程式19) 在上述方程式中,Y是MB的平均亮度分量,α內(nèi)是亮度平方及其后的Dcsat項(xiàng)的加權(quán)因數(shù),β0內(nèi)是保證的正規(guī)化因數(shù)。例如,α內(nèi)=4的值會(huì)達(dá)到較佳的視覺(jué)質(zhì)量。只要根據(jù)不同視頻對(duì)象的β內(nèi)之間的比率來(lái)分配位,換算因數(shù)β0內(nèi)的值就不重要。
為理解這一關(guān)系,應(yīng)注意,帶寬是與編碼復(fù)雜度成對(duì)數(shù)關(guān)系來(lái)分配的。亮度平方項(xiàng)反映了如下事實(shí)具有更大量級(jí)的系數(shù)使用更多的位來(lái)編碼。為防止對(duì)數(shù)值變?yōu)樨?fù)值,在括號(hào)內(nèi)的項(xiàng)中加上1。也可使用具有其他底數(shù)的對(duì)數(shù)。
時(shí)間復(fù)雜度由幀差度量的量度確定。幀差度量計(jì)及運(yùn)動(dòng)量(具有運(yùn)動(dòng)向量)以及SAD來(lái)測(cè)量?jī)蓚€(gè)連續(xù)幀之間的差。
中間編碼圖片的位分配需要考慮空間以及時(shí)間復(fù)雜度。這表達(dá)于下列方程式20中 β內(nèi)=β0間log10(1+α間·SSD·Dcsatexp(-γ||MVP+MVN||2)) (方程式20) 在方程式20中,MVP及MVN是當(dāng)前MB的正向及反向運(yùn)動(dòng)向量。能夠注意到,所述內(nèi)部公式中的Y2被SSD(其代表平方差的和)取代。
為理解||MVp+MVN||2在方程式6中的作用,注意人的視覺(jué)系統(tǒng)的接續(xù)特征經(jīng)歷平滑、可預(yù)測(cè)的運(yùn)動(dòng)的區(qū)域(較小||MVp+MVN||2)會(huì)吸引注意且可由人眼追蹤且通常不能容忍比固定區(qū)域更大的任何失真。然而,經(jīng)歷快速或不可預(yù)測(cè)的運(yùn)動(dòng)的區(qū)域(較大||MVp+MVN||2)卻無(wú)法被跟蹤,且可容忍顯著的量化。實(shí)驗(yàn)表明,α間=1、γ=0.001會(huì)達(dá)到較佳的視覺(jué)質(zhì)量。
確定紋理及運(yùn)動(dòng)值 對(duì)于多媒體數(shù)據(jù)中的每一宏塊,分類(lèi)組件194使得紋理值與空間復(fù)雜度相關(guān)聯(lián),及使得運(yùn)動(dòng)值與時(shí)間復(fù)雜度相關(guān)聯(lián)。紋理值與多媒體數(shù)據(jù)的發(fā)光值相關(guān),其中較低的紋理值指示所述數(shù)據(jù)的鄰近像素的發(fā)光值具有較小變化,且較高紋理值指示所述數(shù)據(jù)的鄰近像素的發(fā)光值具有較大變化。根據(jù)一個(gè)方面,一旦計(jì)算出紋理及運(yùn)動(dòng)值,則分類(lèi)組件194通過(guò)考慮所述運(yùn)動(dòng)及紋理信息二者來(lái)確定內(nèi)容分類(lèi)度量(例如,內(nèi)容分類(lèi))。分類(lèi)組件194使得正在分類(lèi)的視頻數(shù)據(jù)的紋理與相關(guān)紋理值相關(guān)聯(lián),例如“低”紋理、“中”紋理或“高”紋理,其一般指示宏塊的亮度值復(fù)雜度。同樣,分類(lèi)組件194使得針對(duì)正在分類(lèi)的視頻數(shù)據(jù)計(jì)算的運(yùn)動(dòng)值與相關(guān)運(yùn)動(dòng)值相關(guān)聯(lián),例如“低”運(yùn)動(dòng)、“中”運(yùn)動(dòng)或“高”運(yùn)動(dòng),其一般指示宏塊的運(yùn)動(dòng)量。在替代實(shí)施例中,可使用更少或更多類(lèi)別的運(yùn)動(dòng)及文理。則可隨之通過(guò)確定相關(guān)聯(lián)的紋理及運(yùn)動(dòng)值來(lái)確定內(nèi)容分類(lèi)度量。
圖6圖解說(shuō)明其中圖解說(shuō)明如何將紋理及運(yùn)動(dòng)值與內(nèi)容分類(lèi)相關(guān)聯(lián)的分類(lèi)圖表的實(shí)例。所屬技術(shù)領(lǐng)域的技術(shù)人員熟悉許多實(shí)施這種分類(lèi)圖表的方式,例如以查找表或數(shù)據(jù)庫(kù)。分類(lèi)圖表是基于視頻數(shù)據(jù)內(nèi)容的預(yù)定估計(jì)而產(chǎn)生的。為確定視頻數(shù)據(jù)分類(lèi),使得“低”、“中”或“高”(在“x軸”上)的紋理值與“低”、“中”或“高”(在“y軸”上)的運(yùn)動(dòng)值前后對(duì)照。將交叉塊中指示的內(nèi)容分類(lèi)指配給視頻數(shù)據(jù)。例如,紋理值“高”及運(yùn)動(dòng)值“中”會(huì)產(chǎn)生分類(lèi)七(7)。圖6圖解說(shuō)明在這一實(shí)例中與8個(gè)不同內(nèi)容分類(lèi)相關(guān)聯(lián)的相關(guān)紋理及運(yùn)動(dòng)值的各種組合。在某些其他實(shí)施例中,可使用更多或更少個(gè)分類(lèi)。
位速率確定 如上文闡述,所產(chǎn)生的多媒體數(shù)據(jù)內(nèi)容分類(lèi)可用于預(yù)/后處理及壓縮算法中,以有效改進(jìn)位管理同時(shí)維持恒定的視頻感知質(zhì)量。例如,分類(lèi)度量可用于針對(duì)場(chǎng)景變換檢測(cè)、編碼位速率分配控制及幀速率上變頻(FRUC)的算法中。壓縮器/解壓縮器(編譯碼器)系統(tǒng)和數(shù)字信號(hào)處理算法一般用于視頻數(shù)據(jù)通信中,且可經(jīng)配置以保持帶寬,但在質(zhì)量與帶寬保持之間存在折中。最好的編譯碼器會(huì)提供最大的帶寬保持,同時(shí)產(chǎn)生最少的視頻質(zhì)量降級(jí)。
在一個(gè)方面,位速率組件196使用內(nèi)容分類(lèi)確定位速率(例如,分配用于將多媒體數(shù)據(jù)編碼的位數(shù)量),并存儲(chǔ)所述位速率供由其他過(guò)程及組件使用,例如圖1所示編碼器組件185。根據(jù)視頻數(shù)據(jù)分類(lèi)確定的位速率可幫助保持帶寬,同時(shí)以恒定質(zhì)量等級(jí)提供多媒體數(shù)據(jù)。在一個(gè)方面中,不同的位速率可與所述8個(gè)不同內(nèi)容分類(lèi)的每一者相關(guān)聯(lián),且隨之使用所述位速率對(duì)多媒體數(shù)據(jù)實(shí)施編碼。所產(chǎn)生的效果是盡管為多媒體數(shù)據(jù)的不同內(nèi)容分類(lèi)分配不同數(shù)量的位供編碼之用,但在顯示器上觀看時(shí)所感知的質(zhì)量是類(lèi)似或一致的。
一般而言,具有較高內(nèi)容分類(lèi)的多媒體數(shù)據(jù)指示較高等級(jí)的運(yùn)動(dòng)及/或紋理,且在編碼時(shí)被分配有較多位。具有較低分類(lèi)的多媒體數(shù)據(jù)(指示較少紋理及運(yùn)動(dòng))分配有較少位。針對(duì)多媒體數(shù)據(jù)的特定內(nèi)容分類(lèi),可基于用于觀看所述多媒體數(shù)據(jù)的所選目標(biāo)感知質(zhì)量等級(jí)來(lái)確定位速率。確定多媒體數(shù)據(jù)質(zhì)量可通過(guò)人的觀看及對(duì)多媒體數(shù)據(jù)分級(jí)來(lái)確定。在某些替代實(shí)施例中,多媒體數(shù)據(jù)質(zhì)量估計(jì)可由自動(dòng)檢驗(yàn)系統(tǒng)使用(例如)信噪比算法做出。在一個(gè)方面中,針對(duì)多媒體數(shù)據(jù)的每一內(nèi)容分類(lèi)預(yù)定一組標(biāo)準(zhǔn)質(zhì)量等級(jí)(例如,5個(gè))及達(dá)到每一特定質(zhì)量等級(jí)所需的對(duì)應(yīng)位速率。為確定一組質(zhì)量等級(jí),可通過(guò)產(chǎn)生平均主觀評(píng)價(jià)結(jié)果(MOS)來(lái)估計(jì)多媒體數(shù)據(jù)的特定內(nèi)容分類(lèi),其中MOS提供對(duì)在使用某一位速率對(duì)多媒體數(shù)據(jù)實(shí)施編碼時(shí)所述多媒體數(shù)據(jù)的視覺(jué)感知質(zhì)量的大量指示。所述MOS可表達(dá)為處于1至5范圍內(nèi)的單個(gè)數(shù)字,其中1是最低可感知質(zhì)量,而5是最高可感知質(zhì)量。在其他實(shí)施例中,MOS可具有多于5個(gè)或少于5個(gè)質(zhì)量等級(jí),且可使用每一質(zhì)量等級(jí)的不同說(shuō)明。
確定多媒體數(shù)據(jù)質(zhì)量可通過(guò)人的觀看和對(duì)多媒體數(shù)據(jù)分級(jí)來(lái)確定。在某些替代實(shí)施例中,多媒體數(shù)據(jù)質(zhì)量的估計(jì)可以由自動(dòng)檢測(cè)系統(tǒng)使用(例如)信噪比算法做出。在一個(gè)方面中,針對(duì)多媒體數(shù)據(jù)的每一內(nèi)容分類(lèi)預(yù)定一組標(biāo)準(zhǔn)質(zhì)量等級(jí)(例如,5個(gè))及達(dá)到每一特定質(zhì)量等級(jí)所需的對(duì)應(yīng)位速率。
了解視覺(jué)感知的質(zhì)量等級(jí)與多媒體數(shù)據(jù)的某一內(nèi)容分類(lèi)的位速率之間的關(guān)系可通過(guò)選擇目標(biāo)(例如,所需)質(zhì)量等級(jí)來(lái)確定。用于確定位速率的目標(biāo)質(zhì)量等級(jí)可預(yù)選、由用戶(hù)選擇、通過(guò)自動(dòng)過(guò)程或要求來(lái)自用戶(hù)或來(lái)自另一過(guò)程的輸入的半自動(dòng)過(guò)程來(lái)選擇、或由編碼裝置或系統(tǒng)基于預(yù)定標(biāo)準(zhǔn)而動(dòng)態(tài)選擇。目標(biāo)質(zhì)量等級(jí)可基于(例如)編碼應(yīng)用程序類(lèi)型、或?qū)⒔邮斩嗝襟w數(shù)據(jù)的客戶(hù)端裝置類(lèi)型來(lái)選擇。
內(nèi)容分類(lèi)的確定 內(nèi)容分類(lèi)曲線及導(dǎo)出所述內(nèi)容分類(lèi)曲線的速率失真曲線是在將視頻數(shù)據(jù)分類(lèi)之前產(chǎn)生的。針對(duì)所標(biāo)識(shí)的多媒體數(shù)據(jù)分類(lèi),通過(guò)找到目標(biāo)等級(jí)與視頻數(shù)據(jù)的特定分類(lèi)的特定速率失真質(zhì)量曲線的交叉點(diǎn)來(lái)確定可接受的位速率。位速率是對(duì)應(yīng)于所述交叉點(diǎn)的點(diǎn),且位速率可在選擇較低的目標(biāo)質(zhì)量登記時(shí)降低。例如,如果目標(biāo)被選擇為“可接受”而非“好”,則原本分類(lèi)為(例如)類(lèi)6(具有位速率為速率5)的編碼視頻數(shù)據(jù)現(xiàn)將要求位速率約為速率4。
為確定圖6及7中引用的8個(gè)多媒體數(shù)據(jù)內(nèi)容分類(lèi),可使用包含多種類(lèi)型的內(nèi)容的多媒體數(shù)據(jù)序列以獲得平均位速率及平均亮度峰值信噪比(PSNR)。根據(jù)所述平均PSNR來(lái)繪制所述序列的平均位速率以形成速率失真(R-D)曲線。例如,大量多媒體數(shù)據(jù)序列的R-D曲線可以圖像格式描繪,其中x軸是平均位速率(kbps),且y軸是平均亮度PSNR(db)。所述序列的R-D曲線落入數(shù)個(gè)不同群集,且隨之將多媒體數(shù)據(jù)序列分類(lèi)為不同組群。在一實(shí)例中,最初形成5個(gè)組群,其中通過(guò)利用所有落入所述群集的序列來(lái)獲得每一組群。所述群集可分別包含一個(gè)或多個(gè)序列。每一組群的標(biāo)準(zhǔn)偏差還可以根據(jù)形成所述組群的特定序列來(lái)計(jì)算。在其他實(shí)例中,視頻數(shù)據(jù)序列可群集以相依于所使用的序列形成少于5個(gè)組群或多于5個(gè)組群。在這一實(shí)例中,基于視頻數(shù)據(jù)的進(jìn)一步分析而連續(xù)增加組群數(shù)量(5)。同樣,如果最初在某些其他方面中形成更多或更少組群,則這些方面也可以包括基于估計(jì)其他序列來(lái)進(jìn)一步增加或減少組群數(shù)量。所述5個(gè)最初組群對(duì)應(yīng)于5個(gè)類(lèi),所述類(lèi)表示給定超幀中的運(yùn)動(dòng)及紋理的不同等級(jí)。例如,類(lèi)1表示具有低運(yùn)動(dòng)及低紋理(LM,LT)的超幀,類(lèi)2表示具有中運(yùn)動(dòng)及低紋理(MM,LT)的超幀,類(lèi)3表示具有中運(yùn)動(dòng)及中紋理(MM,MT)的超幀,類(lèi)4表示具有高運(yùn)動(dòng)及中紋理(HM,MT)的超幀,及類(lèi)5表示具有高運(yùn)動(dòng)及高紋理(HM,HT)的超幀。
隨后,來(lái)自所有可用源序列的每一超幀經(jīng)分類(lèi)以檢驗(yàn)每一超幀是否落入其相應(yīng)類(lèi)中。最初分類(lèi)可通過(guò)檢驗(yàn)各種多媒體數(shù)據(jù)序列及使用反復(fù)過(guò)程以兼容各種不符合先前界定的5個(gè)組群的其他序列來(lái)界定,且可獲得新的經(jīng)修改R-D曲線組。在這一實(shí)例中,將群集數(shù)量從5增加到8,且形成其他類(lèi),其中較大的類(lèi)數(shù)量表示增加多媒體數(shù)據(jù)中的運(yùn)動(dòng)及較高紋理等級(jí)。
在這一實(shí)例中,隨后效仿這些R-D曲線以促進(jìn)其在將多媒體數(shù)據(jù)分類(lèi)中的使用。由于信號(hào)的位速率與亮度PSNR之間的關(guān)系是對(duì)數(shù)函數(shù),則可使用下列形式的對(duì)數(shù)函數(shù)來(lái)效仿R-D曲線ypsnr=a*In(速率)+b,a>0。在這一實(shí)例中,參數(shù)a及b的值復(fù)制如下 類(lèi) a b 15.0874-13.038 25.1765-20.790 35.9369-32.149 45.2884-27.498 55.3435-30.421 65.1642-29.173 75.0773-32.890 85.0813-37.631 設(shè)計(jì)用于以這種方式操作以使得所有實(shí)時(shí)服務(wù)均具有與其位速率指配無(wú)關(guān)的類(lèi)似感知質(zhì)量的多媒體處理系統(tǒng)會(huì)提供一致的多媒體數(shù)據(jù)供顯示之用。因此,預(yù)期實(shí)時(shí)服務(wù)的質(zhì)量度量(例如,PSNR)隨所指配的位速率單調(diào)地增加。由于PSNR的等價(jià)值并不必要地產(chǎn)生多媒體數(shù)據(jù)的一致感知質(zhì)量,則基于另一不同于PSNR的質(zhì)量度量來(lái)修改現(xiàn)有類(lèi)。為達(dá)到多媒體數(shù)據(jù)的相同感知質(zhì)量,通過(guò)添加對(duì)應(yīng)偏移以便所有類(lèi)均具有類(lèi)似質(zhì)量度量來(lái)修改內(nèi)容分類(lèi)曲線。經(jīng)偏移校正的等式也是對(duì)數(shù)形式y(tǒng)psnr=a*In(速率)+b+偏移。在所述實(shí)例中,所述8個(gè)內(nèi)容類(lèi)的每一者的偏移值是-9.833、-5.831、-4.335、-2.064、-0.127、0.361、4.476及6.847。
內(nèi)容分類(lèi)的用途之一是用于視頻數(shù)據(jù)場(chǎng)景變換檢測(cè)。如果幀差度量或?qū)Ρ榷缺嚷手祷騼?nèi)容分類(lèi)度量相對(duì)于幀序列中的前一幀及后一幀而相對(duì)較高,則我們確定所述特定幀是場(chǎng)景變換或新的拍照。
圖8是圖解說(shuō)明一種用于基于將多媒體數(shù)據(jù)分類(lèi)來(lái)確定位速率的過(guò)程200的實(shí)例的流程圖。還應(yīng)注意所述實(shí)例可被闡述為過(guò)程,所述過(guò)程可被描繪為流程圖表、流程圖、結(jié)構(gòu)圖或方塊圖。盡管流程圖表可將各操作闡述為有序過(guò)程,但所述操作的許多操作也可并列或同時(shí)實(shí)施,并可重復(fù)所述過(guò)程。另外,相依于所述過(guò)程的應(yīng)用環(huán)境,可重新排列操作次序、可執(zhí)行未顯示操作、或可忽略所顯示的操作。
本文所述過(guò)程可對(duì)應(yīng)于方法、函數(shù)、過(guò)程、軟件程序或軟件程序的一部分。當(dāng)一過(guò)程對(duì)應(yīng)于一功能時(shí),其結(jié)束對(duì)應(yīng)于所述功能返回至呼叫功能或主功能。將過(guò)程闡述為軟件程序、模塊、組件、子程序或輔程序是廣義說(shuō)明,且不意欲要求以相同方式構(gòu)建所有實(shí)施例,除非明確地如此表達(dá)。相反,所屬技術(shù)領(lǐng)域的技術(shù)人員將了解,這種操作通??蓸?gòu)建為硬件、軟件、中間件、固件、或微代碼。闡述為單個(gè)組件、程序或模塊的功能或操作也可以構(gòu)建為兩個(gè)或更多個(gè)組件、模塊、程序、(例如)子模塊、輔程序或子程序。
過(guò)程200可由例如圖1所示編碼器裝置105及其組件來(lái)實(shí)施。編碼器裝置105從外部源135接收經(jīng)編碼或未經(jīng)編碼的視頻數(shù)據(jù)。在過(guò)程200中,步驟205確定視頻數(shù)據(jù)的復(fù)雜度。在某些實(shí)施例中,編碼器組件185計(jì)算用于確定視頻數(shù)據(jù)的空間復(fù)雜度和時(shí)間復(fù)雜度的信息,例如運(yùn)動(dòng)向量、至少一個(gè)Dcsat值及宏塊的絕對(duì)差的和。在某些實(shí)施例中,內(nèi)容分類(lèi)組件190計(jì)算用于確定多媒體數(shù)據(jù)的時(shí)間及空間復(fù)雜度所需信息的至少一部分。例如內(nèi)容分類(lèi)組件190等分類(lèi)裝置可基于所確定的復(fù)雜度將多媒體數(shù)據(jù)分類(lèi),步驟210。作為步驟210的結(jié)果,將所述多媒體數(shù)據(jù)分類(lèi)至數(shù)個(gè)內(nèi)容分類(lèi)的一者中(例如,8個(gè)內(nèi)容分類(lèi)的一者)。在步驟215中,過(guò)程200確定用于觀看多個(gè)內(nèi)容分類(lèi)的多媒體數(shù)據(jù)的質(zhì)量值,其通常完成于過(guò)程200開(kāi)始之前。確定數(shù)據(jù)可通過(guò)人的觀看和為多媒體數(shù)據(jù)分級(jí)來(lái)確定,或在某些替代實(shí)施例中,多媒體數(shù)據(jù)質(zhì)量的估計(jì)可由自動(dòng)數(shù)據(jù)估計(jì)系統(tǒng)使用(例如)信噪比算法做出。所述可預(yù)選、由用戶(hù)選擇、通過(guò)自動(dòng)過(guò)程或要求來(lái)自用戶(hù)或來(lái)自另一過(guò)程的輸入的半自動(dòng)過(guò)程來(lái)選擇。另一選擇為,所述可由編碼裝置或系統(tǒng)在系統(tǒng)操作期間基于(例如)關(guān)于用于觀看多媒體數(shù)據(jù)的所需或所要求的預(yù)定標(biāo)準(zhǔn)而動(dòng)態(tài)選擇。
過(guò)程200基于其分類(lèi)及所需目標(biāo)來(lái)確定用于對(duì)視頻數(shù)據(jù)實(shí)施編碼的位速率。用于對(duì)視頻數(shù)據(jù)實(shí)施編碼的位速率可通過(guò)添加屬于所述超幀的個(gè)別幀大小估計(jì)來(lái)確定。個(gè)別幀大小估計(jì)可以?xún)煞N方式計(jì)算。于一種方式中,基于帶寬比率來(lái)計(jì)算所述超幀中每一幀的大小的估計(jì),且因而可將超幀的大小估計(jì)為所述幀大小的線性組合。
基于幀大小來(lái)估計(jì)超幀大小 相依于先前編碼的幀及所述幀的帶寬比率來(lái)估計(jì)幀大小。我們使用無(wú)窮脈沖響應(yīng)(IIR)濾波器來(lái)估計(jì)幀大小,且在實(shí)際大小與根據(jù)模擬的估計(jì)大小之間觀察到強(qiáng)烈的相關(guān)性。在預(yù)處理器中基于MPEG-2解碼器中的運(yùn)動(dòng)向量及SAD來(lái)計(jì)算帶寬率(BWR)。
我們假設(shè)幀大小與BWR之間的直接線性關(guān)系如下 幀大小(n)/BWR(n)=幀大小(n+1)/BWR(n+1)方程式20 下文闡述用于估計(jì)幀大小的過(guò)程。
(1)稱(chēng)作γ的量被計(jì)算為每一已編碼幀的幀大小與BWR之間的比率。
γ(i)=幀大小(i)/時(shí)間BWR(i) (方程式21) (2)針對(duì)待編碼的每一幀,使用下列IIR濾波器計(jì)算權(quán)數(shù) γp(i)=(1-α)*γ(i-1)+α*γp(i-1)(方程式22) 因此幀大小估計(jì)如下 幀估計(jì)值(i)=γp(i)*時(shí)間BWR(i)(方程式23) 這一過(guò)程可用于P幀及B幀二者,其中根據(jù)先前編碼的P幀估計(jì)連續(xù)的P幀,且根據(jù)先前編碼的B幀估計(jì)連續(xù)的B幀。在一種方法中,時(shí)間BWR可以是所述幀中所有宏塊的β間(上述)的和。在I幀的情形中,觀察到FTR濾波器提供比使用HR濾波器更準(zhǔn)確的結(jié)果。因此對(duì)于I幀而言,獲得估計(jì)值如下 I幀估計(jì)值(i)=空間BWR(i)*(I幀大小(i-1)/空間BWR(i-1))(方程式24) 超幀大小是所述超幀中所有幀估計(jì)值的和。
整體估計(jì)超幀大小 在另一方法中,可將超幀大小作為整體來(lái)估計(jì)。超幀大小的估計(jì)可相依于先前編碼的超幀及超幀整體的帶寬比率。如上文針對(duì)第一種方法闡述的無(wú)窮脈沖響應(yīng)(HR)濾波器可用于估計(jì)超幀大小。
此外,可在利用超幀整體的帶寬比率表示的超幀大小與超幀復(fù)雜度之間假設(shè)一線性關(guān)系 SF大小(n)/SF_BWR(n)=SF大小(n+1)/SF_BWR(n+1)(方程式25) 用于估計(jì)超幀大小的過(guò)程可解釋如下 (1)稱(chēng)為θ的量計(jì)算為超幀大小與全部超幀的BWR之間的比率,如下列方程式中顯示 θ(i)=SF大小(i)/SF_BWR(i) (方程式26) (2)針對(duì)待編碼的每一超幀,使用下列IIR濾波器計(jì)算權(quán)數(shù)。
θP(i)=(1-α)*θ(i-1)+α*θP(i-1) (方程式27) 超幀大小可估計(jì)如下 超幀估計(jì)值(i)=θP(i)*SF_BWR(i) (方程式28) 使用所述超幀中個(gè)別幀的帶寬比率的線性組合來(lái)估計(jì)給定超幀的帶寬比率。超幀中的幀類(lèi)型可基于固定GOP結(jié)構(gòu),例如IBP或IBBP等。
基于上述幀差度量來(lái)確定超幀中的幀類(lèi)型?;谶@一給定超幀中的內(nèi)容類(lèi)型分類(lèi)來(lái)確定內(nèi)部閾值及中間閾值?;谶@些閾值,如果幀的幀差超過(guò)內(nèi)部閾值則將所述幀視為I幀,或者,如果所述幀的幀差在內(nèi)部與中間閾值之間,則視為P幀,及如果幀差低于中間閾值則視為B幀。
使用上述Dcsat及Girod的模型導(dǎo)出的空間帶寬比率(闡述為β內(nèi))用于估計(jì)內(nèi)部幀的大小。另一方法是其中空間帶寬比率是基于上述對(duì)比度比率或任一其他表示數(shù)量的度量。
使用上述Dcsat及Girod的模型及MV及SAD導(dǎo)出的時(shí)間帶寬比率(闡述為β內(nèi))用于估計(jì)中間幀的大小。另一方法是其中時(shí)間帶寬比率是基于上述SAD MV度量或任一其他表示所述幀中的運(yùn)動(dòng)量或運(yùn)動(dòng)等級(jí)的度量。
再次參照?qǐng)D8,在步驟221中,過(guò)程200使用在步驟215中確定的位速率用于進(jìn)一步處理多媒體數(shù)據(jù),以(例如)對(duì)多媒體數(shù)據(jù)實(shí)施編碼供與無(wú)線網(wǎng)絡(luò)通信。
圖9是圖解說(shuō)明一種用于在圖8所示點(diǎn)“A”及“B”之間處理多媒體數(shù)據(jù)的進(jìn)一步操作的過(guò)程201的流程圖。過(guò)程201在步驟206中確定多媒體數(shù)據(jù)的空間復(fù)雜度。確定空間復(fù)雜度要求過(guò)程201為多媒體數(shù)據(jù)的各區(qū)塊計(jì)算至少一個(gè)Dcsat值,其執(zhí)行于步驟207中。步驟207可由編碼器組件185或內(nèi)容分類(lèi)組件190執(zhí)行,二者均顯示于圖1中。上文闡述計(jì)算Dcsat值的過(guò)程。繼續(xù)至步驟240,過(guò)程201現(xiàn)在確定多媒體數(shù)據(jù)的時(shí)間復(fù)雜度。步驟209確定數(shù)據(jù)的至少一個(gè)區(qū)塊的至少一個(gè)運(yùn)動(dòng)向量,其通常由編碼器組件185完成。在步驟211中,過(guò)程201還確定與多媒體數(shù)據(jù)的至少一個(gè)區(qū)塊及參考區(qū)塊相關(guān)聯(lián)的絕對(duì)差的和(SAD)。步驟211中的計(jì)算還通常由編碼器組件185完成。繼續(xù)至步驟210,過(guò)程201基于所確定的復(fù)雜度將多媒體數(shù)據(jù)分類(lèi)。為將多媒體數(shù)據(jù)分類(lèi),在步驟255中,使空間復(fù)雜度與紋理值相關(guān)聯(lián)。此外,如步驟260中顯示,使時(shí)間復(fù)雜度與運(yùn)動(dòng)值相關(guān)聯(lián)。最后,在步驟265中,過(guò)程201基于在步驟255及260中相應(yīng)地確定的紋理值及運(yùn)動(dòng)值將內(nèi)容分類(lèi)指配給所述多媒體數(shù)據(jù)。過(guò)程201的步驟結(jié)束于“B”點(diǎn)處,其中“B”點(diǎn)是其中過(guò)程200將繼續(xù)進(jìn)行以確定位速率之處,如圖9所示步驟215中顯示。
內(nèi)容分類(lèi)及估計(jì)多媒體內(nèi)容的復(fù)雜度及給定感知質(zhì)量的對(duì)應(yīng)編碼率或壓縮比率的過(guò)程可經(jīng)延展以增強(qiáng)各種速率流的統(tǒng)計(jì)復(fù)用中的增益。開(kāi)發(fā)上述方法及設(shè)備的這種多路復(fù)用器還使得統(tǒng)一質(zhì)量多路復(fù)用器在多媒體應(yīng)用中輸出動(dòng)態(tài)變化內(nèi)容。這種多路復(fù)用器闡述如下。
多路復(fù)用器 在某些實(shí)施例中,多路復(fù)用器可用于上述位管理。例如,可構(gòu)建多路復(fù)用器來(lái)提供位速率分配控制??蓪⑺烙?jì)的復(fù)雜度提供給所述多路復(fù)用器,然后可由所述多路復(fù)用器根據(jù)所述視頻信道期望的編碼復(fù)雜度為多路復(fù)用視頻信道的集合分配可用帶寬,由此使得甚至當(dāng)所述多路復(fù)用視頻流的集合的帶寬相對(duì)恒定時(shí)也能夠使特定信道的質(zhì)量保持相對(duì)恒定。這使得信道集合內(nèi)的一個(gè)信道具有可變位速率及相對(duì)恒定的視覺(jué)質(zhì)量,而非相對(duì)恒定的位速率及可變的視覺(jué)質(zhì)量。
圖10是圖解說(shuō)明多個(gè)多媒體流或信道1002的編碼的系統(tǒng)圖。多媒體流1002由相應(yīng)編碼器1004實(shí)施編碼,編碼器1004與多路復(fù)用器(MUX)1006進(jìn)行通信,多路復(fù)用器(MUX)106又與傳輸媒體1008進(jìn)行通信。例如,多媒體流1002可對(duì)應(yīng)于各種內(nèi)容信道,例如新聞信道、體育信道、電影信道等等。編碼器1004將多媒體流1002編碼為系統(tǒng)指配的編碼格式。盡管是就對(duì)視頻流實(shí)施編碼來(lái)闡述,但所揭示技術(shù)的原理及優(yōu)點(diǎn)廣泛地適用于包括例如音頻流等多媒體流。經(jīng)編碼的多媒體流被提供至多路復(fù)用器1006,由多路復(fù)用器1006組合各種經(jīng)編碼的多媒體流,并將所述組合流發(fā)送至傳輸媒體1008供傳輸之用。
傳輸媒體1008可對(duì)應(yīng)于各種媒體,例如(但不限于)例如
等數(shù)字衛(wèi)星通信、數(shù)字電纜、有線及無(wú)線因特網(wǎng)通信、光學(xué)網(wǎng)絡(luò)、蜂窩式電話網(wǎng)絡(luò)等等。傳輸媒體108可包括(例如)調(diào)變至射頻(RF)。通常,由于頻譜約束條件及類(lèi)似約束條件,傳輸媒體具有有限的帶寬,且以相對(duì)恒定的位速率(CBR)維持從多路復(fù)用器1006到傳輸媒體的數(shù)據(jù)。
在傳統(tǒng)系統(tǒng)中,在多路復(fù)用器1006的輸出端使用恒定位速率(CBR)要求被輸入至多路復(fù)用器1006的經(jīng)編碼多媒體或視頻流也是CBR。如背景技術(shù)中闡述,在對(duì)視頻內(nèi)容實(shí)施編碼時(shí)使用CBR可造成變化的視覺(jué)質(zhì)量,這通常并不合意。
在所例示的系統(tǒng)中,兩個(gè)或更多個(gè)編碼器1004傳送輸入數(shù)據(jù)的預(yù)期編碼復(fù)雜度。一個(gè)或多個(gè)編碼器1004可響應(yīng)于此而從多路復(fù)用器1006接收經(jīng)修改的位速率控制。這準(zhǔn)許期望將相對(duì)復(fù)雜的視頻編碼的編碼器1004能夠以準(zhǔn)可變位速率方式為所述視頻幀接收更高的位速率或更高的帶寬(每幀更多個(gè)位)。這準(zhǔn)許以更恒定的視覺(jué)質(zhì)量對(duì)多媒體流1002實(shí)施編碼。對(duì)相對(duì)復(fù)雜的視頻實(shí)施編碼的特定編碼器1004所使用的額外帶寬來(lái)自于如果所述編碼器構(gòu)建成以恒定位速率操作時(shí)原本將用于對(duì)其他視頻流1004實(shí)施編碼的位。此使得多路復(fù)用器1006的輸出維持在恒定位速率(CBR)。
盡管個(gè)別多媒體流1002可能是相對(duì)“突發(fā)性”(也就是在所使用帶寬中發(fā)生變化),但多個(gè)視頻流的累積和可能是不太突發(fā)。來(lái)自正對(duì)較不復(fù)雜的視頻實(shí)施編碼的信道的位速率可由(例如)多路復(fù)用器1006重新分配至正對(duì)相對(duì)復(fù)雜的視頻實(shí)施編碼的信道,且這可以增強(qiáng)組合視頻流整體的視覺(jué)質(zhì)量。
編碼器1004向多路復(fù)用器1006提供對(duì)將要一起編碼及多路復(fù)用的一組視頻幀的復(fù)雜度的指示。多路復(fù)用器1006的輸出應(yīng)提供不高于傳輸媒體1008所指配的位速率的輸出。復(fù)雜度的指示可基于上述內(nèi)容分類(lèi),以提供所選等級(jí)的質(zhì)量。多路復(fù)用器1006分析所述復(fù)雜度指示,并為各個(gè)編碼器1004提供所分配數(shù)量的位或帶寬,且編碼器1004使用這一信息對(duì)所述組中的視頻幀實(shí)施編碼。這準(zhǔn)許一組視頻幀能夠分別成為可變位速率,且仍能以組群形式達(dá)到恒定位速率。
一般來(lái)說(shuō),內(nèi)容分類(lèi)還可以針對(duì)任何通用壓縮器用于啟用多媒體的基于質(zhì)量的壓縮。
內(nèi)容分類(lèi)及本文所述方法及設(shè)備可用于任何多媒體數(shù)據(jù)的基于質(zhì)量及/或基于內(nèi)容的多媒體處理中。一個(gè)實(shí)例是其在一般用于任何通用壓縮器的多媒體壓縮中的使用。另一實(shí)例是在任一解壓縮器或解碼器或后處理器中實(shí)施解壓縮或解碼,例如內(nèi)插、再取樣、增強(qiáng)、恢復(fù)及顯現(xiàn)操作。
所述各種實(shí)施例的各方面可構(gòu)建于經(jīng)配置以將多媒體數(shù)據(jù)編碼供后續(xù)顯示的任一裝置中,且包括其中所展示幀會(huì)顯示運(yùn)動(dòng)圖像(例如,描繪移動(dòng)或變化圖像的相關(guān)聯(lián)幀的序列)或固定圖像(例如,不變化或慢速變化的圖像)及是否具有紋理或圖片的多媒體數(shù)據(jù)。更具體而言,本發(fā)明涵蓋某些實(shí)施例可構(gòu)建于各種可用于通信的電子裝置中或與所述各種電子裝置相關(guān)聯(lián),其例如(但不限于)移動(dòng)電話、無(wú)線裝置、個(gè)人數(shù)據(jù)助理(PDA)、手持或便攜式計(jì)算機(jī)及其他這類(lèi)經(jīng)配置以接收多媒體數(shù)據(jù)供顯示之用的有線或無(wú)線通信裝置。
將多媒體數(shù)據(jù)傳送至例如無(wú)線電話、PDA、膝上型計(jì)算機(jī)等客戶(hù)端裝置包括傳輸及處理大量數(shù)據(jù)。如果基于提供至編碼器的多媒體幀序列的內(nèi)容來(lái)對(duì)其分類(lèi),則多數(shù)多媒體應(yīng)用將在質(zhì)量方面提高獲益。在多媒體通信系統(tǒng)中存在大量其中內(nèi)容分類(lèi)(如果存在)可能有益的應(yīng)用。例如,內(nèi)容分類(lèi)可有益于確定對(duì)多媒體數(shù)據(jù)實(shí)施編碼以獲得預(yù)定觀看質(zhì)量所需的位速率,且其還可用于確定給定幀的最佳幀類(lèi)型。
所屬技術(shù)領(lǐng)域的技術(shù)人員應(yīng)了解,可使用眾多不同技術(shù)及技法中的任一種來(lái)表示信息及信號(hào)。例如,整個(gè)上述說(shuō)明中可能提及的數(shù)據(jù)、指令、命令、信息、信號(hào)、位、符號(hào)和碼片可由電壓、電流、電磁波、磁場(chǎng)或粒子、光場(chǎng)或粒子、或其任一組合來(lái)表示。
所屬技術(shù)領(lǐng)域的技術(shù)人員應(yīng)進(jìn)一步了解,結(jié)合本文所揭示實(shí)例闡述的各種例示性邏輯塊、模塊、及算法步驟可構(gòu)建為電子硬件、固件、計(jì)算機(jī)軟件、中間件、微代碼、或其組合。為清晰地顯示硬件與軟件的這一互換性,上文已就功能度來(lái)概述各種例示性組件、區(qū)塊、模塊、電路、及步驟。這種功能度是構(gòu)建為硬件還是軟件取決于特定應(yīng)用及施加于整個(gè)系統(tǒng)的設(shè)計(jì)制約條件。所屬技術(shù)領(lǐng)域的技術(shù)人員可針對(duì)每一特定應(yīng)用以不同的方式構(gòu)建所述功能度,但這種實(shí)施方案決不應(yīng)視為背離所揭示方法的范疇。
結(jié)合本文所揭示實(shí)例闡述的各種例示性邏輯塊、組件、模塊及電路可使用通用處理器、數(shù)字信號(hào)處理器(DSP)、應(yīng)用專(zhuān)用集成電路(ASIC)、現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)或其他可編程邏輯裝置、離散門(mén)或晶體管邏輯、離散硬件組件、或其設(shè)計(jì)用于執(zhí)行本文所述功能的任一組合來(lái)構(gòu)建或執(zhí)行。通用處理器可以是微處理器,但另一選擇為,處理器也可以是任一傳統(tǒng)處理器、控制器、微控制器或狀態(tài)機(jī)。處理器也可構(gòu)建為計(jì)算裝置的組合,例如,DSP與微處理器的組合、多個(gè)微處理器的組合、一個(gè)或多個(gè)微處理器與DSP核心的聯(lián)合,或任意其它這種配置。
結(jié)合本文所揭示實(shí)例闡述的方法或算法的步驟可直接實(shí)施于硬件中、由處理器執(zhí)行的軟件模塊中或二者的組合中。軟件模塊可常駐于RAM存儲(chǔ)器、閃存存儲(chǔ)器、ROM存儲(chǔ)器、EPROM存儲(chǔ)器、EEPROM存儲(chǔ)器、寄存器、硬盤(pán)、可抽換磁盤(pán)、CD-ROM、或所屬技術(shù)領(lǐng)域中已知的任一其他形式的存儲(chǔ)媒體中。實(shí)例性存儲(chǔ)媒體耦合至所述處理器,以便所述處理器可自所述存儲(chǔ)媒體讀取信息及向所述存儲(chǔ)媒體寫(xiě)入信息?;蛘撸龃鎯?chǔ)媒體可以是處理器的組成部分。處理器及存儲(chǔ)媒體可常駐于應(yīng)用專(zhuān)用集成電路(ASIC)中。ASIC可常駐于無(wú)線數(shù)據(jù)機(jī)中。另一選擇為,處理器及存儲(chǔ)媒體可作為離散組件常駐于無(wú)線數(shù)據(jù)機(jī)中。
上文對(duì)所揭示實(shí)例的說(shuō)明旨在使所屬技術(shù)領(lǐng)域的技術(shù)人員均可制作或利用所揭示方法與設(shè)備。所屬技術(shù)領(lǐng)域的技術(shù)人員將易知對(duì)這些實(shí)例的各種修改,且在不背離所揭示方法與裝置的精神或范疇的前提下,本文所界定的一般原理也可應(yīng)用于其他實(shí)例,且可添加其他元件。
權(quán)利要求
1.一種處理多媒體數(shù)據(jù)的方法,其包括
確定多媒體數(shù)據(jù)的復(fù)雜度;及
基于所述多媒體數(shù)據(jù)的復(fù)雜度來(lái)選擇多個(gè)解碼過(guò)程中的至少一個(gè)。
2.如權(quán)利要求1所述的方法,其中確定所述復(fù)雜度包括確定所述多媒體數(shù)據(jù)的空間復(fù)雜度及時(shí)間復(fù)雜度。
3.如權(quán)利要求2所述的方法,其中確定所述空間復(fù)雜度包括針對(duì)所述多媒體數(shù)據(jù)的至少一個(gè)區(qū)塊確定至少一個(gè)人的視覺(jué)靈敏度值。
4.如權(quán)利要求2所述的方法,其中確定所述空間復(fù)雜度包括針對(duì)所述多媒體數(shù)據(jù)的至少一個(gè)區(qū)塊確定至少一個(gè)對(duì)比率值。
5.如權(quán)利要求1所述的方法,其中確定所述復(fù)雜度包括確定所述多媒體數(shù)據(jù)的時(shí)間復(fù)雜度。
6.如權(quán)利要求5所述的方法,其中確定所述時(shí)間復(fù)雜度包括針對(duì)所述多媒體數(shù)據(jù)的至少一個(gè)區(qū)塊確定至少一個(gè)運(yùn)動(dòng)向量(MV)。
7.如權(quán)利要求6所述的方法,其中確定所述時(shí)間復(fù)雜度進(jìn)一步包括使絕對(duì)像素差的和與所述多媒體數(shù)據(jù)的至少一個(gè)區(qū)塊及參考區(qū)塊相關(guān)聯(lián)。
8.如權(quán)利要求5所述的方法,其中確定時(shí)間復(fù)雜度包括針對(duì)所述多媒體數(shù)據(jù)的至少一個(gè)區(qū)塊確定至少一個(gè)幀差值。
9.如權(quán)利要求8所述的方法,其中所述至少一個(gè)幀差值是針對(duì)所述多媒體數(shù)據(jù)的至少一個(gè)區(qū)塊確定的SAD_MV值。
10.如權(quán)利要求1所述的方法,基于所述多媒體數(shù)據(jù)的復(fù)雜度選擇多個(gè)解碼過(guò)程中的至少一個(gè)包括選擇下列中的任一者或其組合
對(duì)所述多媒體數(shù)據(jù)的幀中的選定幀進(jìn)行解碼;
隱藏所述多媒體數(shù)據(jù)的一部分;
內(nèi)插所述多媒體數(shù)據(jù)的至少一部分;
對(duì)所述多媒體數(shù)據(jù)中的至少一部分進(jìn)行后處理;及
基于所述確定的復(fù)雜度對(duì)所述多媒體數(shù)據(jù)進(jìn)行分類(lèi)。
11.如權(quán)利要求10所述的方法,其中對(duì)所述多媒體數(shù)據(jù)的幀中的選定幀進(jìn)行解碼包括選擇下列中的任一者或其組合
對(duì)基于空間復(fù)雜度的內(nèi)部幀進(jìn)行解碼;及
對(duì)基于時(shí)間復(fù)雜度的中間幀進(jìn)行解碼。
12.如權(quán)利要求10所述的方法,其中隱藏所述多媒體數(shù)據(jù)的一部分包括選擇下列中的任一者或其組合
基于空間復(fù)雜度隱藏內(nèi)部幀;及
基于時(shí)間復(fù)雜度隱藏中間幀。
13.如權(quán)利要求10所述的方法,其中內(nèi)插所述多媒體數(shù)據(jù)的至少一部分包括對(duì)下列中的任一者或其組合進(jìn)行解碼
基于空間復(fù)雜度以空間方式內(nèi)插內(nèi)部幀;及
基于時(shí)間復(fù)雜度以時(shí)間方式內(nèi)插中間幀。
14.如權(quán)利要求10所述的方法,其中對(duì)所述多媒體數(shù)據(jù)進(jìn)行后處理包括
選擇基于空間及時(shí)間復(fù)雜度中的一者或其組合的對(duì)比度增強(qiáng)過(guò)程、色彩增強(qiáng)過(guò)程、分辨率增強(qiáng)過(guò)程或幀速率增強(qiáng)過(guò)程中的一者或其組合;及
選擇基于空間及時(shí)間復(fù)雜度中的一者或其組合的噪音降低過(guò)程、噪音消除過(guò)程、偽像消除過(guò)程或偽像減少過(guò)程中的一者或其組合。
15.如權(quán)利要求10所述的方法,其中所述多媒體數(shù)據(jù)的分類(lèi)包括使用多個(gè)內(nèi)容分類(lèi)中的一者。
16.一種處理多媒體數(shù)據(jù)的設(shè)備,其包括
用于確定多媒體數(shù)據(jù)的復(fù)雜度的裝置;及
用于基于所述多媒體數(shù)據(jù)的復(fù)雜度選擇多個(gè)解碼過(guò)程中的一個(gè)的裝置。
17.如權(quán)利要求16所述的設(shè)備,其中用于確定所述復(fù)雜度的裝置包括用于確定所述多媒體數(shù)據(jù)的所述空間復(fù)雜度及所述視頻數(shù)據(jù)的所述時(shí)間復(fù)雜度的裝置。
18.如權(quán)利要求17所述的設(shè)備,其中用于確定所述空間復(fù)雜度的裝置包括用于針對(duì)所述多媒體數(shù)據(jù)的至少一個(gè)區(qū)塊確定至少一個(gè)人的視覺(jué)靈敏度值的裝置。
19.如權(quán)利要求17所述的設(shè)備,其中用于確定所述空間復(fù)雜度的裝置包括用于針對(duì)所述多媒體數(shù)據(jù)的至少一個(gè)區(qū)塊確定至少一個(gè)對(duì)比率值的裝置。
20.如權(quán)利要求16所述的設(shè)備,其中用于確定所述復(fù)雜度的裝置包括用于確定所述多媒體數(shù)據(jù)的所述時(shí)間復(fù)雜度的裝置。
21.如權(quán)利要求20所述的設(shè)備,其中用于確定所述時(shí)間復(fù)雜度的裝置包括用于針對(duì)所述多媒體數(shù)據(jù)的至少一個(gè)區(qū)塊確定至少一個(gè)運(yùn)動(dòng)向量(MV)的裝置。
22.如權(quán)利要求20所述的設(shè)備,其中用于確定所述時(shí)間復(fù)雜度的裝置進(jìn)一步包括使絕對(duì)像素差的和與所述多媒體數(shù)據(jù)的至少一個(gè)區(qū)塊及參考區(qū)塊相關(guān)聯(lián)。
23.如權(quán)利要求20所述的設(shè)備,其中用于確定時(shí)間復(fù)雜度的裝置包括用于針對(duì)所述多媒體數(shù)據(jù)的至少一個(gè)區(qū)塊確定至少一個(gè)幀差值的裝置。
24.如權(quán)利要求23所述的設(shè)備,其中所述至少一個(gè)幀差值是針對(duì)所述多媒體數(shù)據(jù)的至少一個(gè)區(qū)塊確定的SAD_MV值。
25.如權(quán)利要求16所述的設(shè)備,其中用于基于所述多媒體數(shù)據(jù)的復(fù)雜度選擇一組解碼過(guò)程的裝置包括選擇下列中的任一者或其組合
用于對(duì)所述多媒體數(shù)據(jù)的幀中的選定幀進(jìn)行解碼的裝置;
用于隱藏所述多媒體數(shù)據(jù)的一部分的裝置;
用于內(nèi)插所述多媒體數(shù)據(jù)的至少一部分的裝置;
用于對(duì)所述多媒體數(shù)據(jù)中的至少一部分進(jìn)行后處理的裝置;及
用于基于所述確定的復(fù)雜度對(duì)所述多媒體數(shù)據(jù)進(jìn)行分類(lèi)的裝置。
26.如權(quán)利要求25所述的設(shè)備,其中用于對(duì)所述多媒體數(shù)據(jù)的幀中的選定幀進(jìn)行解碼的裝置包括選擇下列中的任一者或其組合
對(duì)基于所述空間復(fù)雜度的內(nèi)部幀進(jìn)行解碼;及
對(duì)基于所述時(shí)間復(fù)雜度的中間幀進(jìn)行解碼。
27.如權(quán)利要求25所述的設(shè)備,其中用于隱藏所述多媒體數(shù)據(jù)的一部分的裝置包括選擇下列中的任一者或其組合
用于基于所述空間復(fù)雜度隱藏內(nèi)部幀的裝置;及
用于基于所述時(shí)間復(fù)雜度隱藏中間幀的裝置。
28.如權(quán)利要求25所述的設(shè)備,其中用于內(nèi)插所述多媒體數(shù)據(jù)的至少一部分的裝置包括選擇下列中的任一者或其組合
用于基于所述空間復(fù)雜度以空間方式內(nèi)插內(nèi)部幀的裝置;及
用于基于所述時(shí)間復(fù)雜度以時(shí)間方式內(nèi)插中間幀的裝置。
29.如權(quán)利要求25所述的設(shè)備,其中用于對(duì)所述多媒體數(shù)據(jù)進(jìn)行后處理的裝置包括選擇下列中的任一者或其組合
基于空間及時(shí)間復(fù)雜度中的一者或其組合的對(duì)比度增強(qiáng)過(guò)程、色彩增強(qiáng)過(guò)程、分辨率增強(qiáng)過(guò)程或幀速率增強(qiáng)過(guò)程;及
基于空間及時(shí)間復(fù)雜度中的一者或其組合的噪音降低過(guò)程、噪音消除過(guò)程、偽像消除過(guò)程或偽像減少過(guò)程。
全文摘要
文檔編號(hào)H04N7/26GK101697591SQ20091020667
公開(kāi)日2010年4月21日 申請(qǐng)日期2006年3月10日 優(yōu)先權(quán)日2005年3月10日
發(fā)明者維賈雅拉克希米·R·拉韋恩德拉恩, 帕尼庫(kù)馬爾·巴米迪帕蒂, 戈登·肯特·沃克 申請(qǐng)人:高通股份有限公司