專利名稱:用于多媒體處理的內(nèi)容分類的制作方法
技術(shù)領(lǐng)域:
本發(fā)明的領(lǐng)域涉及通過壓縮算法以基于多媒體數(shù)據(jù)的內(nèi)容實施分析、分類、量化及表示多媒體數(shù)據(jù)的多媒體數(shù)據(jù)處理。
背景技術(shù):
因特網(wǎng)和無線通信的廣泛使用已擴大了對通過因特網(wǎng)和移動/無線信道流注媒體的多媒體服務(wù)的需要。在因特網(wǎng)協(xié)議(IP)網(wǎng)絡(luò)中,多媒體數(shù)據(jù)可由服務(wù)器提供,且可由一個或多個有線或無線客戶端流化。有線連接包括撥號、集成服務(wù)數(shù)字網(wǎng)絡(luò)(ISDN)、電纜、數(shù)字用戶線路協(xié)議(統(tǒng)稱為xDSL)、光纖、局域網(wǎng)絡(luò)(LAN)、廣域網(wǎng)絡(luò)(WAN)及其他網(wǎng)絡(luò)。利用無線通信的電子裝置包括電話(例如蜂窩式電話)、個人數(shù)據(jù)助理(PDA)、手持式及便攜式計算機及其他裝置。在多數(shù)(如果不是全部)這種應(yīng)用中,帶寬需求及/或約束迫使多媒體數(shù)據(jù)處理利用源編碼器集成多媒體壓縮算法來分析、量化及表示多媒體數(shù)據(jù),以通過花費“最小”數(shù)量的位來傳達(dá)最多信息。這些算法的特征發(fā)生明顯變化,從而導(dǎo)致其性能(例如壓縮效率及位速率)的大范圍變化。使用壓縮算法的多媒體處理特征可基于內(nèi)容而發(fā)生明顯變化,從而可導(dǎo)致其性能(例如壓縮效率及位速率)的大范圍變化。
某些多媒體數(shù)據(jù)處理方案使用某些類型的信息將多媒體數(shù)據(jù)分類。通常,圖像分類算法是基于某一形式的圖像分割方法。在針對MPEG-7的MPEG中已建議圖像聚類算法(光聚類)。文中當(dāng)前建議及闡述的圖像分類算法是基于多媒體數(shù)據(jù)的數(shù)學(xué)及統(tǒng)計方面。用于對多媒體數(shù)據(jù)實施處理及編碼的改進方法及裝置可在有線及無線通信二者中具有大范圍的應(yīng)用,且其可有利于在所屬技術(shù)領(lǐng)域中利用及/或修改這種處理的特征以便開發(fā)其特征以改進現(xiàn)有產(chǎn)品并創(chuàng)造尚未開發(fā)的新產(chǎn)品。
發(fā)明內(nèi)容
本發(fā)明的設(shè)備及方法的每一者均具有數(shù)個方面,任一單個方面均不能單獨決定其合意特征。在不限定本發(fā)明范疇的前提下,現(xiàn)將簡要論述其主要特性。在考慮這一論述后,且尤其在讀取名稱為“具體實施方式
”的部分后,我們將了解如何改進多媒體數(shù)據(jù)處理設(shè)備及方法的特性。
在一個方面中,一種處理多媒體數(shù)據(jù)的方法包括確定多媒體數(shù)據(jù)的復(fù)雜度、基于所確定的復(fù)雜度將所述多媒體數(shù)據(jù)分類、及基于其分類確定用于對多媒體數(shù)據(jù)實施解碼的位速率。所述方法還可以包括確定多媒體數(shù)據(jù)的空間復(fù)雜度及時間復(fù)雜度,且將多媒體數(shù)據(jù)分類可包括使空間復(fù)雜度與紋理值相關(guān)聯(lián),使時間復(fù)雜度與運動值相關(guān)聯(lián),及基于所述紋理值及運動值為所述多媒體數(shù)據(jù)指配內(nèi)容分類。
在另一方面中,一種用于處理多媒體數(shù)據(jù)的設(shè)備包括用于確定多媒體數(shù)據(jù)的復(fù)雜度的構(gòu)件,用于基于所確定的復(fù)雜度將多媒體數(shù)據(jù)分類的構(gòu)件,及用于基于其分類確定用于對多媒體數(shù)據(jù)實施編碼的位速率的構(gòu)件。
在另一方面中,一種經(jīng)配置以處理多媒體數(shù)據(jù)的裝置包括處理器,所述處理器經(jīng)配置以去誒多能工多媒體數(shù)據(jù)的復(fù)雜度,經(jīng)配置以基于所確定的復(fù)雜度將多媒體數(shù)據(jù)分類,及進一步經(jīng)配置以基于其分類確定用于對多媒體數(shù)據(jù)實施編碼的位速率。
在另一方面中,一種用于實施一種用于處理多媒體數(shù)據(jù)的方法的計算機可讀媒體包括確定多媒體數(shù)據(jù)的復(fù)雜度,基于所確定的復(fù)雜度將多媒體數(shù)據(jù)分類,及基于其分類確定用于將多媒體數(shù)據(jù)分類的位速率。
在另一方面中,一種用于處理多媒體數(shù)據(jù)的設(shè)備包括第一確定器,以確定多媒體數(shù)據(jù)的復(fù)雜度;內(nèi)容分類器,以基于所確定的復(fù)雜度將多媒體數(shù)據(jù)分類;及第二確定器,用于基于其分類確定用于對多媒體數(shù)據(jù)實施編碼的位速率。在某些方面中,所述復(fù)雜度包括多媒體數(shù)據(jù)的空間復(fù)雜度及/或多媒體數(shù)據(jù)的時間復(fù)雜度,且所述多媒體數(shù)據(jù)的分類可基于所述空間復(fù)雜度及/或時間復(fù)雜度。
在再一方面中,一種用于處理多媒體數(shù)據(jù)的方法及設(shè)備包括用于確定多媒體數(shù)據(jù)的復(fù)雜度的方法或裝置;及基于所確定的復(fù)雜度將多媒體數(shù)據(jù)分類的方法或裝置。一種用于處理多媒體數(shù)據(jù)的方法及設(shè)備可包括用于確定多媒體數(shù)據(jù)復(fù)雜度的方法或裝置;及基于所確定的復(fù)雜度從至少一個多媒體過程中實施選擇的方法或裝置。一種用于處理多媒體數(shù)據(jù)的方法及設(shè)備可包括用于確定多媒體數(shù)據(jù)復(fù)雜度的方法或裝置;及基于所述多媒體數(shù)據(jù)復(fù)雜度來選擇一組編碼過程的方法或裝置。一種用于處理多媒體數(shù)據(jù)的方法及設(shè)備可包括用于基于所確定復(fù)雜度將多媒體數(shù)據(jù)分類的方法或裝置;及基于其分類確定用于對多媒體數(shù)據(jù)實施編碼的位速率的方法或裝置。一種用于處理多媒體數(shù)據(jù)的方法及設(shè)備可包括用于確定多媒體數(shù)據(jù)復(fù)雜度的方法或裝置;及基于所述多媒體數(shù)據(jù)復(fù)雜度來選擇一組解碼過程。一種用于處理多媒體數(shù)據(jù)的方法及設(shè)備可包括用于確定多媒體數(shù)據(jù)復(fù)雜度的方法或裝置;基于所確定復(fù)雜度將多媒體數(shù)據(jù)分類及基于所述多媒體數(shù)據(jù)的分類選擇一組解碼過程的方法或裝置。應(yīng)注意,所述方法及設(shè)備可由計算機可讀媒體及/或處理器實施。
圖1是用于對串流式多媒體數(shù)據(jù)實施編碼及解碼的一般通信系統(tǒng)的方塊圖, 圖2是圖解說明傳統(tǒng)MPEG-4簡單規(guī)范數(shù)據(jù)流的圖式, 圖3圖解說明MPEG-4中的P幀構(gòu)建過程的實例, 圖4是內(nèi)容分類組件的方塊圖, 圖5是視頻幀中一組宏塊的示意圖,其圖解說明每一宏塊的平均值, 圖6是圖解說明基于紋理及運動值的圖像分類實例的圖表, 圖7是使用內(nèi)容分類曲線及視覺感知質(zhì)量值來確定位速率的實例的圖式, 圖8是圖解說明用于將多媒體數(shù)據(jù)分類的過程的流程圖,及 圖9是圖解說明用于基于其內(nèi)容分類對多媒體數(shù)據(jù)實施編碼的過程的流程圖。
圖10是圖解說明多個多媒體流或信道的編碼的系統(tǒng)圖式。
圖11是圖解說明運動補償?shù)膱D式。
圖12是圖解說明大λ的預(yù)加重的圖式。
具體實施例方式 下列詳細(xì)闡述旨在某些可使用的實施例。然而,所揭示實施例可以多種不同的方式實施。在本說明書中所提及的“一個實施例”或“實施例”意指結(jié)合所述實施例闡述的特定特性、結(jié)構(gòu)或特征包含于至少一個實施例中。在本說明書中不同位置處出現(xiàn)的用語“在一實施例中”、“根據(jù)一實施例”或“在某些實施例中”未必均指相同實施例,但也不排斥其他實施例的單獨或替代實施例。此外,本文闡述可由某些實施例而非其他實施例表現(xiàn)出的各種特征。同樣,本文闡述可能為某些實施例所要求而不為其他實施例所要求的各種要求。
下列說明包括細(xì)節(jié)以提供對所述實例的透徹了解。然而,所屬技術(shù)領(lǐng)域的技術(shù)人員應(yīng)了解,即使本文未闡述或圖解說明實例或?qū)嵤├械奶幚砥骰蜓b置的每一細(xì)節(jié),所述實例仍可實行。例如,方塊圖中可顯示電組件而不圖解說明所述組件的每一電連接或每一電元件,以避免以不必要的細(xì)節(jié)淡化所述實例。于其他示例中,可詳細(xì)顯示這些組件、其它結(jié)構(gòu)及技術(shù)以進一步解釋所述實例。
本文闡述用于對多媒體數(shù)據(jù)實施編碼的設(shè)備及方法的實例,其中利用基于所述多媒體數(shù)據(jù)的內(nèi)容將多媒體數(shù)據(jù)分類為不同種類(例如,一個或多個內(nèi)容分類)。所述方法及設(shè)備提供用于基于下列步驟對多媒體數(shù)據(jù)實施編碼的技術(shù)確定多媒體數(shù)據(jù)的空間及時間特征,及基于其復(fù)雜度特征的一者或多者將多媒體數(shù)據(jù)分類。這些方法及設(shè)備使得能夠基于多媒體數(shù)據(jù)的內(nèi)容類別來“調(diào)諧”多媒體數(shù)據(jù)處理及壓縮算法,以優(yōu)化用于使用內(nèi)容信息對多媒體數(shù)據(jù)實施編碼并高效地遞送人眼感知的多媒體數(shù)據(jù)的所需質(zhì)量等級或另一質(zhì)量等級量度的方法及設(shè)備。
本文使用的“多媒體數(shù)據(jù)”是包括視頻數(shù)據(jù)(其可包括音頻數(shù)據(jù))、音頻數(shù)據(jù)、或視頻數(shù)據(jù)與音頻數(shù)據(jù)二者的廣義術(shù)語。本文用作廣義術(shù)語的“視頻數(shù)據(jù)”或“視頻”涉及包含文本或圖像信息及/或音頻數(shù)據(jù)的圖像序列,且可用于涉及多媒體數(shù)據(jù)(例如,所述術(shù)語可交互使用),除非另外指定。
多媒體編譯碼器系統(tǒng)一般并不考慮不同類型的內(nèi)容。而是,針對所有內(nèi)容類型以類似方式完成編碼。通常,以恒定質(zhì)量或恒定位速率對多媒體數(shù)據(jù)實施編碼。以恒定位速率編碼會導(dǎo)致為低活性部分及高活性部分編碼的視頻的質(zhì)量差異。例如,包含體育剪輯的新聞序列可通過為每一部分分配相同數(shù)量的位來編碼。再觀看時,體育剪輯部分將會看起來比談話頭像部分的質(zhì)量低,且總的結(jié)果可能不可接受。以恒定質(zhì)量編碼會導(dǎo)致位速率的低效使用。以高質(zhì)量對低活性視頻實施編碼會使用不必要的高位速率,從而導(dǎo)致浪費帶寬。通過基于視頻序列中的紋理及運動將多媒體數(shù)據(jù)分類,而非僅基于所述序列中一般類型的內(nèi)容,可基于所述特定數(shù)據(jù)的實際紋理化運動在所述序列上調(diào)整位速率。內(nèi)容分類可用于大量應(yīng)用中,以導(dǎo)致較佳的位管理及可用位預(yù)算的更智能使用。例如,在某些實施例中,可使用內(nèi)容分類用于視頻數(shù)據(jù)的場景變換檢測。
多媒體數(shù)據(jù)通信 傳送至客戶端裝置的多媒體數(shù)據(jù)通常是經(jīng)壓縮的。一對稱作MPEG-x及H26x的視頻編碼標(biāo)準(zhǔn)闡述很好地適用于使用固定或可變長度源編碼技術(shù)壓縮及傳送視頻、音頻及其它信息的數(shù)據(jù)處理及操縱技術(shù)(本文稱作混合編碼)。具體來說,上述標(biāo)準(zhǔn)及其它混合編碼標(biāo)準(zhǔn)及技術(shù)例示性地使用幀內(nèi)編碼技術(shù)(例如,運行長度編碼、哈夫曼(Huffman)編碼及類似方法)及幀間編碼技術(shù)(例如,正向及反向預(yù)測編碼、運動補償及類似方法)來壓縮多媒體信息。具體來說,在多媒體處理系統(tǒng)的情形中,混合多媒體編碼系統(tǒng)是以通過使用幀內(nèi)及/或幀間運動補償編碼對多媒體幀實施基于預(yù)測的壓縮編碼為特征的。至少部分地基于內(nèi)容分類的編碼可集成于這種壓縮算法中,以進一步優(yōu)化多媒體處理。盡管本文所述實例是針對視頻編碼標(biāo)準(zhǔn)MPEG及H.26x來寫的,但其他視頻編碼標(biāo)準(zhǔn)的類似使用也是適用的。
幀內(nèi)編碼是指無需參考任一其它圖片而將圖片(字段或幀)編碼,但內(nèi)部編碼的圖片可用作其它圖片的參考。術(shù)語幀內(nèi)(Intra-frame)、內(nèi)部編碼的幀(Intra-coded frame)及I幀均是使用貫穿本申請案使用的內(nèi)部編碼而形成的視頻對象實例。。
中間或預(yù)測編碼是指參照另一圖片而將圖片(字段或幀)編碼。與內(nèi)部編碼的圖片相比,可以更高的效率對中間編碼或預(yù)測的圖片實施編碼。將貫穿本申請案使用的中間編碼圖片的實例是預(yù)測幀(正向或反向預(yù)測,也稱作P幀)、及雙向預(yù)測幀(也稱作B幀)。用于中間編碼的其它術(shù)語包括高通編碼、剩余編碼、運動補償插值及所屬技術(shù)領(lǐng)域的技術(shù)人員熟知的其它方法。
稱作可縮放編碼的技術(shù)可將內(nèi)部編碼的圖片及不同的中間編碼圖片(例如P幀或B幀)劃分至位流中的不同層內(nèi),例如基礎(chǔ)層及加強層??煽s放編碼適用于動態(tài)信道,其中可縮放位流可經(jīng)調(diào)適以匹配網(wǎng)絡(luò)帶寬的波動。在易出錯信道中,可縮放編碼可通過對基礎(chǔ)層及加強層實施非均衡錯誤保護來增加穩(wěn)健性??蓪^重要的層應(yīng)用較佳的錯誤保護。
編碼多媒體數(shù)據(jù) 圖1是用于對多媒體數(shù)據(jù)內(nèi)容實施分類、編碼、通信及對此種數(shù)據(jù)實施解碼的一般通信系統(tǒng)的方塊圖。系統(tǒng)100包括編碼器裝置105及解碼器裝置110。編碼器裝置105包括編碼器組件185,編碼器組件185包括內(nèi)部編碼器組件115及預(yù)測編碼器組件120。編碼器裝置105進一步包括存儲器組件130、通信組件175及內(nèi)容分類器組件190。編碼器裝置105能夠使用包含于通信組件175中的通信邏輯自外部源135接收數(shù)據(jù)。外部源135可以是(例如)外部存儲器、因特網(wǎng)、現(xiàn)場視頻及/或音頻饋送,且接收所述數(shù)據(jù)可包括有線及/或無線通信。包含于外部源135中的數(shù)據(jù)可以是原始(未編碼)格式或經(jīng)編碼狀態(tài)。內(nèi)部編碼器組件115用于對幀(數(shù)據(jù)片、宏塊及子宏塊)的內(nèi)部編碼部分實施編碼。預(yù)測編碼器組件120用于對幀的包括正向預(yù)測、反向預(yù)測及雙向預(yù)測的預(yù)測部分實施編碼。在編碼之后,將已編碼的幀存儲于存儲器組件130或外部存儲器內(nèi)。所述外部存儲器可包含于外部源135中,或是單獨的存儲器組件(未顯示)。
編碼器裝置105包括與編碼器裝置105中的存儲器組件130及一個或多個其他組件通信的處理器187。處理器187可執(zhí)行編碼器的任一其他組件的處理,且可包含主編碼過程。在某些實施例中,處理器187可能不是單獨組件(如圖所示),相反,所述處理器功能可集成于編碼器105的其他組件的一者或多者中。
通信組件175包括用于結(jié)合網(wǎng)絡(luò)140實施數(shù)據(jù)傳輸(Tx)的邏輯。網(wǎng)絡(luò)140可以是例如電話、電纜及光纖的有線系統(tǒng)或無線系統(tǒng)的一部分。在無線通信系統(tǒng)的清醒中,網(wǎng)絡(luò)140可包括例如碼分多址(CDMA或CDMA2000)通信系統(tǒng)的一部分,或者另一選擇為,所述系統(tǒng)可以是頻分多址(FDMA)系統(tǒng)、正交頻分復(fù)用(OFDMA)系統(tǒng)、例如用于服務(wù)行業(yè)的GSM/GPRS(通用封包無線電服務(wù))/EDGE(增強數(shù)據(jù)GSM環(huán)境)或TETRA(地面中繼無線電)移動電話技術(shù)等時分多址(TDMA)系統(tǒng)、寬帶碼分多址(WCDMA)、高數(shù)據(jù)傳輸率(1xEV-DO或1xEV-DO金牌多播)系統(tǒng)、或一般而言任一使用各技術(shù)的組合的無線通信系統(tǒng)。在網(wǎng)絡(luò)140上傳輸(Tx)所述已編碼幀。下文將更全面地闡述由編碼器裝置105實施的編碼過程。
內(nèi)容分類組件190包含用于確定自外部源135接收的多媒體數(shù)據(jù)的數(shù)據(jù)內(nèi)容分類的邏輯。為對多媒體數(shù)據(jù)進行分類,人的視力模型可用于量化人眼相對于圖像及/或運動圖像序列中的視覺信號空間及/或時間上下文對其亮度擾動的敏感度。還考慮了人眼的空間及時間屏蔽效應(yīng)。一個方面包括使用運動估計或區(qū)塊匹配算法來表示視頻的時間方面。關(guān)于多媒體數(shù)據(jù)的信息(例如,視頻數(shù)據(jù)的空間及時間復(fù)雜度值)可由編碼器105的一個或多個組件確定,并結(jié)合視頻的空間及運動效應(yīng)感知性使用以將視頻數(shù)據(jù)內(nèi)容分類為兩個或更多個類別。這種分類可用于預(yù)/后處理及壓縮(例如,場景變換檢測、速率控制、FRUC)算法中。內(nèi)容分類向編碼器105提供關(guān)于在即將到來的視頻數(shù)據(jù)(例如,超幀)中想要哪一類型的內(nèi)容的可靠估計,以便編碼器105可基于所述內(nèi)容分類并出于其他幀類型決策的目的確定適合的位速率分配供實現(xiàn)特定等級的視覺感知質(zhì)量。超幀是一組針對預(yù)定時間周期或窗口的媒體數(shù)據(jù)-通常等于相當(dāng)于一秒的數(shù)據(jù),其用作用于確定內(nèi)容分類、傳輸及任一其他目的的單元。內(nèi)容分類可基于人眼可察覺的多媒體數(shù)據(jù)的特征,例如空間復(fù)雜度及時間復(fù)雜度。多媒體處理算法可經(jīng)優(yōu)化以用于各種內(nèi)容類型,并在其編碼及傳送多媒體數(shù)據(jù)的性能方面提供可靠性及控制。
編碼器組件185可提供(例如,宏塊的)處理信息供內(nèi)容分類組件190使用。例如,編碼器組件185可計算來自多媒體數(shù)據(jù)的信息,其中包括例如Dcsat值、對比定量值、運動向量(MV)等人的視覺靈敏度度量及絕對像素差(SAD)的和。編碼器組件185可將這一信息存儲至存儲器組件130,從而使其可由內(nèi)容分類組件190找回,以確定多媒體數(shù)據(jù)的空間及時間復(fù)雜度、確定數(shù)據(jù)的紋理及運動、及隨后確定所產(chǎn)生的內(nèi)容分類。在另一方面中,內(nèi)容分類組件190或例如處理器187等另一組件計算來自多媒體數(shù)據(jù)的這一信息的至少一部分。
解碼過程 解碼器裝置110包含與編碼器裝置105中的某些組件類似的組件,其包括內(nèi)部解碼器組件145、預(yù)測解碼器組件150、存儲器組件160、處理器167及通信組件180。解碼器裝置110接收已在網(wǎng)絡(luò)140上或自外部存儲器165傳輸?shù)囊丫幋a數(shù)據(jù)。通信組件180包括用于結(jié)合網(wǎng)絡(luò)140接收(Rx)已編碼數(shù)據(jù)的邏輯,以及用于自外部存儲器165接收已編碼數(shù)據(jù)的邏輯。外部存儲器165可以是(例如)外部RAM或ROM、或遠(yuǎn)程服務(wù)器。內(nèi)部解碼器組件145用于對內(nèi)部編碼的數(shù)據(jù)實施解碼。預(yù)測解碼器組件150用于對中間編碼的數(shù)據(jù)實施解碼。處理器17與解碼器裝置110中的存儲器組件160及其他組件的一者或多者通信。處理器167可執(zhí)行對解碼器的任一其他組件的處理,且可包含主解碼過程。預(yù)測解碼器組件150對P幀(經(jīng)正向或反向預(yù)測)以及B幀二者實施解碼??衫糜糜趯幀實施解碼的相同子組件使用多個參考依序?qū)幀實施解碼。用于B幀的多個參考可位于正向及反向參考幀內(nèi)、同處于相同參考幀內(nèi)、同處于單獨正向幀內(nèi)或同處于反向參考幀內(nèi)。
在解碼后,可使用顯示組件170來顯示所述經(jīng)解碼幀,或?qū)⑵浯鎯τ趦?nèi)部存儲器160或外部存儲器165中。顯示組件170可以是包括這些部分(包括一顯示屏幕)作為視頻顯示硬件及邏輯的解碼裝置的集成部分,或其可以是外部周邊裝置。下文將更全面地闡述由解碼器裝置110實施的解碼過程。
編碼實例-MPEG 在典型的MPEG解碼器中,參照參考幀(其中內(nèi)部幀或另一預(yù)測幀可充當(dāng)參考幀)對預(yù)測編碼像素區(qū)塊(例如,包括一個或多個運動向量及剩余錯誤組份的區(qū)塊)實施解碼。圖2是圖解說明傳統(tǒng)MPEG-4簡單規(guī)范數(shù)據(jù)流的圖式,其描繪圖片組(GOP)的幀相依性。GOP 10由初始I幀12后跟數(shù)個正向預(yù)測P幀14構(gòu)成。由于P幀對前一I或P幀的相依性,任一P幀14的丟失可能導(dǎo)致丟失可能對將其他P幀解碼至關(guān)重要的信息。P幀的丟失或消除可能導(dǎo)致(例如)視頻抖動或解碼器在標(biāo)記下一GOP開始的下一I幀16之前不能繼續(xù)解碼。
P幀(或任何中間編碼段)可利用當(dāng)前圖片中的區(qū)域與參考圖片中的最佳匹配預(yù)測區(qū)域之間的暫時冗余。所述當(dāng)前區(qū)域與所述最佳匹配參考預(yù)測區(qū)域之間的差稱為剩余錯誤(或預(yù)測錯誤)。所述參考幀內(nèi)的最佳匹配預(yù)測區(qū)域的位置可編碼于運動向量內(nèi)。處理器167可執(zhí)行解碼器110的任一其他組件的處理,且可包含主解碼過程。在某些實施例中,處理器167可能不是單獨組件,而是,所述處理器功能可集成于解碼器110的一個或多個其他組件中。
圖3圖解說明(例如)MPEG-4中的P幀構(gòu)造過程的實例。過程300包括由5×5個宏塊組成的當(dāng)前圖片305,其中這一實例中的宏塊數(shù)量是任意的。宏塊是相關(guān)聯(lián)像素的組群,且在這一實例中由16×16個像素組成。像素可由8位亮度值(Y)及兩個8位色度值(Cr及Cb)界定。在MPEG中,可以4:2:0格式存儲Y、Cr及Cb組份,其中Cr及Cb組份沿X及Y方向按2倍縮減取樣。因而,每一宏塊均將由256個Y組份、64個Cr組份及64個Cb組份組成。
在不同于當(dāng)前圖片305的時間點處根據(jù)參考圖片310預(yù)測當(dāng)前圖片305的宏塊315。在參考圖片310中進行搜尋以定位在Y、Cr及Cb值上最接近于正被編碼的當(dāng)前宏塊315的最佳匹配宏塊320。所屬技術(shù)領(lǐng)域的技術(shù)人員熟知的用于搜尋最佳匹配宏塊320的方法包括a)將當(dāng)前宏塊315與參考圖片310宏塊之間的SAD(絕對像素差的和)最小化;b)將SSD(平方像素差的和)最小化;及c)將速率失真感測及其它方面的成本最小化。將參考圖片310內(nèi)的最佳匹配宏塊320的位置編碼于運動向量325中。參考圖片310可以是解碼器將在構(gòu)造當(dāng)前圖片305之前重構(gòu)的I幀或P幀。自當(dāng)前宏塊315中減去最佳匹配宏塊320(計算每一Y、Cr及Cb組份的差),從而導(dǎo)致剩余錯誤330。使用2D離散余弦轉(zhuǎn)換(DCT)335將剩余錯誤330編碼及隨后量化340。
可實施量化340以通過(例如)向高頻系數(shù)分配較少的位同時向低頻系數(shù)分配較多的位來提供空間壓縮。剩余錯誤330的所述經(jīng)量化系數(shù)與運動向量325及參考圖片310標(biāo)識信息一起均是表示當(dāng)前宏塊315的已編碼信息。所述已編碼信息可存儲于存儲器中,供將來使用或出于(例如)錯誤修正或圖像增強的目的來操作或在網(wǎng)絡(luò)345上傳輸。
剩余錯誤330的所述已編碼的經(jīng)量化系數(shù)與已編碼的運動向量325一起可用于重構(gòu)所述編碼器中的當(dāng)前宏塊315,以用作接續(xù)的運動估計及補償?shù)膮⒖紟囊徊糠?。所述編碼器可模仿解碼器的過程用于這一P幀重建。所述解碼器的模仿可導(dǎo)致編碼器與解碼器二者使用同一參考圖片工作。本文提供所述重建過程,無論其是在編碼器中實施以用于進一步的中間編碼還是在解碼器中實施??稍谥亟ㄋ鰠⒖紟?或正被參考的圖片或幀的一部分)之后開始重建P幀。解量化350所述已編碼的經(jīng)量化系數(shù),且隨后實施2D反向DCT或IDCT 355,從而產(chǎn)生經(jīng)解碼或經(jīng)重建的剩余錯誤360。已編碼運動向量325用于在已重建的參考圖片310中定位已重建的最佳匹配宏塊365。然后,將經(jīng)重建的剩余錯誤360添加至已重建的最佳匹配宏塊365以形成已重建宏塊370。經(jīng)重建的宏塊470可存儲于存儲器內(nèi)、單獨地或與其它經(jīng)重建宏塊一起顯示于圖片中或進一步處理供圖片增強之用。
多媒體數(shù)據(jù)的內(nèi)容分類 圖4是圖1中圖解說明的內(nèi)容分類組件190的方塊圖。內(nèi)容分類組件190包括復(fù)雜度組件192,其經(jīng)配置以確定多媒體數(shù)據(jù)的空間復(fù)雜度及時間復(fù)雜度,且還使得紋理值與空間復(fù)雜度相關(guān)聯(lián)及使得運動值與時間復(fù)雜度相關(guān)聯(lián)。對于正被編碼的多媒體數(shù)據(jù),內(nèi)容分類組件190自存儲器130取回關(guān)于數(shù)據(jù)內(nèi)容的已預(yù)處理信息。這一信息可包括(例如)一個或多個Dcsat值、對比率值、運動向量(MV)及絕對差的和(SAD)。在其中這一信息未被預(yù)處理器確定的方面中(例如,圖1所示編碼器組件185或處理器187),分類組件190可包括計算這一信息的功能。
一般來說,多媒體數(shù)據(jù)包括一個或多個序列的圖像或幀。每一幀可被分解為多個像素區(qū)塊供處理之用??臻g復(fù)雜度是一般闡述幀內(nèi)的空間細(xì)節(jié)等級的量度的廣義術(shù)語。具有大致平滑或無變化或低變化的亮度及色度區(qū)域的場景可具有低空間復(fù)雜度。空間復(fù)雜度與視頻數(shù)據(jù)的紋理相關(guān)聯(lián)。在這一方面中,空間復(fù)雜度是基于稱作Dcsat的人的視力靈敏度度量,其中計算每一區(qū)塊的Dcsat以作為本地空間頻率及周圍照明的函數(shù)。所屬技術(shù)領(lǐng)域的技術(shù)人員了解用于使用空間頻率圖案及照明的技術(shù),并對比可視圖像的特征以利用人的視覺系統(tǒng)。大量靈敏度度量已知用于利用人的視覺系統(tǒng)的可察覺限制,且可借助本文所述方法來使用。
時間復(fù)雜度是一般用于闡述在幀序列內(nèi)各幀之間參考的多媒體數(shù)據(jù)中的運動等級量度的廣義術(shù)語。幾乎或完全沒有運動的場景(例如,視頻數(shù)據(jù)的幀序列)具有較低時間復(fù)雜度。時間復(fù)雜度可針對每一宏塊來計算,且可基于Dcsat值、運動向量及一個幀與另一幀(例如,參考幀)之間的絕對像素差的和。
場景變換檢測 場景變換檢測是用于任何視頻編碼系統(tǒng)自身以智能方式保持位而不通過以固定時間間隔內(nèi)插I幀來浪費位的必要步驟。下列說明顯示可如何檢測場景變換及其隨之在內(nèi)容分類中的使用。
GOP的長度可足夠長以減少大I幀的效率損失,且足夠短以反對編碼器與解碼器之間的不匹配或信道減損。另外,P幀中的宏塊(MB)可出于同一原因而被內(nèi)部編碼。
在實際的流式視頻系統(tǒng)中,通信信道通常因位誤差或分組丟失而減損。放置I幀或I MB的位置可顯著影響已解碼視頻質(zhì)量及觀看經(jīng)歷?;驹瓌t是對與所配置的先前圖片或圖片部分具有明顯變化的圖片或圖片部分使用內(nèi)部編碼。這些區(qū)域不能使用運動估計而有效及高效地預(yù)知。因此,其可能免除使用中間編碼技術(shù)。在信道減損的上下文中,所述區(qū)域可能遭受誤差傳播。內(nèi)部編碼可用于減少誤差傳播。
需要內(nèi)部更新的區(qū)域可被分類為三種類別。
(1)突然場景變換這一類別包括與前一幀明顯不同的幀,通常由于照相機操作而導(dǎo)致。由于這些幀的內(nèi)容不同于前一幀的內(nèi)容,則突變場景變換幀可被編碼為I幀。
(2)漸隱及其他慢場景變換這一類別包括場景慢速切換,通常由于照相機拍攝的計算機處理而導(dǎo)致。兩個不同場景的漸進混合可能在人類看起來更賞心悅目,但對視頻編碼來說是挑戰(zhàn)。運動補償可能不會有效降低所述幀的位速率。需要更新這些幀中的更多內(nèi)部MB。
(3)照相機閃光燈。照相機閃光燈突然且快速地提升圖片的亮度。照相機閃光燈的持續(xù)時間通常比人的視覺系統(tǒng)(HVS)的時間屏蔽持續(xù)時間(通常界定為44ms)短。人眼類對光亮的這些短時突發(fā)的質(zhì)量并不敏感,且因此其可以粗略編碼。由于閃光幀可能無法使用運動補償進行有效處理,且其是將來幀的較差預(yù)測候選者,則這些幀的粗略編碼不會降低將來幀的編碼效率。
在檢測到任一上述幀時,宣告一拍攝事件。拍攝檢測不僅有益于改進編碼質(zhì)量;其還可以輔助視頻內(nèi)容搜尋/標(biāo)引。下文闡述一種檢測算法。
用雙向運動補償器預(yù)處理所述序列。所述序列使得當(dāng)前幀的每一8×8區(qū)塊均與這一幀的兩個最接近的鄰幀(如圖11中圖解說明的前一幀及后一幀)的區(qū)塊匹配。運動補償器為每一區(qū)塊產(chǎn)生運動向量及差度量。差度量可以是平方差(SSD)的和或絕對差(SAD)的和。在不失一般性的前提下,我們使用SAD作為這一文檔中的實例。
針對每一幀,SAD比率可計算如下 (方程式1) 其中SADP和SADN分別是正向和反向差度量的SAD。應(yīng)注意,分母包含小的正數(shù)ε以避免出現(xiàn)“除以零”的錯誤。分子也包含ε以平衡分母中的一致性效果(effect of theunity)。例如,如果前一幀、當(dāng)前幀及下一幀相同,則運動搜尋會產(chǎn)生SADP=SADN=0。在這一情形中,上述計算的生成數(shù)γ=1而非0或無窮大。
我們還找出每一幀的亮度柱狀圖。在正常情況下,我們處理其亮度深度為8位的圖像。針對這一亮度深度,我們可以將頻段數(shù)設(shè)為16以獲得柱狀圖。下一度量估計柱狀圖差。
(方程式2) 其中NPi是前一幀的第i個頻段中的區(qū)塊數(shù),及NCi是當(dāng)前幀的第i個頻段中的區(qū)塊數(shù),及N是幀的總區(qū)塊數(shù)。顯而易見,如果前一幀及當(dāng)前幀的柱狀圖無交集,則λ=2。
如方程式3中說明,如果滿足下一判別式,則宣告一突然場景變換幀 (方程式3) 其中A是應(yīng)用程序選定的常數(shù),且T1是閾值。我們的模擬顯示A=1及T1=5會實現(xiàn)好的檢測性能。如果當(dāng)前幀是突然場景變換幀,則γC可能較大而γP可能較小。我們將M稱作場景變換強度度量??墒褂帽嚷?
代替僅γC,以便將所述度量歸一化至上下文的活動等級。
應(yīng)注意,上述判別式以非線性方式使用亮度柱狀圖差λ。參照圖12,可看出這是凸函數(shù)。在λ較小(接近0)時,其幾乎沒有預(yù)加重。λ越大,所述函數(shù)傳導(dǎo)的加重越大。通過使用這一預(yù)加重,對于任一大于1.4的λ,如果將閾值T1設(shè)為5則可檢測到突然場景變換。
如果對于某一數(shù)量的連續(xù)幀,T2≤M≤T1(其中T2是閾值),則可檢測到漸隱及其他慢速場景變換。
為檢測照相機閃光燈事件,我們可以使用亮度柱狀圖統(tǒng)計值。例如,閃光燈事件通常使得亮度柱狀圖移至較亮側(cè)??墒褂孟乱慌袆e式來檢測照相機閃光燈事件 及SADP≥T4,SADN≥T4(方程式4) T4=30會實現(xiàn)好的檢測性能。包含SAD值的原因是照相機閃光通常占據(jù)1幀,且由于亮度差異,這一幀可能不能使用正向及反向二者的運動補償來良好預(yù)測。
再次參照圖1,盡管內(nèi)容分類組件190可包括計算運動向量及絕對像素差的和的功能,但通常其他編碼器組件可以計算這一信息并將這一數(shù)據(jù)提供至內(nèi)容分類組件190。Dcsat值還可以由復(fù)雜度組件192或編碼器105的另一組件或處理器187來計算。
另一選擇為,對比率可用于確定幀的空間復(fù)雜度。首先,計算幀中每一宏塊的對比率。給定宏塊的對比率是基于其相對于其鄰近宏塊的平均亮度值來計算的。圖5圖解說明視頻幀中包括9個宏塊的組群,其中每一宏塊均是16×16個像素,μi表示給定宏塊1-9的平均值。使用下列方程式計算宏塊5-中央宏塊-的對比率計算值(CR5) CR5=[∑(μj-μ5)/∑μj]*MBLUM5其中i=1,2...9(方程式.5) 其中MBLUMA5表示宏塊5的平均亮度對比值。宏塊1-4及6-9的對比率均以類似方式計算。幀的對比率是通過取幀中所述9個宏塊的每一者的對比率值的平均數(shù)而獲得的。所述9個宏塊的對比率的標(biāo)準(zhǔn)偏差也經(jīng)計算并提供每一幀內(nèi)的紋理變化量的指示。
確定內(nèi)容分類度量 內(nèi)容分類度量可使用對比率值、其標(biāo)準(zhǔn)偏差及幀差度量來確定。
幀差度量 內(nèi)容分類模塊的另一輸入是在預(yù)處理器中計算的幀差度量。幀差度量考慮運動量(例如,運動向量或MV)以及表示為預(yù)測符與當(dāng)前宏塊之間的絕對差的和(SAD)以給出兩個連續(xù)幀之間的差量度。幀差還提供雙向或單向預(yù)測效率的量度。
下文是基于自大概執(zhí)行運動補償解交錯的預(yù)處理器接收的運動信息的幀差度量的實例。解交錯器執(zhí)行雙向運動估計,且因此可獲得雙向運動向量及SAD信息。
每一宏塊的SAD_MV表示的幀差可推導(dǎo)如下 SAD_MV=log10[SAD*exp(-min(1,MV))](方程式6) 其中SAD=min(SADN,SADP),其中SADN是根據(jù)反向參考幀計算的SAD,及SADP是根據(jù)正向參考幀計算的SAD。
另一估計幀差的方法是通過計算度量γ如下 (方程式7) 其中SADP及SADN分別是正向及反向差度量的SAD。應(yīng)注意,分母包含小的正數(shù)ε以避免出現(xiàn)“除以零”的錯誤。分子也包含ε以平衡分母中的一致性效果。
我們還找出每一幀的量度柱狀圖。在正常情況下,我們處理其亮度深度為8位的圖像。針對這一亮度深度,我們可以將頻段數(shù)設(shè)定為16以獲得柱狀圖。下一度量會估計柱狀圖差 (方程式8) 其中NPi是前一幀的第i個頻段中的區(qū)塊數(shù),及NCi是當(dāng)前幀的第i個頻段中的區(qū)塊數(shù),及N是幀的總區(qū)塊數(shù)。顯而易見,如果前一幀及當(dāng)前幀的柱狀圖無交集,則λ=2。
我們計算幀差度量如方程式9中顯示 (方程式9) 分類過程 下列方式利用比率值和幀差以獲得最終的視頻內(nèi)容分類度量,最終視頻內(nèi)容分類度量能夠可靠地預(yù)測給定視頻序列中的各特征。所提議的算法可以將內(nèi)容分類為8種可能的類,類似于根據(jù)基于R-D曲線的分析獲得的分類。
所述算法相依于場景復(fù)雜度及所述超幀中的場景變換出現(xiàn)次數(shù)輸出每一超幀的位于0和1之間的范圍內(nèi)的值。
預(yù)處理器中的內(nèi)容分類模塊將為每一超幀執(zhí)行下列步驟,以根據(jù)幀對比度及幀差獲得內(nèi)容分類度量。
(1)根據(jù)所述宏塊對比度值來計算平均幀對比度及幀對比偏差。
(2)使用根據(jù)模擬獲得的值將幀對比度及幀差歸一化(其分別是40和5)。
(3)用于計算內(nèi)容分類度量的一般方程式是 CC度量=CCW1*I幀對比度平均值+CCW2*幀差平均值-CCW3*I對比度偏差^2*exp(CCW4*幀差偏差^2)(方程式10) 其中CCW1、CCW2、CCW3和CCW4是加權(quán)因子。將CCW1、CCW2、CCW3和CCW4的值選為0.2、0.9、0.1和-0.00009。
(4)確定超幀中的場景變換次數(shù)。相依于場景變換的次數(shù),執(zhí)行下述情形的一者。
(a)無場景變換在超幀中無場景變換時,所述度量整個相依于幀差,如下列方程式中顯示 CC度量=(CCW2+(CCW1/2))*幀差平均值-(CCW3-(CCW1/2))*1*exp(-CCW4*幀差偏差^2)(方程式11) (b)單場景變換 CC度量=CCW1*I幀對比度平均值+CCW2*幀差平均值-CCW3*I對比度偏差^2*exp(CCW4*幀差偏差^2)(方程式12) (c)兩個場景變換當(dāng)在給定超幀中觀察到最多2次場景變換時,給予最后一個超幀比第一個超幀更大的權(quán)數(shù),因為第一個超幀將由后者快速刷新,如下列方程式中顯示 CC度量=0.1*I幀對比度平均值1+CCW1*I幀對比度平均值2+(CCW2-0.1)*幀差平均值-CCW3*I對比度偏差1^2*I對比度偏差2^2*exp(CCW4*幀差偏差^2)(方程式13) (d)三個或更多個場景變換如果觀察到給定超幀具有多于3個I幀(也就是N個),則賦予最后一個I幀更大的權(quán)數(shù),且賦予所有其他I幀0.05的加權(quán),如下列方程式中顯示 CC度量=0.05*I幀對比度平均值(1....N-1)+CCW1*I幀對比度平均值(N)+(CCW2-(0.05*(N-1)))*幀差平均值-CCW3*I對比度偏差(N)^2*I對比度偏差(1....N-1)^2*exp(CCW4*幀差偏差^2) (方程式14) (5)要求校正其中幀差平均值小于0.05時的低運動場景的情形中的度量。將偏移(CC偏移)0.33添加至所述CC度量。
復(fù)雜度組件192使用Dcsat值、運動向量及絕對差的和確定指示宏塊的空間復(fù)雜度的值(或所指配的視頻數(shù)據(jù)量)。時間復(fù)雜度由幀差度量的量度來確定。幀差度量計及運動量(具有運動向量)及各幀之間的絕對差的和來測量兩個連續(xù)幀之間的差。
帶寬映像產(chǎn)生 人的視覺質(zhì)量V可以是編碼復(fù)雜度C與所分配位B(也稱作帶寬)二者的函數(shù)。應(yīng)注意,編碼復(fù)雜度度量C自人的視覺角度考慮空間及時間頻率。對于人類較敏感的失真而言,復(fù)雜度值會相應(yīng)地較高。通??杉僭O(shè)V在C中單調(diào)地減少,而在B中單調(diào)地增加。
為獲得恒定的視覺質(zhì)量,為第i個待編碼的對象(幀或MB)指配帶寬(Bi),所述帶寬(Bi)滿足方程式15及16中所表達(dá)的標(biāo)準(zhǔn)。
Bi=B(Ci,V)(方程式15) (方程式16) 在方程式15及/或16中,Ci是第i個對象的編碼復(fù)雜度,B是總的可用帶寬,且V是所述對象可達(dá)到的視覺質(zhì)量。人的視覺質(zhì)量很難以方程式形式來闡明。因此,上述方程組并非精確界定。然而,如果假設(shè)所述3-D模型的所有變量均連續(xù),則可認(rèn)為帶寬比率(Bi/B)在(C,V)對的附近不變。帶寬比率βi界定于方程式17中。
βi=Bi/B(方程式17) 因而可如方程式18中所表達(dá)來界定位分配問題 βi=β(Ci) 其中(Ci,V)∈δ(C0,V0)(方程式18) 在上述方程式中,維護所述“鄰近關(guān)系”。
編碼復(fù)雜度受人的視覺靈敏度影響-就空間及時間兩方面而言。Girod的人體視覺模型是一種可用于界定空間復(fù)雜度的模型實例。這一模型考慮局部空間頻率及環(huán)境照明。所得到的度量稱作Dcsat。在所述過程中的預(yù)處理點處,并不知曉是將圖片進行內(nèi)部編碼還是中間編碼,且產(chǎn)生二者的帶寬比率。對于內(nèi)部編碼的圖片而言,帶寬比率表達(dá)于方程式19中 β內(nèi)=β0內(nèi)log10(1+α內(nèi)Y2Dcsat)(方程式19) 在上述方程式中,Y是MB的平均亮度分量,α內(nèi)是亮度平方及其后的Dcsat項的加權(quán)因數(shù),β0內(nèi)是保證的正規(guī)化因數(shù)。例如,α內(nèi)=4的值會達(dá)到較佳的視覺質(zhì)量。只要根據(jù)不同視頻對象的β內(nèi)之間的比率來分配位,換算因數(shù)β0內(nèi)的值就不重要。
為理解這一關(guān)系,應(yīng)注意,帶寬是與編碼復(fù)雜度成對數(shù)關(guān)系來分配的。亮度平方項反映了如下事實具有更大量級的系數(shù)使用更多的位來編碼。為防止對數(shù)值變?yōu)樨?fù)值,在括號內(nèi)的項中加上1。也可使用具有其他底數(shù)的對數(shù)。
時間復(fù)雜度由幀差度量的量度確定。幀差度量計及運動量(具有運動向量)以及SAD來測量兩個連續(xù)幀之間的差。
中間編碼圖片的位分配需要考慮空間以及時間復(fù)雜度。這表達(dá)于下列方程式20中 β內(nèi)=β0間log 10(1+α間·SSD·Dcsatexp(-γ‖MVP+MVN‖2))(方程式20) 在方程式20中,MVP及MVN是當(dāng)前MB的正向及反向運動向量。能夠注意到,所述內(nèi)部公式中的Y2被SSD(其代表平方差的和)取代。
為理解‖MVp+MVN‖2在方程式6中的作用,注意人的視覺系統(tǒng)的接續(xù)特征經(jīng)歷平滑、可預(yù)測的運動的區(qū)域(較小‖MVp+MVN‖2)會吸引注意且可由人眼追蹤且通常不能容忍比固定區(qū)域更大的任何失真。然而,經(jīng)歷快速或不可預(yù)測的運動的區(qū)域(較大‖MVp+MVN‖2)卻無法被跟蹤,且可容忍顯著的量化。實驗表明,α間=1、γ=0.001會達(dá)到較佳的視覺質(zhì)量。
確定紋理及運動信 對于多媒體數(shù)據(jù)中的每一宏塊,分類組件194使得紋理值與空間復(fù)雜度相關(guān)聯(lián),及使得運動值與時間復(fù)雜度相關(guān)聯(lián)。紋理值與多媒體數(shù)據(jù)的發(fā)光值相關(guān),其中較低的紋理值指示所述數(shù)據(jù)的鄰近像素的發(fā)光值具有較小變化,且較高紋理值指示所述數(shù)據(jù)的鄰近像素的發(fā)光值具有較大變化。根據(jù)一個方面,一旦計算出紋理及運動值,則分類組件194通過考慮所述運動及紋理信息二者來確定內(nèi)容分類度量(例如,內(nèi)容分類)。分類組件194使得正在分類的視頻數(shù)據(jù)的紋理與相關(guān)紋理值相關(guān)聯(lián),例如“低”紋理、“中”紋理或“高”紋理,其一般指示宏塊的亮度值復(fù)雜度。同樣,分類組件194使得針對正在分類的視頻數(shù)據(jù)計算的運動值與相關(guān)運動值相關(guān)聯(lián),例如“低”運動、“中”運動或“高”運動,其一般指示宏塊的運動量。在替代實施例中,可使用更少或更多類別的運動及文理。則可隨之通過確定相關(guān)聯(lián)的紋理及運動值來確定內(nèi)容分類度量。
圖6圖解說明其中圖解說明如何將紋理及運動值與內(nèi)容分類相關(guān)聯(lián)的分類圖表的實例。所屬技術(shù)領(lǐng)域的技術(shù)人員熟悉許多實施這種分類圖表的方式,例如以查找表或數(shù)據(jù)庫。分類圖表是基于視頻數(shù)據(jù)內(nèi)容的預(yù)定估計而產(chǎn)生的。為確定視頻數(shù)據(jù)分類,使得“低”、“中”或“高”(在“x軸”上)的紋理值與“低”、“中”或“高”(在“y軸”上)的運動值前后對照。將交叉塊中指示的內(nèi)容分類指配給視頻數(shù)據(jù)。例如,紋理值“高”及運動值“中”會產(chǎn)生分類七(7)。圖6圖解說明在這一實例中與8個不同內(nèi)容分類相關(guān)聯(lián)的相關(guān)紋理及運動值的各種組合。在某些其他實施例中,可使用更多或更少個分類。
位速率確定 如上文闡述,所產(chǎn)生的多媒體數(shù)據(jù)內(nèi)容分類可用于預(yù)/后處理及壓縮算法中,以有效改進位管理同時維持恒定的視頻感知質(zhì)量。例如,分類度量可用于針對場景變換檢測、編碼位速率分配控制及幀速率上變頻(FRUC)的算法中。壓縮器/解壓縮器(編譯碼器)系統(tǒng)和數(shù)字信號處理算法一般用于視頻數(shù)據(jù)通信中,且可經(jīng)配置以保持帶寬,但在質(zhì)量與帶寬保持之間存在折中。最好的編譯碼器會提供最大的帶寬保持,同時產(chǎn)生最少的視頻質(zhì)量降級。
在一個方面,位速率組件196使用內(nèi)容分類確定位速率(例如,分配用于將多媒體數(shù)據(jù)編碼的位數(shù)量),并存儲所述位速率供由其他過程及組件使用,例如圖1所示編碼器組件185。根據(jù)視頻數(shù)據(jù)分類確定的位速率可幫助保持帶寬,同時以恒定質(zhì)量等級提供多媒體數(shù)據(jù)。在一個方面中,不同的位速率可與所述8個不同內(nèi)容分類的每一者相關(guān)聯(lián),且隨之使用所述位速率對多媒體數(shù)據(jù)實施編碼。所產(chǎn)生的效果是盡管為多媒體數(shù)據(jù)的不同內(nèi)容分類分配不同數(shù)量的位供編碼之用,但在顯示器上觀看時所感知的質(zhì)量是類似或一致的。
一般而言,具有較高內(nèi)容分類的多媒體數(shù)據(jù)指示較高等級的運動及/或紋理,且在編碼時被分配有較多位。具有較低分類的多媒體數(shù)據(jù)(指示較少紋理及運動)分配有較少位。針對多媒體數(shù)據(jù)的特定內(nèi)容分類,可基于用于觀看所述多媒體數(shù)據(jù)的所選目標(biāo)感知質(zhì)量等級來確定位速率。確定多媒體數(shù)據(jù)質(zhì)量可通過人的觀看及對多媒體數(shù)據(jù)分級來確定。在某些替代實施例中,多媒體數(shù)據(jù)質(zhì)量估計可由自動檢驗系統(tǒng)使用(例如)信噪比算法做出。在一個方面中,針對多媒體數(shù)據(jù)的每一內(nèi)容分類預(yù)定一組標(biāo)準(zhǔn)質(zhì)量等級(例如,5個)及達(dá)到每一特定質(zhì)量等級所需的對應(yīng)位速率。為確定一組質(zhì)量等級,可通過產(chǎn)生平均主觀評價結(jié)果(MOS)來估計多媒體數(shù)據(jù)的特定內(nèi)容分類,其中MOS提供對在使用某一位速率對多媒體數(shù)據(jù)實施編碼時所述多媒體數(shù)據(jù)的視覺感知質(zhì)量的大量指示。所述MOS可表達(dá)為處于1至5范圍內(nèi)的單個數(shù)字,其中1是最低可感知質(zhì)量,而5是最高可感知質(zhì)量。在其他實施例中,MOS可具有多于5個或少于5個質(zhì)量等級,且可使用每一質(zhì)量等級的不同說明。
確定多媒體數(shù)據(jù)質(zhì)量可通過人的觀看和對多媒體數(shù)據(jù)分級來確定。在某些替代實施例中,多媒體數(shù)據(jù)質(zhì)量的估計可以由自動檢測系統(tǒng)使用(例如)信噪比算法做出。在一個方面中,針對多媒體數(shù)據(jù)的每一內(nèi)容分類預(yù)定一組標(biāo)準(zhǔn)質(zhì)量等級(例如,5個)及達(dá)到每一特定質(zhì)量等級所需的對應(yīng)位速率。
了解視覺感知的質(zhì)量等級與多媒體數(shù)據(jù)的某一內(nèi)容分類的位速率之間的關(guān)系可通過選擇目標(biāo)(例如,所需)質(zhì)量等級來確定。用于確定位速率的目標(biāo)質(zhì)量等級可預(yù)選、由用戶選擇、通過自動過程或要求來自用戶或來自另一過程的輸入的半自動過程來選擇、或由編碼裝置或系統(tǒng)基于預(yù)定標(biāo)準(zhǔn)而動態(tài)選擇。目標(biāo)質(zhì)量等級可基于(例如)編碼應(yīng)用程序類型、或?qū)⒔邮斩嗝襟w數(shù)據(jù)的客戶端裝置類型來選擇。
內(nèi)容分類的確定 內(nèi)容分類曲線及導(dǎo)出所述內(nèi)容分類曲線的速率失真曲線是在將視頻數(shù)據(jù)分類之前產(chǎn)生的。針對所標(biāo)識的多媒體數(shù)據(jù)分類,通過找到目標(biāo)等級與視頻數(shù)據(jù)的特定分類的特定速率失真質(zhì)量曲線的交叉點來確定可接受的位速率。位速率是對應(yīng)于所述交叉點的點,且位速率可在選擇較低的目標(biāo)質(zhì)量登記時降低。例如,如果目標(biāo)被選擇為“可接受”而非“好”,則原本分類為(例如)類6(具有位速率為速率5)的編碼視頻數(shù)據(jù)現(xiàn)將要求位速率約為速率4。
為確定圖6及7中引用的8個多媒體數(shù)據(jù)內(nèi)容分類,可使用包含多種類型的內(nèi)容的多媒體數(shù)據(jù)序列以獲得平均位速率及平均亮度峰值信噪比(PSNR)。根據(jù)所述平均PSNR來繪制所述序列的平均位速率以形成速率失真(R-D)曲線。例如,大量多媒體數(shù)據(jù)序列的R-D曲線可以圖像格式描繪,其中x軸是平均位速率(kbps),且y軸是平均亮度PSNR(db)。所述序列的R-D曲線落入數(shù)個不同群集,且隨之將多媒體數(shù)據(jù)序列分類為不同組群。在一實例中,最初形成5個組群,其中通過利用所有落入所述群集的序列來獲得每一組群。所述群集可分別包含一個或多個序列。每一組群的標(biāo)準(zhǔn)偏差還可以根據(jù)形成所述組群的特定序列來計算。在其他實例中,視頻數(shù)據(jù)序列可群集以相依于所使用的序列形成少于5個組群或多于5個組群。在這一實例中,基于視頻數(shù)據(jù)的進一步分析而連續(xù)增加組群數(shù)量(5)。同樣,如果最初在某些其他方面中形成更多或更少組群,則這些方面也可以包括基于估計其他序列來進一步增加或減少組群數(shù)量。所述5個最初組群對應(yīng)于5個類,所述類表示給定超幀中的運動及紋理的不同等級。例如,類1表示具有低運動及低紋理(LM,LT)的超幀,類2表示具有中運動及低紋理(MM,LT)的超幀,類3表示具有中運動及中紋理(MM,MT)的超幀,類4表示具有高運動及中紋理(HM,MT)的超幀,及類5表示具有高運動及高紋理(HM,HT)的超幀。
隨后,來自所有可用源序列的每一超幀經(jīng)分類以檢驗每一超幀是否落入其相應(yīng)類中。最初分類可通過檢驗各種多媒體數(shù)據(jù)序列及使用反復(fù)過程以兼容各種不符合先前界定的5個組群的其他序列來界定,且可獲得新的經(jīng)修改R-D曲線組。在這一實例中,將群集數(shù)量從5增加到8,且形成其他類,其中較大的類數(shù)量表示增加多媒體數(shù)據(jù)中的運動及較高紋理等級。
在這一實例中,隨后效仿這些R-D曲線以促進其在將多媒體數(shù)據(jù)分類中的使用。由于信號的位速率與亮度PSNR之間的關(guān)系是對數(shù)函數(shù),則可使用下列形式的對數(shù)函數(shù)來效仿R-D曲線ypsnr=a*In(速率)+b,a>0。在這一實例中,參數(shù)a及b的值復(fù)制如下 設(shè)計用于以這種方式操作以使得所有實時服務(wù)均具有與其位速率指配無關(guān)的類似感知質(zhì)量的多媒體處理系統(tǒng)會提供一致的多媒體數(shù)據(jù)供顯示之用。因此,預(yù)期實時服務(wù)的質(zhì)量度量(例如,PSNR)隨所指配的位速率單調(diào)地增加。由于PSNR的等價值并不必要地產(chǎn)生多媒體數(shù)據(jù)的一致感知質(zhì)量,則基于另一不同于PSNR的質(zhì)量度量來修改現(xiàn)有類。為達(dá)到多媒體數(shù)據(jù)的相同感知質(zhì)量,通過添加對應(yīng)偏移以便所有類均具有類似質(zhì)量度量來修改內(nèi)容分類曲線。經(jīng)偏移校正的等式也是對數(shù)形式y(tǒng)psnr=a*In(速率)+b+偏移。在所述實例中,所述8個內(nèi)容類的每一者的偏移值是-9.833、-5.831、-4.335、-2.064、-0.127、0.361、4.476及6.847。
內(nèi)容分類的用途之一是用于視頻數(shù)據(jù)場景變換檢測。如果幀差度量或?qū)Ρ榷缺嚷手祷騼?nèi)容分類度量相對于幀序列中的前一幀及后一幀而相對較高,則我們確定所述特定幀是場景變換或新的拍照。
圖8是圖解說明一種用于基于將多媒體數(shù)據(jù)分類來確定位速率的過程200的實例的流程圖。還應(yīng)注意所述實例可被闡述為過程,所述過程可被描繪為流程圖表、流程圖、結(jié)構(gòu)圖或方塊圖。盡管流程圖表可將各操作闡述為有序過程,但所述操作的許多操作也可并列或同時實施,并可重復(fù)所述過程。另外,相依于所述過程的應(yīng)用環(huán)境,可重新排列操作次序、可執(zhí)行未顯示操作、或可忽略所顯示的操作。
本文所述過程可對應(yīng)于方法、函數(shù)、過程、軟件程序或軟件程序的一部分。當(dāng)一過程對應(yīng)于一功能時,其結(jié)束對應(yīng)于所述功能返回至呼叫功能或主功能。將過程闡述為軟件程序、模塊、組件、子程序或輔程序是廣義說明,且不意欲要求以相同方式構(gòu)建所有實施例,除非明確地如此表達(dá)。相反,所屬技術(shù)領(lǐng)域的技術(shù)人員將了解,這種操作通常可構(gòu)建為硬件、軟件、中間件、固件、或微代碼。闡述為單個組件、程序或模塊的功能或操作也可以構(gòu)建為兩個或更多個組件、模塊、程序、(例如)子模塊、輔程序或子程序。
過程200可由例如圖1所示編碼器裝置105及其組件來實施。編碼器裝置105從外部源135接收經(jīng)編碼或未經(jīng)編碼的視頻數(shù)據(jù)。在過程200中,步驟205確定視頻數(shù)據(jù)的復(fù)雜度。在某些實施例中,編碼器組件185計算用于確定視頻數(shù)據(jù)的空間復(fù)雜度和時間復(fù)雜度的信息,例如運動向量、至少一個Dcsat值及宏塊的絕對差的和。在某些實施例中,內(nèi)容分類組件190計算用于確定多媒體數(shù)據(jù)的時間及空間復(fù)雜度所需信息的至少一部分。例如內(nèi)容分類組件190等分類裝置可基于所確定的復(fù)雜度將多媒體數(shù)據(jù)分類,步驟210。作為步驟210的結(jié)果,將所述多媒體數(shù)據(jù)分類至數(shù)個內(nèi)容分類的一者中(例如,8個內(nèi)容分類的一者)。在步驟215中,過程200確定用于觀看多個內(nèi)容分類的多媒體數(shù)據(jù)的質(zhì)量值,其通常完成于過程200開始之前。確定數(shù)據(jù)可通過人的觀看和為多媒體數(shù)據(jù)分級來確定,或在某些替代實施例中,多媒體數(shù)據(jù)質(zhì)量的估計可由自動數(shù)據(jù)估計系統(tǒng)使用(例如)信噪比算法做出。所述可預(yù)選、由用戶選擇、通過自動過程或要求來自用戶或來自另一過程的輸入的半自動過程來選擇。另一選擇為,所述可由編碼裝置或系統(tǒng)在系統(tǒng)操作期間基于(例如)關(guān)于用于觀看多媒體數(shù)據(jù)的所需或所要求的預(yù)定標(biāo)準(zhǔn)而動態(tài)選擇。
過程200基于其分類及所需目標(biāo)來確定用于對視頻數(shù)據(jù)實施編碼的位速率。用于對視頻數(shù)據(jù)實施編碼的位速率可通過添加屬于所述超幀的個別幀大小估計來確定。個別幀大小估計可以兩種方式計算。于一種方式中,基于帶寬比率來計算所述超幀中每一幀的大小的估計,且因而可將超幀的大小估計為所述幀大小的線性組合。
基于幀大小來估計超幀大小 相依于先前編碼的幀及所述幀的帶寬比率來估計幀大小。我們使用無窮脈沖響應(yīng)(IIR)濾波器來估計幀大小,且在實際大小與根據(jù)模擬的估計大小之間觀察到強烈的相關(guān)性。在預(yù)處理器中基于MPEG-2解碼器中的運動向量及SAD來計算帶寬率(BWR)。
我們假設(shè)幀大小與BWR之間的直接線性關(guān)系如下 幀大小(n)/BWR(n)=幀大小(n+1)/BWR(n+1)方程式20 下文闡述用于估計幀大小的過程。
(1)稱作γ的量被計算為每一已編碼幀的幀大小與BWR之間的比率。
γ(i)=幀大小(i)/時間BWR(i)(方程式21) (2)針對待編碼的每一幀,使用下列IIR濾波器計算權(quán)數(shù) γp(i)=(1-α)*γ(i-1)+α*γp(i-1)(方程式22) 因此幀大小估計如下 幀估計值(i)=γp(i)*時間BWR(i)(方程式23) 這一過程可用于P幀及B幀二者,其中根據(jù)先前編碼的P幀估計連續(xù)的P幀,且根據(jù)先前編碼的B幀估計連續(xù)的B幀。在一種方法中,時間BWR可以是所述幀中所有宏塊的β間(上述)的和。在I幀的情形中,觀察到FTR濾波器提供比使用HR濾波器更準(zhǔn)確的結(jié)果。因此對于I幀而言,獲得估計值如下 I幀估計值(i)=空間BWR(i)*(I幀大小(i-1)/空間BWR(i-1))(方程式24) 超幀大小是所述超幀中所有幀估計值的和。
整體估計超幀大小 在另一方法中,可將超幀大小作為整體來估計。超幀大小的估計可相依于先前編碼的超幀及超幀整體的帶寬比率。如上文針對第一種方法闡述的無窮脈沖響應(yīng)(HR)濾波器可用于估計超幀大小。
此外,可在利用超幀整體的帶寬比率表示的超幀大小與超幀復(fù)雜度之間假設(shè)一線性關(guān)系 SF大小(n)/SF_BWR(n)=SF大小(n+1)/SF_BWR(n+1)(方程式25) 用于估計超幀大小的過程可解釋如下 (1)稱為θ的量計算為超幀大小與全部超幀的BWR之間的比率,如下列方程式中顯示 θ(i)=SF大小(i)/SF_BWR(i)(方程式26) (2)針對待編碼的每一超幀,使用下列IIR濾波器計算權(quán)數(shù)。
θP(i)=(1-α)*θ(i-1)+α*θP(i-1)(方程式27) 超幀大小可估計如下 超幀估計值(i)=θP(i)*SF_BWR(i)(方程式28) 使用所述超幀中個別幀的帶寬比率的線性組合來估計給定超幀的帶寬比率。超幀中的幀類型可基于固定GOP結(jié)構(gòu),例如IBP或IBBP等。
基于上述幀差度量來確定超幀中的幀類型。基于這一給定超幀中的內(nèi)容類型分類來確定內(nèi)部閾值及中間閾值。基于這些閾值,如果幀的幀差超過內(nèi)部閾值則將所述幀視為I幀,或者,如果所述幀的幀差在內(nèi)部與中間閾值之間,則視為P幀,及如果幀差低于中間閾值則視為B幀。
使用上述Dcsat及Girod的模型導(dǎo)出的空間帶寬比率(闡述為β內(nèi))用于估計內(nèi)部幀的大小。另一方法是其中空間帶寬比率是基于上述對比度比率或任一其他表示數(shù)量的度量。
使用上述Dcsat及Girod的模型及MV及SAD導(dǎo)出的時間帶寬比率(闡述為β內(nèi))用于估計中間幀的大小。另一方法是其中時間帶寬比率是基于上述SAD_MV度量或任一其他表示所述幀中的運動量或運動等級的度量。
再次參照圖8,在步驟221中,過程200使用在步驟215中確定的位速率用于進一步處理多媒體數(shù)據(jù),以(例如)對多媒體數(shù)據(jù)實施編碼供與無線網(wǎng)絡(luò)通信。
圖9是圖解說明一種用于在圖8所示點“A”及“B”之間處理多媒體數(shù)據(jù)的進一步操作的過程201的流程圖。過程201在步驟206中確定多媒體數(shù)據(jù)的空間復(fù)雜度。確定空間復(fù)雜度要求過程201為多媒體數(shù)據(jù)的各區(qū)塊計算至少一個Dcsat值,其執(zhí)行于步驟207中。步驟207可由編碼器組件185或內(nèi)容分類組件190執(zhí)行,二者均顯示于圖1中。上文闡述計算Dcsat值的過程。繼續(xù)至步驟240,過程201現(xiàn)在確定多媒體數(shù)據(jù)的時間復(fù)雜度。步驟209確定數(shù)據(jù)的至少一個區(qū)塊的至少一個運動向量,其通常由編碼器組件185完成。在步驟211中,過程201還確定與多媒體數(shù)據(jù)的至少一個區(qū)塊及參考區(qū)塊相關(guān)聯(lián)的絕對差的和(SAD)。步驟211中的計算還通常由編碼器組件185完成。繼續(xù)至步驟210,過程201基于所確定的復(fù)雜度將多媒體數(shù)據(jù)分類。為將多媒體數(shù)據(jù)分類,在步驟255中,使空間復(fù)雜度與紋理值相關(guān)聯(lián)。此外,如步驟260中顯示,使時間復(fù)雜度與運動值相關(guān)聯(lián)。最后,在步驟265中,過程201基于在步驟255及260中相應(yīng)地確定的紋理值及運動值將內(nèi)容分類指配給所述多媒體數(shù)據(jù)。過程201的步驟結(jié)束于“B”點處,其中“B”點是其中過程200將繼續(xù)進行以確定位速率之處,如圖9所示步驟215中顯示。
內(nèi)容分類及估計多媒體內(nèi)容的復(fù)雜度及給定感知質(zhì)量的對應(yīng)編碼率或壓縮比率的過程可經(jīng)延展以增強各種速率流的統(tǒng)計復(fù)用中的增益。開發(fā)上述方法及設(shè)備的這種多路復(fù)用器還使得統(tǒng)一質(zhì)量多路復(fù)用器在多媒體應(yīng)用中輸出動態(tài)變化內(nèi)容。這種多路復(fù)用器闡述如下。
多路復(fù)用器 在某些實施例中,多路復(fù)用器可用于上述位管理。例如,可構(gòu)建多路復(fù)用器來提供位速率分配控制??蓪⑺烙嫷膹?fù)雜度提供給所述多路復(fù)用器,然后可由所述多路復(fù)用器根據(jù)所述視頻信道期望的編碼復(fù)雜度為多路復(fù)用視頻信道的集合分配可用帶寬,由此使得甚至當(dāng)所述多路復(fù)用視頻流的集合的帶寬相對恒定時也能夠使特定信道的質(zhì)量保持相對恒定。這使得信道集合內(nèi)的一個信道具有可變位速率及相對恒定的視覺質(zhì)量,而非相對恒定的位速率及可變的視覺質(zhì)量。
圖10是圖解說明多個多媒體流或信道1002的編碼的系統(tǒng)圖。多媒體流1002由相應(yīng)編碼器1004實施編碼,編碼器1004與多路復(fù)用器(MUX)1006進行通信,多路復(fù)用器(MUX)106又與傳輸媒體1008進行通信。例如,多媒體流1002可對應(yīng)于各種內(nèi)容信道,例如新聞信道、體育信道、電影信道等等。編碼器1004將多媒體流1002編碼為系統(tǒng)指配的編碼格式。盡管是就對視頻流實施編碼來闡述,但所揭示技術(shù)的原理及優(yōu)點廣泛地適用于包括例如音頻流等多媒體流。經(jīng)編碼的多媒體流被提供至多路復(fù)用器1006,由多路復(fù)用器1006組合各種經(jīng)編碼的多媒體流,并將所述組合流發(fā)送至傳輸媒體1008供傳輸之用。
傳輸媒體1008可對應(yīng)于各種媒體,例如(但不限于)例如DirecTV等數(shù)字衛(wèi)星通信、數(shù)字電纜、有線及無線因特網(wǎng)通信、光學(xué)網(wǎng)絡(luò)、蜂窩式電話網(wǎng)絡(luò)等等。傳輸媒體108可包括(例如)調(diào)變至射頻(RF)。通常,由于頻譜約束條件及類似約束條件,傳輸媒體具有有限的帶寬,且以相對恒定的位速率(CBR)維持從多路復(fù)用器1006到傳輸媒體的數(shù)據(jù)。
在傳統(tǒng)系統(tǒng)中,在多路復(fù)用器1006的輸出端使用恒定位速率(CBR)要求被輸入至多路復(fù)用器1006的經(jīng)編碼多媒體或視頻流也是CBR。如背景技術(shù)中闡述,在對視頻內(nèi)容實施編碼時使用CBR可造成變化的視覺質(zhì)量,這通常并不合意。
在所例示的系統(tǒng)中,兩個或更多個編碼器1004傳送輸入數(shù)據(jù)的預(yù)期編碼復(fù)雜度。一個或多個編碼器1004可響應(yīng)于此而從多路復(fù)用器1006接收經(jīng)修改的位速率控制。這準(zhǔn)許期望將相對復(fù)雜的視頻編碼的編碼器1004能夠以準(zhǔn)可變位速率方式為所述視頻幀接收更高的位速率或更高的帶寬(每幀更多個位)。這準(zhǔn)許以更恒定的視覺質(zhì)量對多媒體流1002實施編碼。對相對復(fù)雜的視頻實施編碼的特定編碼器1004所使用的額外帶寬來自于如果所述編碼器構(gòu)建成以恒定位速率操作時原本將用于對其他視頻流1004實施編碼的位。此使得多路復(fù)用器1006的輸出維持在恒定位速率(CBR)。
盡管個別多媒體流1002可能是相對“突發(fā)性”(也就是在所使用帶寬中發(fā)生變化),但多個視頻流的累積和可能是不太突發(fā)。來自正對較不復(fù)雜的視頻實施編碼的信道的位速率可由(例如)多路復(fù)用器1006重新分配至正對相對復(fù)雜的視頻實施編碼的信道,且這可以增強組合視頻流整體的視覺質(zhì)量。
編碼器1004向多路復(fù)用器1006提供對將要一起編碼及多路復(fù)用的一組視頻幀的復(fù)雜度的指示。多路復(fù)用器1006的輸出應(yīng)提供不高于傳輸媒體1008所指配的位速率的輸出。復(fù)雜度的指示可基于上述內(nèi)容分類,以提供所選等級的質(zhì)量。多路復(fù)用器1006分析所述復(fù)雜度指示,并為各個編碼器1004提供所分配數(shù)量的位或帶寬,且編碼器1004使用這一信息對所述組中的視頻幀實施編碼。這準(zhǔn)許一組視頻幀能夠分別成為可變位速率,且仍能以組群形式達(dá)到恒定位速率。
一般來說,內(nèi)容分類還可以針對任何通用壓縮器用于啟用多媒體的基于質(zhì)量的壓縮。
內(nèi)容分類及本文所述方法及設(shè)備可用于任何多媒體數(shù)據(jù)的基于質(zhì)量及/或基于內(nèi)容的多媒體處理中。一個實例是其在一般用于任何通用壓縮器的多媒體壓縮中的使用。另一實例是在任一解壓縮器或解碼器或后處理器中實施解壓縮或解碼,例如內(nèi)插、再取樣、增強、恢復(fù)及顯現(xiàn)操作。
所述各種實施例的各方面可構(gòu)建于經(jīng)配置以將多媒體數(shù)據(jù)編碼供后續(xù)顯示的任一裝置中,且包括其中所展示幀會顯示運動圖像(例如,描繪移動或變化圖像的相關(guān)聯(lián)幀的序列)或固定圖像(例如,不變化或慢速變化的圖像)及是否具有紋理或圖片的多媒體數(shù)據(jù)。更具體而言,本發(fā)明涵蓋某些實施例可構(gòu)建于各種可用于通信的電子裝置中或與所述各種電子裝置相關(guān)聯(lián),其例如(但不限于)移動電話、無線裝置、個人數(shù)據(jù)助理(PDA)、手持或便攜式計算機及其他這類經(jīng)配置以接收多媒體數(shù)據(jù)供顯示之用的有線或無線通信裝置。
將多媒體數(shù)據(jù)傳送至例如無線電話、PDA、膝上型計算機等客戶端裝置包括傳輸及處理大量數(shù)據(jù)。如果基于提供至編碼器的多媒體幀序列的內(nèi)容來對其分類,則多數(shù)多媒體應(yīng)用將在質(zhì)量方面提高獲益。在多媒體通信系統(tǒng)中存在大量其中內(nèi)容分類(如果存在)可能有益的應(yīng)用。例如,內(nèi)容分類可有益于確定對多媒體數(shù)據(jù)實施編碼以獲得預(yù)定觀看質(zhì)量所需的位速率,且其還可用于確定給定幀的最佳幀類型。
所屬技術(shù)領(lǐng)域的技術(shù)人員應(yīng)了解,可使用眾多不同技術(shù)及技法中的任一種來表示信息及信號。例如,整個上述說明中可能提及的數(shù)據(jù)、指令、命令、信息、信號、位、符號和碼片可由電壓、電流、電磁波、磁場或粒子、光場或粒子、或其任一組合來表示。
所屬技術(shù)領(lǐng)域的技術(shù)人員應(yīng)進一步了解,結(jié)合本文所揭示實例闡述的各種例示性邏輯塊、模塊、及算法步驟可構(gòu)建為電子硬件、固件、計算機軟件、中間件、微代碼、或其組合。為清晰地顯示硬件與軟件的這一互換性,上文已就功能度來概述各種例示性組件、區(qū)塊、模塊、電路、及步驟。這種功能度是構(gòu)建為硬件還是軟件取決于特定應(yīng)用及施加于整個系統(tǒng)的設(shè)計制約條件。所屬技術(shù)領(lǐng)域的技術(shù)人員可針對每一特定應(yīng)用以不同的方式構(gòu)建所述功能度,但這種實施方案決不應(yīng)視為背離所揭示方法的范疇。
結(jié)合本文所揭示實例闡述的各種例示性邏輯塊、組件、模塊及電路可使用通用處理器、數(shù)字信號處理器(DSP)、應(yīng)用專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)或其他可編程邏輯裝置、離散門或晶體管邏輯、離散硬件組件、或其設(shè)計用于執(zhí)行本文所述功能的任一組合來構(gòu)建或執(zhí)行。通用處理器可以是微處理器,但另一選擇為,處理器也可以是任一傳統(tǒng)處理器、控制器、微控制器或狀態(tài)機。處理器也可構(gòu)建為計算裝置的組合,例如,DSP與微處理器的組合、多個微處理器的組合、一個或多個微處理器與DSP核心的聯(lián)合,或任意其它這種配置。
結(jié)合本文所揭示實例闡述的方法或算法的步驟可直接實施于硬件中、由處理器執(zhí)行的軟件模塊中或二者的組合中。軟件模塊可常駐于RAM存儲器、閃存存儲器、ROM存儲器、EPROM存儲器、EEPROM存儲器、寄存器、硬盤、可抽換磁盤、CD-ROM、或所屬技術(shù)領(lǐng)域中已知的任一其他形式的存儲媒體中。實例性存儲媒體耦合至所述處理器,以便所述處理器可自所述存儲媒體讀取信息及向所述存儲媒體寫入信息?;蛘?,所述存儲媒體可以是處理器的組成部分。處理器及存儲媒體可常駐于應(yīng)用專用集成電路(ASIC)中。ASIC可常駐于無線數(shù)據(jù)機中。另一選擇為,處理器及存儲媒體可作為離散組件常駐于無線數(shù)據(jù)機中。
上文對所揭示實例的說明旨在使所屬技術(shù)領(lǐng)域的技術(shù)人員均可制作或利用所揭示方法與設(shè)備。所屬技術(shù)領(lǐng)域的技術(shù)人員將易知對這些實例的各種修改,且在不背離所揭示方法與裝置的精神或范疇的前提下,本文所界定的一般原理也可應(yīng)用于其他實例,且可添加其他元件。
權(quán)利要求
1.一種處理多媒體數(shù)據(jù)的方法,其包括
確定多媒體數(shù)據(jù)的復(fù)雜度;及
基于所述確定的復(fù)雜度對所述多媒體數(shù)據(jù)進行分類。
2.如權(quán)利要求1所述的方法,其中確定所述復(fù)雜度包括確定所述多媒體數(shù)據(jù)的空間復(fù)雜度及所述視頻數(shù)據(jù)的時間復(fù)雜度,且其中分類是基于所述空間復(fù)雜度、所述時間復(fù)雜度或所述空間復(fù)雜度及時間復(fù)雜度二者。
3.如權(quán)利要求2所述的方法,其中確定空間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個Dcsat值。
4.如權(quán)利要求2所述的方法,其中確定空間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個對比率值。
5.如權(quán)利要求1所述的方法,其中確定所述復(fù)雜度包括確定所述多媒體數(shù)據(jù)的時間復(fù)雜度,且其中分類是基于所述時間復(fù)雜度。
6.如權(quán)利要求5所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個運動向量(MV)。
7.如權(quán)利要求6所述的方法,其中確定時間復(fù)雜度是進一步基于與所述多媒體數(shù)據(jù)的至少一個區(qū)塊及參考區(qū)塊相關(guān)聯(lián)的絕對像素差的和。
8.如權(quán)利要求5所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個SAD_MV值。
9.如權(quán)利要求5所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個幀差值。
10.如權(quán)利要求1所述的方法,其中對所述多媒體數(shù)據(jù)進行分類包括使用多個內(nèi)容分類。
11.如權(quán)利要求1所述的方法,其中確定復(fù)雜度包括確定所述多媒體數(shù)據(jù)的空間復(fù)雜度及時間復(fù)雜度,且其中對所述多媒體數(shù)據(jù)進行分類包括
使所述空間復(fù)雜度與紋理值相關(guān)聯(lián);
使所述時間復(fù)雜度與運動值相關(guān)聯(lián);及
基于所述紋理值及所述運動值給所述多媒體數(shù)據(jù)指配內(nèi)容分類。
12.一種處理多媒體數(shù)據(jù)的設(shè)備,其包括
用于確定多媒體數(shù)據(jù)的復(fù)雜度的裝置;
用于基于所述確定的復(fù)雜度對所述多媒體數(shù)據(jù)進行分類的裝置。
13.如權(quán)利要求1所述的設(shè)備,其中用于確定所述復(fù)雜度的裝置包括用于確定所述多媒體數(shù)據(jù)的空間復(fù)雜度及所述視頻數(shù)據(jù)的時間復(fù)雜度的裝置,且其中用于分類的裝置是基于所述空間復(fù)雜度、所述時間復(fù)雜度或所述空間復(fù)雜度及時間復(fù)雜度二者。
14.如權(quán)利要求2所述的設(shè)備,其中用于確定空間復(fù)雜度的裝置是基于用于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定至少一個Dcsat值的裝置。
15.如權(quán)利要求2所述的設(shè)備,其中用于確定空間復(fù)雜度的裝置是基于用于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定至少一個對比率值的裝置。
16.如權(quán)利要求1所述的設(shè)備,其中用于確定所述復(fù)雜度的裝置包括用于確定所述多媒體數(shù)據(jù)的時間復(fù)雜度的裝置,且其中用于分類的裝置是基于所述時間復(fù)雜度。
17.如權(quán)利要求5所述的設(shè)備,其中用于確定時間復(fù)雜度的裝置是基于用于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定至少一個運動向量(MV)的裝置。
18.如權(quán)利要求6所述的設(shè)備,其中用于確定時間復(fù)雜度的裝置是進一步基于與所述多媒體數(shù)據(jù)的至少一個區(qū)塊及參考區(qū)塊相關(guān)聯(lián)的絕對像素差的和。
19.如權(quán)利要求5所述的設(shè)備,其中用于確定時間復(fù)雜度的裝置是基于用于確定針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個SAD_MV值的裝置。
20.如權(quán)利要求5所述的設(shè)備,其中用于確定時間復(fù)雜度的裝置是基于用于確定針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個幀差值的裝置。
21.如權(quán)利要求1所述的設(shè)備,其中用于對所述多媒體數(shù)據(jù)進行分類的裝置包括使用多個用于內(nèi)容分類的裝置。
22.如權(quán)利要求1所述的設(shè)備,其中用于確定復(fù)雜度的裝置包括
用于確定所述多媒體數(shù)據(jù)的空間復(fù)雜度及時間復(fù)雜度的裝置,且其中用于對所述多媒體數(shù)據(jù)進行分類的裝置包括
用于使所述空間復(fù)雜度與紋理值相關(guān)聯(lián)的裝置;
用于使所述時間復(fù)雜度與運動值相關(guān)聯(lián)的裝置;及
用于基于所述紋理值及所述運動值給所述多媒體數(shù)據(jù)指配內(nèi)容分類的裝置。
23.一種處理多媒體數(shù)據(jù)的方法,其包括
確定多媒體數(shù)據(jù)的復(fù)雜度;及
基于所述確定的復(fù)雜度從至少一個多媒體過程中進行選擇。
24.如權(quán)利要求23所述的方法,其中確定所述復(fù)雜度包括確定所述多媒體數(shù)據(jù)的空間復(fù)雜度及所述視頻數(shù)據(jù)的時間復(fù)雜度,且其中分類是基于所述空間復(fù)雜度、所述時間復(fù)雜度或所述空間復(fù)雜度與時間復(fù)雜度二者。
25.如權(quán)利要求24所述的方法,其中確定空間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個Dcsat值。
26.如權(quán)利要求24所述的方法,其中確定空間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個對比率值。
27.如權(quán)利要求23所述的方法,其中確定所述復(fù)雜度包括確定所述多媒體數(shù)據(jù)的時間復(fù)雜度,且其中分類是基于所述時間復(fù)雜度。
28.如權(quán)利要求27所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個運動向量(MV)。
29.如權(quán)利要求28所述的方法,其中確定時間復(fù)雜度是進一步基于與所述多媒體數(shù)據(jù)的至少一個區(qū)塊及參考區(qū)塊相關(guān)聯(lián)的絕對像素差的和。
30.如權(quán)利要求28所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個SAD_MV值。
31.如權(quán)利要求28所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個幀差值。
32.如權(quán)利要求23所述的方法,其中基于所述確定的復(fù)雜度從至少一個多媒體過程中進行選擇包括
多媒體壓縮、囊封、傳輸、接收或顯現(xiàn)中的任一者或其組合。
33.一種處理多媒體數(shù)據(jù)的設(shè)備,其包括
用于確定多媒體數(shù)據(jù)的復(fù)雜度的裝置;
用于基于所述確定的復(fù)雜度從至少一個多媒體過程中進行選擇的裝置。
34.如權(quán)利要求33所述的設(shè)備,其中用于確定所述復(fù)雜度的裝置包括用于確定所述多媒體數(shù)據(jù)的空間復(fù)雜度及所述視頻數(shù)據(jù)的時間復(fù)雜度的裝置,且其中用于分類的裝置是基于所述空間復(fù)雜度、所述時間復(fù)雜度或所述空間復(fù)雜度及時間復(fù)雜度二者。
35.如權(quán)利要求34所述的設(shè)備,其中用于確定空間復(fù)雜度的裝置是基于用于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定至少一個Dcsat值的裝置。
36.如權(quán)利要求34所述的設(shè)備,其中用于確定空間復(fù)雜度的裝置是基于用于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定至少一個對比率值的裝置。
37.如權(quán)利要求33所述的設(shè)備,其中用于確定所述復(fù)雜度的裝置包括用于確定所述多媒體數(shù)據(jù)的時間復(fù)雜度的裝置,且其中用于分類的裝置是基于所述時間復(fù)雜度。
38.如權(quán)利要求37所述的設(shè)備,其中用于確定時間復(fù)雜度的裝置是基于用于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定至少一個運動向量(MV)的裝置。
39.如權(quán)利要求38所述的設(shè)備,其中用于確定時間復(fù)雜度的裝置是進一步基于用于確定與所述多媒體數(shù)據(jù)的至少一個區(qū)塊及參考區(qū)塊相關(guān)聯(lián)的絕對像素差的和的裝置。
40.如權(quán)利要求38所述的設(shè)備,其中用于確定時間復(fù)雜度的裝置是基于用于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定至少一個SAD_MV值的裝置。
41.如權(quán)利要求38所述的設(shè)備,其中用于確定時間復(fù)雜度的裝置是基于用于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定至少一個幀差值的裝置。
42.如權(quán)利要求33所述的設(shè)備,其中用于基于用于確定復(fù)雜度的裝置從至少一個多媒體過程中進行選擇的裝置包括多媒體壓縮、囊封、傳輸、接收或顯現(xiàn)中的任一者或其組合。
43.一種處理多媒體數(shù)據(jù)的方法,其包括
確定多媒體數(shù)據(jù)的復(fù)雜度;
基于所述多媒體數(shù)據(jù)的復(fù)雜度選擇一組編碼過程。
44.如權(quán)利要求43所述的方法,其中確定所述復(fù)雜度包括確定所述多媒體數(shù)據(jù)的空間復(fù)雜度及所述視頻數(shù)據(jù)的時間復(fù)雜度,且其中分類是基于所述空間復(fù)雜度、所述時間復(fù)雜度或所述空間復(fù)雜度及時間復(fù)雜度二者。
45.如權(quán)利要求44所述的方法,其中確定空間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個Dcsat值。
46.如權(quán)利要求44所述的方法,其中確定空間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個對比率值。
47.如權(quán)利要求43所述的方法,其中確定所述復(fù)雜度包括確定所述多媒體數(shù)據(jù)的時間復(fù)雜度,且其中分類是基于所述時間復(fù)雜度。
48.如權(quán)利要求47所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個運動向量(MV)。
49.如權(quán)利要求48所述的方法,其中確定時間復(fù)雜度是進一步基于與所述多媒體數(shù)據(jù)的至少一個區(qū)塊及參考區(qū)塊相關(guān)聯(lián)的絕對像素差的和。
50.如權(quán)利要求47所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個SAD_MV值。
51.如權(quán)利要求47所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個幀差值。
52.如權(quán)利要求43所述的方法,其中基于所述確定的復(fù)雜度從至少一個編碼過程中進行選擇包括運動估計、速率控制、可縮放性、錯誤恢復(fù)、場景變換確定或GOP結(jié)構(gòu)確定中的任一者或其組合。
53.如權(quán)利要求52所述的方法,其中運動估計過程包括下列中的任一者或其組合
確定搜尋范圍;及
確定參考圖片數(shù)量是基于多媒體數(shù)據(jù)的至少一個區(qū)塊的時間復(fù)雜度。
54.如權(quán)利要求52所述的方法,其中速率控制過程包括下列中的任一者或其組合
確定位分配;及
確定量化參數(shù);及
確定失真是基于多媒體數(shù)據(jù)的至少一個區(qū)塊的空間及時間復(fù)雜度。
55.如權(quán)利要求52所述的方法,其中錯誤恢復(fù)過程包括下列中的任一者或其組合
確定多媒體數(shù)據(jù)區(qū)塊的編碼類型;及
確定多媒體數(shù)據(jù)區(qū)塊的刷新頻率;及
確定失真標(biāo)準(zhǔn)是基于至少一個多媒體數(shù)據(jù)區(qū)塊的空間及時間復(fù)雜度。
56.如權(quán)利要求52所述的方法,其中場景變換檢測過程包括下列中的任一者或其組合
確定場景的開始;及
確定場景的結(jié)束;及
確定漸進拍照邊界是基于至少一個多媒體數(shù)據(jù)區(qū)塊的空間及時間復(fù)雜度。
57.如權(quán)利要求52所述的方法,其中GOP結(jié)構(gòu)確定過程包括下列中的任一者或其組合
基于內(nèi)部閾值確定幀類型為內(nèi)部;及
基于中間閾值確定幀類型是中間的是基于至少一個多媒體數(shù)據(jù)區(qū)塊的空間及時間復(fù)雜度。
58.如權(quán)利要求53所述的方法,其中空間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個Dcsat值。
59.如權(quán)利要求53所述的方法,其中空間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個對比度值。
60.如權(quán)利要求53所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定至少一個運動向量(MV)。
61.如權(quán)利要求53所述的方法,其中確定時間復(fù)雜度是進一步基于確定與所述多媒體數(shù)據(jù)的至少一個區(qū)塊及參考區(qū)塊相關(guān)聯(lián)的絕對像素差的和。
62.如權(quán)利要求53所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定至少一個SAD_MV值。
63.如權(quán)利要求53所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定至少一個幀差值。
64.如權(quán)利要求54所述的方法,其中空間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個Dcsat值。
65.如權(quán)利要求54所述的方法,其中空間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個對比度值。
66.如權(quán)利要求54所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定至少一個運動向量(MV)。
67.如權(quán)利要求54所述的方法,其中確定時間復(fù)雜度是進一步基于確定與所述多媒體數(shù)據(jù)的至少一個區(qū)塊及參考區(qū)塊相關(guān)聯(lián)的絕對像素差的和。
68.如權(quán)利要求54所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定至少一個SAD_MV值。
69.如權(quán)利要求54所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定至少一個幀差值。
70.如權(quán)利要求55所述的方法,其中空間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個Dcsat值。
71.如權(quán)利要求55所述的方法,其中空間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個對比度值。
72.如權(quán)利要求55所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定至少一個運動向量(MV)。
73.如權(quán)利要求55所述的方法,其中確定時間復(fù)雜度是進一步基于確定與所述多媒體數(shù)據(jù)的至少一個區(qū)塊及參考區(qū)塊相關(guān)聯(lián)的絕對像素差的和。
74.如權(quán)利要求55所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定至少一個SAD_MV值。
75.如權(quán)利要求55所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定至少一個幀差值。
76.如權(quán)利要求56所述的方法,其中空間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個Dcsat值。
77.如權(quán)利要求56所述的方法,其中空間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個對比度值。
78.如權(quán)利要求56所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定至少一個運動向量(MV)。
79.如權(quán)利要求56所述的方法,其中確定時間復(fù)雜度是進一步基于確定與所述多媒體數(shù)據(jù)的至少一個區(qū)塊及參考區(qū)塊相關(guān)聯(lián)的絕對像素差的和。
80.如權(quán)利要求56所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定至少一個SAD_MV值。
81.如權(quán)利要求56所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定至少一個幀差值。
82.如權(quán)利要求57所述的方法,其中空間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個Dcsat值。
83.如權(quán)利要求57所述的方法,其中空間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個對比度值。
84.如權(quán)利要求57所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定至少一個運動向量(MV)。
85.如權(quán)利要求57所述的方法,其中確定時間復(fù)雜度是進一步基于確定與所述多媒體數(shù)據(jù)的至少一個區(qū)塊及參考區(qū)塊相關(guān)聯(lián)的絕對像素差的和。
86.如權(quán)利要求57所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定至少一個SAD_MV值。
87.如權(quán)利要求57所述的方法,其中確定時間復(fù)雜度是進一步基于確定與所述多媒體數(shù)據(jù)的至少一個區(qū)塊及參考區(qū)塊相關(guān)聯(lián)的絕對像素差的和,及基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定至少一個SAD_MV值。
88.如權(quán)利要求57所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定至少一個幀差值。
89.一種處理多媒體數(shù)據(jù)的設(shè)備,其包括
用于確定多媒體數(shù)據(jù)的復(fù)雜度的裝置;
用于基于所述多媒體數(shù)據(jù)的復(fù)雜度從一組編碼過程中進行選擇的裝置。
90.如權(quán)利要求43所述的設(shè)備,其中用于確定所述復(fù)雜度的裝置包括用于確定所述多媒體數(shù)據(jù)的空間復(fù)雜度及所述視頻數(shù)據(jù)的時間復(fù)雜度的裝置,且其中分類是基于所述空間復(fù)雜度、所述時間復(fù)雜度或所述空間復(fù)雜度及時間復(fù)雜度二者。
91.如權(quán)利要求44所述的設(shè)備,其中用于確定空間復(fù)雜度的裝置是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個Dcsat值。
92.如權(quán)利要求44所述的設(shè)備,其中用于確定空間復(fù)雜度的裝置是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個對比率值。
93.如權(quán)利要求43所述的設(shè)備,其中用于確定所述復(fù)雜度的裝置包括確定所述多媒體數(shù)據(jù)的時間復(fù)雜度,且其中分類是基于所述時間復(fù)雜度。
94.如權(quán)利要求47所述的設(shè)備,其中用于確定時間復(fù)雜度的裝置是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個運動向量(MV)。
95.如權(quán)利要求48所述的設(shè)備,其中用于確定時間復(fù)雜度的裝置是進一步基于與所述多媒體數(shù)據(jù)的至少一個區(qū)塊及參考區(qū)塊相關(guān)聯(lián)的絕對像素差的和。
96.如權(quán)利要求47所述的設(shè)備,其中用于確定時間復(fù)雜度的裝置是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個SAD_MV值。
97.如權(quán)利要求47所述的設(shè)備,其中用于確定時間復(fù)雜度的裝置是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個幀差值。
98.如權(quán)利要求43所述的設(shè)備,其中用于基于所述確定的復(fù)雜度從至少一個編碼過程中進行選擇的裝置包括下列中的任一者或其組合
運動估計、速率控制、可縮放性、錯誤恢復(fù)、場景變換確定或GOP結(jié)構(gòu)確定。
99.如權(quán)利要求52所述的設(shè)備,其中運動估計過程包括下列中的任一者或其組合
用于確定搜尋范圍的裝置;及
用于確定參考圖片數(shù)量的裝置是基于至少一個多媒體數(shù)據(jù)區(qū)塊的時間復(fù)雜度。
100.如權(quán)利要求52所述的設(shè)備,其中速率控制過程包括下列中的任一者或其組合
用于確定位分配的裝置;及
用于確定量化參數(shù)的裝置;及
用于確定失真的裝置是基于至少一個多媒體數(shù)據(jù)區(qū)塊的空間及時間復(fù)雜度。
101.一種處理多媒體數(shù)據(jù)的方法,其包括
確定多媒體數(shù)據(jù)的復(fù)雜度;
基于所述確定的復(fù)雜度對所述多媒體數(shù)據(jù)進行分類;及
基于其分類確定用于對所述多媒體數(shù)據(jù)進行編碼的位速率。
102.如權(quán)利要求101所述的方法,其中確定所述復(fù)雜度包括確定所述多媒體數(shù)據(jù)的空間復(fù)雜度,且其中分類是基于所述空間復(fù)雜度。
103.如權(quán)利要求102所述的方法,其中確定空間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個Dcsat值。
104.如權(quán)利要求101所述的方法,其中確定所述復(fù)雜度包括確定所述多媒體數(shù)據(jù)的時間復(fù)雜度,且其中分類是基于所述時間復(fù)雜度。
105.如權(quán)利要求104所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個運動向量(MV)。
106.如權(quán)利要求105所述的方法,其中確定時間復(fù)雜度是進一步基于與所述多媒體數(shù)據(jù)的至少一個區(qū)塊及參考區(qū)塊相關(guān)聯(lián)的絕對像素差的和。
107.如權(quán)利要求101所述的方法,其中對所述多媒體數(shù)據(jù)進行分類包括使用多個內(nèi)容分類。
108.如權(quán)利要求107所述的方法,其進一步包括確定用于觀看所述多個內(nèi)容分類的多媒體數(shù)據(jù)的視覺質(zhì)量值。
109.如權(quán)利要求107所述的方法,其進一步包括確定用于基于其分類傳送所述多媒體數(shù)據(jù)的位速率。
110.如權(quán)利要求109所述的方法,其中確定位速率包括基于用于觀看多媒體數(shù)據(jù)的視覺質(zhì)量值使位速率與內(nèi)容分類相關(guān)聯(lián)。
111.如權(quán)利要求101所述的方法,其中確定復(fù)雜度包括確定所述多媒體數(shù)據(jù)的空間復(fù)雜度及時間復(fù)雜度,且其中對所述多媒體數(shù)據(jù)進行分類包括
使所述空間復(fù)雜度與紋理值相關(guān)聯(lián);
使所述時間復(fù)雜度與運動值相關(guān)聯(lián);及
基于所述紋理值及所述運動值給所述多媒體數(shù)據(jù)指配內(nèi)容分類。
112.如權(quán)利要求101所述的方法,其中確定位速率包括確定擬分配用于基于所述分類對所述多媒體數(shù)據(jù)的至少一個區(qū)塊進行編碼的位數(shù)量。
113.一種用于處理多媒體數(shù)據(jù)的設(shè)備,其包括
用于確定多媒體數(shù)據(jù)的復(fù)雜度的裝置;
用于基于所述確定的復(fù)雜度對所述多媒體數(shù)據(jù)進行分類的裝置;
用于基于其分類確定用于對所述多媒體數(shù)據(jù)進行編碼的位速率。
114.如權(quán)利要求113所述的設(shè)備,其中所述用于確定所述復(fù)雜度的裝置包括用于確定所述多媒體數(shù)據(jù)的空間復(fù)雜度的裝置,其中所述用于對所述多媒體數(shù)據(jù)進行分類的裝置是基于所述空間復(fù)雜度。
115.如權(quán)利要求114所述的設(shè)備,其中所述用于確定所述空間復(fù)雜度的裝置包括用于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定至少一個Dcsat值的裝置。
116.如權(quán)利要求113所述的設(shè)備,其中所述位速率確定裝置包括用于確定擬分配用于基于所述分類對所述多媒體數(shù)據(jù)的至少一個區(qū)塊進行編碼的位數(shù)量。
117.如權(quán)利要求113所述的設(shè)備,其中所述用于確定所述復(fù)雜度的裝置包括用于確定所述多媒體數(shù)據(jù)的時間復(fù)雜度的裝置,且其中所述用于對所述多媒體數(shù)據(jù)進行分類的裝置是基于所述時間復(fù)雜度。
118.如權(quán)利要求117所述的設(shè)備,其中所述用于確定所述時間復(fù)雜度的裝置包括用于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定至少一個運動向量(MV)的裝置。
119.如權(quán)利要求117所述的設(shè)備,其中所述用于確定所述時間復(fù)雜度的裝置進一步包括用于確定與所述多媒體數(shù)據(jù)的至少一個區(qū)塊及參考區(qū)塊相關(guān)聯(lián)的絕對差的和的裝置。
120.如權(quán)利要求113所述的設(shè)備,其中確定復(fù)雜度包括確定所述多媒體數(shù)據(jù)的空間復(fù)雜度及所述多媒體數(shù)據(jù)的時間復(fù)雜度,且其中所述分類裝置包括
用于使所述空間復(fù)雜度與紋理值相關(guān)聯(lián)的裝置;及
用于使所述時間復(fù)雜度與運動值相關(guān)聯(lián)的裝置;及
用于基于所述紋理值及所述運動值給所述多媒體數(shù)據(jù)指配內(nèi)容分類的裝置。
121.如權(quán)利要求113所述的設(shè)備,其中所述分類裝置包括使用多個內(nèi)容分類。
122.如權(quán)利要求113所述的設(shè)備,其進一步包括用于基于其分類確定用于傳送所述多媒體數(shù)據(jù)的位速率的裝置。
123.如權(quán)利要求122所述的設(shè)備,其中確定位速率包括使位速率與所述分類相關(guān)聯(lián),其中所述位速率是基于用于觀看多媒體數(shù)據(jù)的視覺質(zhì)量等級。
124.如權(quán)利要求123所述的設(shè)備,其進一步包括用于確定所述分類的視覺質(zhì)量值的裝置。
125.一種用于處理多媒體數(shù)據(jù)的裝置,其包括處理器,所述處理器經(jīng)配置以確定多媒體數(shù)據(jù)的復(fù)雜度,經(jīng)配置以基于所述確定的復(fù)雜度對所述多媒體數(shù)據(jù)進行分類,及進一步經(jīng)配置以基于其分類確定用于對所述多媒體數(shù)據(jù)進行編碼的位速率。
126.如權(quán)利要求125所述的裝置,其中所述處理器進一步經(jīng)配置以確定所述多媒體數(shù)據(jù)的空間復(fù)雜度,及經(jīng)配置以基于所述空間復(fù)雜度對所述多媒體數(shù)據(jù)進行分類。
127.如權(quán)利要求126所述的裝置,其中所述空間復(fù)雜度是基于與所述多媒體數(shù)據(jù)的至少一個區(qū)塊相關(guān)聯(lián)的Dcsat值。
128.如權(quán)利要求125所述的裝置,其中所述復(fù)雜度是通過確定所述多媒體數(shù)據(jù)的時間復(fù)雜度來確定的,且其中所述多媒體數(shù)據(jù)是基于所述時間復(fù)雜度進行分類的。
129.如權(quán)利要求128所述的裝置,其中所述時間復(fù)雜度是基于與所述多媒體數(shù)據(jù)的至少一個區(qū)塊相關(guān)聯(lián)的至少一個運動向量(MV)。
130.如權(quán)利要求129所述的裝置,其中所述時間復(fù)雜度是進一步基于與所述多媒體數(shù)據(jù)的至少一個區(qū)塊及參考區(qū)塊相關(guān)聯(lián)的絕對差的和。
131.如權(quán)利要求125所述的裝置,其中所述多媒體數(shù)據(jù)被分類為多個內(nèi)容分類中的一者。
132.如權(quán)利要求131所述的裝置,其中所述處理器進一步經(jīng)配置以基于其內(nèi)容分類確定用于傳送所述多媒體數(shù)據(jù)的位速率。
133.如權(quán)利要求125所述的裝置,其中所述處理器進一步經(jīng)配置以確定所述多媒體數(shù)據(jù)的空間復(fù)雜度;確定所述多媒體數(shù)據(jù)的時間復(fù)雜度;及通過使所述空間復(fù)雜度與紋理值相關(guān)聯(lián)、及使所述時間復(fù)雜度與運動值相關(guān)聯(lián)、及基于所述紋理值及所述運動值給所述多媒體數(shù)據(jù)指配內(nèi)容分類來對所述多媒體數(shù)據(jù)進行分類。
134.如權(quán)利要求133所述的裝置,其中所述處理器進一步經(jīng)配置以確定用于觀看多個分類的多媒體數(shù)據(jù)的視覺質(zhì)量值。
135.如權(quán)利要求125所述的裝置,其中所述處理器經(jīng)配置以通過使位速率與內(nèi)容分類相關(guān)聯(lián)來確定位速率,其中所述關(guān)聯(lián)性是基于用于觀看多媒體數(shù)據(jù)的視覺質(zhì)量值。
136.如權(quán)利要求125所述的裝置,其中經(jīng)配置以確定位速率包括經(jīng)配置以確定擬分配用于基于所述多媒體分類對所述多媒體數(shù)據(jù)的至少一個區(qū)塊進行編碼的位數(shù)量。
137.一種計算機可讀媒體,其用于包含用于處理多媒體數(shù)據(jù)的方法,所述方法包括
確定多媒體數(shù)據(jù)的復(fù)雜度;
基于所述確定的復(fù)雜度對所述多媒體數(shù)據(jù)進行分類;及
基于其分類確定用于對所述多媒體數(shù)據(jù)進行編碼的位速率。
138.如權(quán)利要求137所述的計算機可讀媒體,其中確定所述復(fù)雜度的方法包括確定所述多媒體數(shù)據(jù)的空間復(fù)雜度,且其中分類是基于所述空間復(fù)雜度。
139.如權(quán)利要求137所述的計算機可讀媒體,其中確定所述復(fù)雜度的方法包括確定所述多媒體數(shù)據(jù)的時間復(fù)雜度,且其中分類是基于所述時間復(fù)雜度。
140.如權(quán)利要求137所述的計算機可讀媒體,其中對所述多媒體數(shù)據(jù)進行分類的方法包括基于所述復(fù)雜度使多個內(nèi)容分類中的一者與所述多媒體數(shù)據(jù)相關(guān)聯(lián)。
141.如權(quán)利要求137所述的計算機可讀媒體,其中所述方法進一步包括基于所述多媒體數(shù)據(jù)分類確定用于傳送所述多媒體數(shù)據(jù)的位速率。
142.如權(quán)利要求137所述的計算機可讀媒體,其中確定所述復(fù)雜度的方法包括確定所述多媒體數(shù)據(jù)的空間復(fù)雜度及時間復(fù)雜度,且其中對所述多媒體數(shù)據(jù)進行分類包括
使所述空間復(fù)雜度與紋理值相關(guān)聯(lián);
使所述時間復(fù)雜度與運動值相關(guān)聯(lián);及
基于所述紋理值及所述運動值給所述多媒體數(shù)據(jù)指配內(nèi)容分類。
143.如權(quán)利要求137所述的計算機可讀媒體,其中所述確定位速率的方法包括基于視覺質(zhì)量值使位速率與內(nèi)容分類相關(guān)聯(lián),其中所述視覺質(zhì)量值包括用于觀看多媒體數(shù)據(jù)的人類感知的質(zhì)量等級。
144.如權(quán)利要求137所述的計算機可讀媒體,其中所述確定位速率的方法包括確定擬分配用于基于所述分類對所述多媒體數(shù)據(jù)的至少一個區(qū)塊進行編碼的位數(shù)量。
145.一種用于處理多媒體數(shù)據(jù)的設(shè)備,其包括
第一確定器,其確定多媒體數(shù)據(jù)的復(fù)雜度;
內(nèi)容分類器,其基于所述確定的復(fù)雜度對所述多媒體數(shù)據(jù)進行分類;及
第二確定器,其用于基于其分類確定用于對所述多媒體數(shù)據(jù)進行編碼的位速率。
146.如權(quán)利要求145所述的設(shè)備,其中所述復(fù)雜度是通過確定所述多媒體數(shù)據(jù)的空間復(fù)雜度來確定的,且其中多媒體數(shù)據(jù)是基于所述空間復(fù)雜度進行分類的。
147.如權(quán)利要求146所述的設(shè)備,其中所述空間復(fù)雜度是基于與所述多媒體數(shù)據(jù)的至少一個區(qū)塊相關(guān)聯(lián)的至少一個Dcsat值。
148.如權(quán)利要求145所述的設(shè)備,其中所述復(fù)雜度是通過確定所述多媒體數(shù)據(jù)的時間復(fù)雜度來確定的,且其中所述多媒體數(shù)據(jù)是基于所述時間復(fù)雜度進行分類的。
149.如權(quán)利要求148所述的設(shè)備,其中所述時間復(fù)雜度是基于與所述多媒體數(shù)據(jù)的至少一個區(qū)塊相關(guān)聯(lián)的至少一個運動向量(MV)。
150.如權(quán)利要求149所述的設(shè)備,其中所述時間復(fù)雜度是進一步基于與所述多媒體數(shù)據(jù)的至少一個區(qū)塊及參考區(qū)塊相關(guān)聯(lián)的絕對像素差的和。
151.如權(quán)利要求145所述的設(shè)備,其進一步包括基于所述分類確定用于傳送所述多媒體數(shù)據(jù)的位速率。
152.如權(quán)利要求145所述的設(shè)備,其中確定位速率包括基于用于觀看多媒體數(shù)據(jù)的視覺質(zhì)量值使位速率與所述多媒體數(shù)據(jù)分類相關(guān)聯(lián)。
153.如權(quán)利要求145所述的設(shè)備,其中確定所述位速率包括基于所述分類確定擬分配用于對所述多媒體數(shù)據(jù)的至少一個區(qū)塊進行編碼的位數(shù)量。
154.如權(quán)利要求145所述的設(shè)備,其進一步包括第三確定器,所述第三確定器用于確定用于觀看多個內(nèi)容分類的多媒體數(shù)據(jù)的視覺質(zhì)量值。
155.如權(quán)利要求145所述的設(shè)備,其中所述多媒體數(shù)據(jù)是使用多個內(nèi)容分類中的一者進行分類的。
156.如權(quán)利要求145所述的設(shè)備,其中所述第一確定器確定所述多媒體數(shù)據(jù)的空間復(fù)雜度及所述多媒體數(shù)據(jù)的時間復(fù)雜度,所述分類器通過以下方式對所述多媒體數(shù)據(jù)進行分類
使所述空間復(fù)雜度與紋理值相關(guān)聯(lián);
使所述時間復(fù)雜度與運動值相關(guān)聯(lián);及
基于所述紋理值及所述運動值給所述多媒體數(shù)據(jù)指配內(nèi)容分類。
157.一種處理多媒體數(shù)據(jù)的方法,其包括
確定多媒體數(shù)據(jù)的復(fù)雜度;及
基于所述多媒體數(shù)據(jù)的復(fù)雜度來選擇一組解碼過程。
158.如權(quán)利要求157所述的方法,其中確定所述復(fù)雜度包括確定所述多媒體數(shù)據(jù)的空間復(fù)雜度及所述視頻數(shù)據(jù)的時間復(fù)雜度,且其中分類是基于所述空間復(fù)雜度、所述時間復(fù)雜度或所述空間復(fù)雜度及時間復(fù)雜度二者。
159.如權(quán)利要求158所述的方法,其中確定空間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個Dcsat值。
160.如權(quán)利要求158所述的方法,其中確定空間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個對比率值。
161.如權(quán)利要求157所述的方法,其中確定所述復(fù)雜度包括確定所述多媒體數(shù)據(jù)的時間復(fù)雜度,且其中分類是基于所述時間復(fù)雜度。
162.如權(quán)利要求161所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個運動向量(MV)。
163.如權(quán)利要求162所述的方法,其中確定時間復(fù)雜度是進一步基于與所述多媒體數(shù)據(jù)的至少一個區(qū)塊及參考區(qū)塊相關(guān)聯(lián)的絕對像素差的和。
164.如權(quán)利要求161所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個SAD_MV值。
165.如權(quán)利要求161所述的方法,其中確定時間復(fù)雜度是基于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個幀差值。
166.如權(quán)利要求157所述的方法,基于所述多媒體數(shù)據(jù)的復(fù)雜度選擇一組解碼過程包括下列中的任一者或其組合
對所述多媒體數(shù)據(jù)的幀中的選定幀進行解碼;
隱藏所述多媒體數(shù)據(jù)的一部分;
內(nèi)插所述多媒體數(shù)據(jù)的至少一部分;
對所述多媒體數(shù)據(jù)進行后處理;及
基于所述確定的復(fù)雜度對多媒體數(shù)據(jù)進行分類。
167.如權(quán)利要求166所述的方法,其中對所述多媒體數(shù)據(jù)的幀中的選定幀進行解碼包括對下列中的任一者或其組合進行解碼
基于空間復(fù)雜度的內(nèi)部幀;及
基于時間復(fù)雜度的中間幀。
168.如權(quán)利要求166所述的方法,其中隱藏所述多媒體數(shù)據(jù)的一部分包括對下列中的任一者或其組合進行解碼
基于空間復(fù)雜度隱藏內(nèi)部幀;及
基于時間復(fù)雜度隱藏中間幀。
169.如權(quán)利要求166所述的方法,其中內(nèi)插所述多媒體數(shù)據(jù)的至少一部分包括對下列中的任一者或其組合進行解碼
基于空間復(fù)雜度以空間方式內(nèi)插內(nèi)部幀;及
基于時間復(fù)雜度以時間方式內(nèi)插中間幀。
170.如權(quán)利要求166所述的方法,其中對所述多媒體數(shù)據(jù)進行后處理包括對下列中的任一者或其組合進行解碼
媒體增強過程,其包括基于空間及時間復(fù)雜度中的一者或其組合的對比度增強、色彩增強、分辨率增強或幀速率增強中的一者或其組合;及
媒體恢復(fù)過程,其包括基于空間及時間復(fù)雜度中的一者或其組合的噪音降低或消除、偽像消除或減少中的一者或其組合。
171.如權(quán)利要求166所述的方法,其中所述多媒體數(shù)據(jù)的分類是基于多個內(nèi)容分類中的一者。
172.一種處理多媒體數(shù)據(jù)的設(shè)備,其包括
用于確定多媒體數(shù)據(jù)的復(fù)雜度的裝置;及
用于基于所述多媒體數(shù)據(jù)的復(fù)雜度選擇一組解碼過程的裝置。
173.如權(quán)利要求172所述的設(shè)備,其中用于確定所述復(fù)雜度的裝置包括用于確定所述多媒體數(shù)據(jù)的空間復(fù)雜度及所述視頻數(shù)據(jù)的時間復(fù)雜度的裝置。
174.如權(quán)利要求173所述的設(shè)備,其中用于確定空間復(fù)雜度的裝置是基于用于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個Dcsat值的裝置。
175.如權(quán)利要求173所述的設(shè)備,其中用于確定空間復(fù)雜度的裝置是基于用于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個對比率值的裝置。
176.如權(quán)利要求172所述的設(shè)備,其中用于確定所述復(fù)雜度的裝置包括用于確定所述多媒體數(shù)據(jù)的時間復(fù)雜度的裝置,且其中分類是基于所述時間復(fù)雜度。
177.如權(quán)利要求176所述的設(shè)備,其中用于確定時間復(fù)雜度的裝置是基于用于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個運動向量(MV)的裝置。
178.如權(quán)利要求176所述的設(shè)備,其中用于確定時間復(fù)雜度的裝置是進一步基于與所述多媒體數(shù)據(jù)的至少一個區(qū)塊及參考區(qū)塊相關(guān)聯(lián)的絕對像素差的和。
179.如權(quán)利要求176所述的設(shè)備,其中用于確定時間復(fù)雜度的裝置是基于用于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個SAD_MV值的裝置。
180.如權(quán)利要求176所述的設(shè)備,其中用于確定時間復(fù)雜度的裝置是基于用于針對所述多媒體數(shù)據(jù)的至少一個區(qū)塊確定的至少一個幀差值的裝置。
181.如權(quán)利要求172所述的設(shè)備,其中用于基于所述多媒體數(shù)據(jù)的復(fù)雜度選擇一組解碼過程的裝置包括下列中的任一者或其組合
用于對所述多媒體數(shù)據(jù)的幀中的選定幀進行解碼的裝置;
用于隱藏所述多媒體數(shù)據(jù)的一部分的裝置;
用于內(nèi)插所述多媒體數(shù)據(jù)的至少一部分的裝置;
用于對所述多媒體數(shù)據(jù)進行后處理的裝置;及
用于基于所述確定的復(fù)雜度對多媒體數(shù)據(jù)進行分類的裝置。
182.如權(quán)利要求181所述的設(shè)備,其中用于對所述多媒體數(shù)據(jù)的幀中的選定幀進行解碼的裝置包括對下列中的任一者或其組合進行解碼
基于空間復(fù)雜度的內(nèi)部幀;及
基于時間復(fù)雜度的中間幀。
183.如權(quán)利要求181所述的設(shè)備,其中用于隱藏所述多媒體數(shù)據(jù)的一部分的裝置包括對下列中的任一者或其組合進行解碼
用于基于空間復(fù)雜度隱藏內(nèi)部幀的裝置;及
用于基于時間復(fù)雜度隱藏中間幀的裝置。
184.如權(quán)利要求181所述的設(shè)備,其中用于內(nèi)插所述多媒體數(shù)據(jù)的至少一部分的裝置包括對下列中的任一者或其組合進行解碼
用于基于空間復(fù)雜度以空間方式內(nèi)插內(nèi)部幀的裝置;及
用于基于時間復(fù)雜度以時間方式內(nèi)插中間幀的裝置。
185.如權(quán)利要求181所述的設(shè)備,其中用于對所述多媒體數(shù)據(jù)進行后處理的裝置包括對下列中的任一者或其組合進行解碼
媒體增強過程,其包括基于空間及時間復(fù)雜度中的一者或其組合的對比度增強、色彩增強、分辨率增強或幀速率增強中的一者或其組合;及
媒體恢復(fù)過程,其包括基于空間及時間復(fù)雜度中的一者或其組合的噪音降低或消除、偽像消除或減少中的一者或其組合。
186.如權(quán)利要求181所述的設(shè)備,其中所述用于對多媒體數(shù)據(jù)進行分類的裝置是基于多個內(nèi)容分類中的一者。
全文摘要
本文主張一種用于利用確定的內(nèi)容分類處理例如視頻數(shù)據(jù)、音頻數(shù)據(jù)或視頻及音頻數(shù)據(jù)二者等多媒體數(shù)據(jù)以進行編碼的設(shè)備及方法。處理多媒體數(shù)據(jù)包括確定多媒體數(shù)據(jù)的復(fù)雜度、基于所確定的復(fù)雜度將所述多媒體數(shù)據(jù)分類及基于其分類確定用于對所述多媒體數(shù)據(jù)進行編碼的位速率。復(fù)雜度可包括多媒體數(shù)據(jù)的空間復(fù)雜度分量及時間復(fù)雜度分量。使用內(nèi)容分類對所述多媒體數(shù)據(jù)進行分類,其中所述內(nèi)容分類是基于使用空間復(fù)雜度、時間復(fù)雜度或空間復(fù)雜度與時間復(fù)雜度二者的用于觀看多媒體數(shù)據(jù)的視覺質(zhì)量值。
文檔編號H04N7/26GK101171843SQ200680014898
公開日2008年4月30日 申請日期2006年3月10日 優(yōu)先權(quán)日2005年3月10日
發(fā)明者維賈雅拉克希米·R·拉韋恩德拉恩, 帕尼庫馬爾·巴米迪帕蒂, 戈登·肯特·沃克 申請人:高通股份有限公司