使用感興趣對象的數(shù)據(jù)對視頻成碼的比特率控制的制作方法
【專利摘要】本發(fā)明描述了包括使用感興趣對象數(shù)據(jù)的對視頻成碼的比特率控制的系統(tǒng)、制品和方法。
【專利說明】使用感興趣對象的數(shù)據(jù)對視頻成碼的比特率控制
[0001] 背景
[0002] 網(wǎng)際協(xié)議語音(VoIP)提供各種數(shù)據(jù)傳輸服務(wù),包括諸如視頻會議等具有雙向或 廣播視頻和音頻傳輸?shù)亩嗝襟w會話。隨著質(zhì)量的提高和成本的下降,視頻會議已經(jīng)變得非 常流行。這已經(jīng)提高了諸如視頻會議等允許共享和傳送大量多媒體數(shù)據(jù)的應(yīng)用的比特率效 率的重要性。這些傳輸使用視頻編碼器,該視頻編碼器壓縮視頻信息以使得能夠通過給定 帶寬發(fā)送更多信息。經(jīng)壓縮的信號然后可被傳送到在顯示之前對該信號進(jìn)行解碼或解壓縮 的接收器。具有較低帶寬的一些網(wǎng)絡(luò)需要降低總比特率以便甚至在維持視頻中關(guān)鍵內(nèi)容的 視覺質(zhì)量的同時(shí)接收和顯示視頻數(shù)據(jù)。對于具有相對較大帶寬的網(wǎng)絡(luò),在維持視頻中關(guān)鍵 內(nèi)容的視覺質(zhì)量的同時(shí)降低比特率提供了供其它傳輸(無論與正在傳送的視頻的顯示或 音頻有關(guān)的傳輸還是其它無關(guān)的網(wǎng)絡(luò)傳輸)自由使用的更多帶寬。
【專利附圖】
【附圖說明】
[0003] 本文中所描述的內(nèi)容通過示例而非限制地在附圖中示出。為說明的簡單和清楚起 見,在附圖中示出的元素不一定按比例繪制。例如,為清楚起見,某些元素的尺寸可能相對 于其它元素被放大。此外,在認(rèn)為合適的地方,在附圖中重復(fù)附圖標(biāo)記以指示相應(yīng)或相似的 元件。在附圖中:
[0004] 圖1是示例視頻成碼(coding)系統(tǒng)的示圖;
[0005] 圖2是圖1的示例視頻成碼系統(tǒng)的一部分的示圖;
[0006] 圖3是替換視頻成碼系統(tǒng)的示圖;
[0007] 圖4是根據(jù)一個(gè)示例視頻成碼系統(tǒng)的視頻幀的示圖;
[0008] 圖5是示出圖4的視頻幀的映射的示圖;
[0009] 圖6是示出圖4的視頻幀的另一映射的示圖;
[0010] 圖7是不出不例視頻成碼過程的流程圖;
[0011] 圖8是操作中的示例視頻成碼過程的示圖;
[0012] 圖9是示例視頻成碼系統(tǒng)的示圖;
[0013] 圖10是用于操作示例視頻成碼系統(tǒng)的示例系統(tǒng)的示圖;以及
[0014] 圖11是完全根據(jù)本公開至少一些實(shí)現(xiàn)安排的示例系統(tǒng)的示圖。
【具體實(shí)施方式】
[0015] 現(xiàn)在參考附圖描述一個(gè)或多個(gè)實(shí)現(xiàn)。盡管討論了特定配置和構(gòu)造,然而應(yīng)當(dāng)理解 這樣做只是為了解說目的。相關(guān)領(lǐng)域內(nèi)技術(shù)人員應(yīng)當(dāng)理解,可使用其它配置和安排而不背 離說明書的精神和范圍。相關(guān)領(lǐng)域內(nèi)技術(shù)人員將顯而易見,也可在本申請所描述內(nèi)容以外 的多種其它系統(tǒng)和應(yīng)用中采用本文所述的技術(shù)和/或安排。
[0016] 盡管以下描述陳述了可在諸如片上系統(tǒng)(SoC)架構(gòu)之類的架構(gòu)中出現(xiàn)的多個(gè)實(shí) 現(xiàn),但是本文所述的技術(shù)和/或安排的實(shí)現(xiàn)不限于特定的架構(gòu)和/或計(jì)算系統(tǒng)并且可由用 于類似目的的任何架構(gòu)和/或計(jì)算系統(tǒng)所實(shí)現(xiàn)。例如,使用例如多個(gè)集成電路(1C)芯片 和/或封裝的多種架構(gòu)、和/或多種計(jì)算設(shè)備和/或諸如機(jī)頂盒、智能電話等的消費(fèi)者電子 (CE)設(shè)備可實(shí)現(xiàn)本文所述的技術(shù)和/或安排。此外,盡管下列描述可能陳述了諸如邏輯實(shí) 現(xiàn)、系統(tǒng)組件的類型和相互關(guān)系、邏輯劃分/集成選擇等的諸多具體細(xì)節(jié),但是可在不具有 此類具體細(xì)節(jié)的情況下實(shí)現(xiàn)所要求保護(hù)的主題。在其它實(shí)例中,諸如例如控制結(jié)構(gòu)和全軟 件指令序列之類的某些內(nèi)容可能并未詳細(xì)示出以避免模糊本文所公開的內(nèi)容。
[0017] 本文所公開的內(nèi)容可實(shí)現(xiàn)在硬件、固件、軟件或它們的任意組合中。本文所公開的 內(nèi)容還可被實(shí)現(xiàn)為存儲在機(jī)器可讀介質(zhì)上的指令,其可由一個(gè)或多個(gè)處理器讀取和執(zhí)行。 機(jī)器可讀介質(zhì)可包括用于存儲或傳送機(jī)器(例如,計(jì)算設(shè)備)可讀形式的信息的任何介質(zhì) 和/或機(jī)制。例如,機(jī)器可讀介質(zhì)可包括只讀存儲器(ROM);隨機(jī)存取存儲器(RAM);磁盤存 儲介質(zhì);光存儲介質(zhì);閃存設(shè)備;電、光、聲或其它形式的傳播信號(例如,載波、紅外信號、 數(shù)字信號等)等等。在另一形式中,諸如非瞬態(tài)計(jì)算機(jī)可讀介質(zhì)等非瞬態(tài)制品可以與上述 示例或其它示例中的任一個(gè)聯(lián)用,不同之處在于它本質(zhì)上不包括瞬時(shí)信號。它本質(zhì)上包括 除了信號之外的可以按諸如RAM等"瞬時(shí)"方式臨時(shí)保存數(shù)據(jù)的那些元件。
[0018] 在說明書中對"一個(gè)實(shí)現(xiàn)"、"實(shí)現(xiàn)"、"示例實(shí)現(xiàn)"等的引用表明所描述的實(shí)現(xiàn)可包 括特定特征、結(jié)構(gòu)或特性,但不一定每個(gè)實(shí)現(xiàn)均包括該特定特征、結(jié)構(gòu)或特性。此外,這樣的 短語不一定是指同一個(gè)實(shí)現(xiàn)。此外,當(dāng)結(jié)合一個(gè)實(shí)現(xiàn)描述特定特征、結(jié)構(gòu)或特性時(shí),認(rèn)為在 本領(lǐng)域技術(shù)人員學(xué)識范圍內(nèi),可以與其他實(shí)現(xiàn)一起實(shí)施這樣的特征、結(jié)構(gòu)或特性,不論本文 是否有明確描述。
[0019] 以下描述了包括使用感興趣對象數(shù)據(jù)的對視頻成碼的比特率控制的系統(tǒng)、制品和 方法。
[0020] 經(jīng)編碼的比特流可使用從編碼器到解碼器的具有最大帶寬或比特率能力的傳輸 路徑,并且這些傳輸路徑可以與或不與其它數(shù)據(jù)流共享。解碼器也可以對比特率施加其它 限制。因此,降低視頻或諸如視頻會議傳輸?shù)萔oIP傳輸?shù)谋忍芈士梢栽谳^低帶寬網(wǎng)絡(luò)上提 供高質(zhì)量視頻傳輸或者為其它網(wǎng)絡(luò)傳輸提供可用帶寬。
[0021] 一種用于降低視頻會議的比特率的方法包括對顯示器上的諸如人臉等感興趣對 象特征進(jìn)行參數(shù)建模。參數(shù)模型提供用于渲染檢測到的對象的參數(shù)。有了這些模型,編解 碼器系統(tǒng)僅僅向接收器傳送檢測到的對象的基礎(chǔ)網(wǎng)格或線框以及用于重建對象的參數(shù)。接 收器或解碼器然后使用渲染參數(shù)來重建圖像上的感興趣對象并重新使用先前提供的背景 數(shù)據(jù)。然而,該方法受到接收器側(cè)的特定動畫能力的限制,這可導(dǎo)致不現(xiàn)實(shí)的或降級的圖像 以及對象的不自然移動。
[0022] 對于許多視頻或VoIP傳輸,諸如在視頻會議期間,用戶經(jīng)常將他們的注意力集中 在正在前景中說話的人,而較少關(guān)注周圍的背景。人眼以與用于數(shù)碼相機(jī)的視場焦點(diǎn)概念 相似的方式運(yùn)作,其中所聚焦的項(xiàng)目通常在清晰的焦點(diǎn)中,而前景和/或背景中的其它次 要項(xiàng)目可能是模糊的或者具有較低質(zhì)量。如將在下文描述的,現(xiàn)在有可能通過在維持圖像 中感興趣對象的高質(zhì)量圖像的同時(shí)降低圖像中背景的質(zhì)量來傳送具有較低比特率的經(jīng)編 碼比特流以便進(jìn)行視頻傳輸。這可以在宏塊級基礎(chǔ)上執(zhí)行,其中宏塊所提供的圖像質(zhì)量依 賴于該宏塊到圖像上由對象位置定義的點(diǎn)的距離。
[0023] 用于該系統(tǒng)的成碼標(biāo)準(zhǔn)可以是具有高級視頻編解碼器(AVC)和SVC擴(kuò)展(諸如 H. 264/MPEG-4AVC - SVC)等的H. 264,諸如MPEG-2或VCI等,但在所公開的視頻成碼系統(tǒng)的 情況下許多其它版本或標(biāo)準(zhǔn)可以適當(dāng)?shù)夭僮鳌8咝室曨l成碼(HEVC)也可以與本系統(tǒng)中 的SVC聯(lián)用??梢允褂玫钠渌鼧?biāo)準(zhǔn)包括來自谷歌的VP8/WebM等。
[0024] SVC是用于應(yīng)對現(xiàn)代視頻服務(wù)環(huán)境中的網(wǎng)絡(luò)和設(shè)備的異質(zhì)性的重要工具。SVC比 特流包含可以獨(dú)立解碼的若干子集比特流,這些子流表示具有不同分辨率、幀率、質(zhì)量、位 深等的源視頻內(nèi)容。通過使用多層成碼結(jié)構(gòu)來實(shí)現(xiàn)可縮放性。一般而言,通常存在一個(gè)基 礎(chǔ)層,可以首先對該基礎(chǔ)層進(jìn)行編碼,然后對SVC系統(tǒng)中的若干增強(qiáng)層進(jìn)行編碼。本公開允 許維護(hù)高質(zhì)量圖像,并因此可能更適于增強(qiáng)層之一,但可用于包括基礎(chǔ)層在內(nèi)的任一層???以在單個(gè)層、所有層或僅僅特定層提供本系統(tǒng),諸如允許某一最低質(zhì)量圖像的那些層。
[0025] 參考圖1,根據(jù)本公開的至少某些實(shí)現(xiàn)來安排示例視頻成碼系統(tǒng)100。在各種實(shí)現(xiàn) 中,視頻成碼系統(tǒng)1〇〇可被配置成根據(jù)上述一個(gè)或多個(gè)標(biāo)準(zhǔn)來承擔(dān)視頻編碼和/或?qū)崿F(xiàn)視 頻編解碼器。此外,視頻成碼系統(tǒng)100能夠以各種形式被實(shí)現(xiàn)為圖像處理器、視頻處理器和 /或媒體處理器的一部分,并且可承擔(dān)幀間預(yù)測、幀內(nèi)預(yù)測、預(yù)測性成碼和/或殘余預(yù)測。
[0026] 如此處所使用的,術(shù)語"成碼器(coder) "可以指編碼器和/或解碼器。類似地,如 此處所使用的,術(shù)語"成碼"可以指經(jīng)由編碼器編碼和/或經(jīng)由解碼器解碼。成碼器、編碼 器或解碼器可具有編碼器和解碼器兩者的組件。
[0027] 在一些示例中,視頻成碼系統(tǒng)100可包括為了清楚起見未在圖1中示出的附加項(xiàng)。 例如,視頻成碼系統(tǒng)100可包括處理器、射頻型(RF)收發(fā)機(jī)、顯示器和/或天線。此外,視 頻成碼系統(tǒng)100可包括諸如揚(yáng)聲器、話筒、加速計(jì)、存儲器、路由器、網(wǎng)絡(luò)接口邏輯等為了清 楚起見未在圖1中示出的附加項(xiàng)。
[0028] 在一些示例中,視頻成碼系統(tǒng)100可執(zhí)行SVC操作。例如,示出了兩個(gè)空間分辨率 層(例如,基礎(chǔ)層10Γ和增強(qiáng)層101);然而,除了基礎(chǔ)層10Γ之外還可以利用任何數(shù)量的 增強(qiáng)層?;A(chǔ)層10??山?jīng)由H. 264/AVC (和/或HEVC)兼容編碼器來處理。與基礎(chǔ)層相關(guān) 聯(lián)的信息(例如,諸如預(yù)測模式、重構(gòu)的像素等)可用于增強(qiáng)層101的成碼。
[0029] 例如,在視頻成碼系統(tǒng)100在增強(qiáng)層101上操作期間,,當(dāng)前視頻信息可以按視頻 數(shù)據(jù)幀的形式被提供給內(nèi)部位深增加模塊102,并由變換和量子化模塊108來進(jìn)行視頻變 換和量子化過程。變換和量子化模塊108的輸出可被提供給熵成碼模塊109以及去量子化 和逆變換模塊110。去量子化和逆變換模塊110可實(shí)現(xiàn)變換和量子化模塊108承擔(dān)的操作 的逆。本領(lǐng)域技術(shù)人員可以認(rèn)識到,如此處所使用的變換和量子化模塊和去量子化和逆變 換模塊可采用縮放技術(shù)。去量子化和逆變換模塊110的輸出可被提供給包括以下組件的 環(huán)路:去塊化(de-blocking)過濾器114、樣本自適應(yīng)偏移過濾器116、自適應(yīng)環(huán)路過濾器 118、緩沖器120、運(yùn)動估計(jì)模塊122、運(yùn)動補(bǔ)償模塊124以及幀內(nèi)預(yù)測模塊126。如圖1所 不,運(yùn)動補(bǔ)償模塊124或巾貞內(nèi)預(yù)測模塊126的輸出與去量子化和逆變換模塊110的輸出相 組合以作為對去塊化過濾器114的輸入。
[0030] 例如,在視頻成碼系統(tǒng)100中,當(dāng)前視頻幀可被提供給運(yùn)動估計(jì)模塊122。系統(tǒng)100 可以按光柵掃描次序以圖像宏塊(以下描述)為單位處理當(dāng)前幀。當(dāng)視頻成碼系統(tǒng)100以 幀間模式操作時(shí),運(yùn)動估計(jì)模塊122可響應(yīng)于當(dāng)前視頻幀和參考視頻幀而生成殘余信號。 運(yùn)動補(bǔ)償模塊124然后可使用參考視頻幀和運(yùn)動估計(jì)模塊122所提供的殘余信號來生成預(yù) 測幀。
[0031] 預(yù)測幀然后被從當(dāng)前幀中扣除并且結(jié)果被提供給宏塊(或Μ塊或MB)分配器106。 宏塊分配器106可通過分成一個(gè)或多個(gè)幾何宏塊來劃分預(yù)測幀以便進(jìn)行壓縮。宏塊分配器 還可將宏塊分配給各個(gè)片和/或定義形成宏塊的更小的分塊。結(jié)果可被提供給變換和量子 化模塊108以生成一組量子化變換系數(shù),這組量子化變換系數(shù)可由熵成碼模塊109來進(jìn)行 重排序和熵成碼以生成視頻成碼系統(tǒng)100所提供的經(jīng)壓縮比特流(例如,網(wǎng)絡(luò)抽象層(NAL) 比特流)的一部分。在各種實(shí)現(xiàn)中,視頻成碼系統(tǒng)100所提供的比特流可包括除了用于對 每一塊進(jìn)行解碼的輔助信息(例如,預(yù)測模式、量子化參數(shù)、運(yùn)動向量信息等)之外的經(jīng)熵 編碼的系數(shù),并且可被提供給如此處所描述的其它系統(tǒng)和/或設(shè)備以便傳輸或存儲。
[0032] 變換和量子化模塊108的輸出還可被提供給去量子化和逆變換模塊110。去量子 化和逆變換模塊110可實(shí)現(xiàn)變換和量子化模塊108承擔(dān)的操作的逆,并且去量子化和逆變 換模塊110的輸出可以與預(yù)測幀進(jìn)行組合以生成重構(gòu)幀。當(dāng)視頻成碼系統(tǒng)100以幀內(nèi)預(yù)測 模式操作時(shí),幀內(nèi)預(yù)測模塊126可使用重構(gòu)幀來執(zhí)行此處將不會更詳細(xì)地描述的幀內(nèi)預(yù)測 模式。
[0033] 以一種形式,對于H. 264/AVC標(biāo)準(zhǔn)等,宏塊與多個(gè)像素(通常是16X 16)相關(guān)聯(lián)。 宏塊還可以是其它大?。ㄖT如8X8)或者自身可以被進(jìn)一步分成4X4或8X8塊以便壓縮。
[0034] 當(dāng)使用HEVC標(biāo)準(zhǔn)時(shí),宏塊已經(jīng)被成碼單元(⑶)(也被稱為大成碼單元(LCR)) 替代。對于該標(biāo)準(zhǔn),可通過分成成碼樹塊的一個(gè)或多個(gè)片(例如,具有對應(yīng)的色度樣本的 64X64亮度樣本)來劃分當(dāng)前幀以供宏塊分配器106進(jìn)行壓縮。在四分樹拆分模式中,每 一個(gè)成碼樹塊還可以分成成碼單元(CU)。此外,四分樹上的每一個(gè)葉CU可被分成分區(qū)單元 (PU)以便進(jìn)行運(yùn)動補(bǔ)償預(yù)測。在根據(jù)本公開的各種實(shí)現(xiàn)中,⑶可具有各種大小,包括但不 限于64x64、32x32、16xl6和8x8,而對于2Nx2N CU,對應(yīng)的PU也可具有各種大小,包括但不 限于 2Νχ2Ν、2ΝχΝ、Νχ2Ν、ΝχΝ、2Νχ(λ 5N、2NxL 5Ν、0· 5Nx2N 和 L 5Nx2N。然而,應(yīng)當(dāng)注意,上述 只是示例CU分區(qū)和PU分區(qū)形狀和大小,本公開不限于任何特定CU分區(qū)和PU分區(qū)形狀和 /或大小。
[0035] 此處,術(shù)語"宏塊"通常被用來意指用于成碼的像素塊。因此,此處的宏塊對于HEVC 等可以指視頻數(shù)據(jù)的CU或PU,或者對于H. 264/AVC等可以指作為視頻或像素?cái)?shù)據(jù)的分區(qū) 的8x8或16x16或其它形狀的塊,除非另外定義。應(yīng)理解,宏塊大小在每一幀上可以是統(tǒng)一 的,但在幀之間可以不是統(tǒng)一的,并且在單個(gè)幀上可以不是始終統(tǒng)一的。
[0036] 在各種實(shí)現(xiàn)中,并且對于上述兩個(gè)標(biāo)準(zhǔn),片可被指定為1(內(nèi))、P(預(yù)測)、B(雙向 預(yù)測)、SP(切換P)、SI (切換I)型片,等等。一般而言,幀可包括不同的片類型。此外,幀 可被指定為非參考幀或可用作對幀間預(yù)測的參考的參考幀。在I片中,使用空間預(yù)測,并且 以一種形式,僅僅來自幀本身中的數(shù)據(jù)。在P片中,可通過估計(jì)幀之間的運(yùn)動來進(jìn)行時(shí)間 (而不是空間)預(yù)測。在B片中,表示每一個(gè)PU的兩個(gè)運(yùn)動估計(jì)的兩個(gè)運(yùn)動向量可用于進(jìn) 行時(shí)間預(yù)測或運(yùn)動估計(jì)。換言之,例如,可以從幀上的相對于B片的過去、將來或兩者的片 預(yù)測B片。另外,可以從在相對于顯示次序的過去或?qū)沓霈F(xiàn)的多個(gè)圖片中估計(jì)運(yùn)動。在 各種實(shí)現(xiàn)中,可以按對應(yīng)于上述大小的各種CU或PU級估計(jì)運(yùn)動。
[0037] 類似地,在基礎(chǔ)層10Γ上的視頻成碼系統(tǒng)100的操作期間,當(dāng)前視頻信息可以 按視頻數(shù)據(jù)幀的形式提供給空間抽取或位深減小模塊103,并且然后被傳遞至宏塊分配器 106'。宏塊分配器106'通過分成宏塊來執(zhí)行對幀的劃分以便進(jìn)行壓縮,并且可將幀分成一 個(gè)或多個(gè)片或塊或兩者,并且結(jié)果可被提供給變換和量子化模塊108'。變換和量子化模塊 108'可執(zhí)行視頻變換和量子化過程。變換和量子化模塊108'的輸出可被提供給去量子化 和逆變換模塊110'。去量子化和逆變換模塊110'可實(shí)現(xiàn)變換和量子化模塊108'執(zhí)行的操 作的逆,以便向包括以下組件的環(huán)路提供輸出:去塊化過濾器114'、樣本自適應(yīng)偏移過濾 器116'、自適應(yīng)環(huán)路過濾器118'、緩沖器120'、運(yùn)動估計(jì)模塊122'、運(yùn)動補(bǔ)償模塊124'以 及幀內(nèi)預(yù)測模塊126' Z。本領(lǐng)域技術(shù)人員可以認(rèn)識到,如此處所使用的變換和量子化模塊 和去量子化和逆變換模塊可采用縮放技術(shù)。如圖1所示,運(yùn)動補(bǔ)償模塊124'或幀內(nèi)預(yù)測模 塊126'的輸出都與去量子化和逆變換模塊110'的輸出相組合以作為對去塊化過濾器114' 的輸入。
[0038] 在操作中,在解碼期間,兩層SVC比特流可被解復(fù)用成兩個(gè)單獨(dú)的比特流(例如, 基礎(chǔ)層10Γ比特流和增強(qiáng)層101比特流)以便解碼?;A(chǔ)層101'比特流可被獨(dú)立解碼以 重構(gòu)基礎(chǔ)層輸出視頻。對于基于HEVC的SVC,基礎(chǔ)層10Γ比特流可被獨(dú)立解碼,而增強(qiáng)層 101比特流無法被獨(dú)立解碼以重構(gòu)輸出視頻。增強(qiáng)層101比特流可以與基礎(chǔ)層重構(gòu)視頻一 起解碼,因?yàn)閷娱g預(yù)測可用于某些增強(qiáng)層塊的編碼。基礎(chǔ)層10Γ重構(gòu)視頻可以在被應(yīng)用于 層間預(yù)測之前處理。可選地執(zhí)行對針對空間可縮放性上采樣的圖片的附加操作、用于位深 可縮放性的圖片色調(diào)映射、用于交織漸進(jìn)可縮放性的去交織、或者某個(gè)其它種類的處理。
[0039] 如將在下文更詳細(xì)地描述的,本公開提供了用于本系統(tǒng)的多個(gè)可能的實(shí)現(xiàn)。在視 頻成碼系統(tǒng)100 (圖1-2)的情況下,比特率控制可由可集成特定映射任務(wù)的視頻速率控制 器150來執(zhí)行。視頻速率控制器150可被認(rèn)為是編碼器的一部分或者可以是與編碼器分開 或遠(yuǎn)離編碼器的?;蛘撸曨l成碼系統(tǒng)300(圖3)具有映射控件302,該映射控件在視頻速 率控制器310外部或遠(yuǎn)程執(zhí)行特定任務(wù),然后將數(shù)據(jù)傳送到視頻速率控制器310以便降低 比特率。視頻速率控制器310可以是或不是編碼器308的一部分。構(gòu)想許多其它組合和示 例。
[0040] 參考圖1-2,視頻速率控制器150可接收視頻幀數(shù)據(jù),并且可以通信地連接到宏塊 分配器106和106'以及變換和量子化模塊108和108'。雖然視頻速率控制器150被示為 改變基礎(chǔ)層10Γ和增強(qiáng)層101兩者的比特率,視頻速率控制器150可以只對一層、對至少 一層、對多個(gè)特定層或所有層起作用。視頻速率控制器150改變正在編碼的視頻數(shù)據(jù)的比 特率以便為所得的經(jīng)編碼比特流提供較低的比特率。
[0041] 一般而言,視頻速率控制器150確定形成幀或圖像的宏塊中的哪一些也顯示圖像 中的諸如臉部等感興趣對象的至少一部分。視頻速率控制器150還確定那些宏塊顯示諸如 背景的一部分等非對象圖像的部分。如此處所使用的,術(shù)語"背景"可以指視頻圖像中的未 被定義為感興趣區(qū)域或?qū)ο螅ɑ虮缓喎Q為非對象)且不引起用戶的密切關(guān)注的區(qū)域。背景 可包括位于所確定的感興趣對象的后面或前面(例如,前景)的圖像部分。這與引起用戶 關(guān)注的對象或感興趣對象形成對比。顯示背景且在一種形式中僅僅顯示背景或非對象的宏 塊由指示從該宏塊到相對于對象定義的點(diǎn)(諸如對象的中心點(diǎn))的距離的水平來映射或標(biāo) 記。用于非對象宏塊的圖像數(shù)據(jù)然后可依據(jù)宏塊的水平來減少。在一種形式中,這可通過 使用QP縮放因子或內(nèi)容知曉過濾器或兩者來執(zhí)行。
[0042] 關(guān)于這些方法以及視頻成碼系統(tǒng)100或300的其它方面的附加和/或替換細(xì)節(jié)可 以在以下參考圖2-6更詳細(xì)地討論的一個(gè)或多個(gè)示例實(shí)現(xiàn)中示出。如以下將更詳細(xì)討論 的,視頻成碼系統(tǒng)100可用于執(zhí)行以下結(jié)合圖7和8討論的多種功能中的部分或全部。
[0043] 參考圖2,在一種示例形式中,視頻成碼系統(tǒng)100的層101和10Γ中的任一個(gè)或 兩者可具有邏輯模塊200。某些邏輯模塊可被包括在視頻速率控制器150中。視頻速率控 制器150可具有對象檢測模塊252、宏塊水平圖生成器模塊(或MB級生成器或簡稱為生成 器)254、內(nèi)容知曉過濾器256和/或量子化參數(shù)(QP)控制模塊258。對象檢測模塊252和 宏塊水平圖生成器254可以分別連接或通信地或操作地耦合到圖像數(shù)據(jù)202和宏塊分配器 模塊106 (或106')。內(nèi)容知曉過濾器256和QP控制模塊258連接或通信地或操作地耦合 到變換和量子化模塊108 (或108')。
[0044] 參考圖3,在一個(gè)示例替代配置中,單獨(dú)的映射控件302提供對象檢測模塊252和 宏塊水平圖生成器模塊254,而不是視頻速率控制器。在該示例中,編碼器308包括具有內(nèi) 容知曉過濾器模塊256和/或QP控制模塊258的視頻速率控制器310。映射控件302還可 包括圖像捕捉設(shè)備304或可以與圖像捕捉設(shè)備306通信。在一種形式中,映射控件302可 以是或者可以鏈接到相機(jī),諸如網(wǎng)絡(luò)攝像頭或其它數(shù)字或模擬相機(jī)或攝像機(jī)。在一些示例 中,視頻數(shù)據(jù)可經(jīng)由網(wǎng)絡(luò)攝像頭傳感器等來捕捉(例如,互補(bǔ)金屬-氧化物半導(dǎo)體圖像傳感 器(CMOS)或電荷耦合器件圖像傳感器(CCD)),而不使用紅-綠-藍(lán)(RGB)深度相機(jī)和/或 話筒陣列來定位誰正在說話。在其它示例中,作為網(wǎng)絡(luò)對攝像頭傳感器的補(bǔ)充或替換,可使 用RGB深度相機(jī)和/或話筒陣列。許多不同類型的相機(jī)可以與此處描述的本系統(tǒng)聯(lián)用。
[0045] 對于視頻成碼系統(tǒng)300,映射控件302可以與同一設(shè)備中同一編碼器內(nèi)或作為其 一部分的視頻速率控制器310分開,諸如具有照片或視頻捕捉能力的相機(jī)或設(shè)備。作為另 一替代實(shí)施例,映射控件302可以位于視頻控制器310和編碼器308的遠(yuǎn)程。在這些情況 下,宏塊水平以及對應(yīng)的圖像數(shù)據(jù)可被傳送到視頻速率控制器310或者以其它方式變得對 于視頻速率控制器310是可訪問的,這些宏塊水平以及對應(yīng)的圖像數(shù)據(jù)可以被或不被存儲 在諸如服務(wù)器或其它網(wǎng)絡(luò)設(shè)備處的存儲器等其它地方。否則,水平圖和比特率降低與以下 描述的系統(tǒng)100執(zhí)行的相同或相似地操作。
[0046] 再次參考圖2,更詳細(xì)地,圖像數(shù)據(jù)202接收至少包括關(guān)于每一個(gè)像素的亮度和色 彩的細(xì)節(jié)的圖像數(shù)據(jù)幀。圖像數(shù)據(jù)最初可以從此處描述的圖像捕捉設(shè)備接收,或者可包括 來自量子化模塊并經(jīng)由過濾器、運(yùn)動和/或預(yù)測環(huán)路204的循環(huán)數(shù)據(jù),以添加例如預(yù)測幀的 編碼。每一幀(也被稱為圖像或圖片)可以包括或不包括具有諸如關(guān)于視頻會議的臉部等 對象或感興趣對象和背景的圖像。然而,將會理解,系統(tǒng)100或300可以在圖像包括除了臉 部之外的對象(諸如動物、機(jī)器,諸如車輛等)的情況下并因此在許多不同的對象是可能的 焦點(diǎn)的情況下操作。對于H. 264/AVC示例,圖像數(shù)據(jù)然后被傳送到對象檢測模塊252和宏 塊分配器106。宏塊分配器106可將巾貞分成8x8、16x16或其它大小的宏塊以及其它分區(qū),以 便進(jìn)行更高效的編碼。
[0047] 參考圖4,對象檢測模塊252檢測或跟蹤對象并確定是否可以在每一幀I_in中 找到一個(gè)或多個(gè)對象,并且如果是,則檢測該幀中的一個(gè)或多個(gè)對象的僵化或捕捉到的位 置。在一些示例中,將臉部檢測為對象可包括至少部分地基于Viola-Jones型框架的檢 測(參見例如 Paul Viola、Michael Jones 的 Rapid Object Detection using a Boosted Cascade of Simple Features (使用提升的簡單特征級聯(lián)的快速對象檢測),CVPR2001和/ 或 Yangzhou Du、Qiang Li 的 2010 年 12 月 10 日提交的題為 TECHNIQUES FOR FACE DETECTION AND TRACKING(用于臉部檢測和跟蹤的技術(shù))的PCT/CN2010/000997)。這些臉部檢測技術(shù) 可允許相對累積,以包括臉部檢測、陸標(biāo)檢測、臉部對準(zhǔn)、微笑/眨眼/性別/年齡檢測、臉 部識別、檢測兩個(gè)或更多臉部等。存在檢測臉部和其它對象的許多其它示例,并且本對象檢 測模塊252可使用這些示例。
[0048] 在所示示例中,幀或圖像400包括矩形404中標(biāo)記的對象402。為了確定和設(shè)置對 象在一種示例形式的圖像400中的排列或位置,對象檢測模塊252可將矩形的左上角指派 為( Xi,yi),且該對象的大小可包括如由矩形表示的對象的寬度(指派為^)和對象的高度 (指派為h)。對于不規(guī)則形狀的對象,( Wi,可測量該對象的最大維度,但構(gòu)想其它維度 (諸如平均寬度和高度)。將理解,存在定義可以在此處使用的對象的位置的許多其它不同 的方式。如由等式(1)示出的檢測到的一個(gè)或多個(gè)對象〇i的位置數(shù)據(jù)可被提供給宏塊水 平圖生成器254:
[0049] 0 - {〇" 〇2,· · · oM} - {(xi, Yi, w1; hj), (x2, y2, w2, h2), . . . (xji,Ym,wm, hM)} (1)
[0050] 其中等式(1)中的M是圖像I_in內(nèi)的感興趣對象的數(shù)量。
[0051] 宏塊水平圖生成器254或其它模塊然后可計(jì)算點(diǎn)P相對于對象位置的位置。該點(diǎn) 可以是由矩形的中心表示的對象的中心點(diǎn),或者對于例如非對稱或不規(guī)則形狀可以是考慮 對象區(qū)域的確切位置的對象或矩形的質(zhì)心。存在關(guān)于使用哪一點(diǎn)(諸如外邊界點(diǎn)或?qū)ο蠡?矩形的角等)的許多其它示例,并且在一個(gè)示例中,可以使用任何點(diǎn),只要對于整個(gè)幀中的 宏塊持續(xù)使用該點(diǎn)。當(dāng)單個(gè)幀中存在多個(gè)對象時(shí),可確定該組對象(此處被稱為全體)的 單個(gè)中心點(diǎn)或質(zhì)心以便進(jìn)行比特率控制。在所示示例中,一個(gè)或多個(gè)對象的中心點(diǎn)的位置 c。= (X。,y。)可通過下式來確定:
【權(quán)利要求】
1. 一種用于視頻成碼的計(jì)算機(jī)實(shí)現(xiàn)的方法,包括: 接收指示在要顯示的圖像上至少一個(gè)對象的位置的圖像數(shù)據(jù); 確定形成所述圖形的至少一部分且與所述對象的位置相關(guān)的多個(gè)宏塊中的各個(gè)宏塊 的位置;以及 由視頻編碼器至少部分地依據(jù)宏塊中的至少一個(gè)相對于所述對象在所述圖像上的位 置的位置,來調(diào)整由所述至少一個(gè)宏塊提供的圖像部分的質(zhì)量。
2. 如權(quán)利要求1所述的方法,其特征在于,包括確定哪些宏塊是不形成所述對象的一 部分的非對象宏塊,并且其中調(diào)整包括調(diào)整所述非對象宏塊的圖像質(zhì)量。
3. 如權(quán)利要求1所述的方法,其特征在于,調(diào)整包括至少部分地依據(jù)從宏塊到相對于 所述對象定義的點(diǎn)的距離來調(diào)整對應(yīng)于該宏塊的圖像部分的質(zhì)量。
4. 如權(quán)利要求1所述的方法,其特征在于,調(diào)整包括至少部分地依據(jù)從宏塊到所述對 象的中心點(diǎn)和質(zhì)心中的至少一個(gè)的距離來調(diào)整所述圖像部分的質(zhì)量。
5. 如權(quán)利要求1所述的方法,其特征在于,包括將所述多個(gè)宏塊中的各個(gè)宏塊與多個(gè) 水平中的至少一個(gè)相關(guān)聯(lián),每一個(gè)水平與離相對于所述對象定義的點(diǎn)的至少一個(gè)不同距離 相關(guān)聯(lián)。
6. 如權(quán)利要求1所述的方法,其特征在于,包括將所述多個(gè)宏塊中的每一個(gè)與多個(gè)水 平中的至少一個(gè)相關(guān)聯(lián),每一個(gè)水平與離相對于所述對象定義的點(diǎn)的至少一個(gè)不同距離相 關(guān)聯(lián),并且其中提供用于標(biāo)記非對象宏塊的至少兩個(gè)水平。
7. 如權(quán)利要求1所述的方法,其特征在于,包括將所述多個(gè)宏塊中的每一個(gè)與多個(gè)水 平中的至少一個(gè)相關(guān)聯(lián),每一個(gè)水平與離相對于所述對象定義的點(diǎn)的至少一個(gè)不同距離相 關(guān)聯(lián),并且其中至少一個(gè)水平被置于具有所述對象的外邊界的宏塊附近,并且至少一個(gè)其 它水平與顯示所述對象的宏塊隔開。
8. 如權(quán)利要求1所述的方法,其特征在于,調(diào)整包括調(diào)整用于減少與宏塊相關(guān)聯(lián)的比 特?cái)?shù)的過濾強(qiáng)度。
9. 如權(quán)利要求3所述的方法,其特征在于,調(diào)整包括設(shè)置用于計(jì)算分配給宏塊的量子 化參數(shù)(QP)的縮放因子。
10. 如權(quán)利要求1所述的方法,其特征在于,調(diào)整質(zhì)量至少部分地依據(jù)從至少一個(gè)宏塊 到所述圖像上的對象組的中心點(diǎn)的距離。
11. 如權(quán)利要求1所述的方法,其特征在于,所述對象是人臉。
12. 如權(quán)利要求1所述的方法,其特征在于 包括確定哪些宏塊是不形成所述對象的一部分的非對象宏塊,并且其中調(diào)整包括調(diào)整 所述非對象宏塊的圖像質(zhì)量, 其中調(diào)整包括至少部分地依據(jù)從宏塊到相對于所述對象定義的點(diǎn)的距離來調(diào)整對應(yīng) 于該宏塊的圖像部分的質(zhì)量, 其中調(diào)整包括至少部分地依據(jù)從宏塊到所述對象的中心點(diǎn)和質(zhì)心中的至少一個(gè)的距 離來調(diào)整所述圖像部分的質(zhì)量, 包括將所述多個(gè)宏塊中的各個(gè)宏塊與多個(gè)水平中的至少一個(gè)相關(guān)聯(lián),每一個(gè)水平與離 相對于所述對象定義的點(diǎn)的至少一個(gè)不同距離相關(guān)聯(lián), 其中提供用于標(biāo)記非對象宏塊的至少兩個(gè)水平, 其中至少一個(gè)水平被置于具有所述對象的外邊界的宏塊附近,并且至少一個(gè)其它水平 與顯示所述對象的宏塊隔開, 其中調(diào)整包括調(diào)整用于減少與宏塊相關(guān)聯(lián)的比特?cái)?shù)的過濾強(qiáng)度, 其中調(diào)整包括設(shè)置用于計(jì)算分配給宏塊的量子化參數(shù)(QP)的縮放因子, 其中調(diào)整質(zhì)量至少部分地依據(jù)從至少一個(gè)宏塊到所述圖像上的對象組的中心點(diǎn)的距 尚,并且 其中所述對象是人臉。
13. -種用于在計(jì)算機(jī)上進(jìn)行視頻成碼的系統(tǒng): 顯示器; 通信地耦合到所述顯示器的至少一個(gè)處理器; 通信地耦合到所述處理器的至少一個(gè)存儲器; 通信地耦合到所述處理器的宏塊水平圖生成器,被配置成: 接收指示在要顯示的圖像上至少一個(gè)對象的位置的圖像數(shù)據(jù),以及 確定形成所述圖形的至少一部分且與所述對象的位置相關(guān)的多個(gè)宏塊中的各個(gè)宏塊 的位置;以及 通信地耦合到所述處理器的視頻速率控制器,視頻速率控制器被配置成至少部分地依 據(jù)宏塊中的至少一個(gè)相對于所述對象在所述圖像上的位置的位置來調(diào)整由所述至少一個(gè) 宏塊提供的圖像部分的質(zhì)量。
14. 如權(quán)利要求13所述的系統(tǒng),其特征在于,所述宏塊水平圖生成器被配置成確定哪 些宏塊是不形成所述對象的一部分的非對象宏塊,并且其中所述視頻速率控制器被配置成 調(diào)整所述非對象宏塊的圖像質(zhì)量。
15. 如權(quán)利要求13所述的系統(tǒng),其特征在于,所述視頻速率控制器被配置成至少部分 地依據(jù)從宏塊到相對于所述對象定義的點(diǎn)的距離來調(diào)整對應(yīng)于該宏塊的圖像部分的質(zhì)量。
16. 如權(quán)利要求13所述的系統(tǒng),其特征在于,所述視頻速率控制器被配置成至少部分 地依據(jù)從宏塊到所述對象的中心點(diǎn)和質(zhì)心中的至少一個(gè)的距離來調(diào)整所述圖像部分的質(zhì) 量。
17. 如權(quán)利要求13所述的系統(tǒng),其特征在于,所述宏塊水平圖生成器被配置成將多個(gè) 宏塊中的各個(gè)宏塊與多個(gè)水平中的至少一個(gè)相關(guān)聯(lián),每一個(gè)水平與離相對于所述對象定義 的點(diǎn)的至少一個(gè)不同距離相關(guān)聯(lián)。
18. 如權(quán)利要求13所述的系統(tǒng),其特征在于,所述宏塊水平圖生成器被配置成將多個(gè) 宏塊中的各個(gè)宏塊與多個(gè)水平中的至少一個(gè)相關(guān)聯(lián),每一個(gè)水平與離相對于所述對象定義 的點(diǎn)的至少一個(gè)不同距離相關(guān)聯(lián),并且其中提供用于標(biāo)記非對象宏塊的至少兩個(gè)水平。
19. 如權(quán)利要求13所述的系統(tǒng),其特征在于,所述宏塊水平圖生成器被配置成將所述 多個(gè)宏塊中的各個(gè)宏塊與多個(gè)水平中的至少一個(gè)相關(guān)聯(lián),每一個(gè)水平與離相對于所述對象 定義的點(diǎn)的至少一個(gè)不同距離相關(guān)聯(lián),并且其中至少一個(gè)水平被置于具有所述對象的外邊 界的宏塊附近,并且至少一個(gè)其它水平與顯示所述對象的宏塊隔開。
20. 如權(quán)利要求13所述的系統(tǒng),其特征在于,所述視頻速率控制器被配置成至少部分 地通過調(diào)整用于減少與宏塊相關(guān)聯(lián)的比特?cái)?shù)的過濾強(qiáng)度來調(diào)整所述圖像質(zhì)量。
21. 如權(quán)利要求13所述的系統(tǒng),其特征在于,所述視頻速率控制器被配置成至少部分 地通過設(shè)置用于計(jì)算分配給宏塊的量子化參數(shù)(QP)的縮放因子來調(diào)整所述圖像質(zhì)量。
22. 如權(quán)利要求13所述的系統(tǒng),其特征在于,所述視頻速率控制器被配置成至少部分 地依據(jù)從至少一個(gè)宏塊到所述圖像上的對象組的中心點(diǎn)的距離來調(diào)整所述圖像的質(zhì)量。
23. 如權(quán)利要求13所述的系統(tǒng),其特征在于,所述宏塊水平圖生成器確定哪些宏塊是 不形成所述對象的一部分的非對象宏塊。 其中所述視頻速率控制器被配置成調(diào)整所述非對象宏塊的圖像質(zhì)量, 其中所述視頻速率控制器被配置成至少部分地依據(jù)從宏塊到相對于所述對象定義的 點(diǎn)的距離來調(diào)整對應(yīng)于該宏塊的圖像部分的質(zhì)量, 其中所述視頻速率控制器被配置成至少部分地依據(jù)從宏塊到所述對象的中心點(diǎn)和質(zhì) 心中的至少一個(gè)的距離來調(diào)整所述圖像部分的質(zhì)量, 其中所述宏塊水平圖生成器被配置成將多個(gè)宏塊中的各個(gè)宏塊與多個(gè)水平中的至少 一個(gè)相關(guān)聯(lián),每一個(gè)水平與離相對于所述對象定義的點(diǎn)的至少一個(gè)不同距離相關(guān)聯(lián), 其中所述宏塊水平圖生成器被配置成將多個(gè)宏塊中的各個(gè)宏塊與多個(gè)水平中的至少 一個(gè)相關(guān)聯(lián),每一個(gè)水平與離相對于所述對象定義的點(diǎn)的至少一個(gè)不同距離相關(guān)聯(lián), 其中提供用于標(biāo)記非對象宏塊的至少兩個(gè)水平, 其中至少一個(gè)水平被置于具有所述對象的外邊界的宏塊附近,并且至少一個(gè)其它水平 與顯示所述對象的宏塊隔開, 其中所述視頻速率控制器被配置成至少部分地通過調(diào)整用于減少與宏塊相關(guān)聯(lián)的比 特?cái)?shù)的過濾強(qiáng)度來調(diào)整所述圖像質(zhì)量, 其中所述視頻速率控制器被配置成至少部分地通過設(shè)置用于計(jì)算分配給宏塊的量子 化參數(shù)(QP)的縮放因子來調(diào)整所述圖像質(zhì)量, 其中所述視頻速率控制器被配置成至少部分地依據(jù)從至少一個(gè)宏塊到所述圖像上的 對象組的中心點(diǎn)的距離來調(diào)整所述圖像的質(zhì)量,并且 其中所述對象是人臉。
24. -種設(shè)備,包括: 用于執(zhí)行如權(quán)利要求1-12中的任一項(xiàng)所述的方法的裝置。
【文檔編號】H04N19/176GK104219524SQ201410235369
【公開日】2014年12月17日 申請日期:2014年5月29日 優(yōu)先權(quán)日:2013年5月30日
【發(fā)明者】彭雅蒂, 邱怡仁, 江宏 申請人:英特爾公司