專利名稱:帶有視頻時間上變換的處理方法和設備的制作方法
帶有視頻時間上變換的處理方法和設備 發(fā)明領域本發(fā)明涉及可視通信系統(tǒng),具體地,本發(fā)明涉及一種用于在可視電話系統(tǒng)中提供時間的上變換(temporal up-convers ion )以便增強可視圖像 質量的方法和設備。發(fā)明背景一般來說,視頻質量對于可視電話應用的全球接受性而言是一個關鍵 特征。極其關鍵和重要的是可視電話系統(tǒng)把在另一側的情景盡可能精確 地帶給最終用戶,以便增強用戶的情境意識(situational awareness) 且由此增強視頻呼叫的感知質量。雖然電視會議系統(tǒng)自從多年前被首次引入以來已經得到了相當大的 關注,但它們一直沒有變得非常流行,而且還沒有出現(xiàn)這些系統(tǒng)的廣泛突 破。這大體上是由于以下原因通信帶寬的不充足的可利用性導致視頻和 音頻傳輸?shù)牟豢山邮艿赜值陀植畹馁|量,諸如低的分辨率、斑駁的圖像和 長的延遲。然而,新近的能夠提供足夠通信帶寬的技術創(chuàng)新正變得更廣泛地可用 于越來越多數(shù)量的最終用戶。而且,帶有集成的顯示器、相機、話筒、揚 聲器的強大計算系統(tǒng)一一諸如PC、移動設備等等一一的可用性正快速增 長。由于上述的這些原因,人們可以預期在消費者電視會議系統(tǒng)的使用和 應用中的一個突破和更高的質量前景,因為電視會議解決方案的視聽質量 變成了在這個大需求的市場上最重要的區(qū)別因素之一。一般地說,已提出和實現(xiàn)了許多用于改進電視會議圖像的傳統(tǒng)算法和具體地,這樣的建議(參閱例如 S. Daly等人的"Face-Based Visually-Optimized Image Sequence Coding (基于面部的視覺優(yōu)化的圖 像序列編碼)",0-8186-8821-1/98,第443-447頁,IEEE)旨在基于對感 興趣區(qū)域(ROI)和不感興趣區(qū)域(RONI)的選擇來改進^L頻編碼效率。特別 地,所建議的編碼以這樣一種方式被執(zhí)行,即大多數(shù)比特被分派給ROI 而較少的比特被分派給RONI。因此,總的比特速率保持為恒定的,但在解碼后,ROI圖像的質量高于R0NI中圖像的質量。其它的建議,諸如Bober 等人的US 2004/0070666 Al,主要提出在應用視頻編碼之前的智能變焦技 術,使得相機視場中的人通過數(shù)字手段而放大,以致不相關的背景圖像部 分不被傳送。換句話說,這種方法通過只編碼每個所捕獲圖像的經選擇的 感興趣區(qū)域而傳送圖像。然而,以上所描述的傳統(tǒng)技術由于多種因素而并不經常令人滿意。并 未對所捕獲的圖像執(zhí)行進一 步的處理或分析以抗衡在視頻通信系統(tǒng)的傳 輸中對圖像質量有害的影響。而且,雖然改進的編碼方案可能給出可接受 的結果,^旦它們不能獨立地全面(across the board)應用于所有的編碼 方案,并且這樣的技術需要首先實施特定的視頻編碼和解碼技術。另外, 這些技術中沒有 一個技術適當?shù)亟鉀Q了電視電信會議呼叫的較低情境意 識和較差感知質量的問題。發(fā)明內容因此,本發(fā)明的目的是提供一種有效地應對圖像質量增強的新的和改 進的方法和設備,它解決了上述的問題,并可以是成本經濟的和簡單易行的。為此,本發(fā)明涉及一種處理視頻圖像的方法,它包括以下步驟檢測 在視頻應用的圖像中的至少 一個人;估計與圖像中所檢測到的人相關聯(lián)的 運動;把圖像分割成至少一個感興趣區(qū)域和至少一個不感興趣區(qū)域,其中 感興趣區(qū)域包括圖像中所檢測到的人;以及通過在感興趣區(qū)域中使用比在 不感興趣區(qū)域中所應用的更高的幀速率,而對包括該圖像的視頻信號施加 時間幀處理。還可以包4舌一個或多個以下的特征。在本發(fā)明的 一個方面,時間幀處理包括對感興趣區(qū)域施加的時間幀上 變換處理(temporal frame-up conversion processing )。在另 一 個方面,時間幀處理包括對不感興趣區(qū)域施加的時間幀下變換 處理(temporal frame down-convers ion processing )。在又一個方面,該方法還包括把來自時間幀上變換處理步驟的輸出信 息與來自時間幀下變換處理步驟的輸出信息相組合,以生成增強的輸出圖像。而且,可視圖像質量增強步驟可以在與該圖像相關聯(lián)的視頻信號的或 是傳送端處或是接收端處執(zhí)行。而且,檢測在視頻應用的圖像中所識別的個人的步驟可包括檢測圖像 中的嘴唇活動,以及檢測圖像中的音頻語音活動。另外,對感興趣區(qū)域施 加時間幀上變換處理的步驟可以僅僅在檢測到嘴唇活動和/或音頻語音活 動時才實行。在其它方面,該方法還包括把圖像分割成至少第一感興趣區(qū)域和第二 感興趣區(qū)域,選擇第 一感興趣區(qū)域以通過增加幀速率來施加時間幀上變換 處理,并且維持第二感興趣區(qū)域的幀速率不變。本發(fā)明還涉及一種被配置來處理視頻圖像的設備,其中該設備包括 檢測模塊,配置來檢測在視頻應用的圖像中的至少一個人;運動估計模塊, 配置來估計與圖像中所檢測到的人相關聯(lián)的運動;分割模塊,配置來把圖 像分割成至少一個感興趣區(qū)域和至少一個不感興趣區(qū)域,其中感興趣區(qū)域 包括圖像中所檢測到的人;以及至少一個處理模塊,配置來通過在感興趣 區(qū)域中使用比在不感興趣區(qū)域中所應用的更高的幀速率、而對包括該圖像 的視頻信號施加時間幀處理。在從屬權利要求中還敘述了該方法和設備的其它特征。實施例可以具有 一 個或多個以下的優(yōu)點。本發(fā)明通過使得與參加者或正在講話的人相關聯(lián)的可視圖像相對于 圖像的其余部分更加清晰,而有利地增強了電視會議系統(tǒng)對于相關圖像部 分的視覺感知,并且提高了情境意識水平。而且,本發(fā)明可應用于傳送端,這導致較高的視頻壓縮效率,因為相 對多的比特被分派給增強的感興趣區(qū)域(ROI)而相對少的比特被分派給不 感興趣區(qū)域(R0NI),導致在相同的比特速率下對于重要的和相關的視頻 數(shù)據(jù)諸如面部表情等的改進的傳輸處理過程。另外,本發(fā)明的方法和設備允許與可視電話實現(xiàn)中可使用的任何編碼 方案相獨立的應用。本發(fā)明不需要視頻編碼也不需要視頻解碼。而且,本 方法可以在可視電話的相機一側應用于改進的相機信號,或者它可以在顯 示器一側應用于改進的顯示信號。所以,本發(fā)明在傳送端和接收端都可以 被應用。作為又 一 個優(yōu)點,用于檢測面部的識別處理過程可以通過組合各種面 部檢測技術或模態(tài)(modality)——諸如嘴唇活動檢測器和/或音頻定位(audio localization)算法--而被做得更魯棒和更防失敗(failproof)。另外,作為另一個優(yōu)點,可以保護和節(jié)省計算,因為僅僅在ROI中施加運動補償內插。
所以,通過本發(fā)明的實現(xiàn),視頻質量大大地增強,通過提高個人的情 境意識并由此提高視頻呼叫的感知質量,而有助于可視電話應用的更好的 接受。特別是,本發(fā)明能夠傳送更高質量的面部表情,以用于圖像的增強 的可懂度,和用于運送不同類型的面部情緒和表情。通過提高這種類型的 在當今組中的情境意識,電視會議應用相當于增加了用途和可靠性,特別 是當電話會議的參加者或個人例如不熟悉其它參加者時。
參考在以下的說明、附圖中所描述的實施例以及根據(jù)權利要求,本發(fā) 明的這些和其它方面將變得明白并且將得以闡明。
圖l是按照本發(fā)明的、用于圖像質量增強的改進方法的其中一個實施
例的示意性功能框圖2是按照圖1的、用于圖像質量增強的改進方法的其中一個實施例 的流程圖3是按照本發(fā)明的、用于圖像質量增強的改進方法的另一個實施例 的流程圖4是按照本發(fā)明的、用于圖像質量增強的改進方法的另一個實施例 的流程圖5是按照本發(fā)明的、用于圖像質量增強的改進方法的另一個實施例 的流程圖6是按照本發(fā)明的、用于圖像質量增強的改進方法的另一個實施例 的示意性功能框圖7是按照本發(fā)明的、對于多人電視會議會話而顯示的用于圖像質量 增強的示意性功能框圖8是按照本發(fā)明的、對于多人電視會議會話而顯示的用于圖像質量
增強的另 一 個示意性功能框圖9是一個流程圖,它圖示了按照圖8的、在用于圖像質量增強的改 進方法的其中 一個實施例中所使用的方法步驟;
圖10顯示作為示例的情形從視頻應用取得的典型的圖像;
圖ll顯示按照本發(fā)明的、面部跟蹤機制的實現(xiàn);
圖12圖示了 R0I/R0NI分割處理過程的應用;圖13圖示了基于頭部和肩部模型的R0I/R0NI分割;圖14圖示了按照本發(fā)明的其中一個實施例的幀速率變換;以及圖15圖示了在ROI和RONI區(qū)域之間的邊界區(qū)域中實施的優(yōu)化技術。優(yōu)選實施例說明本發(fā)明應對例如在可視電話系統(tǒng)中圖像內的人的感知增強以及電視 電信會議會話的情境意識的增強。參照圖1,相對于把圖像質量增強施加到例如單人電視會議會話來解釋本發(fā)明的本質特征。在傳送端,"視頻入"10信號(Vin)被輸入到相機,并變?yōu)楸挥涗浀南鄼C信號。另一方面,"視頻出"12信號是將被編碼和傳送的 信號V^。換句話說,在接收端,信號IO是接收的和解碼的信號,而信號 12被發(fā)送到最終用戶的顯示器。為了實施本發(fā)明,需要應用圖像分割技術來對包含會議呼叫的參加者 的ROI進行選擇。所以,可以使用面部跟蹤模塊14來在圖像中尋找有關 面部位置和尺寸的信息20。各種面部檢測算法在本領域是為人熟知的。例 如,為了在圖像中找出人的面部,可以使用膚色檢測算法或膚色檢測與橢 圓形目標邊界搜索的組合。替換地,可以使用搜索圖像中關鍵特征的附加 方法來識別面部。所以,在本發(fā)明中可以整合許多用來尋找和應用有效目標分類器的可用的魯棒方法。在識別圖像中參加者的面部之后,使用運動估計模塊16來計算運動 矢量域18。此后,利用有關面部位置和尺寸的信息20,例如通過使用簡 單的頭部和肩部模型來圍繞參加者執(zhí)行R0I/R0NI分割模塊22。替換地, 可以在逐塊的基礎上使用運動檢測(不是運動估計)來跟蹤ROI。換句話說, 通過把在其中檢測到運動的塊聚合起來而形成一個目標,讓R0I是具有大 多數(shù)運動的塊的目標。另外,使用運動檢測的方法免除了 (save)圖像處 理技術的計算復雜性。接著,進行R0I/R0NI處理。對于R0I段24,在R0I段24內像素通過 用于視覺增強的時間幀速率上變換模塊26而被在視覺上強調。對于R0NI 段28,這與要削弱(de-emphasized )的其余圖像部分的時間幀下變換才莫 塊30相組合。然后,R0I和R0NI處理的輸出在重組合才莫塊32中相組合, 以形成"輸出,,信號12 (V。ut)。通過使用R0I/R0NI處理,R0I段24對照不太 有關的R0NI段28 ;波在視覺上被改進,并產生更重要的前景。40圖示了在圖l上所描述的本發(fā)明的基本步驟。在第一"輸入"步驟42,即,視頻信號^f皮輸入到相機,并變?yōu)閊f皮記錄的相機 信號。接著,通過使用多個現(xiàn)有的算法而在面部跟蹤模塊14 (圖1所示) 中執(zhí)行面部檢測步驟44。此外,實行運動估計步驟46來生成(48)運動矢 量,它們稍后分別被需要來對ROI或RONI進行上變換或下變換。如果在步驟44中已經檢測到面部,則執(zhí)行ROI/RONI分割步驟50,這 導致對于ROI段的生成步驟52和對于R0NI的生成步驟54。 ROI段然后經 受使用由步驟48生成的運動矢量的運動補償幀上變換步驟56。類似地, R0NI段經受幀下變換步驟58。隨后,經處理的ROI和R0NI段在組合步驟 60中被組合,以便在步驟62中產生輸出信號。另外,在面部檢測步驟44 中,如果還沒有檢測到面部,則在步驟64(測試"下變換嗎?"),如果圖像 要受到下變換處理,則執(zhí)行下變換步驟66。另一方面,如果圖像要維持不 變,則無需步驟66,僅僅繼續(xù)進行到步驟62 (直接連接),以生成未經 處理的輸出信號。現(xiàn)在參照圖3到5,提供對于圖2的方法步驟的附加的優(yōu)化。取決于 電視電信會議的參加者是否正在講話,ROI上變換處理過程可被修改和優(yōu) 化。在圖3上,流程圖70圖示了與圖2所描述的流程圖40上的相同的步 驟,在面部檢測步驟44之后有附加的嘴唇檢測步驟71。換句話說,為了 識別誰在講話,人們可以在視頻圖像中施加嘴唇活動檢測,以及可以通過 使用圖像序列中的嘴唇活動檢測來測量語音活動檢測。例如,可以使用用 于自動讀唇的傳統(tǒng)技術或各種各樣的視頻嘴唇活動檢測算法來測量嘴唇 活動。因此,當與在傳送端和接收端都可以使用的其它模態(tài)相組合時,用 于嘴唇活動檢測機制的步驟71的添加使得面部跟蹤或檢測步驟44更魯 棒。這樣,目的是僅在個人或參加者正在講話的情況下,才通過向R0I段 給予增加的幀速率而在視覺上支持語音活動的發(fā)生。圖3還顯示僅僅當嘴唇檢測步驟71為肯定(Y)時才實行ROI上變換步 驟56。如果沒有嘴唇檢測,則流程圖70繼續(xù)進行到下變換步驟64,其最 終導致生成視頻出信號的步驟62。現(xiàn)在參照圖4,在流程圖80上,實施附加^t態(tài)。由于面部跟蹤或檢測 步驟44不能被保證總是無錯誤的面部檢測,所以它可能在沒有發(fā)現(xiàn)真人 的地方識別一個面部。然而,通過將面部跟蹤和^:測的^支術與諸如嘴唇活 動(圖3)和音頻定位算法那樣的模態(tài)相組合,面部跟蹤步驟44可被做成更魯棒的。所以,圖4加上了使用音頻入步驟81、后跟音頻檢測步驟82的 優(yōu)化,音頻;險測步驟82與^f見頻入步驟42和面部;f全測步驟44并^"地同時 工作。換句話說,當因為有人正在談話而可得到音頻時,可以使用語音活動 檢測器。例如,可以使用一個基于對音頻信號中非穩(wěn)態(tài)事件的檢測的、與 音調檢測器相組合的語音活動檢測器。在傳送端,也就是,在音頻入步驟 81,"音頻入"信號是話筒輸入。在接收端,"音頻入"信號是所接收并 解碼的音頻。所以,為了音頻活動檢測的增加的確定性,對于各個檢測器 輸出,通過邏輯與(AND)來執(zhí)行組合的音頻/視頻語音活動檢測。同樣地,圖4顯示了僅僅當音頻檢測步驟82肯定地檢測到音頻信號 時才實行流程圖80上的ROI上變換步驟56。如果已經檢測到音頻信號, 則跟在面部的肯定檢測之后執(zhí)行R0I/R0NI分割步驟50,后隨的是ROI上 變換步驟56。然而,如果還沒有檢測到音頻語音,則流程圖80繼續(xù)進行 到下變換步驟64,這最終導致生成視頻出信號的步驟62。參照圖5,流程圖90圖示了實施音頻語音活動和視頻嘴唇活動檢測處 理過程的組合。因此,圖3和圖4組合地導致流程圖90,提供了用于識別 或檢測感興趣的個人或參加者并正確地分析ROI的非常魯棒的手段。此外,圖6顯示了用于被應用到 一人電視會議會話的圖像質量增強的、 實施音頻語音檢測和視頻嘴唇活動檢測步驟的流程圖90的示意性功能框 圖。類似于圖l所描述的功能特征,在傳送端,輸入信號IO(VJ被輸入到 相機/輸入設備,并變?yōu)楸挥涗浀南鄼C信號。"音頻入"輸入信號(Ain)ll 沿相同的線路被輸入,并且應用音頻算法模塊13來檢測是否可以檢測到 任何語音信號。同時,嘴唇活動檢測模塊15分析視頻入信號,以確定在 接收的信號中是否有任何嘴唇活動。因此,如果音頻算法模塊l3產生一 個真或假語音活動標志17,其證實為真,則ROI上變換模塊26剛一接收 到R0I段24,就為該ROI段24執(zhí)行幀速率上變換。同樣地,如果嘴唇活 動檢測模塊15檢測出 一個真或假嘴唇活動標志19為真,則剛一接收到ROI 段24,模塊26就為該ROI段24執(zhí)行幀速率上變換?,F(xiàn)在參照圖7,如果在傳送端,多個話筒是可用的,則可以實施非常 魯棒的和有效的方法來尋找講話人的位置。也就是,為了增強對人的檢測 和識別,特別是識別正在講話的多個人或參加者,音頻和視頻算法的組合 是非常有力的。特別是在傳送端,這可以在多感覺(multi-sensory )的音頻數(shù)據(jù)(而不是單音頻)可用時被應用。替換地,為了使系統(tǒng)還要更加魯 棒和能夠精確地識別正在講話的那些人,人們可以在視頻中應用嘴唇活動 ;險測,這既可以在傳送端也可以在^l妄收端應用。在圖7上,對于多人可視電話會議會話,顯示了用于圖像質量增強的示意性功能框圖。當在傳送端存在多個人或參加者時,面部跟蹤模塊14 可以找出一個以上的面部,比如il總共N個(x N)。對于由面部跟蹤;漠塊 14檢測到的N個面部中的每個面部,即,對于N個面部位置和尺寸中的每 個面部位置和尺寸,生成多人ROI/RONI分割模塊22N(22-l, 22-2, ..., 22N), 以用于例如根據(jù)頭部和肩部^f莫型再次對于N個面部產生的每個ROI和RONI 段。在檢測到兩個ROI的事件中,ROI選擇模塊2 3接著根據(jù)音頻算法模塊 1 3的結果來執(zhí)行對ROI的選擇,這些ROI必須被處理以用于圖像質量增強, 該音頻算法模塊13輸出該聲音源或多個聲音源的位置(x,y坐標)(連接21 給出聲音源的(x,y)位置),包括語音活動標志17,包括嘴唇活動檢測模塊 15的結果,即嘴唇活動標志19。換句話說,對于多話筒會議系統(tǒng),多個 音頻輸入在接收端可用。然后,結合音頻算法來應用嘴唇活動算法,也可 以確定語音或音頻所來自的方向和位置(x,y坐標)。這個信息可以相關于 瞄準預定的ROI,他是圖像上當前正在講話的參加者。這樣,當面部跟蹤模塊14檢測到兩個或多個ROI時,ROI選擇模塊 23選擇與正在講話的人相關聯(lián)的ROI,以使得正在講話的這個人可被給予 最大的視覺增強,讓電信會議會話的其余人或參加者受到對照RONI背景 的小的強調。此后,通過使用由運動估計模塊16輸出的信息,分開的ROI和RONI 段經受圖像處理步驟,由ROI上變換^^莫塊26在幀速率上變換中對ROI執(zhí) 行,以及由RONI下變換才莫塊30在幀速率下變換中對RONI執(zhí)行。而且, ROI段可包括由面部跟蹤才莫塊14檢測到的全部數(shù)目的個人。假設遠離講話 器的個人不參加電視電信會議呼叫,則ROI可以只包括這樣的所檢測到的 面部或個人,即經對所檢測到的面部尺寸的檢查而是足夠近的,以及其 面部尺寸大于圖像尺寸的一定的百分比。替換地,ROI段可以只包括正在 講話的人、或者最后講話的人_從那時起再沒有其它人講話?,F(xiàn)在參照圖8,其圖示了對于多人電視會議會話而顯示的、用于圖像 質量增強的另一個示意性功能框圖。ROI選擇模塊23選擇兩個ROI。這可以是由這樣的事實引起的因為第一 ROI段24-1是與正講話的參加者或 個人相關聯(lián)的,而第二 ROI段24-2是與已檢測到的其余參加者相關聯(lián)的, 所以這兩個ROI已^皮區(qū)分。如所示的,第一 ROI段24-1由R0I-1上變換 模塊26-1進行時間上變換,而第二 ROI段24-2是維持不變的。正如先前 的圖5和6的情形那樣,R0NI段28也可以由R0NI下變換才莫塊30進行時 間下變換。參照圖9,流程圖100圖示了在上面參照圖8描述的、用于圖像質量 增強的方法的其中一個實施例中所使用的步驟。事實上,流程圖100圖示 了在圖8上所示的、也參照圖2到5予以描迷的各種模塊所遵循的基本步 驟。依靠這些步驟,在第一"視頻入"步驟42中,即,視頻信號被輸入到 相機,并變?yōu)楸挥涗浀南鄼C信號。這后面跟隨的是面部檢測步驟44和 R0I/R0NI分割步驟50,它導致數(shù)目為N的、用于ROI段的生成步驟52和 用于R0NI段的生成步驟54。用于ROI段的生成步驟52包括用于R0I —1段 的步驟52a、用于R0I_2段的步驟52b等等、以及用于R0I_N段的步驟"N。接著,在面部檢測步驟44和R0I/R0NI分割步驟50之后實行嘴唇檢 測步驟71。也如圖8所示,如果嘴唇檢測步驟71是肯定的(Y),則實行 R0I/R0NI選擇步驟102。以同樣的方式,"音頻入"步驟81后面跟隨的 是與視頻入步驟42和面部檢測步驟44同時工作的音頻檢測步驟82,以及 嘴唇檢測步驟71,以便提供更魯棒的機制和處理過程來精確地檢測感興趣 的R0I區(qū)域。最終得到的信息在R0I/R0NI選擇步驟102中被使用。隨后,R0I/R0NI選擇步驟102生成經選擇的R0I段(104),它經受幀 上變換步驟56。 R0I/R0NI選擇步驟102還生成其它的R0I段(IOO ,在步 驟64,如果使圖像受到下變換分析的判決是肯定的,則對于該其它R0I段 執(zhí)行下變換步驟66。另一方面,如果圖像要維持不變,則僅僅繼續(xù)進行到 步驟60,把由步驟56生成的時間上變換的ROI圖像和由步驟54與"生 成的R0NI圖像相組合,以在步驟62最終獲得未經處理的"視頻出"信號?,F(xiàn)在參照圖10-15,其描述了被使用來達到圖像質量增強的技術和方 法。例如,將更詳細地描述運動估計、面部跟蹤和檢測、R0I/R0NI分割、 和R0I/R0NI時間變4灸處理的處理過程。參照圖10-12,其圖示了例如從用web相機拍攝的序列中取得的圖像110。例如,圖像110可以具有176 x 144或320 x 像素的分辨率以及 介于7. 5Hz至15Hz之間的幀速率,這可以典型地是現(xiàn)今的移動應用的情運動估計圖像110可被再劃分成8 x 8亮度值的塊。對于運動估計,例如可以使用3D遞歸搜索方法。結果是對于每個8 x 8塊的二維運動矢量。這個運 動矢量可以由5(i,")表示,其中二維向量f包含8 x 8塊的空間x-和y-坐 標,以及n是時間索引。在兩個原始輸入幀之間的某個時間實例處評價 (value)運動矢量域。為了使運動矢量域在兩個原始輸入幀之間的另一 個時間實例處有效,人們可以執(zhí)行運動矢量的重新定時。 面部一企測現(xiàn)在參照圖11,面部跟蹤機制被使用來跟蹤個人112和114的面部。 面部跟蹤4幾制通過找出個人112和114的膚色(面部^皮顯示為加深的)而找 出面部。因此,可以使用皮膚檢測器技術。橢圓120和122指示已被找到 和識別出的個人112和114的面部。替換地,面部檢測是在被訓練的分類 器的基礎上#皮〗丸4亍,i者如在P. Viola和M. Jones, "Robust Rea卜time Object Detection (魯才奉的實曰于目標斗全觀寸),,,in Proceedings of the Second International Workshop on Statistical and Computational Theories of Vision—Modeling, Learning, Computing, and Sampling, Vancouver, Canada, July 13, 2001中給出的?;诜诸惼鞯姆椒ň哂械?優(yōu)點在于,它們在對抗改變的照明條件上是更魯棒的。另外,也可以僅檢 測在所找到的面部附近的面部。個人118的面部因為頭部尺寸與圖像110 的尺寸相比起來太小而沒有被找到。所以,個人ll8 (在這種情形下)被 正確地假設為沒有參加任何電視會議呼叫。如上所述,當面部跟蹤機制與來自視頻嘴唇活動檢測器的信息相組 合、和/或與音頻源跟蹤器相組合時,面部跟蹤機制的魯棒性可被改善, 其中該視頻嘴唇活動檢測器是在傳送端和接收端都可使用的,該音頻源跟 蹤器需要多個話筒通道并在傳送端被實施。通過使用這些技術的組合,被 面部跟蹤機制錯誤地找到的非面部可被適當?shù)鼐芙^。R0I和RON I分割參照圖12, R0I/R0NI分割處理過程一皮應用到圖像110。在面部;險測處 理過程后,對于在圖像110中所檢測到的每個面部,根據(jù)頭部和肩部才莫型 來使用R0I/R0NI分割處理過程。包括個人的頭部和身體l24在內的個人 112的頭部和肩部輪廓124被識別和分離。這個粗略的頭部和肩部輪廓H4的尺寸不是關鍵的,但它應當足夠大,以保證個人112的身體被完全地包括在輪廓124內。此后,把時間上變換僅僅施加到這個ROI中的像素,這 個ROI也就是在頭部和肩部輪廊124內的區(qū)域。 ROI和R0NI幀速率變換R0I/R0NI幀速率變換利用基于原始圖像運動矢量的運動估計處理過程?,F(xiàn)在參照圖13,例如,在對于原始輸入圖像或畫面132A(在t=(n-l)T) 和132B (在t=nT)的三個圖130A-130C上,顯示了基于參照圖12所描述 的頭部和肩部模型進行的R0I/R0NI分割。對于內插的畫面134(t=(n-oc)T ;圖130B),在某個位置處的像素在以下情況中屬于ROI,即當在同一 位置處、在領先的原始輸入畫面132A中該像素屬于那個畫面的ROI時, 或者在同一位置處、在后隨的原始輸入畫面132B中該像素屬于那個畫面 的ROI時,或二者都滿足時。換句話說,在內插的畫面134上的ROI區(qū)域 138B分別包括前一個和下一個原始輸入畫面132A和132B的ROI區(qū)域138A 和ROI區(qū)域138C。至于RONI區(qū)域140,對于內插的畫面134,屬于R0NI區(qū)域140的像 素只是被從前一個原始輸入畫面132A復制,而在R0I中的像素通過運動 補償被內插。這可以參照圖14被進一步地說明,其中T代表序列的幀周期,而n 代表整數(shù)幀索引。例如,參數(shù)oc ( (KoKl )給出例如在兩個原始輸入圖像 132A與132B之間的內插圖像134A的相對定時(在這種情形下,可以使用 ot =1/2 )。在圖14上,對于內插的畫面134A(且同樣地,對于內插的畫面1"B), 例如,標注為"p"和"q,,的像素塊位于R0NI區(qū)域14Q中,且在這些塊中的像 素從之前的原始圖像中的同一個位置處被復制。對于內插的畫面1"A,在 R0I區(qū)域138中的像素值^皮計算為一個或多個隨后和在前的輸入原始畫面 (132A, 132B)的運動補償?shù)钠骄?。在圖14上,圖示了兩個幀的內插。 f (a, b, a)類似于運動補償?shù)膬炔褰Y果??梢允褂糜糜谶\動補償?shù)膬炔寮夹g 的不同方法。因此,圖14顯示了這樣的幀速率變換技術,其中在R0I區(qū) 域138中的像素是通過運動補償內插得到的,而在R0NI區(qū)域中的像 素是通過幀重復得到的。另外,當圖像或畫面的背景是靜止時,在R0I與R0NI區(qū)域之間的過渡邊界在最終得到的輸出圖像中是看不見的,因為在ROI區(qū)域內的背景像 素被用零運動矢量來內插。然而,當背景移動時——數(shù)碼相機常常出現(xiàn)這種情形(例如,不穩(wěn)的手運動),在ROI與R0NI區(qū)域之間的邊界變?yōu)榭?見,因為在ROI區(qū)域內背景像素是用運動補償計算出來的,而在R0NI區(qū)域內背景像素是從在前的輸入幀復制的?,F(xiàn)在參照圖15,當背景不是靜止時,對于在ROI與R0NI區(qū)域之間的 邊界區(qū)域中的圖像質量的增強可以實施優(yōu)化技術,如在圖150A和150B上所示的。具體地,圖15顯示了對于R0I/R0NI分割在t=(n-oc)T時估計的運動 矢量域的實現(xiàn)。圖150A圖示了原始的情形,其中在RONI區(qū)域140中的背 景上有運動。在R0NI區(qū)域140中的二維運動矢量由小寫字母符號 (a, b, c, d, e, f, g, h, ,k,l)表示,以及在R0I區(qū)域138中的運動矢量由大 寫字母符號(A,B,C,D,E, F,G,H)代表。圖150B圖示了優(yōu)化情形,其中R0I 138已通過線性內插的運動矢量被擴展,以便一旦背景開始移動則減輕 R0I/R0NI邊界152B的可視性。如圖15所示,可以通過在塊網(wǎng)格上擴展R0I區(qū)域138 (圖150B)、 且作出逐漸的運動矢量過渡和對在擴展區(qū)域中的像素也應用運動補償內 插分析,而減輕邊界區(qū)域152B的感知的可視性。為了當在背景中有運動 時進一步地削弱過渡,人們可以對R0I擴展區(qū)域154中的像素在水平和垂 直兩個方向上應用模糊((blurring)濾波器(例如,[1 2 1]/4)。雖然已圖示和描述了當前被認為是本發(fā)明的優(yōu)選實施例的內容,但本 領域普通技術人員將會理解可以在不背離本發(fā)明的真正范圍的情況下, 做出各種其它修改,以及用等同物進行替換。具體地,雖然以上的描述主要涉及到電視電信會議,但所描述的圖像 質量增強方法可以應用于任何類型的視頻應用,諸如在移動電話設備和平 臺、家庭辦公平臺(比如PC)等等中實施的視頻應用。另外,可進行許多先進的視頻處理修改以使特定的情形適配于本發(fā)明 的教導,而不背離這里所描述的中心的創(chuàng)造性概念。此外,本發(fā)明的實施 例可能并不包括上述的全部特性。所以,不打算讓本發(fā)明限于所公開的特 定實施例,而是本發(fā)明包括屬于所附權利要求范圍內的所有實施例及其等 同物。
權利要求
1.一種處理視頻圖像的方法,其中該方法包括-檢測(44)在視頻應用的圖像中的至少一個人;-估計(46)與該圖像中至少一個被檢測到的人相關聯(lián)的運動;-把該圖像分割(50)成至少一個感興趣區(qū)域和至少一個不感興趣區(qū)域,其中該至少一個感興趣區(qū)域包括該圖像中該至少一個被檢測到的人,以及-通過在該至少一個感興趣區(qū)域中使用比在該至少一個不感興趣區(qū)域中所應用的更高的幀速率,而對包括該圖像的視頻信號施加時間幀處理。
2. 權利要求l的方法,其中所述時間幀處理包括對該至少一個感興趣 區(qū)域施加的時間幀上變換處理(56)。
3. 權利要求1或2的方法,其中所述時間幀處理包括對該至少一個不 感興趣區(qū)域施加的時間幀下變換處理(58)。
4. 權利要求3的方法,還包括把來自時間幀上變換處理步驟的輸出信 息與來自時間幀下變換處理步驟的輸出信息相組合(60),以生成(62) 增強的輸出圖像。
5. 前述權利要求中的任一項的方法,其中視覺圖像質量增強步驟是在與該圖像相關聯(lián)的視頻信號的或傳送端處或接收端處執(zhí)行的。
6. 前述權利要求中的任一項的方法,其中檢測在視頻應用的圖像中 所識別的至少 一個人包括檢測(71)該圖像中的嘴唇活動。
7. 前述權利要求中的任一項的方法,其中檢測在視頻應用的圖像中 所識別的至少 一個人包括檢測(82)該圖像中的音頻語音活動。
8. 前述權利要求6和7中的任一項的方法,其中對感興趣區(qū)域施加時 間幀上變換處理的步驟僅僅在被檢觀'J到嘴唇活動和/或音頻語音活動時才 實行。
9. 前述權利要求中的任一項的方法,其中該方法還包括-把圖像分割(50)成至少第一感興趣區(qū)域和第二感興趣區(qū)域; -選擇(102)該第一感興趣區(qū)域,以通過提高幀速率來施加時間幀 上變換處理;以及-維持該第二感興趣區(qū)域的幀速率不變。
10. 前述權利要求中的任一項的方法,其中對感興趣區(qū)域施加時間幀 上變換處理包括提高與感興趣區(qū)域相關聯(lián)的像素的幀速率。
11. 前述權利要求中的任一項的方法,還包括在該圖像的塊網(wǎng)格(150B) 上擴展感興趣區(qū)域,以及通過對擴展的感興趣區(qū)域(154)中的像素施加運 動補償內插而實行逐漸的運動矢量過渡。
12. 權利要求ll的方法,還包括通過對擴展的感興趣區(qū)域(154)中的 像素在水平和垂直兩個方向上應用模糊濾波器而削弱邊界區(qū)域(152)。
13. —種配置來處理視頻圖像的設備,其中該設備包括-檢測模塊(14),配置來檢測在視頻應用的圖像中的至少一個人; _運動估計模塊(16),配置來估計與該圖像中至少一個被檢測到的 人相關聯(lián)的運動;-分割模塊(22),配置來把該圖像分割成至少一個感興趣區(qū)域和至 少一個不感興趣區(qū)域,其中該至少一個感興趣區(qū)域包括該圖像中該至少一 個被4全測到的人;以及-至少一個處理模塊,配置來通過在該至少一個感興趣區(qū)域中使用比 在該至少一個不感興趣區(qū)域中所應用的更高的幀速率,而對包括該圖像的 ^L頻信號施加時間幀處理。
14. 權利要求13的設備,其中所述處理模塊包括感興趣區(qū)域上變換模 塊(26),其被配置來對該至少一個感興趣區(qū)域施加時間幀上變換處理。
15. 權利要求13或14的設備,其中所述處理模塊包括不感興趣區(qū)域下 變換模塊(30),其被配置來對該至少一個不感興趣區(qū)域施加時間幀下變換 處理。
16. 按照權利要求15的設備,還包括組合模塊(32),其被配置來把 從感興趣區(qū)域上變換模塊得到的輸出信息與從不感興趣區(qū)域下變換模塊 得到的輸出信息相組合。
17. 按照以上權利要求中的任一項的設備,還包括嘴唇活動檢測模塊 (15)。
18. 按照以上權利要求中的任一項的設備,還包括音頻語音活動模塊 (13)。
19. 按照以上權利要求中的任一項的設備,還包括感興趣區(qū)域選擇模 塊(23),其被配置來選擇第一感興趣區(qū)域以便進行時間幀上變換。
20. —種與權利要求13到19的任一項的設備相關聯(lián)的計算機可讀介 質,其具有存儲在其上的指令序列,當該指令序列由設備的微處理器執(zhí)行 時致使該處理器-檢測(44)在視頻應用的圖像中的至少一個人;-估計(46)與該圖像中至少 一個被檢測到的人相關聯(lián)的運動;-把該圖像分割(50)成至少一個感興趣區(qū)域和至少一個不感興趣區(qū)域,其中該至少 一個感興趣區(qū)域包括該圖像中該至少 一個被檢測到的人,以及-通過在該至少一個感興趣區(qū)域中使用比在該至少一個不感興趣區(qū)域 中所應用的更高的幀速率,而對包括該圖像的視頻信號施加時間幀處理。
全文摘要
本發(fā)明提供了一種用于對視頻應用中的數(shù)字圖像進行視覺增強的改進方法和設備。具體地,本發(fā)明牽涉到用于面部或人的尋找的多模式情景分析,后隨有可視屏幕上的、對一個或多個參加者的視覺強調,或者是對一組參加者中正在講話的人進行視覺強調,以在電視會議呼叫期間達到改進的感知質量和情境意識。所述分析是藉助于分割模塊(22)來執(zhí)行的,該分割模塊(22)允許定義至少一個感興趣區(qū)域(ROI)和一個不感興趣區(qū)域(RONI)。
文檔編號H04N7/26GK101223786SQ200680025487
公開日2008年7月16日 申請日期2006年7月7日 優(yōu)先權日2005年7月13日
發(fā)明者H·貝爾特 申請人:皇家飛利浦電子股份有限公司