專利名稱:用于提供個人視頻服務的系統(tǒng)和方法
用于提供個人視頻服務的系統(tǒng)和方法相關串請本申請是國際申請日為2008年I月4日、國際申請?zhí)枮镻CT/US2008/000092、2009年8月27日進入中國國家階段、中國申請?zhí)枮?00880006422. 2、名稱為“用于提供個人視頻服務的系統(tǒng)和方法”的專利申請的分案申請。本申請要求對2007年I月23日提交的美國臨時申請No. 60/881,979的優(yōu)先權。本申請與 2007 年 I 月 23 日提交、標題為“Computer Method and Apparatus for ProcessingImage Data”的美國臨時申請No. 60/881, 966和于2006年6月8日提交、標題為“ApparatusAnd Method For Processing Video Data” 的美國臨時申請 No. 60/811,890 號有關。本申請與2006年3月31日提交的美國申請No. 11/396,010有關,該美國申請No. 11/396,010是于2006年I月20日提交的美國申請No. 11/336,366的部分繼續(xù)申請,該美國申請No. 11/336, 366是于2005年11月16日提交的美國申請No. 11/280,625的部分繼續(xù)申請,、該美國申請No. 11/280,625是于2005年9月20日提交的美國申請No. 11/230,686的部分繼續(xù)申請,該美國申請No. 11/230,686是現(xiàn)為美國專利No. 7,158,680、于2005年7月28日提交的美國申請No. 11/191,562的部分繼續(xù)申請。通過整體引用將各前述申請結合于此。
背景技術:
隨著數(shù)字視頻近來迅速普及,對視頻壓縮的需求已經急劇增加。視頻壓縮減少了存儲和傳輸數(shù)字媒體所需的比特數(shù)。視頻數(shù)據(jù)包含空間冗余性和時間冗余性,并且可以通過登記(register)幀內(空間)和幀間(時間)的差值來對這些空間和時間相似性進行編碼。執(zhí)行壓縮的硬件或軟件稱為編碼解碼器(編碼器/解碼器)。編碼解碼器是能夠對數(shù)字信號進行編碼和解碼的設備或軟件。由于數(shù)據(jù)密集的數(shù)字視頻應用已經變得無處不在,所以需要更高效的信號編碼方式。因此,視頻壓縮現(xiàn)在已經成為存儲和通信技術中的一個中心組成。編碼解碼器常常使用于許多不同技術如視頻會議、視頻博客和其它流媒體應用(例如視頻播客(podcast))中。通常,視頻會議或視頻博客系統(tǒng)實時提供對音頻和視頻流的數(shù)字壓縮。視頻會議和視頻博客的問題之一在于許多參與者受困于外觀感受。然而,在純音頻通信中,呈現(xiàn)可接受的屏上(on-screen)外觀這一負擔并不是一個問題。視頻會議和視頻博客帶來的另一問題在于信息壓縮可能造成視頻質量下降。壓縮率是視頻會議中的最重要因素之一,因為壓縮率越高,視頻會議信息傳輸越快。遺憾的是,利用常規(guī)視頻壓縮方案,壓縮率越高,視頻質量越低。壓縮視頻流常常造成不良的圖像和不良的聲音質量。—般而言,常規(guī)視頻壓縮方案受困于形式上表現(xiàn)為低數(shù)據(jù)通信速度、大量儲存要求和干擾感知效果的諸多低效性。這些阻礙可能給需要容易、高效地操控視頻數(shù)據(jù)而不犧牲質量(對于人們所具有的對某些形式的視覺信息的先天敏感性而言,這尤為重要)的各種用戶帶來嚴重問題。在視頻壓縮中通常要考慮的諸多關鍵因素包括視頻質量和比特率、編碼和解碼算法的計算復雜度、對數(shù)據(jù)損失和錯誤的抗擾性以及延時。隨著數(shù)量越來越多的視頻數(shù)據(jù)充斥因特網,可以明顯緩解擁塞或提高質量的技術不僅對于計算機而且對于電視機、蜂窩電話和其它手持設備而言都代表一種重大突破。
發(fā)明內容
提供用于處理視頻的系統(tǒng)和方法,以取得相對于本領域現(xiàn)有技術方法而言的計算上和分析上的優(yōu)點。提供視頻壓縮技術,以減少在視頻會議或視頻博客應用中存儲和傳輸數(shù)字媒體所需的比特數(shù)。創(chuàng)建視頻會議參與者的照片真實感頭像表示。該頭像表示可以基于視頻流中描繪會議參與者的部分?;趯ο蟮囊曨l壓縮算法可以使用臉部檢測器(如Violla-Jones臉部檢測器)對會議參與者的臉部進行檢測、跟蹤和分類?;谒鶛z測的臉部,并結合普通臉部的預定對象模型的配準,創(chuàng)建用于結構、形變、外觀和照明的對象模型。這些對象模型用來創(chuàng)建視頻會議參與者的隱式表示,并由此生成視頻會議參與者的照片真實感頭像表示。這一描繪可以是視頻會議參與者臉部的逼真版本。其在用戶的外貌和表情方面可 以是準確的。原始捕獲幀的其它部分可以通過較低的精度來描繪。可以對每個唯一的用戶執(zhí)行一次短校準會話。這將使系統(tǒng)能夠初始化壓縮算法并且創(chuàng)建對象模型。優(yōu)選地,后續(xù)視頻會議會話將無需附加校準。如果用戶要求象常規(guī)視頻描繪那樣的如實視頻表示,則系統(tǒng)可能需要附加校準時段,以調節(jié)存儲的模型從而更好地匹配于用戶的外貌。否則,用戶可以傾向于使用優(yōu)選對象模型而不是當前對象模型。優(yōu)選模型在一定程度上可以是有利的用戶表示,例如具有最佳照明的校準會話和用戶更整潔的外觀。另一優(yōu)選模型是經過“重新照亮”的以及對面部施加了 “平滑化”的校準模型一這兩個處理步驟均為了實現(xiàn)“較高質量”的主題表示??梢允褂每蛻舳朔掌骺蚣軄硖峁┮环N視頻會議/視頻博客系統(tǒng)。在客戶端節(jié)點的用戶可以發(fā)起視頻會議會話,從而通過使用攝影機和耳機來進行通信。可以生成各用戶的臉部的照片真實感頭像表示。創(chuàng)建的照片真實感頭像表示可以是視頻會議參與者臉部的隱式表75。
根據(jù)對如附圖中所示本發(fā)明示例實施例的下文更具體描述將清楚前文內容,在這些附圖中相似標號在不同的圖中通篇地指代相同部分。附圖未必按比例繪制,而是強調圖示本發(fā)明的實施例。圖I是在本發(fā)明的實施例中運用的視頻壓縮(通稱為圖像處理)系統(tǒng)的框圖;圖2是圖示了在本發(fā)明的實施例中使用的混合空間規(guī)格化壓縮方法的框圖;圖3是圖示了一個優(yōu)選實施例中用于創(chuàng)建會議參與者的照片真實感頭像表示的過程的流程圖;圖4是圖示了與生成照片真實感頭像結合使用的系統(tǒng)部件示例的框圖;圖5A是圖示了使用即時消息服務器的本發(fā)明視頻會議系統(tǒng)示例的示意圖;圖5B是圖示了本發(fā)明的視頻會議/視頻博客系統(tǒng)示例的示意圖;圖6是本發(fā)明的實施例可以實施于其中的計算機網絡或類似數(shù)字處理環(huán)境的示意圖;圖7是圖6的網絡的計算機的內部結構的框圖。
具體實施方式
本發(fā)明的示例實施例描述如下。創(chuàng)建對象模型在視頻信號數(shù)據(jù)中,將視頻幀組裝成圖像序列。視頻的主題內容通常是投影到相機的二維成像面上的三維場景。在合成生成的視頻的情況下,“虛擬”相機用于呈現(xiàn);而在動畫情況下,動畫器(animator)發(fā)揮管理該相機參考幀的作用。每個幀或圖像都包括如下像元(pel),這些像元表示圖像傳感器對采樣信號的響應。采樣信號常常對應于通過相機在二維傳感器陣列上的部件而采樣的一些反射、折射或發(fā)射能量(例如電磁、聲音等)。連續(xù)依次采樣將得到時空數(shù)據(jù)流,其中每幀有兩個空間維度,而時間維度對應于幀在視頻序列中的順序。這一過程通常稱為“成像”過程。本發(fā)明提供一種可以用來將視頻信號數(shù)據(jù)高效地處理為一個或多個有益表示的手段。本發(fā)明對于處理視頻信號中的多個經常出現(xiàn)的數(shù)據(jù)集是有效的。分析視頻信號,并且提供該數(shù)據(jù)的一個或多個簡潔表示,以促進其處理和編碼。每個新的、較為簡潔的數(shù)據(jù)表示允許減少對許多應用的計算處理、傳輸帶寬和存儲的要求,這些應用包括但不限于視頻信號的編碼、壓縮、傳輸、分析、存儲和顯示。將噪聲和信號的其它不需要部分表示為較低優(yōu)先級,從而使得進一步的處理可以集中于分析和表示視頻信號中較高優(yōu)先級的部分。由此,與之前可能的情況相比,可以更為簡潔地表示視頻信號。而且,精度損失集中在視頻信號中在感知上不重要的部分。如通過引用將其全部教導結合于此、于2006年I月20日提交的美國申請No. 11/336,366 和于 2007 年 I 月 23 日提交、標題為“Computer Method and Apparatus forProcessing Image Data”的美國申請第()號(代理案號4060-1009-000)中所述,分析視頻信號數(shù)據(jù)并且標識顯著組成部分。對時空流的分析揭示了常常為特定對象(例如,臉部)的顯著組成部分。標識過程指明顯著組成部分的存在和重要性(significance),并且選擇這些限定的顯著組成部分中最重要的一個或多個顯著組成部分。這并不限制在當前描述的處理之后或與之并行地對其它較不顯著的組成部分進行的標識和處理。然后,進一步分析前述顯著組成部分,標識可變和不變子組成部分。對不變子組成部分的標識是這樣的過程對該組成部分的某方面進行建模,由此揭示允許將該組成部分合成至所需精度水平的模型的參數(shù)化。在一個實施例中,將PCA/小波編碼技術應用于經過預處理的視頻數(shù)據(jù),以形成所需的壓縮視頻信號。預處理通過應用主元分析(PCA)/小波編碼(壓縮)的方式來降低視頻信號的復雜度,使效果得以改進。在2006年I月20日提交的美國申請No. 11/336, 366和于 2007 年 I 月 23 日提交、標題為 “Computer Method and Apparatus for ProcessingImage Data”的美國申請第()號(代理案號4060-1009-000)這些共同未決申請中,詳細地討論了 PCA/小波編碼。圖I是實現(xiàn)本發(fā)明原理的示例性圖像處理系統(tǒng)100的框圖。源視頻信號101輸入到預處理器102或以別的方式由預處理器102接收。預處理器102使用帶寬消耗或其它標準(如臉部/對象檢測器)來確定源視頻信號101中的感興趣組成部分(顯著對象)。具體而言,預處理器102確定視頻信號中的如下部分,這些部分相對于視頻信號101的其它部分而言使用了不成比例的帶寬。一種用于進行這一確定的分割器103的方法如下。分割器103使用像元的導數(shù)(derivative)的時間和/或空間差來分析隨時間和/或空間的圖像梯度。出于一致性(coherence)監(jiān)測的目的,跟蹤和記錄視頻信號中跨過視頻信號的順序幀而彼此對應的部分。對與這些一致信號組成部分相關聯(lián)的導數(shù)場的有限差進行積分,以產生視頻信號中相對于其它部分而言使用了不成比例帶寬的確定部分(即確定的感興趣組成部分)。在一個優(yōu)選實施例中,如果發(fā)現(xiàn)一幀中的空間不連續(xù)性與后繼幀中的空間不連續(xù)性相對應,則分析圖像梯度的陡峭度或平滑度,以產生唯一的對應性(時間一致性)。另外,還以相同的方式使用此類對應關系的收集來唯一地表征視頻幀的離散組成部分的時間一致性。對于陡峭的圖像梯度,確定存在邊緣。如果存在此類定義空間不連續(xù)性的兩個邊緣,則定義角(corner)。將這些標識的空間不連續(xù)性與梯度流相結合,這在跨過視頻數(shù)據(jù)幀的對應像元之間產生運動向量。當運動向量與所標識的空間不連續(xù)性相符時, 則本發(fā)明的分割器103確定存在感興趣組成部分(顯著對象)。其它分割技術也適于實施分割器103?;氐綀D1,一旦預處理器102 (分割器103)已經確定了感興趣組成部分(顯著對象)或以別的方式從源視頻信號101分割了感興趣組成部分(顯著對象),規(guī)格化器105降低所確定的感興趣組成部分的復雜度。優(yōu)選地,規(guī)格化器105從確定的興趣組成部分中去除全局運動和姿態(tài)(pose)、全局結構、局部形變、外觀和照明的差異。為此,利用在此聲明的有關專利申請中先前描述的規(guī)格化技術。這使得規(guī)格化器105建立了興趣組成部分的對象模型,例如結構模型107和外觀模型108。結構對象模型107在數(shù)學上可以表示為
權利要求
1.一種用于提供視頻會議的方法,所述方法包括步驟 檢測視頻流的部分中所描繪的視頻會議參與者的人臉; 創(chuàng)建一個或多個對象模型,以對所述視頻會議參與者的臉部進行建模;以及 使用所述對象模型來創(chuàng)建所述視頻會議參與者的照片真實感頭像表示。
2.如權利要求I所述的用于提供視頻會議的方法,其中使用Viola/Jones臉部檢測算法來檢測和跟蹤所述視頻會議參與者的臉部。
3.如權利要求I所述的用于提供視頻會議的方法,其中創(chuàng)建照片真實感頭像表示對象模型,作為所述視頻會議參與者的臉部的隱式表示。
4.如權利要求3所述的用于提供視頻會議的方法,其中所述視頻會議參與者的所述隱式表示是所述視頻會議參與者的臉部的仿真表示。
5.如權利要求3所述的用于提供視頻會議的方法,其中檢測和跟蹤包括使用Viola/Jones臉部檢測算法,所述方法還包括步驟 標識與來自所述視頻流的兩個或更多視頻幀中的臉部相關聯(lián)的至少一個對象的相應元素;以及 對所述相應元素進行跟蹤和分類,以基于先前校準和建模的臉部來標識所述相應元素之間的關系。
6.如權利要求I所述的用于提供視頻會議的方法,其中所述對象模型包括用于結構、形變、姿態(tài)、運動、照明和外觀的對象模型。
7.—種視頻會議系統(tǒng),包括 臉部檢測器,其檢測視頻流中視頻會議參與者的臉部; 校準器,其生成對所述視頻會議參與者的臉部進行校準的校準模型; 對象模型,其與所述校準器和臉部檢測器相結合,所述對象模型基于所述校準模型對所述視頻流中描繪所述視頻會議參與者的臉部的部分進行建模;以及 所述視頻會議參與者的照片真實感頭像表示,所述照片真實感頭像表示由所述臉部檢測器、所述校準器和所述對象模型生成。
8.一種用于視頻會議的系統(tǒng),包括 用于提供對象模型以對視頻流中描繪視頻會議的至少一個參與者的部分進行建模的裝置;以及 用于使用所述對象模型來創(chuàng)建所述視頻會議參與者的照片真實感頭像表示的裝置。
全文摘要
提供用于處理視頻的系統(tǒng)和方法。提供視頻壓縮方案,以減少在視頻會議或視頻博客應用中存儲和傳輸數(shù)字媒體所需的比特數(shù)。創(chuàng)建視頻會議參與者的照片真實感頭像表示。頭像表示可以基于視頻流中描繪會議參與者的部分。使用臉部檢測對臉部進行標識、跟蹤和分類?;跈z測到的臉部來創(chuàng)建包括密度、結構、形變、外觀和照明模型的對象模型。根據(jù)從密度、結構、形變、外觀和照明模型導出的參數(shù),使用機器學習臉部檢測技術的基于對象的視頻壓縮算法來創(chuàng)建照片真實感頭像表示。
文檔編號G06K9/64GK102685441SQ201210080579
公開日2012年9月19日 申請日期2008年1月4日 優(yōu)先權日2007年1月23日
發(fā)明者C·P·佩斯 申請人:歐幾里得發(fā)現(xiàn)有限責任公司