專利名稱:用來處理視頻數(shù)據(jù)的裝置和方法
用來處理^L頻數(shù)據(jù)的裝置和方法相關(guān)申請這份申請是2006年6月8日申請的美國臨時申請第60/811,890 號的部分繼續(xù)申請并且要求其利益。上述申請的全部教導(dǎo)在此通 過引證被并入。發(fā)明領(lǐng)域本發(fā)明一般地涉及數(shù)字信號處理領(lǐng)域,更具體地-說涉及用于 信號或圖 <象數(shù)據(jù)(具體地說, 一見頻數(shù)據(jù))的有效表達(dá)和處理的計算才幾裝置和計算才幾實iE見方法。
技術(shù)背景本發(fā)明駐留其中的現(xiàn)有4支術(shù)通用系統(tǒng)描述能用
圖1表示。在這里方框圖顯示典型的現(xiàn)有4支術(shù)^L頻處理系統(tǒng)。這樣的系統(tǒng)通常 包括下列幾級輸入級102、處理級104、輸出級106和一個或多 個數(shù)據(jù)儲存機制108。輸入級102可以包括若干元素,例如,照相才幾敏感元件,照 相才幾敏感元件陣列、測距每丈感元件或從儲存機制取回凄t據(jù)的裝 置。輸入級提供表達(dá)人造的和/或自然發(fā)生的現(xiàn)象的時間相關(guān)序列 的視頻數(shù)據(jù)。該數(shù)據(jù)的顯著成份可能被噪音或其它不想要的信號 掩蓋或污染。視頻數(shù)據(jù)可以依照預(yù)先定義的轉(zhuǎn)移協(xié)議以數(shù)據(jù)流、陣列或數(shù)處理級104。處理級104可以采用專用才莫擬或凄t字器件或可編程器 件(例如,中央處理器(CPU)、 ft字信號處理器(DSP)或現(xiàn)場可編 程門陣列(FPGA))的形式來執(zhí)行所需要的 一 組視頻數(shù)據(jù)處理操 作。處理級104通常包括一個或多個CODEC(編碼/解碼器)。輸出級106產(chǎn)生能夠影響使用者或外部裝置的信號、顯示或 其它響應(yīng)。通常,輸出器件用來產(chǎn)生指示信號、顯示、硬拷貝、 處理過的數(shù)據(jù)在存々者器中的表達(dá),或開始數(shù)據(jù)向遠(yuǎn)程站點的傳 輸。它也可以用來提供在后面的處理操作中使用的中間信號或控 制參數(shù)。存儲器在這個系統(tǒng)中是作為非必選元素出現(xiàn)的。在使用時, 儲存元素108可以是非易失的,例如,只讀儲存媒體,或易失的, 例如,動態(tài)隨機存取儲存器(RAM)。單一的視頻處理系統(tǒng)包括若 干種儲存元素并非是罕見的,這些元素對輸入級、處理級和輸出 級有各種不同的關(guān)系。這樣儲存元素的例子包括輸入緩沖器,輸 出緩沖器和處理高速緩沖存儲器。圖1所示^L頻處理系統(tǒng)的主要目的是處理輸入數(shù)據(jù),產(chǎn)生對 于特定的應(yīng)用具有顯著意義的l俞出。為了實現(xiàn)這個目標(biāo),可以利 用多種處理操作,包括減少或消除噪音、特征提取、對象拆分和 /或規(guī)范化、數(shù)據(jù)分類、事件4企測、編輯、數(shù)據(jù)選擇、數(shù)據(jù)重新編 碼和^碼變4灸。產(chǎn)生受不良約束的數(shù)據(jù)的許多數(shù)據(jù)來源(尤其是聲音和可視 圖像)對人是重要的。在大多數(shù)情況下,這些來源信號的基本特 征對有效數(shù)據(jù)處理的目標(biāo)有不利的影響。來源翁:據(jù)固有的易變性 是在不引進起因于在推導(dǎo)工程假定中使用的未試過的經(jīng)-驗的和:探索性的方法的誤差的情況下以可靠且有效的方式處理凄t據(jù)的 障礙。這種易變性對于某些應(yīng)用當(dāng)輸入數(shù)據(jù)凈皮自然地或故意地限 制在定義狹窄的特征組(例如, 一 組有限的符號值或狹窄的帶寬) 之中的時候被減輕。這些限制時常導(dǎo)致商業(yè)價值低的處理技術(shù)。信號處理系統(tǒng)的i殳計受該系統(tǒng)的預(yù)期用途和作為llr入4吏用 的來源信號的預(yù)期特征的影響。在大多凄t情況下,所需的完成效 率也將是重要的設(shè)計因素。完成效率依次與可用的數(shù)據(jù)儲存器相 比較受待處理的數(shù)據(jù)量的影響以及與可得的計算能力相比較受 該應(yīng)用程序的計算復(fù)雜性的影響。傳統(tǒng)的一見頻處理方法遭受許多低效率性質(zhì)的損害,這些^f氐效 率性質(zhì)是以數(shù)據(jù)通信速度慢、存儲需求大和干擾感性假象的形式 出現(xiàn)的。這些可能是嚴(yán)重的問題,因為人們希望使用多種方法操 縱視頻數(shù)據(jù)和人們對某些形式的可視信息有先天的敏感性。"最佳的"視頻處理系統(tǒng)在完成一組預(yù)期的處理操作方面是 高效率的、可靠的和強健的。這樣的纟喿作可能包括數(shù)據(jù)的4諸存、 傳輸、顯示、壓縮、編輯、加密、增強、分類、特征檢測和確認(rèn)。 二次#:作可能包括這樣處理過的數(shù)據(jù)與其它信息來源的整合。在 一見頻處理系統(tǒng)的情況下同等重要的是輸出應(yīng)該通過避免知覺*支 象的引進與人類一見覺相容。如果視頻處理系統(tǒng)的速度、效率和質(zhì)量不強烈地取決于輸入 凄史據(jù)的4壬何特定特征的細(xì)節(jié),該-現(xiàn)頻處理系統(tǒng)可以-故描述為"強 健的"。強健也與在某些輸入出現(xiàn)錯誤的時候完成操作的能力有 關(guān)。許多#見頻處理系統(tǒng)不夠強<老,不足以考慮到應(yīng)用的一4殳類別, 僅^又適用于該系統(tǒng)研發(fā)時^f吏用的同樣受狹窄限制的數(shù)據(jù)。顯著信息可能由于輸入元素的抽樣速率與測知現(xiàn)象的信號特性不匹配在連續(xù)取值的數(shù)據(jù)來源的離散化中丟失。另外,當(dāng)信 號強度超過傳感器極限從而導(dǎo)致飽和的時候也存在遺失。同樣, 當(dāng)輸入數(shù)據(jù)的精度下降的時候數(shù)據(jù)也會遺失,這在輸入數(shù)據(jù)的完 整的數(shù)值范圍用 一組離散數(shù)值表達(dá),借此降低數(shù)據(jù)表達(dá)的精度的 時候發(fā)生在任何量化程序中。'總體易變性指的是一 類數(shù)據(jù)或信息來源的任何無法預(yù)測性。 因為視覺信息通常不受限制,所以代表視覺信息特征的數(shù)據(jù)有非 常大的總體易變性程度。視覺數(shù)據(jù)可以表達(dá)任何由于光線入射在 每丈感元件陣列上所形成的空間陣列序列或時間空間的序列。在仿制纟見覺現(xiàn)象時,纟見頻處理器通常把一些限制i殳定和/或結(jié) 構(gòu)強加在表達(dá)或解釋數(shù)據(jù)方式上。結(jié)果,這樣的方法可能引進將 會影響輸出質(zhì)量、可能用來考慮輸出的置信水平和能對該數(shù)據(jù)可 靠地完成的后續(xù)處理工作的類型的系統(tǒng)i吳差。一些量化方法在試圖保有那個數(shù)據(jù)的統(tǒng)計學(xué)變化的時候降 低視頻畫面的數(shù)據(jù)精度。通常,視頻數(shù)據(jù)是這樣分析的,以致數(shù)據(jù)值的分布纟皮收集到積克率分布之中。也有一些方法把^:據(jù)映射到 相空間之中,以便將數(shù)據(jù)的特色表示為空間頻率的混合,借此允 許精度下降以較少引起反對的方式擴散。這些量化方法在被大量 地利用時往往導(dǎo)致知覺上難以相信的顏色和能在該S見頻畫面原 本平滑的區(qū)域中引起突然的怪異狀態(tài)。差分編碼通常也用來利用數(shù)據(jù)的局部空間相似性。在該畫面 的 一 個部分中的翁:據(jù)傾向于聚集在那個畫面的相似翁:才居周圍和 后續(xù)畫面中的相似位置。然后,該數(shù)據(jù)能根據(jù)它空間上毗連的數(shù) 據(jù)與量化組合,而最終結(jié)果是對于給定的準(zhǔn)確性表達(dá)差分比使用 凄t據(jù)的絕對值更精確。這個,i定在原始^L頻數(shù)據(jù)的光^普分辨率有 限的時候(例如,在黑白圖{象或顏色少的圖<象中)4艮好地工作。隨著圖像的光譜分辨率逐漸增加,相似性假定被嚴(yán)重破壞。這種破 壞是由于無法有選擇地保護視頻數(shù)據(jù)精度造成的。殘差編碼與差分編碼類似,因為這種表達(dá)的誤差一皮進一步差 分編碼,以便把原始數(shù)據(jù)的精度恢復(fù)到預(yù)期的準(zhǔn)確性水平。這些方法的變化嘗試把視頻數(shù)據(jù)變換成按空間相位和刻度 暴露數(shù)據(jù)相關(guān)關(guān)系的替代表達(dá)。 一旦視頻數(shù)據(jù)已經(jīng)以這些方式完 成變換,量化和差分編碼的方法就能適用于變換后的數(shù)據(jù),乂人而 導(dǎo)致增加顯著圖像特征的保存。這些變換視頻壓縮技術(shù)中最普遍的兩種是離散余弦變換(DCT)和離散子波變換(DWT) 。 DCT變換 的誤差出現(xiàn)在視頻數(shù)據(jù)數(shù)值的廣泛變化方面,所以,DCT通常被 用在一見頻數(shù)據(jù)的區(qū),爻上,為的是^f吏這些4普誤的相關(guān)關(guān)系定位。來 自這種定位的假象往往沿著這些區(qū)段的邊界出現(xiàn)。就DWT而言, 更復(fù)雜的假象在基礎(chǔ)函數(shù)和某些紋理之間有誤配的時候發(fā)生,而 且這引起才莫糊效應(yīng)。為了坤氐消DCT和DWT的負(fù)面效應(yīng),4是高表達(dá) 的準(zhǔn)確性以以寶貴的帶寬為代i <介減少失真。發(fā)明內(nèi)容本發(fā)明是一種在計算和分析兩個方面均優(yōu)于現(xiàn)有頂級纟支術(shù) 的方法的計算才幾實現(xiàn)的#見頻處理方法。原則上本發(fā)明的方法是線 性分解法,空間拆分法和空間規(guī)范化法的整合。從空間上限制視 頻數(shù)據(jù)大大提高線性分解法的強健性和適用性。此外,與空間規(guī) 范化相對應(yīng)的數(shù)據(jù)空間拆分能進一步用來增加單獨來源于空間 頭見范化的利益。具體地說,本發(fā)明提供 一 種能有效地把信號數(shù)據(jù)處理成 一 個 或多個有益的表達(dá)的方法。本發(fā)明在處理許多普遍發(fā)生的邀:據(jù)組 時是有效的而且在處理^L頻和圖^f象lt據(jù)時是特別有效的。本發(fā)明的方法分析數(shù)據(jù)并且才是供那個數(shù)據(jù)的 一種或多種簡潔表達(dá)以佳: 它的處理和編碼變得容易。對于許多應(yīng)用(包括但不限于視頻數(shù)據(jù)的編碼、壓縮、傳輸、分析、儲存和顯示),每種新的比較 簡潔的數(shù)據(jù)表達(dá)都允許減少計算處理、傳輸帶寬和儲存需求。本發(fā)明包括用來識別和換:取^1頻#:據(jù)的顯著成<分的方法,乂人而允許區(qū)分?jǐn)?shù)據(jù)的處理和表達(dá)的優(yōu)先次序。信號中的噪音和其它 多余部分被看作是優(yōu)先權(quán)比較低的,所以進一 步處理能集中在分 析和表達(dá)視頻信號中優(yōu)先權(quán)比較高的部分上。結(jié)果,視頻信號的 表達(dá)比先前可能的表達(dá)更簡潔。而且4巴準(zhǔn)確性的損失集中在3見頻 信號中知覺上不重要的部分。在一個實施方案中,PCA(主成分分析)或類似的線性分解被 用于特定對象(例如,臉部)的檢測和該對象的局部變形。PCA進 一步充當(dāng)該規(guī)范化視頻數(shù)據(jù)的經(jīng)驗變換,表達(dá)對象外觀。在顯著 對象拆分之后,該規(guī)范化方法跟蹤某二維網(wǎng)孔并允許該網(wǎng)孔變 形。來自不同畫面的對象外7見是沿著一個平面失見范化的。在一個實施方案中,Proxy Wavelet CompressoH皮用于乂十象朝L 頻數(shù)據(jù)的逐級基礎(chǔ)編碼。本發(fā)明的方法壓縮感興趣的視頻數(shù)據(jù)的 訓(xùn)練畫面和身見范4b畫面。附圖i兌明上述內(nèi)容通過下面用附圖舉例說明的本發(fā)明的示范實施方 案的更具體的描述將變得顯而易見,在這些附圖中相似的參考符 號表示遍及不同S見圖的同一部分。這些附圖不必依比例癥會制,而 是改為把重點放在舉例說明本發(fā)明的實施方案上。圖1是舉例說明現(xiàn)有技術(shù)視頻處理系統(tǒng)的方框圖。的方框圖,展示用來處理影-像的主 要模塊。圖3是舉例說明本發(fā)明的運動評估方法的方框圖。圖4是舉例說明本發(fā)明的整體配準(zhǔn)方法的方框圖。圖5是舉例說明本發(fā)明的身見范化方法的方框圖。圖6是舉例i兌明混合式空間失見范化壓縮方法的方?jīng)_匡圖。圖7是舉例說明本發(fā)明在局部》見范化中使用的網(wǎng)孔生成方法 的方一醫(yī)圖。范化方法的方才匡圖。圖9是舉例it明本發(fā)明的組合式整體和局部*見范化方法的方框圖。圖10是本發(fā)明的實施方案在其中工作的計算機環(huán)境的示意圖。圖11是圖10所示網(wǎng)全各中的計算4幾的方4匡圖。圖12是舉例說明背景分辨方法的方框圖。圖13是舉例說明本發(fā)明的對象拆分方法的方框圖。圖14是舉例說明本發(fā)明的對象插值方法的方框圖。圖15是本發(fā)明的自適應(yīng)遞增建^t程序的方框圖。1具體實施例方式
本發(fā)明的范例實施方案描述如下。在視頻信號數(shù)據(jù)中,視頻 畫面被組裝成通常描繪投影到二維成像表面上成像的三維情景 的圖像序列。每個畫面(或圖像)都由代表響應(yīng)抽樣信號的成像敏 感元件的象素組成。時常,抽才羊信號對應(yīng)于一皮二維每丈感元件陣列 抽樣的一些反射的、折射的或發(fā)射的能量(例如,電磁能、聲能 等)。連續(xù)的順序4由才羊?qū)е聲r空凄t據(jù)流,每個畫面的兩個空間維
度和一個時間維度乂于應(yīng)于該畫面在一見頻序列中的;欠序。
本發(fā)明如同圖2舉例說明的那樣分析信號數(shù)據(jù)和識別顯著成 份。當(dāng)信號由視頻數(shù)據(jù)組成的時候,時空流分析揭示時常作為特 定對象(例如,臉部)的顯著成4分。識別禾呈序限定該顯著成〗分的存 在和重要性并且選4奪在那些^皮限定的顯著成^f分之中最重要的一 個或多個顯著成^f分。這不限制在現(xiàn)在描述的處理之后或同時識別 和處理其它顯著性較低的成份。然后,上述的顯著成份凈皮進一步 分析,以便識別易變的和不變的子成〗分。不變的子成4分的識別是 給該成份的某個方面建模的程序,借此揭示允許將該成份合成到 預(yù)期的準(zhǔn)確性水平的模型參數(shù)表達(dá)法。
在本發(fā)明的一個實施方案中,才企測和^艮i 宗前景對象。該對象 的象素被識別并且被從每個視頻畫面中拆分出來。基于區(qū)段的運 動評估被應(yīng)用于在多個畫面中拆分出來的對象。然后,這些運動 評估結(jié)果被整合成高階運動模型。該運動模型用來把該對象的例 i正隱藏到/^用的空間配置中。對于特定的婆:據(jù),在這個配置中, 該對象更多的特;f正^皮對準(zhǔn)。這種》見范化允許在待緊湊地表達(dá)的多 個畫面上對象象素的數(shù)值的線性分解。屬于對象外觀的顯著信息 被包含在這個緊湊表達(dá)之中。
本發(fā)明的優(yōu)選實施方案詳細(xì)描述前景^L頻對象的線性分解。該對象是按空間規(guī)范化的,借此得出緊湊的線性外觀模型。此外,
進一步優(yōu)選的實施方案在空間規(guī)范化之前先把前景對象/人;現(xiàn)頻 畫面的背景中拆分出來。
本發(fā)明的優(yōu)選實施方案將本發(fā)明應(yīng)用于一個人對著才聶^f象才幾 邊說話邊進行少量運動的影4象。
本發(fā)明的優(yōu)選實施方案將本發(fā)明應(yīng)用于影^象中能通過空間 轉(zhuǎn)換很好地表達(dá)的任何對象。
本發(fā)明的優(yōu)選實施方案明確地使用基于區(qū)段的運動評估來 確定兩個或多個#見頻畫面之間的有限差分。為了提供更有效的線 性分解,高階運動模型是依據(jù)那些有限差分因式分解的。
檢測&跟蹤(C1)
技術(shù)上已知的是檢測畫面中的某個對象并在預(yù)定數(shù)目的后 續(xù)畫面中跟蹤那個對象。Viola/Jones: P. Viola和M. Jones發(fā)表在 關(guān)于可視圖像的統(tǒng)計和計算理論一建模、學(xué)習(xí)、計算和抽樣的第 二屆國際研i寸會會i義錄(Proc. 2nd Int'l Workshop on Statistical and Computational Theories of Vision畫Modeling, Learning, Computing and Sampling)(加拿大,溫哥華,2001年7月)中的"Robust Real-time Object Detection"在能用來實現(xiàn)對象4企測功能的算法和禾呈序之 中。同樣,有許多算法和程序能用來在連續(xù)的畫面中跟蹤^皮;險對 象。例子包4舌C. Edwards、 C. Taylor和T. Cootes發(fā)表在Proc. Int'l Conf. Auto. Face and Gesture Recognition(1998年),260-265頁中 的 "Learning to identify and track faces in an image sequence"。
對象4企測程序的結(jié)果是一個數(shù)據(jù)組,該凄t據(jù)組詳細(xì)i兌明對象 中心在畫面中的 一般位置和關(guān)于對象比例(大小)的指示。跟蹤程序的結(jié)果是一個數(shù)據(jù)組,該數(shù)據(jù)組代表該對象的時間標(biāo)簽并保證
在連續(xù)的畫面中#r測到的對象是同 一對象的一既率達(dá)到特定水平。
對象4企測和3艮蹤算法可能適用于畫面中的單一對象或畫面 中的兩個或多個對象。
人們還知道在 一組連續(xù)的畫面中跟蹤^皮4企對象的 一 個或多 個特征。舉例來說,如果對象是人的臉部,該特征可能是眼睛或 鼻子。在一種技術(shù)中,特征是用"線"的交叉點表示的,該交叉 點能被寬松地描述為"拐角"。優(yōu)選的是將強壯的并且在空間上 彼此完全不同的"拐角,,選作特征。這些特征可以通過空間亮度 場梯,變分析來識別。^吏用光學(xué)流的分層多分辨率評估允i午確定那 些特征在連續(xù)畫面中的平移位移。M. J. Black和Y. Yacoob發(fā)表 在1995年6月于馬薩諸塞州波士頓市召開的關(guān)于計算積"殳想的國 際會i義的會i義錄的第374-381頁中的"Tracking and recognizing rigid and non-rigid facial motions using local parametric models of image motions"是使用這項4支術(shù)跟蹤特征的算法的一個例子。
一旦已經(jīng)確定信號的顯著構(gòu)成成^f分,就可以保留這些成4分, 而且可以減少或除去所有其它的信號成〗分。4企測顯著成^f分的程序 展示在圖2,其中視頻畫面202是用 一個或多個檢測對象206,208 程序處理的,乂人而導(dǎo)致 一 個或多個#1識別并且隨后#皮3艮蹤的對 象。保留成份(被識別的對象)代表該-現(xiàn)頻數(shù)據(jù)的一種中間形式。 然后,這個中間數(shù)據(jù)能使用對于現(xiàn)有的^L頻處理方法通常不可得 的技術(shù)編碼。因為該中間數(shù)據(jù)以幾種形式存在,所以標(biāo)準(zhǔn)的朝L頻 編碼:技術(shù)也能用來給這些中間形式中的幾種形式編碼。對于每個 例證,本發(fā)明都先確定然后使用最有效的編碼技術(shù)。
在一個優(yōu)選實施方案中,顯著特征分析程序完成顯著信號模 式的4全測和分類。這個程序的一個實施方案<吏用為產(chǎn)生強度與#見頻畫面中被檢對象顯著特征有關(guān)的響應(yīng)信號專門設(shè)計的空間過 濾器的組合。以不同的空間刻度在4見頻畫面的不同位置應(yīng)用該分 類程序。來自該分類程序的響應(yīng)的強度指出顯著信號模式出現(xiàn)的 或然率。在:fc中心置于十分顯著的對象上的時候,該程序用對應(yīng)
的強烈響應(yīng)給它分類。顯著信號才莫式的4企測通過激活對該纟見頻序 列中顯著信息的后續(xù)處理和分析來辨別本發(fā)明。
給出顯著信號才莫式在一個或多個視頻畫面中的4企測位置,本 發(fā)明分析顯著信號才莫式的無變化特征。此外,對于無變化特征, 本發(fā)明分析該信號的殘值,"較少顯著的"信號模式。無變化特 征的識別提供用來減少冗余信息和拆分(即,分離)信號模式的基礎(chǔ)。
特;f正點跟蹤(C7)
在本發(fā)明一個實施方案中, 一個或多個畫面中的空間位置是 通過空間強度場梯度分析確定的。這些特征對應(yīng)于"一些線"的 一些交點,這些交點能凈皮寬爭^地描述為"拐角"。這樣的實施方 案進一步選擇一組這樣的拐角,這些拐角是強壯的而且在空間上 是4皮此完全不同的,在此稱之為特征點。此外,^使用光學(xué)流的分 層次多分辨率評估允許確定特征點隨著時間流逝的平移位移。
在圖2中,展示把來自才企測對象程序206,208的才企測例證和在 許多視頻畫面202,204上一個或多個^皮才企測對象的特征的進一步 識別對應(yīng)關(guān)系222^立到 一起的跟蹤對象220程序。
特征跟蹤的非限制性實施方案能被這樣使用,以致這些特征 被用來限定更規(guī)則的梯度分析法(例如,基于區(qū)段的運動評估)。
另 一 個實施方案期待以特4正跟蹤為基礎(chǔ)的運動評估的預(yù)測?;趯ο蟮腲r測和跟蹤(Cl)
在本發(fā)明的 一 個非限制性實施方案中,強健的對象分類程序 -陂用來3艮蹤—見頻畫面中的臉部。這才羊的分類禾呈序以只于已在臉部上 訓(xùn)練過的定向邊緣的級聯(lián)響應(yīng)為基礎(chǔ)。在這個分類程序中,邊緣 被定義為 一組基本的Haar特征和那些特征的45度旋轉(zhuǎn)。該級聯(lián)分 類程序是AdaBoost算法的變伴。此外,響應(yīng)計算能通過使用總面 積表來優(yōu)化。
局部配準(zhǔn)
配準(zhǔn)包4舌在兩個或多個—見頻畫面中#皮識、別只于象的i者元素之 間的對應(yīng)關(guān)系的分配。這些對應(yīng)關(guān)系變成在該-現(xiàn)頻萄:據(jù)中4要截然 不同的時間點建立一見頻lt據(jù)之間的空間關(guān)系才莫型的基礎(chǔ)。
為了根據(jù)眾所周知的算法和那些算法的富有創(chuàng)造性的派生 算法舉例i兌明特定的實施方案和它們與實踐相關(guān)聯(lián)的縮減量,玉見 在描述用于本發(fā)明的各種不同的非限制性的配準(zhǔn)方法。
在時空序列中建立明顯的光學(xué)流模型的 一 種方法能通過從 兩個或多個畫面的浮見頻凝:據(jù)產(chǎn)生有限差分i或來實現(xiàn)。如果該對應(yīng) 關(guān)系在空間和強度雙重意義上符合特定的恒定性限制,則光學(xué)流 場能被稀疏地評估。如圖3所示,畫面302或304是可能通過十取 一程序306或一些其它的二次抽樣程序(舉例來說,低通過濾器) 按空間二次抽樣的。這些減少空間的圖^f象310,312也能^皮進一步二 次抽樣,從而導(dǎo)致,舉例來說,畫面314,316。
每個抽樣/二次抽樣水平的畫面302、 304、 310、 312、 314、 316都處理以便確定各個畫面中被4全對象特征的對應(yīng)關(guān)系。這是 通過才目應(yīng)的運動"i平4古350、 354、 362、 372禾口予貞測352、 360、 370
20完成的,4妄下來將詳細(xì)描述圖3的步驟。
菱形搜尋
假定把視頻畫面分割成若干不重疊的區(qū)段,該運動評估程序 4叟尋先前的與每個區(qū)4殳匹配的-見頻畫面。以全面4叟尋區(qū)^殳為基礎(chǔ)
(FSBB)的運動"^N古二找出在先前的一見頻畫面中與當(dāng)前畫面中的區(qū) 段相比較時誤差最小的位置。完成FSBB可能是計算費用十分浩 大的,而且往往不產(chǎn)生比以局i或化運動,ii殳為基礎(chǔ)的其它^平估方 案更好的匹配。以菱形搜尋區(qū)段為基礎(chǔ)(DSBB)的梯度下降運動評 估是FSBB的常見的替代品,它使用各種不同尺寸的菱形搜尋圖 案朝著對于某個區(qū)段最好的匹配的方向反復(fù)地橫越誤差梯度。
在本發(fā)明的一個實施方案中,為了產(chǎn)生數(shù)值稍后被因式分解 成高階運動4莫型的有限差分,DSBB^皮用于一個或多個^L頻畫面 之間的圖像梯度域分析。
熟悉這項技術(shù)的人知道基于區(qū)段的運動評估能被視為規(guī)貝'J 網(wǎng)孑L頂點分才斤的等同物。
基于網(wǎng)孔的運動評估
基于網(wǎng)孔的預(yù)測使用頂點被邊緣連接起來的幾何網(wǎng)孔描繪 一見頻畫面的不連續(xù)區(qū)域,隨后通過受網(wǎng)孔頂點位置控制的變形才莫 型預(yù)測后續(xù)畫面中那些區(qū)域的變形和運動。為了預(yù)測當(dāng)前畫面, 隨著頂點移動,用頂點定義的區(qū)域內(nèi)的象素也是移動的。原始象 素凄K直的相對運動和由此產(chǎn)生的近似是通過一些插4直方法完成 的,這些插值方法將象素位置與鄰近那個象素的頂點的位置耳關(guān)系 起來。當(dāng)這樣的運動存在于視頻信號中的時候,縮放和旋轉(zhuǎn)的附 加建模與純粹的平移相比較能產(chǎn)生更精確的畫面象素預(yù)測。通常,網(wǎng)孔模型能被定義為是規(guī)則的或自適應(yīng)的。規(guī)則網(wǎng)孔 模型是在不考慮基礎(chǔ)信號特性的情況下設(shè)計的,而自適應(yīng)方法嘗 試相對于基礎(chǔ)視頻信號特征按空間安排頂點和邊緣。
規(guī)則網(wǎng)孔表示法提供 一 種倘若影像中的成像對象有空間間 斷點較多地與網(wǎng)孔邊緣相對應(yīng)能用來預(yù)測或仿制運動或運動中 的固有變形的方法。
自適應(yīng)網(wǎng)孔是在實質(zhì)上比失見則網(wǎng)孔更多地考慮基礎(chǔ)一見頻信
號的特4i的情況下形成的。此外,這種網(wǎng)孔的自適應(yīng)性質(zhì)可以隨 著時間逝去考慮到網(wǎng)孔的各種不同的提煉。
為了實現(xiàn)網(wǎng)孔和等同地象素配準(zhǔn),本發(fā)明夂使用同種判據(jù)調(diào)整 頂點搜尋。空間上與異種強度梯度相關(guān)聯(lián)的頂點是先于那些有比 較同種的梯度的頂點完成運動評估的。
在一個實施方案中,網(wǎng)孔的頂點運動評估是通過4十對同等或 近乎同等的同種頂點的運動評估的空間填注另外區(qū)分優(yōu)先次序 的。
在優(yōu)選實施方案中,最初的網(wǎng)孔空間配置和最后的網(wǎng)孔配置 是通過4吏用標(biāo)準(zhǔn)的圖解式填充例行程序用小平面標(biāo)識符填充映 射圖像在小平面水平上相互映射的。與每個三角形相關(guān)聯(lián)的仿射 變換能很快地從變換表中查出,而且在一個網(wǎng)孔中與小平面相關(guān) 聯(lián)的象素位置能快速地轉(zhuǎn)換成在其它網(wǎng)孔中的位置。
在優(yōu)選的實施方案中,為了評定與每個運動評估匹配相關(guān)聯(lián) 的殘留誤差針對頂點進4亍初步的運動評估。另外,這個初步的評 估被用來區(qū)分頂點運動評估次序的優(yōu)先次序。這樣的殘差分析的 好處是與比較少的失真相關(guān)聯(lián)的運動評估將導(dǎo)致維持更看似真實的網(wǎng)孑L拓4卜。
在優(yōu)選的實施方案中,網(wǎng)孔頂點運動評估^皮依比例縮減到某 個有限范圍,而且多種運動評估是通過一些迭^完成的,為的是 允許網(wǎng)孔接近更全面優(yōu)化的和拓樸正確的解。
在優(yōu)選的實施方案中,考慮到內(nèi)插多角形鄰域,利用中心在 每個頂點上矩形瓦塊鄰域使用基于區(qū)段的運動評估確定頂點位 移。除了對于誤差梯度下降避免象素的空間插值和變形之外,這 項才支術(shù)也允許運動評估的平4于計算。
基于相位的運動評估
在現(xiàn)有技術(shù)中,基于區(qū)段的運動評估通常是作為導(dǎo)致一個或 多個空間匹配的空間4叟尋實現(xiàn)的?;谙辔坏腲見范4匕的互相關(guān)
(PNCC)如同圖3舉例說明的那樣把來自當(dāng)前畫面304,312,316和先 前畫面302,310,314的區(qū)^:變換到"相空間,,中,并且尋找那兩個 區(qū)段的互相關(guān)。這種互相關(guān)被表達(dá)為位置與兩個區(qū)4殳之間的邊緣 "相移"相對應(yīng)的數(shù)值域。這些位置通過定閾值被隔離,然后被 逆變換成空間坐標(biāo)。這些空間坐標(biāo)是截然不同的邊續(xù)_位移,而且 對應(yīng)于運動矢量。PNCC的優(yōu)勢包括在^L頻流中預(yù)留增益/曝光調(diào) 節(jié)的允差的對比度遮掩。另外,PNCC允許來自單一步驟的結(jié)果, 該單 一 步驟或許依據(jù)以空間為基礎(chǔ)的運動評估程序進4亍許多迭 代。此外,運動評估350,354,362,372是子象素精確的。
本發(fā)明的一個實施方案在一個或多個^L頻畫面之間的圖^f象 梯度域的分析中利用PNCC ,為的是產(chǎn)生其數(shù)值隨后被因式分解 成高階運動才莫型的有限差分(在352,360,370)。 一旦對象特4正對應(yīng) 關(guān)系被識別222,對應(yīng)關(guān)系模型就如同接下來討論的那樣被作出 224。整體配準(zhǔn)
在優(yōu)選實施方案中,本發(fā)明7吏用在兩個或多個視頻畫面中被 檢對象的對應(yīng)元素之間的關(guān)系產(chǎn)生對應(yīng)關(guān)系^^莫型(224,圖2)。通過 因式分解來自有限差分評估域的一個或多個線性模型分析這些 關(guān)系。術(shù)語"域"指的是每個有空間位置的有限差分。這些有限 差分可能是在檢測&跟蹤段落所描述的完全不同的視頻畫面中對 應(yīng)對象特征的平移位移。發(fā)生這才羊的抽樣的域在此^皮稱為有限差
分的一般總體。所描述的方法4吏用與文獻(xiàn)"M. A. Fischler, R. C. Bolles. 'Random Sample Consensus: A Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartography', Comm. of the ACM, Vol 24, pp 381-395, 1981"所描述的RANSAC
算法類似的強1*的評估。
如圖4所示,在建立整體運動才莫型的情況下,有限差分是收 集到用那些運動評估的隨機抽樣410迭代處理的一般總體庫404 中的平移運動評估402,而且線性才莫型被因式分解,才是耳又那些才羊 本的公因子420。然后,結(jié)果430被用來調(diào)節(jié)總體404以便通過排 除通過隨機處理發(fā)現(xiàn)的該模型的異己樣本更好地闡明該線性模 型。
本發(fā)明能利用一個或多個強健的預(yù)估程序;其中之一可能是 強^建的RANSAC評估程序。這些強#:的預(yù)估#呈序在現(xiàn)有4支術(shù)中已 得到4艮好的證明。
在線性模型評估算法的 一個實施方案中,運動模型評估程序 以線性最小二乘解為基礎(chǔ)。這種相關(guān)性使該評估程序擺脫異己樣 本數(shù)據(jù)。基于RANSAC,所揭示的方法是一種通過反復(fù)評估凄史據(jù) 子集抵消異己樣本的效應(yīng)從而探查將描述重要的數(shù)據(jù)子集的運 動模型的強健方法。每個探頭產(chǎn)生的模型都對它所代表的數(shù)據(jù)的百分比進4于測試。如果有足夠的迭^次凄t,則將發(fā)現(xiàn)與最大的凄t
據(jù)子集擬合的才莫型。在文獻(xiàn)"R. Dutter和PJ. Huber, 'Numerical methods for the nonlinear robust regression problem' , Journal of Statistical and Computational Simulation, 13:79-113, 1981"中有關(guān) 于怎樣完成這樣強健的線性最小二乘回歸的描述。
如同圖4i殳想和舉例-說明的那才羊,本發(fā)明揭示一些在算法變 更形式上超過R AN S A C算法的改革,包括有限差分的初始抽樣 (樣本)和線性模型的最小二乘評估。綜合誤差是使用已解的線性
模型對一般總體中的所有樣本評估的。根據(jù)殘差與預(yù)先設(shè)定的閾 值一致的樣本的數(shù)目給該線性模型分配一個等級。這個等級被看 作是"候選的共識"。
最初的抽樣、求解和歸類是通過迭代完成的,直到終止判據(jù) 得到滿足為止。 一旦該判據(jù)得到滿足,等級最高的線性模型被看 作是該總體的最后共識。
非必選的改進步驟包括按照與候選模型擬合最好的次序反 復(fù)分析該樣本子集并且逐漸增加子集規(guī)模,直到再多加一個樣本 將超過整個子集的殘留誤差閾值。
如圖4所示,整體模型評估程序450—直重復(fù)到共識等級可接 受性測試令人滿意452為止。當(dāng)該等級尚未實現(xiàn)的時候,把有限 差分的總體相對于在設(shè)法揭示線性模型時發(fā)現(xiàn)的模型分類454。 最好的(最高等級的)運動4莫型被添加到該程序的解集中460 。然 后,在程序470中再次評估該沖莫型。完成后,該總體4044艮據(jù)新的 /再次評估后的才莫型#1再次分類480。
為了在將與某特定的線性模型相對應(yīng)的另一個參數(shù)矢量空 間中確定子空間簇,所描述的本發(fā)明的非限制性實施方案可以作為對矢量空間(前面被描述為有限差分矢量域)抽樣的 一般方法被 進一步推廣。
整體配準(zhǔn)程序的進一 步的結(jié)果是這個配準(zhǔn)程序和局部配準(zhǔn) 程序之間的差異產(chǎn)生局部配準(zhǔn)殘差。這個殘差是整體模型在近似 局部模型時的誤差。
依照上文,先前發(fā)明的實施方案優(yōu)選4吏用強健的"i平估#呈序為 多維投射運動模型的解產(chǎn)生對應(yīng)關(guān)系模型zzy。
規(guī)范化(C1)
^見范化指的是朝著標(biāo)準(zhǔn)的或通常的空間配置方向再次#由取 空間強度場樣本。當(dāng)這些相對空間配置在這樣的配置之間是可逆 的空間變換的時候,象素的再次抽樣和附帶插值直到拓樸極限也 都是可逆的。本發(fā)明的少見范化方法是用圖5舉例i兌明的并且在象 素水平上操作(即,對象素和子象素再次抽樣)。
在圖5中,《合定運動評估;模型510, ^見范4匕程序反轉(zhuǎn)520該運 動模型510的相對空間配置之間的空間變換。反轉(zhuǎn)的運動模型522 產(chǎn)生。使用該反轉(zhuǎn)的運動模型522,來自運動模型510的對象象素 530在532被再次抽樣從而導(dǎo)致伴生象素的插值。在優(yōu)選的實施方 案中,再次抽樣過濾與橫穿多幀視頻數(shù)據(jù)的空間區(qū)域的結(jié)構(gòu)、變 形、姿勢和照明相關(guān)聯(lián)的任何變化或相反提取與橫穿多幀視頻數(shù) 據(jù)的空間區(qū)域的結(jié)構(gòu)、變形、姿勢和照明相關(guān)耳關(guān)的4壬4可變化的7> 因子。剩余的變化#^見為成像對象的"外觀"。
當(dāng)兩個以上空間強度場被規(guī)范化的時候,提高的計算效率可 以通過保存中間的規(guī)范化計算結(jié)果來實現(xiàn)。
為了配準(zhǔn)或等效地為了失見范化,用來再次抽取圖傳_樣本的空間變換模型包括總體模型和局部模型??傮w模型有從平移變換到 影射變換逐漸增加的階次。局部^^莫型是有限差分,該有限差分暗 示基本上用區(qū)段或更復(fù)雜地用分段線性網(wǎng)孔確定的關(guān)于鄰近象 素的內(nèi)插式。原始強度場向規(guī)范化強度場的插值增加基于強度場 子集的PCA外觀模型的直線性。
如圖2所示,在依照后面討論的模型對應(yīng)關(guān)系224從圖像數(shù)據(jù) /畫面拆分230出對象象素之后,對象象素或子象素232,234能凈皮再 次抽樣240。以象素和子象素水平再次抽才羊240產(chǎn)生對象象素和子 象素的規(guī)范化版本242,244。
基于網(wǎng)孔的少見范化
本發(fā)明的進一步的實施方案^fe特征點鑲嵌到基于三角形的 網(wǎng)孑L中,跟蹤該網(wǎng)孔的頂點,并且使用每個三角形的頂點的相對 ^f立置來評估與那三個頂點一致的平面的三維表面法線。當(dāng)該表面 法線與攝影機的投影軸相符的時候,成像象素能提供與該三角形 相對應(yīng)的對象的4丑曲最小的透4見圖。創(chuàng)造傾向于支持正交表面法 線的規(guī)范化圖像能產(chǎn)生保存中間數(shù)據(jù)類型的象素,這將提高后來 以外觀為基礎(chǔ)的PCA(主成分分析)模型的直線性。除PCA以外其 它線性分解是適用的
另 一個實施方案利用傳統(tǒng)的以區(qū),爻為基礎(chǔ)的運動評估來含 蓄地建立整體運動模型。在一個非限制性實施方案中,該方法將 來自傳統(tǒng)的以區(qū),殳為基礎(chǔ)的運動評估/預(yù)測所描述的運動矢量的 整體仿射運動模型因式分解。
本發(fā)明的方法利用一項或多項整體運動評估技術(shù),包括一組 仿射投影方程的線性解。其它的投影模型和求解方法在現(xiàn)有技術(shù) 中已有描述。圖9舉例說明整體和局部規(guī)范化的組合方法。在圖9中,禍L頻序列的第 一和第二畫面902,904(畫面A和畫面 B)是整體規(guī)范化程序906的輸入。整體規(guī)范化程序906包括下列步 驟形成整體運動模型(如同前面在圖4中那樣,舉例來說)和跟蹤 網(wǎng)孔的4侖廓和頂點的變形或運動。后者表現(xiàn)在畫面A和B中出現(xiàn) 的成^f象對象的整體幾何形狀902,904。整體失見范化程序906的結(jié)果 包括在圖9中以108表示的被整體規(guī)范化的畫面B。接下來,畫面 A 904和被整體規(guī)范化的畫面B 908被送進局部規(guī)范化程序910。 在那里,;陂整體^L范化的畫面B一皮局部^L范化。這導(dǎo)致畫面B既 被整體規(guī)范化又被局部規(guī)范化920 。
用于整體和局部^見范化步-驟906和910的各種不同的關(guān)見范化i 才支術(shù)4妾下來將^皮分別描述。
漸進的幾^f可失見范化
空間間斷點的分類#1用來對準(zhǔn)4裏嵌的網(wǎng)孔,以 <更在它們與網(wǎng) 孔邊纟彖一致的時候含蓄地建立間斷點才莫型。
同種區(qū)域的邊界是用多角形4侖廓近似的。為了確定每個多角 形頂點的顯著優(yōu)先權(quán),該輪廓是以逐次降低的精度逐次近似的。 為了保護共享頂點的頂點優(yōu)先權(quán),頂點優(yōu)先權(quán)在各個區(qū)域上傳播。
在這項發(fā)明的一個實施方案中,多角形分解方法允i午與3見場 的同種分類相關(guān)聯(lián)的邊界的優(yōu)先排序。象素是依照一些同種標(biāo)準(zhǔn) (例如,光語相似性)分類的,然后把分類標(biāo)簽按空間連接到各個 區(qū)i或之中。在進一步優(yōu)選的非限制性實施方案中,4-或8-連通性 判招4皮用來確定空間連通性。
在另一個實施方案中,這些空間區(qū)域的邊界隨后^皮離散成多角形。所有多角形對所有同種區(qū)域的空間覆蓋呈棋盤格狀并且結(jié) 合在 一起形成初步的網(wǎng)孔。使用 一 些判據(jù)將這種網(wǎng)孔的頂點分 解,以揭示保有最初網(wǎng)孔的大多數(shù)知覺特征的較簡單的網(wǎng)孔表達(dá)。
在優(yōu)選實施方案中,圖〗象配準(zhǔn)方法與前面揭示的一樣用強壯 的圖像梯度向這些高優(yōu)先權(quán)頂點偏置。由此產(chǎn)生的變形模型傾向 于{呆護與成<象對象的幾4可形狀相關(guān)耳關(guān)的空間間斷點。
在一個實施方案中,活3夭的4侖廓用來改善區(qū)域邊界。每個多
角形區(qū)域的活3夭4侖廓都被允許增殖一次迭代。在不同的區(qū)域中每 個活躍輪廓頂點的"變形"或運動被結(jié)合在計算平均值的操作中, 以便考慮到隱式網(wǎng)孔受限制的增殖,對于該網(wǎng)孔它們有隸屬關(guān)系。
在另一個實施方案中,頂點被分配在適合也作為不同區(qū)域的 4侖廓部分的毗鄰頂點的網(wǎng)孑L中它有的郵匕鄰頂點凄t的計凄t 。這些其 它的頂點^皮定義為處在對立狀態(tài)。如果頂點計lt為l,則它有沒 有對立頂點,因此需要得到保護。如果兩個毗鄰的對立頂點每個 頂點的計數(shù)都為l(意味著這兩個頂點在不同的多角形中而且彼 ot匕詳目鄰),那么一個頂點只于另一個是可分l淨(jìng)的。當(dāng)計凄史為l的頂點 與數(shù)值為2的鄰近的多角形頂點對立的時候,計數(shù)為1的頂點被分 辨為計凄t為2的頂點,而且由此產(chǎn)生的頂點計凄t等于l。因此,如 果出現(xiàn)另一個鄰近的對立頂點,那么這個頂點能^皮再一次分享淬。 對于這種情況,保留最初的頂點計數(shù)是重要的,所以在分辯頂點 的時候,我們能基于最初的頂點計數(shù)偏置求解方向。這是為了頂 點a變得1于頂點b清晰可見,那么頂點b只寸頂點c爿尋不清晰可見,而 頂點c應(yīng)該對頂點b變得清晰可見,因為b已經(jīng)被用于一種分辨率。
在優(yōu)選的實施方案中,T-接合點被明確地處理。這些是在一個多角形中的點,該多角形沒有點在毗鄰的多角形中。在這種情 況下,每個多角形頂點都首先被畫在圖像點映射圖上,這張映射 圖識別頂點的空間位置及其多角形標(biāo)識符。然后才黃越和測試每個 多角形的周長看看是否有任何來自另 一個多角形的毗鄰頂點。如 果有來自另一個區(qū)域的鄰近頂點,那么它們每個都被測試,看看 它們是否已經(jīng)有來自當(dāng)前的多角形的鄰近頂點。如果它們沒有, 那么當(dāng)前的點作為當(dāng)前的多角形的頂點被添加進去。這種額外的
測試/f呆i正在另一個多角形中的3瓜立頂點^皮用來產(chǎn)生T4姿合點。否 則,這將在這個區(qū)域已經(jīng)有匹配頂點的情況下^f義僅添加新的頂 點。所以,只有當(dāng)鄰近的頂點不與這個當(dāng)前區(qū)域?qū)α⒌臅r4夷才添 加對立頂點。在進一步的實施方案中,通過使用掩模圖像增加檢 測T-聯(lián)接的效率。連續(xù)地訪問多角形頂點,而且這樣更新掩模, 以致頂點的象素被確認(rèn)為屬于某個多角形頂點。然后多角形周長 的象素被詳細(xì)研究,如果它們與多角形頂點一致,那么它們被記 錄為在當(dāng)前的多角形之內(nèi)的頂點。
在一個實施方案中,當(dāng)某光i普區(qū)i或已,皮一個或多個交疊的同 種圖傳_梯度區(qū)i或再次映射,而且另 一個同種光^普區(qū)域也重疊的時 候,先前被再次映射的區(qū)域全被賦予與當(dāng)前被再次映射的那些區(qū) 域相同的標(biāo)簽。因此基本上,如果光譜區(qū)域被兩個同種區(qū)域遮住, 那么所有#皮那兩個同種區(qū)域遮住的光譜區(qū)域都將獲得同樣的標(biāo) 簽,因此一個光語區(qū)域真正被一個同種區(qū)域而不是兩個同種區(qū)域 覆蓋是相似的。
在本發(fā)明的一個實施方案中,為了找到鄰接歸并判據(jù),處理 區(qū)域映射圖而不是處理區(qū)域目錄是有利的。在進一步的實施方案 中,光譜拆分分類器能被修正以便訓(xùn)練該分類器使用非同種區(qū) 域。這允許將處理集中在光譜區(qū)域的邊緣。此外,增加以使用邊 緣(例如,穩(wěn)定的邊緣檢測器)為基礎(chǔ)的不同的拆分并且把那個饋送給活躍的輪廓識別最初的那組多角形將考慮到同種區(qū)域較大 的差別。
局部^見范^f匕
本發(fā)明提供能以"局部"方式4吏時空流中的象素配準(zhǔn)的方法。
一種這樣的局域化方法使用幾何網(wǎng)孔的空間應(yīng)用722(圖7)提 供分析象素的方法,以致在成^f象現(xiàn)象中局域相干性在分辯與成^f象 現(xiàn)象(或明確地說成^象對象)的局部變形有關(guān)的表^見圖《象亮度恒定 性模棱兩可的時候得到解釋。
這樣的網(wǎng)孔被用來提供在像平面中表面變形的分段線性模 型作為局部少見范化的方法。當(dāng)映 <象流的時間分辨率與映^f象中的運 動相比高的時候,成像現(xiàn)象可能往往與這樣的模型相對應(yīng)。模型 假設(shè)之例外是通過多種技術(shù)處理的,包括象素和圖像梯度區(qū)域 的拓樸限制、鄰近頂點限制和同種分析。
在一個實施方案中,《合定^L頻畫面702(圖7),同種象素區(qū)i或 是作為圖像對象位置和數(shù)值范圍706檢測的704。在同種象素區(qū)域 內(nèi),步驟708定義多角形輪廓。步驟710檢測和限定該圖像對象的 特征點。具體地說,使用三角形輪廓并且使用特征點來產(chǎn)生由其 頂點與特征點相對應(yīng)720的三角形元素組成的輪廓網(wǎng)孔722。在其 它的畫面中對應(yīng)的特征點暗示三角形(輪廓網(wǎng)孑L的鑲嵌式鋪 裝)724和對應(yīng)地象素的內(nèi)插"翹曲"。這導(dǎo)致局部變形才莫型(對象 網(wǎng)孔)726的產(chǎn)生。圖7舉例說明這樣的對象網(wǎng)孑L726的產(chǎn)生。圖8 舉例說明使用這樣的對象網(wǎng)孔806使畫面802,804局部規(guī)范化。
在圖8的局部關(guān)見范化程序中,對象網(wǎng)孔806(例如,用圖7的程 序產(chǎn)生的)被應(yīng)用于視頻或圖像畫面802,804(畫面A和畫面B)。對于網(wǎng)孔的每個頂點,有各自的瓦片810將中心置于其上。在畫面A 和B 802,804之間頂點位置的對應(yīng)關(guān)系是借助下面進一步討論的 并且與先前對整體運動討論過的那些類似的運動評估決定的。
鄰近點的運動"i平估纟皮用來形成頂點運動矢量812。然后,4吏 用該運動矢量812為每個瓦片814產(chǎn)生仿射才莫型。下面進一步討i侖 的是三角形瓦片和對應(yīng)的運動矢量以及用于這些三角形的仿射模型。
繼續(xù)參照圖8,每塊瓦片有對它進行評估的仿射變換(在814)。 在步驟816,畫面B 804基于導(dǎo)致對應(yīng)的象素被剝奪與畫面802,804 上的局部結(jié)構(gòu)、變形、姿勢和照明相關(guān)寫關(guān)的局部變化的逆仿射祐: 再次抽樣。換句話iJi,失見范化的畫面B在步驟820產(chǎn)生。
在一個優(yōu)選的實施方案中,產(chǎn)生一幅識別三角形的三角形映 射圖,該映射圖的每個象素都來自該三角形。此外,與每個三角 形相對應(yīng)的仿射變換814(圖8)是作為優(yōu)化步驟預(yù)先計算的。再者, 在產(chǎn)生局部變形模型的時候,使用空間坐標(biāo)在固定圖像(先前的) 上來回移動以確定源象素的抽才羊坐標(biāo)。這個一皮抽樣的象素將代盧#
當(dāng)前象素位置。
在另一個實施方案中,局部變形是在整體變形之后預(yù)先形成 的。在先前揭示的i兌明書中,整體^見范化是作為^f吏用整體配準(zhǔn)方 法,人空間上關(guān)見范4匕兩幅或多幅^L頻畫面中的象素的禾呈序描述的。 由此產(chǎn)生的整體-見范化的#見頻畫面能^皮進一步局部^見范化。這兩 種方法的組合把局部^見范化限制在整體上得到的解決辦法的細(xì) 分方面。這能大大減少求解所需要的局部方法的不明確性。
在另一個非限制性實施方案中,特征點或"規(guī)則網(wǎng)孔"情況 下的頂點是通過分析那些點鄰近區(qū)域的圖像梯度限定的。這個圖像梯度能被直接地或通過某種間接計算(例如,Harris響應(yīng))計算出 來。此外,這些點能被用與圖像梯度下降相關(guān)聯(lián)的空間限制和運 動評估結(jié)果誤差過濾。合格的點能作為網(wǎng)孔的基礎(chǔ)被許多棋盤格 化技術(shù)之一使用,從而導(dǎo)致其元素是三角形的網(wǎng)孔。對于每個三 角形,基于那些點和它們殘留的運動矢量產(chǎn)生一個仿射模型。
本發(fā)明的方法利用 一種或多種圖像強度梯度分析方法,包括 Harris響應(yīng)。其它的圖4象強度梯度分析方法在現(xiàn)有才支術(shù)中已有描述。
在優(yōu)選的實施方案中,維持三角形仿射參數(shù)的目錄。這個目 錄通過迭代構(gòu)成當(dāng)前的/早先的點目錄(使用頂點查尋映射圖)。當(dāng) 前的/早先的點目錄被傳送給用來評估為那個三角形計算仿射參 數(shù)的變換的例行程序。然后,這些仿射參tt或才莫型814被保存在 三角形仿射參凄t目錄中。
在進一 步的實施方案中,該方法4黃移三角形標(biāo)識符圖 <象映射 圖,在這種情況下該映射圖中的每個象素包含在該象素對它有隸 屬關(guān)系的網(wǎng)孔中的三角形的標(biāo)識符。而且對于屬于某個三角形的 每個象素,為那個象素計算對應(yīng)的整體變形坐標(biāo)和局部變形坐 標(biāo)。那些坐標(biāo)依次用來完成對應(yīng)象素的抽樣并且把它的數(shù)值應(yīng)用 于對應(yīng)的"身見范化"位置(例如,圖8中的步驟816)。
在進一步的實施方案中,以起因于圖像梯度搜尋的密度和圖 像強度對應(yīng)關(guān)系嚴(yán)格性為基礎(chǔ)把空間限制應(yīng)用于那些點。在完成 運動評估之后基于某種圖像強度殘差基準(zhǔn)將那些點分類。然后, 以空間密度限制為基礎(chǔ)對這些點進行過濾。
在進一步的實施方案中,使用空間光語拆分,而且4巴小的同 種光譜區(qū)域基于它們的強度和/或顏色與鄰近區(qū)域的空間仿射性和相似性合并。然后,使用同種合并把光譜區(qū)域以它們與同種紋 理(圖像梯度)區(qū)域的重疊為基礎(chǔ)組合在一起。進一步的實施方案 然后使用中心周圍點(那些點是被較大的區(qū)域包圍的小區(qū)域)作為 合格的感興趣的點來支持網(wǎng)孔的頂點。在進一 步的非限制性實施
方案中,中心周圍點的定義為其邊界沖匡在尺寸為3 x 3或5 x 5或7 x 7象素的一個象素之內(nèi)而且對于那個邊界框空間圖像梯度是角 落形狀的區(qū)域。該區(qū)域的中心能^皮歸類為角落,乂人而進一步限定 那個位置為有利的頂點位置。
在進一步的實施方案中,水平和垂直的象素有限差分圖傳4皮 用來給每個網(wǎng)孔邊緣的強度分類。如果邊緣有許多與它的空間位 置 一致的有限差分,那么該邊緣和那個邊緣的頂點被認(rèn)為是對于 成像現(xiàn)象的局部變形非常重要的。如果在邊緣的有限差分之和的 平均值之間有大的派生差異,那么該區(qū)域邊緣通常很可能對應(yīng)于 紋理變化邊纟彖,而不是量化步-驟。
在進一步的實施方案中,空間密度才莫型終止條件^皮用來優(yōu)化 網(wǎng)孔頂點的處理810。當(dāng)檢查過數(shù)目足以覆蓋大部分檢測矩形始 端的空間區(qū)域的點的時4矣,于是可以結(jié)束該處理。終止產(chǎn)生得分。 進入處理的頂點和特征點用這個得分來分類。如果那個點與現(xiàn)有 的點在空間上挨得太近,或著那個點不與圖像梯度的邊緣相對 應(yīng),則將它丟棄。否則,在那個點的鄰近地區(qū)中的圖l象梯度下降, 而且如果梯度的殘差超過某個界限,那么那個點也一皮丟棄。
在優(yōu)選實施方案中,局部變形建4莫是通過迭代完成的,,人而 隨著每次迭^J貞點位移減少收癥支到解上。
在另一個實施方案中,局部變形才莫型^皮完成,而且如果該整 體變形已經(jīng)提供相同的規(guī)范化利益,則該模型參數(shù)被丟棄。
34規(guī)則網(wǎng)孔規(guī)范化
本發(fā)明利用規(guī)則網(wǎng)孔擴展上述的局部規(guī)范化方法。這種網(wǎng)孔 是不考慮潛在象素構(gòu)成的,然而它的位置和尺寸與#皮4企對象相對 應(yīng)。
給定凈皮4全對象(例如,臉部)區(qū)i或,空間畫面位置和指出對象 臉部大小的刻度在臉部區(qū)i或的始端上產(chǎn)生A見則網(wǎng)孔。在優(yōu)選的實 施方案中,4吏用一組不重疊的瓦片描繪矩形網(wǎng)孔,然后在810完 成瓦片的對角線分割產(chǎn)生有三角形網(wǎng)孔元素的規(guī)則網(wǎng)孔。在進一
步的優(yōu)選實施方案中,瓦片與用于傳統(tǒng)的^L頻壓縮算法(例如, MPEG-4 AVC)的那些成比例。
在優(yōu)選的實施方案中,與上述網(wǎng)孔相關(guān)耳關(guān)810的頂點通過在 用于訓(xùn)練的特定碎見頻畫面中分析這些頂點周圍的象素區(qū)域區(qū)分 優(yōu)先次序。這樣的區(qū)域的梯度分析提供關(guān)于與每個頂點相關(guān)的將 依靠局部圖像梯度的處理(例如,基于區(qū)段的運動評估結(jié)果)的置 信度。
頂點位置在多個畫面中的對應(yīng)關(guān)系是通過簡單的逐步降氐 圖像梯度找到的。在優(yōu)選實施方案中,這是通過基于區(qū)段的運動 評估在810實現(xiàn)的。在目前的實施方案中,高置信度的頂點考慮 到高置信度的對應(yīng)關(guān)系。置信度較低的頂點對應(yīng)關(guān)系是通過推理 經(jīng)過求解不明確的圖像梯度從置信度較高的頂點對應(yīng)關(guān)系獲得 的。
在一個優(yōu)選實施方案中,失見則網(wǎng)孔是越過3艮蹤矩形的開端制 作的。產(chǎn)生16xl6的瓦片,并且沿著對角線切割,形成三角形網(wǎng) 孔。對這些三角形的頂點進行運動評估810。運動評估結(jié)果取決 于每個點的紋理類型。紋理被分為三類角落、邊緣和同種,它們也定義頂點的處理次序。角落頂點使用鄰近頂點評估結(jié)果,即,
鄰近點(如果可得)的運動評估^皮用于預(yù)言性運動矢量812,而運動 評估結(jié)果適用于每一個。提供最低誤差的運動矢量是作為這個頂 點運動矢量812使用的。用于角落的搜尋策略是全部(寬的、小的 和原點)。對于邊緣,再一次使用最近的相鄰運動矢量812作為預(yù) 言性運動矢量,而且使用誤差最小的那一個。邊緣的搜尋策略是 小的和原點。對于同種的,搜尋鄰近的頂點并且使用誤差最小的 運動評估。
在 一 個優(yōu)選實施方案中,每個三角形頂點的圖像梯度被計算 出來,而且基于類別和大小被分類。所以,角落先于邊緣,邊緣 先于同種。對于角落,強的角落先于弱的角落,對于邊緣,強的 邊緣先于弱的邊緣。
在一個優(yōu)選實施方案中,每個三角形的局部變形以與那個三 角形相關(guān)耳關(guān)的運動評估為基礎(chǔ)。每個三角形都有對它在814評估 的仿射。如果三角形不作拓樸逆轉(zhuǎn),或變成退化的,那么作為三 角形部分的象素凈皮用來以在814獲得的評估仿射為基礎(chǔ)4由取當(dāng)前 圖像的樣本。
拆分
通過進一 步描述的拆分程序識別的空間間斷點是通過它們 各自邊界的幾何參數(shù)表達(dá)法(被稱為空間間斷點模型)被有效地編 碼的。這些空間間斷點才莫型可以以漸進的方式編碼,從而考慮到 與編碼子集相對應(yīng)的更簡潔的邊界描述。漸進式編碼提供 一 種在 保留空間間斷點的許多顯著方面的同時區(qū)分空間幾何學(xué)優(yōu)先次 序的強健方法。
本發(fā)明的優(yōu)選實施方案將多分辨率拆分分析與空間強度場的梯度分析結(jié)合起來,并且進一步使用時間穩(wěn)定性限制來實現(xiàn)強 健的拆分。
如圖2所示, 一旦已經(jīng)隨著時間的流逝^艮蹤對象特4正的對應(yīng)
關(guān)系220并且建立了模型224,遵守這個運動/變形模型能用來拆分 與那個對象相^f應(yīng)的象素230。這個禾呈序可以^^見頻凄t纟居/畫面 202,204中的許多被檢對象206,208重復(fù)。這個程序的結(jié)果是被拆 分對象的象素232。
本發(fā)明使用的無變化特征分析的 一種形式被集中在空間間 斷點的識別上。這些間斷點是作為邊緣、陰影、遮蔽、線、拐角 或在 一 個或多個#見頻成{象畫面中任何其它的引起突然的和可識 別的象素分離的4壬4可其它可見特^£出現(xiàn)的。此外,在顏色和/或紋 理類似的對象之間細(xì)微的空間間斷點可能只出現(xiàn)在視頻畫面中 的對象的象素相對于對象本身正在經(jīng)歷粘附運動但相對于其它 對象正在經(jīng)歷不同的運動之時。本發(fā)明利用頻i普拆分、紋理拆分 和運動拆分的組合強健地識別與顯著信號才莫式相關(guān)聯(lián)的空間間 斷點。
時間拆分
把平移運動矢量或在空間強度場中等價的有限差分測量結(jié) 果按時間整合成高階運動才莫型是現(xiàn)有技術(shù)描述的運動拆分形式。
在本發(fā)明的一個實施方案中,產(chǎn)生運動矢量的稠密域,表現(xiàn) 映像中對象運動的有限差分。這些導(dǎo)數(shù)是通過瓦片的規(guī)則分割或 借助某種初始化程序(例如,空間拆分)按空間集合的。每個集合 的"導(dǎo)數(shù)"被整合成使用線性最小二乘評估程序的高階運動模型。 然后,由此產(chǎn)生的運動模型作為矢量被群集在使用聚類算法 (k-means)群集技術(shù)的運動模型空間中。這些導(dǎo)數(shù)是基于與它們擬合最好的群分類的。然后,群標(biāo)在空間上被群集為空間分割 的演變。該程序 一 直繼續(xù)到空間分割是穩(wěn)定的。
在本發(fā)明的進一步的實施方案中,適合》合定的孔徑的運動矢 量被內(nèi)插到 一組與該孔徑相對應(yīng)的象素位置。當(dāng)用這種內(nèi)插定義 的區(qū)段橫越與對象邊界相對應(yīng)的象素時候,由此產(chǎn)生的分類是該 區(qū)^殳的某種不身見則的對角線分割。
在現(xiàn)有技術(shù)中,用來整合導(dǎo)數(shù)的最小二乘評估程序?qū)﹄x群值 是高度敏感的。這種敏感性能產(chǎn)生使運動模型群集方法嚴(yán)重地偏 向迭代結(jié)果大幅度發(fā)散的點的運動模型。
在本發(fā)明中,運動拆分方法通過在兩個以上視頻畫面上分析 明顯的象素運動識別空間間斷點。明顯的運動是4十對這些-見頻畫 面上的一致性分析的并且纟皮整合成參數(shù)運動才莫型。與這種一致的
運動相關(guān)聯(lián)的空間間斷點#:識別出來。運動拆分也可以^^稱為時 間拆分,因為時間變4匕可能是由運動引起的。然而,時間變4匕也 可能是由一些其它的現(xiàn)象(例如,局部變形、照明變化,等等)引 起的。
通過所描述的方法,與規(guī)范化方法相對應(yīng)的顯著信號模式能 被識別而且能通過幾種背景減法之一與環(huán)境信號模式(背景或非
對象)分開。時常,這些方法從統(tǒng)計上建立背景模型,因為象素 在每個時間例證都呈現(xiàn)最小的變化量。變化能凈皮i見為象素數(shù)值差異。
基于拆分周界的整體變形模型是通過先創(chuàng)造圍繞對象的周 界,然后使該周界向被檢對象中心倒塌直到周界頂點已經(jīng)實現(xiàn)位 置與異種圖像梯度一致實現(xiàn)的。運動評估是針對這些新的頂點位 置推斷的,而強健的仿射評估被用來發(fā)現(xiàn)整體變形模型?;诒徊鸱志W(wǎng)孔頂點圖像梯度下降的有限差分被整合成整 體變形模型。
對象拆分
圖13所示方框圖展示對象拆分的一個優(yōu)選實施方案。所示程 序1300從規(guī)范化的視頻畫面/圖像1302的系綜開始,該規(guī)范化的視 頻畫面/圖<象隨后在該系綜當(dāng)中一皮逐對地計算差分1304。然后,這 些差分#1逐元素地積聚到積聚纟爰沖區(qū)中1306。為了識別比4交重要 的誤差區(qū)域,該積聚l^沖區(qū)設(shè)定了閾值1310。然后,為了確定累 積誤差區(qū)域的空間支持1310,對有閾值的元素掩模進行形態(tài)學(xué)分 析1312。然后,將形態(tài)學(xué)分析1312產(chǎn)生的提取物1314與被檢對象 位置進行比較1320,以便將后來的處理集中在與對象一致的累積 誤差區(qū)域。然后,用形成其凸殼1324的多角形近似《瓜立空間區(qū)域 1320的邊界1322。然后,調(diào)整殼的4侖廓1330,以便更好地初始化 用于活輪廓分析1332的頂點位置。 一旦活3夭4侖廓分析1332已經(jīng)會 聚在累積誤差空間中的低能量解上,該輪廓被用作最后輪廓 1334,而且被限制在該輪廓之中的象素被視為最有可能是對象象 素的那些。在最后4侖廓1334之外的那些象素^皮;現(xiàn)為非對象象素。
在一個實施方案中,運動拆分能在給定顯著圖像模型的檢測 位置和規(guī)模的情況下實現(xiàn)。距離變換能用來確定每個象素離開該 被檢位置的距離。如果與最大距離相關(guān)聯(lián)的象素數(shù)值被保留,合 理的背景模型能被求解。換句話說,環(huán)境信號是使用信號差衡量 才示準(zhǔn)按時再次4由才羊的。
進一步的實施方案包4舌相對于當(dāng)前的4全測位置4吏用距離變 換把距離分配給每個象素。如果到某個象素的距離大于在某個最 大象素距離表中的距離,那么該象素數(shù)值被記錄下來。在適當(dāng)?shù)?訓(xùn)練周期之后,如果適合于部個象素的最大距離是大的,則假定
39該象素最有可能是背景象素。
給定環(huán)境信號模型,完全的顯著信號模態(tài)能按每個時間例證 計算差分。這些差分每個都能被再次抽樣變成空間規(guī)范化的信號
差(絕對差)。然后,這些差分#:;波此對準(zhǔn)并且#皮累積。由于這些 差分已經(jīng)相對于顯著信號模式在空間上被規(guī)范化,所以差分的峰 值將主要對應(yīng)于與顯著信號模式相關(guān)聯(lián)的象素位置。
在本發(fā)明的一個實施方案中,訓(xùn)練周期^皮限定,其中對象抬, 測位置被確定下來而且那些位置的質(zhì)心被用來以遠(yuǎn)離這個位置 的才企測位置確定最佳的畫面數(shù),這將考慮到畫面差分化以 <更產(chǎn)生 將最有可能是非對象象素的背景象素。
在本發(fā)明的一個實施方案中,活躍輪廓才莫型曾用來通過在累 積誤差"圖像"中確定輪廓頂點位置把前景對象從非對象背景中 拆分出來。在優(yōu)選的實施方案中,活躍輪廓邊緣被細(xì)分得與被檢 對象的比例相稱,以便得到較大的自由度。在優(yōu)選的實施方案中, 最后輪廓的位置能與最接近的規(guī)則網(wǎng)孔頂點對齊,以便產(chǎn)生有頭見 4聿地隔開的4侖廓。
在對象拆分的一個非限制性實施方案中,使用導(dǎo)向核來為時 間上成對的圖像產(chǎn)生誤差圖像過濾響應(yīng)。對取向與總的運動方向 正交的過濾器的響應(yīng)傾向于在相對于背景的運動由于背景的遮 蔽和顯露而發(fā)生的時候增強誤差表面。
規(guī)范化圖像系綜的規(guī)范化圖像畫面強度矢量是利用 一 個或 多個參考畫面計算差分的從而產(chǎn)生殘差矢量。這些殘差矢量是逐
元素地累積的,以形成累積殘差矢量。然后,這個累積殘差矢量 被按空間探查,以便定義適合對象象素和非對象象素的空間拆分 的空間對象邊界。在一個優(yōu)選實施方案中,為了得出能用來給累積殘差矢量設(shè) 定閾值的統(tǒng)計閾值,完成了最初的累積殘差矢量統(tǒng)計分4斤。通過 先腐蝕后膨脹的形態(tài)學(xué)操作,形成初步的對象區(qū)域掩模。然后, 分析該區(qū)域的輪廓多角形點以揭示那些點的凸殼。然后,把該凸 殼作為初始輪廓用于活躍輪廓分析法。該活躍輪廓在它會聚在該 對象的累積殘差空間邊界上之前是一直增殖的。在進一步優(yōu)選的 實施方案中,初步的輪廓邊緣通過添加中點頂點被進一步細(xì)分到 實現(xiàn)適合于所有的邊緣長度的最小邊緣長度。這個進一 步的實施 方案意味著逐漸增加活3夭l侖廓才莫型的自由度以〗更更精確地適合 該只于象的4侖廓。
在一個實施方案中,〗吏用細(xì)化的輪廓產(chǎn)生象素掩才莫乂人而通過 覆蓋該輪廓暗示的多角形和覆蓋規(guī)范化圖像中的多角形指出該 對象的象素。
非對象的分辨
圖12所示的方框圖揭示非對象拆分或同義地背景分辨的一 個優(yōu)選實施方案。通過背景緩沖區(qū)1206和初始最大距離值緩沖區(qū) 1204的初始化,該程序這樣工作,通過把"穩(wěn)定性"與距被檢對 象位置1202的最大距離1212聘系起來確定最穩(wěn)定的非對象象素。 給出新的被檢對象位置1202,該程序檢查每個象素位置1210。對 于每個象素位置1210,使用距離變換計算離開被檢對象位置1210 的距離1212。如果那個象素的距離大于先前儲存在最大距離緩沖 區(qū)1204中的位置1216,那么先前的翁^f直凈皮當(dāng)前的彩j直^^替1218, 而且該象素數(shù)值^皮記錄在該象素緩沖區(qū)中1220。象素3巨離與最大 存儲距離的比較1216是針對每個象素重復(fù)的1214。
給出清晰的背景圖像,這個圖^f象和當(dāng)前畫面之間的i吳差可以 按空間規(guī)范化并且按時間累積。這樣的清晰背景圖像是在"背景分辨"部分中描述的。通過這個方法背景的分辨率被視為基于時間的遮擋過濾禾呈序。
然后,由此產(chǎn)生的累積誤差通過閾值;H險提供初始輪廓。然后,該輪廓在空間上擴展以使殘留誤差與輪廓變形保持平衡。
在^,代實施方案中,計算在當(dāng)前畫面和^皮分辨背景畫面之間的絕對差別。然后,將元素狀態(tài)的絕對差別拆分成截然不同的空
間區(qū)域。這樣計算這些區(qū)域邊界才匡的平均象素^直,以致當(dāng)更新祐:分辨背景的時候,當(dāng)前的和已分辨的背景的平均象素值之間的差能用來實現(xiàn)反差變化,所以當(dāng)前區(qū)域能更有效地?fù)交煸赹皮分辨的背景之中。在另一個實施方案中,在規(guī)范化畫面掩才莫里面的頂點
是針對每個畫面進行運動評估和保存的。然后,使用SVD處理這
些頂點以產(chǎn)生每個畫面的局部變形予貞測。梯度拆分
紋理拆分方法或同義的強度梯度拆分分析象素在一個或多個視頻畫面中的局部梯度。梯度響應(yīng)是一種表征空間間斷點的統(tǒng)
計尺度,其中所述空間間斷點對于該^L頻畫面中的象素位置是局部的。然后,使用幾種空間群集技術(shù)之一把這些梯度響應(yīng)組合成一些空間區(qū)域。這些區(qū)域的邊界在識別一個或多個^L頻畫面中的空間間斷點方面是有用的。.
在本發(fā)明的 一 個實施方案中,來自計算機圖形紋理生成的總面積表概念被用于加快強度場梯度計算的目的。累加值域的產(chǎn)生〃使通過與四次加法運算結(jié)合的四次查詢計算{壬{可長方形原始i或的總和變得容易。
進一步的實施方案^f吏用對一個圖^f象產(chǎn)生的Harris響應(yīng),而每個象素的鄰近區(qū)域被歸類為同種的、邊緣或拐角。響應(yīng)數(shù)值是依據(jù)這個信息產(chǎn)生的并且指出畫面中每種元素的邊緣化或拐角化的程度。
多刻度梯度分析
本發(fā)明的實施方案通過以幾種空間刻度產(chǎn)生圖像梯度值進一步約束圖像梯度支持。這個方法能幫助限定圖像梯度,以致在不同的刻度下空間間斷點能用來彼此相互支持,只要"邊緣"在幾種不同的空間刻度下能被區(qū)別對待即可,該邊緣應(yīng)該是"顯著的"。更合乎條件的圖像梯度將傾向于與更顯著的特征相對應(yīng)。
在一個實施方案中,紋理響應(yīng)區(qū)i或是首先產(chǎn)生的,然后,這個區(qū)域的數(shù)值以聚類算法(k-means)分區(qū)間/分割為基礎(chǔ)被量化成若干區(qū)間。然后,使用每個區(qū)間作為單一迭代能把轉(zhuǎn)捩點拆分應(yīng)用于它的數(shù)值間隔漸進地處理最初的圖像梯度數(shù)值。這種方法的好處是在相對意義上用強烈的空間偏置限定同種。
光i普拆分
光譜拆分方法分析視頻信號中黑白象素、灰度象素或彩色象素的統(tǒng)計概率分布。頻i瞽分類程序是通過完成關(guān)于那些象素的扭無率分布的群集操作構(gòu)成的。然后,使用該分類程序把一個或多個象素分類,使之屬于某個概率類別。然后,由此產(chǎn)生的概率類別和它的象素被賦予類別標(biāo)簽。'然后,使這些類別標(biāo)簽在空間上與截然不同的邊界結(jié)合成各個象素區(qū)Jt或。這些邊界標(biāo)識在一個或多個一見頻畫面中的空間間斷點。
本發(fā)明可以利用基于光"i普分類的空間拆分來拆分^L頻畫面中的象素。此外,各個區(qū)域之間的對應(yīng)關(guān)系可能是基于各個光譜
43區(qū)域與先前拆分的區(qū)域的重疊確定的。
業(yè)已觀察到當(dāng)^L頻畫面l體上由空間上被連接成與^L頻畫 面中的對象相對應(yīng)的較大區(qū)域的連續(xù)彩色區(qū)域組成的時候,彩色 (或光譜)區(qū)域的識別和跟蹤能促進映像序列中對象的后續(xù)拆分。
背景拆分
本發(fā)明包4舌以每個#見頻畫面中的4笨測對象和每個個別象素 之間的空間距離測量結(jié)果的瞬時最大值為基礎(chǔ)建立#見頻畫面背 景才莫型的方法。見前面圖12的描述。#會定#笨測到的對象位置,應(yīng) 用距離變換,產(chǎn)生適合畫面中每個象素的標(biāo)量距離數(shù)值。在所有 的#見頻畫面上每個象素的最大距離的映射圖^皮^呆留。當(dāng)最初分配 最大數(shù)值的時候,或后來用不同的新數(shù)值更新該最大數(shù)值的時 候,適合于那個視頻畫面的對應(yīng)的象素被保留在"清晰的背景" 畫面中。
建立外觀才莫型
4見頻處理的共同目標(biāo)往往是建立和保存^L頻畫面序列的外 觀才莫型。本發(fā)明以允許通過預(yù)處理的運用以強健的和廣泛適用的 方式應(yīng)用強制性外觀建模技術(shù)為目標(biāo)。先前描述的配準(zhǔn)、拆分和 頭見范化明顯地適合這個目的。
本發(fā)明揭示建立外觀變化模型的方法。建立外觀變化模型的 主要基礎(chǔ)在線性模型的情況下是分析特征矢量,以揭示開發(fā)利用 線性相關(guān)關(guān)系的堅實基礎(chǔ)。表達(dá)空間強度場象素的特征矢量能被 組裝成外XC變化才莫型。
在替代實施方案中,外觀變化模型是依據(jù)被拆分的象素子集 計算的。此外,該特征矢量能被分成若干空間上不重疊的特征矢量。這沖羊的空間分解可以用空間鋪瓦來實現(xiàn)。計算效率可以通過
處理這些臨時總體來實現(xiàn),而不犧牲更普遍的PCA方法的維數(shù)減 少。
在產(chǎn)生外觀變化模型時,空間強度場規(guī)范化能用來減少空間 變換的PCA建模。
建立變形模型
當(dāng)頂點位移和插值函數(shù)能用來依照與那些象素相關(guān)耳關(guān)的頂 點決定象素再次抽樣的時候,能建立局部變形模型。這些頂點位 移可以作為單 一 參數(shù)組提供很多橫越許多頂點看到的運動變化。 這些參數(shù)的相關(guān)關(guān)系能大大減少這個參數(shù)空間的維度。
PCA
產(chǎn)生外,見變化4莫型的優(yōu)選方法是通過4巴一見頻畫面作為圖案 矢量組裝成一個訓(xùn)練矩陣或總體然后把主要成份分析(PCA)應(yīng)用 在該訓(xùn)練矩陣上。當(dāng)這樣的展開式被截取的時候,由此產(chǎn)生的 PCA變換矩陣;故用來分4斤和合成后面的一見頻畫面?;诮囟炙?平,改變象素的初始外^見質(zhì)量水平能實現(xiàn)。
圖案矢量的特定的構(gòu)成和分解方法對于熟悉這項技術(shù)的人 是廣為人知的。
給出來自環(huán)境信號的顯著信號模式的空間拆分和這個模式 的空間規(guī)范化,象素本身或同義的由此產(chǎn)生的規(guī)范化信號的外觀 能被因式分解成線性相關(guān)的成份,其中低級參數(shù)表達(dá)考慮到適合 表達(dá)象素外XC的近似值誤差和比特率之間的直4妄交4灸。用來實現(xiàn) 低等級近似的 一種方法是通過舍棄編碼數(shù)據(jù)的 一 些字節(jié)和/或位。 低等級近似值被視為原始數(shù)據(jù)的壓縮,如同這項技術(shù)的特定應(yīng)用所確定的那樣。舉例來i兌,在^L頻壓縮中,如果數(shù)據(jù)的舍棄并非 不適當(dāng)?shù)?-使感知質(zhì)量降^[氐,那么該應(yīng)用的特定目標(biāo)將連同壓縮一 起實現(xiàn)。
如圖2所示,為了得到量綱上簡明的數(shù)據(jù)版本252和254,規(guī) 范化的對象象素242和244能才殳射到矢量空間中而且線性對應(yīng)關(guān) 系能使用分解程序250建立模型。
連續(xù)的PCA
PC A使用PC A變換把圖案編碼成PC A系數(shù)。用PC A變換表達(dá) 的圖案越好,給該圖案編碼所需要的系數(shù)就越少。承認(rèn)圖案矢量 可能隨著時間在獲得訓(xùn)練圖案和待編碼圖案之間流逝降級,更新 變換能幫助抵消這種降級。作為產(chǎn)生新變換的替代品,現(xiàn)有圖案 的連續(xù)更新在特定的情況下是計算上更有效的。
許多最新技術(shù)的^L頻壓縮算法依據(jù)一個或多個其它畫面預(yù) 測某^L頻畫面。預(yù)測才莫型通?;?巴每個預(yù)測畫面分割成與在另 一畫面中對應(yīng)的補丁相匹配6々不重疊的瓦片和相關(guān)^:的用偏移 運動矢量參數(shù)化的平移位移。這個非必選地與畫面索引耦合的空 間位移提供瓦片的"運動預(yù)測"版本。如果預(yù)測的誤差在特定的 閾Y直以下,則瓦片的象素適合殘差編石馬;而且在壓縮歲丈率方面有 對應(yīng)的增益。否則,瓦片的象素被直接編碼。這種基于瓦片的換 句話i兌基于區(qū)#殳的運動預(yù)測方法通過平移包含象素的瓦片建立 影像模型。當(dāng)影像中的成像現(xiàn)象堅持這種建模的時候,對應(yīng)的編 碼效率增加。為了與在基于區(qū)段的預(yù)測中固有的平移假定 一 致,
這個建模限制為了與在基于區(qū)段的預(yù)測中固有的平移假設(shè) 一 致 虧叚定特定的時間分辨率水平(或幀頻)對于正在運動的成<象對象是 存在的。這種平移模型的另 一個必要條件是對于特定的時間分辨 率空間位移必須受到限制;換言之,用來推導(dǎo)預(yù)測結(jié)果的畫面和#皮預(yù)測的畫面之間的時間差必須是比4交短的絕對時間。這些時間 分辨率和運動限制4吏存在于#見頻流中的某些多余的#見頻4言號成 Y分的識別和建才莫變得容易。
在本發(fā)明的方法中,連續(xù)的PCA與嵌零樹子波結(jié)合以進一步 提高混合壓縮法的實用性。連續(xù)的PCA技術(shù)提供能針對有時間相 干性或時間局部平滑性的信號提高傳統(tǒng)的PCA的方法。嵌零樹子 波提供能為了提高特定處理的強健性和該算法的計算效率把局 部平滑的空間信號分解成空間刻度表達(dá)的方法。對于本發(fā)明,將 這兩種技術(shù)結(jié)合起來,增加變異模型的表達(dá)能力和提供那些緊湊 且安排好的模型的表達(dá),以致該基礎(chǔ)的許多表達(dá)能力是由該基礎(chǔ) 的舍棄提供的。
在另一個實施方案中,連續(xù)的PCA是與固定的輸入?yún)^(qū)段大小 和固定的允差一起應(yīng)用的,以增加乂于第 一個和大多tt有力的PCA 成寸分的加^又偏移。對于較長的凄t據(jù)序列,這第一個PCA成〗分往往 是唯一的PCA成份。這影響重建的畫面質(zhì)量而且能以某種方式限 制所述方法的實效。本發(fā)明將不同的基準(zhǔn)用于PCA成^f分的選擇, 這種選擇對慣常使用的最小二乘基準(zhǔn)是優(yōu)選的。這種模型選擇形 式避免用第一個PCA成份過度近似。
在另一個實施方案中,區(qū)段PCA程序連同每個數(shù)據(jù)區(qū)段的固 定的輸入?yún)^(qū)4殳大小和身見定的PCA成4分?jǐn)?shù)目 一起用來4是供有益的 統(tǒng)一重建代替<吏用相對較多的成<分。在進一步的實施方案中,區(qū) 段PCA被用于與連續(xù)的PCA組合,在這種情況下區(qū)段PCA在一組 步驟數(shù)目之后用 一個區(qū)段PCA步驟重新初始化連續(xù)的PCA。這通 過減少PCA成份的數(shù)目提供有益的統(tǒng)一近似值。
在另一個實施方案中,本發(fā)明利用PCA成4分在編碼-解碼之前 和之后一見覺上相似的情形。圖^f象序列重建質(zhì)量在編碼-解碼之前
47和在之后也可能在—見覺上相似,這往往耳又決于所用的量化禾呈度。
本發(fā)明的方法先將PCA成份解碼,然后再次規(guī)范化它們使之有個 體基準(zhǔn)。對于適度的量化,解碼后的PCA成份是近似正交的。在 較高的量化水平,解碼后的PCA成份被SVD的應(yīng)用程序部分地恢 復(fù)以獲得 一 正交基礎(chǔ)和 一 組修改過的重建系數(shù)。
在另一個實施方案中,可變的自適應(yīng)的區(qū)段大小被應(yīng)用于混 合的繼續(xù)PCA方法,為的是產(chǎn)生對于合成質(zhì)量有所改善的結(jié)果。 本發(fā)明將區(qū)段大小建立在PCA成份的最大數(shù)目和對于那些區(qū)段 纟合定的容"i午誤差的基礎(chǔ)上。然后,該方法擴充當(dāng)前的區(qū)l更大小, 直到達(dá)到PCA成份的最大數(shù)目。在進一步的實施方案中,PCA成 份的序列被視為數(shù)據(jù)流,這導(dǎo)致維數(shù)進一步減少。該方法完成后 處理步驟,在那里可變的數(shù)據(jù)區(qū)段是為來自每個區(qū)段的第一個 PCA成份收集的,而SVD被應(yīng)用,為的是進一步減少維度。然后, 相同的程序被應(yīng)用于第二個、第三個等成份的收集。
對稱的分解
在本發(fā)明的一個實施方案中,分解是基于對稱總體完成的。 這個總體^1奪正方形圖〗象表示成六個正交成份之和。每個成4分對應(yīng) 于該正方形的一種不同的對稱。由于對稱,每個正交成^f分都是用 "基本區(qū)域"確定的,該基本區(qū)域借助對稱作用被映入完全的成 份。假定輸入圖像本身沒有特別的對稱性,那么基本區(qū)域之和有 與輸入圖像一樣的集容量。
基于殘差的分解
在MPEG視頻壓縮中,當(dāng)前的畫面是通過先使用運動矢量對 先前的畫面進4亍運動補償,然后4巴殘差更新應(yīng)用于那些補償區(qū) ^殳,最后將任何沒有充份匹配的區(qū)段作為新區(qū)4殳完成編碼構(gòu)成的。
對應(yīng)于殘留區(qū)段的象素通過運動矢量映射到先前畫面的象 素上。結(jié)果是象素通過能通過連續(xù)應(yīng)用殘值合成的影像的瞬時路
徑。這些象素被確認(rèn)為能使用PCA最明確地表達(dá)的象素。 基于遮擋的分解
本發(fā)明的進一步提高確定適用于多個區(qū)段的運動矢量是否 將導(dǎo)致來自先前畫面的任何象素被移動象素遮擋(覆蓋)。對于每 個遮擋事件,都把遮擋象素劈成新層。沒有歷史的象素也將暴露 出來。暴露出來的泉素被放到任何將在當(dāng)前畫面中與它們擬合而 且歷史擬合也能在那層上完成的層上。
象素的時間連續(xù)性是通過象素對不同層的接合和移植得到 支持的。 一旦獲得穩(wěn)定的層模型,每層中的象素就能基于對條理 分明的運動模型的隸屬關(guān)系編組。
分波,殳時間量4b
本發(fā)明的替代實施方案<吏用離散余弦變換(DCT)或離散子波 變換(DWT)4巴每個畫面分解成分波,殳圖〗象。然后,將主要成^f分分 析(PCA)應(yīng)用于這些"分波段"影像之中的每個影像。概念是視 頻畫面的分波段分解與原始纟見頻畫面相比較減少任何一個分波 ,爻中的空間變化。
就移動對象(人)的影〗象而言,空間變化傾向于支配用PCA建 模的變化。分波段分解減少任何一個分解影像中的空間變化。
就DCT而言,任4可一個分波段的分解系數(shù)都4要空間安排在分 波段影像之中。舉例來說,DC系數(shù)是從每個區(qū)段獲取的并且被安排在看起來像原始影像的郵票版本一樣的分波段影像之中。這
將對所有其它的分波-歐重復(fù),而且4吏用PCA處理每個由此產(chǎn)生的
分波段影像。
就DWT而言,分波,殳已經(jīng)4姿針對DCT描述的方式排列好。 在非限制性實施方案中,P C A系數(shù)的截取是變化的。 子波
當(dāng)使用離散子波變換(DWT)分解數(shù)據(jù)的時候,多個帶通數(shù)據(jù) 組以4交^f氐的空間分辨率為結(jié)果。變換:禾呈序能^皮遞歸J4應(yīng)用于導(dǎo)出 數(shù)據(jù)直到僅僅產(chǎn)生單一 的標(biāo)量數(shù)值為止。在已分解的結(jié)構(gòu)中標(biāo)量 元素通常以分等級的父母/孩子方式相關(guān)。由此產(chǎn)生的凄t據(jù)包含多 分辨率的分等級結(jié)構(gòu)以及有限差分。
當(dāng)DWT被應(yīng)用于空間強度場的時候,許多自然發(fā)生的圖像現(xiàn) 象由于空間頻率低是用第 一或第二低帶通導(dǎo)出數(shù)據(jù)結(jié)構(gòu)以樣吏不 足道的知覺損失表達(dá)的。截短該分等級結(jié)構(gòu)在高頻率空間數(shù)據(jù)不 是不存在就是被視為噪音的時候提供簡明的表達(dá)。
盡管PCA可以用來以為數(shù)不多的系數(shù)實現(xiàn)精確的重建,但是 這種變換本身可能是相當(dāng)大的。為了減少這個"初始"變換的頭見 模,可以使用子波分解的嵌零樹(EZT)結(jié)構(gòu)來建立變換矩陣的越 來越精確的版本。
子空間分類
如同實踐這項技術(shù)的人充分理解的那樣,離散抽樣的現(xiàn)象數(shù) 據(jù)和導(dǎo)出數(shù)據(jù)能被表達(dá)成一組與代凄史矢量空間相對應(yīng)的tt據(jù)矢 量。這些數(shù)據(jù)矢量以非限制性方式包括拆分后對象的規(guī)范化外表中的象素、運動參數(shù)和特征或頂點的任何二或三維結(jié)構(gòu)位置。這 些矢量都存在于矢量空間之中,而且該空間的幾^可分沖斤能用來產(chǎn) 生樣本或參數(shù)矢量的簡潔表達(dá)。有益的幾何條件是借助形成緊湊 子空間的參凄t矢量代表的。當(dāng)一個或多個子空間混合,形成表面 上更復(fù)雜的單一子空間的時候,那些要素子空間可能難以辨別。 有幾種拆分方法考慮到通過4全查通過原始矢量的一些交互作用 (例如,內(nèi)積)產(chǎn)生的高維矢量空間中的數(shù)據(jù)分離這樣的子空間。
特征子空間分類
特征子空間是使用與對象相關(guān)聯(lián)的區(qū)域的DCT分解構(gòu)成的。 每個由此產(chǎn)生的系數(shù)矩陣都被轉(zhuǎn)換成一個特征矢量。然后,這些 特征矢量按空間聚集在由此產(chǎn)生的矢量空間中。這種聚集提供能
整體地和局部地向 一 些參考對象例i正*見范化的圖 <象對象例i正
群體。然后,這些規(guī)范化的對象例證能被用作用于PCA的總體。
在一個優(yōu)選實施方案中,DCT矩陣系數(shù)是作為矩陣的上三角 形和下三角形求和的。這些總數(shù)被認(rèn)為是二維矢量的元素。
在一個優(yōu)選實施方案中,最密集的群^皮識別,而且與該群最 緊密關(guān)聯(lián)的矢量被選定。與對應(yīng)于這些象素的對象例證相關(guān)聯(lián)的
象素祐:i人為彼此最相似。然后,選定的矢量能乂人該子空間中除去,
而且再次群集能產(chǎn)生另 一組與相關(guān)的對象例i正相對應(yīng)的相關(guān)矢量。
在進一步的實施方案中,與確認(rèn)的群的矢量相關(guān)聯(lián)的圖像對 象例證被整體地向群矩心規(guī)范化。如果由此產(chǎn)生的規(guī)范化滿足扭
曲需求,那么該乂于象例i正^皮i人為與該矩心類4以。進一步的實施方 案考慮到要回到該矢量空間的對象例證無法作為適合進一步群 集的候選者。在另一個實施方案中,群是通過測試它們對其它群集的對象 例證的矩心的從屬關(guān)系精練的。結(jié)果是群的隸屬關(guān)系可能改變并 因此產(chǎn)生考慮到產(chǎn)生最相似的對象例證圖像的群的精練。
總體處理
本發(fā)明的方法可能利用總體選才奪和處理。該方法乂人候選者訓(xùn)
練池中以來自該池的關(guān)4建圖像的圖^f象變形距離為基礎(chǔ)選擇小的 圖像子集。
在一個優(yōu)選實施方案中,DCT群間距離被用作決定哪個候選 圖^f象將用來表現(xiàn)群的變異的的方法。
進一步的實施方案將圖像從不同的群投影到不同的PCA空 間,為的是確定剩余圖像的總體隸屬關(guān)系。投影之前是圖像關(guān)于 關(guān)4建總體圖像或總體平均的整體和局部^L范化。
對象編碼
本發(fā)明的 一 個實施方案完成對#皮#r對象例i正的{專立葉子空 間分類,為的是識別用來給該對象例證編碼的一個或多個候選總 體。最接近的匹配總體然后通過與關(guān)鍵總體圖像或總體平均相關(guān) 的圖〗象整體和局部^見范化^皮進一步限定。然后,在確認(rèn)某圖〗象的 總體之時,該規(guī)范化的圖像是使用總體基礎(chǔ)矢量完成拆分和分解
的。由此產(chǎn)生的系邀:按與包含對象的畫面相對應(yīng)的時間的例證#: 分解為與最初的對象相對應(yīng)的系凄史。這些系數(shù)也^皮稱為外^見系數(shù)。
序列;咸少
本發(fā)明的方法有利用分解后系數(shù)的插值進一步減少圖像的
52編碼的方法。時間流被分析,以確定外觀和/或變形參數(shù)的序列是 否有線性的微分。如果是這種情況,那么只有第一個和最后一個 參數(shù)與中間參數(shù)將被線性插值的指示一起被發(fā)送。
樹形總體
本發(fā)明有 一 優(yōu)選的實施方案,其中總體被組織成以式樣矢量 的相似性為基礎(chǔ)分支的從屬樹。樹的"根"是作為總體的主要式 樣建立的。附加的總體式樣被加到樹上并且變成樹的"樹葉,,。 附加的式樣作為從屬物被放到最類似于該式樣的任何 一 個樹節(jié) 點上。這樣,總體式樣是這樣組織的,以致從屬結(jié)構(gòu)是基于相似 性產(chǎn)生的。利用這種結(jié)構(gòu)作為"序列減少"的替代品,提供相同 的方法,其中用差分代替給式樣矢量的序列插值,樹的穿程被用 作時間排序的替代品。
混合空間^L范化壓縮
本發(fā)明通過把拆分4見頻流添加到"規(guī)范化"的一見頻流之中充 分發(fā)揮以區(qū)段為基礎(chǔ)的運動預(yù)測編碼方案的效率。然后,這些視 頻流分開編碼以允"i午傳統(tǒng)的編碼解碼器的平移運動l艮i殳是有歲文 的。在完成規(guī)范化視頻流的解碼之時,纟見頻流解除身見范化,進入 它們適當(dāng)?shù)奈恢貌⑶襘皮組合在一起產(chǎn)生原始的^L頻序列。
在 一 個實施方案中, 一 個或多個對象是在#見頻流中4果測到 的,而與探測到的每個個別對象有關(guān)的象素隨后被拆分,離開非 對象象素。接下來,針對對象象素和非對象象素產(chǎn)生整體空間運 動模型。這個整體模型用來完成對象象素和非對象象素的空間規(guī) 范化。這樣的規(guī)范化已經(jīng)有效地把非平移的運動從視頻流中除去 并且已經(jīng)^是供一組映Y象,這組映^象的相互遮擋經(jīng)纟皮減到最少。這 些是本發(fā)明的方法的兩個有益的特4正。象素已按空間規(guī)范化的對象和非對象的新映像是作為輸入 提供給傳統(tǒng)的以區(qū)段為基礎(chǔ)的壓縮算法的。在給這些映像解碼 時,整體運動4莫型的參凄W皮用來還原失見范化的解碼畫面,對象象 素 一起合成到非對象象素之上,產(chǎn)生最初的 一見頻流的近似。
如圖6所示,先前對一個或多個對象630,650^r測到的對象例 證206,208(圖2)每個都是用傳統(tǒng)視頻壓縮方法632的獨立例證處 理的。此外,乂人對象的拆分230產(chǎn)生的非對象602也是〗吏用傳統(tǒng)的 視頻壓縮632壓縮的。這些獨立的壓縮編石馬632之中每一個的結(jié)果 分別是每個纟見頻流的象素凄t據(jù)的獨立的傳統(tǒng)編碼流634。在某個 點,可能在傳f斬之后,象素凄t據(jù)的這些中間編碼流234凈皮解壓縮 636變成》見范化非對象610和"i午多^見范化對象638,658的合成物。這 些合成后的象素能被解除規(guī)范化640,變成它們各自的已解除規(guī) 范化的版本622,642,662,把這些象素按空間放置在彼此相對正確 的位置,以致合成程序670能把對象象素和非對象象素結(jié)合成完 整的合成畫面672。
在優(yōu)選實施方案中,編碼模式之間的切換是基于諸如PSNR 之類將允許傳統(tǒng)的隨子空間方法改變的統(tǒng)計的變形度量標(biāo)準(zhǔn)完 成的,以1更完成纟見頻畫面的編石馬。
在本發(fā)明的另一個實施方案中,外貌、整體變形和局部變形 的編碼參數(shù)是內(nèi)插的,為的是產(chǎn)生將不必以別的方式編碼的中間 畫面的預(yù)測。該插值方法可以是任4可標(biāo)準(zhǔn)的插<直方法,例如,線 性插值、三次插值、樣條內(nèi)插,等等。
如圖14所示,對象插值方法能通過一 系列用外貌參數(shù)和變形 參數(shù)表達(dá)的規(guī)范化對象1402,1404,1406的插值分析1408實現(xiàn)。該 分才斤1408確定能應(yīng)用4#<直函#:1412的時間范圍1410。然后,該范 圍的規(guī)^各1410能與^見范4b只t象的規(guī)^各1414,1420結(jié)合,以1更近々乂和
54最后合成過渡期間的失見范化對象1416,1418。 其它的實施方案都是預(yù)想的。 混合編碼解碼的整合 [bbp:凄t才居結(jié)構(gòu)和傳llr]
在把傳統(tǒng)的基于區(qū)段的壓縮算法和本發(fā)明描述的規(guī)范化-拆 分方案結(jié)合起來時, 一些本發(fā)明的方法已經(jīng)產(chǎn)生。首先,有專門 的數(shù)據(jù)結(jié)構(gòu)和必要的通信協(xié)議。
主要的數(shù)據(jù)結(jié)構(gòu)包括整體空間變形參數(shù)和對象拆分少見范掩 模。主要的通信協(xié)議是包括傳輸整體空間變形參數(shù)和對象拆分規(guī) 范掩模的各個層面。
漸進的計算環(huán)境《MLW: 一大態(tài)4 }
依照上文,本發(fā)明的以對象為基礎(chǔ)的編碼和視頻數(shù)據(jù)處理的 特定實施方案如下。由眾多或 一 系列 一見頻畫面202,204組成的#見頻 流作為輸入被送到本發(fā)明的系統(tǒng),如圖2所示。對象檢測器206,208 在兩個或多個一見頻畫面202,204之中(之上)才企測至少 一個對象。跟 蹤才莫塊220在多個畫面202,204上識別和跟蹤該^皮4企對象。
該視頻流也用結(jié)構(gòu)模型發(fā)生器進行分析。結(jié)構(gòu)模型發(fā)生器根 據(jù)帶寬消耗、結(jié)構(gòu)和運動分析該視頻流。產(chǎn)生幾種結(jié)構(gòu)的模型。 能進 一 步縮減的結(jié)構(gòu)模型被增強以便包括運動、變形和照明模型。
結(jié)構(gòu)模型用來將視頻畫面202,204的空間區(qū)域分類,使之屬于 一個才莫型或另 一個才莫型。才莫型分配有效地暗示浮見頻流的空間拆分。這是在圖2中舉例說明的,因為拆分程序230將與#皮4企對象相 對應(yīng)的象素數(shù)據(jù)從兩個或多個3見頻畫面202,204的其它象素數(shù)據(jù) 中(按空間和/或按時間)拆分出來。對象象素數(shù)據(jù)232,234產(chǎn)生。
對應(yīng)關(guān)系模型制作器224識別在一個視頻畫面202中被檢對 象的元素(特征)并且識別在第二視頻畫面204中該被檢對象分別 對應(yīng)的元素222。接下來,該對應(yīng)關(guān)系模型制作器224分析已識別
選使用視頻畫面202,204之間的以外觀為基礎(chǔ)的運動評估。已確定 的關(guān)系定義工作對應(yīng)關(guān)系才莫型224。優(yōu)選的是,(用于前面用圖4 討^侖過的整體運動和整體配準(zhǔn)的)多維投射運動才莫型的強健評估 被用來產(chǎn)生對應(yīng)關(guān)系模型224。
此外,本發(fā)明的系統(tǒng)整合已確定的對應(yīng)元素之間的關(guān)系以便 形成被檢對象的整體運動模型。優(yōu)選這是作為規(guī)范化(再次抽樣) 程序240的一部分完成的。規(guī)范化程序240提取有與整體結(jié)構(gòu)、局 部變形、整體運動和姿勢以及照明相關(guān)聯(lián)的任何變化的#見頻畫面 202,204的空間區(qū)域的公因子。剩余的變化被視為被4全對象的"外 觀"。請注意多樣的規(guī)范化平面用來建立外觀模型。
當(dāng)使用最佳的線性技術(shù)建立模型的時候,被檢對象的規(guī)范化 外觀呈現(xiàn)高度線性的特征。這些外觀才莫型是使用(前面討論過的) 適當(dāng)?shù)?、連續(xù)的和"廣義的"PCA產(chǎn)生的,該PCA產(chǎn)生非常緊湊 的對象外^見編碼。優(yōu)選,這種處理是在子波計算環(huán)境內(nèi)完成的; 這將允許以類似于傳統(tǒng)的纟見頻壓縮的方式處理4壬<可復(fù)雜的對象 模型(即,被檢對象的結(jié)構(gòu)模型、外觀模型、運動模型)。
使用已知的用來依據(jù)運動評估結(jié)構(gòu)的4支術(shù)與運動評估相結(jié) 合確定用于結(jié)構(gòu)部分(隨著時間逝去視頻畫面202,204的被檢對象) 的候選結(jié)構(gòu)。這導(dǎo)致定義被檢對象的空間位置和取向并因此^是供結(jié)構(gòu)模型和運動模型。
然后,外觀模型表現(xiàn)未用結(jié)構(gòu)模型和運動模型集體建模的被 檢對象的特征和各個方面。在一個實施方案中,外觀模型是隨著 時間逝去結(jié)構(gòu)變化的線性分解而且是通過vMv結(jié)構(gòu)才莫型中除去整 體運動和局部變形定義的。申請人乂人每個^L頻畫面獲得對象外 觀,并且使用結(jié)構(gòu)模型,向"規(guī)范化姿勢"再次投影。"規(guī)范化 姿勢"也將被稱為一個或多個"主要"姿勢。再次投影表達(dá)對象 的規(guī)范化版本而且產(chǎn)生任何外觀變化。當(dāng)給定的對象在視頻畫面
202,204之間出現(xiàn)轉(zhuǎn)動或空間平移的時候,外觀將被放置在單一主 要姿勢(即,平均的規(guī)范化表達(dá))中。外觀模型也考慮到主要姿勢 的主要變形(例如,崢眼/閉眼,張嘴/閉嘴,等等)。因此,外觀模 型AM(a)是用主要姿勢Pc和主要姿勢Pc的主要變形Ac表達(dá)的,
<formula>formula see original document page 57</formula>此外,關(guān)于外觀和照明建模,圖像處理的永久挑戰(zhàn)之一是在 變動的照明條件下跟蹤對象。在圖像處理中,反差規(guī)范化是給可
動)的圖素亮度值變化建^t的程序。優(yōu)選實施方案評估捕捉映傳^ 的照明條件下^皮;險對象的任意變化(即,給入射到該對象上的照 明建才莫)。這是通過3奪來自Lambertian Reflectance Linear Subspace(朗伯反射系數(shù)線性子空間)(LRLS)理i侖的原則與光學(xué)流 結(jié)合實現(xiàn)的。依照LRLS理-論,當(dāng)對象^皮固定,優(yōu)選只考慮照明 改變的時候,那組反射圖像能用頭九個球形諧波的線性組合近 似;因此該圖像在周圍的"圖^象"矢量空間中接近9D線性子空間。 除此之外,圖像象素(x,y)的反射亮度能被近似地表達(dá)如下。
取力=S <formula>formula see original document page 57</formula><吏用LRLS和光學(xué)流,計算期望<直以確定燈光與3于象如^f可互 動。這些期望值用來限制能解釋光學(xué)流場變化的可能的對象運 動。當(dāng)使用LRLS描述使用照明模型的對象外觀的時候,允許外 觀模型處理可能落在照明模型預(yù)測結(jié)果之外的任何外觀變化仍 然是必要的。
結(jié)構(gòu)模型、運動(變形)模型、照明模型和外觀模型組合被統(tǒng) 稱為"對象模型"。當(dāng)給視頻畫面序列解碼所需的對象模型在傳 輸?shù)?接收器" 一邊不可得的時候,外觀建模退回到完成視頻流 的子波編碼。同時,發(fā)送器和4妻收器建立用一見頻流的子波編碼暗 示的對象模型的有限態(tài)模型。這考慮到隨著視頻流前進來自視頻 流的對象沖莫型的預(yù)測結(jié)果和以對象為基礎(chǔ)的壓縮的才幾會主義應(yīng) 用。
關(guān)于運動(變形)模型,評估運動通常是計算無效的根源和導(dǎo) 出計算的偏差。在特定的實^4方案中,運動評估受運動(變形)才莫 型、結(jié)構(gòu)模型和照明模型限制。這導(dǎo)致逐漸增加的計算效率和準(zhǔn) 確性。LRLSi^艮蹤器^皮用來確定用于每個^L頻畫面202,204的對象 姿勢/位置變化作為對2D(網(wǎng)孔)運動評估的預(yù)測結(jié)果。為了通過姿 勢評估預(yù)測所有象素的運動,反成分算法^皮應(yīng)用于LRLS。
此外,申請人將子波處理從圖#>序列分析擴充到其它空間領(lǐng) 域/矢量的序列。子波表達(dá)使部分處理能增加計算效率。對于外觀 模型,子波處理在本發(fā)明的編碼器中被延伸,以便處理外觀模型 基礎(chǔ)矢量的編碼。該程序使象素在外觀模型中根據(jù)入射的距離和 角度偏向來源照相積^殳影軸線。4妄下來,運動評估用來決定適合 一見頻畫面202某個部分的"結(jié)構(gòu)"。該程序隨著時間逝去3艮蹤那 個結(jié)構(gòu),使所有象素的運動能依據(jù)姿勢、運動和變形的評估含蓄 地預(yù)測。因此,進一步的運動 評估被設(shè)定初值。優(yōu)選,這個結(jié)構(gòu) 是借助上述的LRLS跟蹤器跟蹤的。在一 個優(yōu)選實施方案中,變形(運動)建模和照明建模是在子 波處理里面完成的。壓縮抽樣與照明建;f莫結(jié)合。照明建^f莫用來定 義稀疏的^由樣空間和在到達(dá)優(yōu)化閾值的時4美結(jié)束抽樣程序。當(dāng)前 的凄t據(jù)樣本用來預(yù)測保真度4交高的圖^f象。
對象模型在視頻場景上、獨立的視頻文件上和在接收器節(jié)點 的網(wǎng)絡(luò)上的持久性進一 步呈現(xiàn)用來大大影響憑經(jīng)驗導(dǎo)出對象模 型的能力的機會。這些對象模型的管理在類似模型的鞏固,對象 模型的再次瞄準(zhǔn),復(fù)雜拓樸關(guān)系的確認(rèn),模型的改版、檢索和儲 存方面為更大幅度地提高壓縮和計算效率提供豐富的環(huán)境。
舉例來說,當(dāng)PCA被應(yīng)用于視頻數(shù)據(jù)時候,數(shù)據(jù)的編碼由于 分析的經(jīng)-驗性質(zhì)可能是相當(dāng)緊湊的。這個經(jīng)一驗方面也〗吏用來癥會數(shù) 據(jù)解碼的"模型"變得相當(dāng)大,借此將數(shù)據(jù)存儲量從編碼數(shù)據(jù)"偏 移"到經(jīng)驗?zāi)P?。通過這些模型的連續(xù)分辨,預(yù)測算法能夠產(chǎn)生 經(jīng)騶"漠型而不需要明確地傳輸它們。
此外,當(dāng)目標(biāo)是明確:t也產(chǎn)生在^L頻畫面中出現(xiàn)的對象的結(jié)
構(gòu)、變形、姿勢、運動和照明的非常精確的模型的時候,從視頻 流以經(jīng)-險為主地產(chǎn)生對象才莫型是困難的。另一方面,只要最終目
標(biāo)被限制在原始^L頻流的合成,用這些相同的分析4支術(shù)產(chǎn)生暗示 模型就能產(chǎn)生非常有效的以對象為基礎(chǔ)的壓縮算法。
以對象為基礎(chǔ)的壓縮^皮期望當(dāng)幾個(時常是一個)對象呈現(xiàn) 在3見頻凄t據(jù)中而且該對象和背景顯才莫型可得的時候起最最理想 的作用。通過在子波計算環(huán)境中使用對象的暗示模型的概率表 達(dá),本發(fā)明能"降低,,到相對于傳統(tǒng)壓縮非常有竟?fàn)幜Φ木幋a水平。
最后,許多視頻處理系統(tǒng)嘗試?yán)貌东@照相機的校準(zhǔn)幾何
59學(xué),以便"解釋,,捕獲的視頻數(shù)據(jù)。反之,以視頻流本身為基礎(chǔ) 給虛擬照相機的幾何學(xué)含蓄地建模在壓縮算法的"解釋"能力方 面甚至產(chǎn)生更大的增益。本發(fā)明的壓縮系統(tǒng)和方法能夠過濾大量 的捕獲數(shù)據(jù)而且能夠以"原始的"照相機捕獲能力不提供的空間 和時間分辨率"預(yù)測"凄t據(jù)的抽樣。
以特^正為基礎(chǔ)的壓縮
在其它的改進實施方案中,"密集的"對象模型將與概率公 式組合。這種組合在保真度非常高的模型的使用(在這種情況下 殘留誤差無i侖如何都被傳輸,而且剩余部分的范圍不因保真度增 加超過特定點而發(fā)生重大改變)和從前面討^侖過的對應(yīng)關(guān)系和對 象建才莫(這往往是有噪聲的而且不必要地需要大量的的處理位)獲 得的估計(舉例來說。整體配準(zhǔn)和運動)的 <吏用之間產(chǎn)生妥協(xié)。
簡要地說,從前面討論過的建模算法獲得的對象才莫型為了除 去高頻噪聲被過濾。這種過濾是在三個維度(即,二維網(wǎng)孔空間 平面和整體運動平面)中^f昔助通過凄t據(jù)點的平面擬合完成的。這 是減少對象模型的不必要的變化的聚集方式。紋理被映射到這些
平面上而且誤差^皮計算出來。隨著新的^L頻畫面進來,該i吳差可 能開始增加,因為該平面模型不以足夠的分辨率表現(xiàn)新的映像。 在這個階段,平面的數(shù)目被適當(dāng)?shù)馗淖?。這能在閉環(huán)中進行,直 到誤差落到閾值以下。因此,對象模型僅僅必要時才被逐漸地改 進。這在視頻圖像的重建中以含蓄的方式提供傳輸比特率和失真 之間的折衷。
總的方法是產(chǎn)生低分辨率的對象模型(例如,對應(yīng)關(guān)系和整體 運動才莫型),然后繼續(xù)地精煉它。圖15的方?jīng)_匡圖描述該程序。3艮 蹤和形狀評估1501接受主題^L頻數(shù)據(jù)(例如,^L頻畫面202,204)。 感興趣的圖像對象如同先前描述的那樣被確認(rèn)。在為數(shù)不多的畫面中跟蹤被檢對象的特征點并且建立粗糙的對象模型(對應(yīng)關(guān)系
和整體運動)1510。在一個實施方案中,這個三維才莫型1510是4吏 用上述的因式分解法為剛性對象的3D(空間和運動)模型建造的。
跟蹤和形狀評估模塊1501將粗糙的對象模型1510輸出到平 面近似器1503。因為粗糙的模型1510通常不是非常精確,所以平 面近似器1503使用許多平面近似某對象模型。平面的數(shù)目是從自 適應(yīng)單元1507獲得的。對于平面近似,對象才莫型的群集(^皮表達(dá) 為可變形的網(wǎng)孔模型)是首先完成的。然后,穿過每個群的中心 畫3D平面。這產(chǎn)生該主題對象才莫型的近似值。
在回應(yīng)中,誤差單元1505計算再次才殳影誤差。第一誤差單元 1505把紋理映射到該平面近似上。然后,該紋理映射平面近似4皮 投影到圖像平面上,而且關(guān)于原始圖像的誤差1508被計算出來。 才艮據(jù)再次^L影誤差1508,決定是否需要增加用來表現(xiàn)對象一莫型的 平面凄t目。如果決定增加平面^目,增量^L則是^f昔助自適應(yīng)單元 15074刀始^f匕的(例3口,增力口N)。
最后的輸出是按需要的保真度改進的對象模型。再次投影誤 差計算15 05能用以特定應(yīng)用的需求為基礎(chǔ)的專用模塊代替。舉例 來"i兌,在通信應(yīng)用中,它能以對于有效地表達(dá)凄t據(jù)必不可少的位 數(shù)為基礎(chǔ)。
因此,本發(fā)明的改進實施方案提供下列各項
1. 能根據(jù)應(yīng)用或用戶的需求以不同的分辨率獲得工作對 象模型的3D建模方法。
2. 雖然大多凄t方法試著乂人來源4見頻數(shù)據(jù)得到可能的最好 的對象模型,但是申請者逐漸增加地和自適應(yīng)地精煉該對象才莫型。這與精確的對象建模程序相比計算要少得多。
3. 本發(fā)明的方法不需要預(yù)先的圖像對象知識而且能用于 整個對象、宏模塊或整個場景。
4. 再次投影誤差的計算能在不需要影響本發(fā)明程序(圖15) 的其它步驟的情況下以應(yīng)用為基礎(chǔ)被其它措施代替。
5. 專用判據(jù)能被合并以便決定用于對象模型的平面數(shù)目, 這也是停止判據(jù)。
6. 該程序自動地通過群集程序插入噪音彈性。
圖10舉例說明能實現(xiàn)本發(fā)明的計算才幾網(wǎng)絡(luò)或類似的#t字處 理環(huán)境。
客戶計算機/裝置50和服務(wù)器計算機60提供運行應(yīng)用程序的 處理裝置、存儲裝置和輸入/輸出裝置。客戶計算機/裝置50也能 通過通信網(wǎng)絡(luò)70與其它的計算才幾裝置(包括其它的客戶裝置/程序 50和服務(wù)器計算機60)鏈接。通信網(wǎng)絡(luò)70可能是現(xiàn)在使用各自的 協(xié)議(TCP/IP, Bluetooth,等等)4皮此通信的遠(yuǎn)程存取網(wǎng)絡(luò)、全球 網(wǎng)絡(luò)(例如,英特網(wǎng))、全世界的計算機集合、局域網(wǎng)或廣域網(wǎng)和 網(wǎng)關(guān)的一部分。其它的電子裝置/計算機網(wǎng)絡(luò)體系結(jié)構(gòu)是適當(dāng)?shù)摹?br>
圖11是在圖10的計算機系統(tǒng)中計算機(例如,客戶處理器/裝 置50或服務(wù)器計算機60)的內(nèi)部結(jié)構(gòu)圖。每臺計算機50,60都包含 系統(tǒng)總線79,該總線是一組在計算才幾組成部分或處理系統(tǒng)當(dāng)中用 來傳輸數(shù)據(jù)的硬件線??偩€79本質(zhì)上是把計算機系統(tǒng)的不同元素 (例如,處理器、磁盤存儲器,存儲器、輸入/輸出口、網(wǎng)口,等 等)連接起來準(zhǔn)許傳輸數(shù)據(jù)的共享導(dǎo)線。附著到系統(tǒng)總線79上的 是用來把各種不同的輸入和輸出裝置(例如,4建盤、鼠標(biāo)、顯示器、打印機、揚聲器,等等)與計算機50,60連接起來的輸入/輸 出裝置4妄口82。網(wǎng)結(jié)-接口86允許計算才幾與附著在網(wǎng)絡(luò)(例如,圖 IO的網(wǎng)絡(luò)70)上的各種不同的其它裝置連接。存儲器90為用來實 現(xiàn)本發(fā)明的實施方案(例如,在圖2和其它附圖中前面詳細(xì)說明過 的線性分解、空間拆分、空間的/可變形的網(wǎng)孔A見范化和其它基于 對象的編碼處理)的計算機軟件指令9 2和數(shù)據(jù)9 4準(zhǔn)備易失性存 儲。磁盤存儲器9 5為用來實現(xiàn)本發(fā)明的實施方案的計算機軟件指 令92和數(shù)據(jù)94準(zhǔn)備非易失性存儲。中央處理器84也附著在系統(tǒng)總 線79上并且準(zhǔn)備運行計算機指令。
在一個實施方案中,處理器例行程序92和數(shù)據(jù)94是電腦程序 產(chǎn)品(通常參考數(shù)字為92),包括為本發(fā)明的系統(tǒng)至少準(zhǔn)備一部分 軟件指令的計算才幾易讀的J 某體(例如,可移開的存4諸々某體,例如, 一個或多個DVD-ROM、 CD-ROM、軟盤、 -磁帶,等等)。電腦程 序產(chǎn)品9 2能借助技術(shù)上眾所周知的任何適當(dāng)?shù)能浖惭b程序安 裝。在另一個實施方案中,至少一部分軟件指令也可能是從電纜、 通信和/或無線連4妄上下載的。在其它的實施方案中,本發(fā)明的程 序是在傳播媒體(例如,在英特網(wǎng)之類的全球網(wǎng)絡(luò)或其它網(wǎng)絡(luò)上 傳播的無線電波、紅外波、激光波、音波或電波)上用傳播信號 具體表達(dá)的電腦程序傳播信號產(chǎn)品107。這樣的載體々某體或信號 至少為本發(fā)明的例行程序/程序92準(zhǔn)備一部分軟件指令。
在替代實施方案中,傳播信號是在傳播媒體上運送的模擬載 波或數(shù)字信號。舉例來說,傳播信號可能是在全球網(wǎng)絡(luò)(例如, 英特網(wǎng))、遠(yuǎn)程通^f言網(wǎng)絡(luò)或其'它網(wǎng)絡(luò)上傳^燔的^t字化信號。在一 個實施方案中,傳播信號是在傳播^^某體上遍及某個時間周期傳輸 的信號,例如,在網(wǎng)絡(luò)上按毫秒、秒、數(shù)分鐘或更長的周期打包 發(fā)送的軟件應(yīng)用程序的指令。在另一個實施方案中,電腦程序產(chǎn) 品92的計算機易讀4某體是計算機系統(tǒng)50可能接受和讀出的傳播媒體,例如,通過接受該傳播媒體并且識別在該傳播:煤體上具體 表達(dá)的傳播信號,如同前面針對電腦程序傳播信號產(chǎn)品所描述那樣。
一般地說,術(shù)語"載體媒體"或短暫的載體包括上述的瞬態(tài) 信號、傳播信號、傳播媒體、存儲媒體,等等。
雖然這項發(fā)明已參照其優(yōu)選實施方案^皮具體i也展示和描述, 但是熟悉這項:技術(shù)的人將理解在形式和細(xì)節(jié)方面各種不同的改 變可以在不脫離權(quán)利要求書所嚢括的發(fā)明范圍的情況下完成。
舉例來i兌,不同的計算才幾體系結(jié)構(gòu)是適當(dāng)?shù)?。上述的計算才?網(wǎng)絡(luò)和系統(tǒng)組成部分是為了舉例說明的目的而不是作為限制。
6權(quán)利要求
1. 一種用來處理來自眾多視頻畫面的視頻信號數(shù)據(jù)的計算機實現(xiàn)方法,該方法包括檢測在兩個或多個給定的視頻畫面中的對象,每個視頻畫面都是由象素數(shù)據(jù)構(gòu)成的;通過那兩個或多個視頻畫面跟蹤被檢對象;將與被檢對象相對應(yīng)的象素數(shù)據(jù)與那兩個或多個視頻畫面中的其它象素數(shù)據(jù)分割開來,以便產(chǎn)生該視頻信號數(shù)據(jù)的第一中間形式,該分割利用象素數(shù)據(jù)的空間分割;產(chǎn)生被檢對象的元素對應(yīng)關(guān)系模型,每個對應(yīng)關(guān)系模型使被檢對象在一個視頻畫面中的元素與該被檢對象在另一個視頻畫面中的對應(yīng)元素發(fā)生關(guān)系;以及使用該對應(yīng)關(guān)系模型,使分割后的象素數(shù)據(jù)規(guī)范化,所述的規(guī)范化包括建立被檢對象的整體運動模型和導(dǎo)致對在兩個或多個視頻畫面中與被檢對象相對應(yīng)的象素數(shù)據(jù)再次抽樣,再次抽樣的象素數(shù)據(jù)提供作為輸出規(guī)范化的視頻信號數(shù)據(jù)的以對象為基礎(chǔ)的編碼形式;以對象為基礎(chǔ)的編碼形式能借助下列步驟解碼(i)利用對應(yīng)關(guān)系模型恢復(fù)再次抽樣象素數(shù)據(jù)的空間位置,借此產(chǎn)生與被檢對象相對應(yīng)的恢復(fù)象素;以及(ii)以視頻信號數(shù)據(jù)的第一中間形式將恢復(fù)的象素數(shù)據(jù)與其它象素數(shù)據(jù)再次結(jié)合在一起再次形成最初的視頻畫面;而且其中產(chǎn)生對應(yīng)關(guān)系模型包括評估多維投影運動模型。
2. 根據(jù)權(quán)利要求1的方法,其中產(chǎn)生對應(yīng)關(guān)系模型的步驟包括識別^皮4全對象在^會定的兩個或多個^L頻畫面中的對應(yīng)元素;分沖斤乂于應(yīng)元素產(chǎn)生乂于應(yīng)元素之間的關(guān)系;以及^使用所產(chǎn)生的對應(yīng)元素之間的關(guān)系形成對應(yīng)關(guān)系才莫型;其中分沖斤對應(yīng)元素包括在兩個或多個^L頻畫面之間使用 以外觀為基礎(chǔ)的運動評估。
3. 根據(jù)權(quán)利要求2的方法,其中建立整體運動模型包括將所產(chǎn) 生的對應(yīng)元素之間的關(guān)系整合成整體運動才莫型。
4. 根據(jù)權(quán)利要求1的方法,其中檢測和跟蹤包括使用臉部才企測 算法。
5. 根據(jù)權(quán)利要求l的方法,進一步包括壓縮再次抽樣的象素數(shù) l居,該壓縮包4舌將再次抽樣的象素lt據(jù)分解成編碼表達(dá),截去該編碼表 達(dá)的零或多個字節(jié);以及利用截短的編碼表達(dá)重組再次抽樣的象素數(shù)據(jù);其中分解和重組每個都4吏用主成分分析。
6. 根據(jù)權(quán)利要求l的方法,進一步包括將對應(yīng)關(guān)系模型因素因 式分解成多個整體模型,包括將對應(yīng)元素之間的關(guān)系整合成整體運動模型;將再次抽樣的象素數(shù)據(jù)分解成編碼表達(dá);截掉該編碼表達(dá)的零或多個字節(jié);以及利用截短的編碼表達(dá)重組再次抽樣的象素lt據(jù);其中分解和重組每一個都4吏用主成4分分沖斤;其中產(chǎn)生對應(yīng)關(guān)系才莫型包括 使用以兩個或多個3見頻畫面之間基于區(qū)#殳的運動評估所產(chǎn)生的有限差分為基礎(chǔ)的抽樣 總體來分析對應(yīng)的元素。
7. 根據(jù)權(quán)利要求6的方法,其中兩個或多個視頻畫面每個都有 對象象素和非對象象素,該方法進一步包括識別在兩個或多個視J貞畫面中非乂寸象象素的只于應(yīng)元素;分析非對象象素中的對應(yīng)元素和產(chǎn)生非對象象素的對應(yīng) 元素之間的關(guān)系;以及4吏用所產(chǎn)生的非對象象素的對應(yīng)元素之間的關(guān)系形成第 二對應(yīng)關(guān)系模型;其中分析非對象象素的對應(yīng)元素的步驟-使用基于時間的 遮擋濾波器。
8. 根據(jù)權(quán)利要求l的方法,進一步包括將對應(yīng)關(guān)系模型因式分解成整體變形模型;將對應(yīng)元素之間的關(guān)系整合成整體運動才莫型;將再次抽樣的象素數(shù)據(jù)分解成編碼表達(dá),截4卓該編碼表 達(dá)的零或多個字節(jié);以及依據(jù)截短的編碼表達(dá)重組再次抽樣的象素數(shù)據(jù);其中分解和重組每個都Y吏用傳統(tǒng)的浮見頻壓縮/解壓縮禾呈 序;而且其中產(chǎn)生乂十應(yīng)關(guān)系才莫型包括 使用以兩個或多個朝L頻畫面 之間基于區(qū)段的運動評估所產(chǎn)生的有限差分為基礎(chǔ)的抽樣 總體來分析對應(yīng)的元素。
9. 根據(jù)權(quán)利要求l的方法,其中規(guī)范化步驟借助下列步驟將對 應(yīng)關(guān)系模型因式分解成局部變形模型定義覆蓋與被檢對象相對應(yīng)的象素數(shù)據(jù)的二維網(wǎng)孔,該 網(wǎng)孑L以有頂點和邊纟彖的^見則4冊格為基礎(chǔ);以及依據(jù)對應(yīng)元素之間的關(guān)系創(chuàng)造局部運動模型,該關(guān)系包 括以依據(jù)兩個或多個視頻畫面之間基于區(qū)段的運動評估所 產(chǎn)生的有限差分為基礎(chǔ)的頂點位移。
10. 根據(jù)權(quán)利要求9的方法,其中頂點與離散的圖像特征相對應(yīng), 定義二維網(wǎng)孔的步驟以對象在視頻畫面中的圖像亮度梯度 為基礎(chǔ)進一 步識別與被;險對象相對應(yīng)的重要圖 <象特4正。
11. 根據(jù)權(quán)利要求9的方法,其中所創(chuàng)造的局部運動模型以不能 用整體運動模型近似的剩余運動為基礎(chǔ)。
12. —種依據(jù)眾多#見頻畫面產(chǎn)生視頻信號數(shù)據(jù)的編碼形式的計 算才幾實3見方法,該方法包4舌在眾多 一見頻畫面中的兩個或多個^L頻畫面中才全測乂寸象, 每個一見頻畫面都是由象素ft據(jù)構(gòu)成的;通過兩個或多個纟見頻畫面3艮蹤#皮4全對象,該#皮纟企對象有 一個或多個元素;對于在一個#見頻畫面中被4全對象的元素,識別在其它牙見 頻畫面中^皮才全對象的對應(yīng)元素;分才斤該只于應(yīng)元素以產(chǎn)生對應(yīng)元素之間的關(guān)系;使用所產(chǎn)生的對應(yīng)元素之間的關(guān)系形成用于該一皮4全對象 的對應(yīng)關(guān)系模型;利用所形成的對應(yīng)關(guān)系才莫型和可變形的網(wǎng)孔4吏在兩個或 多個4見頻畫面中與祐:才全對象相對應(yīng)的象素凄t據(jù)^見范化,所述的頭見范化產(chǎn)生表現(xiàn)一見頻信號數(shù)據(jù)的以對象為基礎(chǔ)的編碼形式的再次^由沖羊象素凄t據(jù);以及呈遞該頻信號tt據(jù)的基于對象的編碼形式供以后^f吏用, 該基于對象的編碼形式準(zhǔn)許利用對應(yīng)關(guān)系模型恢復(fù)再次抽 樣象素數(shù)據(jù)的空間位置和產(chǎn)生恢復(fù)后的被檢對象象素數(shù)據(jù);其中檢測和跟蹤都包括使用Viola/Jones臉部4企測算法和 主成分分析中的任何一項或組合。
13. 根據(jù)權(quán)利要求12的方法,進一步包括在兩個或多個3見頻畫面中^!奪與^皮^r^f象相對應(yīng)的象素翁: 據(jù)與其它的象素數(shù)據(jù)分割開,從而導(dǎo)致該視頻信號tt據(jù)的第 一中間形式,該分割利用時間整合;而且該基于對象的編碼形式進一步準(zhǔn)許將恢復(fù)的象素lt據(jù)與 該-現(xiàn)頻信號凄t據(jù)的第 一 中間形式的一部分重新組合在一起 再次產(chǎn)生最#刀的^見步貞畫面。
14. 根據(jù)權(quán)利要求12的方法,進一步包括通過將所產(chǎn)生的對應(yīng) 元素之間的關(guān)系整合成整體運動模型將對應(yīng)關(guān)系模型因式 分解成整體^t型的步驟;其中形成對應(yīng)關(guān)系模型的步驟使用適合求解二維仿射 運動沖莫型的強健的抽樣共識,而分4斤對應(yīng)元素的步艱M吏用以 依據(jù)兩個或多個 一見頻畫面之間的基于區(qū)l殳的運動;平估產(chǎn)生 的有限差分為基礎(chǔ)的抽樣總體。
15. 4艮據(jù)權(quán)利要求12的方法,進一步包括通過下列步-驟壓縮再 次抽樣的象素數(shù)據(jù)將再次抽樣的象素數(shù)據(jù)分解成編碼表達(dá), 截掉該編碼表達(dá)的零或多個字節(jié),以及利用截短的編碼表達(dá)重組再次抽樣的象素數(shù)據(jù); 其中分解和重組都4吏用主成分分坤斤。
16. 4艮據(jù)權(quán)利要求12的方法,進一步包括通過下列步驟將對應(yīng) 關(guān)系模型因式分解成整體變形模型將所產(chǎn)生的對應(yīng)元素之間的關(guān)系整合成整體運動才莫型,將再次抽樣的象素數(shù)據(jù)分解成編碼表達(dá),截掉編碼表達(dá)的零或多個字節(jié),以及利用截短的編碼表達(dá)重組再次抽樣的象素數(shù)據(jù);其中分解和重組都4吏用主成分分4斤;形成對應(yīng)關(guān)系模型的步驟使用適合求解二維仿射運動模 型的強健的^由才羊共識,而分析對應(yīng)元素的步駛《使用以,人兩個 或多個視頻畫面之間的基于區(qū)段的運動評估中產(chǎn)生的有限 差分為基礎(chǔ)的抽樣總體。
17. 根據(jù)權(quán)利要求16的方法,其中兩個或多個一見頻畫面之中的 每個畫面都包^l舌對象象素婆t據(jù)和非對象象素^:據(jù),該方法進 一步包括識別在兩個或多個3見頻畫面中非對象象素凄史據(jù)的乂寸應(yīng)元素;分析非對象象素數(shù)據(jù)的對應(yīng)元素產(chǎn)生非對象象素數(shù)據(jù)中 只于應(yīng)元素之間的關(guān)系;使用非對象象素數(shù)據(jù)中對應(yīng)元素之間的關(guān)系產(chǎn)生第二對 應(yīng)關(guān)系模型;其中分析非對象象素凄史據(jù)中的對應(yīng)元素包括以時間為基 礎(chǔ)的遮擋濾波器。
18. 根據(jù)權(quán)利要求12的方法,進一步包括將對應(yīng)關(guān)系模型因式分解成整體變形模型;將對應(yīng)元素之間的關(guān)系整合成整體運動模型;將再次抽樣的象素lt據(jù)分解成編碼表達(dá),截掉編碼表達(dá) 的零或多個字節(jié);以及利用截短的編碼表達(dá)重組再次抽樣的象素數(shù)據(jù);其中分解和重組都4吏用傳統(tǒng)的#見頻壓縮/解壓縮處理;其中形成對應(yīng)關(guān)系模型使用適合求解二維仿射運動模型 的強健的抽樣共識,而且其中分4斤對應(yīng)元素4吏用以/人兩個或多個一見頻畫面之間的 基于區(qū)段的運動評估中所產(chǎn)生的有限差分為基礎(chǔ)的抽樣總體。
19. 根據(jù)權(quán)利要求12的方法,進一步包括將對應(yīng)關(guān)系模型因式 分解成局部變形模型,包括定義覆蓋與^皮;險對象相對應(yīng)的象素的二維網(wǎng)孔,該網(wǎng)孔 以有頂點和邊緣的A見則一冊才各為基礎(chǔ);以及利用對應(yīng)元素之間的關(guān)系產(chǎn)生局部運動才莫型,該關(guān)系包 4舌以依才居兩個或多個^L步頁畫面之間的以區(qū),炎為基石出的運動 評估所產(chǎn)生的有限差分為基礎(chǔ)的頂點位移。
20. 根據(jù)權(quán)利要求19的方法,其中頂點與離散的圖像特征相對 應(yīng),該方法包括通過使用圖像梯度Harris響應(yīng)分析識別與被 才企對象相對應(yīng)的重要的圖^f象特征。
21. 根據(jù)權(quán)利要求19的方法,其中所產(chǎn)生的局部運動模型以不 能用整體運動模型近似的剩余運動為基礎(chǔ)。
全文摘要
這項發(fā)明描述用來處理視頻數(shù)據(jù)的裝置和方法。本發(fā)明提供一種視頻數(shù)據(jù)的表達(dá),該數(shù)據(jù)表達(dá)能用來評定數(shù)據(jù)與用于數(shù)據(jù)的特定參數(shù)表達(dá)的擬合模型之間的一致性。這允許比較不同的參數(shù)化技術(shù)和選擇適合該特定數(shù)據(jù)的連續(xù)視頻處理的最佳技術(shù)。該表達(dá)能以中間形式作為較大程序的一部分或作為反饋機制被用于處理視頻數(shù)據(jù)。當(dāng)以它的中間形式被利用的時候,本發(fā)明能被用于視頻數(shù)據(jù)的儲存、增強、提煉、特征提取、壓縮、編碼和傳輸?shù)某绦?。本發(fā)明可用來以強健有效的方式提取顯著的信息,同時確定通常與視頻數(shù)據(jù)來源相關(guān)聯(lián)的問題的地址。
文檔編號H04N7/26GK101536525SQ200780025671
公開日2009年9月16日 申請日期2007年6月7日 優(yōu)先權(quán)日2006年6月8日
發(fā)明者查爾斯·保羅·佩斯 申請人:歐幾里得發(fā)現(xiàn)有限責(zé)任公司