專利名稱:基于區(qū)域多重選擇的視頻運動對象分割提取方法
技術領域:
本發(fā)明屬于信息處理的視頻分析領域,涉及MPEG-4視頻編碼國際標準中基于內(nèi)容的編碼和對象交互式操作,具體涉及一種基于區(qū)域多重選擇的視頻運動對象分割提取方法。
背景技術:
隨著多媒體技術的發(fā)展,人們對多媒體信息的需求也從簡單的播放要求轉向基于內(nèi)容的訪問、檢索和操作,傳輸碼流應能適應不同的網(wǎng)絡環(huán)境和各種終端。為此,MPEG組織制定了MPEG-4標準,它實質上是一個廣泛適用的多媒體數(shù)據(jù)壓縮編解碼框架,主要規(guī)定了基于對象的編解碼與操作、分級編解碼功能、傳輸碼流格式、誤碼檢錯和糾錯功能等。MPEG-4采納了基于對象的編碼技術,引入了VO(Video Object)的概念,它是視頻場景中具有語義的某個物體,具有生命周期,由時間上連續(xù)的許多幀構成。基于對象的編碼是MPEG-4的一個重要特點,它要求對圖像和視頻(自然的或合成的)作更多的分析,甚至是理解。對象區(qū)域代表了視頻視序列中的重要信息,是需要與其它部分的信息區(qū)別對待的。例如,將視頻對象分為運動物體對象和靜止不動的背景對象,通過對各個對象其重要性程度的不同采用不同的壓縮方法和壓縮比,從而在一定碼率的要求下可提供更好的圖像質量。MPEG-4的另一個重要特點是提供了基于對象的交互功能,用戶能夠訪問(搜索和瀏覽)和操作(剪貼、移動)一個場景中的各個對象。
基于對象的編碼和交互首先需要分割提取出視頻圖象中的各個對象,盡管MPEG-4的框架已經(jīng)制定,但是最為關鍵的對象分割問題卻一直未得到較好的解決,為了推動MPEG-4標準的廣泛應用,基于對象的分割技術目前已成為一個研究的熱點,現(xiàn)有的研究可分為兩類方法,第一類為只需設置幾個參數(shù)的自動分割方法,其基本原理是根據(jù)對象的運動信息和空間關聯(lián)性,建立一定的數(shù)學模型,進行對象的提取,特點是分割過程不需要人工參與,速度較快,但精度較低;第二類方法是需人機交互的半自動分割方法,其基本原理是在分割開始后需指定初始對象倫廓,然后進行對象跟蹤,主要特點是分割過程需人工參與,分割精度較高,但分割過程增加的用戶負擔,耗時較多。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供基于區(qū)域多重選擇的視頻運動對象分割提取方法,即一種能準確提取視頻對象的自動視頻分割方法,以較好解決上述現(xiàn)有技術所存在的缺陷,具有分割速度快、精度高的特點。為達到上述目的,本發(fā)明的構思如下如前所述,視頻場景按其所包含的內(nèi)容一般可分為兩個大的部分運動對象和靜止背景,這兩個部分按其像素值的變化情況又可劃分為很多小的區(qū)域。如果我們在不知道對象區(qū)域和背景區(qū)域的情況下,通過幀內(nèi)空間分割,得到一些小的同質區(qū)域,然后根據(jù)序列的時空信息,通過區(qū)域分類和選擇的方式得到對象區(qū)域,原則上就可實現(xiàn)視頻對象的分割。
但由于序列中的對象運動情況是非常復雜的,比如對象在運動過程中會出現(xiàn)某一部分局部停止的現(xiàn)象,這很難通過運動檢測到這部分區(qū)域;同時由于噪聲的影響,有些靜止的背景區(qū)域很有被檢測為運動區(qū)域,另外,由于背景與運動對象的相互遮擋,也有可能造成各種誤分割現(xiàn)象。以上所有這些問題的存在,使得僅僅依靠某種單一的方法得到準確的視頻對象十分困難。因此,本發(fā)明以基于區(qū)域的多重選擇方式來有效地減少這些問題的影響。
根據(jù)上述構思,本發(fā)明采用的技術方案如下一種基于區(qū)域多重選擇的視頻運動對象分割提取方法。其步驟如下(1)當前幀輸入,對當前幀進行區(qū)域劃分,得到基于區(qū)域的空間圖;(2)前幀或后幀輸入,進行跳幀窗口差分運動信息計算,計算出當前象素的運動信息;(3)依據(jù)幀間運動信息進行區(qū)域初始分類選擇,區(qū)域內(nèi)運動象素點較多的確定為對象區(qū)域,運動點非常少的為背景區(qū)域,而介于其中間的區(qū)域為候選區(qū)域;(4)對候選區(qū)域,建立時空區(qū)域能量模型,進一步確定候選區(qū)域的歸屬;(5)對所得到的對象區(qū)域,進行梯度補充、馬爾可夫模型及區(qū)域標記后處理,得到完整的對象掩模,通過映射,獲得運動的視頻對象。
上述的當前幀區(qū)域劃分方法是在視頻序列當前輸入幀內(nèi)利用象素亮度值,把亮度接近的象素劃分為相同的區(qū)域,不需要事先確定區(qū)域類數(shù),劃分時以當前像素的部分鄰域為主要參考,所有象素僅遍歷一次即可完成區(qū)域劃分。其步驟如下a初始區(qū)域的確定及分割區(qū)域閾值若Ik(x,y)為序列第k幀,(x,y)為圖象的行列坐標;確定象素Ik(1,1)為第一個區(qū)域的第一個象素;區(qū)域之間的閾值T根據(jù)人眼的視覺特性獲得;b當前象素的區(qū)域確定方法對象素Ik(x,y),可以計算其與已8-鄰域象素區(qū)域均值的絕對差值最小值,如小于閾值T,歸為同一區(qū)域,否則標記為新的區(qū)域;c區(qū)域均值的計算區(qū)域每加入一個新的象素,要重新計算其區(qū)域均值,并對當前象素進行相同的標記。
上述的跳幀窗口差分運動信息計算是在連繼兩幀中計算,隔一幀或幾幀進行計算;然后用鄰域求和的方法計算當前象素的運動信息。
上述的建立時空區(qū)域能量模型是以時空能量判斷候選區(qū)歸屬,步驟如下a區(qū)域能量模型區(qū)域能量模型由時間和空間兩部分構成,時間能量以其運動信息成正比,而空間能量由其相鄰區(qū)域的特征構成;空間能量的產(chǎn)生原則如下如果相鄰區(qū)域為背景,空間能量減少,相鄰區(qū)域為對象,空間能量增加,其它情況能量保持不變,。
b區(qū)域細分對區(qū)域能量進行歸一化,能量大的區(qū)域劃歸為對象區(qū),能量小的劃歸為背景區(qū)。
上述的區(qū)域分類后處理步驟為a對象區(qū)的梯度補充進行區(qū)域劃分時,因利用的是區(qū)域均值,為避免對一些緩變區(qū)域因可能的錯誤分割所造成的對象區(qū)缺失,可利用幀內(nèi)圖象梯度模值二值化后取其運動部分,添加到對象區(qū)域;b用馬爾可夫模型處理噪聲及邊緣以初始標記場和觀察場為對象區(qū)二值化模板,經(jīng)迭代模式(ICM)一般迭代3-5次即可去除噪聲和修正邊緣;c用區(qū)域標記法進行處理內(nèi)部空洞對一些較大的內(nèi)部空洞,可對所有被標記為背景的區(qū)域重新標記,而對區(qū)域像素數(shù)較少的區(qū)域標記為對象區(qū)域。
下面對上述內(nèi)容作進一步詳細說明1.幀內(nèi)圖象區(qū)域劃分。幀內(nèi)圖象的分割以區(qū)域增長為基本框架,不需要事先確定區(qū)域類數(shù),分割準則為a確定區(qū)域分割閾值為T1,第k幀首像素Ik(1,1)為第一個區(qū)域。
b對于Ik(x,y)當前象素的值,其8鄰域中已確定區(qū)域的象素為左象素Ik(x,y-1)、左上像素Ik(x-1,y-1)、上象素Ik(x-1,y)、右上象素Ik(x-1,y+1)可以通過下式計算其絕對差值的最小值dmin=min[abs[I(x,y)-I(x,y-1),I(x,y)-I(x-1,y-1),I(x,y)-I(x-1,y),I(x,y)-I(x-1,y+1)]] (1)如果dmin<T1,Ik(x,y)歸為dmin所在的區(qū)域,否則重新開始新的區(qū)域。
c為了使結果更為精確,用各自的區(qū)域均值代替鄰域象素值。
d對所有象素都按(b)進行計算2.跳幀窗口運動信息的計算。為了減少運算的復雜度,運動信息計算采用跳幀窗口差分法,a計算幀差圖象dk(x,y)=Ik+n(x,y)-Ik(x,y)(2)一般情況下,n取1,但對于某些對象運動速度較慢的序列,n可取3-5。
b為了更準確的檢測運動信息,可取差分圖象8-鄰域(3×3的窗口)的和為當前像素的值Dk(x,y)=18Σ(i,j)∈Ndk(i,j)----(3)]]>N為(x,y)的鄰域。
c對幀差圖象進行二值化,圖象中用0表示背景,1表示對象。二值化后的圖象稱為掩模,閾值T2的選取采用高階統(tǒng)計量法。
3.區(qū)域的初始分割。區(qū)域的初始分割以MASK1為基礎,計算每個區(qū)域的運動像素數(shù),并進行歸一化。
ρi=nimi----(5)]]>mi為第i個區(qū)域內(nèi)總的象素數(shù),ni為區(qū)域內(nèi)運動變化的象素數(shù)(區(qū)域對應在MASK1值為1的象素數(shù))。如果ρi>0.8,說明區(qū)域i有80%的象素由于運動而發(fā)生了變化,判定該區(qū)域為運動對象區(qū)域。同理,ρi<0.2,說明該區(qū)域內(nèi)僅有少于20%的象素因運動而發(fā)生了運動變化,可判定該區(qū)域為靜止背景區(qū)域。由于運動而引起的遮擋現(xiàn)象,以及噪聲的影響,以幀差圖象來表示運動并不準確,因此,對于0.2<ρi<0.8的區(qū)域,并不能進行準確的判別,可暫時把這部分區(qū)域歸為候選區(qū)域,以便做進一步的選擇判斷。
4.候選區(qū)域的劃分。對于候選區(qū)的判別,可依據(jù)區(qū)域時空能量模型來進行。
定義第i個候選區(qū)域的時間能量為Etemporali=Σ(x,y)∈MiMASK1i(x,y)----(6)]]>Mi為第i個區(qū)域的定義域。
定義空間能量為Espatiali=Σ(x,y)∈MiV(x,y)----(7)]]>V(x,y)為象素(x,y)的空間能量,由下式計算 n(x,y)為象素(x,y)的4鄰域,B為背景區(qū),M為運動對象區(qū),C為候選區(qū)。當鄰域中多個區(qū)域共存時,可按(8)式所示的B、M、C優(yōu)先順序進行。
根據(jù)時空兩個分量的能量,可以計算總的能量,為了便于在不同大小的區(qū)域之間進行比較,對總能量進行歸一化Etotali=12N(Etemporali+Espatiali)----(9)]]>N為區(qū)域總象素數(shù),當Etotali>T3時,該區(qū)域為對象區(qū)域,否則為背景區(qū)域,T3為能量閾值。這樣就可以得到反映背景區(qū)與運動對象區(qū)域的掩模 5.運動對象邊界的梯度補充。對一些象素緩變區(qū)域,空間區(qū)域分割法并不總是能夠有效的分割,從而可能造成某些運動對象邊界或區(qū)域的缺失,對這種情況可以用梯度法補充。首先根據(jù)下式求得梯度值grad(x,y)=(dI(x,y)/dx)2+(dI(x,y)/dy)2----(11)]]>對grad用閾值T4進行二值化 通過下式,可以得到新的梯度補充掩模
MASK4=(MASK3×MASK1)+MASK2(13)式中的運算符為邏輯運算符號。
6.馬爾可夫處理。雖然基于區(qū)域的處理過程能夠去除大部分噪聲的影響,但還是會有一部分噪聲影響最后的結果。反映在從(13)式中得到的掩模MASK4中包含有一些小的噪聲區(qū)域,且對象邊緣不夠光滑。為了解決這個問題,建立基于馬爾可夫(MRF)和吉布斯(Gibbs)分布的二維離散隨機場Z的模型p(Z)=1QΣωe-U(Z)/Tδ(Z-ω)----(14)]]>其中,ω表示隨機場Z的狀態(tài),δ(·)表示狄拉克函數(shù);T是用于控制分布的尖峰;Q是歸一化因子,由下式給出Q=Σωe-U(Z=ω)/T----(15)]]>U(Z)表示吉布斯勢能,定義為U(Z)=ΣC∈CIVC(Z)----(16)]]>VC(Z)稱為基團勢能,它的值只依賴于Z(X)X∈C(鄰域)。
式(14)的吉布斯隨機場概率分布p(Z)是一個聯(lián)合概率分布,所有可能的狀態(tài)都具有非零的概率,且每個特定點X的局部條件概率Z(X)僅僅依賴于該點的鄰域內(nèi)的隨機場分布。U(Z)為隨機場Z的勢能函數(shù),U(ω)越小,則隨機場Z處于狀態(tài)ω的概率就越大。
為了得到最大的標記概率,勢能U(Z)為最小值。定義ω=1表示該隨機點的狀態(tài)為對象,ω=0表示隨機點的狀態(tài)為背景。定義 式中(m,n)為(i,j)的二階鄰域。把MASK4作為隨機場Z的初始狀態(tài)場,象素點(i,j)標記為不同的狀態(tài),分別用(16)、(17)計算其勢能,能量小的標記狀態(tài)保留。從(17)式可以看出,當前象素點與鄰域點有不同的標記狀態(tài)的,能量值較大,為了得到較小能量,原有的標記會被改變。噪聲是突變點,在大多數(shù)情況下與鄰域點有不同的標記,其標記會被周圍點“淹沒”。同理,不光滑的邊緣會被其鄰域“趨同”而變得光滑。一般情況下,初始狀態(tài)場MASK4經(jīng)過上述步驟重復計算3-5次即可得到穩(wěn)定的標記場MASK5。
7.內(nèi)部小區(qū)域的標記處理。在某些運動變化較慢的序列中,對象區(qū)域內(nèi)部的局部區(qū)域會出現(xiàn)暫時停滯現(xiàn)象,雖然在運動檢測中采用了一些補償措施,但還不能完全消除。這種現(xiàn)象表現(xiàn)在由上一步驟得到的掩模MASK5內(nèi)部有一些較大的空洞(值為零的區(qū)域)??梢詫ASK5中所有值為零的區(qū)域以8鄰接方式重新進行標記,然后對像素數(shù)較小的區(qū)域置為1,得到完整的掩模MASK6。將MASK6通過簡單映射的方式就可以得到所需的對象。
本發(fā)明的特點與效果本發(fā)明提出了一種基于區(qū)域多重選擇的視頻運動對象分割提取方法。本方法重點考慮了分割的準確性,同時盡可能地降低運算復雜度和提高穩(wěn)健性。本方法無需人機交互,只需設定閾值參數(shù)T1-T4,就可從具有復雜運動的視頻序列中分割提取出視頻對象。適用于基于MPEG-4的面向對象和交互性的視頻,基于MPEG-7的視頻數(shù)據(jù)庫檢索和具有視頻對象提取功能的智能監(jiān)控系統(tǒng)等。
圖1是本發(fā)明的視頻運動對象分割提取方法程序框圖。
圖2是Mother&daughter序列第一幀分割過程圖。
其中(a)圖為原始序列第一幀,(b)圖為空間區(qū)域分割圖,(c)圖為區(qū)域均值圖,(d)圖為原始序列第五幀,(e)圖為直接差分圖,(f)圖為改進的差分圖,(g)圖為區(qū)域初始分類圖,(h)圖為區(qū)域時空能量選擇圖,(i)圖為空間梯度圖(j)圖為梯度補充圖,(k)圖為馬爾可夫處理圖,(l)圖為小區(qū)域標記處理圖 (m)圖為掩模映射結果圖。
圖3 Mother&daughter序列各個典型幀的分割結果圖。
其中(a)圖為原始序列第10幀圖,(b)圖為原始序列第20幀圖,(c)圖為原始序列第50幀圖,(d)圖為第10幀分割結果圖,(e)圖為第20幀分割結果圖,(f)圖為第50幀分割結果圖。
圖4 Akiyo序列各個典型幀的分割結果圖。
其中(a)圖為原始序列第10幀圖,(b)圖為原始序列第30幀圖,(c)圖為原始序列第80幀圖,(d)圖為第10幀分割結果圖,(e)圖為第30幀分割結果圖,(f)圖為第80幀分割結果圖。
具體實施例方式本發(fā)明的實施例按圖1所示程序框圖,在MATLAB測試平臺上編程實現(xiàn),以圖2、圖3和圖4示出仿真結果。
以下結合附圖描述本發(fā)明的實施例。
Mother&daughter序列是一個標準的測試序列,其分割過程具有一定的典型性,用其作例子能較好地說明問題。圖1顯示該序列第一幀的具體分割過程,其實施步驟詳述如下①對原始圖象第一幀,首先進行閾值為20的空間區(qū)域分割。(b)為以邊界線表示的區(qū)域分割圖,(c)為以區(qū)域均值表示的區(qū)域圖。
②進行跳幀差分。圖(e)為對第一幀和第五幀直接進行差分后的二值化圖,圖(f)為用窗口技術改進后的差分圖,二值化閾值分別為3和15。
③根據(jù)得到的運動信息,對區(qū)域進行初始分類選擇。(g)為初始分類圖,黑色為背景區(qū),白色為確定的對象區(qū),灰色為候選區(qū)。
④用時空能量模型對候選區(qū)進一步選擇,能量大的保留為對象區(qū),小的為背景區(qū)。劃分閾值為0.2。圖(h)為能量選擇后的結果圖,可以看出,經(jīng)能量選擇分割后僅有少部分邊緣出現(xiàn)了漏分和不整齊現(xiàn)象。
⑤對上述漏分的邊界進行梯度補充。圖(i)為空間梯度二值化圖,圖(j)為梯度補充后的掩模圖,邊界區(qū)域的缺失已得到了修復。
⑥對出現(xiàn)的噪聲用馬爾可夫模型進行處理,圖(k)為用二階鄰域模型迭代2次后的圖,噪聲的影響已完全消除。
⑦對一些較大的內(nèi)部空洞區(qū)域,用標記的方法進行去除,圖(l)為最終的掩模圖,(m)為映射后得到的結果圖,運動的對象已完全從背景中分離出來。
本發(fā)明的具體實例圖3和圖4為本發(fā)明的兩個具體實例,為了說明效果,圖中上半部分給出了原始序列,下半部分為用區(qū)域選擇技術分割的對應結果??梢钥闯?,本發(fā)明十分有效,分割的運動對象完整而準確,能夠滿足基于內(nèi)容的編碼和交互式操作。
權利要求
1.一種基于區(qū)域多重選擇的視頻運動對象分割提取方法,其特征步驟如下a.當前幀輸入,對當前幀進行區(qū)域劃分,得到基于區(qū)域的空間圖;b.前幀或后幀輸入,進行跳幀窗口差分運動信息計算,計算出當前象素的運動信息;c.依據(jù)幀間運動信息進行區(qū)域初始分類選擇,區(qū)域內(nèi)運動象素點較多的確定為對象區(qū)域,運動點非常少的為背景區(qū)域,而介于其中間的區(qū)域為候選區(qū)域;d.對候選區(qū)域,建立時空區(qū)域能量模型,進一步確定候選區(qū)域的歸屬;e.對所得到的對象區(qū)域,進行梯度補充、馬爾可夫模型及區(qū)域標記后處理,得到完整的對象掩模,通過映射,獲得運動的視頻對象。
2.根據(jù)權利要求1所述的基于區(qū)域多重選擇的視頻運動對象分割提取方法,其特征在于當前幀區(qū)域劃分方法是在視頻序列當前輸入幀內(nèi)利用象素亮度值,把亮度接近的象素劃分為相同的區(qū)域,不需要事先確定區(qū)域類數(shù),劃分時以當前像素的部分鄰域為主要參考,所有象素僅遍歷一次即可完成區(qū)域劃分。其步驟如下a.初始區(qū)域的確定及分割區(qū)域閾值若Ik(x,y)為序列第k幀,(x,y)為圖象的行列坐標;確定象素Ik(1,1)為第一個區(qū)域的第一個象素;區(qū)域之間的閾值T根據(jù)人眼的視覺特性獲得;b.當前象素的區(qū)域確定方法對象素Ik(x,y),可以計算其與已8-鄰域象素區(qū)域均值的絕對差值最小值,如小于閾值T,歸為同一區(qū)域,否則標記為新的區(qū)域;c.區(qū)域均值的計算區(qū)域每加入一個新的象素,要重新計算其區(qū)域均值,并對當前象素進行相同的標記。
3.根據(jù)權利要求1所述的基于區(qū)域多重選擇的視頻運動對象分割提取方法,其特征在于先用跳幀的方法計算幀間差分,即差分不是在連繼兩幀中計算,隔一幀或幾幀進行計算;然后用鄰域求和的方法計算當前象素的運動信息。
4.根據(jù)權利要求1所述的基于區(qū)域多重選擇的視頻運動對象分割提取方法,其特征在于建立時空能量模型,判斷候選區(qū)歸屬的步驟如下a.區(qū)域能量模型區(qū)域能量模型由時間和空間兩部分構成,時間能量以其運動信息成正比,而空間能量由其相鄰區(qū)域的特征構成;空間能量的產(chǎn)生原則如下如果相鄰區(qū)域為背景,空間能量減少,相鄰區(qū)域為對象,空間能量增加,其它情況能量保持不變,。b.區(qū)域細分對區(qū)域能量進行歸一化,能量大的區(qū)域劃歸為對象區(qū),能量小的劃歸為背景區(qū)。
5.根據(jù)權利要求1所述的基于區(qū)域多重選擇的視頻運動對象分割提取方法,其特征在于區(qū)域分類后的處理步驟為a.對象區(qū)的梯度補充進行區(qū)域劃分時,因利用的是區(qū)域均值,為避免對一些緩變區(qū)域因可能的錯誤分割所造成的對象區(qū)缺失,可利用幀內(nèi)圖象梯度模值二值化后取其運動部分,添加到對象區(qū)域;b.用馬爾可夫模型處理噪聲及邊緣以初始標記場和觀察場為對象區(qū)二值化模板,經(jīng)迭代模式(ICM)一般迭代3-5次即可去除噪聲和修正邊緣;c.用區(qū)域標記法進行處理內(nèi)部空洞對一些較大的內(nèi)部空洞,可對所有被標記為背景的區(qū)域重新標記,而對區(qū)域像素數(shù)較少的區(qū)域標記為對象區(qū)域。
全文摘要
本發(fā)明涉及一種基于區(qū)域多重選擇的視頻運動對象分割提取方法。其步驟如下(1)當前幀輸入,對當前幀進行區(qū)域劃分,得到基于區(qū)域的空間圖;(2)前幀或后幀輸入,進行跳幀窗口差分運動信息計算,計算出當前象素的運動信息;(3)依據(jù)幀間運動信息進行區(qū)域初始分類選擇,區(qū)域內(nèi)運動象素點較多的確定為對象區(qū)域,運動點非常少的為背景區(qū)域,而介于其中間的區(qū)域為候選區(qū)域;(4)對候選區(qū)域,建立時空區(qū)域能量模型,進一步確定候選區(qū)域的歸屬;(5)對所得到的對象區(qū)域,進行梯度補充、馬爾可夫模型及區(qū)域標記后處理,得到完整的對象掩模,通過映射,獲得運動的視頻對象。本發(fā)明提供的方法具有分割速度快、精度高的特點,適用于MPEG-4的面向對象和交互性的視頻、基于MPEG-7的視頻數(shù)據(jù)庫檢索和具有視頻對象提取功能的智能監(jiān)控系統(tǒng)等。
文檔編號H04N7/26GK1588450SQ20041005264
公開日2005年3月2日 申請日期2004年7月8日 優(yōu)先權日2004年7月8日
發(fā)明者張兆揚, 包紅強, 安平 申請人:上海大學