專利名稱:對已知攝像機參數(shù)和深度信息的視頻序列的時空一致性分割方法
技術(shù)領(lǐng)域:
本發(fā)明涉及視頻時空一致性分割方法,尤其涉及一種對已知攝像機參數(shù)和深度信
息的視頻序列的時空一致性分割方法。
背景技術(shù):
視頻分割技術(shù)是計算機中層視覺領(lǐng)域的基礎(chǔ)技術(shù)之一,其在物體識別、圖像/視 頻注解、視頻編輯和視頻編碼等眾多領(lǐng)域中有及其重要的應(yīng)用。這些應(yīng)用通常要求視頻分 割的結(jié)果具有很高的時空一致性。 視頻分割技術(shù)的難點在于分割的結(jié)果具有很高的時空一致性。目前單張圖像 分割技術(shù)在一定程度上能較好地保持空間域分割邊界,例如Mean-shift就是一種經(jīng)典 的基于特征空間聚類的圖像分割方法D. Comaniciu, P. Meer, andS. Member. Mean shift : A robust approach toward feature space analysis. IEEETransactions on Pattern Analysis and Machine Intelligence, 24 :603-619, 2002.,其他的經(jīng)典的圖像分割方法還 包括Watershed :P. D. Smet and R丄V. P. M. Pires. Implementation and analysis of an optimized rainfalling watershed algorithm. InlS&TSPIE' s 12th Annual Symposium Electronic Imaging, pages 759-766, 2000.。但是對于一個視頻序列來說,現(xiàn)有的視頻分 割方法都很難達(dá)時空域上的高度一致性。這些方法通常依賴于運動估計來建立相鄰幀之間 的對應(yīng)關(guān)系,而由于運動估計的不魯棒、極易受遮擋影響,會導(dǎo)致區(qū)域?qū)?yīng)不可靠,從而產(chǎn) 生錯誤或者多幀之間不一致的分割結(jié)果;另外三維場景中區(qū)域遮擋情況的存在使得視頻分 割問題變得更為復(fù)雜難解。 現(xiàn)有的視頻區(qū)域分割方法主要分為兩大類
1.獨立處理空間域和時域上的分割。 此類方法較為典型的是Brendel于09年提出的方法W. Brendel and S. Todorovic. Video object segmentation by tracking regions. In ICCV, 2009.,此方 法首先用低層圖像分割技術(shù)對每幀圖像進(jìn)行空間域上的分割,然后在時域上利用circular dynamic-time warping技術(shù)進(jìn)行對應(yīng)區(qū)域的匹配。Siying Liu的方法S. Liu, G. Dong, C. H. Yan, and S. H. Ong. Video segmentation-Propagation, validation andaggregation of a preceding graph. In CVPR, pages 1-7, 2008.是一種漸進(jìn)式的分割方法,它利用視頻 序列上一幀圖像的分割結(jié)果來約束下一幀圖像的分割。獨立處理的方法不足之處在于于缺 乏準(zhǔn)確的二維運動估計,從而影響對應(yīng)區(qū)域的匹配或傳遞;另外,復(fù)雜的區(qū)域遮擋情況也會 為區(qū)域匹配或傳遞引入諸多問題。
2.在時空域上進(jìn)行整體聯(lián)合分割 此類方法較為典型的是Jue Wang的Anisotropic Kernel Mean-shift方法 J. Wang, B.Thiesson, Y. Xu, andM. Cohen. Image and video segmentation byanisotropic kernel mean shift. In ECCV,pages 238-249, 2004.以及Greenspan的方法H. Greenspan,
4J. Goldberger, and A. Mayer. Probabilistic space—time videomodeling via piecewise GMM. IEEE Transactions on Pattern Analysis and Machinelntelligence,26 (3): 384-396, 2004.這些方法都是將視頻作為一個整體時空域數(shù)據(jù)進(jìn)行Mean-shift或者G匪等 聚類處理。聯(lián)合處理的方法的缺點在于它不能處理大幅度運動和嚴(yán)重遮擋的情況;龐大的 數(shù)據(jù)量亦使得這類方法嚴(yán)重開銷內(nèi)存,不適用于長視頻序列處理。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對現(xiàn)有"視頻分割技術(shù)"的不足,提出一種對已知攝像機參數(shù) 和深度信息的視頻序列的時空一致性分割方法。 對已知攝像機參數(shù)和深度信息的視頻序列的時空一致性分割方法包括如下步 驟 1)利用Mean-shift方法對視頻的每幀進(jìn)行單獨的區(qū)域分割; 2)根據(jù)攝像機參數(shù)和深度信息在整個序列上對Mean-shift區(qū)域分割邊界進(jìn)行統(tǒng)
計,為每幀計算出 一個"概率邊界圖"; 3)利用Watershed變換及能量優(yōu)化方法對"概率邊界圖"進(jìn)行分割處理,得到相比 Mean-shift在不同幀更為一致連貫的圖像分割; 4)對于Watershed變換及能量優(yōu)化方法得到的初始化分割,在不同幀之間進(jìn)行分 割塊的匹配和連接,從而生成時空域上的分割塊; 5)利用攝像機參數(shù)和深度信息為每個像素統(tǒng)計其屬于每個時空域分割塊的概率,
并利用能量優(yōu)化方法進(jìn)行逐幀的迭代優(yōu)化,從而得到時空一致的視頻分割結(jié)果。 所述的根據(jù)攝像機參數(shù)和深度信息在整個序列上對Mean-shift區(qū)域分割邊界進(jìn)
行統(tǒng)計,為每幀計算出一個"概率邊界圖"步驟為 1)根據(jù)攝像機參數(shù)及深度信息將當(dāng)前幀像素投影至其余幀,找出對應(yīng)位置,并判 斷其是否被遮擋; 2)統(tǒng)計當(dāng)前幀之外其余所有圖像上不被遮擋的對應(yīng)位置的分割邊界,得到每幀圖 像上相鄰兩個像素之間存在分割邊界的概率,即"概率邊界圖"。 所述的利用Watershed變換及能量優(yōu)化方法對"概率邊界圖"進(jìn)行分割處理,得到 相比Mean-shift在不同幀更為一致連貫的圖像分割步驟為 1)對概率邊界圖做Watershed分割,保留分割結(jié)果中大于30個像素的分割區(qū)域; 2)將保留的分割區(qū)域作為種子區(qū)域,利用種子區(qū)域的顏色、坐標(biāo)位置及深度信息
的高斯概率分布作為能量值進(jìn)行能量優(yōu)化,得到每幀圖像的空間域聚類劃分。 所述的對于Watershed變換及能量優(yōu)化方法得到的初始化分割,在不同幀之間進(jìn)
行分割塊的匹配和連接,從而生成時空域上的分割塊步驟為 1)對于兩兩視頻幀之間尋找匹配的分割塊,根據(jù)分割塊投影的重疊面積比例來判 斷匹配與否; 2)將不同幀上的具有匹配關(guān)系的分割塊進(jìn)行連接,從而形成時空域上的分割塊。
所述的利用攝像機參數(shù)和深度信息為每個像素統(tǒng)計其屬于每個時空域分割塊的 概率,并利用能量優(yōu)化方法進(jìn)行逐幀的迭代優(yōu)化,從而得到時空一致的視頻分割結(jié)果步驟 為
1)根據(jù)攝像機參數(shù)及深度信息將當(dāng)前幀像素投影至其余幀,找出對應(yīng)位置,并判 斷其是否被遮擋; 2)統(tǒng)計當(dāng)前幀之外其余所有圖像上不被遮擋的對應(yīng)位置屬于每個時空域分割塊 的概率; 3)將時空域概率作為能量值,對于視頻中的每幀圖像進(jìn)行多次能量優(yōu)化得到每幀 圖像的空間域聚類劃分,從而得到時空一致的視頻分割結(jié)果。 本發(fā)明的優(yōu)點在于一、視頻序列每幀的分割結(jié)果能夠很好地保持物體邊界;二、 在視頻序列多幀之間能夠保持分割塊的一致性,不會有閃爍跳變現(xiàn)象。由于該方法得到的 分割塊具有高度的時空一致性,因而對物體識別、圖像/視頻注解、視頻編輯和視頻編碼等 領(lǐng)域?qū)泻芨叩膽?yīng)用價值。
圖1是對已知攝像機參數(shù)和深度信息的視頻序列的時空一致性分割方法的流程 圖; 圖2 (a)是一個視頻序列實例的兩幀圖像; 圖2(b)是對圖2(a)統(tǒng)計得到的概率邊界圖,圖中每個像素位置用四連通鄰域概 率邊界的最大值經(jīng)過歸一化的灰度值來表示概率大小,統(tǒng)計出的兩幀邊界概率具有很好的 一致性; 圖3(a)是本發(fā)明的不同幀上兩個區(qū)域的匹配過程的描述;
圖3(b)是本發(fā)明的區(qū)域匹配圖的一個實例;
圖4 (a)是另一個視頻序列實例的兩幀圖像; 圖4(b)是運用本發(fā)明方法得到的3238個分割塊的結(jié)果,分割的邊界在幀與幀之 間具有很好的一致性; 圖4(c)是運用本發(fā)明方法得到的7513個分割塊的結(jié)果,分割的邊界在幀與幀之 間具有很好的一致性。
具體實施例方式
對已知攝像機參數(shù)和深度信息的視頻序列的時空一致性分割方法包括如下步 驟 1)利用Mean-shift方法對視頻的每幀進(jìn)行單獨的區(qū)域分割; 2)根據(jù)攝像機參數(shù)和深度信息在整個序列上對Mean-shift區(qū)域分割邊界進(jìn)行統(tǒng)
計,為每幀計算出 一個"概率邊界圖"; 3)利用Watershed變換及能量優(yōu)化方法對"概率邊界圖"進(jìn)行分割處理,得到相比 Mean-shift在不同幀更為一致連貫的圖像分割; 4)對于Watershed變換及能量優(yōu)化方法得到的初始化分割,在不同幀之間進(jìn)行分 割塊的匹配和連接,從而生成時空域上的分割塊; 5)利用攝像機參數(shù)和深度信息為每個像素統(tǒng)計其屬于每個時空域分割塊的概率,
并利用能量優(yōu)化方法進(jìn)行逐幀的迭代優(yōu)化,從而得到時空一致的視頻分割結(jié)果。 對已知攝像機參數(shù)和深度信息的視頻序列的時空一致性分割方法的步驟流程如圖1。 所述的根據(jù)攝像機參數(shù)和深度信息在整個序列上對Mean-shift區(qū)域分割邊界進(jìn) 行統(tǒng)計,為每幀計算出一個"概率邊界圖"步驟為 1)根據(jù)攝像機參數(shù)及深度信息將當(dāng)前幀像素投影至其余幀,找出對應(yīng)位置,并判 斷其是否被遮擋; 投影計算的公式化表示如下 《~ 、7; - ;,) 其中xt為第t幀上的像素,h表示齊次坐標(biāo),KRT分別表示攝像機的內(nèi)部參數(shù),旋 轉(zhuǎn)參數(shù)和平移參數(shù),z表示深度值。 通過比較3D深度和投影位置的深度的差值是否大于0. 0002來判斷是否被遮擋。
2)統(tǒng)計當(dāng)前幀之外其余所有圖像上不被遮擋的對應(yīng)位置的分割邊界,得到每幀圖 像上相鄰兩個像素之間存在分割邊界的概率,即"概率邊界圖"。 對于序列每幀的相鄰像素點對,統(tǒng)計其余幀上對應(yīng)像素點對是否在同一個 Mean-shift分割區(qū)域之內(nèi),如果不是則存在邊界;統(tǒng)計其余所有幀中邊界出現(xiàn)的概率,得 到一致連貫的概率邊界圖,圖中每相鄰兩像素之間存在一個邊界概率值,如圖2。
概率邊界圖統(tǒng)計的公式化表示如下A(x,'y,) = 7;Wx,) # s(y,)] 其中xtyt為第t幀上的相鄰像素,Xt'為在第t'幀上的對應(yīng)位置,s為Mean-shift 的分割結(jié)果,nv為不出現(xiàn)遮擋情況的幀的數(shù)目,只有不存在遮擋的幀才會被納入統(tǒng)計范圍。
所述的利用Watershed變換及能量優(yōu)化方法對"概率邊界圖"進(jìn)行分割處理,得到 相比Mean-shift在不同幀更為一致連貫的圖像分割步驟為 1)對概率邊界圖做Watershed分割,保留分割結(jié)果中大于30個像素的分割區(qū)域;
在做Watershed分割之前,先利用截斷值S對概率邊界圖進(jìn)行向下截斷,以避免 出現(xiàn)過分割(over-segmentation)的情況,S =0.1。 2)將保留的分割區(qū)域作為種子區(qū)域,利用種子區(qū)域的顏色、坐標(biāo)位置及深度信息
的高斯概率分布作為能量值進(jìn)行能量優(yōu)化,得到每幀圖像的空間域聚類劃分。 能量優(yōu)化使用馬可夫隨機場模型,能量最小化的方程式公式表示如下 £")=Z(A("x,))+ S五力(x,),s(y,))) 其中Ed(sOO)表示對于Xt像素,其屬于每個種子區(qū)域s(Xt)的高斯概率密度,概
率密度是顏色,深度信息和坐標(biāo)位置的概率分布之和,其公式表示如下
(x,》=-wclog順x,)I/4,),S:(x,))-Wrflog順x,)I ,))-wslog稱,I"叫,As(x>) 其中N為高斯概率密度函數(shù),I(Xt)為Xt坐標(biāo)位置的顏色值,D(Xt)為Xt坐標(biāo)位置
的深度值,wjdl分別為顏色,深度信息和坐標(biāo)位置高斯概率的權(quán)重值,w。 = 0. 54,wd = 0. 1,
ws = 0. 36,、 d E e E d分別為顏色和深度信息的均值和協(xié)方差矩陣,n A分別為坐標(biāo)位
置的均值和協(xié)方差矩陣。Es(s (xt) , s (yt))表示相鄰像素xtyt之間的交互能量值,它與xtyt像素之間的邊界
7概率值成反比,其定義如下<formula>formula see original document page 8</formula> 其中A b為交互能量權(quán)重值,A b = 1. 67, e b為邊界概率值敏感度的控制量,e b =0. 6。 本發(fā)明使用Belief Propagation方法P. F. Felzenszwalb and
D. P. Huttenlocher. Efficient belief propagation for early vision. International
Journal of Computer Vision, 70(1) :41-54, 2006.進(jìn)行能量最小化求解。 所述的對于Watershed變換及能量優(yōu)化方法得到的初始化分割,在不同幀之 間進(jìn)行分割塊的匹配和連接,從而生成時空域上的分割塊步驟為 1)對于兩兩視頻幀之間尋找匹配的分割塊,根據(jù)分割塊投影的重疊面積比例來判
斷匹配與否; 利用攝像機參數(shù)和深度信息將其中一幀上的每個分割塊投影到另一幀上, 尋找出所有與投影區(qū)域重疊的分割塊,重疊面積比例大于Sv的分割塊被判定為
匹配分割塊,Sv = 0.8。 2)將不同幀上的具有匹配關(guān)系的分割塊進(jìn)行連接,從而形成時空域上的分割塊。
建立在視頻時空域上的一個無向圖G = (V,E),用來表示分割塊的匹配關(guān)系,如圖 3所示,V表示頂點,E表示連接頂點對的邊;每幀的每個分割塊對應(yīng)圖中的一個頂點;判斷 為匹配的分割塊對應(yīng)的頂點之間存在一條邊;無向圖的所有連通分量構(gòu)成了視頻時空域分 割,每個連通分量代表一個時空域分割塊。 所述的利用攝像機參數(shù)和深度信息為每個像素統(tǒng)計其屬于每個時空域分割塊的 概率,并利用能量優(yōu)化方法進(jìn)行逐幀的迭代優(yōu)化,從而得到時空一致的視頻分割結(jié)果步驟 為 1)根據(jù)攝像機參數(shù)及深度信息將當(dāng)前幀像素投影至其余幀,找出對應(yīng)位置,并判 斷其是否被遮擋; 2)統(tǒng)計當(dāng)前幀之外其余所有圖像上不被遮擋的對應(yīng)位置屬于每個時空域分割塊 的概率; 時空域分割塊的概率統(tǒng)計公式表示如下
A(/,X,)=^^;[S(X》=/] 其中P(Xt)表示像素Xt在其余幀上的對應(yīng)像素所屬的所有可能時空域分割塊的集合。 3)將時空域概率作為能量值,對于視頻中的每幀圖像進(jìn)行多次能量優(yōu)化得到每幀 圖像的空間域聚類劃分,從而得到時空一致的視頻分割結(jié)果。
能量優(yōu)化使用馬可夫隨機場模型,能量最小化的方程式公式表示如下
柳=2>,,))+ Z《卵,),S(y,))) 能量最小化方程的Ed(S(xt))在這個環(huán)節(jié)表示對于xt像素,其在其余幀上的對應(yīng) 位置屬于每個時空域分割塊的概率統(tǒng)計值以及顏色、空間位置及深度信息的概率分布值的 總和,其公式表示如下
8
諷x,)) = -log A (S(x,)) - w: log戦x,) I《),S;<x >) -w>gW(Z)(x,)| ))-w:log 1S W(x,l%w,As(") 其中wh為時空域分割塊概率統(tǒng)計的權(quán)重值,wh = 0. 9, w。 = 0. 054, wd = 0. 01, ws 二 0.036,時空域分割塊的概率統(tǒng)計值占主要比例;f(S(Xt))表示包含屬于SOO的分割塊 的所有幀集合。 使用BeliefPropagation方法進(jìn)行能量最小化求解。對于每一幀的優(yōu)化來說,將 其他幀的分割結(jié)果作為參變量對當(dāng)前幀的分割進(jìn)行求解。每優(yōu)化完一幀,立即更新對應(yīng)的 時空域分割塊連接圖G。經(jīng)過3次能量優(yōu)化的分割結(jié)果將趨于收斂,達(dá)到高度的時空一致 性。 對已知攝像機參數(shù)和深度信息的視頻序列的時空一致性分割方法的一個應(yīng)用實 例如圖4,從產(chǎn)生的應(yīng)用效果來看,本發(fā)明的分割結(jié)果既能夠很好地保持物體邊界,又能在 視頻多幀之間能夠保持分割塊的高度時空一致性,不會出現(xiàn)閃爍跳變。
權(quán)利要求
一種對已知攝像機參數(shù)和深度信息的視頻序列的時空一致性分割方法,其特征在于包括如下步驟1)利用Mean-shift方法對視頻的每幀進(jìn)行單獨的區(qū)域分割;2)根據(jù)攝像機參數(shù)和深度信息在整個序列上對Mean-shift區(qū)域分割邊界進(jìn)行統(tǒng)計,為每幀計算出一個“概率邊界圖”;3)利用Watershed變換及能量優(yōu)化方法對“概率邊界圖”進(jìn)行分割處理,得到相比Mean-shift在不同幀更為一致連貫的圖像分割;4)對于Watershed變換及能量優(yōu)化方法得到的初始化分割,在不同幀之間進(jìn)行分割塊的匹配和連接,從而生成時空域上的分割塊;5)利用攝像機參數(shù)和深度信息為每個像素統(tǒng)計其屬于每個時空域分割塊的概率,并利用能量優(yōu)化方法進(jìn)行逐幀的迭代優(yōu)化,從而得到時空一致的視頻分割結(jié)果。
2. 根據(jù)權(quán)利要求1所述的一種對已知攝像機參數(shù)和深度信息的視頻序列的時空一致 性分割方法,其特征在于所述的根據(jù)攝像機參數(shù)和深度信息在整個序列上對Mean-shift 區(qū)域分割邊界進(jìn)行統(tǒng)計,為每幀計算出 一個"概率邊界圖"步驟為1) 根據(jù)攝像機參數(shù)及深度信息將當(dāng)前幀像素投影至其余幀,找出對應(yīng)位置,并判斷其 是否被遮擋;2) 統(tǒng)計當(dāng)前幀之外其余所有圖像上不被遮擋的對應(yīng)位置的分割邊界,得到每幀圖像上 相鄰兩個像素之間存在分割邊界的概率,即"概率邊界圖"。
3. 根據(jù)權(quán)利要求1所述的一種對已知攝像機參數(shù)和深度信息的視頻序列的時空一致 性分割方法,其特征在于所述的利用Watershed變換及能量優(yōu)化方法對"概率邊界圖"進(jìn)行 分割處理,得到相比Mean-shift在不同幀更為一致連貫的圖像分割步驟為1) 對概率邊界圖做Watershed分割,保留分割結(jié)果中大于30個像素的分割區(qū)域;2) 將保留的分割區(qū)域作為種子區(qū)域,利用種子區(qū)域的顏色、坐標(biāo)位置及深度信息的高 斯概率分布作為能量值進(jìn)行能量優(yōu)化,得到每幀圖像的空間域聚類劃分。
4. 根據(jù)權(quán)利要求1所述的一種對已知攝像機參數(shù)和深度信息的視頻序列的時空一致 性分割方法,其特征在于所述的對于Watershed變換及能量優(yōu)化方法得到的初始化分割, 在不同幀之間進(jìn)行分割塊的匹配和連接,從而生成時空域上的分割塊步驟為1) 對于兩兩視頻幀之間尋找匹配的分割塊,根據(jù)分割塊投影的重疊面積比例來判斷匹 配與否;2) 將不同幀上的具有匹配關(guān)系的分割塊進(jìn)行連接,從而形成時空域上的分割塊。
5. 根據(jù)權(quán)利要求1所述的一種對已知攝像機參數(shù)和深度信息的視頻序列的時空一致 性分割方法,其特征在于所述的利用攝像機參數(shù)和深度信息為每個像素統(tǒng)計其屬于每個時 空域分割塊的概率,并利用能量優(yōu)化方法進(jìn)行逐幀的迭代優(yōu)化,從而得到時空一致的視頻 分割結(jié)果步驟為1) 根據(jù)攝像機參數(shù)及深度信息將當(dāng)前幀像素投影至其余幀,找出對應(yīng)位置,并判斷其 是否被遮擋;2) 統(tǒng)計當(dāng)前幀之外其余所有圖像上不被遮擋的對應(yīng)位置屬于每個時空域分割塊的概率;3) 將時空域概率作為能量值,對于視頻中的每幀圖像進(jìn)行多次能量優(yōu)化得到每幀圖像的空間域聚類劃分,從而得到時空一致的視頻分割結(jié)果。
全文摘要
本發(fā)明公開了一種對已知攝像機參數(shù)和深度信息的視頻序列的時空一致性分割方法。步驟如下1)利用Mean-shift方法對視頻進(jìn)行分割;2)根據(jù)攝像機參數(shù)和深度信息統(tǒng)計Mean-shift的分割邊界,計算每幀的“概率邊界圖”;3)利用Watershed及能量優(yōu)化方法對“概率邊界圖”進(jìn)行分割,得到更為一致連貫的分割結(jié)果;4)對于Watershed及能量優(yōu)化方法得到的初始化分割,在不同幀之間進(jìn)行分割塊的匹配和連接,生成時空域上的分割塊;5)利用攝像機參數(shù)和深度為每個像素統(tǒng)計其屬于每個時空域分割塊的概率,利用能量優(yōu)化方法進(jìn)行逐幀迭代優(yōu)化,得到時空一致的視頻分割結(jié)果。本發(fā)明的分割結(jié)果能夠很好地保持物體邊界,且在視頻多幀之間能夠保持分割塊的高度時空一致性,不會出現(xiàn)閃爍跳變。
文檔編號H04N5/225GK101789124SQ20101010407
公開日2010年7月28日 申請日期2010年2月2日 優(yōu)先權(quán)日2010年2月2日
發(fā)明者姜翰青, 章國鋒, 鮑虎軍 申請人:浙江大學(xué)