專利名稱:利用塊增大和變化檢測(cè)掩碼識(shí)別視頻中的運(yùn)動(dòng)對(duì)象的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及視頻處理,具體地說(shuō),涉及識(shí)別視頻中的運(yùn)動(dòng)對(duì)象。
背景技術(shù):
正如MPEG-4和MPEG-7標(biāo)準(zhǔn)化工作所示,許多視頻要求處理,以找到對(duì)象、確定事件、與量化應(yīng)用有關(guān)的視覺評(píng)價(jià),以及分析視頻序列特性,參見例如R.Castagno、T.Ebrahimi和M.Kunt的文章“用于交互式多媒體應(yīng)用的基于多種特征的視頻分割”(IEEETrans.on Circuits and Systems for Video Technology,Vol.8,No.5,pp.562-571,September 1998)?;趦?nèi)容的視頻表示要求將圖像或視頻序列分解成特定的對(duì)象,例如,使運(yùn)動(dòng)對(duì)象與靜態(tài)背景分離。
許多電視廣播包含人在相對(duì)靜止的背景前講話的場(chǎng)面,即新聞節(jié)目、討論會(huì)、傳記、肥皂劇等等。而且,視頻會(huì)議應(yīng)用廣泛采用頭部、肩部畫面取得可視通信。將來(lái),可用性越來(lái)越好的移動(dòng)視頻攝像機(jī)將會(huì)超過(guò)對(duì)等的、帶寬受限的面部通信。因此,對(duì)頭肩類型視頻序列(亦稱為“發(fā)言者頭部特寫”)的精確對(duì)象分割是視頻處理的重要方面。
然而,對(duì)頭肩類型序列自動(dòng)分割是困難的。因?yàn)榘l(fā)言者頭部通常位于幾乎不運(yùn)動(dòng)的桌子旁邊,基于參數(shù)的方法不能精確地估計(jì)這種類型序列中對(duì)象的運(yùn)動(dòng)。而且,基于運(yùn)動(dòng)的分割方法計(jì)算量大且不可靠?;趨^(qū)域的方法具有過(guò)度分割的缺點(diǎn),故不能確定感興趣的區(qū)域?;趲町惖姆椒ǖ娜秉c(diǎn)是不精確的對(duì)象形狀確定。
另一種用于對(duì)象分割的方法利用塊增大以獲得最小的顏色一致的視頻分量,參見例如F.Porikli和Y.Wang的文章“采用視頻塊的無(wú)監(jiān)控多分辨率對(duì)象提取算法”(Proceedings of Int.Conf.ImageProcess,Thesselaniki,2001),亦參見Porikli于2001年4月4日提交的美國(guó)專利申請(qǐng)09/826333“用于多分辨率視頻對(duì)象分割的方法”。首先,對(duì)視頻利用快速中值濾波,以消除局部顏色不規(guī)則性,參見例如M.Kopp和W.Purgathofer的文章“有效的3×3中值濾波計(jì)算”(Technical University,Vienna,1994)。然后,通過(guò)對(duì)圖像幀及其特征加索引,從輸入視頻形成時(shí)空數(shù)據(jù)結(jié)構(gòu)。通過(guò)將連續(xù)的視頻幀作為3D(三維)數(shù)據(jù)結(jié)構(gòu)平面處理,可以將對(duì)象消息向前和向后傳播。在對(duì)視頻序列濾波之后,按顏色梯度選擇標(biāo)記點(diǎn)。利用色距使圍繞各標(biāo)記的塊增大。視頻塊存在的問(wèn)題是運(yùn)動(dòng)對(duì)象不能與靜止對(duì)象區(qū)分。例如,利用塊增大,色彩鮮明的空白墻將會(huì)形成塊。
變化檢測(cè)掩碼(CDM)是在視頻序列中一對(duì)幀的前一幀和當(dāng)前幀之間變化的像素圖。CDM定義為有關(guān)一組給定規(guī)則的兩幀的顏色不相似度??紤]到攝像機(jī)穩(wěn)定、對(duì)象一致以及照明條件不變,故一對(duì)相鄰幀的像素顏色差異表示場(chǎng)景中的運(yùn)動(dòng)對(duì)象。然而,并非所有顏色變化因運(yùn)動(dòng)對(duì)象而出現(xiàn),攝像機(jī)移動(dòng)、強(qiáng)度變化和因視頻幀上的不均勻照明造成的陰影以及圖像噪聲都會(huì)造成幀差異。計(jì)算簡(jiǎn)單使CDM可實(shí)際用于實(shí)時(shí)應(yīng)用,參見C.S.Regazzoni、G.Fabri和G.Vernazza的文章“基于視頻的高級(jí)監(jiān)控系統(tǒng)”(Kluwer Academic Pub.,1999)。然而,單獨(dú)使用CDM來(lái)確定運(yùn)動(dòng)對(duì)象使分割性能變差。
因此,需要改進(jìn)的完全自動(dòng)的方法,用于精確地識(shí)別視頻中任意數(shù)目的運(yùn)動(dòng)對(duì)象,尤其是在對(duì)象相對(duì)于背景幾乎不運(yùn)動(dòng)的情況下,例如發(fā)言者頭部特寫情況下。所述方法應(yīng)該結(jié)合視頻在時(shí)間上的運(yùn)動(dòng)和顏色特征。分割應(yīng)該在合理的時(shí)期內(nèi)發(fā)生,并且不依賴于初始用戶分割,也不依賴于同類運(yùn)動(dòng)約束。
發(fā)明公開本發(fā)明提供自動(dòng)識(shí)別視頻中運(yùn)動(dòng)對(duì)象的方法。所述方法將塊增大與變化檢測(cè)相結(jié)合。在對(duì)輸入視頻濾波以消除噪聲之后,從視頻幀形成時(shí)空數(shù)據(jù)結(jié)構(gòu),并選擇標(biāo)記。根據(jù)這些標(biāo)記,基于形心鏈接方法利用顏色相似度使塊增大。然后利用局部顏色特征從視頻中相鄰幀中提取變化檢測(cè)掩碼。使變化檢測(cè)掩碼與每塊交叉,確定僅位于所述塊范圍內(nèi)的各掩碼部分中的變化像素的數(shù)目。如果交叉區(qū)的變化像素?cái)?shù)目超過(guò)某個(gè)門限,那么就將該塊識(shí)別為運(yùn)動(dòng)對(duì)象。
附圖簡(jiǎn)要說(shuō)明
圖1是根據(jù)本發(fā)明的用于識(shí)別視頻中運(yùn)動(dòng)對(duì)象的方法的框圖;圖2是圖1所示方法的分塊步驟框圖;圖3是圖1所示提取變化檢測(cè)掩碼步驟的框圖;以及圖4是圖1所示視頻運(yùn)動(dòng)對(duì)象步驟的框圖。
實(shí)施本發(fā)明的最佳方式本發(fā)明利用空時(shí)塊增大和變化檢測(cè)掩碼識(shí)別視頻101中的運(yùn)動(dòng)對(duì)象。用于識(shí)別視頻中幾乎不運(yùn)動(dòng)的對(duì)象(如“發(fā)言者頭部特寫”),本發(fā)明特別有用。如圖1所示,第一步驟200通過(guò)由視頻幀101構(gòu)成時(shí)空數(shù)據(jù)結(jié)構(gòu)來(lái)分割來(lái)自視頻101的塊241。從數(shù)據(jù)結(jié)構(gòu)選擇標(biāo)記mi。所述標(biāo)記是使塊Vi 241增大的起始點(diǎn)。第二步驟300從輸入視頻101提取變化檢測(cè)掩碼341。通過(guò)確定相鄰的一對(duì)幀中相應(yīng)像素顏色特征的變化,提取標(biāo)記。在第三步驟400中,將所提取的掩碼341應(yīng)用于塊241,以識(shí)別視頻101中的運(yùn)動(dòng)對(duì)象421。
分塊構(gòu)造時(shí)空數(shù)據(jù)結(jié)構(gòu)S圖2顯示圖1的分塊步驟200的細(xì)節(jié)。首先,在任選的預(yù)處理步驟210中對(duì)視頻101應(yīng)用快速中值濾波以便消除局部不規(guī)則性。下一步驟220根據(jù)輸入視頻101的幀像素構(gòu)造時(shí)空數(shù)據(jù)結(jié)構(gòu)S 221。數(shù)據(jù)結(jié)構(gòu)S(x,y,t)中的每個(gè)元素都是向量w(x,y,t),它包括顏色值和位置(x,y,t)處像素的變化檢測(cè)得分,其中(x,y)是輸入視頻101的特定幀t中像素的坐標(biāo)。
標(biāo)記選擇把具有最小顏色梯度值的向量選為標(biāo)記231(步驟230)。標(biāo)記231是未提純(unrefined)塊241增大的起始點(diǎn)(步驟240)。在一個(gè)最佳實(shí)施例中,采用YUW彩色空間,這是因?yàn)樵摬噬臻g符合人類視覺感,且可以按照振幅或歐幾里得規(guī)范計(jì)算顏色間距離。對(duì)顏色間距離公式作相應(yīng)修改,就可以采用任何彩色空間。
通過(guò)確定哪一個(gè)向量221具有最小的顏色梯度值,選擇標(biāo)記(步驟230),這是因?yàn)榫哂凶钚√荻戎档南蛄孔钸m合于表征紋理均勻的局部像素鄰域。顏色梯度值|S|由下式確定|S(x,y,t)|=|wy(x-,y,t)-wy(x+,y,t)|+|wu(x,y-,t)-wu(y+,t)|+|wv(x,y,t-)-wv(x,y,t+)|(1)其中,( )-和( )+表示局部鄰域中距離中心像素的等距離。為了計(jì)算簡(jiǎn)單,僅使用亮度分量wy。然后,將具有最小梯度值的向量選為標(biāo)記231 mi(步驟230)。
塊增大圍繞標(biāo)記231使未提純塊241增大(步驟240)。形心鏈接方法用于使塊增大(步驟240)。形心ci是標(biāo)記的向量w(mi)。有效外殼包括當(dāng)前塊241的所有外部邊界p+。在6個(gè)鄰域中選擇相鄰向量p-,它包括向量(x+1,y,t),(x-1,y,t),(x,y+1,t),(x,y-1,t),(x,y,t+1),(x,y,t-1),以得到向量(x,y,t)。把與活動(dòng)外殼相鄰的向量p-比作形心,并且確定形心和各相鄰向量p-之間的顏色距離d(ci,p-)。如果形心和相鄰向量之間的顏色距離小于門限ε,就將相鄰向量包括于未提純塊中,并更新形心ci。為了確定顏色距離門限ε,通過(guò)彩色空間中的向量群集并利用主顏色,將輸入視頻101的像素量化。量化通過(guò)簡(jiǎn)化彩色光譜改進(jìn)形心鏈接方法的健壯性。
當(dāng)塊241增大了時(shí),就根據(jù)下式從集合Ω中刪除它的向量 其中,Ω是所有向量221的集合。
接著,把剩余集合中具有最小梯度值的下一向量選為下一標(biāo)記,并重復(fù)塊增大過(guò)程(步驟235),直到不再剩余向量221。
塊合并合并(步驟250)減少未提純塊241中的不規(guī)則性。讓小于最小尺寸的塊與相鄰塊合并。例如,使小于塊V(即整個(gè)視頻)的0.001倍的塊合并,以加速此過(guò)程,合并(步驟250)以分層方式進(jìn)行,它從最小的塊開始,結(jié)束于不滿足最小尺寸要求的最大塊。不滿足最小尺寸要求的最小塊與最近的塊合并。按照尺寸增大的順序?qū)λ行K重復(fù)該過(guò)程。
提取變化檢測(cè)掩碼確定距離圖3顯示圖1所示提取步驟300的細(xì)節(jié)。該步驟從相鄰的成對(duì)幀中提取變化檢測(cè)掩碼。首先,確定(步驟310)當(dāng)前幀t局部窗口中像素p(x,y,t)和相鄰幀t-1中像素qn(xm,ym,t-1)的距離311
δ(p,qn)=Σi,jΣk|wk(x,y,t)-wk(xni,ynj,t-1)|,---(3)]]>其中,xni,ynj是窗口N1中中心像素qn(xn,yn,t)周圍的像素坐標(biāo),k是彩色分量y,u,v,得到距離δ(p,q)311。在另一窗口N2中選擇各點(diǎn)qn(xm,ym,t-1)。彩色分量可從任何彩色空間(即RGB,HIS等等)中選取。如果使用單通道輸入,則k表示輸入通道,即灰度等級(jí)。
選擇最小得分選擇最小得分(步驟320)防止運(yùn)動(dòng)估計(jì)中的一些較小的誤差。根據(jù)下式將另一窗口N2中的最小距離δ(p,qn)311指定為各像素p的得分Δ(p)Δ(p)=minn(p,qn),qn∈N2------(4)]]>對(duì)得分求平均在窗口N3中對(duì)得分求平均(步驟330),得到用于閾值處理340的平均得分331。
對(duì)得分作閾值處理對(duì)得分作閾值處理(步驟340)得到二進(jìn)制變化檢測(cè)掩碼cdm(p)341, 其中,μ是門限。可以將它指定為彩色分量動(dòng)態(tài)范圍的加權(quán)平均。選擇得分門限,使平均分331與一組變化點(diǎn)而不是與單個(gè)點(diǎn)對(duì)應(yīng)。以同樣的方式對(duì)小區(qū)域?yàn)V波。
備選的變化檢測(cè)掩碼可以采用其它變化檢測(cè)掩碼代替以上方法。這些掩碼包括但不限于幀差異算子、全局運(yùn)動(dòng)補(bǔ)償掩碼、非二級(jí)制變化檢測(cè)掩碼。因此本公開所述的方法包括所有變化檢測(cè)掩碼提取方法。一種簡(jiǎn)單的變化檢測(cè)掩碼可以為cdm(p)=Σk|wk(x,y,t)-wk(x,y,t-1)|------(6)]]>其中,像素p是幀t中的像素,k表示彩色分量。
將變化檢測(cè)掩碼應(yīng)用于分割塊圖4顯示圖1識(shí)別步驟400的細(xì)節(jié)。在分割塊(步驟200)和提取掩碼(步驟300)之后,識(shí)別運(yùn)動(dòng)對(duì)象(步驟400)。針對(duì)每個(gè)塊對(duì)掩碼與該塊交叉區(qū)中的變化像素計(jì)數(shù)??梢詫?duì)總計(jì)數(shù)歸一化,將計(jì)數(shù)超過(guò)預(yù)定門限的塊識(shí)別為運(yùn)動(dòng)對(duì)象421。
本發(fā)明可以精確地識(shí)別視頻中的運(yùn)動(dòng)對(duì)象,特別是在對(duì)象幾乎不運(yùn)動(dòng)的情況下,例如,首部肩部類型的視頻序列。該方法同時(shí)利用時(shí)間上的運(yùn)動(dòng)和顏色特征。識(shí)別在合理的時(shí)期內(nèi)進(jìn)行,且不依賴于初始的用戶分割,也不依賴于同類運(yùn)動(dòng)約束。識(shí)別了的運(yùn)動(dòng)對(duì)象就可以容易地加以分割。
本發(fā)明的另一優(yōu)點(diǎn)是,它不要求背景登記。此外,本發(fā)明可以精確地提取對(duì)象邊界,而不用基于蛇形的模型或邊界校正方法。所提出的方法還可以分割平滑的有紋理的對(duì)象。
盡管已通過(guò)最佳實(shí)施方式示例對(duì)本發(fā)明作了描述,但是顯然,在本發(fā)明的精神和范圍之內(nèi)可以作出各種其它變化和修改。因此,所附權(quán)利要求書的目的是要包括屬于本發(fā)明精神和范圍之內(nèi)的所有這種變化和修改。
權(quán)利要求
1.一種用于識(shí)別視頻中運(yùn)動(dòng)對(duì)象的方法,所述方法包括把所述視頻分成多個(gè)塊;從所述視頻中提取多個(gè)掩碼;以及將所述多個(gè)掩碼應(yīng)用于所述多個(gè)塊,以識(shí)別與運(yùn)動(dòng)對(duì)象對(duì)應(yīng)的塊。
2.如權(quán)利要求1所述的方法,其中,所述視頻包括多個(gè)幀并且每個(gè)幀包括多個(gè)像素,其特征在于所述方法還包括由所述幀的所述像素構(gòu)造時(shí)空數(shù)據(jù)結(jié)構(gòu),其中,所述數(shù)據(jù)結(jié)構(gòu)中的每個(gè)元素是包括像素(x,y,t)的顏色值的向量,這里(x,y)是所述視頻中特定幀t中像素的坐標(biāo);用最小顏色梯度值作為標(biāo)記選擇向量;增大每個(gè)標(biāo)記附近的未提純的塊;從所述數(shù)據(jù)結(jié)構(gòu)中刪除所述未提純的塊;以及重復(fù)所述選擇、增大以及刪除步驟直到所述數(shù)據(jù)結(jié)構(gòu)為空。
3.如權(quán)利要求2所述的方法,其特征在于還包括將不滿足最小尺寸要求的未提純的塊與最接近的較大的塊合并。
4.如權(quán)利要求3所述的方法,其特征在于所述顏色梯度值|S|由下式確定|S(x,y,t)|=|wy(x-,y,t)-wy(x+,y,t)|+|wu(x,y-,t)-wu(y+,t)|+|wv(x,y,t-)-wv(x,y,t+)|其中,()-和()+表示距離像素局部相鄰區(qū)中中心像素的相等距離。
5.如權(quán)利要求1所述的方法,其特征在于還包括確定當(dāng)前幀窗口中某個(gè)像素與相鄰幀窗口中多個(gè)像素之間的多個(gè)距離;選擇所述多個(gè)距離中的最小距離,作為相鄰幀窗口中各像素的得分;對(duì)所述多個(gè)得分求平均;以及對(duì)所述得分作閾值處理以產(chǎn)生所述掩碼。
6.如權(quán)利要求1所述的方法,其特征在于還包括利用幀差作為變化檢測(cè)掩碼。
7.如權(quán)利要求1所述的方法,其特征在于將所述多個(gè)掩碼應(yīng)用于所述多個(gè)塊以識(shí)別運(yùn)動(dòng)對(duì)象的步驟還包括對(duì)與每塊相交的所述掩碼的各部分中變化像素的數(shù)目計(jì)數(shù);以及選擇計(jì)數(shù)值超過(guò)預(yù)定門限的塊作為運(yùn)動(dòng)對(duì)象。
8.如權(quán)利要求6所述的方法,其特征在于還包括將所述總計(jì)數(shù)值歸一化。
全文摘要
一種將塊增大和變化檢測(cè)相結(jié)合的方法。在對(duì)輸入視頻濾波以消除噪聲之后,由視頻幀形成時(shí)空數(shù)據(jù)結(jié)構(gòu)并選擇標(biāo)記。根據(jù)所述標(biāo)記,利用基于顏色相似度的形心鏈接方法使塊增大。然后利用局部顏色特征從視頻中的相鄰幀中提取變化檢測(cè)掩碼。變化檢測(cè)掩碼與每塊交叉,以確定僅在位于該塊范圍內(nèi)的掩碼部分中的變化像素?cái)?shù)目。如果交叉區(qū)中的變化像素?cái)?shù)目超過(guò)某個(gè)門限,那么將塊識(shí)別為運(yùn)動(dòng)對(duì)象。
文檔編號(hào)G06T7/20GK1537299SQ0280519
公開日2004年10月13日 申請(qǐng)日期2002年12月18日 優(yōu)先權(quán)日2001年12月20日
發(fā)明者F·M·珀里克里, F M 珀里克里 申請(qǐng)人:三菱電機(jī)株式會(huì)社