專利名稱:基于產生式和判別式結合的人體運動跟蹤方法
技術領域:
本發(fā)明屬于圖像處理技術領域,更進一步涉及計算機視覺領域中實現(xiàn)人體運動跟蹤的一種方法,采用一種多目標優(yōu)化的方法實現(xiàn)人體運動跟蹤和三維姿態(tài)估計,可用于體育訓練和動畫制作等領域。
背景技術:
人體運動跟蹤的主要任務是從視頻圖像中檢測出人體輪廓,再對人體的關節(jié)點進行定位,在此基礎上識別出人體運動姿態(tài),最終重建三維人體運動姿態(tài)。由于目前視頻圖像是三維場景中的人體輪廓在二維圖像上的投影,所以,丟失了大量的深度信息,并且人體運動過程中,人體四肢自遮擋現(xiàn)象時常發(fā)生,視頻圖像存在歧義性,這使得很難從無標記單目視頻中恢復人體運動姿態(tài)。但是,由于基于單目視頻的人體運動跟蹤在醫(yī)學治療、體育訓練、動畫制作、智能監(jiān)控系統(tǒng)等各個方面都有潛在的應用和經濟價值,所以受到了很多學者的關注。至今,基于視頻的人體運動跟蹤的方法主要分為兩大類基于學習的人體運動跟蹤和基于模型的人體運動跟蹤。第一種,基于學習的人體運動跟蹤方法該方法首先在訓練的視頻圖像和目標視頻圖像數(shù)據(jù)庫里提取精確的圖像特征,然后學習訓練視頻圖像數(shù)據(jù)庫的圖像特征與運動捕捉數(shù)據(jù)之間的映射,最后在目標視頻圖像上直接使用人體特征恢復三維姿態(tài)。如Urtasun et al. (R. Urtasun and T. Darrell. Local Probabilistic Regression forActivity-Independent Human Pose Inference IEEE Conference on Computer Visionand Pattern Recognition (CVPR), 2008)文章,就是使用平衡高斯過程動態(tài)模型指導在單目視頻序列中跟蹤三維人體運動,該動態(tài)模型是從較少的包含多種模式的運動訓練數(shù)據(jù)中學習得至LU Sigal et al. (L. Sigal and M. Black. Measure Locally, Reason Globally Occlusion-sensitive articulated pose estimation. IEEE Conference on ComputerVision and Pattern Recognition (CVPR), 2006.)在該文章中提出一個貝葉斯框架,該框架包含序列重要性采樣和退火粒子濾波,并且在跟蹤時使用了多種運動模型。為了使三維 姿態(tài)恢復更加符合解剖學關節(jié)約束,同時使搜索空間降維,該框架從訓練數(shù)據(jù)中學習運動模型,使用虛擬標記的歐式距離差作為量測誤差。該方法的缺點是提取精確的圖像特征需要花費大量的時間,而且視頻跟蹤受到是否存在學習數(shù)據(jù)庫的限制,若不存在學習數(shù)據(jù)庫,則無法完成視頻跟蹤。第二種,基于模型的人體運動跟蹤方法該方法不需要學習數(shù)據(jù)庫,直接在目標視頻圖像上提取圖像信息,建立目標圖像與模型的相似度函數(shù),然后對相似度函數(shù)進行優(yōu)化從而在高維的狀態(tài)空間中搜索最優(yōu)的狀態(tài),從而獲得準確的人體姿態(tài)。如法國國家信息與自動化研究所(INRIA)的 C. Sminchisescu 和 A. Jepson.在(C. Sminchisescuand A. Jepson. Generative Modeling for Continuous Non-Linearly Embedded VisualInference. International Conference on Machine Learning (ICML), 2004)的文章中米用此種方法實現(xiàn)了使用多種人體模型的運動跟蹤。Deutscher et al.在(J. Deutscherand I. Reid. Articulated body motion capture by stochastic search. InternationalJournal of ComputerVision (IJCV), 61 (2) 185-205, 2004.)的文章中使用邊界和側影作為圖像特征構建加權的相似度函數(shù),應用退火粒子濾波實現(xiàn)了人體運動跟蹤。由于該方法只建立一個相似度函數(shù),而用于優(yōu)化相似度函數(shù)的方法在搜索最優(yōu)結果時很容易陷入局部最優(yōu),導致跟蹤到的人體姿態(tài)不準確,而且算法的時間復雜度高。湖南大學申請的專利申請?zhí)?00910043537. 5,公開號CN101561928的“基于屬性關系圖外觀模型的多人體跟蹤方法”,該專利首先對當前幀人體檢測區(qū)域建立屬性關系圖外觀模型,計算與上一幀跟蹤人體的屬性關系圖外觀模型的相似度,根據(jù)相似度確定幀間人體的匹配關系,從而確定人體跟蹤情況及獲取運動軌跡。該專利申請公開的方法存在的不足是只能對固定場景的運動者進行人體跟蹤,只通過外觀模型的相似度不足以準確的跟蹤人體姿態(tài)
發(fā)明內容
本發(fā)明的目的在于針對上述現(xiàn)有技術中的不足,提出一種基于模型的多目標優(yōu)化的人體運動跟蹤方法,實現(xiàn)對不同場景中的運動者進行準確的人體姿態(tài)跟蹤。實現(xiàn)本發(fā)明目的的技術方案是,采用基于模型的方法,建立人體骨架模型,利用視頻圖像提取關節(jié)點的位置和灰度信息,構建兩個距離相似度函數(shù),通過對構建的多目標距離相似度函數(shù)進行優(yōu)化,在人體骨骼長度的約束下,對這兩個距離相似度函數(shù)采用多目標優(yōu)化算法實現(xiàn)對人體運動姿態(tài)的跟蹤。其實現(xiàn)步驟包括如下(I)用骨骼抽象的方法建立三維人體骨架模型即將人體骨架按照15個關節(jié)劃分為14個部分,每部分由一根桿狀骨骼模型表達,在空間用14條具有三維坐標的關節(jié)點之間的直線段表示這14根桿狀骨骼模型,連接相應的關節(jié)點坐標組成整個三維人體骨架模型,當輸入一組運動人體對應的15個關節(jié)點的三維坐標值時,人體骨架模型將模擬出三維人體的運動姿態(tài);(2)預處理人體視頻圖像2a)輸入人體視頻圖像,通過背景差分獲得人體側影,提取人體輪廓,對人體輪廓進行中軸細化處理,形成人體骨架線;2b)在人體骨架線上沿骨架線搜索得到頭、腹部、膝、腳節(jié)點坐標位置,使用粒子濾波預測檢測出其余的人體關節(jié)點坐標位置;(3)提取視頻圖像的第二代條帶波變換Bandlet2的圖像特征r,作為雙高斯過程的輸入,使用雙高斯TGP算法,預測出第i幀人體的3維坐標關節(jié)點V' i,ie [1,N],獲得視頻序列的3D關節(jié)點輸出為V/,
r = Cr1, r2, r3, . . . , rN)T,F= ( γ; γ · · ^vf),其中,&為第i幀圖像的Bandlet2為圖像特征,i e [I, N], (·)τ表示矩陣的轉秩;(4)初始化人體骨架模型4a)對步驟2b)得到的初始時刻視頻圖像關節(jié)點位置進行手工標定,由標定數(shù)據(jù)設置初始時刻人體姿態(tài)對應的人體骨架記為%,其中Vo為2b)中檢測到的第一幀視頻圖像的人體關節(jié)點位置;
4b)將t-1時刻跟蹤得到的人體骨架作為t時刻的初始化人體骨架,t > O ;(5)構建相似度函數(shù)5a)將人體的3D關節(jié)點用V表示,2D關節(jié)點用Vq表示,VqS V在2D平面上的投影,V為待估計量V = (V1, v2, V3, , vn)t,F = ( γ , if’ · · .ΝΥ,其中,Vi為第i幀圖像的3D關節(jié)點,i e [I,N],Vf為第i幀的2D關節(jié)點,i e [I,N],N為視頻幀數(shù);5b)將用雙高斯TGP方法預測出的第i幀人體3D關節(jié)點V'在2D平面上做投影,得到2D投影的關節(jié)點坐標V' p
Vp = (vpi,vp2,vpi,...,vpY,其中,為第i幀關節(jié)點3D關節(jié)點在2D上的投影,i e [I, N];5c)分別建立3D下的距離相似度函數(shù)fj',V' J和2D下的距離相似度函數(shù)
/2o,,');(6)利用非支配鄰域免疫算法,在t時刻對兩個距離相似度函數(shù)V' J、/2 Of,)在骨骼長度約束下進行優(yōu)化,獲得t時刻一組與真實人體運動姿態(tài)相似的人體骨架;(7)在t時刻對每一個由步驟(6)得到的人體骨架獲得骨架,計算該骨架關節(jié)點與t-i時刻跟蹤到的人體骨架關節(jié)點的歐式距離,選擇出歐式距離最小的人體骨架作為t時刻跟蹤到的最精確的人體骨架。本發(fā)明與現(xiàn)有的技術相比具有以下優(yōu)點I、由于本發(fā)明使用了粒子濾波預測人體關節(jié)點獲得更精確的人體關節(jié)點圖像位置,與現(xiàn)有技術相比獲取關節(jié)點位置的方法更簡單,且時間復雜度更低。2、本發(fā)明由于結合了當前人體跟蹤領域流行的產生式和判別式的方法,分別建立了 2D和3D的距離相似度函數(shù),可以更好的利用視頻圖像信息。3、本發(fā)明由于使用了多目標進化算法的非支配鄰域免疫算法優(yōu)化目標函數(shù),較現(xiàn)有的單目標優(yōu)化人體跟蹤方法可以避免陷入局部最優(yōu),提高了人體運動跟蹤的精確度。
圖I為本發(fā)明的總流程圖;圖2為本發(fā)明中的人體關節(jié)點檢測子流程圖;圖3為本發(fā)明對行走姿態(tài)的仿真實驗的三維跟蹤結果圖;圖4為本發(fā)明對拳擊姿態(tài)的仿真實驗的三維跟蹤結果圖。
具體實施例方式下面結合附圖對本發(fā)明做進一步的描述。參照圖I,本發(fā)明的具體實現(xiàn)步驟如下步驟I,建立人體骨架模型。根據(jù)解剖學知識,人體骨架雖然受年齡和健康的影響而不斷發(fā)生變化,但是骨架的組成是不變的,人體大致包括脛骨、股骨、胯骨、軀干、橈骨、肱骨、鎖骨、頸、頭。在這種情況下本發(fā)明把人體表示為由15個關節(jié)點和14跟桿狀骨骼組成的骨架模型。在虛擬空間用14條具有三維坐標的關節(jié)點之間的直線段表示這14根桿狀骨骼模型。將每一個關節(jié)點的坐標表示為' =Ix^y1, z tf, i e [1,15],n e [1,N],N為待跟蹤人體運動視頻幀數(shù);將第η幀人體 骨架表示為K =[',ν 2,·_· ,相鄰兩個關節(jié)點的骨骼長度表示為|\-v j=/M,p,qe [1,15],由此得到人體骨架模型的限制條件I |LiVn| I =
Ii, i = 1,2,…,其中Li是3X15矩陣,Ii是第i根骨骼的長度,m是總的骨骼數(shù);在上述骨骼約束I ILiVnI I = Ii, i = 1,2,…下,由相鄰的關節(jié)點連接組成整個三維人體骨架模型,當輸入一組對應人體運動時15個關節(jié)點的三維坐標值時,人體骨架模型將模擬出運動的三維人體姿態(tài)。步驟2,預處理視頻圖像。參照圖2,本步驟的具體實現(xiàn)如下2a)提取人體側影的骨架線2al)輸入人體視頻圖像,采用最小平方中值LMedS方法獲取背景圖像;2a2)將獲得的背景圖像與人體運動圖像做像素差,獲得背景差圖像;2a3)對獲得的背景差圖像采用形態(tài)學方法清除背景差圖像中的分割噪聲,得到清晰的人體側影;2a4)對獲得的人體側影采用邊緣跟蹤算法獲得人體側影外輪廓,提取側影外輪廓的中軸線細化人體側影,得到人體側影的骨架線;2b)在步驟2a)中獲得的人體側影的骨架線上沿骨架線搜索,得到頭、根、膝、腳節(jié)點的坐標位置2bl)使用同心圓模板沿著骨架線搜索,將落入圓環(huán)的人體側影輪廓點最多時的圓心作為頭節(jié)點;2b2)選取人體側影重心部位為根節(jié)點,將所有人體側影點X坐標值的算術平均值作為根節(jié)點的X坐標,將I坐標值的算術平均值作為根節(jié)點的I坐標;2b3)將三維人體骨架模型以根節(jié)點為基準在視頻圖像上投影,得到人體軀干中心點、鎖骨關節(jié)點和左右臀部關節(jié)點;2b4)根據(jù)以上獲得的頭,根關節(jié)點,使用粒子濾波檢測出手、肘、肩、膝和腳關節(jié)點的坐標位置。步驟3 :提取視頻圖像的第二代條帶波變換Bandlet2的圖像特征r 3a)輸入待處理視頻圖像,提取圖像中人體框圖,對框圖進行二維多尺度小波變換;3b)對二維多尺度小波變換后的圖像用四叉樹劃分算法和自底向上融合法則尋找并量化最優(yōu)幾何流方向;3c)將量化后的最優(yōu)幾何流方向信號做一維小波變換,重組為二維形式,得到Bandelet2系數(shù)矩陣;3d)提取最大幾何流統(tǒng)計特征作為圖像的Bandlet2特征r,r = Cr1,. . . . . . rN)τ,其中,T1為第i幀圖像的Bandlet2圖像特征,i e [I, N], N為視頻幀數(shù)(· ”表示矩陣的轉置。步驟4 :用步驟3提取的視頻圖像的第二代條帶波變換Bandlet2圖像特征r,作為雙高斯方法的輸入,預測出第i幀人體的3維坐標關節(jié)點V i
「((F')(d))T] ( [KR KrRV\ 二、 ^Nr O, R T R,
L(v;)(d)」L ViKrJ KR(r,r)\)其中,NK(·)表示高斯過程,(·)τ表示矩陣的轉置,r為輸入的bandlet2特征,V'為待預測人體姿態(tài)的3D關節(jié)點輸出,V' = (V 1; Vi 2,v' 3. ..,v' n)t,N為視頻幀數(shù),((V' )(d))T是待預測人體姿態(tài)V'的第d行即第d幀的人體姿態(tài),(V Jid)是待預測的第i幀人體的3維關節(jié)點V i中的第d個關節(jié)點坐標,KK(r,r)為零,Kk是一個NXN的矩陣,
Ke中的第i行第j列的元素為(K山」,g是一個NX I的列向量,g中第i行元素為(巧I (KrR =KR(rt,r), Ke Cri, r) = cov (f Cri), f (r)),(Ke) = Ke Cri, r」),Ke Cri, r」)=cov (f Cri), f Crj)),式中cov (f Cri), f (r」))是f Cri), f (r」)之間的協(xié)方差函數(shù),f Cri)是第i巾貞的bandlet2特征的零均值高斯函數(shù),f Crj)是第j巾貞的bandlet2特征的零均值高斯函數(shù),f Cr)是輸入的bandlet2特征的零均值高斯函數(shù)。步驟5 :初始化人體骨架模型5a)對步驟2b)得到的初始時刻視頻圖像關節(jié)點位置進行手工標定,由標定數(shù)據(jù)設置初始時刻人體姿態(tài)對應的人體骨架為%,其中V。為2b)中檢測到的第一幀視頻圖像的人體關節(jié)點位置;5b)將t-Ι時刻跟蹤得到的人體骨架作為t時刻的初始化人體骨架,t > O。步驟6:建立相似度函數(shù)6a)根據(jù)雙高斯預測得到的3D關節(jié)點和待預測的人體關節(jié)點,建立第η幀視頻下的3D距離相似度函數(shù)η)
15= -V1^W2ZI G [I, N],
i=l其中,N為視頻幀數(shù),I I · I I2表示2范數(shù),'為待預測關節(jié)點,Vq為雙高斯預測到的關節(jié)點;6b)根據(jù)雙高斯預測到的關節(jié)點和待預測的人體關節(jié)點在2D平面上的投影,建立第η幀視頻下的2D距離相似度函數(shù)/2 ,\):/2 (Vqn,' ) = Σ |< — vPrii I2 ^ e [,N',
z'=l其中,N為視頻幀數(shù),I I · I I2表示2范數(shù),V;為待預測關節(jié)點Vni的投影,Vai為雙高斯預測到的關節(jié)點1 _的投影。步驟7 :優(yōu)化相似度函數(shù)在步驟6中得到的兩個相似度函數(shù)和步驟I中的人體骨骼長度的約束下,設定求解兩個相似度函數(shù)fi (vn, V' n)和/2 ,Vfti)最小值的方程組
權利要求
1.一種產生式和判別式結合的人體運動跟蹤方法,包括如下步驟 (1)用骨骼抽象的方法建立三維人體骨架模型即將人體骨架按照15個關節(jié)劃分為14個部分,每部分由一根桿狀骨骼模型表達,在空間用14條具有三維坐標的關節(jié)點之間的直線段表示這14根桿狀骨骼模型,連接相應的關節(jié)點坐標組成整個三維人體骨架模型,當輸入一組運動人體對應的15個關節(jié)點的三維坐標值時,人體骨架模型將模擬出三維人體的運動姿態(tài); (2)預處理人體視頻圖像 2a)輸入人體視頻圖像,通過背景差分獲得人體側影,提取人體輪廓,對人體輪廓進行中軸細化處理,形成人體骨架線; 2b)在人體骨架線上沿骨架線搜索得到頭、腹部、膝、腳節(jié)點坐標位置,使用粒子濾波預測檢測出其余的人體關節(jié)點坐標位置; (3)提取視頻圖像的第二代條帶波變換Bandlet2的圖像特征r,作為雙高斯過程的輸入,使用雙高斯TGP算法,預測出第i幀人體的3維坐標關節(jié)點V' i,ie [1,N],獲得視頻序列的3D關節(jié)點輸出為V', Γ — (XlJ T2 7 T3J . . . 7 ΓΝ) J V — (Y,Y,Y · · β/^)其中,A為第i幀圖像的Bandlet2圖像特征,i e [I, N], (·)τ表示矩陣的轉秩; (4)初始化人體骨架模型 4a)對步驟2b)得到的初始時刻視頻圖像關節(jié)點位置進行手工標定,由標定數(shù)據(jù)設置初始時刻人體姿態(tài)對應的人體骨架記為%,其中V。為2b)中檢測到的第一幀視頻圖像的人體關節(jié)點位置; 4b)將t-Ι時刻跟蹤得到的人體骨架作為t時刻的初始化人體骨架,t > O ; (5)構建相似度函數(shù) 5a)將人體的3D關節(jié)點用V表示,2D關節(jié)點用Vq表示,Vq為V在2D平面上的投影,V為待估計量 V= (v1; v2, V3, , vN)T,V9= ( Y9, ^q, ^q, · · .Νψ, 其中,Vi為第i幀圖像的3D關節(jié)點,i e [1,N],vf為第i幀的2D關節(jié)點,i e [I, N],N為視頻幀數(shù); 5b)將用雙高斯TGP方法預測出的第i幀人體3D關節(jié)點V'在2D平面上做投影,得到2D投影的關節(jié)點坐標V' p:V= (V,V',V,· · ·,V' Y , PP\y Piy Pzyy Pn , 其中,為第i幀關節(jié)點3D關節(jié)點在2D上的投影,i e [1,N]; 5c)分別建立3D下的距離相似度函數(shù)V' J和2D下的距離相似度函數(shù)/2(' ; (6)利用非支配鄰域免疫算法,對t時刻兩個距離相似度函數(shù)f\(Vi,V'J、/2 Of,)在骨骼長度約束下求解最小值,獲得t時刻一組與真實人體運動姿態(tài)相似的人體骨架; (7)在t時刻對每一個由步驟(6)得到的人體骨架獲得骨架,計算該骨架關節(jié)點與t-1時刻跟蹤到的人體骨架關節(jié)點的歐式距離,選擇出歐式距離最小的人體骨架作為t時刻跟蹤到的最精確的人體骨架。
2.根據(jù)權利要求I所述的人體運動跟蹤方法,其中步驟(3)所述的使用雙高斯TGP算法,預測出V' i,按如下公式進行
3.根據(jù)權利要求I所述的人體運動跟蹤方法,其中步驟5c)中的3D距離2范數(shù)為
4.根據(jù)權利要求I所述的人體運動跟蹤方法,其中步驟5c)中的2D距離2范數(shù)為
5.根據(jù)權利要求I所述的人體運動跟蹤方法,其中步驟2a)所述的提取人體輪廓,對人體輪廓進行中軸細化處理,形成人體骨架線,是先采用最小平方中值LMedS方法獲取背景圖像,將人體運動圖像與背景圖像做像素差,獲得背景差圖像;再采用形態(tài)學方法清除背景差圖像中的分割噪聲,得到清晰的人體側影;最后采用邊緣跟蹤算法獲得人體側影外輪廓,提取側影輪廓的中軸線細化人體側影,得到人體側影的骨架線。
6.根據(jù)權利要求I所述的人體運動跟蹤方法,其中步驟3)中所述的提取視頻圖像的第二代條帶波變換Bandlet2的圖像特征,按照如下步驟進行 3a)先輸入待處理視頻圖像,提取圖像中人體框圖,對框圖進行二維多尺度小波變換; 3b)對二維多尺度小波變換后的圖像用四叉樹劃分算法和自底向上融合法則尋找并量化最優(yōu)幾何流方向; 3c)將量化后的最優(yōu)幾何流方向信號做一維小波變換,重組為二維形式,得到Bandelet2系數(shù)矩陣; 3d)提取最大幾何流統(tǒng)計特征作為最終圖像特征表示。
7.根據(jù)權利要求I所述的人體運動跟蹤方法,其中步驟6)中所述的利用非支配鄰域免疫算法,對t時刻兩個距離相似度函數(shù)f\(Vn,V' n)、/2 ,vA)在骨骼長度約束下求解最小值,按照如下公式進行
全文摘要
本發(fā)明公開了一種基于產生式和判別式結合的人體運動跟蹤方法,主要解決現(xiàn)有技術中人體運動跟蹤結果不準確的問題。其實現(xiàn)步驟為建立人體骨架模型;預處理視頻圖像獲得檢測關節(jié)點;提取視頻圖像的bandlet2特征;輸入提取的bandlet2特征使用雙高斯預測出人體姿態(tài);根據(jù)檢測到的關節(jié)點初始化人體骨架模型;構建雙高斯預測到的關節(jié)點與檢測到關節(jié)點的2D和3D相似度函數(shù);在骨骼長度約束下最小化相似度函數(shù)得到一組人體姿態(tài);從得到的一組人體姿態(tài)中選擇出與上一幀骨架歐式距離最小的狀態(tài)作為當前幀的佳運動姿態(tài)。本方法與現(xiàn)有的人體跟蹤方法相比,具有跟蹤結果準確性高,穩(wěn)定性高的優(yōu)點,可用于醫(yī)學治療、體育訓練、動畫制作和智能監(jiān)控系統(tǒng)。
文檔編號G06T7/20GK102682452SQ20121010480
公開日2012年9月19日 申請日期2012年4月12日 優(yōu)先權日2012年4月12日
發(fā)明者馮光潔, 張紅蕾, 李曉君, 王瑞, 茍靖翔, 謝福強, 韓啟強, 韓紅, 顧建銀 申請人:西安電子科技大學