專利名稱:前景動作估計裝置和前景動作估計方法
技術(shù)領域:
本發(fā)明涉及計算機視覺與機器學習領域,更具體地,涉及一種前景動作估計裝置和前景動作估計方法。
背景技術(shù):
從二維圖像中識別出人體的三維姿勢是計算機視覺與人工智能領域的一個熱點問題,這一技術(shù)可以應用于人機交互、視頻監(jiān)控以及數(shù)字信息的分析與理解等領域。然而這也是目前具有挑戰(zhàn)性的難點問題,原因在于1)二維圖像中的深度信息的丟失使得從二維圖像中推斷三維信息存在不明確性,即,可能存在多個可能解;2)人體圖像存在背景的變化、光照的變化、衣服的變化、不同的視角以及不同的姿勢等因素,這些因素極大地影響了三維姿勢的推斷;3)人體姿勢是由多個關(guān)節(jié)部位連接組合而成,人體姿勢所組成的姿勢空間的維數(shù)非常龐大,因而,在姿勢空間中尋找最優(yōu)的姿勢要耗費很大的計算量。
從單目圖像中估計人體姿勢的方法從技術(shù)原理上可以分為基于模型的方法和基于學習的方法。基于模型的方法首先建立一個由人體各部位組成的人體模型,姿勢估計的過程就是利用此模型在特征空間中搜索和匹配最接近的姿勢的過程,搜索過程通常轉(zhuǎn)化為非線性優(yōu)化問題或者概率密度估計問題,由于姿勢空間的維數(shù)非常龐大,這種方法通常需要與跟蹤相結(jié)合時才能取得較好的效果,因而姿勢估計的效果很大程度上取決于跟蹤前模型初始化的好壞,這些方法通常也需要先得到人體的各個部位的區(qū)域?;趯W習的方法直接從圖像特征推斷人體的三維姿勢,使用較多的圖像特征是人體輪廓信息,為了得到可靠的輪廓信息,已經(jīng)采用的方法有運動分析、背景建?;蛘哌@兩種方法的結(jié)合,然而這些方法在較復雜背景的情況下很難可靠的分離出人體輪廓。此外,其他已使用過的特征還有軀干檢測、膚色信息等。
由于目前大多數(shù)方法都依賴于圖像分割或者聚類,因此在復雜的背景條件下很難獲得較好的效果。A.Agarwal提出了一種從圖像特征中學習前景特征的方法,其利用非負矩陣分解對人體姿勢特征建模從而提取前景特征,由于避免了圖像分割的步驟,這種方法在應用上具有更高的靈活性,但是這一方法由于在做背景特征抑制時沒有考慮背景特征與前景特征的相互影響,因此特征重建時會將一部分背景特征也認為是前景特征,從而影響了背景抑制的效果。
可見,現(xiàn)有的物體識別的方法和系統(tǒng)通常要求先從背景中分離出前景物體,而在復雜背景下又很難取得好的分離效果,因而,急需一種能夠針對前景特征和背景特征建模,達到更高的背景特征抑制效果的方法。
發(fā)明內(nèi)容
鑒于現(xiàn)有技術(shù)中的問題,本發(fā)明提供了一種前景動作估計裝置和前景動作估計方法,其能夠直接對圖像的背景特征進行抑制,使得抑制后的圖像中前景特征相對加強,從而避免了使用圖像分割或者背景差分來獲得前景特征的方法,然后再基于抑制背景特征后的圖像特征估計人體的三維姿勢,從而提高了姿勢估計的準確性 根據(jù)本發(fā)明的一個方面,提供了一種用于估計圖片中的前景動作的前景動作估計裝置,其包括訓練圖像輸入裝置,用于輸入前景圖像、背景圖像、以及具有前景和背景的圖像作為訓練圖像;基矩陣計算裝置,用于通過從前景圖像和背景圖像中分別提取出前景特征和背景特征,分別計算出前景基矩陣和背景基矩陣,并且合并前景基矩陣和背景基矩陣以得到合并基矩陣;特征抑制裝置,用于根據(jù)由基矩陣計算裝置得到的合并基矩陣,計算所述訓練圖像的特征系數(shù),從而得到所述訓練圖像的抑制背景特征后的圖像特征;以及前景動作信息獲得裝置,用于利用抑制背景特征后的圖像特征,根據(jù)圖像特征到動作信息集的特征映射矩陣來估計前景動作信息。
其中,前景圖像、背景圖像、和訓練圖像的尺寸統(tǒng)一。
另外,根據(jù)本發(fā)明的前景動作估計裝置還可以包括存儲單元,用于存儲動作信息集,其中,前景圖像和訓練圖像都對應于動作信息集中的一個動作。
在特征抑制裝置中包括特征提取單元,用于提取訓練圖像的圖像特征;計算單元,用于計算圖像特征在合并基矩陣下的特征系數(shù);分離單元,用于分離出特征系數(shù)中的背景基系數(shù),從而得到前景基系數(shù);以及重建單元,用于通過前景基系數(shù)與前景基矩陣,以預定算法重建得到訓練圖像在抑制背景特征后的圖像特征。
在本發(fā)明中,在重建單元中的預定算法為通用矩陣乘法。在基矩陣計算裝置中的前景基矩陣和背景基矩陣至少是通過非負矩陣分解法得到的。前景至少包括人,動作至少包括姿勢。
前景特征、背景特征和圖像特征為前景圖像、背景圖像和訓練圖像的邊緣方向的統(tǒng)計特征,至少包括HoG(Histograms of OrientedGradients)特征或SIFT(Scale Invariant Feature Transform)特征。
根據(jù)本發(fā)明的另一方面,提供了一種用于估計圖片中的前景動作的前景動作估計方法,其包括以下步驟訓練圖像輸入步驟,用于輸入前景圖像、背景圖像、以及具有前景和背景的圖像作為訓練圖像;基矩陣計算步驟,用于通過從前景圖像和背景圖像中分別提取出前景特征和背景特征,分別計算出前景基矩陣和背景基矩陣,并且合并前景基矩陣和背景基矩陣以得到合并基矩陣;以及特征抑制步驟,用于根據(jù)由基矩陣計算步驟得到的合并基矩陣,計算所述訓練圖像的特征系數(shù),從而得到所述訓練圖像的抑制背景特征后的圖像特征;以及前景動作信息獲得步驟,用于利用抑制背景特征后的圖像特征,根據(jù)圖像特征到動作信息集的特征映射矩陣來估計前景動作信息。
其中,前景圖像、背景圖像、和訓練圖像的尺寸統(tǒng)一。
另外,該前景動作估計方法還包括動作信息集存儲步驟,其中,前景圖像和訓練圖像都對應于動作信息集中的一個動作。前景至少包括人,動作至少包括姿勢。
在特征抑制步驟中執(zhí)行以下處理提取訓練圖像的圖像特征;計算圖像特征在合并基矩陣下的特征系數(shù);分離出特征系數(shù)中的背景基系數(shù),從而得到前景基系數(shù);以及通過前景基系數(shù)與前景基矩陣,以預定算法重建得到訓練圖像在抑制背景特征后的圖像特征。
在本發(fā)明中,預定算法為通用矩陣乘法。前景特征、背景特征和圖像特征為前景圖像、背景圖像和訓練圖像的邊緣方向的統(tǒng)計特征,至少包括HoG特征或SIFT特征。
在基矩陣計算步驟中,至少通過非負矩陣分解法計算得到前景基矩陣和背景基矩陣。
因此,通過本發(fā)明,抑制了復雜背景圖像中的背景特征,從而保留并相對加強前景特征(人體姿勢信息),對于從二維單目圖像中估計人體的三維姿勢的準確性有顯著提高。
本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。
附圖用來提供對本發(fā)明的進一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明的實施例一起用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中 圖1是根據(jù)本發(fā)明的前景動作估計裝置的框圖; 圖2是根據(jù)本發(fā)明的前景動作估計方法的流程圖; 圖3是根據(jù)本發(fā)明實施例的基于背景特征抑制的人體姿勢估計方法的流程圖; 圖4是根據(jù)本發(fā)明實施例的背景特征抑制訓練和背景特征抑制過程的流程圖; 圖5是根據(jù)本發(fā)明實施例的姿勢估計訓練過程的流程圖,其中,(a)為輸入圖像,(b)為原始圖像特征,以及(c)為背景特征抑制后的重建圖像特征; 圖6是根據(jù)本發(fā)明實施例的計算圖像特征的方塊取法的示意圖; 圖7是通過本發(fā)明得到的背景特征抑制效果的示意圖;以及 圖8是通過本發(fā)明得到的人體姿勢估計效果的示意圖。
具體實施例方式 以下結(jié)合附圖對本發(fā)明的優(yōu)選實施例進行說明,應當理解,此處所描述的優(yōu)選實施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。
圖1是根據(jù)本發(fā)明的前景動作估計裝置100的框圖,如圖1所示,該裝置包括訓練圖像輸入裝置102,用于輸入前景圖像、背景圖像、以及具有前景和背景的圖像作為訓練圖像;基矩陣計算裝置104,用于通過從前景圖像和背景圖像中分別提取出前景特征和背景特征,分別計算出前景基矩陣和背景基矩陣,并且合并前景基矩陣和背景基矩陣以得到合并基矩陣;特征抑制裝置106,用于根據(jù)由基矩陣計算裝置104得到的合并基矩陣,計算所述訓練圖像的特征系數(shù),從而得到所述訓練圖像的抑制背景特征后的圖像特征;以及前景動作信息獲得裝置108,用于利用抑制背景特征后的圖像特征,根據(jù)圖像特征到動作信息集的特征映射矩陣來估計前景動作信息。
其中,前景圖像、背景圖像、和訓練圖像的尺寸統(tǒng)一。
另外,根據(jù)本發(fā)明的前景動作估計裝置還可以包括存儲單元,用于存儲動作信息集,其中,前景圖像和訓練圖像都對應于動作信息集中的一個動作。
在特征抑制裝置106中包括特征提取單元,用于提取訓練圖像的圖像特征;計算單元,用于計算圖像特征在合并基矩陣下的特征系數(shù);分離單元,用于分離出特征系數(shù)中的背景基系數(shù),從而得到前景基系數(shù);以及重建單元,用于通過前景基系數(shù)與前景基矩陣,以預定算法重建得到訓練圖像在抑制背景特征后的圖像特征。
在本發(fā)明中,在重建單元中的預定算法為通用矩陣乘法。在基矩陣計算裝置中的前景基矩陣和背景基矩陣至少是通過非負矩陣分解法得到的。前景至少包括人,動作至少包括姿勢。
前景特征、背景特征和圖像特征為前景圖像、背景圖像和訓練圖像的邊緣方向的統(tǒng)計特征,至少包括HoG特征或SIFT特征。
圖2是根據(jù)本發(fā)明的前景動作估計方法的框圖。如圖2所示,該方法包括以下步驟 S202,輸入前景圖像、背景圖像、以及具有前景和背景的圖像作為訓練圖像; S204,通過從前景圖像和背景圖像中分別提取出前景特征和背景特征,分別計算出前景基矩陣和背景基矩陣,并且合并前景基矩陣和背景基矩陣以得到合并基矩陣; S206,根據(jù)由步驟S204得到的合并基矩陣,計算所輸入的圖像的特征系數(shù),從而得到所輸入的圖像在抑制背景特征后的圖像特征;以及 S208,利用抑制背景特征后的圖像特征,根據(jù)圖像特征到動作信息集的特征映射矩陣來估計前景動作信息。
其中,前景圖像、背景圖像、和訓練圖像的尺寸統(tǒng)一。
另外,該前景動作估計方法還包括動作信息集存儲步驟,其中,前景圖像和訓練圖像都對應于動作信息集中的一個動作。
在S206中執(zhí)行以下處理提取訓練圖像的圖像特征;計算圖像特征在合并基矩陣下的特征系數(shù);分離出特征系數(shù)中的背景基系數(shù),從而得到前景基系數(shù);以及通過前景基系數(shù)與前景基矩陣,以預定算法重建得到訓練圖像在抑制背景特征后的圖像特征。
在本發(fā)明中,預定算法為通用矩陣乘法。前景特征、背景特征和圖像特征為前景圖像、背景圖像和訓練圖像的邊緣方向的統(tǒng)計特征,至少包括HoG特征或SIFT特征。
在S204中,至少通過非負矩陣分解法計算得到前景基矩陣和背景基矩陣。
因此,通過本發(fā)明的前景動作估計裝置或前景動作估計方法所獲得的抑制背景特征后的圖像特征,根據(jù)圖像特征到動作信息集的特征映射矩陣,可以估計前景的動作。
以下將參考圖3~圖6對本發(fā)明的實施例進行詳細描述,圖3是根據(jù)本發(fā)明實施例的基于背景特征抑制的人體姿勢估計方法的流程圖,圖4是根據(jù)本發(fā)明實施例的背景特征抑制訓練和背景特征抑制過程的流程圖,圖5是根據(jù)本發(fā)明實施例的姿勢估計訓練過程的流程圖,以及圖6是根據(jù)本發(fā)明實施例的計算圖像特征的方塊取法的示意圖。
如圖3所示,根據(jù)本發(fā)明實施例的基于背景特征抑制的人體姿勢估計方法包括以下步驟 步驟S302,對輸入圖片求取特征,圖像中邊緣方向的統(tǒng)計性特征是描述人體姿勢的一種可靠信息。優(yōu)選地,本發(fā)明采用SIFT特征作為圖像特征,具體的計算步驟如下。
1)分別計算圖像的每一象素點在水平方向和垂直方向的梯度,即, 水平梯度Ix(x,y)=d(I(x,y))/dx=I(x+1,y)-I(x-1,y) 垂直梯度Iy(x,y)=d(I(x,y))/dy=I(x,y+1)-I(x,y-1) 其中,I(x,y)表示圖像的灰度值,x,y分別表示象素點的水平方向和垂直方向的坐標。
2)分別計算圖像的每一象素點的梯度方向和幅值,即, 梯度方向θ(x,y)=arg tg(|Iy/Ix|) 梯度幅值
其中梯度方向θ(x,y)的范圍為
。
3)在圖像中從左至右、從上至下依次取24個32×32大小的方塊,其中水平方向每行6個方塊,垂直方向每列4個方塊,每兩個方塊之間依次重疊一半,如圖6所示。
4)將每一個32×32的方塊劃分為16個8×8的小方塊,其中水平方向每行4個小方塊,垂直方向每列4個小方塊,每兩個小方塊之間依次排列。
5)在每一個8×8的小方塊中,計算方塊中64個象素點的梯度方向直方圖,將梯度方向劃分為8個方向區(qū)間,即從0到π范圍內(nèi)每
為一個區(qū)間。即在每一個8×8的小方塊中統(tǒng)計8個方向區(qū)間內(nèi)的梯度值,其中梯度方向根據(jù)各自的幅值加權(quán),從而得到一個8維向量,每一個32×32的方塊得到一個128維向量。
6)將每一方塊的向量依次連接得到圖像特征,圖像特征的維數(shù)為3072維,即128×24=3072。
步驟S304,計算輸入圖像的圖像特征在合并基矩陣下的特征系數(shù),分離特征系數(shù)中的前景部分,與前景基重建得到背景特征抑制后的圖像特征,具體的計算步驟如下。
1)對輸入圖像提取圖像的SIFT特征得到VTest,輸入圖像如圖7(a)所示,特征圖像如圖7(b)所示。
2)計算待處理圖像特征VTest在合并基WCom下的特征系數(shù)HCom;HCom根據(jù)線性方程VTest=WCom·HCom計算得到,優(yōu)選地,本發(fā)明采用Levenberg-Marquardt算法計算HCom 3)提取特征系數(shù)HCom中對應于基WFore的前景部分HFore。
其中,因為
所以
4)利用提取出的前景部分的特征系數(shù)HFore與前景基WFore計算得到重建后的前景圖像特征,即,V′Test=WFore·HFore,重建后的前景圖像特征如圖7(c)所示。
步驟S306,根據(jù)圖像特征到三維姿勢信息的特征映射矩陣估計抑制背景特征后的圖像特征所對應的人體三維姿勢,具體的計算步驟如下。
將特征映射矩陣Map與重建后的前景圖像特征向量V′test相乘得到姿勢特征向量Pos,即Pos=Map·V′test,然后輸出三維姿勢信息Pos。
圖4是根據(jù)本發(fā)明實施例的背景特征抑制訓練和背景特征抑制過程的流程圖。在本發(fā)明中,訓練圖片集由前景圖片(人體)集和背景圖片集組成,訓練集中的圖片已經(jīng)設置為統(tǒng)一寬高(120×100)的圖片。
如圖4所示,具體包括以下步驟 計算訓練圖片集中背景圖片的特征,采用SIFT特征作為圖像特征,其計算步驟如步驟S302; 利用非負矩陣分解訓練得到背景特征圖像的基矩陣WBack,非負矩陣分解將一個非負矩陣Vm*n分解為兩個非負矩陣的乘積,即,Vm*n=Wm*r·Hr*n,其中W是V的基矩陣,H是對應于W的特征系數(shù)矩陣,m是特征的維數(shù),r是特征系數(shù)的維數(shù)。由于r<m,因此非負矩陣分解也能達到特征壓縮的目的; 計算訓練圖片集中前景圖片的特征,采用SIFT特征作為圖像特征,其計算步驟如步驟S302; 訓練得到前景圖片的基矩陣
其計算步驟如步驟S304;以及 合并前景基和背景基得到合并基WCom,合并方法為
在本發(fā)明中,采用非負矩陣分解訓練圖像的基矩陣,具體算法為 1)根據(jù)計算得到訓練圖片集的特征,將Nback張圖片的每一方塊中的特征依次連接得到一個Vtrainback的矩陣,Vtrainback的每一列是訓練圖片集中每一背景圖片的圖像特征,Vtrainback是3072×Nback維矩陣,Nback是訓練圖片集中背景圖片的張數(shù),最后得到背景特征矩陣集合
2)利用非負矩陣分解方法將Vtrainback(i)分解為Wback(i)和Hback(i)的乘積,i=1,2,...,24。這里取r=30,實驗結(jié)果表明r=30能達到最優(yōu)的壓縮與性能比。對每一方塊訓練得到一個基矩陣Wback(i),i=1,2,...,24;以及 3)得到背景基矩陣的集合
圖5是根據(jù)本發(fā)明實施例的姿勢估計訓練過程的流程圖。在本發(fā)明中,訓練集由人體姿勢圖片集和姿勢信息集組成,其中人體姿勢圖片集中的人體姿勢圖片與姿勢信息集中的人體姿勢信息一一對應,具體的姿勢估計訓練過程如下 步驟S502,提取人體姿勢圖片集中每一圖片的圖像特征,采用SIFT特征作為圖像特征,其計算步驟如步驟S302; 步驟S504,對訓練圖片集中的人體姿勢圖片的圖像特征進行背景特征抑制,其計算步驟如步驟S304;以及 步驟S506,利用訓練集中的圖像特征集與姿勢信息集訓練得到圖像特征到三維姿勢信息的特征映射矩陣。
步驟S506,首先,將人體姿勢圖片集中的所有圖片的圖像特征依次連接得到VtrainFeature矩陣,VtrainFeature的每一列是訓練圖片集中每一人體姿勢圖片的圖像特征,VtrainFeature是3072×NFeature維矩陣,NFeature是訓練圖片集中的圖片張數(shù)。然后,將姿勢信息集中的人體姿勢圖片所對應的姿勢信息連接得到Postrain矩陣,Postrain的每一列是姿勢信息集中每一人體姿勢信息的向量pos,pos定義為人體8個部位的三位坐標,這八個部位是頭部、腰部、左手腕、左手臂、左肩、右手腕、右手臂和右肩,因此,pos=[x1,y1,z1,x2,y2,z2,...,x24,y24,z24]T,Postrain是24×NFeature維矩陣。最后,求解線性方程組
采用脊回歸方法求此方程組的最優(yōu)解。
通過本發(fā)明得到的人體姿勢估計效果如圖8所示。在圖8中,(a)為輸入的圖像,(b)為輸入圖像的特征圖像,(c)為通過本發(fā)明背景特征抑制后的特征圖像,以及(d)為通過本發(fā)明得到的姿勢估計后的姿勢圖像。
綜上所述,通過本發(fā)明,抑制了復雜背景圖像中的背景特征,從而保留并相對加強前景特征(人體姿勢信息),對于從二維單目圖像中估計人體的三維姿勢的準確性有顯著提高。
以上僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種前景動作估計裝置,用于估計圖片中的前景動作,其特征在于,包括
訓練圖像輸入裝置,用于輸入前景圖像、背景圖像、以及具有前景和背景的圖像作為訓練圖像;
基矩陣計算裝置,用于通過從所述前景圖像和所述背景圖像中分別提取出前景特征和背景特征,分別計算出前景基矩陣和背景基矩陣,并且合并所述前景基矩陣和所述背景基矩陣以得到合并基矩陣;
特征抑制裝置,用于根據(jù)由所述基矩陣計算裝置得到的所述合并基矩陣,計算所述訓練圖像的特征系數(shù),從而得到所述訓練圖像的抑制背景特征后的圖像特征;以及
前景動作信息獲得裝置,用于利用所述抑制背景特征后的圖像特征,根據(jù)圖像特征到動作信息集的特征映射矩陣來估計前景動作信息。
2.根據(jù)權(quán)利要求1所述的前景動作估計裝置,其特征在于,所述前景圖像、所述背景圖像、和所述訓練圖像的尺寸統(tǒng)一。
3.根據(jù)權(quán)利要求1所述的前景動作估計裝置,其特征在于,還包括存儲單元,用于存儲動作信息集,
其中,所述前景圖像和所述訓練圖像都對應于所述動作信息集中的同一個動作。
4.根據(jù)權(quán)利要求3所述的前景動作估計裝置,其特征在于,所述特征抑制裝置包括
特征提取單元,用于提取所述訓練圖像的圖像特征;
計算單元,用于計算所述圖像特征在所述合并基矩陣下的特征系數(shù);
分離單元,用于分離出所述特征系數(shù)中的背景基系數(shù),從而得到前景基系數(shù);以及
重建單元,用于通過所述前景基系數(shù)與所述前景基矩陣,以預定算法重建得到所述訓練圖像在抑制背景特征后的圖像特征。
5.根據(jù)權(quán)利要求4所述的前景動作估計裝置,其特征在于,在所述重建單元中,所述預定算法為通用矩陣乘法。
6.根據(jù)權(quán)利要求1所述的前景動作估計裝置,其特征在于,在所述基矩陣計算裝置中的所述前景基矩陣和所述背景基矩陣至少是通過非負矩陣分解法得到的。
7.根據(jù)權(quán)利要求1所述的前景動作估計裝置,其特征在于,所述前景至少包括人,所述動作至少包括姿勢。
8.根據(jù)前述權(quán)利要求中任一項所述的前景動作估計裝置,其特征在于,所述前景特征、背景特征和圖像特征為所述前景圖像、背景圖像和訓練圖像的邊緣方向的統(tǒng)計特征,至少包括HoG特征或SIFT特征。
9.一種前景動作估計方法,用于估計圖片中的前景動作,其特征在于,包括以下步驟
訓練圖像輸入步驟,用于輸入前景圖像、背景圖像、以及具有前景和背景的圖像作為訓練圖像;
基矩陣計算步驟,用于通過從所述前景圖像和所述背景圖像中分別提取出前景特征和背景特征,分別計算出前景基矩陣和背景基矩陣,并且合并所述前景基矩陣和所述背景基矩陣以得到合并基矩陣;
特征抑制步驟,用于根據(jù)由所述基矩陣計算步驟得到的所述合并基矩陣,計算所述訓練圖像的特征系數(shù),從而得到所述訓圖像的抑制背景特征后的圖像特征;以及
前景動作信息獲得步驟,用于利用所述抑制背景特征后的圖像特征,根據(jù)圖像特征到動作信息集的特征映射矩陣來估計前景動作信息。
10.根據(jù)權(quán)利要求9所述的前景動作估計方法,其特征在于,所述前景圖像、所述背景圖像、和所述訓練圖像的尺寸統(tǒng)一。
11.根據(jù)權(quán)利要求9所述的前景動作估計方法,其特征在于,還包括動作信息集存儲步驟,
其中,所述前景圖像和所述訓練圖像都對應于所述動作信息集中的一個動作。
12.根據(jù)權(quán)利要求11所述的前景動作估計方法,其特征在于,在所述特征抑制步驟中執(zhí)行以下處理
提取所述訓練圖像的圖像特征;
計算所述圖像特征在所述合并基矩陣下的特征系數(shù);
分離出所述特征系數(shù)中的背景基系數(shù),從而得到前景基系數(shù);以及
通過所述前景基系數(shù)與所述前景基矩陣,以預定算法重建得到所述訓練圖像在抑制背景特征后的圖像特征。
13.根據(jù)權(quán)利要求12所述的前景動作估計方法,其特征在于,所述預定算法為通用矩陣乘法。
14.根據(jù)權(quán)利要求9所述的前景動作估計方法,其特征在于,在所述基矩陣計算步驟中,至少通過非負矩陣分解法計算得到所述前景基矩陣和所述背景基矩陣。
15.根據(jù)權(quán)利要求9所述的前景動作估計方法,其特征在于,所述前景至少包括人,所述動作至少包括姿勢。
16.根據(jù)權(quán)利要求9至15中任一項所述的前景動作估計方法,其特征在于,所述前景特征、背景特征和圖像特征為所述前景圖像、背景圖像和訓練圖像的邊緣方向的統(tǒng)計特征,至少包括HoG特征或SIFT特征。
全文摘要
本發(fā)明提供了一種前景動作估計裝置和前景動作估計方法,其中,前景動作估計裝置包括訓練圖像輸入裝置,用于輸入前景圖像、背景圖像、以及具有前景和背景的圖像作為訓練圖像;基矩陣計算裝置,用于通過從前景圖像和背景圖像中分別提取出前景特征和背景特征,分別計算出前景基矩陣和背景基矩陣,并且合并前景基矩陣和背景基矩陣以得到合并基矩陣;特征抑制裝置,用于根據(jù)由基矩陣計算裝置得到的合并基矩陣,計算所述訓練圖像的特征系數(shù),從而得到所述訓練圖像在抑制背景特征后的圖像特征;以及前景動作信息獲得裝置,用于利用抑制背景特征后的圖像特征,根據(jù)圖像特征到動作信息集的特征映射矩陣來估計前景動作信息。
文檔編號G06K9/62GK101727568SQ20081016749
公開日2010年6月9日 申請日期2008年10月10日 優(yōu)先權(quán)日2008年10月10日
發(fā)明者李亮, 吳偉國 申請人:索尼(中國)有限公司