專利名稱:人體姿態(tài)識別方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及計算機視覺,更具體地講,涉及實時人體姿態(tài)識別和運動分析 的估計。
背景技術(shù):
人體運動分析和人體姿態(tài)識別是非常重要的技術(shù),該技術(shù)使用有意義的人體姿 態(tài),以有助于實現(xiàn)人機交互、虛擬三維(3D)交互游戲、3D姿勢識別等。近年來,由于其具有 前景的學(xué)術(shù)價值和商業(yè)價值,人體運動捕獲研究受到了越來越多的關(guān)注。目前存在用于人體運動分析的多種方案。一些方案需要在對象上貼上特定的標記 塊或需要特定的運動捕獲設(shè)備,在一般的環(huán)境中(諸如家庭娛樂、3D交互游戲等),上述需 要對于用戶是不方便的,并且限制了這些方案的應(yīng)用。對于一些實際的應(yīng)用,已經(jīng)作出很大 的努力來使得用于人體運動分析的標記更少。現(xiàn)有的方法主要劃分為兩類,即,基于人體部 位分析的方法和基于樣本的方法。另一方面,現(xiàn)有的方法還可分為基于彩色圖像的方法以 及3D激光掃描人體模型輔助方法。眾所周知,彩色圖像只能提供二維(2D)信息,諸如顏色、紋理、形狀等。因此,不 可避免地會導(dǎo)致2D信息中的姿態(tài)不確定問題。例如,如果人體的一些部位是自遮擋的 (self-occlusion),則由于彩色圖像中的人體姿態(tài)的不確定性,將不能使用基于彩色圖像 的方法進行正確的人體姿態(tài)識別。即使使用了更為先進的姿態(tài)推斷方法,姿態(tài)不確定性的 顏色信息也會導(dǎo)致低處理速度和不準確的姿態(tài)推斷結(jié)果。另外,根據(jù)不同的季節(jié)、人的服飾 和環(huán)境光照變化,顏色信息是不穩(wěn)定的(或者是不魯棒的),因此,在復(fù)雜的環(huán)境中,基于顏 色信息的人體姿態(tài)識別方法是不能滿足要求的。因此,一些研究人員和工程師使用激光掃 描的3D模型來獲得更精確的結(jié)果。然而,由于捕獲裝置的高成本和大體積,激光掃描儀在 真實的環(huán)境(諸如家庭娛樂、3D交互游戲等)中不實用。為了解決該問題,需要一種在雜亂 的環(huán)境中進行實時人體姿態(tài)識別的方法和裝置。
發(fā)明內(nèi)容
本發(fā)明仍然集中于無需標記塊的人體姿態(tài)識別或者人體運動分析。但是,在本發(fā) 明中,通過新的方式來解決現(xiàn)有技術(shù)中的問題。首先,本發(fā)明采用組合的TOF深度攝像機 (可同時提供深度圖像和強度圖像)以及彩色攝像機(提供彩色圖像)。其次,本發(fā)明提供 一種在復(fù)雜環(huán)境中識別人體姿態(tài)的方法和裝置,該方法和裝置可有效利用深度信息和顏色 信息來進行人體姿態(tài)識別。根據(jù)本發(fā)明的一方面,提供一種人體姿態(tài)識別裝置,該裝置包括輸入模塊,包括 深度攝像機和彩色攝像機,用于同時捕獲人體姿態(tài),形成輸入圖像;預(yù)處理模塊,將輸入圖 像預(yù)處理為適合的格式,并將圖像歸一化為固定大小,產(chǎn)生形狀獨立的姿態(tài)采樣,形成采樣 數(shù)據(jù);訓(xùn)練模塊,在訓(xùn)練階段使用統(tǒng)計學(xué)習(xí)方法進行采樣數(shù)據(jù)的維度降低,以獲得原始圖像 空間到特征空間的投影變換矩陣,并構(gòu)建最近鄰分類器;特征提取模塊,根據(jù)所述投影變換矩陣分別在訓(xùn)練階段和人體姿態(tài)識別階段從采樣數(shù)據(jù)提取有區(qū)別的姿態(tài)特征;模板數(shù)據(jù) 庫構(gòu)建模塊,根據(jù)特征提取模塊在訓(xùn)練階段中提取的有區(qū)別的姿態(tài)特征構(gòu)建姿態(tài)模板數(shù)據(jù) 庫;搜索模塊,通過最近鄰分類器將特征提取模塊在人體姿態(tài)識別階段中提取的有區(qū)別的 姿態(tài)特征與姿態(tài)模板數(shù)據(jù)庫中的姿態(tài)模板比較,以進行人體姿態(tài)匹配;輸出模塊,輸出最佳 匹配的姿態(tài),并基于最佳匹配的姿態(tài)重新定位虛擬人體模型。根據(jù)本發(fā)明的另一方面,提供一種人體姿態(tài)識別方法,該方法包括(a)利用深度 攝像機和彩色攝像機同時捕獲人體姿態(tài),形成輸入圖像;(b)將輸入圖像預(yù)處理為適合的 格式,并將圖像歸一化為固定大小,產(chǎn)生形狀獨立的姿態(tài)采樣,形成采樣數(shù)據(jù);(C)在訓(xùn)練 階段使用統(tǒng)計學(xué)習(xí)方法進行采樣數(shù)據(jù)的維度降低,以獲得原始圖像空間到特征空間的投影 變換矩陣,并構(gòu)建最近鄰分類器;(d)根據(jù)所述投影變換矩陣分別在訓(xùn)練階段和人體姿態(tài) 識別階段從采樣數(shù)據(jù)提取有區(qū)別的姿態(tài)特征;(e)根據(jù)在訓(xùn)練階段中提取的有區(qū)別的姿態(tài) 特征構(gòu)建姿態(tài)模板數(shù)據(jù)庫;(f)通過最近鄰分類器將在人體姿態(tài)識別階段中提取的有區(qū)別 的姿態(tài)特征與姿態(tài)模板數(shù)據(jù)庫中的姿態(tài)模板比較,以進行人體姿態(tài)匹配;(g)輸出最佳匹 配的姿態(tài),并基于最佳匹配的姿態(tài)重新定位虛擬人體模型。
通過結(jié)合附圖,從下面的實施例的描述中,本發(fā)明這些和/或其它方面及優(yōu)點將 會變得清楚,并且更易于理解,其中圖1是根據(jù)本發(fā)明實施例的人體姿態(tài)識別裝置的框圖;圖2示出了根據(jù)本發(fā)明實施例的輸入模塊捕獲的采樣圖像;圖3是根據(jù)本發(fā)明實施例的人體姿態(tài)識別方法的流程圖;圖4示出了根據(jù)本發(fā)明實施例的預(yù)處理模塊的圖像預(yù)處理過程;圖5示出了根據(jù)本發(fā)明實施例的定位肩部點的示例;圖6示出了根據(jù)本發(fā)明實施例的訓(xùn)練模塊的分類器訓(xùn)練過程;圖7示出了根據(jù)本發(fā)明實施例的模板數(shù)據(jù)庫構(gòu)建模塊的模板數(shù)據(jù)庫構(gòu)建過程。圖8示出了根據(jù)本發(fā)明實施例的特征提取模塊的特征提取過程;圖9示出了根據(jù)本發(fā)明實施例的搜索模塊的特征匹配和輸出模塊的人體姿態(tài)輸 出過程;圖10至圖13示出了根據(jù)本發(fā)明進行的實驗1和實驗2。
具體實施例方式以下,參照附圖來詳細說明本發(fā)明的實施例。圖1是根據(jù)本發(fā)明實施例的人體姿態(tài)識別裝置的框圖。如圖1所示,該人體姿態(tài)識 別裝置包括輸入模塊101、預(yù)處理模塊102、訓(xùn)練模塊103、模板數(shù)據(jù)庫(DB)構(gòu)建模塊104、 特征提取模塊105、搜索模塊106和輸出模塊107。輸入模塊101包括兩個攝像機,即,深度攝像機和彩色攝像機,深度攝像機可以是 例如TOF(Time of Flight)深度攝像機。TOF深度攝像機和彩色攝像機用于同時捕獲人體 姿態(tài),形成輸入圖像。預(yù)處理模塊102將輸入圖像預(yù)處理為適合的格式,并將圖像歸一化為 固定大小,產(chǎn)生形狀獨立的采樣。歸一化的采樣的原始數(shù)據(jù)是高維度的。在預(yù)處理之后,訓(xùn)練模塊103在訓(xùn)練階段(即,學(xué)習(xí)階段)使用統(tǒng)計學(xué)習(xí)方法(諸如PCA (主元分析)、LLE (局 部線性嵌入)等),來進行采樣數(shù)據(jù)的維度降低,以獲得原始圖像空間到特征空間的投影變 換矩陣(即,獲得用于特征提取的特征選取機制),并構(gòu)建最近鄰分類器。為了識別人體姿 態(tài),模板DB構(gòu)建模塊104構(gòu)建離線的先前姿態(tài)模板數(shù)據(jù)庫。在模板DB構(gòu)建模塊104中,對 不同的人體姿態(tài)進行人工標注。然后,特征提取模塊105根據(jù)投影變換矩陣在訓(xùn)練階段從 采樣數(shù)據(jù)提取有區(qū)別的姿態(tài)特征,以便模板DB構(gòu)建模塊104最終建立姿態(tài)特征和相關(guān)姿態(tài) 之間的姿態(tài)對應(yīng)關(guān)系。在在線的姿態(tài)識別階段中,特征提取模塊105根據(jù)投影變換矩陣僅提取有區(qū)別的 姿態(tài)特征。搜索模塊106接收所述有區(qū)別的姿態(tài)特征,通過最近鄰分類器將特征提取模塊 105在人體姿態(tài)識別階段中提取的有區(qū)別的姿態(tài)特征與姿態(tài)模板數(shù)據(jù)庫中的姿態(tài)模板比 較,以進行人體姿態(tài)匹配。之后,輸出模塊107給出最佳匹配的姿態(tài),重新定位虛擬人體模 型。由此,就完成了整個人體姿態(tài)識別過程。在本發(fā)明中,使用兩個攝像機來同時捕獲相同的場景。一個攝像機是TOF深度攝 像機,另一個攝像機是彩色攝像機。彩色攝像機可以是傳統(tǒng)的CCD/CMOS攝像機,可提供彩 色圖像。TOF深度攝像機可提供深度圖像和強度圖像。深度圖像表示拍攝對象和TOF深度 攝像機之間的距離。強度圖像表示TOF深度攝像機接收的光強能量。圖2示出了根據(jù)本發(fā)明實施例的輸入模塊101捕獲的采樣圖像。從圖2可看出,強 度圖像提供了清晰的背景圖像,該背景圖像非常適合于進行前景提取和剪影(silhouette) 分割。直觀地,可容易地使用清晰的背景強度圖像來定位人體的頭部和軀干。在人佩戴的 眼鏡反光很嚴重的情況下,如果想要定位眼部位置,則強度圖像可能不是最佳選擇。因此, 可使用彩色圖像來定位眼部位置。存在多種不同的方法在彩色圖像中定位眼部位置。另 外,在一些情況下,彩色圖像和剪影圖像對于人體姿態(tài)分析是有歧義的,因此可充分利用深 度圖像來減輕人體姿態(tài)的歧義性。在獲得了三種類型的輸入圖像(彩色圖像、深度圖像和強度圖像)之后,需要將這 些圖像預(yù)處理為適合的格式。利用這三種類型的輸入圖像來進行圖像預(yù)處理。圖3是根據(jù)本發(fā)明實施例的人體姿態(tài)識別方法的流程圖。參照圖3,在操作301,輸入模塊101中的深度攝像機和彩色攝像機同時捕獲人體 姿態(tài),形成輸入圖像。在操作302,預(yù)處理模塊102將輸入圖像預(yù)處理為適合的格式,并將 圖像歸一化為固定大小,產(chǎn)生形狀獨立的采樣。在操作303,訓(xùn)練模塊103在訓(xùn)練階段使用 統(tǒng)計學(xué)習(xí)方法進行采樣數(shù)據(jù)的維度降低維度降低,以獲得原始圖像空間到特征空間的投影 變換矩陣,并構(gòu)建最近鄰分類器。在操作304,征提取模塊104根據(jù)投影變換矩陣分別在訓(xùn) 練階段和人體姿態(tài)識別階段從采樣數(shù)據(jù)提取有區(qū)別的姿態(tài)特征。在操作305,模板數(shù)據(jù)庫 (DB)構(gòu)建模塊根據(jù)訓(xùn)練階段中的有區(qū)別的姿態(tài)特征構(gòu)建姿態(tài)模板數(shù)據(jù)庫。在操作306,搜 索模塊106通過最近鄰分類器將特征提取模塊105在人體姿態(tài)識別階段中提取的有區(qū)別的 姿態(tài)特征與姿態(tài)模板數(shù)據(jù)庫中的姿態(tài)模板比較,以進行人體姿態(tài)匹配。在操作307,輸出模 塊107輸出最佳匹配的姿態(tài),并基于最佳匹配的姿態(tài)重新定位虛擬人體模型。下面參照圖4和圖5來描述根據(jù)本發(fā)明的圖像預(yù)處理。圖4示出了根據(jù)本發(fā)明實 施例的預(yù)處理模塊102的圖像預(yù)處理過程。參照圖4,在操作401,預(yù)處理模塊102使用強度圖像對人體區(qū)域進行分割并提取剪影。在該過程中,可使用閾值分割方法。在操作402,預(yù)處理模塊102使用分割的人體區(qū) 域作為彩色圖像中的掩模(mask),以便于檢測頭部和軀干。對于頭部和軀干檢測,預(yù)處理 模塊102可使用現(xiàn)有的AdaBoost算法提供的檢測器訓(xùn)練以及局部特征。預(yù)處理模塊102 將圖像歸一化為固定大小,因此需要一些參考點。在操作403,預(yù)處理模塊102選擇眼部位 置和肩部位置作為參考點,這是因為,對于人體的正面視圖,眼部位置在頭部區(qū)域中是強健 的參考點,肩部位置在軀干區(qū)域中是強健的參考點。為了強健地定位眼部位置,預(yù)處理模塊 102可使用現(xiàn)有的訓(xùn)練的眼部檢測器,該眼部檢測器也可基于AdaBoost算法和局部特征方 法被訓(xùn)練。為了強健地定位肩部位置(包括左肩部點I\s和右肩部點Pks),預(yù)處理模塊102 采用一種簡單的方法,該方法具有如圖4所示的掩模的深度圖像的優(yōu)點。預(yù)處理模塊102 檢測在軀干區(qū)域的水平投影和垂直投影中的彎曲點作為肩部點。在定位了眼部位置和肩部位置之后,在操作404,預(yù)處理模塊102進行形狀歸一化 處理。形狀歸一化的目的是產(chǎn)生形狀獨立的采樣。假設(shè)P1表示左眼和右眼之間的中心,P2 表示左肩部點Pu和右肩部點Pks之間的中心,D1表示P1和P2之間的距離,D2表示左肩部點 Pls和右肩部點Pk之間的距離,則采用D1作為采樣高度h的參考長度,采用D2作為采樣寬 度w的參考長度。形狀歸一化部分1024使用下面的等式來將采樣修剪和歸一化為80X48 的大小^/D1 = S 2(該比例用于對形狀進行歸一化);w = 4XD2以及I1 = GXD1(用于 采樣區(qū)域大小)。對于拳擊動作,預(yù)處理模塊102將采樣修剪和歸一化為80X80的大小,并 且設(shè)置w = h = BXD1,因為采集的圖像不包括復(fù)雜的拳擊動作。圖5示出了根據(jù)本發(fā)明實施例的定位肩部點的示例。具體地,圖5中的(a)是人 體前景區(qū)域的剪影。圖5中的(b)是該在該圖像(該剪影)垂直方向的直方圖,橫坐標代 表圖像的水平方向的位置(即,圖像的列坐標,取值范圍為0 圖像寬度),縱坐標含義為在 某一個列坐標點,圖像中該列所有像素值的累計值(即,該列坐標點的垂直方向投影值)。 圖5中的(c)是圖像在水平方向的直方圖,橫坐標代表圖像的垂直方向的位置(即,圖像的 行坐標,取值范圍為0 圖像高度),縱坐標含義為在某一個行坐標點,圖像中該行所有像 素值的累計值(即該行坐標點的水平方向投影值)。圖5中的(d)是定位人體肩部點(區(qū) 域檢測)的結(jié)果。下面參照圖6來描述根據(jù)本發(fā)明的分類器訓(xùn)練。圖6示出了根據(jù)本發(fā)明實施例的 訓(xùn)練模塊103的分類器訓(xùn)練過程。訓(xùn)練模塊103采用PCA(主元分析)和LLE (局部線性嵌入)學(xué)習(xí)方法來獲得原始 圖像空間到特征空間的投影變換矩陣。參照圖6,在操作601,訓(xùn)練模塊103創(chuàng)建訓(xùn)練數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)集選擇的標準是 使得訓(xùn)練采樣(即,訓(xùn)練階段中的姿態(tài)采樣)多樣化和具有代表性,使訓(xùn)練數(shù)據(jù)集包含盡可 能多的人體動作。訓(xùn)練模塊103主要根據(jù)不同的拳擊動作選擇多樣化的訓(xùn)練采樣,并使得 訓(xùn)練采樣均勻分布在圖像空間中。然后,在操作602,訓(xùn)練模塊103將訓(xùn)練采樣數(shù)據(jù)變換為 合適的輸入矢量,以進行學(xué)習(xí)。即,訓(xùn)練模塊103直接將2D數(shù)據(jù)展開為一維(ID)矢量。接 著,在操作603,訓(xùn)練模塊103采用PCA(主元分析)和LLE(局部線性嵌入)等統(tǒng)計學(xué)習(xí)方 法來進行維度降低,以獲得投影變換矩陣。本領(lǐng)域技術(shù)人員可從現(xiàn)有技術(shù)中獲得關(guān)于PCA 和LLE的具體介紹,因此這里不再對其進行詳細描述。此后,在操作604,訓(xùn)練模塊103構(gòu)建 具有L1距離(相似度度量值)的NN(最近鄰)分類器,L1的定義在下文中描述。
下面參照圖7來描述根據(jù)本發(fā)明的模板DB構(gòu)建。圖7示出了根據(jù)本發(fā)明實施例 的模板DB構(gòu)建模塊104的模板DB構(gòu)建過程。模板DB構(gòu)建對于基于樣本的運動分析是重 要的部分。參照圖7,在操作701,模板DB構(gòu)建模塊104選擇不同的姿態(tài)采樣。然后,在操作 702,模板DB構(gòu)建模塊104對姿態(tài)采樣圖像進行人工標注。優(yōu)選的是,模板DB構(gòu)建模塊104 使用基于標記的運動捕獲系統(tǒng)或合適的計算機圖形軟件來產(chǎn)生被標注的數(shù)據(jù)集。由于當前 裝置以及布置所限,在本發(fā)明中采集了 8種類型的拳擊動作姿態(tài),并省略了標注的過程。特 征提取模塊105根據(jù)訓(xùn)練模塊103獲得的投影變換矩陣從采樣中提取低維度的有區(qū)別的特 征。接著,在操作703,模板DB構(gòu)建模塊104基于提取的有區(qū)別的特征建立所述區(qū)別特征與 姿態(tài)(骨架)之間的對應(yīng)關(guān)系。在本發(fā)明中,建立了所述區(qū)別特征與8種類型的拳擊動作 的索引之間的對應(yīng)關(guān)系。此后,在操作704,模板DB構(gòu)建模塊104基于建立的對應(yīng)關(guān)系產(chǎn)生 包括特征矢量和相關(guān)聯(lián)的骨架(或動作)索引的模板。下面參照圖8和圖9來描述根據(jù)本發(fā)明的在線姿態(tài)識別。在訓(xùn)練了分類器和建立 的合適的模板DB之后,可進行在線姿態(tài)識別。與訓(xùn)練階段類似,首先對輸入圖像進行預(yù)處 理。隨后的過程包括特征提取、特征匹配和人體姿態(tài)輸出。圖8示出了根據(jù)本發(fā)明實施例的特征提取模塊105的特征提取過程,圖9示出了 根據(jù)本發(fā)明實施例的搜索模塊106的特征匹配和輸出模塊107的人體姿態(tài)輸出過程。特征提取的目的在于提取有區(qū)別的特征以進行匹配。參照圖8,在操作801,特征 提取模塊105將輸入圖像的深度數(shù)據(jù)變換為適合的圖像矢量,即,直接將2D數(shù)據(jù)展開為ID 矢量。然后,在操作802,特征提取模塊105使用在訓(xùn)練階段中獲得的投影變換矩陣將來自 圖像空間的數(shù)據(jù)投影到特征空間。在本發(fā)明中,可使用訓(xùn)練的PCA和LLE投影變換矩陣。假設(shè)X= Ix1, X2, ...%}表示輸入的ID圖像數(shù)據(jù)(其中,N = wXh,w為采樣寬 度,h為采樣高度),W表示訓(xùn)練的PCA/LLE投影變換矩陣(W的維度為NXM,M<<N)。因 此,在操作803,特征提取模塊105可獲得特征矢量V,V = ffTX,特征矢量V的維度為M。在進行了特征提取之后,利用NN(最近鄰)分類器在模板數(shù)據(jù)庫中取出top-n最 佳匹配姿態(tài)。也就是,搜索模塊106通過最近鄰分類器將在人體姿態(tài)識別階段中提取的有 區(qū)別的姿態(tài)特征與姿態(tài)模板數(shù)據(jù)庫104中的姿態(tài)模板比較,以進行人體姿態(tài)匹配。具體地 講,參照圖9,在操作901,搜索模塊106利用最近鄰分類器計算當前的特征矢量與模板數(shù)據(jù) 庫中的特征矢量之間的距離。假設(shè)Vtl是當前的特征矢量(S卩,輸入的特征矢量),Vi是模板 DB中的特征矢量(i = 1,. . .,N),Si是相關(guān)聯(lián)的骨架(姿態(tài))索引(i = 1,. . .,N)。使用 距離測量L1 = I V0-Vi I (i = 1,. . .,N),輸入的特征矢量Vtl將與模板DB中的所有N個模板 Vi進行匹配,得到一系列的L1相似度度量值。在操作902,搜索模塊106基于所述L1距離 可在模板數(shù)據(jù)庫中獲得top-n最佳匹配的索引。在操作903,輸出模塊107根據(jù)最佳匹配的 索引利在模板數(shù)據(jù)庫中獲得最佳匹配的姿態(tài)(骨架)。接著,在操作904,輸出模塊107基 于最佳匹配的姿態(tài)(骨架)重新定位虛擬人體模型。例如,在離線學(xué)習(xí)階段建立了姿態(tài)模板數(shù)據(jù)庫104,姿態(tài)模板數(shù)據(jù)庫104包括一套 太極拳的動作庫,有500個動作的圖像。在建立姿態(tài)模板數(shù)據(jù)庫104時,分別提取了各個人 體動作的特征矢量,并對各個關(guān)節(jié)點的位置進行標注(便于輸出模塊107驅(qū)動虛擬人物顯 示)。在實際的在線動作識別的階段,用戶做了一個動作,捕捉到該動作的圖像,由預(yù)處理模塊102進行了預(yù)處理,特征提取模塊105提取有區(qū)別的姿態(tài)特征,然后得到了該動作的特征矢量;搜索模塊106通過最近鄰分類器將該特征矢量與姿態(tài)模板數(shù)據(jù)庫104中的500組特 征矢量分別進行比較,計算相似度,找到相似度最大的η個動作,這個過程就是top-n最近 鄰分類的過程;如果η = 1,就是找到一個最相近的動作;輸出模塊107輸出與這個動作對 應(yīng)的人體關(guān)節(jié)點信息,進行虛擬人物的驅(qū)動或顯示。下面參照圖10至圖13描述根據(jù)本發(fā)明進行的實驗1和實驗2。參照圖10,在實驗1中,針對特定的人。在訓(xùn)練數(shù)據(jù)中包括了測試的人的姿態(tài)數(shù)據(jù)。在訓(xùn)練階段,涉及了 4個人,有8種姿態(tài)的拳擊動作,有1079個采樣(每個采樣大小為 80X80),按照100維度來進行重新定位人體模型。在測試階段,涉及了與訓(xùn)練階段相同的 4個人,有8種姿態(tài)的拳擊動作,測試了 1079個采樣。圖11示出了實驗1的結(jié)果。圖11中的(a)示出了采用LLE方法得到的搜索結(jié)果,圖11中的(b)示出了采用PCA方法得到的搜索結(jié)果,在圖11中的(a)和(b)中,左上角的 一個圖像被輸入作為查詢,其它圖像被輸出作為返回值。參照圖12,在實驗2中,針對非特定的人。在訓(xùn)練數(shù)據(jù)中不包括測試的人的姿態(tài)數(shù)據(jù)。在訓(xùn)練階段,涉及了4個人,有8種姿態(tài)的拳擊動作,有1079個采樣,按照100維度來 進行重新定位人體模型。在測試階段,涉及了與訓(xùn)練階段不同的2個人,有8種姿態(tài)的拳擊 動作,測試了 494個采樣。圖13示出了實驗2的結(jié)果。圖13中的(a)示出了采用LLE方法得到的搜索結(jié)果,圖13中的(b)示出了采用PCA方法得到的搜索結(jié)果,在圖13中的(a)和(b)中,左上角的 一個圖像被輸入作為查詢,其它圖像被輸出作為返回值。因此,與傳統(tǒng)的基于彩色圖像的方法相比,本發(fā)明由于使用深度數(shù)據(jù)可解決剪影中的模糊問題。本發(fā)明利用了深度信息和顏色信息,可提供一種形狀歸一化方法,該方法可 獲得形狀獨立的姿態(tài)識別。另外,本發(fā)明采用了統(tǒng)計學(xué)習(xí)方法和快速搜索方法,使得人體姿 態(tài)識別裝置結(jié)構(gòu)簡單并且更加有效。雖然本發(fā)明是參照其示例性的實施例被具體描述和顯示的,但是本領(lǐng)域的普通技術(shù)人員應(yīng)該理解,在不脫離由權(quán)利要求限定的本發(fā)明的精神和范圍的情況下,可以對其進 行形式和細節(jié)的各種改變。
權(quán)利要求
一種人體姿態(tài)識別裝置,包括輸入模塊,包括深度攝像機和彩色攝像機,用于同時捕獲人體姿態(tài),形成輸入圖像;預(yù)處理模塊,將輸入圖像預(yù)處理為適合的格式,并將圖像歸一化為固定大小,產(chǎn)生形狀獨立的姿態(tài)采樣,形成采樣數(shù)據(jù);訓(xùn)練模塊,在訓(xùn)練階段使用統(tǒng)計學(xué)習(xí)方法進行采樣數(shù)據(jù)的維度降低,以獲得原始圖像空間到特征空間的投影變換矩陣,并構(gòu)建最近鄰分類器;特征提取模塊,根據(jù)所述投影變換矩陣分別在訓(xùn)練階段和人體姿態(tài)識別階段從采樣數(shù)據(jù)提取有區(qū)別的姿態(tài)特征;模板數(shù)據(jù)庫構(gòu)建模塊,根據(jù)特征提取模塊在訓(xùn)練階段中提取的有區(qū)別的姿態(tài)特征構(gòu)建姿態(tài)模板數(shù)據(jù)庫;搜索模塊,通過最近鄰分類器將特征提取模塊在人體姿態(tài)識別階段中提取的有區(qū)別的姿態(tài)特征與姿態(tài)模板數(shù)據(jù)庫中的姿態(tài)模板比較,以進行人體姿態(tài)匹配;輸出模塊,輸出最佳匹配的姿態(tài),并基于最佳匹配的姿態(tài)重新定位虛擬人體模型。
2.根據(jù)權(quán)利要求1所述的人體姿態(tài)識別裝置,其中,深度攝像機形成人體姿態(tài)的深度 圖像和強度圖像,彩色攝像機形成人體姿態(tài)的彩色圖像。
3.根據(jù)權(quán)利要求2所述的人體姿態(tài)識別裝置,其中,預(yù)處理模塊使用強度圖像對人體 姿態(tài)進行分割并提取剪影,使用分割的人體區(qū)域檢測頭部和軀干,選擇眼部位置和肩部位 置作為參考點進行形狀歸一化處理,產(chǎn)生形狀獨立的姿態(tài)采樣。
4.根據(jù)權(quán)利要求3所述的人體姿態(tài)識別裝置,其中,訓(xùn)練模塊創(chuàng)建訓(xùn)練數(shù)據(jù)集,使得姿 態(tài)采樣均勻分布在圖像空間中,將采樣數(shù)據(jù)變換為輸入矢量,采用統(tǒng)計學(xué)習(xí)方法來進行采 樣數(shù)據(jù)的維度降低,以獲得所述投影變換矩陣。
5.根據(jù)權(quán)利要求4所述的人體姿態(tài)識別裝置,其中,所述統(tǒng)計學(xué)習(xí)方法包括主元分析 方法或局部線性嵌入方法。
6.根據(jù)權(quán)利要求5所述的人體姿態(tài)識別裝置,其中,模板數(shù)據(jù)庫構(gòu)建模塊選擇不同的 姿態(tài)采樣,對姿態(tài)采樣圖像進行人工標注;特征提取模塊根據(jù)所述投影變換矩陣從姿態(tài)采 樣中提取低維度的有區(qū)別的特征;模板數(shù)據(jù)庫構(gòu)建模塊基于提取的有區(qū)別的特征建立所述 區(qū)別特征與姿態(tài)之間的對應(yīng)關(guān)系,并基于建立的對應(yīng)關(guān)系產(chǎn)生包括特征矢量和相關(guān)聯(lián)的姿 態(tài)索引的模板,以構(gòu)建模板數(shù)據(jù)庫。
7.根據(jù)權(quán)利要求6所述的人體姿態(tài)識別裝置,其中,特征提取模塊將輸入圖像的深度 數(shù)據(jù)變換為一維數(shù)據(jù)矢量,使用在訓(xùn)練階段中獲得的投影變換矩陣將來自圖像空間的數(shù)據(jù) 投影到特征空間,以獲得特征矢量。
8.根據(jù)權(quán)利要求7所述的人體姿態(tài)識別裝置,其中,搜索模塊通過最近鄰分類器計算 當前的特征矢量與模板數(shù)據(jù)庫中的特征矢量之間的距離,基于所述距離在模板數(shù)據(jù)庫中獲 得最佳匹配的索引。
9.根據(jù)權(quán)利要求8所述的人體姿態(tài)識別裝置,其中,輸出模塊根據(jù)最佳匹配的索引在 模板數(shù)據(jù)庫中獲得最佳匹配的姿態(tài),并基于最佳匹配的姿態(tài)重新定位虛擬人體模型。
10.一種人體姿態(tài)識別方法,包括以下步驟(a)利用深度攝像機和彩色攝像機同時捕獲人體姿態(tài),形成輸入圖像;(b)將輸入圖像預(yù)處理為適合的格式,并將圖像歸一化為固定大小,產(chǎn)生形狀獨立的姿態(tài)采樣,形成采樣數(shù)據(jù);(c)在訓(xùn)練階段使用統(tǒng)計學(xué)習(xí)方法進行采樣數(shù)據(jù)的維度降低,以獲得原始圖像空間到 特征空間的投影變換矩陣,并構(gòu)建最近鄰分類器;(d)根據(jù)所述投影變換矩陣分別在訓(xùn)練階段和人體姿態(tài)識別階段從采樣數(shù)據(jù)提取有區(qū) 別的姿態(tài)特征;(e)根據(jù)在訓(xùn)練階段中提取的有區(qū)別的姿態(tài)特征構(gòu)建姿態(tài)模板數(shù)據(jù)庫;(f)通過最近鄰分類器將在人體姿態(tài)識別階段中提取的有區(qū)別的姿態(tài)特征與姿態(tài)模板 數(shù)據(jù)庫中的姿態(tài)模板比較,以進行人體姿態(tài)匹配;(g)輸出最佳匹配的姿態(tài),并基于最佳匹配的姿態(tài)重新定位虛擬人體模型。
11.根據(jù)權(quán)利要求10所述的人體姿態(tài)識別方法,其中,深度攝像機形成人體姿態(tài)的深 度圖像和強度圖像,彩色攝像機形成人體姿態(tài)的彩色圖像。
12.根據(jù)權(quán)利要求11所述的人體姿態(tài)識別方法,其中,步驟(b)包括 使用強度圖像對人體姿態(tài)進行分割并提取剪影;使用分割后的人體區(qū)域檢測頭部和軀干,選擇眼部位置和肩部位置作為參考點進行形狀歸一化處理,產(chǎn)生形狀獨立的姿態(tài)采樣。
13.根據(jù)權(quán)利要求12所述的人體姿態(tài)識別方法,其中,步驟(c)包括 創(chuàng)建訓(xùn)練數(shù)據(jù)集,使得姿態(tài)采樣均勻分布在圖像空間中;將采樣數(shù)據(jù)變換為輸入矢量;采用統(tǒng)計學(xué)習(xí)方法來進行采樣數(shù)據(jù)的維度降低,以獲得所述投影變換矩陣。
14.根據(jù)權(quán)利要求13所述的人體姿態(tài)識別方法,其中,所述統(tǒng)計學(xué)習(xí)方法包括主元分 析方法或局部線性嵌入方法。
15.根據(jù)權(quán)利要求14所述的人體姿態(tài)識別方法,其中,步驟(e)包括 選擇不同的姿態(tài)采樣,對姿態(tài)采樣圖像進行人工標注;基于在訓(xùn)練階段提取的有區(qū)別的特征建立所述區(qū)別特征與姿態(tài)之間的對應(yīng)關(guān)系; 基于建立的對應(yīng)關(guān)系產(chǎn)生包括特征矢量和相關(guān)聯(lián)的姿態(tài)索引的模板,以構(gòu)建模板數(shù)據(jù)庫。
16.根據(jù)權(quán)利要求15所述的人體姿態(tài)識別方法,其中,步驟(d)包括 將輸入圖像的深度數(shù)據(jù)變換為一維數(shù)據(jù)矢量;使用在訓(xùn)練階段中獲得的投影變換矩陣將來自圖像空間的數(shù)據(jù)投影到特征空間,以獲 得特征矢量。
17.根據(jù)權(quán)利要求16所述的人體姿態(tài)識別方法,其中,步驟(f)包括通過最近鄰分類器計算當前的特征矢量與模板數(shù)據(jù)庫中的特征矢量之間的距離; 基于所述距離在模板數(shù)據(jù)庫中獲得最佳匹配的索引。
18.根據(jù)權(quán)利要求17所述的人體姿態(tài)識別方法,其中,步驟(g)包括 根據(jù)最佳匹配的索引在模板數(shù)據(jù)庫中獲得最佳匹配的姿態(tài);基于最佳匹配的姿態(tài)重新定位虛擬人體模型。
全文摘要
提供一種人體姿態(tài)識別方法和裝置。所述裝置包括輸入模塊,捕獲人體姿態(tài),形成輸入圖像;預(yù)處理模塊,將輸入圖像歸一化為固定大小,產(chǎn)生形狀獨立的采樣;訓(xùn)練模塊,在訓(xùn)練階段使用統(tǒng)計學(xué)習(xí)方法進行采樣數(shù)據(jù)的維度降低,以獲得投影變換矩陣,并構(gòu)建最近鄰分類器;特征提取模塊,根據(jù)投影變換矩陣分別在訓(xùn)練階段和人體姿態(tài)識別階段從采樣數(shù)據(jù)提取有區(qū)別的姿態(tài)特征;模板數(shù)據(jù)庫構(gòu)建模塊,根據(jù)在訓(xùn)練階段中提取的有區(qū)別的姿態(tài)特征構(gòu)建姿態(tài)模板數(shù)據(jù)庫;搜索模塊,通過最近鄰分類器將在人體姿態(tài)識別階段中提取的有區(qū)別的姿態(tài)特征與姿態(tài)模板數(shù)據(jù)庫中的姿態(tài)模板比較,以進行人體姿態(tài)匹配;輸出模塊,輸出最佳匹配的姿態(tài),并重新定位虛擬人體模型。
文檔編號G06K9/00GK101989326SQ20091016145
公開日2011年3月23日 申請日期2009年7月31日 優(yōu)先權(quán)日2009年7月31日
發(fā)明者楚汝峰, 陳茂林 申請人:三星電子株式會社;北京三星通信技術(shù)研究有限公司