本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,具體地說,是涉及一種二維視頻圖像中的人體姿態(tài)識(shí)別方法。
背景技術(shù):
人體姿態(tài)識(shí)別可以應(yīng)用于人體活動(dòng)分析、人機(jī)交互以及視覺監(jiān)視等領(lǐng)域,是近期計(jì)算機(jī)視覺領(lǐng)域中的一個(gè)熱門問題。人體姿態(tài)識(shí)別是指從圖像中檢測(cè)人體各部分的位置并計(jì)算其方向和尺度信息,姿態(tài)識(shí)別的結(jié)果分二維和三維兩種情況,而估計(jì)的方法分基于模型和無模型兩種途徑。公開號(hào)為CN101350064A的中國專利申請(qǐng),公開了一種二維人體姿態(tài)估計(jì)方法與裝置。該方法首先檢測(cè)出二維圖像中的人體區(qū)域并確定人體部位在二維圖像中的搜索范圍。然后根據(jù)人體部位的搜索范圍,結(jié)合人體部位的軀干、頭部、手部、腿部、腳部,模板計(jì)算匹配相似度,實(shí)現(xiàn)各部位的識(shí)別;結(jié)合相鄰部位之間的約束關(guān)系,得到二維人體的姿態(tài)。實(shí)施步驟如下:第一步:利用現(xiàn)有的光流法、幀間差分法、背景相差分等已有方法檢測(cè)二維圖像中的人體區(qū)域。第二步:確定人體區(qū)域中的多個(gè)人體部位的搜索范圍。(1)在人體區(qū)域中進(jìn)行人臉檢測(cè),將檢測(cè)到的人臉?biāo)诘奈恢米鳛轭^部的搜索范圍;(2)利用檢測(cè)到的人臉膚色特征確定左、右手的搜索范圍;進(jìn)而確定人體軀干、左臂、右臂的搜索范圍。(3)將人體區(qū)域中的剩余部分確定為左腿、左腳、右腿、右腳的搜索范圍。第三步:根據(jù)各人體部位模板在相應(yīng)的人體部位搜索范圍內(nèi)計(jì)算匹配相似度,確定人體各部位的最優(yōu)位置,結(jié)合相鄰人體部位之間的約束關(guān)系,得到二維人體的姿態(tài)。上述估計(jì)人體姿態(tài)的方法存在著下述缺點(diǎn):其一,采用利用現(xiàn)有的光流法、幀間差分法、背景相差分等已有方法檢測(cè)二維圖像中的人體區(qū)域,存在光照變化、背景動(dòng)態(tài)變化、光流多尺度計(jì)算速度慢等問題,往往會(huì)導(dǎo)致檢測(cè)到的人體區(qū)域有較大誤差,為后續(xù)的人體部位檢測(cè)算法埋下隱患,會(huì)導(dǎo)致整體算法的失效;其二,采用人臉檢測(cè)方法進(jìn)行頭部區(qū)域定位會(huì)存在人臉部分或全部遮擋導(dǎo)致無法檢測(cè)的問題,而且,人臉檢測(cè)算法往往僅對(duì)正面人臉有很高的的檢測(cè)精度,對(duì)側(cè)面人臉效果較差;其三,模板匹配的方法進(jìn)行人體部位識(shí)別定位會(huì)產(chǎn)生精度不高的問題,表現(xiàn)在視頻圖像中的人體部位會(huì)因?yàn)槌叨却笮∽兓?、衣著不同等因素,造成匹配識(shí)別算法的精度變差,導(dǎo)致人體部位定位錯(cuò)誤,使整個(gè)算法失效。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種識(shí)別精度高、識(shí)別速度快的二維視頻圖像中的人體姿態(tài)識(shí)別方法。為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采用下述技術(shù)方案予以實(shí)現(xiàn):一種二維視頻圖像中的人體姿態(tài)識(shí)別方法,所述方法包括下述步驟:a、按照尺度空間分層原理將原始視頻圖像分為組,,為所述原始視頻圖像的分辨率;b、對(duì)每組視頻圖像,計(jì)算一個(gè)尺度為的采樣圖像,為中的其中一個(gè)尺度,表示采樣函數(shù),表示第組視頻圖像,,為所述原始視頻圖像的分辨率,為設(shè)定的大于1的自然數(shù),表示每組視頻圖像包含的采樣視頻圖像的數(shù)量,;c、對(duì)每組內(nèi)的采樣圖像分別計(jì)算HOG底層特征描述符;d、以步驟c獲得的每組內(nèi)的一個(gè)采樣圖像的HOG底層特征描述符為基礎(chǔ),根據(jù)預(yù)測(cè)公式計(jì)算每組內(nèi)尺度為中其余()個(gè)尺度的采樣視頻圖像對(duì)應(yīng)的HOG底層特征描述符,和分別表示采樣圖像和采樣圖像的尺度,為設(shè)定值;e、根據(jù)步驟c和步驟d的所有不同尺度采樣視頻圖像的HOG底層特征描述符,結(jié)合訓(xùn)練好的SVM,檢測(cè)所述原始視頻圖像中的人體目標(biāo)區(qū)域;f、采用訓(xùn)練好的隨機(jī)森林分類器將步驟e檢測(cè)的人體目標(biāo)區(qū)域的像素進(jìn)行分類,確定所述人體目標(biāo)區(qū)域中的肢體部位區(qū)域;g、將步驟f確定的各肢體部位連接形成人體輪廓,實(shí)現(xiàn)人體姿態(tài)識(shí)別。優(yōu)選的,所述步驟b中,利用中的端部尺度對(duì)每組視頻圖像采樣,計(jì)算端部尺度對(duì)應(yīng)的采樣圖像。如上所述的二維視頻圖像中的人體姿態(tài)識(shí)別方法,所述步驟f中的隨機(jī)森林分類器優(yōu)選通過下述方法訓(xùn)練:獲取包括人體姿態(tài)的人工合成視頻圖像和目標(biāo)測(cè)試場(chǎng)景中的真實(shí)視頻圖像,每幅視頻圖像作為一個(gè)訓(xùn)練樣本;依據(jù)設(shè)定肢體部位將每個(gè)訓(xùn)練樣本中的背景區(qū)域及人體目標(biāo)區(qū)域進(jìn)行標(biāo)注;利用SURF算子計(jì)算每個(gè)標(biāo)注區(qū)域的像素特征,所有標(biāo)注區(qū)域及其像素特征數(shù)據(jù)構(gòu)成訓(xùn)練數(shù)據(jù)集合;利用所述訓(xùn)練數(shù)據(jù)集合及目標(biāo)函數(shù)對(duì)隨機(jī)森林分類器進(jìn)行訓(xùn)練;其中,為隨機(jī)森林中的一個(gè)決策樹的一個(gè)分類節(jié)點(diǎn),為權(quán)值,為信息熵計(jì)算函數(shù),是所述人工合成視頻圖像訓(xùn)練樣本中標(biāo)注區(qū)域的像素特征,是所述真實(shí)視頻圖像訓(xùn)練樣本中標(biāo)注區(qū)域的像素特征,是所述人工合成視頻圖像訓(xùn)練樣本中已標(biāo)注的第個(gè)肢體部位的像素特征的統(tǒng)計(jì)描述符,是所述人工合成視頻圖像訓(xùn)練樣本中所有標(biāo)注區(qū)域內(nèi)所有像素特征的統(tǒng)計(jì)描述符,是所述真實(shí)視頻圖像訓(xùn)練樣本中所有標(biāo)注區(qū)域內(nèi)所有像素特征的統(tǒng)計(jì)描述符,為和的距離。與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)和積極效果是:(1)采用HOG多尺度底層特征提取方法從原始視頻圖像中檢測(cè)人體目標(biāo)時(shí),分組后的每組采樣圖像中僅需要計(jì)算一副采樣圖像的HOG底層特征描述符,其余采樣圖像的底層特征描述符通過特征預(yù)測(cè)計(jì)算得出,在不降低檢測(cè)精度的基礎(chǔ)上,加速了多尺度底層特征的計(jì)算速度,從根本上解決了制約多尺度人體目標(biāo)檢測(cè)方法走向?qū)嶋H應(yīng)用面臨的計(jì)算量大、實(shí)時(shí)性不足的棘手問題。(2)采用隨機(jī)森林分類器對(duì)人體肢體部位進(jìn)行分類識(shí)別,隨機(jī)森林分類器訓(xùn)練時(shí)采用新的目標(biāo)函數(shù)訓(xùn)練分類器中決策樹節(jié)點(diǎn),可以使弱分類器從訓(xùn)練樣本空間泛化到測(cè)試樣本空間時(shí)仍然具有一致的空間激活模式。這樣,使得該分類器的訓(xùn)練可以通過由計(jì)算機(jī)圖形學(xué)人工合成的人體姿態(tài)視頻圖像樣本為主體、結(jié)合少量標(biāo)注好的真實(shí)人體姿態(tài)視頻來完成隨機(jī)森林分類器的訓(xùn)練,從而實(shí)現(xiàn)從人工合成人體姿態(tài)樣本到真實(shí)的人體姿態(tài)特征的泛化,降低了對(duì)訓(xùn)練樣本的要求。結(jié)合附圖閱讀本發(fā)明的具體實(shí)施方式后,本發(fā)明的其它特點(diǎn)和優(yōu)點(diǎn)將變得更加清楚。附圖說明圖1是本發(fā)明二維視頻圖像中的人體姿態(tài)識(shí)別方法一個(gè)實(shí)施例的流程圖。具體實(shí)施方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下將結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明作進(jìn)一步詳細(xì)說明。首先,簡(jiǎn)要說明本發(fā)明實(shí)現(xiàn)人體姿態(tài)識(shí)別的一般處理思路:從二維視頻圖像中識(shí)別人體姿態(tài),分為兩步,第一步是從原始視頻圖像中檢測(cè)出人體目標(biāo)區(qū)域,第二步是對(duì)人體目標(biāo)區(qū)域進(jìn)行分類識(shí)別,識(shí)別出人體肢體部位,如頭、手、肘部、肩膀、臀部、膝部、腳等關(guān)節(jié)部位,并將肢體部位連接形成人體輪廓,進(jìn)而實(shí)現(xiàn)人體姿態(tài)的識(shí)別。在本發(fā)明中,第一步檢測(cè)人體目標(biāo)區(qū)域時(shí),采用HOG多尺度底層特征提取方法,減少背景、光照等的影響,保持尺度不變性;并對(duì)底層特征提取方法進(jìn)行改進(jìn),提高實(shí)時(shí)性。第二步采用隨機(jī)森林分類樹識(shí)別人體肢體部位,提高分類精確度;并對(duì)隨機(jī)森林分類樹中的目標(biāo)函數(shù)進(jìn)行改進(jìn),提高分類器的泛化能力,降低分類器訓(xùn)練時(shí)所需訓(xùn)練樣本的復(fù)雜度。更具體的實(shí)現(xiàn)方法,請(qǐng)參考下面的描述。請(qǐng)參見圖1,該圖所示為本發(fā)明二維視頻圖像中的人體姿態(tài)識(shí)別方法一個(gè)實(shí)施例的流程圖。如圖1所示,該實(shí)施例識(shí)別人體姿態(tài)的過程具體采用下述步驟來實(shí)現(xiàn):步驟101:將原始視頻圖像按照空間分層原理劃分為多組圖像。按照尺度空間分層原理將原始視頻圖像分為組,其中,,為原始視頻圖像的分辨率。對(duì)視頻圖像按照尺度空間分層的原理和方法為現(xiàn)有技術(shù),在此不作具體闡述。步驟102:每組中計(jì)算一個(gè)特定尺度的采樣圖像,并計(jì)算采樣圖像的HOG底層特征描述符。對(duì)每組視頻圖像進(jìn)行采樣,計(jì)算一個(gè)尺度為的采樣圖像。尺度為一個(gè)特定尺度,具體來說,為中的其中一個(gè)尺度。優(yōu)選的,為中的端部尺度。其中,表示采樣函數(shù),表示第組視頻圖像,,為所述原始視頻圖像的分辨率,為設(shè)定的大于1的自然數(shù),表示每組視頻圖像包含的采樣視頻圖像的數(shù)量,。一般地,的取值為5-8,表示每組視頻圖像包含5-8層的采樣視頻圖像。然后,計(jì)算每組內(nèi)選定尺度的采樣圖像的HOG(HistogramofOrientedGradient,方向梯度直方圖)底層特征描述符。計(jì)算HOG底層特征描述符可以采用現(xiàn)有技術(shù)中的方法,在此不作具體描述。步驟103:通過預(yù)測(cè)算法計(jì)算每組內(nèi)其它特定尺度的采樣視頻圖像的HOG底層特征描述符。對(duì)于每組視頻圖像,經(jīng)步驟102計(jì)算出了一個(gè)采樣圖像的HOG底層特征描述符。然后,以該計(jì)算出的HOG底層特征描述符為基礎(chǔ),預(yù)測(cè)計(jì)算出其它特定尺度的采樣視頻圖像的HOG底層特征描述符。具體來說,其它特定尺度是指中除了步驟102已經(jīng)計(jì)算了HOG底層特征描述符的尺度之外的其余()個(gè)尺度。采用下述公式來預(yù)測(cè)計(jì)算其它特定尺度的采樣視頻圖像的HOG底層特征描述符:其中,和分別表示采樣圖像和采樣圖像的尺度,,為設(shè)定值,為采樣圖像的HOG底層特征描述符,為采樣圖像的HOG底層特征描述符。其中,作為冪指數(shù),為一個(gè)設(shè)定值,該設(shè)定值可以根據(jù)經(jīng)驗(yàn)驗(yàn)證方法擬合確定。在該實(shí)施例中,的優(yōu)選值為0.0042。在上述公式中,冪指數(shù)為確定值,其中一個(gè)尺度及其對(duì)應(yīng)的HOG底層特征描述符經(jīng)步驟102計(jì)算得到,則,對(duì)于指定的另一尺度,可以方便地通過上述公式計(jì)算出該指定的另一尺度對(duì)應(yīng)的HOG底層特征描述符。依次類推,可以方便地計(jì)算出組內(nèi)其余尺度所對(duì)應(yīng)的HOG底層特征描述符,從而計(jì)算出所有組內(nèi)所包含的采樣視頻圖像的HOG底層特征描述符。步驟104:根據(jù)所有不同尺度采樣視頻圖像的HOG底層特征描述符,結(jié)合訓(xùn)練好的SVM,檢測(cè)視頻圖像中的人體目標(biāo)區(qū)域。采用步驟102和步驟103計(jì)算出的所有組內(nèi)所包含的采樣視頻圖像的HOG底層特征描述符,即可檢測(cè)出不同尺度下的人體目標(biāo)區(qū)域。采用HOG底層特征描述符及訓(xùn)練好的SVM,實(shí)現(xiàn)人體目標(biāo)區(qū)域檢測(cè)的具體方法可以采用現(xiàn)有技術(shù)來實(shí)現(xiàn),在此不作詳細(xì)描述。步驟105:采用隨機(jī)森林分類器對(duì)人體目標(biāo)區(qū)域的像素進(jìn)行分類,確定肢體部位區(qū)域。步驟104確定了人體目標(biāo)區(qū)域之后,采用訓(xùn)練好的隨機(jī)森林分類器對(duì)人體目標(biāo)區(qū)域的像素進(jìn)行分類,從而確定肢體部位區(qū)域。隨機(jī)森林分類器的輸入是像素的特征,選定分類器的參數(shù),包括森林中決策樹的數(shù)量、內(nèi)部節(jié)點(diǎn)隨機(jī)選擇屬性的個(gè)數(shù)、終節(jié)點(diǎn)的最小樣本數(shù),將人體目標(biāo)區(qū)域的像素特征作為輸入?yún)?shù)輸入分類器,分類器將輸出像素所屬肢體部位區(qū)域的結(jié)果,從而確定出肢體部位區(qū)域。在該實(shí)施例中,選用SURF(speeduprobustfeatures,快速魯棒性梯度特征)算子計(jì)算像素特征,每個(gè)像素特征可以構(gòu)建為128維的描述符。肢體部位區(qū)域包括人體的七個(gè)關(guān)節(jié)部分,分別為:腳、膝部、臀部、肩膀、肘部、手、頭。步驟106:將各肢體部位連接形成人體輪廓,實(shí)現(xiàn)人體姿態(tài)識(shí)別。步驟105確定了肢體部位之后,將各肢體部位連接,按照頭-肩膀-臀部-膝部-腳連接成軀干,兩側(cè)再連接上肘部和手,這樣可以標(biāo)識(shí)出人體輪廓,從而實(shí)現(xiàn)基于人體關(guān)節(jié)模型的人體姿態(tài)識(shí)別。在該實(shí)施例中,檢測(cè)人體目標(biāo)區(qū)域時(shí),雖然采用了HOG底層特征描述符的方式,但是,僅對(duì)原始視頻圖像進(jìn)行了分組,每組確定了所包含的采樣視頻圖像的數(shù)量,也即每組的層數(shù),每組內(nèi)僅采用底層特征計(jì)算函數(shù)計(jì)算了一個(gè)采樣圖像的HOG底層特征描述符,組內(nèi)其他尺度的采樣圖像的HOG底層特征描述符利用步驟103的預(yù)測(cè)算法計(jì)算得出,計(jì)算復(fù)雜度和計(jì)算量遠(yuǎn)小于采用底層特征計(jì)算函數(shù)方式。而且,采用預(yù)測(cè)算法,無需計(jì)算每個(gè)尺度對(duì)應(yīng)的采樣視頻圖像,直接獲得該采樣視頻圖像的HOG底層特征描述符,進(jìn)一步降低了計(jì)算量。進(jìn)而,提高了基于HOG人體目標(biāo)檢測(cè)的快速性和實(shí)時(shí)性,從根本上解決了制約多尺度人體目標(biāo)檢測(cè)方法走向?qū)嶋H應(yīng)用面臨的計(jì)算量大、實(shí)時(shí)性不足的棘手問題。在機(jī)器學(xué)習(xí)中,隨機(jī)森林是一個(gè)包含多個(gè)決策樹的分類器。它用于姿態(tài)識(shí)別主要原因是分類精度高,此外還有四個(gè)因素,其一是其學(xué)習(xí)過程是很快速的;其二是算法的復(fù)雜度可以由內(nèi)部決策樹的深度自適應(yīng)控制;其三是在建造森林時(shí),它可以在內(nèi)部對(duì)于一般化后的誤差產(chǎn)生不偏差的估計(jì);其四,對(duì)異常值和噪聲有很好的容忍度,且不易出現(xiàn)過擬合現(xiàn)象。但其主要缺點(diǎn)是要求訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)是相似的,即兩者具有相同的分布,這限制了該分類器的泛化能力。因此,要獲得高精度的隨機(jī)森林分類器,就要求訓(xùn)練樣本涵蓋將來測(cè)試數(shù)據(jù)所有可能的變化狀態(tài)。但是,實(shí)際測(cè)試場(chǎng)景中由于視角變化、肢體的扭動(dòng)、人體著裝紋理變化、光照變化等因素影響,是不可能獲得足夠充分的訓(xùn)練樣本的。針對(duì)隨機(jī)森林分類器存在的上述缺點(diǎn),在本發(fā)明的上述實(shí)施例中,改進(jìn)了隨機(jī)森林分類器中訓(xùn)練決策樹節(jié)點(diǎn)的目標(biāo)函數(shù),從而使弱分類器從訓(xùn)練樣本空間泛化到測(cè)試樣本空間時(shí)仍然具有一致的空間激活模式。這樣,可以在訓(xùn)練樣本選擇時(shí)僅僅需要目標(biāo)測(cè)試空間中的一些弱標(biāo)注的樣本即可,而其它的訓(xùn)練數(shù)據(jù)可以利用計(jì)算機(jī)圖形學(xué)人工合成的人體姿態(tài)視頻圖像樣本來完成,從而降低了對(duì)訓(xùn)練樣本的要求。具體訓(xùn)練過程如下:獲取包括人體姿態(tài)的人工合成視頻圖像和目標(biāo)測(cè)試場(chǎng)景中的真實(shí)視頻圖像,每幅視頻圖像作為一個(gè)訓(xùn)練樣本。而且,人工合成視頻圖像為主體,結(jié)合少量已標(biāo)注好肢體部位及背景的目標(biāo)測(cè)試場(chǎng)景中的真實(shí)視頻圖像即可。依據(jù)設(shè)定肢體部位將每個(gè)訓(xùn)練樣本中的背景區(qū)域及人體目標(biāo)區(qū)域進(jìn)行標(biāo)注。具體來說,依據(jù)人體關(guān)節(jié)部位將人體目標(biāo)區(qū)域標(biāo)注為八部分,其中一部分為背景,其余七部分分別為:腳、膝部、臀部、肩膀、肘部、手、頭。利用SURF算子計(jì)算每個(gè)標(biāo)注區(qū)域內(nèi)的每個(gè)像素特征,所有標(biāo)注區(qū)域及其對(duì)應(yīng)的像素特征數(shù)據(jù)構(gòu)成訓(xùn)練數(shù)據(jù)集合。具體而言,選用SURF算子計(jì)算人工合成視頻圖像訓(xùn)練樣本和真實(shí)視頻圖像訓(xùn)練樣本中每個(gè)標(biāo)注區(qū)域內(nèi)每個(gè)像素特征,每個(gè)像素特征構(gòu)建為128維的描述符。人工合成視頻圖像訓(xùn)練樣本中標(biāo)注區(qū)域的像素特征記為,真實(shí)視頻圖像訓(xùn)練樣本中標(biāo)注區(qū)域的像素特征記為,和構(gòu)成訓(xùn)練數(shù)據(jù)集合,為隨機(jī)森林中的一個(gè)決策樹的一個(gè)分類節(jié)點(diǎn)。同時(shí),計(jì)算人工合成視頻圖像訓(xùn)練樣本所有標(biāo)記區(qū)域內(nèi)所有128維SURF描述符的統(tǒng)計(jì)描述符及真實(shí)視頻圖像訓(xùn)練樣本所有標(biāo)記區(qū)域內(nèi)所有128維SURF描述符的統(tǒng)計(jì)描述符。最后,利用上述訓(xùn)練數(shù)據(jù)集合及改進(jìn)后的目標(biāo)函數(shù)對(duì)隨機(jī)森林分類器進(jìn)行訓(xùn)練。其中,改進(jìn)的目標(biāo)函數(shù)的表達(dá)式為:上述公式中,為權(quán)值,該權(quán)值是一個(gè)實(shí)驗(yàn)測(cè)得的固定值,優(yōu)選為,分類器的識(shí)別效果最好。為信息熵計(jì)算函數(shù),具體函數(shù)表達(dá)式采用現(xiàn)有技術(shù)。是人工合成視頻圖像訓(xùn)練樣本中已標(biāo)注的第個(gè)肢體部位內(nèi)所有像素特征的統(tǒng)計(jì)描述符,為和的距離。上述表達(dá)式中的目標(biāo)函數(shù),既考慮了訓(xùn)練樣本熵(),又結(jié)合了訓(xùn)練數(shù)據(jù)與目標(biāo)測(cè)試數(shù)據(jù)間的信息差異度(),將兩者加權(quán)求和,作為訓(xùn)練決策樹的目標(biāo)函數(shù),因而,提高了訓(xùn)練好的分類器的泛化能力。在利用訓(xùn)練好的分類器識(shí)別人體肢體部位時(shí),能夠獲得較高的識(shí)別準(zhǔn)確率。上述目標(biāo)函數(shù)采用距離表示訓(xùn)練數(shù)據(jù)與目標(biāo)測(cè)試數(shù)據(jù)間的信息差異度,但不局限于此,也可以采用歐式距離或其它距離來表示兩者的差異度。以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對(duì)其進(jìn)行限制;盡管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,對(duì)于本領(lǐng)域的普通技術(shù)人員來說,依然可以對(duì)前述實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明所要求保護(hù)的技術(shù)方案的精神和范圍。