基于深度圖像的三維手勢動(dòng)作的識(shí)別方法
【專利摘要】本發(fā)明提供一種基于深度圖像的三維手勢動(dòng)作的識(shí)別方法,包括:采集含有手勢動(dòng)作的深度圖像;通過基于快速模板跟蹤和斜面匹配的跟蹤定位將手勢動(dòng)作所對應(yīng)的人體區(qū)域從圖像中分割出來,得到背景剔除后深度圖像序列;針對背景剔除后深度圖像,提取各手勢動(dòng)作的有用幀;根據(jù)所提取的有用幀,計(jì)算手勢動(dòng)作在正視、頂視、側(cè)視三個(gè)投影方向上的三視圖運(yùn)動(dòng)歷史圖像;提取三視圖運(yùn)動(dòng)歷史圖像所對應(yīng)的方向梯度直方圖特征;對所得到的手勢動(dòng)作的組合特征與預(yù)先定義的手勢動(dòng)作庫中所保存的手勢動(dòng)作模板進(jìn)行相關(guān)性計(jì)算,將相關(guān)性最大的模板作為當(dāng)前手勢動(dòng)作的識(shí)別結(jié)果。由此,本發(fā)明能夠?qū)崿F(xiàn)三維手勢動(dòng)作的識(shí)別,并且能夠應(yīng)用于簡單物體運(yùn)動(dòng)過程的識(shí)別。
【專利說明】基于深度圖像的三維手勢動(dòng)作的識(shí)別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)視覺與數(shù)字圖像處理領(lǐng)域,尤其涉及一種基于深度圖像的三維手勢動(dòng)作的識(shí)別方法。
【背景技術(shù)】
[0002]目前,手勢動(dòng)作的識(shí)別技術(shù)是近些年來計(jì)算機(jī)視覺及模式識(shí)別領(lǐng)域里的熱點(diǎn)研究方向之一,也是該領(lǐng)域中應(yīng)用廣泛的研究點(diǎn)之一。特別是對于三維的手勢動(dòng)作的識(shí)別,由于其能夠廣泛地應(yīng)用于生產(chǎn)及生活中而受到了世界許多重要研究機(jī)構(gòu)的高度重視,這充分體現(xiàn)了它的研究價(jià)值和意義。三維手勢動(dòng)作的識(shí)別包括了動(dòng)態(tài)手勢和人體動(dòng)作的識(shí)別,并且是在三維空間中的識(shí)別。動(dòng)態(tài)手勢動(dòng)作不僅表達(dá)了某一時(shí)刻身體某個(gè)部分的狀態(tài),而且包含了整個(gè)動(dòng)作從開始到結(jié)束的時(shí)序過程,即,包含了時(shí)間信息。而三維的手勢動(dòng)作的識(shí)別對識(shí)別的維度提出了新的要求,要識(shí)別出某個(gè)動(dòng)作在三維空間中的狀態(tài)信息,再加上時(shí)間軸,便形成了一個(gè)四維的信息。通常,手勢動(dòng)作的識(shí)別可以分為兩類。一類是將手作為一個(gè)點(diǎn)來處理,進(jìn)而通過手的位置移動(dòng)軌跡來進(jìn)行識(shí)別;另一類是將手勢動(dòng)作當(dāng)作傳統(tǒng)的動(dòng)作來識(shí)別,即,提取出動(dòng)作所能引起的全部變化信息來進(jìn)行識(shí)別,而不僅僅是手的位置點(diǎn)。第一類手勢動(dòng)作的識(shí)別方法適用于簡單的動(dòng)態(tài)手勢類型,因?yàn)槠淇紤]的僅僅是手的位置信息,所以,無法區(qū)分開一些手的位置變化比較接近而手臂變化比較大的手勢類型。第二類手勢動(dòng)作的識(shí)別方法通常更具有通用性,因?yàn)檫@種類型的識(shí)別方法不僅適用于手勢動(dòng)作,而且可以應(yīng)用于身體的其他動(dòng)作類型。
[0003]關(guān)于傳統(tǒng)的基于RGB彩色相機(jī)的手勢動(dòng)作識(shí)別方法,通常采用基于皮膚顏色來確定手的位置,然后根據(jù)手的位置變化來進(jìn)行手勢動(dòng)作的識(shí)別,或者是通過背景分割的方法來尋找每一時(shí)刻的區(qū)域,并通過區(qū)域的變化來進(jìn)行手勢動(dòng)作的識(shí)別。這種基于RGB圖像的方法一方面容易受光照、復(fù)雜背景等因素的影響,另一方面無法區(qū)分具有歧義的手勢動(dòng)作類型,比如對稱的向前及向后揮手的兩個(gè)手勢對于彩色圖像而言,將無法進(jìn)行區(qū)分。因此,為了克服上述缺陷,基于深度圖像的手勢動(dòng)作識(shí)別方法相繼產(chǎn)生。目前的基于深度的手勢動(dòng)作識(shí)別方法要么是將手作為一個(gè)點(diǎn)來處理,要么需要預(yù)先確定身體的骨骼信息,并沒有一個(gè)快速并且完整的針對手勢動(dòng)作的手勢動(dòng)作識(shí)別方法。
[0004]此外,現(xiàn)有的識(shí)別方法更多的依賴對大量的訓(xùn)練數(shù)據(jù)進(jìn)行處理,提取手勢動(dòng)作的特征,采用機(jī)器學(xué)習(xí)和模式分類的方法來進(jìn)行模板的定義。這種方法往往需要采集大量的樣本數(shù)據(jù),并且需要人工進(jìn)行標(biāo)記,而且識(shí)別的精確性很大程度上依賴于樣本的數(shù)量。這就導(dǎo)致手勢動(dòng)作的識(shí)別應(yīng)用變得復(fù)雜,不利于動(dòng)作模板的擴(kuò)展等應(yīng)用。
【發(fā)明內(nèi)容】
[0005]為了解決現(xiàn)有技術(shù)存在的問題,本發(fā)明提出一種能夠快速并且完整的針對三維手勢動(dòng)作的識(shí)別方法。
[0006]為了實(shí)現(xiàn)上述目的,本發(fā)明提出一種基于深度圖像的三維手勢動(dòng)作的識(shí)別方法,深入地探究了三維手勢動(dòng)作的特征提取方法,并且實(shí)現(xiàn)了一種基于組合特征相關(guān)性的識(shí)別方法。
[0007]本發(fā)明的基于深度圖像的三維手勢動(dòng)作的識(shí)別方法,包括:
[0008]步驟1,采集含有手勢動(dòng)作的深度圖像的深度圖像序列;
[0009]步驟2,運(yùn)用快速模板跟蹤和斜面匹配的跟蹤定位,分別對所述深度圖像序列的各深度圖像進(jìn)行背景剔除,得到背景被剔除后的背景剔除后深度圖像序列;
[0010]步驟3,對步驟2中所得到的背景剔除后深度圖像序列是否是含有多個(gè)手勢動(dòng)作的序列進(jìn)行判斷,在判斷為所述背景剔除后深度圖像序列是不含有多個(gè)手勢動(dòng)作的序列的情況下,對該背景剔除后深度圖像序列,提取該手勢動(dòng)作的有用幀,在判斷為所述背景剔除后深度圖像序列是含有多個(gè)手勢動(dòng)作的序列的情況下,對含有多個(gè)手勢動(dòng)作的該序列進(jìn)行分割,對分割得到的僅含有單個(gè)手勢動(dòng)作的每一背景剔除后深度圖像序列,分別提取各手勢動(dòng)作的有用幀,形成各手勢動(dòng)作序列的有用幀;
[0011]步驟4,根據(jù)步驟3中所提取的有用幀,計(jì)算手勢動(dòng)作在頂視、正視、側(cè)視三個(gè)投影方向上的并經(jīng)過了歸一化處理后的三視圖運(yùn)動(dòng)歷史圖像;
[0012]步驟5:根據(jù)步驟4中所得到的所述三視圖運(yùn)動(dòng)歷史圖像,計(jì)算與該三視圖運(yùn)動(dòng)歷史圖像相應(yīng)的三視圖金字塔方向梯度直方圖向量,并將該三視圖金字塔方向梯度直方圖向量與所述三視圖運(yùn)動(dòng)歷史圖像共同組成手勢動(dòng)作的組合特征;和
[0013]步驟6:對步驟5中所得到的手勢動(dòng)作的組合特征與預(yù)先定義的手勢動(dòng)作庫中所保存的手勢動(dòng)作模板進(jìn)行相關(guān)性計(jì)算,將相關(guān)性最大的模板作為當(dāng)前手勢動(dòng)作的識(shí)別結(jié)果。
[0014]發(fā)明效果
[0015]I)本發(fā)明通過采用深度圖像來進(jìn)行三維手勢動(dòng)作的識(shí)別,利用圖像深度信息來定義動(dòng)作的特征,并結(jié)合方向梯度直方圖,相比于傳統(tǒng)的識(shí)別法能夠很好的消除歧義,并且能夠?qū)崿F(xiàn)更好的識(shí)別率。
[0016]2)另外,本發(fā)明采用了基于圖像相似性及連續(xù)圖像相關(guān)性的方法進(jìn)行動(dòng)作的分割和有用幀的提取,使得整個(gè)識(shí)別過程更加精確。
[0017]3)而且,本發(fā)明不僅適用于簡單手勢動(dòng)作的識(shí)別,同時(shí)可以應(yīng)用于簡單三維物體運(yùn)動(dòng)的識(shí)別。
[0018]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對本發(fā)明進(jìn)一步詳細(xì)說明。
【專利附圖】
【附圖說明】
[0019]圖1是表示依照本發(fā)明實(shí)施例的基于深度圖像的三維手勢動(dòng)作的識(shí)別方法的流程圖。
[0020]圖2是表示對本發(fā)明實(shí)施例的深度圖像進(jìn)行背景剔除來得到背景剔除后深度圖像的不意圖。
[0021]圖3是依照本發(fā)明實(shí)施例的深度圖像向三個(gè)正交方向投影得到的二值圖像示意圖。
[0022]圖4是表示依照本發(fā)明實(shí)施例的基于深度圖像的三視圖運(yùn)動(dòng)歷史圖像的展示圖?!揪唧w實(shí)施方式】
[0023]本發(fā)明提出了一種基于深度圖像的三維手勢動(dòng)作的識(shí)別方法。以下,參照附圖對本發(fā)明進(jìn)行說明。
[0024]圖1為表示依照本發(fā)明實(shí)施例的基于深度圖像的三維手勢動(dòng)作的識(shí)別方法的流程圖。
[0025]如圖1所示,基于深度圖像的三維手勢動(dòng)作的識(shí)別方法包括進(jìn)行以下的步驟。
[0026]步驟1:采集含有手勢動(dòng)作的深度圖像的深度圖像序列。
[0027]即,通過攝像機(jī)獲得含有手勢動(dòng)作的深度圖像的深度圖像序列。本發(fā)明并不限于從攝像機(jī)中獲得深度圖像,也可以是存儲(chǔ)器中已保存的深度圖像。
[0028]步驟2:背景剔除。
[0029]在該步驟中,運(yùn)用快速模板跟蹤和斜面匹配的跟蹤定位,分別對深度圖像序列的各深度圖像進(jìn)行背景剔除,得到背景被剔除后的背景剔除后深度圖像序列。
[0030]圖2是表示對本發(fā)明實(shí)施例的深度圖像進(jìn)行背景剔除來得到背景剔除后深度圖像的不意圖。
[0031]如圖2所示,針對包含手勢動(dòng)作的深度圖像序列,對深度圖像序列的每一幀進(jìn)行背景剔除,使得該深度圖像中僅留下表示某一時(shí)刻手勢動(dòng)作的人體區(qū)域。
[0032]具體而言,采用快速模板跟蹤和斜面匹配的跟蹤定位方法。首先,定義頭部跟蹤模板,該頭部跟蹤模板定義的頭部尺寸大小能夠隨著深度圖像中待匹配區(qū)域的深度的變化而進(jìn)行動(dòng)態(tài)變化,使得模板大小能夠真實(shí)反應(yīng)出某一深度條件下的人體頭部尺寸。
[0033]然后,進(jìn)行斜面匹配,分別對頭部跟蹤模板和搜索圖像做邊緣檢測,這里采用Canny算法進(jìn)行邊緣檢測,最后通過滑動(dòng)窗口的方法計(jì)算與頭部跟蹤模板之間的斜面距離,并將斜面距離為最小值的滑動(dòng)窗口選擇為頭部區(qū)域的檢測結(jié)果。
[0034]在此,為了提高匹配的速度,在前一次跟蹤的基礎(chǔ)上,通過對頭部矩形在四個(gè)方向上進(jìn)行放大,形成新的搜索區(qū)域,這樣便能在很大程度上提高跟蹤的效率。并且,由于進(jìn)行了搜索區(qū)域的限制,因此,能夠提高跟蹤的穩(wěn)定性。接下來,采用傳統(tǒng)的區(qū)域增長的方法,確定人體區(qū)域,從而將人體區(qū)域以外的深度圖像的部分作為背景進(jìn)行背景剔除。
[0035]步驟3:有用幀(有用信息)提取。
[0036]一個(gè)手勢動(dòng)作序列中,往往含有一些幀序列幾乎沒有提供任何與動(dòng)作表達(dá)相關(guān)的信息,在此,將提供了與手勢動(dòng)作表達(dá)相關(guān)的信息的幀稱為“有用幀”,將沒有提供任何與手勢動(dòng)作表達(dá)相關(guān)的信息的幀稱為“無用幀”。
[0037]這些無用幀的存在有兩個(gè)負(fù)面影響,S卩:第一,影響該動(dòng)作的運(yùn)動(dòng)歷史圖像,使得其運(yùn)動(dòng)歷史圖像的部分區(qū)域灰度值變??;第二,由于多余的無用幀將使得整個(gè)動(dòng)作序列的長度變大,從而影響識(shí)別的性能。
[0038]在此,通過計(jì)算連續(xù)幀的對應(yīng)圖像的差異來獲得無用幀。將大小為mXn的深度圖像序列中的第t幀深度圖像定義為D(t),將表示動(dòng)作序列的深度圖像序列(設(shè)其總長度為T)的第t幀深度圖像與其前一幀(第t-1幀)的深度圖像之間的差異大小定義為Q(t),其可通過如下公式計(jì)算得到:[0039]
【權(quán)利要求】
1.一種基于深度圖像的三維手勢動(dòng)作的識(shí)別方法,包括: 步驟1,采集含有手勢動(dòng)作的深度圖像的深度圖像序列; 步驟2,運(yùn)用快速模板跟蹤和斜面匹配的跟蹤定位,分別對所述深度圖像序列的各深度圖像進(jìn)行背景剔除,得到背景被剔除后的背景剔除后深度圖像序列; 步驟3,對所述步驟2中所得到的背景剔除后深度圖像序列是否是含有多個(gè)手勢動(dòng)作的序列進(jìn)行判斷,在判斷為所述背景剔除后深度圖像序列是不含有多個(gè)手勢動(dòng)作的序列的情況下,對背景剔除后的深度圖像序列,提取該手勢動(dòng)作的有用幀,在判斷為所述背景剔除后深度圖像序列是含有多個(gè)手勢動(dòng)作的序列的情況下,對含有多個(gè)手勢動(dòng)作的該序列進(jìn)行分割,對分割得到的僅含有單個(gè)手勢動(dòng)作的每一背景剔除后深度圖像序列,分別提取各手勢動(dòng)作的有用幀,形成各手勢動(dòng)作序列的有用幀; 步驟4,根據(jù)步驟3中所提取的各手勢動(dòng)作序列的有用幀,計(jì)算手勢動(dòng)作在正視、頂視、側(cè)視三個(gè)投影方向上的并經(jīng)過了歸一化處理后的三視圖運(yùn)動(dòng)歷史圖像; 步驟5:根據(jù)步驟4中所得到的所述三視圖運(yùn)動(dòng)歷史圖像,計(jì)算與該三視圖運(yùn)動(dòng)歷史圖像相應(yīng)的三視圖金字塔方向梯度直方圖向量,并將該三視圖金字塔方向梯度直方圖向量與所述三視圖運(yùn)動(dòng)歷史圖像共同組成手勢動(dòng)作的組合特征;和 步驟6:對步驟5中所得到的手勢動(dòng)作的組合特征與手勢動(dòng)作庫中所保存的預(yù)先定義的手勢動(dòng)作模板進(jìn)行相關(guān)性計(jì)算,將相關(guān)性最大的模板作為當(dāng)前手勢動(dòng)作的識(shí)別結(jié)果。
2.如權(quán)利要求1所述的基于深度圖像的三維手勢動(dòng)作的識(shí)別方法,其特征在于, 所述步驟2包括: 步驟2-1,定義尺寸大小隨`深度圖像中的待匹配區(qū)域的深度變化而變化的人體頭部跟蹤模板,使得人體頭部跟蹤模板大小能夠真實(shí)反應(yīng)某一深度條件下的人體頭部尺寸; 步驟2-2,根據(jù)斜面匹配,通過利用滑動(dòng)窗口,計(jì)算該滑動(dòng)窗口與人體頭部跟蹤模板之間的斜面距離,并將斜面距離為最小值的滑動(dòng)窗口選擇為頭部區(qū)域的檢測結(jié)果;和 步驟2-3,通過區(qū)域增長方法來確定人體區(qū)域,進(jìn)而將人體區(qū)域以外的部分作為背景進(jìn)行背景剔除。
3.如權(quán)利要求1或2所述的基于深度圖像的三維手勢動(dòng)作的識(shí)別方法,其特征在于, 所述步驟3的進(jìn)行對含有多個(gè)手勢動(dòng)作的該背景剔除后深度圖像序列進(jìn)行分割的動(dòng)作分割處理中,將所述背景剔除后深度圖像序列的第一幀設(shè)為準(zhǔn)備狀態(tài)幀,將大小為mXn的所述背景剔除后深度圖像序列中的第t幀背景剔除后深度圖像定義為D(t),針對每一幀的所述背景剔除后深度圖像,分別計(jì)算切換值S (t),該切換值S (t)用來定量分析該幀與準(zhǔn)備狀態(tài)幀之間的差距,其中,該切換值S(t)的計(jì)算通過下述公式來獲得,即,
4.如權(quán)利要求1或2所述的基于深度圖像的三維手勢動(dòng)作的識(shí)別方法,其特征在于,步驟3的進(jìn)行提取各手勢動(dòng)作的有用幀的手勢動(dòng)作有用幀提取處理中,將大小為mXn的所述背景剔除后深度圖像序列中的第t幀深度圖像定義為D(t),將該背景剔除后深度圖像序列的第t幀背景剔除后圖像與其前一幀即第t-1幀的背景剔除后圖像之間的差異大小定義為Q(t),并通過如下公式計(jì)算出Q(t),即,
5.如權(quán)利要求1或2所述的基于深度圖像的三維手勢動(dòng)作的識(shí)別方法,其特征在于, 所述步驟4包括: 步驟4-1,針對手勢動(dòng)作的背景剔除后深度圖像序列的所有的有用幀,進(jìn)行三個(gè)正交的投影方向上的正交投影,分別形成二值圖像的三個(gè)視圖;和 步驟4-2:針對每個(gè)投影方向上的二值圖像,采用下述方法來分別計(jì)算出各個(gè)投影方向的動(dòng)作歷史圖像, 該方法包括: 步驟4-2-1,定義)為其中一個(gè)投影方向上投影的二值圖像的序列,It表示第t幀的二值圖像,n'為總的幀數(shù),并定義)為另外一個(gè)在該投影方向上投影的二值圖像的序列,用來表示運(yùn)動(dòng)的區(qū)域, 其中,Bt通過下述公式對連續(xù)的兩個(gè)幀的二值圖像進(jìn)行比較而求得,該公式為:
6.如權(quán)利要求1或2所述的基于深度圖像的三維手勢動(dòng)作的識(shí)別方法,其特征在于,所述步驟5中,通過對三個(gè)投影方向上的每一個(gè)運(yùn)動(dòng)歷史圖像,計(jì)算與該運(yùn)動(dòng)歷史圖像對應(yīng)的金字塔方向梯度直方圖向量,形成三個(gè)投影方向的三視圖金字塔方向梯度直方圖向量,來進(jìn)行方向梯度直方圖向量的計(jì)算。
7.如權(quán)利要求1或2所述的基于深度圖像的三維手勢動(dòng)作的識(shí)別方法,其特征在于, 所述步驟6中,根據(jù)當(dāng)前的手勢動(dòng)作的組合特征和預(yù)定義的手勢動(dòng)作模板的組合特征之間的相關(guān)性來確定與當(dāng)前的手勢動(dòng)作最為接近的手勢動(dòng)作模板,將與當(dāng)前的手勢動(dòng)作最為接近的手勢動(dòng)作模板所對應(yīng)的手勢動(dòng)作作為最終的識(shí)別結(jié)果。
8.如權(quán)利要求7所述的基于深度圖像的三維手勢動(dòng)作的識(shí)別方法,其特征在于, 所述步驟6包括: 步驟6-1,計(jì)算運(yùn)動(dòng)歷史圖像之間的相關(guān)性,將運(yùn)動(dòng)歷史圖像之間的相關(guān)系數(shù)作為判斷兩個(gè)運(yùn)動(dòng)歷史圖像相似度的依據(jù),定義兩個(gè)運(yùn)動(dòng)歷史圖像A和B,它們的相關(guān)系數(shù)r定義為:
【文檔編號(hào)】G06K9/00GK103679154SQ201310730690
【公開日】2014年3月26日 申請日期:2013年12月26日 優(yōu)先權(quán)日:2013年12月26日
【發(fā)明者】蔣永實(shí), 秦樹鑫 申請人:中國科學(xué)院自動(dòng)化研究所