基于Fréchet距離的動態(tài)手勢識別方法
【專利摘要】本發(fā)明公開一種基于Fréchet距離的動態(tài)手勢識別方法,至少包括以下步驟:獲取輸入視頻中待識別的動態(tài)手勢片段的手勢位置信息;將獲取的手勢狀態(tài)變化特征序列與預(yù)設(shè)模型中的特征序列依據(jù)Fréchet距離進(jìn)行匹配;根據(jù)Fréchet距離匹配信息獲取相似性結(jié)果并輸出。本發(fā)明通過將提取的特征序列同預(yù)先得到的模型進(jìn)行某種形式的相似性度量,依據(jù)相似程度確定待識別手勢對應(yīng)的分類,而利用Fréchet距離具有對時間序列曲線沿時間維度伸縮變換保持不變的特性,能夠很好地適應(yīng)動態(tài)手勢變化速度沿時間維度分布不均勻的情況。
【專利說明】基于Fr6chet距罔的動態(tài)手勢識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于FMchet距離的動態(tài)手勢識別方法。
【背景技術(shù)】
[0002]手勢是人們?nèi)粘S靡员磉_(dá)內(nèi)心活動、同他人進(jìn)行溝通交流的重要方法。我們通常根據(jù)手勢在時間維度上的變化情況,將手勢分為靜態(tài)手勢和動態(tài)手勢。
[0003]靜態(tài)手勢是指在某一時刻相對固定的手指、手掌的位置、朝向、姿態(tài)等特征構(gòu)成的手的特定空間狀態(tài)。特定的靜態(tài)手勢可以用特征空間中與之對應(yīng)的特定點來表示。與之相對應(yīng)的則是動態(tài)手勢,它由一段時間區(qū)域內(nèi)連續(xù)變化的手的運動、姿態(tài)序列所構(gòu)成。對于動態(tài)手勢而言,如果我們選取合適的特征對特定時間點的手勢信息進(jìn)行描述,那么隨著時間t,t=l, 2,...,T的連續(xù)變化,我們就得到了該動態(tài)手勢對應(yīng)的一段特征序列(F1, F2,, Ft)。如果我們將特征序列中的各元素在特征空間中依次作出,那么動態(tài)手勢總可以用特征空間中一條對應(yīng)的曲線來描述。
[0004]而動態(tài)手勢描述出來以后,下面的問題便是手勢識別。一般而言,手勢識別的基本任務(wù)就是將手勢所對應(yīng)的特征與現(xiàn)有模型相匹配,從而將手勢所對應(yīng)的特征參數(shù)空間中的曲線或點劃分為不同集合或類別的過程。
[0005]目前,手勢識別系統(tǒng)的流程框架一般由手勢建模、手勢分析和手勢匹配等三部分構(gòu)成。
[0006]手勢建模通常是針對給定的手勢。通常情況下,手勢模型的選取需要結(jié)合實際應(yīng)用背景來確定。如對于動態(tài)手勢而言,手勢模型的選取需要反映其在時間、空間維度上的特征,同時要將手勢的運動視為前后緊密聯(lián)系的過程。
[0007]一旦手勢模型確定下來,我們將通過手勢分析過程計算手勢的相關(guān)特征參數(shù),這些特征實際上代表了對于特定手勢姿態(tài)和運動軌跡某種描述。手勢分析的過程較為復(fù)雜,它通常是手勢定位、特征選擇、特征提取、模型參數(shù)估計等過程的綜合。通過這一系列過程,我們從圖像或視頻中將與手勢相關(guān)的部分分離出來,并根據(jù)對手勢的定位,從相關(guān)區(qū)域或根據(jù)視頻中前后幀的關(guān)系,提取特征數(shù)據(jù)用以對手勢的觀測狀態(tài)進(jìn)行適當(dāng)?shù)拿枋?,同時根據(jù)訓(xùn)練樣本特征對模型參數(shù)進(jìn)行估計。上述各步驟的實現(xiàn)方法同樣需要根據(jù)問題的具體應(yīng)用背景來進(jìn)行設(shè)計。
[0008]手勢匹配的基本任務(wù)則是將特征與模型相匹配,從而將手勢所對應(yīng)的特征參數(shù)空間中的曲線或點劃分為不同子集的過程。目前常用思路是將提取的特征同預(yù)先得到的模型進(jìn)行某種形式的相似性度量,依據(jù)相似程度確定待識別手勢對應(yīng)的分類。
【發(fā)明內(nèi)容】
[0009]針對上述問題,本發(fā)明的目的在于提供一種基于Fr6chet距離的動態(tài)手勢識別方法。
[0010]為達(dá)到上述目的,本發(fā)明所述一種基于FMchet距離的動態(tài)手勢識別方法,至少包括以下步驟:
[0011]獲取輸入視頻中待識別的動態(tài)手勢片段的手勢位置信息;
[0012]獲取所述手勢位置處連續(xù)前后幀的手勢狀態(tài)變化特征序列;
[0013]將獲取的手勢狀態(tài)變化特征序列與預(yù)設(shè)模型中的特征序列依據(jù)FMchet距離進(jìn)行匹配;
[0014]根據(jù)FMchet距離匹配信息獲取相似性結(jié)果并輸出。
[0015]優(yōu)選地,所述獲取輸入視頻中待識別的動態(tài)手勢片段的手勢位置信息的具體步驟為:
[0016]根據(jù)視頻中像素的RGB值,獲取視頻任意一幀圖像中膚色區(qū)域出現(xiàn)的概率值;
[0017]根據(jù)所述概率值判斷得到視頻各幀圖像中分布的所有膚色區(qū)域;
[0018]獲取各個膚色區(qū)域在連續(xù)前后幀圖像的光流值;
[0019]根據(jù)分布的所有膚色區(qū)域的光流值,得到平均光流值最大的區(qū)域,即手勢位置區(qū)域。[0020]優(yōu)選地,所述獲取所述手勢位置處連續(xù)前后幀的手勢狀態(tài)變化特征序列包括運動軌跡變化特征序列和姿態(tài)變化特征序列。
[0021 ] 優(yōu)選地,所述運動軌跡變化特征序列的匹配步驟為:
[0022]設(shè)置手勢位置區(qū)域內(nèi)視頻圖像的任意一幀與前一幀的平均光流為方向矢量,SP:F= (X,y),其中X,y分別表示平均光流在橫向、縱向上的分量;
[0023]獲取輸入視頻圖像各幀所對應(yīng)的運動特征序列為(F1, F2, , Ft);
[0024]獲取模型中設(shè)置的運動特征序列為(M1, M2, , Mt);
[0025]選取運動特征序列(F1, F2, , Ft)中的任意一段序列片段f= (Fi, Fi+1,...,F(xiàn)j),得到該片段上的任意向量(X1, Yi)與運動特征序列(M1, M2,, Mt)中的任意向量(x2, y2)的距離,即為:
【權(quán)利要求】
1.一種基于Fr6chet距離的動態(tài)手勢識別方法,其特征在于,至少包括以下步驟: 獲取輸入視頻中待識別的動態(tài)手勢片段的手勢位置信息; 獲取所述手勢位置處連續(xù)前后幀的手勢狀態(tài)變化特征序列; 將獲取的手勢狀態(tài)變化特征序列與預(yù)設(shè)模型中的特征序列依據(jù)FMchet距離進(jìn)行匹配; 根據(jù)FMchet距離匹配信息獲取相似性結(jié)果并輸出。
2.根據(jù)權(quán)利要求1所述的基于FMchet距離的動態(tài)手勢識別方法,其特征在于,所述獲取輸入視頻中待識別的動態(tài)手勢片段的手勢位置信息的具體步驟為: 根據(jù)視頻中像素的RGB值,獲取視頻任意一幀圖像中膚色區(qū)域出現(xiàn)的概率值; 根據(jù)所述概率值判斷得到視頻各幀圖像中分布的所有膚色區(qū)域; 獲取各個膚色區(qū)域在連續(xù)前后幀圖像的光流值; 根據(jù)分布的所有膚色區(qū)域的光流值,得到平均光流值最大的區(qū)域,即手勢位置區(qū)域。
3.根據(jù)權(quán)利要求1所述的基于FMchet距離的動態(tài)手勢識別方法,其特征在于,所述獲取所述手勢位置處連續(xù)前后幀的手勢狀態(tài)變化特征序列包括運動軌跡變化特征序列和姿態(tài)變化特征序列。
4.根據(jù)權(quán)利要求3所述的基于FMchet距離的動態(tài)手勢識別方法,其特征在于,所述運動軌跡變化特征序列的匹配步驟為: 設(shè)置手勢位置區(qū)域內(nèi)視頻圖像的任意一幀與前一幀的平均光流為方向矢量,即:F= (X,y),其中X,y分別表示平均光流在橫向、縱向上的分量; 獲取輸入視頻圖像各幀所對應(yīng)的運動特征序列為(F1, F2,, Ft); 獲取模型中設(shè)置的運動特征序列為(M1, M2,, Mt); 選取運動特征序列(F1, F2,, Ft)中的任意一段序列片段f=(Fi,F(xiàn)i+1,...,匕),得到該片段上的任意向量(Xpy1)與運動特征序列(MuMwmMt)中的任意向量(x2,y2)的距離,即為:
5.根據(jù)權(quán)利要求3所述的基于FMchet距離的動態(tài)手勢識別方法,其特征在于,所述姿態(tài)變化特征序列的匹配步驟為: 設(shè)置手勢位置區(qū)域內(nèi)視頻圖像的任意一幀中手指指尖及中指指根相對應(yīng)手指中心位置的坐標(biāo)為姿態(tài)向量,即為Z,其中Z為12維的特征向量; 獲取輸入視頻圖像各幀所對應(yīng)的姿態(tài)特征序列為(Z1, Z2,, Zt); 獲取模型中設(shè)置的姿態(tài)特征序列為(N1, N2,, Nt);選取姿態(tài)運動特征序列(Z1, Z2, , Zt)中的任意一段序列片段f=(Zi,Zi+1,...,Zj),得到該片段上的任意向量Z與姿態(tài)運動特征序列(N1, N2,...,Nt)中的任意向量N的距離,SP為:
d2(Z,N) = | Z-N| |2; 從得到的多個d2(Z,N)找到最大值,求取最大值之下界,便可得到f=(Zi,Zi+1,...,Zj)和(N1, N2, , Nt)的 Frechet 距離 δ F ; 設(shè)置一閾值ε2,判斷該閾值與δρ的大小: 若ε2,則判斷待識別視頻中第i幀至第j幀所示的相應(yīng)手勢動作為模型所匹配的手勢; 反之,則不是。`
【文檔編號】G06K9/46GK103745228SQ201310752309
【公開日】2014年4月23日 申請日期:2013年12月31日 優(yōu)先權(quán)日:2013年12月31日
【發(fā)明者】張長水, 侯廣東, 崔潤鵬 申請人:清華大學(xué)