專利名稱:電視機(jī)控制用手勢識別系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及手勢識別,更具體地說,涉及遙控用手勢識別。
背景技術(shù):
手勢識別是一種新興技術(shù),它能夠提供更直接的人機(jī)交互方法。手勢識別與空間和時(shí)間信息有關(guān),可用于為未來的應(yīng)用替代傳統(tǒng)的控制設(shè)備。已嘗試了手勢識別系統(tǒng),例如,美國專利N0.5,534,917。不過,這些系統(tǒng)通常涉及計(jì)算密集的復(fù)雜分析和/或需要昂貴的硬件。 因而,本發(fā)明的目的是一種能夠從典型的HD照相機(jī)獲得輸入,和利用一組簡單的手勢使計(jì)算力降至最低的手勢識別系統(tǒng)。在下面的說明中,將滿足這些目標(biāo)中的至少一些目標(biāo)。
發(fā)明內(nèi)容
本發(fā)明包含處理作為輸入的運(yùn)動(dòng)手部的視頻,并輸出每個(gè)圖像中的當(dāng)前手勢狀態(tài)和手部位置的系統(tǒng)和方法。在每個(gè)圖像中,從背景中分割手部區(qū)域,并根據(jù)一個(gè)或多個(gè)參數(shù),將其分類為“張開的手部”或“握緊的手部”。系統(tǒng)結(jié)合膚色模型和運(yùn)動(dòng)中的一個(gè)或多個(gè),以獲得實(shí)時(shí)手部分割性能。典型的應(yīng)用包括(但不限于)用于基本電視機(jī)控制,電視機(jī)上的照片和web瀏覽,和計(jì)算機(jī)的手勢識別。本發(fā)明在僅僅利用單個(gè)HD照相機(jī)的同時(shí),以較低的計(jì)算復(fù)雜性,實(shí)現(xiàn)用于電視機(jī)控制的實(shí)時(shí)并且用戶友好的手勢識別系統(tǒng)。系統(tǒng)利用小型傳感器進(jìn)行手勢識別,可利用簡單手勢,在3米以上的距離控制電視機(jī)、計(jì)算機(jī)或其它設(shè)備。組合膚色模型和運(yùn)動(dòng),以便從背景中分離手部區(qū)域操作中,提取幾個(gè)參數(shù),比如手部大小,手掌中心和手部底部。這些參數(shù)被用于把當(dāng)前手勢分成“張開的手部”或“握緊的手部”。系統(tǒng)隨后利用不同手勢狀態(tài)之間的轉(zhuǎn)變來控制設(shè)備。有益的是,所述方法只利用單個(gè)HD照相機(jī)獲得作為輸入的視頻序列,同時(shí)能夠以較低的計(jì)算復(fù)雜性獲得實(shí)時(shí)性能。本發(fā)明的系統(tǒng)和方法不需要任何昂貴和特殊的傳感器。通過利用膚色模型和運(yùn)動(dòng),所述系統(tǒng)能夠在沒有深度圖的情況下,從背景中分割手部區(qū)域。本發(fā)明的手勢組用戶友好(易于記住),足以覆蓋電視機(jī)控制的基本功能。本發(fā)明實(shí)用地實(shí)現(xiàn)電視機(jī)的手勢控制,使實(shí)時(shí)電視機(jī)特征成為可能。另外,就本發(fā)明的系統(tǒng)來說,不需要使用兩部照相機(jī)或者一部3D照相機(jī)。在說明書的以下各個(gè)部分中,將闡明本發(fā)明的其它各個(gè)方面,其中,詳細(xì)說明用于充分公開本發(fā)明的優(yōu)選實(shí)施例,而不是對本發(fā)明加以限制。
參考僅僅用于舉例說明的以下附圖,可更充分地理解本發(fā)明:圖1是按照本發(fā)明的手勢識別系統(tǒng)的示意圖。圖2是圖解說明圖1的手勢識別模塊的組件概況的示意圖。圖3是按照本發(fā)明的分割模塊的示意圖。圖4是按照本發(fā)明,應(yīng)用于圖像的用于前景/背景分離的限界框的例示。圖5A-5E圖解說明按照本發(fā)明,關(guān)于不同手勢的成功手部分割結(jié)果的圖像。圖6A-E圖解說明非最佳手部分割的圖像。圖7圖解說明按照本發(fā)明的分割圖像幀的二元手部掩膜和計(jì)算的參數(shù)。圖8圖解說明為了得出中心-輪廓距離而評估的圖7的掩膜。圖9圖解說明按照本發(fā)明的用于電視機(jī)控制的例證手勢組。圖10圖解說明按照本發(fā)明,可用于特定操作的序列手勢組。圖11表示應(yīng)用于圖像的手部限界框的相鄰限界框。圖12表示根據(jù)分割模型的結(jié)果,轉(zhuǎn)換成指示符矩陣的手部圖像。圖13圖解說明遮擋發(fā)生的圖像和相應(yīng)的分割模型。圖14圖解說明遮擋發(fā)生的另一個(gè)圖像和相應(yīng)的分割模型。圖15圖解說明脫離遮擋的手部的圖像和分割模型。
具體實(shí)施例方式更具體地參考附圖,出于舉例說明的目的,下面用圖1-圖15中所示的設(shè)備具體體現(xiàn)本發(fā)明。要理解設(shè)備可在結(jié)構(gòu)方面,以及在各個(gè)部分的細(xì)節(jié)方面發(fā)生變化,并且方法可在具體步驟和順序方面發(fā)生變化,而不脫離這里公開的基本原理。圖1圖解說明本發(fā)明的手勢識別系統(tǒng)10的示意圖。系統(tǒng)10包括傳感器12(例如,HD格式照相機(jī)等),其輸出耦接到接收傳感器輸入并運(yùn)行手勢識別軟件模塊18的處理器14。手勢識別模塊18分析來自傳感器12的輸入,并提供發(fā)送給設(shè)備控制應(yīng)用程序或者用戶界面軟件16的命令或操作,所述設(shè)備控制應(yīng)用程序或者用戶界面軟件16可用于控制音量、頻道、節(jié)目或者設(shè)備的其它特征。要理解設(shè)備控制應(yīng)用程序16可被配置成控制電視機(jī)、機(jī)頂盒、計(jì)算機(jī)或者其它組件。圖2關(guān)于系統(tǒng)10的操作,圖解說明手勢識別模塊18的基本組件。手勢識別模塊18 一般包含3個(gè)階段。在第一階段中,在分割模塊20和跟蹤模塊22處理來自設(shè)備12的輸入或拍攝的圖像,從而從背景中分割手部區(qū)域,以便跟蹤。在第二階段中,系統(tǒng)10執(zhí)行特征提取模塊24,以便從檢測的手部區(qū)域中提取必要的特征。在第三階段中,通過把提取的特征輸入用于姿勢/手勢識別26的分類器,系統(tǒng)10執(zhí)行手勢識別模塊18。手勢識別模塊18的結(jié)果隨后被輸出給特定的應(yīng)用程序16,以便控制設(shè)備。階段1:手部分割圖像分割一般包括向圖像中的像素分配標(biāo)記,以致具有相同標(biāo)記的像素共有某些視覺特性。本發(fā)明的系統(tǒng)10最好利用基于膚色的方法。這種方法以在每個(gè)單獨(dú)的圖像內(nèi),膚色始終如一(例如,數(shù)值不存在重大變化)的假定為基礎(chǔ)。這種結(jié)構(gòu)把色度分量和亮度分量分開,以降低對光變化的敏感性。這種方法為低計(jì)算復(fù)雜性和實(shí)時(shí)性能創(chuàng)造條件。在優(yōu)選結(jié)構(gòu)中,來自設(shè)備12的輸入圖像為YCbCr444平面顏色格式。如圖3中圖解所示,分割模塊20 —般包含3個(gè)步驟:包含前景/背景分離的第一步驟30,包含模型訓(xùn)練的第二步驟32,和包含像素分類的第三步驟34。圖4圖解說明檢測手部44位置和大小的前景/背景分離步驟30。在檢測到手部44之后,輸出手部限界框48。最好利用觸發(fā)模塊(未示出)觸發(fā)本發(fā)明的系統(tǒng)10啟動(dòng)(例如,通過用戶舉起手部44)。限界框48圍繞前景區(qū)域40,把背景區(qū)42定義為被包圍在外框或者搜索區(qū)46中的周圍圖像。這里,搜索區(qū)長度被表示成3倍于限界框48的長度L,以覆蓋手部44的運(yùn)動(dòng)。不過,可以理解其它比率也是適用的。在模型訓(xùn)練步驟32中,最好利用K-均值聚類(clustering)訓(xùn)練在手部限界框48內(nèi)的圖像40的3-分量高斯混合模型(最好只使用Cb,Cr顏色通道)。K-均值聚類還用于訓(xùn)練在背景區(qū)域42內(nèi)的圖像的3-分量高斯混合模型(只使用Cb,Cr顏色通道)。盡管可以使用其它方法(例如,基于直方圖的方法),不過優(yōu)選K-均值算法,因?yàn)槠渌椒ㄍǔ]^慢,并且更加計(jì)算密集。K-均值算法是用于把圖像分成K個(gè)聚類的迭代技術(shù)。K-均值算法通常包括I)隨機(jī)地或者根據(jù)某種試探,挑選K個(gè)聚類中心,2)把圖像中的每個(gè)像素分配給使該像素和聚類中心之間的距離最小化的聚類,3)通過求聚類中的所有像素的平均值,重新計(jì)算聚類中心,和4)重復(fù)步驟2和3,直到達(dá)到收斂為止(例如,沒有像素改變聚類)。通常,所述距離是像素和聚類中心之間的平方差或者絕對值差。所述差值可以基于像素顏色、亮度、紋理和位置,或者這些因素的加權(quán)組合。本發(fā)明的系統(tǒng)10最好利用基于膚色的方法。這種方法以在每個(gè)單獨(dú)的圖像內(nèi),膚色始終如一(例如,數(shù)值不存在重大變化)的假定為基礎(chǔ)。這種結(jié)構(gòu)對光變化敏感,可通過把色度分量和亮度分量分開,加以改善。這種方法為低計(jì)算復(fù)雜性和實(shí)時(shí)性能創(chuàng)造條件。在優(yōu)選結(jié)構(gòu)中,來自設(shè)備12的輸入圖像為YCbCr444平面顏色格式。為了修正前景40顏色模型,除去不在一般皮膚模型的范圍(77<Cb<127,133 ^ Cr ^ 173)內(nèi)的所有分量。如果3個(gè)分量都在(或者都不在)皮膚模型范圍之內(nèi),那么我們根據(jù)前景高斯模型,確定最接近任意背景分量的分量,隨后除去 該分量。剩余的分量隨后被用于表示前景區(qū)域40。最好利用GMM和Bayesian決策規(guī)則,進(jìn)行像素分類步驟34。對于每個(gè)當(dāng)前的手部圖像,我們利用前一個(gè)圖像的相同部分作為基準(zhǔn)。滿足以下標(biāo)準(zhǔn)(關(guān)于運(yùn)動(dòng)的等式I和2,和關(guān)于膚色的等式3)任意之一的像素被視為手部像素(否則,像素被分類為背景像素)(以下公式中,hand表不手,background表不背景):1.運(yùn)動(dòng)和膚色:I Cb (X,y) -Cbref (x, y) | >5 或 | Cr (x, y) -Crref (x, y) | >5 等式 I和2*PhandXP (c I hand) > (1-Phand) XP (c background) 等式 22.膚色:PhandXP (c I hand) > (1-Phand) XP (c I background) 等式 3像素分類步驟34隨后最好繼之以形態(tài)學(xué)膨脹和侵蝕算子,以修正獲得的二元手部掩膜。如下利用等式4、5和6,計(jì)算像素分類步驟34中的概率:
權(quán)利要求
1.一種用于遙控設(shè)備的手勢識別系統(tǒng),包括: (a)在所述設(shè)備附近的位置處,捕捉用戶的手部的視頻數(shù)據(jù)的傳感器; (b)處理捕捉的所述手部的視頻數(shù)據(jù)的處理器; (c)可在所述處理器上運(yùn)行,以執(zhí)行多個(gè)步驟的程序,所述多個(gè)步驟包括: 根據(jù)膚色,分割捕捉的視頻中的每個(gè)手部圖像; 提取分割的手部圖像的一個(gè)或多個(gè)參數(shù); 跟蹤手部圖像中的所述一個(gè)或多個(gè)參數(shù); 根據(jù)所述一個(gè)或多個(gè)參 數(shù),把手勢分類成“張開”或“握緊”;和 根據(jù)所述手勢的識別和對所述一個(gè)或多個(gè)參數(shù)的位置的跟蹤,操縱所述設(shè)備。
2.按照權(quán)利要求1所述的系統(tǒng),其中分割每個(gè)手部圖像包括: 把與所述手部相關(guān)的前景區(qū)域和圍繞所述前景區(qū)域的背景區(qū)域分開; 訓(xùn)練背景區(qū)域和前景區(qū)域的3分量混合模型;和 根據(jù)運(yùn)動(dòng)和膚色中的一個(gè)或多個(gè),對圖像像素分類。
3.按照權(quán)利要求1所述的系統(tǒng),其中只利用Cb和Cr顏色通道分割圖像。
4.按照權(quán)利要求1所述的系統(tǒng),其中提取一個(gè)或多個(gè)參數(shù)包括: 根據(jù)提取的手部的輪廓和骨架,獲得用戶的手部的手掌中心位置。
5.按照權(quán)利要求4所述的系統(tǒng),其中跟蹤一個(gè)或多個(gè)參數(shù)包括利用Kalman濾波器,跟蹤手掌中心位置。
6.按照權(quán)利要求4所述的系統(tǒng),其中提取一個(gè)或多個(gè)參數(shù)還包括: 獲得手掌底部位置;和 測量手掌中心位置與提取的圖像輪廓上的最遠(yuǎn)輪廓點(diǎn)之間的距離; 所述最遠(yuǎn)輪廓點(diǎn)在通過手掌底部位置和手掌中心位置的矢量的預(yù)定角度范圍內(nèi)。
7.按照權(quán)利要求6所述的系統(tǒng),其中把手勢分類成“張開”或“握緊”包括: 比較到最遠(yuǎn)輪廓點(diǎn)的距離和閾值; 如果到最遠(yuǎn)輪廓點(diǎn)的距離超過所述閾值,那么把圖像分類成“張開”;以及 如果到最遠(yuǎn)輪廓點(diǎn)的距離低于所述閾值,那么把圖像分類成“握緊”。
8.按照權(quán)利要求1所述的系統(tǒng), 其中所述設(shè)備包含與顯示器耦接的用戶界面,所述用戶界面是在所述顯示器上輸出的;以及 其中操縱所述設(shè)備包括根據(jù)所述手勢的識別和所述一個(gè)或多個(gè)參數(shù)的跟蹤,向用戶界面發(fā)送命令。
9.按照權(quán)利要求8所述的系統(tǒng),其中“張開”手勢和“握緊”手勢之間的轉(zhuǎn)變被用于確定“選擇”或“抓取”命令是否被發(fā)送給用戶界面。
10.按照權(quán)利要求9所述的系統(tǒng),其中張開手勢的跟蹤被用于確定光標(biāo)在用戶界面上的位置。
11.一種用于遙控設(shè)備的手勢識別系統(tǒng),所述設(shè)備具有在顯示器上顯現(xiàn)的用戶界面,所述手勢識別系統(tǒng)包括: (a)在所述設(shè)備附近的位置,捕捉用戶的手部的視頻數(shù)據(jù)的傳感器; (b)處理捕捉的所述手部的視頻數(shù)據(jù)的處理器;(C)可在所述處理器上運(yùn)行以執(zhí)行多個(gè)步驟的程序,所述多個(gè)步驟包括: 根據(jù)膚色,分割捕捉的視頻中的每個(gè)手部圖像; 提取分割的手部圖像的一個(gè)或多個(gè)參數(shù); 跟蹤手部圖像中的所述一個(gè)或多個(gè)參數(shù); 根據(jù)所述一個(gè)或多個(gè)參數(shù),把手勢分類成“張開”或“握緊”;和 根據(jù)所述手勢的識別和所述一個(gè)或多個(gè)參數(shù)的跟蹤,操縱所述設(shè)備; 其中操縱所述設(shè)備包括根據(jù)所述手勢的識別和對所述一個(gè)或多個(gè)參數(shù)的位置的跟蹤,向用戶界面發(fā)送命令。
12.按照權(quán)利要求11所述的系統(tǒng),其中分割每個(gè)手部圖像包括: 把與所述手部相關(guān)的前景區(qū)域和圍繞所述前景區(qū)域的背景區(qū)域分開; 訓(xùn)練背景區(qū)域和前景區(qū)域的只包含Cb和Cr顏色通道的3分量混合模型;和 根據(jù)運(yùn)動(dòng)和膚色中的一個(gè)或多個(gè),對圖像像素分類。
13.按照權(quán)利要求11所述的系統(tǒng),其中提取一個(gè)或多個(gè)參數(shù)包括: 根據(jù)提取的手部的輪廓和骨架,獲得用戶的手部的手掌中心位置; 根據(jù)手掌中心位置,獲得手部的手掌底部位置;和 測量手掌中心位置與提取的圖像輪廓上的最遠(yuǎn)輪廓點(diǎn)之間的距離; 所述最遠(yuǎn)輪廓點(diǎn)在通 過手掌底部位置和手掌中心位置的矢量的一定角度范圍內(nèi)。
14.按照權(quán)利要求13所述的系統(tǒng),其中跟蹤所述一個(gè)或多個(gè)參數(shù)包括利用Kalman濾波器跟蹤手掌中心位置。
15.按照權(quán)利要求13中所述的系統(tǒng),其中把手勢分類成“張開”或“握緊”包括: 比較到最遠(yuǎn)輪廓點(diǎn)的距離和閾值; 如果到最遠(yuǎn)輪廓點(diǎn)的距離超過所述閾值,那么把圖像分類成“張開”;以及 如果到最遠(yuǎn)輪廓點(diǎn)的距離低于所述閾值,那么把圖像分類成“握緊”。
16.按照權(quán)利要求15所述的系統(tǒng),其中“張開”手勢和“握緊”手勢之間的轉(zhuǎn)變被用于確定“選擇”或“抓取”命令是否被發(fā)送給用戶界面。
17.按照權(quán)利要求16所述的系統(tǒng),其中張開手勢的跟蹤被用于確定光標(biāo)在用戶界面上的位置。
18.一種利用手勢遙控設(shè)備的方法,所述設(shè)備具有在顯示器上顯現(xiàn)的用戶界面,所述方法包括: 用在所述設(shè)備附近位置的傳感器,捕捉用戶的手部的視頻; 根據(jù)膚色,分割捕捉的視頻中的每個(gè)手部圖像; 提取分割的手部圖像的一個(gè)或多個(gè)參數(shù); 跟蹤手部圖像中的所述一個(gè)或多個(gè)參數(shù)中的至少一個(gè)參數(shù); 根據(jù)所述一個(gè)或多個(gè)參數(shù),把手勢分類成“張開”或“握緊”; 根據(jù)所述手勢的識別和所述一個(gè)或多個(gè)參數(shù)的跟蹤,操縱所述設(shè)備; 根據(jù)所述手勢的識別和所述一個(gè)或多個(gè)參數(shù)的跟蹤,向用戶界面發(fā)送命令;和 在顯示器上輸出發(fā)送的命令,以便操縱所述設(shè)備。
19.按照權(quán)利要求18所述的方法, 其中提取一個(gè)或多個(gè)參數(shù)包括:根據(jù)提取的手部的輪廓和骨架,獲得用戶的手部的手掌中心位置; 根據(jù)手掌中心位置,獲得手部的手掌底部位置;和 測量手掌中心位置與提取的圖像輪廓上的最遠(yuǎn)輪廓點(diǎn)之間的距離; 所述最遠(yuǎn)輪廓點(diǎn)在通過手掌底部位置和手掌中心位置的矢量的一定角度范圍內(nèi),其中把手勢分類成“張開”或“握緊”包括: 比較到最遠(yuǎn)輪廓點(diǎn)的距離和閾值; 如果到最遠(yuǎn)輪廓點(diǎn)的距離超過所述閾值,那么把圖像分類成“張開”;以及 如果到最遠(yuǎn)輪廓點(diǎn)的距離低于所述閾值,那么把圖像分類成“握緊”。
20.按照權(quán)利要求19所述的方法,其中“張開”手勢和“握緊”手勢之間的轉(zhuǎn)變被用于確定“選擇”或“抓取”命令是否被發(fā)送給用戶界面;以及 其中對張開手勢的手掌中心的跟 蹤被用于確定光標(biāo)在用戶界面上的位置。
全文摘要
一種利用與運(yùn)動(dòng)信息結(jié)合的基于膚色的方法,實(shí)現(xiàn)實(shí)時(shí)分割的手勢識別系統(tǒng)。利用Kalman濾波器跟蹤手部的質(zhì)心。計(jì)算提取的手部掩膜的手掌中心,手掌底部,以及從手掌中心到輪廓的最大距離。隨后比較計(jì)算的距離和閾值,以確定當(dāng)前姿勢是“張開”還是“握緊”。在優(yōu)選實(shí)施例中,“張開”姿勢和“握緊”姿勢之間的轉(zhuǎn)變確定當(dāng)前手勢是處于“選擇”狀態(tài)還是“抓取”狀態(tài)。
文檔編號G06K9/00GK103098076SQ201180043241
公開日2013年5月8日 申請日期2011年7月26日 優(yōu)先權(quán)日2010年9月17日
發(fā)明者黃光滿, 劉明昌, 余良吟 申請人:索尼公司