電視機(jī)控制用手勢識別系統(tǒng)的制作方法

文檔序號：6361608閱讀：227來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：電視機(jī)控制用手勢識別系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及手勢識別，更具體地說，涉及遙控用手勢識別。
背景技術(shù)：
手勢識別是一種新興技術(shù)，它能夠提供更直接的人機(jī)交互方法。手勢識別與空間和時(shí)間信息有關(guān)，可用于為未來的應(yīng)用替代傳統(tǒng)的控制設(shè)備。已嘗試了手勢識別系統(tǒng)，例如，美國專利N0.5，534，917。不過，這些系統(tǒng)通常涉及計(jì)算密集的復(fù)雜分析和/或需要昂貴的硬件。因而，本發(fā)明的目的是一種能夠從典型的HD照相機(jī)獲得輸入，和利用一組簡單的手勢使計(jì)算力降至最低的手勢識別系統(tǒng)。在下面的說明中，將滿足這些目標(biāo)中的至少一些目標(biāo)。

發(fā)明內(nèi)容
本發(fā)明包含處理作為輸入的運(yùn)動(dòng)手部的視頻，并輸出每個(gè)圖像中的當(dāng)前手勢狀態(tài)和手部位置的系統(tǒng)和方法。在每個(gè)圖像中，從背景中分割手部區(qū)域，并根據(jù)一個(gè)或多個(gè)參數(shù)，將其分類為“張開的手部”或“握緊的手部”。系統(tǒng)結(jié)合膚色模型和運(yùn)動(dòng)中的一個(gè)或多個(gè)，以獲得實(shí)時(shí)手部分割性能。典型的應(yīng)用包括(但不限于)用于基本電視機(jī)控制，電視機(jī)上的照片和web瀏覽，和計(jì)算機(jī)的手勢識別。本發(fā)明在僅僅利用單個(gè)HD照相機(jī)的同時(shí)，以較低的計(jì)算復(fù)雜性，實(shí)現(xiàn)用于電視機(jī)控制的實(shí)時(shí)并且用戶友好的手勢識別系統(tǒng)。系統(tǒng)利用小型傳感器進(jìn)行手勢識別，可利用簡單手勢，在3米以上的距離控制電視機(jī)、計(jì)算機(jī)或其它設(shè)備。組合膚色模型和運(yùn)動(dòng)，以便從背景中分離手部區(qū)域操作中，提取幾個(gè)參數(shù)，比如手部大小，手掌中心和手部底部。這些參數(shù)被用于把當(dāng)前手勢分成“張開的手部”或“握緊的手部”。系統(tǒng)隨后利用不同手勢狀態(tài)之間的轉(zhuǎn)變來控制設(shè)備。有益的是，所述方法只利用單個(gè)HD照相機(jī)獲得作為輸入的視頻序列，同時(shí)能夠以較低的計(jì)算復(fù)雜性獲得實(shí)時(shí)性能。本發(fā)明的系統(tǒng)和方法不需要任何昂貴和特殊的傳感器。通過利用膚色模型和運(yùn)動(dòng)，所述系統(tǒng)能夠在沒有深度圖的情況下，從背景中分割手部區(qū)域。本發(fā)明的手勢組用戶友好(易于記住)，足以覆蓋電視機(jī)控制的基本功能。本發(fā)明實(shí)用地實(shí)現(xiàn)電視機(jī)的手勢控制，使實(shí)時(shí)電視機(jī)特征成為可能。另外，就本發(fā)明的系統(tǒng)來說，不需要使用兩部照相機(jī)或者一部3D照相機(jī)。在說明書的以下各個(gè)部分中，將闡明本發(fā)明的其它各個(gè)方面，其中，詳細(xì)說明用于充分公開本發(fā)明的優(yōu)選實(shí)施例，而不是對本發(fā)明加以限制。

參考僅僅用于舉例說明的以下附圖，可更充分地理解本發(fā)明:圖1是按照本發(fā)明的手勢識別系統(tǒng)的示意圖。圖2是圖解說明圖1的手勢識別模塊的組件概況的示意圖。圖3是按照本發(fā)明的分割模塊的示意圖。圖4是按照本發(fā)明，應(yīng)用于圖像的用于前景/背景分離的限界框的例示。圖5A-5E圖解說明按照本發(fā)明，關(guān)于不同手勢的成功手部分割結(jié)果的圖像。圖6A-E圖解說明非最佳手部分割的圖像。圖7圖解說明按照本發(fā)明的分割圖像幀的二元手部掩膜和計(jì)算的參數(shù)。圖8圖解說明為了得出中心-輪廓距離而評估的圖7的掩膜。圖9圖解說明按照本發(fā)明的用于電視機(jī)控制的例證手勢組。圖10圖解說明按照本發(fā)明，可用于特定操作的序列手勢組。圖11表示應(yīng)用于圖像的手部限界框的相鄰限界框。圖12表示根據(jù)分割模型的結(jié)果，轉(zhuǎn)換成指示符矩陣的手部圖像。圖13圖解說明遮擋發(fā)生的圖像和相應(yīng)的分割模型。圖14圖解說明遮擋發(fā)生的另一個(gè)圖像和相應(yīng)的分割模型。圖15圖解說明脫離遮擋的手部的圖像和分割模型。
具體實(shí)施例方式更具體地參考附圖，出于舉例說明的目的，下面用圖1-圖15中所示的設(shè)備具體體現(xiàn)本發(fā)明。要理解設(shè)備可在結(jié)構(gòu)方面，以及在各個(gè)部分的細(xì)節(jié)方面發(fā)生變化，并且方法可在具體步驟和順序方面發(fā)生變化，而不脫離這里公開的基本原理。圖1圖解說明本發(fā)明的手勢識別系統(tǒng)10的示意圖。系統(tǒng)10包括傳感器12(例如，HD格式照相機(jī)等)，其輸出耦接到接收傳感器輸入并運(yùn)行手勢識別軟件模塊18的處理器14。手勢識別模塊18分析來自傳感器12的輸入，并提供發(fā)送給設(shè)備控制應(yīng)用程序或者用戶界面軟件16的命令或操作，所述設(shè)備控制應(yīng)用程序或者用戶界面軟件16可用于控制音量、頻道、節(jié)目或者設(shè)備的其它特征。要理解設(shè)備控制應(yīng)用程序16可被配置成控制電視機(jī)、機(jī)頂盒、計(jì)算機(jī)或者其它組件。圖2關(guān)于系統(tǒng)10的操作，圖解說明手勢識別模塊18的基本組件。手勢識別模塊18 一般包含3個(gè)階段。在第一階段中，在分割模塊20和跟蹤模塊22處理來自設(shè)備12的輸入或拍攝的圖像，從而從背景中分割手部區(qū)域，以便跟蹤。在第二階段中，系統(tǒng)10執(zhí)行特征提取模塊24，以便從檢測的手部區(qū)域中提取必要的特征。在第三階段中，通過把提取的特征輸入用于姿勢/手勢識別26的分類器，系統(tǒng)10執(zhí)行手勢識別模塊18。手勢識別模塊18的結(jié)果隨后被輸出給特定的應(yīng)用程序16，以便控制設(shè)備。階段1:手部分割圖像分割一般包括向圖像中的像素分配標(biāo)記，以致具有相同標(biāo)記的像素共有某些視覺特性。本發(fā)明的系統(tǒng)10最好利用基于膚色的方法。這種方法以在每個(gè)單獨(dú)的圖像內(nèi)，膚色始終如一(例如，數(shù)值不存在重大變化)的假定為基礎(chǔ)。這種結(jié)構(gòu)把色度分量和亮度分量分開，以降低對光變化的敏感性。這種方法為低計(jì)算復(fù)雜性和實(shí)時(shí)性能創(chuàng)造條件。在優(yōu)選結(jié)構(gòu)中，來自設(shè)備12的輸入圖像為YCbCr444平面顏色格式。如圖3中圖解所示，分割模塊20 —般包含3個(gè)步驟:包含前景/背景分離的第一步驟30，包含模型訓(xùn)練的第二步驟32，和包含像素分類的第三步驟34。圖4圖解說明檢測手部44位置和大小的前景/背景分離步驟30。在檢測到手部44之后，輸出手部限界框48。最好利用觸發(fā)模塊(未示出)觸發(fā)本發(fā)明的系統(tǒng)10啟動(dòng)(例如，通過用戶舉起手部44)。限界框48圍繞前景區(qū)域40，把背景區(qū)42定義為被包圍在外框或者搜索區(qū)46中的周圍圖像。這里，搜索區(qū)長度被表示成3倍于限界框48的長度L，以覆蓋手部44的運(yùn)動(dòng)。不過，可以理解其它比率也是適用的。在模型訓(xùn)練步驟32中，最好利用K-均值聚類(clustering)訓(xùn)練在手部限界框48內(nèi)的圖像40的3-分量高斯混合模型(最好只使用Cb，Cr顏色通道)。K-均值聚類還用于訓(xùn)練在背景區(qū)域42內(nèi)的圖像的3-分量高斯混合模型(只使用Cb，Cr顏色通道)。盡管可以使用其它方法(例如，基于直方圖的方法)，不過優(yōu)選K-均值算法，因?yàn)槠渌椒ㄍǔ］^慢，并且更加計(jì)算密集。K-均值算法是用于把圖像分成K個(gè)聚類的迭代技術(shù)。K-均值算法通常包括I)隨機(jī)地或者根據(jù)某種試探，挑選K個(gè)聚類中心，2)把圖像中的每個(gè)像素分配給使該像素和聚類中心之間的距離最小化的聚類，3)通過求聚類中的所有像素的平均值，重新計(jì)算聚類中心，和4)重復(fù)步驟2和3，直到達(dá)到收斂為止(例如，沒有像素改變聚類)。通常，所述距離是像素和聚類中心之間的平方差或者絕對值差。所述差值可以基于像素顏色、亮度、紋理和位置，或者這些因素的加權(quán)組合。本發(fā)明的系統(tǒng)10最好利用基于膚色的方法。這種方法以在每個(gè)單獨(dú)的圖像內(nèi)，膚色始終如一(例如，數(shù)值不存在重大變化)的假定為基礎(chǔ)。這種結(jié)構(gòu)對光變化敏感，可通過把色度分量和亮度分量分開，加以改善。這種方法為低計(jì)算復(fù)雜性和實(shí)時(shí)性能創(chuàng)造條件。在優(yōu)選結(jié)構(gòu)中，來自設(shè)備12的輸入圖像為YCbCr444平面顏色格式。為了修正前景40顏色模型，除去不在一般皮膚模型的范圍(77<Cb<127，133 ^ Cr ^ 173)內(nèi)的所有分量。如果3個(gè)分量都在(或者都不在)皮膚模型范圍之內(nèi)，那么我們根據(jù)前景高斯模型，確定最接近任意背景分量的分量，隨后除去該分量。剩余的分量隨后被用于表示前景區(qū)域40。最好利用GMM和Bayesian決策規(guī)則，進(jìn)行像素分類步驟34。對于每個(gè)當(dāng)前的手部圖像，我們利用前一個(gè)圖像的相同部分作為基準(zhǔn)。滿足以下標(biāo)準(zhǔn)(關(guān)于運(yùn)動(dòng)的等式I和2，和關(guān)于膚色的等式3)任意之一的像素被視為手部像素(否則，像素被分類為背景像素)(以下公式中，hand表不手，background表不背景):1.運(yùn)動(dòng)和膚色:I Cb (X，y) -Cbref (x, y) | >5 或 | Cr (x, y) -Crref (x, y) | >5 等式 I和2*PhandXP (c I hand) > (1-Phand) XP (c background) 等式 22.膚色:PhandXP (c I hand) > (1-Phand) XP (c I background) 等式 3像素分類步驟34隨后最好繼之以形態(tài)學(xué)膨脹和侵蝕算子，以修正獲得的二元手部掩膜。如下利用等式4、5和6，計(jì)算像素分類步驟34中的概率:
權(quán)利要求
1.一種用于遙控設(shè)備的手勢識別系統(tǒng)，包括: (a)在所述設(shè)備附近的位置處，捕捉用戶的手部的視頻數(shù)據(jù)的傳感器； (b)處理捕捉的所述手部的視頻數(shù)據(jù)的處理器； (c)可在所述處理器上運(yùn)行，以執(zhí)行多個(gè)步驟的程序，所述多個(gè)步驟包括: 根據(jù)膚色，分割捕捉的視頻中的每個(gè)手部圖像；提取分割的手部圖像的一個(gè)或多個(gè)參數(shù)；跟蹤手部圖像中的所述一個(gè)或多個(gè)參數(shù)；根據(jù)所述一個(gè)或多個(gè)參數(shù)，把手勢分類成“張開”或“握緊”;和根據(jù)所述手勢的識別和對所述一個(gè)或多個(gè)參數(shù)的位置的跟蹤，操縱所述設(shè)備。
2.按照權(quán)利要求1所述的系統(tǒng)，其中分割每個(gè)手部圖像包括: 把與所述手部相關(guān)的前景區(qū)域和圍繞所述前景區(qū)域的背景區(qū)域分開；訓(xùn)練背景區(qū)域和前景區(qū)域的3分量混合模型；和根據(jù)運(yùn)動(dòng)和膚色中的一個(gè)或多個(gè)，對圖像像素分類。
3.按照權(quán)利要求1所述的系統(tǒng)，其中只利用Cb和Cr顏色通道分割圖像。
4.按照權(quán)利要求1所述的系統(tǒng)，其中提取一個(gè)或多個(gè)參數(shù)包括: 根據(jù)提取的手部的輪廓和骨架，獲得用戶的手部的手掌中心位置。
5.按照權(quán)利要求4所述的系統(tǒng)，其中跟蹤一個(gè)或多個(gè)參數(shù)包括利用Kalman濾波器，跟蹤手掌中心位置。
6.按照權(quán)利要求4所述的系統(tǒng)，其中提取一個(gè)或多個(gè)參數(shù)還包括: 獲得手掌底部位置；和測量手掌中心位置與提取的圖像輪廓上的最遠(yuǎn)輪廓點(diǎn)之間的距離；所述最遠(yuǎn)輪廓點(diǎn)在通過手掌底部位置和手掌中心位置的矢量的預(yù)定角度范圍內(nèi)。
7.按照權(quán)利要求6所述的系統(tǒng)，其中把手勢分類成“張開”或“握緊”包括: 比較到最遠(yuǎn)輪廓點(diǎn)的距離和閾值；如果到最遠(yuǎn)輪廓點(diǎn)的距離超過所述閾值，那么把圖像分類成“張開”；以及如果到最遠(yuǎn)輪廓點(diǎn)的距離低于所述閾值，那么把圖像分類成“握緊”。
8.按照權(quán)利要求1所述的系統(tǒng)，其中所述設(shè)備包含與顯示器耦接的用戶界面，所述用戶界面是在所述顯示器上輸出的；以及其中操縱所述設(shè)備包括根據(jù)所述手勢的識別和所述一個(gè)或多個(gè)參數(shù)的跟蹤，向用戶界面發(fā)送命令。
9.按照權(quán)利要求8所述的系統(tǒng)，其中“張開”手勢和“握緊”手勢之間的轉(zhuǎn)變被用于確定“選擇”或“抓取”命令是否被發(fā)送給用戶界面。
10.按照權(quán)利要求9所述的系統(tǒng)，其中張開手勢的跟蹤被用于確定光標(biāo)在用戶界面上的位置。
11.一種用于遙控設(shè)備的手勢識別系統(tǒng)，所述設(shè)備具有在顯示器上顯現(xiàn)的用戶界面，所述手勢識別系統(tǒng)包括: (a)在所述設(shè)備附近的位置，捕捉用戶的手部的視頻數(shù)據(jù)的傳感器； (b)處理捕捉的所述手部的視頻數(shù)據(jù)的處理器；(C)可在所述處理器上運(yùn)行以執(zhí)行多個(gè)步驟的程序，所述多個(gè)步驟包括: 根據(jù)膚色，分割捕捉的視頻中的每個(gè)手部圖像；提取分割的手部圖像的一個(gè)或多個(gè)參數(shù)；跟蹤手部圖像中的所述一個(gè)或多個(gè)參數(shù)；根據(jù)所述一個(gè)或多個(gè)參數(shù)，把手勢分類成“張開”或“握緊”;和根據(jù)所述手勢的識別和所述一個(gè)或多個(gè)參數(shù)的跟蹤，操縱所述設(shè)備；其中操縱所述設(shè)備包括根據(jù)所述手勢的識別和對所述一個(gè)或多個(gè)參數(shù)的位置的跟蹤，向用戶界面發(fā)送命令。
12.按照權(quán)利要求11所述的系統(tǒng)，其中分割每個(gè)手部圖像包括: 把與所述手部相關(guān)的前景區(qū)域和圍繞所述前景區(qū)域的背景區(qū)域分開；訓(xùn)練背景區(qū)域和前景區(qū)域的只包含Cb和Cr顏色通道的3分量混合模型；和根據(jù)運(yùn)動(dòng)和膚色中的一個(gè)或多個(gè)，對圖像像素分類。
13.按照權(quán)利要求11所述的系統(tǒng)，其中提取一個(gè)或多個(gè)參數(shù)包括: 根據(jù)提取的手部的輪廓和骨架，獲得用戶的手部的手掌中心位置；根據(jù)手掌中心位置，獲得手部的手掌底部位置；和測量手掌中心位置與提取的圖像輪廓上的最遠(yuǎn)輪廓點(diǎn)之間的距離；所述最遠(yuǎn)輪廓點(diǎn)在通過手掌底部位置和手掌中心位置的矢量的一定角度范圍內(nèi)。
14.按照權(quán)利要求13所述的系統(tǒng)，其中跟蹤所述一個(gè)或多個(gè)參數(shù)包括利用Kalman濾波器跟蹤手掌中心位置。
15.按照權(quán)利要求13中所述的系統(tǒng)，其中把手勢分類成“張開”或“握緊”包括: 比較到最遠(yuǎn)輪廓點(diǎn)的距離和閾值；如果到最遠(yuǎn)輪廓點(diǎn)的距離超過所述閾值，那么把圖像分類成“張開”；以及如果到最遠(yuǎn)輪廓點(diǎn)的距離低于所述閾值，那么把圖像分類成“握緊”。
16.按照權(quán)利要求15所述的系統(tǒng)，其中“張開”手勢和“握緊”手勢之間的轉(zhuǎn)變被用于確定“選擇”或“抓取”命令是否被發(fā)送給用戶界面。
17.按照權(quán)利要求16所述的系統(tǒng)，其中張開手勢的跟蹤被用于確定光標(biāo)在用戶界面上的位置。
18.一種利用手勢遙控設(shè)備的方法，所述設(shè)備具有在顯示器上顯現(xiàn)的用戶界面，所述方法包括: 用在所述設(shè)備附近位置的傳感器，捕捉用戶的手部的視頻；根據(jù)膚色，分割捕捉的視頻中的每個(gè)手部圖像；提取分割的手部圖像的一個(gè)或多個(gè)參數(shù)；跟蹤手部圖像中的所述一個(gè)或多個(gè)參數(shù)中的至少一個(gè)參數(shù)；根據(jù)所述一個(gè)或多個(gè)參數(shù)，把手勢分類成“張開”或“握緊”; 根據(jù)所述手勢的識別和所述一個(gè)或多個(gè)參數(shù)的跟蹤，操縱所述設(shè)備；根據(jù)所述手勢的識別和所述一個(gè)或多個(gè)參數(shù)的跟蹤，向用戶界面發(fā)送命令；和在顯示器上輸出發(fā)送的命令，以便操縱所述設(shè)備。
19.按照權(quán)利要求18所述的方法，其中提取一個(gè)或多個(gè)參數(shù)包括:根據(jù)提取的手部的輪廓和骨架，獲得用戶的手部的手掌中心位置；根據(jù)手掌中心位置，獲得手部的手掌底部位置；和測量手掌中心位置與提取的圖像輪廓上的最遠(yuǎn)輪廓點(diǎn)之間的距離；所述最遠(yuǎn)輪廓點(diǎn)在通過手掌底部位置和手掌中心位置的矢量的一定角度范圍內(nèi)，其中把手勢分類成“張開”或“握緊”包括: 比較到最遠(yuǎn)輪廓點(diǎn)的距離和閾值；如果到最遠(yuǎn)輪廓點(diǎn)的距離超過所述閾值，那么把圖像分類成“張開”；以及如果到最遠(yuǎn)輪廓點(diǎn)的距離低于所述閾值，那么把圖像分類成“握緊”。
20.按照權(quán)利要求19所述的方法，其中“張開”手勢和“握緊”手勢之間的轉(zhuǎn)變被用于確定“選擇”或“抓取”命令是否被發(fā)送給用戶界面；以及其中對張開手勢的手掌中心的跟蹤被用于確定光標(biāo)在用戶界面上的位置。
全文摘要
一種利用與運(yùn)動(dòng)信息結(jié)合的基于膚色的方法，實(shí)現(xiàn)實(shí)時(shí)分割的手勢識別系統(tǒng)。利用Kalman濾波器跟蹤手部的質(zhì)心。計(jì)算提取的手部掩膜的手掌中心，手掌底部，以及從手掌中心到輪廓的最大距離。隨后比較計(jì)算的距離和閾值，以確定當(dāng)前姿勢是“張開”還是“握緊”。在優(yōu)選實(shí)施例中，“張開”姿勢和“握緊”姿勢之間的轉(zhuǎn)變確定當(dāng)前手勢是處于“選擇”狀態(tài)還是“抓取”狀態(tài)。
文檔編號G06K9/00GK103098076SQ201180043241
公開日2013年5月8日申請日期2011年7月26日優(yōu)先權(quán)日2010年9月17日
發(fā)明者黃光滿, 劉明昌, 余良吟申請人:索尼公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃光滿;劉明昌;余良吟
技術(shù)所有人：索尼公司
我是此專利的發(fā)明人

上一篇：存儲系統(tǒng)的制作方法
上一篇：創(chuàng)建存儲關(guān)于個(gè)人居住單元的信息的數(shù)據(jù)庫的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

手勢識別控制系統(tǒng)論文相關(guān)技術(shù)

手勢識別控制ppt翻頁相關(guān)技術(shù)

手勢識別系統(tǒng)相關(guān)技術(shù)

智能交警手勢識別系統(tǒng)相關(guān)技術(shù)

寶馬手勢控制系統(tǒng)相關(guān)技術(shù)

手勢控制系統(tǒng)相關(guān)技術(shù)

奔馳的手勢控制系統(tǒng)相關(guān)技術(shù)

手勢識別相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

電視機(jī)控制用手勢識別系統(tǒng)的制作方法