與近眼顯示器的多模交互的制作方法
【專利摘要】本發(fā)明涉及一種方法,包括采用第一攝像機(jī)跟蹤用戶眼睛的凝視,其中,該凝視的位置確定光標(biāo)在近眼顯示器(NED)屏幕上的地方,其中,該凝視的移動被配置為移動該屏幕上的光標(biāo)并且當(dāng)檢測到凝視的移動是靜止的或僅輕微移動時,采用第二攝像機(jī)觀察用戶的一只手的姿勢,并且如果檢測到該手的至少一個姿勢則執(zhí)行進(jìn)一步的操作。本發(fā)明進(jìn)一步涉及被配置為執(zhí)行該方法的裝置和計算機(jī)程序產(chǎn)品。
【專利說明】與近眼顯示器的多模交互
【技術(shù)領(lǐng)域】
[0001]本申請大體涉及用于結(jié)合了手勢檢測器和凝視跟蹤器的近眼顯示器的多模交互系統(tǒng)。
【背景技術(shù)】
[0002]頭戴式顯示器即近眼(near-to-eye)顯示器設(shè)備,尤其是移動設(shè)備眼睛佩戴物(eyewear),使得個人能夠看到自然的或電子產(chǎn)生的圖像,并同時允許該個人通過該顯示看到真實世界。另外,頭戴式顯示設(shè)備可以包括允許該個人和顯示設(shè)備交互,即控制該設(shè)備的技術(shù)?,F(xiàn)有的控制機(jī)制可以包括,例如動作傳感器、凝視跟蹤系統(tǒng)、或觸摸傳感器。然而,現(xiàn)有的控制機(jī)制經(jīng)常使用起來費力、不方便或困難。
【發(fā)明內(nèi)容】
[0003]現(xiàn)在,已經(jīng)發(fā)明了一種改進(jìn)的方法和實施該方法的技術(shù)設(shè)備,本發(fā)明的各個方面包括一種方法、一種裝置以及一種計算機(jī)程序,其特征在于獨立權(quán)利要求所聲明的內(nèi)容。本發(fā)明示例的各個方面在權(quán)利要求中提出。
[0004]根據(jù)本發(fā)明的第一方面,提供了一種方法,包括:采用第一攝像機(jī)跟蹤用戶眼睛的凝視,其中,凝視的位置確定光標(biāo)在近眼顯示器(NED)屏幕上的地方,其中,該凝視的移動被配置為移動屏幕上的光標(biāo)并且當(dāng)檢測到該凝視的移動是靜止的或僅輕微移動時,采用第二攝像機(jī)觀察用戶的一只手的姿勢,并且如果檢測到該手的至少一個姿勢則執(zhí)行進(jìn)一步的操作。
[0005]根據(jù)一個實施例,該進(jìn)一步的操作取決于檢測到的姿勢。根據(jù)一個實施例,該檢測到的姿勢是拳頭的移動、手掌的晃動或者遠(yuǎn)離或向著該第二攝像機(jī)的手掌的移動。根據(jù)一個實施例,該進(jìn)一步的操作進(jìn)一步取決于該光標(biāo)在該近眼顯示器屏幕上的位置。根據(jù)一個實施例,該進(jìn)一步的操作是:如果該光標(biāo)在屏幕上顯示的菜單選項或者功能圖標(biāo)的區(qū)域之夕卜,基于該手的相對移動調(diào)整光標(biāo)在近眼顯示器屏幕上的位置。根據(jù)一個實施例,該進(jìn)一步的操作是:如果光標(biāo)在菜單選項或者功能圖標(biāo)上,選擇顯示在近眼顯示器屏幕上的菜單選項或者功能圖標(biāo)。根據(jù)一個實施例,該進(jìn)一步的操作是:放大或縮小近眼顯示器屏幕的視野。根據(jù)一個實施例,該進(jìn)一步的操作是:返回、移動或刪除。根據(jù)一個實施例,該方法進(jìn)一步包括:如果沒有檢測到手的姿勢,并且如果光標(biāo)在屏幕上顯示的菜單選項或者功能圖標(biāo)的區(qū)域上,則觀察用戶眼睛的眨眼,以及如果檢測到用戶眼睛的眨眼,選擇該菜單選項或者該功能圖標(biāo)。
[0006]根據(jù)本發(fā)明的第二方面,提供了一種裝置,包括至少一個處理器,包括用于一個或多個程序單元的計算機(jī)程序代碼的至少一個存儲器,該至少一個存儲器和計算機(jī)程序代碼被配置為利用該處理器使該裝置執(zhí)行至少以下步驟:采用第一攝像機(jī)跟蹤用戶眼睛的凝視,其中,該凝視的位置確定光標(biāo)在裝置的近眼顯示器(NED)屏幕上的地方,其中,凝視的移動被配置為移動該屏幕上的光標(biāo)并且當(dāng)檢測到該凝視的移動是靜止的或僅輕微移動時,采用第二攝像機(jī)觀察用戶的一只手的姿勢,并且如果檢測到該手的至少一個姿勢則執(zhí)行進(jìn)一步的操作。
[0007]根據(jù)一個實施例,該進(jìn)一步的操作取決于檢測到的姿勢。根據(jù)一個實施例,該檢測到的姿勢可以是拳頭的移動、手掌的晃動或者遠(yuǎn)離或向著該第二攝像機(jī)的手掌的移動。根據(jù)一個實施例,該進(jìn)一步的操作進(jìn)一步取決于該光標(biāo)在該近眼顯示器屏幕上的位置。根據(jù)一個實施例,該進(jìn)一步的操作是:如果光標(biāo)在屏幕上顯示的菜單選項或者功能圖標(biāo)的區(qū)域之外,則基于該手的相對移動調(diào)整該光標(biāo)在該近眼顯示器屏幕上的位置。根據(jù)一個實施例,進(jìn)一步的操作是,如果該光標(biāo)在菜單選項或者功能圖標(biāo)上,選擇顯示在該近眼顯示器屏幕上的該菜單選項或者功能圖標(biāo)。根據(jù)一個實施例,進(jìn)一步的操作是:放大或縮小該近眼顯示器屏幕的視野。根據(jù)一個實施例,該進(jìn)一步的操作是返回、移動或刪除。根據(jù)一個實施例,該計算機(jī)程序代碼被進(jìn)一步配置為利用該處理器使該裝置執(zhí)行:如果沒有檢測到手的姿勢并且如果光標(biāo)在屏幕上顯示的菜單選項或者功能圖標(biāo)的區(qū)域上,觀察用戶眼睛的眨眼,并且,如果檢測到用戶眼睛的眨眼,選擇該光標(biāo)在該近眼顯示器屏幕上的該菜單選項或者功能圖標(biāo)。根據(jù)一個實施例,所述裝置是近眼顯示器(NED)設(shè)備。根據(jù)一個實施例,所述近眼顯示器設(shè)備是移動電話。根據(jù)一個實施例,該近眼顯示器設(shè)備是移動電話的終端設(shè)備。
[0008]根據(jù)一個實施例,一種計算機(jī)程序產(chǎn)品,包含一個或多個指令的一個或多個序列,當(dāng)其被一個或多個處理器執(zhí)行時,使裝置執(zhí)行至少步驟:采用第一攝像機(jī)跟蹤用戶眼睛的凝視,其中,該凝視的位置確定光標(biāo)在該裝置的近眼顯示器(NED)屏幕上的地方,其中,該凝視的移動被配置為移動該屏幕上的光標(biāo)并且當(dāng)檢測到該凝視的移動是靜止的或僅輕微移動時,采用第二攝像機(jī)觀察用戶的一只手的姿勢,并且如果檢測到該手的至少一個姿勢則執(zhí)行進(jìn)一步的操作。
[0009]根據(jù)一個實施例,該進(jìn)一步的操作取決于檢測到的姿勢。根據(jù)一個實施例,該檢測到的姿勢是拳頭的移動、手掌的晃動或者遠(yuǎn)離或向著該第二攝像機(jī)的手掌的移動。根據(jù)一個實施例,該進(jìn)一步的操作進(jìn)一步取決于該光標(biāo)在該近眼顯示器屏幕上的位置。根據(jù)一個實施例,該進(jìn)一步的操作是:如果該光標(biāo)在屏幕上顯示的菜單選項或者功能圖標(biāo)的區(qū)域之夕卜,則基于該手的相對移動調(diào)整該光標(biāo)在近眼顯示器屏幕上的位置。根據(jù)一個實施例,該進(jìn)一步的操作是:如果該光標(biāo)在菜單選項或者功能圖標(biāo)上,則選擇顯示在該近眼顯示器屏幕上的該菜單選項或者功能圖標(biāo)。根據(jù)一個實施例,該進(jìn)一步的操作是:放大或縮小該近眼顯示器屏幕的視野。根據(jù)一個實施例,該進(jìn)一步的操作是:返回、移動或刪除。根據(jù)一個實施例,該計算機(jī)程序代碼被進(jìn)一步配置為利用該處理器使該裝置執(zhí)行:如果沒有檢測到手的姿勢并且如果光標(biāo)在屏幕上顯示的菜單選項或者功能圖標(biāo)的區(qū)域上,則觀察用戶眼睛的眨眼,并且如果檢測到用戶眼睛的眨眼,則選擇該菜單選項或者該功能圖標(biāo)。根據(jù)一個實施例,該裝置是近眼顯示器(NED)設(shè)備。根據(jù)一個實施例,該近眼顯示器設(shè)備是移動電話。根據(jù)一個實施例,該近眼顯示器設(shè)備是移動電話的終端設(shè)備。
[0010]根據(jù)第三方面,提供了一種計算機(jī)程序,包括一個或多個指令,當(dāng)其被一個或多個處理器執(zhí)行時,使裝置執(zhí)行:
[0011]根據(jù)一個實施例,一種裝置,包括:采用第一攝像機(jī)跟蹤用戶眼睛的凝視,其中,該凝視的位置確定光標(biāo)在近眼顯示器(NED)屏幕上的地方,其中,該凝視的移動被配置為移動該屏幕上的光標(biāo)并且當(dāng)檢測到該凝視的移動是靜止的或僅輕微移動時,采用第二攝像機(jī)觀察用戶的一只手的姿勢,并且如果檢測到該手的至少一個姿勢則執(zhí)行進(jìn)一步的操作。
【專利附圖】
【附圖說明】
[0012]為了更完整地理解本發(fā)明示例的實施例,現(xiàn)在將結(jié)合附圖參考以下描述,在附圖中:
[0013]圖1示出了根據(jù)一個實施例的與近眼顯示器設(shè)備交互的方法的流程圖;
[0014]圖2示出了執(zhí)行本發(fā)明的實施例的適當(dāng)裝置;
[0015]圖3示出了根據(jù)一個實施例的用于控制NED設(shè)備的用戶界面的方法的流程圖;
[0016]圖4示出了根據(jù)一個實施例的產(chǎn)生用于控制光標(biāo)在NED設(shè)備的屏幕上的位置的命令的方法的流程圖;以及
[0017]圖5示出了根據(jù)一個實施例的產(chǎn)生用于控制NED設(shè)備的用戶界面控制系統(tǒng)的命令的方法的流程圖。
【具體實施方式】
[0018]用于實現(xiàn)本發(fā)明實施例的近眼顯示器(NED)設(shè)備控制系統(tǒng)可以包括至少兩個異構(gòu)攝像機(jī)。第一攝像機(jī)可以是可以跟蹤該NED的用戶的一只眼睛的凝視的內(nèi)視紅外視頻攝像機(jī)。光標(biāo)被布置于眼睛在透視(see-through)屏幕上的視點上,其中屏幕是NED的至少一個鏡片的至少一部分?;谘劬Φ奈恢煤?或移動以及該視點,光標(biāo)在透視屏幕上同步定位和移動;換言之,光標(biāo)的定位和移動能夠被凝視跟蹤所控制。當(dāng)檢測到該視點(凝視)正在移動時,光標(biāo)跟蹤該視點。
[0019]當(dāng)視點(凝視)移動得足夠慢時,即該凝視的移動如此慢以至于該光標(biāo)僅輕微移動,或者凝視基本上靜止,第二攝像機(jī)可以被激活。第二攝像機(jī)可以是可對準(zhǔn)用戶的手的任意視頻攝像機(jī);換言之,第二攝像機(jī)可以是觀察該手的姿勢的所謂的側(cè)下視攝像機(jī)(sidedown-looking camera)。當(dāng)?shù)诙z像機(jī)被激活以后檢測到至少一個姿勢時,第二攝像機(jī)可以通知用戶界面(UI)軟件已經(jīng)檢測到手勢,并且手勢控制將被激活。因此,當(dāng)?shù)诙z像機(jī)檢測該手時,手動控制接管該凝視控制。并且另一方面,當(dāng)該手從第二攝像機(jī)的視野內(nèi)消失時,該凝視重新接管該Π的控制。
[0020]UI軟件基于所檢測到的手勢產(chǎn)生用于處理器的命令。該命令的類型可以取決于該手勢,但是也取決于光標(biāo)在屏幕上的位置。如果該光標(biāo)在菜單選項、功能圖標(biāo)或者在屏幕上顯示的任意其他可選擇的點的區(qū)域之外,控制系統(tǒng)可以利用手勢檢測器來調(diào)整光標(biāo)的位置,例如,通過計算手掌的移動來調(diào)整到功能圖標(biāo)上。因此,該光標(biāo)可以基于手的移動重新定位。
[0021]然而,當(dāng)手勢檢測器檢測到手的姿勢時,如果光標(biāo)位于功能圖標(biāo)、菜單選項、或任意其他可選擇的點之上,該姿勢能夠被用于選擇或確認(rèn)該菜單選項或任意其他可選擇的點。例如,如果檢測到手的抓取姿勢,可以產(chǎn)生選擇或確認(rèn)命令以選擇光標(biāo)位于其上的圖標(biāo)。然而,如果手勢檢測器沒有檢測到任何手勢,并且光標(biāo)位于功能圖標(biāo)、菜單選項、或任意其他可選擇的點上,也可能為了選擇或確認(rèn)命令而利用第一攝像機(jī)、凝視跟蹤器。那么,凝視跟蹤器所檢測到的超過特定閾值時間(眼睛應(yīng)該閉合足夠久)的眼睛的眨眼或者眼睛的特定移動,以及或加速傳感器所檢測到的諸如用戶點頭的頭部姿勢和麥克風(fēng)或EMG傳感器所檢測到的牙齒咬合,能夠被用作該選擇或確認(rèn)命令。此外,口語命令也可以被用于選擇或確認(rèn)。
[0022]另外,通過除了抓取之外的其他手部姿勢,可能產(chǎn)生用于Π控制的任意類型的命令。那些命令可以是在普通的用戶界面中采用的任意類型的命令,例如刪除、拖拽或取消命令。代表了命令的姿勢的類型不以任何形式限制,例如可能手的抓取姿勢意味著縮放而不是選擇或確認(rèn),等等。
[0023]本發(fā)明的示例性實施例及其潛在優(yōu)勢通過參照附圖中的圖1至附圖5而得以理解。
[0024]圖1示出了根據(jù)一個實施例的與近眼顯示器設(shè)備交互的方法的流程圖。在步驟110中,近眼顯示器(NED)設(shè)備中的適于產(chǎn)生視頻流的凝視跟蹤器即第一攝像機(jī),一個紅外攝像機(jī),跟蹤NED設(shè)備的用戶的凝視。凝視的位置確定了光標(biāo)在該近眼顯示器屏幕上的位置;換言之,光標(biāo)被布置在眼睛在該NED的透視屏幕的視點處。凝視和視點的移動使得屏幕上的光標(biāo)移動。在步驟120中,在凝視跟蹤器已經(jīng)觀察到該凝視保持靜止或僅輕微移動后,手勢檢測器觀察用戶手的一個或多個姿勢,其中手勢檢測器可以是該NED設(shè)備的第二攝像機(jī),例如適于產(chǎn)生用戶的手的視頻流的攝像機(jī)。當(dāng)由第二攝像機(jī)檢測到至少一個姿勢時,第二攝像機(jī)可以通知用戶界面(UI)軟件已經(jīng)檢測到的手勢,并且手勢控制將被激活,并且手動控制接管該凝視控制?;谑謩輽z測器的檢測,該設(shè)備可以繼續(xù)進(jìn)一步的方法步驟。
[0025]圖2示出了用于執(zhí)行本發(fā)明實施例的適當(dāng)裝置。裝置200可以例如是用于移動設(shè)備的終端設(shè)備即近眼顯示器(NED),或者作為移動電話或智能電話的NED設(shè)備。如圖2中所示,裝置200包括存儲器201、至少一個處理器202和203、和存在于存儲器201中的用于實現(xiàn)例如諸如操作系統(tǒng)或瀏覽器的用戶界面等軟件應(yīng)用的功能的計算機(jī)程序代碼204。裝置200包括至少兩個攝像機(jī)205和206用于捕獲例如視頻流的圖像數(shù)據(jù)。攝像機(jī)205可以是內(nèi)視型的、即看向該設(shè)備的用戶并且被布置用于凝視跟蹤的紅外攝像機(jī)。攝像機(jī)206可以是側(cè)下視型的、其瞄準(zhǔn)用戶的一只手并且被布置用于手勢跟蹤。裝置200還可以包括屏幕即顯示屏207,例如透視屏幕,以用于查看圖形化用戶界面。近眼裝置200的鏡片可以作為透視屏幕。也可能僅僅一個鏡片的一部分用作屏幕或者僅一個鏡片用作屏幕。裝置200還可以包括一個或多個無線或有線麥克風(fēng),或者與其連接的可以是數(shù)字或模擬信號輸入的任意合適的音頻輸入。另外,裝置200也可以包括可再充電的電池(未示出)或另一合適的移動能量設(shè)備,諸如太陽能電池、燃料電池或發(fā)條發(fā)電機(jī)(clockwork generator) ο裝置200可以進(jìn)一步包括用于與其他設(shè)備進(jìn)行短程視線通信的紅外端口。該紅外端口可以被用于獲得即接收將被標(biāo)記的媒體內(nèi)容。在另一個實施例中,裝置200可以進(jìn)一步包括任意合適的短程通信解決方案,諸如例如藍(lán)牙或藍(lán)牙智能無線連接或USB/火線有線連接。另外,當(dāng)NED作為移動設(shè)備的顯示器時,該NED和移動設(shè)備之間可以是有線或無線連接。
[0026]裝置200可以通過諸如因特網(wǎng)或局域網(wǎng)之類的固定網(wǎng)絡(luò),或諸如全球移動通信系統(tǒng)(GSM)網(wǎng)絡(luò)、第3代(3G)網(wǎng)絡(luò)、第3.5代(3.5G)網(wǎng)絡(luò)、第4代(4G)網(wǎng)絡(luò)、無線局域網(wǎng)絡(luò)(WLAN)、藍(lán)牙等移動通信網(wǎng)絡(luò),或其他當(dāng)代和將來的網(wǎng)絡(luò)與其他設(shè)備相連。不同的網(wǎng)絡(luò)可以借助于通信接口彼此互連。該網(wǎng)絡(luò)包括諸如用于處理數(shù)據(jù)的路由器和交換機(jī)(未示出)等的網(wǎng)絡(luò)單元和諸如基站等的通信接口,以便向不同設(shè)備提供網(wǎng)絡(luò)接入,以及該基站本身可以通過固定連接或無線連接而連接到移動網(wǎng)絡(luò)。
[0027]圖3示出了用于根據(jù)一個實施例的控制NED的用戶界面的方法的流程圖。在步驟300中,內(nèi)視型攝像機(jī)即凝視跟蹤器跟蹤用戶的凝視,并且凝視跟蹤軟件控制NED屏幕上的視點,使得該屏幕上的光標(biāo)位置將主要涉及視點。在步驟310中,檢測到該凝視僅輕微移動或基本保持靜止之后,通過側(cè)下視攝像機(jī)即手勢檢測器觀察手的姿勢。在步驟315中,由手勢檢測軟件確定是否檢測到手勢,即該用戶的手是否移動。如果在步驟315中確定出沒有檢測到手勢,凝視跟蹤器繼續(xù)跟蹤該凝視,并且在步驟320中光標(biāo)將繼續(xù)跟隨視的視點。然而,如果在步驟315中確定出檢測到了手勢,在步驟330中該手勢被記錄到該NED設(shè)備的存儲器中。在步驟340中,由NED的UI軟件獲得并記錄光標(biāo)的位置V (x0, y0)。在步驟345中確定該光標(biāo)是否在任意功能圖標(biāo)、菜單選項或任意其他可選擇的點上。如果在步驟345中確定光標(biāo)不在任意功能圖標(biāo)或菜單選項上,在步驟350中該方法繼續(xù)光標(biāo)定位方法。該光標(biāo)定位方法在圖4的情境中被公開。然而,如果在步驟345中確定出該光標(biāo)在某個功能圖標(biāo)或菜單選項上,在步驟360中該方法繼續(xù)命令產(chǎn)生方法。該命令產(chǎn)生方法在圖5的情境中被公開。
[0028]圖4示出了根據(jù)一個實施例的產(chǎn)生用于控制光標(biāo)在NED設(shè)備的屏幕上的位置的命令的方法的流程圖。在該實施例中,在該光標(biāo)沒有位于任意功能圖標(biāo)或菜單選項之上、也即在光標(biāo)的當(dāng)前位置處任意功能圖標(biāo)或菜單選項都不可選的情況下,基于檢測到的手勢執(zhí)行該定位。該視點的位置、即光標(biāo)的位置V(x0,y0)在圖3的步驟340中被獲得并記錄進(jìn)NED設(shè)備的存儲器中。記錄檢測到的手勢(圖3的步驟330)。在步驟410中,獲得并記錄手勢中手掌的第一位置P(xl,yl)。在步驟420中,獲得并記錄手勢中手掌的第二位置P(x2,y2)。在步驟430中,基于手掌的第一位置和第二位置計算手勢中該手掌的相對移動Ρ(ΛΧ,ΔΥ),其中Δχ = x2-xl且Ay = y2-ylo在步驟440中,基于手掌的相對移動Ρ(Δχ, Δ y)在屏幕上定位該光標(biāo)。因而,該光標(biāo)的新位置是V(x, y),其中X = χΟ+Δχ且y = yO+Ay。然而,應(yīng)注意的是,當(dāng)光標(biāo)的位置沒有改變時,Λχ和/或Ay可以是0。因此,當(dāng)凝視被跟蹤為無運(yùn)動或僅輕微移動時,通過手掌的移動可能使得光標(biāo)的位置移動。然而,也可能基于其他姿勢而非該手掌的移動確定該光標(biāo)的新位置,例如,基于拇指的移動。
[0029]圖5示出了根據(jù)一個實施例的產(chǎn)生用于NED設(shè)備的用戶界面控制系統(tǒng)的命令的方法的流程圖。在該實施例中,在該光標(biāo)位于功能圖標(biāo)或菜單選項上、即在光標(biāo)的當(dāng)前位置處任意功能圖標(biāo)或菜單選項可選的情況下,基于檢測到的手勢或眨眼執(zhí)行命令的產(chǎn)生。在步驟510中,側(cè)下視視頻攝像機(jī)正在檢測手的姿勢。在步驟515中,確定該側(cè)下視攝像機(jī)是否檢測到手勢。如果在步驟515中檢測到手勢,在步驟520中該NED的軟件基于該手勢產(chǎn)生選擇/確認(rèn)命令。然而,如果在步驟515中確定沒有檢測到手勢,在步驟530中凝視跟蹤器繼續(xù)凝視跟蹤。在步驟535中確定凝視跟蹤器是否檢測到超過閾值時間的眨眼。如果在步驟535中凝視跟蹤器檢測到眨眼,在步驟540中該NED設(shè)備的軟件產(chǎn)生選擇/確認(rèn)命令。如果在步驟535中該凝視跟蹤器沒有檢測到眨眼,該凝視跟蹤器設(shè)備可以繼續(xù)跟蹤該凝視。然而,在步驟530中也可能激活一些除了凝視跟蹤器之外的其他傳感器,例如麥克風(fēng)、加速傳感器或EMG傳感器,并且基于它們的輸入為NED設(shè)備產(chǎn)生命令。
[0030]因此,該控制近眼設(shè)備的UI系統(tǒng)的方法是一種結(jié)合了手勢檢測器和凝視跟蹤器的多模交互系統(tǒng)。屏幕光標(biāo)的定位和移動能夠通過內(nèi)視攝像機(jī)由凝視跟蹤作為主導(dǎo)形式控制,而選擇/確認(rèn)命令主要通過側(cè)下視攝像機(jī)由手的抓取姿勢產(chǎn)生。在產(chǎn)生應(yīng)用于交互的任意Π命令之前,該系統(tǒng)將選擇交互的主導(dǎo)形式。
[0031]在該多模交互系統(tǒng)的實現(xiàn)中,確??煽康氖謾z測器和凝視跟蹤器是重要的。下面將更詳細(xì)地介紹如何使用用于手和凝視跟蹤的HOG和SVM的概述:
[0032]用于手或凝視的處理可以分離為兩個單獨的部分:手檢測器訓(xùn)練和手跟蹤,或者凝視檢測器訓(xùn)練和凝視跟蹤。
[0033]手檢測器訓(xùn)練可以包括:收集作為訓(xùn)練數(shù)據(jù)的大規(guī)模的手的樣本和背景;H0G被應(yīng)用到該數(shù)據(jù)上以提取用于樣本描述的特征;并且所有HOG特征被輸入到SVM學(xué)習(xí)機(jī)中以學(xué)習(xí)手檢測器。
[0034]手跟蹤可以包括如下步驟:對于每一視頻幀,采用金字塔掃描產(chǎn)生圖像尺度空間的檢測窗口池;并且從每一檢測窗口提取HOG特征然后推入手檢測器以確認(rèn)當(dāng)前檢測窗口是否是手。
[0035]凝視的處理可以以與手的處理相同的方式進(jìn)行工作。然而,在凝視的處理中有另外的最后步驟,其中在定位的凝視區(qū)域內(nèi)檢測凝視橢圓(ellipse gaze)和兩個最亮的反射點,然后,凝視橢圓和兩個最亮的反射點二者都被用于定位該NED屏幕上的視點。
[0036]總之,在手和凝視跟蹤框架中有兩個步驟,即基于HOG特征的提取和基于SVM的分類。
[0037]基于HOG特征的提取
[0038]在手或凝視跟蹤中,從圖像提取區(qū)別特征以在手或凝視與背景之間進(jìn)行區(qū)分。與其他特征提取方法不同,HOG統(tǒng)計了本地圖像區(qū)域內(nèi)的梯度方向的事件,以便能夠宏觀邊緣提取,并且支持幾何和光度變換的不變性。考慮到人手和凝視都具有明顯的輪廓結(jié)構(gòu),HOG自適應(yīng)于它們的特征。下面公開了根據(jù)一個實施例的從手或凝視圖像中提取特征的HOG方法,該方法可以包括以下步驟:
[0039]-計算手或凝視圖像中的每個圖像像素的梯度大小及其方向;
[0040]-針對每個像素點使用以其梯度大小加權(quán)的線性插值將梯度方向量化為9個倉(bin);
[0041]-通過使得塊窗口滑過整個圖像而將該圖像分為12X12的塊,其中一個塊覆蓋了兩個相鄰塊之間的半個窗口尺寸;
[0042]-將每個塊分解為四個6*6單元,并且對于每個單元,基于單元內(nèi)每個像素的量化方向以及像素位置和單元中心之間的距離、利用9個倉計算方向直方圖,以形成針對每個塊的36個倉的HOG特征向量。
[0043]-使用正常值歸一化該36個倉的向量,并且連接從所有圖像塊中提取的所有HOG特征向量,以形成該36*n維的最終HOG表示形式。
[0044]從手圖像提取特征的該方法主要采用了對本地圖像區(qū)域的加權(quán)直方圖統(tǒng)計的機(jī)制。
[0045]基于SVM的分類。
[0046]為了在多模交互中實現(xiàn)可靠的手或凝視跟蹤,從大規(guī)模的訓(xùn)練樣本中學(xué)習(xí)統(tǒng)計模型以區(qū)分手或凝視對象與其他背景對象可能是有利的。具體的,基于H0G+SVM的手和凝視跟蹤器的學(xué)習(xí)可以包括以下步驟:
[0047]-從作為訓(xùn)練數(shù)據(jù)的包括手/非手或凝視/非凝視圖像的訓(xùn)練中提取HOG特征;
[0048]-隨機(jī)選擇超過20,000張手或凝視圖像作為正訓(xùn)練集合,以及超過40,000張非手或非凝視圖像作為初始負(fù)集合;
[0049]-初步的手或凝視檢測器由SVM訓(xùn)練,然后從訓(xùn)練集合收集錯誤報警作為“難例(hard example),,;
[0050]-最終的手或凝視檢測器能夠通過將SVM再次應(yīng)用于相同的正訓(xùn)練集合和通過包含初始負(fù)集合得到的增強(qiáng)負(fù)集合而得到,并且基于手和凝視的移動分析建立“難例”,因此性能依賴于可靠的手檢測和凝視跟蹤,以使用戶在用戶交互時感覺舒適??赡芾美绶较蛱荻戎狈綀D(HOG)和支持向量機(jī)(SVM)方法從安裝在NED上的攝像機(jī)捕獲的視頻流定位手和凝視。
[0051]配置完手和凝視檢測器以后,在與NED進(jìn)行多模交互時,通過應(yīng)用他們以從視頻流中查找手或凝視的精確位置,使得實時的手或凝視檢測和跟蹤成為可能。可以通過使得檢測窗口滑過圖形幀而采用標(biāo)準(zhǔn)目標(biāo)檢測框架。對于每一個滑動窗口,可以從中提取HOG特征,然后輸入到經(jīng)學(xué)習(xí)的SVM檢測器以確認(rèn)在當(dāng)前滑動窗口是否包含手或凝視。
[0052]然而,也可能采用除了 HOG和SVM之外的一些其他方法來檢測手和凝視跟蹤。
[0053]在通過多模的用戶交互中,基于檢測到的眼睛凝視和手的運(yùn)動分析,該系統(tǒng)將選擇用于交互的主導(dǎo)形式以便例如重新定位光標(biāo)或產(chǎn)生命令。在多模交互系統(tǒng)中,如果眼睛凝視的視點正在移動,該屏幕光標(biāo)將跟隨該視點并且該交互系統(tǒng)檢測手的抓取姿勢。采用這些操作,有可能使用用戶的Π命令為NED實現(xiàn)靈活的多模交互環(huán)境。
[0054]本發(fā)明的各種實施例能夠利用駐留在存儲器中并且使相關(guān)的裝置執(zhí)行本發(fā)明的計算機(jī)程序代碼實現(xiàn)。例如,NED裝置可以包括用于處理、接收和傳輸數(shù)據(jù)的電路和電子器件、存儲器中的計算機(jī)程序代碼,以及當(dāng)運(yùn)行該計算機(jī)程序代碼時使該NED設(shè)備執(zhí)行實施例的特征的處理器。又進(jìn)一步,網(wǎng)絡(luò)設(shè)備可以包括用于處理、接收和傳輸數(shù)據(jù)的電路和電子器件、存儲器中的計算機(jī)程序代碼,以及當(dāng)運(yùn)行該計算機(jī)程序代碼時使該網(wǎng)絡(luò)設(shè)備執(zhí)行實施例的特征的處理器。
[0055]顯然,本發(fā)明并不僅限于上述提出的實施例,而能夠在隨附的權(quán)利要求的范圍內(nèi)進(jìn)行修改。
【權(quán)利要求】
1.一種方法,包括: 采用第一攝像機(jī)跟蹤用戶眼睛的凝視,其中所述凝視的位置確定光標(biāo)在近眼顯示器(NED)的屏幕上的地方,其中所述凝視的移動被配置為使得所述屏幕上的所述光標(biāo)移動,并且當(dāng)檢測到所述凝視的移動是靜止的或僅輕微移動時, 采用第二攝像機(jī)觀察所述用戶的一只手的姿勢,并且 如果檢測到所述手的至少一個姿勢,則執(zhí)行進(jìn)一步的操作。
2.根據(jù)權(quán)利要求1所述的方法,其中所述進(jìn)一步的操作取決于所述檢測到的姿勢。
3.根據(jù)權(quán)利要求1或2所述的方法,其中所述檢測到的姿勢是拳頭的移動、手掌的晃動或者手掌遠(yuǎn)離或向著所述第二攝像機(jī)的移動。
4.根據(jù)權(quán)利要求1、2或3所述的方法,其中所述進(jìn)一步的操作進(jìn)一步取決于所述光標(biāo)在所述近眼顯示器的所述屏幕上的位置。
5.根據(jù)權(quán)利要求1至4中任一項所述的方法,其中所述進(jìn)一步的操作是: 如果所述光標(biāo)在所述屏幕上顯示的菜單選項或者功能圖標(biāo)的區(qū)域之外,則基于所述手的相對移動調(diào)整所述光標(biāo)在所述近眼顯示器的所述屏幕上的位置。
6.根據(jù)權(quán)利要求1至4中任一項所述的方法,其中所述進(jìn)一步的操作是: 如果所述光標(biāo)在菜單選項或者功能圖標(biāo)上,則選擇顯示在所述近眼顯示器的所述屏幕上的所述菜單選項或者功能圖標(biāo)。
7.根據(jù)權(quán)利要求1至4中任一項所述的方法,其中所述進(jìn)一步的操作是: 放大或縮小所述近眼顯示器的所述屏幕的視野。
8.根據(jù)權(quán)利要求1至4中任一項所述的方法,其中所述進(jìn)一步的操作是: 返回、移動或刪除。
9.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括: 如果沒有檢測到手的姿勢,并且如果所述光標(biāo)在所述屏幕上顯示的菜單選項或者功能圖標(biāo)的區(qū)域上,則觀察所述用戶的所述眼睛的眨眼,以及, 如果檢測到所述用戶的所述眼睛的眨眼,則選擇所述菜單選項或者所述功能圖標(biāo)。
10.一種裝置,包括至少一個處理器、包括用于一個或多個程序單元的計算機(jī)程序代碼的至少一個存儲器,所述至少一個存儲器和所述計算機(jī)程序代碼被配置為利用所述處理器使所述裝置執(zhí)行至少如下步驟: 采用第一攝像機(jī)跟蹤用戶的一只眼睛的凝視,其中所述凝視的位置確定光標(biāo)在所述裝置的近眼顯示器(NED)的屏幕上的地方,其中所述凝視的移動被配置為移動所述屏幕上的所述光標(biāo),并且當(dāng)檢測到所述凝視的移動是靜止的或僅輕微移動時, 采用第二攝像機(jī)觀察所述用戶的一只手的姿勢,并且 如果檢測到所述手的至少一個姿勢,則執(zhí)行進(jìn)一步的操作。
11.根據(jù)權(quán)利要求10所述的裝置,其中所述進(jìn)一步的操作取決于所述檢測到的姿勢。
12.根據(jù)權(quán)利要求10或11所述的裝置,其中所述檢測到的姿勢可以是拳頭的移動、手掌的晃動以及手掌遠(yuǎn)離或向著所述第二攝像機(jī)的移動。
13.根據(jù)權(quán)利要求10、11或12所述的裝置,其中所述進(jìn)一步的操作進(jìn)一步取決于所述光標(biāo)在所述近眼顯示器的所述屏幕上的位置。
14.根據(jù)權(quán)利要求10至14中任一項所述的裝置,其中所述進(jìn)一步的操作是: 如果所述光標(biāo)在所述屏幕上顯示的菜單選項或者功能圖標(biāo)的區(qū)域之外,則基于所述手的相對移動調(diào)整所述光標(biāo)在所述近眼顯示器的所述屏幕上的位置。
15.根據(jù)權(quán)利要求10至14中任一項所述的裝置,其中所述進(jìn)一步的操作是: 如果所述光標(biāo)在菜單選項或者功能圖標(biāo)上,則選擇顯示在所述近眼顯示器的所述屏幕上的所述菜單選項或者功能圖標(biāo)。
16.根據(jù)權(quán)利要求10至14中任一項所述的裝置,其中所述進(jìn)一步的操作是: 放大或縮小所述近眼顯示器的所述屏幕的視野。
17.根據(jù)權(quán)利要求10至14中任一項所述的裝置,其中所述進(jìn)一步的操作是: 返回、移動或刪除。
18.根據(jù)權(quán)利要求10所述的裝置,其中所述計算機(jī)程序代碼被進(jìn)一步配置為利用所述處理器使所述裝置執(zhí)行: 如果沒有檢測到手的姿勢,并且如果所述光標(biāo)在所述屏幕上顯示的菜單選項或者功能圖標(biāo)的區(qū)域上,則觀察所述用戶的所述眼睛的眨眼,以及, 如果檢測到所述用戶的所述眼睛的眨眼,則選擇所述光標(biāo)在所述近眼顯示器的所述屏幕上的所述菜單選項或者功能圖標(biāo)。
19.根據(jù)權(quán)利要求10至18中任一項所述的裝置,其中所述裝置是近眼顯示器(NED)設(shè)備。
20.根據(jù)權(quán)利要求19所述的裝置,其中所述近眼顯示器設(shè)備是移動電話。
21.根據(jù)權(quán)利要求19所述的裝置,其中所述近眼顯示器設(shè)備是移動電話的終端設(shè)備。
22.—種計算機(jī)程序產(chǎn)品,包含一個或多個指令的一個或多個序列,當(dāng)其被一個或多個處理器執(zhí)行時,使得裝置執(zhí)行至少以下步驟: 采用第一攝像機(jī)跟蹤用戶眼睛的凝視,其中所述凝視的位置確定所述光標(biāo)在近眼顯示器(NED)的屏幕上的地方,其中所述凝視的移動被配置為移動所述屏幕上的所述光標(biāo),并且當(dāng)檢測到所述凝視的移動是靜止的或僅輕微移動時, 采用第二攝像機(jī)觀察所述用戶的一只手的姿勢,并且 如果檢測到所述手的至少一個姿勢,則執(zhí)行進(jìn)一步的操作。
23.根據(jù)權(quán)利要求22所述的計算機(jī)程序產(chǎn)品,其中所述進(jìn)一步的操作取決于所述檢測到的姿勢。
24.根據(jù)權(quán)利要求22或23所述的計算機(jī)程序產(chǎn)品,其中所述檢測到的姿勢可以是拳頭的移動、手掌的晃動或者手掌遠(yuǎn)離或向著所述第二攝像機(jī)的移動。
25.根據(jù)權(quán)利要求22、23或24所述的計算機(jī)程序產(chǎn)品,其中所述進(jìn)一步的操作進(jìn)一步取決于所述光標(biāo)在所述近眼顯示器的所述屏幕上的位置。
26.根據(jù)權(quán)利要求22至25中任一項所述的計算機(jī)程序產(chǎn)品,其中所述進(jìn)一步的操作是: 如果所述光標(biāo)在所述屏幕上顯示的菜單選項或者功能圖標(biāo)的區(qū)域之外,則基于所述手的相對移動調(diào)整所述光標(biāo)在所述近眼顯示器的所述屏幕上的位置。
27.根據(jù)權(quán)利要求22至25中任一項所述的計算機(jī)程序產(chǎn)品,其中所述進(jìn)一步的操作是: 如果所述光標(biāo)在菜單選項或者功能圖標(biāo)上,則選擇顯示在所述近眼顯示器的所述屏幕上的所述菜單選項或者功能圖標(biāo)。
28.根據(jù)權(quán)利要求22至25中任一項所述的計算機(jī)程序產(chǎn)品,其中所述進(jìn)一步的操作是: 放大或縮小所述近眼顯示器的所述屏幕的視野。
29.根據(jù)權(quán)利要求22至25中任一項所述的計算機(jī)程序產(chǎn)品,其中所述進(jìn)一步的操作是: 返回、移動或刪除。
30.根據(jù)權(quán)利要求22所述的計算機(jī)程序產(chǎn)品,其中所述計算機(jī)程序代碼被進(jìn)一步配置為利用所述處理器使所述裝置執(zhí)行: 如果沒有檢測到手的姿勢,并且如果所述光標(biāo)在所述屏幕上顯示的菜單選項或者功能圖標(biāo)的區(qū)域上,則觀察所述用戶的所述眼睛的眨眼,以及, 如果檢測到所述用戶的所述眼睛的眨眼,則選擇所述菜單選項或者所述功能圖標(biāo)。
31.根據(jù)權(quán)利要求22至30中任一項所述的計算機(jī)程序產(chǎn)品,其中所述裝置是近眼顯示器(NED)設(shè)備。
32.根據(jù)權(quán)利要求31所述的計算機(jī)程序產(chǎn)品,其中所述近眼顯示器設(shè)備是移動電話。
33.根據(jù)權(quán)利要求31所述的計算機(jī)程序產(chǎn)品,其中所述近眼顯示器設(shè)備是移動電話的終端設(shè)備。
34.一種裝置,包括: 采用第一攝像機(jī)跟蹤用戶的一只眼睛的凝視,其中所述凝視的位置確定光標(biāo)在近眼顯示器(NED)的屏幕上的地方,其中所述凝視的移動被配置為移動所述屏幕上的所述光標(biāo),并且當(dāng)檢測到所述凝視的移動是靜止的或僅輕微移動時, 采用第二攝像機(jī)觀察所述用戶的一只手的姿勢,并且, 如果檢測到所述手的至少一個姿勢,則執(zhí)行進(jìn)一步的操作。
【文檔編號】G06F3/01GK104428732SQ201280074696
【公開日】2015年3月18日 申請日期:2012年7月27日 優(yōu)先權(quán)日:2012年7月27日
【發(fā)明者】汪孔橋, V·蘭茨, 李江偉, 徐磊, J·于奧帕尼米 申請人:諾基亞公司