国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      使用姿勢來控制基于計算的設備的制造方法

      文檔序號:10694003閱讀:196來源:國知局
      使用姿勢來控制基于計算的設備的制造方法
      【專利摘要】用于基于在攝像頭的預先確定的范圍內做出的姿勢來控制基于計算的設備的系統(tǒng)和方法,其中,預先確定的范圍是攝像頭的視域的子集。在預先確定的范圍以外做出的任何姿勢都被忽略,并且不導致基于計算的設備執(zhí)行任何動作。在一些示例中,姿勢用于控制在視頻會議會話中實現(xiàn)的繪圖畫布。在這些示例中,單個攝像頭可以用于生成視頻會議用戶的圖像,所述圖像用于檢測預先確定的范圍內的姿勢,并向視頻會議會話的其它各方提供用戶的可視圖像。
      【專利說明】
      使用姿勢來控制基于計算的設備
      【背景技術】
      [0001]在過去的幾十年已經對自然用戶接口(NUI)進行了大量研究。NUI包括的新的基于姿勢的接口,其使用接觸或非接觸式交互或整個身體來實現(xiàn)與計算設備的豐富交互。在傳統(tǒng)的NUI系統(tǒng)中,一個或多個攝像頭用于捕捉用戶的圖像,以便檢測和跟蹤用戶的身體部分(例如,手、手指)來識別由檢測到的身體部分執(zhí)行的姿勢。任何檢測到的姿勢然后可以用于控制計算設備。
      [0002]下文描述的實施例不限于解決用于控制計算設備的已知系統(tǒng)的任何或全部缺點的實現(xiàn)。

      【發(fā)明內容】

      [0003]下面給出了對本公開內容的簡化的概括以便向讀者提供基本理解。該
      【發(fā)明內容】
      不是本公開內容的詳盡概述,并且其不標識本說明書的關鍵/重要元素或描繪本說明書的范圍。其唯一目的是用簡化的形式呈現(xiàn)本文中公開的概念的選擇,作為稍后給出的更詳細說明的前序。
      [0004]用于基于在攝像頭的預先確定的范圍內做出的姿勢來控制基于計算的設備的系統(tǒng)和方法,其中,預先確定的范圍是捕攝像頭的視域的子集。在預先確定的范圍以外做出的任何姿勢都被忽略,并且不導致基于計算的設備執(zhí)行任何動作。在一些示例中,姿勢用于控制在視頻會議會話中實現(xiàn)的繪圖畫布。在這些示例中,單個攝像頭可以用于生成視頻會議用戶的圖像,其用于檢測預先確定的范圍內的姿勢,并向視頻會議會話的其它各方提供用戶的可視圖像。
      [0005]由于通過參考結合附圖考慮的以下【具體實施方式】,許多附帶特征變得更好理解,因此許多附帶特征將更加容易領會。
      【附圖說明】
      [0006]根據(jù)考慮到附圖閱讀的以下【具體實施方式】將更好地理解本說明書,在附圖中:
      [0007]圖1是用于使用姿勢來控制基于計算的設備的系統(tǒng)的示意圖;
      [0008]圖2是示例捕捉設備和圖1的示例基于計算的設備的框圖;
      [0009]圖3是圖1的預先確定的范圍的示意圖;
      [0010]圖4是用于使用圖1的系統(tǒng)來檢測姿勢的示例方法的流程圖;
      [0011]圖5是虛擬畫布的示意圖;
      [0012]圖6是用于生成可以使用圖1的系統(tǒng)的輸出來控制的虛擬畫布的示例
      [0013]基于計算的設備框圖;
      [0014]圖7是示出了圖5的虛擬畫布的位置的一系列示意圖;
      [0015]圖8是示出了出現(xiàn)在用戶顯示器上的圖5的虛擬畫布的一系列示意圖;
      [0016]圖9是示出了圖5的虛擬畫布上的繪圖元素的生成的一系列示意圖;
      [0017]圖10是示出了圖5的虛擬畫布上的凝聚效果的一系列示意圖;
      [0018]圖11是示出了圖5的虛擬畫布上的親吻效果的一系列示意圖;以及
      [0019]圖12是可以在其中實現(xiàn)控制系統(tǒng)和/或方法的實施例的示例性的基于
      [0020]計算的設備的框圖。
      [0021]相同的參考標號用于表示附圖中相同的部件。
      【具體實施方式】
      [0022]結合附圖在下文中提供的【具體實施方式】旨在作為所給出示例的描述,而不是旨在表示可以構造或使用所給出的示例的唯一形式。該描述闡述了示例的功能和用于構造和操作示例的步驟的序列。然而,相同或等效的功能和序列可以由不同的示例實現(xiàn)。
      [0023]如上所述,在傳統(tǒng)的NUI系統(tǒng)中,一個或多個攝像頭用于捕捉用戶的圖像,以便檢測和跟蹤用戶的身體部分(例如,手、手指)來識別由檢測到的身體部分執(zhí)行的姿勢。任何檢測到的姿勢然后可以用于控制計算設備。然而,這樣的系統(tǒng)可能檢測到攝像頭的視域中的其它對象,這些對象可能被誤解為使用者的身體部分,這可能導致檢測到錯誤的姿勢。這在視頻會議系統(tǒng)中尤其是問題,在所述視頻會議系統(tǒng)中,用戶或視頻會議的一方的身后可能發(fā)生攝像頭視域內的動作,或者用戶他/她本身可能正在做出不意在被用作姿勢輸入的動作(如使用計算設備的觸摸屏)。該動作可能(a)被錯誤地識別為可以導致計算設備執(zhí)行并非有意的命令的姿勢輸入;并且(b)浪費用于確定和跟蹤是不相關輸入的對象的資源。因此,需要控制針對相關對象分析的區(qū)域。
      [0024]本文中描述的是用于使用僅在捕捉設備的預先確定的范圍(S卩,三維量)內執(zhí)行的姿勢來控制基于計算的設備的系統(tǒng)和方法,其中,預先確定的范圍是捕捉設備的視域的子集。本文中使用術語子集來意指項目的一部分,并且并不包括整個項目。系統(tǒng)從捕捉設備接收場景的圖像流,其分析該圖像流來識別預先確定的范圍內的場景中的對象。一旦系統(tǒng)確定了預先確定的范圍內的對象,其跟蹤這些對象以確定預先確定的范圍內的對象的位置和/或運動并且識別由這些對象執(zhí)行的任何姿勢。所確定的位置和識別出的姿勢然后可用于控制基于計算的設備。
      [0025]在位置和姿勢信息可以用于控制視頻會議應用的情況下。具體而言,可以使用位置和姿勢信息來控制視頻會議應用內的繪圖畫布。在這些情況下,捕捉設備可以包括用于生成用戶的單個圖像流的單個攝像頭。該單個圖像流可以用于(a)識別對象和檢測姿勢;以及(b)向視頻會議的其它各方提供用戶的可視圖像。
      [0026]如上所述,通過限制可以做出姿勢的區(qū)域,降低了可能導致基于計算的設備執(zhí)行并非有意的命令的錯誤識別的姿勢的數(shù)量(因此使得姿勢識別更加魯棒);并且資源不被浪費用于識別和跟蹤不是相關輸入的對象。
      [0027]雖然給出的示例在本文中描述和示出為在視頻會議系統(tǒng)中實現(xiàn),但本文中描述的系統(tǒng)是作為示例而非限制提供的。本領域技術人員將明白:給出的示例適用于各種不同系統(tǒng)中的應用。
      [0028]現(xiàn)在參考圖1,圖1示出了用于使用捕捉設備102的視域內的預先確定的范圍中執(zhí)行的姿勢來控制基于計算的設備104的示例系統(tǒng)100。
      [0029]圖1中示出的基于計算的設備104是具有單獨的處理器組件106和顯示屏幕108的傳統(tǒng)的桌面式計算機;然而,本文中描述的方法和系統(tǒng)可以同樣應用于基于計算的設備104,其中,處理器組件106和顯示屏幕108諸如在膝上型計算機和平板計算機中那樣集成在一起。
      [0030]捕捉設備102生成場景的圖像,該圖像由捕捉設備102或基于計算的設備104來解釋或分析,以便檢測在捕捉設備102的視域內的預先確定的范圍中做出的姿勢。參考圖3更加詳細地描述了預先確定的范圍。預先確定的范圍中檢測到的姿勢然后可以用于控制基于計算的設備104的操作。雖然圖1的系統(tǒng)100包括單個捕捉設備102,但本文中描述的方法和原理可以同樣應用于具有多個捕捉設備102的控制系統(tǒng)。
      [0031]在圖1中,捕捉設備102安裝在顯示屏幕108的頂部,并指向用戶110。然而,在其它示例中,捕捉設備102可以嵌入到環(huán)境中的任何其它合適的對象中或安裝于其上(例如,在顯示屏幕108之內)。
      [0032]在操作中,可以使用由捕捉設備12生成的圖像來跟蹤對象(例如,用戶的面部或手),以便對象的位置和運動可以由捕捉設備102或基于計算的設備104解釋為執(zhí)行可以用于控制由基于計算的設備104執(zhí)行或在基于計算的設備104上顯示的應用的姿勢。
      [0033]系統(tǒng)100還可以包括在基于計算的設備104通信中允許用戶通過傳統(tǒng)手段來控制基于計算的設備104的其它輸入設備,諸如,鍵盤或鼠標。
      [0034]現(xiàn)在參考圖2,圖2示出了可以用于圖1的系統(tǒng)100的捕捉設備102的示意圖。捕捉設備102包括用于捕捉場景的圖像的至少一個成像傳感器202。成像傳感器202可以是被配置為捕捉場景的深度信息的深度攝像頭。深度信息可以是包括深度值(即,與和深度攝像頭與位于該圖像元素處的項目或對象之間的距離相關的深度圖像的每個圖像元素(例如,像素)相關聯(lián)的值)的深度圖像的形式。
      [0035]可以使用任何合適的技術(包括例如,渡越時間、結構化光線、立體圖像等等)來獲得深度?目息O
      [0036]捕捉到的深度圖像可以包括捕捉到的場景的2維(2-D)區(qū)域,其中,該2-D區(qū)域中的每個圖像元素代表來自成像傳感器202的捕捉到的場景中的對象的諸如長度或距離的深度值。
      [0037]在一些情況下,成像傳感器202可以是兩個或更多個物理上分隔開的攝像頭的形式,其從不同的角度觀看場景,以便獲得可以被解析以生成深度信息的視覺立體數(shù)據(jù)。
      [0038]捕捉設備102還可以包括被布置為以深度信息可以由成像傳感器202認定的方式來照射場景的發(fā)射器204。
      [0039]捕捉設備102還可以包括至少一個處理器206,其與成像傳感器202(例如,深度攝像頭)和發(fā)射器204(如果存在)通信。處理器206可以是通用微處理器或專用信號/圖像處理器。處理器206被布置為:執(zhí)行用于控制成像傳感器202和發(fā)射器204(如果存在)的指令來捕捉包括深度信息或包括可用于生成深度信息的信息在內的圖像信息。如同下文更加詳細描述的,處理器206可以可選地被布置為:執(zhí)行對這些圖像和信號的處理。
      [0040]捕捉設備102還可以包括:被布置為存儲用于由處理器206執(zhí)行的指令、由成像傳感器202捕捉的圖像或幀或任何合適的信息、圖像等等的存儲器208。在一些示例中,存儲器208可以包括隨機存取存儲器(RAM)、只讀存儲器(R0M)、高速緩存器、閃存器、磁盤或任何其它合適的存儲組件。存儲器208可以是與處理器206通信的單獨組件或集成到處理器206中。[0041 ] 捕捉設備102還可以包括與處理器206通信的輸出接口 210。輸出接口 210被布置為:經由通信鏈路向基于計算的設備104提供數(shù)據(jù)。通信鏈路可以是,例如,有線連接(例如,USBTM、Firewire?、EthernetTM 或類似物)和/或無線連接(例如,WiFi?、Bluetooth? 或類似物)。在其它示例中,輸出接口 210可以與一個或多個通信網絡(例如,互聯(lián)網)對接,并經由這些網絡向基于計算的設備104提供數(shù)據(jù)。
      [0042]基于計算的設備104可以包括:被配置為執(zhí)行與對象跟蹤和/或姿勢識別相關的一種或多種功能的對象跟蹤和姿勢識別引擎212。參考圖4描述了可以由對象跟蹤和姿勢識別引擎212執(zhí)行的示例功能。例如,對象跟蹤和姿勢識別引擎212可以被配置為:識別圖像中的某些對象(例如,用戶的面部、手和/或手指)。一旦識別出了對象,姿勢識別引擎212使用與形成對象的圖像元素相關聯(lián)的深度信息來確定對象是否在捕捉設備102的預先確定的范圍中。如果確定對象在預先確定的范圍中,則跟蹤對象來確定對象的位置和/或運動,并且確定姿勢是否由對象做出或執(zhí)行。如果確定對象不在預先確定的范圍中,那么不跟蹤對象并且不檢測姿勢。因此,預先確定的范圍以外的對象不導致姿勢將由對象跟蹤和姿勢識別引擎212輸出,即使姿勢是由對象做出或執(zhí)行的。
      [0043]應用軟件214也可以在基于計算的設備104上執(zhí)行,并使用對象跟蹤和姿勢識別引擎212的輸出(例如,預先確定的范圍中的對象的位置以及在預先確定的范圍中執(zhí)行的任何檢測到的姿勢)來對其進行控制。例如,在一些情況下,應用軟件214可以是可以使用由預先確定的范圍中的用戶做出的姿勢來控制的視頻會議應用。具體而言,在一些示例中,對象跟蹤和姿勢識別引擎212的輸出可以用于控制視頻會議會話中使用的繪圖畫布。將參考圖5至圖11更加詳細地對其進行描述。
      [0044]現(xiàn)在參考圖3,圖3示出了由圖1的系統(tǒng)100使用的預先確定的范圍。捕捉設備102具有視域(F0V)302,其是捕捉設備102可見的場景的區(qū)域。在圖3中,F(xiàn)OV 302是線條301與303之間的區(qū)域。通常,當捕捉設備102生成圖像時,其包括FOV 302之內的所有項目或對象的表示。如上所述,圖1的系統(tǒng)100用于檢測FOV 302內的預先確定的范圍304之內的對象以及在上述范圍中執(zhí)行的姿勢。
      [0045]預先確定的范圍304是與捕捉設備102分隔開(S卩,不相鄰或遠離)FOV302的子集或部分。在一些情況下,預先確定的范圍304是三維量。例如,預先確定的范圍304可以是由兩個距離山和山定義的三維量,其中,CU是距離捕捉設備102的第一距離,而d2是距離捕捉設備的第二距離,其中,Cl1小于d2。在這些示例中,預先確定的范圍304包括與捕捉設備102的距離在CU與d2之間的任何東西。
      [0046]在一些示例中,預先確定的范圍304是固定、硬編碼或預先定義的(例如,di和d2硬編碼在應用中)。在其它不例中,預先確定的范圍304可以是動態(tài)選擇的。例如,在一些情況下,用戶可以執(zhí)行校準程序,其被設計為選擇適當?shù)念A先確定的范圍。在其它情況下,系統(tǒng)100可以被配置為:基于例如用戶的頭的位置來自動選擇合適的預先確定的范圍。
      [0047]如圖3中所示,在一些情況下,山和山可以是固定或動態(tài)選擇的,以便預先確定的范圍304是用戶110與捕捉設備102之間的中距。在對象跟蹤和姿勢識別引擎212的輸出用于控制視頻會議應用(如同下面更詳細描述的)的繪圖畫布的情況下,將預先確定的范圍304定義為用戶110與捕捉設備102之間的中距允許系統(tǒng)忽略并非意為控制姿勢的(例如,靠近用戶身體的動作)用戶的動作以及意在與基于計算的設備104進行另一種方式的交互的用戶的動作(例如,通過與觸摸屏進行交互)。例如,這會允許用戶(i)進行交互來與和基于計算的設備104相關聯(lián)的觸摸屏進行交互,以便在不造成繪圖畫布的改變的情況下控制視頻會議應用的一些方面(例如,結束或開始呼叫);以及(ii)使用預先確定的范圍304中做出的姿勢來編輯繪圖畫布中的繪圖。
      [0048]預先確定的范圍304對于基于計算的設備104上運行的所有應用來說可以是相同的,或者對于不同的應用可以是不同的。作為示例,由約為0.1m的第一距離CU和約為0.4m的第二距離山限定的預先確定的范圍304已經證明對于一些應用(如視頻會議應用)很有效。
      [0049]現(xiàn)在參考圖4,圖4示出了方法400,其可以由圖2的對象跟蹤和姿勢識別引擎212執(zhí)行用于檢測在預先確定的范圍304中做出的姿勢。在框402處,對象跟蹤和姿勢識別引擎212從捕捉設備102接收場景的圖像流(例如,視頻流)。圖像流包括深度信息或可以從其獲得深度信息的信息。例如,可以使用由本
      【申請人】在與本申請同日提交的,題為“DEPTH SENSINGUSING AN RGB CAMERA”的美國專利申請中概述的方法,從RGB圖像流獲得深度信息。
      [0050]如“DEPTH SENSING USING AN RGB CAMERA”專利申請中所描述的,可以通過向經訓練的機器學習組件應用RGB圖像以產生深度圖來從RGB圖像獲得深度信息。深度圖包括表示由RGB圖像中的圖像元素表示的表面與RGB攝像頭之間的絕對距離或真實世界距離的RGB圖像的每個圖像元素的深度值。
      [0051]在一些示例中,經訓練的機器學習組件可以包括一個或多個使用RGB圖像和相應的地面實況深度圖的配對訓練的隨機決策林。可以根據(jù)真實物理設置(例如,使用RGB攝像頭和深度攝像頭)生成RGB圖像和深度圖的配對。還可以,或者替換地,使用計算機圖形技術來合成生成RGB圖像和深度圖的配對。在其它示例中,可以使用其它合適的機器學習組件,諸如但不限于:深神經網絡、支持向量回歸元和高斯(Gaussian)過程回歸元。
      [0052]一旦接收到圖像流,方法400前進到框404。
      [0053]在框404處,對象跟蹤和姿勢識別引擎212對圖像流進行分析,以便檢測場景內的對象。在一些情況下,對象跟蹤和姿勢識別引擎212可以被配置為:僅檢測預先定義的列表的對象,如用戶的面部、手和/或手指??梢允褂萌魏我阎挠糜跈z測圖像中的對象的方法,諸如但不限于:相關或機器學習方法(例如,決策林)。一旦跟蹤和姿勢識別引擎212在圖像流中檢測到對象,則方法400前進到框406。
      [0054]在框406處,對象跟蹤和姿勢識別引擎212確定在框404中識別出的對象或一些對象是否在FOV 302的預先確定的范圍304內。在一些情況下,如果與對象相關聯(lián)的圖像元素具有特定范圍中的深度值(例如,CU〈深度值<d2),則對象跟蹤和姿勢識別引擎212可以確定該對象在預先確定的范圍304內。在一些情況下,對象跟蹤和姿勢識別引擎212可以被配置為:將與形成識別出的對象的圖像元素相關聯(lián)的深度值的平均值和均值與最大和最小深度值(d2和CU)進行比較。如上所述,與圖像元素相關聯(lián)的深度值可以由捕捉設備102(例如,在捕捉設備102是深度攝像頭的情況下)生成,或者可以由捕捉設備生成的圖像信息生成(例如,根據(jù)使用上述DEPTH SENSING USING AN RGB頂AGE(使用RGB圖像的深度感測)方法的RGB圖像的R、G、B值)。
      [0055]如果確定識別出的對象中的至少一個對象在預先確定的范圍304內,則方法400前進到框408。然而,如果識別出的對象中沒有對象在預先確定的范圍304內,則方法400回到框402。
      [0056]在框408處,對象跟蹤和姿勢識別引擎212跟蹤預先確定的范圍304中的對象來確定它們的位置和/或形狀,以便識別由對象做出的姿勢。在一些情況下,對象跟蹤和姿勢識別引擎212監(jiān)測在框404和406中識別出的對象,以便分配可用于識別姿勢的對象狀態(tài)和部件標簽。例如,對象跟蹤和姿勢識別引擎212可以被配置為:識別對象的部件(例如,對于手來說,對象跟蹤和姿勢識別引擎212可以被配置為:為手的每個圖像元素分配識別例如手掌、手指和/或拇指的部件標簽),以及對象的狀態(tài)或位置(例如,對于手來說,對象跟蹤和姿勢識別引擎212可以被配置為:為手的每個圖像元素分配識別手是打開/閉合;手掌朝上/朝下和/或在指示/沒有指示的狀態(tài)標簽)。在這些情況下,狀態(tài)和/或部件標簽可由手工定義或使用機器學習來學到。然后,方法400前進到框410。
      [0057]在框410處,對象跟蹤和姿勢識別引擎212確定識別出的對象中是否有任何對象已經執(zhí)行或做出了姿勢的預先確定的集合中的一種姿勢。在向跟蹤的對象分配了狀態(tài)和/或狀態(tài)標簽的情況下,檢測對象執(zhí)行或做出了姿勢的預先確定的集合中的一種姿勢可以包括:確定對象在多個順序圖像上是否具有一系列部件/狀態(tài)組合。在其它情況下,檢測對象執(zhí)行或做出了某個姿勢可以基于對象的運動的量。例如,當對象跟蹤和姿勢識別引擎212確定對象(例如,用戶的手指)已經停止移動或具有很小的運動時,可以檢測到下筆姿勢(即,開始繪制姿勢);而當對象跟蹤和姿勢識別引擎檢測到對象(例如,用戶的手指)已經從捕捉設備102快速移開時,可以檢測到提筆姿勢(S卩,停止繪制姿勢)。
      [0058]如果已經確定對象中的至少一個對象已經執(zhí)行或做出了姿勢的預先確定的集合中的姿勢中的一種,那么方法400前進到框412,在框412處,輸出對象的位置和檢測到的姿勢。然后可以將檢測到的姿勢傳遞到另一個應用,該應用使用該姿勢來控制該應用的操作。例如,檢測到的姿勢可用于控制視頻會議應用和/或操作系統(tǒng)的操作。然而,在確定了沒有對象執(zhí)行或做出預先確定的姿勢中的一種姿勢的情況下,方法400然后前進到框414,在框414處僅輸出對象的位置。在輸出了位置和/或檢測到的姿勢之后,方法400回到框406。
      [0059]在一些情況下,對象跟蹤和姿勢識別引擎212可以僅輸出姿勢信息。這可以用于知道姿勢在預先確定的范圍304內的哪里執(zhí)行并不相關的應用。在一些情況下,對象跟蹤和姿勢識別引擎212可以被配置為還輸出對象的檢測到的運動。在其它情況下(如上所述),運動信息可以用于檢測姿勢是否已經做出并且因此并入姿勢輸出。
      [0060]在一些情況下,一旦對象跟蹤和姿勢識別引擎212在預先確定的范圍304中檢測到對象,對象跟蹤和姿勢識別引擎212可以確定對象進入預先確定的范圍304的速度。如果初始進入速度在第一預先確定的閾值之上,則一旦預先確定的范圍中識別出的對象的速度下降到第二預先確定的閾值以下,則對象跟蹤和姿勢識別引擎212可以僅識別和/或輸出由所述對象做出的姿勢。因此,由以較快的速度進入預先確定的范圍的對象做出的任何姿勢被忽略,并且不用于控制基于計算的設備,直到該對象慢下來。
      [0061]雖然描述了方法400以某種順序執(zhí)行該方法的方面,但在其它示例中,可以以另一種合適的順序來執(zhí)行該方法的方面。例如,在一些情況下,對象跟蹤和姿勢檢測引擎212可以被配置為:首先分析深度信息,并且僅分析由捕捉設備102生成的圖像的、具有在預先確定的范圍內的深度(即,具有在特定范圍內的深度值(例如,dl〈深度值〈d2))的那些圖像元素,以便識別對象和由那些對象做出的姿勢。
      [0062]執(zhí)行方法400的方面的順序可以基于系統(tǒng)100中使用的硬件。例如,如果捕捉設備102包括生成深度圖的深度攝像頭,則系統(tǒng)100可以設計為:丟棄在預先確定的范圍304以外的圖像的圖像元素,然后僅對預先確定的范圍304內的那些圖像元素執(zhí)行跟蹤和姿勢識別。或者,如果捕捉設備102包括生成可以從其獲得深度信息的RGB圖像的RGB攝像頭,則系統(tǒng)100可以被配置為:首先分析RGB圖像來識別對象和由識別出的對象做出的姿勢,并且然后對識別出的對象執(zhí)行深度閾值化。在這些情況下,識別出的對象的特性(例如,檢測到的手、手指或面部的大小)可以用于輔助確定對象的深度。
      [0063]在一些情況下,由上述方法和系統(tǒng)輸出的位置和姿勢信息用于控制允許用戶創(chuàng)建繪圖元素的虛擬和透明繪圖畫布?,F(xiàn)在參考圖5,圖5示出了可由上述方法和系統(tǒng)輸出的姿勢控制的虛擬透明畫布502。因為繪圖畫布502是透明的,因此可以在其上覆蓋另一個圖像或視頻流504。這允許用戶創(chuàng)建在其它圖像或視頻流504前方或在其之上顯示的繪圖元素和其它圖像效果。
      [0064]在虛擬透明繪圖畫布502用于視頻會議系統(tǒng)或應用的情況下,虛擬透明繪圖畫布502可以顯示在下列各項的前方:接收的圖像或視頻流(S卩,視頻會議應用的另一方的圖像或視頻流)、發(fā)送的圖像或視頻流(即,用戶的圖像或視頻流)、接收或發(fā)送的圖像或視頻流的一部分、或者接收和發(fā)送的圖像二者。在這些情況下,繪圖畫布502可以被配置為:模擬可由一方或一方以上控制和/或修改的視頻會議的各方之間的真實物理窗口。在一些情況下,捕捉設備102包括用于捕捉用戶的單個圖像流的單個攝像頭。單個圖像流用于檢測預先確定的范圍中的對象和姿勢,以及向視頻會議的其它各方提供用戶的圖像。
      [0065]在一些情況下,虛擬透明繪圖畫布502可以包括:使用戶明白繪圖畫布502活躍或當前正在被顯示的邊界或類似物506。在繪圖畫布502被配置為模擬真實物理窗口的情況下,可以例如,呈現(xiàn)邊界502以便類似于物理玻璃窗的邊緣。邊界502可以另外或者替換地被配置為類似于結霜。
      [ΟΟ??] 虛擬透明繪圖畫布502還可以包括允許用戶從繪圖工具中選擇和/或激活繪圖工具的繪圖工具條508。例如,繪圖工具條508可以允許用戶從多個形狀、顏色、線條粗細、操作工具等等中進行選擇。繪圖工具條508可以永久出現(xiàn)在繪圖畫布502上,或者可以在接收某些輸入(例如,姿勢)時激活和/或解除激活。將參考圖9更加詳細地描述這樣的繪圖工具條508的使用。
      [0067]現(xiàn)在參考圖6,圖6示出了被配置為使用上述姿勢識別系統(tǒng)和方法來控制視頻會議系統(tǒng)或應用中的透明繪圖畫布502的示例基于計算的設備104。在該示例中,基于計算的設備104包括圖2的對象跟蹤和姿勢識別引擎212,其可以被配置為執(zhí)行用于分析從捕捉設備102接收的圖像以識別由捕捉設備102的FOV 302的預先確定的范圍304中的用戶110做出的姿勢的圖4的方法400。在該示例中,對象跟蹤和姿勢識別引擎212可以被配置為:識別和跟蹤用戶110的面部、手和/或手指,以識別由用戶的面部、手和/或手指做出的姿勢。
      [0068]如上所述,在一些情況下,由對象跟蹤和姿勢識別引擎212用來檢測姿勢的同一個圖像流還用于向視頻會議的其它各方提供用戶110的圖像。在這些情況下,可以向視頻編碼器602提供由捕捉設備102生成的圖像流。視頻編碼器602使用合適的視頻編解碼對接收的圖像進行編碼,然后經由例如數(shù)據(jù)通信網絡向其它各方/各方發(fā)送經編碼的圖像。進行接收的基于計算的設備對接收的編碼圖像進行解碼,并向接收方顯示經解碼的圖像。向視頻會議的其它各方發(fā)送的用戶110的圖像在本文中被稱為發(fā)送的圖像。
      [0069]虛擬繪圖畫布內容管理器604接收對象跟蹤和姿勢識別引擎212的輸出,并且基于所接收的對象位置和姿勢信息來確定應該在繪圖畫布502上執(zhí)行什么動作(如果有的話)。例如,內容管理器604可以保持跟蹤繪圖畫布502的狀態(tài),并將接收的對象位置和姿勢信息與繪圖畫布502的狀態(tài)進行比較,以便確定從對象跟蹤和姿勢識別引擎212接收的對象位置和姿勢信息是否導致在繪圖畫布上執(zhí)行動作。如果內容管理器604確定應該在繪圖畫布502上執(zhí)行動作,則內容管理器604向虛擬繪圖畫布生成器606發(fā)送事件以便實現(xiàn)動作,以及向事件編碼器608發(fā)送事件用于對事件進行編碼和向視頻會議的其它各方發(fā)送經編碼的事件,以便動作也可以在其它各方的顯示器上實現(xiàn)。事件可以包括下列各項中的一個或多個:姿勢名稱、對象(例如,手、面部、手指)三維(3D)位置和/或角度、向下投影到2D圖像上的相應的位置和角度、2D和3D運動信息、強度(例如,嘴張開的程度)、時間戳、置信值(指示其被檢測的良好的程度)。
      [0070]在繪圖畫布502可由視頻會議的任意方修改的情況下,虛擬繪圖畫布內容管理器604還可以經由事件解碼器610從視頻會議的其它用戶/方接收事件信息。事件解碼器610從視頻會議的其它各方中的一方接收經編碼的事件,對接收的事件進行解碼,并向內容管理器604提供經解碼的事件。在這些情況下,事件信息可以包括允許事件與接收機端處的視頻同步的時間戳信息。
      [0071]虛擬繪圖畫布生成器606接收由捕捉設備102生成的用戶的圖像、視頻會議的其它方/各方的圖像、以及由內容管理器604生成的事件信息,并使用該信息來生成向用戶顯示的完整的圖像。完整的圖像包括呈現(xiàn)的繪圖畫布,其并入或實現(xiàn)由從內容管理器604接收的事件識別的,與其它方/各方的圖像或視頻流(即,接收的圖像或視頻流)和/或用戶的圖像(即,發(fā)送的圖像或視頻流)合并的動作。然后可以向顯示屏幕108提供完整的圖像用于對用戶110顯示。
      [0072]盡管圖6的示例基于計算機的設備被配置為:使用與用于發(fā)送各方的圖像(例如,視頻)的信道分開的單獨的發(fā)送和接收事件信道,在視頻會議的各方之間發(fā)送繪圖畫布事件以激活繪圖畫布的變化,但在其它示例中,基于計算機的設備可以被配置為:將事件信息嵌入視頻信道(即,用于發(fā)送和接收視頻會議的各方的圖像的信道)中。在這些示例中的任何示例中,向視頻會議的所有各方發(fā)送描述要在繪圖畫布上執(zhí)行的動作的事件信息,并且由該方的本地設備來呈現(xiàn)或生成并入或實現(xiàn)特定動作的繪圖畫布。
      [0073]在其它示例中,繪圖畫布502可由進行發(fā)送的基于計算機的設備來生成,并且然后作為單獨的經編碼的圖像發(fā)送到其它各方。在其它示例中,完整輸出圖像可由進行發(fā)送的基于計算機的設備來生成,并且然后作為整體圖像發(fā)送到其它各方。在這些示例中,進行發(fā)送的基于計算機的設備基于其從內容管理器604接收的事件信息來生成或呈現(xiàn)繪圖畫布,并且將生成或呈現(xiàn)的繪圖畫布與所發(fā)送的圖像和/或所接收的圖像進行合并以生成完整的輸出圖像,并向視頻會議的其它各方發(fā)送該完整的輸出圖像。在這些示例中的任何一個示例中,在各方之間不發(fā)送事件信息,而是在各方之間發(fā)送呈現(xiàn)的繪圖畫布或呈現(xiàn)的完整圖像。這些示例可能更適合用于非協(xié)作式繪圖(例如,當僅有一個用戶能夠控制繪圖畫布時),因為創(chuàng)建并入由一個以上的用戶做出的改變的單個實時繪圖畫布是困難的。
      [0074]雖然圖6示出了在與用戶110相關聯(lián)的本地基于計算機的設備上實現(xiàn)的姿勢檢測和圖像處理,但在其它示例中,本文中描述的過程中的一個或多個過程可由云服務執(zhí)行。然而,在這樣的情況下,會僅向云服務提供經編碼的圖像(即,視頻)而不是由捕捉設備102生成的原始圖像(例如,視頻),這可能降低圖像處理和呈現(xiàn)的質量。
      [0075]在一些情況下,圖6的基于計算的設備還可以包括接收表示由置于用戶附近的麥克風檢測到的音頻的音頻信號的聲音檢測引擎(未示出)。聲音檢測引擎分析接收到的音頻信號來檢測預先確定的聲音。如果聲音檢測引擎檢測到預先確定的聲音中的一種聲音,則其向內容管理器604輸出標識檢測到的聲音的信息。內容管理器可以使用標識檢測到的聲音的信息來(a)單獨基于該信息來控制基于計算的設備;和/或(b)基于該信息和從對象跟蹤和姿勢識別引擎212接收的信息來控制基于計算的設備。例如,內容管理器可以使用聲音信息來幫助決定鑒于從對象跟蹤和姿勢識別引擎212接收到的信息,是否應該在繪圖畫布中做出動作。
      [0076]如上所述,兩方或更多方之間的視頻會議通常包括至少兩個視頻或圖像流。第一視頻或圖像流提供用戶110的圖像或視頻。第一視頻或圖像流在本文中將也被稱為發(fā)送的圖像或視頻流。第一視頻或圖像流由用戶本地的圖像捕捉設備102生成,并且從用戶的基于計算的設備發(fā)送到其它各方的計算設備,以便其它各方能看見用戶的圖像或視頻。
      [0077]第二視頻或圖像流提供視頻會議的另一方的圖像或視頻。第二視頻或圖像流由該方本地的圖像捕捉設備生成,并從該方本地的基于計算的設備發(fā)送到用戶的基于計算的設備。向用戶顯示第二視頻,以便用戶能看到另一方的圖像。針對視頻會議的每個遠程方可以有一個第二視頻或圖像流。第二視頻在本文中將也被稱為接收的圖像或視頻流。
      [0078]可以在發(fā)送和接收的圖像或視頻流中的一個或多個流的前方呈現(xiàn)繪圖畫布502?,F(xiàn)在參考圖7,圖7示出了繪圖畫布502相對于接收和發(fā)送的圖像或視頻流702和704的示例位置。在一些情況下,如圖7A中所示,僅向用戶呈現(xiàn)接收的圖像或視頻流702,并且在整個接收的圖像或視頻流702的前方呈現(xiàn)繪圖畫布502。
      [0079]在其它情況下,如圖7B-7C中所示,向用戶示出接收的圖像或視頻流702和發(fā)送的圖像或視頻流704。在這些情況下,可以在下列各項中呈現(xiàn)繪圖畫布502:僅在接收的視頻或圖像流702前方(未示出);在整個發(fā)送的視頻或圖像流704(圖7B)前方;在接收的圖像或視頻流702和發(fā)送的圖像或視頻流704 二者前方(圖7C);在接收的圖像或視頻流702的部分的前方(圖7D);或者在發(fā)送的圖像或視頻流704的部分的前方(未示出)。雖然圖7B至7D示出了呈現(xiàn)的視頻流702和704以便在接收的視頻的右上角看到發(fā)送的視頻或圖像流704,但可以用另一種合適的方式向用戶呈現(xiàn)視頻流702和704(例如,并排地)。在發(fā)送的視頻或圖像流704的前方示出繪圖畫布502的情況下,由繪圖畫布502產生的效果可以與在物理鏡子上繪圖和/或與物理鏡子進行交互類似。
      [0080]在一些情況下,當繪圖畫布502首先由用戶110激活時,繪圖畫布502可以是動畫的(例如,其可以被配置為從一個邊緣滑動到位)以便向用戶表示繪圖畫布502已經被激活。這在示出繪圖畫布502顯示從圖像504的底部滑動到位的圖8中示出。在其它情況下,其它的動畫可用于表示繪圖畫布502的激活。在一些情況下,當繪圖畫布解除激活時,可以使用類似或相關的動畫。例如,繪圖畫布可以被配置為:一旦其被用戶解除激活,其顯示為從一個邊緣(例如,底部邊緣)劃出。繪圖畫布502可由預先確定的范圍304中的用戶做出的姿勢或由任何其它用戶輸入(例如,鍵盤八氧標輸入)來激活和/或解除激活。
      [0081 ] 一旦繪圖畫布502被激活,用戶可以使用姿勢來向繪圖畫布502添加繪圖元素,或者編輯繪圖畫布502上的繪圖元素。在一些情況下,用戶可以通過做出開始的繪圖姿勢和/或通過其它輸入手段提供這樣的姿勢,通過表示他們希望開始自由形式的繪圖,能夠添加自由形式的繪圖元素。例如,用戶可以通過以下操作來表示他們希望開始自由形式的繪圖:按壓鍵盤上的某個鍵(例如,空格鍵);在預先確定的范圍302中做出姿勢來按壓或選擇繪圖畫布的元素(例如,選擇繪圖工具條中的元素);發(fā)出簡短獨特的聲音(如點擊);開始發(fā)出拉長的獨特的聲音(例如,模仿噴繪氣槍的“psssh”聲音);在預先確定的范圍302中做出敲擊姿勢;或者它們的任意組合。
      [0082]—旦用戶表示了他們希望開始自由形式的繪圖,他們可以使用其手指來繪制形狀。系統(tǒng)將跟蹤用戶的手指(或手指的一部分(例如,指尖))并復制用戶的手指在繪圖畫布502上做出的形狀。
      [0083]系統(tǒng)可以向用戶提供他們的手指相對于繪圖畫布的當前位置的反饋。特定反饋可以基于繪圖畫布與發(fā)送和接收的圖像或視頻流之間的關系。如圖7B中所示,在繪圖畫布502呈現(xiàn)在發(fā)送的圖像或視頻流704之上的情況下,然后向用戶的反饋可以是用戶的手指在繪圖畫布上的顯示。這允許輸出顯示用作允許用戶觀看他/她自己的表情和動作的鏡子。
      [0084]然而,如圖7A和7C中所示,在繪圖畫布502呈現(xiàn)在接收的圖像或視頻流702之上的情況下,系統(tǒng)可以被配置為:通過使用光標或其它對象可視地指示用戶的手指相對于繪圖畫布502的當前位置?;蛘撸脩舻氖种傅漠斍拔恢每梢允緸橄蚪邮盏降膱D像或視頻流702的半透明反射。為了實現(xiàn)該半透明反射,系統(tǒng)可以被配置為:對屬于用戶的手指的接收的圖像的圖像元素進行分割,并且使呈現(xiàn)的反射關注這些圖像元素?;蛘?,反射的透明度可以基于到指尖繪圖位置的距離。例如,透明度可以隨著到指尖繪圖位置的距離而增加。在這些情況下,當在接收的圖像或視頻流702之上呈現(xiàn)繪圖畫布時,用戶可以在與繪圖畫布相同的窗口中看到另一方的反應和表情。
      [0085]在聲音由用戶生成的同時通過對拉長的獨特聲音(例如,噴繪氣槍的“psssh”聲音)做出拉長的獨特聲音改變而用戶發(fā)起了繪圖的情況下,可以改變具有即時效果的繪圖的特性。例如,拉長的獨特聲音的音調/音高和/或音量可以由用戶改變。在該示例中,聲音改變可以影響當時屏幕上所呈現(xiàn)的噴涂的顏色、尺寸或不透明度。具體而言,增加所生成的拉長的聲音的音量可以產生與移動噴霧罐更靠近正在被噴涂的表面的等效或類似的改變的噴涂效果。
      [0086]—旦用戶結束了生成其自由形式的繪圖,他們可以通過做出結束繪圖姿勢和/或通過其它輸入手段提供這樣的指示來表示自由形式的繪圖的結束。例如,用戶可以通過以下操作來表示他們希望結束自由形式的繪圖:按壓鍵盤上的某個鍵(例如,空格鍵);在預先確定的范圍304中做出姿勢來按壓或選擇繪圖畫布的元素(例如,選擇繪圖工具條中的元素);發(fā)出簡短獨特的聲音(如點擊);結束拉長的獨特的聲音(例如,噴漆氣槍的“psssh”聲音);在預先確定的范圍304中做出抬起其手指的姿勢;或者它們的任意組合。
      [0087]在一些情況下,用戶還能夠向繪圖畫布502添加預先繪制的形狀。預先繪制的形狀可以從菜單、工具欄或通過在預先確定的范圍中做出預先確定的姿勢和/或經由其它輸入手段(例如,按壓鍵盤上的鍵,或發(fā)出特定聲音)提供某個輸入來激活的其它選擇工具選擇。從激活的選擇工具中的選擇可以通過在預先確定的范圍中執(zhí)行預先確定的姿勢和/或經由其它輸入手段提供某個輸入來類似地做出。預先繪制的形狀可以包括諸如圓形、矩形和三角形的基本幾何形狀和/或更加復雜的形狀。
      [0088]在一些情況下,用戶可以在繪圖元素在繪圖畫布502中被創(chuàng)建或添加到繪圖畫布502之前和/或之后對繪圖元素(例如,自由形式的繪圖或預先繪制的形狀)的特征(例如,顏色,線條粗細)進行調整。例如,特征可以從菜單、工具欄或通過在預先確定的范圍中做出預先確定的姿勢和/或經由其它輸入手段(例如,按壓鍵盤上的鍵,或發(fā)出特定聲音)提供某個輸入來激活的其它選擇工具中選擇。從激活的選擇工具中的選擇可以通過在預先確定的范圍中執(zhí)行預先確定的姿勢和/或經由其它輸入手段提供某個輸入來類似地做出。允許繪圖元素的特征的調整的選擇工具可以是與用于向繪圖畫布502添加預先繪制的形狀的選擇工具相同或不同的選擇工具。
      [0089]在一些情況下,用戶可能能夠通過在預先確定的范圍中執(zhí)行某些姿勢來操作繪圖畫布502內的繪圖元素或繪圖畫布502本身。例如,用戶可以能夠通過在繪圖元素處做出指點姿勢然后將其手指移動到繪圖元素的新的位置來移動繪圖元素(例如,自由形式的繪圖或預先繪制的形狀)。用戶還可以能夠通過分別在預先確定的范圍內執(zhí)行擠壓姿勢或擴張姿勢來放大或縮小繪圖畫布502的某個區(qū)域。用戶還可以通過在預先確定的范圍內執(zhí)行抓取或指點姿勢來展開或滾動繪圖畫布502的內容。在一些情況下,繪圖畫布502可以在概念上大于在其中顯示繪圖畫布后面的圖像或視頻流的窗口(例如,在其中顯示接收的圖像或視頻流702的窗口)的限制。在這些情況下,諸如縮放和展開的操作姿勢可用于確定當前顯示的是繪圖畫布502的哪個部分。
      [0090]替換地或此外,用戶可以能夠通過從菜單、工具欄或通過在預先確定的范圍中做出預先確定的姿勢和/或經由其它輸入手段(例如,按壓鍵盤上的鍵,或發(fā)出特定聲音)提供某個輸入來激活的其它選擇工具中選擇操縱工具來操縱(例如,移動、縮放、展開或滾動)繪圖元素或繪圖畫布502。從激活的選擇工具中的選擇可以通過在預先確定的范圍中執(zhí)行預先確定的姿勢和/或經由其它輸入手段提供某個輸入來類似地做出。
      [0091]在一些情況下,用戶可以能夠通過在繪圖元素的全部或部分上方揮動他們的手來去除繪圖畫布502中的繪圖元素(例如,自由形式的繪圖或預先繪制的形狀)的全部或部分。[°092 ] 在圖9中示出了添加和編輯繪圖畫布502上的繪圖元素的示例。具體而言,圖9A示出了添加到了繪圖畫布502的自由形式的繪圖元素(例如,太陽)902;圖9B示出了添加到繪圖畫布502的預先繪制的對象(例如,矩形)904;并且圖9C示出了被移動到繪圖畫布502中的不同位置之后的預先繪制的對象904。
      [0093]在繪圖畫布502被設計為用作視頻會議各方之間的窗口的情況下,系統(tǒng)可以被配置為:當用戶110在預先確定的范圍304中做出某些姿勢時在繪圖畫布502上產生類似窗口的效果。參考圖10和圖11描述了示例效果。具體而言,圖10示出了凝聚效果。圖1OA示出了置于圖像或視頻504之上的繪圖畫布502。如上所述,圖像或視頻504可以是接收的圖像或視頻或者發(fā)送的圖像或視頻。當用戶發(fā)起某些姿勢,例如,他們在預先確定的范圍304內用他們的嘴和/或面部做出吹氣姿勢時,系統(tǒng)可以被配置為:在繪圖畫布(圖10B)上呈現(xiàn)半透明的凝聚的云1002。吹氣的方向和力度可以用于控制凝聚1002的位置和強度。在一些示例中,凝聚還可以或者替換地由其它姿勢觸發(fā),如用戶執(zhí)行將其手掌置于繪圖畫布502上的姿勢。在凝聚由這樣的姿勢觸發(fā)的情況下,凝聚可以具有圍繞用戶手的輪廓的形狀的形式。
      [0094]在一些情況下,凝聚1002可以為用戶提供臨時繪圖區(qū)域。例如,用戶可以能夠通過在預先確定的范圍304內做出的姿勢來以與用戶可以用其手指在真實窗戶上的凝聚中繪制形狀類似的方式在凝聚中進行繪制。例如,如圖1OC中所示,用戶可以用其手指繪制某個形狀(例如,心形),這導致形狀(例如,心形)1004繪制在凝聚中(S卩,去除了凝聚1002的一部分以顯露該形狀)。形狀1004可以呈現(xiàn)在凝聚1002中,以便其看起來像是由用戶在實際的凝聚中繪制的。
      [0095]系統(tǒng)可以被配置為:呈現(xiàn)凝聚1002使其顯示為以真實的凝聚的方式逐漸褪去。圖1OD示出了部分褪去之后凝聚1002和凝聚中的對象(例如,心形)1004。系統(tǒng)可以被配置為:在預先確定的時間段內逐漸褪去凝聚1002和其中的任何形狀1004。預先確定的時間段可以是固定的,或者可以是動態(tài)選擇的。例如,在一些情況下,預先確定的時間段可以基于吹氣的估計力度。在其它情況下,預先確定的時間段可以基于外部溫度和/或濕度。外部溫度和/或濕度信息可以是已知的,或者可以是使用關于用戶的位置的信息來獲得的。
      [0096]圖11示出了另一個示例類似窗口的效果。具體而言,圖11示出了親吻效果。圖1IA示出了置于圖像或視頻504之上的繪圖畫布502。如上所述,圖像或視頻504可以是接收的圖像或視頻或者發(fā)送的圖像或視頻。當用戶發(fā)起某些姿勢,例如,他們在預先確定的范圍304內用他們的嘴和/或面部做出親吻姿勢時,系統(tǒng)可以被配置為:在繪圖畫布502(圖11B)上呈現(xiàn)嘴唇的圖像1102。例如,嘴唇的圖像可以呈現(xiàn)為看起來像口紅或濕氣(例如,凝聚)。
      [0097]在繪圖畫布502被設計為用作視頻會議各方之間的窗口的情況下,系統(tǒng)可以被配置為:實現(xiàn)下列效果中的一種或多種效果以增強真實窗口的效果。
      [0098]具體而言,系統(tǒng)可以被配置為:響應于在預先確定的范圍中做出的某些姿勢來產生某些聲音,以便進一步模擬真實窗口。例如,在一些情況下,系統(tǒng)可以被配置為:當系統(tǒng)在預先確定的范圍中檢測到敲擊姿勢或叩擊姿勢時,生成敲擊聲或叩擊聲。
      [0099]系統(tǒng)還可以被配置為:通過在繪圖畫布502中呈現(xiàn)靜態(tài)或動態(tài)半透明反射來增強效果。例如,系統(tǒng)可以被配置為:將用戶的半透明反射呈現(xiàn)在繪圖畫布502上。在這些示例中,系統(tǒng)可以被配置為:當呈現(xiàn)反射時,關注明亮、高對比度的細節(jié),以便不模糊繪圖畫布502后面的圖像或視頻504。
      [0100]系統(tǒng)還可以被配置為:使用用戶的面部的位置來控制在繪圖畫布502后面顯示的圖像或視頻流504 (例如,接收的圖像或視頻流702)與繪圖畫布502之間的小的位置視差偏移。例如,用戶的面部可以使用跟蹤和姿勢識別引擎212來跟蹤,并用于調整繪圖畫布502與繪圖畫布后面的圖像或視頻流504之間的感知到的三維距離。這創(chuàng)造了繪圖畫布502的位置或方向似乎隨著用戶移動其面部來發(fā)生變化的效果。當其它用戶正在繪圖畫布502上進行繪圖時,作為另一個用戶的手指與繪圖元素之間的距離的偏移是可見的。為了避免這種效果,在用戶正在繪圖畫布502上進行繪圖的同時可以重置偏移。
      [0101]系統(tǒng)還可以允許用戶記錄、保存和/或再使用繪圖畫布的內容。例如,系統(tǒng)可以允許用戶進行下列各項操作中的一項或多項:記錄所呈現(xiàn)的視頻流(包括用戶圖像結合所呈現(xiàn)的繪圖畫布的視頻流,或者僅包括所呈現(xiàn)的繪圖畫布的視頻流);打印繪圖畫布中的內容的靜止圖像(具有或不具有背景圖像);將繪圖畫布的靜止圖像保存為視頻通信摘要或工件的一部分;將繪圖畫布中的內容縮放和封裝成個性化卡片并發(fā)送到另一個用戶;將繪圖畫布502中的內容顯示到非透明背景上,并且復制繪圖畫布502中的內容以在其它應用中再使用。
      [0102]圖12示出了可以實現(xiàn)為任何形式的計算和/或電子設備,并且本文中描述的系統(tǒng)和方法的實施例可以在其中實現(xiàn)的示例性基于計算的設備104的各個組件。
      [0103]基于計算的設備104包括一個或多個處理器1202,處理器1202可以是微處理器、控制器或用于處理計算機可執(zhí)行指令以控制設備的操作,以便檢測由用戶做出的手勢,并基于檢測到的姿勢來控制設備的操作的任何其它合適類型的處理器。在一些示例中,例如,在使用片上系統(tǒng)架構的情況下,處理器1202可以包括在硬件(而不是軟件或固件)中實現(xiàn)控制基于計算的設備的方法的一部分的一個或多個固定功能塊(也被稱為加速器)??梢栽诨谟嬎愕脑O備處提供包括操作系統(tǒng)1204的平臺軟件或任何其它合適的平臺軟件,以便能夠在設備上執(zhí)行應用軟件214。
      [0104]可以使用由基于計算的設備104可訪問的任何計算機可讀介質來提供計算機可執(zhí)行指令。計算機可讀介質可以包括,例如,計算機存儲介質(如存儲器1206)和通信介質。計算機存儲介質(如存儲器1206)包括以用于存儲諸如計算機可讀指令、數(shù)據(jù)結構、程序模塊或其它數(shù)據(jù)的任何方法或技術實現(xiàn)的易失性和非易失性、可移動和不可移動介質。計算機存儲介質包括但不限于:RAM、R0M、EPR0M、EEPR0M、閃存或其它存儲器技術、CD-ROM、數(shù)字多功能盤(DVD)或其它光學存儲、磁帶盒、磁帶、磁盤存儲或其它磁存儲設備、或者可用于存儲用于由基于計算的設備訪問的信息的任何其它非傳輸介質。與此相反,通信介質可以體現(xiàn)計算機可讀指令、數(shù)據(jù)結構、程序模塊或調制數(shù)據(jù)信號中的其它數(shù)據(jù)(如載波波形)或其它傳輸機制。如本文中定義的,計算機存儲介質不包括通信介質。因此,本質上,計算機存儲介質不應該被解釋為傳播信號本身。所傳播的信號可以存在于計算機存儲介質中,但所傳播的信號本質上不是計算機存儲介質的示例。雖然計算機存儲介質(存儲器1206)示為在基于計算的設備104之內,但將理解的是:存儲可以是分布式的或位于遠程位置的和經由網絡或其它通信鏈路(例如,使用通信接口 1208)訪問的。
      [0105]基于計算的設備104還包括輸入/輸出控制器1210,其被布置為:向可能與基于計算的設備104分離或集成的顯示設備108(圖1)輸出顯示信息。顯示信息可以提供圖形用戶接口。輸入/輸出控制器1210還被配置為:接收和處理來自一個或多個設備(如用戶輸入設備(例如,鼠標、鍵盤、攝像頭、麥克風或其它傳感器))的輸入。在一些示例中,用戶輸入設備可以檢測語音輸入、用戶姿勢或其它用戶動作,并且可以提供自然用戶接口(NUI)。在實施例中,如果顯示設備108是觸摸敏感顯示設備,則顯示設備108還可以用作用戶輸入設備。輸入/輸出控制器1210還可以向顯示設備以外的設備(例如,本地連接的打印設備(圖12中未示出))輸出數(shù)據(jù)。
      [0106]輸入/輸出控制器1210、顯示設備108以及可選地用戶輸入設備可以包括NUI技術,其使得用戶能夠以自然的方式與基于計算的設備進行交互,不受由諸如鼠標、鍵盤、遙控器等等的輸入設備施加的人為約束。可以提供的NUI技術的示例包括但不限于依賴于下列各項的那些技術:語音和/或語言識別、觸摸和/或手寫筆識別(觸摸敏感顯示器)、屏幕上和鄰近屏幕的姿勢識別、空中姿勢、頭眼跟蹤、語音和語言、視覺、觸覺、姿勢和機器智能。可以使用的NUI技術的其它示例包括:意圖和目標理解系統(tǒng)、使用深度攝像頭(諸如立體攝像頭系統(tǒng)、紅外攝像頭系統(tǒng)、RGB攝像頭系統(tǒng)和這些的組合)的運動姿勢檢測系統(tǒng),使用加速計/陀螺儀的運動姿勢檢測、面部識別、3D顯示、頭、眼和注視跟蹤、融入式增強現(xiàn)實和虛擬現(xiàn)實系統(tǒng),以及用于使用電場傳感電極(EEG和相關方法)來感測大腦活動的技術。
      [0107]替換地或此外,本文中描述的功能至少部分地可以由一個或多個硬件邏輯組件來執(zhí)行。舉例而非限制性地,可使用的硬件邏輯組件的示例性類型包括:現(xiàn)場可編程門陣列(FPGA)、程序專用集成電路(ASIC)、程序專用標準產品(ASSP)、片上系統(tǒng)(SOC)、復雜可編程邏輯器件(CPLD)和圖形處理單元(GPU)。
      [0108]術語‘計算機’或‘基于計算的設備’在本文中用于指代具有處理能力以便其可以執(zhí)行指令的任何設備。本領域技術人員將認識到:這樣的處理能力被并入許多不同的設備,并且因此,術語‘計算機’和‘基于計算的設備’分別包括PC、服務器、移動電話(包括智能電話)、平板計算機、機頂盒、媒體播放器、游戲控制臺、個人數(shù)字助理以及大量其它設備。
      [0109]本文中描述的方法可以由有形存儲介質中機器可讀形式的軟件來執(zhí)行,例如,當程序在計算機上運行并且在計算機程序可以在計算機可讀介質上體現(xiàn)的情況下,適用于執(zhí)行本文中描述的方法中的任意方法的所有步驟的包括計算機程序代碼單元的計算機程序的形式。有形存儲介質的示例包括計算機存儲設備,其包括諸如磁盤、拇指驅動器、存儲器等的計算機可讀介質,并且不包括傳播的信號。傳播的信號可以存在于有形存儲介質中,但所傳播的信號本質上不是有形存儲介質的示例。軟件可適用于在串行處理器或并行處理器上執(zhí)行,以便方法步驟可以以任何合適的順序或同時執(zhí)行。
      [0110]這確認了軟件可以是有價值的、可單獨交易的商品。意在包括運行在“啞的”或標準硬件上或控制“啞的”或標準硬件的軟件來執(zhí)行所期望的功能。還意在包括“描述”或限定硬件的配置的軟件(如HDL(硬件描述語言)軟件),用于設計硅芯片,或用于配置通用可編程芯片來執(zhí)行所期望的功能。
      [0111]本領域技術人員將認識到:用于存儲程序指令的存儲設備可以分布在整個網絡中。例如,遠程計算機可以存儲描述為軟件的過程的示例。本地或終端計算機可以訪問遠程計算機,并下載部分或所有軟件來運行程序。或者,本地計算機可以根據(jù)需要來下載軟件,或者執(zhí)行本地終端處的一些軟件指令以及遠程計算機(或計算機網絡)處的一些軟件。本領域技術人員還將認識到:通過使用本領域技術人員已知的傳統(tǒng)技術,軟件指令的所有或部分可以由諸如DSP、可編程邏輯陣列等的專用電路來執(zhí)行。
      [0112]如本領域技術人員將理解的:可以在不失去所尋求的效果的前提下,擴展或改變本文中給出的任何范圍或設備的值。
      [0113]雖然以特定于結構特征和/或方法動作的語言對發(fā)明主題進行了描述,但應當理解的是:所附權利要求書中定義的發(fā)明主題并不一定受限于上述具體特征或動作。而是上述具體特征或動作作為實現(xiàn)權利要求書的示例形式而公開的。
      [0114]將理解的是:上述益處和優(yōu)點可以涉及一個實施例或者可以涉及若干實施例。實施例不局限于解決所述問題中的任何或所有問題的那些實施例或者具有所述益處和優(yōu)點中的任何或所有益處和優(yōu)點的那些實施例。還將理解的是:提及“某個”項目指的是那些項目中的一個或多個。
      [0115]本文中描述的方法的步驟可以用任何合適的次序來執(zhí)行,或者在適當?shù)那闆r下同時執(zhí)行。另外,在不脫離本文中描述的發(fā)明主題的精神和范圍的前提下,可以從這些方法中的任何方法中刪除各個模塊。上述示例中的任何示例的各個方面可以與所描述的其它示例中的任何示例的方面組合,以便在不失去所尋求的效果的前提下形成其它示例。
      [0116]術語‘包括’在本文中用于意指包括方法模塊或所確定的元素,但這些模塊或元素不包括排他性列表和可以包含額外模塊或元素的方法或裝置。
      [0117]將理解的是:上述描述是僅通過示例的方式給出的,并且本領域技術人員可以做出各種修改。上述說明、示例和數(shù)據(jù)提供了對結構和示例性實施例的使用的完整描述。雖然已經在上文中以某種具體程度或參考一個或多個個體實施例對各個實施例進行了描述,但本領域技術人員可以在不脫離本說明書的精神或范圍的前提下對所公開的實施例做出許多改變。
      【主權項】
      1.一種控制基于計算的設備的方法,所述方法包括: 在處理器處接收來自捕捉設備的場景的圖像流; 分析所述圖像流來識別所述捕捉設備的預先確定的范圍內的所述場景中的一個或多個對象,所述預先確定的范圍是所述捕捉設備的視域的子集,所述子集與所述捕捉設備分隔開; 跟蹤一個或多個識別出的對象來識別由所述一個或多個識別出的對象執(zhí)行的一個或多個姿勢;以及 使用所述一個或多個識別出的姿勢來控制所述基于計算的設備。2.根據(jù)權利要求1所述的方法,其中,所述一個或多個識別出的姿勢用于控制在所述基于計算的設備上運行的視頻會議應用。3.根據(jù)權利要求1所述的方法,其中,所述預先確定的范圍是三維量。4.根據(jù)權利要求3所述的方法,其中,所述三維量不是矩形。5.根據(jù)權利要求1所述的方法,其中,所述一個或多個識別出的姿勢用于控制下列兩項或下列兩項中的一項:在所述基于計算的設備上運行的繪圖應用; 在所述基于計算的設備上運行的操作系統(tǒng)。6.根據(jù)權利要求5所述的方法,還包括:接收音頻流;分析所述音頻流來識別一個或多個預先確定的聲音;以及使用所述一個或多個識別出的姿勢和一個或多個識別出的聲音來控制所述繪圖應用。7.根據(jù)權利要求6所述的方法,其中,所述一個或多個預先確定的聲音用于發(fā)起所述繪圖應用中的繪圖。8.根據(jù)權利要求5所述的方法,其中,所述一個或多個對象包括用戶的面部,并且對所述用戶的面部的跟蹤實現(xiàn)對吹氣姿勢的識別。9.根據(jù)權利要求1所述的方法,還包括:確定特定識別出的對象進入所述預先確定的范圍的速度;以及響應于確定進入速度超過第一預先確定的閾值,忽略由所述特定識別出的對象執(zhí)行的任何姿勢,直到所述特定識別出的對象的所述速度下降到第二預先確定的閾值以下為止。10.—種用于處理圖像流的系統(tǒng),所述系統(tǒng)包括:被配置用于以下操作的基于計算的設備: 接收來自捕捉設備的場景的圖像流; 分析所述圖像流來識別所述捕捉設備的預先確定的范圍內的所述場景中的一個或多個對象,所述預先確定的范圍是所述捕捉設備的視域的子集,所述子集與所述捕捉設備分隔開; 跟蹤一個或多個識別出的對象來識別由所述一個或多個識別出的對象執(zhí)行的一個或多個姿勢;以及 使用所述一個或多個識別出的姿勢來控制所述基于計算的設備。
      【文檔編號】G06F3/03GK106062673SQ201580010739
      【公開日】2016年10月26日
      【申請日】2015年2月26日
      【發(fā)明人】H·特貝爾, M·尼爾松, R·瓦芬, J·皮恩丁, A·克里米尼西, I·穆納辛哈
      【申請人】微軟技術許可有限責任公司
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1