專利名稱:深度圖像壓縮的制作方法
深度圖像壓縮背景技術(shù)
來自深度攝像機的深度圖像被越來越多地用于在許多應(yīng)用中檢測場景中的人或 物體,例如,尋找人或動物的身體部位中心的位置,尋找場景中物體的位置,并且被用于其 他目的,如醫(yī)學(xué)圖像分析。深度圖像的處理在計算上通常昂貴又費時。
在諸如增強現(xiàn)實、沉浸式游戲、人機互動等許多應(yīng)用領(lǐng)域中,在諸如深度圖像、彩 色視頻圖像和其他類型圖像等圖像數(shù)據(jù)中尋找人或動物身體部位中心的位置可能是有用 的。在這些應(yīng)用領(lǐng)域中的很多應(yīng)用領(lǐng)域,要實時預(yù)測身體部位中心位置,并且可利用的圖像 數(shù)據(jù)通常是有噪聲的或者是不完整的。在一些情況下,可利用的計算資源可能包括多個圖 形處理單元,這些圖形處理單元可并行操作以提供最快的處理時間。然而,不總是這種情 況。需要在不會明顯影響所得到的身體部位中心位置的準(zhǔn)確性和可用性的情況下減少計算 量。
現(xiàn)有的身體部位位置檢測系統(tǒng)可能包括若干個計算階段。典型地,使用標(biāo)注了的 圖像數(shù)據(jù)來預(yù)先訓(xùn)練檢測系統(tǒng)。
下面描述的實施例不局限于解決已知的深度圖像壓縮系統(tǒng)的任何或全部缺點的 實施方式。發(fā)明內(nèi)容
下面給出本公開文件的概要,以令讀者有一個基本的理解。該概要不是本公開文 件的詳盡總結(jié),并且它也不表明關(guān)鍵/重要的單元,也不限定本公開文件的范圍。其唯一目 的是以簡化的形式提供本公開文件的一組概念,作為稍后給出的更詳細(xì)的描述的序言。
所描述的深度圖像壓縮例如能夠從深度圖像中實時地檢測游戲玩家的身體部位 的中心,或者用于其他應(yīng)用,如增強現(xiàn)實和人機互動。在一實施例中,使用與圖像單元的深 度和該圖像單元的身體部位的概率有關(guān)的概率質(zhì)量,來對具有相關(guān)身體部位概率的深度圖 像進行壓縮。在各種例子中,壓縮深度圖像和概率質(zhì)量圖像能夠加快身體部位中心檢測。在 一些例子中,根據(jù)前景區(qū)域的深度來選擇壓縮比例,而在一些情況下,對不同的圖像區(qū)域使 用不同的比例。在一些例子中,使用聚類的圖像單元的概率質(zhì)量來計算身體部位中心的置 信度。
通過參考以下結(jié)合附圖給出的詳細(xì)描述,將會更容易地認(rèn)識到并更好地理解隨后 的許多特征。
通過參照附圖閱讀以下詳細(xì)說明將會更好地理解本說明,其中
圖1是身體部位中心位置檢測系統(tǒng)的示意圖2是深度攝像機的附近區(qū)域和遠(yuǎn)離深度攝像機的另一區(qū)域的示意圖3是用于快速身體部位中心檢測的圖像壓縮方法的流程圖4是用于快速身體部位中心檢測的使用下采樣的身體部位矢量的方法的流程
圖5是均值漂移處理的示意圖6是均值漂移處理的流程圖7是用于控制計算機游戲的基于攝像機的控制系統(tǒng)的示意圖8是圖像捕獲設(shè)備的不意圖9示出可以實現(xiàn)身體部位位置檢測器的實施例的示例性的基于計算的設(shè)備。
在附圖中相同的附圖標(biāo)記用于表不相同的部分。
具體實施方式
下面結(jié)合附圖提供的詳細(xì)描述意圖作為對所給出的例子的描述,而不意圖代表可 以構(gòu)成或使用所給出的例子的僅有的形式。本描述給出了該例子的功能以及用于構(gòu)成和操 作該例子的步驟序列。然而,可以通過不同的例子實現(xiàn)相同的或等同的功能和序列。
盡管所給出的例子被描述并示出為在計算機游戲系統(tǒng)中實現(xiàn),但是所描述的系統(tǒng) 是作為例子而不是作為限制給出的。如本領(lǐng)域的技術(shù)人員將會意識到的,所給出的例子適 合于在各種不同類型的計算和圖像處理系統(tǒng)中應(yīng)用。這些例子描述了使用身體部位概率信 息。然而,該概率信息可以是關(guān)于其他類別如物體類別的概率信息。
圖1是在計算設(shè)備102實現(xiàn)的身體部位中心位置檢測系統(tǒng)的示意圖。計算設(shè)備102 接收場景的深度圖像,該深度圖像描繪至少一個游戲玩家,或者任何人或動物身體,或者人 或動物身體的一部分。該深度圖像可以是來自深度攝像機或者其他圖像捕獲設(shè)備的深度圖 像流的一部分。該深度圖像與通過其他處理從該深度圖像計算出的身體部位概率相關(guān)聯(lián)。 因此,計算設(shè)備102接收深度和身體部位概率100。該計算設(shè)備使用該信息計算身體部位中 心104的3D位置以及這些3D位置的置信度的度量值。該身體部位中心信息可用于玩家的 骨架跟蹤、用于姿態(tài)檢測或者用于其他目的。
該深度圖像的每個圖像單元可以具有相關(guān)聯(lián)的概率分布,該相關(guān)聯(lián)的概率分布代 表該圖像單元描繪多個指定類別中的各個類別的概率。在一些例子中,所述類別是身體部 位,但是也可以使用其他類別,如物體類別(例如,建筑物、天空、人、咖啡杯)或者其他類別。 例如,該概率分布代表該圖像單元是每個類別的成員的可能性。在一個例子中,有31個或 更多個不同身體部位,但是也可以指定任何數(shù)目的身體部位。身體部位的例子包括但不限 于頭、頸、肩、臂、肘、腕、手、軀干、腿、膝、踝、腳。如圖1中的區(qū)域106所示,該深度圖像 可以被表示為圖像單元的二維陣列108 (在圖1中示出了一部分),其中圖像單元可以是像 素、像素塊或者其他像素組,或者可以是體素、體素組或者高于2維的其他圖像單元。在圖1中所示的例子中,每個圖像單元具有深度值(由符號Z表示)和相關(guān)聯(lián)的概率分布(由符號 p(bi)表示)。如圖1所示,(在一例子中)該概率分布可被認(rèn)為是關(guān)于身體部位的概率的直 方圖110。該直方圖存儲每個身體部位的概率值,其代表特定圖像單元描繪指定身體部位的 概率。
該身體部位概率,如直方圖110或者概率分布的其他表示,是使用用于實現(xiàn)它的 任何適當(dāng)?shù)囊阎幚砀鶕?jù)深度圖像獲得的。例如,該處理取得輸入的深度圖像并且將其分 割為密集的概率性的身體部位標(biāo)記。身體部位的分割被作為逐像素分類的任務(wù)來處理。典 型地使用以數(shù)十萬計的訓(xùn)練圖像來訓(xùn)練深度隨機化決策森林分類器。該分類器使用有區(qū)分力的深度比較圖像特征來產(chǎn)生3D轉(zhuǎn)換不變性,同時保持高計算效率。為了進一步加速,該分類器可以在圖形處理單元上關(guān)于每個像素并行運行。一旦訓(xùn)練好了,該分類器就被用于執(zhí)行逐像素分類,并且產(chǎn)生每個像素的概率分布,其代表該像素描繪多個身體部位中每個部位的概率。
計算設(shè)備102取得深度和身體部位概率100,并且產(chǎn)生身體部位中心的3D位置 104以及置信度信息。在較高的層次上,計算設(shè)備102可以被認(rèn)為是對深度和概率進行聚類,以產(chǎn)生身體部位中心。對深度和身體部位概率100執(zhí)行聚類在計算上是昂貴的,并且因此難以實時地實現(xiàn),尤其是在計算資源有限的情況下(如嵌入式系統(tǒng)或者在沒有圖形處理單元可用時)。本文中描述的例子使用圖像壓縮處理以壓縮深度和身體部位概率100,然后關(guān)于壓縮后的圖像執(zhí)行聚類以產(chǎn)生身體部位中心。該圖像壓縮處理被設(shè)計為減輕身體部位中心檢測的準(zhǔn)確度的損失。為此,該圖像壓縮處理考慮了在本文中稱為概率質(zhì)量的特征。
現(xiàn)在參考圖2更詳細(xì)地解釋概率質(zhì)量,圖2是在深度攝像機附近的區(qū)域200和遠(yuǎn)離深度攝像機的另一區(qū)域202的示意圖。在深度攝像機處的圖像單元204描繪遠(yuǎn)離深度攝像機的場景中的區(qū)域206。所描繪的區(qū)域206的表面積通過深度(或者所描繪的區(qū)域與攝像機的距離)的平方與圖像單元204的表面積相關(guān)聯(lián)。給定身體部位與圖像單元的概率質(zhì)量被定義為概率輸入值(即,該圖像單元描繪該身體部位的概率)乘以在該圖像單元處的深度值的平方。這確保遠(yuǎn)離攝像機的圖像單元與靠近攝像機的圖像單元被賦予相當(dāng)?shù)母怕寿|(zhì)量。更一般來說,概率質(zhì)量與圖像單元的深度以及在給定圖像單元的情況下身體部位的概率相關(guān)聯(lián)。
圖3是對深度圖像進行壓縮的方法的流程圖,該深度圖像在每個圖像單元處具有相關(guān)聯(lián)的身體部位概率信息。首先選擇300下采樣比例。在一些例子中,該比例被自動選擇,并且可被動態(tài)調(diào)節(jié)。在 其他例子中,該比例被預(yù)先配置,而在其他例子中,由用戶基于經(jīng)驗數(shù)據(jù)手動設(shè)置該比例。
在每個圖像單元處針對每個身體部位計算302概率質(zhì)量W。例如,如果有31個身體部位,那么在每個圖像單元處計算31個概率質(zhì)量。如上文所述,可以使用深度和概率信息來計算概率質(zhì)量。
選擇304身體部位并且啟動對輸入數(shù)據(jù)進行下采樣的處理306。根據(jù)下采樣比例從深度圖像中選擇308 —組圖像單元。例如,在深度圖像被表示為圖像單元的二維陣列的情況下,該組圖像單元可以是形成正方形的四個相鄰圖像單元所構(gòu)成的塊。然而,不一定非要使用四個圖像單元構(gòu)成的塊,也可以使用其他尺寸的塊或者其他形狀或區(qū)域。在一些例子中,該組圖像單元可以是三維的或更高維的。
例如通過執(zhí)行用概率質(zhì)量加權(quán)的求和來聚合所選的組中圖像單元的概率值,并且存儲聚合值。還計算并存儲該組的圖像單元的聚合概率質(zhì)量。
選擇另一組圖像單元(例如,2D陣列中的下一個由四個圖像單元構(gòu)成的塊),并且重復(fù)聚合處理,直到處理完312該深度圖像的所有圖像單元。
存儲314針對身體部位下采樣到的輸入數(shù)據(jù)。選擇接下來的身體部位,并且重復(fù)該處理,直到處理完316所有身體部位。這樣,在下采樣到的數(shù)據(jù)的尺寸小于輸入數(shù)據(jù)的情況下對輸入圖像進行壓縮。例如,概率和深度的每個dXd被縮減到一個輸出單元,如矢量 (χ, y, z, w),其中χ, y, ζ是輸入概率的質(zhì)心,w是總的概率質(zhì)量。在使用身體部位概率信息的例子中,輸出單元可被稱為下采樣的身體部位矢量。不一定非要將矢量格式用于輸出單 元;也可以使用其他格式。輸出單元包括概率分布特征,如X,y,Z和概率質(zhì)量W。
可以使用多線程或以任何其他適當(dāng)方式至少部分并行地執(zhí)行圖3的方法。例如, 可以針對每個身體部位并行地執(zhí)行下采樣處理306。此外,下采樣處理本身可以使用并行處理。
通過在輸出單元中保留聚合概率質(zhì)量信息,并且通過在概率值的聚合期間考慮概 率質(zhì)量信息,輸出單元保留了能夠使用聚類確定身體部位中心的信息。然而,與原始輸入數(shù) 據(jù)相比,輸出單元在尺寸上被壓縮,所以聚類處理在計算上較廉價。
該下采樣處理可被認(rèn)為是準(zhǔn)確度與計算時間的折中。產(chǎn)生可使用的結(jié)果的準(zhǔn)確度 水平隨著對象(人或動物身體)離深度攝像機的遠(yuǎn)近而變化。在圖3的步驟300,可以通過適 當(dāng)?shù)剡x擇下采樣比例來考慮這一點。例如,可以根據(jù)深度圖像的前景區(qū)域的深度來選擇下 采樣比例。典型地,前景區(qū)域描繪場景中一個或多個玩家或其他人或動物身體。可以從深 度圖像本身獲得前景區(qū)域的深度。例如,如果玩家離深度攝像機較遠(yuǎn),那么與玩家靠近深度 攝像機的情況相比,需要增加準(zhǔn)確度水平。在使用本文中描述的方法捕獲并處理深度圖像 的連續(xù)流的情況下,可以在游戲或其他系統(tǒng)的操作期間動態(tài)調(diào)節(jié)所述比例。此外,針對深度 圖像的不同區(qū)域可以選擇不同的比例。例如,在多個玩家離深度攝像機深度不同的情況下, 在一例子中,圖3的處理被修改為選擇多個比例并且根據(jù)所述多個比例中的第一比例計算 第一組輸出單元,根據(jù)所述多個比例中的第二比例計算第二組輸出單元。
參考圖4,根據(jù)概率質(zhì)量接收400并過濾402身體部位A的下采樣輸入數(shù)據(jù)。例 如,在被壓縮的身體部位概率質(zhì)量太低的情況下,該過濾去除下采樣的身體部位矢量。對下 采樣輸入數(shù)據(jù)的剩余下采樣身體部位矢量執(zhí)行聚類404,并且被找到的聚類(或多個聚類) 提供身體部位A的中心的3D位置的假設(shè)位置。該概率質(zhì)量可用于指示身體部位A的中心 的3D位置的置信度??梢允褂萌魏晤愋偷木垲愄幚?,非窮舉的例子包括k均值聚類、凝聚 聚類、均值漂移聚類。
在一例子中,使用如現(xiàn)在參照圖5和圖6描述的均值漂移聚類。在圖5中示意性 地示出了均值漂移處理。在500處示出包括身體部位A的深度和概率的下采樣身體部位矢 量。在3D世界空間中,下采樣身體部位矢量504被選擇并移位到新的位置506。為了方便 繪圖,在圖5中將3D世界空間描繪為2D輸出區(qū)域502。移位矢量508表示下采樣身體部 位矢量504如何轉(zhuǎn)換到新的位置506。當(dāng)下采樣身體部位矢量504的相鄰矢量根據(jù)聚類核 (如高斯核)聚合時,基于所述相鄰矢量計算移位矢量。針對輸入500的所有下采樣身體部 位矢量重復(fù)使下采樣身體部位矢量移位的處理,直到移位矢量最小為止。在該處理結(jié)束時, 下采樣身體部位矢量聚類為一個或多個聚類。每個聚類代表身體部位A的中心的一個可能 位置。
現(xiàn)在參照圖6更詳細(xì)地描述均值漂移處理。從身體部位A的下采樣數(shù)據(jù)選擇600 下采樣身體部位矢量。例如,從圖3的處理獲得該下采樣數(shù)據(jù)。如前文所述,該下采樣身體 部位矢量可被認(rèn)為是如前所述的矢量X,Y, ZjW0通過對用核(如高斯核)加權(quán)的相鄰下采樣 身體部位矢量的矢量取平均值602來找到移位矢量。高斯核是在與所選擇的下采樣身體部 位矢量及其相鄰矢量形成的塊有相同尺寸的窗口或區(qū)域內(nèi)的二維高斯函數(shù)??梢允褂萌我?核來用于將矢量聚類。
將下采樣身體部位矢量按其移位矢量進行移位604,并且選擇600下一個下采樣 身體部位矢量。這針對所有下采樣身體部位矢量進行重復(fù)606,直到移位矢量低于閾值。結(jié) 果是下采樣身體部位矢量的一個或多個聚類。該處理輸出608聚類的3D位置,作為該身體 部位的中心的可能3D位置。輸出每個3D位置的置信度信息。通過在該均值漂移處理期間 聚合移動到該聚類中的每個下采樣身體部位矢量的概率質(zhì)量w,通過對移動到該聚類中的 下采樣身體部位矢量的數(shù)目進行計數(shù),或者通過其他處理,獲得聚類的置信度信息??梢葬?對每個身體部位重復(fù)610該處理(即,步驟600至608)??梢圆⑿袌?zhí)行針對每個身體部位的 該處理,但這不是必須的。
可以學(xué)習(xí)本文中描述的方法的各種參數(shù)。例如,在聚類處理中使用的任意核的窗 口尺寸、在該聚類處理中使用高斯核的情況下高斯核的標(biāo)準(zhǔn)偏差、過濾步驟的閾值以及其 他參數(shù)。例如,最初可將所述參數(shù)設(shè)置為默認(rèn)值,并且針對訓(xùn)練數(shù)據(jù)驗證所述參數(shù)。驗證處 理的結(jié)果可被用于調(diào)節(jié)參數(shù)值。
圖7示出用于控制計算機游戲的示例性的基于攝像機的控制系統(tǒng)700??梢栽谠?基于攝像機的控制系統(tǒng)中實現(xiàn)在上文中參照圖2至圖6描述的方法。在該示例性例子中, 圖7示出用戶702正在玩拳擊游戲。在一些例子中,基于攝像機的控制系統(tǒng)700還可用于 但不限于確定身體姿勢,綁定,識別,分析,跟蹤,與目標(biāo)人相關(guān)聯(lián),提供反饋,解釋姿態(tài)和/ 或與目標(biāo)人如用戶702的各個方面相匹配,等等。
基于攝像機的控制系統(tǒng)700包括計算設(shè)備704。圖1的計算設(shè)備102可以與計算 設(shè)備704 —體化。計算設(shè)備704可以是通用計算機、游戲系統(tǒng)或控制臺或者專用的圖像處 理設(shè)備。計算設(shè)備704可以包括硬件部件和/或軟件部件,使得計算設(shè)備704可用于執(zhí)行 應(yīng)用程序,如游戲應(yīng)用程序和/或非游戲應(yīng)用程序。稍后參照圖8和圖9討論計算設(shè)備704 的結(jié)構(gòu)。
基于攝像機的控制系統(tǒng)700還包括捕獲設(shè)備706。捕獲設(shè)備706可以例如是圖像 傳感器或者檢測器,其可被用于在視覺上監(jiān)視一個或多個用戶(如用戶702),使得由所述一 個或多個用戶做出的姿態(tài)可以被捕獲、分析、處理和跟蹤,以在游戲或應(yīng)用程序內(nèi)進行一個 或多個控制或動作,下面對此進行更詳細(xì)的描述。
基于攝像機的控制系統(tǒng)700還可以包括連接到計算設(shè)備704的顯示設(shè)備708。該 顯示設(shè)備可以是電視機、監(jiān)視器、高清電視機(HDTV)等等,其可以向用戶702提供游戲或應(yīng) 用畫面(以及可選地提供音頻)。
在操作中,可以使用捕獲設(shè)備706跟蹤用戶702,從而計算設(shè)備704 (和/或捕獲 設(shè)備706)可以將用戶702的關(guān)節(jié)位置、運動和大小解釋為可被用于影響由計算設(shè)備704執(zhí) 行的應(yīng)用程序的控制。結(jié)果,用戶702可以移動他或她的身體,以控制所執(zhí)行的游戲或應(yīng)用程序。
在圖7的示例性例子中,在計算設(shè)備704上執(zhí)行的應(yīng)用程序是用戶702正在玩的 拳擊游戲。在該例子中,計算設(shè)備704控制顯示設(shè)備708以將拳擊對手的視覺形象提供給 用戶702。計算設(shè)備704還控制顯示裝置708以提供用戶化身的視覺形象,用戶702可以 用他或她的移動來控制該視覺形象。例如,用戶702可以在真實空間中掄出一拳,以使該用 戶化身在游戲空間中掄出一拳。因此,根據(jù)該例子,基于攝像機的控制系統(tǒng)700的計算設(shè)備 704和捕獲設(shè)備706可用于識別和分析用戶702在真實空間中的揮拳動作,使得該揮拳動作可被解釋為對游戲空間中的用戶化身的游戲控制。
此外,一些移動可被解釋為與控制該化身的動作以外的動作相對應(yīng)的控制。例如, 該用戶可以使用移動來進入,退出,打開或關(guān)閉系統(tǒng),暫停,保存游戲,選擇級別、外形或菜 單,觀看高分,與朋友通信等。另外,可以用任何適當(dāng)?shù)姆绞絹硎褂没蚍治鲇脩?02的移動, 以與游戲以外的應(yīng)用程序交互,例如,進入文本,選擇光標(biāo)或菜單項目,控制媒體回放,瀏覽 網(wǎng)站或?qū)Σ僮飨到y(tǒng)或應(yīng)用程序的任何其他可控制的方面進行操作。
現(xiàn)在參考圖8,圖8示出可以在圖7的基于攝像機的控制系統(tǒng)700中使用的捕獲設(shè) 備706的示意圖。在圖8的例子中,捕獲設(shè)備706被配置為捕獲具有深度信息的視頻圖像。 這種捕獲設(shè)備可被稱為深度攝像機。該深度信息可以為深度圖像的形式,該深度圖像包括 深度值,即,與該深度圖像的每個圖像單元相關(guān)聯(lián)的值,該值與深度攝像機和位于該圖像單 元處的項目或物體之間的距離有關(guān)。
可以使用任何適當(dāng)?shù)募夹g(shù)獲得該深度信息,例如,包括傳播時間、結(jié)構(gòu)化的光、立 體圖像等。在一些例子中,捕獲設(shè)備706可以將深度信息組織為“Z層”或者與Z軸垂直的 層,其中Z軸從深度攝像機起沿著深度攝像機的視線延伸。
如圖8中所示,捕獲設(shè)備706包括至少一個成像傳感器800。在圖8中所示的例子 中,成像傳感器800包括被配置為捕獲場景的深度圖像的深度攝像機802。所捕獲的深度圖 像可以包括所捕獲的場景的二維(2-D)區(qū)域,其中該2-D區(qū)域中的每個圖像單元代表深度 值,如所捕獲的場景中的物體到深度攝像機802的長度或距離。
該捕獲設(shè)備還可以包括發(fā)射器804,發(fā)射器804被配置為照射所述場景,使得深度 攝像機802可以探知深度信息。例如,在深度攝像機802是紅外(IR)傳播時間攝像機的 情況下,發(fā)射器804將IR光發(fā)射到該場景上,并且深度攝像機802被配置為檢測從該場景 中的一個或多個目標(biāo)和物體的表面背向散射的光。在一些例子中,可以從發(fā)射器804發(fā)射 脈沖紅外光,使得輸出光脈沖和對應(yīng)的輸入光脈沖之間的時間可被該深度攝像機檢測到, 并且被測量和用于確定從捕獲設(shè)備706到該場景中目標(biāo)或物體上的位置的物理距離。另 外,在一些例子中,可以比較來自發(fā)射器804的輸出光波的相位與深度攝像機802處的輸入 光波的相位,以確定相移。然后該相移可用于確定從捕獲設(shè)備706到目標(biāo)或物體上的位置 的物理距離。在進一步的例子中,傳播時間分析可用于通過利用例如包括快門光脈沖成像 (shuttered light pulse imaging)的各種技術(shù)分析反射光束隨時間變化的強度,以間接確 定從捕獲設(shè)備706到目標(biāo)或物體上的位置的物理距離。
在另一個例子中,捕獲設(shè)備706可以使用結(jié)構(gòu)化的光,以捕獲深度信息。在這種技 術(shù)中,可以使用發(fā)射器804將圖案化的光(例如,顯示為已知圖案的光,如網(wǎng)狀圖案或條狀 圖案)投射在場景上。當(dāng)入射到該場景中的一個或多個目標(biāo)或物體的表面時,該圖案變形。 這種圖案變形可被深度攝像機802捕獲到,然后被分析以確定從捕獲設(shè)備706到該場景中 的目標(biāo)或物體上的位置的物理距離。
在另一個例子中,深度攝像機802可以為兩個或更多個的物理上分開的從不同角 度觀看場景的攝像機的形式,從而可以獲得立體視覺數(shù)據(jù),該數(shù)據(jù)可被解析以產(chǎn)生深度信 息。在此情況下,可以使用發(fā)射器804來照射該場景,或者可以省略發(fā)射器804。
在一些例子中,除了深度攝像機802以外,捕獲設(shè)備706可以包括被稱為RGB攝像 機806的常規(guī)視頻攝像機。RGB攝像機806被配置為在可見光頻率捕獲場景的圖像序列,并且因此可以提供可用于增強深度圖像的圖像。在可選的例子中,可以使用RGB攝像機806 代替深度攝像機802。
圖8中所示的捕獲設(shè)備706還包括至少一個處理器808,處理器808與成像傳感器800 (B卩,圖8的例子中的深度攝像機802和RGB攝像機806)和發(fā)射器804通信。處理器808可以是通用的微處理器,或者專用的信號/圖像處理器。處理器808被配置為執(zhí)行指令以控制成像傳感器800和發(fā)射器804以捕獲深度圖像和/或RGB圖像。處理器808還可以被可選地配置為對這些圖像進行處理,稍后對此進行更詳細(xì)的描述。
在一些例子中,使用該成像傳感器提供輪廓圖像,該輪廓圖像是二維的二值圖像, 用于識別由成像傳感器捕獲的深度圖像和/或RGB圖像的前景和背景區(qū)域??梢栽诔上駛鞲衅魈幒?或處理器808處根據(jù)所捕獲的深度圖像和RGB圖像形成該輪廓圖像??梢允褂帽疚闹忻枋龅姆椒ㄌ幚碓撦喞獔D像以預(yù)測二維關(guān)節(jié)位置。在此情況下,該輪廓圖像可被認(rèn)為是平面化到固定深度的深度圖像。所捕獲的深度圖像可被用于預(yù)測三維關(guān)節(jié)位置,下面對此進行更詳細(xì)的描述。
圖8中所示的捕獲設(shè)備706還包括存儲器810,存儲器810被配置為存儲由處理器 808執(zhí)行的指令、由深度攝像機802或RGB攝像機806捕獲的圖像或圖像幀,或者任何其他適當(dāng)?shù)男畔?、圖像等。在一些例子中,存儲器810可以包括隨機訪問存儲器(RAM)、只讀存儲器(ROM)、高速緩存、閃存、硬盤或者任何其他適當(dāng)?shù)拇鎯Σ考?。存儲?10可以是與處理器 208通信的分開的部件,或者存儲器810可以被整合到處理器808中。
捕獲設(shè)備706還包括與處理器808通信的輸出接口 812,并且被配置為通過通信鏈路向計算設(shè)備704提供數(shù)據(jù)。該通信鏈路可以例如是有線連接(如USB (商標(biāo))、Firewire (火線,商標(biāo))、Ethernet (以太網(wǎng),商標(biāo))等)以及/或者無線連接(如WiFi (商標(biāo))、Bluetooth (藍牙,商標(biāo))等)。在其他例子中,輸出接口 812可以與一個或多個通信網(wǎng)絡(luò)(如因特網(wǎng))接口,并且通過這些網(wǎng)絡(luò)向計算設(shè)備704提供數(shù)據(jù)。
圖9示出可以作為任何形式的計算設(shè)備和/或電子設(shè)備實現(xiàn)的并且可以在其中實現(xiàn)身體部位中心位置 預(yù)測系統(tǒng)的實施例的示例性的基于計算的設(shè)備704的各種部件。
基于計算的設(shè)備704包括一個或多個處理器900,處理器900可以是微處理器、控制器、圖形處理單元、并行處理單元或者用于處理計算機可執(zhí)行指令以控制該設(shè)備的操作從而預(yù)測圖像中的身體部位中心位置的任何其他適當(dāng)類型的處理器。在一些例子中,例如在使用片上系統(tǒng)架構(gòu)的情況下,處理器900可以包括一個或多個固定功能塊(也稱為加速器),該固定功能塊以硬件(而不是軟件或固件)實現(xiàn)身體部位中心位置預(yù)測方法的一部分。
基于計算的設(shè)備704包括一個或多個輸入接口 902,輸入接口 902被配置為接收并處理來自一個或多個設(shè)備的輸入,如用戶輸入設(shè)備(例如,捕獲設(shè)備706、游戲控制器904、 鍵盤906和/或鼠標(biāo)908)。該用戶輸入可用于控制在計算設(shè)備704上執(zhí)行的軟件應(yīng)用程序或游戲。
基于計算的設(shè)備704還包括輸出接口 910,輸出接口 910被配置為將顯示信息輸出到顯示設(shè)備708,顯示設(shè)備708可以與計算設(shè)備704分開或者與計算設(shè)備704 —體化。該顯示信息可以提供圖形用戶界面。在一個例子中,如果顯示設(shè)備708是觸敏顯示設(shè)備,那么它還可以充當(dāng)用戶輸入設(shè)備。該輸出接口可以將數(shù)據(jù)輸出到該顯示設(shè)備以外的設(shè)備,例如,本地連接的打印設(shè)備。
可以使用可被基于計算的設(shè)備704訪問的任何計算機可讀介質(zhì)來提供該計算機 可執(zhí)行指令。計算機可讀介質(zhì)可以包括例如計算機存儲介質(zhì)912,如存儲器和通信介質(zhì)。計 算機可讀介質(zhì)912,如存儲器,包括易失性和非易失性的、可拆卸和不可拆卸的介質(zhì),它可以 由用于存儲諸如計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù)等信息的任何方法或技 術(shù)來實現(xiàn)。計算機存儲介質(zhì)包括但不限于RAM、R0M、EPR0M、EEPR0M、閃存或者其他記憶體技 術(shù),CD-ROM、數(shù)字多功能盤(DVD)或者其他光學(xué)存儲設(shè)備,磁帶盒、磁帶盤、磁盤存儲器或者 其他磁存儲設(shè)備,或者可被用于存儲由計算設(shè)備訪問的信息的任何其他非傳輸介質(zhì)。相反, 通信介質(zhì)可以在經(jīng)調(diào)制的數(shù)據(jù)信號如載波或其他傳輸機制中包含計算機可讀指令、數(shù)據(jù)結(jié) 構(gòu)、程序模塊或其他數(shù)據(jù)。如本文中定義的,計算機存儲介質(zhì)不包括通信介質(zhì)。因此,計算 機存儲介質(zhì)不應(yīng)當(dāng)被理解為傳播的信號本身。盡管計算機存儲介質(zhì)912 (存儲器)被示出 在基于計算的設(shè)備704內(nèi),但是應(yīng)該意識到,存儲設(shè)備可以是分布式的,或者是遠(yuǎn)程設(shè)置的 并且通過網(wǎng)絡(luò)或者其他通信鏈路(例如,使用通信接口 913)來訪問。
可以在計算設(shè)備704中提供平臺軟件,該平臺軟件包括操作系統(tǒng)914或者任何其 他適當(dāng)?shù)钠脚_軟件,以使得能夠在該設(shè)備上執(zhí)行應(yīng)用軟件916。可以在計算設(shè)備704上執(zhí)行 的其他軟件包括身體中心邏輯918 (例如參見圖3至圖6以及上文的描述);身體部位邏輯 920 (其被配置為使身體部位上的概率分布與深度圖像的每個圖像單元相關(guān)聯(lián))。提供數(shù)據(jù) 存儲922以用于存儲數(shù)據(jù),如先前接收到的深度圖像、中間計算結(jié)果、參數(shù)、概率分布、身體 部位標(biāo)記和其他數(shù)據(jù)。
術(shù)語“計算機”在本文中被用于指代具有處理能力從而可以執(zhí)行指令的任何設(shè)備。 本領(lǐng)域的技術(shù)人員將會意識到,這種處理能力可以結(jié)合在許多個不同設(shè)備中,因此術(shù)語“計 算機”包括PC、服務(wù)器、移動電話、個人數(shù)字助理以及許多其他設(shè)備。
本文描述的方法可以通過有形存儲介質(zhì)上的機器可讀形式的軟件來進行,例如以 包括計算機程序代碼部的計算機程序的形式,當(dāng)該程序在計算機上運行時并且在該計算機 程序可以包含在計算機可讀介質(zhì)上的情況下,該計算機程序適于進行本文中描述的任何方 法的所有步驟。有形的(或者非暫時的)存儲介質(zhì)的例子包括包括計算機可讀介質(zhì)在內(nèi)的 計算機存儲介質(zhì),如磁盤、U盤(thumb drive)、內(nèi)存等,并且不包括傳播的信號。該軟件可 適合于在并行處理器或串行處理器上執(zhí)行,使得可以以任何適當(dāng)?shù)捻樞蚧蛘咄瑫r執(zhí)行所述 方法的步驟。
這表明軟件可以是有價值的可單獨買賣的商品。意圖包含在“啞(非智能)”硬件 或標(biāo)準(zhǔn)硬件上運行或者控制該“啞(非智能)”硬件或標(biāo)準(zhǔn)硬件以執(zhí)行所需功能的軟件。還 意圖包含“描述”或定義硬件的配置的軟件,如HDL (硬件描述語言)軟件,其被用于設(shè)計硅 芯片或者用于配置通用可編程芯片以執(zhí)行所需功能。
本領(lǐng)域的技術(shù)人員將會意識到,用于存儲程序指令的存儲設(shè)備可以分布在網(wǎng)絡(luò) 上。例如,遠(yuǎn)程計算機可以存儲被描述為軟件的處理的例子。本地或終端計算機可以訪問該 遠(yuǎn)程計算機并且下載該軟件的一部分或全部以運行該程序。或者,本地計算機可以根據(jù)需 要下載該軟件的多個部分,或者在本地計算機上執(zhí)行一些軟件指令并且在遠(yuǎn)程計算機(或 者計算機網(wǎng)絡(luò))上執(zhí)行一些軟件指令。本領(lǐng)域的技術(shù)人員還將認(rèn)識到,通過利用本領(lǐng)域的技 術(shù)人員已知的傳統(tǒng)技術(shù),所述軟件指令的全部或一部分可以由專用電路來執(zhí)行,如DSP、可 編程邏輯陣列等。
在不喪失所尋求的效果的情況下可以擴展或改變本文中給出的任何范圍或設(shè)備 值,這對技術(shù)人員來說是明顯的。
盡管以結(jié)構(gòu)特征和/或方法動作特有的語言描述了本主題,但是應(yīng)當(dāng)理解,所附 權(quán)利要求中限定的主題不一定局限于上文描述的特定特征或動作。相反,上文描述的特定 特征和動作是作為實現(xiàn)所述權(quán)利要求的示例形式公開的。
應(yīng)當(dāng)理解,上文描述的益處和優(yōu)勢可能涉及一個實施例,也可能涉及幾個實施例。 所述實施例不局限于解決任何或全部所述問題的實施例,也不局限于具有任何或全部所述 益處或和優(yōu)勢的實施例。還應(yīng)該理解,提到“一”項時,是指一個或多個這些項。
本文描述的方法的步驟可以根據(jù)需要以任何適當(dāng)?shù)捻樞蚧蛲瑫r執(zhí)行。另外,在不 偏離本文中描述的主題的精神和范圍的情況下,可以從任何所述方法中刪除個別的塊。在 不喪失所尋求的效果的情況下,上文描述的任何例子的各方面都可以與所描述的任何其他 例子的各方面結(jié)合以形成進一步的例子。
術(shù)語“包括”在本文中被用于表示包括所指出的方法的塊或單元,但是這些塊或單 元不構(gòu)成排他的列表,并且方法和設(shè)備可以包含更多的塊或單元。
應(yīng)當(dāng)理解,以上描述僅是以舉例的方式給出的,并且本領(lǐng)域的技術(shù)人員可以進行 各種修改。以上說明、例子和數(shù)據(jù)提供了示例性實施例的結(jié)構(gòu)和使用的完整描述。盡管上文 以一定程度的具體性或者參考一個或多個個別實施例描述了各個實施例,但是在不偏離本 說明書的精神或范圍的情況下,本領(lǐng)域的技術(shù)人員可以對所公開的實施例進行許多修改。
權(quán)利要求
1.一種用于對包括概率信息的深度圖像進行壓縮的計算機實現(xiàn)的方法,所述方法包括 接收圖像(108),所述圖像(108)包括多個圖像單元,每個圖像單元具有深度值和在多個類別上的概率分布(110),所述概率分布(110)代表所述圖像單元是每個類別的成員的可能性; 針對每個圖像單元,計算(302)每個類別的概率質(zhì)量,所述概率質(zhì)量與所述圖像單元的深度和所述圖像單元的類別概率相關(guān);以及 針對每個類別,至少通過基于所述概率質(zhì)量聚合所述圖像單元,以比接收到的圖像更低的分辨率計算(306)多個輸出單元。
2.根據(jù)權(quán)利要求1所述的方法,每個輸出單元包括下列項中的任意項聚合概率質(zhì)量和概率分布的多個特征;具有概率分布在三維中每一維上的質(zhì)心和聚合概率質(zhì)量的矢量;以及具有身體部位概率分布在至少三維中每一維上的質(zhì)心和聚合概率質(zhì)量的下采樣身體部位矢量。
3.根據(jù)權(quán)利要求1或2所述的方法,所述類別是下列項中的任意項身體部位、物體類另U、前景區(qū)域和背景區(qū)域。
4.根據(jù)上述任一項權(quán)利要求所述的方法,所述聚合包括計算(310)多個圖像單元之和,每個圖像單元用其概率質(zhì)量加權(quán);以及通過聚合所述多個圖像單元的所述概率質(zhì)量來計算聚合概率質(zhì)量。
5.根據(jù)上述任一項權(quán)利要求所述的方法,其中,針對每個類別并行地執(zhí)行所述輸出單元的計算。
6.根據(jù)上述任一項權(quán)利要求所述的方法,包括根據(jù)所述深度圖像的前景區(qū)域的深度來選擇(300)比例,并且根據(jù)所述比例計算所述輸出單元。
7.根據(jù)權(quán)利要求1至5中任一項所述的方法,包括選擇多個比例,并且根據(jù)所述多個比例中的第一比例計算第一組輸出單元,而根據(jù)所述多個比例中的第二比例計算第二組輸出單元。
8.根據(jù)上述任一項權(quán)利要求所述的方法,包括在所述類別是身體部位的情況下,至少部分基于概率質(zhì)量將所選擇的輸出單元聚類(404)以獲得身體部位中心位置;其中,所述聚類包括使用均值漂移處理,在均值漂移處理中,根據(jù)相鄰輸出單元的加權(quán)聚合來將每個輸出單元反復(fù)地移位。
9.根據(jù)權(quán)利要求8所述的方法,包括通過使用在所述均值漂移處理中移位到每個身體部位的聚類的輸出單元的概率質(zhì)量,或者通過對聚類中的輸出單元計數(shù),來計算該身體部位中心位置的置信度。
10.一種壓縮深度圖像的設(shè)備,包括 輸入端,其被配置為接收圖像(108),所述圖像(108)包括多個圖像單元,每個圖像單元具有深度值和在多個類別上的概率分布(110),所述概率分布(110)代表所述圖像單元是每個類別的成員的可能性; 處理器(102),其被配置為針對每個圖像單元,計算每個類別的概率質(zhì)量,所述概率質(zhì)量與所述圖像單元的深度和所述圖像單元的類別概率相關(guān);以及 所述處理器被配置為針對每個類別,通過基于所述概率質(zhì)量聚合所述圖像單元,以比接收到的圖像更低的分辨率計算多個輸出單元 。
全文摘要
本發(fā)明公開了深度圖像壓縮,該深度圖像壓縮例如能夠從深度圖像實時檢測游戲玩家的身體部位中心,或者用于其他應(yīng)用,如增強現(xiàn)實和人機互動。在一實施例中,使用概率質(zhì)量壓縮具有相關(guān)身體部位概率的深度圖像,該概率質(zhì)量與圖像單元的深度和該圖像單元的身體部位的概率相關(guān)聯(lián)。在各種例子中,使用概率質(zhì)量壓縮深度圖像能夠通過對輸出的單元聚類來加快身體部位中心檢測。在一些例子中,根據(jù)前景區(qū)域的深度選擇壓縮比例,而在一些情況下,針對不同的圖像區(qū)域使用不同的比例。在一些例子中,使用聚類的圖象單元的概率質(zhì)量來計算身體部位中心的置信度。
文檔編號G06T1/00GK103020885SQ20121043197
公開日2013年4月3日 申請日期2012年11月1日 優(yōu)先權(quán)日2011年11月1日
發(fā)明者杰米·肖頓, 托比·夏普 申請人:微軟公司