專利名稱:幀間模式關注區(qū)視頻對象分割的制作方法
技術領域:
本發(fā)明涉及視頻對象分割,且更明確地說,涉及用于多媒體應用程序的從視頻序列 中自動分割關注區(qū)(ROI)視頻對象的技術。
背景技術:
自動關注區(qū)(ROI)視頻對象分割可用于各種各樣的利用視頻序列的多媒體應用程序。 ROI對象可稱為視頻幀內(nèi)的"前景"對象,且非ROI區(qū)域可稱為所述視頻幀內(nèi)的"背景" 區(qū)域。ROI對象分割使得能夠從視頻序列的背景中提取所述視頻序列中觀看者可能關注 的選定前景對象。多媒體應用程序可接著優(yōu)先利用從視頻序列分割的ROI對象。ROI對 象的典型實例是人類面部或人體的頭部及肩部區(qū)域。
舉例來說,在視頻監(jiān)視應用程序中,可將從所俘獲的視頻序列分割的ROI對象輸入 到面部數(shù)據(jù)庫系統(tǒng)中。所述面部數(shù)據(jù)庫系統(tǒng)可使用所分割的ROI對象(例如,人類面部) 以準確匹配存儲于數(shù)據(jù)庫內(nèi)的目標面部對象。執(zhí)法機構可利用此ROI對象分割應用程序 來從監(jiān)視視頻序列中識別嫌疑犯。
作為另一實例,在視頻電話(VT)應用程序中,可將從所俘獲的視頻序列分割的ROI 對象輸入到視頻序列編碼器。所述視頻序列編碼器可將更多資源分配給所分割的ROI對 象以用更高質(zhì)量編碼所述ROI對象以供傳輸?shù)浇邮辗?。VT應用程序準許用戶共享視頻 和音頻信息以支持例如視頻會議等應用程序。在VT系統(tǒng)中,用戶可發(fā)送和接收視頻信 息,僅接收視頻信息,或僅發(fā)送視頻信息。接收方通常以從發(fā)送方傳輸視頻信息的形式 觀看所接收的視頻信息。通過優(yōu)先編碼所分割的ROI對象,接收方能夠比視頻序列的非 ROI區(qū)域更清楚地觀看ROI對象。
其它實例包括其中人員播送信息視頻的視頻廣播應用程序,例如現(xiàn)場或預錄新聞或 娛樂廣播。在此類應用程序中,可能需要優(yōu)先編碼對應于演播員(例如新聞記者或訪談 節(jié)目主持人)的面部的ROI對象。
自動ROI對象分割通常集中在運動分析、運動分割和區(qū)分割。在一種情況下,基于 統(tǒng)計模型的對象分割算法將ROI對象概括為基于斑點(blob-based)的統(tǒng)計區(qū)模型和形狀 模型。因此,ROI對象分割問題可轉(zhuǎn)換為模型檢測和追蹤問題。在另一情況下,可基于 來自立體相機設置的兩個視圖之間的差別估計而從視頻幀提取前景對象。又一情況提議
一種ROI對象分割算法,其包括基于區(qū)的分割途徑和基于特征的分割途徑兩者。所述算 法使用區(qū)描述符來表示對象區(qū),所述對象區(qū)相對于運動、顏色和紋理特征來說為同類的, 且在整個視頻序列上對所述對象區(qū)進行追蹤。
發(fā)明內(nèi)容
本發(fā)明針對于用于從視頻序列自動分割關注區(qū)(ROI)視頻對象的技術。ROI對象分 割使得能夠從視頻序列的非ROI或"背景"區(qū)域中提取所述視頻序列的選定ROI或"前 景"對象。ROI對象的實例是人類面部或人體的頭部及肩部區(qū)域。所揭示的技術包括組 合ROI特征檢測、區(qū)分割和背景減除的混合技術。以此方式,所揭示的技術可提供準確 的前景對象生成和從視頻序列提取前景對象的低復雜性提取。
所揭示的技術還包括用于基于面部特征的固有特性(例如對稱位置和形狀特點)而 檢驗在視頻序列的視頻幀內(nèi)所檢測到的面部特征的技術。另外,所揭示的技術包括用于 在視頻序列的視頻幀內(nèi)分離多個個別面部的所檢測到的面部特征的技術。如本文描述的, 多面部分離技術可映射成最大匹配方案問題,其可將計算復雜性從指數(shù)降低到多項式。 以此方式,所述技術提供對視頻序列的幀內(nèi)的每一面部的準確特征檢測。
舉例來說,ROI對象分割系統(tǒng)可實施本文所描述的技術。ROI對象分割系統(tǒng)支持幀 內(nèi)模式分割和幀間模式分割。幀內(nèi)模式分割在不使用ROI對象運動信息的情況下獨立于 視頻序列中的其它幀來處理視頻序列的一個幀。幀間模式分割基于ROI對象的運動信息 而處理視頻序列的幀,所述運動信息指示當前幀與視頻序列的先前幀或后續(xù)幀之間的運 動。ROI對象分割系統(tǒng)可基于一個或一個分割模式?jīng)Q策因素而決定對所接收的幀執(zhí)行幀 內(nèi)模式分割還是幀間模式分割。
所揭示的技術可進一步包括用于在幀內(nèi)模式分割期間通過從整個幀內(nèi)的一組候選區(qū) 中自動選擇視頻幀的位于ROI對象形狀內(nèi)的界定區(qū)而生成前景對象的技術。所揭示的技 術還包括用于在幀間模式分割期間基于背景建模和減除而檢測前景對象內(nèi)的移動區(qū)的技 術。成功檢測移動前景區(qū)可改進幀間模式分割期間的ROI特征檢測的執(zhí)行速度。
在一個實施例中,本發(fā)明提供一種方法,其包含接收視頻序列的視頻幀;識別所 述視頻幀的移動前景區(qū),其表示相對于所述視頻序列中的不同視頻幀的移動;檢測所述 視頻幀的組合前景區(qū)內(nèi)的關注區(qū)(ROI)特征,所述組合前景區(qū)對應于所述移動前景區(qū)和 所述不同視頻幀的前景區(qū);以及基于所述檢測到的ROI特征而近似推得所述視頻幀內(nèi)的 ROI對象的形狀。
在另一實施例中,本發(fā)明提供一種計算機可讀媒體,其包含使可編程處理器執(zhí)行以
下操作的指令接收視頻序列的視頻幀;識別所述視頻幀的移動前景區(qū),其表示相對于 所述視頻序列中的不同視頻幀的移動;檢測所述視頻幀的組合前景區(qū)內(nèi)的關注區(qū)(ROI) 特征,所述組合前景區(qū)對應于所述移動前景區(qū)和所述不同視頻幀的前景區(qū);以及基于所 述檢測到的ROI特征而近似推得所述視頻幀內(nèi)的ROI對象的形狀。
在額外的實施例中,本發(fā)明提供一種包含處理器的系統(tǒng),所述處理器經(jīng)編程以接 收視頻序列的視頻幀;識別所述視頻幀的移動前景區(qū),其表示相對于所述視頻序列中的 不同視頻幀的移動;檢測所述視頻幀的組合前景區(qū)內(nèi)的關注區(qū)(ROI)特征,所述組合前 景區(qū)對應于所述移動前景區(qū)和所述不同視頻幀的前景區(qū);以及基于所述檢測到的ROI特 征而近似推得所述視頻幀內(nèi)的ROI對象的形狀。
本文描述的技術可在硬件、軟件、固件或其任何組合中實施。如果在軟件中實施, 那么所述技術可部分由包含程序代碼的計算機可讀媒體實現(xiàn),所述程序代碼含有在由可 編程處理器(包括單個處理器或任何處理器組合)執(zhí)行時執(zhí)行一種或一種以上本文描述 的方法的指令。
附圖和以下描述中陳述一個或一個以上實施例的細節(jié)。將從描述和附圖以及權利要 求書中容易了解其它特征、目的和優(yōu)點。
圖1是說明實施用于從視頻序列自動分割ROI視頻對象的技術的關注區(qū)(ROI)對 象分割系統(tǒng)的方框圖。
圖2A和2B是說明視頻序列的視頻幀內(nèi)的ROI對象和非ROI區(qū)域的界定的圖。 圖3說明視頻序列的ROI對象內(nèi)所呈現(xiàn)的對象移動/旋轉(zhuǎn)變化和對象形狀變形。 圖4說明視頻序列的ROI對象內(nèi)的人員的面部表情變化。 圖5A是說明來自圖1的ROI對象分割系統(tǒng)的示范性操作的流程圖。 圖5B是更詳細說明來自圖5A的分割模式?jīng)Q策的流程圖。
圖6是說明在對從視頻源所接收的視頻序列的幀執(zhí)行幀內(nèi)模式分割時的ROI對象分 割系統(tǒng)的方框圖。
圖7到13是說明在幀內(nèi)模式分割期間由ROI對象分割系統(tǒng)實施的技術的示范性結(jié)果 的屏幕截圖。
圖14是說明執(zhí)行幀內(nèi)模式分割的ROI對象分割系統(tǒng)的操作的流程圖。 圖15是說明在對從視頻源所接收的視頻序列的幀執(zhí)行幀間模式分割時的ROI對象分 割系統(tǒng)的方框圖。
圖16和17是說明在幀間模式分割期間由ROI對象分割系統(tǒng)實施的技術的示范性結(jié) 果的屏幕截圖。
圖18是說明執(zhí)行幀間模式分割的ROI對象分割系統(tǒng)的操作的流程圖。
具體實施例方式
圖1是說明實施用于從視頻序列自動分割ROI視頻對象的技術的關注區(qū)(ROI)對 象分割系統(tǒng)14的方框圖。ROI對象分割可用于各種各樣的利用視頻序列的多媒體應用程 序,例如視頻電話(VT)應用程序和視頻監(jiān)視應用程序。
舉例來說,在視頻監(jiān)視應用程序中,可將從所俘獲的視頻序列分割的ROI對象輸入 到面部數(shù)據(jù)庫系統(tǒng)中。所述面部數(shù)據(jù)庫系統(tǒng)可使用所分割的ROI對象(例如,人類面部) 以準確匹配存儲于數(shù)據(jù)庫內(nèi)的目標面部對象。
作為另一實例,在VT應用程序中,可將從所俘獲的視頻序列分割的ROI對象輸入 到視頻序列編碼器。所述視頻序列編碼器可將更多資源分配給所分割的ROI對象以用更 高質(zhì)量編碼所述ROI對象以供傳輸?shù)浇邮辗健?br>
其它實例包括其中人員播送信息視頻的視頻廣播應用程序,例如現(xiàn)場或預錄新聞或 娛樂廣播。在此類應用程序中,可能需要優(yōu)先編碼對應于演播員(例如新聞記者或訪談 節(jié)目主持人)的面部的ROI對象。
如圖1所示,系統(tǒng)14從視頻源12接收視頻序列。視頻源12可以是獲得視頻序列的 視頻俘獲裝置(例如相機)或存儲預錄的視頻序列的視頻檔案。系統(tǒng)14自動分割來自所 接收的視頻序列的ROI對象。ROI對象分割系統(tǒng)14在ROI對象分割過程期間將從視頻 源12獲得的視頻序列的視頻幀存儲到視頻存儲器16中。在處理視頻序列的每一幀之后, 系統(tǒng)14將所分割的視頻幀的輸出圖像發(fā)送到多媒體應用程序18。
舉例來說,ROI對象可包含人類面部或人體的頭部及肩部區(qū)域。ROI對象可稱為視 頻幀內(nèi)的"前景"對象,且非ROI區(qū)域可稱為所述視頻幀內(nèi)的"背景"區(qū)域。ROI對象 分割系統(tǒng)14從視頻序列的背景區(qū)域中提取所述視頻序列的幀中多媒體應用程序18的用 戶可能關注的一個或一個以上選定前景對象。多媒體應用程序18可優(yōu)先利用從視頻序列 分割的ROI對象。在一個實施例中,多媒體應用程序18可包含視頻監(jiān)視應用程序,其并 入有面部數(shù)據(jù)庫系統(tǒng)。在另一實施例中,多媒體應用程序18可包含視頻電話(VT)應 用程序,其并入有支持ROI的視頻編碼器-解碼器(CODEC)。
在多媒體應用程序18包含視頻監(jiān)視應用程序的實施例中,可將從所俘獲的視頻序列 分割的ROI對象輸入到面部數(shù)據(jù)庫系統(tǒng)中。在此情況下,視頻源12可以是視頻檔案,其
存儲來自監(jiān)視相機的預錄視頻序列。面部數(shù)據(jù)庫系統(tǒng)可使用所分割的ROI對象(例如, 人類面部)以準確匹配存儲于數(shù)據(jù)庫內(nèi)的目標面部對象。執(zhí)法機構可利用ROI對象分割 系統(tǒng)14連同面部數(shù)據(jù)庫系統(tǒng)以便從監(jiān)視視頻序列中識別嫌疑犯。
在多媒體應用程序18包含VT應用程序的實施例中,可將從所俘獲的視頻序列分割 的ROI對象輸入到支持ROI的視頻編碼器中。VT應用程序準許用戶共享視頻和音頻信 息以支持例如視頻會議等應用程序。在VT系統(tǒng)中,用戶可發(fā)送和接收視頻信息,僅接 收視頻信息,或僅發(fā)送視頻信息。在此情況下,視頻源12可以是獲得視頻序列的視頻俘 獲裝置,例如相機。舉例來說,視頻源12可包含視頻相機,視頻相機包括在能夠參加與 另一通信裝置的視頻電話的通信裝置內(nèi)。
支持ROI的視頻編碼器可駐留在通信裝置內(nèi),所述通信裝置進一步包括恰當?shù)膫鬏敗?接收、調(diào)制解調(diào)器和處理電子元件以支持有線或無線通信。舉例來說,支持ROI的視頻 編碼器可駐留在經(jīng)裝備以與其它終端通信的無線移動終端或有線終端內(nèi)。無線移動終端 的實例包括移動無線電電話、移動個人數(shù)字助理(PDA)、移動計算機或裝備有無線通信 能力和視頻編碼和/或解碼能力的其它移動裝置。舉例來說,支持ROI的視頻編碼器可駐 留在VT應用程序中所使用的所謂的相機電話或視頻電話內(nèi)。有線終端的實例包括桌上 型計算機、視頻電話、網(wǎng)絡器具、機頂盒、交互式電視等。
支持ROI的視頻編碼器可優(yōu)先編碼所分割的ROI對象,所述ROI對象包括在從ROI 對象分割系統(tǒng)14接收的輸出圖像中。舉例來說,支持ROI的視頻編碼器可向視頻幀的 ROI對象分配額外的編碼位且向視頻幀的非ROI區(qū)域分配降低數(shù)目的編碼位。明確地說, 在移動應用程序中,可用于編碼視頻幀的編碼位的量可能較低且根據(jù)無線信道條件而改 變。因此,向ROI對象優(yōu)先分配編碼位可有助于改進ROI對象的視覺質(zhì)量,同時有效符 合適用的位速率要求。因此,通過優(yōu)先編碼ROI對象,接收方能夠比視頻序列的非ROI 區(qū)域更清楚地觀看ROI對象。接著可經(jīng)由有線或無線通信信道將所編碼的視頻幀傳輸?shù)?另一通信裝置。
如上所述,ROI對象分割系統(tǒng)14可實施用于從視頻序列自動分割ROI視頻對象的技 術。所揭示的技術包括組合檢測視頻序列的視頻幀內(nèi)的ROI特征(即,面罩和面部特征)、 將視頻幀分割成多個候選區(qū)和基于所述視頻幀和所述視頻序列的先前視頻幀而執(zhí)行背景 (非ROI)減除的混合技術。以此方式,所揭示的技術可提供準確的前景(ROI)對象生 成和從視頻序列中的幀提取前景對象的低復雜性提取。
所揭示的技術還包括用于基于面部特征的固有特性(例如對稱位置和形狀特點)而
檢驗在視頻序列的視頻幀內(nèi)所檢測到的面部特征的技術。另外,所揭示的技術包括用于 在視頻序列的視頻幀內(nèi)分離多個個別面部的所檢測到的面部特征的技術。如本文描述的, 多面部分離技術可映射成最大匹配方案問題,其可將計算復雜性從指數(shù)降低到多項式。 以此方式,所述技術提供對視頻序列的幀內(nèi)的每一面部的準確特征檢測并降低處理要求。
ROI對象分割系統(tǒng)14支持多個(例如,兩個)分割模式幀內(nèi)模式和幀間模式。幀 內(nèi)模式分割獨立于視頻序列中的其它幀而處理所述視頻序列的一個幀。在此情況下,不 使用ROI對象運動信息。幀內(nèi)模式分割是第一高復雜性分割模式。幀間模式分割是第二 低復雜性分割模式,其基于先前或后續(xù)幀信息而處理視頻序列的幀,且通常是較低復雜 性分割模式。幀間模式分割利用當前幀與視頻序列的一個或一個以上先前幀或后續(xù)幀之 間的ROI對象的運動信息。因此,幀間模式分割是相對低復雜性分割模式。
ROI對象分割系統(tǒng)14可基于一個或一個以上分割模式?jīng)Q策因素而決定對所接收的幀 執(zhí)行幀內(nèi)模式分割還是幀間模式分割。在選擇髙復雜性分割模式時,應用在不參考視頻 幀的運動信息的情況下分割從視頻幀分割ROI對象(即,幀內(nèi)模式分割)。在選擇低復雜 性分割模式時,應用基于視頻幀和視頻序列的不同視頻幀的運動信息而從視頻幀分割 ROI對象。
所揭示的技術進一步包括用于在幀內(nèi)模式分割期間通過從整個幀內(nèi)的一組候選區(qū)中 自動選擇視頻幀的位于ROI對象形狀內(nèi)的界定區(qū)而生成前景對象的技術。所揭示的技術 還包括用于在幀間模式分割期間基于背景建模和減除而檢測前景對象內(nèi)的移動區(qū)的技 術。成功檢測移動前景區(qū)可改進幀間模式分割期間的ROI特征檢測的執(zhí)行速度。背景建 模和減除技術對于噪聲和移動背景區(qū)來說是穩(wěn)固的。所述技術還大致上比采用計算密集 型運動估計操作的移動對象分割途徑更有效。
在幀內(nèi)模式分割的情況下,ROI對象分割系統(tǒng)14首先檢測視頻幀內(nèi)的面罩且接著檢 測所述面罩內(nèi)的面部特征,例如人類眼部和嘴部。系統(tǒng)14接著基于人類面部特征的幾何 特性和形狀特點而執(zhí)行特征檢驗以移除錯誤的面部特征檢測。此后,系統(tǒng)14確定所述幀 是否包括一個以上人員面部并將所檢測到的面部特征分成針對各個面部的群組。基于面 部特征的幾何位置和ROI幾何模型,近似推得ROI對象形狀。舉例來說,ROI幾何模型 可包含人類頭部及肩部幾何模型。
系統(tǒng)14對視頻幀執(zhí)行區(qū)生長以生成一組候選區(qū)。系統(tǒng)14接著通過從整個幀的所述 組候選區(qū)選擇位于所得ROI對象形狀內(nèi)的區(qū)而生成前景對象。系統(tǒng)14接著確定是否存在 一個以上前景對象并將多個前景對象合并在一起以形成輸出圖像的組合前景對象。在合 并所述多個前景對象之后,如果適用的話,系統(tǒng)14將所述分割的幀的輸出圖像發(fā)送到多 媒體應用程序18,例如用于在監(jiān)視應用程序中進行個人身份檢測或在VT應用程序中進 行優(yōu)先編碼。
在幀間模式分割的情況下,ROI對象分割系統(tǒng)14使用背景建模和減除技術以利用視 頻序列的連續(xù)視頻幀的時間相關。以此方式,本文所描述的技術提供增強的效率。系統(tǒng) 14將ROI對象內(nèi)的處于當前幀與先前幀之間的移動像素分類為前景像素。系統(tǒng)14接著 基于所述前景像素而生成移動前景區(qū)。系統(tǒng)14可接著檢測移動前景區(qū)內(nèi)的ROI特征和先 前幀內(nèi)的面罩和面部特征位置。以此方式,系統(tǒng)14降低針對視頻序列的每一幀執(zhí)行區(qū)分 割的計算復雜性。系統(tǒng)14接著將移動前景區(qū)與先前幀的前景對象合并以形成輸出圖像, 且將所述分割的幀的輸出圖像發(fā)送到多媒體應用程序18。
ROI對象分割系統(tǒng)14可在硬件、軟件、固件或其任何組合中實施。舉例來說,ROI 對象分割系統(tǒng)14的各個方面可在一個或一個以上數(shù)字信號處理器(DSP)、微處理器、 專用集成電路(ASIC)、現(xiàn)場可編程邏輯陣列(FPGA)或任何其它等效集成或離散邏輯 電路以及此類組件的任何組合內(nèi)實施。術語"處理器"可大體上指代前述邏輯電路中的 任一者(其為單獨的或結(jié)合其它邏輯電路),且可指代此類處理器中的一者或一者以上。 當在軟件中實施時,歸因于ROI對象分割系統(tǒng)14的功能性可實施為計算機可讀媒體上的 指令,所述計算機可讀媒體例如為隨機存取存儲器(RAM)、只讀存儲器(ROM)、非易 失性隨機存取存儲器(NVRAM)、電可擦除可編程只讀存儲器(EEPROM)、快閃存儲器、 磁性媒體、光學媒體等。執(zhí)行所述指令以支持本發(fā)明中所描述的功能性的一個或一個以 上方面。
圖2A禾口 2B是說明視頻序列的視頻幀22內(nèi)的ROI對象24和非ROI區(qū)域25的界定 的圖。在圖2B的實例中,將ROI對象描繪為頭部及肩部ROI對象24。在其它實施例中, ROI對象可包含矩形ROI對象或可能具有圓形的或不規(guī)則形狀的非矩形ROI對象。ROI 對象24含有視頻幀22中所呈現(xiàn)的人員的面部26。非ROI區(qū)域25 (即,背景)在圖2B 通過陰影突出。
可通過來自圖1的ROI對象分割系統(tǒng)14從視頻序列自動分割ROI對象24。對于VT 應用程序來說,通信裝置可用支持ROI的編碼器優(yōu)先編碼ROI對象24。在此情況下, ROI對象24可包含視頻幀22的含有視頻會議參與者的面部26的部分。其它實例包括優(yōu) 先編碼串流視頻(例如,信息視頻或新聞或娛樂廣播)中播送信息的人員的面部。ROI 對象24的大小、形狀和位置可以是固定的或可調(diào)整的,且可用多種方式界定、描述或調(diào)
整。
ROI對象24準許視頻發(fā)送方強調(diào)所傳輸?shù)囊曨l幀22內(nèi)的個別對象,例如人員的面 部26。相反,ROI對象24準許視頻接收方更清楚地觀看所接收的視頻幀22內(nèi)的所需對 象。在任一情況下,用相對于非ROI區(qū)域25 (例如視頻幀22的背景區(qū))的更高圖像質(zhì) 量編碼ROI對象24內(nèi)的面部26。以此方式,用戶能夠更清楚地觀看面部表情、嘴唇移 動、眼部移動等。在一些實施例中,還可不僅用額外編碼位而且用增強的錯誤檢測和彈 性來編碼ROI對象。
圖3說明視頻序列的ROI對象內(nèi)所呈現(xiàn)的對象移動/旋轉(zhuǎn)和對象形狀變形。明確地說, 圖3的幀0和1中所繪示的人員頭部顯著改變其位置。在圖3的實例中,人員頭部在幀 l中相對于幀0傾斜。圖4說明視頻序列的ROI對象內(nèi)的人員的面部表情變化。明確地 說,幀0和1中所繪示的人員嘴部從大致閉合位置轉(zhuǎn)變?yōu)閺堥_位置。因此,圖3和4表 示視頻序列的ROI對象中的大量移動的情況。
圖5A是說明來自圖1的ROI對象分割系統(tǒng)14的示范性操作的流程圖。ROI對象分 割系統(tǒng)14實施用于從視頻序列自動分割ROI對象的技術。如上所述,ROI對象分割系統(tǒng) 14支持幀內(nèi)模式分割和幀間模式分割兩者以處理視頻序列。
ROI對象分割系統(tǒng)14從視頻源12接收視頻序列的第一幀(30)。 ROI對象分割系統(tǒng) 14對所接收的幀執(zhí)行幀內(nèi)模式分割(32)。幀內(nèi)模式分割獨立于所述視頻序列中的其它 幀而處理視頻序列的當前幀。在幀內(nèi)模式分割的情況下,ROI對象分割系統(tǒng)14不使用 ROI對象運動信息。在執(zhí)行幀內(nèi)模式分割的同時,ROI對象分割系統(tǒng)14將視頻序列的所 接收幀存儲在視頻存儲器16中。ROI對象分割系統(tǒng)14接著將所分割幀的輸出圖像發(fā)送 到多媒體應用程序18 (34)。
ROI對象分割系統(tǒng)14從視頻源12接收視頻序列的下一幀(36)。系統(tǒng)14接著作出 模式?jīng)Q策以確定對所接收幀執(zhí)行幀內(nèi)模式分割還是幀間模式分割(37)。模式?jīng)Q策可基于 一個或一個以上分割模式?jīng)Q策因素。舉例來說,系統(tǒng)14可基于例如以下分割模式?jīng)Q策因 素來決定待對所接收幀執(zhí)行哪種分割模式所接收幀的計算復雜性、所接收幀的所需分 割質(zhì)量、所接收幀與先前幀之間的相似量、所接收幀與先前幀之間的運動活動量、用于 先前幀的分割模式和自從上一幀內(nèi)模式過程以來所分割的幀數(shù)目。在其它實施例中,分 割模式?jīng)Q策可基于額外的分割模式?jīng)Q策因素。
當系統(tǒng)14決定不執(zhí)行幀內(nèi)模式分割(37的否分支)時,ROI對象分割系統(tǒng)14基于 先前幀而對所接收幀執(zhí)行幀間模式分割(38)。在此情況下,ROI對象分割系統(tǒng)14從視
頻序列的先前幀(例如,從視頻存儲器16)檢索運動信息,且使用當前幀與先前幀之間 的ROI對象的運動信息。在執(zhí)行幀間模式分割時,ROI對象分割系統(tǒng)14將視頻序列的所 接收幀存儲在視頻存儲器16中。ROI對象分割系統(tǒng)14接著將所分割幀的輸出圖像發(fā)送 到多媒體應用程序18 (40)。
ROI對象分割系統(tǒng)14繼續(xù)從視頻源12接收視頻序列的幀。當系統(tǒng)14決定執(zhí)行幀間 模式分割(例如37的"是"分支)時,ROI分割系統(tǒng)14再次對所接收幀執(zhí)行幀內(nèi)模式 分割(32)。因此,ROI對象分割系統(tǒng)14對從視頻源12接收的視頻序列的一些幀執(zhí)行幀 內(nèi)模式分割,且對視頻序列的其它幀執(zhí)行幀間模式分割。
圖5B是更詳細說明來自圖5A的分割模式?jīng)Q策(步驟37)的流程圖。ROI對象分割 系統(tǒng)14可基于一個或一個以上分割模式?jīng)Q策因素而作出分割模式?jīng)Q策。系統(tǒng)14可執(zhí)行 圖5中所說明的一個或一個以上步驟以確定待對所接收幀執(zhí)行的分割模式。在一些實施 例中,系統(tǒng)14可單個地執(zhí)行所述步驟,或以任何次序組合一個或一個以上所述步驟。在 其它實施例中,ROI對象分割系統(tǒng)14可在決定對所接收幀執(zhí)行幀內(nèi)模式分割還是幀間模 式分割時考慮額外的分割模式?jīng)Q策因素。
系統(tǒng)14可確定所接收幀的計算復雜性(46)。舉例來說,系統(tǒng)14可檢查所接收的幀 以確定所接收幀中所包括的候選ROI特征的數(shù)目。如果所述幀包括大量ROI特征,那么 所接收幀可能對于幀間模式分割過程來說過于復雜而不能準確地從所述幀分割ROI對 象。因此,系統(tǒng)14可在計算復雜性高于預定水平時決定執(zhí)行幀內(nèi)模式分割,以便處理高 復雜性視頻幀。系統(tǒng)14還可從最終用戶確定所需分割質(zhì)量(48)。舉例來說,如果實施 ROI分割系統(tǒng)14的視頻通信裝置的最終用戶對于所接收的視頻幀請求高于預定水平的分 割質(zhì)量,那么系統(tǒng)14可對所接收幀執(zhí)行幀內(nèi)模式分割。相反,如果最終用戶對于所接收 的視頻幀請求低于預定水平的分割質(zhì)量,那么系統(tǒng)14可對所接收幀執(zhí)行幀間模式分割。
另外,系統(tǒng)14可確定所接收幀與先前幀之間的相似量(50)。舉例來說,系統(tǒng)14可 將所接收幀與先前幀進行比較,以確定所述兩個幀的色彩直方圖之間的相似量是否高于 預定水平。所述兩個幀之間的較大色彩變化可指示場景變化。在此情況下,系統(tǒng)14可執(zhí) 行幀內(nèi)模式分割以便分割所接收幀內(nèi)的潛在新ROI對象。如果色彩直方圖在所述兩個幀 之間保持大致相似,那么系統(tǒng)14可執(zhí)行幀間模式分割。
系統(tǒng)14可確定所接收幀與先前幀之間的運動活動量(52)。舉例來說,系統(tǒng)14可將 所接收幀與先前幀進行比較,以確定ROI對象在所述幀內(nèi)的位置之間的移動量是否高于 預定水平。如果ROI對象在所述兩個幀內(nèi)占據(jù)大致不同區(qū)域或位置,那么系統(tǒng)14可執(zhí)行
幀內(nèi)模式分割。如果ROI對象在所述兩個幀內(nèi)占據(jù)大致相同區(qū)域或位置,那么系統(tǒng)14 可執(zhí)行幀間模式分割。
在以上步驟中,視頻序列的ROI分割過程可包括以任何次序?qū)σ曨l序列的視頻幀執(zhí) 行的任何數(shù)目的幀內(nèi)模式分割和幀間模式分割。舉例來說,可將幀內(nèi)模式分割表示為0, 且可將幀間模式分割表示為1。示范性視頻序列分割中的一組幀的幀內(nèi)模式(0)和幀間 模式狀態(tài)(1)可表示為0011011110。在此情況下,分割模式?jīng)Q策完全基于所接收幀的 或所接收幀與先前幀之間的屬性。
系統(tǒng)14還可基于用于分割先前幀的分割模式而確定待對所接收幀執(zhí)行哪種分割模 式。系統(tǒng)14可確定先前幀是否由幀內(nèi)模式過程分割(54)。如果先前幀由幀內(nèi)模式過程 分割,那么系統(tǒng)14可決定由幀間模式過程分割所接收幀。在此步驟中,視頻序列的ROI 分割過程可包括對視頻序列的視頻幀執(zhí)行的任何數(shù)目的幀內(nèi)模式分割和幀間模式分割, 使得幀間模式分割總是跟隨幀內(nèi)模式分割。示范性視頻序列分割中的一組幀的幀內(nèi)模式 (0)和幀間模式狀態(tài)(1)可表示為0110111101。在此情況下,分割模式?jīng)Q策完全基于 先前幀的分割模式。
另外,系統(tǒng)14可確定自從上一幀內(nèi)模式分割幀以來所分割的幀數(shù)目(56)。舉例來 說,系統(tǒng)14可在周期性基礎上(例如每N個幀)決定執(zhí)行幀內(nèi)模式分割。在一些情況下, 第N個幀可包含第IO個幀。在其它實施例中,N可等于多于或少于IO個幀。在此步驟 中,視頻序列的ROI分割過程可包括對視頻序列的視頻幀執(zhí)行的任何數(shù)目的幀內(nèi)模式分 割和幀間模式分割,使得周期性執(zhí)行幀內(nèi)模式分割。示范性視頻序列分割中的一組幀的 幀內(nèi)模式(0)和幀間模式狀態(tài)(1)可表示為0111011101。在此情況下,分割模式?jīng)Q 策是基于每隔3個幀執(zhí)行幀內(nèi)模式分割。
圖6是說明在對從視頻源12接收的視頻序列的幀執(zhí)行幀內(nèi)模式分割時的ROI對象分 割系統(tǒng)14的方框圖。在此情況下,ROI對象分割系統(tǒng)14獨立于所述視頻序列的其它幀 且在沒有運動信息的情況下處理視頻序列的一個幀。圖7到13是說明在幀內(nèi)模式分割期 間由ROI對象分割系統(tǒng)14實施的技術的示范性結(jié)果的屏幕截圖。
在圖6所說明的實施例中,視頻源12包括色度藍信道(Cb) 60、色度紅信道(Cr) 61和亮度信道(Y) 62。 ROI對象分割系統(tǒng)14實施用以從自視頻源12接收的視頻序列 的視頻幀自動分割ROI對象(例如人類頭部及肩部區(qū)域)的技術。所揭示的技術包括在 幀內(nèi)模式分割期間將基于特征和基于模型的檢測與區(qū)分割組合的混合技術。
ROI對象分割系統(tǒng)14包括面罩檢測器64,其基于從視頻源12的色度藍信道60和色
度紅信道61接收的藍和紅信道色度值而檢測視頻幀內(nèi)的皮膚顏色區(qū)。面罩檢測器64接 著將所檢測到的皮膚顏色區(qū)的像素分類為面部像素。以此方式,面罩檢測器64可通過移 除所接收幀內(nèi)不是面部像素的像素來獲得面罩。在獲得面罩之后,面罩檢測器64使用膨 脹與腐蝕的數(shù)學形態(tài)運算以移除面罩內(nèi)由面部特征(例如眼部和嘴部區(qū))引起的噪聲和 孔。圖7說明對標準"母女"視頻測試序列的幀執(zhí)行的快速面罩檢測的實例。
通常,面罩檢測器64使用皮膚顏色映射,其可通過存在狹窄且相容地分布在YCbCr 色彩空間中的一組特定色度值而識別視頻幀內(nèi)的皮膚顏色區(qū)。皮膚顏色映射對于不同類 型的皮膚顏色來說是穩(wěn)固的。人類種族的皮膚顏色看起來不同的主要原因是皮膚的暗度 或明度。換句話說,皮膚顏色由色彩的明亮度差異表征,明亮度由Y管理而非由Cr或 Cb管理。因此,可僅基于所接收幀的Cr和Cb分量而實現(xiàn)有效的皮膚顏色映射。面罩檢 測器64可利用范圍為Cre[133, 173]且Cbe [77,127]的CbCr皮膚顏色映射來檢測所接收 的視頻幀內(nèi)的皮膚顏色區(qū)。然而,不應將Cr和Cb范圍認為是限制性的,且面罩檢測器 64可利用具有不同Cr和Cb范圍的皮膚顏色映射。
在一些情況下,面罩檢測器64可能不能夠?qū)iT獲得人類面部。如圖7中所說明,所 述幀內(nèi)的母親和女兒的衣服區(qū)看起來具有與皮膚色調(diào)映射所定義的色調(diào)類似的色調(diào)。因 此,面罩檢測器64可能錯誤地將衣服區(qū)選擇作為面罩的一部分。本文所描述的快速面罩 檢測步驟移除所述幀內(nèi)的一些非面部區(qū),但可能需要進一步處理以獲得并檢驗準確的面 部區(qū)。
系統(tǒng)14還包括眼部檢測器66和嘴部檢測器67,其檢測面罩內(nèi)的候選面部特征; 以及特征檢驗模型68,其從候選眼部和嘴部中選擇面部特征。通?;陉P于人類面部和 其特征的常識(例如面部區(qū)的橢圓形狀和面部特征間的整體空間關系限制)而建立面部 過濾器。因此,定位這些面部特征可用于推導視頻幀內(nèi)的恰當面部位置。
眼部檢測器66檢測由面罩檢測器64獲得的面罩內(nèi)的候選眼部特征。眼部檢測器66 基于兩個觀測而檢測候選眼部特征。第一,眼部周圍的色度分量通常含有高Cb值和低 Cr值。因此,眼部檢測器66可基于下文給出的等式(1)而構造所述幀的色度眼部映射。<formula>formula see original document page 16</formula> 3
一旦獲得色度眼部映射,眼部檢測器66便可向所述眼部映射內(nèi)的每一像素的色度 (C)眼部映射值應用閾值,以定位候選眼部在眼部映射內(nèi)的最明亮區(qū)。眼部檢測器66
接著應用形態(tài)運算以將充分接近的最明亮區(qū)合并為單個候選眼部。圖8A說明"母女"視 頻測試序列的幀的色度眼部映射內(nèi)的眼部檢測的實例。
第二,眼部通常在亮度分量中含有黑暗像素和明亮像素兩者。因此,灰階形態(tài)算子 可用于強調(diào)眼部區(qū)周圍的亮度分量中的較明亮和較黑暗像素。眼部檢測器66可基于下文 給出的等式(2)而構造所述幀的亮度眼部映射。
L=, (2)
一旦獲得亮度眼部映射,眼部檢測器66便可向眼部映射內(nèi)的每一像素的亮度(L) 眼部映射值應用閾值,以定位候選眼部在眼部映射內(nèi)的最明亮區(qū)。眼部檢測器66接著應 用形態(tài)運算以將充分接近的最明亮區(qū)合并為單個候選眼部。圖8B說明"母女"視頻測試 序列的幀的色度眼部映射內(nèi)的眼部檢測的實例。
眼部檢測器66將在色度眼部映射(圖8A所示)內(nèi)所檢測到的候選眼部與在亮度眼 部映射(圖8B所示)內(nèi)所檢測到的候選眼部組合,以找到面罩內(nèi)的最終候選眼部。然而, 在一些情況下,最終候選眼部仍可能含有不正確的候選眼部??缮院笤谔卣鳈z驗過程期 間移除這些無關的候選眼部。
嘴部檢測器67檢測面罩檢測器64所獲得的面罩內(nèi)的候選嘴部特征。通常,嘴部區(qū) 的顏色與其它面部區(qū)相比含有較強的紅分量和較弱的藍分量。因此,在嘴部區(qū)中,色度 分量Cr應大于色度分量Cb。然而,嘴部區(qū)在Cr/Cb特征中具有相對較低的響應,但在 C一特征中具有相對較高的響應。嘴部檢測器67可基于下文給出的等式(3)和(4)而 構造所述幀的嘴部映射。
m =o2fo2 —,其中<formula>formula see original document page 17</formula>(3)
<formula>formula see original document page 17</formula> (4)
-旦獲得嘴部映射,嘴部檢測器67便可向嘴部映射內(nèi)的每一像素的嘴部(M)值應
用闞值,以定位候選嘴部在嘴部映射內(nèi)的最明亮區(qū)。嘴部檢測器67接著應用形態(tài)運算以 將充分接近的最明亮區(qū)合并為單個候選嘴部。圖9說明"母女"視頻測試序列的幀的嘴 部映射內(nèi)的嘴部檢測的實例。
特征檢驗模塊68檢驗由眼部檢測器66和嘴部檢測器67在面罩內(nèi)檢測到的候選面部 特征,以從候選眼部和嘴部中選擇正確的面部特征。特征檢驗模塊68確保穩(wěn)固的ROI 特征檢測過程。雖然上文描述的眼部和嘴部映射過程可有效分類眼部區(qū)和嘴部區(qū),但一 些錯誤分類仍可能導致錯誤的面部特征檢測。特征檢驗模塊68執(zhí)行三個檢驗步驟以檢驗 面罩內(nèi)的候選面部特征并移除任何錯誤的面部特征檢測。
第一,在面部形貌方面,觀測到面部特征通常位于"凹谷"區(qū)(即,凹陷區(qū))中, 所述"凹谷"區(qū)由所述區(qū)內(nèi)部的高強度對比度表征。因此,特征檢驗模塊68通過執(zhí)行灰 階接近和膨脹形態(tài)運算來識別所述凹谷區(qū)。特征檢驗模塊68接著將所述幀內(nèi)的候選面部 特征的位置與所述幀內(nèi)的凹谷區(qū)的位置進行比較。如果候選面部特征沒有至少部分地與 所檢測到的凹谷區(qū)的一區(qū)域重疊,那么特征檢驗模塊68將不考慮所述候選面部特征。因 此,為了保留候選面部特征,特征檢驗模塊68需要將所述特征與所識別的凹谷區(qū)中的一 者相互關聯(lián)。圖IOA說明在"母女"視頻序列的幀內(nèi)所識別的凹谷區(qū)。
第二,特征檢驗模塊68基于雙眼的固有特性(例如在所述幀內(nèi)的對稱位置和形狀特 點)而檢驗候選眼部特征。圖10B說明具有各自質(zhì)心O,和02的雙眼的固有特性。舉例 來說,雙眼相對于面部的長軸A而對稱,使得IAO,WA021,雙眼具有相似面積且雙眼具 有相似形狀,其可通過投射到軸OA來進行比較。雙眼還相對于各自PCA (主要成分分 析)軸(PCA,和PCA2)而對稱。另外,通常可在雙眼上方檢測到眉毛。
特征檢驗模塊68可利用加權分值系統(tǒng)來檢驗面罩內(nèi)的候選眼部特征。在此情況下, 特征檢驗模塊68基于雙眼特性而核查許多基準,并為所述基準中的每一者提供分值。舉 例來說,特征檢驗模塊68確定眼部質(zhì)心位置是否在凹谷區(qū)內(nèi)部。接下來,特征檢驗模塊 68確定眼部質(zhì)心和所檢測到的虹膜的位置是否大體接近??赏ㄟ^將眼部中的強度值投射 到橫軸和縱軸上并識別對應于最小累積總強度值的點來找到虹膜位置。特征檢驗模塊68 接著確定是否在眼部上方找到了眉毛。接下來,特征檢驗模塊68確定眼部的PCA軸是 否在合理方向范圍內(nèi),這可通過典型的人類雙眼的經(jīng)驗表征來確定。特征檢驗模塊68接 著確定所述眼部是否在合理距離內(nèi)具有雙眼,這同樣可通過經(jīng)驗表征來確定。接下來, 特征檢驗模塊68確定所述雙眼是否具有基于軸OA的對稱PCA軸。特征檢驗模塊68接 著確定所述雙眼是否具有基于軸OA的對稱形狀。
特征檢驗模塊68累積來自上文描述的每一基準的分值,以便從候選特征中選擇正確 的面部特征且構造視頻幀的面部特征映射??蓪︶槍Ω鞣N個別基準而確定的分值相同地 加權,或不同地加權以強調(diào)一個或一個以上基準優(yōu)于其它基準。特征檢驗模塊68將錯誤 檢測識別為累積分值低于預設閾值的那些候選面部特征。特征檢驗模塊68接著移除這些 經(jīng)檢測為錯誤的候選面部特征。
第三,特征檢驗模塊68檢驗面部特征映射內(nèi)由兩個候選眼部和一個候選嘴部的每種 可能組合得出的眼部-嘴部三角形。特征檢驗模塊68首先檢査眼部-嘴部三角形的幾何形 狀和方位,且不再考慮不合理的眼部-嘴部三角形。被認為不合理的眼部-嘴部三角形是未 大體上匹配典型人類的一系列根據(jù)經(jīng)驗確定的眼部-嘴部三角形幾何形狀的那些眼部-嘴 部三角形。圖IOC說明"母女"視頻序列的幀的面部特征映射內(nèi)的兩個可能的眼部-嘴部 三角形(虛線)。特征檢驗模塊68接著使用模板來檢驗眼部-嘴部三角形區(qū)域的斜度特點。 因為人類面部是三維(3D)對象,所以整個面部區(qū)內(nèi)的亮度往往是不均勻的。合理的眼 部-嘴部三角形區(qū)域應含有鼻子,這使得所述斜度信息比在其它面部區(qū)域(例如下顎)中 更為復雜。通過使用可從眼部-嘴部三角形區(qū)域得到的更具區(qū)別性的斜度信息,特征檢驗 模塊68可為視頻幀中的面部選擇正確的候選眼部和嘴部。
系統(tǒng)14還包括多面部分離模塊70,其將由特征檢驗模塊68所選擇的面部特征分成 針對所述幀內(nèi)的個別面部的群組。在視頻幀中包括一個以上面部的視頻序列(例如所述 母女序列)中,多面部分離模塊70將候選眼部和嘴部組分成對應于不同面部的群組。此 任務的困難有三重。第一,視頻幀內(nèi)所包括的面部總數(shù)目是未知的。第二,可能尚未在 視頻幀中檢測到某些面部特征。第三,徹底核査所有潛在面部特征群組組合具有指數(shù)計 算復雜性。通過將所述問題簡化為將眼部與嘴部配對的任務,可將原有問題映射成圖形 理論問題,所述圖形理論問題具有多項式計算復雜性。所得的計算復雜性降低可能對于 許多應用來說是非常合意的,所述應用包括具有有限功率和處理資源的移動應用和需要 快速且可能需要實時結(jié)果的其它應用。
通過應用圖形理論,多面部分離模塊70考慮兩分圖形GKV,E),其中頂點組V二(嘴 部} + {雙眼}且邊緣組£={( 其中v,和力屬于不同組,且節(jié)點v,與力之間的距離 在合理范圍內(nèi)。如果匹配S被定義為£的子集,使得S中的任何兩個邊緣均不入射到同 一頂點或直接連接的頂點,那么所述問題變成最大匹配方案問題。以此方式,多面部分 離過程是原有最大匹配方案問題的變化形式,因為在原有最大匹配方案問題定義中,對 匹配的限制僅需要S中的任何兩個邊緣均不入射到同一頂點。
重要的是,觀測將多面部分離問題轉(zhuǎn)換為原有最大匹配方案問題的可能性。如果邊 緣組£'={(v,、其中存在w,使得在將邊緣組從£擴展到£ U E'之后定義為 ",vJefi'(Vj,v》efi但0;,.,^)eE,那么所述問題變成原有最大匹配方案問題,不同之處
只是必須包括額外的限制以使得結(jié)果匹配必須是E而非五UE'的子集。因此,多面部分 離模塊70可以多項式時間復雜性解決多面部分離問題。
系統(tǒng)14包括對象形狀近似模塊72,其基于ROI對象幾何模型而為視頻幀內(nèi)的每一 面部近似推得ROI對象形狀。舉例來說,可基于人類頭部及肩部幾何模型而在所述幀內(nèi) 近似推得ROI對象形狀。在特征檢驗模塊68獲得面部的正確眼部-嘴部三角形之后,對 象形狀近似模塊72可基于眼部-嘴部三角形的節(jié)點之間的幾何關系而建立ROI對象形狀, 例如頭部及肩部模型。
為了在幀內(nèi)模式分割期間加快執(zhí)行,對象形狀近似模塊72可使用簡單的矩形模型來 近似推得ROI對象形狀,例如人類頭部及肩部對象形狀。對于在視頻幀中包括一個以上 面部的視頻序列,在多面部分離模塊70將候選眼部和嘴部分成針對不同面部的群組之 后,對象形狀近似模塊72基于單獨的眼部-嘴部三角形而為所述面部的每一者近似推得 ROI對象形狀。舉例來說,對象形狀近似模塊72可為包括在視頻幀內(nèi)的每一面部近似推 得頭部及肩部對象形狀。圖11說明針對"母女"視頻測試序列的幀內(nèi)的每一面部定義的 頭部及肩部對象形狀。
ROI對象分割系統(tǒng)14還包括區(qū)分割模塊74,其對整個幀執(zhí)行分裂與合并區(qū)生長。區(qū) 分割模塊74將原始幀劃分成多個同類候選區(qū)。當執(zhí)行分裂與合并區(qū)生長時,區(qū)分割模塊 74將視頻幀內(nèi)的相鄰像素之間的關系分類到相似類別和相異類別中??苫谒鰠^(qū)中的 平均像素強度值而確定區(qū)相似性。區(qū)分割模塊74接著將所連接的相似像素群集為較小區(qū) 并繼續(xù)合并這些區(qū)以形成最小數(shù)目的候選區(qū)。圖12說明區(qū)生長過程,其中最初將視頻幀 分裂為1195個區(qū),且接著將所述區(qū)合并在一起,直到生成22個候選區(qū)為止。
系統(tǒng)14進一步包括對象生成模塊76,其從整個幀內(nèi)的候選區(qū)自動選擇所述幀的位 于經(jīng)近似推得的ROI對象形狀內(nèi)的區(qū)。可將選定區(qū)認為是前景區(qū),且可將未選區(qū)認為是 背景區(qū)。對象生成模塊76接著基于背景區(qū)而生成前景對象。
對象生成模塊76僅從由區(qū)分割模塊74生成的所述組候選區(qū)中選擇位于由對象形狀 近似模塊72近似推得的ROI對象形狀內(nèi)的區(qū)。如上文描述,ROI對象形狀可包含含有 ROI對象(例如,面部)的矩形區(qū)域,且可基于所述面部的選定眼部-嘴部三角形而估計 ROI對象形狀的大小。以此方式,可在ROI對象形狀內(nèi)而非在整個視頻幀內(nèi)進行進一步
處理。
對象生成模塊76檢査視頻幀內(nèi)由區(qū)分割模塊74生成的候選區(qū)中的每一者,且確定 所述區(qū)是否位于ROI對象形狀內(nèi)。對象生成模塊76可將在ROI對象形狀內(nèi)具有多于預 定義百分比(例如,60%)的全部像素的區(qū)認為是前景區(qū)。對象生成模塊76可接著將視 頻幀內(nèi)的在ROI對象形狀內(nèi)具有少于預定義百分比的全部像素的剩余區(qū)認為是背景區(qū)。 以此方式,對象生成模塊76從視頻幀內(nèi)的前景區(qū)生成前景對象。
最后,系統(tǒng)14包括對象融合模塊78,其將所述幀內(nèi)的多個前景對象合并為最終輸 出圖像。對于包括一個以上前景對象的視頻序列,對象融合模塊78合并前景對象以形成 輸出圖像。圖13說明針對視頻幀內(nèi)的每一面部生成前景對象且通過合并所述兩個前景對 象而生成輸出圖像。ROI對象分割系統(tǒng)14可接著將所分割幀的輸出圖像發(fā)送到多媒體應 用程序18。
圖14是說明執(zhí)行幀內(nèi)模式分割的ROI對象分割系統(tǒng)14的操作的流程圖。本文將參 看圖7所說明的ROI對象分割系統(tǒng)14而描述所述操作。ROI對象分割系統(tǒng)14從視頻源 12接收視頻序列的幀(80)。在幀內(nèi)模式分割的情況下,ROI對象分割系統(tǒng)14獨立于視 頻序列的其它幀且在沒有運動信息的情況下處理視頻序列的所接收幀。
面罩檢測器64基于所述視頻幀內(nèi)所識別的皮膚顏色區(qū)而檢測所接收幀內(nèi)的面罩 (82)。面罩檢測器64接著將所識別的皮膚顏色區(qū)的像素分類為面部像素。以此方式,面 罩檢測器64可通過移除所接收幀內(nèi)不是面部像素的像素而獲得面罩。
眼部檢測器66和嘴部檢測器67接著檢測所述面罩內(nèi)的候選面部特征(84)。眼部檢 測器66可基于面罩內(nèi)的像素的色度值和亮度值而檢測候選眼部特征。嘴部檢測器67可 基于面罩內(nèi)的像素的色度值而檢測候選嘴部特征。特征檢驗模塊68執(zhí)行由眼部檢測器 66和嘴部檢測器67檢測的候選面部特征的檢驗,以選擇正確的面部特征(86)。
ROI對象分割系統(tǒng)14接著確定所接收的視頻幀是否包括一個以上面部(87)。如果 視頻幀確實包括一個以上面部,那么多面部分離模塊70將由特征檢驗模塊68選擇的面 部特征分成針對包括在所述幀中的個別面部的群組(88)。對象形狀近似模塊72接著基 于由特征檢驗模塊68選擇的面部特征所界定的ROI對象幾何模型而為視頻幀內(nèi)的每一面 部近似推得ROI對象形狀(90)。舉例來說,可基于正確的眼部-嘴部三角形的位置而為 所述幀內(nèi)的每一面部近似推得頭部及肩部對象形狀。
區(qū)分割模塊74對整個幀執(zhí)行分裂與合并區(qū)生長(92)。區(qū)分割模塊74將原始幀劃分 為多個同類候選區(qū)。對象生成模塊76接著從整個幀內(nèi)的候選區(qū)中自動選擇所述幀的位于
經(jīng)近似推得的ROI對象形狀內(nèi)的區(qū)??蓪⑦x定區(qū)認為是前景區(qū),且可將未選區(qū)認為是背 景區(qū)。對象生成模塊76接著基于前景區(qū)而生成前景對象(94)。
ROI對象分割系統(tǒng)14確定視頻幀是否包括一個以上前景對象(95)。當視頻幀包括 一個以上前景對象時,對象融合模塊78將所述幀內(nèi)的前景對象合并為最終輸出圖像 (96)。 ROI對象分割系統(tǒng)14接著將所分割幀的輸出圖像發(fā)送到多媒體應用程序18(98)。
圖15是說明在對從視頻源12接收的視頻序列的幀執(zhí)行幀間模式分割時的ROI對象 分割系統(tǒng)14的方框圖。在此情況下,ROI對象分割系統(tǒng)14基于當前幀和存儲在視頻存 儲器16中的視頻序列的先前或后續(xù)幀之間的ROI對象的運動信息而處理所述視頻序列的 幀。圖16和17是說明在幀間模式分割期間由R01對象分割系統(tǒng)14實施的技術的示范性 結(jié)果的屏幕截圖。在一些實施例中,ROI對象分割系統(tǒng)14可基于一個或一個以上分割模 式?jīng)Q策因素而對視頻序列的一些幀執(zhí)行幀內(nèi)模式分割(如圖6到14中描述)且對視頻序 列的其它幀執(zhí)行幀間模式分割(下文描述)。
如上文描述,ROI對象分割系統(tǒng)14實施用以從自視頻源12接收的視頻序列的視頻 幀自動分割ROI對象(例如人類頭部及肩部區(qū)域)的技術。ROI對象分割系統(tǒng)14基于 ROI對象的運動信息而執(zhí)行幀間模式分割。所揭示的技術包括用于基于背景建模和減除 而在前景對象內(nèi)檢測移動區(qū)的技術。成功檢測到移動前景區(qū)可改進幀間模式分割期間的 ROI特征檢測的執(zhí)行速度。
在圖15所說明的實施例中,視頻源12同樣包括色度藍信道(Cb) 100、色度紅信道 (Cr) 101和亮度信道(Y) 102。 ROI對象分割系統(tǒng)14進一步包括在執(zhí)行幀間模式分割 時的背景減除模塊112,如圖15所說明。在此情況下,ROI對象分割系統(tǒng)14還包括在執(zhí) 行幀內(nèi)模式分割時所使用的組件,如圖6所說明。舉例來說,ROI對象分割系統(tǒng)14包括 ROI特征檢測器104,其包含來自圖6的面罩檢測器64、眼部檢測器68和嘴部檢測器67。 另外,ROI對象分割模塊14還包括特征檢驗模塊106、多面部分離模塊108、對象形狀 近似模塊110、區(qū)分割模塊114、對象生成模塊116和對象融合模塊118,其可以與圖6 中的相應組件類似的方式進行操作。
背景減除模塊112與ROI特征檢測器104和區(qū)分割模塊114交互,以支持幀間模式 分割。通過背景減除模塊112,系統(tǒng)14識別視頻幀的移動前景區(qū),移動前景區(qū)表示相對 于視頻序列中的不同視頻幀的移動。明確地說,為了識別移動前景區(qū),背景減除模塊112 將所述視頻幀的ROI對象內(nèi)的像素的第一位置與所述像素在不同視頻幀(例如,所述視 頻序列中的先前幀)內(nèi)的第二位置進行比較。背景減除模塊112接著將尚未從第二位置移動的像素分類為背景像素,且將已從第 二位置移動的像素分類為前景像素?;谒R別的前景像素而識別移動前景區(qū)。系統(tǒng)14 接著檢測所述視頻幀中對應于移動前景區(qū)和先前在不同(例如,先前)視頻幀中所識別 的前景區(qū)的組合前景區(qū)內(nèi)的ROI特征。基于所檢測到的ROI特征,形狀近似模塊110近 似推得所述視頻幀內(nèi)的ROI對象的形狀。
背景減除模塊112利用視頻序列的連續(xù)視頻幀的時間相關。背景減除模塊112對從 視頻源12接收的視頻序列的ROI對象內(nèi)的像素進行逐像素分類過程。以此方式,背景減 除模塊112基于當前幀與從視頻存儲器16檢索的所述視頻序列的先前或后續(xù)幀之間的運 動信息而確定當前幀的哪些像素是背景像素。換句話說,背景減除模塊112使用幀間模 式操作中可用的額外信息來快速且有效地查找前景對象的移動區(qū)。同樣,背景減除模塊 112將當前幀中尚未從其先前位置移動的那些像素分類為背景像素。又,背景減除模塊 112接著將已從其先前位置移動的那些像素分類為前景像素。以此方式,背景減除模塊 112更為有效且具有比基于運動估計的技術低的復雜性。
背景減除模塊112可提供一個或一個以上益處。舉例來說,可將面罩的搜索空間從 整個圖像縮減到移動前景區(qū)加上來自先前幀的面罩區(qū),其可認為是組合前景區(qū)。另外, 面部特征將位于移動前景區(qū)內(nèi)部或位于與在先前幀中相同的位置處。另一可能的益處是 可將連接的移動前景區(qū)視為同類區(qū)。
圖16說明基于"母女"視頻序列的幀之間的像素運動的前景像素分類的實例。在圖 16中,由于從幀8到10的前景對象的移動相當小,所以背景減除模塊112僅將頭部像素 的部分分類為前景像素,而身體像素在前IO個幀期間是靜止的。
為了執(zhí)行逐像素分類過程,背景減除模塊112應用背景模塊。明確地說,背景減除 模塊112采用《個高斯分布的混合來對像素強度建模(例如,K=5),其中根據(jù)其用以 解釋所觀測的背景的頻率來對每一高斯曲線進行加權。因此,前景區(qū)內(nèi)的某一像素在時 間f處具有強度&的概率估計為
^)f'"7i^r , (5)
其中VV,.,是正規(guī)化權數(shù),^和(T,是第/個分布的平均和標準偏差。
隨著每一像素的混合模型的參數(shù)改變,背景減除模塊112確定所述混合的哪些高斯 曲線最有可能是由背景處理生成的?;趩l(fā)式信息,背景減除模塊112選擇具有最具
支持性證據(jù)和最小方差的高斯分布。這是因為基于w/cr的值來對所述K個分布進行排序。 所述模型的這種排序?qū)嶋H上是有序列表,其中最有可能的背景分布保持在頂部,且較不 可能的瞬時背景分布朝向底部下降。背景減除模塊112可基于下文給出的等式(6)而找 出最有可能的分布模型。<formula>formula see original document page 24</formula>
其中閾值r是給予背景的總權數(shù)的分值。
接著,背景減除模塊u2對照現(xiàn)有的/i:個高斯分布來核查新像素,直到找到匹配為 止。背景減除模塊112在分布的平均值與新像素值之間的距離在所述分布的2.5個標準偏 差內(nèi)時找到匹配。如果所述^個分布均不與當前像素值匹配,那么由具有當前新像素值
作為平均值、初始高方差和低先前權數(shù)的新分布代替具有w/a最小值的最不可能分布。 一般來說,新像素值可始終由K個高斯分布的混合模型的主要分量中的一者表示。如果 此匹配的分布是S個背景分布中的一者,那么可將新像素標記為背景。如果不是的話, 將所述像素標記為前景。
為了保持所述混合模型的自適應性,背景減除模塊112持續(xù)使用新的像素值來更新 模型參數(shù)。對于匹配的高斯分布,背景減除模塊112在時間f處用此新像素值X,更新所 有參數(shù)。另外,背景減除模塊112將先前權數(shù)更新為<formula>formula see original document page 24</formula>
且將平均值和方差更新為 <formula>formula see original document page 24</formula>
<formula>formula see original document page 24</formula>
其中a是控制自適應速度的認知速率,lAx定義確定改變的時間常數(shù),且p為與當前 像素相關聯(lián)的可能性,其由認知速率a縮放。因此,p可由下式表示 <formula>formula see original document page 25</formula> (10)
對于不匹配的分布,平均值m和方差ot保持不變,而背景減除模塊U2將先前權數(shù) 更新為
<formula>formula see original document page 25</formula>
此更新方法的一個優(yōu)點在于,當背景減除模塊112允許對象成為背景的一部分時, 原始背景模型未被破壞。換句話說,原始背景分布保持在所述混合中,直到其成為最不 可能的分布且觀測到新色彩為止。因此,如果此靜止對象碰巧再次移動,那么背景減除 模塊112將快速地把先前背景分布重新并入到所述模型中。
一旦背景減除模塊112將移動像素分類為前景像素,區(qū)分割模塊114便可對前景像 素執(zhí)行分裂與合并區(qū)生長,以創(chuàng)建視頻幀的移動前景區(qū)。以此方式,使用經(jīng)分類的前景 像素來合并從區(qū)生長途徑獲得的區(qū),且進而形成前景區(qū)。明確地說,通過用分裂與合并 生長技術來融合從背景減除生成的移動前景區(qū),可獲得前景對象的移動區(qū)。
檢測前景像素和創(chuàng)建移動前景區(qū)可增加幀間模式分割過程的穩(wěn)固性,并加速ROI特 征檢測執(zhí)行??蓪OI特征的搜索局限于組合前景區(qū),組合前景區(qū)包括移動前景區(qū)和 由先前幀的面罩形成的前景區(qū)。圖17說明從"母女"視頻序列的視頻幀的背景區(qū)提取的 移動前景區(qū)。
R0I對象分割系統(tǒng)14可接著使用與用于執(zhí)行上文描述的幀內(nèi)模式分割大致相似的技 術來完成幀間模式分割過程。舉例來說,ROI特征檢測器IOO檢測由移動前景區(qū)和先前 幀內(nèi)的面罩及面部特征位置形成的組合前景區(qū)內(nèi)的面罩以及面部特征。以此方式,背景 減除模塊112降低在整個視頻幀內(nèi)執(zhí)行ROI特征檢測的計算復雜性。對象融合模塊118 接著合并所述前景對象以形成輸出圖像。ROI對象分割模塊14將所分割幀的輸出圖像發(fā) 送到多媒體應用程序18。
在所說明的實施例中,在所述視頻序列期間沒有引入新的面部或面部特征。因此, ROI對象分割系統(tǒng)14可在執(zhí)行幀間模式分割時跳過特征檢驗模塊108和多面部分離模塊 108,如在ROI特征檢測器104與對象形狀近似模塊110之間延伸的虛線指示。明確地說, 如果所檢測到的面部特征位于靠近先前幀中的特征處,這意味著先前幀中的對象不呈現(xiàn) 顯著移動,那么可通過使用對象形狀近似模塊110和對象生成模塊116來快速生成當前
幀的對象,而不需要應用特征檢驗模塊106和多面部分離模塊108的功能。
否則,如果引入新的面部或面部特征,那么應用整個過程,即應用特征檢驗模塊106、 多面部分離模塊108、對象形狀近似模塊IIO和對象生成模塊116。在對象生成模塊116 中,將所連接的移動前景區(qū)視為同類區(qū)。對象融合模塊118合并前景對象以形成輸出圖 像。ROI對象分割系統(tǒng)14將所分割幀的輸出圖像發(fā)送到多媒體應用程序18。
面罩和面部特征檢測器100可能會在幀間模式分割期間在視頻幀內(nèi)檢測到額外的 ROI特征。在此情況下,ROI對象分割系統(tǒng)14可使用特征檢驗模塊106來檢驗新檢測到 的面部特征。另外,系統(tǒng)14可針對視頻幀中所包括的新面部而使用多面部分離模塊108, 接著使用對象形狀近似模塊110和對象生成模塊116。
圖18是說明執(zhí)行幀間模式分割的ROI對象分割系統(tǒng)14的操作的流程圖。本文將參 看圖15中所說明的ROI對象分割系統(tǒng)14來描述所述操作。ROI對象分割系統(tǒng)14從視頻 源12接收視頻序列的幀,且從視頻存儲器16檢索所述視頻序列的先前幀(120)。在幀 間模式分割的情況下,ROI對象分割系統(tǒng)14基于當前幀與所述視頻序列的先前幀之間的 ROI對象的運動信息而處理所述視頻序列的幀。在一些實施例中,ROI對象分割系統(tǒng)14 可替代地或額外地使用指示相對于后續(xù)視頻幀的ROI對象運動的運動信息。
背景減除模塊U2對所接收的視頻幀執(zhí)行背景減除,以將先前幀與當前幀之間的ROI 對象內(nèi)的移動像素分類為前景像素(122)。背景減除模塊112進行逐像素分類過程,以 便確定當前幀的哪些像素已從其在先前幀中的先前位置移動。 一旦背景減除模塊112將 所述移動像素分類為前景像素,區(qū)分割模塊114便可對前景像素執(zhí)行分裂與合并區(qū)生長, 以創(chuàng)建視頻幀的移動前景區(qū)(124)。
ROI對象分割系統(tǒng)14可接著使用與用于執(zhí)行上文描述的幀內(nèi)模式分割大致類似的技 術來完成幀間模式分割過程。ROI特征檢測器104在包括移動前景區(qū)和來自先前幀的面 罩位置兩者的區(qū)內(nèi)(即,在組合前景區(qū)內(nèi))檢測面罩(126)。此外,ROI特征檢測器104 在包括移動前景區(qū)和先前幀內(nèi)的面部特征位置的組合前景區(qū)內(nèi)檢測面部特征(例如,候 選眼部和嘴部)(128)。
如果ROI特征檢測器104所檢測到的面部特征位于靠近在先前幀中檢測到的面部特 征處(130),那么先前幀中的對象不呈現(xiàn)顯著移動。在此情況下,可通過使用對象形狀 近似模塊110 (136)和對象生成模塊116 (138)來快速生成當前幀的對象,而跳過特征 檢驗模塊106 (132)和多面部分離模塊108 (134)的功能。
否則,如果ROI特征檢測器104所檢測到的面部特征不位于靠近在先前幀中檢測到
的面部特征處,那么先前幀中的對象已經(jīng)顯著移動。在此情況下,應用整個過程。明確 地說,特征檢驗模塊106檢驗所檢測到的特征(132),且多面部分離模塊108執(zhí)行面部 分離(134)。接著,應用對象形狀近似模塊110(136),接著應用對象生成模塊116(138)。 在對象生成模塊116中,將所連接的移動前景區(qū)視為同類區(qū)以生成所述對象(138)。對 象融合模塊118接著合并前景對象以形成輸出圖像(140)。 ROI對象分割系統(tǒng)14將所分 割幀的輸出圖像發(fā)送到多媒體應用程序18 (142)。
本文所描述的技術可在硬件、軟件、固件或其任何組合中實施。如果在軟件中實施, 那么所述技術可部分地通過包含程序代碼的計算機可讀媒體實現(xiàn),所述程序代碼含有在 執(zhí)行時執(zhí)行上文描述的一種或一種以上方法的指令。在此情況下,計算機可讀媒體可包 含例如同步動態(tài)隨機存取存儲器(SDRAM)等隨機存取存儲器(RAM)、只讀存儲器 (ROM)、非易失性隨機存取存儲器(NVRAM)、電可擦除可編程只讀存儲器(EEPROM)、 快閃存儲器、磁性或光學數(shù)據(jù)存儲媒體等。
所述程序代碼可由可編程處理器執(zhí)行,所述可編程處理器可由一個或一個以上數(shù)字 信號處理器(DSP)、通用微處理器、專用集成電路(ASIC)、現(xiàn)場可編程邏輯陣列(FPGA) 或者等效集成或離散邏輯電路的其它組合實現(xiàn)。在一些實施例中,本文所描述的功能性 可在經(jīng)配置以用于自動對象分割的專用軟件模塊或硬件單元內(nèi)提供或并入在自動對象分 割系統(tǒng)中。
在本發(fā)明中,已經(jīng)針對從視頻序列自動分割ROI對象而描述了各種技術。ROI對象 分割系統(tǒng)可單獨或組合實施一種或一種以上所揭示的技術,以提供經(jīng)準確分割的ROI對 象以供用于多媒體應用程序,例如VT應用程序、視頻串流應用程序或視頻監(jiān)視應用程 序。
所揭示的技術包括包含ROI特征檢測、區(qū)分割和背景減除的混合技術。所揭示的技 術可包括幀內(nèi)模式和幀間模式對象分割兩者。幀間模式分割通過使用背景建模和減除而 非常規(guī)計算密集型運動估計操作來利用視頻序列的連續(xù)視頻幀的時間相關,以加速ROI 對象分割系統(tǒng)的執(zhí)行。所揭示的技術還包括面部特征檢驗、多面部分離和ROI對象生成 以加速ROI對象分割系統(tǒng)執(zhí)行幀內(nèi)模式分割。這些和其它實施例屬于所附權利要求書的 范圍內(nèi)。
權利要求
1.一種方法,其包含接收視頻序列的視頻幀;識別所述視頻幀的移動前景區(qū),其表示相對于所述視頻序列中的不同視頻幀的移動;檢測所述視頻幀的組合前景區(qū)內(nèi)的關注區(qū)(ROI)特征,所述組合前景區(qū)對應于所述移動前景區(qū)和所述不同視頻幀的前景區(qū);以及基于所述檢測到的ROI特征而估近所述視頻幀內(nèi)的ROI對象的形狀。
2. 根據(jù)權利要求1所述的方法,其進一步包含如果所述視頻幀中的所述檢測到的ROI 特征的位置未大致對應于在所述不同視頻幀中檢測到的其它ROI特征的位置,那么 檢驗所述檢測到的ROI對象以針對所述ROI對象選擇正確的ROI特征。
3. 根據(jù)權利要求1所述的方法,其進一步包含生成識別所述ROI對象的輸出圖像,且 相對于所述視頻幀的非ROI區(qū)來優(yōu)先編碼所述ROI對象。
4. 根據(jù)權利要求1所述的方法,其中所述不同視頻幀是所述視頻序列中的先前視頻幀。
5. 根據(jù)權利要求1所述的方法,其中識別移動前景區(qū)包含將所述視頻幀的所述ROI對象內(nèi)的像素的第一位置與所述不同視頻幀內(nèi)的所述像 素的第二位置進行比較;將尚未從所述第二位置移動的像素分類為背景像素; 將已從所述第二位置移動的像素分類為前景像素;以及 基于所述前景像素來識別所述移動前景區(qū)。
6. 根據(jù)權利要求1所述的方法,其中識別移動前景區(qū)包含在所述視頻幀內(nèi)執(zhí)行背景減 除過程以基于所述視頻幀與所述視頻序列的所述不同視頻幀之間的運動信息來確 定哪些區(qū)是背景區(qū)。
7. 根據(jù)權利要求1所述的方法,其中檢測ROI特征包含基于所述視頻幀內(nèi)的皮膚顏色區(qū)的色度值來檢測所述組合前景區(qū)內(nèi)的面罩; 基于所述檢測到的面罩內(nèi)的像素的色度值和亮度值兩者來檢測所述組合前景區(qū) 內(nèi)的眼部特征;以及基于所述檢測到的面罩內(nèi)的像素的色度值來檢測所述組合前景區(qū)內(nèi)的嘴部特征。
8. 根據(jù)權利要求l所述的方法,其中所述檢測到的ROI特征包含所述組合前景區(qū)內(nèi)的 檢測到的候選面部特征,所述方法進一步包含檢驗所述檢測到的候選面部特征以針 對所述ROI對象選擇正確的面部特征且從所述組候選面部特征中移除錯誤的面部特 征。
9. 根據(jù)權利要求1所述的方法,其中所述組合前景區(qū)包括一個以上ROI對象,所述方 法進一步包含如果所述視頻幀中的所述檢測到的ROI特征的位置未大致對應于在 所述不同視頻幀中檢測到的其它ROI特征的位置,那么將所述檢測到的ROI特征分 成針對所述各個ROI對象的群組,且向所述移動前景區(qū)內(nèi)的所述檢測到的ROI特征 應用最大匹配方案問題。
10. —種計算機可讀媒體,其包含使可編程處理器執(zhí)行以下操作的指令接收視頻序列的視頻幀;識別所述視頻幀的移動前景區(qū),其表示相對于所述視頻序列中的不同視頻幀的移 動;檢測所述視頻幀的組合前景區(qū)內(nèi)的關注區(qū)(ROI)特征,所述組合前景區(qū)對應于 所述移動前景區(qū)和所述不同視頻幀的前景區(qū);以及基于所述檢測到的ROI特征來估近所述視頻幀內(nèi)的ROI對象的形狀。
11. 根據(jù)權利要求10所述的計算機可讀媒體,其進一步包含使所述可編程處理器執(zhí)行 以下操作的指令如果所述視頻幀中的所述檢測到的ROI特征的位置未大致對應于 在所述不同視頻幀中檢測到的其它ROI特征的位置,那么檢驗所述檢測到的ROI 特征以針對所述ROI對象選擇正確的ROI特征。
12. 根據(jù)權利要求10所述的計算機可讀媒體,其中所述指令使所述處理器生成識別所 述ROI對象的輸出圖像,且相對于所述視頻幀的非ROI區(qū)來優(yōu)先編碼所述ROI對 象。
13. 根據(jù)權利要求10所述的計算機可讀媒體,其中所述不同視頻幀是所述視頻序列中 的先前視頻幀。
14. 根據(jù)權利要求10所述的計算機可讀媒體,其中所述指令使所述處理器將所述視頻幀的所述ROI對象內(nèi)的像素的第一位置與所述不同視頻幀內(nèi)的所述像 素的第二位置進行比較;將尚未從所述第二位置移動的像素分類為背景像素; 將已從所述第二位置移動的像素分類為前景像素;且 基于所述前景像素來識別所述移動前景區(qū)。
15. 根據(jù)權利要求10所述的計算機可讀媒體,其中所述指令使所述處理器在所述視頻 幀內(nèi)執(zhí)行背景減除過程以基于所述視頻幀與所述視頻序列的所述不同視頻幀之間 的運動信息來確定哪些區(qū)是背景區(qū),且基于所述背景減除過程來識別所述移動前景 區(qū)。
16. 根據(jù)權利要求10所述的計算機可讀媒體,其中為了檢測ROI特征,所述指令使所述處理器基于所述視頻幀內(nèi)的皮膚顏色區(qū)的色度值來檢測所述組合前景區(qū)內(nèi)的面罩; 基于所述檢測到的面罩內(nèi)的像素的色度值和亮度值兩者來檢測所述組合前景區(qū) 內(nèi)的眼部特征;且基于所述檢測到的面罩內(nèi)的像素的色度值來檢測所述組合前景區(qū)內(nèi)的嘴部特征。
17. 根據(jù)權利要求10所述的計算機可讀媒體,其中所述檢測到的ROI特征包含所述組 合前景區(qū)內(nèi)的檢測到的候選面部特征,且所述指令使所述處理器檢驗所述檢測到的 候選面部特征以針對所述ROI對象選擇正確的面部特征且從所述組候選面部特征中 移除錯誤的面部特征。
18. 根據(jù)權利要求10所述的計算機可讀媒體,其中所述組合前景區(qū)包括一個以上ROI 對象,所述方法進一步包含如果所述視頻幀中的所述檢測到的ROI特征的位置未 大致對應于在所述不同視頻幀中檢測到的其它ROI特征的位置,那么將所述檢測到 的ROI特征分成針對所述各個ROI對象的群組,且向所述移動前景區(qū)內(nèi)的所述檢測 到的ROI特征應用最大匹配方案問題。
19. 一種包含處理器的系統(tǒng),所述處理器經(jīng)編程以接收視頻序列中的視頻幀;識別所述視頻幀的移動前景區(qū),其表示相對于所述視頻序列中的不同視頻幀的移 動;檢測所述視頻幀的組合前景區(qū)內(nèi)的關注區(qū)(ROI)特征,所述組合前景區(qū)對應于 所述移動前景區(qū)和所述不同視頻幀的前景區(qū);以及基于所述檢測到的ROI特征來估近所述視頻幀內(nèi)的ROI對象的形狀。
20. 根據(jù)權利要求19所述的系統(tǒng),其中如果所述視頻幀中的所述檢測到的ROI特征的 位置未大致對應于在所述不同視頻幀中檢測到的其它ROI特征的位置,那么所述處 理器檢驗所述檢測到的ROI特征以針對所述ROI對象選擇正確的ROI特征。
21. 根據(jù)權利要求19所述的系統(tǒng),其中所述處理器生成識別所述ROI對象的輸出圖像, 且相對于所述視頻幀的非ROI區(qū)來優(yōu)先編碼所述ROI對象。
22. 根據(jù)權利要求19所述的系統(tǒng),其中所述不同視頻幀是所述視頻序列中的先前視頻 幀。
23. 根據(jù)權利要求19所述的系統(tǒng),所述處理器將所述視頻幀的所述ROI對象內(nèi)的像素的第一位置與所述不同視頻幀內(nèi)的所述像 素的第二位置進行比較;將尚未從所述第二位置移動的像素分類為背景像素; 將已從所述第二位置移動的像素分類為前景像素;以及 基于所述前景像素來識別所述移動前景區(qū)。
24. 根據(jù)權利要求19所述的系統(tǒng),其中所述處理器在所述視頻幀內(nèi)執(zhí)行背景減除過程 以基于所述視頻幀與所述視頻序列的所述不同視頻幀之間的運動信息來確定哪些 區(qū)是背景區(qū),且基于所述背景減除過程來識別所述移動前景區(qū)。
25. 根據(jù)權利要求19所述的系統(tǒng),其中為了檢測ROI特征,所述處理器基于所述視頻幀內(nèi)的皮膚顏色區(qū)的色度值來檢測所述組合前景區(qū)內(nèi)的面罩; 基于所述檢測到的面罩內(nèi)的像素的色度值和亮度值兩者來檢測所述組合前景區(qū) 內(nèi)的眼部特征且基于所述檢測到的面罩內(nèi)的像素的色度值來檢測所述組合前景區(qū)內(nèi)的嘴部特征。
26. 根據(jù)權利要求19所述的系統(tǒng),其中所述檢測到的ROI特征包含所述組合前景區(qū)內(nèi) 的檢測到的候選面部特征,且所述處理器檢驗所述檢測到的候選面部特征以針對所 述ROI對象選擇正確的面部特征且從所述組候選面部特征中移除錯誤的面部特征。
27. 根據(jù)權利要求19所述的系統(tǒng),其中所述組合前景區(qū)包括一個以上ROI對象,且如 果所述視頻幀中的所述檢測到的ROI特征的位置未大致對應于在所述不同視頻幀中 檢測到的其它ROI特征的位置,那么所述處理器將所述檢測到的ROI特征分成針對 所述各個ROI對象的群組,且向所述移動前景區(qū)內(nèi)的所述檢測到的ROI特征應用最 大匹配方案問題。
全文摘要
本發(fā)明針對用于從視頻序列自動分割關注區(qū)(ROI)視頻對象的技術。ROI對象分割使得能夠從視頻序列的非ROI或“背景”區(qū)域中提取所述視頻序列中觀看者可能關注的選定ROI或“前景”對象。ROI對象的實例是人類面部或人體的頭部及肩部區(qū)域。所揭示的技術包括組合ROI特征檢測、區(qū)分割和背景減除的混合技術。所述ROI檢測使用所述幀中的對應于移動前景區(qū)和所述視頻序列中的先前視頻幀的前景區(qū)的組合前景區(qū)。以此方式,所述揭示的技術可生成準確的前景對象和從所述視頻序列中對所述前景對象實施低復雜性提取。ROI對象分割系統(tǒng)可實施本文所描述的技術。另外,ROI對象分割可用于各種各樣的利用視頻序列的多媒體應用程序,例如視頻電話應用程序和視頻監(jiān)視應用程序。
文檔編號G06K9/32GK101375607SQ200780003841
公開日2009年2月25日 申請日期2007年2月7日 優(yōu)先權日2006年2月7日
發(fā)明者哈立德·希勒米·厄勒-馬列, 王浩宏 申請人:高通股份有限公司