專利名稱:多模式關(guān)注區(qū)視頻對(duì)象分割的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及視頻對(duì)象分割,且更明確地說(shuō),涉及用于多媒體應(yīng)用程序的從視頻序列
中自動(dòng)分割關(guān)注區(qū)(ROI)視頻對(duì)象的技術(shù)。
背景技術(shù):
自動(dòng)關(guān)注區(qū)(ROI)視頻對(duì)象分割可用于各種各樣的利用視頻序列的多媒體應(yīng)用程序。 ROI對(duì)象可稱為視頻幀內(nèi)的"前景"對(duì)象,且非ROI區(qū)域可稱為所述視頻幀內(nèi)的"背景" 區(qū)域。ROI對(duì)象分割使得能夠從視頻序列的背景中提取所述視頻序列中觀看者可能關(guān)注 的選定前景對(duì)象。多媒體應(yīng)用程序可接著優(yōu)先利用從視頻序列分割的ROI對(duì)象。ROI對(duì) 象的典型實(shí)例是人類面部或人體的頭部及肩部區(qū)域。
舉例來(lái)說(shuō),在視頻監(jiān)視應(yīng)用程序中,可將從所俘獲的視頻序列分割的ROI對(duì)象輸入 到面部數(shù)據(jù)庫(kù)系統(tǒng)中。所述面部數(shù)據(jù)庫(kù)系統(tǒng)可使用所分割的ROI對(duì)象(例如,人類面部) 以準(zhǔn)確匹配存儲(chǔ)于數(shù)據(jù)庫(kù)內(nèi)的目標(biāo)面部對(duì)象。執(zhí)法機(jī)構(gòu)可利用此ROI對(duì)象分割應(yīng)用程序 來(lái)從監(jiān)視視頻序列中識(shí)別嫌疑犯。
作為另一實(shí)例,在視頻電話(VT)應(yīng)用程序中,可將從所俘獲的視頻序列分割的ROI 對(duì)象輸入到視頻序列編碼器。所述視頻序列編碼器可將更多資源分配給所分割的ROI對(duì) 象以用更高質(zhì)量編碼所述ROI對(duì)象以供傳輸?shù)浇邮辗?。VT應(yīng)用程序準(zhǔn)許用戶共享視頻 和音頻信息以支持例如視頻會(huì)議等應(yīng)用程序。在VT系統(tǒng)中,用戶可發(fā)送和接收視頻信 息,僅接收視頻信息,或僅發(fā)送視頻信息。接收方通常以從發(fā)送方傳輸視頻信息的形式 觀看所接收的視頻信息。通過(guò)優(yōu)先編碼所分割的ROI對(duì)象,接收方能夠比視頻序列的非 ROI區(qū)域更清楚地觀看ROI對(duì)象。
其它實(shí)例包括其中人員播送信息視頻的視頻廣播應(yīng)用程序,例如現(xiàn)場(chǎng)或預(yù)錄新聞或 娛樂(lè)廣播。在此類應(yīng)用程序中,可能需要優(yōu)先編碼對(duì)應(yīng)于演播員(例如新聞?dòng)浾呋蛟L談 節(jié)目主持人)的面部的ROI對(duì)象。
常規(guī)上,自動(dòng)ROI對(duì)象分割集中在運(yùn)動(dòng)分析、運(yùn)動(dòng)分割和區(qū)分割。在一種情況下, 基于統(tǒng)計(jì)模型的對(duì)象分割算法將ROI對(duì)象概括為基于斑點(diǎn)(blob-based)的統(tǒng)計(jì)區(qū)模型和 形狀模型。因此,ROI對(duì)象分割問(wèn)題可轉(zhuǎn)換為模型檢測(cè)和追蹤問(wèn)題。在另一情況下,可 基于來(lái)自立體相機(jī)設(shè)置的兩個(gè)視圖之間的差別估計(jì)而從視頻幀提取前景對(duì)象。又一情況
提議一種ROI對(duì)象分割算法,其包括基于區(qū)的分割途徑和基于特征的分割途徑兩者。所 述算法使用區(qū)描述符來(lái)表示對(duì)象區(qū),所述對(duì)象區(qū)相對(duì)于運(yùn)動(dòng)、顏色和紋理特征來(lái)說(shuō)為同 類的,且在整個(gè)視頻序列上對(duì)所述對(duì)象區(qū)進(jìn)行追蹤。
發(fā)明內(nèi)容
本發(fā)明針對(duì)于用于從視頻序列自動(dòng)分割關(guān)注區(qū)(ROI)視頻對(duì)象的技術(shù)。ROI對(duì)象分 割使得能夠從視頻序列的非ROI或"背景"區(qū)域中提取所述視頻序列的選定ROI或"前 景"對(duì)象。ROI對(duì)象的實(shí)例是人類面部或人體的頭部及肩部區(qū)域。所揭示的技術(shù)包括組 合ROI特征檢測(cè)、區(qū)分割和背景減除的混合技術(shù)。以此方式,所揭示的技術(shù)可提供準(zhǔn)確 的前景對(duì)象生成和從視頻序列提取前景對(duì)象的低復(fù)雜性提取。
所揭示的技術(shù)還包括用于基于面部特征的固有特性(例如對(duì)稱位置和形狀特點(diǎn))而 檢驗(yàn)在視頻序列的視頻幀內(nèi)所檢測(cè)到的面部特征的技術(shù)。另外,所揭示的技術(shù)包括用于 在視頻序列的視頻幀內(nèi)分離多個(gè)個(gè)別面部的所檢測(cè)到的面部特征的技術(shù)。如本文描述的, 多面部分離技術(shù)可映射成最大匹配圖形理論問(wèn)題,其可將計(jì)算復(fù)雜性從指數(shù)降低到多項(xiàng) 式。以此方式,所述技術(shù)提供對(duì)視頻序列的幀內(nèi)的每一面部的準(zhǔn)確特征檢測(cè)。
舉例來(lái)說(shuō),ROI對(duì)象分割系統(tǒng)可實(shí)施本文所描述的技術(shù)。ROI對(duì)象分割系統(tǒng)支持幀 內(nèi)模式分割和幀間模式分割。幀內(nèi)模式分割是高復(fù)雜性分割模式,其在不使用ROI對(duì)象 運(yùn)動(dòng)信息的情況下獨(dú)立于視頻序列中的其它幀來(lái)處理視頻序列的幀。幀間模式分割是低 復(fù)雜性分割模式,其基于ROI對(duì)象的運(yùn)動(dòng)信息而處理視頻序列的幀,所述運(yùn)動(dòng)信息指示 當(dāng)前幀與視頻序列的先前幀或后續(xù)幀之間的運(yùn)動(dòng)。ROI對(duì)象分割系統(tǒng)可支持多模式分割。 明確地說(shuō),所述ROI對(duì)象分割系統(tǒng)可基于一個(gè)或一個(gè)分割模式?jīng)Q策因素而決定對(duì)所接收 的幀執(zhí)行幀內(nèi)模式分割還是幀間模式分割,所述分割模式?jīng)Q策因素指示需要高復(fù)雜性分 割還是低復(fù)雜性分割。
所揭示的技術(shù)可進(jìn)一步包括用于在幀內(nèi)模式分割期間通過(guò)從整個(gè)幀內(nèi)的一組候選區(qū) 中自動(dòng)選擇視頻幀的位于ROI對(duì)象形狀內(nèi)的界定區(qū)而生成前景對(duì)象的技術(shù)。所揭示的技 術(shù)還包括用于在幀間模式分割期間基于背景建模和減除而檢測(cè)前景對(duì)象內(nèi)的移動(dòng)區(qū)的技 術(shù)。成功檢測(cè)移動(dòng)前景區(qū)可改進(jìn)幀間模式分割期間的ROI特征檢測(cè)的執(zhí)行速度。
在一個(gè)實(shí)施例中,本發(fā)明提供一種方法,其包含接收視頻序列的視頻幀;以及向 所述視頻幀應(yīng)用一個(gè)或一個(gè)以上分割模式?jīng)Q策因素。所述方法還包含當(dāng)所述一個(gè)或一 個(gè)以上分割模式?jīng)Q策因素選擇高復(fù)雜性分割模式時(shí),在不參考所述視頻幀的運(yùn)動(dòng)信息的
情況下從所述視頻幀分割ROI對(duì)象;以及當(dāng)所述一個(gè)或一個(gè)以上分割模式?jīng)Q策因素選擇
低復(fù)雜性分割模式時(shí),基于所述視頻幀和所述視頻序列的不同視頻幀的運(yùn)動(dòng)信息而從所 述視頻幀分割ROI對(duì)象。
在另一實(shí)施例中,本發(fā)明提供一種計(jì)算機(jī)可讀媒體,其包含使可編程處理器執(zhí)行以 下操作的指令接收視頻序列的視頻幀;以及向所述視頻幀應(yīng)用一個(gè)或一個(gè)以上分割模 式?jīng)Q策因素。所述指令還使可編程處理器執(zhí)行以下操作當(dāng)所述一個(gè)或一個(gè)以上分割模 式?jīng)Q策因素選擇高復(fù)雜性分割模式時(shí),在不參考所述視頻幀的運(yùn)動(dòng)信息的情況下從所述 視頻幀分割ROI對(duì)象;以及當(dāng)所述一個(gè)或一個(gè)以上分割模式?jīng)Q策因素選擇低復(fù)雜性分割 模式時(shí),基于所述視頻幀和所述視頻序列的不同視頻幀的運(yùn)動(dòng)信息而從所述視頻幀分割 ROI對(duì)象。
在另一實(shí)施例中,提供一種包括處理器的視頻編碼裝置,所述處理器經(jīng)編程以執(zhí)行
以下操作向視頻序列的視頻幀應(yīng)用一個(gè)或一個(gè)以上分割模式?jīng)Q策因素以選擇高復(fù)雜性 分割模式或低復(fù)雜性分割模式;當(dāng)選擇高復(fù)雜性分割模式時(shí),在不參考所述視頻幀的運(yùn) 動(dòng)信息的情況下從所述視頻幀分割關(guān)注區(qū)(ROI)對(duì)象;以及當(dāng)選擇低復(fù)雜性分割模式時(shí), 基于所述視頻幀和所述視頻序列的不同視頻幀的運(yùn)動(dòng)信息而從所述視頻幀分割R OI對(duì) 象。
本文描述的技術(shù)可在硬件、軟件、固件或其任何組合中實(shí)施。如果在軟件中實(shí)施, 那么所述技術(shù)可部分地由包含程序代碼的計(jì)算機(jī)可讀媒體實(shí)現(xiàn),所述程序代碼含有在由 可編程處理器執(zhí)行時(shí)執(zhí)行一種或一種以上本文描述的方法的指令。
附圖和以下描述中陳述一個(gè)或一個(gè)以上實(shí)施例的細(xì)節(jié)。將從描述和附圖以及權(quán)利要 求書(shū)中容易了解其它特征、目的和優(yōu)點(diǎn)。
圖1是說(shuō)明實(shí)施用于從視頻序列自動(dòng)分割ROI視頻對(duì)象的技術(shù)的關(guān)注區(qū)(ROI)對(duì) 象分割系統(tǒng)的方框圖。
圖2A和2B是說(shuō)明視頻序列的視頻幀內(nèi)的ROI對(duì)象和非ROI區(qū)域的界定的圖。
圖3說(shuō)明視頻序列的ROI對(duì)象內(nèi)所呈現(xiàn)的對(duì)象移動(dòng)/旋轉(zhuǎn)變化和對(duì)象形狀變形。
圖4說(shuō)明視頻序列的ROI對(duì)象內(nèi)的人員的面部表情變化。
圖5A是說(shuō)明來(lái)自圖1的ROI對(duì)象分割系統(tǒng)的示范性操作的流程圖。
圖5B是更詳細(xì)說(shuō)明來(lái)自圖5A的分割模式?jīng)Q策的流程圖。
圖6是說(shuō)明在對(duì)從視頻源所接收的視頻序列的幀執(zhí)行幀內(nèi)模式分割時(shí)的ROI對(duì)象分 割系統(tǒng)的方框圖。
圖7到13是說(shuō)明在幀內(nèi)模式分割期間由ROI對(duì)象分割系統(tǒng)實(shí)施的技術(shù)的示范性結(jié)果 的屏幕截圖。
圖14是說(shuō)明執(zhí)行幀內(nèi)模式分割的ROI對(duì)象分割系統(tǒng)的操作的流程圖。 圖15是說(shuō)明在對(duì)從視頻源所接收的視頻序列的幀執(zhí)行幀間模式分割時(shí)的ROI對(duì)象分 割系統(tǒng)的方框圖。
圖16和n是說(shuō)明在幀間模式分割期間由ROI對(duì)象分割系統(tǒng)實(shí)施的技術(shù)的示范性結(jié) 果的屏幕截圖。
圖18是說(shuō)明執(zhí)行幀間模式分割的ROI對(duì)象分割系統(tǒng)的操作的流程圖。
具體實(shí)施例方式
圖1是說(shuō)明實(shí)施用于從視頻序列自動(dòng)分割ROI視頻對(duì)象的技術(shù)的關(guān)注區(qū)(ROI)對(duì) 象分割系統(tǒng)14的方框圖。ROI對(duì)象分割可用于各種各樣的利用視頻序列的多媒體應(yīng)用程 序,例如視頻電話(VT)應(yīng)用程序和視頻監(jiān)視應(yīng)用程序。
舉例來(lái)說(shuō),在視頻監(jiān)視應(yīng)用程序中,可將從所俘獲的視頻序列分割的ROI對(duì)象輸入 到面部數(shù)據(jù)庫(kù)系統(tǒng)中。所述面部數(shù)據(jù)庫(kù)系統(tǒng)可使用所分割的ROI對(duì)象(例如,人類面部) 以準(zhǔn)確匹配存儲(chǔ)于數(shù)據(jù)庫(kù)內(nèi)的目標(biāo)面部對(duì)象。
作為另一實(shí)例,在VT應(yīng)用程序中,可將從所俘獲的視頻序列分割的ROI對(duì)象輸入 到視頻序列編碼器。所述視頻序列編碼器可將更多資源分配給所分割的ROI對(duì)象以用更 高質(zhì)量編碼所述ROI對(duì)象以供傳輸?shù)浇邮辗健?br>
其它實(shí)例包括其中人員播送信息視頻的視頻廣播應(yīng)用程序,例如現(xiàn)場(chǎng)或預(yù)錄新聞或 娛樂(lè)廣播。在此類應(yīng)用程序中,可能需要優(yōu)先編碼對(duì)應(yīng)于演播員(例如新聞?dòng)浾呋蛟L談 節(jié)目主持人)的面部的ROI對(duì)象。
如圖1所示,系統(tǒng)14從視頻源12接收視頻序列。視頻源12可以是獲得視頻序列的 視頻俘獲裝置(例如相機(jī))或存儲(chǔ)預(yù)錄的視頻序列的視頻檔案。系統(tǒng)14自動(dòng)分割來(lái)自所 接收的視頻序列的ROI對(duì)象。ROI對(duì)象分割系統(tǒng)14在ROI對(duì)象分割過(guò)程期間將從視頻 源12獲得的視頻序列的視頻幀存儲(chǔ)到視頻存儲(chǔ)器16中。在處理視頻序列的每一幀之后, 系統(tǒng)14將所分割的視頻幀的輸出圖像發(fā)送到多媒體應(yīng)用程序18。
舉例來(lái)說(shuō),ROI對(duì)象可包含人類面部或人體的頭部及肩部區(qū)域。ROI對(duì)象可稱為視 頻幀內(nèi)的"前景"對(duì)象,且非ROI區(qū)域可稱為所述視頻幀內(nèi)的"背景"區(qū)域。ROI對(duì)象 分割系統(tǒng)14從視頻序列的背景區(qū)域中提取所述視頻序列的幀中多媒體應(yīng)用程序18的用 戶可能關(guān)注的一個(gè)或一個(gè)以上選定前景對(duì)象。多媒體應(yīng)用程序18可優(yōu)先利用從視頻序列
分割的ROI對(duì)象。在一個(gè)實(shí)施例中,多媒體應(yīng)用程序18可包含視頻監(jiān)視應(yīng)用程序,其并 入有面部數(shù)據(jù)庫(kù)系統(tǒng)。在另一實(shí)施例中,多媒體應(yīng)用程序18可包含視頻電話(VT)應(yīng) 用程序,其并入有支持ROI的視頻編碼器-解碼器(CODEC)。
在多媒體應(yīng)用程序18包含視頻監(jiān)視應(yīng)用程序的實(shí)施例中,可將從所俘獲的視頻序列 分割的ROI對(duì)象輸入到面部數(shù)據(jù)庫(kù)系統(tǒng)中。在此情況下,視頻源12可以是視頻檔案,其 存儲(chǔ)來(lái)自監(jiān)視相機(jī)的預(yù)錄視頻序列。面部數(shù)據(jù)庫(kù)系統(tǒng)可使用所分割的ROI對(duì)象(例如, 人類面部)以準(zhǔn)確匹配存儲(chǔ)于數(shù)據(jù)庫(kù)內(nèi)的目標(biāo)面部對(duì)象。執(zhí)法機(jī)構(gòu)可利用ROI對(duì)象分割 系統(tǒng)14連同面部數(shù)據(jù)庫(kù)系統(tǒng)以便從監(jiān)視視頻序列中識(shí)別嫌疑犯。
在多媒體應(yīng)用程序18包含VT應(yīng)用程序的實(shí)施例中,可將從所俘獲的視頻序列分割 的ROI對(duì)象輸入到支持ROI的視頻編碼器中。VT應(yīng)用程序準(zhǔn)許用戶共享視頻和音頻信 息以支持例如視頻會(huì)議等應(yīng)用程序。在VT系統(tǒng)中,用戶可發(fā)送和接收視頻信息,僅接 收視頻信息,或僅發(fā)送視頻信息。在此情況下,視頻源12可以是獲得視頻序列的視頻俘 獲裝置,例如相機(jī)。舉例來(lái)說(shuō),視頻源12可包含視頻相機(jī),視頻相機(jī)包括在能夠參加與 另一通信裝置的視頻電話的通信裝置內(nèi)。
支持ROI的視頻編碼器可駐留在通信裝置內(nèi),所述通信裝置進(jìn)一步包括恰當(dāng)?shù)膫鬏敗?接收、調(diào)制解調(diào)器和處理電子元件以支持有線或無(wú)線通信。舉例來(lái)說(shuō),支持ROI的視頻 編碼器可駐留在經(jīng)裝備以與其它終端通信的無(wú)線移動(dòng)終端或有線終端內(nèi)。無(wú)線移動(dòng)終端 的實(shí)例包括移動(dòng)無(wú)線電電話、移動(dòng)個(gè)人數(shù)字助理(PDA)、移動(dòng)計(jì)算機(jī)或裝備有無(wú)線通信 能力和視頻編碼和/或解碼能力的其它移動(dòng)裝置。舉例來(lái)說(shuō),支持ROI的視頻編碼器可駐 留在VT應(yīng)用程序中所使用的所謂的相機(jī)電話或視頻電話內(nèi)。有線終端的實(shí)例包括桌上 型計(jì)算機(jī)、視頻電話、網(wǎng)絡(luò)器具、機(jī)頂盒、交互式電視等。
支持ROI的視頻編碼器可優(yōu)先編碼所分割的ROI對(duì)象,所述ROI對(duì)象包括在從ROI 對(duì)象分割系統(tǒng)14接收的輸出圖像中。舉例來(lái)說(shuō),支持ROI的視頻編碼器可向視頻幀的 ROI對(duì)象分配額外的編碼位且向視頻幀的非ROI區(qū)域分配降低數(shù)目的編碼位。明確地說(shuō), 在移動(dòng)應(yīng)用程序中,可用于編碼視頻幀的編碼位的量可能較低且根據(jù)無(wú)線信道條件而改 變。因此,向ROI對(duì)象優(yōu)先分配編碼位可有助于改進(jìn)ROI對(duì)象的視覺(jué)質(zhì)量,同時(shí)有效符 合適用的位速率要求。因此,通過(guò)優(yōu)先編碼ROI對(duì)象,接收方能夠比視頻序列的非ROI 區(qū)域更清楚地觀看ROI對(duì)象。接著可經(jīng)由有線或無(wú)線通信信道將所編碼的視頻幀傳輸?shù)?另一通信裝置。
如上所述,ROI對(duì)象分割系統(tǒng)14可實(shí)施用于從視頻序列自動(dòng)分割ROI視頻對(duì)象的技
術(shù)。所揭示的技術(shù)包括組合檢測(cè)視頻序列的視頻幀內(nèi)的ROI特征(g卩,面罩和面部特征)、 將視頻幀分割成多個(gè)候選區(qū)和基于所述視頻幀和所述視頻序列的先前視頻幀而執(zhí)行背景 (非ROI)減除的混合技術(shù)。以此方式,所揭示的技術(shù)可提供準(zhǔn)確的前景(ROI)對(duì)象生 成和從視頻序列中的幀提取前景對(duì)象的低復(fù)雜性提取。
所揭示的技術(shù)還包括用于基于面部特征的固有特性(例如對(duì)稱位置和形狀特點(diǎn))而 檢驗(yàn)在視頻序列的視頻幀內(nèi)所檢測(cè)到的面部特征的技術(shù)。另外,所揭示的技術(shù)包括用于 在視頻序列的視頻幀內(nèi)分離多個(gè)個(gè)別面部的所檢測(cè)到的面部特征的技術(shù)。如本文描述的, 多面部分離技術(shù)可映射成最大匹配方案問(wèn)題,其可將計(jì)算復(fù)雜性從指數(shù)降低到多項(xiàng)式。 以此方式,所述技術(shù)提供對(duì)視頻序列的幀內(nèi)的每一面部的準(zhǔn)確特征檢測(cè)并降低處理要求。
ROI對(duì)象分割系統(tǒng)14支持多個(gè)(例如,兩個(gè))分割模式幀內(nèi)模式和幀間模式。幀 內(nèi)模式分割獨(dú)立于視頻序列中的其它幀而處理所述視頻序列的一個(gè)幀。在此情況下,不 使用ROI對(duì)象運(yùn)動(dòng)信息。幀內(nèi)模式分割是第一高復(fù)雜性分割模式。幀間模式分割是第二 低復(fù)雜性分割模式,其基于先前或后續(xù)幀信息而處理視頻序列的幀,且通常是較低復(fù)雜 性分割模式。幀間模式分割利用當(dāng)前幀與視頻序列的一個(gè)或一個(gè)以上先前幀或后續(xù)幀之 間的ROI對(duì)象的運(yùn)動(dòng)信息。因此,幀間模式分割是相對(duì)低復(fù)雜性分割模式。
ROI對(duì)象分割系統(tǒng)14可基于一個(gè)或一個(gè)以上分割模式?jīng)Q策因素而決定對(duì)所接收的幀 執(zhí)行幀內(nèi)模式分割還是幀間模式分割。在選擇高復(fù)雜性分割模式時(shí),應(yīng)用在不參考視頻 幀的運(yùn)動(dòng)信息的情況下分割從視頻幀分割ROI對(duì)象(即,幀內(nèi)模式分割)。在選擇低復(fù)雜 性分割模式時(shí),應(yīng)用基于視頻幀和視頻序列的不同視頻幀的運(yùn)動(dòng)信息而從視頻幀分割 ROI對(duì)象。
所揭示的技術(shù)進(jìn)一步包括用于在幀內(nèi)模式分割期間通過(guò)從整個(gè)幀內(nèi)的一組候選區(qū)中 自動(dòng)選擇視頻幀的位于ROI對(duì)象形狀內(nèi)的界定區(qū)而生成前景對(duì)象的技術(shù)。所揭示的技術(shù) 還包括用于在幀間模式分割期間基于背景建模和減除而檢測(cè)前景對(duì)象內(nèi)的移動(dòng)區(qū)的技 術(shù)。成功檢測(cè)移動(dòng)前景區(qū)可改進(jìn)幀間模式分割期間的ROI特征檢測(cè)的執(zhí)行速度。背景建 模和減除技術(shù)對(duì)于噪聲和移動(dòng)背景區(qū)來(lái)說(shuō)是穩(wěn)固的。所述技術(shù)還大致上比采用計(jì)算密集 型運(yùn)動(dòng)估計(jì)操作的移動(dòng)對(duì)象分割途徑更有效。
在幀內(nèi)模式分割的情況下,ROI對(duì)象分割系統(tǒng)14首先檢測(cè)視頻幀內(nèi)的面罩且接著檢 測(cè)所述面罩內(nèi)的面部特征,例如人類眼部和嘴部。系統(tǒng)14接著基于人類面部特征的幾何 特性和形狀特點(diǎn)而執(zhí)行特征檢驗(yàn)以移除錯(cuò)誤的面部特征檢測(cè)。此后,系統(tǒng)14確定所述幀 是否包括一個(gè)以上人員面部并將所檢測(cè)到的面部特征分離到用于各個(gè)面部的群組中?;?br>
于面部特征的幾何位置和ROI幾何模型,近似推得ROI對(duì)象形狀。舉例來(lái)說(shuō),ROI幾何 模型可包含人類頭部及肩部幾何模型。
系統(tǒng)14對(duì)視頻幀執(zhí)行區(qū)生長(zhǎng)以生成一組候選區(qū)。系統(tǒng)14接著通過(guò)從整個(gè)幀的所述 組候選區(qū)選擇位于所得ROI對(duì)象形狀內(nèi)的區(qū)而生成前景對(duì)象。系統(tǒng)14接著確定是否存在 一個(gè)以上前景對(duì)象并將多個(gè)前景對(duì)象合并在一起以形成輸出圖像的組合前景對(duì)象。在合 并所述多個(gè)前景對(duì)象之后,如果適用的話,系統(tǒng)14將所述分割的幀的輸出圖像發(fā)送到多 媒體應(yīng)用程序18,例如用于在監(jiān)視應(yīng)用程序中進(jìn)行個(gè)人身份檢測(cè)或在VT應(yīng)用程序中進(jìn) 行優(yōu)先編碼。
在幀間模式分割的情況下,ROI對(duì)象分割系統(tǒng)14使用背景建模和減除技術(shù)以利用視 頻序列的連續(xù)視頻幀的時(shí)間相關(guān)。以此方式,本文所描述的技術(shù)提供增強(qiáng)的效率。系統(tǒng) 14將ROI對(duì)象內(nèi)的處于當(dāng)前幀與先前幀之間的移動(dòng)像素分類為前景像素。系統(tǒng)14接著 基于所述前景像素而生成移動(dòng)前景區(qū)。系統(tǒng)14可接著檢測(cè)移動(dòng)前景區(qū)內(nèi)的ROI特征和先 前幀內(nèi)的面罩和面部特征位置。以此方式,系統(tǒng)14降低針對(duì)視頻序列的每一幀執(zhí)行區(qū)分 割的計(jì)算復(fù)雜性。系統(tǒng)14接著將移動(dòng)前景區(qū)與先前幀的前景對(duì)象合并以形成輸出圖像, 且將所述分割的幀的輸出圖像發(fā)送到多媒體應(yīng)用程序18。
ROI對(duì)象分割系統(tǒng)14可在硬件、軟件、固件或其任何組合中實(shí)施。舉例來(lái)說(shuō),ROI 對(duì)象分割系統(tǒng)14的各個(gè)方面可在一個(gè)或一個(gè)以上數(shù)字信號(hào)處理器(DSP)、微處理器、 專用集成電路(ASIC)、現(xiàn)場(chǎng)可編程邏輯陣列(FPGA)或任何其它等效集成或離散邏輯 電路以及此類組件的任何組合內(nèi)實(shí)施。術(shù)語(yǔ)"處理器"可大體上指代前述邏輯電路中的 任一者(其為單獨(dú)的或結(jié)合其它邏輯電路),且可指代此類處理器中的一者或一者以上。 當(dāng)在軟件中實(shí)施時(shí),歸因于ROI對(duì)象分割系統(tǒng)14的功能性可實(shí)施為計(jì)算機(jī)可讀媒體上的 指令,所述計(jì)算機(jī)可讀媒體例如為隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、非易 失性隨機(jī)存取存儲(chǔ)器(NVRAM)、電可擦除可編程只讀存儲(chǔ)器(EEPROM)、快閃存儲(chǔ)器、 磁性媒體、光學(xué)媒體等。執(zhí)行所述指令以支持本發(fā)明中所描述的功能性的一個(gè)或一個(gè)以 上方面。
圖2A和2B是說(shuō)明視頻序列的視頻幀22內(nèi)的ROI對(duì)象24和非ROI區(qū)域25的界定 的圖。在圖2B的實(shí)例中,將ROI對(duì)象描繪為頭部及肩部ROI對(duì)象24。在其它實(shí)施例中, ROI對(duì)象可包含矩形ROI對(duì)象或可能具有圓形的或不規(guī)則形狀的非矩形ROI對(duì)象。ROI 對(duì)象24含有視頻幀22中所呈現(xiàn)的人員的面部26。非ROI區(qū)域25 (即,背景)在圖2B 通過(guò)陰影突出。
可通過(guò)來(lái)自圖1的ROI對(duì)象分割系統(tǒng)14從視頻序列自動(dòng)分割ROI對(duì)象24。對(duì)于VT 應(yīng)用程序來(lái)說(shuō),通信裝置可用支持ROI的編碼器優(yōu)先編碼ROI對(duì)象24。在此情況下, ROI對(duì)象24可包含視頻幀22的含有視頻會(huì)議參與者的面部26的部分。其它實(shí)例包括優(yōu) 先編碼串流視頻(例如,信息視頻或新聞或娛樂(lè)廣播)中播送信息的人員的面部。ROI 對(duì)象24的大小、形狀和位置可以是固定的或可調(diào)整的,且可用多種方式界定、描述或調(diào) 整。
ROI對(duì)象24準(zhǔn)許視頻發(fā)送方強(qiáng)調(diào)所傳輸?shù)囊曨l幀22內(nèi)的個(gè)別對(duì)象,例如人員的面 部26。相反,ROI對(duì)象24準(zhǔn)許視頻接收方更清楚地觀看所接收的視頻幀22內(nèi)的所需對(duì) 象。在任一情況下,用相對(duì)于非ROI區(qū)域25 (例如視頻幀22的背景區(qū))的更高圖像質(zhì) 量編碼ROI對(duì)象24內(nèi)的面部26。以此方式,用戶能夠更清楚地觀看面部表情、嘴唇移 動(dòng)、眼部移動(dòng)等。在一些實(shí)施例中,還可不僅用額外編碼位而且用增強(qiáng)的錯(cuò)誤檢測(cè)和彈 性來(lái)編碼ROI對(duì)象。
圖3說(shuō)明視頻序列的ROI對(duì)象內(nèi)所呈現(xiàn)的對(duì)象移動(dòng)/旋轉(zhuǎn)和對(duì)象形狀變形。明確地說(shuō), 圖3的幀0和1中所繪示的人員頭部顯著改變其位置。在圖3的實(shí)例中,人員頭部在幀 l中相對(duì)于幀0傾斜。圖4說(shuō)明視頻序列的ROI對(duì)象內(nèi)的人員的面部表情變化。明確地 說(shuō),幀0和1中所繪示的人員嘴部從大致閉合位置轉(zhuǎn)變?yōu)閺堥_(kāi)位置。因此,圖3和4表 示視頻序列的ROI對(duì)象中的大量移動(dòng)的情況。
圖5A是說(shuō)明來(lái)自圖1的ROI對(duì)象分割系統(tǒng)14的示范性操作的流程圖。ROI對(duì)象分 割系統(tǒng)14實(shí)施用于從視頻序列自動(dòng)分割ROI對(duì)象的技術(shù)。如上所述,ROI對(duì)象分割系統(tǒng) 14支持幀內(nèi)模式分割和幀間模式分割兩者以處理視頻序列。
ROI對(duì)象分割系統(tǒng)14從視頻源12接收視頻序列的第一幀(30)。 ROI對(duì)象分割系統(tǒng) 14對(duì)所接收的幀執(zhí)行幀內(nèi)模式分割(32)。幀內(nèi)模式分割獨(dú)立于所述視頻序列中的其它 幀而處理視頻序列的當(dāng)前幀。在幀內(nèi)模式分割的情況下,ROI對(duì)象分割系統(tǒng)14不使用 ROI對(duì)象運(yùn)動(dòng)信息。在執(zhí)行幀內(nèi)模式分割的同時(shí),ROI對(duì)象分割系統(tǒng)14將視頻序列的所 接收幀存儲(chǔ)在視頻存儲(chǔ)器16中。ROI對(duì)象分割系統(tǒng)14接著將所分割幀的輸出圖像發(fā)送 到多媒體應(yīng)用程序18 (34)。
ROI對(duì)象分割系統(tǒng)14從視頻源12接收視頻序列的下一幀(36)。系統(tǒng)14接著作出 模式?jīng)Q策以確定對(duì)所接收幀執(zhí)行幀內(nèi)模式分割還是幀間模式分割(37)。模式?jīng)Q策可基于 一個(gè)或一個(gè)以上分割模式?jīng)Q策因素。舉例來(lái)說(shuō),系統(tǒng)14可基于例如以下分割模式?jīng)Q策因 素來(lái)決定待對(duì)所接收幀執(zhí)行哪種分割模式所接收幀的計(jì)算復(fù)雜性、所接收幀的所需分割質(zhì)量、所接收幀與先前幀之間的相似量、所接收幀與先前幀之間的運(yùn)動(dòng)活動(dòng)量、用于 先前幀的分割模式和自從上一幀內(nèi)模式過(guò)程以來(lái)所分割的幀數(shù)目。在其它實(shí)施例中,分 割模式?jīng)Q策可基于額外的分割模式?jīng)Q策因素。
當(dāng)系統(tǒng)14決定不執(zhí)行幀內(nèi)模式分割(37的否分支)時(shí),ROI對(duì)象分割系統(tǒng)14基于 先前幀而對(duì)所接收幀執(zhí)行幀間模式分割(38)。在此情況下,ROI對(duì)象分割系統(tǒng)14從視 頻序列的先前幀(例如,從視頻存儲(chǔ)器16)檢索運(yùn)動(dòng)信息,且使用當(dāng)前幀與先前幀之間 的ROI對(duì)象的運(yùn)動(dòng)信息。在執(zhí)行幀間模式分割時(shí),ROI對(duì)象分割系統(tǒng)14將視頻序列的所 接收幀存儲(chǔ)在視頻存儲(chǔ)器16中。ROI對(duì)象分割系統(tǒng)14接著將所分割幀的輸出圖像發(fā)送 到多媒體應(yīng)用程序18 (40)。
ROI對(duì)象分割系統(tǒng)14繼續(xù)從視頻源12接收視頻序列的幀。當(dāng)系統(tǒng)14決定執(zhí)行幀間 模式分割(例如37的"是"分支)時(shí),ROI分割系統(tǒng)14再次對(duì)所接收幀執(zhí)行幀內(nèi)模式 分割(32)。因此,ROI對(duì)象分割系統(tǒng)14對(duì)從視頻源12接收的視頻序列的一些幀執(zhí)行幀 內(nèi)模式分割,且對(duì)視頻序列的其它幀執(zhí)行幀間模式分割。
圖5B是更詳細(xì)說(shuō)明來(lái)自圖5A的分割模式?jīng)Q策(步驟37)的流程圖。ROI對(duì)象分割 系統(tǒng)14可基于一個(gè)或一個(gè)以上分割模式?jīng)Q策因素而作出分割模式?jīng)Q策。系統(tǒng)14可執(zhí)行 圖5中所說(shuō)明的一個(gè)或一個(gè)以上步驟以確定待對(duì)所接收幀執(zhí)行的分割模式。在一些實(shí)施 例中,系統(tǒng)14可單個(gè)地執(zhí)行所述步驟,或以任何次序組合一個(gè)或一個(gè)以上所述步驟。在 其它實(shí)施例中,ROI對(duì)象分割系統(tǒng)14可在決定對(duì)所接收幀執(zhí)行幀內(nèi)模式分割還是幀間模 式分割時(shí)考慮額外的分割模式?jīng)Q策因素。
系統(tǒng)14可確定所接收幀的計(jì)算復(fù)雜性(46)。舉例來(lái)說(shuō),系統(tǒng)14可檢查所接收的幀 以確定所接收幀中所包括的候選ROI特征的數(shù)目。如果所述幀包括大量ROI特征,那么 所接收幀可能對(duì)于幀間模式分割過(guò)程來(lái)說(shuō)過(guò)于復(fù)雜而不能準(zhǔn)確地從所述幀分割ROI對(duì) 象。因此,系統(tǒng)14可在計(jì)算復(fù)雜性高于預(yù)定水平時(shí)決定執(zhí)行幀內(nèi)模式分割,以便處理高 復(fù)雜性視頻幀。系統(tǒng)14還可從最終用戶確定所需分割質(zhì)量(48)。舉例來(lái)說(shuō),如果實(shí)施 ROI分割系統(tǒng)14的視頻通信裝置的最終用戶對(duì)于所接收的視頻幀請(qǐng)求高于預(yù)定水平的分 割質(zhì)量,那么系統(tǒng)14可對(duì)所接收幀執(zhí)行幀內(nèi)模式分割。相反,如果最終用戶對(duì)于所接收 的視頻幀請(qǐng)求低于預(yù)定水平的分割質(zhì)量,那么系統(tǒng)14可對(duì)所接收幀執(zhí)行幀間模式分割。
另外,系統(tǒng)14可確定所接收幀與先前幀之間的相似量(50)。舉例來(lái)說(shuō),系統(tǒng)14可 將所接收幀與先前幀進(jìn)行比較,以確定所述兩個(gè)幀的色彩直方圖之間的相似量是否高于 預(yù)定水平。所述兩個(gè)幀之間的較大色彩變化指示場(chǎng)景可能有所變化。在此情況下,系統(tǒng)
14可執(zhí)行幀內(nèi)模式分割以便分割所接收幀內(nèi)的潛在新R0I對(duì)象。如果色彩直方圖在所述 兩個(gè)幀之間保持大致相似,那么系統(tǒng)M可執(zhí)行幀間模式分割。
系統(tǒng)14可確定所接收幀與先前幀之間的運(yùn)動(dòng)活動(dòng)量(52)。舉例來(lái)說(shuō),系統(tǒng)14可將 所接收幀與先前幀進(jìn)行比較,以確定ROI對(duì)象在所述幀內(nèi)的位置之間的移動(dòng)量是否高于 預(yù)定水平。如果ROI對(duì)象在所述兩個(gè)幀內(nèi)占據(jù)顯著不同區(qū)域或位置,那么系統(tǒng)14可執(zhí)行 幀內(nèi)模式分割。如果ROI對(duì)象在所述兩個(gè)幀內(nèi)占據(jù)大致相同區(qū)域或位置,那么系統(tǒng)14 可執(zhí)行幀間模式分割。
在以上步驟中,視頻序列的ROI分割過(guò)程可包括以任何次序?qū)σ曨l序列的視頻幀執(zhí) 行的任何數(shù)目的幀內(nèi)模式分割和幀間模式分割。舉例來(lái)說(shuō),可將幀內(nèi)模式分割表示為o, 且可將幀間模式分割表示為1。示范性視頻序列分割中的一組幀的幀內(nèi)模式(0)和幀間 模式狀態(tài)(1)可表示為0011011110。在此情況下,分割模式?jīng)Q策完全基于所接收幀的 或所接收幀與先前幀之間的屬性。
系統(tǒng)14還可基于用于分割先前幀的分割模式而確定待對(duì)所接收幀執(zhí)行哪種分割模 式。系統(tǒng)14可確定先前幀是否由幀內(nèi)模式過(guò)程分割(54)。如果先前幀由幀內(nèi)模式過(guò)程 分割,那么系統(tǒng)M可決定由幀間模式過(guò)程分割所接收幀。在此步驟中,視頻序列的ROI 分割過(guò)程可包括對(duì)視頻序列的視頻幀執(zhí)行的任何數(shù)目的幀內(nèi)模式分割和幀間模式分割, 使得幀間模式分割總是跟隨幀內(nèi)模式分割。示范性視頻序列分割中的一組幀的幀內(nèi)模式 (0)和幀間模式狀態(tài)(1)可表示為0110111101。在此情況下,分割模式?jīng)Q策完全基于 先前幀的分割模式。
另外,系統(tǒng)14可確定自從上一幀內(nèi)模式分割幀以來(lái)所分割的幀數(shù)目(56)。舉例來(lái) 說(shuō),系統(tǒng)14可在周期性基礎(chǔ)上(例如每N個(gè)幀)決定執(zhí)行幀內(nèi)模式分割。在一些情況下, 第N個(gè)幀可包含第IO個(gè)幀。在其它實(shí)施例中,N可等于多于或少于IO個(gè)幀。在此步驟 中,視頻序列的ROI分割過(guò)程可包括對(duì)視頻序列的視頻幀執(zhí)行的任何數(shù)目的幀內(nèi)模式分 割和幀間模式分割,使得周期性執(zhí)行幀內(nèi)模式分割。示范性視頻序列分割中的一組幀的 幀內(nèi)模式(0)和幀間模式狀態(tài)(1)可表示為0111011101。在此情況下,分割模式?jīng)Q 策是基于每隔3個(gè)幀執(zhí)行幀內(nèi)模式分割。
圖6是說(shuō)明在對(duì)從視頻源12接收的視頻序列的幀執(zhí)行幀內(nèi)模式分割時(shí)的ROI對(duì)象分 割系統(tǒng)14的方框圖。在此情況下,ROI對(duì)象分割系統(tǒng)14獨(dú)立于所述視頻序列的其它幀 且在沒(méi)有運(yùn)動(dòng)信息的情況下處理視頻序列的一個(gè)幀。圖7到13是說(shuō)明在幀內(nèi)模式分割期 間由ROI對(duì)象分割系統(tǒng)14實(shí)施的技術(shù)的示范性結(jié)果的屏幕截圖。
在圖6所說(shuō)明的實(shí)施例中,視頻源12包括色度藍(lán)信道(Cb) 60、色度紅信道(Cr) 61和亮度信道(Y) 62。 ROI對(duì)象分割系統(tǒng)14實(shí)施用以從自視頻源12接收的視頻序列 的視頻幀自動(dòng)分割ROI對(duì)象(例如人類頭部及肩部區(qū)域)的技術(shù)。所揭示的技術(shù)包括在 幀內(nèi)模式分割期間將基于特征和基于模型的檢測(cè)與區(qū)分割組合的混合技術(shù)。
ROI對(duì)象分割系統(tǒng)14包括面罩檢測(cè)器64,其基于從視頻源12的色度藍(lán)信道60和色 度紅信道61接收的藍(lán)和紅信道色度值而檢測(cè)視頻幀內(nèi)的皮膚顏色區(qū)。面罩檢測(cè)器64接 著將所檢測(cè)到的皮膚顏色區(qū)的像素分類為面部像素。以此方式,面罩檢測(cè)器64可通過(guò)移 除所接收幀內(nèi)不是面部像素的像素來(lái)獲得面罩。在獲得面罩之后,面罩檢測(cè)器64使用膨 脹與腐蝕的數(shù)學(xué)形態(tài)運(yùn)算以移除面罩內(nèi)由面部特征(例如眼部和嘴部區(qū))引起的噪聲和 孔。圖7說(shuō)明對(duì)標(biāo)準(zhǔn)"母女"視頻測(cè)試序列的幀執(zhí)行的快速面罩檢測(cè)的實(shí)例。
通常,面罩檢測(cè)器64使用皮膚顏色映射,其可通過(guò)存在狹窄且相容地分布在YCbCr 色彩空間中的一組特定色度值而識(shí)別視頻幀內(nèi)的皮膚顏色區(qū)。皮膚顏色映射對(duì)于不同類 型的皮膚顏色來(lái)說(shuō)是穩(wěn)固的。人類種族的皮膚顏色看起來(lái)不同的主要原因是皮膚的暗度 或明度。換句話說(shuō),皮膚顏色由色彩的明亮度差異表征,明亮度由Y管理而非由Cr或 Cb管理。因此,可僅基于所接收幀的Cr和Cb分量而實(shí)現(xiàn)有效的皮膚顏色映射。面罩檢 測(cè)器64可利用范圍為CrG[133, 173]且CbE [77,127]的CbCr皮膚顏色映射來(lái)檢測(cè)所接收 的視頻幀內(nèi)的皮膚顏色區(qū)。然而,不應(yīng)將Cr和Cb范圍認(rèn)為是限制性的,且面罩檢測(cè)器 64可利用具有不同Cr和Cb范圍的皮膚顏色映射。
在一些情況下,面罩檢測(cè)器64可能不能夠?qū)iT獲得人類面部。如圖7中所說(shuō)明,所 述幀內(nèi)的母親和女兒的衣服區(qū)看起來(lái)具有與皮膚色調(diào)映射所定義的色調(diào)類似的色調(diào)。因 此,面罩檢測(cè)器64可能錯(cuò)誤地將衣服區(qū)選擇作為面罩的一部分。本文所描述的快速面罩 檢測(cè)步驟移除所述幀內(nèi)的一些非面部區(qū),但可能需要進(jìn)一步處理以獲得并檢驗(yàn)準(zhǔn)確的面 部區(qū)。
系統(tǒng)14還包括眼部檢測(cè)器66和嘴部檢測(cè)器67,其檢測(cè)面罩內(nèi)的候選面部特征; 以及特征檢驗(yàn)?zāi)P?8,其從候選眼部和嘴部中選擇面部特征。通?;陉P(guān)于人類面部和 其特征的常識(shí)(例如面部區(qū)的橢圓形狀和面部特征間的整體空間關(guān)系限制)而建立面部 過(guò)濾器。因此,定位這些面部特征可用于推導(dǎo)視頻幀內(nèi)的恰當(dāng)面部位置。
眼部檢測(cè)器66檢測(cè)由面罩檢測(cè)器64獲得的面罩內(nèi)的候選眼部特征。眼部檢測(cè)器66 基于兩個(gè)觀測(cè)而檢測(cè)候選眼部特征。第一,眼部周圍的色度分量通常含有高Cb值和低 Cr值。因此,眼部檢測(cè)器66可基于下文給出的等式(1)而構(gòu)造所述幀的色度眼部映射。
<formula>formula see original document page 17</formula>
一旦獲得色度眼部映射,眼部檢測(cè)器66便可向所述眼部映射內(nèi)的每一像素的色度 (C)眼部映射值應(yīng)用閾值,以定位候選眼部在眼部映射內(nèi)的最明亮區(qū)。眼部檢測(cè)器66 接著應(yīng)用形態(tài)運(yùn)算以將充分接近的最明亮區(qū)合并為單個(gè)候選眼部。圖8A說(shuō)明"母女"視 頻測(cè)試序列的幀的色度眼部映射內(nèi)的眼部檢測(cè)的實(shí)例。
第二,眼部通常在亮度分量中含有黑暗像素和明亮像素兩者。因此,灰階形態(tài)算子 可用于強(qiáng)調(diào)眼部區(qū)周圍的亮度分量中的較明亮和較黑暗像素。眼部檢測(cè)器66可基于下文 給出的等式(2)而構(gòu)造所述幀的亮度眼部映射。
b:鵬(2)
一旦獲得亮度眼部映射,眼部檢測(cè)器66便可向眼部映射內(nèi)的每一像素的亮度(L) 眼部映射值應(yīng)用閾值,以定位候選眼部在眼部映射內(nèi)的最明亮區(qū)。眼部檢測(cè)器66接著應(yīng) 用形態(tài)運(yùn)算以將充分接近的最明亮區(qū)合并為單個(gè)候選眼部。圖8B說(shuō)明"母女"視頻測(cè)試 序列的幀的色度眼部映射內(nèi)的眼部檢測(cè)的實(shí)例。
眼部檢測(cè)器66將在色度眼部映射(圖8A所示)內(nèi)所檢測(cè)到的候選眼部與在亮度眼 部映射(圖8B所示)內(nèi)所檢測(cè)到的候選眼部組合,以找到面罩內(nèi)的最終候選眼部。然而, 在一些情況下,最終候選眼部仍可能含有不正確的候選眼部??缮院笤谔卣鳈z驗(yàn)過(guò)程期 間移除這些無(wú)關(guān)的候選眼部。
嘴部檢測(cè)器67檢測(cè)面罩檢測(cè)器64所獲得的面罩內(nèi)的候選嘴部特征。通常,嘴部區(qū) 的顏色與其它面部區(qū)相比含有較強(qiáng)的紅分量和較弱的藍(lán)分量。因此,在嘴部區(qū)中,色度 分量Cr應(yīng)大于色度分量Cb。然而,嘴部區(qū)在Cr/Cb特征中具有相對(duì)較低的響應(yīng),但在 C^特征中具有相對(duì)較高的響應(yīng)。嘴部檢測(cè)器67可基于下文給出的等式(3)和(4)而 構(gòu)造所述幀的嘴部映射。
<formula>formula see original document page 17</formula>其中 (3)
;^0.W皮膚翻 (4) (U)e皮膚模型C^CX, }0
一旦獲得嘴部映射,嘴部檢測(cè)器67便可向嘴部映射內(nèi)的每一像素的嘴部(M)值應(yīng) 用閾值,以定位候選嘴部在嘴部映射內(nèi)的最明亮區(qū)。嘴部檢測(cè)器67接著應(yīng)用形態(tài)運(yùn)算以 將充分接近的最明亮區(qū)合并為單個(gè)候選嘴部。圖9說(shuō)明"母女"視頻測(cè)試序列的幀的嘴 部映射內(nèi)的嘴部檢測(cè)的實(shí)例。
特征檢驗(yàn)?zāi)K68檢驗(yàn)由眼部檢測(cè)器66和嘴部檢測(cè)器67在面罩內(nèi)檢測(cè)到的候選面部 特征,以從候選眼部和嘴部中選擇正確的面部特征。特征檢驗(yàn)?zāi)K68確保穩(wěn)固的ROI 特征檢測(cè)過(guò)程。雖然上文描述的眼部和嘴部映射過(guò)程可有效分類眼部區(qū)和嘴部區(qū),但一 些錯(cuò)誤分類仍可能導(dǎo)致錯(cuò)誤的面部特征檢測(cè)。特征檢驗(yàn)?zāi)K68執(zhí)行三個(gè)檢驗(yàn)步驟以檢驗(yàn) 面罩內(nèi)的候選面部特征并移除任何錯(cuò)誤的面部特征檢測(cè)。
第一,在面部形貌方面,觀測(cè)到面部特征通常位于"凹谷"區(qū)(即,凹陷區(qū))中, 所述"凹谷"區(qū)由所述區(qū)內(nèi)部的高強(qiáng)度對(duì)比度表征。因此,特征檢驗(yàn)?zāi)K68通過(guò)執(zhí)行灰 階接近和膨脹形態(tài)運(yùn)算來(lái)識(shí)別所述凹谷區(qū)。特征檢驗(yàn)?zāi)K68接著將所述幀內(nèi)的候選面部 特征的位置與所述幀內(nèi)的凹谷區(qū)的位置進(jìn)行比較。如果候選面部特征沒(méi)有至少部分地與 所檢測(cè)到的凹谷區(qū)的一區(qū)域重疊,那么特征檢驗(yàn)?zāi)K68將不考慮所述候選面部特征。因 此,為了保留候選面部特征,特征檢驗(yàn)?zāi)K68需要將所述特征與所識(shí)別的凹谷區(qū)中的一 者相互關(guān)聯(lián)。圖IOA說(shuō)明在"母女"視頻序列的幀內(nèi)所識(shí)別的凹谷區(qū)。
第二,特征檢驗(yàn)?zāi)K68基于雙眼的固有特性(例如在所述幀內(nèi)的對(duì)稱位置和形狀特 點(diǎn))而檢驗(yàn)候選眼部特征。圖10B說(shuō)明具有各自質(zhì)心0!和02的雙眼的固有特性。舉例 來(lái)說(shuō),雙眼相對(duì)于面部的長(zhǎng)軸A而對(duì)稱,使得IAC^HA021,雙眼具有相似面積且雙眼具 有相似形狀,其可通過(guò)投射到軸OA來(lái)進(jìn)行比較。雙眼還相對(duì)于各自PCA (主要成分分 析)軸(PCA!和PCA2)而對(duì)稱。另外,通??稍陔p眼上方檢測(cè)到眉毛。
特征檢驗(yàn)?zāi)K68可利用加權(quán)分值系統(tǒng)來(lái)檢驗(yàn)面罩內(nèi)的候選眼部特征。在此情況下, 特征檢驗(yàn)?zāi)K68基于雙眼特性而核查許多基準(zhǔn),并為所述基準(zhǔn)中的每一者提供分值。舉 例來(lái)說(shuō),特征檢驗(yàn)?zāi)K68確定眼部質(zhì)心位置是否在凹谷區(qū)內(nèi)部。接下來(lái),特征檢驗(yàn)?zāi)K 68確定眼部質(zhì)心和所檢測(cè)到的虹膜的位置是否充分接近??赏ㄟ^(guò)將眼部中的強(qiáng)度值投射 到橫軸和縱軸上并識(shí)別對(duì)應(yīng)于最小累積總強(qiáng)度值的點(diǎn)來(lái)找到虹膜位置。特征檢驗(yàn)?zāi)K68 接著確定是否在眼部上方找到了眉毛。接下來(lái),特征檢驗(yàn)?zāi)K68確定眼部的PCA軸是 否在合理方向的范圍內(nèi),這可通過(guò)典型的人類雙眼的經(jīng)驗(yàn)表征來(lái)確定。特征檢驗(yàn)?zāi)K68 接著確定所述眼部是否在合理距離內(nèi)具有雙眼,這同樣可通過(guò)經(jīng)驗(yàn)表征來(lái)確定。接下來(lái), 特征檢驗(yàn)?zāi)K68確定所述雙眼是否具有根據(jù)軸OA的對(duì)稱PCA軸。特征檢驗(yàn)?zāi)K68接 著確定所述雙眼是否具有根據(jù)軸OA的對(duì)稱形狀。
特征檢驗(yàn)?zāi)K68累積來(lái)自上文描述的每一基準(zhǔn)的分值,以便從候選特征中選擇正確 的面部特征且構(gòu)造視頻幀的面部特征映射。可對(duì)針對(duì)各種個(gè)別基準(zhǔn)而確定的分值相同地 加權(quán),或不同地加權(quán)以強(qiáng)調(diào)一個(gè)或一個(gè)以上基準(zhǔn)優(yōu)于其它基準(zhǔn)。特征檢驗(yàn)?zāi)K68將錯(cuò)誤 檢測(cè)識(shí)別為累積分值低于預(yù)設(shè)閾值的那些候選面部特征。特征檢驗(yàn)?zāi)K68接著移除這些 經(jīng)檢測(cè)為錯(cuò)誤的候選面部特征。
第三,特征檢驗(yàn)?zāi)K68檢驗(yàn)面部特征映射內(nèi)由兩個(gè)候選眼部和一個(gè)候選嘴部的每種 可能組合得出的眼部-嘴部三角形。特征檢驗(yàn)?zāi)K68首先檢查眼部-嘴部三角形的幾何形 狀和方位,且不再考慮不合理的眼部-嘴部三角形。被認(rèn)為不合理的眼部-嘴部三角形是未 大體上匹配典型人類的一系列根據(jù)經(jīng)驗(yàn)確定的眼部-嘴部三角形幾何形狀的那些眼部-嘴 部三角形。圖IOC說(shuō)明"母女"視頻序列的幀的面部特征映射內(nèi)的兩個(gè)可能的眼部-嘴部 三角形(虛線)。特征檢驗(yàn)?zāi)K68接著使用模板來(lái)檢驗(yàn)眼部-嘴部三角形區(qū)域的斜度特點(diǎn)。 因?yàn)槿祟惷娌渴侨S(3D)對(duì)象,所以整個(gè)面部區(qū)內(nèi)的亮度往往是不均勻的。合理的眼 部-嘴部三角形區(qū)域應(yīng)含有鼻子,這使得所述斜度信息比在其它面部區(qū)域(例如下顎)中 更為復(fù)雜。通過(guò)使用可從眼部-嘴部三角形區(qū)域得到的更具區(qū)別性的斜度信息,特征檢驗(yàn) 模塊68可為視頻幀中的面部選擇正確的候選眼部和嘴部。
系統(tǒng)14還包括多面部分離模塊70,其將由特征檢驗(yàn)?zāi)K68所選擇的面部特征分成 針對(duì)所述幀內(nèi)的個(gè)別面部的群組。在視頻幀中包括一個(gè)以上面部的視頻序列(例如所述 母女序列)中,多面部分離模塊70將候選眼部和嘴部組分成對(duì)應(yīng)于不同面部的群組。此 任務(wù)的困難有三重。第一,視頻幀內(nèi)所包括的面部總數(shù)目是未知的。第二,可能尚未在 視頻幀中檢測(cè)到某些面部特征。第三,徹底核査所有潛在面部特征群組組合具有指數(shù)計(jì) 算復(fù)雜性。通過(guò)將所述問(wèn)題簡(jiǎn)化為將眼部與嘴部配對(duì)的任務(wù),可將原有問(wèn)題映射為圖形 理論問(wèn)題,所述圖形理論問(wèn)題具有多項(xiàng)式計(jì)算復(fù)雜性。所達(dá)成的計(jì)算復(fù)雜性降低可能對(duì) 于許多應(yīng)用來(lái)說(shuō)是非常合意的,所述應(yīng)用包括具有有限功率和處理資源的移動(dòng)應(yīng)用和需 要快速且可能需要實(shí)時(shí)結(jié)果的其它應(yīng)用。
通過(guò)應(yīng)用圖形理論,多面部分離模塊70考慮兩分圖形G-(V,E),其中頂點(diǎn)組\^={嘴 部} + {雙眼}且邊緣組£={0^,力)},其中v,和力屬于不同組,且節(jié)點(diǎn)v;與力之間的距離
在合理范圍內(nèi)。如果匹配S被定義為£的子集,使得S中的任何兩個(gè)邊緣均不入射到同 一頂點(diǎn)或直接連接的頂點(diǎn),那么所述問(wèn)題變成最大匹配方案問(wèn)題。以此方式,多面部分 離過(guò)程是原有最大匹配方案問(wèn)題的變化形式,因?yàn)樵谠凶畲笃ヅ浞桨竼?wèn)題定義中,對(duì) 匹配的限制僅需要S中的任何兩個(gè)邊緣均不入射到同一頂點(diǎn)。
重要的是,觀測(cè)將多面部分離問(wèn)題轉(zhuǎn)換為原有最大匹配方案問(wèn)題的可能性。如果邊 緣組£'={(v,、力)},其中存在^,使得在將邊緣組從£擴(kuò)展到£ U F之后定義為 (v"v》eS'(Vj,v》eS但(v"、)gE,那么所述問(wèn)題變成原有最大匹配方案問(wèn)題,不同之處
只是必須包括額外的限制以使得結(jié)果匹配必須是E而非EUP的子集。因此,多面部分 離模塊70可以多項(xiàng)式時(shí)間復(fù)雜性解決多面部分離問(wèn)題。
系統(tǒng)14包括對(duì)象形狀近似模塊72,其基于ROI對(duì)象幾何模型而為視頻幀內(nèi)的每一 面部近似推得ROI對(duì)象形狀。舉例來(lái)說(shuō),可基于人類頭部及肩部幾何模型而在所述幀內(nèi) 近似推得ROI對(duì)象形狀。在特征檢驗(yàn)?zāi)K68獲得面部的正確眼部-嘴部三角形之后,對(duì) 象形狀近似模塊72可基于眼部-嘴部三角形的節(jié)點(diǎn)之間的幾何關(guān)系而建立ROI對(duì)象形狀, 例如頭部及肩部模型。
為了在幀內(nèi)模式分割期間加快執(zhí)行,對(duì)象形狀近似模塊72可使用簡(jiǎn)單的矩形模型來(lái) 近似推得ROI對(duì)象形狀,例如人類頭部及肩部對(duì)象形狀。對(duì)于在視頻幀中包括一個(gè)以上 面部的視頻序列,在多面部分離模塊70將候選眼部和嘴部分離到用于不同面部的群組中 之后,對(duì)象形狀近似模塊72基于單獨(dú)的眼部-嘴部三角形而為所述面部的每一者近似推 得ROI對(duì)象形狀。舉例來(lái)說(shuō),對(duì)象形狀近似模塊72可為包括在視頻幀內(nèi)的每一面部近似 推得頭部及肩部對(duì)象形狀。圖11說(shuō)明針對(duì)"母女"視頻測(cè)試序列的幀內(nèi)的每一面部定義 的頭部及肩部對(duì)象形狀。
ROI對(duì)象分割系統(tǒng)14還包括區(qū)分割模塊74,其對(duì)整個(gè)幀執(zhí)行分裂與合并區(qū)生長(zhǎng)。區(qū) 分割模塊74將原始幀劃分成多個(gè)同類候選區(qū)。當(dāng)執(zhí)行分裂與合并區(qū)生長(zhǎng)時(shí),區(qū)分割模塊 74將視頻幀內(nèi)的相鄰像素之間的關(guān)系分類到相似類別和相異類別中。可基于所述區(qū)中的 平均像素強(qiáng)度值而確定區(qū)相似性。區(qū)分割模塊74接著將所連接的相似像素群集為較小區(qū) 并繼續(xù)合并這些區(qū)以形成最小數(shù)目的候選區(qū)。圖12說(shuō)明區(qū)生長(zhǎng)過(guò)程,其中最初將視頻幀 分裂為1195個(gè)區(qū),且接著將所述區(qū)合并在一起,直到生成22個(gè)候選區(qū)為止。
系統(tǒng)14進(jìn)一步包括對(duì)象生成模塊76,其從整個(gè)幀內(nèi)的候選區(qū)自動(dòng)選擇所述幀的位 于經(jīng)近似推得的ROI對(duì)象形狀內(nèi)的區(qū)。可將選定區(qū)認(rèn)為是前景區(qū),且可將未選區(qū)認(rèn)為是 背景區(qū)。對(duì)象生成模塊76接著基于背景區(qū)而生成前景對(duì)象。
對(duì)象生成模塊76僅從由區(qū)分割模塊74生成的所述組候選區(qū)中選擇位于由對(duì)象形狀 近似模塊72近似推得的ROI對(duì)象形狀內(nèi)的區(qū)。如上文描述,ROI對(duì)象形狀可包含含有 ROI對(duì)象(例如,面部)的矩形區(qū)域,且可基于所述面部的選定眼部-嘴部三角形而估計(jì) ROI對(duì)象形狀的大小。以此方式,可在ROI對(duì)象形狀內(nèi)而非在整個(gè)視頻幀內(nèi)進(jìn)行進(jìn)一步 處理。
對(duì)象生成模塊76檢查視頻幀內(nèi)由區(qū)分割模塊74生成的候選區(qū)中的每一者,且確定 所述區(qū)是否位于ROI對(duì)象形狀內(nèi)。對(duì)象生成模塊76可將在ROI對(duì)象形狀內(nèi)具有多于預(yù) 定義百分比(例如,60%)的全部像素的區(qū)認(rèn)為是前景區(qū)。對(duì)象生成模塊76可接著將視 頻幀內(nèi)的在ROI對(duì)象形狀內(nèi)具有少于預(yù)定義百分比的全部像素的剩余區(qū)認(rèn)為是背景區(qū)。 以此方式,對(duì)象生成模塊76從視頻幀內(nèi)的前景區(qū)生成前景對(duì)象。
最后,系統(tǒng)14包括對(duì)象融合模塊78,其將所述幀內(nèi)的多個(gè)前景對(duì)象合并為最終輸 出圖像。對(duì)于包括一個(gè)以上前景對(duì)象的視頻序列,對(duì)象融合模塊78合并前景對(duì)象以形成 輸出圖像。圖13說(shuō)明針對(duì)視頻幀內(nèi)的每一面部生成前景對(duì)象且通過(guò)合并所述兩個(gè)前景對(duì) 象而生成輸出圖像。ROI對(duì)象分割系統(tǒng)14可接著將所分割幀的輸出圖像發(fā)送到多媒體應(yīng) 用程序18。
圖14是說(shuō)明執(zhí)行幀內(nèi)模式分割的ROI對(duì)象分割系統(tǒng)14的操作的流程圖。本文將參 看圖7所說(shuō)明的ROI對(duì)象分割系統(tǒng)14而描述所述操作。ROI對(duì)象分割系統(tǒng)14從視頻源 12接收視頻序列的幀(80)。在幀內(nèi)模式分割的情況下,ROI對(duì)象分割系統(tǒng)14獨(dú)立于視 頻序列的其它幀且在沒(méi)有運(yùn)動(dòng)信息的情況下處理視頻序列的所接收幀。
面罩檢測(cè)器64基于所述視頻幀內(nèi)所識(shí)別的皮膚顏色區(qū)而檢測(cè)所接收幀內(nèi)的面罩 (82)。面罩檢測(cè)器64接著將所識(shí)別的皮膚顏色區(qū)的像素分類為面部像素。以此方式,面 罩檢測(cè)器64可通過(guò)移除所接收幀內(nèi)不是面部像素的像素而獲得面罩。
眼部檢測(cè)器66和嘴部檢測(cè)器67接著檢測(cè)所述面罩內(nèi)的候選面部特征(84)。眼部檢 測(cè)器66可基于面罩內(nèi)的像素的色度值和亮度值而檢測(cè)候選眼部特征。嘴部檢測(cè)器67可 基于面罩內(nèi)的像素的色度值而檢測(cè)候選嘴部特征。特征檢驗(yàn)?zāi)K68執(zhí)行由眼部檢測(cè)器 66和嘴部檢測(cè)器67檢測(cè)的候選面部特征的檢驗(yàn),以選擇正確的面部特征(86)。
ROI對(duì)象分割系統(tǒng)14接著確定所接收的視頻幀是否包括一個(gè)以上面部(87)。如果 視頻幀確實(shí)包括一個(gè)以上面部,那么多面部分離模塊70將由特征檢驗(yàn)?zāi)K68選擇的面 部特征分離到用于包括在所述幀中的個(gè)別面部的群組中(88)。對(duì)象形狀近似模塊72接 著基于由特征檢驗(yàn)?zāi)K68選擇的面部特征所界定的ROI對(duì)象幾何模型而為視頻幀內(nèi)的每
一面部近似推得ROI對(duì)象形狀(90)。舉例來(lái)說(shuō),可基于正確的眼部-嘴部三角形的位置 而為所述幀內(nèi)的每一面部近似推得頭部及肩部對(duì)象形狀。
區(qū)分割模塊74對(duì)整個(gè)幀執(zhí)行分裂與合并區(qū)生長(zhǎng)(92)。區(qū)分割模塊74將原始幀劃分 為多個(gè)同類候選區(qū)。對(duì)象生成模塊76接著從整個(gè)幀內(nèi)的候選區(qū)中自動(dòng)選擇所述幀的位于 經(jīng)近似推得的ROI對(duì)象形狀內(nèi)的區(qū)??蓪⑦x定區(qū)認(rèn)為是前景區(qū),且可將未選區(qū)認(rèn)為是背 景區(qū)。對(duì)象生成模塊76接著基于前景區(qū)而生成前景對(duì)象(94)。
ROI對(duì)象分割系統(tǒng)14確定視頻幀是否包括一個(gè)以上前景對(duì)象(95)。當(dāng)視頻幀包括 一個(gè)以上前景對(duì)象時(shí),對(duì)象融合模塊78將所述幀內(nèi)的前景對(duì)象合并為最終輸出圖像 (96)。 ROI對(duì)象分割系統(tǒng)14接著將所分割幀的輸出圖像發(fā)送到多媒體應(yīng)用程序18(98)。
圖15是說(shuō)明在對(duì)從視頻源12接收的視頻序列的幀執(zhí)行幀間模式分割時(shí)的ROI對(duì)象 分割系統(tǒng)14的方框圖。在此情況下,ROI對(duì)象分割系統(tǒng)14基于當(dāng)前幀和存儲(chǔ)在視頻存 儲(chǔ)器16中的視頻序列的先前或后續(xù)幀之間的ROI對(duì)象的運(yùn)動(dòng)信息而處理所述視頻序列的 幀。圖16和17是說(shuō)明在幀間模式分割期間由ROI對(duì)象分割系統(tǒng)14實(shí)施的技術(shù)的示范性 結(jié)果的屏幕截圖。在一些實(shí)施例中,ROI對(duì)象分割系統(tǒng)14可基于一個(gè)或一個(gè)以上分割模 式?jīng)Q策因素而對(duì)視頻序列的一些幀執(zhí)行幀內(nèi)模式分割(如圖6到14中描述)且對(duì)視頻序 列的其它幀執(zhí)行幀間模式分割(下文描述)。
如上文描述,ROI對(duì)象分割系統(tǒng)14實(shí)施用以從自視頻源12接收的視頻序列的視頻 幀自動(dòng)分割ROI對(duì)象(例如人類頭部及肩部區(qū)域)的技術(shù)。ROI對(duì)象分割系統(tǒng)14基于 ROI對(duì)象的運(yùn)動(dòng)信息而執(zhí)行幀間模式分割。所揭示的技術(shù)包括用于基于背景建模和減除 而在前景對(duì)象內(nèi)檢測(cè)移動(dòng)區(qū)的技術(shù)。成功檢測(cè)到移動(dòng)前景區(qū)可改進(jìn)幀間模式分割期間的 ROI特征檢測(cè)的執(zhí)行速度。
在圖15所說(shuō)明的實(shí)施例中,視頻源12同樣包括色度藍(lán)信道(Cb) 100、色度紅信道 (Cr) 101和亮度信道(Y) 102。 ROI對(duì)象分割系統(tǒng)14進(jìn)一步包括在執(zhí)行幀間模式分割 時(shí)的背景減除模塊112,如圖15所說(shuō)明。在此情況下,ROI對(duì)象分割系統(tǒng)14還包括在執(zhí) 行幀內(nèi)模式分割時(shí)所使用的組件,如圖6所說(shuō)明。舉例來(lái)說(shuō),ROI對(duì)象分割系統(tǒng)14包括 ROI特征檢測(cè)器104,其包含來(lái)自圖6的面罩檢測(cè)器64、眼部檢測(cè)器68和嘴部檢測(cè)器67。 另外,ROI對(duì)象分割模塊14還包括特征檢驗(yàn)?zāi)K106、多面部分離模塊108、對(duì)象形狀 近似模塊110、區(qū)分割模塊114、對(duì)象生成模塊116和對(duì)象融合模塊118,其可以與圖6 中的相應(yīng)組件類似的方式進(jìn)行操作。
背景減除模塊112與ROI特征檢測(cè)器104和區(qū)分割模塊114交互,以支持幀間模式
分割。通過(guò)背景減除模塊112,系統(tǒng)14識(shí)別視頻幀的移動(dòng)前景區(qū),移動(dòng)前景區(qū)表示相對(duì) 于視頻序列中的不同視頻幀的移動(dòng)。明確地說(shuō),為了識(shí)別移動(dòng)前景區(qū),背景減除模塊112 將所述視頻幀的ROI對(duì)象內(nèi)的像素的第一位置與所述像素在不同視頻幀(例如,所述視 頻序列中的先前幀)內(nèi)的第二位置進(jìn)行比較。
背景減除模塊112接著將尚未從第二位置移動(dòng)的像素分類為背景像素,且將已從第 二位置移動(dòng)的像素分類為前景像素?;谒R(shí)別的前景像素而識(shí)別移動(dòng)前景區(qū)。系統(tǒng)14 接著檢測(cè)所述視頻幀中對(duì)應(yīng)于移動(dòng)前景區(qū)和先前在不同(例如,先前)視頻幀中所識(shí)別 的前景區(qū)的組合前景區(qū)內(nèi)的ROI特征。基于所檢測(cè)到的ROI特征,形狀近似模塊110近 似推得所述視頻幀內(nèi)的ROI對(duì)象的形狀。
背景減除模塊112利用視頻序列的連續(xù)視頻幀的時(shí)間相關(guān)。背景減除模塊112對(duì)從 視頻源12接收的視頻序列的ROI對(duì)象內(nèi)的像素進(jìn)行逐像素分類過(guò)程。以此方式,背景減 除模塊112基于當(dāng)前幀與從視頻存儲(chǔ)器16檢索的所述視頻序列的先前或后續(xù)幀之間的運(yùn) 動(dòng)信息而確定當(dāng)前幀的哪些像素是背景像素。換句話說(shuō),背景減除模塊112使用幀間模 式操作中可用的額外信息來(lái)快速且有效地查找前景對(duì)象的移動(dòng)區(qū)。同樣,背景減除模塊 112將當(dāng)前幀中尚未從其先前位置移動(dòng)的那些像素分類為背景像素。又,背景減除模塊 112接著將已從其先前位置移動(dòng)的那些像素分類為前景像素。以此方式,背景減除模塊 112更為有效且具有比基于運(yùn)動(dòng)估計(jì)的技術(shù)低的復(fù)雜性。
背景減除模塊112可提供一個(gè)或一個(gè)以上益處。舉例來(lái)說(shuō),可將面罩的搜索空間從 整個(gè)圖像縮減到移動(dòng)前景區(qū)加上來(lái)自先前幀的面罩區(qū),其可認(rèn)為是組合前景區(qū)。另外, 面部特征將位于移動(dòng)前景區(qū)內(nèi)部或位于與在先前幀中相同的位置處。另一可能的益處是 可將連接的移動(dòng)前景區(qū)視為同類區(qū)。
圖16說(shuō)明基于"母女"視頻序列的幀之間的像素運(yùn)動(dòng)的前景像素分類的實(shí)例。在圖 16中,由于從幀8到10的前景對(duì)象的移動(dòng)相當(dāng)小,所以背景減除模塊112僅將頭部像素 的部分分類為前景像素,而身體像素在前IO個(gè)幀期間是靜止的。
為了執(zhí)行逐像素分類過(guò)程,背景減除模塊112應(yīng)用背景模塊。明確地說(shuō),背景減除 模塊112采用K個(gè)高斯分布的混合來(lái)對(duì)像素強(qiáng)度建模(例如,/^=5),其中根據(jù)其用以 解釋所觀測(cè)的背景的頻率來(lái)對(duì)每一高斯曲線進(jìn)行加權(quán)。因此,前景區(qū)內(nèi)的某一像素在時(shí) 間f處具有強(qiáng)度&的概率估計(jì)為
<formula>formula see original document page 23</formula> (5)
其中w,.,是正規(guī)化權(quán)數(shù),^和。是第z'個(gè)分布的平均和標(biāo)準(zhǔn)偏差。
隨著每一像素的混合模型的參數(shù)改變,背景減除模塊112確定所述混合的哪些高斯 曲線最有可能是由背景處理生成的?;趩l(fā)式信息,背景減除模塊112選擇具有最具 支持性證據(jù)和最小方差的高斯分布。這是因?yàn)榛趙/cr的值來(lái)對(duì)所述^個(gè)分布進(jìn)行排序。 所述模型的這種排序?qū)嶋H上是有序列表,其中最有可能的背景分布保持在頂部,且較不 可能的瞬時(shí)背景分布朝向底部下降。背景減除模塊112可基于下文給出的等式(6)而找 出最有可能的分布模型。<formula>formula see original document page 24</formula> (6)
其中閾值r是給予背景的總權(quán)數(shù)的分值。
接著,背景減除模塊112對(duì)照現(xiàn)有的K個(gè)高斯分布來(lái)核查新像素,直到找到匹配為 止。背景減除模塊112在分布的平均值與新像素值之間的距離在所述分布的2.5個(gè)標(biāo)準(zhǔn)偏 差內(nèi)時(shí)找到匹配。如果所述K個(gè)分布均不與當(dāng)前像素值匹配,那么由具有當(dāng)前新像素值 作為平均值、初始高方差和低先前權(quán)數(shù)的新分布代替具有wM最小值的最不可能分布。 一般來(lái)說(shuō),新像素值可始終由K個(gè)高斯分布的混合模型的主要分量中的一者表示。如果 此匹配的分布是S個(gè)背景分布中的一者,那么可將新像素標(biāo)記為背景。如果不是的話, 將所述像素標(biāo)記為前景。
為了保持所述混合模型的自適應(yīng)性,背景減除模塊112持續(xù)使用新的像素值來(lái)更新 模型參數(shù)。對(duì)于匹配的高斯分布,背景減除模塊112在時(shí)間f處用此新像素值X,更新所 有參數(shù)。另外,背景減除模塊112將先前權(quán)數(shù)更新為
<formula>formula see original document page 24</formula> (7)
且將平均值和方差更新為 <formula>formula see original document page 24</formula> (8)
<formula>formula see original document page 24</formula> (9)
其中a是控制自適應(yīng)速度的認(rèn)知速率,lAx定義確定改變的時(shí)間常數(shù),且p為與當(dāng)前
像素相關(guān)聯(lián)的可能性,其由認(rèn)知速率a縮放。因此,p可由下式表示 /7 = "~^=~e——(10)
對(duì)于不匹配的分布,平均值A(chǔ)和方差CTt保持不變,而背景減除模塊112將先前權(quán)數(shù)
更新為
Wj -(I — qOw", (11)
此更新方法的一個(gè)優(yōu)點(diǎn)在于,當(dāng)背景減除模塊112允許對(duì)象成為背景的一部分時(shí), 原始背景模型未被破壞。換句話說(shuō),原始背景分布保持在所述混合中,直到其成為最不 可能的分布且觀測(cè)到新色彩為止。因此,如果此靜止對(duì)象碰巧再次移動(dòng),那么背景減除 模塊112將快速地把先前背景分布重新并入到所述模型中。
一旦背景減除模塊112將移動(dòng)像素分類為前景像素,區(qū)分割模塊114便可對(duì)前景像 素執(zhí)行分裂與合并區(qū)生長(zhǎng),以創(chuàng)建視頻幀的移動(dòng)前景區(qū)。以此方式,使用經(jīng)分類的前景 像素來(lái)合并從區(qū)生長(zhǎng)途徑獲得的區(qū),且進(jìn)而形成前景區(qū)。明確地說(shuō),通過(guò)用分裂與合并 生長(zhǎng)技術(shù)來(lái)融合從背景減除生成的移動(dòng)前景區(qū),可獲得前景對(duì)象的移動(dòng)區(qū)。
檢測(cè)前景像素和創(chuàng)建移動(dòng)前景區(qū)可增加幀間模式分割過(guò)程的穩(wěn)固性,并加速ROI特 征檢測(cè)執(zhí)行??蓪?duì)ROI特征的搜索局限于組合前景區(qū),組合前景區(qū)包括移動(dòng)前景區(qū)和 由先前幀的面罩形成的前景區(qū)。圖17說(shuō)明從"母女"視頻序列的視頻幀的背景區(qū)提取的 移動(dòng)前景區(qū)。
ROI對(duì)象分割系統(tǒng)14可接著使用與用于執(zhí)行上文描述的幀內(nèi)模式分割大致相似的技 術(shù)來(lái)完成幀間模式分割過(guò)程。舉例來(lái)說(shuō),ROI特征檢測(cè)器100檢測(cè)由移動(dòng)前景區(qū)和先前 幀內(nèi)的面罩及面部特征位置形成的組合前景區(qū)內(nèi)的面罩以及面部特征。以此方式,背景 減除模塊112降低在整個(gè)視頻幀內(nèi)執(zhí)行ROI特征檢測(cè)的計(jì)算復(fù)雜性。對(duì)象融合模塊118 接著合并所述前景對(duì)象以形成輸出圖像。ROI對(duì)象分割模塊14將所分割幀的輸出圖像發(fā) 送到多媒體應(yīng)用程序18。
在所說(shuō)明的實(shí)施例中,在所述視頻序列期間沒(méi)有引入新的面部或面部特征。因此, ROI對(duì)象分割系統(tǒng)14可在執(zhí)行幀間模式分割時(shí)跳過(guò)特征檢驗(yàn)?zāi)K108和多面部分離模塊 108,如在ROI特征檢測(cè)器104與對(duì)象形狀近似模塊110之間延伸的虛線指示。明確地說(shuō),
如果所檢測(cè)到的面部特征位于靠近先前幀中的特征處,這意味著先前幀中的對(duì)象不呈現(xiàn) 顯著移動(dòng),那么可通過(guò)使用對(duì)象形狀近似模塊110和對(duì)象生成模塊116來(lái)快速生成當(dāng)前 幀的對(duì)象,而不需要應(yīng)用特征檢驗(yàn)?zāi)K106和多面部分離模塊108的功能。
否則,如果引入新的面部或面部特征,那么應(yīng)用整個(gè)過(guò)程,即應(yīng)用特征檢驗(yàn)?zāi)K106、 多面部分離模塊108、對(duì)象形狀近似模塊IIO和對(duì)象生成模塊116。在對(duì)象生成模塊116 中,將所連接的移動(dòng)前景區(qū)視為同類區(qū)。對(duì)象融合模塊118合并前景對(duì)象以形成輸出圖 像。ROI對(duì)象分割系統(tǒng)14將所分割幀的輸出圖像發(fā)送到多媒體應(yīng)用程序18。
面罩和面部特征檢測(cè)器100可能會(huì)在幀間模式分割期間在視頻幀內(nèi)檢測(cè)到額外的 ROI特征。在此情況下,ROI對(duì)象分割系統(tǒng)14可使用特征檢驗(yàn)?zāi)K106來(lái)檢驗(yàn)新檢測(cè)到 的面部特征。另外,系統(tǒng)14可針對(duì)視頻幀中所包括的新面部而使用多面部分離模塊108, 接著使用對(duì)象形狀近似模塊110和對(duì)象生成模塊116。
圖18是說(shuō)明執(zhí)行幀間模式分割的ROI對(duì)象分割系統(tǒng)14的操作的流程圖。本文將參 看圖15中所說(shuō)明的ROI對(duì)象分割系統(tǒng)14來(lái)描述所述操作。ROI對(duì)象分割系統(tǒng)14從視頻 源12接收視頻序列的幀,且從視頻存儲(chǔ)器16檢索所述視頻序列的先前幀(120)。在幀 間模式分割的情況下,ROI對(duì)象分割系統(tǒng)14基于當(dāng)前幀與所述視頻序列的先前幀之間的 ROI對(duì)象的運(yùn)動(dòng)信息而處理所述視頻序列的幀。在一些實(shí)施例中,ROI對(duì)象分割系統(tǒng)14 可替代地或額外地使用指示相對(duì)于后續(xù)視頻幀的ROI對(duì)象運(yùn)動(dòng)的運(yùn)動(dòng)信息。
背景減除模塊112對(duì)所接收的視頻幀執(zhí)行背景減除,以將先前幀與當(dāng)前幀之間的R01 對(duì)象內(nèi)的移動(dòng)像素分類為前景像素(122)。背景減除模塊112進(jìn)行逐像素分類過(guò)程,以 便確定當(dāng)前幀的哪些像素已從其在先前幀中的先前位置移動(dòng)。 一旦背景減除模塊112將 所述移動(dòng)像素分類為前景像素,區(qū)分割模塊114便可對(duì)前景像素執(zhí)行分裂與合并區(qū)生長(zhǎng), 以創(chuàng)建視頻幀的移動(dòng)前景區(qū)(124)。
ROI對(duì)象分割系統(tǒng)14可接著使用與用于執(zhí)行上文描述的幀內(nèi)模式分割大致類似的技 術(shù)來(lái)完成幀間模式分割過(guò)程。ROI特征檢測(cè)器104在包括移動(dòng)前景區(qū)和來(lái)自先前幀的面 罩位置兩者的區(qū)內(nèi)(即,在組合前景區(qū)內(nèi))檢測(cè)面罩(126)。此外,ROI特征檢測(cè)器104 在包括移動(dòng)前景區(qū)和先前幀內(nèi)的面部特征位置的組合前景區(qū)內(nèi)檢測(cè)面部特征(例如,候 選眼部和嘴部)(128)。
如果ROI特征檢測(cè)器104所檢測(cè)到的面部特征位于靠近在先前幀中檢測(cè)到的面部特 征處(130),那么先前幀中的對(duì)象不呈現(xiàn)顯著移動(dòng)。在此情況下,可通過(guò)使用對(duì)象形狀 近似模塊110 (136)和對(duì)象生成模塊116 (138)來(lái)快速生成當(dāng)前幀的對(duì)象,而跳過(guò)特征
檢驗(yàn)?zāi)K106 (132)和多面部分離模塊108 (134)的功能。
否則,如果ROI特征檢測(cè)器104所檢測(cè)到的面部特征不位于靠近在先前幀中檢測(cè)到 的面部特征處,那么先前幀中的對(duì)象己經(jīng)顯著移動(dòng)。在此情況下,應(yīng)用整個(gè)過(guò)程。明確 地說(shuō),特征檢驗(yàn)?zāi)K106檢驗(yàn)所檢測(cè)到的特征(132),且多面部分離模塊108執(zhí)行面部 分離(134)。接著,應(yīng)用對(duì)象形狀近似模塊110(136),接著應(yīng)用對(duì)象生成模塊116(138)。 在對(duì)象生成模塊116中,將所連接的移動(dòng)前景區(qū)視為同類區(qū)以生成所述對(duì)象(138)。對(duì) 象融合模塊118接著合并前景對(duì)象以形成輸出圖像(140)。 ROI對(duì)象分割系統(tǒng)14將所分 割幀的輸出圖像發(fā)送到多媒體應(yīng)用程序18 (142)。
本文所描述的技術(shù)可在硬件、軟件、固件或其任何組合中實(shí)施。如果在軟件中實(shí)施, 那么所述技術(shù)可部分地通過(guò)包含程序代碼的計(jì)算機(jī)可讀媒體實(shí)現(xiàn),所述程序代碼含有在 執(zhí)行時(shí)執(zhí)行上文描述的一種或一種以上方法的指令。在此情況下,計(jì)算機(jī)可讀媒體可包 含例如同步動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(SDRAM)等隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器 (ROM)、非易失性隨機(jī)存取存儲(chǔ)器(NVRAM)、電可擦除可編程只讀存儲(chǔ)器(EEPROM)、 快閃存儲(chǔ)器、磁性或光學(xué)數(shù)據(jù)存儲(chǔ)媒體等。
所述程序代碼可由可編程處理器執(zhí)行,所述可編程處理器可由一個(gè)或一個(gè)以上數(shù)字 信號(hào)處理器(DSP)、通用微處理器、專用集成電路(ASIC)、現(xiàn)場(chǎng)可編程邏輯陣列(FPGA) 或者等效集成或離散邏輯電路的其它組合實(shí)現(xiàn)。在一些實(shí)施例中,本文所描述的功能性 可在經(jīng)配置以用于自動(dòng)對(duì)象分割的專用軟件模塊或硬件單元內(nèi)提供或并入在自動(dòng)對(duì)象分 割系統(tǒng)中。
在本發(fā)明中,已經(jīng)針對(duì)從視頻序列自動(dòng)分割ROI對(duì)象而描述了各種技術(shù)。ROI對(duì)象 分割系統(tǒng)可單獨(dú)或組合實(shí)施一種或一種以上所揭示的技術(shù),以提供經(jīng)準(zhǔn)確分割的ROI對(duì) 象以供用于多媒體應(yīng)用程序,例如VT應(yīng)用程序、視頻串流應(yīng)用程序或視頻監(jiān)視應(yīng)用程 序。
所揭示的技術(shù)包括包含ROI特征檢測(cè)、區(qū)分割和背景減除的混合技術(shù)。所揭示的技 術(shù)可包括幀內(nèi)模式和幀間模式對(duì)象分割兩者。幀間模式分割通過(guò)使用背景建模和減除而 非常規(guī)計(jì)算密集型運(yùn)動(dòng)估計(jì)操作來(lái)利用視頻序列的連續(xù)視頻幀的時(shí)間相關(guān),以加速ROI 對(duì)象分割系統(tǒng)的執(zhí)行。所揭示的技術(shù)還包括面部特征檢驗(yàn)、多面部分離和ROI對(duì)象生成 以加速ROI對(duì)象分割系統(tǒng)執(zhí)行幀內(nèi)模式分割。這些和其它實(shí)施例屬于所附權(quán)利要求書(shū)的 范圍內(nèi)。
權(quán)利要求
1.一種方法,其包含接收視頻序列的視頻幀;向所述視頻幀應(yīng)用一個(gè)或一個(gè)以上分割模式?jīng)Q策因素,以從至少第一分割模式和第二分割模式中選擇分割模式;當(dāng)選擇所述第一分割模式時(shí),在不參考所述視頻幀的運(yùn)動(dòng)信息的情況下從所述視頻幀分割關(guān)注區(qū)(ROI)對(duì)象;以及當(dāng)選擇所述第二分割模式時(shí),基于所述視頻幀和所述視頻序列的不同視頻幀的運(yùn)動(dòng)信息而從所述視頻幀分割ROI對(duì)象。
2. 根據(jù)權(quán)利要求1所述的方法,其中所述不同視頻幀是所述視頻序列中的先前視頻 幀。
3. 根據(jù)權(quán)利要求1所述的方法,其中應(yīng)用所述一個(gè)或一個(gè)以上分割模式?jīng)Q策因素包含 確定所述視頻幀的計(jì)算復(fù)雜性,且當(dāng)所述計(jì)算復(fù)雜性高于預(yù)定水平時(shí),選擇所述第 一分割模式。
4. 根據(jù)權(quán)利要求3所述的方法,其中確定所述計(jì)算復(fù)雜性包含確定所述視頻幀內(nèi)的 ROI特征的數(shù)目。
5. 根據(jù)權(quán)利要求1所述的方法,其中應(yīng)用所述一個(gè)或一個(gè)以上分割模式?jīng)Q策因素包含 從最終用戶確定對(duì)所述視頻幀的所需分割質(zhì)量,且當(dāng)所述所需分割質(zhì)量高于預(yù)定水 平時(shí),選擇所述第一分割模式。
6. 根據(jù)權(quán)利要求1所述的方法,其中應(yīng)用所述一個(gè)或一個(gè)以上分割模式?jīng)Q策因素包含 確定所述視頻幀與所述視頻序列的所述不同視頻幀之間的相似量,且當(dāng)所述相似量 低于預(yù)定水平時(shí),選擇所述第一分割模式。
7. 根據(jù)權(quán)利要求6所述的方法,其中確定所述相似量包含將所述視頻幀的第一色彩直 方圖與所述不同視頻幀的第二色彩直方圖進(jìn)行比較,以確定所述第一與第二色彩直 方圖之間的相似量。
8. 根據(jù)權(quán)利要求1所述的方法,其中應(yīng)用所述一個(gè)或一個(gè)以上分割模式?jīng)Q策因素包含 確定所述視頻幀與所述視頻序列的所述不同視頻幀之間的運(yùn)動(dòng)活動(dòng)量,且當(dāng)所述運(yùn) 動(dòng)活動(dòng)量高于預(yù)定水平時(shí),選擇所述第一分割模式。
9. 根據(jù)權(quán)利要求8所述的方法,其中確定所述運(yùn)動(dòng)活動(dòng)量包含將所述視頻幀內(nèi)的所述 ROI對(duì)象的第一位置與所述不同視頻幀內(nèi)的所述ROI對(duì)象的第二位置進(jìn)行比較以 確定所述第一與第二位置之間的移動(dòng)量。
10. 根據(jù)權(quán)利要求1所述的方法,其中所述不同視頻幀緊接在所述視頻序列的所述視頻 幀之前,其中應(yīng)用所述一個(gè)或一個(gè)以上分割模式?jīng)Q策因素包含確定用于分割所述視 頻序列的所述不同視頻幀的所述分割模式,且當(dāng)所述不同視頻幀在所述第一分割模 式下分割時(shí),選擇所述第二分割模式。
11. 根據(jù)權(quán)利要求1所述的方法,其中應(yīng)用所述一個(gè)或一個(gè)以上分割模式?jīng)Q策因素包含 確定所述視頻序列中的在所述第二分割模式下分割的連續(xù)視頻幀的數(shù)目,且當(dāng)所述 連續(xù)第二分割模式視頻幀數(shù)目高于預(yù)定水平時(shí),選擇所述第一分割模式。
12. —種計(jì)算機(jī)可讀媒體,其包含使所述可編程處理器執(zhí)行以下操作的指令接收視頻序列的視頻幀;向所述視頻幀應(yīng)用一個(gè)或一個(gè)以上分割模式?jīng)Q策因素,以從至少第一分割模式和 第二分割模式中選擇分割模式;當(dāng)選擇所述第一分割模式時(shí),在不參考所述視頻幀的運(yùn)動(dòng)信息的情況下從所述視 頻幀分割關(guān)注區(qū)(ROI)對(duì)象;以及當(dāng)選擇所述第二分割模式時(shí),基于所述視頻幀和所述視頻序列的不同視頻幀的運(yùn) 動(dòng)信息而從所述視頻幀分割ROI對(duì)象。
13. 根據(jù)權(quán)利要求12所述的計(jì)算機(jī)可讀媒體,其中所述指令使所述可編程處理器確定 所述視頻幀的計(jì)算復(fù)雜性,且當(dāng)所述計(jì)算復(fù)雜性高于預(yù)定水平時(shí),選擇所述第一分 割模式。
14. 根據(jù)權(quán)利要求13所述的計(jì)算機(jī)可讀媒體,其中所述指令使所述可編程處理器確定 所述視頻幀內(nèi)的ROI特征的數(shù)目。
15. 根據(jù)權(quán)利要求12所述的計(jì)算機(jī)可讀媒體,其中所述指令使所述可編程處理器從最 終用戶確定對(duì)所述視頻幀的所需分割質(zhì)量,且當(dāng)所述所需分割質(zhì)量高于預(yù)定水平 時(shí),選擇所述第一分割模式。
16. 根據(jù)權(quán)利要求12所述的計(jì)算機(jī)可讀媒體,其中所述指令使所述可編程處理器確定 所述視頻幀與所述視頻序列的所述不同視頻幀之間的相似量,且當(dāng)所述相似量低于 預(yù)定水平時(shí),選擇所述第一分割模式。
17. 根據(jù)權(quán)利要求16所述的計(jì)算機(jī)可讀媒體,其中所述指令使所述可編程處理器將所 述視頻幀的第一色彩直方圖與所述不同視頻幀的第二色彩直方圖進(jìn)行比較,以確定 所述第一與第二色彩直方圖之間的相似量。
18. 根據(jù)權(quán)利要求12所述的計(jì)算機(jī)可讀媒體,其中所述指令使所述可編程處理器確定 所述視頻幀與所述視頻序列的所述不同視頻幀之間的運(yùn)動(dòng)活動(dòng)量,且當(dāng)所述運(yùn)動(dòng)活 動(dòng)量高于預(yù)定水平時(shí),選擇所述第一分割模式。
19. 根據(jù)權(quán)利要求18所述的計(jì)算機(jī)可讀媒體,其中所述指令使所述可編程處理器將所 述視頻幀內(nèi)的所述ROI對(duì)象的第一位置與所述不同視頻幀內(nèi)的所述ROI對(duì)象的第 二位置進(jìn)行比較以確定所述第一與第二位置之間的移動(dòng)量。
20. 根據(jù)權(quán)利要求12所述的計(jì)算機(jī)可讀媒體,其中所述不同視頻幀緊接在所述視頻序 列的所述視頻幀之前,其中所述指令使所述可編程處理器確定用于分割所述視頻序 列的所述不同視頻幀的所述分割模式,且當(dāng)所述不同視頻幀在所述第一分割模式下 分割時(shí),選擇所述第二分割模式。
21. 根據(jù)權(quán)利要求12所述的計(jì)算機(jī)可讀媒體,其中所述指令使所述可編程處理器確定 所述視頻序列中的在所述視頻幀之前在所述第二分割模式下分割的連續(xù)視頻幀的 數(shù)目,且當(dāng)所述連續(xù)第二分割模式視頻幀數(shù)目高于預(yù)定水平時(shí),選擇所述第一分割 模式。
22. —種包括處理器的視頻編碼裝置,所述處理器經(jīng)編程以執(zhí)行以下操作接收視頻序列的視頻幀;向所述視頻幀應(yīng)用一個(gè)或一個(gè)以上分割模式?jīng)Q策因素,以從至少第一分割模式和 第二分割模式中選擇分割模式;當(dāng)選擇所述第一分割模式時(shí),在不參考所述視頻幀的運(yùn)動(dòng)信息的情況下從所述視 頻幀分割關(guān)注區(qū)(ROI)對(duì)象;以及當(dāng)選擇所述第二分割模式時(shí),基于所述視頻幀和所述視頻序列的不同視頻幀的運(yùn) 動(dòng)信息而從所述視頻幀分割ROI對(duì)象。
23. 根據(jù)權(quán)利要求22所述的裝置,其中所述處理器確定所述視頻幀的計(jì)算復(fù)雜性,且 當(dāng)所述計(jì)算復(fù)雜性高于預(yù)定水平時(shí),選擇所述第一分割模式。
24. 根據(jù)權(quán)利要求23所述的計(jì)算機(jī)可讀媒體,其中所述處理器確定所述視頻幀內(nèi)的R01 特征的數(shù)目。
25. 根據(jù)權(quán)利要求22所述的裝置,其中所述處理器從最終用戶確定對(duì)所述視頻幀的所 需分割質(zhì)量,且當(dāng)所述所需分割質(zhì)量高于預(yù)定水平時(shí),選擇所述第一分割模式。
26. 根據(jù)權(quán)利要求22所述的裝置,其中所述處理器確定所述視頻幀與所述視頻序列的 所述不同視頻幀之間的相似量,且當(dāng)所述相似量低于預(yù)定水平時(shí),選擇所述第一分 割模式。
27. 根據(jù)權(quán)利要求26所述的裝置,其中所述處理器將所述視頻幀的第一色彩直方圖與 所述不同視頻幀的第二色彩直方圖進(jìn)行比較,以確定所述第一與第二色彩直方圖之 間的相似量。
28. 根據(jù)權(quán)利要求22所述的裝置,其中所述處理器確定所述視頻幀與所述視頻序列的 所述不同視頻幀之間的運(yùn)動(dòng)活動(dòng)量,且當(dāng)所述運(yùn)動(dòng)活動(dòng)量高于預(yù)定水平時(shí),選擇所 述第一分割模式。
29. 根據(jù)權(quán)利要求28所述的裝置,其中所述處理器將所述視頻幀內(nèi)的所述ROI對(duì)象的 第一位置與所述不同視頻幀內(nèi)的所述ROI對(duì)象的第二位置進(jìn)行比較以確定所述第 一與第二位置之間的移動(dòng)量。
30. 根據(jù)權(quán)利要求22所述的裝置,其中所述不同視頻幀緊接在所述視頻序列的所述視 頻幀之前,且其中所述處理器確定用于分割所述視頻序列的所述不同視頻幀的所述 分割模式,且當(dāng)所述不同視頻幀在所述第一分割模式下分割時(shí),選擇所述第二分割 模式。
31. 根據(jù)權(quán)利要求22所述的裝置,其中所述處理器確定所述視頻序列中的在所述視頻 幀之前在所述第二分割模式下分割的連續(xù)視頻幀的數(shù)目,且當(dāng)所述連續(xù)第二分割模 式視頻幀數(shù)目高于預(yù)定水平時(shí),選擇所述第一分割模式。
全文摘要
本發(fā)明針對(duì)用于從視頻序列自動(dòng)分割關(guān)注區(qū)(ROI)視頻對(duì)象的技術(shù)。ROI對(duì)象分割使得能夠從視頻序列的非ROI或“背景”區(qū)域中提取所述視頻序列中觀看者可能關(guān)注的選定ROI或“前景”對(duì)象。ROI對(duì)象的實(shí)例是人類面部或人體的頭部及肩部區(qū)域。所揭示的技術(shù)包括組合ROI特征檢測(cè)、區(qū)分割和背景減除的混合技術(shù)。以此方式,所述揭示的技術(shù)可生成準(zhǔn)確的前景對(duì)象和從所述視頻序列中對(duì)所述前景對(duì)象實(shí)施低復(fù)雜性提取。ROI對(duì)象分割系統(tǒng)可實(shí)施本文所描述的技術(shù)。另外,ROI對(duì)象分割可用于各種各樣的利用視頻序列的多媒體應(yīng)用程序,例如視頻電話應(yīng)用程序和視頻監(jiān)視應(yīng)用程序。
文檔編號(hào)G06T7/20GK101375312SQ200780003783
公開(kāi)日2009年2月25日 申請(qǐng)日期2007年2月7日 優(yōu)先權(quán)日2006年2月7日
發(fā)明者哈立德·希勒米·厄勒-馬列, 王浩宏 申請(qǐng)人:高通股份有限公司