基于全局顯著邊緣區(qū)域的人體動(dòng)作特征提取方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明屬于視頻分析領(lǐng)域,涉及一種人體行為自動(dòng)識(shí)別方法,具體涉及基于全局 顯著邊緣區(qū)域的人體動(dòng)作特征提取方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的不斷發(fā)展、視頻監(jiān)控系統(tǒng)的不斷推廣,視頻數(shù)據(jù)量急劇增長。面對(duì)海 量涌現(xiàn)的視頻數(shù)據(jù),如何分析視頻人體行為成為一個(gè)亟待解決的問題。由于視頻數(shù)據(jù)容易 受到前景運(yùn)動(dòng)區(qū)域不明晰、相機(jī)抖動(dòng)幅度大、場景環(huán)境復(fù)雜的影響,使得人體運(yùn)動(dòng)在視頻數(shù) 據(jù)中存在大量的噪聲角點(diǎn),導(dǎo)致視頻幀的關(guān)鍵特征點(diǎn)提取不準(zhǔn)確,人體行為識(shí)別精度受限。
[0003] 人體動(dòng)作特征提取是人體行為識(shí)別的重要組成部分,屬于視頻分析領(lǐng)域的一項(xiàng)重 要研究內(nèi)容,其目的是讓計(jì)算機(jī)自動(dòng)提取人體動(dòng)作特征,自動(dòng)判斷預(yù)測人體行為。因此,有 效的動(dòng)作特征提取方法有利于提高動(dòng)作識(shí)別的精度。
[0004] 目前人體動(dòng)作特征提取方法分為3類:基于單幀圖像或者多幀視頻流提取底層局 部時(shí)空興趣點(diǎn)的方法、基于中層語義學(xué)習(xí)的動(dòng)作特征屬性描述方法和基于高層語義特征點(diǎn) 追蹤與肢體可變形模板的方法。
[0005] 基于底層局部時(shí)空興趣點(diǎn)的方法需要對(duì)目標(biāo)物體進(jìn)行局部時(shí)空興趣點(diǎn)的提取,并 且結(jié)合一定的光流運(yùn)動(dòng)估計(jì)來獲得對(duì)目標(biāo)物體運(yùn)動(dòng)建模,并輔以各種描述算子表達(dá)肢體動(dòng) 作。這類方法的缺陷在于容易受到背景噪聲、相機(jī)抖動(dòng)和目標(biāo)遮擋的影響,而且缺乏對(duì)人體 行為全局特征和行為模型整體性的分析和理解。
[0006] 基于中層語義學(xué)習(xí)的方法通常在提取出底層局部動(dòng)作特征的基礎(chǔ)上,常通過前景 顯著區(qū)域、運(yùn)動(dòng)目標(biāo)檢測、物體輪廓分割、判別字典學(xué)習(xí)、多通道特征融合、卷積神經(jīng)網(wǎng)絡(luò)等 方法,對(duì)底層動(dòng)作特征進(jìn)行更高層次的語義特征建模,獲取多幀視頻流中目標(biāo)物體運(yùn)動(dòng)的 全局或局部時(shí)空特征表達(dá)。這種方法的問題在于高度依賴輸入特征的表達(dá)能力和中層語義 學(xué)習(xí)算法框架的性能。
[0007] 基于高層語義特征點(diǎn)的方法依賴于人工手動(dòng)標(biāo)注或者體感相機(jī),標(biāo)定人體的骨骼 關(guān)節(jié)點(diǎn)進(jìn)行實(shí)時(shí)追蹤,并構(gòu)建出肢體樹形結(jié)構(gòu)模型或者可變形模板,結(jié)合關(guān)節(jié)點(diǎn)運(yùn)動(dòng)歷史 和常用描述算子表征人體動(dòng)作特征。這種方法的缺陷在于需要憑借人類經(jīng)驗(yàn)花費(fèi)大量時(shí)間 標(biāo)注視頻樣本,或者依靠智能體感設(shè)備標(biāo)定骨骼關(guān)節(jié)點(diǎn)。
[0008] 與動(dòng)作特征提取方法相關(guān)的專利列舉如下:
[0009] 人體交互領(lǐng)域:2015年中科院自動(dòng)化所公開發(fā)明專利《人體動(dòng)作采集和動(dòng)作識(shí)別 系統(tǒng)及其控制方法》,該發(fā)明使用無線收發(fā)器和3軸加速度傳感器電路來獲取人體動(dòng)作,旨 在提高舞臺(tái)表演和演講的效果;2015年西安電子科技大學(xué)公開發(fā)明專利《一種基于動(dòng)作識(shí) 別的智能手表及動(dòng)作識(shí)別方法》,該發(fā)明通過設(shè)定人體前臂手勢動(dòng)作對(duì)智能手表進(jìn)行控制 操作;2015年北京智谷睿拓公司公開發(fā)明專利《頭部動(dòng)作確定方法和裝置》,該發(fā)明通過獲 取所述人體的腦電檢測信息,確定與所述腦電檢測信息對(duì)應(yīng)的頭部動(dòng)作;2015年聯(lián)想(北 京)有限公司公布發(fā)明專利《一種動(dòng)作識(shí)別方法、裝置及電子設(shè)備》,該發(fā)明增加了動(dòng)作獲取 的觸發(fā)條件,只有在監(jiān)測區(qū)域內(nèi)與所述電子設(shè)備物理距離滿足條件時(shí)才觸發(fā)動(dòng)作識(shí)別。
[0010] 視頻分析領(lǐng)域:2015年浙江工業(yè)大學(xué)公開發(fā)明專利《一種基于時(shí)間金字塔局部匹 配窗口的動(dòng)作識(shí)別方法》,該發(fā)明從立體相機(jī)獲得的人體深度圖中提取出3D關(guān)節(jié)點(diǎn),用姿態(tài) 之間的3D位移差作為每幀深度圖的特征表達(dá);2015年北京中科盤古科技公司公布發(fā)明專利 《基于空間分割學(xué)習(xí)的人體肢體姿勢動(dòng)作識(shí)別方法》,該發(fā)明通過人體關(guān)節(jié)數(shù)據(jù)與所建立特 定姿勢序列數(shù)據(jù)庫進(jìn)行匹配比對(duì);2015年西南科技大學(xué)公開發(fā)明專利《一種姿勢序列有限 狀態(tài)機(jī)動(dòng)作識(shí)別方法》,該發(fā)明將Kinect傳感器獲取的肢體節(jié)點(diǎn)數(shù)據(jù)進(jìn)行坐標(biāo)變換,采用統(tǒng) 一的空間網(wǎng)格模型對(duì)變換數(shù)據(jù)進(jìn)行度量;2015年中科院計(jì)算所公布發(fā)明專利《一種基于時(shí) 序信息的跨視角動(dòng)作識(shí)別方法及系統(tǒng)》,該發(fā)明將興趣點(diǎn)運(yùn)動(dòng)強(qiáng)度作為特征描述,結(jié)合源視 角視頻的源粗粒度標(biāo)注信息以獲得目標(biāo)粗粒度信息。
[0011 ]基于顯著性分析的視頻分析領(lǐng)域:2015年西南科技大學(xué)公布發(fā)明專利《一種基于 STDF特征的人體行為識(shí)別算法》,該發(fā)明利用視頻圖像的深度信息確定人體運(yùn)動(dòng)顯著性區(qū) 域,通過計(jì)算區(qū)域內(nèi)光流作為度量區(qū)域活躍度的能量函數(shù),對(duì)運(yùn)動(dòng)顯著性區(qū)域進(jìn)行高斯取 樣,使樣本點(diǎn)分布于運(yùn)動(dòng)劇烈區(qū)域,將采集到的樣本點(diǎn)作為動(dòng)作底層特征;蘇州大學(xué)公布發(fā) 明專利《基于閾值矩陣和特征融合視覺單詞的人物行為識(shí)別方法》,該發(fā)明通過視頻幀顯著 度取得人物區(qū)域位置,再對(duì)區(qū)域內(nèi)外采取不同的閾值檢測出興趣點(diǎn)作為動(dòng)作特征;2015年 南京郵電大學(xué)公布發(fā)明專利《一種基于RGB-D視頻的人體行為識(shí)別方法》,該發(fā)明從RGB-D視 頻分別提取稠密MovingPose特征、SH0PC特征和H0G3D特征,采用邊緣限制的多核學(xué)習(xí)方法 對(duì)三種特征進(jìn)行特征融合;2014年天津大學(xué)公布發(fā)明專利《一種基于局部特征的人體動(dòng)作 識(shí)別方法》,該發(fā)明從動(dòng)作圖像序列中提取時(shí)空興趣點(diǎn)特征和坐標(biāo),通過劃分人體區(qū)域分別 訓(xùn)練詞袋字典模型來給局部特征編碼。
【發(fā)明內(nèi)容】
[0012] 為了解決上述技術(shù)問題,本發(fā)明的目的是提供一種基于全局顯著邊緣區(qū)域的人體 動(dòng)作特征提取方法。
[0013] 本發(fā)明所采用的技術(shù)方案是:基于全局顯著邊緣區(qū)域的人體動(dòng)作特征提取方法, 其特征在于,包括以下步驟:
[0014] 步驟1:減少RGB色彩空間的顏色數(shù)量,平滑顏色空間的顯著度;
[0015]步驟2:根據(jù)相鄰區(qū)域的空間關(guān)系計(jì)算顯著性區(qū)域;
[0016]步驟3:采用二值化閾值分割前景顯著區(qū)域;
[0017] 步驟4:對(duì)分割出的前景區(qū)域做形態(tài)學(xué)梯度變化,生成全局顯著邊緣區(qū)域;
[0018] 步驟5:通過特征點(diǎn)對(duì)和隨機(jī)采樣一致性修正光流場;
[0019] 步驟6:遍歷視頻幀不同尺度下所有網(wǎng)格提取強(qiáng)角點(diǎn);
[0020] 步驟7:在顯著邊緣區(qū)域中采集修正光流幅值不為零的強(qiáng)角點(diǎn)作為關(guān)鍵特征強(qiáng)角 占.
[0021] 步驟8:檢查步驟7獲得的關(guān)鍵特征強(qiáng)角點(diǎn)數(shù)目,如果數(shù)目為零則取步驟6的強(qiáng)角點(diǎn) 作為關(guān)鍵特征強(qiáng)角點(diǎn);
[0022] 步驟9:根據(jù)修正光流場計(jì)算關(guān)鍵特征強(qiáng)角點(diǎn)的位移;
[0023] 步驟10:用強(qiáng)角點(diǎn)連續(xù)多幀的坐標(biāo)位移軌跡,以及角點(diǎn)鄰域梯度矢量組成人體動(dòng) 作局部時(shí)空特征。
[0024] 所述步驟1中,減少RGB色彩空間的顏色數(shù)量,平滑顏色空間的顯著度;具體實(shí)現(xiàn)過 程為:
[0025] 定義圖像I中第k個(gè)像素 Ik的顯著度S( ·)為:
[0027]其中D(Ik,L·)為像素 Ik和像素在顏色空間的距離度量;
[0028]先將RGB色彩空間3個(gè)通道的顏色量化到12個(gè)不同的值,使圖像像素的顏色數(shù)量減 少到123 = 1728;接著通過選擇高頻出現(xiàn)的顏色,將顏色數(shù)量減少到η = 85,確保這些顏色覆 蓋95%以上的像素;然后對(duì)每個(gè)量化后顏色c的顯著度進(jìn)行平滑操作,用m個(gè)近鄰顏色顯著 性的加權(quán)平均值改善顯著度,公式如下:
[0030]其中r = 為顏色c和m個(gè)近鄰顏色Cl之間的距離。
[0031]所述步驟2中,根據(jù)相鄰區(qū)域的空間關(guān)系計(jì)算顯著性區(qū)域;實(shí)現(xiàn)過程為:
[0032]先使用圖像分割算法將輸入視頻幀分成多個(gè)區(qū)域,并為每個(gè)區(qū)域建立起顏色直方 圖;對(duì)于每個(gè)區(qū)域rk,通過與其它區(qū)域的顏色對(duì)比度來計(jì)算顯著度,公式如下:
[0034]其中w(ri)為圖像中第i個(gè)區(qū)域的像素總數(shù),表示區(qū)域Γι的權(quán)重,以此強(qiáng)調(diào)大區(qū)域的 顏色對(duì)比度;Dr( ·,·)為兩個(gè)區(qū)域的顏色距離;兩個(gè)區(qū)域^和^的顏色距離為:
[0036] 其中C1>1為區(qū)域r沖第i個(gè)像素的顏色值,f(C1>1)表示C1>1在圖像I中出現(xiàn)的概率; C2, j為區(qū)域Γ2中第j個(gè)像素的顏色值,f (C2,j)表不C2, j在圖像I中出現(xiàn)的概率;D(Cl,i,C2, j)表 示兩個(gè)像素 C1, i和的顏色距離;
[0037] 然后在公式(3)的基礎(chǔ)上再加上相鄰空間信息,增大近鄰空間區(qū)域的影響,見公 式:
[0039] 其中Ds(ri,rk)為區(qū)域r 的空間距離(即兩個(gè)區(qū)域重心的歐氏距離), 〇s為顏色 空間權(quán)重強(qiáng)度。
[0040] 所述步驟3中,采用二值化閾值分割前景顯著區(qū)域;實(shí)現(xiàn)過程為:將公式(5)計(jì)算出 的視頻幀顯著區(qū)域,從浮點(diǎn)型數(shù)據(jù)轉(zhuǎn)換為8位無符號(hào)灰度圖,通過設(shè)定一個(gè)[0,255]的閾值 進(jìn)行二值化操作,以得出的二值化圖像作為輸入視頻幀的前景區(qū)域RCmap。
[0041] 所述步驟4中,對(duì)分割出的前景區(qū)域做形態(tài)學(xué)梯度變化,生成新的全局顯著邊緣區(qū) 域RCBmap;實(shí)現(xiàn)過程為:用以下公式對(duì)RCmap做形態(tài)學(xué)梯度變化:
[0042] RCBmap =morphgrad(RCmap) = dilate(RCmap)-erode(RCmap), (6)
[0043] 其中morphgrad( ·)表示形態(tài)學(xué)梯度操作,dilate( ·)和erode( ·)分別表示膨脹 和腐蝕操作。
[0044] 所述步驟5中,通過特征點(diǎn)對(duì)和隨機(jī)采樣一致性修正光流場;實(shí)現(xiàn)過程為:先用 Famcbdck算法求出當(dāng)前視頻幀的稠密光流場矢量ω t,通過前后兩幀的SURF特征點(diǎn)和關(guān)鍵 特征強(qiáng)角點(diǎn)組成特征點(diǎn)對(duì),再用RANSAC算法和這些特征點(diǎn)對(duì)求