專利名稱:人體動作識別的訓(xùn)練方法和識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及視頻分析領(lǐng)域,特別涉及人體動作識別的訓(xùn)練方法和識別方法。
背景技術(shù):
近年來,隨著影視、網(wǎng)絡(luò)等媒體的迅速普及和發(fā)展,視頻已經(jīng)成為承載信息的主要 工具,且視頻數(shù)據(jù)的數(shù)目呈爆炸式增長,每時每刻都會有大量新的內(nèi)容產(chǎn)生。面對海量涌現(xiàn) 的視頻數(shù)據(jù),如何去自動獲取、分析其中包含的信息,理解其中發(fā)生的動作、行為或是事件 成了一個亟待解決的問題。大多數(shù)視頻記錄的是作為社會活動主體的人的活動,如何使計算機(jī)能夠“看”視頻 或“理解”視頻中人的動作,成為了計算機(jī)視覺、圖像處理、模式識別、機(jī)器學(xué)習(xí)、人工智能等 多個學(xué)科共同關(guān)注的問題,具有深遠(yuǎn)的理論研究意義和很強(qiáng)的實用價值,對人機(jī)交互、虛擬 現(xiàn)實和基于內(nèi)容的視頻檢索、壓縮編碼等方面都有重要意義。另一方面,一個標(biāo)準(zhǔn)的視頻監(jiān) 控系統(tǒng)通常有幾十路甚至上千路視頻及相應(yīng)的數(shù)字錄像數(shù)據(jù),如果僅通過人工方式,由操 作人員通過觀測每一路視頻從而發(fā)現(xiàn)報警事件很不現(xiàn)實,且這種事后分析的方法,需要消 耗操作人員大量的時間來找出相應(yīng)片段。解決以上問題的一個有效方法是對視頻中人的動 作和行為進(jìn)行自動識別,提取和記錄用戶感興趣的動作事件,從而達(dá)到及時報警和有效檢 索視頻數(shù)據(jù)的目的?;谝曨l的人體動作識別就是通過計算機(jī)來對視頻數(shù)據(jù)進(jìn)行處理和分析,學(xué)習(xí)理 解其中人的動作和行為,在運動檢測、特征提取的基礎(chǔ)之上,通過分析獲得人體運動模式, 在視頻內(nèi)容和動作類型描述之間建立映射關(guān)系。在現(xiàn)有技術(shù)中,對視頻中人體動作識別的 相關(guān)方法依據(jù)人體動作建模方法的不同,大體上可以分為三類非參數(shù)方法、參數(shù)化時間序 列方法以及立方體(Volumetric)分析方法。非參數(shù)方法通常以單幀圖像為單位從視頻中 提取特征,然后將這些特征與存儲的動作模板(template)進(jìn)行匹配;參數(shù)化時間序列的方 法對運動的動態(tài)過程用一個特定模型來擬合,如隱馬爾可夫模型(HMMS,hidden Markov Models),線性動態(tài)系統(tǒng)(LDSs,Linear DynamicalSystems)等,通過對訓(xùn)練樣本數(shù)據(jù)的學(xué)習(xí) 來獲得每類動作特定的模型參數(shù);而立方體分析方法不再將視頻視為一幀一幀圖像組成的 時序序列,而是作為一個三維的時空立方體來處理?,F(xiàn)有的立方體分析方法中,研究者開始把視頻時空體看作是一些局部部分的 集合,而其中的每個局部部分可以包含不同的動作類型,因而對動作的描述更加靈活 而有效。目前較有影響力也被廣泛采用的是由Neibels在2006年BMVC上發(fā)表的論 文"J. C. Niebles, H. Wang, and L. Fei-Fei,"UnsupervisedLearning of Human Action Categories Using Spatial-Temporal Words", In Proc. British Machine Vision Conference (BMVC),2006” (參考文獻(xiàn)1)中所提出的Bag-of-Words (Boffs)模型,該模型將 人的動作表示成通過訓(xùn)練數(shù)據(jù)預(yù)先生成的碼本中獨立碼字的集合,然后通過對這些碼字的 識別來實現(xiàn)對人體動作的識別。此方法的缺點在于,視頻中包含的時間信息在圖像處理的 過程中丟失,因此無法利用時間信息輔助實現(xiàn)對人體動作的識別。
很多研究表明,在圖像表示技術(shù)的基礎(chǔ)之上,時間信息可以集成到興趣點的檢測 器和描述子中,進(jìn)而擴(kuò)展到對視頻中的興趣點進(jìn)行定位和描述。Laptev和Lindeberg在 參考文獻(xiàn) 2 "I. Laptev, "On space-time interest points", International Journal of Computer Vision (IJCV),vol. 64,no. 2 or 3,pp. 107-123,2005” 中提出一種三維 興趣點檢測器,通過對Harris角點檢測器增加一些時間約束從而達(dá)到在時空維度中檢 測局部結(jié)構(gòu)的目的,用這種方法檢測到的興趣點在時間維度和空間維度上都有很大的變 化。在這項研究的基礎(chǔ)上,Scovanner在參考文獻(xiàn)3 "P. Scovanner, S. Ali, and Μ. Shah, ‘‘A3_dimensional sift descriptor and its application to action recognition,,, ACMMultimedia, pp. 357-360,2007” 中做了進(jìn)一步擴(kuò)展,他通過利用 sub-histogram 來對 局部的時間和空間信息進(jìn)行編碼,構(gòu)造出三維的SIFT描述子。這種檢測興趣點的方法存 在的問題是,有時候檢測到的點很少,而不足以捕獲人體動作的全部特征,進(jìn)而導(dǎo)致識別性 能的下降。Dollar 則在參考文獻(xiàn) 4 "P. Dollar, V. Rabaud, G. Cottrell, and S. Belongie, "Behavior recognitionvia sparse spatio-temporal featuresInternational Workshop on VisualSurveillance and Performance Evaluation of Tracking and Surveillance(VS-PETS),pp. 65-72,2005”中采用可分離的線性濾波的方法來取代這種時 空域興趣點檢測的方法,在空域采用二維的高斯濾波,在時域上采用兩個正交的一維Gabor 濾波器來檢測運動特征。由于這些特征是基于線性操作產(chǎn)生的,如濾波及時空梯度等,因 此這些描述子對外觀的改變,噪聲以及遮擋等很敏感,而由于它們的局部特性,對非平穩(wěn)背 景比較魯棒。上述描述子可以和機(jī)器學(xué)習(xí)算法(如SVM及圖模型等)相結(jié)合,用于人體動作的 檢測和識別。Schuldt 在參考文獻(xiàn) 5 "C. Schuldt, I. Laptev, and B. Caputo,"Recognizing human actions -.a local svm approach", In InternationalConference on Pattern Recognition (CVPR),2004”中采用前述參考文獻(xiàn)2中的局部描述子,結(jié)合SVM對拳擊、拍手、 揮手、走、跑和慢跑等六類動作進(jìn)行識別并取得了較好的結(jié)果。但這些早期的研究還只是局 限于受限場景下的人體動作識別,比如特定的視角、動作人、背景和光照,在自然場景下,取 消上述種種限制的情況下,該方法的性能急劇下降甚至不再適用。
發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有的人體動作識別方法受到自然環(huán)境限制的缺陷,從而提 供一種人體動作識別的訓(xùn)練方法和識別方法。為了實現(xiàn)上述目的,本發(fā)明提供了 一種人體動作識別的訓(xùn)練方法,包括步驟1)、從視頻文件中提取時空興趣點;步驟2)、將步驟1)得到的所有時空興趣點根據(jù)其所包含的特征描述子量化到相 應(yīng)的視頻單詞上,并為所述視頻單詞生成統(tǒng)計直方圖;所述視頻單詞為所有時空興趣點的 特征描述子所構(gòu)成的集合中,子集聚類后的結(jié)果;步驟3)、根據(jù)視頻單詞所在時空鄰域內(nèi)的時空上下文信息得到該視頻單詞所在時 空鄰域內(nèi)的其它視頻單詞,由該視頻單詞與某一滿足時空約束的其它視頻單詞形成時空視 頻詞組;步驟4)、對視頻單詞所在時空鄰域內(nèi)的時空上下文做聚類,得到語境單詞,由所述視頻單詞與所述語境單詞形成時空視頻單詞團(tuán)體;步驟5)、從所述時空視頻詞組中選擇代表性時空視頻詞組,從所述時空視頻單詞 團(tuán)體中選擇代表性時空視頻單詞團(tuán)體;步驟6)、利用所述視頻單詞、代表性時空視頻詞組、代表性時空視頻單詞團(tuán)體中的 一種特征或?qū)⒍喾N特征融合后的結(jié)果訓(xùn)練分類器。上述技術(shù)方案中,所述的步驟2)包括步驟2-1)、從所有時空興趣點的特征描述子構(gòu)成的集合中通過隨機(jī)抽樣得到子 集;步驟2-2)、將所述子集聚類到K個視頻單詞,所述K個視頻單詞形成一視頻單詞詞 典,所述視頻單詞詞典中的各個視頻單詞分別用相應(yīng)的標(biāo)號表示;步驟2-3)、所述時空興趣點通過距離度量找到所述視頻單詞詞典中與該時空興趣 點距離最近的視頻單詞,并將該視頻單詞的標(biāo)號賦給相應(yīng)的時空興趣點;步驟2-4)、為所述時空興趣點生成統(tǒng)計直方圖,所述統(tǒng)計直方圖的橫坐標(biāo)表示視 頻單詞的類型,縱坐標(biāo)表示視頻單詞出現(xiàn)的次數(shù)。上述技術(shù)方案中,所述的步驟3)包括步驟3-1)、由時空興趣點提取過程中的局部時空立方體找到相應(yīng)的時空鄰域;步驟3-2)、由所述時空鄰域內(nèi)的視頻單詞的分布直方圖得到時空上下文信息;步驟3-3)、將所述視頻單詞與其時空上下文內(nèi)的任一其它視頻單詞形成時空視頻 詞組。上述技術(shù)方案中,所述的步驟4)包括步驟4-1)、將視頻單詞周圍的鄰域立方體內(nèi)計算的視頻單詞的分布直方圖視為該 視頻單詞的時空上下文;步驟4-2)、將所述的代表時空上下文的分布直方圖做進(jìn)一步的聚類,得到語境單 詞;步驟4-3)、將所述的視頻單詞與其周圍的語境單詞構(gòu)成時空視頻單詞團(tuán)體。上述技術(shù)方案中,所述的步驟5)包括步驟5-1)、計算所述時空視頻詞組中兩個視頻單詞的共生頻率,或所述時空視頻 單詞團(tuán)體中視頻單詞和語境單詞的共生頻率;步驟5-2)、將步驟5-1)中所得到的共生頻率做歸一化操作;步驟5-3)、將包含某一動作類型的所有視頻文件的歸一化后的共生頻率求平均 值,得到時空視頻詞組或時空視頻單詞團(tuán)體的類內(nèi)的共生頻率;步驟5-4)、由每個時空視頻詞組或時空視頻單詞團(tuán)體的類內(nèi)的共生頻率計算所有 類之間的共生頻率;步驟5-5)、由步驟5-3)所得到的類內(nèi)的共生頻率與步驟5_4)所得到的所有類之 間的共生頻率按照TF-IDF準(zhǔn)則計算每個時空視頻詞組或時空視頻單詞團(tuán)體的分值,按照 所述分值的高低排序得到所述的代表性時空視頻詞組或代表性時空視頻單詞團(tuán)體。上述技術(shù)方案中,所述的步驟6)包括步驟6-1-1)、從所述視頻單詞、代表性時空視頻詞組、代表性時空視頻單詞團(tuán)體所 形成的特征集合中選擇一種特征或多種特征,若所選擇的特征有多種,將多種特征組合形成特征向量;步驟6-1-2)、利用所選擇的一種特征或多種特征組合得到的特征向量訓(xùn)練分類器。 上述技術(shù)方案中,所述的步驟6)包括步驟6-2-1)、從所述視頻單詞、代表性時空視頻詞組、代表性時空視頻單詞團(tuán)體 所形成的特征集合中選擇一種特征或多種特征,將所選擇特征中簡化為相應(yīng)的語義概念得 分;步驟6-2-2)、集成所述語義概念得分,利用集成后的語義概念得分訓(xùn)練分類器。本發(fā)明還提供了一種人體動作識別方法,包括步驟1)、從視頻文件中提取時空興趣點;步驟2)、將步驟1)得到的所有時空興趣點根據(jù)其所包含的特征描述子量化到相 應(yīng)的視頻單詞上,并為所述視頻單詞生成統(tǒng)計直方圖;所述視頻單詞為所有時空興趣點的 特征描述子所構(gòu)成的集合中,子集聚類后的結(jié)果;步驟3)、根據(jù)視頻單詞所在時空鄰域內(nèi)的時空上下文信息得到該視頻單詞所在時 空鄰域內(nèi)的其它視頻單詞,由該視頻單詞與某一滿足時空約束的其它視頻單詞形成時空視 頻詞組;步驟4)、對視頻單詞所在時空鄰域內(nèi)的時空上下文做聚類,得到語境單詞,由所述 視頻單詞與所述語境單詞形成時空視頻單詞團(tuán)體;步驟5)、從所述時空視頻詞組中選擇代表性時空視頻詞組,從所述時空視頻單詞 團(tuán)體中選擇代表性時空視頻單詞團(tuán)體;步驟6)、將所述視頻單詞、代表性時空視頻詞組、代表性時空視頻單詞團(tuán)體所組成 集合中的一種特征或?qū)⒍喾N特征融合后的結(jié)果送入所述的人體動作識別的訓(xùn)練方法所得 到的分類器中,實現(xiàn)對視頻文件中人體動作的識別。本發(fā)明的優(yōu)點在于本發(fā)明通過對時空興趣點之間的時空關(guān)系進(jìn)行建模,有效地融入了時空上下文信 息,得到更具描述能力的特征;通過引入TF-IDF權(quán)重機(jī)制逐類選取出最具代表性的特征 點,能夠得到對攝像機(jī)運動,光照變化,人體外觀形狀變化等相對魯棒的特征。這些特征能 夠很好地捕獲各種動作的本質(zhì)屬性,對真實復(fù)雜場景下拍攝的復(fù)雜動作視頻數(shù)據(jù)取得了較 好的識別結(jié)果。
圖1為本發(fā)明方法的流程圖;圖2為時空視頻詞組和時空視頻單詞團(tuán)體的構(gòu)造方法的示意圖。
具體實施例方式在對本發(fā)明做詳細(xì)說明之前,首先對本發(fā)明中的一些相關(guān)概念做統(tǒng)一的說明。時空興趣點(STIPs)通過一些時空興趣點檢測器算法(如前述參考文獻(xiàn)2和 4中所提出的算法)對給定視頻序列進(jìn)行處理,在一定閾值范圍內(nèi),通過非最大值抑制 (non-maximal supression)處理后,響應(yīng)函數(shù)的局部極大值定義為時空興趣點。時空興趣點表現(xiàn)為在時間維度上和空間維度上都有較大的變化,一般用光流直方圖或是梯度直方圖 進(jìn)行描述,由于其局部性,具有較好的旋轉(zhuǎn)、平移和縮放不變性,但沒有對全局運動的描述。視頻單詞在所有訓(xùn)練視頻中提取到的時空興趣點描述子構(gòu)成的集合中,隨機(jī)選 擇一個子集,采用K-均值算法聚類,形成一個視頻單詞碼書(video-word vocabulary),每 個時空興趣點描述子都對應(yīng)著一個與其距離最近的碼字,稱為視頻單詞(video-word)。時空視頻詞組時空視頻詞組是指一定的時空尺度范圍內(nèi)同時出現(xiàn)的視頻單詞 對。時空視頻詞組是本發(fā)明中新引入的概念,為了便于理解,在此一并對時空視頻詞組的生 成過程加以說明。參考圖2,對于一個標(biāo)號為視頻單詞ρ的時空興趣點(關(guān)于如何為時空興趣點生成 視頻單詞標(biāo)號為現(xiàn)有技術(shù),在下文中對步驟S2的描述中也有相應(yīng)的說明),在時空興趣點 提取的過程中會得到一個與該時空興趣點相關(guān)的小的局部時空立方體,該局部時空立方體 的具體尺度按照下列公式由時空濾波器的空間尺度和時間尺度得到Sizes = szfX 2 Xsqrt ( σ s) (1)sizet = szfX 2 Xsqrt ( σ t) (2)在上述公式中,szf表示計算時空興趣點的特征描述子時所取塊大小的系數(shù);σ s, σ t分布表示時空濾波器在空域和時域的方差,sqrt表示求取平方根。以ρ為中心,其周圍與計算其特征描述子所用到的局部時空立方體大小成比例的 更大的立方體被視為P的時空鄰域。在此鄰域內(nèi),不同的視頻單詞的分布直方圖即為時空 上下文信息,可用下列公式表示H(p, s) = [t1 t2, . . . , tn] (3)在上述公式中,ρ表示時空鄰域中心視頻單詞的標(biāo)號,s表示確定時空鄰域大小的 尺度系數(shù),、表示在該鄰域中標(biāo)號為i的視頻單詞出現(xiàn)的次數(shù),而η表示視頻單詞詞典中視 頻單詞的總數(shù)。時空鄰域立方體的尺度的計算公式為size = sX Sizep (4)在上述公式中,Sizep表示通過前述公式(1)和公式(2)計算得到的時空興趣點的 尺度,s為確定時空鄰域大小的尺度系數(shù),s的取值越大,計算復(fù)雜度越高,可能引入的噪聲 也越多。P和出現(xiàn)在其鄰域局部直方圖中的另一個視頻單詞可構(gòu)成一個視頻單詞對,形成所 述的時空視頻詞組。從對時空視頻詞組的生成過程可見,一個時空興趣點周圍可能形成多 個時空視頻詞組。時空視頻單詞團(tuán)體一個視頻單詞和它周圍的語境單詞構(gòu)成一個時空視頻單詞團(tuán) 體。在前面對時空視頻詞組的說明過程中已經(jīng)提到,視頻單詞ρ周圍的鄰域立方體內(nèi) 計算的視頻單詞的分布直方圖被視為視頻單詞P的時空上下文,如圖2所示,將這些代表時 空上下文的分布直方圖做進(jìn)一步的聚類,可得到語境單詞。視頻單詞與其周圍的語境單詞 即構(gòu)成時空視頻單詞團(tuán)體。從時空視頻單詞團(tuán)體的生成過程可見,一個時空興趣點周圍只 能形成唯一的時空視頻單詞團(tuán)體。代表性時空視頻詞組代表性時空視頻詞組是指對某一特定動作類型更具描述能 力的時空視頻詞組。
代表性時空視頻單詞團(tuán)體代表性時空視頻單詞團(tuán)體是指對某一特定動作類型更 具描述能力的時空視頻單詞團(tuán)體。本領(lǐng)域普通技術(shù)人員很容易理解,每一類人體動作都有它特有的表示基元,如特 定的視頻單詞、時空視頻詞組以及時空視頻單詞團(tuán)體等,以區(qū)分于其他不同的動作類別。因 此,在人體動作識別的過程中,找到這些對各種人體動作來說最具描述性的模式對于人體 動作識別極具意義。選取的模式應(yīng)當(dāng)具有下列屬性1)、選取的模式在其所要表示的動作類別中出現(xiàn)得應(yīng)更加頻繁;2)、為了保持選取出來的模式對特定的動作類別的獨特性,其在其他所有動作類 別中出現(xiàn)得應(yīng)相對較少。上述兩條屬性與信息檢索理論中常用的TF-IDF權(quán)重機(jī)制正好吻合,因此本發(fā)明 引入TF-IDF的方法從大量的時空視頻詞組和時空視頻單詞團(tuán)體中逐類選取代表性時空視 頻詞組和代表性時空視頻單詞團(tuán)體。首先,計算時空視頻詞組中兩個視頻單詞或是時空視頻單詞團(tuán)體中視頻單詞和語 境單詞的共生頻率。對于時空視頻詞組,兩個視頻單詞之間的共生關(guān)系被存儲在對其中的視頻單詞計 算的局部直方圖中。對視頻文件v,其中被標(biāo)為i和j的兩個視頻單詞的共生頻率按照下面 的公式(5)進(jìn)行計算 在上述公式中,{pj是視頻文件ν中所有標(biāo)號為i的視頻單詞的集合,tj是以Pi 為中心計算的局部直方圖H(Pi,s)中的第j個元素。對于時空視頻單詞團(tuán)體,視頻單詞i和語境單詞j之間的共生頻率可按照下面的 公式(6)進(jìn)行計算 上述公式表示當(dāng)視頻單詞VW的標(biāo)號為i且其周圍的語境單詞CW的標(biāo)號為j時, 便將視頻單詞i和語境單詞j的共生頻率f(VWi,CWj)加一。將上述公式(5)和公式(6)中所涉及的Tvdvp(i,j)和Tvdv。(i,j)統(tǒng)一記為T/(i, j),并將該值除以視頻文件ν中所提取到的時空興趣點的總數(shù),以抵消視頻文件長度不等 的影響,歸一化之后的頻率記為NT/(i,j)。對某一動作類型C中所有視頻文件取平均值, 即得到時空視頻詞組或是時空視頻單詞團(tuán)體的類內(nèi)的共生頻率 在上述公式中,符號ItvI表示所有屬于動作類型c的視頻文件的總數(shù)。據(jù)此, 是一個大小為VWnufflXVWnuffl的矩陣,是一個大小為VWnufflxCWmm的矩陣,這里VWnum表示視頻 單詞的總數(shù),Cffnim表示語境單詞的總數(shù)。通過上述公式(5)、(6)、(7)計算得到每個時空視頻詞組或是時空視頻單詞團(tuán)體 類內(nèi)的共生頻率之后,所有類之間的共生頻率按照下面的公式(8)進(jìn)行計算[cose] 在上述公式中,|C|表示動作類別的種數(shù),T*是Tdvp和Tdve的統(tǒng)一記號。通過上述計算過程,時空視頻詞組或時空視頻單詞團(tuán)體可以按照下列的公式(9) 得到一個得分值
(9)在生成得分值以后,對每一類動作,可將時空視頻詞組和時空視頻單詞團(tuán)體按照 得分高低分別排序,即可以選出得分最高的前N個代表性時空視頻詞組和得分最高的前M 個代表性時空視頻單詞團(tuán)體。在對本發(fā)明中的相關(guān)概念進(jìn)行說明后,下面結(jié)合附圖和具體實施步驟對本發(fā)明的 方法加以說明。參考圖1,在步驟Sl中,從包含人體動作的視頻文件中提取時空興趣點。從視頻文 件中提取時空興趣點為本領(lǐng)域技術(shù)人員的公知技術(shù),通過三維Harris角點檢測器或是線 性可分的時空濾波器都可實現(xiàn)時空興趣點的提取。由于所提取的時空興趣點通常都包含有 噪聲,會對后續(xù)操作產(chǎn)生影響,因此作為一種優(yōu)選實現(xiàn)方式,可對所述的時空興趣點做過濾 操作,以去除相應(yīng)的噪聲。在步驟S2中,將步驟Sl中得到的所有時空興趣點根據(jù)其所包含的特征描述子量 化到特定的視頻單詞上。具體地,對所有時空興趣點的特征描述子構(gòu)成的集合,用隨機(jī)抽 樣的方法得到一個子集,采用K-均值聚類算法或是現(xiàn)有技術(shù)中的其他聚類算法將其聚類 到K個視頻單詞,這K個視頻單詞可形成一視頻單詞詞典,視頻單詞詞典中的各個視頻單詞 分別用相應(yīng)的標(biāo)號表示。在得到視頻單詞詞典后,每一時空興趣點可通過距離度量找到視 頻單詞詞典中與其距離最近的視頻單詞,并將該視頻單詞的標(biāo)號賦給相應(yīng)的時空興趣點。 經(jīng)過本步驟的相關(guān)操作后,視頻文件即可被視為一系列帶視頻單詞標(biāo)號的時空興趣點的集
I=I O在步驟S2中,除了要生成所述的視頻單詞外,還要為所述的視頻單詞生成統(tǒng)計直 方圖BoWs。為視頻單詞生成統(tǒng)計直方圖的實現(xiàn)方法為本領(lǐng)域技術(shù)人員所公知的現(xiàn)有技術(shù), 圖2中給出了統(tǒng)計直方圖的一個范例,該統(tǒng)計直方圖中的橫坐標(biāo)表示視頻單詞的類型,縱 坐標(biāo)表示視頻單詞出現(xiàn)的次數(shù)。在步驟S3中,需要在步驟S2所得到的視頻單詞的基礎(chǔ)上形成時空視頻詞組,然后 在所形成的時空視頻詞組中選取代表性時空視頻詞組。時空視頻詞組的形成以及代表性時 空視頻詞組的選擇可參考前文中的說明。在步驟S4中,對視頻單詞所在時空鄰域內(nèi)的時空上下文做聚類,得到語境單詞, 由所述視頻單詞與所述語境單詞形成時空視頻單詞團(tuán)體,然后從所有所形成的時空視頻單 詞團(tuán)體中選擇代表性時空視頻單詞團(tuán)體。詳細(xì)過程見前文說明,在此不再贅述。雖然在上述說明中,在步驟S3中完成時空視頻詞組的形成以及代表性時空視頻 詞組的選擇,而在步驟S4中完成時空視頻單詞團(tuán)體的形成以及代表性時空視頻單詞團(tuán)體 的選擇,但這兩個步驟可以同步執(zhí)行。在步驟S5中,前述步驟S2得到的視頻單詞、步驟S3得到的代表性時空視頻詞組 以及步驟S4得到的代表性時空視頻單詞團(tuán)體構(gòu)成了對視頻特征不同粒度的描述,基于這些特征以及它們之間的融合可以訓(xùn)練分類器,并進(jìn)一步實現(xiàn)融合多特征的人體動作識別。對于單獨使用各種特征(如視頻單詞,代表性時空視頻詞組或是代表性時空視 頻單詞團(tuán)體)進(jìn)行人體動作識別時,相關(guān)方法與傳統(tǒng)的BoWs方法相同,在此不再贅述。對于融合前述兩種或是三種特征進(jìn)行動作識別時,可以進(jìn)行早期融合(early fusion)也可以進(jìn)行晚期融合(late fusion)。早期融合,是指在語義概念學(xué)習(xí)之前進(jìn)行的融合,也即特征級的融合,在這一融合 過程中將多種特征描述子組合形成一個單一的特征描述子。比如,可以采用特征的順序級 聯(lián)形式,將各種特征描述子單獨表示的分布直方圖進(jìn)行加權(quán)級聯(lián)得到的特征向量如下面的 公式(10)所示H = [a Hvffs β HST_DVPs (1_ α - β ) HST_DVCs] (10)在上述公式中,HVWs,HST_DVPs和HST_DTCs分別表示視頻單詞、代表性時空視頻詞組和代 表性時空視頻單詞團(tuán)體的分布直方圖,而α,β和(l-α-β)分別表示三種描述子各自的 權(quán)重系數(shù),各權(quán)重系數(shù)的取值區(qū)間為W,1],該權(quán)重可通過交叉驗證的方法得到,最后得到 的直方圖的長度為使用到的不同描述子各自直方圖的長度之和。經(jīng)由早期融合將多種特征描述子組合形成一個單一的特征描述子后,融合后的特 征可用于分類器的訓(xùn)練和分類。分類器在完成所述的訓(xùn)練和分類后,即可實現(xiàn)對待檢測視 頻中人體動作的識別。晚期融合是先將單一特征簡化為一種語義概念的得分,然后將這些得分集成到一 起進(jìn)行語義概念的學(xué)習(xí)。比如,可以通過基于X 2距離的泛化的多通道的高斯核函數(shù)訓(xùn)練 SVM分類器并進(jìn)行分類 其中C = IVWs,ST-DVPs,ST-DVCs}在上述公式中,X2(HyHj)表示以一種特征的分布直方圖Hi和Hj之間的X2距離, 其中的b是對直方圖中bin的索引,k表示該種特征的分布直方圖中bin的總數(shù)。C表示需 要融合的特征集,在這里指視頻單詞、代表時空性視頻詞組以及代表性時空視頻單詞團(tuán)體 的集合。if表示動作視頻i和j以特征c表示的分布直方圖。A。表示核函數(shù)中的尺 度參數(shù),等于在特征c表示下訓(xùn)練樣本之間的平均距離。ω。表示不同特征融合時特征c的 權(quán)重系數(shù)。以上是對利用視頻文件訓(xùn)練分類器的相關(guān)過程的說明,在得到分類器以后,利用 分類器實現(xiàn)視頻文件中人體動作的識別與上述過程相類似,也需要從待檢測視頻文件中提 取時空興趣點,將時空興趣點根據(jù)其所包含的特征描述子量化到相應(yīng)的視頻單詞上,并為 所述視頻單詞生成統(tǒng)計直方圖,也需要由視頻單詞生成時空視頻詞組與時空視頻單詞團(tuán) 體,并從中選出代表性時空視頻詞組與代表性時空視頻單詞團(tuán)體,在得到待檢測視頻文件的上述特征后,對這些特征加以融合,最后由分類器根據(jù)融合后的特征實現(xiàn)對視頻文件中 人體動作的識別。由于上述過程的具體實現(xiàn)在前面的描述中已經(jīng)有詳細(xì)的說明,因此不再 對相應(yīng)的細(xì)節(jié)做重復(fù)說明。 最后所應(yīng)說明的是,以上實施例僅用以說明本發(fā)明的技術(shù)方案而非限制。盡管參 照實施例對本發(fā)明進(jìn)行了詳細(xì)說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,對本發(fā)明的技術(shù)方 案進(jìn)行修改或者等同替換,都不脫離本發(fā)明技術(shù)方案的精神和范圍,其均應(yīng)涵蓋在本發(fā)明 的權(quán)利要求范圍當(dāng)中。
1權(quán)利要求
一種人體動作識別的訓(xùn)練方法,包括步驟1)、從視頻文件中提取時空興趣點;步驟2)、將步驟1)得到的所有時空興趣點根據(jù)其所包含的特征描述子量化到相應(yīng)的視頻單詞上,并為所述視頻單詞生成統(tǒng)計直方圖;所述視頻單詞為所有時空興趣點的特征描述子所構(gòu)成的集合中,子集聚類后的結(jié)果;步驟3)、根據(jù)視頻單詞所在時空鄰域內(nèi)的時空上下文信息得到該視頻單詞所在時空鄰域內(nèi)的其它視頻單詞,由該視頻單詞與某一滿足時空約束的其它視頻單詞形成時空視頻詞組;步驟4)、對視頻單詞所在時空鄰域內(nèi)的時空上下文做聚類,得到語境單詞,由所述視頻單詞與所述語境單詞形成時空視頻單詞團(tuán)體;步驟5)、從所述時空視頻詞組中選擇代表性時空視頻詞組,從所述時空視頻單詞團(tuán)體中選擇代表性時空視頻單詞團(tuán)體;步驟6)、利用所述視頻單詞、代表性時空視頻詞組、代表性時空視頻單詞團(tuán)體中的一種特征或?qū)⒍喾N特征融合后的結(jié)果訓(xùn)練分類器。
2.根據(jù)權(quán)利要求1所述的人體動作識別的訓(xùn)練方法,其特征在于,所述的步驟2)包括步驟2-1)、從所有時空興趣點的特征描述子構(gòu)成的集合中通過隨機(jī)抽樣得到子集; 步驟2-2)、將所述子集聚類到K個視頻單詞,所述K個視頻單詞形成一視頻單詞詞典, 所述視頻單詞詞典中的各個視頻單詞分別用相應(yīng)的標(biāo)號表示;步驟2-3)、所述時空興趣點通過距離度量找到所述視頻單詞詞典中與該時空興趣點距 離最近的視頻單詞,并將該視頻單詞的標(biāo)號賦給相應(yīng)的時空興趣點;步驟2-4)、為所述時空興趣點生成統(tǒng)計直方圖,所述統(tǒng)計直方圖的橫坐標(biāo)表示視頻單 詞的類型,縱坐標(biāo)表示視頻單詞出現(xiàn)的次數(shù)。
3.根據(jù)權(quán)利要求1所述的人體動作識別的訓(xùn)練方法,其特征在于,所述的步驟3)包括步驟3-1)、由時空興趣點提取過程中的局部時空立方體找到相應(yīng)的時空鄰域; 步驟3-2)、由所述時空鄰域內(nèi)的視頻單詞的分布直方圖得到時空上下文信息; 步驟3-3)、將所述視頻單詞與其時空上下文內(nèi)的任一其它視頻單詞形成時空視頻詞組。
4.根據(jù)權(quán)利要求1所述的人體動作識別的訓(xùn)練方法,其特征在于,所述的步驟4)包括步驟4-1)、將視頻單詞周圍的鄰域立方體內(nèi)計算的視頻單詞的分布直方圖視為該視頻 單詞的時空上下文;步驟4-2)、將所述的代表時空上下文的分布直方圖做進(jìn)一步的聚類,得到語境單詞; 步驟4-3)、將所述的視頻單詞與其周圍的語境單詞構(gòu)成時空視頻單詞團(tuán)體。
5.根據(jù)權(quán)利要求1所述的人體動作識別的訓(xùn)練方法,其特征在于,所述的步驟5)包括步驟5-1)、計算所述時空視頻詞組中兩個視頻單詞的共生頻率,或所述時空視頻單詞 團(tuán)體中視頻單詞和語境單詞的共生頻率;步驟5-2)、將步驟5-1)中所得到的共生頻率做歸一化操作;步驟5-3)、將包含某一動作類型的所有視頻文件的歸一化后的共生頻率求平均值,得 到時空視頻詞組或時空視頻單詞團(tuán)體的類內(nèi)的共生頻率;步驟5-4)、由每個時空視頻詞組或時空視頻單詞團(tuán)體的類內(nèi)的共生頻率計算所有類之 間的共生頻率;步驟5-5)、由步驟5-3)所得到的類內(nèi)的共生頻率與步驟5-4)所得到的所有類之間的 共生頻率按照TF-IDF準(zhǔn)則計算每個時空視頻詞組或時空視頻單詞團(tuán)體的分值,按照所述 分值的高低排序得到所述的代表性時空視頻詞組或代表性時空視頻單詞團(tuán)體。
6.根據(jù)權(quán)利要求1所述的人體動作識別的訓(xùn)練方法,其特征在于,所述的步驟6)包括步驟6-1-1)、從所述視頻單詞、代表性時空視頻詞組、代表性時空視頻單詞團(tuán)體所形成 的特征集合中選擇一種特征或多種特征,若所選擇的特征有多種,將多種特征組合形成特 征向量;步驟6-1-2)、利用所選擇的一種特征或多種特征組合得到的特征向量訓(xùn)練分類器。
7.根據(jù)權(quán)利要求1所述的人體動作識別的訓(xùn)練方法,其特征在于,所述的步驟6)包括步驟6-2-1)、從所述視頻單詞、代表性時空視頻詞組、代表性時空視頻單詞團(tuán)體所形成 的特征集合中選擇一種特征或多種特征,將所選擇特征中簡化為相應(yīng)的語義概念得分; 步驟6-2-2)、集成所述語義概念得分,利用集成后的語義概念得分訓(xùn)練分類器。
8.一種人體動作識別方法,包括步驟1)、從視頻文件中提取時空興趣點;步驟2)、將步驟1)得到的所有時空興趣點根據(jù)其所包含的特征描述子量化到相應(yīng)的 視頻單詞上,并為所述視頻單詞生成統(tǒng)計直方圖;所述視頻單詞為所有時空興趣點的特征 描述子所構(gòu)成的集合中,子集聚類后的結(jié)果;步驟3)、根據(jù)視頻單詞所在時空鄰域內(nèi)的時空上下文信息得到該視頻單詞所在時空鄰 域內(nèi)的其它視頻單詞,由該視頻單詞與某一滿足時空約束的其它視頻單詞形成時空視頻詞 組;步驟4)、對視頻單詞所在時空鄰域內(nèi)的時空上下文做聚類,得到語境單詞,由所述視頻 單詞與所述語境單詞形成時空視頻單詞團(tuán)體;步驟5)、從所述時空視頻詞組中選擇代表性時空視頻詞組,從所述時空視頻單詞團(tuán)體 中選擇代表性時空視頻單詞團(tuán)體;步驟6)、將所述視頻單詞、代表性時空視頻詞組、代表性時空視頻單詞團(tuán)體所組成集合 中的一種特征或?qū)⒍喾N特征融合后的結(jié)果送入權(quán)利要求1-7之一的人體動作識別的訓(xùn)練 方法所得到的分類器中,實現(xiàn)對視頻文件中人體動作的識別。
全文摘要
本發(fā)明提供一種人體動作識別的訓(xùn)練方法,包括從視頻文件中提取時空興趣點;將所有時空興趣點根據(jù)其所包含的特征描述子量化到相應(yīng)的視頻單詞上,并為視頻單詞生成統(tǒng)計直方圖;根據(jù)視頻單詞所在時空鄰域內(nèi)的時空上下文信息得到該視頻單詞所在時空鄰域內(nèi)的其它視頻單詞,由該視頻單詞與某一滿足時空約束的其它視頻單詞形成時空視頻詞組;對視頻單詞所在時空鄰域內(nèi)的時空上下文做聚類,得到語境單詞,由視頻單詞與語境單詞形成時空視頻單詞團(tuán)體;從時空視頻詞組中選擇代表性時空視頻詞組,從時空視頻單詞團(tuán)體中選擇代表性時空視頻單詞團(tuán)體;利用視頻單詞、代表性時空視頻詞組、代表性時空視頻單詞團(tuán)體中的一種特征或?qū)⒍喾N特征融合后的結(jié)果訓(xùn)練分類器。
文檔編號G06K9/66GK101894276SQ20101019580
公開日2010年11月24日 申請日期2010年6月1日 優(yōu)先權(quán)日2010年6月1日
發(fā)明者秦磊, 胡瓊, 蔣樹強(qiáng), 黃慶明 申請人:中國科學(xué)院計算技術(shù)研究所