本發(fā)明屬于計(jì)算機(jī)視覺及圖像處理領(lǐng)域,涉及采用深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)視頻進(jìn)行細(xì)粒度的行為識(shí)別,具體涉及一種基于動(dòng)作追蹤的細(xì)粒度視頻行為識(shí)別方法。
背景技術(shù):
1、視頻行為識(shí)別對(duì)于廣泛的視覺分析應(yīng)用具有重要意義,如智能監(jiān)控、社交場景理解和體育視頻分析。隨著深度學(xué)習(xí)在各種視頻識(shí)別任務(wù)上取得了巨大的成功,許多時(shí)空特征學(xué)習(xí)行為識(shí)別方法(如stm、tsm和i3d)和長期建模方法(如tcn、tdrn和slowfast)被提出用來做視頻行為識(shí)別。為了提高運(yùn)動(dòng)模式感知的網(wǎng)絡(luò)能力,tea(yan?li,bin?ji,xintianshi,jianguo?zhang,bin?kang,and?limin?wang.tea:temporal?excitation?andaggregation?for?action?recognition.in?ieee?cvpr,june,pages?906–915,2020)利用特征水平的時(shí)間差異來激活運(yùn)動(dòng)敏感通道,形成一個(gè)用于行為識(shí)別的層次殘差結(jié)構(gòu)。tdn(limin?wang,zhan?tong,bin?ji,and?gangshan?wu.tdn:temporal?difference?networksfor?efficient?action?recognition.in?ieee,cvpr,june,pages?1895–1904,2021)專注于明確地利用短期和長期運(yùn)動(dòng)建模之間的時(shí)間差異來捕獲時(shí)間上下文。
2、由于在專業(yè)領(lǐng)域的許多人類活動(dòng)之間只存在著細(xì)微的差異,行為識(shí)別最近已經(jīng)發(fā)展到了更細(xì)粒度的水平。傳統(tǒng)的行為識(shí)別主要側(cè)重于識(shí)別物體和背景的視覺外觀線索,如體操和籃球,而細(xì)粒度的行為識(shí)別則是在子類別水平上區(qū)分動(dòng)作類別。例如,建立在高清體育視頻上的現(xiàn)有細(xì)粒度數(shù)據(jù)集的動(dòng)作對(duì)時(shí)間相關(guān)性比對(duì)象和背景更敏感。finegym數(shù)據(jù)集由各種微妙的方面組成,如姿勢(shì)、移動(dòng)范圍和戲劇性的肢體變形。也就是說,細(xì)粒度的行為識(shí)別明顯比傳統(tǒng)的行為識(shí)別更具挑戰(zhàn)性。
3、現(xiàn)有的行為識(shí)別框架通常集中于易于區(qū)分的片段,而忽略了局部動(dòng)作細(xì)節(jié)的動(dòng)態(tài),最近的一些作品已經(jīng)引起了人們對(duì)理解細(xì)粒度行為識(shí)別的細(xì)微差異的挑戰(zhàn)的關(guān)注。例如,mdcn(baoli?sun,xinchen?ye,tiantian?yan,zhihui?wang,haojie?li,and?zhiyongwang.fine-grained?action?recognition?with?robust?motion?representationdecoupling?and?concentration.in?the?30th?acm?mm,lisboa,portugal,october,pages4779–4788,2022)被提出通過將運(yùn)動(dòng)表征與動(dòng)作相關(guān)的運(yùn)動(dòng)表征分離來學(xué)習(xí)不同的運(yùn)動(dòng)表征。dsts(tianjiao?li,lin?geng?foo,qiuhong?ke,hossein?rahmani,anran?wang,jinghua?wang,and?jun?liu.dynamic?spatio-temporal?specialization?learning?forfine-grained?action?recognition.in?eccv,october,part?iv,volume?13664,pages386–403,2022)被提出通過一個(gè)動(dòng)態(tài)時(shí)空專業(yè)化模塊學(xué)習(xí)區(qū)分細(xì)粒度差異來區(qū)分這些相似的樣本。此外,我們還注意到,一個(gè)動(dòng)作視頻的每一幀中最突出的信息通常分布在幾個(gè)隨時(shí)間演化的小局部區(qū)域中。雖然顯式地定位和跟蹤區(qū)分特定動(dòng)作的局部區(qū)域作為輔助任務(wù)是一種簡單的解決方案,但它通常缺乏區(qū)域級(jí)注釋。因此,我們的目標(biāo)是隱式地識(shí)別和跟蹤獨(dú)特的局部細(xì)節(jié)沿著時(shí)間維度。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明旨在克服傳統(tǒng)方法技術(shù)的不足,提出了一個(gè)基于動(dòng)作追蹤的細(xì)粒度視頻行為識(shí)別網(wǎng)絡(luò)。該網(wǎng)絡(luò)由時(shí)序信息增強(qiáng)模塊、空間區(qū)域語義激活模塊和運(yùn)動(dòng)軌跡產(chǎn)生及行為預(yù)測模塊組成。時(shí)序信息增強(qiáng)模塊的通過將輸入的特征送入到編碼器當(dāng)中,通過多頭自注意力機(jī)制的計(jì)算實(shí)現(xiàn)對(duì)長時(shí)序特征增強(qiáng),提升模型對(duì)長時(shí)序信息的能力。特定區(qū)域語義激活模塊針對(duì)傳統(tǒng)方法不能夠關(guān)注到更細(xì)粒度的人體動(dòng)作這一問題,提出挑選每一幀圖片判別性區(qū)域的處理方案,挑選出視頻中更有判別性的動(dòng)作區(qū)域。運(yùn)動(dòng)軌跡產(chǎn)生及預(yù)測模塊將所得到的軌跡特征向量沿時(shí)間維度進(jìn)行拼接,得到最終的細(xì)粒度動(dòng)作分類結(jié)果。
2、本發(fā)明的技術(shù)方案為,一種基于動(dòng)作追蹤的細(xì)粒度視頻行為識(shí)別方法,所述方法包括下列步驟:
3、第一步,準(zhǔn)備初始的訓(xùn)練數(shù)據(jù):訓(xùn)練數(shù)據(jù)包括對(duì)視頻分幀后的彩色圖像序列;
4、第二步,時(shí)序信息增強(qiáng)模塊的構(gòu)建:時(shí)序信息增強(qiáng)模塊由transformer編碼器組成。transformer編碼器利用自注意力機(jī)制增強(qiáng)時(shí)間上下文,以獲得對(duì)于視頻中長期時(shí)間依賴特性的關(guān)注;
5、第三步,空間區(qū)域語義激活模塊的構(gòu)建:空間區(qū)域語義激活模塊由一個(gè)transformer解碼器和一組可學(xué)習(xí)的特征查詢向量組成。所述特征查詢向量作為每個(gè)視頻幀的區(qū)域查詢,用于查詢局部區(qū)域的細(xì)節(jié),獲得空間區(qū)域的語義響應(yīng);
6、第四步,運(yùn)動(dòng)軌跡生成及行為預(yù)測模塊的構(gòu)建:在獲得所有視頻幀的空間區(qū)域的語義響應(yīng)之后,將這些響應(yīng)重新排列以生成運(yùn)動(dòng)軌跡。這些運(yùn)動(dòng)軌跡與整個(gè)視頻的全局表示集成,獲得最終的行為預(yù)測結(jié)果;
7、第五步,構(gòu)建損失函數(shù)并訓(xùn)練網(wǎng)絡(luò);
8、損失函數(shù)衡量訓(xùn)練數(shù)據(jù)中由輸入視頻預(yù)測的動(dòng)作類別標(biāo)簽和真實(shí)類別標(biāo)簽的差距;
9、
10、其中,是一個(gè)監(jiān)督學(xué)習(xí)損失,用于訓(xùn)練網(wǎng)絡(luò)以提取行為識(shí)別相關(guān)的特征和建模全局行為表示。用于監(jiān)督最終的行為識(shí)別結(jié)果,將運(yùn)動(dòng)軌跡與整個(gè)視頻的全局表示集成,生成視頻的最終預(yù)測結(jié)果。這個(gè)損失函數(shù)確保了軌跡表示和全局表示在預(yù)測時(shí)的一致性。表示多級(jí)軌跡對(duì)比損失,用于在空間、時(shí)間和軌跡級(jí)別上對(duì)區(qū)域感知語義響應(yīng)進(jìn)行自監(jiān)督約束。λ是一個(gè)超參數(shù),用于平衡多個(gè)損失函數(shù)之間的權(quán)重。網(wǎng)絡(luò)訓(xùn)練過程即使用訓(xùn)練數(shù)據(jù)不斷優(yōu)化網(wǎng)絡(luò)參數(shù),使收斂得到最終的網(wǎng)絡(luò)模型;
11、第六步,通過訓(xùn)練好的網(wǎng)絡(luò)進(jìn)行細(xì)粒度視頻行為識(shí)別。
12、本發(fā)明的有益效果是:
13、本發(fā)明基于深度神經(jīng)網(wǎng)絡(luò)搭建的一個(gè)基于動(dòng)作追蹤的細(xì)粒度視頻行為識(shí)別的框架,最終得到細(xì)粒度動(dòng)作的分類結(jié)果,具有以下特點(diǎn):
14、1、系統(tǒng)容易構(gòu)建,能夠識(shí)別人體細(xì)粒度的動(dòng)作;
15、2、我們提出了一個(gè)動(dòng)作軌跡網(wǎng)絡(luò)來發(fā)現(xiàn)和跟蹤視頻幀中局部區(qū)域的獨(dú)特細(xì)節(jié),以豐富空間和時(shí)間上下文的編碼,以便更好地推理細(xì)粒度的動(dòng)作;
16、3、我們?cè)O(shè)計(jì)了一個(gè)多層次的軌跡對(duì)比損失來指導(dǎo)網(wǎng)絡(luò)在空間、時(shí)間和軌跡水平上以有效的自我監(jiān)督的方式準(zhǔn)確地捕獲動(dòng)作細(xì)節(jié);
17、4、實(shí)驗(yàn)結(jié)果在四個(gè)廣泛使用的細(xì)粒度行為識(shí)別數(shù)據(jù)集中具有先進(jìn)的優(yōu)越性。
1.基于動(dòng)作追蹤的細(xì)粒度視頻行為識(shí)別方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的基于動(dòng)作追蹤的細(xì)粒度視頻行為識(shí)別方法,其特征在于,第一步中,在對(duì)視頻分幀得到彩色圖片序列后,對(duì)分幀后的彩色圖片進(jìn)行固定幀率的采樣,再通進(jìn)行數(shù)據(jù)增強(qiáng)。
3.根據(jù)權(quán)利要求1所述的基于動(dòng)作追蹤的細(xì)粒度視頻行為識(shí)別方法,其特征在于,第二步中,時(shí)序信息增強(qiáng)模塊由一個(gè)transformer編碼器組成,transformer編碼器利用自注意力機(jī)制增強(qiáng)時(shí)間上下文,以獲得對(duì)于視頻中長期時(shí)間依賴特性的關(guān)注;包括以下步驟:
4.根據(jù)權(quán)利要求1所述的基于動(dòng)作追蹤的細(xì)粒度視頻行為識(shí)別方法,其特征在于,第三步具體為:空間區(qū)域語義激活模塊的目的是從時(shí)間增強(qiáng)的區(qū)域表示中提取出視頻幀中空間區(qū)域的語義響應(yīng);引入一組可學(xué)習(xí)的特征查詢向量xq作為每個(gè)視頻幀的區(qū)域查詢,用于查詢局部區(qū)域的細(xì)節(jié),獲得空間區(qū)域的語義響應(yīng);具體流程為:將時(shí)間增強(qiáng)的區(qū)域表示和特征查詢向量輸入到transformer解碼器中,通過交叉注意力機(jī)制來捕捉區(qū)域特定的語義響應(yīng);其中交叉注意力操作crossatten(·)表達(dá)為:
5.根據(jù)權(quán)利要求1所述的基于動(dòng)作追蹤的細(xì)粒度視頻行為識(shí)別方法,其特征在于,第四步具體為:運(yùn)動(dòng)軌跡生成及行為預(yù)測模塊:在獲得所有視頻幀的空間區(qū)域的語義響應(yīng)之后,將中同一順序但不同幀的響應(yīng)重新排列以生成運(yùn)動(dòng)軌跡,它鏈接了視頻中沿時(shí)間維度的不同幀中的空間區(qū)域的細(xì)節(jié),第m條軌跡trm的定義如下:
6.根據(jù)權(quán)利要求1所述的基于動(dòng)作追蹤的細(xì)粒度視頻行為識(shí)別方法,其特征在于,第五步中構(gòu)建損失函數(shù):