本發(fā)明涉及動作識別,尤其涉及一種基于長短期時間差分的動作識別視覺轉換方法。
背景技術:
1、在過去的幾年里,眾多研究者廣泛關注時間建模,近期,基于transformers的方法在處理基于2d圖像的視覺任務方面取得了顯著進展,當前主要的高效視頻理解方法是將時間信息表達在一張圖上,然后直接使用2d卷積神經網絡(2dcnn)對其識別,但對于單幀上的2d?cnn來說,不能很好的對時間信息進行建模,且在視頻動作識別任務中,最大的挑戰(zhàn)是如何捕捉時間序列中的動態(tài)信息。
2、然而,對于基于3d視頻的任務,如動作識別,直接應用時空變換的視頻數(shù)據會導致補丁數(shù)量以及自注意計算的二次復雜度的大幅增加,從而會導致計算和內存負擔加重。
3、因此,為視頻數(shù)據建立高效、準確的3d自注意模型成了transformers面臨的重大挑戰(zhàn),本研究提出了一個有效的長短期運動差分(lsmd)方法,即將短期運動信息引入圖像,將連續(xù)幾幀的差值加權到圖像中,使原始圖像具備短期運動建模能力。同時添加可捕捉長期運動信息的模塊,將跨段的時間差通過運動激勵直接集成到模型中,增強模型的長期運動建模能力,大量的實驗結果表明,所提出的lsmd在多個基準(例如ucf101、hmdb51)上均保持了高識別精度。
技術實現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于長短期時間差分的動作識別視覺轉換方法,解決了現(xiàn)有的基于3d視頻的任務,如動作識別,如果直接應用時空變換的視頻數(shù)據會導致補丁數(shù)量以及自注意計算的二次復雜度的大幅增加,從而會導致計算和內存負擔加重的技術問題。
2、為實現(xiàn)上述目的,本發(fā)明提供了一種基于長短期時間差分的動作識別視覺轉換方法,包括以下步驟:
3、步驟一:輸入視頻,利用整個視頻信息的視頻級學習動作模型建立長短期運動差值(lsmd)框架;
4、步驟二:在圖像模型的框架的基礎上,利用時間差算子來捕獲短期和長期運動信息;
5、步驟三:將所述短期運動信息的融合放置到圖像模型輸入之前,形成短期運動信息圖像(smif);
6、步驟四:在所述圖像模型中增加長期運動信息模塊(lmim),通過時間差因子獲取長期運動信息;
7、步驟五:將輸入的所述視頻通過所述smif變成所述圖像模型的框架的圖片形式,再將其送入到所述添加lmim的圖像模型中。
8、其中,所述步驟一中的所述lsmd是一種在2d?transformers結構中促進有效時空自我注意力(sa)建模的策略,能夠提供高效的圖像表示。
9、其中,所述步驟三中的所述smif作用于網絡輸入,通過融合時間差異信息,用于提取段內圖像的運動信息,使得單幀rgb能夠感知局部運動。
10、其中,所述步驟三中的所述smif的具體操作方式為:對于每一采樣幀ii,我們在一個以ii為中心的局部窗口中提取了上下兩幀做短期圖像集合si=[ii-2,ii-1,ii,ii+1,ii+2],在短期圖像集合中兩兩互相作差,做短期時間差分:
11、[di-2,di-1,di,di+1]=[ii-2-ii-1,ii-1-ii,ii-ii+1,ii+1-ii+2]
12、短期時間差分由于圖像噪聲干擾以及光照變化,盡管只有人物本身產生變換,但遠離人物的地方仍會就算出一些微小的變化,此類變化不應該被認為反映真實的運動,為了舍棄這些小的變化,根據sstsa提出的運動聚焦思想,我們提出時差抑制(tdi)方法,具體來說,在幀差圖像d上應用一個閾值,將低于閾值的像素變成0,達到抑制干擾的目的:
13、
14、其中α是閾值1≥α≥0,k=xmax-xmin是反映輸入像素強度值的輸入的縮放因子,即若當輸入d未進行歸一化時,k=255,β是加強運動信息的增強因子,在圖像中,將移動過的像素增強β倍,以加強抑制干擾的效果。對于來自i段的ii幀,我們將其同一段的相鄰幀表示為ii-1和ii+1。因此,我們可以得到前向時間差和后向時間差為:
15、
16、
17、sstsa研究表明,通過雙向計算分析相鄰幀,捕捉前視圖和后視圖的動態(tài)動作趨勢,該模型能夠很好地捕捉當前幀中的運動細節(jié),而無需大量參數(shù),為方便計算,后面和前面分別添加了零映射,確保幀數(shù)恢復到初始狀態(tài),為了分析兩個方向的時間趨勢,集體時間方差的處理方法如下:
18、
19、然后沿時間通道維度sd(ii)=[di-2,di-1,di,di+1,di+2]進行平均幀差操作。
20、d(ii)=avg(di-2,di-1,di,di+l,di+2)
21、其中avg表示將四張幀差圖像平均求和成一張短期抑制幀差圖像d(ii),最后再將d(ii)添加到原始輸入片段x中,便可得到短期信息幀差圖像。
22、其中,所述步驟四中的所述lmim是一個與現(xiàn)有2d?transformers相融合的模塊,它的顯著特點在于能夠捕獲視頻活動的長期時間動態(tài),而無需額外參數(shù)或增加計算需求。
23、其中,所述步驟四中的所述lmim在插入到block?l中,除了考慮到計算成本,長期運動信息幀間的空間位置變換也是一個問題,因此,設計了縮減特征維數(shù)的模塊,首先,將特征維數(shù)縮減到原來的1/r,通過相鄰段計算對齊后的時間差:
24、
25、其中c(fi,fi+1)表示段fi對齊后的時間差,和是縮減特征數(shù)后的幀級特征,從而緩解長期運動對齊缺失問題,由于相鄰幀的相減只產生t-1個時間差,所以我們需要在cf的起始和cb的結束部分分別添加零映射,補償因相鄰幀減少而導致的時間差減少,然后,采用雙向跨期時差法,利用對齊的時差優(yōu)化段間特征,具體如下:
26、
27、其中⊙為基于元素的乘法,我們還結合了原始幀級表示,并通過上述公式所示的殘差連接增強表示,所述smif會與所述lmim相互補充,互相提供信息,輔助模型對特征的提取。
28、其中,所述基于長短期時間差分的動作識別視覺轉換方法的具體操作方式為:由于每段視頻長短不一,將視頻v分成t段,不重疊,我們從每段中選取幀表示為x,形狀為[n,t,c,h,w],其中n是同時處理的視頻數(shù),t是幀序列大小,c是特征通道,h和w分別是每幀的長度和寬度,每幀之間間隔相同,總共得出t幀i=[i1,...,it],其中i的形狀為[t,c,h,w],smif旨在為圖像提供局部運動信息,以提高其表達能力:
29、
30、其中,表示短期運動信息圖像,它從ii的相鄰幀中提取局部運動信息,d表示幀差圖像,f表示將這些幀送入2d?transformer中提取到的幀級特征,其中f=[f1,...,ft],長期運動模塊主要利用跨段時間結構來增強幀級特征表示:
31、
32、其中,l表示lmim模塊,在長期運動信息中,在每個長期時間建模中只考慮相鄰幀的信息,通過多個lmim疊加,模型能夠捕獲長期運動中的時間結構。
33、本發(fā)明的一種基于長短期時間差分的動作識別視覺轉換方法,本發(fā)明通過建立長短期運動差值(lsmd)框架,并在該lsmd框架的設計過程中遵循了圖像模型,同時,在該圖像模型中分別設計了長期運動信息模塊(lmim)和短期運動信息圖像(smif),使得兩種不同但互補的方式能夠使圖像模型獲得長短期時間信息,從而使得該圖像模型獲得時空建模能力,進而減少了因省略片段之間的時間差而產生的噪聲干擾,能夠更有效地捕捉短期時間元素,同時,能夠捕獲視頻活動的長期時間動態(tài),而無需額外參數(shù)或增加計算需求,解決了現(xiàn)有的基于3d視頻的任務,如動作識別,直接應用時空變換的視頻數(shù)據會導致補丁數(shù)量以及自注意計算的二次復雜度的大幅增加,從而會導致計算和內存負擔加重的技術問題。