本發(fā)明屬于智能視頻處理,具體涉及基于元學(xué)習(xí)和時(shí)空關(guān)系的未來幀異常檢測方法。
背景技術(shù):
1、隨著監(jiān)控設(shè)備的普及以及人們對社會公共安全的廣泛關(guān)注,視頻異常檢測即識別視頻序列中的異常事件或行為,逐漸成為計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)。自動編碼器是一種流行的視頻異常檢測方法。研究人員通常采用ae對歷史幀的正常模式進(jìn)行建模,并重建當(dāng)前幀或預(yù)測即將到來的幀。由于模型僅使用正常數(shù)據(jù)進(jìn)行訓(xùn)練,因此異常輸入的預(yù)測誤差預(yù)計(jì)會高于正常對應(yīng)輸入的預(yù)測誤差。此前,許多方法都是基于這種假設(shè)進(jìn)行異常檢測。然而,這個(gè)假設(shè)并不總是成立。這使得視頻異常檢測仍然極具挑戰(zhàn)性:一方面,現(xiàn)有方法依賴大量的正常訓(xùn)練數(shù)據(jù)來對共享的正常模式進(jìn)行建模。這些模型很容易面臨“過度概括”的困境,由于卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的表示能力,所有視頻幀都可以被很好地預(yù)測,無論它們是正常的還是異常的。值得注意的是,基于編碼器-解碼器結(jié)構(gòu)的一個(gè)潛在限制是解碼器在解碼時(shí)僅聚焦于預(yù)測未來幀和輸入視頻幀視覺特征之間的對應(yīng)關(guān)系,而正常樣本中的同一目標(biāo)對象可能出現(xiàn)在多個(gè)具有相似但不相同上下文信息的場景中,可能會導(dǎo)致異常樣本被很好地預(yù)測。在視頻異常檢測中,yiwei?lu,frank?yu,mahesh?kumar?krishna?reddy,and?yangwang.few-shot?scene-adaptive?anomaly?detection.in?eccv,2020.遵循基于優(yōu)化的元學(xué)習(xí)方法chelsea?finn,pieter?abbeel,and?sergey?levine.model-agnostic?meta-learning?for?fast?adaptation?of?deep?networks.in?icml,2017.4,6并將其應(yīng)用于訓(xùn)練場景自適應(yīng)異常檢測模型;lv,h.;chen,c.;cui,z.;xu,c.;li,y.;yang,j.learningnormal?dynamics?invideos?withmetaprototype?network.in?proceedingsof?the?2021ieee/cvf?conference?on?computer?vision?and?pattern?recognition(cvpr),virtual,19–25june?2021;pp.15420–15429.提出了一個(gè)動態(tài)原型單元,將正常樣本動態(tài)地實(shí)時(shí)編碼為原型,無需額外的內(nèi)存成本。zhang?s,song?x,wang?c,et?al.object-meta?and?msgae-mp:multi-dimensional?video?anomaly?detection[j].iet?computervision,2022.使用對象元幀代替視頻幀,加強(qiáng)輸入所攜帶的多維信息。受這些工作啟發(fā),在ae中引入元學(xué)習(xí)模塊來克服自動編碼器的局限性,首先,通過編碼器對當(dāng)前任務(wù)的先驗(yàn)知識進(jìn)行編碼并將其存儲到元學(xué)習(xí)模塊原型網(wǎng)絡(luò)中;然后,獲得原型作為特征編碼的集合,形成元學(xué)習(xí)正常行為池,利用特征編碼之間存在的復(fù)雜變化對新事件進(jìn)行推理以判斷其是否發(fā)生異常。該模塊直接學(xué)習(xí)編碼特征并對其進(jìn)行匹配,避免了高維特征空間的鏈狀聚類在低維映射過程中導(dǎo)致特征間實(shí)際距離的判定錯誤;同時(shí),元學(xué)習(xí)原型網(wǎng)絡(luò)可以對特征編碼不斷存儲并更新,最后,將元學(xué)習(xí)模塊的輸出編碼經(jīng)過剩余的ae層后在預(yù)測網(wǎng)絡(luò)進(jìn)行后續(xù)幀預(yù)測。元學(xué)習(xí)模塊的引入緩解了正常樣本中同一目標(biāo)對象在不同上下文環(huán)境中的預(yù)測。
2、另一方面,監(jiān)控視頻的大部分都是靜止的,不同場景中出現(xiàn)的正常模式也各不相同。環(huán)境和背景時(shí)空關(guān)系對于確定行為是否異常十分重要。例如,當(dāng)一個(gè)人在操場上跑步時(shí)應(yīng)該是正常行為,但在辦公室里進(jìn)行同樣的行為則可能被視為異常行為。liuw,luo?wx,lian?dz,gao?sh(2018)future?frame?prediction?for?anomaly?detection--a?newbaseline.processing?ofthe?ieee?confcomput?vis?pattern?recognit:6536-6545提出了一種新穎的異常檢測方法,通過u-net網(wǎng)絡(luò)架構(gòu)來學(xué)習(xí)正常樣本特征,但是該方法側(cè)重于關(guān)注學(xué)習(xí)視頻幀的表觀特征而忽視了一個(gè)重要線索,即用光流約束相鄰視頻幀間的運(yùn)動特征時(shí),光流通常假定在一個(gè)小的局部區(qū)域內(nèi),圖像的像素在時(shí)間上的運(yùn)動是一致的。然而,在復(fù)雜的場景中,對象的運(yùn)動可能是非均勻或非局部的,這可能導(dǎo)致光流在捕捉運(yùn)動時(shí)出現(xiàn)偏差,這導(dǎo)致它們對一些異常對象不敏感。隨著記憶增強(qiáng)深度自動編碼器的普及,使用memory項(xiàng)目來記憶正態(tài)數(shù)據(jù)的典型分布特征,并利用它們來約束卷積神經(jīng)網(wǎng)絡(luò)的表達(dá)能力。該記憶模塊可以很好地指導(dǎo)特征提取過程,但memory的特征只是網(wǎng)絡(luò)某一階段的空間特征,并沒有試圖引導(dǎo)與時(shí)間維度相關(guān)的特征的記憶,memory只能為模型區(qū)分正常和異常提供有限的幫助。在文本工作中,通過學(xué)習(xí)對象之間的時(shí)空關(guān)系進(jìn)行視頻異常檢測,結(jié)合空間特征和時(shí)間特征有助于更全面地理解視頻。
3、根據(jù)上述分析,有必要提供一種基于元學(xué)習(xí)和時(shí)空關(guān)系學(xué)習(xí)的u-net以進(jìn)行未來幀預(yù)測框架,為了充分理解視頻的時(shí)空維度,在u-net網(wǎng)絡(luò)中,引入可學(xué)習(xí)時(shí)空關(guān)系的注意力模塊學(xué)習(xí)輸入連續(xù)視頻幀對象間的時(shí)空關(guān)系,使神經(jīng)網(wǎng)絡(luò)更好地適應(yīng)視頻序列的時(shí)空動態(tài)變化,使基于u-net的預(yù)測網(wǎng)絡(luò)有更好的預(yù)測效果。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明針對上述現(xiàn)有技術(shù)中的技術(shù)問題,提出了基于元學(xué)習(xí)和時(shí)空關(guān)系的未來幀異常檢測方法,以解決自動編碼器在解碼時(shí)存在僅關(guān)注預(yù)測幀和輸入視頻幀視覺特征之間的對應(yīng)關(guān)系,以及忽略時(shí)域信息導(dǎo)致模型對一些異常對象不敏感等問題,提高異常檢測精度。
2、本發(fā)明為實(shí)現(xiàn)上述發(fā)明目的,采取的技術(shù)方案如下:
3、基于元學(xué)習(xí)和時(shí)空關(guān)系的未來幀異常檢測方法,包括以下步驟:
4、步驟1:以自編碼器為基礎(chǔ),將一段連續(xù)的視頻幀i1,i2,...,it作為輸入,將所有這些幀堆疊在通道上,并使用它們來預(yù)測未來的幀
5、步驟2:將輸入幀通過所選的ae編碼前饋到元學(xué)習(xí)模塊中,元學(xué)習(xí)模塊被訓(xùn)練來學(xué)習(xí)和壓縮實(shí)時(shí)序列信息的正常動態(tài)作為多個(gè)正常原型,并用正常動態(tài)信息豐富輸入ae編碼;
6、步驟3:通過輸出編碼通過剩余的ae層運(yùn)行,處理正常行為以用于后面的幀預(yù)測得到
7、步驟4:為了使預(yù)測幀更加接近it+1,在最小化它們在強(qiáng)度和梯度方面的距離的同時(shí),為了保持相鄰幀之間的時(shí)間一致性,引入了可學(xué)習(xí)時(shí)空關(guān)系的注意力機(jī)制來約束真實(shí)幀it+1和預(yù)測幀
8、步驟5:預(yù)測的未來幀與其正常幀之間的差異決定了事件的正常或異常。
9、進(jìn)一步的作為本發(fā)明的優(yōu)選技術(shù)方案,在元學(xué)習(xí)模塊中,正常行為特征集合被定義為:
10、
11、其中,m表示元學(xué)習(xí)模塊z包含的正常行為特征最大數(shù)目;表示第i個(gè)元學(xué)習(xí)正常行為標(biāo)簽的類型,θi表示第i個(gè)元學(xué)習(xí)正常行為標(biāo)簽的值。對于支持集z內(nèi)部的樣本點(diǎn),使用編碼公式fφ來為每一個(gè)分類生成一個(gè)原型表示:
12、
13、這里的編碼公式fφ可以是任意的一種信息抽取的方式,本文采用的ae編碼,元學(xué)習(xí)模塊被訓(xùn)練來學(xué)習(xí)實(shí)時(shí)序列信息的正常動態(tài)作為多個(gè)原型,并用正常動態(tài)信息豐富輸入ae編碼。從ae中提取第t個(gè)輸入編碼圖x(t)=fφ(x),x(t)∈rh×w×c,可將其視為c維n=w×h向量,為每個(gè)像素位置分配常態(tài)權(quán)重表示fφ為:
14、
15、fφ可以稱為正常行為池,即原型池。輸入一段連續(xù)視頻幀可表示集合為
16、進(jìn)一步的作為本發(fā)明的優(yōu)選技術(shù)方案,類似的,對于查詢集也生成查詢集的編碼。在查詢的過程中,來自ae編碼圖的輸入編碼向量被用作查詢來檢索原型池中的相關(guān)項(xiàng),以重建正態(tài)編碼fφ(x),將查詢集編碼為fφ′(x):
17、
18、其中,表示為表示第n個(gè)編碼向量和第m個(gè)原型項(xiàng)之間的相關(guān)分?jǐn)?shù)。
19、最后,計(jì)算的是當(dāng)前樣本屬于每一個(gè)分類的概率pw(y=k|x),這里使用softmax的計(jì)算方式:
20、
21、引入元學(xué)習(xí)模塊的關(guān)鍵思想是用正常信息豐富ae編碼,以增強(qiáng)視頻幀正常部分的預(yù)測,同時(shí)抑制異常部分。將元學(xué)習(xí)模塊的輸出編碼經(jīng)過剩余的ae層后在預(yù)測網(wǎng)絡(luò)進(jìn)行后續(xù)幀預(yù)測。
22、進(jìn)一步的作為本發(fā)明的優(yōu)選技術(shù)方案,未來幀預(yù)測:通過修改u-net以進(jìn)行未來幀預(yù)測,在u-net網(wǎng)絡(luò)中,引入注意力模塊學(xué)習(xí)輸入圖像的時(shí)空關(guān)系,使基于u-net的預(yù)測網(wǎng)絡(luò)有更好的預(yù)測效果。具體來說,對于每兩個(gè)卷積層,保留輸出分辨率。因此,添加快捷方式時(shí)不再需要裁剪和調(diào)整大小操作。所有卷積層、反卷積層和最大池化層的內(nèi)核大小均設(shè)置為3。在u-net預(yù)測網(wǎng)絡(luò)中,輸入和輸出具有相同的分辨率。注意力機(jī)制模塊將在下部分進(jìn)行介紹。
23、首先,將網(wǎng)絡(luò)輸入圖像大小設(shè)置為(256,256)灰度圖像,然后經(jīng)過兩兩3*3卷積,成為維數(shù)(64,256,256),經(jīng)過三次降采樣,圖像維數(shù)為(512,32,32),實(shí)現(xiàn)降采樣部分后,通過注意機(jī)制模塊,重復(fù)三次上采樣,直到圖像降采樣為(64,256,256),得到相同分辨率的輸入輸出。
24、遵循未來幀預(yù)測工作,強(qiáng)度和梯度差被用來使預(yù)測接近其真實(shí)情況。強(qiáng)度約束保證了rgb空間中所有像素的相似性。具體來說,在強(qiáng)度空間中最小化預(yù)測幀與其真實(shí)i之間的l2距離:
25、
26、梯度約束用來銳化生成的圖像:
27、
28、其中i,j表示視頻幀的空間索引。
29、基于時(shí)空關(guān)系的注意力機(jī)制:設(shè)計(jì)了一種新的注意力機(jī)制來捕獲視頻幀中對象之間的時(shí)空關(guān)系。通道右側(cè)代表對象之間空間關(guān)系的注意過程,通道左側(cè)則關(guān)注時(shí)間關(guān)系。最后,原始輸入由空間和時(shí)間注意通道聯(lián)合加權(quán),用作模塊的輸出以達(dá)到學(xué)習(xí)對象時(shí)空關(guān)系的目的。
30、在可學(xué)習(xí)時(shí)空關(guān)系的注意力機(jī)制中,能夠通過結(jié)合空間和時(shí)間信息來分別提取和聚合維度特征,以獲得時(shí)空關(guān)系信息。具體操作為,對輸入h維度的特征首先通過一對一維特征編碼操作進(jìn)行編碼,該操作利用兩個(gè)空間大小為h的池化內(nèi)核;(h×1)和(w×1)對每個(gè)通道進(jìn)行平均池化編碼,分別為水平方向和豎直方向,按豎直方向編碼,h維度第c通道的輸出如下:
31、
32、按水平方向編碼同理:
33、
34、通過空間特征信息提取操作,將生成的通道級聯(lián),從每個(gè)通道特征中提取t時(shí)刻視頻幀序列的特征yt可以表示為:
35、
36、其中,σ表示歸一化操作,f表示卷積操作,f3×3、f1×1,表示卷積操作中卷積核大小,c/r則表示在控制通道數(shù)變化的縮小比例。
37、三個(gè)轉(zhuǎn)換的輸出沿著三個(gè)維度中的每一個(gè)進(jìn)行聚合,以生成一組時(shí)空感知的特征映射。這三種變換捕獲了特征空間中的長程時(shí)間依賴性和空間關(guān)系,這使得網(wǎng)絡(luò)能夠更準(zhǔn)確地獲得對象之間的時(shí)空關(guān)系。利用對象之間的空間關(guān)系和時(shí)間依賴性來設(shè)計(jì)注意力機(jī)制來突出視頻異常檢測中易發(fā)生異常的區(qū)域。將兩通道連接,即ych(h)和ycw(w)進(jìn)行連接,通過的卷積運(yùn)算后得到輸出:
38、yhw=δ(f1×1[yh,yw])?(11)
39、其中,δ表示表示非線性激活函數(shù),由此得到將yhw分割為yh∈rc/r×h和yw∈rc/r×w的兩個(gè)具有相同維度的張量。將yh和yw分別經(jīng)過sigmoid激活函數(shù)得到最終的張量gh和gw。
40、對于時(shí)間通道注意力部分的張量,對yt進(jìn)行非線性激活函數(shù)處理后得到:
41、gt=relu(yt(x))?(12)
42、張量gt表示對時(shí)間變化敏感的區(qū)域特征權(quán)重。最后,時(shí)空關(guān)系注意力模塊y的輸出如下:
43、
44、由于輸入輸出具有相同的分辨率,可學(xué)習(xí)時(shí)空關(guān)系注意力機(jī)制模塊再插入u-net網(wǎng)絡(luò)中,幫助其進(jìn)行更好的未來幀預(yù)測時(shí),無需改變輸入輸出結(jié)構(gòu)。
45、進(jìn)一步的作為本發(fā)明的優(yōu)選技術(shù)方案,目標(biāo)函數(shù):將所有這些關(guān)于外觀、運(yùn)動和對抗性訓(xùn)練的約束結(jié)合到目標(biāo)函數(shù)中,并得出以下目標(biāo)函數(shù),這些函數(shù)支持表示目標(biāo)正常行為的原型學(xué)習(xí)、增強(qiáng)編碼的特征重建以及未來幀預(yù)測。
46、首先,整體損失函數(shù)ψ由注意力機(jī)制下特征重建項(xiàng)ψcd和幀預(yù)測項(xiàng)ψpre組成。這兩項(xiàng)通過權(quán)重λ1、λ2平衡為:
47、ψ=λ1ψpre+λ2ψcd?(14)
48、幀預(yù)測損失表示為輸入視頻真實(shí)幀yt和未來幀預(yù)測網(wǎng)絡(luò)輸出預(yù)測幀之間的歐氏距離:
49、
50、注意力機(jī)制下特征重建損失表示為學(xué)習(xí)到的普通原型具有信息多樣性和特征代表性,即質(zhì)量和多樣性高,且冗余度低。它有兩項(xiàng)ψc和ψd,分別針對這兩個(gè)性質(zhì),可寫為:
51、ψcd=μ1ψc+μ2ψd?(16)
52、其中,μ1和μ2為權(quán)重。特征緊湊性損失ψc用于使用緊湊原型重建常態(tài)編碼,可查詢更接近正常行為池中最相似的模式,增強(qiáng)各個(gè)模式的代表性,并最小化查詢與相應(yīng)模式之間的l2范數(shù),即它測量輸入編碼向量及其最相關(guān)原型的平均歐式距離:
53、
54、其中,k是查詢在正常行為模式池中最接近的模式的索引,表示為:
55、
56、進(jìn)一步促進(jìn)原型項(xiàng)目之間的多樣性。多樣性項(xiàng)ψd表示為
57、
58、其中,p,p′分別表示不同的原型,α是正常行為模式池中模式的期望距離。利用上述兩項(xiàng)損失函數(shù)ψc和ψd,未來幀預(yù)測模型能夠重點(diǎn)關(guān)注對象間時(shí)空關(guān)系,以便更好地預(yù)測正常的未來幀。
59、進(jìn)一步的作為本發(fā)明的優(yōu)選技術(shù)方案,異常分?jǐn)?shù):假設(shè)正常事件可以被很好地預(yù)測。因此,可以利用預(yù)測幀與其真實(shí)值之間的差異來進(jìn)行異常預(yù)測。峰值信噪比(psnr)是圖像質(zhì)量評估的一種方法。
60、
61、其中,是表示圖像點(diǎn)顏色的最大數(shù)值
62、在計(jì)算出每個(gè)測試視頻的每一幀的psnr之后,將測試視頻中所有幀的psnr歸一化到范圍[0,1],并使用以下方程計(jì)算每幀的常規(guī)分?jǐn)?shù):
63、
64、其中,scoreall(t)是規(guī)則性評分,對應(yīng)于視頻中每一幀的正常程度,其對檢測結(jié)果的置信度起著指示作用??梢栽O(shè)置一個(gè)閾值來區(qū)分正常幀或異常幀。當(dāng)對應(yīng)的值低于閾值時(shí),表示異常事件發(fā)生;對應(yīng)的值高于閾值時(shí),表示無異常事件發(fā)生。
65、本發(fā)明所述的基于元學(xué)習(xí)和時(shí)空關(guān)系的未來幀異常檢測方法,采用以上技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下技術(shù)效果:
66、(1)本發(fā)明方法提出了元學(xué)習(xí)模塊,基于模型的元學(xué)習(xí)方法使得模型能夠從多個(gè)任務(wù)中學(xué)習(xí)到通用的特征,系統(tǒng)可以從數(shù)據(jù)中學(xué)習(xí)到更具有判別性和泛化性的特征表示。不同的監(jiān)控場景和異常行為時(shí),模型也能夠準(zhǔn)確地進(jìn)行異常檢測,而不會出現(xiàn)過擬合或欠擬合的情況。
67、(2)本發(fā)明方法將元學(xué)習(xí)模塊引入自動編碼器中,利用元學(xué)習(xí)模塊的學(xué)習(xí)特性,對自動編碼器提取特征進(jìn)行提取保存并更新的同時(shí),通過學(xué)習(xí)自動獲取提取輸入視頻幀的特征重要性,并為更值得關(guān)注的特征分配重要權(quán)重,這有助于在未來幀預(yù)測網(wǎng)絡(luò)輸入階段關(guān)鍵特征的利用率。
68、(3)本發(fā)明方法中注意力模塊,使模型關(guān)注對象之間的時(shí)空關(guān)系。并將其引入未來幀預(yù)測網(wǎng)絡(luò),利用注意力模塊的三通道對輸入視頻幀的時(shí)空和空間維度的特征提取和融合,并學(xué)習(xí)空間特征空間和運(yùn)動特征空間的規(guī)律性,使未來幀預(yù)測網(wǎng)絡(luò)更好的預(yù)測下一幀,這有利于檢測異常事件。