本發(fā)明實(shí)施例涉及計(jì)算機(jī)視覺(jué)領(lǐng)域,具體涉及一種基于掩碼transformer的端到端密集視頻描述生成方法。
背景技術(shù):
1、近些年來(lái),隨著互聯(lián)網(wǎng)信息技術(shù)的高速發(fā)展,人類已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代,我們生活的方方面面都充斥著各種多媒體數(shù)據(jù)信息,視頻這種信息載體已經(jīng)成為人類學(xué)習(xí)和獲取知識(shí)的重要來(lái)源之一??紤]到每天都在爆炸式增長(zhǎng)的視頻數(shù)據(jù),如何使它們更容易、更高效地被人類理解成為了當(dāng)下的研究熱點(diǎn),實(shí)現(xiàn)這個(gè)問(wèn)題的一種方法就是以保留視頻語(yǔ)義的方式對(duì)其進(jìn)行壓縮。在這種情況下,密集視頻描述——用描述性自然語(yǔ)言描述視頻中的事件的任務(wù)應(yīng)運(yùn)而生。
2、密集視頻描述任務(wù)大多可以分解為兩個(gè)部分,即事件檢測(cè)和事件描述。現(xiàn)有方法通常利用事件提案模塊和描述生成模塊分別來(lái)解決這兩個(gè)子任務(wù)。其性能高度依賴于生成的事件提案的質(zhì)量,限制了兩個(gè)子任務(wù)的相互促進(jìn)。而且考慮到合適的事件數(shù)是密集視頻描述質(zhì)量的重要指標(biāo),太多的事件會(huì)導(dǎo)致重復(fù)的標(biāo)題和糟糕的可讀性;檢測(cè)到的事件太少意味著信息缺失和故事不完整。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于克服上述不足,提出一種基于掩碼transformer的端到端密集視頻描述生成方法,能夠利用視頻中的語(yǔ)言信息來(lái)影響產(chǎn)生的事件提案,并且針對(duì)如何選取合適的事件生成數(shù)設(shè)計(jì)了一個(gè)事件計(jì)數(shù)器以提高密集視頻描述任務(wù)的性能指標(biāo)。
2、本發(fā)明是提出一種基于掩碼transformer的端到端密集視頻描述生成方法,該方法包括以下步驟:
3、(1)將視覺(jué)內(nèi)容的輸入通過(guò)卷積神經(jīng)網(wǎng)絡(luò)編碼為一組連續(xù)的表示;
4、(2)將生成的連續(xù)表示前饋到編碼層,在視頻編碼器中使用自注意力對(duì)時(shí)間步信息進(jìn)行編碼,通過(guò)前饋神經(jīng)網(wǎng)絡(luò)后對(duì)殘差輸出進(jìn)行層歸一化,最后提取得到視覺(jué)特征以及所有的嵌入向量;
5、(3)從提案解碼器獲取由視頻解碼器輸出的視覺(jué)特征,采用錨點(diǎn)偏移機(jī)制為提案設(shè)計(jì)一組顯式錨點(diǎn),計(jì)算得到基于錨點(diǎn)的事件提案并輸出;
6、(4)描述解碼器同時(shí)獲取視頻編碼器輸出的視覺(jué)特征表示和提案解碼器輸出的事件提案,使用自注意力對(duì)信息進(jìn)行編碼后,通過(guò)掩碼函數(shù)將視覺(jué)表示集中在描述當(dāng)前提案上,通過(guò)多頭注意力,通過(guò)多頭注意力對(duì)單詞與視覺(jué)內(nèi)容之間的關(guān)系進(jìn)行輸出;
7、(5)通過(guò)前饋神經(jīng)網(wǎng)絡(luò)、層歸一化,通過(guò)使用softmax激活的線性層來(lái)預(yù)測(cè)當(dāng)前提案的下一個(gè)單詞,最終生成對(duì)事件提案的內(nèi)容描述;
8、(6)將生成的提案事件的最顯著信息壓縮成一個(gè)全局特征向量,輸入至事件計(jì)數(shù)器中,通過(guò)從所有事件中選擇具有準(zhǔn)確邊界和良好描述內(nèi)容的前nset個(gè)作為最終的輸出。
9、視頻編碼器主要包括使用卷積神經(jīng)網(wǎng)絡(luò)cnn、運(yùn)用自注意力機(jī)制編碼信息、雙層前饋神經(jīng)網(wǎng)絡(luò)以及對(duì)殘差輸出進(jìn)行層歸一化。視頻編碼器主要任務(wù)是將視頻內(nèi)容輸入經(jīng)過(guò)編碼輸出視覺(jué)特征表示以及所有的嵌入向量以便后續(xù)處理,視頻編碼器的具體方法如下:
10、(1)通過(guò)卷積神經(jīng)網(wǎng)絡(luò)將輸入的視頻的每一幀進(jìn)行編碼,得到一組連續(xù)的視覺(jué)表示
11、(2)然后利用自注意力機(jī)制,在每個(gè)時(shí)間步將卷積神經(jīng)網(wǎng)絡(luò)編碼成的視覺(jué)表示作為對(duì)注意力層的查詢,輸出它的權(quán)重和;
12、(3)將自注意力層輸出的編碼信息結(jié)果經(jīng)由一個(gè)第一層為relu非線性層的雙層前饋神經(jīng)網(wǎng)絡(luò),然后對(duì)殘差進(jìn)行層歸一化,輸出視頻的視覺(jué)特征以及所有嵌入向量以便后續(xù)處理。
13、提案解碼器采用了錨點(diǎn)偏移機(jī)制,設(shè)計(jì)了一組k個(gè)顯式錨點(diǎn)用于提案分段,提案解碼器的具體方法如下:
14、(1)首先為提案設(shè)計(jì)一組k個(gè)顯式錨點(diǎn),錨點(diǎn)長(zhǎng)度為lk(k=1,2,...,k),錨點(diǎn)中心覆蓋包括了所有視頻幀;
15、(2)每個(gè)基于錨點(diǎn)的提案由事件提案得分pe,提案中心偏移量θc,提案長(zhǎng)度偏移量θl構(gòu)成,事件提案得分表示錨點(diǎn)成為提案的可能性,偏移量用于調(diào)整提案事件的邊界;
16、(3)在提案邊界處對(duì)視頻編碼進(jìn)行零填充,得到大小為k×l的分?jǐn)?shù)矩陣和偏移量矩陣,輸出的提案模塊大小為k×l×3;
17、(4)每個(gè)提案事件的邊界(sp,ep)由錨點(diǎn)位置偏移量決定。設(shè)關(guān)聯(lián)錨點(diǎn)的長(zhǎng)度為la,中心為ca,則提案中心提案長(zhǎng)度lp=|aexp{θl},則sp=cp-lp/2,ep=cp+lp/2。由此計(jì)算得到事件提案邊界。這樣就得到了一個(gè)事件提案元組<sp,ep,pe>。
18、描述解碼器同時(shí)獲取視頻編碼器和提案解碼器的輸出,對(duì)提案事件進(jìn)行描述生成。描述解碼器的具體方法如下:
19、(1)掩碼函數(shù)fm(sp,ep),使視覺(jué)表示集中在描述當(dāng)前事件上。與生成的連續(xù)表示fl進(jìn)行逐元素乘法,再次前向傳播。得到
20、(2)將獲取的詞向量集合對(duì)自身進(jìn)行自注意力計(jì)算,得到新的詞嵌入向量作為查詢,與作為鍵和值進(jìn)入多頭注意力層進(jìn)行傳播,進(jìn)入前饋層;
21、(3)對(duì)殘差進(jìn)行層歸一化后,使用softmax激活的線性層預(yù)測(cè)當(dāng)前提案的下一個(gè)單詞。根據(jù)公式表示詞匯表中每個(gè)單詞在t+1時(shí)刻出現(xiàn)的概率。
22、事件計(jì)數(shù)器用于優(yōu)化選擇合適的生成事件數(shù)量,它含有一個(gè)最大池化層和一個(gè)帶softmax激活的fc層,它的具體方法如下:
23、(1)通過(guò)最大池化層將提案事件的最顯著信息壓縮到一個(gè)全局特征向量;
24、(2)預(yù)測(cè)一個(gè)固定大小向量rlen,每個(gè)值表示特定數(shù)字的可能性;
25、(3)在推理階段,根據(jù)公式nset=argmax(rlen)得到預(yù)測(cè)事件數(shù)nset
26、(4)通過(guò)從所有事件中選擇具有準(zhǔn)確邊界和良好生成描述的前nset個(gè)提案事件作為最終輸出,每個(gè)事件的置信度計(jì)算公式為其中γ為糾正描述長(zhǎng)度影響的調(diào)節(jié)因子,μ為平衡因子,mj為句子長(zhǎng)度,為查詢事件提案的本地化置信程度。
1.一種基于掩碼transformer的端到端生成密集視頻描述的方法,其特征在于,包括步驟:
2.如權(quán)利要求1所述的基于掩碼transformer的端到端生成密集視頻描述的方法,其特征在于,步驟s1中利用卷積神經(jīng)網(wǎng)絡(luò)將輸入視頻內(nèi)容的每一幀編碼,得到一組連續(xù)的視覺(jué)表示。
3.如權(quán)利要求1所述的基于掩碼transformer的端到端生成密集視頻描述的方法,其特征在于,步驟s2中使用基于transformer設(shè)計(jì)的視頻編碼器,對(duì)視覺(jué)表示進(jìn)行進(jìn)一步的特征提取以及編碼,包括步驟:
4.如權(quán)利要求1所述的基于掩碼transformer的端到端生成密集視頻描述的方法,其特征在于,步驟s3中通過(guò)基于錨點(diǎn)偏移機(jī)制設(shè)計(jì)的提案解碼器,為視頻內(nèi)容生成一系列的事件提案元組,包括步驟:
5.如權(quán)利要求1所述的基于掩碼transformer的端到端生成密集視頻描述的方法,其特征在于,步驟s4中通過(guò)基于transformer設(shè)計(jì)的描述生成器,起了解碼器的作用,它同時(shí)獲取視頻編碼器以及提案解碼器的輸入,與掩碼函數(shù)相結(jié)合以最大程度地將視覺(jué)表示集中在描述當(dāng)前事件上,通過(guò)transformer的解碼器部分對(duì)每一個(gè)提案事件進(jìn)行解碼并生成描述,步驟包括:
6.如權(quán)利要求1所述的基于掩碼transformer的端到端生成密集視頻描述的方法,其特征在于,步驟s5中通過(guò)事件計(jì)數(shù)器,計(jì)算輸出事件提案的數(shù)量,選擇合適數(shù)量的事件提案描述輸出,優(yōu)化視頻描述質(zhì)量,步驟包括: