一種基于掩碼Transformer的端到端密集視頻描述生成方法

文檔序號(hào)：39621799發(fā)布日期：2024-10-11 13:41閱讀：13來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

本發(fā)明實(shí)施例涉及計(jì)算機(jī)視覺(jué)領(lǐng)域，具體涉及一種基于掩碼transformer的端到端密集視頻描述生成方法。

背景技術(shù)：

1、近些年來(lái)，隨著互聯(lián)網(wǎng)信息技術(shù)的高速發(fā)展，人類已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代，我們生活的方方面面都充斥著各種多媒體數(shù)據(jù)信息，視頻這種信息載體已經(jīng)成為人類學(xué)習(xí)和獲取知識(shí)的重要來(lái)源之一?？紤]到每天都在爆炸式增長(zhǎng)的視頻數(shù)據(jù)，如何使它們更容易、更高效地被人類理解成為了當(dāng)下的研究熱點(diǎn)，實(shí)現(xiàn)這個(gè)問(wèn)題的一種方法就是以保留視頻語(yǔ)義的方式對(duì)其進(jìn)行壓縮。在這種情況下，密集視頻描述——用描述性自然語(yǔ)言描述視頻中的事件的任務(wù)應(yīng)運(yùn)而生。

2、密集視頻描述任務(wù)大多可以分解為兩個(gè)部分，即事件檢測(cè)和事件描述。現(xiàn)有方法通常利用事件提案模塊和描述生成模塊分別來(lái)解決這兩個(gè)子任務(wù)。其性能高度依賴于生成的事件提案的質(zhì)量，限制了兩個(gè)子任務(wù)的相互促進(jìn)。而且考慮到合適的事件數(shù)是密集視頻描述質(zhì)量的重要指標(biāo)，太多的事件會(huì)導(dǎo)致重復(fù)的標(biāo)題和糟糕的可讀性；檢測(cè)到的事件太少意味著信息缺失和故事不完整。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于克服上述不足，提出一種基于掩碼transformer的端到端密集視頻描述生成方法，能夠利用視頻中的語(yǔ)言信息來(lái)影響產(chǎn)生的事件提案，并且針對(duì)如何選取合適的事件生成數(shù)設(shè)計(jì)了一個(gè)事件計(jì)數(shù)器以提高密集視頻描述任務(wù)的性能指標(biāo)。

2、本發(fā)明是提出一種基于掩碼transformer的端到端密集視頻描述生成方法，該方法包括以下步驟：

3、(1)將視覺(jué)內(nèi)容的輸入通過(guò)卷積神經(jīng)網(wǎng)絡(luò)編碼為一組連續(xù)的表示；

4、(2)將生成的連續(xù)表示前饋到編碼層，在視頻編碼器中使用自注意力對(duì)時(shí)間步信息進(jìn)行編碼，通過(guò)前饋神經(jīng)網(wǎng)絡(luò)后對(duì)殘差輸出進(jìn)行層歸一化，最后提取得到視覺(jué)特征以及所有的嵌入向量；

5、(3)從提案解碼器獲取由視頻解碼器輸出的視覺(jué)特征，采用錨點(diǎn)偏移機(jī)制為提案設(shè)計(jì)一組顯式錨點(diǎn)，計(jì)算得到基于錨點(diǎn)的事件提案并輸出；

6、(4)描述解碼器同時(shí)獲取視頻編碼器輸出的視覺(jué)特征表示和提案解碼器輸出的事件提案，使用自注意力對(duì)信息進(jìn)行編碼后，通過(guò)掩碼函數(shù)將視覺(jué)表示集中在描述當(dāng)前提案上，通過(guò)多頭注意力，通過(guò)多頭注意力對(duì)單詞與視覺(jué)內(nèi)容之間的關(guān)系進(jìn)行輸出；

7、(5)通過(guò)前饋神經(jīng)網(wǎng)絡(luò)、層歸一化，通過(guò)使用softmax激活的線性層來(lái)預(yù)測(cè)當(dāng)前提案的下一個(gè)單詞，最終生成對(duì)事件提案的內(nèi)容描述；

8、(6)將生成的提案事件的最顯著信息壓縮成一個(gè)全局特征向量，輸入至事件計(jì)數(shù)器中，通過(guò)從所有事件中選擇具有準(zhǔn)確邊界和良好描述內(nèi)容的前nset個(gè)作為最終的輸出。

9、視頻編碼器主要包括使用卷積神經(jīng)網(wǎng)絡(luò)cnn、運(yùn)用自注意力機(jī)制編碼信息、雙層前饋神經(jīng)網(wǎng)絡(luò)以及對(duì)殘差輸出進(jìn)行層歸一化。視頻編碼器主要任務(wù)是將視頻內(nèi)容輸入經(jīng)過(guò)編碼輸出視覺(jué)特征表示以及所有的嵌入向量以便后續(xù)處理，視頻編碼器的具體方法如下：

10、(1)通過(guò)卷積神經(jīng)網(wǎng)絡(luò)將輸入的視頻的每一幀進(jìn)行編碼，得到一組連續(xù)的視覺(jué)表示

11、(2)然后利用自注意力機(jī)制，在每個(gè)時(shí)間步將卷積神經(jīng)網(wǎng)絡(luò)編碼成的視覺(jué)表示作為對(duì)注意力層的查詢，輸出它的權(quán)重和；

12、(3)將自注意力層輸出的編碼信息結(jié)果經(jīng)由一個(gè)第一層為relu非線性層的雙層前饋神經(jīng)網(wǎng)絡(luò)，然后對(duì)殘差進(jìn)行層歸一化，輸出視頻的視覺(jué)特征以及所有嵌入向量以便后續(xù)處理。

13、提案解碼器采用了錨點(diǎn)偏移機(jī)制，設(shè)計(jì)了一組k個(gè)顯式錨點(diǎn)用于提案分段，提案解碼器的具體方法如下：

14、(1)首先為提案設(shè)計(jì)一組k個(gè)顯式錨點(diǎn)，錨點(diǎn)長(zhǎng)度為lk(k＝1，2，...，k)，錨點(diǎn)中心覆蓋包括了所有視頻幀；

15、(2)每個(gè)基于錨點(diǎn)的提案由事件提案得分pe，提案中心偏移量θc，提案長(zhǎng)度偏移量θl構(gòu)成，事件提案得分表示錨點(diǎn)成為提案的可能性，偏移量用于調(diào)整提案事件的邊界；

16、(3)在提案邊界處對(duì)視頻編碼進(jìn)行零填充，得到大小為k×l的分?jǐn)?shù)矩陣和偏移量矩陣，輸出的提案模塊大小為k×l×3；

17、(4)每個(gè)提案事件的邊界(sp，ep)由錨點(diǎn)位置偏移量決定。設(shè)關(guān)聯(lián)錨點(diǎn)的長(zhǎng)度為la，中心為ca，則提案中心提案長(zhǎng)度lp＝|aexp{θl}，則sp＝cp-lp/2，ep＝cp+lp/2。由此計(jì)算得到事件提案邊界。這樣就得到了一個(gè)事件提案元組<sp，ep，pe>。

18、描述解碼器同時(shí)獲取視頻編碼器和提案解碼器的輸出，對(duì)提案事件進(jìn)行描述生成。描述解碼器的具體方法如下：

19、(1)掩碼函數(shù)fm(sp，ep)，使視覺(jué)表示集中在描述當(dāng)前事件上。與生成的連續(xù)表示fl進(jìn)行逐元素乘法，再次前向傳播。得到

20、(2)將獲取的詞向量集合對(duì)自身進(jìn)行自注意力計(jì)算，得到新的詞嵌入向量作為查詢，與作為鍵和值進(jìn)入多頭注意力層進(jìn)行傳播，進(jìn)入前饋層；

21、(3)對(duì)殘差進(jìn)行層歸一化后，使用softmax激活的線性層預(yù)測(cè)當(dāng)前提案的下一個(gè)單詞。根據(jù)公式表示詞匯表中每個(gè)單詞在t+1時(shí)刻出現(xiàn)的概率。

22、事件計(jì)數(shù)器用于優(yōu)化選擇合適的生成事件數(shù)量，它含有一個(gè)最大池化層和一個(gè)帶softmax激活的fc層，它的具體方法如下：

23、(1)通過(guò)最大池化層將提案事件的最顯著信息壓縮到一個(gè)全局特征向量；

24、(2)預(yù)測(cè)一個(gè)固定大小向量rlen，每個(gè)值表示特定數(shù)字的可能性；

25、(3)在推理階段，根據(jù)公式nset＝argmax(rlen)得到預(yù)測(cè)事件數(shù)nset

26、(4)通過(guò)從所有事件中選擇具有準(zhǔn)確邊界和良好生成描述的前nset個(gè)提案事件作為最終輸出，每個(gè)事件的置信度計(jì)算公式為其中γ為糾正描述長(zhǎng)度影響的調(diào)節(jié)因子，μ為平衡因子，mj為句子長(zhǎng)度，為查詢事件提案的本地化置信程度。

技術(shù)特征：

1.一種基于掩碼transformer的端到端生成密集視頻描述的方法，其特征在于，包括步驟：

2.如權(quán)利要求1所述的基于掩碼transformer的端到端生成密集視頻描述的方法，其特征在于，步驟s1中利用卷積神經(jīng)網(wǎng)絡(luò)將輸入視頻內(nèi)容的每一幀編碼，得到一組連續(xù)的視覺(jué)表示。

3.如權(quán)利要求1所述的基于掩碼transformer的端到端生成密集視頻描述的方法，其特征在于，步驟s2中使用基于transformer設(shè)計(jì)的視頻編碼器，對(duì)視覺(jué)表示進(jìn)行進(jìn)一步的特征提取以及編碼，包括步驟：

4.如權(quán)利要求1所述的基于掩碼transformer的端到端生成密集視頻描述的方法，其特征在于，步驟s3中通過(guò)基于錨點(diǎn)偏移機(jī)制設(shè)計(jì)的提案解碼器，為視頻內(nèi)容生成一系列的事件提案元組，包括步驟：

5.如權(quán)利要求1所述的基于掩碼transformer的端到端生成密集視頻描述的方法，其特征在于，步驟s4中通過(guò)基于transformer設(shè)計(jì)的描述生成器，起了解碼器的作用，它同時(shí)獲取視頻編碼器以及提案解碼器的輸入，與掩碼函數(shù)相結(jié)合以最大程度地將視覺(jué)表示集中在描述當(dāng)前事件上，通過(guò)transformer的解碼器部分對(duì)每一個(gè)提案事件進(jìn)行解碼并生成描述，步驟包括：

6.如權(quán)利要求1所述的基于掩碼transformer的端到端生成密集視頻描述的方法，其特征在于，步驟s5中通過(guò)事件計(jì)數(shù)器，計(jì)算輸出事件提案的數(shù)量，選擇合適數(shù)量的事件提案描述輸出，優(yōu)化視頻描述質(zhì)量，步驟包括：

技術(shù)總結(jié)
本文提供了一種基于掩碼的Transformer網(wǎng)絡(luò)的端到端的視頻描述生成方法，包括步驟：視頻內(nèi)容編碼，通過(guò)卷積神經(jīng)網(wǎng)絡(luò)將輸入視頻內(nèi)容幀編碼為一組連續(xù)的視覺(jué)表示；特征提取與編碼，利用設(shè)計(jì)的視頻編碼器提取視覺(jué)特征，并對(duì)視覺(jué)特征進(jìn)行編碼得到視覺(jué)信息編碼；事件提案生成，利用錨點(diǎn)偏移機(jī)制為視頻生成事件提案元組；視頻描述生成，通過(guò)生成的事件提案元組與視頻編碼器輸出的視覺(jué)信息加上掩碼函數(shù)后，利用Transformer網(wǎng)絡(luò)的解碼器部分對(duì)每一個(gè)提案事件進(jìn)行解碼并生成描述；最后通過(guò)事件計(jì)數(shù)器，選擇合適數(shù)量的事件提案描述輸出，優(yōu)化視頻描述質(zhì)量。與現(xiàn)有的使用Transformer網(wǎng)絡(luò)的視頻描述方法相比，通過(guò)加入掩碼函數(shù)可以將模型的接受區(qū)域更好地限制在當(dāng)前片段上，將視覺(jué)表示更好地集中在描述當(dāng)前事件上；通過(guò)在輸出端口添加了一個(gè)事件計(jì)數(shù)模塊，幫助模型輸出合適數(shù)量的提案描述，優(yōu)化了生成事件太多或太少造成的糟糕可讀性以及信息缺失問(wèn)題。

技術(shù)研發(fā)人員：陸良偉,劉斌
受保護(hù)的技術(shù)使用者：南京工業(yè)大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/10/10

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陸良偉,劉斌
技術(shù)所有人：南京工業(yè)大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開(kāi)發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開(kāi)發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于掩碼Transformer的端到端密集視頻描述生成方法