本發(fā)明屬于計算機視覺與視頻處理,特別涉及一種基于文本質(zhì)量感知的視頻描述方法與系統(tǒng)。
背景技術:
1、在過去的十年中,視頻描述任務取得了長足的進步,這主要是由于深度學習技術的發(fā)展。與此同時,msr-vtt和?msvd等大規(guī)模數(shù)據(jù)集的收集,為模型訓練提供大量視頻-描述樣本,促進了視頻描述任務的發(fā)展。但是為了收集這些數(shù)據(jù)集,通過眾包將視頻發(fā)送給多個注釋者,以收集描述視頻的字幕。由于注釋者的主觀性,導致不可避免地存在噪聲信息,而噪聲數(shù)據(jù)會降低模型描述生成能力。
2、為了解決噪聲問題,最新的研究采用了clipscore方法來評估圖像與文本之間的相似度,然后作為訓練過程中的關鍵控制信號,指導模型學習并達到不同層次的跨模態(tài)對齊。這種方法取得了顯著的改進,然而依舊存在問題。首先由于缺少完美標簽,文本標注的質(zhì)量是無法直接評估的。并且標注質(zhì)量應該是多維度的,不能僅從一個維度評價。此外clipscore僅評估文本和圖像,不能評估文本與視頻。
技術實現(xiàn)思路
1、鑒于上述狀況,本發(fā)明的主要目的是為了提出一種基于文本質(zhì)量感知的視頻描述方法與系統(tǒng),以解決上述技術問題。
2、本發(fā)明提出了一種基于文本質(zhì)量感知的視頻描述方法,所述方法包括如下步驟:
3、步驟1、選取同一視頻標注的所有文本描述,共同構成評估描述質(zhì)量的偽真值標簽;
4、步驟2、基于文本-標簽一致性,選取語言評估指標rough、cider和預訓練的bert作為質(zhì)量評估指標,利用同一視頻標注的所有文本描述和偽真值標簽評估描述文本標注的質(zhì)量,以生成第一描述文本標注質(zhì)量;
5、步驟3、基于文本-視頻相似性,選取預訓練的clip作為質(zhì)量評估指標,利用同一視頻標注的所有文本描述和視頻來評估描述文本標注的質(zhì)量,以生成第二描述文本標注質(zhì)量;
6、步驟4、將每個文本描述對應的第一描述文本標注質(zhì)量和第二描述文本標注質(zhì)量進行拼接,形成描述文本標注質(zhì)量向量集合;
7、步驟5、獲取若干視頻的描述文本標注質(zhì)量向量集合,再進行拼接操作,得到描述質(zhì)量矩陣;
8、針對每個質(zhì)量評估指標,將描述質(zhì)量矩陣中的每個描述文本標注質(zhì)量向量在對應質(zhì)量評估指標中的質(zhì)量值組成質(zhì)量向量,再進行最小最大歸一化處理,得到歸一化后的質(zhì)量向量;
9、步驟6、將歸一化的質(zhì)量向量嵌入為質(zhì)量特征,利用視覺編碼器獲取視頻的特征編碼,將質(zhì)量特征作為質(zhì)量輔助信號與特征編碼一并送入由多層transformer模塊組成的解碼器中,通過自回歸的方式,利用質(zhì)量輔助信號輔助逐步生成描述。
10、本發(fā)明還提出一種基于文本質(zhì)量感知的視頻描述系統(tǒng),其中,所述系統(tǒng)應用如上所述的基于文本質(zhì)量感知的視頻描述方法,所述系統(tǒng)包括:
11、描述文本標注質(zhì)量評估模塊,用于:
12、選取同一視頻標注的所有文本描述,共同構成評估描述質(zhì)量的偽真值標簽;
13、基于文本-標簽一致性,選取語言評估指標rough、cider和預訓練的bert作為質(zhì)量評估指標,利用同一視頻標注的所有文本描述和偽真值標簽評估描述文本標注的質(zhì)量,以生成第一描述文本標注質(zhì)量;
14、基于文本-視頻相似性,選取預訓練的clip作為質(zhì)量評估指標,利用同一視頻標注的所有文本描述和視頻來評估描述文本標注的質(zhì)量,以生成第二描述文本標注質(zhì)量;
15、將第一描述文本標注質(zhì)量和第二描述文本標注質(zhì)量中每個文本描述對應的第一描述文本標注質(zhì)量和第二描述文本標注質(zhì)量進行拼接,形成描述文本標注質(zhì)量向量集合;
16、描述文本標注質(zhì)量歸一化模塊,用于:
17、獲取若干視頻的描述文本標注質(zhì)量向量集合,再進行拼接操作,得到描述質(zhì)量矩陣;
18、針對每個質(zhì)量評估指標,將描述質(zhì)量矩陣中的每個描述文本標注質(zhì)量向量在對應質(zhì)量評估指標中的質(zhì)量值組成質(zhì)量向量,再進行最小最大歸一化處理,得到歸一化后的質(zhì)量向量;
19、文本質(zhì)量感知的描述解碼模塊,用于:
20、將歸一化的質(zhì)量向量嵌入為質(zhì)量特征,利用視覺編碼器獲取視頻的特征編碼,將質(zhì)量特征作為質(zhì)量輔助信號與特征編碼一并送入由多層transformer模塊組成的解碼器中,通過自回歸的方式,利用質(zhì)量輔助信號輔助逐步生成描述。
21、相較于現(xiàn)有技術,本發(fā)明的有益效果如下:
22、1、本發(fā)明通過設計文本-標簽一致性評估方法和文本-視頻相似性評估方法形成描述文本標注質(zhì)量的向量表示,使得可以同時結合了文本-標簽一致性和文本-視頻相似性,進而在進行評估描述文本時,可使標注質(zhì)量更全面準確。
23、2、本發(fā)明提出了新的批量視頻內(nèi)對描述質(zhì)量向量歸一化的方法,以確保存在準確的最全面的標簽與最不相關的標簽,并且通過歸一化后,將所有評估指標對應的質(zhì)量值映射到相同尺度,加快模型的訓練。
24、3、本發(fā)明實現(xiàn)了文本質(zhì)量感知推理,實現(xiàn)了從噪聲數(shù)據(jù)中學習并令模型訓練受益。
25、本發(fā)明的附加方面與優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實施例了解到。
1.一種基于文本質(zhì)量感知的視頻描述方法,其特征在于,所述方法包括如下步驟:
2.根據(jù)權利要求1所述的基于文本質(zhì)量感知的視頻描述方法,其特征在于,在所述步驟1中,選取同一視頻標注的所有文本描述,共同構成評估描述質(zhì)量的偽真值標簽的方法具體包括如下步驟:
3.根據(jù)權利要求2所述的基于文本質(zhì)量感知的視頻描述方法,其特征在于,在所述步驟2中,基于文本-標簽一致性,選取語言評估指標rough、cider和預訓練的bert作為質(zhì)量評估指標,利用同一視頻標注的所有文本描述和偽真值標簽評估描述文本標注的質(zhì)量,以生成第一描述文本標注質(zhì)量的方法具體包括如下步驟:
4.根據(jù)權利要求2所述的基于文本質(zhì)量感知的視頻描述方法,其特征在于,在所述步驟3中,基于文本-視頻相似性,選取預訓練的clip作為質(zhì)量評估指標,利用同一視頻標注的所有文本描述和視頻來評估描述文本標注的質(zhì)量,以生成第二描述文本標注質(zhì)量的方法具體包括如下步驟:
5.根據(jù)權利要求2所述的基于文本質(zhì)量感知的視頻描述方法,其特征在于,在所述步驟4中,將每個文本描述對應的第一描述文本標注質(zhì)量和第二描述文本標注質(zhì)量進行拼接的方法具體包括如下步驟:
6.根據(jù)權利要求5所述的基于文本質(zhì)量感知的視頻描述方法,其特征在于,在所述步驟5中,獲取若干視頻的描述文本標注質(zhì)量向量集合,再進行拼接操作的方法具體包括如下步驟:
7.根據(jù)權利要求6所述的基于文本質(zhì)量感知的視頻描述方法,其特征在于,在所述步驟5中,針對每個質(zhì)量評估指標,將描述質(zhì)量矩陣中的每個描述文本標注質(zhì)量向量在對應質(zhì)量評估指標中的質(zhì)量值組成質(zhì)量向量,再進行最小最大歸一化處理,得到歸一化后的質(zhì)量向量的方法具體包括如下步驟:
8.根據(jù)權利要求7所述的基于文本質(zhì)量感知的視頻描述方法,其特征在于,在所述步驟6中,將歸一化的質(zhì)量向量嵌入為質(zhì)量特征,利用視覺編碼器獲取視頻的特征編碼,將質(zhì)量特征作為質(zhì)量輔助信號與特征編碼一并送入由多層transformer模塊組成的解碼器中,通過自回歸的方式,利用質(zhì)量輔助信號輔助逐步生成描述的方法具體包括如下步驟:
9.一種基于文本質(zhì)量感知的視頻描述系統(tǒng),其特征在于,所述系統(tǒng)應用如權利要求1至8任意一項所述的基于文本質(zhì)量感知的視頻描述方法,所述系統(tǒng)包括: