本發(fā)明涉及圖像處理,尤其涉及一種基于多模態(tài)數(shù)據(jù)處理的視頻內(nèi)容分析方法、裝置及設(shè)備。
背景技術(shù):
1、隨著視頻數(shù)據(jù)的爆炸式增長,視頻內(nèi)容分析在現(xiàn)代信息處理和管理中扮演著越來越重要的角色。高效、精準的視頻內(nèi)容分析不僅能提升用戶體驗,還能為各種應(yīng)用場景提供支持,如視頻推薦系統(tǒng)、內(nèi)容審核、版權(quán)保護以及廣告投放等。尤其是在數(shù)字媒體廣告投放行業(yè),我們可以通過自動化的視頻內(nèi)容分析,快速獲取視頻中的關(guān)鍵信息,節(jié)省人力資源,提高信息處理效率,并且有助于更好地理解和利用視頻數(shù)據(jù)。目前,視頻內(nèi)容分析的常見方案主要集中在以下幾個方面:人工標注和分類:依賴于人工對視頻內(nèi)容進行手動標注和分類,盡管其可以達到很高的精度,但人力成本高昂,且效率偏低;通過顏色直方圖、運動檢測等手段進行初步的內(nèi)容識別。這種方法可以快速識別總結(jié)視頻畫面中所出現(xiàn)的所有信息,在處理簡單場景時較為有效,但面對廣告視頻素材、剪輯成片等復雜、多變的內(nèi)容時,準確性和魯棒性不足;使用已有大模型算法進行內(nèi)容解析,對使用者的學習成本較高,需要人工反復訓練提示模型,后續(xù)再手動剔除無用信息,才能得到想要的結(jié)果,往往會占用系統(tǒng)和使用者的大量時間;隨著機器學習和技術(shù)的發(fā)展,不論付出的時間和成本代價,上述方案都可以達到解析視頻內(nèi)容的目的,但是在通過上述方案實施的過程中,還是無法精準解決以下問題:無法精準關(guān)聯(lián)成片和素材的信息:成片與原始素材之間的關(guān)聯(lián)性不強,導致無法精確追蹤素材的使用效果;無法精準進行內(nèi)容拆解:現(xiàn)有技術(shù)在處理數(shù)字媒體廣告視頻多變的內(nèi)容時,準確性和魯棒性不足,無法準確拆解視頻含義。
2、現(xiàn)有中國專利cn112004111a公開了一種全域深度學習的新聞視頻信息抽提方法,包括:在視頻解碼層,由鏡頭標簽模塊通過tsm時空模型對每一個動態(tài)鏡頭進行標記,生成每一個動態(tài)鏡頭的標簽;相似性計算模塊通過bm25算法對所有標簽進行相似度計算,鏡頭拼接模塊將標簽相似的動態(tài)鏡頭拼接成主題視頻;圖像處理模塊獲取主題視頻,對主題視頻中的每一幀圖像采用光流法、灰度直方圖法、lucas–kanade算法和圖像熵計算法進行處理,得到關(guān)鍵幀,并發(fā)送給關(guān)鍵幀緩存模塊進行緩存;在圖像解析層,知名人物檢測模塊調(diào)取關(guān)鍵幀,利用yolov3模型做目標物體檢測和職業(yè)檢測,利用facenet模型辨別知名人物;關(guān)鍵目標檢測模塊利用facenet模型對關(guān)鍵幀中的目標物體進行識別;上述專利雖然也公開了色彩分布識別和人物主體識別,以及將多段鏡頭的視覺內(nèi)容進行邏輯串聯(lián),但仍然無法精準關(guān)聯(lián)成片和素材的信息:成片與原始素材之間的關(guān)聯(lián)性不強,導致無法精確追蹤素材的使用效果;同時無法精準進行內(nèi)容拆解。
3、為此,如何在精準關(guān)聯(lián)成片和素材的同時,準確地對視頻內(nèi)容進行識別分析是亟待解決的問題。
技術(shù)實現(xiàn)思路
1、有鑒于此,本發(fā)明提供了一種基于多模態(tài)數(shù)據(jù)處理的視頻內(nèi)容分析方法、裝置及設(shè)備,用以解決現(xiàn)有技術(shù)中無法在精準關(guān)聯(lián)成片與素材的同時,還準確地對視頻內(nèi)容進行識別分析的問題。
2、本發(fā)明采用的技術(shù)方案是:
3、第一方面,本發(fā)明提供了一種基于多模態(tài)數(shù)據(jù)處理的視頻內(nèi)容分析方法,所述方法包括:
4、s1:獲取待解析的原始視頻素材;
5、s2:對所述原始視頻素材進行轉(zhuǎn)碼處理,確定預設(shè)編碼格式的標準視頻數(shù)據(jù);
6、s3:利用鏡頭切分技術(shù),將所述標準視頻數(shù)據(jù)分解為多個視頻片段;
7、s4:利用預設(shè)的特征處理算法,將包含視頻素材信息的盲水印信息嵌入各視頻片段中的各幀圖像中;
8、s5:對嵌入盲水印信息后的各視頻片段進行壓縮處理,確定壓縮視頻數(shù)據(jù);
9、s6:利用預設(shè)的特征提取算法,對所述壓縮視頻數(shù)據(jù)進行識別和分析,輸出與視頻內(nèi)容相關(guān)的文字信息和目標視頻素材信息。
10、優(yōu)選地,所述s3包括:
11、s31:對標準視頻數(shù)據(jù)中的各幀圖像進行灰度轉(zhuǎn)換,獲取各幀灰度圖像;
12、s32:利用邊緣檢測算法,對各幀所述灰度圖像進行邊緣檢測,輸出邊緣特征信息;
13、s33:依據(jù)相鄰幀灰度圖像對應(yīng)的邊緣特征信息,確定邊緣特征變化差值;
14、s34:依據(jù)所述邊緣特征變化差值和預設(shè)的變化閾值,確定視頻邊界信息;
15、s35:依據(jù)所述視頻邊界信息,對所述標準視頻數(shù)據(jù)進行分解,確定各所述視頻片段。
16、優(yōu)選地,所述s4包括:
17、s41:將待嵌入的視頻素材信息轉(zhuǎn)換為二進制格式,確定編碼后的盲水印信息;
18、s42:對各視頻片段中的各幀圖像分別進行分解處理,獲取區(qū)域圖像;
19、s43:對區(qū)域圖像進行離散余弦變換,將區(qū)域圖像從空間域圖像轉(zhuǎn)換為頻域圖像;
20、s44:對頻域圖像中的高頻分量進行調(diào)整,將盲水印信息嵌入所述頻域圖像中;
21、s45:對所述頻域圖像進行逆離散余弦變換后重新組合,完成盲水印信息在各視頻片段的嵌入。
22、優(yōu)選地,所述s6包括:
23、s61:對各幀所述壓縮圖像進行盲水印信息識別,輸出識別結(jié)果;
24、s62:若識別到所述盲水印信息,則獲取盲水印信息中嵌入的視頻素材信息作為目標視頻素材信息;
25、s63:若未識別到所述盲水印信息,則對各幀所述壓縮圖像進行特征提取與匹配,依據(jù)匹配結(jié)果,確定所述目標視頻素材信息;
26、s64:將各幀壓縮圖像輸入預訓練的特征提取模型中,輸出關(guān)鍵特征信息;
27、s65:將所述關(guān)鍵特征信息輸入多模態(tài)大語言模型中,輸出所述文字信息。優(yōu)選地,所述s61包括:
28、s611:將各幀所述壓縮圖像輸入預訓練的自監(jiān)督視覺變換模型中,輸出編碼特征信息;
29、s612:利用近似最近鄰算法,將所述編碼特征信息與視頻素材數(shù)據(jù)庫中各視頻素材模板的特征模板信息進行特征匹配,輸出匹配結(jié)果;
30、s613:依據(jù)所述匹配結(jié)果,將與編碼特征信息匹配上的特征模板信息對應(yīng)的視頻素材模板輸出為所述目標視頻素材信息。
31、優(yōu)選地,所述s64包括:
32、s641:對所述壓縮視頻數(shù)據(jù)進行解碼處理,獲取音頻數(shù)據(jù);
33、s642:將壓縮圖像輸入預訓練的人臉識別分類模型中,對識別出的壓縮圖像中的人臉特征進行分類和標注,確定人員信息;
34、s643:將壓縮圖像輸入預訓練的色彩分析模型中,分析壓縮圖像中的顏色分布,提取主要色彩信息,其中,所述主要色彩信息至少包括在壓縮圖像中檢測到的廣告品牌色調(diào)或在廣告風景畫中提取的主色調(diào);
35、s644:將壓縮圖像輸入目標檢測模型,對壓縮圖像中的物體進行定位和分類,確定物品信息,其中,所述物品信息至少包括物品類別和物品位置;
36、s645:將所述音頻數(shù)據(jù)輸入預訓練的語音轉(zhuǎn)錄模型中,輸出音頻數(shù)據(jù)中的音頻特征信息;
37、s646:將所述人員信息、色彩信息、物品信息和音頻特征信息分別輸入多模態(tài)大語言模型中,輸出所述關(guān)鍵特征信息。
38、優(yōu)選地,在所述s6之后還包括:
39、獲取待投放廣告的場景類型,其中,所述場景類型包括:引入場景、產(chǎn)品展示場景、用戶體驗場景和問題解決場景;
40、利用預設(shè)的文本匹配算法,將與視頻片段內(nèi)容相關(guān)的文字信息和預設(shè)的文本模板進行相似度評估,確定與人員信息、色彩信息、物品信息和音頻特征信息分別對應(yīng)的第一相似度、第二相似度、第三相似度和第四相似度;
41、獲取預設(shè)的權(quán)重修正因子,其中,所述權(quán)重修正因子大于1;
42、獲取第一相似度、第二相似度、第三相似度和第四相似度分別對應(yīng)的各初始權(quán)重,其中,各初始權(quán)重之和等于1;
43、若所述場景類型為引入場景,則利用所述權(quán)重修正因子,對所述第二相似度對應(yīng)的初始權(quán)重和所述第四相似度對應(yīng)的初始權(quán)重進行修正處理;
44、若所述場景類型為產(chǎn)品展示場景,則利用所述權(quán)重修正因子,對所述第二相似度對應(yīng)的初始權(quán)重和所述第三相似度對應(yīng)的初始權(quán)重進行修正處理;
45、若所述場景類型為用戶體驗場景,則利用所述權(quán)重修正因子,對所述第一相似度對應(yīng)的初始權(quán)重和所述第三相似度對應(yīng)的初始權(quán)重進行修正處理;
46、若所述場景類型為問題解決場景,則利用所述權(quán)重修正因子,對所述第一相似度對應(yīng)的初始權(quán)重和、所述第三相似度對應(yīng)的初始權(quán)重和所述第四相似度對應(yīng)的初始權(quán)重進行修正處理;
47、依據(jù)修正后的各初始權(quán)重,對第一相似度、第二相似度、第三相似度和第四相似度進行加權(quán)求均值處理,確定目標相似度;
48、依據(jù)所述目標相似度和預設(shè)的相似度閾值,將目標相似度大于相似度閾值的視頻片段合成為視頻集錦。
49、第二方面,本發(fā)明提供了一種基于多模態(tài)數(shù)據(jù)處理的視頻內(nèi)容分析裝置,所述裝置包括:
50、視頻素材獲取模塊,用于獲取待解析的原始視頻素材;
51、轉(zhuǎn)碼處理模塊,用于對所述原始視頻素材進行轉(zhuǎn)碼處理,確定預設(shè)編碼格式的標準視頻數(shù)據(jù);
52、鏡頭切分模塊,用于利用鏡頭切分技術(shù),將所述標準視頻數(shù)據(jù)分解為多個視頻片段;
53、盲水印嵌入模塊,用于利用預設(shè)的特征處理算法,將包含視頻素材信息的盲水印信息嵌入各視頻片段中的各幀圖像中;
54、壓縮處理模塊,用于對嵌入盲水印信息后的各視頻片段進行壓縮處理,確定壓縮視頻數(shù)據(jù);
55、特征提取模塊,用于利用預設(shè)的特征提取算法,對所述壓縮視頻數(shù)據(jù)進行識別和分析,輸出與視頻內(nèi)容相關(guān)的文字信息和目標視頻素材信息。
56、第三方面,本發(fā)明實施例還提供了一種電子設(shè)備,包括:至少一個處理器、至少一個存儲器以及存儲在存儲器中的計算機程序指令,當計算機程序指令被處理器執(zhí)行時實現(xiàn)如上述實施方式中第一方面的方法。
57、第四方面,本發(fā)明實施例還提供了一種存儲介質(zhì),其上存儲有計算機程序指令,當計算機程序指令被處理器執(zhí)行時實現(xiàn)如上述實施方式中第一方面的方法。
58、綜上所述,本發(fā)明的有益效果如下:
59、本發(fā)明提供的基于多模態(tài)數(shù)據(jù)處理的視頻內(nèi)容分析方法、裝置及設(shè)備,所述方法包括:獲取待解析的原始視頻素材;對所述原始視頻素材進行轉(zhuǎn)碼處理,確定預設(shè)編碼格式的標準視頻數(shù)據(jù);利用鏡頭切分技術(shù),將所述標準視頻數(shù)據(jù)分解為多個視頻片段;利用預設(shè)的特征處理算法,將包含視頻素材信息的盲水印信息嵌入各視頻片段中的各幀圖像中;對嵌入盲水印信息后的各視頻片段進行壓縮處理,確定壓縮視頻數(shù)據(jù);利用預設(shè)的特征提取算法,對所述壓縮視頻數(shù)據(jù)進行識別和分析,輸出與視頻內(nèi)容相關(guān)的文字信息和目標視頻素材信息。本發(fā)明通過一系列有序的處理步驟,實現(xiàn)了精準關(guān)聯(lián)成片與素材,并準確識別和分析視頻內(nèi)容,首先,通過獲取并轉(zhuǎn)碼原始視頻素材,確保所有數(shù)據(jù)格式統(tǒng)一,隨后利用鏡頭切分技術(shù),將標準視頻數(shù)據(jù)分解為多個易于管理的片段,嵌入盲水印信息,使得后續(xù)能在成片中精準識別出各個素材片段,即使經(jīng)過編輯和壓縮處理,最后,通過特征提取算法,對壓縮后的視頻進行識別和分析,輸出與視頻內(nèi)容相關(guān)的詳細文字信息和目標視頻素材信息。這種方法不僅提高了視頻素材與成片的匹配精度,確保了每段素材都能被準確定位和識別,還能高效地提取和總結(jié)視頻內(nèi)容,提供更為詳盡的分析和標注,解決了傳統(tǒng)視頻處理和分析中的效率和準確性問題。