一種基于近鄰保持重構(gòu)的視頻關(guān)鍵幀摘要提取方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及視頻關(guān)鍵幀摘要提取方法的技術(shù)領(lǐng)域,特別是基于近鄰重構(gòu)的視頻關(guān) 鍵幀摘要提取方法。
【背景技術(shù)】
[0002] 隨著數(shù)碼相機(jī)和攝像機(jī)在日常生活中的普及,人們總是淹沒在萬維網(wǎng)成千上萬的 視頻數(shù)據(jù)中。為了幫助用戶管理和瀏覽這些數(shù)量龐大的視頻,研宄者們通過定義最重要和 最適宜的內(nèi)容來將整段的視頻數(shù)據(jù)壓縮成為視頻摘要。一個(gè)簡單而有效的基于內(nèi)容的視頻 摘要方法是基于關(guān)鍵幀提取的視頻摘要,該方法為視頻索引、視頻瀏覽和視頻檢索等應(yīng)用 提供了合適的抽象摘要。每個(gè)視頻關(guān)鍵幀是一個(gè)能夠表示視頻無聲內(nèi)容的靜態(tài)圖片,所以 后續(xù)可以被其他圖片處理算法所分析利用。通過瀏覽幾張最重要的關(guān)鍵幀,用戶可以快速 了解整個(gè)視頻,從而可以花費(fèi)較少的時(shí)間從成千上萬個(gè)視頻中找到自己感興趣的那一個(gè)。 尤其是在今天,各種在線電影都會(huì)為用戶提供重點(diǎn)時(shí)刻的關(guān)鍵幀以方便用戶播放影片時(shí)可 以跳過不感興趣的片段同時(shí)又不錯(cuò)過重要的內(nèi)容,為用戶提供了方便有效的播放導(dǎo)航功 能。由于電影數(shù)據(jù)量太過龐大而使得人工標(biāo)注變得過于費(fèi)時(shí)且不切實(shí)際,所以自動(dòng)關(guān)鍵幀 提取成為了近年來的研宄熱門。
[0003]研宄者們已經(jīng)提出了一些基于關(guān)鍵幀提取的視頻摘要方法。然而,他們都面臨同 樣一個(gè)問題,那就是原本充滿視頻信息流、音頻信息流甚至文本信息流的整個(gè)視頻與幾張 靜態(tài)關(guān)鍵幀圖片之間的信息鴻溝問題。傳統(tǒng)的基于關(guān)鍵正提取的視頻摘要技術(shù)主要關(guān)注于 關(guān)鍵幀之間的區(qū)別并且往往采用聚類的方式得到關(guān)鍵幀。據(jù)我們所知,只有很少的研宄從 數(shù)據(jù)重構(gòu)的角度考慮視頻摘要。而且,視頻中的幀流信息能量(informationenergy)總是 呈現(xiàn)波浪狀。這是因?yàn)殡S著時(shí)間的推移,視頻中的重要內(nèi)容幀和過渡內(nèi)容幀總是交替出現(xiàn) 導(dǎo)致的。而線性重構(gòu)則無法體現(xiàn)這一時(shí)間上的結(jié)構(gòu)以及視頻幀的局部聚集性,所以直接將 線性重構(gòu)應(yīng)用于視頻摘要無法有效地提取出高質(zhì)量的關(guān)鍵幀摘要。我們提出了一種全新的 方法,即近鄰保持重構(gòu),該方法為原視頻的每一幀構(gòu)建一個(gè)能夠保持其近鄰結(jié)構(gòu)重構(gòu)模型, 并通過最小化整個(gè)視頻與重構(gòu)模型之間的誤差來找到最優(yōu)的關(guān)鍵幀集合作為原視頻的關(guān) 鍵幀摘要。我們認(rèn)為從一個(gè)視頻中選擇幾個(gè)幀圖片作為高質(zhì)量的關(guān)鍵幀摘要的話,這些幀 圖片應(yīng)該要能夠最佳重構(gòu)原視頻。因此,原視頻與重構(gòu)模型之間的重構(gòu)誤差天然成為了衡 量關(guān)鍵幀質(zhì)量的標(biāo)準(zhǔn),即重構(gòu)誤差越小,關(guān)鍵幀摘要質(zhì)量越好。從空間的角度考慮,我們提 出的近鄰保持重構(gòu)算法旨在選擇出那些能夠張成原視頻幀空間內(nèi)部的固有子空間的幀集 合,因此這些幀也能夠覆蓋原視頻的核心信息。
【發(fā)明內(nèi)容】
[0004]本發(fā)明要克服現(xiàn)有技術(shù)的上述缺點(diǎn),提出一種基于近鄰保持重構(gòu)的視頻關(guān)鍵幀摘 要提取方法,以幫助用戶管理和瀏覽互聯(lián)網(wǎng)上數(shù)量龐大的視頻數(shù)據(jù)。
[0005] 一種基于近鄰保持重構(gòu)的視頻關(guān)鍵幀摘要提取方法,包括:
[0006] 1)從視頻數(shù)據(jù)庫中獲取視頻,作為待抽取關(guān)鍵幀摘要的目標(biāo)視頻;
[0007] 2)針對(duì)每個(gè)目標(biāo)視頻,抽取該視頻中的每一張幀圖片,作為該視頻關(guān)鍵幀摘要的 備選圖片庫;
[0008] 3)獲取備選圖片庫中每張幀圖片的全局特征和局部特征,并以此將每張幀圖片表 示為一個(gè)向量;
[0009] 4)計(jì)算幀圖片之間的相似度,并以此得到幀圖片之間的近鄰關(guān)系;
[0010] 5)利用近鄰保持重構(gòu)算法,從備選圖片庫中挑選出既包含視頻主要內(nèi)容又具有最 小冗余信息的最優(yōu)關(guān)鍵幀圖片;
[0011] 6)將挑選出來的關(guān)鍵幀圖片提取出來,組成該目標(biāo)視頻的摘要。
[0012] 步驟3)所述的獲取備選圖片庫中每張幀圖片的全局特征和局部特征,并以此將 每張幀圖片表不為一個(gè)向量,包括:
[0013] 31)提取圖片的顏色直方圖,得到256維的全局特征;
[0014] 32)提取圖片的SIFT特征點(diǎn),并聚類得到500維的局部特征;
[0015] 33)將兩種特征合并得到756維的圖片特征向量。
[0016] 步驟4)所述的計(jì)算幀圖片之間的相似度,包括:
[0017] 41)設(shè)第i張幀圖片向量為Vi,第j張幀圖片向量為vj;
[0018] 42)這兩張幀圖片之間的相似度^為:
【主權(quán)項(xiàng)】
1. 一種基于近鄰保持重構(gòu)的視頻關(guān)鍵幀摘要提取方法,包括: 1) 從視頻數(shù)據(jù)庫中獲取視頻,作為待抽取關(guān)鍵幀摘要的目標(biāo)視頻; 2) 針對(duì)每個(gè)目標(biāo)視頻,抽取該視頻中的每一張幀圖片,作為該視頻關(guān)鍵幀摘要的備選 圖片庫; 3) 獲取備選圖片庫中每張幀圖片的全局特征和局部特征,并以此將每張幀圖片表示為 一個(gè)向量; 4) 計(jì)算幀圖片之間的相似度,并以此得到幀圖片之間的近鄰關(guān)系; 5) 利用近鄰保持重構(gòu)算法,從備選圖片庫中挑選出既包含視頻主要內(nèi)容又具有最小冗 余信息的最優(yōu)關(guān)鍵幀圖片; 6) 將挑選出來的關(guān)鍵幀圖片提取出來,組成該目標(biāo)視頻的摘要。
2. 如權(quán)利要求1所述的一種基于近鄰保持重構(gòu)的視頻關(guān)鍵幀摘要提取方法,其特征在 于:步驟3)所述的獲取備選圖片庫中每張幀圖片的全局特征和局部特征,并以此將每張幀 圖片表不為一個(gè)向量,包括: 31) 提取圖片的顏色直方圖,得到256維的全局特征; 32) 提取圖片的SIFT特征點(diǎn),并聚類得到500維的局部特征; 33) 將兩種特征合并得到756維的圖片特征向量。
3. 如權(quán)利要求1所述的的一種基于近鄰保持重構(gòu)的視頻關(guān)鍵幀摘要提取方法,其特征 在于:步驟4)所述的計(jì)算幀圖片之間的相似度,包括: 41) 設(shè)第i張幀圖片向量為Vi,第j張幀圖片向量為vj; 42) 這兩張幀圖片之間的相似度Wij為
4. 如權(quán)利要求1所述的一種基于近鄰保持重構(gòu)的視頻關(guān)鍵幀摘要提取方法,其特征在 于:步驟4)中所述的幀圖片之間的近鄰關(guān)系,包括: 43) 針對(duì)第i張幀圖片,找到與其相似度最高的另外40張幀圖片作為它的近鄰,并記錄 第i張幀圖片與它的每個(gè)近鄰的相似度的值; 44) 遍歷所有的幀圖片,找到它們的近鄰并記錄相似度的值。
5. 如權(quán)利要求1所述的一種基于近鄰保持重構(gòu)的視頻關(guān)鍵幀摘要提取方法,其特征在 于:步驟5)中所述的近鄰保持重構(gòu)算法,包括: 51) 若目標(biāo)視頻包含η張幀圖片,用{V# = 1,2,···,η}表示,即;要提取的目標(biāo)摘要包 含m(m < η)張關(guān)鍵幀圖片,用{xk|k = S1, S2,…,S1J表示,其中每張關(guān)鍵幀圖片都來自目 標(biāo)視頻的原有幀,即分^仏€{¥# = 1乂~71},丨81,82,~,\}是摘要關(guān)鍵幀~^父在 原視頻幀圖片集合V中的編號(hào); 52) 設(shè)原視頻幀圖片Vi經(jīng)關(guān)鍵幀摘要圖片集重構(gòu)后為f i (X),其中矩陣X的每一行是一 個(gè)xk,則最小化如下近鄰保持函數(shù)可以保持原視頻幀圖片之間的近鄰結(jié)構(gòu): Σ J|f"x)-f^x) I I2Wij; 因?yàn)闃?gòu)成摘要的這些關(guān)鍵幀圖片是從原視頻幀圖片中選出來的,即X C= 其中矩陣 V的每一行是一個(gè)Vi,所以當(dāng)這些關(guān)鍵幀被選定時(shí),這幾張關(guān)鍵幀圖片的重構(gòu)尤其要精確; 為了體現(xiàn)這一點(diǎn),給定摘要關(guān)鍵幀Xk時(shí),設(shè)其對(duì)應(yīng)的重構(gòu)幀為f k(x),則近鄰保持函數(shù)修改 如下:
其中λ是控制兩個(gè)加法因子的權(quán)重變量; 根據(jù)近鄰保持函數(shù),則我們可以得到近鄰保持重構(gòu)的表達(dá)式如下: F = λ (L+ λ Mr1MV 其中矩陣F的每一行是一Afi(X);并引入一個(gè)大小為ηΧη的對(duì)角矩陣M作為標(biāo)識(shí); 當(dāng)i e {Sl,S2,…,sm}時(shí),M矩陣的第i個(gè)對(duì)角元素為1,其余元素都為0;這樣的M矩陣可 以用來標(biāo)識(shí)第i個(gè)原視頻幀圖片是否被選擇成為摘要關(guān)鍵幀; 經(jīng)過數(shù)學(xué)上的等價(jià)轉(zhuǎn)換,可以得到原視頻V和近鄰保持重構(gòu)F之間的重構(gòu)誤差如下:
53)最小化如上式所示的重構(gòu)誤差,得到最優(yōu)的M,并根據(jù)M的非零對(duì)角線元素挑選出 既包含視頻主要內(nèi)容又具有最小冗余信息的最優(yōu)關(guān)鍵幀圖片。
【專利摘要】基于近鄰保持重構(gòu)的視頻關(guān)鍵幀摘要提取方法:從視頻數(shù)據(jù)庫中獲取視頻,作為待抽取關(guān)鍵幀摘要的目標(biāo)視頻;針對(duì)每個(gè)目標(biāo)視頻,抽取該視頻中的每一張幀圖片,作為該視頻關(guān)鍵幀摘要的備選圖片庫;獲取備選圖片庫中每張幀圖片的全局特征和局部特征,并以此將每張幀圖片表示為一個(gè)向量;計(jì)算幀圖片之間的相似度,并以此得到幀圖片之間的近鄰關(guān)系;利用近鄰保持重構(gòu)算法,從備選圖片庫中挑選出既包含視頻主要內(nèi)容又具有最小冗余信息的最優(yōu)關(guān)鍵幀圖片;將挑選出來的關(guān)鍵幀圖片提取出來,組成該目標(biāo)視頻的摘要。
【IPC分類】G06F17-30, H04N21-8549
【公開號(hào)】CN104683885
【申請(qǐng)?zhí)枴緾N201510058003
【發(fā)明人】陳純, 何占盈, 卜佳俊, 高珊
【申請(qǐng)人】浙江大學(xué)
【公開日】2015年6月3日
【申請(qǐng)日】2015年2月4日