一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的體育視頻鏡頭分類方法
【專利摘要】本發(fā)明公開了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的體育視頻鏡頭分類方法,包括以下步驟:1)對(duì)已有足球視頻進(jìn)行鏡頭分割,每個(gè)鏡頭是由某個(gè)攝像頭拍攝的一段連續(xù)的圖像序列,從每個(gè)鏡頭片段中選出3~10張的關(guān)鍵幀圖像,并對(duì)每張圖像貼上鏡頭類別標(biāo)簽,構(gòu)造訓(xùn)練樣本集;2)構(gòu)造七層深度卷積神經(jīng)網(wǎng)絡(luò),該七層卷積神經(jīng)網(wǎng)路包括:五個(gè)卷積層,三個(gè)全連接層;3)利用步驟1)中的訓(xùn)練樣本對(duì)步驟2)中所述深度卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練利用softmax回歸作為分類算法,使用誤差后向傳播算法調(diào)整CNN的網(wǎng)絡(luò)參數(shù);4)利用步驟3)訓(xùn)練得到的卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)測(cè)試樣本集進(jìn)行測(cè)試,并輸出最終圖像的鏡頭分類結(jié)果。
【專利說(shuō)明】
-種基于深度卷積神經(jīng)網(wǎng)絡(luò)的體育視頻鏡頭分類方法
技術(shù)領(lǐng)域:
[0001] 本發(fā)明屬于視頻處理與機(jī)器學(xué)習(xí)領(lǐng)域,具體設(shè)及一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的體 育視頻鏡頭分類方法。
【背景技術(shù)】:
[0002] 鏡頭分類是體育視頻分析的一項(xiàng)基礎(chǔ)技術(shù),對(duì)于體育視頻中特定事件檢測(cè)、體育 視頻的檢索和高級(jí)語(yǔ)義的提取都具有重要的意義,例如足球視頻分析中特定事件的檢測(cè) (紅黃牌、射口、比賽中斷等)和特定球員的檢測(cè)都需要用到鏡頭分類的結(jié)果。一個(gè)準(zhǔn)確快速 的鏡頭分類方法對(duì)于后續(xù)分析性能的提高將產(chǎn)生極大的幫助。
[0003] 在體育比賽的轉(zhuǎn)播視頻中,通??蒞將鏡頭分為=類:遠(yuǎn)景鏡頭、中景鏡頭和特寫 鏡頭。遠(yuǎn)景鏡頭拍攝的是大部分場(chǎng)地,中景鏡頭是對(duì)場(chǎng)地中局部區(qū)域的某些球員和場(chǎng)景進(jìn) 行拍攝,特寫鏡頭是對(duì)運(yùn)動(dòng)員的半身特寫或動(dòng)作信息。其中的中景鏡頭和特寫鏡頭除了對(duì) 場(chǎng)地進(jìn)行拍攝外,還包括對(duì)場(chǎng)外觀眾的拍攝。
[0004] 當(dāng)前區(qū)分W上幾類鏡頭的方法主要是通過(guò)計(jì)算主顏色區(qū)域的面積比率。運(yùn)類方法 將鏡頭中場(chǎng)地的顏色確定為主顏色(如足球場(chǎng)地W綠色為主顏色),然后再根據(jù)主顏色在鏡 頭中占據(jù)的面積比率來(lái)判斷該鏡頭所屬的類別,并認(rèn)為擁有較大的主顏色面積比率的鏡頭 是遠(yuǎn)景鏡頭,而較小的主顏色面積比率的鏡頭是特寫鏡頭。由于該方法所用主顏色面積比 率特征在中景鏡頭和特寫鏡頭中受到背景顏色干擾較大,限制了最終的鏡頭分類精度。
【發(fā)明內(nèi)容】
:
[0005] 為了克服現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的體育視頻鏡 頭分類的方法。本發(fā)明通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)數(shù)據(jù)庫(kù)中每類鏡頭的圖像特征,在測(cè)試 時(shí)直接選取卷積神經(jīng)網(wǎng)絡(luò)SOftmax層最大回歸值對(duì)應(yīng)的類別作為鏡頭分類的結(jié)果,使對(duì)于 給出的關(guān)鍵帖能自動(dòng)進(jìn)行所屬鏡頭的分類。本發(fā)明能夠提高鏡頭分類的精度,且具有較好 的可行性和魯棒性。
[0006] 為達(dá)到上述目的,本發(fā)明采用如下技術(shù)方案來(lái)實(shí)現(xiàn)的:
[0007] -種基于深度卷積神經(jīng)網(wǎng)絡(luò)的體育視頻鏡頭分類方法,包括W下步驟:
[000引1)對(duì)已有足球視頻進(jìn)行鏡頭分割,每個(gè)鏡頭是由某個(gè)攝像頭拍攝的一段連續(xù)的圖 像序列,從每個(gè)鏡頭片段中選出3~10張的關(guān)鍵帖圖像,并對(duì)每張圖像貼上鏡頭類別標(biāo)簽, 構(gòu)造訓(xùn)練樣本集;
[0009] 2)構(gòu)造屯層深度卷積神經(jīng)網(wǎng)絡(luò),該屯層卷積神經(jīng)網(wǎng)路包括:五個(gè)卷積層,=個(gè)全連 接層;
[0010] 3)利用步驟1)中的訓(xùn)練樣本對(duì)步驟2)中所述深度卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,卷 積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練利用SOftmax回歸作為分類算法,使用誤差后向傳播算法調(diào)整C順的網(wǎng)絡(luò) 參數(shù);
[0011] 4)利用步驟3)訓(xùn)練得到的卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)測(cè)試樣本集進(jìn)行測(cè)試,并輸出最終 圖像的鏡頭分類結(jié)果。
[0012] 本發(fā)明進(jìn)一步的改進(jìn)在于,所述步驟1)中,將鏡頭類別標(biāo)簽分為6種:遠(yuǎn)景鏡頭,場(chǎng) 內(nèi)中景鏡頭,場(chǎng)外中景鏡頭,場(chǎng)內(nèi)特寫鏡頭,場(chǎng)外特寫鏡頭,和不屬于運(yùn)5種鏡頭的其他鏡 頭。
[0013] 本發(fā)明進(jìn)一步的改進(jìn)在于,所述步驟2)中,每個(gè)輸入圖像都被縮放為256X256大 小,并從中隨機(jī)截取224 X 224大小的方形區(qū)塊,WRGBS個(gè)顏色維度輸入;第一、第二和第五 卷積層的激勵(lì)輸出后,經(jīng)過(guò)最大池化下采樣操作,輸出給下一個(gè)卷積層;深度卷積神經(jīng)網(wǎng)絡(luò) 最終輸出維數(shù)為6的神經(jīng)元響應(yīng),對(duì)應(yīng)于待分類圖像的6種鏡頭種類。
[0014] 本發(fā)明進(jìn)一步的改進(jìn)在于,所述步驟3)中,訓(xùn)練時(shí)卷積神經(jīng)網(wǎng)絡(luò)使用一些不同的 小隨機(jī)數(shù)初始化神經(jīng)網(wǎng)絡(luò)的參數(shù)。
[0015] 與現(xiàn)有技術(shù)相比,本發(fā)明具有W下有益效果:
[0016] 本發(fā)明所述的基于深度卷積神經(jīng)網(wǎng)絡(luò)的體育視頻鏡頭分類方法,設(shè)計(jì)的深度卷積 神經(jīng)網(wǎng)絡(luò)W關(guān)鍵帖圖像作為網(wǎng)絡(luò)的輸入,隱式地學(xué)習(xí)每類鏡頭中的圖像特征,進(jìn)而使用該 特征更加有效地進(jìn)行鏡頭分類。
【附圖說(shuō)明】:
[0017] 圖1為本發(fā)明的流程示意圖。
[0018] 圖2是本發(fā)明實(shí)例中卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】:
[0019] 下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步詳細(xì)描述:
[0020] 參考圖1,本發(fā)明所述的基于深度卷積神經(jīng)網(wǎng)絡(luò)的體育視頻鏡頭分類的方法,包括 W下步驟:
[0021] 1)對(duì)已有足球視頻進(jìn)行鏡頭分割,每個(gè)鏡頭是由某個(gè)攝像頭拍攝的一段連續(xù)的圖 像序列。從每個(gè)鏡頭片段中選出5張的關(guān)鍵帖圖像,并對(duì)每張圖像貼上標(biāo)簽,構(gòu)造訓(xùn)練樣本 集。將鏡頭類別標(biāo)簽分為6種:遠(yuǎn)景鏡頭,場(chǎng)內(nèi)中景鏡頭,場(chǎng)外中景鏡頭,場(chǎng)內(nèi)特寫鏡頭,場(chǎng)外 特寫鏡頭,和不屬于運(yùn)5種鏡頭的其他鏡頭。
[0022] 2)構(gòu)造屯層深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,C順),該屯層卷 積神經(jīng)網(wǎng)路包括:五個(gè)卷積層,=個(gè)全連接層。
[0023] 每個(gè)輸入圖像都被縮放為256X256大小,并從中隨機(jī)截取224X224大小的方形區(qū) 塊,WRGBS個(gè)顏色維度輸入。第一、第二和第五卷積層的激勵(lì)輸出后,經(jīng)過(guò)最大池化下采樣 操作,輸出給下一個(gè)卷積層。深度卷積神經(jīng)網(wǎng)絡(luò)最終輸出維數(shù)為6的神經(jīng)元響應(yīng),對(duì)應(yīng)于待 分類圖像的6種鏡頭種類。如圖2所示,輸入圖像經(jīng)過(guò)每一層的具體過(guò)程包括:
[0024] 第一層卷積層由96個(gè)大小為55 X 55的特征圖組成。經(jīng)過(guò)Max Pooling操作,輸出96 個(gè)27 X 27大小的特征圖。
[00巧]第二層卷積層由256個(gè)大小為27 X 27的特征圖組成。經(jīng)過(guò)Max Pooling操作,輸出 96個(gè)13 X 13大小的特征圖。
[00%]第S層卷積層由384個(gè)大小為13X13的特征圖組成。
[0027]第四層卷積層由384個(gè)大小為13X13的特征圖組成。
[00巧]第五層卷積層由256個(gè)大小為13 X 13的特征圖組成。經(jīng)過(guò)Max Pooling操作,輸出 256個(gè)6 X 6大小的特征圖。
[0029] 第六層和第屯層為全連接層,輸出4096維的特征向量。
[0030] 第八層為全連接層,輸出一個(gè)6維的特征向量,由SOftmax層分類并輸出分類結(jié)果。
[0031] 卷積神經(jīng)網(wǎng)絡(luò)的卷積層可W表示如下:第1層的第j個(gè)特征圖矩陣可能由前一層 若干個(gè)特征圖卷積加權(quán)得到,
[0032]
(1)
[0033] 其中,f為神經(jīng)元激活函數(shù);的代表輸入特征圖的組合,*表示卷積運(yùn)算,^為卷積核 矩陣,6;為偏置矩陣。
[0034] 采樣過(guò)程可W表示為:
[003引
但)
[0036] 其中,down( ?)表示采樣函數(shù),常用的有最大值采樣函數(shù)(Max Pooling)。采樣過(guò) 程與卷積過(guò)程類似,使用一種不帶權(quán)參數(shù)的采樣函數(shù),從輸入特征圖的左上角開始按一定 步長(zhǎng)向右(或向下)滑動(dòng),對(duì)窗口相應(yīng)區(qū)塊的像素進(jìn)行采樣后輸出。
[0037] 卷積神經(jīng)網(wǎng)絡(luò)全連接層的每個(gè)神經(jīng)元都會(huì)與下一層的每個(gè)神經(jīng)元相連。第1層全 連接層特征向量xi可W表示如下:
[003引 xi = f (wiyi-i+bi), (3)
[0039] 其中,wi是權(quán)值矩陣,bi是偏置向量。
[0040] 3)利用步驟1)中的訓(xùn)練樣本對(duì)步驟2)中所述深度卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。卷 積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練利用SOftmax回歸作為分類算法,使用誤差后向傳播算法調(diào)整C順的網(wǎng)絡(luò) 參數(shù)。
[0041] 卷積神經(jīng)網(wǎng)絡(luò)使用一些不同的小隨機(jī)數(shù)初始化神經(jīng)網(wǎng)絡(luò)的參數(shù)。C順模型的訓(xùn)練 需要連續(xù)的迭代優(yōu)化,它可W根據(jù)迭代分類結(jié)果去調(diào)整下一次迭代的參數(shù)。將圖片輸入到 網(wǎng)絡(luò),經(jīng)過(guò)前向傳播和后向傳播兩個(gè)訓(xùn)練階段,前向傳播過(guò)程是把一個(gè)樣本輸入網(wǎng)絡(luò),計(jì)算 相應(yīng)的實(shí)際輸出;后向傳播過(guò)程是計(jì)算實(shí)際輸出與理想輸出的差,根據(jù)誤差率,不斷優(yōu)化網(wǎng) 絡(luò)參數(shù),進(jìn)行模型的訓(xùn)練。
[0042] 4)利用步驟3)訓(xùn)練得到的卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)測(cè)試樣本集進(jìn)行測(cè)試,并輸出最終 圖像的鏡頭分類結(jié)果。
【主權(quán)項(xiàng)】
1. 一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的體育視頻鏡頭分類方法,其特征在于,包括以下步驟: 1) 對(duì)已有足球視頻進(jìn)行鏡頭分割,每個(gè)鏡頭是由某個(gè)攝像頭拍攝的一段連續(xù)的圖像序 列,從每個(gè)鏡頭片段中選出3~10張的關(guān)鍵幀圖像,并對(duì)每張圖像貼上鏡頭類別標(biāo)簽,構(gòu)造 訓(xùn)練樣本集; 2) 構(gòu)造七層深度卷積神經(jīng)網(wǎng)絡(luò),該七層卷積神經(jīng)網(wǎng)路包括:五個(gè)卷積層,三個(gè)全連接 層; 3) 利用步驟1)中的訓(xùn)練樣本對(duì)步驟2)中所述深度卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,卷積神 經(jīng)網(wǎng)絡(luò)的訓(xùn)練利用softmax回歸作為分類算法,使用誤差后向傳播算法調(diào)整CNN的網(wǎng)絡(luò)參 數(shù); 4) 利用步驟3)訓(xùn)練得到的卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)測(cè)試樣本集進(jìn)行測(cè)試,并輸出最終圖像 的鏡頭分類結(jié)果。2. 根據(jù)權(quán)利要求1所述的一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的體育視頻鏡頭分類方法,其特 征在于,所述步驟1)中,將鏡頭類別標(biāo)簽分為6種:遠(yuǎn)景鏡頭,場(chǎng)內(nèi)中景鏡頭,場(chǎng)外中景鏡頭, 場(chǎng)內(nèi)特寫鏡頭,場(chǎng)外特寫鏡頭,和不屬于這5種鏡頭的其他鏡頭。3. 根據(jù)權(quán)利要求2所述的一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的體育視頻鏡頭分類方法,其特 征在于,所述步驟2)中,每個(gè)輸入圖像都被縮放為256 X 256大小,并從中隨機(jī)截取224 X 224 大小的方形區(qū)塊,以RGB三個(gè)顏色維度輸入;第一、第二和第五卷積層的激勵(lì)輸出后,經(jīng)過(guò)最 大池化下采樣操作,輸出給下一個(gè)卷積層;深度卷積神經(jīng)網(wǎng)絡(luò)最終輸出維數(shù)為6的神經(jīng)元響 應(yīng),對(duì)應(yīng)于待分類圖像的6種鏡頭種類。4. 根據(jù)權(quán)利要求1所述的一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的體育視頻鏡頭分類方法,其特 征在于,所述步驟3)中,訓(xùn)練時(shí)卷積神經(jīng)網(wǎng)絡(luò)使用一些不同的小隨機(jī)數(shù)初始化神經(jīng)網(wǎng)絡(luò)的 參數(shù)。
【文檔編號(hào)】G06F9/00GK105955708SQ201610302292
【公開日】2016年9月21日
【申請(qǐng)日】2016年5月9日
【發(fā)明人】王進(jìn)軍, 張順, 劉楨琦
【申請(qǐng)人】西安北升信息科技有限公司