一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的體育視頻鏡頭分類方法

文檔序號(hào)：10593820閱讀：530來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的體育視頻鏡頭分類方法
【專利摘要】本發(fā)明公開了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的體育視頻鏡頭分類方法，包括以下步驟：1)對(duì)已有足球視頻進(jìn)行鏡頭分割，每個(gè)鏡頭是由某個(gè)攝像頭拍攝的一段連續(xù)的圖像序列，從每個(gè)鏡頭片段中選出3～10張的關(guān)鍵幀圖像，并對(duì)每張圖像貼上鏡頭類別標(biāo)簽，構(gòu)造訓(xùn)練樣本集；2)構(gòu)造七層深度卷積神經(jīng)網(wǎng)絡(luò)，該七層卷積神經(jīng)網(wǎng)路包括：五個(gè)卷積層，三個(gè)全連接層；3)利用步驟1)中的訓(xùn)練樣本對(duì)步驟2)中所述深度卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練，卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練利用softmax回歸作為分類算法，使用誤差后向傳播算法調(diào)整CNN的網(wǎng)絡(luò)參數(shù)；4)利用步驟3)訓(xùn)練得到的卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)測(cè)試樣本集進(jìn)行測(cè)試，并輸出最終圖像的鏡頭分類結(jié)果。
【專利說(shuō)明】
-種基于深度卷積神經(jīng)網(wǎng)絡(luò)的體育視頻鏡頭分類方法
技術(shù)領(lǐng)域：
[0001] 本發(fā)明屬于視頻處理與機(jī)器學(xué)習(xí)領(lǐng)域，具體設(shè)及一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的體育視頻鏡頭分類方法。
【背景技術(shù)】：
[0002] 鏡頭分類是體育視頻分析的一項(xiàng)基礎(chǔ)技術(shù)，對(duì)于體育視頻中特定事件檢測(cè)、體育視頻的檢索和高級(jí)語(yǔ)義的提取都具有重要的意義，例如足球視頻分析中特定事件的檢測(cè) (紅黃牌、射口、比賽中斷等)和特定球員的檢測(cè)都需要用到鏡頭分類的結(jié)果。一個(gè)準(zhǔn)確快速的鏡頭分類方法對(duì)于后續(xù)分析性能的提高將產(chǎn)生極大的幫助。
[0003] 在體育比賽的轉(zhuǎn)播視頻中，通?？蒞將鏡頭分為=類:遠(yuǎn)景鏡頭、中景鏡頭和特寫鏡頭。遠(yuǎn)景鏡頭拍攝的是大部分場(chǎng)地，中景鏡頭是對(duì)場(chǎng)地中局部區(qū)域的某些球員和場(chǎng)景進(jìn) 行拍攝，特寫鏡頭是對(duì)運(yùn)動(dòng)員的半身特寫或動(dòng)作信息。其中的中景鏡頭和特寫鏡頭除了對(duì) 場(chǎng)地進(jìn)行拍攝外，還包括對(duì)場(chǎng)外觀眾的拍攝。
[0004] 當(dāng)前區(qū)分W上幾類鏡頭的方法主要是通過(guò)計(jì)算主顏色區(qū)域的面積比率。運(yùn)類方法將鏡頭中場(chǎng)地的顏色確定為主顏色(如足球場(chǎng)地W綠色為主顏色），然后再根據(jù)主顏色在鏡頭中占據(jù)的面積比率來(lái)判斷該鏡頭所屬的類別，并認(rèn)為擁有較大的主顏色面積比率的鏡頭是遠(yuǎn)景鏡頭，而較小的主顏色面積比率的鏡頭是特寫鏡頭。由于該方法所用主顏色面積比率特征在中景鏡頭和特寫鏡頭中受到背景顏色干擾較大，限制了最終的鏡頭分類精度。

【發(fā)明內(nèi)容】
：
[0005] 為了克服現(xiàn)有技術(shù)的不足，本發(fā)明提供一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的體育視頻鏡頭分類的方法。本發(fā)明通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)，學(xué)習(xí)數(shù)據(jù)庫(kù)中每類鏡頭的圖像特征，在測(cè)試時(shí)直接選取卷積神經(jīng)網(wǎng)絡(luò)SOftmax層最大回歸值對(duì)應(yīng)的類別作為鏡頭分類的結(jié)果，使對(duì)于給出的關(guān)鍵帖能自動(dòng)進(jìn)行所屬鏡頭的分類。本發(fā)明能夠提高鏡頭分類的精度，且具有較好的可行性和魯棒性。
[0006] 為達(dá)到上述目的，本發(fā)明采用如下技術(shù)方案來(lái)實(shí)現(xiàn)的：
[0007] -種基于深度卷積神經(jīng)網(wǎng)絡(luò)的體育視頻鏡頭分類方法，包括W下步驟：
[000引1)對(duì)已有足球視頻進(jìn)行鏡頭分割，每個(gè)鏡頭是由某個(gè)攝像頭拍攝的一段連續(xù)的圖像序列，從每個(gè)鏡頭片段中選出3~10張的關(guān)鍵帖圖像，并對(duì)每張圖像貼上鏡頭類別標(biāo)簽，構(gòu)造訓(xùn)練樣本集；
[0009] 2)構(gòu)造屯層深度卷積神經(jīng)網(wǎng)絡(luò)，該屯層卷積神經(jīng)網(wǎng)路包括:五個(gè)卷積層，=個(gè)全連接層；
[0010] 3)利用步驟1)中的訓(xùn)練樣本對(duì)步驟2)中所述深度卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練，卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練利用SOftmax回歸作為分類算法，使用誤差后向傳播算法調(diào)整C順的網(wǎng)絡(luò) 參數(shù)；
[0011] 4)利用步驟3)訓(xùn)練得到的卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)測(cè)試樣本集進(jìn)行測(cè)試，并輸出最終圖像的鏡頭分類結(jié)果。
[0012] 本發(fā)明進(jìn)一步的改進(jìn)在于，所述步驟1)中，將鏡頭類別標(biāo)簽分為6種:遠(yuǎn)景鏡頭，場(chǎng) 內(nèi)中景鏡頭，場(chǎng)外中景鏡頭，場(chǎng)內(nèi)特寫鏡頭，場(chǎng)外特寫鏡頭，和不屬于運(yùn)5種鏡頭的其他鏡頭。
[0013] 本發(fā)明進(jìn)一步的改進(jìn)在于，所述步驟2)中，每個(gè)輸入圖像都被縮放為256X256大小，并從中隨機(jī)截取224 X 224大小的方形區(qū)塊，WRGBS個(gè)顏色維度輸入;第一、第二和第五卷積層的激勵(lì)輸出后，經(jīng)過(guò)最大池化下采樣操作，輸出給下一個(gè)卷積層;深度卷積神經(jīng)網(wǎng)絡(luò) 最終輸出維數(shù)為6的神經(jīng)元響應(yīng)，對(duì)應(yīng)于待分類圖像的6種鏡頭種類。
[0014] 本發(fā)明進(jìn)一步的改進(jìn)在于，所述步驟3)中，訓(xùn)練時(shí)卷積神經(jīng)網(wǎng)絡(luò)使用一些不同的小隨機(jī)數(shù)初始化神經(jīng)網(wǎng)絡(luò)的參數(shù)。
[0015] 與現(xiàn)有技術(shù)相比，本發(fā)明具有W下有益效果：
[0016] 本發(fā)明所述的基于深度卷積神經(jīng)網(wǎng)絡(luò)的體育視頻鏡頭分類方法，設(shè)計(jì)的深度卷積神經(jīng)網(wǎng)絡(luò)W關(guān)鍵帖圖像作為網(wǎng)絡(luò)的輸入，隱式地學(xué)習(xí)每類鏡頭中的圖像特征，進(jìn)而使用該特征更加有效地進(jìn)行鏡頭分類。
【附圖說(shuō)明】：
[0017] 圖1為本發(fā)明的流程示意圖。
[0018] 圖2是本發(fā)明實(shí)例中卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】：
[0019] 下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步詳細(xì)描述：
[0020] 參考圖1，本發(fā)明所述的基于深度卷積神經(jīng)網(wǎng)絡(luò)的體育視頻鏡頭分類的方法，包括 W下步驟：
[0021] 1)對(duì)已有足球視頻進(jìn)行鏡頭分割，每個(gè)鏡頭是由某個(gè)攝像頭拍攝的一段連續(xù)的圖像序列。從每個(gè)鏡頭片段中選出5張的關(guān)鍵帖圖像，并對(duì)每張圖像貼上標(biāo)簽，構(gòu)造訓(xùn)練樣本集。將鏡頭類別標(biāo)簽分為6種:遠(yuǎn)景鏡頭，場(chǎng)內(nèi)中景鏡頭，場(chǎng)外中景鏡頭，場(chǎng)內(nèi)特寫鏡頭，場(chǎng)外特寫鏡頭，和不屬于運(yùn)5種鏡頭的其他鏡頭。
[0022] 2)構(gòu)造屯層深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,C順），該屯層卷積神經(jīng)網(wǎng)路包括:五個(gè)卷積層，=個(gè)全連接層。
[0023] 每個(gè)輸入圖像都被縮放為256X256大小，并從中隨機(jī)截取224X224大小的方形區(qū) 塊，WRGBS個(gè)顏色維度輸入。第一、第二和第五卷積層的激勵(lì)輸出后，經(jīng)過(guò)最大池化下采樣操作，輸出給下一個(gè)卷積層。深度卷積神經(jīng)網(wǎng)絡(luò)最終輸出維數(shù)為6的神經(jīng)元響應(yīng)，對(duì)應(yīng)于待分類圖像的6種鏡頭種類。如圖2所示，輸入圖像經(jīng)過(guò)每一層的具體過(guò)程包括：
[0024] 第一層卷積層由96個(gè)大小為55 X 55的特征圖組成。經(jīng)過(guò)Max Pooling操作，輸出96 個(gè)27 X 27大小的特征圖。
[00巧]第二層卷積層由256個(gè)大小為27 X 27的特征圖組成。經(jīng)過(guò)Max Pooling操作，輸出 96個(gè)13 X 13大小的特征圖。
[00%]第S層卷積層由384個(gè)大小為13X13的特征圖組成。
[0027]第四層卷積層由384個(gè)大小為13X13的特征圖組成。
[00巧]第五層卷積層由256個(gè)大小為13 X 13的特征圖組成。經(jīng)過(guò)Max Pooling操作，輸出 256個(gè)6 X 6大小的特征圖。
[0029] 第六層和第屯層為全連接層，輸出4096維的特征向量。
[0030] 第八層為全連接層，輸出一個(gè)6維的特征向量，由SOftmax層分類并輸出分類結(jié)果。
[0031] 卷積神經(jīng)網(wǎng)絡(luò)的卷積層可W表示如下:第1層的第j個(gè)特征圖矩陣可能由前一層若干個(gè)特征圖卷積加權(quán)得到，
[0032]
(1)
[0033] 其中，f為神經(jīng)元激活函數(shù);的代表輸入特征圖的組合，*表示卷積運(yùn)算，^為卷積核矩陣，6;為偏置矩陣。
[0034] 采樣過(guò)程可W表示為：
[003引
但)
[0036] 其中，down( ?)表示采樣函數(shù)，常用的有最大值采樣函數(shù)(Max Pooling)。采樣過(guò) 程與卷積過(guò)程類似，使用一種不帶權(quán)參數(shù)的采樣函數(shù)，從輸入特征圖的左上角開始按一定步長(zhǎng)向右(或向下)滑動(dòng)，對(duì)窗口相應(yīng)區(qū)塊的像素進(jìn)行采樣后輸出。
[0037] 卷積神經(jīng)網(wǎng)絡(luò)全連接層的每個(gè)神經(jīng)元都會(huì)與下一層的每個(gè)神經(jīng)元相連。第1層全連接層特征向量xi可W表示如下：
[003引 xi = f (wiyi-i+bi), (3)
[0039] 其中，wi是權(quán)值矩陣，bi是偏置向量。
[0040] 3)利用步驟1)中的訓(xùn)練樣本對(duì)步驟2)中所述深度卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練利用SOftmax回歸作為分類算法，使用誤差后向傳播算法調(diào)整C順的網(wǎng)絡(luò) 參數(shù)。
[0041] 卷積神經(jīng)網(wǎng)絡(luò)使用一些不同的小隨機(jī)數(shù)初始化神經(jīng)網(wǎng)絡(luò)的參數(shù)。C順模型的訓(xùn)練需要連續(xù)的迭代優(yōu)化，它可W根據(jù)迭代分類結(jié)果去調(diào)整下一次迭代的參數(shù)。將圖片輸入到網(wǎng)絡(luò)，經(jīng)過(guò)前向傳播和后向傳播兩個(gè)訓(xùn)練階段，前向傳播過(guò)程是把一個(gè)樣本輸入網(wǎng)絡(luò)，計(jì)算相應(yīng)的實(shí)際輸出；后向傳播過(guò)程是計(jì)算實(shí)際輸出與理想輸出的差，根據(jù)誤差率，不斷優(yōu)化網(wǎng) 絡(luò)參數(shù)，進(jìn)行模型的訓(xùn)練。
[0042] 4)利用步驟3)訓(xùn)練得到的卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)測(cè)試樣本集進(jìn)行測(cè)試，并輸出最終圖像的鏡頭分類結(jié)果。
【主權(quán)項(xiàng)】
1. 一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的體育視頻鏡頭分類方法，其特征在于，包括以下步驟： 1) 對(duì)已有足球視頻進(jìn)行鏡頭分割，每個(gè)鏡頭是由某個(gè)攝像頭拍攝的一段連續(xù)的圖像序列，從每個(gè)鏡頭片段中選出3~10張的關(guān)鍵幀圖像，并對(duì)每張圖像貼上鏡頭類別標(biāo)簽，構(gòu)造訓(xùn)練樣本集； 2) 構(gòu)造七層深度卷積神經(jīng)網(wǎng)絡(luò)，該七層卷積神經(jīng)網(wǎng)路包括：五個(gè)卷積層，三個(gè)全連接層； 3) 利用步驟1)中的訓(xùn)練樣本對(duì)步驟2)中所述深度卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練，卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練利用softmax回歸作為分類算法，使用誤差后向傳播算法調(diào)整CNN的網(wǎng)絡(luò)參數(shù)； 4) 利用步驟3)訓(xùn)練得到的卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)測(cè)試樣本集進(jìn)行測(cè)試，并輸出最終圖像的鏡頭分類結(jié)果。2. 根據(jù)權(quán)利要求1所述的一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的體育視頻鏡頭分類方法，其特征在于，所述步驟1)中，將鏡頭類別標(biāo)簽分為6種:遠(yuǎn)景鏡頭，場(chǎng)內(nèi)中景鏡頭，場(chǎng)外中景鏡頭，場(chǎng)內(nèi)特寫鏡頭，場(chǎng)外特寫鏡頭，和不屬于這5種鏡頭的其他鏡頭。3. 根據(jù)權(quán)利要求2所述的一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的體育視頻鏡頭分類方法，其特征在于，所述步驟2)中，每個(gè)輸入圖像都被縮放為256 X 256大小，并從中隨機(jī)截取224 X 224 大小的方形區(qū)塊，以RGB三個(gè)顏色維度輸入;第一、第二和第五卷積層的激勵(lì)輸出后，經(jīng)過(guò)最大池化下采樣操作，輸出給下一個(gè)卷積層;深度卷積神經(jīng)網(wǎng)絡(luò)最終輸出維數(shù)為6的神經(jīng)元響應(yīng)，對(duì)應(yīng)于待分類圖像的6種鏡頭種類。4. 根據(jù)權(quán)利要求1所述的一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的體育視頻鏡頭分類方法，其特征在于，所述步驟3)中，訓(xùn)練時(shí)卷積神經(jīng)網(wǎng)絡(luò)使用一些不同的小隨機(jī)數(shù)初始化神經(jīng)網(wǎng)絡(luò)的參數(shù)。
【文檔編號(hào)】G06F9/00GK105955708SQ201610302292
【公開日】2016年9月21日
【申請(qǐng)日】2016年5月9日
【發(fā)明人】王進(jìn)軍, 張順, 劉楨琦
【申請(qǐng)人】西安北升信息科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王進(jìn)軍;張順;劉楨琦;
技術(shù)所有人：西安北升信息科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

深度卷積神經(jīng)網(wǎng)絡(luò)相關(guān)技術(shù)

深度卷積神經(jīng)網(wǎng)絡(luò)模型相關(guān)技術(shù)

深度卷積神經(jīng)網(wǎng)絡(luò)代碼相關(guān)技術(shù)

dcnn深度卷積神經(jīng)網(wǎng)絡(luò)相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)圖像分類相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)文本分類相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的體育視頻鏡頭分類方法