專利名稱::一種視頻標注方法
技術領域:
:本發(fā)明屬于視頻處理
技術領域:
,涉及一種視頻標注方法。
背景技術:
:就目前來說,視頻自動標記相對于圖像標記來說是比較新的領域。視頻的自動標記的目的就是給一個未標記的視頻分配一些能夠反映視頻內(nèi)容的關鍵字。利用這些關鍵字,以后我們可以進行快速的視頻檢索。視頻自動標記是一項非常困難的任務,這是有很多原因造成的。首先,使用低級別的特征向量來提取能夠很好表達視頻內(nèi)容的關鍵字非常困難。其次,確定關鍵字和它在視頻中所指代的區(qū)域是一件很難的事情?,F(xiàn)有的一些識別視頻內(nèi)容的技術如3DSIFT1、戶外視頻中真實動作識別(RecognizingRealisticActionsfromVideos"intheffild")2等僅僅對場景比較簡單的視頻具有很好的效果。這些視頻中的背景一股是不變的,而且是比較簡單的,因此從視頻中很容易提取出前景。3DSIFT是對2DSIFT4的推廣,它很好的繼承了2DSIFT在圖像領域的優(yōu)點,對視頻中的動作描述具有很好的效果。由于很大一部分人沒有攝影技巧,因此在現(xiàn)實中所得到的視頻的由于相機抖動等原因造成視頻質(zhì)量不好,這時一些動作識別方法如3DSIFT就無法取得好的效果。2提供了一個比較好的方法來解決這個問題,他不僅提取視頻中的動態(tài)信息,而且還提取了視頻中的一些靜態(tài)信息,通過動態(tài)和靜態(tài)信息的互補來對視頻中的動作進行識別,達到比較好的效果。但是上述的兩個方法對復雜視頻的效果不是很好。參考文獻lPaulScovanner,SaadAli和MubarakShah,《3DSIFT特征描述符及其在動作識別上的應用》,ACM多媒體大會,2002JinGenLiu,JieboLuo和MubarakShah,《戶外視頻中真實動作識別》,計算機視覺與模式識別會議,20093DavidG.Lowe,《從尺度不變關鍵點提取的圖像特征》,國際計算機視覺,2004
發(fā)明內(nèi)容本發(fā)明的目的是克服現(xiàn)有技術的不足,提供一種新的視頻標注方法,它能夠提取視頻中的動態(tài)和靜態(tài)信息。另外,它不僅對簡單視頻具有效果,還對一些復雜的視頻同樣具有一定的效果。本發(fā)明的技術方案是一種視頻標注方法,包括下列步驟步驟1對用于訓練的每個視頻,抽取視頻中均勻分布的η幀用于計算Lab特征向量的幀,并提取每個視頻所對應的標簽,建立訓練集;步驟2將每一個顏色通道分成η等份,建立η*η*η維的Lab特征向量,按照下列方法,對于訓練集里的每個視頻,分別計算Lab特征向量首先將該幀的特征向量清零,然后根據(jù)被抽取的各個幀的像素值分別計算出它們在視頻Lab特征向量中所對應的位置后,將相應的位置上的值增一,從而得到該視頻的Lab特征向量;步驟3讀取用于查詢的視頻,按照步驟2的方法,建立用于查詢的視頻的Lab特征向量;步驟4將用于查詢的視頻與訓練集里的各個視頻的Lab特征向量對應的元素分別相減,各得到一個n*n*n維的向量,計算得到的n*n*n維向量的元素的絕對值之和,從而得到用于查詢的視頻與訓練集中的各個視頻的Lab特征向量的距離;步驟5按照如下方法進行標簽傳遞(1)在訓練集中取出與用于查詢的視頻距離最近的k個視頻;(2)取出與用于查詢的視頻距離最近的訓練集視頻所對應的標簽,根據(jù)各個標簽在整個訓練集中出現(xiàn)的次數(shù)對這些標簽進行從大到小排序,取出排在前面的η個標簽標記用于查詢的視頻,如果與用于查詢的視頻距離最近的訓練集視頻的標簽個數(shù)不足η個,則記已經(jīng)傳遞的標簽個數(shù)為m(m<η),轉(zhuǎn)到下一步;(3)對其余的(k-Ι)個訓練集視頻的沒有標記給用于查詢的視頻的標簽,分別按照這些標簽在訓練集和這(k-Ι)個視頻中出現(xiàn)的次數(shù)構造兩個向量vl和v2,對vl和v2賦予權值χ和y,得到ν=X*vl+y*v2,按照ν值對這些標簽排序,從中選擇前(n-m)個標簽標注用于查詢的視頻。本發(fā)明通過比較視頻的低層的特征向量來度量兩個視頻的內(nèi)容的相似度,根據(jù)相似的視頻的內(nèi)容相似的假設,通過已經(jīng)標記好的視頻來給未標記的視頻進行標記。本發(fā)明僅計算兩個視頻的低層特征向量的距離來度量相似度,這相對于高層的特征來說在數(shù)量級上有很大的提高。如本發(fā)明計算一個視頻的LAB向量需2.554s,而計算一個視頻的3DSIFT特征向量則需90.3870s(在視頻中取200個點用于計算3DSIFT特征向量)。另外現(xiàn)有的基于高層特征的識別視頻內(nèi)容的方法只適用于一些背景比較簡單的視頻,本發(fā)明對背景復雜的視頻具有一定的效果。圖1(1)、⑵、(3)分別為從三個示例視頻中抽取的5幀圖像。圖2本發(fā)明的視頻標注方法的流程圖。具體實施例方式本發(fā)明采用Lab特征向量描述視頻。因為Lab色彩空間是顏色-對立空間,帶有維度L表示亮度,a和b表示顏色對立維度。Lab顏色被設計來接近人類視覺。它致力于感知均勻性,它的L分量密切匹配人類亮度感知。因此可以被用來通過修改a和b分量的輸出色階來做精確的顏色平衡,或使用L分量來調(diào)整亮度對比。本發(fā)明在時間復雜度上具有一定的優(yōu)勢,假設在提取特征向量時從視頻中抽取的幀數(shù)為k、視頻每一幀的高為h,寬為w,則本發(fā)明提取視頻的LAB特征向量時的時間復雜度為0(kmn)。而且本發(fā)明只使用LAB特征向量做為視頻的特征描述,僅需進行一次訓練集的RGB特征向量提取。本發(fā)明共有四個步驟。下面先介紹這四個步驟。步驟1抽取視頻中用于計算Lab特征向量的幀在計算視頻的Lab特征向量時,本發(fā)明并沒有將視頻中的所有像素值用于計算,僅僅使用了視頻中的幾個幀的像素。首先,視頻所包含的信息量是遠遠大于普通圖像的。如果在計算視頻的Lab特征向量時將所有的視頻數(shù)據(jù)都用來計算的話,會花費很長的時間。因此在計算視頻的Lab特征向量時,為了節(jié)約時間,就不能像計算圖像的Lab特征向量那樣把每一個數(shù)據(jù)都計算在內(nèi)。其次,我們在所使用的視頻都是在一個場景之內(nèi)的,視頻各幀的的Lab信息量變化不是很大,因此我們使用視頻的幾個幀的Lab信息就可以體現(xiàn)出視頻的Lab信息。本發(fā)明抽取了視頻中均勻分布的η幀用于計算視頻的特征向量。本發(fā)明從各個視頻抽取的幀數(shù)是相同的。步驟2計算視頻的Lab特征向量本發(fā)明在計算Lab特征向量時,將每一個顏色通道分成η等份,因此Lab特征向量的維數(shù)為η*η*η維。本發(fā)明將抽取的幾個幀用于計算視頻的特征向量。首先將視頻的特征向量清零,然后根據(jù)被抽取的各個幀的像素值分別計算出它們在視頻Lab特征向量中所對應的位置后,將相應的位置上的值增一。這樣就得到了視頻的Lab特征向量。步驟3計算兩個視頻的Lab特征向量的距離本發(fā)明采用如下的方法來度量兩個視頻的距離。首先,將兩個視頻的Lab特征向量對應的元素相減,得到一個η*η*η維的向量,然后計算得到的這個η*η*η維向量的元素的絕對值之和。得到的這個值就是兩個視頻的距離。步驟4標簽傳遞用上面所說的方法計算出所有訓練集視頻的Lab特征向量和用于查詢的視頻的Lab特征向量,以及得到訓練集視頻對應的標簽。本發(fā)明采用如下的方法來得到用于查詢的視頻所對應的η個標簽。(1)在訓練集中取出與用于查詢的視頻距離最近的k個視頻;(2)取出與用于查詢的視頻距離最近的訓練集視頻所對應的標簽,根據(jù)各個標簽在整個訓練集中出現(xiàn)的次數(shù)對這些標簽進行從大到小排序,取出排在前面的η個標簽標記用于查詢的視頻,如果與用于查詢的視頻距離最近的訓練集視頻的標簽個數(shù)不足η個,則記已經(jīng)傳遞的標簽個數(shù)為m(m<η),轉(zhuǎn)到下一步;(3)對其余的(k-Ι)個訓練集視頻的標簽,分別按照這些標簽在訓練集和這(k-Ι)個視頻中出現(xiàn)的次數(shù)構造兩個向量Vl和v2,對Vl和v2賦予權值χ和y,得到ν=X*vl+y*v2。按照ν值對這些標簽排序,從中選擇前(n-m)個標簽標注用于查詢的視頻。下面結合實施例,對本發(fā)明做詳細介紹。本發(fā)明是在TRECVID2007視頻集上進行實驗,從中提取822個鏡頭作為測試集,提取2991個鏡頭作為訓練集。測試集(即上面所述的“用于查詢的視頻”的集合)和訓練集的視頻的一股包含150到300幀的數(shù)據(jù),視頻的分辨率大約為350*450。視頻的場景大都比較復雜,使得使用一股的動作識別方法無法達到比較好的效果。步驟1抽取視頻中用于計算Lab特征向量的幀本發(fā)明在計算視頻的Lab特征向量時,提取視頻的五幀用于計算視頻的Lab特征向量,圖1所示是從幾個示例視頻中抽取的5幀圖片??梢钥吹竭@五個幀的數(shù)據(jù)內(nèi)容基本上是相似的,因此可以用這五個幀的數(shù)據(jù)來近似計算視頻的Lab特征向量。由于視頻并不是由Lab顏色空間的數(shù)據(jù)組成的,而是由RGB顏色空間組成的,因此在計算Lab特征向量時,需要將RGB數(shù)據(jù)轉(zhuǎn)化為Lab數(shù)據(jù)。步驟2計算視頻的Lab特征向量本發(fā)明將視頻的每一個顏色通道L、a和b分成16等分,則視頻的Lab特征向量為4096(16X16X16)維。根據(jù)從視頻中抽取的五個幀,計算得到每個視頻的4096維Lab特征向量。表1就是從根據(jù)圖1的五幀數(shù)據(jù)得到的Lab特征向量。<table>tableseeoriginaldocumentpage6</column></row><table>表1示例視頻的4096維的Lab特征向量步驟3計算兩個視頻的Lab特征向量的距離得到未標記視頻和訓練集的4096維的特征向量,根據(jù)第五部分步驟3所闡述的方法可以得到未標記視頻與訓練集每一個視頻的距離。訓練集的Lab特征向量是已知的。步驟4標簽傳遞本發(fā)明所使用的視頻集共采用20個標簽,分別為Airplane_flying、Boat_ship,Bridge、Bus、Cityscape、Classroom、Demonstration_0r_Protest>Dog、Driver、Emergency—vehicle、Flower、Hand、Harbor、Kitchen、Mountain、NightTime>Singing、Street、Telephone,Two_peopleο在實驗中本發(fā)明使用一個20維的向量X={xl,x2,…,xi,...,x20}i=1,2,……,20來表示每個視頻的內(nèi)容,其中xi=1,若標簽i所指代的內(nèi)容在視頻中;否則,xi=0o得到未標記視頻f與訓練集各個視頻的距離后,選取與f最近的4個視頻,根據(jù)第五部分所描述的貪心算法得到一個未標記視頻對應的20維的標簽向量,如圖2所示。表2是本發(fā)明使用的方法(其中權值χ和y分別為0.3和0.7)所得到的測試數(shù)據(jù)的查準率P和查全率R。由于本發(fā)明所使用的視頻大部分都是僅僅只被標記了一個標簽。因此在給未標記的視頻標記一個標簽時(k值為1)P和R的值最高。表3為傳遞k個標簽所對應的P和R。<table>tableseeoriginaldocumentpage6</column></row><table>表2(1):k=1時得到的示例視頻的標簽向量表2(2)為實際的示例視頻的標簽向量<table>tableseeoriginaldocumentpage7</column></row><table>表3傳遞k個標簽所對應的P和R本發(fā)明所用處理器為IntelCore(TM)2DuoCPUT660i2.20GHZ,內(nèi)存為4.00GB,操作系統(tǒng)為WindowsVista0表4為標注k個標簽給輸入的新視頻所用的時間。表4所得的結果是在MatlabR2009a環(huán)境下(版本)得到的,如果采用c語言,速度會得到很大的提升。<table>tableseeoriginaldocumentpage7</column></row><table>表4標注k個標簽給輸入的新視頻所用的時間視頻標注方法的流程圖如圖2所示,得到訓練集的Lab向量后,數(shù)據(jù)被保留用于進行下面的計算,不必再重新計算訓練集的Lab向量。權利要求一種視頻標注方法,包括下列步驟步驟1對用于訓練的每個視頻,抽取視頻中均勻分布的n幀用于計算Lab特征向量的幀,并提取每個視頻所對應的標簽,建立訓練集;步驟2將每一個顏色通道分成n等份,建立n*n*n維的Lab特征向量,按照下列方法,對于訓練集里的每個視頻,分別計算Lab特征向量首先將該幀的特征向量清零,然后根據(jù)被抽取的各個幀的像素值分別計算出它們在視頻Lab特征向量中所對應的位置后,將相應的位置上的值增一,從而得到該視頻的Lab特征向量;步驟3讀取用于查詢的視頻,按照步驟2的方法,建立用于查詢的視頻的Lab特征向量;步驟4將用于查詢的視頻與訓練集里的各個視頻的Lab特征向量對應的元素分別相減,各得到一個n*n*n維的向量,計算得到的n*n*n維向量的元素的絕對值之和,從而得到用于查詢的視頻與訓練集中的各個視頻的Lab特征向量的距離;步驟5按照如下方法進行標簽傳遞(1)在訓練集中取出與用于查詢的視頻距離最近的k個視頻;(2)取出與用于查詢的視頻距離最近的訓練集視頻所對應的標簽,根據(jù)各個標簽在整個訓練集中出現(xiàn)的次數(shù)對這些標簽進行從大到小排序,取出排在前面的n個標簽標記用于查詢的視頻,如果與用于查詢的視頻距離最近的訓練集視頻的標簽個數(shù)不足n個,則記已經(jīng)傳遞的標簽個數(shù)為m(m<n),轉(zhuǎn)到下一步;(3)對其余的(k-1)個訓練集視頻的沒有標記給用于查詢的視頻的標簽,分別按照這些標簽在訓練集和這(k-1)個視頻中出現(xiàn)的次數(shù)構造兩個向量v1和v2,對v1和v2賦予權值x和y,得到v=x*v1+y*v2,按照v值對這些標簽排序,從中選擇前(n-m)個標簽標注用于查詢的視頻。全文摘要本發(fā)明屬于視頻處理
技術領域:
,涉及一種視頻標注方法,包括下列步驟(1)對用于訓練的每個視頻,抽取視頻中均勻分布的n幀用于計算Lab特征向量的幀,并提取每個視頻所對應的標簽,建立訓練集;(2)將每一個顏色通道分成n等份,建立n*n*n維的Lab特征向量,對于訓練集里的每個視頻,分別計算Lab特征向量;(3)讀取用于查詢的視頻,建立用于查詢的視頻的Lab特征向量;(4)計算用于查詢的視頻與訓練集中的各個視頻的Lab特征向量的距離;(5)進行標簽傳遞。本發(fā)明的視頻標注方法,能夠提取視頻中的動態(tài)和靜態(tài)信息。另外,它不僅對簡單視頻具有效果,還對一些復雜的視頻同樣具有一定的效果。文檔編號H04N5/14GK101827203SQ20101013407公開日2010年9月8日申請日期2010年3月29日優(yōu)先權日2010年3月29日發(fā)明者張寶,操曉春,李原申請人:天津大學