專利名稱:一種基于多視角的交互式視頻搜索方法
技術領域:
本發(fā)明涉及一種基于多視角的交互式視頻搜索方法,屬于視頻搜索技術領域。
背景技術:
隨著視頻采集設備(如數(shù)碼相機、攝像機等)的快速流行,以及視頻制作、存儲、傳輸?shù)燃夹g的迅速發(fā)展,視頻數(shù)據(jù)在的生活中無處不在,并且數(shù)據(jù)量龐大,甚至家庭自拍的DV也動輒數(shù)G。因此,如何從如此巨大視頻資源中準確的搜索出用戶需要的信息,已經(jīng)成為一個亟待解決的問題。視頻搜索技術將是新一代搜索引擎的核心,也是以后建立數(shù)字圖書館,智能信息查詢系統(tǒng),友好的人機交互系統(tǒng)的關鍵技術,它在生物醫(yī)學、軍事、教育、娛樂以及網(wǎng)上搜索等領域有著廣泛的應用。所謂視頻檢索就是從大量的視頻數(shù)據(jù)中檢索到用戶感興趣的視頻片斷。傳統(tǒng)的基于文本的視頻檢索方法將視頻檢索轉(zhuǎn)化為文本檢索,利用相對成熟的文本搜索技術來實現(xiàn)數(shù)字視頻的搜索。具體來說,這種方法將視頻內(nèi)容用文本信息來描述,即利用文本來描述視頻內(nèi)容的語義特征,進而基于文字進行檢索。事實上,目前的自動視頻標注技術還遠遠不能滿足實際要求,仍然需要人工手動的進行文本標注,這是一項費時費力的工作,而且由于受標注者的主觀因素影響很大,標注的準確性也很受質(zhì)疑。因此,單純的基于文本的視頻檢索方法很難滿足視頻檢索需要。與此相比,基于內(nèi)容的視頻檢索更具有優(yōu)勢。所謂基于內(nèi)容的視頻檢索是指通過分析視頻的內(nèi)容和上下文關系,從低層到高層進行處理、分析和理解,從而獲取其內(nèi)容并根據(jù)內(nèi)容進行檢索。它的基本思想是利用完全自動的方式從視頻數(shù)據(jù)中提取一系列低層的內(nèi)容描述符(比如,顏色、紋理、形狀等),通過一定的相似性度量方式來進行相似性比較,從而達到檢索的目的。由于視頻數(shù)據(jù)既包含了高層的語義信息,也包含了低層的視覺信息,并且同時具有時間和空間兩個屬性,所以視頻數(shù)據(jù)的結構比較復雜,包含的內(nèi)容也比較豐富,并且它在多義性和相似性度量復雜性方面也遠高于文本數(shù)據(jù)。正是由于視頻數(shù)據(jù)的這些特性,使得目前的特征提取技術還不能提供一種可以很好描述高層語義的特征描述方式,這就出現(xiàn)了所謂的語義鴻溝問題,即低層特征(低層特征描述符)的相似性并不能代表高層語義(用戶查詢意圖)的相似性。這也注定使得這種檢索方式返回大量和用戶需求不相關的視頻片段。為有效的彌補低層特征和用戶高層語義查詢的鴻溝,視頻檢索領域的研究者付出了艱辛的努力,并取得了大量的成果。可以說,視頻檢索的核心問題就是如何克服這個語義鴻溝。
作為一種很有前途的解決方案,交互式搜索技術在一定程度上填補這個鴻溝。交互式視頻搜索是一種用戶導向的視頻搜索技術,其核心思想是利用用戶在搜索過程中的反饋信息,來預測用戶的查詢意圖,以便返回符合用戶要求的信息.近年來,越來越多的研究者和研究機構開始關注交互式搜索技術,并取得了大量成果。好的交互式搜索技術可以有效地提高搜索精度,為用戶提供滿意的搜索結果。另外,由于不同的用戶反饋反映了不同用戶的偏好,因而交互搜索也有利于實現(xiàn)用戶的個性化搜索。當前,大部分的交互式搜索技術都是通過用戶標注來獲取反饋信息的。其基本過程是
1).系統(tǒng)首先提供給用戶一個初始的搜索結果列表;2).接著用戶從這個列表中手動選取一些相關視頻和一些不相關的視頻提交給系統(tǒng);3).最后系統(tǒng)根據(jù)這些反饋的信息構造一個新的預測準則,并根據(jù)這個準則重新返回一個搜索結果列表。
事實上,最新的交互式搜索技術將用戶與系統(tǒng)的交互過程看作機器學習的過程。也就是說,從用戶提供的標注信息中學習一個新的檢索函數(shù),用這函數(shù)來進行新的搜索,以期為用戶提供滿意的搜索服務。盡管這類基于機器學習理論的交互式搜索方法很多,但大部分方案是基于監(jiān)督學習的,即學習一個分類器所需的大量樣本完全依靠用戶的標注反饋。為了盡可能準的預測用戶的查詢意圖,這些交互式搜索技術都要求用戶盡可能多的標注正例樣本和負例樣本。通常,由于初始搜索結果一般都比較差,所以標注正例樣本往往需要對初始搜索列表進行深度瀏覽,這極大地增加了用戶負擔,也阻礙了此項技術的推廣使用。
這大大增加了用戶的搜索負擔,而很少用戶愿意為此花費大量的時間。
正如以上所述,好的交互式搜索技術可以有效地提高搜索精度,為用戶提供滿意的搜索結果,并且可以根據(jù)不同的用戶反饋來提供不同的搜索結果,從而實現(xiàn)用戶的個性化搜索。作為一種很有前途的技術,它有著廣闊的市場前景,這是毋庸置疑的。同時也看到,當前大部分可用的交互式搜索技術都是基于監(jiān)督學習方法的,也就是說,新的檢索函數(shù)的重構完全依賴于用戶標注。
發(fā)明內(nèi)容
本發(fā)明的目的就是提供一種基于多視角的交互式視頻搜索方法,通過一種自推斷機制來自動增加反饋信息,有效地提高搜索精度,為用戶提供滿意的搜索結果,并且可以根據(jù)不同的用戶反饋來提供不同的搜索結果,從而實現(xiàn)用戶的個性化搜索,并大大的減少了用戶的標注負擔。
本發(fā)明的目的是通過如下技術方案實現(xiàn)的。一種基于多視角的交互式視頻搜索方法,包含以下步驟(1).構造多個視角的、能較好描述視頻的特征,并且要求多個視角的特征之間盡量相互獨立,本發(fā)明選擇了視頻鏡頭的視覺特征和文本特征作為兩個近似獨立特征視角;(2).選擇一系列話題類,使之可以覆蓋大部分的查詢話題,為每一個話題類選擇一定數(shù)量包含此話題的視頻鏡頭,利用這些視頻鏡頭來為此話題類選擇SVM分類器最優(yōu)參數(shù);(3).從初始搜索結果中選擇幾個和查詢話題相關的鏡頭作為正例樣本,隨機從視頻庫中抽取一定數(shù)量鏡頭作為負例樣本,利用這些樣本,分別在視覺特征視角和文本特征視角構造分類器,并利用這兩個分類器標注初始搜索結果;兩個分類器利用對方分類的信息重新構造自身,從而不斷提高分類性能;最后,這兩個分類器被融合為一個單獨的分類器。
和現(xiàn)有的交互搜索方法相比,本發(fā)明僅要求用戶標注少量(通常幾個)的正例樣本,然后通過一種基于多視角的協(xié)同學習方法來自動的增加樣本的容量,從而在沒有降低預測性能的基礎上大大減少了用戶標注負擔。和以往交互技術不同的是,本發(fā)明以一種半監(jiān)督的學習方式,從多個視角來構造一個新的排序函數(shù),比如文本特征視角和視覺特征視角等。這種構造方式的優(yōu)點是只需要很少的標注樣本就可以開始一個學習過程,并且從多個視角迭代的增加樣本容量,并最終提高分類器的性能。具體來說,用戶先從初始搜索列表中標注幾個正例樣本,并通過隨機采樣的方式從視頻數(shù)據(jù)庫中抽取一定數(shù)量的樣本作為負例樣本。然后,系統(tǒng)為這些訓練樣本提取各個視角的特征,并為各個特征視角構造一個分類器。在每個特征視角空間,利用相對應的分類器去標注其他未標注的初始搜索結果,并將最可能為正例的樣本加入其他視角分類器的訓練集中。通過不斷的迭代,各個分類器的性能會不斷提高,并通過線性組合而最終形成一個優(yōu)良的分類器,也就是構造出一個好的檢索函數(shù)。在本發(fā)明中,采用支持向量機(SVM)作為低層分類器。其具體步驟如下步驟一多視角特征提取本發(fā)明一個很顯著的特點就是從多個視角學習。多個視角是指多個特征視角,也就是說同一個樣本的不同特征視角。所以,本發(fā)明必經(jīng)的一步就是構造多個視角的、能較好描述視頻的特征,并且要求多個視角的特征之間盡量相互獨立。以兩個視角為例,并構造了兩個近似獨立的特征視角視覺特征和文本特征。事實上,本發(fā)明并不局限于這兩種特征視角,其他相互獨立的特征視角也可替代這兩個特征,并且可以推廣到更多視角。
步驟二SVM最優(yōu)參數(shù)選擇在本發(fā)明中,使用SVM算法來作為低層的分類器。事實上,SVM的參數(shù)設置對其分類性能影響很大,特別是,不同的查詢需求類別的最優(yōu)參數(shù)設置是不同的。但對于一個特定的查詢話題,事先并不知道其最優(yōu)的參數(shù)設置。為了解決這個問題,提出了一個有效SVM最優(yōu)參數(shù)選擇方法,為每一個話題類選擇一組最優(yōu)參數(shù)。
步驟三基于多視角協(xié)同學習方案作為本發(fā)明的核心內(nèi)容,基于多視角協(xié)同學習方案的基本思想是給予較少訓練樣本,利用多個視角學習機的相互影響,從未標注樣本中自動的挖掘新的訓練樣本,以便構造出更好的學習機。對于本發(fā)明,就是只需要用戶標注很少一部分初始搜索結果來暗示其查詢意圖,就可以從初始搜索列表中自動找到更多的相關結果來學習一個新的檢索函數(shù),從而大大的減輕了用戶標注負擔,并較好的預測出用戶的查詢意圖,返回更精確的搜索結果。
為了驗證本發(fā)明的有效性和優(yōu)點,將本發(fā)明和其他一些單視角的完全監(jiān)督的交互式方法進行了比較。僅為本發(fā)明標注了5個正例樣本,而為其他方案標注了兩倍的樣本。實驗結果表明,與其他方案相比,所設計的基于多視角的交互式視頻搜索方案在大大減輕用戶標注負擔的情況下,取得了優(yōu)異的檢索性能。特別是前半部分的精度更優(yōu)異。通常,用戶只對排在前面的結果感興趣,所以本發(fā)明更加優(yōu)勢。
圖1本發(fā)明的整體系統(tǒng)框圖;圖2視頻鏡頭的文本特征提取方案框圖;圖3本發(fā)明和其他交互式搜索技術的性能比較曲線圖;圖4文本驅(qū)動的交互式視頻搜索系統(tǒng)操作界面圖;
圖5一個基于文本的視頻搜索示例以及反饋方式展示圖;圖6交互搜索的搜索結果圖。
具體實施例方式
下面結合附圖和具體實施方式
對本發(fā)明作進一步描述。
根據(jù)以上介紹的技術方案,可以很容易的將本發(fā)明應用于現(xiàn)有的視頻搜索系統(tǒng)中,為用戶提供個性化的、精確的視頻搜索服務。本發(fā)明只專注于交互式搜索部分,所有假定視頻已經(jīng)被切割成一個個小的視頻片段(鏡頭),并且已經(jīng)利用語音識別和機器翻譯技術,將鏡頭對應的語音信息轉(zhuǎn)化為統(tǒng)一英文文本信息,而且一個初始的搜索結果已經(jīng)給出。結合附圖,對本發(fā)明的具體實施方式
作詳細闡述。
如圖1所示,本發(fā)明的整體系統(tǒng)流程圖包括以下幾個部分1.多視角特征提取在本發(fā)明中,需要為每一個查詢話題類的訓練樣本集提取兩個視角的特征,即特征A和特征B,如圖1上半部分所示。另外,對于整個視頻鏡頭數(shù)據(jù)庫,也要事先在兩個視角各構造一個特征庫,即視頻的A視角特征庫和視頻的B視角特征庫,如圖1下半部分所示。的目的是說明這種多視角交互技術的有效性,所以,并不專注于特征提取方案。為了描述視覺特征,使用了一個36維的顏色直方圖作為視覺特征,稱之為特征A。需要注意的是,視覺特征的提取是基于視頻鏡頭關鍵幀的,也就是利用關鍵幀的視覺信息來表達對應視頻鏡頭的視覺信息。
為了描述文本特征,構造一個78維文本矢量特征,稱之為特征B。
圖2展示了其具體的提取方案流程圖。
(1).首先,從概念集中選擇了78個具有代表性的概念作為原型概念;(2).其次,依據(jù)標注集,為每一個概念選擇40個包含此概念的鏡頭,構成一個訓練集合,并將集合中每個鏡頭對應的翻錄的語音文本信息提取出來形成一個文本文件;(3).最后,對于每一個待提取特征的鏡頭,其對應的翻錄文本與78個原型概念中的每一個原型概念對應的文本文件進行文本相似性比較,將相似值作為文本特征矢量的一維,從而經(jīng)過串行化78個相似值,形成了一個78維的特征矢量。
2.SVM最優(yōu)參數(shù)選擇圖1上半部分展示本參數(shù)選擇的一個略圖,其具體流程如下(1).首先,人為選定幾類查詢話題,使它們盡可能覆蓋較大的查詢范圍;(2).其次,為每一個查詢話題類選擇一定數(shù)量的視頻樣本作為訓練集;(3).然后,為每一個查詢話題類的訓練樣本提取兩個視角的特征,即特征A,特征B;(4).最后,通過交叉驗證的方式,在每一個特征視角下為本話題類選擇一組最優(yōu)參數(shù)。
3.基于多視角協(xié)同學習方案圖1的下半部分給出了本方案的基本流程(1).給定反饋次數(shù)M以及每次反饋迭代的次數(shù)T;(2).用戶通過輸入查詢話題文本,依據(jù)視頻的文本信息庫,從文本搜索引擎獲得一個初始搜索結果列表R0;(3).對于每輪反饋iA.用戶搜索結果列表中標注幾個正例樣本Pi來形成已標注的數(shù)據(jù),其他結果視為未標注數(shù)據(jù),并隨機從數(shù)據(jù)庫中選擇一定數(shù)量樣本作為負例樣本Ni。以Pi和Ni作為訓練樣本集。
B.對于協(xié)同學習的每一次迭代ja)利用構造的訓練樣本集合,從特征視角A為本輪訓練一個分類器如下Ci,Aj=TrainSVM(Pi,A,Ni,A)]]>其中,Pi,A是當前正例樣本的A視角表達形式,Ni,A是當前負例樣本的A視角表達形式。
b)利用構造的訓練樣本集合,從特征視角B為本輪訓練一個分類器如下Ci,Bj=TrainSVM(Pi,B,Ni,B)]]>其中,Pi,B是當前正例樣本的B視角表達形式,Ni,B是當前負例樣本的B視角表達形式。
c)利用Ci,Aj從A視角標注搜索列表中的未標注樣本,將最可能為正例的樣本(為正例的概率大于一個閾值)加入到訓練集,在下次迭代用于訓練視角B分類器。
d)利用Ci,Bj從B視角標注搜索列表中的未標注樣本,將最可能為正例的樣本(為正例的概率大于一個閾值)加入到訓練集,在下次迭代用于訓練視角A分類器。
C.經(jīng)過T次迭代協(xié)同學習,從兩個視角各輸出一個分類器Ci,AT,Ci,BTD.通過線形組合,由Ci,AT和Ci,BT構造了一個新的檢索函數(shù),即Fi(D)=αCi,AT(D)+βCi,BT(D)]]>其中,D是待搜索的視頻數(shù)據(jù)庫,α,β為常數(shù),α+β=1,0<α,β<1。
E.利用Fi(D)函數(shù)搜索視頻數(shù)據(jù)庫,得到一個新的搜索結果列表。
(4).返回(3),進行下一次反饋,直到滿足用戶需要。
為了模擬這一過程,開發(fā)了一套文本驅(qū)動的交互式視頻搜索系統(tǒng),其操作界面如圖4所示。只要在圖4所示的文本搜索框內(nèi)輸入要查詢的話題文字,就可以得到一系列對應的視頻鏡頭,并將鏡頭顯示在結果顯示欄中。圖5.給出了一個基于文本的視頻搜索示例圖。為了便于用戶標注,在每一個鏡頭顯示框下面設定了一個正例選擇框。在取得初始搜索列表后,用戶只要選擇幾個與查詢需要相關的鏡頭,也就是在對應鏡頭下面的正例選擇框打上勾,然后點擊交互搜索按鈕,就可將信息反饋給系統(tǒng)。系統(tǒng)就會利用本發(fā)明來從反饋信息學習的新的檢索函數(shù)去視頻數(shù)據(jù)庫中重新搜索,并將新的搜索結果列表反饋個用戶,如圖6.所示。點擊鏡頭下面的播放按鈕,就可以在左邊播放框中播放該視頻鏡頭。通過對24個話題的測試,本發(fā)明在大大減輕用戶標注負擔的情況下,取得了優(yōu)異的檢索性能。圖3給出了本發(fā)明和其他三種單視角交互方式的比較曲線圖。如圖所示,采用的評估方法是在返回結果列表不同深度的平均精確度,很明顯,本發(fā)明優(yōu)于其他三種方法。
權利要求
1.一種基于多視角的交互式視頻搜索方法,其特征在于包含以下步驟(1).構造多個視角的、能較好描述視頻的特征,并且要求多個視角的特征之間盡量相互獨立,本發(fā)明選擇了視頻鏡頭的視覺特征和文本特征作為兩個近似獨立特征視角;(2).選擇一系列話題類,使之可以覆蓋大部分的查詢話題,為每一個話題類選擇一定數(shù)量包含此話題的視頻鏡頭,利用這些視頻鏡頭來為此話題類選擇SVM分類器最優(yōu)參數(shù);(3).從初始搜索結果中選擇幾個和查詢話題相關的鏡頭作為正例樣本,隨機從視頻庫中抽取一定數(shù)量鏡頭作為負例樣本,利用這些樣本,分別在視覺特征視角和文本特征視角構造分類器,并利用這兩個分類器標注初始搜索結果;兩個分類器利用對方分類的信息重新構造自身,從而不斷提高分類性能;最后,這兩個分類器被融合為一個單獨的分類器。
2.根據(jù)權利要求1所述的一種基于多視角的交互式視頻搜索方法,其特征在于步驟(1)中從多個獨立的視角提取視頻鏡頭的特征。
3.根據(jù)權利要求1所述的一種基于多視角的交互式視頻搜索方法,其特征在于步驟(1)中文本特征的提取方式,即先定義78個原型概念,然后為每一個原型概念生成一個文本文件,通過比較鏡頭文本和概念文本可以生產(chǎn)一個78維的文本特征。
4.根據(jù)權利要求1所述的一種基于多視角的交互式視頻搜索方法,其特征在于步驟(2)中預定義一系列的、可以覆蓋大部分查詢話題的話題類,分別為每一個話題類尋找一個SVM分類器最優(yōu)參數(shù)設置。
5.根據(jù)權利要求1所述的一種基于多視角的交互式視頻搜索方法,其特征在于步驟(3)中兩個分類器利用對方的分類信息來不斷從初始搜索結果中挖掘正例樣本。其步驟如下(1).給定反饋次數(shù)M以及每次反饋迭代的次數(shù)T;(2).用戶通過輸入查詢話題文本,依據(jù)視頻的文本信息庫,從文本搜索引擎獲得一個初始搜索結果列表R0;(3). 對于每輪反饋iA.用戶結果列表標注幾個正例樣本Pi來形成已標注的數(shù)據(jù),其他結果視為未標注數(shù)據(jù),并隨機從數(shù)據(jù)庫中選擇一定數(shù)量樣本作為負例樣本Ni。以Pi和Ni作為訓練樣本集B.對于協(xié)同學習的每一次迭代ja)利用構造的訓練樣本集合,從特征視角A為本輪訓練一個分類器如下Ci,Aj=TrainSVM(Pi,A,Ni,A)]]>其中,Pi,A是當前正例樣本的A視角表達形式,Ni,A是當前負例樣本的A視角表達形式b)利用構造的訓練樣本集合,從特征視角B為本輪訓練一個分類器如下Bi,Bj=TrainSVM(Pi,B,Ni,B)]]>其中,Pi,B是當前正例樣本的B視角表達形式,Ni,B是當前負例樣本的B視角表達形式c)利用Cji,A從A視角標注搜索列表中的未標注樣本,將最可能為正例的樣本(為正例的概率大于一個閾值)加入到訓練集,在下次迭代用于訓練視角B分類器d)利用Cji,B從B視角標注搜索列表中的未標注樣本,將最可能為正例的樣本(為正例的概率大于一個閾值)加入到訓練集,在下次迭代用于訓練視角A分類器;C.經(jīng)過T次迭代協(xié)同學習,從兩個視角各輸出一個分類器Ci,AT,Ci,BTD.通過線形組合,由Ci,AT和Ci,BT構造了一個新的檢索函數(shù),即Fi(D)=αCi,AT(D)+βCi,BT(D)]]>其中,D是待搜索的視頻數(shù)據(jù)庫,α,β為常數(shù),α+β=1,0<α,β<1.E.利用Fi(D)函數(shù)搜索視頻數(shù)據(jù)庫,得到一個新的搜索結果列表(4).返回(3),進行下一次反饋,直到滿足用戶需要。
全文摘要
本發(fā)明公開了一種基于多視角的交互式視頻搜索方法,屬于視頻搜索技術領域。本發(fā)明將多視角技術應用于交互式視頻檢索,開發(fā)了一種基于多視角的交互式視頻搜索方法。本發(fā)明以一種半監(jiān)督的學習方式,從多個獨立視角來構造一個新的排序函數(shù),其優(yōu)點是只需要很少的標注樣本就可以開始一個學習過程,并且從多個視角迭代的增加樣本容量,并最終提高檢索的性能。
文檔編號G06F17/30GK101071439SQ20071009953
公開日2007年11月14日 申請日期2007年5月24日 優(yōu)先權日2007年5月24日
發(fā)明者趙耀, 韋世奎, 朱振峰 申請人:北京交通大學