一種影視視頻檢索方法
【技術(shù)領(lǐng)域】
[0001]一種影視視頻檢索方法,尤其是一種利用完成臺本與字幕檢索視頻片段的方法。
【背景技術(shù)】
[0002]電影視頻是高度綜合了時間藝術(shù)和空間藝術(shù)的功能和特征,通過不斷運動變化的畫面表現(xiàn)運動發(fā)展的人和事物,因而電影具有再現(xiàn)客觀時間和反映事件的一門藝術(shù)。電影內(nèi)容非常豐富多樣,包括各個國家、民族的禮儀習(xí)俗、宗教信仰、人文精神和自然的衍進、特定時代的文化風(fēng)貌、各個國家、地區(qū)的各個時期發(fā)生的重大歷史事件等。通過看電影可以開闊人們的視野、增長人們的見識,了解社會,了解歷史等,因此電影視頻是人們獲取信息資源的重要來源。電影除了可以給人們提供大量的信息資源外,還可以娛樂人們的生活,特別隨著現(xiàn)代科學(xué)技術(shù)的越來越發(fā)達,人們的生活節(jié)奏愈來愈快,壓力越來越大,人們越來越傾向于簡單、方便、快捷的方法來放松、調(diào)節(jié)自己的心情和豐富人們的娛樂生活,而通過看電影來放松人們的心情和豐富人們的娛樂生活是目前比較方便、有效和快捷的方法之一。
[0003]為了貼近民生、提升更高的商業(yè)價值,目前電影產(chǎn)業(yè)界以及各大影視網(wǎng)站都在陸續(xù)加大對電影視頻投入的力度,致使電影視頻數(shù)量以及其快速的速度在增長。但是目前對電影視頻處理技術(shù)的發(fā)展并沒有像電影視頻數(shù)量增長發(fā)展的這么快,導(dǎo)致目前對電影視頻的管理和應(yīng)用帶來許多問題,其中比較突出的問題是對電影視頻的檢索。人們往往喜歡在海量的電影視頻庫中檢索感興趣的視頻片段,但是由于目前技術(shù)的限制,讓計算機在海量的電影視頻庫中自動的檢索到用戶感興趣的視頻片段還無法完成,目前用戶只能依靠快進、快退等手工方法進行檢索,非常費時耗力,檢索到的結(jié)果也不一定很理想。
【發(fā)明內(nèi)容】
[0004]本發(fā)明針對現(xiàn)有技術(shù)中的不足,提供了一種影視視頻檢索方法,通過視頻的對白信息和完成臺本的對話信息讓視頻鏡頭與臺本鏡頭相對應(yīng),在檢索時只要檢索到臺本鏡頭就能關(guān)聯(lián)到視頻鏡頭,既可以直接通過文字檢索出視頻片段,解決了以往視頻片段無法直接檢索,需要通過觀看視頻尋找相應(yīng)視頻片段的問題。
[0005]本發(fā)明通過以下技術(shù)方案實現(xiàn):一種影視視頻檢索方法,包括視頻語義數(shù)據(jù)庫、完整視頻以及與完整視頻相對應(yīng)的完成臺本,包含以下幾個步驟:
步驟A):對所述完整視頻進行鏡頭邊界檢測,提取所有視頻鏡頭,按視頻播放時間順序?qū)λ鲆曨l鏡頭進行時間位置標(biāo)記;
步驟B):提取所述完整視頻中的對白信息,按視頻播放時間順序?qū)γ烤渌鰧Π仔畔⑦M行時間位置標(biāo)記,使得每句所述對白信息根據(jù)時間位置標(biāo)記與相應(yīng)的所述的視頻鏡頭關(guān)聯(lián);
步驟C):提取完成臺本中的所有臺本鏡頭,根據(jù)所述視頻語義數(shù)據(jù)庫對所述臺本鏡頭進行語義分析并賦予所述臺本鏡頭若干個搜索關(guān)鍵字,然后讓所述臺本鏡頭中的對話信息與所述對白信息進行匹配,如果所述臺本鏡頭的所述對話信息與若干句所述對白信息相同,則此所述臺本鏡頭與此若干句所述對白信息相關(guān)聯(lián)的所述視頻鏡頭對應(yīng)并將此所述臺本鏡頭的搜索關(guān)鍵字賦予此所述視頻鏡頭;
步驟D):在檢索時進行關(guān)鍵詞判斷,提取任一所述搜索關(guān)鍵字與搜索詞相同或相近的視頻鏡頭。
[0006]上述技術(shù)方案中,優(yōu)選的,在步驟B中提取所述完整視頻中所述對白信息的方法包括語音識別方法、圖形識別法和文本識別法。
[0007]上述技術(shù)方案中,優(yōu)選的,所述的語音識別方法為在所述完整視頻播放中識別所述完整視頻播放的聲音信息并對所述聲音信息進行文本轉(zhuǎn)換和記錄。
[0008]上述技術(shù)方案中,優(yōu)選的,所述的圖形識別方法為在所述完整視頻播放中識別所述完整視頻播放時每一幀的字幕并對所述圖片字幕信息進行文本轉(zhuǎn)換和記錄。
[0009]上述技術(shù)方案中,優(yōu)選的,所述的文本識別法為直接提取字幕文本中的對白信息。
[0010]上述技術(shù)方案中,優(yōu)選的,所述的步驟C)中,所述的臺本鏡頭中任一連續(xù)三句所述的對話信息與任一連續(xù)三句所述的對白信息相同,則此所述臺本鏡頭與此所述對白信息相關(guān)聯(lián)的所述視頻鏡頭對應(yīng);如果所述的臺本鏡頭中所述的對話信息不超過三句,則所述的臺本鏡頭中全部的所述對話信息與任一連續(xù)或不連續(xù)的所述對白信息相同,則此所述臺本鏡頭與此所述對白信息的對應(yīng)所述視頻鏡頭相對應(yīng)。
[0011 ] 上述技術(shù)方案中,優(yōu)選的,所述的臺本鏡頭對應(yīng)一個所述的視頻鏡頭或?qū)?yīng)若干個連續(xù)的所述的視頻鏡頭。
[0012]完成臺本是視頻領(lǐng)域所特有的,包含了視頻中豐富的語義信息,可以為視頻提供充分的語義資源,例如視頻中的場景、人物、對象和動作等語義信息在臺本中都明確給出,由于完成臺本是文本格式,在現(xiàn)有技術(shù)中可以非常方便的檢索出臺本的任何內(nèi)容。完成臺本內(nèi)的臺本鏡頭都與視頻鏡頭相對應(yīng),但是在視頻預(yù)處理的過程中,由于目前技術(shù)的限制,預(yù)處理中的視頻鏡頭邊界檢測達不到百分之百的準(zhǔn)確率,錯誤的鏡頭邊界檢測或漏掉的鏡頭邊界檢測都會導(dǎo)致視頻鏡頭和臺本鏡頭不相對應(yīng)。同時視頻片段一般包括多個鏡頭,而在臺本中往往是用一個鏡頭來記錄的,在該情況下也將導(dǎo)致視頻鏡頭和臺本鏡頭不一致。而且如果視頻在傳播過程中被損壞,比如視頻中的部分視頻段被刪除或者修改,或者在視頻中增加了一段視頻段,也將導(dǎo)致電影中的每個鏡頭和完成臺本中的每個鏡頭不相互對應(yīng)。所以為了能夠準(zhǔn)確、有效的依據(jù)臺本中記錄的內(nèi)容來搜索視頻片段,本發(fā)明通過視頻和臺本共有的對白信息(對話信息)作為中間紐帶關(guān)聯(lián)視頻鏡頭和臺本鏡頭。(本申請中對話信息等同于對白信息,為區(qū)分所在文件的不同故在完成臺本中稱對話信息,在視頻中稱對白信息。)
完成臺本中記錄的信息包含了視頻中的所有內(nèi)容,其中也包含了視頻中的對白信息,對白信息可以幫助我們解決臺本鏡頭和視頻鏡頭的關(guān)聯(lián)問題,所以本發(fā)明把對話信息從完成臺本中分離出來。對話信息的特點是用雙引號引起來的,只要把完成臺本中用雙引號引起來的內(nèi)容單獨分離出來,即可實現(xiàn)從完成臺本中分離出對話信息。視頻本身就帶有對白信息,視頻本身的對白信息有時內(nèi)嵌的視頻文件中,有時是外鏈的文本文件,這些文本文件還包含了相應(yīng)對白信息的時間位置。首先對電影視頻中的對白信息進行提取,主要提取視頻中每句對白信息的內(nèi)容和對白信息在視頻中位置的分布,即確定每句對白信息所對應(yīng)的視頻的鏡頭。目前對于視頻中對白信息提取的方法可以有三種方式:I用語音識別方法進行提取,2圖形格式的對白字幕用視頻中字幕識別的方法進行提取,3文本格式的電影對白信息。該三種方法都可以有效的實現(xiàn)視頻中對白內(nèi)容和對白在視頻中位置分布的提取。提取出對話信息和對白信息后比對對話信息和對白信息就能讓臺本鏡頭和視頻鏡頭相關(guān)聯(lián)。由于不同鏡頭中經(jīng)常會出現(xiàn)重復(fù)的對白信息(對話信息),為了保證臺本鏡頭和視頻鏡頭關(guān)聯(lián)的準(zhǔn)確性,通常需要連續(xù)的對話信息和連續(xù)的對白信息相同才能認(rèn)定臺本鏡頭和視頻鏡頭的關(guān)聯(lián),同時對話信息可能出于一個臺本鏡頭內(nèi)而匹配的對白信息出于幾個連續(xù)的視頻鏡頭內(nèi),則此時一個臺本鏡頭可以對應(yīng)幾個連續(xù)的視頻鏡頭。臺本鏡頭與視頻鏡頭對應(yīng)后,臺本鏡頭根據(jù)視頻語義數(shù)據(jù)庫獲得的搜索關(guān)鍵字就可以賦予到視頻鏡頭,讓視頻鏡頭也具有搜索關(guān)鍵字,在進行檢索時,對視頻鏡頭的檢索就可以利用關(guān)鍵字進行直接語義檢索,這樣極大的減少了視頻片段檢索的難度。
[0013]本發(fā)明的檢索技術(shù)具有廣泛的應(yīng)用前景,無論對視頻處理技術(shù)和大眾傳媒技術(shù)的發(fā)展,還是對影視制作、生活娛樂等都有一定的促進和發(fā)展作用。本發(fā)明可以應(yīng)用于:1)用戶視頻片段檢索。對于普通的觀眾用戶,可以基于語義概念層次上直接對電影視頻進行檢索,能夠在海量的電影視頻中快速、有效地檢索和瀏覽感興趣的電影片段,諸如用戶用語義概念檢索含有“某兩人看日出”的視頻片段或者