專利名稱:多媒體分段和索引的基于上下文與內(nèi)容的信息處理的制作方法
諸如來自因特網(wǎng)或商業(yè)電視的多媒體內(nèi)容信息特征在于其純卷量和復(fù)雜性。從數(shù)據(jù)角度來看,多媒體分成音頻、視頻(視覺)和抄錄信息。此數(shù)據(jù)可以是非結(jié)構(gòu)化的,即處于其原始格式,它可被編碼成視頻流,或者被結(jié)構(gòu)化。它的結(jié)構(gòu)化部分由其內(nèi)容信息來描述。這可以從表示視覺域中對象的像素群集跨越到音頻域中的音樂旋律和口語內(nèi)容的文本摘要。基于內(nèi)容的多媒體信息的典型處理是所謂的自底向上法和自頂向下法的組合。
在自底向上法中,多媒體信息的處理從也被稱為低級的信號處理級開始,對于該處理,在音頻、視頻和抄錄域抽取不同的參數(shù)。這些參數(shù)一般描述空間和/或時(shí)間上的局部信息,諸如視覺域中基于像素信息或音頻域中的短時(shí)間間隔(10ms)。這些參數(shù)的子集經(jīng)組合產(chǎn)生中級參數(shù),中級參數(shù)一般描述區(qū)域信息,諸如對應(yīng)于視覺域中圖像區(qū)域的空間區(qū)或音頻域中的長時(shí)間間隔(例如,1-5秒);高級參數(shù)描述更多的語義信息;這些參數(shù)通過中級參數(shù)的組合產(chǎn)生;此組合可在單域內(nèi)或涉及不同的域。此方法要求記錄許多參數(shù),并且對這些參數(shù)估計(jì)中的錯(cuò)誤敏感。因而,它不但容易損壞而且復(fù)雜。
自頂向下法是模型驅(qū)動(dòng)的。假定應(yīng)用域,利用構(gòu)造自底向上法的輸出的特定模型,以幫助對這些輸出增加健壯性。在此方法中,模型的選擇是關(guān)鍵,它不能以任意的方式來實(shí)現(xiàn);此處域知識很重要,并且這要求對應(yīng)用域的約束。
隨著專業(yè)人員和普通大眾可用的多媒體信息量的增加,這樣的信息的用戶要求(i)個(gè)人化,(ii)快速方便訪問多媒體(例如視頻)序列的不同部分,以及(iii)交互性。在過去幾年中,取得的進(jìn)展直接或間接滿足了這些用戶要求的某些方面。這包括開發(fā)了更快的CPU、存儲器系統(tǒng)和媒體、以及編程接口。對于上面的個(gè)人化要求,諸如TiVo的產(chǎn)品允許用戶依據(jù)其用戶簡檔和電子節(jié)目指南來記錄所有或部分廣播/有線/衛(wèi)星電視節(jié)目。個(gè)人(數(shù)字)視頻記錄器中的這個(gè)相對新的應(yīng)用域要求增加新的功能。這些功能范圍從用戶簡檔到商業(yè)與節(jié)目分離及基于內(nèi)容的視頻處理。PVR集成了PC、存儲器和搜索技術(shù)。因特網(wǎng)查詢語言的開發(fā)允許訪問主要基于文本的多媒體信息。雖然實(shí)現(xiàn)了這些發(fā)展,但顯然存在著改善信息分段、索引和表示的需要。
通過根據(jù)本發(fā)明原理的方法和系統(tǒng),減少或克服了與諸如多媒體分段、索引和表示的信息處理相關(guān)的一些問題。所述方法和系統(tǒng)包括使用概率框架對諸如音頻/視覺/文本(A/V/T)的多媒體的集成。此框架除通過使用基于內(nèi)容的視頻外、還通過使用多媒體上下文信息擴(kuò)大多媒體處理和表示的范圍。更具體地說,概率框架包括至少一級,該級具有一個(gè)或多個(gè)層,其中每個(gè)層包括表示內(nèi)容或上下文信息的多個(gè)節(jié)點(diǎn),所述級由貝葉斯(Bayesian)網(wǎng)絡(luò)和分級先驗(yàn)表示。貝葉斯網(wǎng)絡(luò)組合有向非循環(huán)圖(DAG)和條件概率分布(cpd),在有向非循環(huán)圖中,每個(gè)節(jié)點(diǎn)對應(yīng)于給定(音頻、視覺、抄錄)多媒體域的給定特性(參數(shù)),并且每個(gè)有向弧描述兩個(gè)節(jié)點(diǎn)間的因果關(guān)系,每個(gè)弧一個(gè)cpd。分級先驗(yàn)增大貝葉斯網(wǎng)絡(luò)的范圍每個(gè)cpd可以通過循環(huán)使用Chapman-Kolmogorov等式,由增大的內(nèi)部變量組表示。在此表示中,每個(gè)內(nèi)變量與特定級的一個(gè)層有關(guān)。如上所述,不具有任何內(nèi)部變量的cpd描述標(biāo)準(zhǔn)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu);這定義了基級。這種情況下,節(jié)點(diǎn)與基于內(nèi)容的視頻信息有關(guān)。隨后,具有單個(gè)內(nèi)部變量的cpd描述第二級的節(jié)點(diǎn)之間的關(guān)系或此第二級的節(jié)點(diǎn)與基級的節(jié)點(diǎn)之間的關(guān)系。對于任意數(shù)量的級,這被重復(fù)。除此之外,通過形成貝葉斯網(wǎng)絡(luò),每一個(gè)級中的節(jié)點(diǎn)而彼此相關(guān)。此增大的級組的重要性在于包括多媒體上下文信息。
多媒體上下文信息在分級先驗(yàn)框架中表示為除基本級外不同級中的節(jié)點(diǎn)。多媒體上下文信息由作為視頻信息基礎(chǔ)的“特征”或“模式”來確定。例如,為了分割和索引電視節(jié)目中的音樂剪輯,我們按諸如音樂節(jié)目(MTV)、交談節(jié)目或甚至是商業(yè)節(jié)目的種類來區(qū)分電視節(jié)目;這是電視節(jié)目中的上下文信息。如果也確定語義信息,則此增加的上下文信息可大大減少與電視節(jié)目有關(guān)的視頻處理,所述電視節(jié)目具有大量的數(shù)據(jù)且處理特別復(fù)雜。多媒體上下文的特征在于它單獨(dú)在音頻、視覺和文本每個(gè)域內(nèi)被定義,并且它可以被定義用于來自這些不同域的信息的組合。上下文信息不同于內(nèi)容信息;一般說來后者處理對象及其關(guān)系,而前者處理涉及對象的環(huán)境。在電視節(jié)目中,內(nèi)容“對象”定義在不同的抽象層和粒度層。
因此,通過組合使用內(nèi)容和上下文信息,本發(fā)明允許根據(jù)多媒體信息的語義特征來對多媒體進(jìn)行分段和索引。這允許在多媒體信息描述中(通過索引)有(i)健壯性、(ii)通用性和(iii)互補(bǔ)性。
在本發(fā)明的一個(gè)例如用于視頻探測(VSVideo Scouting)的說明性實(shí)施例中,在第一級中有五個(gè)功能不同的層。具體地說,每個(gè)層由節(jié)點(diǎn)來定義,且“更低”節(jié)點(diǎn)通過有向弧與“更高”節(jié)點(diǎn)有關(guān)。因此,使用了有向非循環(huán)圖(DAG),并且每個(gè)節(jié)點(diǎn)定義視頻探測系統(tǒng)描述的給定特性,而節(jié)點(diǎn)之間的弧描述它們之間的關(guān)系;每個(gè)節(jié)點(diǎn)和每個(gè)弧與cpd有關(guān)。假定與“更高”級中父節(jié)點(diǎn)有關(guān)的屬性的真實(shí),與節(jié)點(diǎn)有關(guān)的cpd測量定義節(jié)點(diǎn)的屬性為真的概率。分層方法允許區(qū)別不同類型的處理,每個(gè)層一種處理。例如,在電視節(jié)目分段和索引框架中,一個(gè)層可用于處理節(jié)目段,而另一層可處理種類或節(jié)目風(fēng)格信息。這允許用戶選擇在例如在節(jié)目子節(jié)目場景鏡頭(shot)幀圖像區(qū)圖像區(qū)部分部分像素的不同粒度層的多媒體信息,其中場景是多個(gè)鏡頭的集合,鏡頭是基于色彩和/或亮度級變化而分割的視頻單元,而對象是信息的音頻/視覺/文本單元。
視頻探測的第一層過濾層包括電子節(jié)目指南(EPG)和簡檔,一個(gè)用于節(jié)目個(gè)人愛好(P_PP),而另一個(gè)用于內(nèi)容個(gè)人愛好(C_PP)。EPG和PP為ASCII文本格式,并且它們用作用戶選擇或交互作用的節(jié)目內(nèi)的段/事件或電視節(jié)目的初始過濾器。第二層特點(diǎn)抽取層被分成三個(gè)域視覺、音頻和文本域。在每個(gè)域中,彼此獨(dú)自處理信息的一組“濾波器組”選擇特定屬性的信息。這包括每個(gè)特性中的信息的集成。并且,使用來自此層的信息,對視頻/音頻鏡頭進(jìn)行分段。第三層工具層集成了特點(diǎn)抽取層每個(gè)域中的信息;其輸出是幫助索引視頻/音頻鏡頭的對象。第四層語義處理層組合來自工具層的要素。這種情況下,也可以發(fā)生跨域集成。最后,第五層用戶應(yīng)用層通過組合來自語義處理層的要素來分割并索引節(jié)目或節(jié)目段。此最后層通過PP和C_PP反應(yīng)用戶輸入。
閱讀下面結(jié)合附圖進(jìn)行的詳細(xì)說明之后,可以更容易地理解本發(fā)明,附圖中
圖1是基于內(nèi)容的方法的操作流程圖;圖2說明上下文分類法;圖3說明視覺上下文;圖4說明音頻上下文;圖5說明本發(fā)明的一個(gè)實(shí)施例;圖6說明在圖5實(shí)施例中使用的級和層;圖7說明在圖5實(shí)施例中使用的上下文生成;圖8說明在圖5實(shí)施例中使用的群集操作;圖9說明具有多個(gè)級的本發(fā)明的另一實(shí)施例;以及圖10說明具有兩級的本發(fā)明的另一實(shí)施例,示出了每個(gè)級的層和級之間的連接。
本發(fā)明在涉及與嵌入電視設(shè)備中的硬磁盤記錄器、個(gè)人視頻記錄器(PVR)的技術(shù)方面特別重要,在授予N.Dimitrova等人于1999年11月18日申請的題為“音頻/數(shù)據(jù)/視覺信息選擇、存儲和傳送的方法與裝置”的美國專利申請09/442960中公開了這類視頻探測系統(tǒng),通過引用將其結(jié)合在此,所述專利還公開了視頻數(shù)據(jù)庫和因特網(wǎng)的多媒體信息的智能分段、索引和檢索。雖然本發(fā)明關(guān)于PVR或視頻探測系統(tǒng)進(jìn)行描述,但這樣安排僅出于方便目的,要知道,本發(fā)明本身不限于PVR系統(tǒng)。
顯示本發(fā)明重要性的一個(gè)應(yīng)用是基于內(nèi)容和/或上下文信息進(jìn)行的電視節(jié)目或子節(jié)目選擇。例如,用于電視設(shè)備的硬磁盤記錄器的當(dāng)前技術(shù)使用EPG和個(gè)人簡檔(PP)信息。本發(fā)明也可以使用EPG和PP,但除這些之外,它包含執(zhí)行視頻信息分析和抽取的額外一組處理層。其核心是生成內(nèi)容、上下文和語義信息。這些要素允許視頻信息的快速訪問/檢索以及在不同的信息粒度層上的交互作用,特別是通過語義命令的交互作用。
例如,用戶可能想要錄制某部電影的某些部分,例如JamesCameron的Titanic(泰坦尼克號),同時(shí)他觀看其它電視節(jié)目。這些部分應(yīng)對應(yīng)于電影中的特定場景,例如從遠(yuǎn)處看到泰坦尼克號沉入海中、Jake和Rose之間的戀愛場景、不同社會角色的成員之間的打斗等。明顯地,這些要求涉及到高級信息,該信息組合了不同級別的語義信息。根據(jù)EPG和PP信息,當(dāng)前只可以錄制整個(gè)節(jié)目。在本發(fā)明中,使用音頻/視覺/文本內(nèi)容信息以選擇適當(dāng)?shù)膱鼍?。可以對幀、鏡頭或場景進(jìn)行分段。并且也可以對音頻/視覺對象,例如人物,進(jìn)行分段。隨后,根據(jù)此內(nèi)容信息索引目標(biāo)電影部分。對視頻內(nèi)容的補(bǔ)充要素是上下文信息。例如,視覺上下文可確定場景是否為室外/室內(nèi)、是是否為白天/黑夜、陰天/晴天等;音頻上下文從聲音、話音等來確定節(jié)目類型以及話音、聲音或音樂的類型。文本上下文更多地與節(jié)目的語義信息相關(guān),并且這可以從相鄰字幕(CCclosecaptioning)或語音到文本的信息中抽取。回到示例,本發(fā)明允許抽取例如夜景的上下文信息,而無需執(zhí)行詳細(xì)的內(nèi)容抽取/組合,因而允許快速索引電影的大部分,和電影部分的更高級選擇。
多媒體內(nèi)容多媒體內(nèi)容是音頻/視頻/文本(A/V/T)對象的組合。如上所述,這些對象可以定義在不同的粒度級節(jié)目子節(jié)目場景鏡頭幀對象對象部分像素。多媒體內(nèi)容信息要通過分段操作從視頻序列中抽取。
多媒體上下文上下文指明正被處理的信息的環(huán)境、情況和基礎(chǔ)結(jié)構(gòu)。盡管上下文內(nèi)在地被用于解釋,但上下文的討論與場景、聲音或文本的解釋不同。
上下文的確定定義(closed definition)并不存在。相反,根據(jù)應(yīng)用域(視覺、音頻、文本)給出了許多操作定義。在下面的示例中提供了上下文的部分定義。例如晴朗日子里室外場景中的樹、房子、人的對象的集合。這些對象是3-D視覺對象,從這些對象的簡單關(guān)系中,我們無法確定語句“晴朗日子里的室外場景”的實(shí)際情況。
通常,一個(gè)對象在其它對象的前面/后面,或以某一相對速度移動(dòng),或比其它對象顯得更亮等。我們需要上下文信息(室外、晴朗日子等)消除上述陳述的岐義。上下文以這些對象之間的關(guān)系為基礎(chǔ)。多媒體上下文被定義為抽象對象,它組合來自音頻、視覺和文本域的上下文信息。文本域中,存在根據(jù)一階邏輯語言的上下文的形式化,請參閱“上下文形式化和一些應(yīng)用”一文(R.V.Guha,ContextsA Formalization and some Applications,Stanford Universitytechnical report,STAN-CS-91-1399-Thesis,1991)。在此域中,上下文被用作短語或句子的補(bǔ)充信息,以消除謂詞的岐義。實(shí)際上,在語言學(xué)和語言哲學(xué)中,上下文信息被看作是確定短語或句子意義的基礎(chǔ)。
本發(fā)明中“多媒體上下文”概念的新穎性在于它組合了跨音頻、視頻和文本域的上下文信息。這是很重要的,因?yàn)樵谔幚硪曨l序列的大量信息,如2/3小時(shí)的記錄A/V/T數(shù)據(jù)時(shí),對于給定的用戶請求,能夠抽取所述信息中的相關(guān)部分是必要的。
基于內(nèi)容的方法圖1示出了基于內(nèi)容的方法的整個(gè)操作流程圖。能夠跟蹤視頻序列中的對象/人物、查看電視新聞節(jié)目中顯示的特定面孔、或者選擇聲道中的給定聲音/音樂,這是多媒體處理的重要新要素?!皟?nèi)容”的重要特征是在“對象”它是A/V/T信息的一部分或一塊,具有對用戶的給定相關(guān),例如語義。內(nèi)容可以是視頻鏡頭、鏡頭中的特定幀、以給定速度移動(dòng)的對象、人物的面孔等。根本的問題是如何從視頻中抽取內(nèi)容。這可以自動(dòng)或手工來完成,或以自動(dòng)和手工方式的組合形式來完成。在VS中,內(nèi)容被自動(dòng)抽取。通常,自動(dòng)抽取內(nèi)容可以被描述成基于局部12和模型12的方法的混合。在視覺域中,基于局部的方法從給定視覺屬性上的像素級(pixel level)開始操作,隨后是此信息的群集以生成基于區(qū)域的視覺內(nèi)容。在音頻域中進(jìn)行類似的處理;例如,在語音識別中,聲音波形按等距10ms的鄰接/重疊窗被分析,隨后被處理,以便產(chǎn)生音素信息,其方式是通過隨著時(shí)間的過去群集其信息?;谀P偷姆椒ㄔ诤喕ㄟ^基于局部的方法完成的“自底向上”處理方面是重要的。例如,在視覺域中,幾何形狀模型被用于擬合像素(數(shù)據(jù))信息;這有助于給定屬性組的像素信息的集成。一個(gè)末解決的問題是如何組合基于局部和基于模型的方法。
基于內(nèi)容的方法有其局限性。視覺、音頻和文本域中的局部信息處理可以通過簡單的(基本的)操作來實(shí)現(xiàn),并且這可以并行,因而改善了速度性能,但其集成16是一種復(fù)雜過程,且結(jié)果通常不好。因而,我們將上下文信息添加到此任務(wù)中。
基于上下文的方法上下文信息限定了應(yīng)用域,因而減少了數(shù)據(jù)信息的可能解釋的數(shù)量。上下文抽取和/或檢測的目的是為了確定視頻的“特征”、“模式”或基礎(chǔ)信息。通過此信息,我們可以根據(jù)上下文信息來索引視頻序列,并使用上下文信息以“幫助”內(nèi)容抽取嘗試。
廣義上說,有兩種類型的上下文信號和語義上下文。信號上下文被分成視覺、音頻和文本上下文信息。語義上下文包括故事、意圖、思想等。語義類型有許多粒度,在某些方面,具有無限的可能性。信號類型具有固定一組上述組成部分。圖2是示出此所謂的上下文分類法的流程圖。
接下來,我們描述上下文分類法的某些要素,即視覺、聽覺和文本信號上下文要素,以及故事和意圖語義上下文要素。
視覺上下文如圖3所示,視覺域中的上下文具有下面的結(jié)構(gòu)。首先,在自然的、合成的(圖形、設(shè)計(jì))或兩者的組合之間進(jìn)行區(qū)別。隨后,對于自然視覺信息,我們確定視頻大致為室外還是室內(nèi)場景。如果是室外場景,則有關(guān)攝像機(jī)如何移動(dòng)、場景鏡頭變化率及場景(背景)色彩/紋理的信息可進(jìn)一步確定上下文細(xì)節(jié)。例如,包含緩慢室外隨動(dòng)拍攝/變焦的鏡頭可能是體育運(yùn)動(dòng)或記錄片節(jié)目的一部分。另一方面,室內(nèi)/室外場景的快速隨動(dòng)拍攝/變焦可對應(yīng)于體育運(yùn)動(dòng)(藍(lán)球、高爾夫球)或商業(yè)節(jié)目。對于合成場景,我們必須確定它是否對應(yīng)于純圖形和/或傳統(tǒng)的卡通似的畫像。在完成所有區(qū)別后,我們?nèi)钥梢源_定更高級的上下文信息,例如室外/室內(nèi)場景識別,但這確實(shí)牽涉到更精細(xì)的方案,使上下文與內(nèi)容信息相關(guān)。視覺上下文的示例有室內(nèi)與室外、主要色彩信息、主要紋理信息、全局(攝像機(jī))運(yùn)動(dòng)。
音頻上下文如圖4所示,在音頻域中,我們首先區(qū)分自然聲音與合成聲音。在下一級中,我們區(qū)分人的聲音、自然聲音與音樂。對于自然聲音,我們可在來自生物對象與非生物對象的聲音之間進(jìn)行區(qū)分,并且對于人的聲音,我們可以在性別、談話、歌唱之間進(jìn)行區(qū)別;談話可在大聲、正常和低聲談話之間進(jìn)行區(qū)別。音頻上下文的示例有自然聲音風(fēng)、動(dòng)物、樹;人的聲音特征(用于說話者識別)、歌唱、談話;音樂流行、古典、爵士。
文本上下文在文本域中,上下文信息可以來自相鄰字幕(CC)、人工抄錄或視覺文本。例如,從CC中,我們可以使用自然語言工具確定視頻圖像是否有關(guān)新聞、交談節(jié)目等。除此之外,VS可以具有電子節(jié)目指南(EPG)信息及在(節(jié)目、內(nèi)容)個(gè)人愛好(PP)方面的用戶選擇。例如,從EPG中,我們可以使用節(jié)目、時(shí)間表、電視臺和電影表來指定節(jié)目類別、節(jié)目內(nèi)容(故事、事件等)的短摘要及個(gè)人(演員、播音員等)信息。這已經(jīng)有助于使上下文信息的說明變?yōu)槟芴幚淼囊仡?。沒有此初始過濾,上下文說明成為相當(dāng)顯著的問題,會減少上下文信息的實(shí)際使用。因此,文本上下文信息對于上下文信息的實(shí)際應(yīng)用是重要的。使EPG和PP在一起,處理CC信息以生成有談?wù)摲治龊蜌w類的信息應(yīng)引導(dǎo)上下文抽取過程。正是在這個(gè)意義上VS中的信息流是一個(gè)“閉環(huán)”。
上下文信息的組合上下文信息的組合是上下文處理中強(qiáng)大的工具。特別地,使用例如關(guān)鍵字的自然語言處理所生成的文本上下文信息可以是引導(dǎo)視頻/音頻上下文處理的重要要素。
上下文模式上下文抽取的一個(gè)中心要素是“全局模式匹配”。重要的是,不是通過先抽取內(nèi)容信息并隨后將此內(nèi)容群集成稍后通過一些推理規(guī)則而彼此相關(guān)的“對象”來抽取上下文。相反,我們使用盡可能少的內(nèi)容信息,并通過使用盡可能多的“全局”視頻信息獨(dú)立地抽取上下文信息。從而捕獲視頻中的“特征”信息。例如,確定某人的聲音是女聲還是男聲、自然聲是風(fēng)聲還是水聲、所示場景是在白天和室外(高、漫射發(fā)光度)還是室內(nèi)(低發(fā)光度)等。為了抽取這種展示其內(nèi)在“規(guī)律性”的上下文信息,我們使用所謂的上下文模式的概念。此模式捕獲要處理的上下文信息的類型的“規(guī)律性”。此“規(guī)律性”可在信號域或變換(傅立葉)域中被處理;它可以具有簡單或復(fù)雜的形式。這些模式的性質(zhì)不同。例如,視覺模式使用視覺屬性的某種組合,例如,日常室外場景的漫射光,而語義模式使用符號屬性,例如,J.S.Bach的組成風(fēng)格。這些模式在VS的“學(xué)習(xí)”階段中生成。它們一起形成一組。該組可始終被更新、改變或刪除。
基于上下文的方法的一個(gè)方面是確定適用于給定視頻序列的上下文模式。這些模式可被用于索引視頻序列或通過基于內(nèi)容的方法幫助處理(自底向上)信息。上下文模式的示例有亮度直方圖、全局圖像速度、人的聲音特征及音樂譜圖。
信息集成根據(jù)本發(fā)明的一個(gè)方面,例如內(nèi)容和上下文信息的不同要素的集成(通過下面詳細(xì)描述的概率框架)按層來組織。有利的是,概率框架允許精確處理確定性/不定性、跨模態(tài)的信息集成的通用框架,并具有進(jìn)行信息循環(huán)更新的能力。
確定性/不定性處理是諸如視頻探測(VS)的大型系統(tǒng)中所需要的處理。所有模塊輸出內(nèi)在地具有一定程度的不定性伴隨它。例如,(視頻)場景剪輯檢測器的輸出是幀,即關(guān)鍵幀;僅能依據(jù)給定瞬間的色彩、運(yùn)動(dòng)等變化的急據(jù)程度以某一概率做出有關(guān)選擇什么關(guān)鍵幀的決定。
圖5示出一個(gè)說明性實(shí)施例,它包括接收輸入信號(視頻輸入)500的處理器502。處理器執(zhí)行基于上下文的處理504和基于內(nèi)容的處理56,以產(chǎn)生分段的和索引的輸出508。
圖6和圖7進(jìn)一步示出了基于上下文的處理504和基于內(nèi)容的處理506。圖6的實(shí)施例包括在VS應(yīng)用中具有5個(gè)層的一個(gè)級。各層具有不同的抽象級和粒度級。層內(nèi)或跨層的要素的集成內(nèi)在地取決于抽象級和粒度級。圖6所示的VS層如下。通過EPG和(節(jié)目)個(gè)人愛好(PP)的過濾層600構(gòu)成第一層。第二層特點(diǎn)抽取層602由特點(diǎn)抽取模塊組成。在此之后是作為第三層的工具層604。隨后是第四層語義處理層606。最后是第五層用戶應(yīng)用層608。在第二與第三層之間,具有視覺場景剪輯檢測操作,該操作生成視頻鏡頭。如果EPG或P_PP不可用,則旁路第一層;這由圓圈中箭頭符號表示。類似地,如果輸入信息包含一些特點(diǎn),則將旁路特點(diǎn)抽取層。
EPG由專用業(yè)務(wù)生成,例如,Tribune(參閱Tribune網(wǎng)站http//www.tribunemedia.com),并且它以ASCII格式給出一組字符字段,其中包括節(jié)目名、時(shí)間、頻道、收視率和簡單摘要。
PP可以是節(jié)目級PP(P_PP)或內(nèi)容級PP(C_PP)。P_PP是用戶確定的優(yōu)選節(jié)目表;它可以根據(jù)用戶的興趣來變化。C_PP與內(nèi)容信息有關(guān);VS系統(tǒng)以及用戶可以對它進(jìn)行更新。根據(jù)被處理的內(nèi)容的類型,C_PP可以具有不同的復(fù)雜程度。
特點(diǎn)抽取層再分成對應(yīng)于視覺610、音頻612和文本614域的三個(gè)部分。對于每個(gè)域,存在有不同的表示和粒度級。特點(diǎn)抽取層的輸出是一組特點(diǎn),通常是每個(gè)域分開,它結(jié)合了有關(guān)視頻的相關(guān)局部/全局信息。信息集成可以進(jìn)行,但通常只是每個(gè)域分開進(jìn)行。
工具層是進(jìn)行大范圍信息集成的第一層。此層的輸出由描述視頻穩(wěn)定要素的視覺/音頻/文本特征給定。這些穩(wěn)定要素應(yīng)對變化表現(xiàn)健壯,并且它們被用作語義處理層的構(gòu)件塊。工具層的一個(gè)主要作用是處理音頻、視覺和抄錄域的中級特點(diǎn)。這表示信息是有關(guān)例如圖像區(qū)域、3-D對象、諸如音樂或語音的音頻類別及完整的抄錄句子。
語義處理層通過集成來自工具層的要素來結(jié)合有關(guān)視頻內(nèi)容的知識信息。最后,用戶應(yīng)用層集成語義處理層的要素;用戶應(yīng)用層反應(yīng)在PP級輸入的用戶技術(shù)要求。
在從過濾層到用戶應(yīng)用層中,VS系統(tǒng)越來越多地處理更多符號信息。通常,過濾層可被大致地分類為元數(shù)據(jù)信息;特點(diǎn)抽取層處理信號處理信息;工具層處理中級信號信息;并且語義處理和用戶應(yīng)用層處理符號信息。
重要的是,根據(jù)本發(fā)明的一個(gè)方面,內(nèi)容信息的集成跨特點(diǎn)抽取、工具、語義處理及用戶應(yīng)用進(jìn)行以及在特點(diǎn)抽取、工具、語義處理及用戶應(yīng)用中進(jìn)行。
圖7示出一個(gè)上下文生成模塊。視頻輸入信號500由處理器502接收。處理器502把信號分用并解碼成為視覺702、音頻704和文本706分量部分。此后,分量部分在如圓圈“×”所示在不同的級和層內(nèi)被集成,以生成上下文信息。最后,從這些不同的級組合的上下文信息與內(nèi)容信息集成。
內(nèi)容域和集成粒度特點(diǎn)抽取層有三個(gè)域視覺、音頻和文本。信息集成可以是域間或域內(nèi)。域內(nèi)集成是每個(gè)域分開地完成,而域間集成是跨域完成。特點(diǎn)抽取層集成的輸出或者產(chǎn)生該層內(nèi)(對于域內(nèi))的要素或者產(chǎn)生工具層中的要素。
第一特性是域獨(dú)立特性。假設(shè)FV、FA和FT分別表示視覺、音頻和文本域中的特點(diǎn),域獨(dú)立特性按下面的三個(gè)等式,根據(jù)概率密度分布描述P(FV,F(xiàn)A)=P(FV)×P(FA),等式1P(FV,F(xiàn)T)=P(FV)×P(FT),等式2P(FA,F(xiàn)T)=P(FA)×P(FT)。
等式3第二特性是屬性獨(dú)立特性。例如,在視覺域中,有色彩、濃淡、邊緣、運(yùn)動(dòng)、陰影、形狀以及紋理屬性;在音頻域中,有音調(diào)、音品、頻率和帶寬屬性;在文本域中,屬性的示例有相鄰字幕、聲音到文本和抄錄屬性。對于每個(gè)域,各個(gè)屬性相互獨(dú)立。
現(xiàn)在,更詳細(xì)地描述特點(diǎn)抽取集成,我們注意到,對于給定域中的每個(gè)特性,通常有三個(gè)基本操作(1)過濾器組變換,(2)局部集成,和(3)群集。
過濾器組變換操作對應(yīng)于將一組過濾器組應(yīng)用到每個(gè)局部單元。在視覺域中,局部單元是例如像素矩形塊中的一個(gè)像素或一組像素。在音頻域中,每個(gè)局部單元是例如語音識別中使用的10ms時(shí)間窗。在文本域中,局部單元是字。
局部集成操作在要消除局部信息岐義的情況下是必要的。它集成過濾器組抽取的局部信息。這是以下情況對于計(jì)算2-D光流,正常速度要在局部鄰域內(nèi)組合,或者對于紋理抽取,空間定向過濾器的輸出要在局部鄰域內(nèi)集成,例如計(jì)算頻率能量。
群集操作將每個(gè)幀或每組幀內(nèi)局部集成操作中獲得的信息進(jìn)行群集。它基本上描述相同屬性的域內(nèi)集成模式。一種群集類型是根據(jù)給定屬性來描述區(qū)域/對象;這可以是根據(jù)平均值或更高階統(tǒng)計(jì)動(dòng)差;這種情況下,群集隱含使用形狀(區(qū)域)信息,目標(biāo)屬性的信息要被群集。其它類型是為整個(gè)圖像全局執(zhí)行該操作;這種情況下,使用全局鑒定,例如直方圖。
群集操作的輸出被標(biāo)識為特點(diǎn)抽取的輸出。明顯地,在特點(diǎn)抽取處理內(nèi),三個(gè)操作的每個(gè)操作之間具有相關(guān)性。這在圖8中以圖解法對視覺(圖像)域作了示意。
圖8中的叉表示實(shí)現(xiàn)局部過濾器組操作的圖像點(diǎn)(image sites)。會集到小實(shí)心圓的線示出局部集成。會聚到大實(shí)心圓的線條顯示區(qū)域/全局集成。
在每個(gè)局部單元(像素、像素塊、時(shí)間間隔等)完成的操作是獨(dú)立的,例如在圖8中每個(gè)叉的位置。對于集成操作,結(jié)果的輸出是相關(guān)的,特別是相鄰鄰域內(nèi)的結(jié)果輸出。每個(gè)區(qū)域的群集結(jié)果是獨(dú)立的。
最后,特點(diǎn)屬性的集成跨域。對于這種情況,集成不是在局部屬性之間,而是在區(qū)域?qū)傩灾g進(jìn)行。例如,在所謂的唇音(lip-speech)同步問題上,由張嘴高度、張嘴寬度或張嘴面積給出的視覺域特點(diǎn)與音頻域特點(diǎn),即與(孤立或相關(guān))音素集成在一起,其中,張嘴高度即上下內(nèi)唇“中心”連線的點(diǎn)之間的距離;張嘴寬度即內(nèi)唇或外唇最左與最右點(diǎn)之間的距離;張嘴面積即與內(nèi)唇或外唇相關(guān)的面積。這些特點(diǎn)中的每個(gè)特點(diǎn)本身是某信息集成的結(jié)果。
集成來自工具層的信息以生成語義處理層的要素和集成來自語義處理層的信息以生成用戶應(yīng)用層的要素更加明確。通常,集成取決于應(yīng)用類型。在后面兩個(gè)層(工具、語義處理)中被集成的信息內(nèi)的視頻單元是視頻段,例如鏡頭或整個(gè)電視節(jié)目,以便進(jìn)行故事選擇、故事分段、新聞分段。這些語義處理在連續(xù)的幀組中進(jìn)行操作,它們描述有關(guān)視頻的全局/高級信息,如下面進(jìn)一步討論的那樣。
貝葉斯網(wǎng)絡(luò)如上所述,用于VS概率表示法的框架基于貝葉斯網(wǎng)絡(luò)。使用貝葉斯網(wǎng)絡(luò)框架的重要之處在于它在VS系統(tǒng)每個(gè)層內(nèi)和/或每個(gè)層之間不同要素之間自動(dòng)對條件相關(guān)性進(jìn)行編碼。如圖6所示,在VS系統(tǒng)的每個(gè)層中,存在不同類型的抽取和粒度。并且,每個(gè)層可以具有其自己的粒度組。
已知貝葉斯網(wǎng)絡(luò)的詳細(xì)描述,參閱“智能系統(tǒng)中的概率推理似然推理網(wǎng)絡(luò)”(Judea Pearl,Probabilistic Reasoning in IntelligentSystemsNetworks of Plausible Inference,Morgan Kaufmann,San Mateo,CA,1998)和“貝葉斯網(wǎng)絡(luò)學(xué)習(xí)教程”(David Heckerman,“A Tutorialon Learning with Bayesian Networks”,Microsoft Research technicalreport,MSR-TR-95-06,1996)。通常,貝葉斯網(wǎng)絡(luò)是有向非循環(huán)圖(DAG),其中(i)節(jié)點(diǎn)對應(yīng)于(隨機(jī))變量,(ii)弧描述鏈接變量之間的直接因果關(guān)系(direct causal relationship),和(iii)這些鏈接的強(qiáng)度由cpd給出。
假設(shè)N個(gè)變量的集合Ω≡{x1,...,xN}定義DAG。對于每個(gè)變量,假定存在Ω的變量的子集,即xi的父集∏xi,也就是DAG中xi的前趨,使得P(xi|∏xi)=P(xi|x1,...xi-1),
等式4其中,P(.|.)是絕對為正的cpd。現(xiàn)在,假定聯(lián)合的概率密度函數(shù)(pdf)P(x1,...,xN),使用鏈?zhǔn)椒▌t,我們得到P(x1,...,xN)=P(xN|xN-1,...,x1)...P(x2|x1)P(x1)。
等式5根據(jù)等式15,父集∏xi具有以下特性xi和{x1,...,xN}\∏xi與給定∏xi無關(guān)。
與DAG相關(guān)的聯(lián)合pdf是P(x1,x2,x3,x4,x5)=P(X5|x4)P(x4|x3,x2)P(x2|x1)P(x3|x1)P(x1)。
等式6變量之間的相關(guān)性由等式6以數(shù)學(xué)方式表示。等式4、5和6中的cpf可以是物理的,或者它們可以通過貝葉斯定理變換成包含先驗(yàn)pdf的表達(dá)式。
圖6給出了具有DAG結(jié)構(gòu)的VS系統(tǒng)流程圖。此DAG由五個(gè)層組成。每層中,每個(gè)要素對應(yīng)于DAG中的一個(gè)節(jié)點(diǎn)。有向弧將給定層中的一個(gè)節(jié)點(diǎn)與上一層的一個(gè)或多個(gè)節(jié)點(diǎn)相連。基本上,四組弧連接五個(gè)層的要素。其中存在對此的限制是通常,從第一層過濾層到第二層特點(diǎn)抽取層,所有三個(gè)弧均用相同的加權(quán)穿過,即相應(yīng)的pdf全部為1.0。
對于給定層,以及對于給定要素,按等式6描述的來計(jì)算聯(lián)合pdf。更正式地,對于層l中的要素(節(jié)點(diǎn))il,聯(lián)合pdf是P(l)(xi(l),Π(l-1),...,Π(2),)=P(xi(l)|Πi(l)){P(x1(l-1)|Π1(l-1))...]]>P(xN(l-1)(l-1)|ΠN(l-1)(l-1))}...{P(x1(2)|Π1(2))...P(xN(2)2|ΠN((2)(2))}.]]>等式7等式7中暗示,對于每個(gè)要素xi(l),存在一個(gè)父集∏i(l);給定層級1的父集的并集,即Π(l)≡Σi=1N(L)Πl(l).]]>每個(gè)級的不同父集之間可以存在重疊。
如上所述,VS中的信息集成在四個(gè)層之間發(fā)生(i)特點(diǎn)抽取和工具,(ii)工具和分段處理,以及(iii)語義處理和用戶應(yīng)用。此集成通過涉及VS的貝葉斯網(wǎng)絡(luò)公式的增量處理來實(shí)現(xiàn)。
要處理的VS的基本單元是視頻鏡頭。視頻鏡頭根據(jù)符合圖6所示安排的P_PP和C_PP用戶技術(shù)要求進(jìn)行索引。視頻鏡頭的群集可生成更大部分的視頻段,例如節(jié)目。
令V(id,d,n,ln)表示視頻流,其中id、d、n、ln分別表示視頻識別號、生成數(shù)據(jù)、名稱和長度。視頻(視覺)段由VS(tf,ti; vdi)表示,其中tf、ti、vid分別表示最后幀時(shí)間、初始幀時(shí)間和視頻索引。視頻段VS(.)可以是或不是視頻鏡頭。如果VS(.)是視頻鏡頭,由VSh(.)表示,則第一幀是與tivk表示的視覺信息相關(guān)的關(guān)鍵幀(keyframe)。時(shí)間tfvk表示鏡頭中的最后幀。關(guān)鍵幀通過鏡頭剪輯檢測操作者獲得。在處理視頻鏡頭的同時(shí),最終鏡頭幀時(shí)間仍未知。否則,我們寫VSh(t,tivk;vid),其中,t<tfvk。音頻段由AS(tf,ti;avd)表示,其中aud表示音頻索引。類似于視頻鏡頭,音頻鏡頭Ash(tfak,tiak;aud)是音頻段,其中tfak和tiak分別表示最后和初始音頻幀。音頻和視頻鏡頭不必重疊;在視頻鏡頭的時(shí)間邊界內(nèi)可以有不止一個(gè)音頻鏡頭,反之亦然。
鏡頭生成、索引和群集的處理在VS中遞增實(shí)現(xiàn)。對于每個(gè)幀,VS處理相關(guān)圖像、音頻和文本。這是在第二層,即在特點(diǎn)抽取層中實(shí)現(xiàn)的。首先分用視覺、音頻和文本(CC)信息,并且假定要提供EPG、P_PP和C_PP數(shù)據(jù)。并且,視頻和音頻鏡頭被更新。逐幀處理完成后,視頻和音頻鏡頭被群集成更大的單元,例如場景、節(jié)目。
在特點(diǎn)抽取層實(shí)現(xiàn)平行處理(i)對每個(gè)域(視覺、音頻和文本),以及(ii)在每個(gè)域內(nèi)。在視覺域中,處理圖像I(.,.),在音頻域中,處理聲波SW,并且在文本域中,處理字符串CS。視覺(v)、音頻(a)或文本(t)域的簡寫是Dα;α=1指視覺域,α=2指音頻域,而α=3指文本域。特點(diǎn)抽取層的輸出是集合{ODa,iFE}i中的對象。第i個(gè)對象ODa,iFE(t)在時(shí)間t與第i個(gè)屬性ADa,i(t)相關(guān)。在時(shí)間t,對象ODa,iFE(t)滿足下面的條件PDα(ODα,iFE(t)|ADα,i(t)∈RDα).]]>等式8在等式8中,符號ADa,i(t)∈RDa表示屬性ADα,i(t)出現(xiàn)/是部分(∈)區(qū)域(分區(qū))RDα。此區(qū)域可以是圖像中的一組像素,或聲波中的時(shí)間窗(例如,10ms),或者是字符串的集合。實(shí)際上,等式8是表示三級處理的簡化形式,所述三級處理即過濾器組處理、局部集成和全局/區(qū)域群集,如上所述。對于每個(gè)對象ODa,iFE(t),存在一個(gè)父集∏ODa,iFE(t);對于此層,父集通常大(例如,給定圖像區(qū)中的像素);因而,它未被明確地描述。每個(gè)對象的生成獨(dú)立于每個(gè)域內(nèi)其它對象的生成。
特點(diǎn)抽取層生成的對象被用作到工具層的輸入。工具層集成來自特點(diǎn)抽取層的對象。對于每個(gè)幀,來自特點(diǎn)抽取層的對象被組合成工具對象。對于時(shí)間t,在域Dα中定義的工具對象ODa,iT(t)和特點(diǎn)抽取對象的父集∏ODa,iT(t),cpdP(ODα,i(t)T|ΠODα,i(t)T)]]>等式9表示ODa,iT(t)條件依賴于∏ODa,iT(t)中的對象。
在下一層語義處理層中,信息的集成可以跨域,例如跨視覺和音頻。語義處理層包含對象{OiSP(t)}i;每個(gè)對象集成來自用于分段/索引視頻鏡頭的工具層的工具。與等式9相類似,cpdP(OiSP(t)|Πoisp(t))]]>等式10描述語義處理集成過程,其中∏OiSP(t)表示在時(shí)間t的OiSP(t)的父集。
分段以及遞增鏡頭分段和索引是利用工具要素來實(shí)現(xiàn)的,并且索引通過使用來自特點(diǎn)抽取、工具和語義處理三個(gè)層的要素來完成。
在時(shí)間t的視頻鏡頭被索引為VShi(t,tivk;{χλ(t)}λ),等式11其中,i表示視頻鏡頭號,χλ(t)表示視頻鏡頭的第λ個(gè)索引參數(shù)。χλ(t)包括可被用于對鏡頭索引的所有可能參數(shù),從局部基于幀的參數(shù)(低級、與特點(diǎn)抽取要素有關(guān))到全局基于鏡頭的參數(shù)(中級,與工具要素有關(guān),和高級,與語義處理要素有關(guān))。在每個(gè)時(shí)間t(可以將其表示為連續(xù)或離散變量—在后一情況下,它寫為k),計(jì)算cpdP(F(t)VShi,(t,tivk;{χλ(t)}λ)|{ADi,j(t)}j),等式12假定在時(shí)間t的視覺域D1中的特點(diǎn)抽取屬性集{ADi,j(t)}j),cpd確定在時(shí)間t的幀F(xiàn)(t)包含在視頻鏡頭VShi(t,tivk;{χλ(t)}λ)中的條件概率。為了使鏡頭分段處理更健壯,不僅使用在時(shí)間t獲得的特點(diǎn)抽取屬性,而且也使用前面時(shí)間獲得的特點(diǎn)抽取屬性,即集合{ADi,j(t)}j,t代替{ADi,j(t)}j。這通過貝葉斯更新規(guī)則遞增地實(shí)現(xiàn),即P(F(t)VShi(t,tivk;{χλ(t)}λ)|{ADi,j(t)}j,t)=[P({ADt,j(t)}j|F(t)VShi(t,tivk;{χλ(t)}λ))×P(F(t)VShi(t,tivk;{χλ(t)}λ)|{ADi,j(t-1)}j,t-1)]×C,等式13其中,C是歸一化常量(通常是等式13中整個(gè)狀態(tài)的總和)。
下一項(xiàng)是等式12中索引參數(shù)的增量更新。首先,依據(jù)(臨時(shí))擴(kuò)展的屬性集合{ADi,j(t)}j,t,進(jìn)行估計(jì)索引參數(shù)的處理。這通過cpd完成P(VShi(t,tivk;{χλ(t)=xλ(t)}λ)|{ADi,j(t)}j,t),等式14
其中,x2(t)是χλ(t)的給定測量值。依據(jù)等式14,利用貝葉斯規(guī)則,由下列等式給出索引參數(shù)的增量更新P(VShi(t,tivk;{χλ(t)=xλ(t)}λ)|{ADi,j(t)}j,t)=P({ADi,j(t)}j|VShi(t,tivk;{χλ(t)=xλ(t)}λ))×P(VShi(t,tivk,{χλ(t)=xλ(t)}λ)|{ADi,j(t-1)}j,t-1)]×C。
等式15工具和/或語義處理要素也可以索引視頻/音頻鏡頭。等式12、13、14和15的表達(dá)式的模擬集合適用于音頻鏡頭的分段。
信息表示從過濾到VS用戶應(yīng)用層,內(nèi)容/上下文信息的表示不可以是唯一的。這是很重要的特性。表示取決于用戶對VS要求的內(nèi)容/上下文信息詳細(xì)程度、取決于實(shí)現(xiàn)約束(時(shí)間、存儲空間等)、以及取決于特定的VS層。
作為表示的這樣多樣化的一個(gè)示例,在特點(diǎn)抽取層,視覺表示可具有不同粒度的表示。在2-D空間中,表示由視頻序列的圖像(幀)組成,每個(gè)圖像由像素或像素矩形塊組成;對于每個(gè)像素/塊,我們指配速度(位移)、色彩、邊緣、形狀和結(jié)構(gòu)值。在3-D空間中,用體素、以及指配的視覺屬性的類似(例如在2-D中)集合表示。這是細(xì)節(jié)在精細(xì)級的表示。在較粗級,視覺表示是按照直方圖、統(tǒng)計(jì)動(dòng)差和傅立葉描述符的。這些不過是視覺域中的可能表示的示例。音頻域具有類似的情況。精細(xì)級的表示是按照時(shí)間窗、傅立葉能量、頻率、音調(diào)等的。在較粗級,有語素、三單音(tri-phones)等。
在語義處理和用戶應(yīng)用層,表示是由特點(diǎn)抽取層的表示所做的推理的結(jié)論。語義處理層推理的結(jié)果反應(yīng)視頻鏡頭段的多模式屬性。另一方面,用戶應(yīng)用層完成的推理表示反應(yīng)用戶高級要求的鏡頭集合或整個(gè)節(jié)目的特性。
分級先驗(yàn)根據(jù)本發(fā)明的另一方面,使用概率公式中的分級先驗(yàn),即用于視頻信息的分析和集成。如上所述,多媒體上下文是基于分級先驗(yàn)的。有關(guān)分級先驗(yàn)的其它信息,參閱“統(tǒng)計(jì)決策理論和貝葉斯分析”一文(J.O.Berger,Statistical Decision Theory and Bayesian Analysis,Springer Verlag,NY,1985)。表征分級先驗(yàn)的一種方法是通過Chapman-Kolmogorov等式,參閱“概率、隨機(jī)變量和隨機(jī)過程”一文(A.Papoulis,Probability,Random Variables,and StochasticProcesses,McGraw-Hill,NY,1984)。假設(shè)具有作為n-k-1和k個(gè)變量分布的n個(gè)連續(xù)或離散變量的條件概率密度(cpd)p(xn,...,xk+1|xk,...,x1)。它可以表示p(xn,...,xl,xl+2,...,xk+1|xk,...,xm,xm+2,...,x1)=]]>∫-∞∞dx‾l+1{∫-∞∞dx‾m+1[p(xn,...,xl,x‾l+1,xl+2,...,xk+1|xk,...,xm,x‾m+1,xm+2,...,x1)]]>×p(x‾m+1|xk,...,xm,xm+2,...,x1)]},]]>等式16其中, 表示積分(連續(xù)變量)或和數(shù)(離散變量)。n=1且k=2時(shí),等式16的特殊情況是Chapman-Kolmogorov等式p(x1|x2)=∫-∞∞dx‾3p(x1|x‾3,x2)×p(x‾3|x2)]]>等式17現(xiàn)在,將論述限制在n=k=1的情況。并且,假定x1是要估計(jì)的變量,并且x2是“數(shù)據(jù)”。那么,根據(jù)貝葉斯定理p(x1|x2)=[p(x2|x1)×p(x1)]/p(x2),等式18其中,p(x1|x2)被稱為給定x2而估計(jì)x1的后驗(yàn)cpd;p(x2|x1)是給定要估計(jì)的變量x1而具有數(shù)據(jù)x2的可能cpd,p(x2)是先驗(yàn)概率密度(pd),而p(x1)是只取決于數(shù)據(jù)的“常量”。
先驗(yàn)項(xiàng)p(x1)確實(shí)通常取決于參數(shù),特別在它是結(jié)構(gòu)先驗(yàn)時(shí);在后一情況下,此參數(shù)也被稱為超參數(shù)。因此,p(x1)實(shí)際上應(yīng)寫為p(x1|λ),其中λ是超參數(shù)。常常是不要估計(jì)λ,而是有了有關(guān)它的先驗(yàn)。在這種情況下,用p(x1|λ)xp’(λ)代替p(x1|λ),其中,p’(λ)是該先驗(yàn)。此過程可擴(kuò)展用于任意數(shù)量的嵌套先驗(yàn)。此方案被稱為分級先驗(yàn)。通過等式17,為后驗(yàn)描述分級先驗(yàn)的一個(gè)公式。假設(shè)P(x3|x2),且x3=λ1,并為它改寫等式17p(λ1|x2)=∫-∞∞dλ2p(λ1|λ2,x2)×p(λ2x2)]]>等式19或p(x1|x2)=∫-∞∞dλ1∫-∞∞dλ2p(x1|λ1,x2)×p(λ1|λ2,x2)×p(λ2|x2)]]>等式20表達(dá)式20描述了兩層先驗(yàn),即另一先驗(yàn)參數(shù)的先驗(yàn)。這可以概括到任意層數(shù)。例如,在等式20中,可以使用等式17根據(jù)另一超參數(shù)來寫p(λ2|x2)。在該處,對總計(jì)m個(gè)分層先驗(yàn),通常具有等式20的概括p(x1|x2)=∫-∞∞dλ1...∫-∞∞dλmp(x1|λ1,x2)]]>×p(λ1|λ2,x2)×...×p(λm-1|λm,x2)×p(λm|x2)]]>等式21對于任一數(shù)量n的條件變量,這也可以被概括出來,即從p(x1|x2)到p(x1|x2,...,xn)。
圖9示出本發(fā)明的另一實(shí)施例,其中,有一組m個(gè)級表示多媒體信息的分段和索引。每級與分級先驗(yàn)方案中的一組先驗(yàn)相關(guān),并由貝葉斯網(wǎng)絡(luò)描述。每個(gè)λ變量均與一個(gè)給定級相關(guān),即,第i個(gè)λ變量λi與第I級相關(guān)。每個(gè)層對應(yīng)于多媒體上下文信息的一種給定類型。
回到等式17中二級的情況,該等式在此處以新表示法再現(xiàn)p(x1|x2)=∫-∞∞dλ1p(x1|λ1,x2)×p(λ1|x2)]]>等式22最初,p(x1|x2)指明x1與x2之間的(概率)關(guān)系。接著,通過將變量λ1結(jié)合到問題中,可以看到(i)cpd p(x1|x2)現(xiàn)在取決于p(x1|λ1,x2),這表示為適當(dāng)估計(jì)x1,必需知道x2和λ1;(ii)必須知道如何從x2估計(jì)λ1。例如,在電視節(jié)目域中,如果要選擇交談節(jié)目中的給定音樂剪輯,則x1=“選擇交談節(jié)目中的音樂剪輯”,x2=“電視節(jié)目視頻-數(shù)據(jù)”,并且λ1=“基于音頻、視頻和/或文本線索的交談節(jié)目”。基于分級先驗(yàn)的方法提供的較不用等式22計(jì)算p(x1|x2)的標(biāo)準(zhǔn)方法相比為新東西的是由λ1描述的附加信息。此附加信息也要從數(shù)據(jù)(x2)推斷得出,但它具有與x1的有所不同的性質(zhì);它從另一角度描述數(shù)據(jù),如電視節(jié)目種類,而不是只看到視頻信息的鏡頭或場景?;跀?shù)據(jù)x2的λ1估計(jì)在第二級完成;第一級涉及從數(shù)據(jù)和λ1中估計(jì)x1。通常,存在處理不同參數(shù)的序列次序。首先,從第二級上到第m級,處理λ參數(shù),然后在第一級處理x參數(shù)。
在圖10中,第一級包括涉及變量x1、x2的貝葉斯網(wǎng)絡(luò)。在上方的第二級中,是另一貝葉斯網(wǎng)絡(luò)的不同λ1變量(記住λ1表示第二層的“先驗(yàn)”變量的集合)。在兩級中,節(jié)點(diǎn)通過直線箭頭互連的?,F(xiàn)在,彎曲箭頭示出第二級中的節(jié)點(diǎn)與第一級中的節(jié)點(diǎn)之間的連接。
在優(yōu)選實(shí)施例中,由數(shù)據(jù)處理裝置(例如處理器)執(zhí)行的計(jì)算機(jī)可讀代碼來實(shí)現(xiàn)所述方法和系統(tǒng)。代碼可存儲在數(shù)據(jù)處理裝置內(nèi)的存儲器中,或者從諸如CD-ROM或軟盤的存儲器媒體讀取/下載。此設(shè)置僅為方便起見,并要知道,實(shí)現(xiàn)實(shí)質(zhì)上并不限于數(shù)據(jù)處理儀器。在此處使用時(shí),術(shù)語“數(shù)據(jù)處理儀器”指便于信息處理的任一類型的(1)計(jì)算機(jī)、(2)無線、蜂窩或無線電數(shù)據(jù)接口設(shè)備、(3)智能卡、(4)因特網(wǎng)接口設(shè)備及(5)VCR/DVD播放器等。在其它實(shí)施例中,硬件電路可用于代替軟件指令、或與軟件指令相組合來實(shí)現(xiàn)本發(fā)明。例如,本發(fā)明可在使用用于處理的Trimedia處理器和用于顯示的電視監(jiān)視器的數(shù)字電視平臺上來實(shí)現(xiàn)。
另外,通過使用專用硬件、以及通過使用能夠執(zhí)行與適當(dāng)軟件相聯(lián)系的軟件的硬件,可以提供圖1-10所示不同要素的功能。由處理器提供功能時(shí),可由單個(gè)專用處理器、單個(gè)共享處理器,或多個(gè)單獨(dú)的且其中一些是共享的處理器提供功能。另外,明確使用術(shù)語“處理器”或“控制器”不應(yīng)視為專指能夠執(zhí)行軟件的硬件,并可暗示包括,但不限于數(shù)字信號處理器(DSP)硬件、用于存儲軟件的只讀存儲器(ROM)、隨機(jī)存取存儲器(RAM)和非易失性存儲器。也可以包括其它常規(guī)和/或定制硬件。
下面內(nèi)容只用于說明本發(fā)明原理。因而將知道,本領(lǐng)域的技術(shù)人員將能夠設(shè)計(jì)不同的布置,這些布置雖未在此明確描述或示出,但體現(xiàn)了本發(fā)明的原理,且包括在本發(fā)明精神和范圍之內(nèi)。此外,此處所述所有示例和條件語言主要是只用于教學(xué)目的,以幫助讀者理解發(fā)明人提供的本發(fā)明原理和概念,促進(jìn)技術(shù),并理解為不限于這樣特別敘述的示例和條件。另外,此處涉及本發(fā)明原理、方面和實(shí)施例的所有語句及其特定示例是用于包括其構(gòu)造和功能兩者的等同物。另外,意在這樣的等同物包括當(dāng)前已知的等同物以及將來開發(fā)的等同物,開發(fā)出來執(zhí)行相同功能的任何元件,而不管結(jié)構(gòu)如何。
因此,例如,本領(lǐng)域的技術(shù)人員將明白,此處的方框圖表示實(shí)施本發(fā)明原理的說明性電路的概念視圖。類似地,將明白,任何流程圖、操作程序圖、狀態(tài)轉(zhuǎn)移圖等表示不同的處理,這些處理主要出現(xiàn)在計(jì)算機(jī)可讀媒體上,并因而可由計(jì)算機(jī)或處理器執(zhí)行,而無論是否明確示出這樣的計(jì)算機(jī)或處理器。
在本文的權(quán)利要求書中,表示為執(zhí)行特定功能的裝置的任何單元用于包括執(zhí)行所述功能的任何方式,例如包括a)執(zhí)行所述功能的電路單元的組合或b)任一形式的軟件,因而包括固件、微代碼等,與適當(dāng)?shù)碾娐废嘟M合,用于執(zhí)行實(shí)現(xiàn)所述功能的軟件。由這樣的權(quán)利要求定義的本發(fā)明在于以下事實(shí)按權(quán)利要求書所要求的方式,一起組合與產(chǎn)生了由所述不同裝置提供的功能。申請人因而將可以提供所述功能的所有裝置視為此處所示那些裝置的等同物。
權(quán)利要求
1.一種用于處理信息信號的數(shù)據(jù)處理裝置(502),它包括至少一級,其中第一級包括第一層(602),它具有第一多個(gè)節(jié)點(diǎn),用于從所述信息信號抽取內(nèi)容屬性;以及第二層(608),它具有至少一個(gè)節(jié)點(diǎn),用于利用另一層或下一級中選定節(jié)點(diǎn)的內(nèi)容屬性為所述至少一個(gè)節(jié)點(diǎn)確定上下文信息,并用于集成在所述至少一個(gè)節(jié)點(diǎn)的某些所述內(nèi)容屬性和所述上下文信息。
2.如權(quán)利要求1所述的數(shù)據(jù)處理裝置(502),其特征在于還包括第二級,所述第二級具有至少一層,所述至少一層具有至少一個(gè)節(jié)點(diǎn),所述至少一層用于利用另一層或下一級中選定節(jié)點(diǎn)的內(nèi)容屬性為所述至少一個(gè)節(jié)點(diǎn)確定上下文信息,并且用于為所述至少一個(gè)節(jié)點(diǎn)集成某些所述內(nèi)容屬性和所述上下文信息。
3.如權(quán)利要求2所述的數(shù)據(jù)處理裝置(502),其特征在于所述第一級的第二層的至少一個(gè)節(jié)點(diǎn)包括從自更高層或所述第二級級聯(lián)至所述至少一個(gè)節(jié)點(diǎn)的信息來確定所述上下文信息,并用于集成所述至少一個(gè)節(jié)點(diǎn)的所述信息。
4.如權(quán)利要求1所述的數(shù)據(jù)處理裝置(502),其特征在于每級與一組分級先驗(yàn)有關(guān)。
5.如權(quán)利要求1所述的數(shù)據(jù)處理裝置(502),其特征在于每級由貝葉斯網(wǎng)絡(luò)表示。
6.如權(quán)利要求1所述的數(shù)據(jù)處理裝置(502),其特征在于所述內(nèi)容屬性是從包括音頻、視覺、關(guān)鍵幀、視覺文本及文本的組中選擇的。
7.如權(quán)利要求1所述的數(shù)據(jù)處理裝置(502),其特征在于每個(gè)層的所述集成被安排成在不同的粒度級為所述至少一個(gè)節(jié)點(diǎn)組合某些所述內(nèi)容屬性和所述上下文信息。
8.如權(quán)利要求1所述的數(shù)據(jù)處理裝置(502),其特征在于每個(gè)層的所述集成被安排成在不同的抽象級為所述至少一個(gè)節(jié)點(diǎn)組合某些所述內(nèi)容屬性和所述上下文信息。
9.如權(quán)利要求7所述的數(shù)據(jù)處理裝置(502),其特征在于所述不同的粒度級是從包括節(jié)目、子節(jié)目、場景、鏡頭、幀、對象、對象部分和像素級的組中選擇的。
10.如權(quán)利要求8所述的數(shù)據(jù)處理裝置(502),其特征在于所述不同的抽象級是從包括圖像中的像素、3-D空間中的對象和抄錄文本字符的組中選擇的。
11.如權(quán)利要求1所述的數(shù)據(jù)處理裝置(502),其特征在于所述選定節(jié)點(diǎn)通過有向非循環(huán)圖(DAG)中的有向弧彼此有關(guān)。
12.如權(quán)利要求11所述的數(shù)據(jù)處理裝置(502),其特征在于假設(shè)與父節(jié)點(diǎn)有關(guān)的屬性的真實(shí),選定節(jié)點(diǎn)與把所述選定節(jié)點(diǎn)定義為真的屬性的cpd有關(guān)。
13.如權(quán)利要求1所述的數(shù)據(jù)處理裝置(502),其特征在于所述第一層還被安排成為所述第一多個(gè)節(jié)點(diǎn)中的每個(gè)節(jié)點(diǎn)把某些所述內(nèi)容屬性分組。
14.如權(quán)利要求1所述的數(shù)據(jù)處理裝置(502),其特征在于每個(gè)層的所述節(jié)點(diǎn)對應(yīng)于隨機(jī)變量。
15.一種用于處理信息信號(500)的方法,所述方法包括以下步驟使用概率框架對所述信息信號進(jìn)行分段和索引,所述框架包括至少一級,所述至少一級具有多個(gè)層(600-608),每個(gè)層具有多個(gè)節(jié)點(diǎn),其中所述分段和索引包括為第一層(602)的每個(gè)節(jié)點(diǎn)從所述信息信號抽取內(nèi)容屬性;使用在另一層或下一級中的選定節(jié)點(diǎn)的內(nèi)容屬性,在第二層(608)確定上下文信息;以及為所述第二層(608)的至少一個(gè)節(jié)點(diǎn)集成某些內(nèi)容屬性和所述上下文信息。
16.如權(quán)利要求15所述的方法,其特征在于所述確定步驟包括利用來自從更高層或級級聯(lián)到所述至少一個(gè)節(jié)點(diǎn)的信息中的上下文信息,并用于集成所述至少一個(gè)節(jié)點(diǎn)的信息。
17.如權(quán)利要求15所述的方法,其特征在于所述抽取步驟包括抽取音頻、視覺、關(guān)鍵幀、視覺文本及文本屬性。
18.如權(quán)利要求15所述的方法,其特征在于所述集成步驟包括在不同的粒度級為所述至少一個(gè)節(jié)點(diǎn)組合某些所述內(nèi)容屬性和所述上下文信息。
19.如權(quán)利要求15所述的方法,其特征在于所述集成步驟包括在不同的抽象級為所述至少一個(gè)節(jié)點(diǎn)組合某些所述內(nèi)容屬性和所述上下文信息。
20.如權(quán)利要求18所述的方法,其特征在于所述不同的粒度級是從包括節(jié)目、子節(jié)目、場景、鏡頭、幀、對象、對象部分及像素級的組中選擇的。
21.如權(quán)利要求19所述的方法,其特征在于所述不同的抽象級是從包括圖像中的像素、3-D空間中的對象及字符的組中選擇的。
22.如權(quán)利要求15所述的方法,其特征在于所述確定步驟包括利用使另一層或下一級中選定節(jié)點(diǎn)的內(nèi)容屬性有關(guān)的有向非循環(huán)圖(DAG)。
23.一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品允許可編程設(shè)備在執(zhí)行所述計(jì)算機(jī)程序產(chǎn)品時(shí)起如權(quán)利要求1到14項(xiàng)中的任何一項(xiàng)權(quán)利要求所述的數(shù)據(jù)處理裝置(502)的作用。
24.一種用于處理信息信號的裝置(502),所述裝置包括存儲器(502),它存儲處理步驟;以及處理器(502),它執(zhí)行所述存儲器中存儲的所述處理步驟,以便(i)使用至少一級,所述至少一級具有多個(gè)層,每個(gè)層具有至少一個(gè)節(jié)點(diǎn);(ii)為第一層的每個(gè)節(jié)點(diǎn)從所述信息信號抽取內(nèi)容屬性;(iii)利用在另一層中選定節(jié)點(diǎn)的內(nèi)容屬性或下一級的上下文信息,在第二層確定上下文信息;以及(iv)為節(jié)點(diǎn)組合某些內(nèi)容屬性和所述上下文信息。
全文摘要
公開用于信息處理的方法和系統(tǒng),例如,用于多媒體分段、索引和檢索。所述方法和系統(tǒng)包括使用概率框架進(jìn)行例如音頻/視覺/文本(A/V/T)的多媒體集成。多媒體內(nèi)容和上下文信息兩者均通過概率框架來表示和處理。此框架例如由貝葉斯網(wǎng)絡(luò)和分級先驗(yàn)表示,所述框架是以圖形方式由級描述,每級具有一組層,每層包括表示內(nèi)容或上下文信息的多個(gè)節(jié)點(diǎn)。至少第一級的第一層處理諸如A/V/T域中對象的多媒體內(nèi)容信息或其組合。如下面進(jìn)一步描述的那樣,不同級的其它層描述多媒體上下文信息。每個(gè)層都是貝葉斯網(wǎng)絡(luò),其中每個(gè)層的節(jié)點(diǎn)解釋下一“更低”層和/或“更低”級的某些特征。節(jié)點(diǎn)及其連接一起形成擴(kuò)充貝葉斯網(wǎng)絡(luò)。多媒體上下文是正被處理的多媒體信息(音頻、視覺、文本)的環(huán)境、情況和基礎(chǔ)結(jié)構(gòu)。多媒體信息(內(nèi)容和上下文)在層和級內(nèi)以不同粒度級和不同抽象級組合。
文檔編號G06F17/30GK1535431SQ01802837
公開日2004年10月6日 申請日期2001年7月18日 優(yōu)先權(quán)日2000年7月28日
發(fā)明者R·S·雅辛施, R S 雅辛施 申請人:皇家菲利浦電子有限公司