專利名稱:多媒體信息的元描述符的制作方法
技術領域:
本發(fā)明涉及多媒體數(shù)據(jù)的基于內(nèi)容的處理,而更具體地涉及建立與使用描述其內(nèi)容的多媒體數(shù)據(jù)屬性。
多媒體信息通常以多種不同形式存在,其中包含諸如數(shù)字、模擬(如VCR磁帶與錄音磁帶)、光(如傳統(tǒng)影片)、圖象(如紙上的畫與圖)、等。在現(xiàn)代社會中定位這種多媒體信息的能力是重要的,而在諸如教育、新聞業(yè)(例如利用他的姓名、話音或面貌搜索某一政客的講話)、旅游信息、文化服務(如歷史博物館、藝術陣列館等)、娛樂(如搜索比賽或卡拉OK名稱)、調(diào)查工作(如人類特征識別與法醫(yī)學)、地理信息系統(tǒng)、遙感(如地圖繪制學、生態(tài)學、自然資源管理等)、監(jiān)視(如交通控制、地面運輸、敵對環(huán)境中的非破壞性探測等)、生物醫(yī)學應用、購物(如搜索你所喜愛的服裝)、建筑、房地產(chǎn)、內(nèi)部設計、社交(如約會服務)從及影片、電視與無線電檔案等各種專業(yè)與消費者應用中尤為重要。不幸的是,現(xiàn)有的系統(tǒng)在搜索多媒體信息中并不徹底、快速或高效;見諸如國際標準化組織ISO/IEC JTC1/SC29/WG11電影與音頻編碼,MEPG-7應用文獻卷8,N2728號,1999年3月,其全文在此作為參考。
支持搜索多媒體信息的重要步驟為以采用現(xiàn)代計算機系統(tǒng)能搜索的方式來表示它。在研制超越簡單的波形或基于樣本的表示、諸如MPEG-1與MPEG-2等基于壓縮的表示、及諸如MPEG-4等基于對象的表示,以及能傳遞到設備或計算機代碼或由其訪問的音像信息表示形式中已表示了很大關注。已為描述多媒體內(nèi)容及抽取表示與查詢得出的表示的集合開發(fā)了許多專利解決方法,但它們只是繁殖了更多的不同多媒體信息并加重了進行快速與高效的多媒體信息搜索的困難。
“描述符”是特征的表示,“特征”是多媒體信息的區(qū)別性特征,不論多媒體信息的介質或技術,也不論如何存儲、編碼、顯示與傳輸該多媒體信息。由于用在不同的專利多媒體信息檢索中的描述符不一定兼容,對建立支持制作、交換、檢索與/或重復使用多媒體信息的計算系統(tǒng)的操作要求的描述多媒體內(nèi)容數(shù)據(jù)的標準表示了關注。實例中包含為圖象理解(如監(jiān)視、智能視覺、智能照相機)、媒體轉換(如語音到正文、畫面到語音、語音到畫面)、與信息檢索(用戶感興趣的各種類型的多媒體文獻的快速與高效搜索)以及音像內(nèi)容描述流中的過濾(只接收滿足用戶的偏愛的多媒體數(shù)據(jù)項目)設計的計算系統(tǒng)。
從而,存在著對支持這些操作要求以及尚待開發(fā)的其它操作要求的描述多媒體內(nèi)容數(shù)據(jù)的標準的需求。
從而,本發(fā)明在具體實施例中實現(xiàn)的目的為改進從注冊表中檢索多媒體信息的效率。
本發(fā)明在具體實施例中實現(xiàn)的另一目的為改進從注冊表中檢索多媒體信息的速度。
本發(fā)明在具體實施例中實現(xiàn)的又另一目的為提供多媒體信息的特征的標準表示。
在本發(fā)明的各實施例中實現(xiàn)這些與其它目的。例如,本發(fā)明的一個實施例為表示多種多媒體信息的方法,包括獲取多媒體信息的描述符,為這些描述符生成至少一個元描述符,及將該至少一個元描述符附加在多媒體信息上。
本發(fā)明的另一實施例為表示集體地具有各種內(nèi)容類型的多種多媒體信息的方法,包括獲取多媒體信息的描述符,生成描述符群集,生成群集的元描述符,及分別將群集的元描述符附加到群集中的描述符所描述的多媒體信息項上。
本發(fā)明的又一實施例為利用查詢多媒體信息項搜索描述符所描述的注冊表中的多媒體信息的方法,包括獲取注冊表描述符的元描述符,選擇查詢多媒體信息,根據(jù)元描述符從查詢多媒體信息中抽取至少一個查詢描述符來獲得至少一個查詢描述符,將查詢描述符與注冊表描述符比較,并按照比較步驟分級注冊表中的至少某些多媒體信息。
本發(fā)明的另一實施例為從注冊表中檢索多媒體信息的方法,包括從注冊表中的多媒體信息抽取注冊表描述符,生成注冊表描述符的群集,將注冊表描述符指向注冊表中的多媒體信息,生成群集的元描述符,將群集的元描述符附加到群集中各自的多媒體信息上,選擇查詢多媒體信息,根據(jù)元描述符從查詢多媒體信息中抽取至少一個描述符以獲得至少一個查詢描述符,將查詢描述符與注冊表描述符比較,及按照比較步驟將注冊表中的至少某些多媒體信息分級。
本發(fā)明的又一實施例為用于表示關于表示屬于多媒體內(nèi)容的特定類別的多媒體信息項的特征的多個描述符的信息的數(shù)據(jù)結構,包括指示這些描述符在描述多媒體信息項中的相關性的多個數(shù)據(jù)元素。
圖1為注冊表中的多媒體數(shù)據(jù)的各種形式的圖形表示。
圖2為按照本發(fā)明的元描述符生成進程與多媒體查詢進程的流程圖。
圖3為按照本發(fā)明的示例關系數(shù)據(jù)庫的記錄表。
圖4為按照本發(fā)明的改進注冊表中的多媒體元描述符的進程的流程圖。
圖1中示出多媒體數(shù)據(jù)可存在的各種形式及包含例如圖形10、靜止圖象12、視頻14、影片16、音樂18、講演20、聲音22與其它媒體24的多個出現(xiàn)的示例。這多個出現(xiàn)了不同地存儲,不同地編碼,不同地傳輸,存在在不同的介質上,或者是用不同技術產(chǎn)生的。多媒體數(shù)據(jù)可存儲在一處或分布在全球上;例如,用戶所關注的數(shù)字化多媒體可存儲在自含的關系或面向對象的數(shù)據(jù)庫中,或在以不同技術實現(xiàn)并存儲在分散在全球并只能在因特網(wǎng)上才能訪問的不同專用計算機的分開的獨立數(shù)據(jù)庫中。當然,用戶所關注的非數(shù)字多媒體可類似地存儲在單一實體控制下的一個集合中,或廣泛地散布在不同實體控制下的不同集合中。不論多媒體信息的存在形式及它是如何存儲的,為了高效地搜索特定的多媒體數(shù)據(jù),用戶會希望將多媒體信息的集合看作單一的注冊表,如參照數(shù)字1所示。
我們已發(fā)現(xiàn)除了描述符之外還利用元描述符的多媒體信息檢索不僅在標識多媒體信息中高效并且還能標識以多種多樣不同方式表示的多媒體信息?!懊枋龇笔翘卣鞯谋硎荆疤卣鳌笔嵌嗝襟w信息的區(qū)別性特征,而“元描述符”是關于描述符的信息。元描述符不同于元數(shù)據(jù)但與元數(shù)據(jù)的一般概念相關,它是嵌入附加信息的著名方法。例如,文獻中的元數(shù)據(jù)可包含文獻中的圖象的格式,而數(shù)據(jù)庫中的元數(shù)據(jù)可包含關系中的屬性的值限制或統(tǒng)計信息。具體地,多媒體信息項的元描述符標識包含用于標識多媒體信息項的最有用的信息的該多媒體信息項的描述符的部分。元描述符的概念是基于給定的多媒體信息項最有資格知道用什么來描述它最好,及指示這一信息極大地增進基于內(nèi)容的檢索的前提的。有利地,由于元描述符的大小通常較小,元描述符使計算機化搜索多媒體信息能更快地完成,并且由于消除了不大相關的信息而更高效。
雖然許多多媒體檢索技術適用于采用元描述符,采用元描述符搜索多媒體信息的較佳技術為情況搜索或仿效實例查詢。在示例性圖象的仿效實例查詢中,指定特定的靜止圖象作為查詢該注冊表的基礎。查詢是由作為人類用戶或自動化過程的查詢的發(fā)動者指定的,或由在檢索進程中使用的檢索算法指定的。查詢是根據(jù)在注冊表中的多媒體信息的元描述符中指示為重要的一或多種特征構成的。一或多種特征的描述符是從查詢多媒體信息中抽取抽取的并與從注冊表多媒體信息中的描述符比較以獲得類似性測度,將它們用于選擇一或多個“匹配的”多媒體信息項。在一些實例中,注冊表多媒體信息的元描述符可立即指示明顯的及重大的內(nèi)容不同性,借此避免執(zhí)行描述符抽取及查詢與特定注冊表多媒體信息的特征比較的計算。如果用戶不是信息檢索專家,為了使用簡單起見,用在匹配的多媒體信息檢索中的一或多種特定特征最好是對用戶透明的。
圖2為展示用于生成注冊表多媒體信息的元描述符及用于執(zhí)行注冊表查詢的進程的流程圖。雖然元描述符可用于任何類型的多媒體信息,圖2中所示的實例是基于靜止圖象的以便說明。用基本步驟111-114說明生成元描述符的方法110,并用基本步驟131-137說明圖1中所示的多媒體注冊表的查詢方法130。雖然元描述符也可通過由人或半自動的技術的混合物形式化用戶輸入來生成,元描述符生成方法110為機器學習的不受監(jiān)視的或自動化的方法。查詢方法130除了查詢的用戶闡述之外最好是自動化的。描述符生成與多媒體信息檢索的各方面是眾所周知的并在下述各種出版物中描述,其中包含例如Yong Rui、Thomas S.Huang與Shih-Fu Chang的“圖象檢索過去、現(xiàn)在與未來”,可視通信與圖象表示期刊,10,1-23(1999);Sharad Mehrotra、Yong Rui、Michacl Ortega-Binderberger與Thrmas S.Huang的“在MARS中的圖象上支持基于內(nèi)容的查詢”,IEEE多媒體計算與系統(tǒng)國際會議會報,1997年6月3-6日,ChateauLaurier,Ottawa,Ortario,Canada,1997,632-633頁SharadMehrotra、Yong Rui、Kaushik Chakrabarti、Michael Ortega-Binderberger與Thomas S.Huang的“多媒體分析與檢索系統(tǒng)”,第三次信息檢索系統(tǒng)國際討論會會報,Como,Italy,1997年9月25-27日,39-45頁;及Patrick M.Kelly、Michael Cannon與Donnld R.Hush的“用圖象實例的查詢CANDID方法”,圖象與視頻數(shù)據(jù)庫III的存儲與檢索,SPIE卷2420,1995,238-247頁,這時通過引用將它們?nèi)慕Y合在此。
元描述符生成方法110中的第一步驟111為從多媒體(“MM”)信息中抽取描述符。描述符抽取算法與軟件以及索引算法與軟件是本技術中眾所周知的,并在上面的出版物中描述了它們的實例。除外任何相關標準施加的限制,可根據(jù)需要采用任何一種描述符抽取技術或其組合。通常,從靜止圖象抽取的描述符例如包含顏色、形狀、結構與草圖,但在任何一種實例中抽取的特定描述符取決于在自動化過程中所采用的軟件,用戶在手動過程的動作,或在混合過程中用戶與軟件的交互作用。自動化過程是有利的因為它們能處理注冊表中的大量多媒體信息而無須太多的人類干預。通常在靜止圖象上操作的自動化過程并不在語義級上操作,即它們并不在這些項中描述系列畫像,而是生成整個靜止圖象的或將該圖象分成的多個塊的顏色、形狀、結構與草圖的值。
下一步驟112為根據(jù)描述符將多媒體信息群集在一起,雖然如果愿意也可采用其它技術,在上面提到的出版物中描述了其實例。主要,群集是根據(jù)施加在描述符上的一定標準將來自大的混合數(shù)據(jù)集的類似的多媒體信息組合,對于小的相同內(nèi)容類型信息的注冊表不需要群集。一個群集是相似實體的集合,而來自不同群集的實體是不相似的。可以用受控制或不受控制的群集完成元描述符的抽取。給定早先已賦予標記或描述符的群集代表的集合,用受控制的群集抽取元描述符包含根據(jù)其特征群集多媒體內(nèi)容。然后賦予各群集中的圖象該群集的代表的標記或描述符。用不受控制的群集抽取元描述符包含根據(jù)各描述的特征群集多媒體內(nèi)容。例如,一個圖象集合具有根據(jù)它們的顏色特征的第一群集表示及具有根據(jù)它們的結構特征的第二群集表示。例如,根據(jù)用編程的尺度的各特征的群集的比較來計算群集是如何清楚地定義與小巧的,找出一種或少數(shù)特征在描述給定的圖象中勝過其它特征。例如,某一圖象根據(jù)顏色特征可能屬于群集組中非常小巧與清楚地定義的群集,但根據(jù)結構特征可能屬于群集組中的廣泛分散與重疊的群集。從而選擇顏色特征作為該圖象的元描述符,由于它在它們各自的特征空間中比結構特征更好地分類該圖象。
數(shù)學上,群集是測試空間中的點的聚集,使群集中任何兩點之間的距離小于該群集中的任何一點與不在其中的任何一點之間的距離。見諸如Anil K.Jain與Richard C.Dubes的“群集數(shù)據(jù)算法”Prentice Hall高級參考書系列,1988 1頁。群集分析是將對象分成在特定問題的角度上有意義的子集的過程。借此將這些對象組織成刻化所抽樣的總體的特征的高效表示。對象之間的關系是以接近度矩陣表示的,其中行與列對應于對象。如果將這些對象表征為模式、或d維量度空間中的點,接近度可以是點對之間的距離,諸如歐氏距離。通常,接近度矩陣是對群集算法的唯一輸入。群集在一起的對象可能是不同物種的植物,數(shù)字圖象中的象素或不同主題的文檔。群集分析在模式識別與圖象處理中找到若干應用。群集分析在包含受控制的學習的應用中及在人工智能中的輔助機器學習與知識表示中用于特征選擇。
從靜止圖象抽取的描述符通常是表示空間中的點的集合的多維數(shù)字的矢量。在簡單的情況中,群集算法比較2D空間中的點的集合中的距離來確定這些點的接近程度。在更高級的算法中,將這一概念擴展到多維空間。為了保證相容性,最好只將群集過程作用在用同一抽取算法處理的多媒體信息上。對于靜止圖象,群集是基于通常低級特征的相似性的;例如,可將呈現(xiàn)特定顏色與結構的清楚的模式(例如諸如從海灘風景生成的)而帶有草圖與形狀的其它不定結果的某些圖象認為是在同一群集中。不受控制的群集算法通常交互式工作,求精它們的結果直到達到用戶規(guī)定的閾值點為止。
下一步驟113為將元描述符賦予各群集。例如,當只為顏色形成模式時,將100%顏色的元描述符賦予群集。當只為草圖形成模式時,這可預期用于單色工程制圖,例如,可將100%草圖的元描述符賦予群集。對于前面的例子中只為特定的顏色與結構形成清楚的模式的靜止圖象的特定群集,則將50%顏色與50%結構的元描述符賦予群集。如果希望過程自動化,可用根據(jù)來自帶多媒體信息的過去的經(jīng)驗的統(tǒng)計信息的直觀規(guī)則賦予權重。作為替代,如果愿意,可以手動或與人交互作用的半自動方式賦予元描述符。
元描述符可采用對程序員方便的任何形式。在一種特別緊致的形式中,元描述符為二進制矢量X,給定了該多媒體內(nèi)容類別的固定數(shù)目的有序的特征,各位Xi表示特征的相關性(Xi第i特征是相關的)。在靜止圖象的情況中,適用的矢量為四位矢量,其中二進制1或0分別表示描述多媒體信息的顏式、形狀、結構與草圖的重要性或無關性。如果在特定靜止圖象中只有顏色是重要的,適當?shù)脑枋龇麨?000。
能賦予特定權重的一種符號利用加權矢量X,其中給定了該類別的多媒體內(nèi)容的固定數(shù)目的有序的特征,矢量的各元素Xi表示賦予第i特征的權重。如果說顏色與草圖都重要但具有不同的權重,這一類型的適當元描述符為“70,0,0,30”,表示顏色具有70%權重而草圖具有30%權重。
另一種形式是串符號,它不僅能處理不同權重也能處理不同抽取算法與將靜止圖象分成多塊。此外,串表示允許以后在元描述符中考慮新特征。在串符號中,給定按照預定義的標準符號的一組特征,串中的各字符或字符群表示特征的相關性。例如,考慮四種有效顏色描述符類型的組(I)RGB顏色空間中整個圖象的單一直方圖;(2)分成5×5格的RGB顏色空間中的圖象的25個直方圖,所得出的25個塊中的各個用一個直方圖表示;(3)YUV彩色空間中的整個圖象的直方圖;以及(4)分成5×5格的YUV彩色空間中的圖象的25個直方圖,所得出的25塊中的每一個用一個直方圖表示。假定這些描述符類型是從1至“n”用數(shù)字排序的,n為有效描述符類型的數(shù)目,這里為4。例如用第一與第四顏色描述符最佳描述的靜止圖象的適當?shù)拇枋龇麨椤癈214”,其含義為顏色特征是相關的(C)并且是從預定義的顏色表示的組中用兩種(2)顏色得出的,即來自預定義的顏色表示組中的第一與第四(14)顏色表示。串符號特別靈活,不僅允許標識不同的彩色空間(例如RGB與YUV)并且還允許不同地計算各彩色空間(例如,作為一塊、10塊的組、100塊的組、等)。串符號的擴展還能用適當?shù)念A定義代碼處理不同的抽取算法。
不同形式的元描述符可用于不同的多媒體信息,而在特定形式的元描述符中未提供的任何信息能用默認提供。例如,如果采用默認描述符抽取方法與默認彩色空間,二進制元描述符已經(jīng)足夠。
下一步驟114是根據(jù)群集信息將元描述符附加在多媒體信息上。各種不同的“附加”技術是眾所周知的并可根據(jù)媒體類型與訪問它的方式選用,并且在特定的元描述符數(shù)據(jù)庫中可使用不同的附加類型。描述符本身可以存在或不存在,然而如果它們不存在,系統(tǒng)必須知道如何用默認或該元描述符符號中的值計算它們。最好至少將元描述符與它們的附加數(shù)據(jù)存儲在存儲器120中,它可以是系統(tǒng)能訪問的任何類型的數(shù)據(jù)庫??蓪⒚枋龇鎯υ诖鎯ζ?20中或與從其抽取它們的多媒體信息一起存儲。多媒體信息本身位于注冊表中(圖1),它可以與存儲器120中的其它存儲空間一樣明確或者與因特網(wǎng)一樣分散,或甚至分散到包含諸如紙等非電子形式的存儲物。
一旦選擇了要出現(xiàn)在諸如圖象等的元描述符中的特征,如果愿意,元描述符可以允許存在來自預定義的集合中的其它特征。為了減少要測試的特征數(shù),適當時可使用從加標記的訓練集合中導出的一組結合規(guī)則。例如,特定的注冊表可包含不是用草圖很好地描述的多媒體信息,因此檢索系統(tǒng)不需要使用草圖。
抽取期間,如果愿意可組合來自多媒體內(nèi)容的特征,用較高級語義信息來確定元描述符中的值。例如,當多媒體內(nèi)容為圖象時,將來自圖象的特征與來自與該圖象關聯(lián)的文字說明的語義信息組合來確定該圖象的元描述符中的值。
圖3為使用各種附加技術的關系數(shù)據(jù)庫文件(任何其它類型的數(shù)據(jù)庫同樣適用)的簡單多媒體信息表。示例性地,該表具有五個字段,多媒體信息號字段MM_INFO_NO、描述符值字段DV、元描述符值字段MDV、多媒體文件源字段MM_SOURCE、及注釋字段COMMENT。MM_INFO_NO字段為主鍵字段。DV與MDV字段為用于包含例如串矢量的字符字段。MM_SOURCE字段為鏈接到或嵌入諸如數(shù)字化文檔、圖、畫面、聲音等OLE對象的OLE數(shù)據(jù)類型。COMMENT字段為摘要數(shù)據(jù)類型字段。假定將描述符嵌入多媒體信息中或檢索系統(tǒng)能從多媒體信息中抽取描述符,如果愿意可從表中省略DV字段。然而,在本地數(shù)據(jù)庫中具有描述符將使檢索系統(tǒng)能更快地操作。
用主鍵MM01標識的記錄包含描述符值DV01與元描述符值MDV01,并用OLE數(shù)據(jù)類型字段中的鏈路附加在存儲在FILE01中的數(shù)字化的靜止圖象上。用主鍵MM02標識的記錄包含元描述符值MDV02,并附加在用OLE數(shù)據(jù)類型字段中的鏈路附加在存儲在FILE02中的數(shù)字化靜止圖象上。描述符值是在查詢注冊表中的多媒體信息的過程中從FILE02的內(nèi)容中抽取的。用主鍵MM03標識的記錄包含圖象中的一塊多媒體信息的描述符值DV03與元描述符值MDV03,并用OLE數(shù)據(jù)類型字段中的鏈路附加在存儲在FILE03中的數(shù)字化靜止圖象上。用主鍵MM04標識的記錄包含同一圖象中的另一塊多媒體信息的描述符值DV04與元描述符值MDV04,并用OLE數(shù)據(jù)類型字段中的鏈路附加到存儲在FILE03中的數(shù)字化靜止圖象上。用主鍵MM05標識的記錄以OLE數(shù)據(jù)類型字段中的鏈路附加到存儲在FILE05中的數(shù)字化靜止圖象上,這一記錄的DV與MDV字段是空的,由于DV與MDV嵌入在鏈接文件中并能容易地從其讀出。用主鍵MM06標識的記錄以OLE數(shù)據(jù)類型字段中的URL鏈路附加到存儲在可在因特網(wǎng)上訪問的另一數(shù)據(jù)庫中的數(shù)字化靜止圖象上。這一記錄的DV與MDV字段是空的,由于DV與MDV嵌入在鏈接的文件中并能從其讀出。用主鍵MM07標識的記錄包含元描述符值MDV07,并連接在VCR磁帶上,這一記錄的DV字段是空的,由于該描述符值嵌入在VCR磁帶的垂直消隱間隔中并能從其讀出,這一記錄的MM_SOURCE字段是空的。除非檢索系統(tǒng)從元描述符檢測到在查詢多媒體與VCR磁帶之間存在內(nèi)容上的明顯與重大的不同,必須安裝該磁帶并必須在查詢期間從該VCR磁帶讀出描述符。用主鍵MM08標識的記錄包含描述符值DV08與元描述符值MDV08,并連接在印在照相紙上及存檔在抽屜08中的靜止圖象上。這一記錄的MM_SOURCE字段是空的。
用基本步驟131_137示出諸如圖1中所示的多媒體注冊表的查詢方法130。步驟131為用戶用任何傳統(tǒng)方法(這里是仿效實例查詢)構成查詢。在仿效實例查詢中,用戶選擇一多媒體信息項并希望從注冊表中找出所有匹配的多媒體信息項。在步驟132中,示例性地從存儲器120中檢索注冊表中的一個多媒體信息項的描述符與元描述符。在描述符的情況中,它們可替代地與該多媒體信息一起存儲并因此必須從該多媒體信息檢索,或者可能得不到它們而必須根據(jù)元描述符中的值重新抽取。如果注冊表多媒體信息項的描述符具有未曾早先在查詢130中處理過的類型(步驟133為是),便通過應用抽取方法與由該注冊表多媒體信息項的元描述符所指示的權重從該查詢多媒體項中抽取對應的描述符(步驟134)。然后在查詢描述符與注冊表多媒體信息項描述符之間進行比較(步驟135)。在注冊表多媒體信息項的元描述符中未給出權重的特征無須為元描述符抽取處理。對數(shù)據(jù)庫中所有群集重復這一比較(步驟136為否),并用本技術中眾所周知的適當裝置適當?shù)胤旨墎碜愿魅杭淖罱咏钠ヅ涞募?,并將其顯示給用戶(步驟137)。
圖4中示出包含人類專家的形式化用戶輸入的優(yōu)化元描述符的技術。為了描述清楚起見,假設簡單的靜止圖象注冊表。這些圖象通??捎蒙贁?shù)類別分類,例如人物、植物、風景與紡織品,并允許用諸如顏色、形狀、組織與草圖等少數(shù)方法的基于內(nèi)容的檢索。數(shù)據(jù)庫中給定的圖象最好用一或多種這些特征描述,而用其它特征描述則不良。例如人物最好用形狀描述,植物最好用顏色與結構描述,而風景最好只用結構描述。用下述人類輸入訓練具有這些特征的數(shù)據(jù)庫。在步驟301中,利用例如顏色、形狀、結構與草圖等所有特征執(zhí)行元描述符生成進程,圖2的步驟112-114說明這一進程。在步驟302中,用例如顏色、形狀、結構與草圖等所有特征執(zhí)行多媒體查詢進程,圖2的步驟131-136說明這一進程。在步驟303中,檢索系統(tǒng)分級這些結果并將其顯示給人類專家。從最接近的匹配中,用戶確定哪種方法最適合查詢圖象,或如果一種以上方法適合查詢圖象,用戶用適當?shù)臉藴蚀_定各適用特征的權重。用戶還指示要給予該適當特征的相同權重的最接近的匹配的集合中的所有其它圖象。在步驟306中,檢索系統(tǒng)根據(jù)人類專家的輸入例如通過賦予特征新的權重更新元描述符的值??梢圆捎酶鞣N迭代學習技術中任何一種。在訓練中完全沒有考慮過的圖象,可賦予其所有特征相等的權重。重復步驟301、302、303與306直到人類專家對結果滿意為止,此時優(yōu)化了元描述符而進程300結束。
雖然特定的標準化方案不是關鍵性的,當將元描述符包含進描述符、描述符方案與描述符定義語言的標準的系統(tǒng)中時,元描述符是最有效的。描述符是什么及它在多媒體信息檢索系統(tǒng)中如何起作用的說明性觀點在下述文件中提出國際標準化組織ISO/IECJTCI/SC29/WG11動畫與聲音的編碼,MEPG-7技術要求文件卷8,N2727號,1999年3月,及國際標準化組織ISO/IDC JTC1/SC29/WG11動畫與聲音編碼,MEPG-7;上下文、目的與技術路線圖,V.11、N2729號,1999年3月,通過引用將它們的全文結合在此。按照這些文件中表達的觀點,多媒體信息的搜索是通過比較“描述符”與它們的例示(“描述符值”)執(zhí)行的,描述符是多媒體信息的“特征”的表示而特征為向某人表明某一事物的多媒體信息的區(qū)別性特征。描述符定義特征表示的語法與語義。如果愿意,在需要訪問不同的相關要求時,可用若干描述符來表示單一特征。例如,顏色特征的可能描述符有彩色直方圖、頻率分量的平均值、運動范圍、名稱的正文、等。通過“描述方案”的機制組合描述符值來構成“描述”。具體地,描述方案(“DS”)規(guī)定其分量之間的關聯(lián)的結構與語義,其分量可以是描述符與描述方案兩者,而描述包含DS(結構)與描述該多媒體數(shù)據(jù)的描述符值(例示)的集合。描述定義語言(“DDL”)為允許建立新的描述方案與有可能描述符的語言。它還允許擴展與修改現(xiàn)有的描述方案。取自上面提到的MPEG-7技術要求文件V.8的表1(修改成包含草圖特征)示例特征與其描述符之間的區(qū)別。
表1
上面提到的MPEG-7技術要求文件中提出的描述符與描述方案的通用要求是受適當?shù)拿枋龇八鼈兊脑枋龇С值?。多種類型特征-適當?shù)拿枋龇c它們的元描述符用下述各種特征支持多媒體描述,諸如N維時空結構(如音樂小節(jié)的持續(xù)時間)、客觀特征(如酒店中的床位數(shù)、對象的顏色、對象的形狀、音調(diào)、等)、主觀特征(如某人如何好、快樂或胖,主題、風格、等)、制作特征(如諸如采集的日期、制作者、導演、表演者、角色、制作公司、制作歷史、任何非IPMP制作信息等關于文件建立的信息)、組織信息(如如何組成布景、編輯信息、用戶的偏愛、等)、及概念(如事件、活動)。多媒體資料的抽象級-支持在不同的抽象級上描述多媒體文獻的分層機制,它提供用戶對不同抽象級上的信息的需求,例如從子對象組成對象,逐個序列分析視頻中的運動,及視頻的曲線結構。交叉模態(tài)-支持允許根據(jù)視覺描述來檢索音頻數(shù)據(jù)及反過來的查詢的音、像或其它描述符及它們的元描述符(例如,當查詢?yōu)镻avarotti的聲音的摘錄而檢索的結果是Pavarotti正在唱歌及Pavarotti出場的電視剪輯)。多種描述-支持同一資料在其制作過程的若干階段上的多種描述的處理能力,以及應用在同一資料的多份拷貝上的描述。描述方案關聯(lián)一適當?shù)拿枋龇桨副磉_描述符與它們的元描述符之間的關聯(lián)以便能將它們用在一種以上的描述方案中。支持以不同的描述方案編碼描述符與它們的元描述符之間的等效關聯(lián)的能力。描述符優(yōu)先級-描述方案最好支持描述符與它們的元描述符的優(yōu)先級化以便可以更高效地處理查詢。優(yōu)先極可反映信任度或可靠性級。描述符分層結構-適當?shù)拿枋龇桨钢С植煌枋龇c它們的元描述符的分層表示以便在N級描述符補充(N-1)級描述符時可在接連的級中更高效地處理查詢。描述符可量測性-適當?shù)拿枋龇桨钢С钟盟鼈兊脑枋龇闪繙y的描述符以便在接連的描述層中更高效地處理查詢。時間范圍的描述-支持不同的時間范圍的描述符與它們的元描述符的關聯(lián),分層地(在全體數(shù)據(jù)或其時間子集上將描述符與它們的元描述符關聯(lián))以及順序地(在相繼的時段上將描述符與它們的元描述符接連地關聯(lián))兩者。直接數(shù)據(jù)操作-支持作為直接引用數(shù)據(jù)的柄工作的描述符與它們的元描述符,以便能操作多媒體資料?;谡牡拿枋稣Z言-適當?shù)拿枋龇c它們的元描述符指定用在描述中的語言并支持所有自然語言。正文描述中的翻譯-適當?shù)恼拿枋鎏峁┌g成若干不同語言的方法,以便傳遞不同語言中的描述之間的關系。
適當?shù)拿枋龇c它們的元描述符支持上面提到的MPEG-7技術要求文件中所提出的對描述符與描述方案的功能要求。檢索有效性-支持多媒體資料的有效檢索。檢索效率-支持多媒體資料的高效檢索?;谙嗨菩缘臋z索-支持允許用與查詢的相似性程度排列數(shù)據(jù)庫內(nèi)容次序的描述。關聯(lián)的信息-支持其它信息與數(shù)據(jù)的關聯(lián)。流送與存儲的描述-支持流送的(與內(nèi)容同步)及非流送的數(shù)據(jù)描述兩者。分布式多媒體數(shù)據(jù)庫-支持分布式數(shù)據(jù)庫中的多媒體數(shù)據(jù)的同時與透明檢索。參照模擬數(shù)據(jù)-支持參數(shù)與描述模擬格式的多媒體文獻的能力(例如,提供對VHS磁帶中的序列的時間參照)。交互式查詢-支持允許交互式查詢的機制。鏈接-支持允許空間與時間上定位源數(shù)據(jù)的機制,包含對相關信息的鏈路。相關的信息的優(yōu)先級化-支持在上面鏈接條下提到的允許相關信息的優(yōu)先級化的機制。瀏覽-支持為了協(xié)助用戶克服對信息的結構與/或類型的不熟悉性或弄清楚他們的不確定的需要而允許預檢信息內(nèi)容的描述。相關關系-支持描述的分量之間的關系。交互性支持-支持允許規(guī)定關于描述的交互性的措施(例如,關于廣播事件的電信投票)。知識產(chǎn)權信息-支持包含關于D、DS與描述的版權、許可證與證明信息。
適當?shù)拿枋龇c它們的元描述符支持上面提到的MPEG-7技術要求文件中提出的描述符與描述方案的視覺特定的要求。特征類型-支持允許下述特征(主要涉及查詢中使用的信息類型)的視覺描述顏色、視覺對象、結構、草圖、形狀、靜止與移動圖象(如,略圖)、容積、空間關系、運動、變形、視覺對象源及其特征(如源對象、源事件、源屬性、事件、事件屬性、及典型的相關場景與模型(如,MPEG-4 SNHC)。使用描述的數(shù)據(jù)形象化-支持帶有提高的形象化方面的能力的多媒體數(shù)據(jù)描述范圍(允許索引的數(shù)據(jù)的或多或少的粗略的形象化)。視覺數(shù)據(jù)格式-支持下述視覺數(shù)據(jù)格式的描述數(shù)字電視與影片,諸如MPEG-1,MPEG-2或MPEG-4;模擬電視與影片;諸如JPEG、尋呼機或其它格式的電子產(chǎn)品中的靜止畫面;圖形,諸如CAD、3D模型、特別是VRML;以及與視頻相關的組合數(shù)據(jù)。尚待定義的其它視覺數(shù)據(jù)格式的描述也有可能。視覺數(shù)據(jù)類-支持專門應用于下述數(shù)據(jù)類的描述自然視頻、靜止畫面、圖形、動畫(2-D)、三維模型與組合信息。
適當?shù)拿枋龇c它們的元描述符支持上面的MPEG-7技術要求文件中提出的描述符與描述方案的音頻特定的要求。特征類型-音頻描述允許下述特征(主要關于查詢中使用的信息類型)頻率輪廓(總趨勢、旋律輪廓)、音頻對象、音色、和聲、頻率分布、幅度包絡、時間結構(包含節(jié)奏)、結構內(nèi)容(典型地語音或歌詞)聲音逼近(例如通過哼旋律或轟嗚聲音效果發(fā)出聲音梗概的聲音)、樣品聲音(典型的用實例查詢)、空間結構(可用于多聲道源、立體聲、5.1-聲道、及各具有特定映象的立體聲聲音)、聲源及其特征(如源對象、源事件、源屬性、事件、事件屬性、與典型的相關場景)、以及模型(如MPEG-4 SAOL)。使用描述的數(shù)據(jù)聲音化-支持帶有增進的聲音化方面的能力的多媒體數(shù)據(jù)描述范圍。聽覺數(shù)據(jù)格式-支持下述聽覺數(shù)據(jù)類型的描述數(shù)據(jù)音頻(如MPEG-1音頻、密致盤)、模擬音頻(如乙烯基唱片、磁帶介質)、包含通用MIDI與卡拉OK格式的MIDI、基于模型的音頻(如MPEG-4的結構化音頻管弦樂隊語言-SAOL)、以及制作數(shù)據(jù)。聽覺數(shù)據(jù)類-支持專用于下述聽覺數(shù)據(jù)的子類的描述聲帶(自然音頻場景)、音樂、原子聲音效果(如拍打)、語音、符號音頻表示(MIDI、SNHC音頻)、以及混合信息(包含效果)。
適當?shù)拿枋龇c它們的元描述符支持上面提到的MPEG-7要求文件中提出的描述符與描述方案的編碼要求。描述高效表示-支持數(shù)據(jù)描述的高效表示。描述抽取-元描述符支持按照若干廣泛使用的格式的從未壓縮與壓縮數(shù)據(jù)容易地抽取的描述符與描述方案的使用。對信息錯誤與丟失的堅實性-支持在傳輸錯誤的情況中保證系統(tǒng)的優(yōu)美的表現(xiàn)的機制。
雖然在上面提到的MPEG-7技術要求文件中未提出描述符與描述方案的正文特定的要求,假設正文描述與界面允許查詢根據(jù)音像描述檢索正文數(shù)據(jù)及反過來,以及對于只有正文的文件的正文描述與包含正文的組合文件的正文描述是相同的,則適當?shù)拿枋龇c它們的元描述符支持多媒體內(nèi)容包含或參照除了音像信息之外的正文的能力。
雖然在使用元描述符的某些情況中,搜索引擎或過濾器代理(用戶方)可能必須知道元描述生成進程所采用的精確特征抽取算法,在其它情況中在描述生成進程中用于特征抽取的特定算法是與無描述生成進程無關的。因此,元描述進程能提供特征抽取中的技術發(fā)展并鼓勵競爭性開發(fā)。
這時提出的本發(fā)明及其應用的描述是示例性的而非旨的限制下面的權利要求中所提出的發(fā)明范圍。這里公開的實施例的改變與修正是可能的,并且對于熟悉本技術的人員,這些實施例的各種元素的實際替代品與等效物是已知的??梢宰鞒鲞@里公開的實施例的這些與其它改變與修正而不脫離下面的權利要求中所提出的發(fā)明范圍與精神。
權利要求
1.一種表示多種多媒體信息(10、12、14、16、18、20、22、24)的方法,包括獲取(111)多媒體信息的描述符;生成(113)這些描述符的至少一個元描述符;以及將該至少一個元描述符附加(114)在該多媒體信息上。
2.權利要求1的方法,其中該多媒體信息集體地具有各種內(nèi)容類型,進一步包括生成(112)描述符的群集,其中該元描述符生成步驟包括生成(113)群集的元描述符;以及該元描述符附加步驟包括分別將群集的元描述符附加(114)到用群集中的描述符所描述的多媒體信息項上。
3.權利要求2中的方法,其中該元描述符生成步驟包括為各群集生成指示其中的描述符的相關性的各自的數(shù)據(jù)元素組。
4.權利要求3中的方法,其中至少一些描述符為屬于多媒體內(nèi)容類別的多媒體信息項的特征的表示,這些特征構成特征的有序集合,其中包含顏色、結構、形狀與草圖,并且該多媒體內(nèi)容類別是靜止圖象;及該元描述符生成步驟包括為各群集生成指示其中的描述符的相關性的各自的二進制矢量。
5.權利要求3中的方法,其中至少一些描述符是屬于一種多媒體內(nèi)容類別的多媒體信息項的特征的表示,這些特征構成特征的有序集合,其中包含顏色、結構、形狀與草圖,以及該多媒體內(nèi)容類別是靜止圖象;及該元描述符生成步驟包括為各群集生成指示其中的描述符的各自的權重的各自的權重值群。
6.權利要求5中的方法,其中至少一些描述符是屬于一種多媒體內(nèi)容類別的多媒體信息項的特征的表示,這些特征構成特征的有序集合,其中包含顏色、結構、形狀與草圖,并且該多媒體內(nèi)容類別為靜止圖象;以及該元描述符生成步驟包括為各群集生成標識具有預定的表示類型的集合的至少一種相關特征的各自的字符串,及至少這些表示類型之一來自該預定的表示類型的集合。
7.權利要求2中的方法,還包括將這些描述符指向多媒體信息。
8.權利要求1中的方法,其中該元描述符生成步驟包括生成一組指示其中的描述符的相關性的數(shù)據(jù)元素。
9.權利要求8中的方法,其中至少一些描述符是屬于一種多媒體內(nèi)容類別的多媒體信息項的特征的表示,這些特征構成特征的有序集合,其中包含顏色、結構、形狀與草圖,并且該多媒體內(nèi)容類別為靜止圖象;以及該元描述符生成步驟包括生成指示其中的描述符的相關性的二進制矢量。
10.權利要求8中的方法,其中至少一些描述符是屬于一種多媒體內(nèi)容類別的多媒體信息項的特征的表示,這些特征構成特征的有序集合,其中包含顏色、結構、形狀與草圖,并且該多媒體內(nèi)容類別是靜止圖象;以及該元描述符生成步驟包括生成一組指示其中的描述符的權重的權重值。
11.權利要求8中的方法,其中至少一些描述符是屬于一種類別的多媒體內(nèi)容的多媒體信息項的特征的表示,這些特征構成特征的有序集合,其中包含顏色、結構、形狀與草圖,并且該多媒體內(nèi)容類別是靜止圖象;以及該元描述符生成步驟包括生成標識具有預定的表示類型的集合的至少一種相關特征及來自該預定的表示類型的集合的至少一種表示類型的字符串。
12.一種利用查詢多媒體信息項在使用描述符描述的注冊表中搜索多媒體信息(10、12、14、16、18、20、22、24)的方法,包括獲取(132)注冊表描述符的元描述符;選擇(131)查詢多媒體信息;根據(jù)元描述符從查詢多媒體信息抽取(134)至少一個查詢描述符以獲得至少一個查詢描述符;將該查詢描述符與注冊表描述符比較;以及按照比較步驟排定注冊表中至少一些多媒體信息的次序(137)。
13.權利要求12中的方法,其中這些注冊表描述符是多個不同描述符類型的實例,及其中從查詢多媒體信息抽取至少一個描述符的步驟包括根據(jù)元描述符抽取(133、134)多個描述以獲取多個查詢描述符,這些查詢描述符是描述符類型的各自的實例;以及該比較步驟包括將查詢描述符與具有相同描述符類型的各自的注冊表描述符比較(135、136)。
14.一種從注冊表中檢索多媒體信息(10、12、14、16、18、20、22、24)的方法,包括從注冊表中的多媒體信息抽取(111)注冊表描述符;生成(112)注冊表描述符的群集;將注冊表描述符指向(111)注冊表中的多媒體信息;生成(113)群集的元描述符;將群集的元描述符附加(114)到群集中各自的多媒體信息上;選擇(131)查詢多媒體信息;根據(jù)元描述符從查詢多媒體信息中抽取(134)至少一個描述符以獲取至少一個查詢描述符;將查詢描述符與注冊表描述符比較(135);以及按照比較步驟排序(137)注冊表中至少一些多媒體信息。
15.權利要求14中的方法,其中這些注冊表描述符是多個不同描述符的實例,及其中從查詢多媒體信息抽取至少一個描述符的步驟包括根據(jù)元描述符抽取(133、134)多個描述符以獲取多個查詢描述符,這些查詢描述符是描述符類型的各個的實例;以及該比較步驟包括將查詢描述符與具有相同描述符類型的各自的注冊表描述符比較(135、136)。
16.一種用于表示關于作為屬于特定類別(10、12、14、16、18、20、22、24)的多媒體內(nèi)容的多媒體信息項的特征的表示的多個描述符的信息的數(shù)據(jù)結構,包括指示在描述多媒體信息項中的這些描述符的相關性的多個數(shù)據(jù)元素。
17.權利要求16中的數(shù)據(jù)結構,其中多媒體內(nèi)容的類別是靜止圖象(12);這些特征是包括顏色、結構、形狀與草圖的特征有序集合;以及這些數(shù)據(jù)元素是二進制矢量的位。
18.權利要求16中的數(shù)據(jù)結構,其中多媒體內(nèi)容的類別是靜止圖象(12);這些特征是包括顏色、結構、形狀與草圖的特征的有序集合;以及這些數(shù)據(jù)元素是權重。
19.權利要求16中的數(shù)據(jù)結構,其中多媒體內(nèi)容的類別是靜止圖象(12);這些特征是包括顏色、結構、形狀與草圖的特征的有序集合;以及這些數(shù)據(jù)元素是一串字符。
20.權利要求19中的數(shù)據(jù)結構,其中該串包括標識相關特征的第一字符、該相關特征具有預定的表示類型的集合;第二字符表示利用來自預定的表示類型的集合的多少表示類型來表示該相關特征;以及多個第三字符標識來自該預定的表示類型的集合的表示類型的特定類型。
全文摘要
除了描述符之外用元描述符執(zhí)行多媒體信息檢索?!懊枋龇睘樘卣鞯谋硎?、“特征”為多媒體信息的區(qū)別特征,而“元描述符”為關于描述符的信息。元描述符是通過從多媒體信息中抽取(111)描述符,根據(jù)描述符群集(112)多媒體信息,賦予(113)各群集元描述符,及將元描述符附加(114)在注冊表中的多媒體信息上,而為注冊表中的多媒體信息(10、12、14、16、18、20、22、24)生成的。通過使用仿效實例查詢形式的查詢(131)獲取(132)注冊表多媒體項的描述符與元描述符,如果以前未曾生成相同類型的查詢描述符則生成(133、134)查詢描述符,比較(135)注冊表多媒體項與查詢多媒體項的描述符,及分級與顯示(136、137)結果,來查詢多媒體注冊表。
文檔編號H04N5/76GK1524235SQ00801913
公開日2004年8月25日 申請日期2000年6月29日 優(yōu)先權日1999年7月2日
發(fā)明者G·韋迪林加姆, G 韋迪林加姆, M·阿布德爾-莫塔萊布, 嫉露 莫塔萊布 申請人:皇家菲利浦電子有限公司