用于文件的分類的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及用于文件或文件的部分的分類的方法和裝置。更具體地,描述了允許在時間域和結(jié)構(gòu)域中對文件或文件的部分進行分類的方法和裝置。
【背景技術(shù)】
[0002]在數(shù)字媒體內(nèi)容的產(chǎn)生期間,生成各種文件,例如內(nèi)容媒體文件和元數(shù)據(jù)文件。這些文件一般具有多個時間和/或結(jié)構(gòu)關(guān)系。
[0003]僅具有結(jié)構(gòu)信息的文件的示例是電影制作腳本。這樣的電影制作腳本包含關(guān)于電影的場景和鏡頭序列的結(jié)構(gòu)信息,但一般沒有可利用的時間信息。相反,記錄的攝像機拍攝(take)的媒體文件僅包含時間參考,即當已經(jīng)拍下拍攝時的信息,但典型地沒有具有結(jié)構(gòu)參考的可利用的元數(shù)據(jù)。可以提供此信息例如作為一天中的時間和/或作為SMPTE時間碼(SMPTE:電影與電視工程師協(xié)會)。包含結(jié)構(gòu)和時間信息的文件的示例是記錄報告。這樣的記錄報告包含關(guān)于當已經(jīng)拍下場景的一個或多個鏡頭的拍攝時的信息。
[0004]典型地,單獨拍攝的每個文件僅包含以各種不同格式表示的有限程度的信息。例如,電影腳本可以是簡單的文本文件(doc、pdf、...),媒體內(nèi)容通常被提供作為媒體文件(av1、mpg、mov、...),并且記錄報告可以是采用標記格式的文件(sgml、xml、...)。通常,專用的解釋器(interpreter)能夠顯示每個文件的內(nèi)容。然而,檢測任意文件的內(nèi)部結(jié)構(gòu)并且在較高級別上下文中對其進行分類是非常困難的。這是一方面由于文件的不同表示,另一方面由于文件或文件的部分可能與其有關(guān)系的多個域的不同級別。例如,記錄報告可以是手動編輯文件或者由例如攝像機、拍板(clapper boards)或平板這樣的電子設(shè)備以及對應(yīng)的應(yīng)用自動生成的文件。
[0005]除其它外,US 2010/0042650公開了一種視頻編輯應(yīng)用。由解析器選擇并且解析包含與視頻剪輯相關(guān)聯(lián)的元數(shù)據(jù)的文件。在存儲器中存儲由解析器提取的元數(shù)據(jù)。解析器是僅能夠處理XML文件的XML解析器。
[0006]因此,期望具有一種用于在結(jié)構(gòu)域和時間域中對內(nèi)容和數(shù)據(jù)(元數(shù)據(jù))文件進行分類、排序和鏈接的、更通用的并且面向未來的解決方案。
【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的是提供一種用于在結(jié)構(gòu)域和時間域中對文件或文件的部分進行分類的解決方案。
[0008]根據(jù)本發(fā)明的一個方面,一種用于文件或文件的部分的分類的方法包括以下步驟:
[0009]-獲取文件;
[0010]-獲取對于文件的轉(zhuǎn)換腳本,該轉(zhuǎn)換腳本使得能夠?qū)⑽募膬?nèi)容映射到僅包含適用于文件的分類的信息的文件的表示;
[0011]-使用轉(zhuǎn)換腳本對文件或文件的部分執(zhí)行語法分析來生成文件的表示;
[0012]-對文件的表示執(zhí)行語義分析;以及
[0013]-輸出從語義分析得到的結(jié)構(gòu)分類和/或時間分類。
[0014]相應(yīng)地,一種被配置為執(zhí)行文件或文件的部分的分類的裝置包括:
[0015]-第一輸入端,其被配置為獲取文件;
[0016]-第二輸入端,其被配置為獲取對于文件的轉(zhuǎn)換腳本,該轉(zhuǎn)換腳本使得能夠?qū)⑽募膬?nèi)容映射到僅包含適用于文件的分類的信息的文件的表示;
[0017]-語法分析單元,其被配置為使用轉(zhuǎn)換腳本對文件或文件的部分執(zhí)行語法分析來生成文件的表示;
[0018]-語義分析單元,其被配置為對文件的表示執(zhí)行語義分析;以及
[0019]-輸出端,其被配置為輸出從語義分析得到的結(jié)構(gòu)分類和/或時間分類。
[0020]類似地,一種計算機可讀存儲介質(zhì)存儲有使能文件或文件的部分的分類的指令,該指令在由計算機運行時導致計算機:
[0021]-獲取文件;
[0022]-獲取對于文件的轉(zhuǎn)換腳本,該轉(zhuǎn)換腳本使得能夠?qū)⑽募膬?nèi)容映射到僅包含適用于文件的分類的信息的文件的表示;
[0023]-使用轉(zhuǎn)換腳本對文件或文件的部分執(zhí)行語法分析來生成文件的表示;
[0024]-對文件的表示執(zhí)行語義分析;以及
[0025]-輸出從語義分析得到的結(jié)構(gòu)分類和/或時間分類。
[0026]本發(fā)明提出在結(jié)構(gòu)域和時間域中對文件或文件的部分進行分類。要被分類的文件例如是采用各種格式的數(shù)據(jù)文件、元數(shù)據(jù)文件或多媒體文件,諸如文本文件、a/v文件或采用標記格式的文件。分類取決于被包含在文件的內(nèi)容中的信息??膳渲谜Z法分析單元檢測任意文件的類型,并且在轉(zhuǎn)換腳本的幫助下將文件的內(nèi)容映射到僅包含用于分類的信息的內(nèi)部表示。映射有利地使用文本映射、視覺內(nèi)容到文本的映射、以及從二進制文件中數(shù)據(jù)提取中的至少一個。
[0027]在時間域和/或結(jié)構(gòu)域中文件或這種文件的部分的分類和排序使得能夠自動檢測和建立文件和所包含的信息之間的關(guān)系??膳渲谜Z法分析單元允許在不改變語義分析單元的情況下的多個文件格式的處理。對于每個文件類型,轉(zhuǎn)換腳本將輸入文件映射到內(nèi)部表示。將輸入文件的內(nèi)容映射到簡化的內(nèi)部表示具有語義分析單元可以僅致力于分類所需的信息的優(yōu)點。
[0028]為了更好的理解,現(xiàn)將在參照附圖的以下描述中更詳細地說明本發(fā)明??梢岳斫獾氖?,正如在所附權(quán)利要求中所限定的,本發(fā)明不限于此示例性實施例,并且在不脫離本發(fā)明的范圍的情況下還可以方便地組合和/修改指定的特征。
【附圖說明】
[0029]圖1描述了根據(jù)本發(fā)明的分類單元;
[0030]圖2示出了在時間域和結(jié)構(gòu)域中文件的分類;
[0031]圖3描述了僅在結(jié)構(gòu)域中文件的分類;
[0032]圖4示出了僅在時間域中文件的分類;
[0033]圖5示意性地示出了用于文件的分類的根據(jù)本發(fā)明的方法;以及
[0034]圖6更詳細地描述了圖1的分類單元。
【具體實施方式】
[0035]圖1描述了實現(xiàn)根據(jù)本發(fā)明的解決方案的分類單元10。為了檢測和分類文件的內(nèi)容和結(jié)構(gòu),語法分析單元11將一組配置文件或映射腳本12中的至少一個應(yīng)用于例如數(shù)據(jù)文件、元數(shù)據(jù)文件或媒體文件這樣的文件13,以便產(chǎn)生時間域和/或結(jié)構(gòu)域中的文件的內(nèi)部表示。輸入文件13的內(nèi)容被映射到僅包含在時間域和/或結(jié)構(gòu)域中分類文件13所必要的信息的內(nèi)部表示。然后,語義分析單元14生成輸入文件的內(nèi)容的結(jié)構(gòu)分類15和時間分類16。通過例如簡單的文本映射、可視內(nèi)容到文本的映射(OCR)、從二進制文件中數(shù)據(jù)提取等來產(chǎn)生內(nèi)部表示。映射腳本12負責將輸入文件13的語法映射到內(nèi)部表示的語法。
[0036]圖2說明了對于文件包含與時間域相關(guān)的信息以及與結(jié)構(gòu)域相關(guān)的信息的情況下分類單元10的行為。在該圖中,被分析的文件13是記錄報