国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      管理記錄格式信息的制作方法

      文檔序號(hào):6351818閱讀:126來源:國(guó)知局
      專利名稱:管理記錄格式信息的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及對(duì)記錄格式信息進(jìn)行管理。
      背景技術(shù)
      組織管理來自多個(gè)不同系統(tǒng)的數(shù)據(jù)。系統(tǒng)可能以該系統(tǒng)固有的(native to)格式 來產(chǎn)生數(shù)據(jù)的數(shù)據(jù)集。其它系統(tǒng)使用標(biāo)準(zhǔn)的格式(諸如逗號(hào)分隔的文件或者XML文檔)產(chǎn)生數(shù)據(jù)集。通常,即使當(dāng)數(shù)據(jù)集的格式是標(biāo)準(zhǔn)的,該數(shù)據(jù)集內(nèi)的記錄和字段對(duì)于系統(tǒng)也是特定的。一些系統(tǒng)通過導(dǎo)入機(jī)制接受由其它系統(tǒng)提供的數(shù)據(jù)集。該導(dǎo)入將外部數(shù)據(jù)集轉(zhuǎn)換為系統(tǒng)固有的格式處理。其它系統(tǒng)創(chuàng)建足以允許系統(tǒng)處理外部數(shù)據(jù)集而不一定需要轉(zhuǎn)換地描述數(shù)據(jù)集的記錄格式。

      發(fā)明內(nèi)容
      在一個(gè)方面,一般地說,一種基于數(shù)據(jù)存儲(chǔ)系統(tǒng)中的格式信息準(zhǔn)備用于在數(shù)據(jù)處理系統(tǒng)中處理的數(shù)據(jù)的方法。通過輸入設(shè)備或者端口接收數(shù)據(jù),所述數(shù)據(jù)包括記錄,每個(gè)記錄具有用于相應(yīng)字段的一個(gè)或多個(gè)值。確定用于在數(shù)據(jù)處理系統(tǒng)中處理數(shù)據(jù)的目標(biāo)記錄格式。根據(jù)多個(gè)驗(yàn)證測(cè)試來分析數(shù)據(jù)中的多個(gè)記錄,以便確定該數(shù)據(jù)是否與在數(shù)據(jù)存儲(chǔ)系統(tǒng)中存儲(chǔ)的一個(gè)或多個(gè)候選記錄格式匹配。每個(gè)候選記錄格式指定一個(gè)或多個(gè)字段的編組中的每個(gè)字段的格式,并且每個(gè)驗(yàn)證測(cè)試對(duì)應(yīng)于在數(shù)據(jù)存儲(chǔ)系統(tǒng)中存儲(chǔ)的至少一個(gè)候選記錄格式。響應(yīng)于接收到驗(yàn)證測(cè)試的結(jié)果,基于以下至少一個(gè)將目標(biāo)記錄格式與數(shù)據(jù)相關(guān)聯(lián)所選擇的候選記錄格式,其中根據(jù)與所選擇的候選記錄格式對(duì)應(yīng)的至少一個(gè)驗(yàn)證測(cè)試確定至少部分匹配;根據(jù)與數(shù)據(jù)相關(guān)聯(lián)的已知的數(shù)據(jù)類型選擇的解析器所生成的解析的記錄格式;以及從對(duì)數(shù)據(jù)的特征的分析生成的構(gòu)建的記錄格式。各個(gè)方面可以包括以下特征中的一個(gè)或多個(gè)。響應(yīng)于沒有驗(yàn)證測(cè)試確定與一個(gè)或多個(gè)候選記錄格式至少部分匹配,基于解析的記錄格式將目標(biāo)記錄格式與數(shù)據(jù)相關(guān)聯(lián)??梢曰跀?shù)據(jù)的文件類型得知與數(shù)據(jù)相關(guān)聯(lián)的已知的數(shù)據(jù)類型。數(shù)據(jù)的文件類型可以對(duì)應(yīng)于文件擴(kuò)展名。響應(yīng)于以下情形,基于構(gòu)建的記錄格式將目標(biāo)記錄格式與數(shù)據(jù)相關(guān)聯(lián)沒有驗(yàn)證測(cè)試確定與一個(gè)或多個(gè)候選記錄格式至少部分匹配,并且沒有與數(shù)據(jù)相關(guān)聯(lián)的已知的數(shù)據(jù)類型。從對(duì)數(shù)據(jù)的特征的分析生成構(gòu)建的記錄格式可以包括辨識(shí)數(shù)據(jù)中的標(biāo)簽并且基于辨識(shí)的標(biāo)簽來解析數(shù)據(jù)以確定多個(gè)記錄。從對(duì)數(shù)據(jù)的特征的分析生成構(gòu)建的記錄格式可以包括辨識(shí)數(shù)據(jù)中的定界符(delimiter)并且基于辨識(shí)的定界符來解析數(shù)據(jù)以確定多個(gè)記錄。從對(duì)數(shù)據(jù)的特征的分析生成構(gòu)建的記錄格式可以包括辨識(shí)數(shù)據(jù)處于實(shí)質(zhì)上二進(jìn)制形式而沒有指示多個(gè)記錄的值的標(biāo)簽或定界符;并且從用戶接口接收一個(gè)或多個(gè)字段標(biāo)識(shí)符。根據(jù)與第一候選記錄格式對(duì)應(yīng)的多個(gè)驗(yàn)證測(cè)試中的第一驗(yàn)證測(cè)試分析數(shù)據(jù)中的多個(gè)記錄可以包括將第一候選記錄格式應(yīng)用到數(shù)據(jù),以確定每個(gè)字段的由第一候選記錄格式指定的格式的每個(gè)記錄的值。確定數(shù)據(jù)是否與第一候選記錄格式匹配可以包括根據(jù)第一驗(yàn)證測(cè)試來分析多個(gè)記錄的所確定的值以便確定有效值的數(shù)量是否大于預(yù)定閾值。根據(jù)第一驗(yàn)證測(cè)試分析多個(gè)記錄中的第一記錄的所確定的值可以包括對(duì)每個(gè)字段的每個(gè)所確定的值執(zhí)行對(duì)應(yīng)的字段測(cè)試。對(duì)第一字段的所確定的值執(zhí)行第一字段測(cè)試可以包括將所確定的值中的字符的數(shù)量與字符的預(yù)定數(shù)量進(jìn)行匹配。對(duì)第一字段的所確定的值執(zhí)行第一字段測(cè)試可以包括將確定的值與第一字段的多個(gè)預(yù)定的有效值之一進(jìn)行匹配。有效值的數(shù)量可以基于給定字段的所確定的值通過與給定字段對(duì)應(yīng)的字段測(cè)試的記錄的數(shù)量。在另一方面,一般地說,一種基于數(shù)據(jù)存儲(chǔ)系統(tǒng)中的格式信息準(zhǔn)備用于在數(shù)據(jù)處理系統(tǒng)中處理的數(shù)據(jù)的系統(tǒng)包括用于通過輸入設(shè)備或者端口接收數(shù)據(jù)的裝置,所述數(shù)據(jù) 包括記錄,每個(gè)記錄具有用于相應(yīng)字段的一個(gè)或多個(gè)值;以及用于確定用來在數(shù)據(jù)處理系統(tǒng)中處理數(shù)據(jù)的目標(biāo)記錄格式的裝置。用于確定目標(biāo)記錄格式的裝置可以被配置為根據(jù)多個(gè)驗(yàn)證測(cè)試來分析數(shù)據(jù)中的多個(gè)記錄,以便確定該數(shù)據(jù)是否與在數(shù)據(jù)存儲(chǔ)系統(tǒng)中存儲(chǔ)的一個(gè)或多個(gè)候選記錄格式匹配,每個(gè)候選記錄格式指定一個(gè)或多個(gè)字段的編組的每個(gè)字段的格式,并且每個(gè)驗(yàn)證測(cè)試對(duì)應(yīng)于在數(shù)據(jù)存儲(chǔ)系統(tǒng)中存儲(chǔ)的至少一個(gè)候選記錄格式;以及響應(yīng)于接收到驗(yàn)證測(cè)試的結(jié)果,基于以下至少一個(gè)將目標(biāo)記錄格式與數(shù)據(jù)相關(guān)聯(lián)所選擇的候選記錄格式,其中根據(jù)與所選擇的候選記錄格式對(duì)應(yīng)的至少一個(gè)驗(yàn)證測(cè)試確定至少部分匹配;根據(jù)與數(shù)據(jù)相關(guān)聯(lián)的已知的數(shù)據(jù)類型選擇的解析器所生成的解析的記錄格式;以及從對(duì)數(shù)據(jù)的特征的分析生成的構(gòu)建的記錄格式。在另一方面,一般地說,一種計(jì)算機(jī)可讀介質(zhì)存儲(chǔ)了計(jì)算機(jī)程序,該計(jì)算機(jī)程序用于基于數(shù)據(jù)存儲(chǔ)系統(tǒng)中的格式信息準(zhǔn)備用于在數(shù)據(jù)處理系統(tǒng)中處理的數(shù)據(jù)。該計(jì)算機(jī)程序包括使計(jì)算機(jī)執(zhí)行以下步驟的指令通過輸入設(shè)備或者端口接收數(shù)據(jù),所述數(shù)據(jù)包括記錄,每個(gè)記錄具有用于相應(yīng)字段的一個(gè)或多個(gè)值;以及確定用于在數(shù)據(jù)處理系統(tǒng)中處理數(shù)據(jù)的目標(biāo)記錄格式,包括根據(jù)多個(gè)驗(yàn)證測(cè)試來分析數(shù)據(jù)中的多個(gè)記錄,以便確定該數(shù)據(jù)是否與在數(shù)據(jù)存儲(chǔ)系統(tǒng)中存儲(chǔ)的一個(gè)或多個(gè)候選記錄格式匹配,每個(gè)候選記錄格式指定一個(gè)或多個(gè)字段的編組中的每個(gè)字段的格式,并且每個(gè)驗(yàn)證測(cè)試對(duì)應(yīng)于在數(shù)據(jù)存儲(chǔ)系統(tǒng)中存儲(chǔ)的至少一個(gè)候選記錄格式;以及響應(yīng)于接收到驗(yàn)證測(cè)試的結(jié)果,基于以下至少一個(gè)將目標(biāo)記錄 格式與數(shù)據(jù)相關(guān)聯(lián)所選擇的候選記錄格式,其中根據(jù)與所選擇的候選記錄格式對(duì)應(yīng)的至少一個(gè)驗(yàn)證測(cè)試確定至少部分匹配;根據(jù)與數(shù)據(jù)相關(guān)聯(lián)的已知的數(shù)據(jù)類型選擇的解析器所生成的解析的記錄格式;以及從對(duì)數(shù)據(jù)的特征的分析生成的構(gòu)建的記錄格式。本發(fā)明的其它特征和優(yōu)點(diǎn)將從以下的描述以及從權(quán)利要求書中變得明顯。


      圖I是執(zhí)行基于圖形的計(jì)算的系統(tǒng)的框圖。圖2是管理記錄格式信息的示例性過程的流程圖。圖3是示例性的預(yù)處理模塊的框圖。
      圖4是示出預(yù)處理模塊基于樣本數(shù)據(jù)確定記錄格式的示例性處理的框圖。圖5是示出預(yù)處理模塊基于樣本數(shù)據(jù)驗(yàn)證記錄格式的示例性處理的框圖。圖6是示出預(yù)處理模塊基于樣本數(shù)據(jù)識(shí)別現(xiàn)有的記錄格式的示例性處理的框圖。圖7是示出預(yù)處理模塊基于解析器(parser)生成記錄格式的示例性處理的框圖。圖8是管理記錄格式信息的示例性過程的流程圖。
      具體實(shí)施例方式圖I示出了其中可以使用記錄格式管理技術(shù)的示例性數(shù)據(jù)處理系統(tǒng)100。該系統(tǒng)100包括數(shù)據(jù)源102,數(shù)據(jù)源102可包括諸如存儲(chǔ)設(shè)備或者到在線數(shù)據(jù)流的連接之 類的一個(gè)或多個(gè)數(shù)據(jù)的源,其每一個(gè)可以以多種存儲(chǔ)格式(例如,數(shù)據(jù)庫(kù)表、電子數(shù)據(jù)表(spreadsheet)文件、無格式(flat)文本文件或者大型機(jī)(mainframe)使用的固有格式)中的任一種來存儲(chǔ)數(shù)據(jù)。執(zhí)行環(huán)境104包括預(yù)處理模塊106和執(zhí)行模塊112。執(zhí)行環(huán)境104可以被容留在諸如UNIX操作系統(tǒng)之類的合適的操作系統(tǒng)控制下的一個(gè)或多個(gè)通用計(jì)算機(jī)上。例如,執(zhí)行環(huán)境108可以包括多節(jié)點(diǎn)并行計(jì)算環(huán)境,其包括使用多個(gè)中央處理單元(CPU)的計(jì)算機(jī)系統(tǒng)的配置,所述計(jì)算機(jī)系統(tǒng)是本地的(例如,諸如SMP計(jì)算機(jī)之類的多處理器系統(tǒng)),或者本地分布的(例如,被耦接為集群或MPP的多個(gè)處理器),或者遠(yuǎn)程的,或者遠(yuǎn)程分布的(例如,經(jīng)由局域網(wǎng)(LAN)和/或廣域網(wǎng)(WAN)耦接的多個(gè)處理器),或者其任何組合。在一些實(shí)現(xiàn)方式中,執(zhí)行模塊112提供可以是在一個(gè)或多個(gè)處理器上運(yùn)行的并行操作系統(tǒng)的操作系統(tǒng),并且作為在該操作系統(tǒng)中運(yùn)行的程序來執(zhí)行預(yù)處理模塊106。用戶115還能夠通過觀看顯示的輸出以及在用戶界面中鍵入輸入來與執(zhí)行環(huán)境108交互。預(yù)處理模塊106從數(shù)據(jù)源102接收包括記錄的數(shù)據(jù),并且確定用于使用執(zhí)行模塊112處理該記錄的目標(biāo)記錄格式,其中每個(gè)記錄具有用于相應(yīng)字段的一個(gè)或多個(gè)值。例如,預(yù)處理模塊106確定適當(dāng)?shù)哪繕?biāo)記錄格式114已經(jīng)被存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)116中,或者如果沒有,則生成目標(biāo)記錄格式114并且將所生成的目標(biāo)記錄格式114存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)116中。提供數(shù)據(jù)源102和數(shù)據(jù)存儲(chǔ)系統(tǒng)116的存儲(chǔ)設(shè)備對(duì)于執(zhí)行環(huán)境104可以是本地的,例如,被存儲(chǔ)在與運(yùn)行執(zhí)行環(huán)境104的計(jì)算機(jī)連接的存儲(chǔ)介質(zhì)(例如,硬驅(qū)動(dòng)器108)上,或者對(duì)于執(zhí)行環(huán)境104可以是遠(yuǎn)程的,例如,被容留在通過遠(yuǎn)程連接與運(yùn)行執(zhí)行環(huán)境104的計(jì)算機(jī)通信的遠(yuǎn)程系統(tǒng)(例如,大型機(jī)110)上。執(zhí)行模塊112使用所確定的目標(biāo)記錄格式114來解釋和處理從數(shù)據(jù)源102接收的記錄。數(shù)據(jù)存儲(chǔ)系統(tǒng)116對(duì)于開發(fā)環(huán)境118也是可訪問的,其中,開發(fā)者120能夠開發(fā)將由執(zhí)行模塊112執(zhí)行以處理記錄的程序。在一些實(shí)現(xiàn)方式中,開發(fā)環(huán)境118是開發(fā)作為數(shù)據(jù)流圖的應(yīng)用的系統(tǒng),所述數(shù)據(jù)流圖包括通過頂點(diǎn)(組件或者數(shù)據(jù)集)之間的有向鏈路(表示工作元素的流動(dòng))而連接的頂點(diǎn)。例如,在標(biāo)題為“Managing Parameters for Graph-basedApplications”的美國(guó)公開No. 2007/0011668中對(duì)這種環(huán)境進(jìn)行了詳細(xì)描述,通過引用在此并入其內(nèi)容。預(yù)處理模塊106可以從包括不同形式的數(shù)據(jù)庫(kù)系統(tǒng)的多種類型的系統(tǒng)接收數(shù)據(jù)。數(shù)據(jù)可以被組織為具有用于相應(yīng)字段(也被稱為“屬性”或者“列”)的值(可能包括空(null)值)的記錄。當(dāng)最初從數(shù)據(jù)源讀取數(shù)據(jù)時(shí),描述來自該數(shù)據(jù)源的記錄的記錄結(jié)構(gòu)的目標(biāo)記錄格式是未知的,盡管在一些情況下,預(yù)處理模塊106可以利用關(guān)于在該數(shù)據(jù)源中的記錄的一些初始的格式信息而開始。預(yù)處理模塊106管理在數(shù)據(jù)存儲(chǔ)系統(tǒng)116中存儲(chǔ)的記錄格式的集合,以確定是否由存儲(chǔ)的記錄格式來描述要處理的記錄或者是否要生成記錄格式。記錄格式可以包括多種特征,例如表示不同值的比特?cái)?shù)、記錄內(nèi)的字段的順序、以及由比特表示的值的類型(例如,字符串、有符號(hào)/無符號(hào)的整數(shù))。參照?qǐng)D2,處理220的流程圖包括用于管理記錄格式的預(yù)處理模塊106的一些操作。除了其他能力,預(yù)處理模塊106接受數(shù)據(jù)222??梢酝ㄟ^文件、數(shù)據(jù)庫(kù)、用戶接口、輸入端口或者任何其它輸入設(shè)備來接收數(shù)據(jù)。除了其他信息,預(yù)處理模塊106可以接收來自數(shù)據(jù)源的包括記錄的記錄格式的數(shù)據(jù),來自數(shù)據(jù)源102的包括一個(gè)或多個(gè)記錄的樣本數(shù)據(jù),或者這二者。樣本數(shù)據(jù)可以包括要被處理的所有記錄或者所述記錄的子集。預(yù)處理模塊106還可以接收預(yù)處理模塊106被請(qǐng)求執(zhí)行哪些操作的指示。預(yù)處理模塊106的操作還包括確定處理路徑224。預(yù)處理模塊106可以具有多種方式來確定用于解釋所接收的樣本數(shù)據(jù)的記錄的記錄格式。預(yù)處理模塊106可以基于是否作為輸入提供了用于樣本數(shù)據(jù)的潛在的記錄格式而確定哪一條處理路徑是適當(dāng)?shù)摹T诒鞠?統(tǒng)的一些實(shí)現(xiàn)方式中,預(yù)處理模塊106接受指示哪一條處理路徑是優(yōu)選的數(shù)據(jù)。沿著一條處理路徑,預(yù)處理模塊106的操作包括基于對(duì)樣本數(shù)據(jù)的分析來確定樣本數(shù)據(jù)的目標(biāo)記錄格式226,如以下更詳細(xì)地描述的。沿著另一處理路徑,預(yù)處理模塊106的操作包括基于將所提供的記錄格式與所提供的樣本數(shù)據(jù)進(jìn)行比較來確定樣本數(shù)據(jù)的目標(biāo)記錄格式228。在一些情形下,預(yù)處理模塊106接受樣本數(shù)據(jù)以及所提供的、潛在地與所接受的樣本數(shù)據(jù)對(duì)應(yīng)的記錄格式(或者對(duì)于所存儲(chǔ)的記錄格式的標(biāo)識(shí)符)。預(yù)處理模塊106將所提供的或者所識(shí)別的記錄格式與樣本數(shù)據(jù)進(jìn)行比較以確定記錄格式是否表示樣本數(shù)據(jù)的結(jié)構(gòu)。沿著另一處理路徑,預(yù)處理模塊106的操作包括基于找出用于所提供的樣本數(shù)據(jù)的記錄格式來確定樣本數(shù)據(jù)的目標(biāo)記錄格式230。在一些情形下,預(yù)處理模塊106接受樣本數(shù)據(jù),并且將該數(shù)據(jù)與(例如被容留在數(shù)據(jù)存儲(chǔ)系統(tǒng)116中的)記錄格式儲(chǔ)存庫(kù)中的現(xiàn)有的記錄格式進(jìn)行比較,以發(fā)現(xiàn)是否任何記錄格式正確地表示樣本數(shù)據(jù)的結(jié)構(gòu)。操作還包括向用戶呈現(xiàn)一個(gè)或多個(gè)潛在的目標(biāo)記錄格式232。一旦確定了一個(gè)或多個(gè)記錄格式,可以將該記錄格式呈現(xiàn)給用戶。用戶可以從多個(gè)記錄格式中選擇單個(gè)記錄格式。用戶也可以修改記錄格式。操作還包括驗(yàn)證目標(biāo)記錄格式234。在預(yù)處理模塊106接受記錄格式之前,預(yù)處理模塊可以針對(duì)所提供的樣本數(shù)據(jù)驗(yàn)證記錄格式。操作還包括建議對(duì)目標(biāo)記錄格式的調(diào)整236。如果記錄格式不能夠解析所提供的樣本數(shù)據(jù),則預(yù)處理模塊106識(shí)別記錄格式和樣本數(shù)據(jù)之間的不一致。可以通過分析在解析樣本數(shù)據(jù)時(shí)出現(xiàn)的錯(cuò)誤來識(shí)別該不一致。不一致還可以通過分析樣本數(shù)據(jù)和記錄格式來識(shí)別。然后,處理220可以作出修復(fù)該不一致的建議。在一些實(shí)現(xiàn)方式中,處理220可以基于樣本數(shù)據(jù)推薦修改記錄格式。例如,如果記錄格式期望字段成為整數(shù)的表示(例如,諸如1,2,3,4等等的整數(shù)值的二進(jìn)制表示),并且在樣本數(shù)據(jù)中的字段包含格式化的日期的表示(例如,1/21/2008,21/1/2008,或者01-1月-2008,等等),則處理220可以建議進(jìn)行調(diào)整。因?yàn)檎麛?shù)字段不能夠保存格式化的日期,而日期字段不能保存整數(shù),所以處理220可以建議將該字段修改為可以包含日期或者整數(shù)的字符串。在另一示例中,處理220可以建議擴(kuò)展記錄格式所接受的有效值的范圍。操作還包括存儲(chǔ)目標(biāo)記錄格式238。目標(biāo)記錄格式可以被存儲(chǔ)在記錄格式儲(chǔ)存庫(kù)中。參照?qǐng)D3,準(zhǔn)備用于在數(shù)據(jù)處理系統(tǒng)中處理的數(shù)據(jù)的預(yù)處理模塊300包括用于接受數(shù)據(jù)的機(jī)制。在一些情形下,輸入數(shù)據(jù)可以是數(shù)據(jù)庫(kù)310。數(shù)據(jù)庫(kù)310可以包含要由系統(tǒng)100處理的數(shù)據(jù)。在其它情形下,數(shù)據(jù)庫(kù)310可以包含表示要由系統(tǒng)100處理的更大的數(shù)據(jù)集的樣本數(shù)據(jù)集。在其它情形下,數(shù)據(jù)庫(kù)可以包含數(shù)據(jù)的記錄格式的描述。在其它情形下,輸入數(shù)據(jù)可以包含樣本數(shù)據(jù)和記錄格式的組合??梢越?jīng)由關(guān)系數(shù)據(jù)庫(kù)、無格式文件、或者用于提供對(duì)于記錄格式處理302的輸入(例如通過端口或者經(jīng)由另一輸入設(shè)備接收的數(shù)據(jù))的另一機(jī)制,將輸入數(shù)據(jù)傳輸給記錄格式處理302。記錄格式處理302接受輸入數(shù)據(jù)310并且確定目標(biāo)數(shù)據(jù)格式。在一些情形下,輸入數(shù)據(jù)包含由多個(gè)記錄組成的樣本數(shù)據(jù),每個(gè)記錄包含用于多個(gè)字段的值。分析樣本數(shù)據(jù) 以確定記錄格式。在其它情形下,將樣本數(shù)據(jù)與所提供的記錄格式進(jìn)行比較。在其它情形下,將樣本數(shù)據(jù)與記錄格式儲(chǔ)存庫(kù)304中的現(xiàn)有的記錄格式進(jìn)行比較以確定最佳適配。在一些情形下,記錄格式處理302檢查包含解析器的解析器目錄306來確定是否任何現(xiàn)有的解析器能夠解析輸入數(shù)據(jù)310以確定目標(biāo)記錄格式。如果不存在解析器來處理輸入數(shù)據(jù)310,記錄格式處理302可以訪問使得能夠構(gòu)建用于確定目標(biāo)記錄格式的新解析器的定制解析器構(gòu)建器(builder)模塊308??梢韵蛴脩舫尸F(xiàn)記錄格式并且允許其調(diào)整記錄格式??梢葬槍?duì)樣本數(shù)據(jù)來檢驗(yàn)調(diào)整后的記錄格式以確保該記錄格式仍保持與樣本數(shù)據(jù)兼容。參照?qǐng)D4,在一些實(shí)現(xiàn)方式中,系統(tǒng)接受包括若干樣本記錄的樣本數(shù)據(jù)。預(yù)處理模塊106試圖識(shí)別數(shù)據(jù)的記錄格式。在一些實(shí)現(xiàn)方式中,如果不存在與現(xiàn)有的存儲(chǔ)的記錄格式的匹配,則分析數(shù)據(jù)以確定它是怎樣被編碼的。例如,數(shù)據(jù)可能基于ASCII或者EBCDIC字符編碼而被編碼,或者可能是二進(jìn)制格式的。在一些實(shí)現(xiàn)方式中,系統(tǒng)然后確定是否該系統(tǒng)具有能夠解析該數(shù)據(jù)的可用的解析器。該系統(tǒng)可以檢查樣本數(shù)據(jù)以確定該樣本數(shù)據(jù)的記錄格式。例如,可以使用被定界的字段和記錄、固定長(zhǎng)度字段、諸如可擴(kuò)展標(biāo)記語(yǔ)言(XML)和標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言(SGML)之類的加標(biāo)簽的數(shù)據(jù)來格式化基于文本的樣本數(shù)據(jù)。數(shù)據(jù)還可以是沒有標(biāo)簽或者定界符來幫助確定記錄格式的二進(jìn)制形式。二進(jìn)制數(shù)據(jù)可以是數(shù)據(jù)庫(kù)、電子數(shù)據(jù)表、字處理文檔、圖像或者其它二進(jìn)制數(shù)據(jù)。在一些實(shí)現(xiàn)方式中,可以基于對(duì)數(shù)據(jù)自身的檢查來推導(dǎo)二進(jìn)制數(shù)據(jù)的數(shù)據(jù)類型。在其它實(shí)現(xiàn)方式中,可以基于文件名的一部分,例如文件擴(kuò)展名來推測(cè)二進(jìn)制數(shù)據(jù)的數(shù)據(jù)類型。該系統(tǒng)可以基于對(duì)樣本格式的解析來確定字段和記錄。例如,如果系統(tǒng)辨識(shí)出定界的字段和記錄,該系統(tǒng)基于定界符而將數(shù)據(jù)分為字段和記錄。如果系統(tǒng)辨識(shí)出被加標(biāo)簽的數(shù)據(jù),該系統(tǒng)基于標(biāo)簽解析文件。在一個(gè)示例中,參照?qǐng)D4,系統(tǒng)接收樣本數(shù)據(jù)文件402。該示例中的數(shù)據(jù)是使用ASCII文本來編碼并且使用逗號(hào)分隔的字段(其中回車符分隔不同的記錄)而構(gòu)造的。如處理箭頭404表示的,系統(tǒng)分析樣本數(shù)據(jù)的多個(gè)記錄以確定樣本數(shù)據(jù)的記錄格式406。在該示例中,系統(tǒng)識(shí)別出五個(gè)字段字符串、字符串、查找值、電話號(hào)碼以及日期。還可以檢測(cè)并識(shí)別其它數(shù)據(jù)類型,諸如整數(shù)、浮點(diǎn)數(shù)、固定長(zhǎng)度文本字段和固定長(zhǎng)度十進(jìn)制數(shù)。在一些實(shí)現(xiàn)方式中,可以通過對(duì)樣本數(shù)據(jù)提供的值進(jìn)行描畫輪廓(profile)來識(shí)別查找字段可用的值。在一些實(shí)現(xiàn)方式中,一旦推導(dǎo)出樣本數(shù)據(jù)的記錄格式,系統(tǒng)就可以解析該樣本數(shù)據(jù)來確定用于每個(gè)數(shù)據(jù)字段的值。例如,該信息可以用于識(shí)別只包含相對(duì)小數(shù)量的有效值的字段。在一些實(shí)現(xiàn)方式中,可以基于對(duì)數(shù)據(jù)的啟發(fā)法分析來確定樣本數(shù)據(jù)的記錄格式。例如,一組固定長(zhǎng)度記錄的長(zhǎng)度將可以被記錄的數(shù)量除盡。在一些實(shí)現(xiàn)方式中,一旦確定樣本數(shù)據(jù)的記錄格式,就將記錄格式與數(shù)據(jù)相關(guān)聯(lián)。在另一實(shí)現(xiàn)方式中,可以向用戶顯示記錄格式并且可以允許用戶修改該記錄格式。如由處理箭頭414表示的,針對(duì)樣本數(shù)據(jù)測(cè)試修改的記錄格式來確認(rèn)其是否仍然與樣本數(shù)據(jù)兼容。當(dāng)用戶輸入導(dǎo)致記錄格式不能夠解析樣本數(shù)據(jù)的數(shù)據(jù)類型時(shí),該系統(tǒng)可以向用戶呈現(xiàn)錯(cuò)誤并且建議對(duì)記錄格式進(jìn)行的、將改正該問題的改變。在該實(shí)現(xiàn)方式中,一旦最后確定記錄格式,就將記錄格式與數(shù)據(jù)相關(guān)聯(lián)。參照?qǐng)D5,在一些實(shí)現(xiàn)方式中,系統(tǒng)與樣本數(shù)據(jù)502—起接收可能的記錄格式504,其可能已經(jīng)由用戶提供或者可能使用如在此描述的搜索技術(shù)而被識(shí)別。可能存在有關(guān)可能的記錄格式是否準(zhǔn)確地描述了樣本數(shù)據(jù)502中的記錄的格式的一些不確定性。可能的記錄格式504可以是XML文檔類型定義、或者定義程序數(shù)據(jù)的物理布局的代碼段,所述程序數(shù)據(jù)可以從主機(jī)拷貝并且插入到諸如COBOL復(fù)寫簿(copybook)和數(shù)據(jù)操縱語(yǔ)言(DML)記錄格式之類的若干不同的程序中。如由處理箭頭508表示的,系統(tǒng)嘗試使用可能的記錄格式504來解析樣本數(shù)據(jù),記錄在處理期間出現(xiàn)的任何錯(cuò)誤。在該示例中,第一字段在可能的記錄格式中被定義為數(shù)字,而樣本數(shù)據(jù)502中的第一字段是可變長(zhǎng)度字符字段。當(dāng)系統(tǒng)嘗試使用記錄格式來解析數(shù)據(jù)時(shí),生成錯(cuò)誤日志506并且將其呈現(xiàn)給用戶。向用戶提供解決該沖突的建議。例如,可以向用戶呈現(xiàn)將字段I的數(shù)據(jù)類型改變?yōu)榭勺冮L(zhǎng)度字符字段的建議。參照?qǐng)D6,在一些實(shí)現(xiàn)方式中,系統(tǒng)接收樣本數(shù)據(jù)602,并且被請(qǐng)求確定現(xiàn)有的記錄格式是否可以準(zhǔn)確地描述該數(shù)據(jù)內(nèi)的記錄的格式使得該系統(tǒng)可以處理該數(shù)據(jù)。該系統(tǒng)可 以分析樣本數(shù)據(jù)中的多個(gè)記錄以確定樣本數(shù)據(jù)是否匹配記錄格式儲(chǔ)存庫(kù)604中的任何候選記錄格式606a-g。在一些實(shí)現(xiàn)方式中,該分析可以包括嘗試使用在記錄格式儲(chǔ)存庫(kù)604中存儲(chǔ)的候選記錄格式606a-g中的每一個(gè)來解析樣本數(shù)據(jù)。在一些實(shí)現(xiàn)方式中,解析數(shù)據(jù)包括將候選記錄格式應(yīng)用到樣本數(shù)據(jù)以確定每個(gè)記錄中的每個(gè)字段的樣本值??梢詫颖局蹬c候選記錄格式進(jìn)行比較,以確定它們是否與候選記錄格式中的那些一致。在一些實(shí)現(xiàn)方式中,分析可以包括針對(duì)定義由候選記錄格式為字段建立的有效值的范圍或者有效值的驗(yàn)證測(cè)試來驗(yàn)證樣本數(shù)據(jù)中的值。例如,字段可以允許有限數(shù)量的有效值(50個(gè)狀態(tài),2種性別,等等…)。對(duì)于每個(gè)記錄格式,系統(tǒng)確定被稱為驗(yàn)證測(cè)試的解析的成功的量度。例如,在一個(gè)示例性驗(yàn)證測(cè)試中,系統(tǒng)保存未被成功解析的記錄的數(shù)量的計(jì)數(shù)。在另一示例性驗(yàn)證測(cè)試中,系統(tǒng)保存未被成功解析的字段的數(shù)量的計(jì)數(shù)以及哪些字段不能被處理的指示。系統(tǒng)將記錄格式縮小為一組候選記錄格式606e、606f、606g并且將它們呈現(xiàn)給用戶。在一些實(shí)現(xiàn)方式中,記錄格式可能不提供對(duì)與樣本數(shù)據(jù)相關(guān)聯(lián)的記錄格式的精確匹配。例如,候選記錄格式606e以字符串字段結(jié)束,而其它候選記錄格式以數(shù)據(jù)字段結(jié)束;然而,由于可以用日期值來填充字符串,所以記錄格式仍然與樣本數(shù)據(jù)兼容。也可以容許其它解析不一致性。例如,對(duì)于一個(gè)測(cè)試,落入有效值的預(yù)定義范圍之外的值仍可以產(chǎn)生候選記錄格式,例如,潛在的記錄格式606g包含具有有效值“M”和“S”的“婚姻狀況”字段。樣本數(shù)據(jù)集包含包括“M”或“F”的字段。該系統(tǒng)可以包括潛在的數(shù)據(jù)記錄606g,同時(shí)記錄解析錯(cuò)誤。在一些測(cè)試中,如果解析錯(cuò)誤的數(shù)量低于給定的閾值,則包括潛在的數(shù)據(jù)記錄。在其它測(cè)試中,如果有效解析值的數(shù)量超過給定的閾值,則包括潛在的數(shù)據(jù)記錄。在一些實(shí)現(xiàn)方式中,系統(tǒng)可以向用戶呈現(xiàn)候選記錄格式,并且允許用戶選擇適合數(shù)據(jù)的記錄格式。在此示例中,用戶可以選擇候選記錄格式606f作為最佳適配。在一些實(shí)現(xiàn)方式中,系統(tǒng)可以檢查 容的記錄格式并且基于樣本數(shù)據(jù)的簡(jiǎn)檔(profile)和候選記錄格式進(jìn)行關(guān)于哪個(gè)記錄格式最佳的確定。在一些實(shí)現(xiàn)方式中,用戶可以修改記錄格式。一旦潛在的記錄格式的列表被縮小到單個(gè)目標(biāo)記錄格式,該系統(tǒng)通過解析所提供的樣本數(shù)據(jù)602來驗(yàn)證所選擇的目標(biāo)記錄格式。在驗(yàn)證完成后,系統(tǒng)將樣本數(shù)據(jù)與所選擇的目標(biāo)記錄格式相關(guān)聯(lián),并且存儲(chǔ)所選擇的目標(biāo)記錄格式和/或?qū)⑺x擇的目標(biāo)記錄格式提供給用戶。在一些實(shí)現(xiàn)方式中,當(dāng)樣本數(shù)據(jù)不符合記錄格式中提供的數(shù)據(jù)類型時(shí),向用戶呈現(xiàn)修改記錄格式以使其與樣本數(shù)據(jù)一致的選項(xiàng)。在一些實(shí)現(xiàn)方式中,參照?qǐng)D7,系統(tǒng)不能識(shí)別記錄格式儲(chǔ)存庫(kù)604中的適合樣本數(shù)據(jù)的現(xiàn)有的記錄格式。在這些情況下,系統(tǒng)確定現(xiàn)有的解析器是否可以解析所提供的樣本數(shù)據(jù)。例如,樣本數(shù)據(jù)集702被示為采用XML格式。在該示例中,記錄格式儲(chǔ)存庫(kù)604不包含與樣本數(shù)據(jù)匹配的任何記錄格式。如由處理箭頭704表示的,系統(tǒng)識(shí)別記錄格式是XML格式的ASCII文件。如由處理箭頭708表示的,系統(tǒng)確定現(xiàn)有的解析器(例如,XML解析器710)能夠解釋所述數(shù)據(jù)?;诮馕銎骱蜆颖緮?shù)據(jù),系統(tǒng)推導(dǎo)出樣本數(shù)據(jù)714的記錄格式。如上討論的,系統(tǒng)證實(shí)解析器能夠解釋樣本數(shù)據(jù),將由解析器生成的所得到的目標(biāo)記錄格式與樣本數(shù)據(jù)714相關(guān)聯(lián),并且在記錄格式儲(chǔ)存庫(kù)中存儲(chǔ)所得到的目標(biāo)記錄格式。在一些實(shí)現(xiàn)方式中,系統(tǒng)在將目標(biāo)記錄格式存儲(chǔ)在記錄格式儲(chǔ)存庫(kù)中之前向用戶呈現(xiàn)新創(chuàng)建的目標(biāo)記錄格式以得到批準(zhǔn)。圖8示出了預(yù)處理模塊106可用來確定目標(biāo)記錄格式的另一示例性處理800的流程圖。預(yù)處理模塊的操作包括確定所提供的輸入數(shù)據(jù)是否包括樣本數(shù)據(jù)802。如果輸入數(shù)據(jù)包括樣本數(shù)據(jù),操作還包括上載和/或定位樣本數(shù)據(jù)804。預(yù)處理模塊可以從輸入數(shù)據(jù)定義的位置訪問樣本。在一些實(shí)現(xiàn)方式中,預(yù)處理模塊可以上載或者經(jīng)由訪問端口從另一服務(wù)器訪問樣本數(shù)據(jù)。在其它實(shí)現(xiàn)方式中,預(yù)處理模塊可以訪問包含樣本數(shù)據(jù)的文件或者其它數(shù)據(jù)存儲(chǔ)機(jī)構(gòu)。操作還包括分析樣本數(shù)據(jù)806以及可選地存儲(chǔ)分析的結(jié)果。可以分析樣本數(shù)據(jù)以確定字符集、元數(shù)據(jù)、記錄格式類型和/或記錄格式自身。在一些實(shí)現(xiàn)方式中,系統(tǒng)分析樣本數(shù)據(jù)以確定是否對(duì)在記錄格式儲(chǔ)存庫(kù)中存儲(chǔ)的一個(gè)或多個(gè)已知的記錄格式執(zhí)行搜索。例如,預(yù)處理模塊可以執(zhí)行搜索,以便在樣本數(shù)據(jù)是第一類型(例如,逗號(hào)分隔的文件)時(shí)而不是在確定樣本數(shù)據(jù)是第二類型(例如,XML)時(shí)確定潛在的記錄格式。在其它實(shí)現(xiàn)方式中,分析樣本數(shù)據(jù)以尋找可能有助于記錄格式的創(chuàng)建和驗(yàn)證的元數(shù)據(jù)。在一些實(shí)現(xiàn)方式中,預(yù)處理模塊識(shí)別字段分隔符、換碼符和包含字段名的首標(biāo)??梢员A粼摲治龅慕Y(jié)果以用于以后的判定處理。在該實(shí)現(xiàn)方式中,操作包括確定包含樣本數(shù)據(jù)的文檔的類型是否是XML808。在一些實(shí)現(xiàn)方式中,將一個(gè)或多種預(yù)定格式(諸如該示例中的XML格式)的文檔與其它格式的文檔分開對(duì)待。在該實(shí)現(xiàn)方式中,由XML解析器826處理樣本XML文檔。操作還包括確定樣本數(shù)據(jù)是否與在記錄格式儲(chǔ)存庫(kù)中存儲(chǔ)的一個(gè)或多個(gè)已知的記錄格式匹配810。如上討論的,這可以通過以下方式來實(shí)現(xiàn)使用驗(yàn)證測(cè)試針對(duì)每個(gè)記錄格式來驗(yàn)證樣本數(shù)據(jù)中的一個(gè)或多個(gè)記錄,并且確定驗(yàn)證錯(cuò)誤的數(shù)量。在其它實(shí)現(xiàn)方式中,可以使用在分析樣本數(shù)據(jù)806時(shí)獲得的信息來減少驗(yàn)證樣本數(shù)據(jù)所針對(duì)的數(shù)據(jù)格式的數(shù)量。操作還可以包括向用戶示出匹配的記錄格式812。如上討論的,預(yù)處理模塊可以向用戶顯示可能匹配的記錄格式的列表。操作還包括確定用戶是否從潛在的記錄格式的列表中選擇了匹配的記錄格式814。
      操作還包括如果沒有找到和/或用戶沒有選擇對(duì)存儲(chǔ)的記錄格式的匹配,則確定樣本數(shù)據(jù)是否具有已知的數(shù)據(jù)類型,例如被包括在具有對(duì)其存在可用解析器的已知固有格式816的文件中。固有格式是由應(yīng)用或者系統(tǒng)使用的已知的外部格式。操作還包括如果固有格式是已知的,則確定與適當(dāng)?shù)目捎媒馕銎鞯臄?shù)據(jù)匹配。例如,樣本數(shù)據(jù)可以包括能夠被已知解析器820處理的被加標(biāo)簽的記錄。操作還包括識(shí)別用于被加標(biāo)簽的樣本數(shù)據(jù)的解析器830。在該實(shí)現(xiàn)方式中,確定與可用解析器的匹配包括確定樣本數(shù)據(jù)是否采用COBOL822。在一些實(shí)現(xiàn)方式中,操作還可以包括確定樣本數(shù)據(jù)是否采用利用能夠被可用解析器解析的標(biāo)準(zhǔn)數(shù)據(jù)記錄格式結(jié)構(gòu)的另一編程語(yǔ)言。操作還包括如果樣本數(shù)據(jù)采用COBOL,則上載和解析COBOL復(fù)寫簿832。將已知的固有格式與另一可用解析器匹配包括確定樣本數(shù)據(jù)被存儲(chǔ)在數(shù)據(jù)庫(kù)中,并且驗(yàn)證預(yù)處理模塊可以訪問數(shù)據(jù)庫(kù)824。對(duì)數(shù)據(jù)庫(kù)的訪問可以包括證實(shí)預(yù)處理模塊可訪問有效證書,例如用戶名和密碼。對(duì)數(shù)據(jù)庫(kù)的訪問還可以包括確定證書提供對(duì)樣本數(shù)據(jù)的訪問。操作還包括分析數(shù)據(jù)庫(kù)中存儲(chǔ)的樣本數(shù)據(jù)并且根據(jù)該分析確定記錄格式834 (例如,在SQL編輯器中)。在一些實(shí)現(xiàn)方式中,預(yù)處理模塊分析數(shù)據(jù)庫(kù)的表結(jié)構(gòu)以推導(dǎo)記錄格式。將已知的固有格式與另一可用解析器匹配包括確定樣本數(shù)據(jù)是否是XML格式以及它是否包含文檔類型定義或XML大綱定義(XSD) 826。操作還包括將XML文檔的結(jié)構(gòu)轉(zhuǎn)換為記錄格式836 (例如,在XML路徑編輯器中)。將已知的固有格式與另一可用解析器進(jìn)行匹配包括確定數(shù)據(jù)是否是SAP格式828。在一些實(shí)現(xiàn)方式中,可以檢測(cè)其它企業(yè)解決方案軟件包,例如來自O(shè)racle Financials的樣本數(shù)據(jù)。操作還包括使用企業(yè)軟件包的導(dǎo)入模塊確定記錄格式838。如果樣本數(shù)據(jù)的數(shù)據(jù)類型不是已知的,或者對(duì)于該數(shù)據(jù)類型不存在可用的解析器,則操作包括確定樣本數(shù)據(jù)的特征,并從對(duì)樣本數(shù)據(jù)的特征的分析生成構(gòu)建的記錄格式。例如,在該實(shí)現(xiàn)方式中,操作包括確定樣本數(shù)據(jù)是否大多數(shù)被加標(biāo)簽840。大多數(shù)被加標(biāo)簽的數(shù)據(jù)例如是看起來主要包含被加標(biāo)簽的數(shù)據(jù)結(jié)構(gòu)、但是包含一些不一定符合加標(biāo)簽的結(jié)構(gòu)的數(shù)據(jù)的數(shù)據(jù)。
      操作還包括如果數(shù)據(jù)被確定為大多數(shù)被加標(biāo)簽(例如,使用標(biāo)簽編輯器),則嘗試作為被加標(biāo)簽的數(shù)據(jù)來處理數(shù)據(jù)842。除了 XML,還可以處理其它加標(biāo)簽的格式,例如,世界范圍內(nèi)銀行間金融電信協(xié)會(huì)格式(SffIFT )。操作還包括確定通用的加標(biāo)簽的數(shù)據(jù)解析器或者已知的解析器是否能夠處理樣本數(shù)據(jù)844。操作還包括將樣本數(shù)據(jù)交給解析器構(gòu)建器848。操作還包括確定樣本數(shù)據(jù)大多數(shù)是文本852。大多數(shù)是文本的數(shù)據(jù)例如是主要使用公知的文本格式(例如ASCII或者EBCDIC)編碼的數(shù)據(jù)。操作還包括嘗試確定數(shù)據(jù)的結(jié)構(gòu)854。在一些實(shí)現(xiàn)方式中,可以通過識(shí)別記錄 和字段定界符來確定數(shù)據(jù)的結(jié)構(gòu)。記錄定界符還可以通過檢查樣本數(shù)據(jù)中的最后字符來識(shí)別。還可以通過在數(shù)據(jù)中檢查非打印或非字母數(shù)字字符來識(shí)別定界符。在樣本數(shù)據(jù)中出現(xiàn)兩個(gè)非可打印字符或非字母數(shù)字字符的情形下,最常見的可能是字段定界符,較不常見的是記錄定界符。不是定界符的非可打印字符的存在可指示該樣本數(shù)據(jù)沒有被定界。在識(shí)別了定界符之后,預(yù)處理模塊可以將定界符應(yīng)用到樣本數(shù)據(jù)并且檢驗(yàn)不一致性。例如,系統(tǒng)可以檢驗(yàn)每個(gè)記錄是否包含相同數(shù)量的字段。系統(tǒng)可以檢驗(yàn)每個(gè)記錄中的相同字段是否包含類似的或者兼容的數(shù)據(jù)類型。在一些實(shí)現(xiàn)方式中,預(yù)處理模塊依賴于在分析數(shù)據(jù)806時(shí)確定的有關(guān)數(shù)據(jù)的信息。操作還包括確定數(shù)據(jù)大多數(shù)是二進(jìn)制856。二進(jìn)制數(shù)據(jù)例如是未使用公知的文本格式(例如ASCII和EB⑶IC)編碼的數(shù)據(jù)。操作還包括在適當(dāng)時(shí)(例如響應(yīng)于確定數(shù)據(jù)大多數(shù)是二進(jìn)制856),將字段名插入樣本數(shù)據(jù)858。在一些實(shí)現(xiàn)方式中,用戶可以輸入(例如,粘貼或者鍵入)要插入的字段名。操作還包括證實(shí)結(jié)果850。證實(shí)記錄格式可以包括使用該記錄格式并且嘗試解析樣本數(shù)據(jù)。操作還包括允許用戶構(gòu)建或者編輯記錄格式846。在一些實(shí)現(xiàn)方式中,用戶可以編輯記錄格式和/或改變樣本數(shù)據(jù)的類型、名稱和結(jié)構(gòu)。操作還包括在記錄格式儲(chǔ)存庫(kù)中存儲(chǔ)記錄格式860。在一些實(shí)現(xiàn)方式中,預(yù)處理模塊將數(shù)據(jù)格式與樣本數(shù)據(jù)相關(guān)聯(lián),在其它實(shí)現(xiàn)方式中,預(yù)處理模塊創(chuàng)建數(shù)據(jù)格式的副本并且將該副本與數(shù)據(jù)相關(guān)聯(lián)??梢允褂糜糜谠谟?jì)算機(jī)上執(zhí)行的軟件來實(shí)現(xiàn)上述的記錄格式發(fā)現(xiàn)方法。例如,該軟件形成在一個(gè)或多個(gè)編程的或可編程的計(jì)算機(jī)系統(tǒng)(其可以為各種架構(gòu),諸如分布式、客戶機(jī)/服務(wù)器或者網(wǎng)格)上執(zhí)行的一個(gè)或多個(gè)計(jì)算機(jī)程序中的過程,其中每個(gè)計(jì)算機(jī)系統(tǒng)包括至少一個(gè)處理器、至少一個(gè)數(shù)據(jù)存儲(chǔ)系統(tǒng)(包括易失性和非易失性存儲(chǔ)器和/或存儲(chǔ)元件)、至少一個(gè)輸入設(shè)備或端口以及至少一個(gè)輸出設(shè)備或端口。該軟件可以形成例如用于提供與計(jì)算圖形的設(shè)計(jì)和配置有關(guān)的其它服務(wù)的更大程序的一個(gè)或多個(gè)模塊??梢詫⒃搱D形的節(jié)點(diǎn)和元素實(shí)現(xiàn)為在計(jì)算機(jī)可讀介質(zhì)中存儲(chǔ)的數(shù)據(jù)結(jié)構(gòu)或者符合在數(shù)據(jù)儲(chǔ)存庫(kù)中存儲(chǔ)的數(shù)據(jù)模型的其它有組織數(shù)據(jù)??梢栽诳捎赏ㄓ没?qū)S每删幊逃?jì)算機(jī)讀取的、諸如⑶-ROM之類的存儲(chǔ)介質(zhì)上提供該軟件,或者可以通過網(wǎng)絡(luò)的通信介質(zhì)將該軟件遞送(編碼在傳播的信號(hào)中)到執(zhí)行該軟件的計(jì)算機(jī)??梢栽趯S糜?jì)算機(jī)上或者使用專用硬件(諸如協(xié)處理器)來執(zhí)行所有功能??梢砸苑植际椒绞絹韺?shí)現(xiàn)該軟件,其中通過不同的計(jì)算機(jī)來執(zhí)行由該軟件指定的計(jì)算的不同部分。每個(gè)這樣的計(jì)算機(jī)程序優(yōu)選地被存儲(chǔ)在或者下載到可由通用或?qū)S每删幊逃?jì)算機(jī)讀取的存儲(chǔ)介質(zhì)或設(shè)備(例如,固態(tài)存儲(chǔ)器或者介質(zhì),或者磁或光介質(zhì)),以便當(dāng)該存儲(chǔ)介質(zhì)或設(shè)備被計(jì)算機(jī)系統(tǒng)讀取時(shí)配置和操作計(jì)算機(jī)以執(zhí)行在此描述的過程。還可以考慮將本發(fā)明的系統(tǒng)實(shí)現(xiàn)為配置有計(jì)算機(jī)程序的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中這樣配置的存儲(chǔ)介質(zhì)使得計(jì)算機(jī)系統(tǒng)以特定和預(yù)定義的方式操作以執(zhí)行在此描述的功能。已經(jīng)描述了本發(fā)明的許多實(shí)施例。然而,應(yīng)理解可以進(jìn)行各種修改而不脫離本發(fā)明的精神和范圍。例如,上述的一些步驟可以是與順序無關(guān)的,因此可以以與上述順序不同 的順序來執(zhí)行。要理解的是,前述的描述旨在說明而不是限制本發(fā)明的范圍,本發(fā)明的范圍由所附權(quán)利要求的范圍來限定。例如,可以以不同的順序來執(zhí)行上述的許多功能步驟,而在實(shí)質(zhì)上不影響整個(gè)處理。其它實(shí)施例處于所附權(quán)利要求的范圍中。
      權(quán)利要求
      1.一種基于數(shù)據(jù)存儲(chǔ)系統(tǒng)中的格式信息準(zhǔn)備用于在數(shù)據(jù)處理系統(tǒng)中處理的數(shù)據(jù)的方法,該方法包括 通過輸入設(shè)備或者端口接收數(shù)據(jù),所述數(shù)據(jù)包括記錄,每個(gè)記錄具有用于相應(yīng)字段的一個(gè)或多個(gè)值;以及 確定用于在數(shù)據(jù)處理系統(tǒng)中處理數(shù)據(jù)的目標(biāo)記錄格式,包括 根據(jù)多個(gè)驗(yàn)證測(cè)試來分析數(shù)據(jù)中的多個(gè)記錄,以便確定該數(shù)據(jù)是否與在數(shù)據(jù)存儲(chǔ)系統(tǒng)中存儲(chǔ)的一個(gè)或多個(gè)候選記錄格式匹配,每個(gè)候選記錄格式指定一個(gè)或多個(gè)字段的編組中的每個(gè)字段的格式,并且每個(gè)驗(yàn)證測(cè)試對(duì)應(yīng)于在數(shù)據(jù)存儲(chǔ)系統(tǒng)中存儲(chǔ)的至少一個(gè)候選記錄格式,以及 響應(yīng)于接收到驗(yàn)證測(cè)試的結(jié)果,基于以下至少一個(gè)將目標(biāo)記錄格式與數(shù)據(jù)相關(guān)聯(lián)所選擇的候選記錄格式,其中根據(jù)與所選擇的候選記錄格式對(duì)應(yīng)的至少一個(gè)驗(yàn)證測(cè)試確定至少部分匹配;根據(jù)與數(shù)據(jù)相關(guān)聯(lián)的已知的數(shù)據(jù)類型選擇的解析器所生成的解析的記錄格式;以及從對(duì)數(shù)據(jù)的特征的分析生成的構(gòu)建的記錄格式。
      2.如權(quán)利要求I所述的方法,其中,響應(yīng)于沒有驗(yàn)證測(cè)試確定與一個(gè)或多個(gè)候選記錄格式至少部分匹配,基于解析的記錄格式將目標(biāo)記錄格式與數(shù)據(jù)相關(guān)聯(lián)。
      3.如權(quán)利要求2所述的方法,其中,基于數(shù)據(jù)的文件類型得知與數(shù)據(jù)相關(guān)聯(lián)的已知的數(shù)據(jù)類型。
      4.如權(quán)利要求3所述的方法,其中,數(shù)據(jù)的文件類型對(duì)應(yīng)于文件擴(kuò)展名。
      5.如權(quán)利要求I所述的方法,其中,響應(yīng)于以下情形,基于構(gòu)建的記錄格式將目標(biāo)記錄格式與數(shù)據(jù)相關(guān)聯(lián)沒有驗(yàn)證測(cè)試確定與一個(gè)或多個(gè)候選記錄格式至少部分匹配,并且沒有與數(shù)據(jù)相關(guān)聯(lián)的已知的數(shù)據(jù)類型。
      6.如權(quán)利要求5所述的方法,其中,從對(duì)數(shù)據(jù)的特征的分析生成構(gòu)建的記錄格式包括辨識(shí)數(shù)據(jù)中的標(biāo)簽并且基于辨識(shí)的標(biāo)簽來解析數(shù)據(jù)以確定多個(gè)記錄。
      7.如權(quán)利要求5所述的方法,其中,從對(duì)數(shù)據(jù)的特征的分析生成構(gòu)建的記錄格式包括辨識(shí)數(shù)據(jù)中的定界符并且基于辨識(shí)的定界符來解析數(shù)據(jù)以確定多個(gè)記錄。
      8.如權(quán)利要求5所述的方法,其中,從對(duì)數(shù)據(jù)的特征的分析生成構(gòu)建的記錄格式包括辨識(shí)數(shù)據(jù)處于實(shí)質(zhì)上二進(jìn)制形式而沒有指示多個(gè)記錄的值的標(biāo)簽或定界符,并且從用戶接口接收一個(gè)或多個(gè)字段標(biāo)識(shí)符。
      9.如權(quán)利要求I所述的方法,其中,根據(jù)與第一候選記錄格式對(duì)應(yīng)的多個(gè)驗(yàn)證測(cè)試中的第一驗(yàn)證測(cè)試分析數(shù)據(jù)中的多個(gè)記錄包括將第一候選記錄格式應(yīng)用到數(shù)據(jù),以確定每個(gè)字段的由第一候選記錄格式指定的格式的每個(gè)記錄的值。
      10.如權(quán)利要求9所述的方法,其中,確定數(shù)據(jù)是否與第一候選記錄格式匹配包括根據(jù)第一驗(yàn)證測(cè)試來分析多個(gè)記錄的所確定的值以便確定有效值的數(shù)量是否大于預(yù)定閾值。
      11.如權(quán)利要求10所述的方法,其中,根據(jù)第一驗(yàn)證測(cè)試分析多個(gè)記錄中的第一記錄的所確定的值包括對(duì)每個(gè)字段的每個(gè)所確定的值執(zhí)行對(duì)應(yīng)的字段測(cè)試。
      12.如權(quán)利要求11所述的方法,其中,對(duì)第一字段的所確定的值執(zhí)行第一字段測(cè)試包括將所確定的值中的字符的數(shù)量與字符的預(yù)定數(shù)量進(jìn)行匹配。
      13.如權(quán)利要求11所述的方法,其中,對(duì)第一字段的所確定的值執(zhí)行第一字段測(cè)試包括將所確定的值與第一字段的多個(gè)預(yù)定的有效值之一進(jìn)行匹配。
      14.如權(quán)利要求11所述的方法,其中,有效值的數(shù)量基于給定字段的所確定的值通過與給定字段對(duì)應(yīng)的字段測(cè)試的記錄的數(shù)量。
      15.一種基于數(shù)據(jù)存儲(chǔ)系統(tǒng)中的格式信息準(zhǔn)備用于在數(shù)據(jù)處理系統(tǒng)中處理的數(shù)據(jù)的系統(tǒng),該系統(tǒng)包括 用于通過輸入設(shè)備或者端口接收數(shù)據(jù)的裝置,所述數(shù)據(jù)包括記錄,每個(gè)記錄具有用于相應(yīng)字段的一個(gè)或多個(gè)值;以及 用于確定用來在數(shù)據(jù)處理系統(tǒng)中處理數(shù)據(jù)的目標(biāo)記錄格式的裝置,包括 根據(jù)多個(gè)驗(yàn)證測(cè)試來分析數(shù)據(jù)中的多個(gè)記錄,以便確定該數(shù)據(jù)是否與在數(shù)據(jù)存儲(chǔ)系統(tǒng)中存儲(chǔ)的一個(gè)或多個(gè)候選記錄格式匹配,每個(gè)候選記錄格式指定一個(gè)或多個(gè)字段的編組中的每個(gè)字段的格式,并且每個(gè)驗(yàn)證測(cè)試對(duì)應(yīng)于在數(shù)據(jù)存儲(chǔ)系統(tǒng)中存儲(chǔ)的至少一個(gè)候選記錄格式,以及 響應(yīng)于接收到驗(yàn)證測(cè)試的結(jié)果,基于以下至少一個(gè)將目標(biāo)記錄格式與數(shù)據(jù)相關(guān)聯(lián)所選擇的候選記錄格式,其中根據(jù)與所選擇的候選記錄格式對(duì)應(yīng)的至少一個(gè)驗(yàn)證測(cè)試確定至少部分匹配;根據(jù)與數(shù)據(jù)相關(guān)聯(lián)的已知的數(shù)據(jù)類型選擇的解析器所生成的解析的記錄格式;以及從對(duì)數(shù)據(jù)的特征的分析生成的構(gòu)建的記錄格式。
      16.一種計(jì)算機(jī)可讀介質(zhì),其存儲(chǔ)了計(jì)算機(jī)程序,該計(jì)算機(jī)程序用于基于數(shù)據(jù)存儲(chǔ)系統(tǒng)中的格式信息準(zhǔn)備用于在數(shù)據(jù)處理系統(tǒng)中處理的數(shù)據(jù),該計(jì)算機(jī)程序包括使計(jì)算機(jī)執(zhí)行以下步驟的指令 通過輸入設(shè)備或者端口接收數(shù)據(jù),所述數(shù)據(jù)包括記錄,每個(gè)記錄具有用于相應(yīng)字段的一個(gè)或多個(gè)值;以及 確定用于在數(shù)據(jù)處理系統(tǒng)中處理數(shù)據(jù)的目標(biāo)記錄格式,包括 根據(jù)多個(gè)驗(yàn)證測(cè)試來分析數(shù)據(jù)中的多個(gè)記錄,以便確定該數(shù)據(jù)是否與在數(shù)據(jù)存儲(chǔ)系統(tǒng)中存儲(chǔ)的一個(gè)或多個(gè)候選記錄格式匹配,每個(gè)候選記錄格式指定一個(gè)或多個(gè)字段的編組中的每個(gè)字段的格式,并且每個(gè)驗(yàn)證測(cè)試對(duì)應(yīng)于在數(shù)據(jù)存儲(chǔ)系統(tǒng)中存儲(chǔ)的至少一個(gè)候選記錄格式,以及 響應(yīng)于接收到驗(yàn)證測(cè)試的結(jié)果,基于以下至少一個(gè)將目標(biāo)記錄格式與數(shù)據(jù)相關(guān)聯(lián)所選擇的候選記錄格式,其中根據(jù)與所選擇的候選記錄格式對(duì)應(yīng)的至少一個(gè)驗(yàn)證測(cè)試確定至少部分匹配;根據(jù)與數(shù)據(jù)相關(guān)聯(lián)的已知的數(shù)據(jù)類型選擇的解析器所生成的解析的記錄格式;以及從對(duì)數(shù)據(jù)的特征的分析生成的構(gòu)建的記錄格式。
      全文摘要
      使用格式信息準(zhǔn)備用于在數(shù)據(jù)處理系統(tǒng)中處理的數(shù)據(jù)。接收的數(shù)據(jù)包括具有用于字段的值的記錄。確定用于處理數(shù)據(jù)的目標(biāo)記錄格式。根據(jù)驗(yàn)證測(cè)試分析(806)多個(gè)記錄以確定(810)該數(shù)據(jù)是否與候選記錄格式匹配。每個(gè)候選記錄格式指定每個(gè)字段的格式,并且每個(gè)驗(yàn)證測(cè)試對(duì)應(yīng)于至少一個(gè)候選記錄格式。響應(yīng)于接收到驗(yàn)證測(cè)試的結(jié)果,基于以下至少一個(gè)將目標(biāo)記錄格式與數(shù)據(jù)相關(guān)聯(lián)候選的記錄格式(812),其中根據(jù)至少一個(gè)驗(yàn)證測(cè)試確定至少部分匹配;根據(jù)與數(shù)據(jù)相關(guān)聯(lián)的數(shù)據(jù)類型選擇的解析的記錄格式(830、832、834、836、838);以及從對(duì)數(shù)據(jù)特征的分析生成的構(gòu)建的記錄格式(846)。
      文檔編號(hào)G06F7/00GK102713834SQ201080061493
      公開日2012年10月3日 申請(qǐng)日期2010年11月12日 優(yōu)先權(quán)日2009年11月13日
      發(fā)明者D.W.帕門特, J.L.維格諾, J.M.法弗, J.古爾德, R.弗羅因德里希 申請(qǐng)人:起元技術(shù)有限責(zé)任公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1