專利名稱:一種抽取ims數(shù)據(jù)庫中數(shù)據(jù)的方法、裝置和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,特別是涉及一種抽取IMS數(shù)據(jù)庫中數(shù)據(jù)的方 法、裝置和系統(tǒng)。
背景技術(shù):
IBM主機系統(tǒng)Z/OS是一種CPU利用率高、多任務(wù)處理水平高、具有密 集i/o處理的計算機系統(tǒng),能很好地處理不同類型的工作負(fù)載,并且提供非常 高的可靠性。由于IBM主機系統(tǒng)的這些優(yōu)點,其被大量應(yīng)用于大中型企業(yè)(如 銀行)的商業(yè)計算任務(wù)。IMS數(shù)據(jù)庫系統(tǒng)是一種基于IBM主機系統(tǒng)的大型層 次型數(shù)據(jù)庫系統(tǒng),具有存儲容量大、并發(fā)存取性能突出,安全可靠等一系列優(yōu) 點,是一種在全世界范圍內(nèi)被眾多大中型企業(yè)廣泛采用的數(shù)據(jù)庫管理系統(tǒng)。在開發(fā)過程中,必然會將生產(chǎn)環(huán)境IMS數(shù)據(jù)庫中的數(shù)據(jù)倒入測試環(huán)境以 供測試開發(fā)用,然而實際生產(chǎn)環(huán)境中的數(shù)據(jù)量都是海量的,利用所述實際生產(chǎn) 環(huán)境中的海量數(shù)據(jù)進行測試,對主機系統(tǒng)的CPU資源、存儲資源等計算機系 統(tǒng)資源是一個^l大的浪費,并且測試效率低下,因此,需要對實際生產(chǎn)環(huán)境中 的海量數(shù)據(jù)進行抽取,抽取符合條件的少量數(shù)據(jù)進行測試,減少測試環(huán)境的數(shù) 據(jù)量。由于IMS數(shù)據(jù)庫系統(tǒng)是層次型數(shù)據(jù)庫,自身不具有關(guān)系型數(shù)據(jù)庫通過SQL 語言實現(xiàn)數(shù)據(jù)抽取的功能,用戶必須通過編寫程序并執(zhí)行作業(yè)調(diào)用這些程序來 實現(xiàn)對IMS數(shù)據(jù)庫數(shù)據(jù)的抽取。所述數(shù)據(jù)抽取過程工作量大,效率低。并且 由于是對IMS數(shù)據(jù)庫中的數(shù)據(jù)直接進行抽取,直接遍歷IMS數(shù)據(jù)庫系統(tǒng)各數(shù) 據(jù)庫中的數(shù)據(jù),抽取符合條件的數(shù)據(jù),主機系統(tǒng)與IMS數(shù)據(jù)庫系統(tǒng)在數(shù)據(jù)抽 取過程中必須一直建立連接,浪費大量的網(wǎng)絡(luò)資源,并且由于網(wǎng)絡(luò)帶寬資源的 有限,所述在線抽取IMS數(shù)據(jù)庫中數(shù)據(jù)的效率非常低。因此,迫切需要一種 抽取IMS數(shù)據(jù)庫中數(shù)據(jù)的方法,所述方法能夠提高數(shù)據(jù)抽取的效率,并且節(jié) 省網(wǎng)絡(luò)資源。進一步,由于IMS數(shù)據(jù)庫是層次型數(shù)據(jù)庫,對于有聯(lián)系的數(shù)據(jù)庫一般都 會有相同含義的欄位,在對多數(shù)據(jù)庫中的數(shù)據(jù)進行抽取時,往往無法保證數(shù)據(jù)抽取的完整性。 發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題是提供一種抽取IMS數(shù)據(jù)庫中數(shù)據(jù)的方法,能夠提高數(shù)據(jù)抽取的效率,節(jié)省網(wǎng)絡(luò)資源。相應(yīng)的,本發(fā)明還提供了 一種抽取IMS數(shù)據(jù)庫中數(shù)據(jù)的裝置和系統(tǒng)。 為了解決上述問題,本發(fā)明公開了一種抽取IMS數(shù)據(jù)庫中數(shù)據(jù)的方法,包括將IMS數(shù)據(jù)庫中的數(shù)據(jù)下載至主機文件中; 預(yù)置數(shù)據(jù)抽取條件;根據(jù)所述抽取條件遍歷所述下載文件中的記錄,抽取符合條件的數(shù)據(jù)。 進一步,在下載IMS數(shù)據(jù)庫中的數(shù)據(jù)之前還包括步驟 確定IMS數(shù)據(jù)庫中下載的數(shù)據(jù)范圍。進一步,當(dāng)主機文件中的數(shù)據(jù)庫為多個時,在數(shù)據(jù)抽取步驟之前還包括 預(yù)置基準(zhǔn)欄位,且所述數(shù)據(jù)抽取過程為根據(jù)所述抽取條件和基準(zhǔn)欄位遍歷下載文件中不同數(shù)據(jù)庫中的記錄,抽取 符合條件的數(shù)據(jù)。進一步,還包括在抽取的數(shù)據(jù)中確定需要進行清洗的數(shù)據(jù); 預(yù)置清洗規(guī)則;根據(jù)清洗規(guī)則對所述需要進行清洗的數(shù)據(jù)進行轉(zhuǎn)換,完成數(shù)據(jù)清洗。 其中,當(dāng)清洗的數(shù)據(jù)是多個不同數(shù)據(jù)庫中的數(shù)據(jù)時,所述預(yù)置的清洗規(guī)則 需滿足條件不同數(shù)據(jù)庫中屬性相同且值相同的欄位的清洗規(guī)則相同。 進一步,還包括將所述抽取清洗后的數(shù)據(jù)RELOAD回測試環(huán)境的數(shù)據(jù)庫,完成基礎(chǔ)測試 環(huán)境的數(shù)據(jù)裝入工作,建立基礎(chǔ)測試環(huán)境。 進一步,還包括將所述基礎(chǔ)測試環(huán)境中的數(shù)據(jù)倒入其他測試環(huán)境,進行測試。 本發(fā)明還公開了 一種抽取IMS數(shù)據(jù)庫中數(shù)據(jù)的裝置,包括下載單元,用于將IMS數(shù)據(jù)庫中的數(shù)據(jù)下載至主機文件中; 第一預(yù)置單元,用于預(yù)置數(shù)據(jù)抽取條件;抽取單元,用于根據(jù)所述抽取條件遍歷所述下載文件中的記錄,抽取符合 條件的數(shù)據(jù)。進一步,還包括第一確定單元,用于確定IMS數(shù)據(jù)庫中下載的數(shù)據(jù)范圍。 進一步,當(dāng)主機文件中的數(shù)據(jù)庫為多個時,還包括 第二預(yù)置單元,用于預(yù)置基準(zhǔn)欄位,且所述抽取單元用于 根據(jù)所述抽取條件和基準(zhǔn)欄位遍歷下載文件中不同數(shù)據(jù)庫中的記錄,抽取 符合條件的數(shù)據(jù)。進一步,還包括第二確定單元,用于在抽取的數(shù)據(jù)中確定需要進行清洗的數(shù)據(jù); 第三預(yù)置單元,用于預(yù)置清洗規(guī)則;清洗單元,用于根據(jù)清洗規(guī)則對所述需要進行清洗的數(shù)據(jù)進行轉(zhuǎn)換,完成 數(shù)據(jù)清洗。進一步,當(dāng)清洗的數(shù)據(jù)是多個不同數(shù)據(jù)庫中的數(shù)據(jù)時,所述第三預(yù)置單元 預(yù)置的清洗規(guī)則需滿足條件不同數(shù)據(jù)庫中屬性相同且值相同的欄位的清洗少見則相同。 進一步,還包括創(chuàng)建單元,用于將所述抽取清洗后的數(shù)據(jù)RELOAD回測試環(huán)境的數(shù)據(jù)庫, 完成基礎(chǔ)測試環(huán)境的數(shù)據(jù)裝入工作,建立基礎(chǔ)測試環(huán)境。 進一步,還包括數(shù)據(jù)傳輸單元,用于將所述基礎(chǔ)測試環(huán)境中的數(shù)據(jù)倒入其他測試環(huán)境,進 行測試。本發(fā)明還公開了一種抽取IMS數(shù)據(jù)庫中數(shù)據(jù)的系統(tǒng)。 與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點本發(fā)明所述技術(shù)方案先將IMS數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)下檔至主機文件中,再 在主機系統(tǒng)中對下檔文件中的數(shù)據(jù)進行抽取,由于對IMS數(shù)據(jù)庫中的數(shù)據(jù)下 檔時速度很快,往往幾分鐘即可完成,因此提高了數(shù)據(jù)抽取的效率。并且數(shù)據(jù)下檔完成后即可斷開與IMS數(shù)據(jù)庫系統(tǒng)的連接,在數(shù)據(jù)抽取過程中不再需要 主機系統(tǒng)與IMS數(shù)據(jù)庫系統(tǒng)建立連接,因此節(jié)省了網(wǎng)絡(luò)資源。 進一步,通過預(yù)設(shè)基準(zhǔn)欄位,保證了抽取時數(shù)據(jù)的完整性。 進一步,在數(shù)據(jù)抽取完成后倒入測試環(huán)境前,對抽取后數(shù)據(jù)中的重要數(shù)據(jù) 信息進行清洗,從而不會造成重要數(shù)據(jù)信息的泄露,增強了數(shù)據(jù)的安全性。
圖1是本發(fā)明一種抽取IMS數(shù)據(jù)庫中數(shù)據(jù)方法第一實施例的流程圖; 圖2是本發(fā)明一種抽取IMS數(shù)據(jù)庫中數(shù)據(jù)方法第二實施例的流程圖; 圖3是本發(fā)明一種抽取IMS數(shù)據(jù)庫中數(shù)據(jù)方法第三實施例的流程圖; 圖4是本發(fā)明一種抽取IMS數(shù)據(jù)庫中數(shù)據(jù)裝置第一實施例的結(jié)構(gòu)框圖; 圖5是本發(fā)明一種抽取IMS數(shù)據(jù)庫中數(shù)據(jù)系統(tǒng)第 一實施例的結(jié)構(gòu)框圖。
具體實施方式
為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實施方式
對本發(fā)明作進一步詳細的說明。本發(fā)明可以在由計算機執(zhí)行的計算機可執(zhí)行指令的 一般上下文中描 述,例如程序模塊。 一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象 數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計 算環(huán)境中實踐本發(fā)明,在這些分布式計算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連 接的遠程處理設(shè)備來執(zhí)行任務(wù)。在分布式計算環(huán)境中,程序模塊可以位于 包括存儲設(shè)備在內(nèi)的本地和遠程計算機存儲介質(zhì)中。參照圖1,示出了本發(fā)明一種抽取IMS數(shù)據(jù)庫中數(shù)據(jù)方法第一實施例的流 程圖,包括步驟步驟101 、將IMS數(shù)據(jù)庫中的數(shù)據(jù)下載至主機文件中??梢酝ㄟ^多種方式將IMS數(shù)據(jù)庫中的數(shù)據(jù)下載至主機系統(tǒng)中,本發(fā)明實 施例優(yōu)選的是通過直接對數(shù)據(jù)庫物理文件進行處理的方式進行數(shù)據(jù)下檔,如采 用數(shù)據(jù)庫快速下檔工具BMC工具完成對數(shù)據(jù)庫中數(shù)據(jù)的下載。步驟102、預(yù)置數(shù)據(jù)抽取條件。數(shù)據(jù)庫中有各種各樣的數(shù)據(jù),并不是所有的數(shù)據(jù)都對測試環(huán)境有用,并且利用所述海量數(shù)據(jù)進行測試,會浪費計算機系統(tǒng)資源,測試效率也很低,因此 需要對海量數(shù)據(jù)進行選擇,選擇需要的數(shù)據(jù)進行測試。所述預(yù)置數(shù)據(jù)抽取條件即是對海量數(shù)據(jù)進行選擇的條件,所述抽取i件可以才艮據(jù)實際應(yīng)用環(huán)境進行i殳定,如只抽取某個省的數(shù)據(jù)則抽取條件可以設(shè)定為省名或省代碼,抽取某個公 司的數(shù)據(jù)則設(shè)定抽取條件為公司名稱,本發(fā)明并不對此進行限定。步驟103、根據(jù)所述抽取條件遍歷所述下載文件中的記錄,抽取符合條件 的數(shù)據(jù)。假設(shè)數(shù)據(jù)庫I,它的某一欄位包括機構(gòu)號A,此時如果對該欄位按照機構(gòu) 抽取,如果遍歷過程中的機構(gòu)包括機構(gòu)A,則該條記錄滿足條件,被抽取出來; 如果遍歷過程中的機構(gòu)不包括機構(gòu)A,則該記錄不滿足,不進行抽取。進一步,為了減少數(shù)據(jù)下載的數(shù)據(jù)量,本發(fā)明所述實施例在下載IMS數(shù) 據(jù)庫中的數(shù)據(jù)之前還可以包括步驟確定IMS數(shù)據(jù)庫中下載的數(shù)據(jù)范圍。因為IMS數(shù)據(jù)庫中的數(shù)據(jù)量都非常大,如果對IMS數(shù)據(jù)庫中的所有數(shù)據(jù) 都進行下載,則會下載許多無關(guān)的數(shù)據(jù),所述無關(guān)數(shù)據(jù)的下載不但會浪費網(wǎng)絡(luò) 資源,也會浪費主機系統(tǒng)的存儲資源,并且降低數(shù)據(jù)抽取的效率。因此,在進 行數(shù)據(jù)下載之前,先確定需要下載IMS數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù),減少無關(guān)數(shù)據(jù) 的下載。本發(fā)明實施例的技術(shù)方案是先將IMS數(shù)據(jù)庫中的數(shù)據(jù)下載至主機系統(tǒng), 然后再在主機系統(tǒng)完成對數(shù)據(jù)的抽取,因為數(shù)據(jù)下檔速度非??欤畮追?鐘點甚至幾分鐘即可完成,然后在本地主機系統(tǒng)對下載文件中的數(shù)據(jù)進行抽 取,提高了數(shù)據(jù)抽取的效率,并且在數(shù)據(jù)抽取過程中不需要主機系統(tǒng)與IMS 數(shù)據(jù)庫系統(tǒng)一直建立連接,節(jié)約了網(wǎng)絡(luò)資源和計算機系統(tǒng)資源。參照圖2,示出了本發(fā)明一種抽取IMS數(shù)據(jù)庫中數(shù)據(jù)方法第二實施例的流 程圖。在本發(fā)明的第二實施例中,所述抽取的數(shù)據(jù)來源可能不只一個數(shù)據(jù)庫, 即需要從兩個或多個有關(guān)聯(lián)的數(shù)據(jù)庫中抽取數(shù)據(jù),為了保證數(shù)據(jù)抽取的完整 性,包括步驟步驟201 、將IMS數(shù)據(jù)庫中的數(shù)據(jù)下載至主機文件中??梢酝ㄟ^多種方式將IMS數(shù)據(jù)庫中的數(shù)據(jù)下載至主機系統(tǒng)中,本發(fā)明實用數(shù)據(jù)庫快速下檔工具BMC工具完成對數(shù)據(jù)庫中數(shù)據(jù)的下載。進一步,為了減少數(shù)據(jù)下載的數(shù)據(jù)量,所述實施例在下載IMS數(shù)據(jù)庫中的數(shù)據(jù)之前還可以包括步驟確定IMS數(shù)據(jù)庫中下載的數(shù)據(jù)范圍。因為IMS數(shù)據(jù)庫中的數(shù)據(jù)量都非常大,如果對IMS數(shù)據(jù)庫中的所有數(shù)據(jù) 都進行下載,則會下載許多無關(guān)的數(shù)據(jù),所述無關(guān)數(shù)據(jù)的下載不但會浪費網(wǎng)絡(luò) 資源,也會浪費主機系統(tǒng)的存儲資源,并且降低數(shù)據(jù)抽取的效率。因此,在進 行數(shù)據(jù)下載之前,先確定需要下載IMS數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù),減少無關(guān)數(shù)據(jù) 的下載。步驟202、預(yù)置數(shù)據(jù)抽取條件。數(shù)據(jù)庫中有各種各樣的數(shù)據(jù),并不是所有的數(shù)據(jù)都對測試環(huán)境有用,并且 利用所述海量數(shù)據(jù)進行測試,會浪費計算機系統(tǒng)資源,測試效率也很低,因此 需要對海量數(shù)據(jù)進行選擇,選擇需要的數(shù)據(jù)進行測試。所述預(yù)置數(shù)據(jù)抽取條件 即是對海量數(shù)據(jù)進行選擇的條件,所述抽取條件可以根據(jù)實際應(yīng)用環(huán)境進行設(shè) 定,如只抽取某個省的數(shù)據(jù)則抽取條件可以設(shè)定為省名或省代碼,抽取某個公 司的數(shù)據(jù)則設(shè)定抽取條件為公司名稱,本發(fā)明并不對此進行限定。步驟203、預(yù)置基準(zhǔn)欄位。本實施例中所述步驟202和步驟203并沒有先后的順序關(guān)系,并不因為所 述步驟編號的不同而認(rèn)為預(yù)置抽取條件步驟在前、預(yù)置基準(zhǔn)欄位步驟在后。步驟204、根據(jù)所述抽取條件和基準(zhǔn)欄位遍歷下載文件中不同數(shù)據(jù)庫中的 記錄,抽取符合條件的數(shù)據(jù)。由于IMS數(shù)據(jù)庫是層次型數(shù)據(jù)庫,對于有聯(lián)系的數(shù)據(jù)庫一般都會有相同 含義的欄位,例如客戶編號(用于區(qū)分各客戶間信息),客戶編號在數(shù)據(jù)庫I 和數(shù)據(jù)庫II中都會存在,所以對于此類數(shù)據(jù)庫可以采用對相同欄位進行抽取 的方式,保證了數(shù)據(jù)抽取時的數(shù)據(jù)完整性。參照圖3,示出了本發(fā)明一種抽取IMS數(shù)據(jù)庫中數(shù)據(jù)方法第三實施例的流 程圖。在本發(fā)明的第三實施例中,所述抽取后的數(shù)據(jù)中往往包括重要的數(shù)據(jù)信 息,如對這些數(shù)據(jù)不進行任何處理,則有可能造成重要數(shù)據(jù)信息的泄露,無法保證重要數(shù)據(jù)的安全,為了保證重要數(shù)據(jù)信息的安全,本實施例對抽取后的數(shù) 據(jù)魂行清洗,因此本實施例技術(shù)方案除了包括實施例一或?qū)嵤├械臄?shù)據(jù)抽取步驟外,還包括步驟步驟301、在抽取的數(shù)據(jù)中確定需要進行清洗的數(shù)據(jù)。數(shù)據(jù)清洗是對數(shù)據(jù)庫中某些重要的欄位(如客戶名稱、密碼等)按一定的 規(guī)則進行不可逆的轉(zhuǎn)換,從而達到數(shù)據(jù)保護的目的。抽取后的數(shù)據(jù)并不都是重要數(shù)據(jù)信息,有些數(shù)據(jù)不進行清洗轉(zhuǎn)換也不會有 太大的影響,為了節(jié)約主機資源,提高清洗效率,需要在抽取的數(shù)據(jù)中確定需 要進行清洗的數(shù)據(jù),以減少清洗的數(shù)據(jù)量。步驟302、預(yù)置清洗規(guī)則。所述清洗規(guī)則也即源數(shù)據(jù)與目標(biāo)數(shù)據(jù)的對應(yīng)關(guān)系,所述清洗規(guī)則可以根據(jù) 實際需要設(shè)定,本發(fā)明不進此進行限定。進一步,當(dāng)清洗的數(shù)據(jù)來源于多個有關(guān)聯(lián)的數(shù)據(jù)庫時,為了保證數(shù)據(jù)清洗 后數(shù)據(jù)的一致性,預(yù)置的清洗規(guī)則需滿足條件不同數(shù)據(jù)庫中屬性相同且值相 同的欄位的清洗規(guī)則相同,即通過對轉(zhuǎn)換欄位內(nèi)容的判斷,實現(xiàn)兩個不同數(shù)據(jù) 庫中相同屬性且值相同的欄位經(jīng)過轉(zhuǎn)換后,它們的值還是相同的。步驟303、根據(jù)清洗規(guī)則對所述需要進行清洗的數(shù)據(jù)進行轉(zhuǎn)換,完成數(shù)據(jù) 清洗。在本發(fā)明所述實施例中,數(shù)據(jù)清洗是在數(shù)據(jù)抽取步驟后進行的,當(dāng)然,也 可以先進行數(shù)據(jù)清洗再進行數(shù)據(jù)抽取,這樣的話數(shù)據(jù)清洗需要處理的數(shù)據(jù)量4艮 大。因此,為了提高清洗效率,節(jié)約計算機資源,本發(fā)明優(yōu)選的是在數(shù)據(jù)抽取 后再進行數(shù)據(jù)清洗,這樣清洗的數(shù)據(jù)量大大減少,可能只是原始凄t據(jù)量的十分 之一或更少。進一步,還可以包括步驟將所述抽取清洗后的數(shù)據(jù)RELOAD回測試環(huán) 境的數(shù)據(jù)庫,完成基礎(chǔ)測試環(huán)境的數(shù)據(jù)裝入工作,建立基礎(chǔ)測試環(huán)境。在進行測試時,將所述基礎(chǔ)測試環(huán)境中的數(shù)據(jù)倒入其他測試環(huán)境,進行測試。通過建立一套模板抽取環(huán)境以及多套測試環(huán)境,實現(xiàn)在一個環(huán)境進行有條 件抽取后,將抽取數(shù)據(jù)經(jīng)過清洗后倒入其他測試環(huán)境,完成基礎(chǔ)測試環(huán)境的建立。通過一對多的關(guān)系,減少了不同測試環(huán)境上的重復(fù)工作。下面以一個實例對本發(fā)明所述實施例的技術(shù)方案進行一個詳細的說明假如對活期數(shù)據(jù)庫BSAACND進行抽取和清洗BSAACND01,SAACNACN,03,28,0003,0000,C2;0;0;0000, ;0000, ;0000, ;0000, ;0000, ;0000, 抽取條件為C2,001,9,310613640,000,0, ,001,9,000000000,000,0, ,310613640,N0003,0000,C2表明數(shù)據(jù)庫中記錄的第3位開始的9位為310613640時,該 記錄滿足抽取條件。將滿足條件的記錄保存在主機文件ISDA**RBSAACND.PS.TYPEA1.A* 中,并將文件倒入測試環(huán)境中。通過數(shù)據(jù)倒入模塊將文件中的內(nèi)容寫入測試環(huán) 境的BSAACND中,此時在寫入數(shù)據(jù)庫的過程中對BSAACND的部分欄位進 行了清洗轉(zhuǎn)換。清洗規(guī)則為BSAACND01,SAACNACN,03,28,B,0003,0028,P,0174,0006,P,0314,0006,N,0122,0040, ,OOOO,OOOO/承需要進行轉(zhuǎn)換,欄位按照密碼類型轉(zhuǎn)換,如將密碼轉(zhuǎn)換成'111111'; N,0122,0040, 表示122位開始的40位需要轉(zhuǎn)換,轉(zhuǎn)換按照字符型處理,如將'上海市**有限 責(zé)任公司,轉(zhuǎn)換成"上海第一公司"。參照圖4,示出了本發(fā)明 一種抽取IMS數(shù)據(jù)庫中數(shù)據(jù)裝置第 一實施例的結(jié) 構(gòu)框圖,包括下載單元401 、用于將IMS數(shù)據(jù)庫中的數(shù)據(jù)下載至主機文件中。 第一預(yù)置單元402、用于預(yù)置數(shù)據(jù)抽取條件。抽取單元403、用于根據(jù)所述抽取條件遍歷所述下載文件中的記錄,抽取 符合條件的數(shù)據(jù)。因為IMS數(shù)據(jù)庫中的數(shù)據(jù)量都非常大,如果對IMS數(shù)據(jù)庫中的所有數(shù)據(jù)都進行下載,則會下載許多無關(guān)的數(shù)據(jù),所述無關(guān)數(shù)據(jù)的下載不但會浪費網(wǎng)絡(luò)資源,也會浪費主機系統(tǒng)的存儲資源,并且降低數(shù)據(jù)抽取的效率,因此還包括 第一確定單元、用于確定IMS數(shù)據(jù)庫中下載的數(shù)據(jù)范圍。 本發(fā)明實施例的技術(shù)方案是先將IMS數(shù)據(jù)庫中的數(shù)據(jù)下載至主機系統(tǒng), 然后再在主機系統(tǒng)完成對數(shù)據(jù)的抽取,因為數(shù)據(jù)下檔速度非???,往往十幾分 鐘點甚至幾分鐘即可完成,然后在本地主機系統(tǒng)對下載文件中的數(shù)據(jù)進行抽 取,提高了數(shù)據(jù)抽取的效率,并且在數(shù)據(jù)抽取過程中不需要主機系統(tǒng)與IMS 數(shù)據(jù)庫系統(tǒng)一直建立連接,節(jié)約了網(wǎng)絡(luò)資源和計算機系統(tǒng)資源。在本發(fā)明所述裝置的第二實施例中,所述抽取的數(shù)據(jù)來源可能不只一個數(shù) 據(jù)庫,即需要從兩個或多個有關(guān)聯(lián)的數(shù)據(jù)庫中抽取數(shù)據(jù),為了保證數(shù)據(jù)抽取的完整性,除了包括下載單元、第一預(yù)置單元以及第一確定單元外,還包括 第二預(yù)置單元、用于預(yù)置基準(zhǔn)欄位。抽取單元、用于根據(jù)所述抽取條件和基準(zhǔn)欄位遍歷下載文件中不同數(shù)據(jù)庫 中的記錄,抽取符合條件的數(shù)據(jù)。在本發(fā)明裝置的第三實施例中,所述抽取后的數(shù)據(jù)中往往包括重要的數(shù)據(jù) 信息,如對這些數(shù)據(jù)不進行任何處理,則有可能造成重要數(shù)據(jù)信息的泄露,無 法保證重要數(shù)據(jù)的安全,為了保證重要數(shù)據(jù)信息的安全,本實施例對抽取后的 數(shù)據(jù)進行清洗。因此本實施例技術(shù)方案除了包括實施例一的下載單元、第一預(yù) 置單元、抽:取單元或?qū)嵤├械南螺d單元、第一預(yù)置單元、第二預(yù)置單元、 抽取單元外,還包括第二確定單元、用于在抽取的數(shù)據(jù)中確定需要進行清洗的數(shù)據(jù)。第三預(yù)置單元、用于預(yù)置清洗MJ'J。清洗單元、用于根據(jù)清洗規(guī)則對所述需要進行清洗的數(shù)據(jù)進行轉(zhuǎn)換,完成 數(shù)據(jù)清洗。進一步,當(dāng)清洗的數(shù)據(jù)是多個不同數(shù)據(jù)庫中的數(shù)據(jù)時,所述第三預(yù)置單元 預(yù)置的清洗規(guī)則需滿足條件不同數(shù)據(jù)庫中屬性相同且值相同的欄位的清洗規(guī) 則相同。進一步,還包括創(chuàng)建單元、用于將所述抽取清洗后的數(shù)據(jù)RELOAD回測試環(huán)境的數(shù)據(jù)庫, 完成基礎(chǔ)測試環(huán)境的數(shù)據(jù)裝入工作,建立泰礎(chǔ)測試環(huán)境。 進一步,還包括數(shù)據(jù)傳輸單元、用于將所述基礎(chǔ)測試環(huán)境中的數(shù)據(jù)倒入其他測試環(huán)境,進 行測試。參照圖5,示出了本發(fā)明 一種抽取IMS數(shù)據(jù)庫中數(shù)據(jù)系統(tǒng)第 一實施例的結(jié) 構(gòu)框圖,包括IMS數(shù)據(jù)庫子系統(tǒng)501和主機子系統(tǒng)502,其中,所述主機子系統(tǒng)包括 下載單元、用于將IMS數(shù)據(jù)庫中的數(shù)據(jù)下載至主機文件中。 第一預(yù)置單元、用于預(yù)置數(shù)據(jù)抽取條件。抽取單元、用于根據(jù)所述抽取條件遍歷所述下載文件中的記錄,抽取符合 條件的數(shù)據(jù)。因為IMS數(shù)據(jù)庫中的數(shù)據(jù)量都非常大,如果對IMS數(shù)據(jù)庫中的所有數(shù)據(jù) 都進行下載,則會下載許多無關(guān)的數(shù)據(jù),所述無關(guān)數(shù)據(jù)的下載不^f旦會浪費網(wǎng)絡(luò) 資源,也會浪費主機系統(tǒng)的存儲資源,并且降低數(shù)據(jù)抽取的效率,因此還包括第一確定單元、用于確定IMS數(shù)據(jù)庫中下載的數(shù)據(jù)范圍。在本發(fā)明所述系統(tǒng)的第二實施例中,所述主機子系統(tǒng)除了包括下載單元、 第一預(yù)置單元以及第一確定單元外,還包括第二預(yù)置單元、用于預(yù)置基準(zhǔn)欄位。抽取單元、用于根據(jù)所述抽取條件和基準(zhǔn)欄位遍歷下載文件中不同數(shù)據(jù)庫 中的記錄,抽取符合條件的數(shù)據(jù)。在本發(fā)明系統(tǒng)的第三實施例中,所述主機子系統(tǒng)除了包括實施例一的下載 單元、第一預(yù)置單元、抽取單元或?qū)嵤├械南螺d單元、第一預(yù)置單元、第 二預(yù)置單元、抽取單元外,還包括第二確定單元、用于在抽取的數(shù)據(jù)中確定需要進行清洗的數(shù)據(jù)。第三預(yù)置單元、用于預(yù)置清洗MJ'J。清洗單元、用于根據(jù)清洗規(guī)則對所述需要進行清洗的數(shù)據(jù)進行轉(zhuǎn)換,完成 數(shù)據(jù)清洗。進一步,當(dāng)清洗的數(shù)據(jù)是多個不同數(shù)據(jù)庫中的數(shù)據(jù)時,所述第三預(yù)置單元預(yù)置的清洗規(guī)則需滿足條件不同數(shù)據(jù)庫中屬性相同且值相同的欄位的清洗規(guī)則相同,需要說明的是,對于前述的各方法實施例,為了簡單描述,故將其都 表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受 所描述的動作順序的限制,因為依據(jù)本發(fā)明,某些步驟可以釆用其他順序 或者同時進行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實 施例均屬于優(yōu)選實施例,所涉及的動作和模塊并不一定是本發(fā)明所必須的。在上述實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒 有詳述的部分,可以參見其他實施例的相關(guān)描述。其中,本發(fā)明所述裝置實施例和系統(tǒng)實施例是與方法實施例對應(yīng)的,因此, 在裝置實施例或系統(tǒng)實施例中未詳細描述的部分參照方法實施例中相應(yīng)部分 的描述即可。以上對本發(fā)明所提供的一種抽取IMS數(shù)據(jù)庫中數(shù)據(jù)的方法、裝置和系統(tǒng),述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時, 對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式
及應(yīng)用范圍 上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
權(quán)利要求
1、一種抽取IMS數(shù)據(jù)庫中數(shù)據(jù)的方法,其特征在于,包括將IMS數(shù)據(jù)庫中的數(shù)據(jù)下載至主機文件中;預(yù)置數(shù)據(jù)抽取條件;根據(jù)所述抽取條件遍歷所述下載文件中的記錄,抽取符合條件的數(shù)據(jù)。
2、 如權(quán)利要求l所述的方法,其特征在于,在下載IMS數(shù)據(jù)庫中的數(shù)據(jù) 之前還包括步驟確定IMS數(shù)據(jù)庫中下載的數(shù)據(jù)范圍。
3、 如權(quán)利要求1所述的方法,其特征在于,當(dāng)主機文件中的數(shù)據(jù)庫為多 個時,在數(shù)據(jù)抽取步驟之前還包括預(yù)置基準(zhǔn)欄位,且所述數(shù)據(jù)抽取過程為根據(jù)所述抽取條件和基準(zhǔn)欄位遍歷下載文件中不同數(shù)據(jù)庫中的記錄,抽取 符合條件的數(shù)據(jù)。
4、 如權(quán)利要求1或3所述的方法,其特征在于,還包括 在抽取的數(shù)據(jù)中確定需要進行清洗的數(shù)據(jù); 預(yù)置清洗規(guī)則;根據(jù)清洗規(guī)則對所述需要進行清洗的數(shù)據(jù)進行轉(zhuǎn)換,完成數(shù)據(jù)清洗。
5、如權(quán)利要求4所述的方法,其特征在于,當(dāng)清洗的數(shù)據(jù)是多個不同數(shù) 據(jù)庫中的數(shù)據(jù)時,所述預(yù)置的清洗規(guī)則需滿足條件不同數(shù)據(jù)庫中屬性相同且值相同的欄位的清洗規(guī)則相同。
6、 如權(quán)利要求4所述的方法,其特征在于,還包括 將所述抽取清洗后的數(shù)據(jù)RELOAD回測試環(huán)境的數(shù)據(jù)庫,完成基礎(chǔ)測試環(huán)境的數(shù)據(jù)裝入工作,建立基礎(chǔ)測試環(huán)境。
7、 如權(quán)利要求6所述的方法,其特征在于,還包括 將所述基礎(chǔ)測試環(huán)境中的數(shù)據(jù)倒入其他測試環(huán)境,進行測試。
8、 一種抽取IMS數(shù)據(jù)庫中數(shù)據(jù)的裝置,其特征在于,包括 下載單元,用于將IMS數(shù)據(jù)庫中的數(shù)據(jù)下載至主機文件中; 第一預(yù)置單元,用于預(yù)置數(shù)據(jù)抽取條件;抽取單元,用于根據(jù)所述抽取條件遍歷所述下載文件中的記錄,抽取符合條件的數(shù)據(jù)。
9、 如權(quán)利要求8所述的裝置,其特征在于,還包括 第一確定單元,用于確定IMS數(shù)據(jù)庫中下載的數(shù)據(jù)范圍。
10、 如權(quán)利要求8所述的裝置,其特征在于,當(dāng)主機文件中的數(shù)據(jù)庫為多 個時,還包4舌第二預(yù)置單元,用于預(yù)置基準(zhǔn)欄位,且所述抽取單元用于 根據(jù)所述抽取條件和基準(zhǔn)欄位遍歷下載文件中不同數(shù)據(jù)庫中的記錄,抽取 符合條件的數(shù)據(jù)。
11、 如權(quán)利要求8或IO所述的裝置,其特征在于,還包括 第二確定單元,用于在抽取的數(shù)據(jù)中確定需要進行清洗的數(shù)據(jù);第三預(yù)置單元,用于預(yù)置清洗規(guī)則;清洗單元,用于根據(jù)清洗規(guī)則對所述需要進行清洗的數(shù)據(jù)進行轉(zhuǎn)換,完成 數(shù)據(jù)清洗。
12、 如權(quán)利要求11所述的裝置,其特征在于,當(dāng)清洗的數(shù)據(jù)是多個不同 數(shù)據(jù)庫中的數(shù)據(jù)時,所述第三預(yù)置單元預(yù)置的清洗規(guī)則需滿足條件不同數(shù)據(jù)庫中屬性相同且值相同的欄位的清洗規(guī)則相同。
13、 如權(quán)利要求11所述的裝置,其特征在于,還包括創(chuàng)建單元,用于將所述抽取清洗后的數(shù)據(jù)RELOAD回測試環(huán)境的數(shù)據(jù)庫, 完成基礎(chǔ)測試環(huán)境的數(shù)據(jù)裝入工作,建立基礎(chǔ)測試環(huán)境。
14、 如權(quán)利要求13所述的裝置,其特征在于,還包括 數(shù)據(jù)傳輸單元,用于將所述基礎(chǔ)測試環(huán)境中的數(shù)據(jù)倒入其他測試環(huán)境,進行測試。
15、 一種抽取IMS數(shù)據(jù)庫中數(shù)據(jù)的系統(tǒng),所述系統(tǒng)包括IMS數(shù)據(jù)庫子系 統(tǒng)、主機子系統(tǒng),其特征在于所述主機子系統(tǒng)包括如權(quán)利要求8至14任一權(quán) 利要求所述的裝置。
全文摘要
本發(fā)明提供了一種抽取IMS數(shù)據(jù)庫中數(shù)據(jù)的方法,包括步驟將IMS數(shù)據(jù)庫中的數(shù)據(jù)下載至主機文件中;預(yù)置數(shù)據(jù)抽取條件;根據(jù)所述抽取條件遍歷所述下載文件中的記錄,抽取符合條件的數(shù)據(jù)。當(dāng)主機文件中的數(shù)據(jù)庫為多個時,在數(shù)據(jù)抽取步驟之前還包括步驟預(yù)置基準(zhǔn)欄位,且所述數(shù)據(jù)抽取過程為根據(jù)所述抽取條件和基準(zhǔn)欄位遍歷下載文件中不同數(shù)據(jù)庫中的記錄,抽取符合條件的數(shù)據(jù)。提高了數(shù)據(jù)抽取的效率,節(jié)省了網(wǎng)絡(luò)資源。本發(fā)明還提供了一種抽取IMS數(shù)據(jù)庫中數(shù)據(jù)的裝置和系統(tǒng)。
文檔編號G06F17/30GK101236557SQ200810006049
公開日2008年8月6日 申請日期2008年2月1日 優(yōu)先權(quán)日2008年2月1日
發(fā)明者峻 嚴(yán), 堅 葉, 靚 徐, 戚桂鳳, 朱洪梅, 琢 來, 林志農(nóng), 洪延生, 王耀強, 鄭濱濤 申請人:中國建設(shè)銀行股份有限公司