專利名稱::一種數(shù)據(jù)歸一化方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及安全信息管理,特別涉及一種數(shù)據(jù)歸一化方法。
背景技術(shù):
:為了應(yīng)對(duì)企業(yè)內(nèi)、外部的安全挑戰(zhàn),企業(yè)先后部署了大量的安全系統(tǒng),但卻往往形成各個(gè)防御孤島一系統(tǒng)間缺乏協(xié)同,由此,各種安全系統(tǒng)產(chǎn)生了大量告警,出現(xiàn)信息過載,造成很多誤報(bào)和漏報(bào)。此外,企業(yè)還面臨著不斷增長的內(nèi)控和信息系統(tǒng)審計(jì)的壓力,要求增強(qiáng)業(yè)務(wù)持續(xù)性的呼聲不斷提高。所有這些都在呼喚面向全網(wǎng)的安全信息集中管理平臺(tái)的出現(xiàn),這就是安全信息管理(SecurityInformationManager,SIM)。安全信息管理也叫安全信息和事件管理(SecurityInformationandEventManager,SIEM),這是一個(gè)面向企業(yè)IT計(jì)算環(huán)境的安全集中管理平臺(tái),該平臺(tái)能夠收集來自企業(yè)計(jì)算環(huán)境中的各種設(shè)備、應(yīng)用的安全日志和事件,并進(jìn)行集中存儲(chǔ)、監(jiān)控、分析、報(bào)警、響應(yīng)和報(bào)告,變過去被動(dòng)的單點(diǎn)防御為全網(wǎng)的綜合防雄卩。目前,SIM正被廣泛應(yīng)用于企業(yè)內(nèi)部的威脅管理、合規(guī)審計(jì)、日志管理、安全審計(jì)及應(yīng)急響應(yīng)等方面。目前普遍采用基于插件開發(fā)的形式進(jìn)行數(shù)據(jù)歸一化。插件是計(jì)算機(jī)軟件中的一種特殊程序,其實(shí)現(xiàn)獨(dú)立的功能邏輯,通過統(tǒng)一的程序接口與主程序交互,從而擴(kuò)充主程序的功能,其不能單獨(dú)執(zhí)行,必須依賴于主程序環(huán)境方可運(yùn)行。通過自定義的接口,插件能夠自由訪問主程序中的各種資源,編程自由度極大,可以無限發(fā)揮插件開發(fā)者的創(chuàng)意,但編寫相對(duì)復(fù)雜,對(duì)于插件接口之間的協(xié)調(diào)比較困難,插件的開發(fā)需要專業(yè)的程序員才能進(jìn)行。插件開發(fā)一般需要通過專業(yè)的開發(fā)工具(如VB,VC等)。插件的存在形式為經(jīng)過代碼編譯產(chǎn)生的二進(jìn)制文件。每當(dāng)有一種新的數(shù)據(jù)需要?dú)w一化時(shí),總是新開發(fā)一個(gè)插件對(duì)這種數(shù)據(jù)進(jìn)行特定的處理。但是,基于插件開發(fā)的數(shù)據(jù)歸一化方案,開發(fā)周期長,調(diào)試?yán)щy,維護(hù)成本高,難于適應(yīng)環(huán)境變化,難于隨環(huán)境需要提供方便快捷的解決方案,客戶化程度低。
發(fā)明內(nèi)容本發(fā)明的目的在于,提供一種數(shù)據(jù)歸一化方法,解決數(shù)據(jù)歸一化開發(fā)調(diào)試?yán)щy,成本高,客戶化程度低,不容易適應(yīng)環(huán)境變化等需求問題。本發(fā)明的數(shù)據(jù)歸一化方法,包括下列步驟通過將數(shù)據(jù)進(jìn)行數(shù)據(jù)格式化腳本文件進(jìn)行數(shù)據(jù)格式化,并通過數(shù)據(jù)映射腳本文件進(jìn)行數(shù)據(jù)映射,將數(shù)據(jù)進(jìn)行歸一化。其中,所述數(shù)據(jù)格式化腳本文件,用于按照需要對(duì)數(shù)據(jù)進(jìn)行靈活的拆分、組裝,最終將數(shù)據(jù)格式化為統(tǒng)一格式。其中,所述數(shù)據(jù)格式化包括如下步驟步驟al:對(duì)特定含義的信息元的數(shù)據(jù)進(jìn)行處理,獲得統(tǒng)一的數(shù)據(jù)表現(xiàn)形式;步驟a2:數(shù)據(jù)填充,將經(jīng)過步驟al處理后的數(shù)據(jù)填充到相應(yīng)語義的歸一化數(shù)據(jù)字段中。在所述步驟al之前,進(jìn)一步包括如下步驟對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,將原始數(shù)據(jù)解析為獨(dú)立的有特定含義的信息元。其中,在所述步驟al中,對(duì)信息元的數(shù)據(jù)進(jìn)行處理,將相同類型的數(shù)據(jù)處理為統(tǒng)一的格式。在所述步驟a2中,將所述數(shù)據(jù)填充到相應(yīng)語義的歸一化數(shù)據(jù)字段中,包括對(duì)數(shù)據(jù)的匹配、解析、分拆、組合、編排格式的數(shù)據(jù)處理方法。所述數(shù)據(jù)映射腳本文件,用于將格式化后的數(shù)據(jù)在語義表述上進(jìn)行同一的映射轉(zhuǎn)換。本發(fā)明的有益效果是依照本發(fā)明的數(shù)據(jù)歸一化方法,通過數(shù)據(jù)格式化腳本文件,用于按照需要對(duì)數(shù)據(jù)進(jìn)行靈活的拆分、組裝,最終將數(shù)據(jù)格式化為統(tǒng)一的樣子;通過數(shù)據(jù)映射腳本文件,用于將格式化后的數(shù)據(jù)在語義表述上進(jìn)行同一的映射轉(zhuǎn)換。由于整個(gè)過程都通過腳本的形式進(jìn)行描述,以大大降低開發(fā)、調(diào)試及維護(hù)的難度,并提供了極其靈活的環(huán)境適應(yīng)及客戶化能力。圖1為基于文件配置的數(shù)據(jù)歸一化系統(tǒng)。具體實(shí)施例方式以下,參考附圖1詳細(xì)描述本發(fā)明的數(shù)據(jù)歸一化方法。本發(fā)明的核心思想是通過編寫腳本(Script)來描述數(shù)據(jù)歸一化的過程,并將過程定義為數(shù)據(jù)格式化和數(shù)據(jù)映射兩個(gè)部分。這兩部分的過程分別由數(shù)據(jù)格式化腳本文件和數(shù)據(jù)映射腳本文件來描述,兩者皆為文本文件。實(shí)際上,腳本就是程序,一般都是有應(yīng)用程序提供的編程語言。應(yīng)用程序包括瀏覽器(JavaScript,VBScript)、多媒體創(chuàng)作工具,應(yīng)用程序的宏和創(chuàng)作系統(tǒng)的批處理語言也可以歸入腳本之類。腳本同平時(shí)^f吏用的VB、C語言的區(qū)別主要是腳本語法比較簡單,比較容易掌握;腳本與應(yīng)用程序密切相關(guān),所以包括相對(duì)應(yīng)用程序自身的功能;腳本一般不具備通用性,所能處理的問題范圍有限。其中,數(shù)據(jù)格式化腳本文件,用于按照需要對(duì)數(shù)據(jù)進(jìn)行靈活的拆分、組裝,最終將數(shù)據(jù)格式化為統(tǒng)一的樣子;數(shù)據(jù)映射腳本文件,用于將格式化后的數(shù)據(jù)在語義表述上進(jìn)行同一的映射轉(zhuǎn)換。由于整個(gè)過程都通過腳本的形式進(jìn)行描述,以大大降低開發(fā)、調(diào)試及維護(hù)的難度,并提供了極其靈活的環(huán)境適應(yīng)及客戶化能力。數(shù)據(jù)格式化腳本以文本的方式描述了數(shù)據(jù)的格式化過程。一、數(shù)據(jù)格式化過程包括如下步驟步驟11:數(shù)據(jù)預(yù)處理,將原始數(shù)據(jù)解析為獨(dú)立的信息元(有特定含義的數(shù)據(jù)單元),該步驟可缺?。徊襟E12:數(shù)據(jù)處理,對(duì)信息元的數(shù)據(jù)進(jìn)行處理,最終獲得統(tǒng)一的數(shù)據(jù)表現(xiàn)形式;步驟13:數(shù)據(jù)填充,將經(jīng)過步驟12處理后的數(shù)據(jù)填充到相應(yīng)語義的歸一化數(shù)據(jù)字段中。整個(gè)數(shù)據(jù)填充處理過程中包括對(duì)數(shù)據(jù)的匹配、解析、分拆、組合、編排;〖各式等復(fù)雜的數(shù)據(jù)處理方法。其中,在步驟11中,數(shù)據(jù)預(yù)處理是根據(jù)將原始數(shù)據(jù)解析為信息元,即有特定含義的數(shù)據(jù)單元,信息元的劃分一般與歸一化事件字段有關(guān)。例如根據(jù)不同的解析程度要求對(duì)如下日志進(jìn)行解析CISCO交換機(jī)UDP日志<39>233159:*Mar2604:04:10:UDP:rcvd<table>tableseeoriginaldocumentpage6</column></row><table>其中,在步驟12中,數(shù)據(jù)處理是對(duì)信息元的數(shù)據(jù)進(jìn)行處理,將相同類型的數(shù)據(jù)處理為統(tǒng)一的格式。例如時(shí)間可以有非常多的表現(xiàn)形式,如"Dec311:00:002007","2007-12-311:00:00"或"MonDec311:00:00CST2007"等,它們表示的都是同一個(gè)時(shí)間,但表現(xiàn)形式上有差別。計(jì)算機(jī)無法自動(dòng)的認(rèn)知這些差別,所以為了后續(xù)的數(shù)據(jù)表現(xiàn)及數(shù)據(jù)處理,需要對(duì)時(shí)間進(jìn)行格式化,統(tǒng)一其表現(xiàn)形式。除時(shí)間外,還有MAC地址,IP地址等需要格式化的數(shù)據(jù)類型。除了格式上的統(tǒng)一外,還需要對(duì)數(shù)值型數(shù)據(jù)的度量進(jìn)行統(tǒng)一,如文件或空間的大小,可能用兆字節(jié)mb、千字節(jié)kb或字節(jié)byte等任意一個(gè)度量做單位,單位的不同會(huì)造成數(shù)據(jù)的巨大差異,因此也需要對(duì)數(shù)值型的數(shù)據(jù)進(jìn)行度量統(tǒng)一。此外,在步驟13中,數(shù)據(jù)填充是將經(jīng)過數(shù)據(jù)處理的信息元填充到相應(yīng)語義的歸一化數(shù)據(jù)字段中。通過正確分析原始數(shù)據(jù)的整體語義,正確的理解信息元的含義。例如,即使都是IP地址,但根據(jù)語義不同可以區(qū)分為源IP地址和目的IP地址,根據(jù)語義可以知道數(shù)據(jù)是誰發(fā)出的等,在確定語義后,將信息元分別填充到歸一化事件相對(duì)應(yīng)得字段中?,F(xiàn)有的數(shù)據(jù)格式化技術(shù)會(huì)面臨如下問題1、設(shè)備/應(yīng)用類型繁多?,F(xiàn)實(shí)生活中不同的用戶擁有不同類型的設(shè)備和應(yīng)用(設(shè)備如交換機(jī)、路由器、防火墻、IDS、VPN等,應(yīng)用如WEB服務(wù)器、FTP服務(wù)器、郵件服務(wù)器、數(shù)據(jù)庫等),這些設(shè)備和應(yīng)用會(huì)產(chǎn)生不同的數(shù)據(jù),另外由于沒有統(tǒng)一的標(biāo)準(zhǔn),即使相同類型的設(shè)備和應(yīng)用因?yàn)樯a(chǎn)廠家的不同也會(huì)產(chǎn)生不同的數(shù)據(jù),有的用一定格式的自然語言描述,有的可能用名值對(duì)(格式名字=值)的形式描述,不一而足(如上面例子中的cisco的交換機(jī)和防火墻,同樣描述的都是UDP協(xié)議的數(shù)據(jù)日志,但描述上存在著很大差異,同一個(gè)廠商的產(chǎn)品無法做到數(shù)據(jù)一致)要做到對(duì)如此眾多的設(shè)備/應(yīng)用進(jìn)行數(shù)據(jù)的分析整理,難度可想而知。2、數(shù)據(jù)內(nèi)容豐富。單就某種具體的設(shè)備或應(yīng)用來講,內(nèi)容就已經(jīng)很豐富。如上面例子多合出的cisco的交才灸才幾日志分為了udp和iparp,cisco的pix防火墻分為了upd和tcp。這些日志在描述上都有差別。實(shí)際上這兩種設(shè)備的內(nèi)容遠(yuǎn)比這些要豐富,交換機(jī)還提供其它協(xié)議日志,調(diào)試日志等,pix防火墻更有超過300種的日志描述格式。3、版本差異。相同的設(shè)備可能會(huì)因?yàn)榘姹镜牟煌瑪?shù)據(jù)的描述會(huì)發(fā)生變化。4、數(shù)據(jù)資料獲取困難。有些設(shè)備/應(yīng)用受自身產(chǎn)品發(fā)展的限制,對(duì)于產(chǎn)生的數(shù)據(jù)沒有詳細(xì)的說明文檔或根本沒有文檔。有些設(shè)備/應(yīng)用有文檔但很難獲取到。對(duì)于這樣的數(shù)據(jù),只能用采樣的方式,獲取它們的部分樣本數(shù)據(jù),然后對(duì)樣本數(shù)據(jù)進(jìn)行分析處理。這樣的方法存在局限性,采樣過程無法保障采樣的合理性與全面性,而真正要做到全面采樣的時(shí)間與人力成本太高,且沒有標(biāo)準(zhǔn)。那么在此基礎(chǔ)上進(jìn)行的數(shù)據(jù)分析就會(huì)存在極大的不準(zhǔn)確性,因?yàn)椴蓸拥牟蝗娑斐慑e(cuò)誤的理解數(shù)據(jù)時(shí)有發(fā)生。5、數(shù)據(jù)格式配置靈活。對(duì)于有些設(shè)備/應(yīng)用,它們的數(shù)據(jù)內(nèi)容配置靈活,可以配置產(chǎn)生數(shù)據(jù)的格式及內(nèi)容,如cisco的交換機(jī),它可以配置數(shù)據(jù)中時(shí)間的格式。微軟的IIS服務(wù)器,可以配置產(chǎn)生日志中包括哪些內(nèi)容的信息。6、用戶的需求。對(duì)于設(shè)備/應(yīng)用產(chǎn)生的數(shù)據(jù),有時(shí)用戶有明確的需求,他們只關(guān)心某類數(shù)據(jù),如只關(guān)心系統(tǒng)的登陸信息。那么針對(duì)明確的需求,其它類型的數(shù)據(jù)信息就可以被忽略,在處理過程中就可以去掉不必要的性能消耗,提高系統(tǒng)的整體性能。要解決以上的問題,必須做到擁有良好的可擴(kuò)展性、易用性、可維護(hù)性,并且能夠很好的適應(yīng)變化,方便修改,用戶可定制。插件技術(shù)擁有一定的可擴(kuò)展性,但易用性及可維護(hù)性相對(duì)較差,也很難適應(yīng)變化,不便于修改及用戶定制。它需要專業(yè)的開發(fā)人員,使用專門的開發(fā)工具才能進(jìn)行開發(fā),開發(fā)的程序調(diào)試部署都存在一定的難度。在用戶現(xiàn)場開發(fā)的成本太高,而不在用戶現(xiàn)場開發(fā),調(diào)試環(huán)境又很難模擬。部署時(shí)必須使用編譯過后的二進(jìn)制文件,這樣每當(dāng)發(fā)生變化時(shí),就需要打開代碼修改編譯后再部署,整個(gè)過程周期較長。另夕卜,用戶數(shù)據(jù)細(xì)節(jié)的變化比較多,因此要針對(duì)不同的用戶維護(hù)不同的代碼版本,維護(hù)困難,成本高。腳本技術(shù)能夠很好的解決所有這些問題,它具有良好的可擴(kuò)展性,簡單易用,修改、調(diào)試、部署方便,可以很好的適應(yīng)變化,滿足用戶定制需求。腳本技術(shù)簡單,不需要專業(yè)的開發(fā)人員就可以編寫,甚至用戶自己也可以編寫。由于腳本是文本文件,所以它方便修改,調(diào)試,部署。另外它維護(hù)成本低,不需要對(duì)這些文件集中管理,為不同用戶維護(hù)不同版本,這些文件全部都保存在用戶環(huán)境當(dāng)中,當(dāng)需求發(fā)生變化時(shí),只修改用戶環(huán)境中的腳本文件就可以了。二、數(shù)據(jù)映射腳本是以文本的方式描述了數(shù)據(jù)的語義表述一致化的過程。該過程將不同原始數(shù)據(jù)中,表示相同語義的內(nèi)容統(tǒng)一為同一的語義表示。其中,數(shù)據(jù)映射過程將不同原始數(shù)據(jù)中,表示相同語義的內(nèi)容統(tǒng)一為同一的語義表示。其區(qū)別于格式化的是,強(qiáng)調(diào)對(duì)數(shù)據(jù)內(nèi)容語義的統(tǒng)一。例如,在syslog標(biāo)準(zhǔn)中定義了8個(gè)級(jí)別的數(shù)據(jù),而windows的事件日志(eventlog)中定義了5個(gè)級(jí)別,分別如下<table>tableseeoriginaldocumentpage9</column></row><table>因?yàn)槎咴趧澐旨?jí)別的個(gè)數(shù)上不統(tǒng)一,而且定義不統(tǒng)一,這勢必會(huì)造成后續(xù)的數(shù)據(jù)表示及處理的不一致,所以必須對(duì)它們級(jí)別的內(nèi)容進(jìn)行數(shù)據(jù)映射,統(tǒng)一其語義,上面表格的映射部分給出了數(shù)據(jù)映射的對(duì)照關(guān)系。像這樣需要進(jìn)行數(shù)據(jù)映射的內(nèi)容還包括病毒信息、漏洞信息、補(bǔ)丁信息、IDS攻擊信息等,以上的信息均會(huì)因?yàn)閺S商或標(biāo)準(zhǔn)的不同,信息的描述上存在差異。如不同的反病毒廠商會(huì)給同一種病毒定義不同的名字,這里就需要將不同的名字映射為同一個(gè)名字,以便后續(xù)的數(shù)據(jù)處理?,F(xiàn)有的數(shù)據(jù)映射技術(shù)通常面臨如下問題1、設(shè)備/應(yīng)用類型繁多。與數(shù)據(jù)格式化面臨的問題一致,數(shù)據(jù)映射也將面對(duì)種類繁多的各種設(shè)備及應(yīng)用。2、數(shù)據(jù)內(nèi)容豐富。這里的內(nèi)容豐富區(qū)別于數(shù)據(jù)格式化,不是指的數(shù)據(jù)的整體描述,而是指數(shù)據(jù)中的單個(gè)信息元,如表示病毒名的信息元。這個(gè)信息元可能表現(xiàn)成千上萬種的病毒名的任何一種,但作數(shù)據(jù)映射時(shí),卻需要將這成千上萬種的病毒都處理到,漏洞、補(bǔ)丁等也要面對(duì)同樣的問題。3、版本差異。不論是病毒、漏洞還是補(bǔ)丁等,它們都具有不斷變化和更新的特征,廠商會(huì)隨時(shí)更新這些內(nèi)容。4、數(shù)據(jù)資料獲取困難。有些資料是公開的,但有些資料卻是廠家保密的,非公開的。所以基于采樣方式的做法會(huì)面臨與數(shù)據(jù)格式化同樣的困難,甚至更難。因?yàn)閹缀鯚o法從名字準(zhǔn)確猜測出兩個(gè)病毒定義其實(shí)表示的是同一個(gè)內(nèi)容。這里的問題與數(shù)據(jù)格式化的問題基本一致,腳本技術(shù)無疑會(huì)比插件技術(shù)更能提供好的解決方法,這里不做贅述。一般來講,傳統(tǒng)的插件技術(shù)實(shí)現(xiàn)的歸一化過程中,幾乎沒有數(shù)據(jù)映射的內(nèi)容,即使有也是與格式化過程混在一起而沒有明確劃分的。數(shù)據(jù)映射過程本身從面臨的問題上可以看出,會(huì)是一個(gè)長期積累的過程,需要專業(yè)信息專家來總結(jié)完成。如病毒,當(dāng)世界上有新的病毒產(chǎn)生時(shí),需要定義病毒名,并收集相關(guān)反病毒廠商對(duì)病毒的定義,然后完成統(tǒng)一的數(shù)據(jù)映射。其它如漏洞、補(bǔ)丁等也存在同樣的問題。這個(gè)過程的獨(dú)立,可以將知識(shí)的積累有效的拆分出來,形成新的分工,使歸一化過程更有效率。綜上所述,依照本發(fā)明的方法,以腳本方式支持?jǐn)?shù)據(jù)歸一化,并將歸一化過程定義為數(shù)據(jù)格式化和數(shù)據(jù)映射兩個(gè)部分,為數(shù)據(jù)的歸一化過程提供了極大的開放性,可大大提高數(shù)據(jù)歸一化的生產(chǎn)效率,節(jié)約維護(hù)成本,并使得數(shù)據(jù)的收集工作在真正意義上變得切實(shí)可行?,F(xiàn)實(shí)中,數(shù)據(jù)的種類千差萬別,內(nèi)容變化萬千,對(duì)于數(shù)據(jù)的歸一化不僅面對(duì)的是寬度還有深度。要做到在開始就全面支持任意一種數(shù)據(jù)的歸一化是絕不可能的,這需要一個(gè)長期累積的過程,一個(gè)循序漸進(jìn)的過程。在這個(gè)過程中成本問題是核心問題,以往的技術(shù)都無法有效的控制開發(fā)、調(diào)試與維護(hù)的成本。而基于腳本的歸一化技術(shù)有力的解決這些問題。數(shù)據(jù)歸一化再細(xì)分為兩個(gè)部分,數(shù)據(jù)格式化和數(shù)據(jù)映射。這兩個(gè)部分的側(cè)重點(diǎn)不一致,前者側(cè)重于對(duì)于數(shù)據(jù)的格式的分析,而后者側(cè)重于對(duì)數(shù)據(jù)內(nèi)容的分析。數(shù)據(jù)格式的分析可以在較短期內(nèi)完成,而數(shù)據(jù)內(nèi)容分析則需要一個(gè)長期積累的過程。通過有效的拆分這兩個(gè)部分,可以進(jìn)一步明確專業(yè)分工,提高生產(chǎn)效率。以上是為了使本領(lǐng)域普通技術(shù)人員理解本發(fā)明,而對(duì)本發(fā)明所進(jìn)行的詳細(xì)描述,但可以想到,在不脫離本發(fā)明的權(quán)利要求所涵蓋的范圍內(nèi)還可以做出其它的變化和修改,這些變化和修改均在本發(fā)明的保護(hù)范圍內(nèi)。權(quán)利要求1.一種數(shù)據(jù)歸一化方法,其特征在于,包括下列步驟通過將數(shù)據(jù)進(jìn)行數(shù)據(jù)格式化腳本文件進(jìn)行數(shù)據(jù)格式化,并通過數(shù)據(jù)映射腳本文件進(jìn)行數(shù)據(jù)映射,將數(shù)據(jù)進(jìn)行歸一化。2.如權(quán)利要求1所述的數(shù)據(jù)歸一化方法,其特征在于,所述數(shù)據(jù)格式化腳本文件,用于按照需要對(duì)數(shù)據(jù)進(jìn)行靈活的拆分、組裝,最終將數(shù)據(jù)格式化為統(tǒng)一格式。3.如權(quán)利要求2所述的數(shù)據(jù)歸一化方法,其特征在于,所述數(shù)據(jù)格式化包括如下步驟步驟al:對(duì)特定含義的信息元的數(shù)據(jù)進(jìn)行處理,獲得統(tǒng)一的數(shù)據(jù)表現(xiàn)形式;步驟a2:數(shù)據(jù)填充,將經(jīng)過步驟al處理后的數(shù)據(jù)填充到相應(yīng)語義的歸一化數(shù)據(jù)字段中。4.如權(quán)利要求3所述的數(shù)據(jù)歸一化方法,其特征在于,在所述步驟al之前,進(jìn)一步包括如下步驟對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,將原始數(shù)據(jù)解析為獨(dú)立的有特定含義的信息元。5.如權(quán)利要求3所述的數(shù)據(jù)歸一化方法,其特征在于,在所述步驟al中,對(duì)信息元的數(shù)據(jù)進(jìn)行處理,將相同類型的數(shù)據(jù)處理為統(tǒng)一的格式。6.如權(quán)利要求3所述的數(shù)據(jù)歸一化方法,其特征在于,在所述步驟a2中,將所述數(shù)據(jù)填充到相應(yīng)語義的歸一化數(shù)據(jù)字段中,包括對(duì)數(shù)據(jù)的匹配、解析、分拆、組合、編排格式的數(shù)據(jù)處理方法。7.如權(quán)利要求1所述的數(shù)據(jù)歸一化方法,其特征在于,所述數(shù)據(jù)映射腳本文件,用于將格式化后的數(shù)據(jù)在語義表述上進(jìn)行同一的映射轉(zhuǎn)換。全文摘要本發(fā)明提供一種數(shù)據(jù)歸一化方法,其中,包括下列步驟通過將數(shù)據(jù)進(jìn)行數(shù)據(jù)格式化腳本文件進(jìn)行數(shù)據(jù)格式化,并通過數(shù)據(jù)映射腳本文件進(jìn)行數(shù)據(jù)映射,將數(shù)據(jù)進(jìn)行歸一化。依照本發(fā)明的方法,通過數(shù)據(jù)格式化腳本文件和數(shù)據(jù)映射腳本文件,整個(gè)過程都通過腳本的形式進(jìn)行描述,以大大降低開發(fā)、調(diào)試及維護(hù)的難度,并提供了極其靈活的環(huán)境適應(yīng)及客戶化能力。文檔編號(hào)G06F9/44GK101470607SQ20071030476公開日2009年7月1日申請(qǐng)日期2007年12月29日優(yōu)先權(quán)日2007年12月29日發(fā)明者湯泰鼎申請(qǐng)人:北京天融信網(wǎng)絡(luò)安全技術(shù)有限公司