地質(zhì)資料數(shù)據(jù)清洗方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明涉及地理信息系統(tǒng)(Geographic Informat1n System,GIS)領(lǐng)域,尤其涉及一種地質(zhì)資料數(shù)據(jù)清洗方法及系統(tǒng)。
【背景技術(shù)】
[0002]地質(zhì)資料是地質(zhì)工作形成的重要基礎(chǔ)信息資源,具有可被重復(fù)開發(fā)利用、能夠長(zhǎng)期提供服務(wù)的重要功能。盡管國(guó)土資源部發(fā)文(國(guó)土資發(fā)
[2006]210號(hào))明確了成果地質(zhì)資料電子文件匯交格式要求,但由于各類專業(yè)技術(shù)工作的成果文件不盡相同,技術(shù)要求中的具體細(xì)節(jié)也并未細(xì)化,加上地質(zhì)資料匯交單位的水平和態(tài)度不一,因此所接收到的匯交數(shù)據(jù)存在著各類的異構(gòu)性、不一致性和質(zhì)量問(wèn)題,如數(shù)據(jù)與目錄的不一致性,數(shù)據(jù)存儲(chǔ)目錄中存在的不合法性,或檔案標(biāo)識(shí)的重復(fù)性等。
[0003]由于地質(zhì)資料數(shù)據(jù)有著從組卷、接收、管理、加工直至服務(wù)全過(guò)程獨(dú)有的工作特點(diǎn)和應(yīng)用需求,以往的地質(zhì)資料從匯交到管理,再到查閱的諸多環(huán)節(jié)所應(yīng)用的管理手段或者較為粗陋,如以檔為單位的案卷文件夾形式保存資料,但每檔文件夾下的文件管理則任由匯交人組織,不再做細(xì)分的工作,這樣難以滿足數(shù)據(jù)精細(xì)化管理的需求;或者采用的技術(shù)方法和工具自動(dòng)化程度較低,絕大多數(shù)工作還依賴于人工清洗來(lái)完成。這一情況極大地限制了資料管理工作的效率,降低了地質(zhì)資料的利用率,阻礙了國(guó)家地質(zhì)工作的開展。
[0004]目前常見的數(shù)據(jù)清洗技術(shù)方案一般是針對(duì)結(jié)構(gòu)化數(shù)據(jù)的,而進(jìn)行針對(duì)多元異構(gòu)數(shù)據(jù)的數(shù)據(jù)清洗技術(shù)方案并不多見。數(shù)據(jù)清洗技術(shù)一般主要可以包括數(shù)據(jù)檢測(cè)和數(shù)據(jù)修正兩個(gè)步驟或模塊。數(shù)據(jù)檢測(cè)用來(lái)檢測(cè)文件錯(cuò)誤(包括不完整數(shù)據(jù)和異常數(shù)據(jù))和重復(fù)與相似重復(fù)記錄。在進(jìn)行統(tǒng)計(jì)后,挑出全面的臟數(shù)據(jù)信息。其中,對(duì)于重復(fù)與相似重復(fù)記錄一般采用字段匹配和記錄匹配等檢測(cè)操作。對(duì)檢測(cè)出的臟數(shù)據(jù)進(jìn)行清洗的步驟,一般是對(duì)不完整數(shù)據(jù)或重復(fù)數(shù)據(jù)采用人工判斷后的刪除、替代的清洗方法,從而使文件中的錯(cuò)誤問(wèn)題得到修正。
[0005]在現(xiàn)有的數(shù)據(jù)清洗技術(shù)方案中,通常是按照由算法庫(kù)或規(guī)則庫(kù)提供的預(yù)先定義好的清洗算法和清洗規(guī)則進(jìn)行清洗工作。然而,在實(shí)際的操作工程中,經(jīng)常要針對(duì)遇到的不同問(wèn)題進(jìn)行調(diào)算法和規(guī)則的重新定義和調(diào)整,因此,現(xiàn)有技術(shù)的方案難以做到規(guī)則的通用性。
[0006]另外,對(duì)于大量錯(cuò)誤數(shù)據(jù)而言,現(xiàn)有技術(shù)方案是無(wú)法給出有效的清洗建議或統(tǒng)計(jì)數(shù)據(jù)的,往往需要提交給用戶,由其手動(dòng)處理,耗時(shí)、費(fèi)力,也很難保障質(zhì)量。
[0007]另外,對(duì)于數(shù)據(jù)的錯(cuò)誤類型及其他統(tǒng)計(jì)信息的統(tǒng)計(jì)與分析也很難通過(guò)目前的技術(shù)方案簡(jiǎn)便地實(shí)現(xiàn)。
【發(fā)明內(nèi)容】
[0008]技術(shù)問(wèn)題
[0009]有鑒于此,本發(fā)明要解決的技術(shù)問(wèn)題是如何自動(dòng)地對(duì)多元異構(gòu)、來(lái)源廣泛的地質(zhì)資料數(shù)據(jù)進(jìn)行清洗。
[0010]解決方案
[0011]為了解決上述技術(shù)問(wèn)題,根據(jù)本發(fā)明一實(shí)施例,提供了一種地質(zhì)資料數(shù)據(jù)清洗方法,包括:
[0012]文件名稱校驗(yàn)步驟,根據(jù)待處理地質(zhì)資料文件的匯交格式要求,來(lái)校驗(yàn)各所述待處理地質(zhì)資料文件的文件名稱;
[0013]文件格式校驗(yàn)步驟,對(duì)進(jìn)行所述文件名稱校驗(yàn)步驟之后保留的地質(zhì)資料數(shù)據(jù)的文件格式進(jìn)行校驗(yàn)與記錄;以及
[0014]文件信息采集步驟,在進(jìn)行所述文件格式校驗(yàn)步驟之后,針對(duì)所記錄的地質(zhì)資料數(shù)據(jù)的文件,分別記錄相對(duì)應(yīng)的格式與配置信息。
[0015]對(duì)于上述地質(zhì)資料數(shù)據(jù)清洗方法,在一種可能的實(shí)現(xiàn)方式中,所述文件名稱校驗(yàn)步驟包括:
[0016]根據(jù)所述待處理地質(zhì)資料文件的文件名稱的長(zhǎng)度來(lái)判斷所述待處理地質(zhì)資料文件的有效性;以及
[0017]在所述待處理地質(zhì)資料文件有效的情況下,分別校驗(yàn)所述待處理地質(zhì)資料文件的文件名稱中的所有字符。
[0018]對(duì)于上述地質(zhì)資料數(shù)據(jù)清洗方法,在一種可能的實(shí)現(xiàn)方式中,在所述待處理地質(zhì)資料文件有效的情況下,分別校驗(yàn)所述待處理地質(zhì)資料文件的文件名稱中的所有字符,包括:
[0019]校驗(yàn)所述待處理地質(zhì)資料文件的文件名稱中的每一個(gè)字符是否為有效字符,對(duì)于存在無(wú)效字符的文件進(jìn)行記錄與預(yù)判;
[0020]根據(jù)所述待處理地質(zhì)資料文件的文件名稱中的類別位來(lái)判斷所述待處理地質(zhì)資料文件的文件類型是否符合規(guī)定類型,對(duì)于不符合規(guī)定類型的文件進(jìn)行記錄;
[0021]根據(jù)所述待處理地質(zhì)資料文件的文件名稱中的文件序號(hào)位,來(lái)判斷文件序號(hào)的有效性以及該文件序號(hào)在地質(zhì)資料數(shù)據(jù)中的連續(xù)性和唯一性。
[0022]對(duì)于上述地質(zhì)資料數(shù)據(jù)清洗方法,在一種可能的實(shí)現(xiàn)方式中,所述文件格式校驗(yàn)步驟包括:
[0023]對(duì)于進(jìn)行所述文件名稱校驗(yàn)步驟之后保留的地質(zhì)資料數(shù)據(jù)中的文件,進(jìn)行識(shí)別并記錄對(duì)應(yīng)的文件格式;
[0024]在存在文件名稱相同但文件格式不同的文件的情況下,按照文件格式優(yōu)先級(jí)規(guī)則來(lái)確定文件的主格式,所述文件格式優(yōu)先級(jí)從高到低的順序?yàn)榭臻g數(shù)據(jù)格式、結(jié)構(gòu)化數(shù)據(jù)格式、矢量數(shù)據(jù)格式、制圖數(shù)據(jù)格式、表數(shù)據(jù)格式、文檔數(shù)據(jù)格式、柵格數(shù)據(jù)格式;
[0025]判斷并記錄是否能夠有效地讀取各文件的文件頭信息以及是否能夠有效地打開各文件的內(nèi)容。
[0026]對(duì)于上述地質(zhì)資料數(shù)據(jù)清洗方法,在一種可能的實(shí)現(xiàn)方式中,所述文件信息采集步驟包括:
[0027]對(duì)于空間數(shù)據(jù)格式的文件,記錄文件的格式、版本號(hào)、工程文件的信息、投影坐標(biāo)參數(shù)、表達(dá)輔助信息庫(kù)信息、以及各圖層的數(shù)據(jù)量信息;
[0028]對(duì)于結(jié)構(gòu)化數(shù)據(jù)格式的文件,記錄文件的格式、版本號(hào)、記錄數(shù)、字段數(shù)和數(shù)據(jù)量大??;
[0029]對(duì)于矢量數(shù)據(jù)或制圖數(shù)據(jù)的文件,記錄文件的格式、版本號(hào)和表達(dá)輔助信息庫(kù)信息;
[0030]對(duì)于表數(shù)據(jù)格式的文件,記錄文件的格式、版本號(hào)、記錄數(shù)、字段數(shù)和數(shù)據(jù)量大?。?br>[0031]對(duì)于文檔數(shù)據(jù)格式的文件,記錄文件的格式、版本號(hào)、字符數(shù)量和數(shù)據(jù)量大?。灰约?br>[0032]對(duì)于柵格數(shù)據(jù)格式的文件,記錄文件的格式、壓縮比、點(diǎn)陣和數(shù)據(jù)量大小。
[0033]為了解決上述技術(shù)問(wèn)題,根據(jù)本發(fā)明另一實(shí)施例,提供了一種地質(zhì)資料數(shù)據(jù)清洗系統(tǒng),包括:
[0034]文件名稱校驗(yàn)?zāi)K,用于根據(jù)待處理地質(zhì)資料文件的匯交格式要求,來(lái)校驗(yàn)各所述待處理地質(zhì)資料文件的文件名稱;
[0035]文件格式校驗(yàn)?zāi)K,與所述文件名稱校驗(yàn)?zāi)K連接,用于對(duì)利用所述文件名稱校驗(yàn)?zāi)K處理所述地質(zhì)資料數(shù)據(jù)之后保留的地質(zhì)資料數(shù)據(jù)的文件格式進(jìn)行校驗(yàn)與記錄;以及
[0036]文件信息采集模塊,與所述文件格式校驗(yàn)?zāi)K連接,用于針對(duì)所記錄的地質(zhì)資料數(shù)據(jù)的文件,分別記錄相對(duì)應(yīng)的格式與配置信息。
[0037]對(duì)于上述地質(zhì)資料數(shù)據(jù)清洗系統(tǒng),在一種可能的實(shí)現(xiàn)方式中,所述文件名稱校驗(yàn)?zāi)K用于:
[0038]根據(jù)所述待處理地質(zhì)資料文件的文件名稱的長(zhǎng)度來(lái)判斷所述待處理地質(zhì)資料文件的有效性;以及
[0039]在所述待處理地質(zhì)資料文件有效的情況下,分別校驗(yàn)所述待處理地質(zhì)資料文件的文件名稱中的所有字符。
[0040]對(duì)于上述地質(zhì)資料數(shù)據(jù)清洗系統(tǒng),在一種可能的實(shí)現(xiàn)方式中,在所述待處理地質(zhì)資料文件有效的情況下,分別校驗(yàn)所述待處理地質(zhì)資料文件的文件名稱中的所有字符,包括:
[0041]校驗(yàn)所述待處理地質(zhì)資料文件的文件名稱中的每一個(gè)字符是否為有效字符,對(duì)于存在無(wú)效字符的文件進(jìn)行記錄與預(yù)判;
[0042]根據(jù)所述待處理地質(zhì)資料文件的文件名稱中的類別位來(lái)判斷所述待處理地質(zhì)資料文件的文件類型是否符合規(guī)定類型,對(duì)于不符合規(guī)定類型的文件進(jìn)行記錄;
[0043]根據(jù)所述待處理地質(zhì)資料文件的文件名稱中的文件序號(hào)位,來(lái)判斷文件序號(hào)的有效性以及該文件序號(hào)在地質(zhì)資料數(shù)據(jù)中的連續(xù)性和唯一性。
[0044]對(duì)于上述地質(zhì)資料數(shù)據(jù)清洗系統(tǒng),在一種可能的實(shí)現(xiàn)方式中,所述文件格式校驗(yàn)?zāi)K用于:
[0045]對(duì)于進(jìn)行所述文件名稱校驗(yàn)步驟之后保留的地質(zhì)資料數(shù)據(jù)中的文件,進(jìn)行識(shí)別并