本發(fā)明屬于電子與信息技術(shù)領(lǐng)域,具體涉及一種檔案數(shù)字化副本質(zhì)量自動化檢測方法。
背景技術(shù):
檔案資料經(jīng)過數(shù)字化加工之后,即產(chǎn)生了檔案數(shù)字化加工成果(檔案數(shù)字化副本)。檔案數(shù)字化加工業(yè)務(wù)中,加工成果就是檔案數(shù)字化加工被委托方向委托方提交的交付物,其質(zhì)量的優(yōu)劣直接影響交付驗收的成敗,所以,雙方對檔案數(shù)字化加工成果的質(zhì)量都極為重視。
檔案數(shù)字化加工成果一般由檔案目錄數(shù)據(jù)和內(nèi)容數(shù)據(jù)構(gòu)成,對檔案數(shù)字化加工成果的質(zhì)量檢查,一般以《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》(da/t31-2005)作為主要質(zhì)量檢查標準,一直以來都是以人工質(zhì)檢作為主要的質(zhì)檢方法。在長期的檔案數(shù)字化加工檢查工作中,發(fā)現(xiàn)了人工質(zhì)檢方法存在著了諸多不足,為了解決這些不足,也曾使用了增投人力、提升質(zhì)檢人員的技能、加強管理等方法,最終的成果質(zhì)量也有所提升,但始終未有明顯的效果,且這些人工質(zhì)檢中的弊端日益突出,經(jīng)過分析總結(jié),比較突出的問題主要有以下幾個:
第一,出錯率高。例如,質(zhì)檢人員在對目錄數(shù)據(jù)進行檢查時,很難發(fā)現(xiàn)其中的錯別字,影響了檔案數(shù)字化加工成果的規(guī)范性和準確性要求;又如,在對掃描結(jié)果文件的檢查時,難以發(fā)現(xiàn)漏頁的情況,對目錄與計算機文件的關(guān)聯(lián)性檢測,也難識別出其中的錯誤,無法保證檔案數(shù)字化加工成果的完整性。
第二,無法保證檢查全面。僅依賴質(zhì)檢人員的主觀自覺程度,容易出現(xiàn)漏檢的情況,無法確保每一份材料、每一項必檢目錄數(shù)據(jù)都經(jīng)過了檢查,導致整個檔案數(shù)字化加工成果的可信度低。
第三,效率低。例如,在進行頁數(shù)檢查時,首先必須重新數(shù)出相關(guān)的各份材料的頁數(shù),再計算出總結(jié)果,然后再統(tǒng)計掃描成果中的文件總頁數(shù)(單頁文件一個文件即為一頁,多頁的文件則需獲取該文件的總頁數(shù)),最后查看事先登記的目錄頁數(shù),三個頁數(shù)信息必須完全一致才能表示頁數(shù)信息正確。只完成這一項的檢查工作,就必須耗費大量的時間,且在檢查過程中必須精力高度集中才能保證頁數(shù)數(shù)據(jù)的準確,否則只能投入更多的精力用于返工檢查。
第四,無法應(yīng)對大量數(shù)據(jù)的檢查。隨著檔案信息化建設(shè)的發(fā)展,需要進行數(shù)字化加工的檔案數(shù)量越來越多,產(chǎn)生的檔案數(shù)字化加工成果數(shù)量巨大,檔案數(shù)字化加工量動輒上千萬,僅依靠人工質(zhì)檢的方法,無法完成對所有檔案數(shù)字化加工成果都進行質(zhì)量檢查的任務(wù),只能采取抽檢的方法對檔案數(shù)字化加工成果進行質(zhì)量檢查。按照《紙質(zhì)檔案數(shù)字化規(guī)范》(da/t31-2005)中對數(shù)據(jù)驗收的要求,一個全宗內(nèi)檔案的抽檢比率不低于5%,若就按5%的抽檢比率進行抽檢,即便抽檢的所有數(shù)據(jù)都合格了,但仍然還有95%的數(shù)據(jù)未被檢查過,這些數(shù)據(jù)的質(zhì)量將難以保證。
技術(shù)實現(xiàn)要素:
本發(fā)明主要從目前的人工檢查的方法存在易錯、檢查不全面、效率低、無法應(yīng)對大量數(shù)據(jù)的檢查等問題考慮,發(fā)明了一種由軟件根據(jù)其配置項來進行檔案數(shù)字化加工成果檢查的軟件自動檢查方法,其具體技術(shù)內(nèi)容如下:
一種檔案數(shù)字化副本質(zhì)量自動化檢測方法,其包含如下步驟:
第一,根據(jù)檢測質(zhì)量需求建立檢測項庫,所述檢測項庫中包含若干檢測選項,以及對應(yīng)于檢測選項下的若干檢測規(guī)則;
第二,提供檢測項設(shè)置界面以供用戶進行配置;
第三,加載待質(zhì)檢的檔案數(shù)字化副本,并根據(jù)配置選項對其進行自動化檢測,并于檢測后輸出結(jié)果;
所述檔案數(shù)字化副本包含目錄數(shù)據(jù)、內(nèi)容數(shù)據(jù)、以及目錄與內(nèi)容關(guān)聯(lián)數(shù)據(jù)。
于本發(fā)明的一個或多個實施例中,根據(jù)待質(zhì)檢的檔案數(shù)字化副本,所述檢測選項包括以下的一種或多種:檔號檢測選項、目錄數(shù)據(jù)檢測選項、頁數(shù)檢測選項、語義檢測選項、內(nèi)容數(shù)據(jù)檢測選項、目錄數(shù)據(jù)與內(nèi)容數(shù)據(jù)關(guān)聯(lián)性檢選項;對應(yīng)的,
于本發(fā)明的一個或多個實施例中,所述檔號檢測規(guī)則是,根據(jù)用戶輸入的檔號構(gòu)成對檔案數(shù)字化副本的檔號進行檢測,并輸出結(jié)果;
于本發(fā)明的一個或多個實施例中,所述目錄數(shù)據(jù)檢測規(guī)則是,通過檔案數(shù)字化提交包規(guī)范中定義的架構(gòu)文件、自行定義目錄數(shù)據(jù)校驗模板,并輸出結(jié)果;
于本發(fā)明的一個或多個實施例中,所述頁數(shù)檢測規(guī)則是,根據(jù)數(shù)字化加工掃描獲得的文件數(shù)總頁數(shù)并結(jié)合檔案數(shù)字化加工之前登記的頁數(shù)數(shù)據(jù),進而檢測檔案數(shù)字化副本數(shù)據(jù)的頁數(shù)是否正常,并輸出結(jié)果,所述頁數(shù)數(shù)據(jù)包括檔案目錄頁數(shù)、材料頁數(shù)、案卷頁數(shù)、頁號數(shù)據(jù)中的一種或多種;
于本發(fā)明的一個或多個實施例中,所述語義檢測規(guī)則是,通過關(guān)鍵詞組語義技術(shù)逐一進行語義檢查,判斷其數(shù)據(jù)是否有異常,并輸出結(jié)果;
于本發(fā)明的一個或多個實施例中,所述內(nèi)容數(shù)據(jù)檢測規(guī)則是,根據(jù)用戶選擇的或預設(shè)的待檢項、利用圖像分析技術(shù)對檔案數(shù)字化副本進行逐項檢測,并輸出結(jié)果,所述待檢項包括圖像質(zhì)量、分辨率、文件大小、圖像尺寸、是否檢測黑點、黑邊,分辨率的最低值;
于本發(fā)明的一個或多個實施例中,所述目錄數(shù)據(jù)與內(nèi)容數(shù)據(jù)關(guān)聯(lián)性檢測規(guī)則是,根據(jù)目錄數(shù)據(jù)中的檔號、頁數(shù)、頁號等數(shù)據(jù),檢測檔案數(shù)字化副本的數(shù)據(jù)所對應(yīng)的掃描文件是否全部真實存在,并輸出結(jié)果。
于本發(fā)明的一個或多個實施例中,依次進行目錄數(shù)據(jù)檢測、內(nèi)容數(shù)據(jù)檢測、以及目錄數(shù)據(jù)與內(nèi)容數(shù)據(jù)關(guān)聯(lián)檢測;其中,所述目錄數(shù)據(jù)檢測包括檢測目錄數(shù)據(jù)是否規(guī)范、檔號是否符合規(guī)則、頁數(shù)是否正確、目錄數(shù)據(jù)是否正確;所述內(nèi)容數(shù)據(jù)檢測包括檢測圖像質(zhì)量、圖像分辯率、圖像文件大小、圖像尺寸。
于本發(fā)明的一個或多個實施例中,完成所有配置選項的檢測后生成質(zhì)檢結(jié)果報告。
本發(fā)明將原來人工質(zhì)檢的方法改進為軟件自動處理,原來人工質(zhì)檢的流程全部由軟件自動化執(zhí)行,人工質(zhì)檢項則以檢查項規(guī)則設(shè)置的形式體現(xiàn),需要進行檢查的項,則直接在配置項中進行設(shè)置,軟件根據(jù)已設(shè)置的規(guī)則,自動化檢查檔案數(shù)字化加工成果。
根據(jù)檔案數(shù)字化加工成果一般由檔案目錄數(shù)據(jù)和內(nèi)容數(shù)據(jù)構(gòu)成的特點,本發(fā)明從目錄數(shù)據(jù)、內(nèi)容數(shù)據(jù)和二者之間的關(guān)聯(lián)性三個層面進行檢查,本新發(fā)明主要能解決以下問題:
1、目錄數(shù)據(jù)規(guī)范性檢查:對檔案數(shù)字化加工成果中的檔案目錄數(shù)據(jù)進行規(guī)范性檢查,按照《檔案著錄規(guī)則》(da/t18)等的要求,對檔案目錄數(shù)據(jù)的長度和內(nèi)容要求等進行檢查,本發(fā)明則主要依據(jù)已經(jīng)符合了這些要求的“檔案數(shù)字化提交包規(guī)范中定義的架構(gòu)文件”和“自行定義目錄數(shù)據(jù)校驗模板”,對檔案數(shù)字化加工成果進行校驗檢查;對特定的檔案目錄數(shù)據(jù)的檢查,有特定的檢查方法,如本系統(tǒng)根據(jù)檔號組成規(guī)則(《da/t13-1994檔號編制規(guī)則》)對檔號進行校驗;
2、目錄數(shù)據(jù)之頁數(shù)準確性檢查:能夠計算掃描結(jié)果文件數(shù)總頁數(shù)(單頁文件一頁為一個文件,多頁文件需要獲取各個文件頁數(shù)),并結(jié)合檔案數(shù)字化加工之前登記的檔案目錄頁數(shù)、材料頁數(shù)、案卷頁數(shù)(如果有)、頁碼數(shù)據(jù),各數(shù)據(jù)互為參考,進而檢查檔案數(shù)字化加工成果數(shù)據(jù)中的頁數(shù)是否正確;
3、目錄數(shù)據(jù)語法檢查:能夠通過主題詞語義分析檢測目錄數(shù)據(jù)的語法;
4、內(nèi)容數(shù)據(jù)檢查:通過圖像分析技術(shù),對檔案數(shù)字化加工成果中的圖像文件的質(zhì)量(如:黑點、黑邊等)、分辨率、文件大小、圖像尺寸進行檢查;
5、目錄數(shù)據(jù)與內(nèi)容數(shù)據(jù)關(guān)聯(lián)性檢查:能夠檢查每一條檔案數(shù)字化加工成果的數(shù)據(jù)所對應(yīng)的掃描文件是否存在。
以上多種檢查項,可以由系統(tǒng)自行配置,選擇一項或組合多項進行檔案數(shù)字化加工成果檢查。本發(fā)明通過對目數(shù)據(jù)、內(nèi)容數(shù)據(jù)、目錄數(shù)據(jù)與內(nèi)容數(shù)據(jù)的關(guān)聯(lián)性檢查,可以最大程度地解決了檔案數(shù)字化加工成果人工質(zhì)檢存在的易錯、檢查不全面、效率低問題,保證了檔案數(shù)字化加工成果的完整性、規(guī)范性和準確性,通過軟件自動質(zhì)檢的方法代替人工質(zhì)檢方法,解決了無法應(yīng)對千萬級以上數(shù)據(jù)量的檢查的問題。
附圖說明
圖1為本發(fā)明的檔案數(shù)字化副本的構(gòu)成框圖。
圖2為本發(fā)明的檔案數(shù)字化副本質(zhì)量自動化檢測方法的流程圖。
圖3為本發(fā)明的檔案數(shù)字化副本檢查項和規(guī)則設(shè)置界面示意圖。
具體實施方式
如下結(jié)合附圖1和2,對本申請方案作進一步描述:
一種檔案數(shù)字化副本質(zhì)量自動化檢測方法,其包含如下步驟:
第一,根據(jù)檢測質(zhì)量需求建立檢測項庫,所述檢測項庫中包含若干檢測選項,以及對應(yīng)于檢測選項下的若干檢測規(guī)則;
第二,提供檢測項設(shè)置界面以供用戶進行配置;
第三,加載待質(zhì)檢的檔案數(shù)字化副本,并根據(jù)配置選項對其進行自動化檢測,并于檢測后輸出結(jié)果;
所述檔案數(shù)字化副本包含目錄數(shù)據(jù)、內(nèi)容數(shù)據(jù)、以及目錄與內(nèi)容關(guān)聯(lián)數(shù)據(jù)。
根據(jù)待質(zhì)檢的檔案數(shù)字化副本,所述檢測選項包括以下的一種或多種:檔號檢測選項、目錄數(shù)據(jù)檢測選項、頁數(shù)檢測選項、語義檢測選項、內(nèi)容數(shù)據(jù)檢測選項、目錄數(shù)據(jù)與內(nèi)容數(shù)據(jù)關(guān)聯(lián)性檢選項;對應(yīng)的,
所述檔號檢測規(guī)則是,根據(jù)用戶輸入的檔號構(gòu)成對檔案數(shù)字化副本的檔號進行檢測,并輸出結(jié)果;
所述目錄數(shù)據(jù)檢測規(guī)則是,通過檔案數(shù)字化提交包規(guī)范中定義的架構(gòu)文件、自行定義目錄數(shù)據(jù)校驗模板,并輸出結(jié)果;
所述頁數(shù)檢測規(guī)則是,根據(jù)數(shù)字化加工掃描獲得的文件數(shù)總頁數(shù)并結(jié)合檔案數(shù)字化加工之前登記的頁數(shù)數(shù)據(jù),進而檢測檔案數(shù)字化副本數(shù)據(jù)的頁數(shù)是否正常,并輸出結(jié)果,所述頁數(shù)數(shù)據(jù)包括檔案目錄頁數(shù)、材料頁數(shù)、案卷頁數(shù)、頁號數(shù)據(jù)中的一種或多種;
所述語義檢測規(guī)則是,通過關(guān)鍵詞組語義技術(shù)逐一進行語義檢查,判斷其數(shù)據(jù)是否有異常,并輸出結(jié)果;
所述內(nèi)容數(shù)據(jù)檢測規(guī)則是,根據(jù)用戶選擇的或預設(shè)的待檢項、利用圖像分析技術(shù)對檔案數(shù)字化副本進行逐項檢測,并輸出結(jié)果,所述待檢項包括圖像質(zhì)量、分辨率、文件大小、圖像尺寸、是否檢測黑點、黑邊,分辨率的最低值;
所述目錄數(shù)據(jù)與內(nèi)容數(shù)據(jù)關(guān)聯(lián)性檢測規(guī)則是,根據(jù)目錄數(shù)據(jù)中的檔號、頁數(shù)、頁號等數(shù)據(jù),檢測檔案數(shù)字化副本的數(shù)據(jù)所對應(yīng)的掃描文件是否全部真實存在,并輸出結(jié)果。
依次進行目錄數(shù)據(jù)檢測、內(nèi)容數(shù)據(jù)檢測、以及目錄數(shù)據(jù)與內(nèi)容數(shù)據(jù)關(guān)聯(lián)檢測;其中,所述目錄數(shù)據(jù)檢測包括檢測目錄數(shù)據(jù)是否規(guī)范、檔號是否符合規(guī)則、頁數(shù)是否正確、目錄數(shù)據(jù)是否正確;所述內(nèi)容數(shù)據(jù)檢測包括檢測圖像質(zhì)量、圖像分辯率、圖像文件大小、圖像尺寸。
完成所有配置選項的檢測后生成質(zhì)檢結(jié)果報告。
自動化檢測的基本原理:
質(zhì)檢人員可在質(zhì)檢之前根據(jù)檢測質(zhì)量的要求,在軟件中設(shè)置檢測項,設(shè)置完成之后,直接啟動軟件,軟件將根據(jù)這些配置項,對待質(zhì)檢的檔案數(shù)字化加工成果進行自動化檢測,檢測完成之后,輸出檢測結(jié)果。
配置項具體說明
1、檔號檢查:
檔案業(yè)務(wù)中,檔號具有特定的含義,國家標準中制定了幾種檔號結(jié)構(gòu)構(gòu)成規(guī)則,不同的單位和檔案門類使用的檔號構(gòu)成規(guī)則也可能會不同,但終究有規(guī)則,所以,在本發(fā)明中,這些規(guī)則就是作為檔案數(shù)字化加工成果數(shù)據(jù)的檔號檢查的依據(jù)。例如,使用“全宗號-案卷目錄號-案卷號-件、頁(張)號”的檔號組成規(guī)則的,就可以在配置項中設(shè)置以此種檔號組成規(guī)則進行檢查,軟件系統(tǒng)在執(zhí)行檢查時,就根據(jù)此規(guī)則對檔案數(shù)字化加工成果數(shù)據(jù)的檔號數(shù)據(jù)進行檢查,檢查其檔號是否滿足此檔號規(guī)則,并輸出檢查結(jié)果。同時,如果掃描的結(jié)果文件命名方式也與檔號有關(guān)聯(lián),則同樣可以檢查文件名稱是否正常。
2、目錄數(shù)據(jù)檢查:
檢查檔案目錄數(shù)據(jù)是否輸入、輸入是否符合要求等,本發(fā)明的解決辦法是通過依據(jù)檢查標準進行檢查,包括檔案數(shù)字化提交包規(guī)范中定義的架構(gòu)文件、自行定義目錄數(shù)據(jù)校驗模板,軟件系統(tǒng)通過配置選擇標準進行檢查,可以選擇一項,也可以選擇二者聯(lián)合校驗檢查。對于自定義的目錄校驗數(shù)據(jù)模板,系統(tǒng)內(nèi)可以自行維護其驗證規(guī)則。
3、頁數(shù)檢查:
檔案目錄是檔案館(室)編制的,由眾多著錄條目組成并按一次次序編排的,具有信息貯存、濃縮、有序化等功能,在國家檔案信息化建議中具有重要的地位。在檔案數(shù)字化加工過程中,可把調(diào)檔出來的檔案信息中的目錄中的頁數(shù)可作為檔案數(shù)字化加工過程的權(quán)威依據(jù)之一。在經(jīng)過了檔案數(shù)字化加工過程中的掃描工序之后,每一份加工材料內(nèi)的每一頁紙質(zhì)文件,都必須有對應(yīng)的計算機文件,要么一頁對應(yīng)一頁,要么多頁對應(yīng)一個文件(例如加工掃描成tif多頁文件),根據(jù)這樣的加工掃描方式,能夠計算掃描結(jié)果文件數(shù)總頁數(shù)(單頁文件一頁為一個文件,多頁文件需要獲取各個文件頁數(shù)),并結(jié)合檔案數(shù)字化加工之前登記的檔案目錄頁數(shù)、材料頁數(shù)、案卷頁數(shù)(如果有)、頁號數(shù)據(jù),各數(shù)據(jù)互為參考,進而檢查檔案數(shù)字化加工成果數(shù)據(jù)的頁數(shù)是否正常。
4、語義檢查:
本發(fā)明通過關(guān)鍵詞組語義技術(shù),軟件系統(tǒng)根據(jù)設(shè)置的待檢目錄項,對各項逐一進行語義檢查,判斷其數(shù)據(jù)是否有異常。
5、內(nèi)容數(shù)據(jù)檢查:
通過圖像分析技術(shù),軟件系統(tǒng)中可以設(shè)置需要檢測的項,如圖像質(zhì)量、分辨率、文件大小、圖像尺寸等,并對每項內(nèi)的參數(shù)進行設(shè)置,如設(shè)置圖像質(zhì)量檢測是否檢測黑點、黑邊,分辨率的最低值等,軟件運行時,根據(jù)這些設(shè)置的參數(shù),對檔案數(shù)字化副本逐一進行檢測。
6、目錄數(shù)據(jù)與內(nèi)容數(shù)據(jù)關(guān)聯(lián)性檢查:
軟件系統(tǒng)根據(jù)目錄數(shù)據(jù)中的檔號、頁數(shù)、頁號等數(shù)據(jù),智能檢測每一條檔案數(shù)字化加工成果的數(shù)據(jù)所對應(yīng)的掃描文件是否全部真實存在。
本發(fā)明將原來人工質(zhì)檢的方法改進為軟件自動處理,原來人工質(zhì)檢的流程全部由軟件自動化執(zhí)行,人工質(zhì)檢項則以檢查項規(guī)則設(shè)置的形式體現(xiàn),需要進行檢查的項,則直接在配置項中進行設(shè)置,軟件根據(jù)已設(shè)置的規(guī)則,自動化檢查檔案數(shù)字化加工成果。
上述優(yōu)選實施方式應(yīng)視為本申請方案實施方式的舉例說明,凡與本申請方案雷同、近似或以此為基礎(chǔ)作出的技術(shù)推演、替換、改進等,均應(yīng)視為本專利的保護范圍。