本技術(shù)涉及電子檔案的歸檔處理,尤其涉及一種基于自定義歸檔策略的電子檔案自動化歸檔方法。
背景技術(shù):
1、隨著信息技術(shù)的深入快速發(fā)展,電子文件歸檔的需求日益迫切。提出數(shù)字化轉(zhuǎn)型戰(zhàn)略,推進產(chǎn)業(yè)數(shù)字化、數(shù)字產(chǎn)業(yè)化,大量具有檔案價值的電子文件隨之產(chǎn)生,對電子文件歸檔管理與應(yīng)用的需求迫切。然而,當前的電子文件歸檔和電子文件歸檔多數(shù)采用人工整理的方法,面臨生產(chǎn)效率低、文檔分類歸檔成本高、準確性差的問題?;谏鲜瞿壳半娮訖n案整理的現(xiàn)狀,提出一種基于自定義歸檔策略的自動化解決方案,以實現(xiàn)各行業(yè)各類成果的機器自動化歸檔技術(shù)應(yīng)用。
技術(shù)實現(xiàn)思路
1、為了解決背景技術(shù)中的技術(shù)問題,本技術(shù)實施例提供一種基于自定義歸檔策略的電子檔案自動化歸檔方法,包括如下步驟:
2、步驟s1、待歸檔電子化文檔準備:
3、將通過各類型數(shù)字化文檔掃描設(shè)備形成的電子化文檔或現(xiàn)有的電子化文檔存儲于指定的安裝了歸檔軟件系統(tǒng)的計算機的文件系統(tǒng)中;
4、步驟s2、配置歸檔策略:
5、根據(jù)不同數(shù)字化成果的具體歸檔要求,配置相應(yīng)的歸檔整理策略,一個整理策略配置多個歸檔規(guī)則,將其歸檔策略及配置的歸檔規(guī)則的集存儲在歸檔軟件系統(tǒng)數(shù)據(jù)庫當中,通過歸檔軟件系統(tǒng)中的策略配置功能模塊,實現(xiàn)歸檔策略的維護與更新,在執(zhí)行歸檔時,可以從數(shù)據(jù)庫中加載選擇指定策略方案執(zhí)行歸檔工作;
6、步驟s3、根據(jù)歸檔策略執(zhí)行歸檔任務(wù):
7、對于待歸檔成果,在根據(jù)歸檔的要求配置好對應(yīng)的歸檔策略后,對待歸檔成果進行自動化歸檔整理工作,支持兩種模式的自動化歸檔:
8、模式一、與自動化掃描儀設(shè)備聯(lián)動,將掃描儀的掃描輸出路徑設(shè)置為其待歸檔目錄,動態(tài)監(jiān)測待歸檔目錄文件變化并按其配置的策略時行文件整理分類;
9、模式二、指定靜態(tài)的待歸檔目錄,根據(jù)其配置的歸檔策略進行文件的整理分類,此模式針對已經(jīng)掃描好的未分類的電子文件再歸類;
10、步驟s4、歸檔任務(wù)完整性檢查:
11、檢查待歸檔源文件目錄大小與歸檔目標目錄文件大小是否相等,檢查待歸檔源文件文件總數(shù)量與歸檔目標目錄文件數(shù)量是否一致,對tab_soucefileindex進行統(tǒng)計,計算文件ocr識別率rr、計算歸檔文件數(shù)量及歸檔成功率ar、獲取歸檔文件重復(fù)文件數(shù)量及詳細清單;
12、rr=(文字識別特征區(qū)域文字識別成功數(shù)量/文字識別特征區(qū)域數(shù)量)*100%;
13、ar=(歸檔成功文件數(shù)量/待歸檔電子文件數(shù)量)*100%;
14、對于ocr識別失敗的,進行人工逐個字符標注,并將其訓(xùn)練數(shù)據(jù)結(jié)果增量寫入到識別數(shù)據(jù)集當中,以完善提升文字識別精度;
15、步驟s5、生成歸檔任務(wù)報告:
16、生成歸檔任務(wù)報告,并自動生成歸檔目錄在報告顯示區(qū)以pdf的形式顯示,同時將報告生成數(shù)字簽名信息的pdf輸出到歸檔輸出根目錄的上一級目錄;
17、步驟s6、歸檔任務(wù)結(jié)束:
18、完成一次基于所選歸檔策略的自動化整理后,在歸檔軟件系統(tǒng)中按照歸歸檔后的電子檔案目錄樹的形式顯示其歸檔檔案。
19、在本技術(shù)的其中一個實施例中,所述基于自定義歸檔策略的電子檔案自動化歸檔方法,所述步驟s2、配置歸檔策略中,歸檔策略的屬性包括策略名稱、模板文件列表、歸檔說明、參考文獻或標準、創(chuàng)建索引目錄選項、歸檔規(guī)則集;
20、屬性通過歸檔策略配置功能模塊實現(xiàn)可視化配置,并保存在歸檔軟件系統(tǒng)的系統(tǒng)數(shù)據(jù)庫表tab_policy及子表tab_filetemplate、tab_indexrules中;
21、模板文件列表用于選擇設(shè)置本歸檔策略要整理的所有類別文檔的樣本文件,通過打開指定文件目錄導(dǎo)入樣本文件的方式導(dǎo)入,其文件信息存入tab_filetemplate;
22、創(chuàng)建索引目錄選項,用于需要自動生成卷內(nèi)目錄的情形,是一個高級可選項,系統(tǒng)默認不創(chuàng)建索引目錄;如需要在整理完成后自動生成卷內(nèi)目錄文件,則設(shè)置一個卷內(nèi)目錄的excel模板樣式,在模板中的單元格設(shè)置對應(yīng)的引用的模板文件名及其它屬性的變更名,系統(tǒng)將自動動態(tài)賦值生成卷內(nèi)目錄及其屬性;
23、歸檔規(guī)則集當中的每一個子項即一個歸檔規(guī)則,每個歸檔規(guī)則對應(yīng)一種類型文件的其歸檔規(guī)則定義。
24、在本技術(shù)的其中一個實施例中,所述基于自定義歸檔策略的電子檔案自動化歸檔方法,所述步驟s2、配置歸檔策略包括:
25、步驟s2.1、新建歸檔策略,并根據(jù)其歸檔任務(wù)命名;
26、步驟s2.2、導(dǎo)入要歸檔的各類型文件,將待歸檔的類型文件導(dǎo)入到當前策略文件模板庫,系統(tǒng)將導(dǎo)入的文件存儲在程序運行根目錄下policy?子文件夾中的,并根據(jù)導(dǎo)入的順序分別為t1..tx;tx代表文件模板文件t1,t2...;同時將識別導(dǎo)入文件tx識別其主要屬性存儲于數(shù)據(jù)表tab_filetemplates中;其模板文件屬性包括文件標識名、文件類型、頁面像素寬、頁面像素高、頁數(shù);
27、步驟s2.3、配置歸檔規(guī)則集,根據(jù)歸檔的要求制定一個或多個規(guī)則(r1..rx),以實現(xiàn)對文件的自動化歸檔整理,通常一個規(guī)則對應(yīng)一個類型文件的歸檔任務(wù),同一類型文件需要在不同的目標歸檔目錄中重復(fù)存放時,則一個類型文件對應(yīng)可以配置兩個或以上的歸檔規(guī)則;
28、歸檔規(guī)則的屬性包含規(guī)則名稱、文件源目錄、對應(yīng)模板文件(t1..tx中的一個)、頁面像素寬、頁面像素高、頁數(shù)、標識名、文件匹配規(guī)則表達式、歸檔目錄、歸檔文件命名規(guī)則和文件標識特征。
29、在本技術(shù)的其中一個實施例中,所述基于自定義歸檔策略的電子檔案自動化歸檔方法,步驟s3、根據(jù)歸檔策略執(zhí)行歸檔任務(wù)包括:
30、步驟s3.1、系統(tǒng)啟動,進行系統(tǒng)標準數(shù)據(jù)庫sysdb的連接、全局選項參數(shù)的初始化、界面初始化、ocr引擎初始化、條形碼二維碼識別引擎初始化、日志消息模塊加載并完成系統(tǒng)用戶的授權(quán)認證;
31、步驟s3.2、選擇當前的歸檔策略,默認系統(tǒng)加載最近一次使用的歸檔策略,并將其顯示在狀態(tài)欄位置,根據(jù)需求可以切換歸檔策略,切換時以列表的形式彈出,提供人工切換的人機交互界面,可以輸入關(guān)鍵字查詢歸檔策略名稱,支持模糊查詢;
32、步驟s3.3、指定待歸檔目錄,打開待歸檔文件的所在目錄,系統(tǒng)將根據(jù)所選歸檔策略,將重新初始化當前歸檔策略的所有配置屬性,加載當前歸檔策略所有的屬性以及所包含的歸檔規(guī)則集;
33、步驟s3.4、指定歸檔輸出目錄,指定歸檔輸出的文件夾目錄根目錄,可以是本地磁盤變可以為外部存儲設(shè)備路徑,當指定的文件夾目錄不存在時,系統(tǒng)將自動創(chuàng)建指定的輸出目錄;
34、步驟s3.5,待歸檔目錄的全目錄文件掃描分析,對待歸檔目錄進行全文件掃描,并依此建立全局內(nèi)存文件索引表tab_soucefileindex,獲得所有的文件屬性索引信息內(nèi)存表。建立的內(nèi)存數(shù)據(jù)表包含的屬性有:文件名、文件路徑、文件大小、文件md5校驗碼、像素寬、像素高、總頁數(shù)、歸檔目錄、歸檔文件名、歸檔文件md5校驗碼、歸檔狀態(tài);
35、步驟s3.6,自動化歸檔整理,根據(jù)歸檔策略的歸檔規(guī)則數(shù)量n,創(chuàng)建n個歸檔規(guī)則線程tarchivethread任務(wù),并將歸檔策略中1..n個歸檔規(guī)則的屬性集作為成員屬性賦值給對應(yīng)的1..n線程,并啟動多線程歸檔處理任務(wù),同時創(chuàng)建全局任務(wù)計數(shù)器taskcounter用于記錄子線程任務(wù)完成數(shù)量,taskcounter初始化為0,記錄歸檔開始時間g_starttime為當前時間;
36、在本技術(shù)的其中一個實施例中,所述基于自定義歸檔策略的電子檔案自動化歸檔方法,所述步驟s3.6,自動化歸檔整理包括:
37、步驟s3.6.1、創(chuàng)建n個tarchivethread子線程,設(shè)置線程屬性使其完成歸檔子任務(wù)后自銷毀;
38、步驟s3.6.2、遍歷每個tarchivethread子線程將規(guī)則的屬性集,賦給成員變量規(guī)則屬性集rulepropertys;
39、步驟s3.6.3、每個子線程tarchivethread根據(jù)其rulepropertys對應(yīng)的規(guī)則的屬性文件規(guī)則表達式轉(zhuǎn)化成對應(yīng)的sql語句,將sql語句執(zhí)行查詢,從內(nèi)存數(shù)據(jù)索引表tab_soucefileindex快速檢索并生成該線程所對應(yīng)的的歸檔規(guī)則下的要整理的文件清單到新的內(nèi)存表,即待歸檔的文件列表集tab_sourcefilerule.同時對數(shù)據(jù)集tab_sourcefilerule創(chuàng)建新的x個特征區(qū)域的屬性字段識別值cx_value、識別結(jié)果cx_state、歸檔文件md5校驗碼c_md5,歸檔文件大小tab_sourcefilerule.c_filesize;
40、步驟s3.6.4、遍歷tab_sourcefilerule的所有文件,根據(jù)特征塊特征提取特征塊的位圖,并通過tesseract-ocr或條形碼二維碼引擎進行文字識別,將其文字識別的結(jié)果賦值給數(shù)據(jù)集tab_sourcefilerule的cx_value,cx_state;
41、步驟s3.6.5、獲取歸檔目錄,根據(jù)歸檔目錄規(guī)則表達式,生成歸檔目標目錄aimdir;
42、步驟s3.6.6、獲取歸檔文件名,根據(jù)歸檔文件命名規(guī)則,轉(zhuǎn)換生成新歸檔文件名稱newfilename;
43、步驟s3.6.7、文件目標位置歸檔。根據(jù)文件的歸檔目錄,歸檔文件名,將原文件復(fù)制到目標位置,復(fù)制成功后,將tab_sourcefilerule中歸檔字段成功狀態(tài)arcivestate置1。復(fù)制完成后,若設(shè)置了歸檔優(yōu)化選項則對歸檔后的文件進行優(yōu)化處理形成最終的歸檔文件,獲取最終的歸檔文件校驗碼并更新到tab_sourcefilerule.c_md5,文件大小tab_sourcefilerule.c_filesize,最后通過多線程消息,發(fā)送文件歸檔更新狀態(tài)消息,主線程收到消息后將在日志顯示顯示區(qū)刷新進度條;
44、步驟s3.6.8、當tab_sourcefilerule中所有文件完成歸檔時,將歸檔結(jié)果(歸檔目錄、歸檔文件名、歸檔文件md5校驗碼、歸檔狀態(tài)字段)更新到tab_soucefileindex。子線程任務(wù)完成,在其銷毀前事件中發(fā)送消息至主線程,在主線程中全局變量taskcounter自增1,并釋放tarchivethread子線程資源;
45、步驟s3.6.9、主線程中判斷taskcounter=n時(所有歸檔規(guī)則任務(wù)完成),若設(shè)置了創(chuàng)建索引目錄選項,則需要根據(jù)模板樣式來自動生成卷內(nèi)目錄,所有操作結(jié)束完成后,記錄g_endtime,計算歸檔總用時t_totaltime=g_endtime-g_starttime。
46、本技術(shù)的有益效果:本方法能實現(xiàn)自動化整理和管理文件??梢話呙栌嬎銠C或網(wǎng)絡(luò)中的文件,并根據(jù)預(yù)設(shè)的策略規(guī)則將其分類和歸檔到指定的文件夾中,其有益效果分析如下:
47、節(jié)省時間:其自動化歸檔軟件及方法可以自動執(zhí)行繁瑣的文件管理任務(wù),從而節(jié)省用戶的時間和精力。用戶無需手動查找、移動和重命名文件,只需設(shè)置好規(guī)則,軟件就會自動完成這些工作。
48、提高效率:通過其自動化歸檔軟件及方法,可以更快組織檔案數(shù)字化歸檔,提高工作效率。軟件可以根據(jù)文件類型、創(chuàng)建日期、修改日期等屬性對文件進行分類和歸檔,使文件更加有序,便于檢索及接入三方檔案管理歸檔軟件系統(tǒng)。
49、減少錯誤:手動歸檔不僅需要大量人力,同時容易出錯,如誤刪重要文件、將文件移動到錯誤的文件夾等。自動化歸檔軟件及方法可以減少這些錯誤的發(fā)生,確保文件的安全和準確性。
50、可定制性:其自動化歸檔軟件及方法具有高度的可定制性,用戶可以根據(jù)自己的需求設(shè)置歸檔規(guī)則。這使得該方法及實現(xiàn)軟件實現(xiàn)可以適應(yīng)各種不同的工作環(huán)境和歸檔需求,適用于各行各業(yè)檔案歸檔的工廠化生產(chǎn)的應(yīng)用場景,提高檔案加工數(shù)字化歸檔的生產(chǎn)效率。