国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      實現(xiàn)文書檔案價值自動鑒定的方法與流程

      文檔序號:12464890閱讀:463來源:國知局
      實現(xiàn)文書檔案價值自動鑒定的方法與流程

      本發(fā)明涉及中文電子文書的分析、處理領(lǐng)域,具體而言是一種實現(xiàn)文書檔案價值自動鑒定的方法。



      背景技術(shù):

      文書檔案是機(jī)關(guān)、團(tuán)體、企事業(yè)單位對在行政管理事務(wù)活動中產(chǎn)生的由通用文書轉(zhuǎn)化而來的檔案的習(xí)慣稱謂,是檔案部門普遍要進(jìn)行管理的檔案。檔案價值鑒定工作是一項俗稱“兩分清”的工作,即應(yīng)分清哪些需要保存,哪些不需要保存,也即鑒別“存”與“毀”的工作。分清應(yīng)該保存的文書檔案具體保存多長時間,對應(yīng)存文書檔案劃定保管期限。目前各機(jī)關(guān)單位均采用人工界定的方式進(jìn)行文書檔案保管期限劃分。

      由于文書檔案門類較多,各門類對應(yīng)的保管期限又不盡一致。隨著社會歷史進(jìn)程的變遷,一份文書檔案的保管價值會隨外界環(huán)境而發(fā)生變化。因此,文書檔案價值的鑒定需要實現(xiàn)自動化,以應(yīng)對不斷變化的外界形勢。

      然而,目前實現(xiàn)文書檔案價值鑒定的自動化較為困難,主要原因如下:

      1、檔案行業(yè)采用預(yù)歸檔方式較多,通常由業(yè)務(wù)部門文書人員手工操作完成。而文書人員流動較大,經(jīng)常會出現(xiàn)歸檔范圍出錯和保管期限設(shè)置錯誤的現(xiàn)象,導(dǎo)致價值鑒定的工作經(jīng)驗無法長效積累。目前業(yè)內(nèi)缺乏有代表性的經(jīng)驗值數(shù)據(jù)來支撐文書檔案價值鑒定自動化工作的開展。

      2、利用文書檔案關(guān)鍵字(詞)相似度度量的方法,實現(xiàn)對文書檔案價值鑒定的自動化推薦,目前業(yè)內(nèi)此項技術(shù)尚為空白。

      關(guān)鍵字(詞)是快速獲取文件主題的重要方法,在信息檢索和自然語言處理等領(lǐng)域均有重要應(yīng)用。目前,中文文書關(guān)鍵字(詞)的提取算法主要有:特征頻率方法(Term Frequency:TF)、文檔頻率方法(Document Frequency:DF)、反文檔頻率方法(Inverse Document Frequency:IDF)、信息增益方法(Information Gain:IG)、互信息方法(Mutual Information:MI)、期望交叉熵(Expected Cross Entropy:ECE)及χ2統(tǒng)計量(Chi-square:CHI)等。

      傳統(tǒng)的方法僅依靠詞匯的統(tǒng)計信息進(jìn)行關(guān)鍵字(詞)的提取,沒有將文件所屬行業(yè)的主題度關(guān)鍵字(詞)的提取影響考慮在內(nèi)。從檔案行業(yè)的業(yè)務(wù)角度出發(fā),目前業(yè)界尚未建立一個完整的以文書檔案保管價值為主題的關(guān)鍵字(詞)推薦標(biāo)注體系,更沒有形成一套文書檔案保管價值“自動推薦”的解決方案。

      推薦方法是整個推薦系統(tǒng)中最核心、最關(guān)鍵的部分,很大程度上決定了推薦系統(tǒng)性能的優(yōu)劣。目前,主要的推薦方法包括:基于內(nèi)容推薦、協(xié)同過濾推薦、基于關(guān)聯(lián)規(guī)則推薦、基于效用推薦、基于知識推薦和組合推薦。

      應(yīng)用最多的是內(nèi)容推薦和協(xié)同過濾推薦的組合。最簡單的做法就是分別用基于內(nèi)容的方法和協(xié)同過濾推薦方法產(chǎn)生一個推薦預(yù)測結(jié)果,然后組合其結(jié)果。盡管從理論上有很多種推薦組合方法,但在某一具體問題中并不見得都有效,組合推薦一個最重要原則就是通過組合后要能避免或彌補(bǔ)各自推薦技術(shù)的弱點。綜上,截至目前文書檔案業(yè)界中并未發(fā)現(xiàn)解決此問題的成熟方案,而本發(fā)明為了解決這一問題,結(jié)合文書檔案保管特色、利用基于關(guān)鍵字(詞)的詞法分析提供了一種文書檔案價值鑒定的自動推薦法,實現(xiàn)了文書檔案價值鑒定的自動化。



      技術(shù)實現(xiàn)要素:

      本發(fā)明為解決上述問題,旨在提供一種實現(xiàn)文書檔案價值自動鑒定的方法。

      本發(fā)明提供一種實現(xiàn)文書檔案價值自動鑒定的方法,包括如下步驟:

      步驟一,分別提取文書檔案的標(biāo)題和全文內(nèi)容的關(guān)鍵字(詞)內(nèi)容;

      步驟二,分別對標(biāo)題、全文內(nèi)容的關(guān)鍵字(詞)和標(biāo)題的關(guān)鍵字(詞)對照“受控詞表”進(jìn)行關(guān)鍵詞分配,得到關(guān)鍵字(詞)的集合;

      步驟三,對上述關(guān)鍵詞分配的結(jié)果進(jìn)行計算判別,通過關(guān)鍵字(詞)權(quán)重詞頻計算確定歸檔類別、通過自動標(biāo)注分類計算確定保管期限,進(jìn)而分別得到分別包含歸檔類別和保管期限的結(jié)論一、結(jié)論二;

      步驟四,根據(jù)結(jié)論一、結(jié)論二的結(jié)果是否一致,綜合推薦歸檔類別和保管期限。

      作為優(yōu)選,在所述步驟一中,利用馬爾科夫模型通過詞性標(biāo)注過濾停用詞。

      作為優(yōu)選,在所述步驟一中,若文書檔案的標(biāo)題為空,則提取首、尾段關(guān)鍵字(詞)來代替標(biāo)題關(guān)鍵字(詞)來完成后續(xù)分類。

      作為優(yōu)選,在所述步驟二中,將標(biāo)題和標(biāo)題、全文內(nèi)容的關(guān)鍵字(詞)對照預(yù)設(shè)的已歸檔索引庫,進(jìn)行相關(guān)度矩陣計算,進(jìn)而得到結(jié)論一;同時僅將標(biāo)題的關(guān)鍵字(詞)對照《文書檔案保管期限表》,進(jìn)行分類對應(yīng),進(jìn)而得到結(jié)論二。

      作為優(yōu)選,在所述步驟三中,所述權(quán)重詞頻計算針對同一關(guān)鍵字(詞)k與不同受控詞表分類”c之間關(guān)鍵詞權(quán)重P(k,g)的主次強(qiáng)弱關(guān)系,對主要關(guān)系給予較大的權(quán)值,次要關(guān)系給予較小的權(quán)值,即:

      (1≤p≤g)P(k,c)=p。

      作為優(yōu)選,在所述步驟三中,所述自動標(biāo)注分類計算TFIDF=TF(詞頻)*IDF(逆文檔頻率)的值,然后降序排列,取前列的關(guān)鍵字(詞);然后對照期限分類庫,完成保管期限的確定。

      作為優(yōu)選,在所述步驟四中,若推薦分類不符合業(yè)務(wù)需求,則修改當(dāng)前文檔關(guān)鍵字的分類,把當(dāng)前文檔的關(guān)鍵字加入到“受控詞表”對應(yīng)的條目中。

      和現(xiàn)有技術(shù)相比,本發(fā)明具有如下技術(shù)優(yōu)勢:

      1)本發(fā)明建立了以文書檔案保管價值為主題的關(guān)鍵字(詞)庫,根據(jù)相關(guān)文件提取出標(biāo)題和文書中的關(guān)鍵字(詞),確定文書檔案的歸檔類別;

      2)本發(fā)明結(jié)合電子全文內(nèi)容抽取和全文相似度比較技術(shù),自動與文書檔案已歸檔索引庫進(jìn)行全文內(nèi)容相似度比對,提取出相似度較高的全文關(guān)鍵字(詞),確定文書檔案的保管期限;

      3)本發(fā)明打破了傳統(tǒng)的文書檔案價值鑒定方式,將人工鑒定變?yōu)樽詣予b定,節(jié)約人力,提升了文書檔案保管期限劃分的準(zhǔn)確率,文書檔案保管期限快速劃分具備可行性;

      4)本發(fā)明建立了以文書檔案保管價值為主題的關(guān)鍵字(詞)數(shù)據(jù)庫,為深化文書檔案保管業(yè)務(wù)(如已歸檔索引數(shù)據(jù)庫的更新)與個性化推薦(如推薦相似內(nèi)容)提供了數(shù)據(jù)支撐;

      5)本發(fā)明為大批量文書檔案價值的自動鑒定提供了手段,可實現(xiàn)多個文書檔案保管價值鑒定的并發(fā)操作,提升了文書檔案價值鑒定的效率。

      附圖說明

      圖1為本發(fā)明的實施例的流程說明圖;

      圖2為檔案文書分類類別結(jié)構(gòu)圖;

      圖3為“關(guān)鍵字(詞)結(jié)構(gòu)樹”的結(jié)構(gòu)圖;

      圖4為關(guān)鍵詞與分類一對一關(guān)系的結(jié)構(gòu)圖;

      圖5為關(guān)鍵詞與分類一對多關(guān)系的結(jié)構(gòu)圖;

      圖6為關(guān)鍵詞與分類多對多關(guān)系的結(jié)構(gòu)圖;

      圖7為本發(fā)明的實施例的流程說明圖。

      具體實施方式

      在機(jī)關(guān)、團(tuán)體、企事業(yè)單位的日常工作中,文書檔案、歷史檔案的文書數(shù)據(jù)量龐大、種類繁多,如果按照傳統(tǒng)的文書檔案保管價值鑒定方法,針對文書檔案、檔案業(yè)務(wù)人員則需逐行查看每份檔案內(nèi)容,再對照《機(jī)關(guān)文件材料歸檔范圍和文書檔案保管期限規(guī)定》,對文書檔案進(jìn)行分類并界定保管期限,費時費力。而大部分文書檔案分類依賴人員手動處理,沒有統(tǒng)一的管理機(jī)制,造成大量的人力、時間及資金的浪費。

      基于此種情況,我們提出了一種實現(xiàn)文書檔案價值自動鑒定的方法,可以對文書檔案進(jìn)行自動歸類,進(jìn)行統(tǒng)一、有效的管理。本發(fā)明所要解決的核心問題是:

      提供一套通過對文書檔案進(jìn)行關(guān)鍵字(詞)相似度度量的方法,實現(xiàn)文書檔案價值鑒定的自動分類與推薦。

      下面結(jié)合實例對本發(fā)明的具體實施方法作進(jìn)一步描述。而該實例用于更加清楚地說明本發(fā)明的技術(shù)方案,而不能以此來限制本發(fā)明的保護(hù)范圍。

      參見圖1,本發(fā)明通過技術(shù)手段實現(xiàn)了文書檔案的價值鑒定的自動推薦,主要步驟為:

      步驟一,分別提取文書檔案的標(biāo)題和全文內(nèi)容的關(guān)鍵字(詞)內(nèi)容;

      本步驟為關(guān)鍵字的提取,對于后面的計算至關(guān)重要。一般而言,一篇文書檔案由標(biāo)題、章節(jié)、段落、句子、詞等文本組成。文書檔案自動分類的核心任務(wù)是提取文書檔案的關(guān)鍵字(詞),并根據(jù)關(guān)鍵字所處文檔的不同部分賦予不同的權(quán)重,比對《文書檔案保管期限》或者已歸檔的索引規(guī)則,計算并自動標(biāo)注文檔所屬分類。

      申請人通過對檔案行業(yè)大量文書檔案的自動分類標(biāo)注處理經(jīng)驗得出:

      1)絕大多數(shù)文書檔案的標(biāo)題名基本能夠反映出該文檔的主題內(nèi)容;

      2)對于標(biāo)題名特征不是很明顯的文書檔案,采用標(biāo)題、首尾段、中間內(nèi)容等維度提取特征項信息計算分類標(biāo)注。

      參見圖3,圖3為“關(guān)鍵字(詞)結(jié)構(gòu)樹”的結(jié)構(gòu)圖,關(guān)鍵詞自動標(biāo)注分為兩個步驟:關(guān)鍵詞抽取(keyword extraction)與關(guān)鍵詞分配(keyword assignment)。其中關(guān)鍵詞抽取,是從文檔內(nèi)容中尋找并提取關(guān)鍵詞;

      使用隱馬爾科夫模型(HMM)對輸入序列進(jìn)行詞性標(biāo)注(part-of-speech tagging),并過濾掉助詞、副詞等停用詞(stop words),只考慮剩下的有實際意義的詞。所述詞性標(biāo)注的目標(biāo)就是在產(chǎn)生中文分詞那樣的詞序列的同時,給每個產(chǎn)生的詞標(biāo)注一個詞性。

      詞性標(biāo)注的處理參見下表所示:

      表格中,(a)為原始中文句子,(b)為分詞結(jié)果,(c)為詞性分析結(jié)果

      本實例處理一份標(biāo)題為“關(guān)于XX縣城鎮(zhèn)環(huán)境噪聲達(dá)標(biāo)驗收的通知”的文檔。那么經(jīng)過上述方法去除無用的停用詞后,只留下名詞“XX縣”,“城鎮(zhèn)”,“環(huán)境”,“噪聲”,“通知”幾個關(guān)鍵字(詞)的集合。

      步驟二,分別對標(biāo)題、全文內(nèi)容的關(guān)鍵字(詞)和標(biāo)題的關(guān)鍵字(詞)對照“受控詞表”進(jìn)行關(guān)鍵詞分配;

      而關(guān)鍵詞分配是從一個預(yù)先構(gòu)建好的受控詞表(controlled vocabulary)中推薦若干個詞或者短語分配給文檔作為關(guān)鍵詞。

      參見圖4、圖5和圖6,關(guān)鍵字(詞)的集合與“檔案保管期限分類”之間的關(guān)系存有多種可能性。其中圖4為一對一的關(guān)系,即一個關(guān)鍵字(詞)只屬于一個分類;圖5為一對多的關(guān)系,即一個關(guān)鍵字(詞)屬于多個分類;而圖6為多對多的關(guān)系,即一個關(guān)鍵字(詞)屬于多個分類,而一個分類也可以包含多個關(guān)鍵字(詞)。

      假設(shè)當(dāng)前“檔案保管期限分類”有如下分類與受控詞表的對應(yīng)關(guān)系:

      上面所述的“AA縣”,“BB局”,“春節(jié)”,“工作”,“請示”幾個關(guān)鍵字(詞)的集合分別屬于

      XX縣-無分類

      BB局-單位分類BB局

      春節(jié)-無分類

      工作-無分類

      請示-{BB局{辦公室2.7.1.1:[50]},BB局{辦公室2.7.2.1:[40]}}

      步驟三,經(jīng)過上述步驟的處理,關(guān)鍵詞與“受控詞表分類”之間可能存在一對多或多對多的關(guān)系。

      對上述關(guān)鍵詞分配的結(jié)果進(jìn)行計算判別,通過關(guān)鍵字(詞)權(quán)重詞頻計算確定歸檔類別、通過自動標(biāo)注分類計算確定保管期限,進(jìn)而分別得到分別包含歸檔類別和保管期限的推薦結(jié)論;

      每一組關(guān)系中必然存在主次強(qiáng)弱之分,為了表明同一主題詞與不同“受控詞表分類”之間的主次強(qiáng)弱關(guān)系,本文規(guī)定了對主要關(guān)系給予較大的權(quán)值,次要關(guān)系給予較小的權(quán)值,即:

      (1≤p≤g)P(k,c)=p

      其中,P(k,g)為主題詞k與“受控詞表分類”c的關(guān)系權(quán)重值,P值的大小與主題詞k和“受控詞表分類”c之間的主次強(qiáng)弱關(guān)系成正比。這樣我們就可以在文本分類過程中,以不同“受控詞表分類”的權(quán)值之和的大小來自動標(biāo)注分類。比如根據(jù)上步關(guān)鍵字所屬分類權(quán)重相加計算結(jié)果為:

      BB局{辦公室2.7.1.1:[50]}權(quán)重50

      BB局{辦公室2.7.2.1:[40]}權(quán)重40

      因此可以通過這個權(quán)重值做出初步推薦,當(dāng)前關(guān)鍵字所屬分類推薦值應(yīng)該為:

      辦公室[50]2.7.1.1永久

      本文所用算法權(quán)值分配尺度規(guī)定如下:

      1)當(dāng)主題詞可以直接由檔案題名確定時,即某一個主題詞特指為某分類,且只要該主題詞出現(xiàn),該檔案文本就一定為這一分類時,P(k,g)=g;

      2)若一個關(guān)鍵詞和多個“受控詞表分類”存在關(guān)系,根據(jù)主次強(qiáng)弱程度,分別給予相對應(yīng)的權(quán)重值;對于比較專指或詞的長度較長的詞,給予較高的權(quán)重值。

      其中,自動標(biāo)注分類計算首先計算詞頻:

      詞頻(TF)=某個詞在文章中出現(xiàn)的次數(shù)

      考慮到文章有長短之分,為了便于不同文章的比較,進(jìn)行"詞頻"標(biāo)準(zhǔn)化:

      逆文檔頻率(Inverse Document Frequency,縮寫為IDF)用統(tǒng)計學(xué)語言表達(dá),

      就是在詞頻的基礎(chǔ)上,要對每個詞分配一個"重要性"權(quán)重。這個權(quán)重叫做"逆文檔頻率"(Inverse Document Frequency,縮寫為IDF),它的大小與一個詞的常見程度成反比。

      逆文檔頻率計算為:

      如果一個詞越常見,那么分母就越大,逆文檔頻率就越小越接近0。分母之所以要加1,是為了避免分母為0(即所有受控詞表都不包含該詞)。log表示對得到的值取對數(shù)。

      最后計算TF-IDF的值:

      TF-IDF=詞頻(TF)X逆文檔頻率(IDF)

      TF-IDF與一個詞在文檔中的出現(xiàn)次數(shù)成正比,與該詞在整個受控詞表的出現(xiàn)次數(shù)成反比。所以,自動提取關(guān)鍵詞的算法就很清楚了,就是計算出文檔的每個詞的TF-IDF值,然后按降序排列,取排在最前面的幾個詞。

      計算結(jié)果可能如下表:

      由上表可見,函的TF-IDF值最大,那么此語句的主要關(guān)鍵詞就是“請示”。

      隨后根據(jù)“檔案保管期限分類庫”中的關(guān)鍵字對照檔案分類標(biāo)注,自動根據(jù)關(guān)鍵字排序,推薦相應(yīng)的分類及保管期限。

      步驟四,根據(jù)結(jié)論的結(jié)果是否一致,綜合推薦歸檔類別和保管期限。

      綜上可見,實施例的方法為兩個途徑展開。其中:

      途徑一:提取文書檔案標(biāo)題關(guān)鍵(字)詞,對照《文書檔案保管期限表》進(jìn)行分類對應(yīng)(《文書檔案保管期限表》共計13類),初步確定該文件是否納入文書檔案歸檔范圍和歸檔類別。之后通過計算權(quán)重詞頻(如來源、時間、內(nèi)容和形式特征等屬性)判別檔案的重要性程度(重要或一般),推薦歸檔類別和保管期限,得出推薦結(jié)論一。

      途徑二:提取文書檔案標(biāo)題和全文內(nèi)容關(guān)鍵(字)詞,對照已歸檔索引庫,通過相關(guān)度計算,從已歸檔索引庫中獲取相似矩陣(如最相似的三篇文章),進(jìn)行標(biāo)題和全文比對。

      以下用D(Document)表示檔案文本,特征項(Term,用t表示),指出現(xiàn)在文檔D中且能夠代表該文檔內(nèi)容的基本語言單位,主要是由關(guān)鍵詞構(gòu)成,文本可以用特征項集合表示為D(T1,T2,......Tn),其中Tk是特征項,要求滿足1≤k≤n。假設(shè)一篇文檔中有a、b、c、d四個特征項,那么這篇文檔就可以表示:

      D(a,b,c,d)

      對于其它要與之比較的文本,也將遵從這個特征項順序。對含有n個特征項的文本而言,通常會給每個特征項賦予一定的權(quán)重表示其重要程度,即:

      D=D(T1,W1;T2,W2;......,Tn,Wn)

      簡記為:

      D=D(W1,W2,......,Wn)

      我們把它叫做文本D的權(quán)值向量表示,其中Wk是Tk的權(quán)重,1≤k≤n

      假設(shè)a、b、c、d的權(quán)重分別為30,20,20,10,那么該文本的向量表示為

      D(30,20,20,10)

      在向量空間模型中,兩個文本D1和D2之間的內(nèi)容相關(guān)度Sim(D1,D2)常用向量之間夾角的余弦值表示,公式為:

      其中,W1k、W2k分別表示文本D1和D2第k個特征項的權(quán)值1≤k≤n。

      假設(shè)文本D1的特征項為a,b,c,d,權(quán)值分別為30,20,20,10,類目C1的特征項為a,c,d,e,權(quán)值分別為40,30,20,10,則D1的向量表示為:

      D1(30,20,20,10,0)

      C1的向量表示為:

      C1(40,0,30,20,10)

      根據(jù)上述公式計算推導(dǎo)出:

      則根據(jù)上式計算出來的文本D1與類目C1相關(guān)度是0.86

      之后通過計算權(quán)重詞頻(如來源、時間、內(nèi)容和形式特征等屬性)判別檔案的重要性程度(重要或一般),推薦歸檔類別和保管期限,得出推薦結(jié)論二。

      綜合兩個推薦結(jié)論,給出文書檔案歸檔類別和保管期限的最終推薦結(jié)論。

      而當(dāng)推薦意見不一致,可以融入機(jī)器學(xué)習(xí)方式,靈活選擇推薦標(biāo)準(zhǔn)和比對矩陣,主要體現(xiàn)在:

      1)途徑選擇的原則:發(fā)現(xiàn)哪個途徑最有效,則優(yōu)先采取哪個途徑的推薦方式;

      2)相似矩陣的變換原則:針對不同類別文書檔案進(jìn)行相似矩陣成功率的記憶和轉(zhuǎn)換。如發(fā)現(xiàn)對于某類文書檔案選取兩篇文章比對更有效,則以后針對此類文書檔案相似矩陣自動轉(zhuǎn)換為選取兩篇文章。

      3)充實已歸檔索引庫:提取出的關(guān)鍵(字)詞與已歸檔索引庫中的數(shù)據(jù)進(jìn)行比對,出現(xiàn)新的關(guān)鍵(字)詞,則提示更新到已歸檔索引庫中,最終形成一個不斷更替的文書檔案關(guān)鍵字(詞)分類學(xué)習(xí)庫。

      本發(fā)明實現(xiàn)了文書檔案價值鑒定的自動化推薦,可自動推薦文書檔案歸檔類別和保管期限,改變傳統(tǒng)人工鑒定的方式,有效提升了文書檔案保管工作的效率和準(zhǔn)確性。

      上述僅為本發(fā)明的優(yōu)選實施方式,應(yīng)指出的是,對于本行業(yè)內(nèi)的普通技術(shù)技術(shù)人員而言,在本發(fā)明的原理之下可以由一些改進(jìn)和替換,該改進(jìn)和替換也應(yīng)視為本發(fā)明的保護(hù)范圍。

      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1