字頻分級統(tǒng)計方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及計算機(jī)信息處理【技術(shù)領(lǐng)域】,公開了一種字頻分級統(tǒng)計方法及系統(tǒng)。該方法包括:提取每份原始文獻(xiàn)的屬性信息;根據(jù)所述屬性信息對所述原始文獻(xiàn)進(jìn)行分類,并建立不同類別的文檔屬性表;逐一對各類別的原始文獻(xiàn)進(jìn)行數(shù)字化,生成數(shù)字化文檔;根據(jù)文字的屬性信息進(jìn)行以所述數(shù)字化文檔為單位的初級字頻統(tǒng)計和字?jǐn)?shù)統(tǒng)計,并將統(tǒng)計結(jié)果保存到與所述文檔屬性表與所述數(shù)字化文檔相應(yīng)的電子目錄下;按每篇文檔的字頻統(tǒng)計記錄為基礎(chǔ)統(tǒng)計單位,進(jìn)行文字在各種統(tǒng)計范圍內(nèi)的逐級合并式字頻統(tǒng)計。利用本發(fā)明實施例提供的字頻分級統(tǒng)計方法及系統(tǒng),可以大大提高統(tǒng)計速度和效率以及準(zhǔn)確度。
【專利說明】 字頻分級統(tǒng)計方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機(jī)信息處理【技術(shù)領(lǐng)域】,具體涉及一種字頻分級統(tǒng)計方法及系統(tǒng)。
【背景技術(shù)】
[0002]文字的發(fā)明是人類文明的重要標(biāo)志,也是一個民族的傳統(tǒng)與文化得以延續(xù)的主要手段。
[0003]我國文字歷史悠久,形體變革多樣。數(shù)千年來,從文字圖畫到圖畫文字,再到甲骨文、金文、大篆、小篆、隸書、草書、行書、楷書,漢字的形體雖多有變異,但又一脈相承,忠實地記錄了中華文明的光輝歷程。
[0004]作為文字具體載體的古今字書資源數(shù)量龐大,從東漢《說文解字》到當(dāng)代的《漢語大字典》,各類著錄了大批文字及其形音義屬性的字書、韻書,是進(jìn)行文字研究平臺的基本資源,對這些浩瀚的文字資源進(jìn)行數(shù)字化后,如何高效的進(jìn)行各種統(tǒng)計范圍、統(tǒng)計級別的字頻統(tǒng)計,將會大大促進(jìn)中華各族文字研究的進(jìn)程,進(jìn)而加快我國文字處理的國際化、標(biāo)準(zhǔn)化進(jìn)程。
[0005]而現(xiàn)有的字頻統(tǒng)計方法通常是,首先針對待提取的古今字書原始資源,進(jìn)行數(shù)字化處理,建立基礎(chǔ)字集數(shù)據(jù)庫進(jìn)行處理。這些基礎(chǔ)數(shù)據(jù)庫包括古今字書資源庫、古文字屬性庫、現(xiàn)代漢字屬性庫、少數(shù)民族文字屬性庫等,然后以單個字本身為單位,在全體數(shù)字資源庫中逐個進(jìn)行遍歷性質(zhì)的字頻統(tǒng)計,這種統(tǒng)計方式在大數(shù)據(jù)量的時候其統(tǒng)計效率較差,速度較慢。在上百萬、上千萬的數(shù)據(jù)統(tǒng)計中,通常需要較長的等待時間。這種方式即使在大型數(shù)據(jù)庫服務(wù)器端采取了優(yōu)化措施,其即時的統(tǒng)計速度仍不能讓人滿意。
【發(fā)明內(nèi)容】
[0006]本發(fā)明提供一種字頻分級統(tǒng)計方法及系統(tǒng),以提高統(tǒng)計速度和準(zhǔn)確率。
[0007]為此,本發(fā)明提供如下技術(shù)方案:
[0008]一種字頻分級統(tǒng)計方法,包括:
[0009]提取每份原始文獻(xiàn)的屬性信息;
[0010]根據(jù)所述屬性信息對所述原始文獻(xiàn)進(jìn)行分類,并建立不同類別的文檔屬性表;
[0011]逐一對各類別的原始文獻(xiàn)進(jìn)行數(shù)字化,生成數(shù)字化文檔;
[0012]根據(jù)文字的屬性信息進(jìn)行以所述數(shù)字化文檔為單位的初級字頻統(tǒng)計和字?jǐn)?shù)統(tǒng)計,并將統(tǒng)計結(jié)果保存到與所述文檔屬性表與所述數(shù)字化文檔相應(yīng)的電子目錄下;
[0013]按每篇文檔的字頻統(tǒng)計記錄為基礎(chǔ)統(tǒng)計單位,進(jìn)行文字在各種統(tǒng)計范圍內(nèi)的逐級合并式字頻統(tǒng)計。
[0014]優(yōu)選地,所述屬性信息包括:文件信息和內(nèi)容信息;
[0015]所述文件信息的特征包括:文件時間信息,文件名;
[0016]所述內(nèi)容信息的特征包括:類別信息,分類號,作者,朝代信息,字型信息,出土信息,出版信息、樣本名稱。
[0017]優(yōu)選地,所述逐一對各類別的原始文獻(xiàn)進(jìn)行數(shù)字化,生成數(shù)字化文檔包括:
[0018]逐一將各類別的原始文獻(xiàn)的圖片轉(zhuǎn)換為可以編輯、檢索的數(shù)字化文檔。
[0019]優(yōu)選地,所述文字的屬性信息包括以下任意一項或多項屬性信息:文字的字型、Unicode編碼、筆順、筆畫、部首、字型結(jié)構(gòu)。
[0020]優(yōu)選地,所述根據(jù)文字的屬性信息進(jìn)行以所述數(shù)字化文檔為單位的初級字頻統(tǒng)計和字?jǐn)?shù)統(tǒng)計包括:
[0021]根據(jù)文字的屬性信息,以每份文檔為單位進(jìn)行每個字符的字頻統(tǒng)計和字?jǐn)?shù)統(tǒng)計。
[0022]優(yōu)選地,所述進(jìn)行文字在各種統(tǒng)計范圍內(nèi)的逐級合并式字頻統(tǒng)計包括:
[0023]基于所述數(shù)字化文檔的內(nèi)容屬性信息,進(jìn)行按文檔屬性信息的快速合并式字頻統(tǒng)計;和/或
[0024]基于文字的屬性信息,進(jìn)行基于文字屬性信息的快速合并式字頻統(tǒng)計。
[0025]一種字頻分級統(tǒng)計系統(tǒng),包括:
[0026]提取單元,用于提取每份原始文獻(xiàn)的屬性信息;
[0027]分類單元,用于根據(jù)所述屬性信息對所述原始文獻(xiàn)進(jìn)行分類,并建立不同類別的文檔屬性表;
[0028]數(shù)字化單元,用于逐一對各類別的原始文獻(xiàn)進(jìn)行數(shù)字化,生成數(shù)字化文檔;
[0029]初始統(tǒng)計單元,用于根據(jù)文字的屬性信息進(jìn)行以所述數(shù)字化文檔為單位的初級字頻統(tǒng)計和字?jǐn)?shù)統(tǒng)計,并將統(tǒng)計結(jié)果保存到與所述文檔屬性表與所述數(shù)字化文檔相應(yīng)的電子目錄下;
[0030]綜合統(tǒng)計單元,用于按每篇文檔的字頻統(tǒng)計記錄為基礎(chǔ)統(tǒng)計單位,進(jìn)行文字在各種統(tǒng)計范圍內(nèi)的逐級合并式字頻統(tǒng)計。
[0031]優(yōu)選地,所述數(shù)字化單元,具體用于逐一將各類別的原始文獻(xiàn)的圖片轉(zhuǎn)換為可以編輯、檢索的數(shù)字化文檔。
[0032]優(yōu)選地,所述初始統(tǒng)計單元,具體用于根據(jù)文字的屬性信息,以每份文檔為單位進(jìn)行每個字符的字頻統(tǒng)計和字?jǐn)?shù)統(tǒng)計。
[0033]優(yōu)選地,所述綜合統(tǒng)計單元包括:
[0034]第一統(tǒng)計子單元,用于基于所述數(shù)字化文檔的內(nèi)容屬性信息,進(jìn)行按文檔屬性信息的快速合并式字頻統(tǒng)計;和/或
[0035]第二統(tǒng)計子單元,用于基于文字的屬性信息,進(jìn)行基于文字屬性信息的快速合并式字頻統(tǒng)計。
[0036]本發(fā)明實施例提供的字頻分級統(tǒng)計方法及系統(tǒng),通過預(yù)先對單篇文檔數(shù)字化同時完成單篇文檔的初級字頻統(tǒng)計,之后結(jié)合屬性條件信息,針對各類統(tǒng)計條件,聯(lián)合各篇文檔中的初級字頻統(tǒng)計數(shù)據(jù),進(jìn)行簡單的數(shù)學(xué)累加即可快速完成最后需要的全范圍字頻統(tǒng)計。相比傳統(tǒng)的字頻統(tǒng)計方法而言,大大提高了統(tǒng)計速度和效率以及準(zhǔn)確度。進(jìn)一步地,由于在數(shù)字化進(jìn)程中預(yù)先進(jìn)行的各類屬性記錄與字頻統(tǒng)計關(guān)聯(lián),也可以根據(jù)字頻統(tǒng)計結(jié)果快速定位到涉及字頻統(tǒng)計結(jié)果的所有原始文獻(xiàn)信息,為文字的研究處理提供快捷方便的追溯功倉泛。
【專利附圖】
【附圖說明】
[0037]為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,還可以根據(jù)這些附圖獲得其他的附圖。
[0038]圖1是本發(fā)明實施例字頻分級統(tǒng)計方法的流程圖;
[0039]圖2是本發(fā)明實施例中單篇文檔的字頻統(tǒng)計數(shù)據(jù)示意圖;
[0040]圖3是本發(fā)明實施例字頻分級統(tǒng)計系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實施方式】
[0041]為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明實施例的方案,下面結(jié)合附圖和實施方式對本發(fā)明實施例作進(jìn)一步的詳細(xì)說明。
[0042]針對數(shù)量龐大的古今字書資源,在收集整理過程中的字頻統(tǒng)計效率差、速度慢的問題,本發(fā)明實施例提供一種字頻分級統(tǒng)計方法及系統(tǒng),快速進(jìn)行文字在古今字書資源統(tǒng)計范圍內(nèi)的合并式字頻統(tǒng)計,其統(tǒng)計速度和準(zhǔn)確率將大大提高,且每個字頻統(tǒng)計均可以很方便的追溯和快速定位到原始文檔中。
[0043]如圖1所示,是本發(fā)明實施例字頻分級統(tǒng)計方法的流程圖,包括以下步驟:
[0044]步驟101,提取每份原始文獻(xiàn)的屬性信息。
[0045]所述原始文獻(xiàn)是指與文獻(xiàn)圖片中文字完全相對應(yīng)的文本信息,來源于各類文獻(xiàn)樣本,這些文獻(xiàn)樣本具體范圍指包括但不限于大量文字的古今字書資源的樣本,包括古代的書籍、善本、出土文物等原始資料的樣本,也包括現(xiàn)代印刷出版物的樣本。這些樣本均需要進(jìn)行以圖片、以及對應(yīng)現(xiàn)代文字形式的數(shù)字化錄入工作。
[0046]所述原始文獻(xiàn)的屬性信息包括:文件信息和內(nèi)容信息。其中,文件信息特征包括:文件時間信息、文件名等;內(nèi)容信息特征包括:類別信息、分類號、作者、朝代信息(從古至今)、字型信息(如宋體、偕體、隸書、小篆、甲骨文等)、出土信息、出版信息、樣本名稱等。
[0047]如,對于民國時期的報紙,其文獻(xiàn)屬性信息應(yīng)包括:報紙日期、版面、所用字型、標(biāo)題字、正文字、報紙類表等常用信息。
[0048]步驟102,根據(jù)所述屬性信息對所述原始文獻(xiàn)進(jìn)行分類,并建立不同類別的文檔屬性表。
[0049]所述文檔屬性表中的內(nèi)容通常指示了文獻(xiàn)內(nèi)容屬性特征。
[0050]對于原始文獻(xiàn)屬于哪個系列,需要進(jìn)行分門別類,從文種結(jié)構(gòu)上來講,第一級可以劃分為古代漢字、現(xiàn)代漢字、書法字體等,第二級是指在上一級節(jié)點下的子分類,例如古代文字可以進(jìn)一步劃分為第二級子分類,如金文,楷書,小篆等;現(xiàn)代文字可以進(jìn)一步劃分為第二級子分類,如楷書、隸書、草書等;第三級在第二級的基礎(chǔ)上,進(jìn)一步細(xì)分,如楷書下分報類、碑刻、期刊等;依次類推,第四級、第五級,根據(jù)需要進(jìn)行。
[0051]以人民日報1949年原版報紙為例,其類別屬于“現(xiàn)代漢字/楷書/報類/人民日報/1946-1970”。在此基礎(chǔ)上,建立“194902010102字頻”,表示是1949年2月1日報紙第1版中第2條新聞;二者結(jié)合起來就是“現(xiàn)代漢字/楷書/報類/人民日報/1946-1970/1949/02/01/01/02 “,表示現(xiàn)代漢字下的楷書分類下的報類下的人民日報的1946-1970屬,1949年2月1日報紙第1版中第2條新聞;此即建立好的文檔屬性表;
[0052]原始文獻(xiàn)屬性與文檔屬性有對應(yīng)關(guān)系;二者可以完全一致
[0053]步驟103,逐一對各類別的原始文獻(xiàn)進(jìn)行數(shù)字化,生成數(shù)字化文檔。
[0054]原始文獻(xiàn)來源于各類文獻(xiàn)樣本,這些樣本沒有數(shù)字化前,是沒有對應(yīng)的電子文檔的。因此,必須根據(jù)文獻(xiàn)照片或文獻(xiàn)實體錄入對應(yīng)的文字序列后,才能形成對應(yīng)的數(shù)字化驗文檔。也就是說,原始文獻(xiàn)的數(shù)字化主要是指將原始文獻(xiàn)圖片轉(zhuǎn)換為可以編輯、檢索的數(shù)字化文檔,即將原始字進(jìn)行掃描然后進(jìn)行漢字識別后,錄入到計算機(jī)中,形成數(shù)字化文檔;對于不存在或無法識別的字符,可以給予唯一性的編號予以標(biāo)示。唯一性的編號標(biāo)示用于記錄該字的關(guān)聯(lián),便于追溯原始字型圖。
[0055]步驟104,根據(jù)文字的屬性信息進(jìn)行以所述數(shù)字化文檔為單位的初級字頻統(tǒng)計和字?jǐn)?shù)統(tǒng)計,并將統(tǒng)計結(jié)果保存到與所述文檔屬性表與所述數(shù)字化文檔相應(yīng)的電子目錄下。
[0056]所述文字的屬性信息可以包括以下任意一項或多項:文字的字型、Unicode編碼、筆順、筆畫、部首、字型結(jié)構(gòu)等屬性信息。
[0057]對于步驟103生成的每個數(shù)字化文檔,均依據(jù)所述文檔屬性表,建立相應(yīng)的電子目錄,比如電子目錄:“現(xiàn)代漢字/楷書/報類/人民日報/1946-1970/”,具體到該目錄下,對應(yīng)的數(shù)字化文檔則命名為“194902010102.TXT”,其對應(yīng)的字頻文件則命名為“194902010102字頻.TXT”,二者均存放于電子目錄:“現(xiàn)代漢字/楷書/報類/人民日報/1946-1970/”下194902010102.TXT”存放的是原始文獻(xiàn)1949年2月1日報紙第1版中第2條新聞?wù)闹兴械奈淖郑扇斯や浫攵?;“?94902010102字頻.TXT”則是記錄每個1949年2月1日報紙第1版中第2條新聞?wù)闹忻總€字的字頻,即每個字在1949年2月1日報紙第1版中第2條新聞?wù)闹卸汲霈F(xiàn)了多少次,多少概率,均有記錄;這就完成了一個最基本單元中所含有的每個字符的字頻統(tǒng)計;如“分”字在在1949年2月1日報紙第1版中第2條新聞?wù)闹卸汲霈F(xiàn)了多少次,多少概率,均有記錄。
[0058]文字的屬性信息可以包括該文字的字型、Unicode編碼、筆順、筆畫、部首、字型結(jié)構(gòu)、所在當(dāng)前文獻(xiàn)內(nèi)的具體位置坐標(biāo)(x,Y)等屬性信息。統(tǒng)計中既可以用文字的字型和Unicode編碼屬性來統(tǒng)計字頻,也可以用筆順、筆畫等信息來統(tǒng)計字頻。例如可以統(tǒng)計哪個字,哪個UN10CDE編碼出現(xiàn)的字頻,也可以統(tǒng)計某個筆順、筆畫的字頻有多少個。而所在當(dāng)前文獻(xiàn)內(nèi)的具體位置坐標(biāo)(X,Y)主要是記錄該字在當(dāng)前文獻(xiàn)中的具體位置,以方便后續(xù)快速定位該字在文獻(xiàn)中的原始位置,以方便后續(xù)的研究分析。同時,所有文字的屬性信息都可以作為查詢依據(jù)出現(xiàn)。
[0059]在實際應(yīng)用中,可以在進(jìn)行原始文獻(xiàn)數(shù)字化過程中,根據(jù)文字的屬性信息,以每份文檔為單位進(jìn)行每個字符的字頻統(tǒng)計和字?jǐn)?shù)統(tǒng)計。所謂字?jǐn)?shù)統(tǒng)計,即以每份文檔為單位,進(jìn)行初級統(tǒng)計該文檔內(nèi)的所有字?jǐn)?shù);所謂字頻統(tǒng)計,就是以某個字在該篇文檔的總字?jǐn)?shù)除以該篇文檔的總字?jǐn)?shù),即字頻統(tǒng)計=該篇文檔中當(dāng)前字的總字?jǐn)?shù)/該篇文檔中所有字的總字?jǐn)?shù),精度可以以千分比進(jìn)行,精確到小數(shù)點后三位。
[0060]具體地,可以針對單篇數(shù)字化文檔掃描全篇文字,逐一針對該篇數(shù)字化文檔中的每個漢字進(jìn)行字?jǐn)?shù)和字頻統(tǒng)計,最后形成圖2所示的單篇數(shù)字化文檔中的字?jǐn)?shù)和字頻統(tǒng)計結(jié)果。
[0061]如圖2中所示,該篇數(shù)字化文檔文件名為:“194902010102字頻”,表示是1949年2月1日報紙第1版中第2條新聞,總字?jǐn)?shù)31字,其中“分”字的在該篇新聞?wù)闹凶謹(jǐn)?shù)為4,其在該篇新聞中的字頻統(tǒng)計為4/31*1000=129%。,即圖1中所示的統(tǒng)計單位為一條新聞,一條新聞為一篇文章。
[0062]依次類推,直到所有類別下所有數(shù)字化文檔中的初級字頻和字?jǐn)?shù)及位置信息分別統(tǒng)計完畢,并記錄。
[0063]以圖2為例,依次統(tǒng)計所有報紙的所有版面的所有新聞條,得到以下記錄:
[0064]以圖1為例,將依次統(tǒng)計所有報紙的所有版面的所有新聞條。
[0065]類似:
[0066]“194902010101字頻”,表示是1949年2月1日報紙第1版中第1條新聞?wù)闹械淖诸l統(tǒng)計
[0067]“194902010103字頻”,表示是1949年2月1日報紙第1版中第3條新聞?wù)闹械淖诸l統(tǒng)計
[0068]“194902010104字頻”,表示是1949年2月1日報紙第1版中第4條新聞?wù)闹械淖诸l統(tǒng)計
[0069]“194902010201字頻”,表示是1949年2月1日報紙第2版中第1條新聞?wù)闹械淖诸l統(tǒng)計
[0070]“194902020101字頻”,表示是1949年2月2日報紙第1版中第1條新聞?wù)闹械淖诸l統(tǒng)計
[0071].......
[0072]步驟105,按每篇文檔的字頻統(tǒng)計記錄為基礎(chǔ)統(tǒng)計單位,進(jìn)行文字在各種統(tǒng)計范圍內(nèi)的逐級合并式字頻統(tǒng)計。
[0073]基于上述以所述數(shù)字化文檔為單位的初級字頻統(tǒng)計和字?jǐn)?shù)統(tǒng)計,可以結(jié)合每份數(shù)字化文檔的內(nèi)容屬性信息,進(jìn)行按數(shù)字化文檔屬性信息的快速合并式字頻統(tǒng)計;結(jié)合文字屬性信息,可以進(jìn)行基于文字屬性信息的快速合并式字頻統(tǒng)計。
[0074]所謂合并式統(tǒng)計,既可以是某個字符在時間上從上到下、從古至今范圍內(nèi)的縱向合并累加統(tǒng)計,也可以是某個年代內(nèi)的字符在各個應(yīng)用領(lǐng)域內(nèi)的橫向累加字頻統(tǒng)計。所謂累加統(tǒng)計,是指進(jìn)行簡單的數(shù)字加減運(yùn)算,字頻累加一般是指各篇文檔中的某個字的字頻數(shù)累加即可完成。
[0075]比如,“現(xiàn)代漢字/楷書/報類/人民日報/1946-1970/1949/02/01/01/02“,表示是1949年2月1日報紙第1版中第2條新聞?wù)奈臋n的內(nèi)容屬性,基于此,可以進(jìn)行按文檔屬性信息的快速合并式字頻統(tǒng)計,即將多個“194902010102字頻”統(tǒng)計的字頻數(shù)據(jù)合并。具體地,可以將現(xiàn)代漢字/楷書/報類/人民日報/1946-1970/1949/02/01/01/02“下的所有分類逐級向上豎向合并累計字頻,也可以進(jìn)行某一級分類的跨分類橫向合并累計字頻。
[0076]再比如,使用某個文字的屬性信息(如文字的字型或?qū)?yīng)的唯一 UNI CODE編碼),進(jìn)行基于所述文字的屬性信息的快速合并式字頻統(tǒng)計。該合并式字頻統(tǒng)計包括某個字符在時間上從上到下、從古至今范圍內(nèi)的縱向合并統(tǒng)計,也包括某個年代內(nèi)的字符在各個應(yīng)用領(lǐng)域內(nèi)的橫向字頻統(tǒng)計,如“分”字在所有文檔中的累計字頻,“分”字在多個同類“194902010102字頻”的累計字頻,“分”字在單個文檔“ 194902010102字頻”的字頻,“分”字在多個不同類“文檔中的累計字頻。
[0077]反過來,根據(jù)字頻統(tǒng)計的結(jié)果信息,由于在數(shù)字化進(jìn)程中預(yù)先進(jìn)行的各類屬性記錄與字頻統(tǒng)計關(guān)聯(lián),也可以快速定位到涉及字頻統(tǒng)計結(jié)果的所有原始文獻(xiàn)信息,為文字的研究處理提供快捷方便的追溯功能。
[0078]以圖2所示報紙中新聞統(tǒng)計為例,從初級統(tǒng)計即1949年2月1日該報紙第1版中第2條新聞中的字頻統(tǒng)計,其中就有“分”字在單個文檔“194902010102字頻”的字頻。
[0079]基于此,可以逐級直接累加統(tǒng)計1949年2月1日該報紙第1版中所有新聞中“分
“字的字頻。
[0080]再上一級可以直接累加統(tǒng)計1949年2月1日該報紙中所有版面“分“字的字頻。
[0081]再上一級可以直接累加統(tǒng)計1949年2月份該報紙中所有“分“字的字頻。
[0082]再上一級可以直接累加統(tǒng)計1949年該報紙中所有“分“字的字頻。
[0083]再上一級可以直接累加統(tǒng)計民國時期所有報紙類中所有“分“字的字頻。
[0084]再上一級可以直接累加統(tǒng)計所有報紙類中所有“分“字的字頻。
[0085]再上一級可以直接累加統(tǒng)計所有楷書類中所有“分“字的字頻。
[0086]再上一級可以直接累加統(tǒng)計所有現(xiàn)代漢字類中所有“分“字的字頻。
[0087]再上一級即頂級可以直接累加統(tǒng)計所有文檔中“分“字的字頻(包括現(xiàn)代漢字、古代漢字、書法字等等所有分類)。
[0088]即級別延續(xù)了之前確定的原始文獻(xiàn)分類類別:“現(xiàn)代漢字/楷書/報類/人民日報/1946-1970/1949/02/01/01/02/”。
[0089]上述將字頻數(shù)根據(jù)特定統(tǒng)計范圍而逐級累加的過程是非常簡單和快速的,因為根據(jù)范圍的不同,變化的僅是數(shù)字的加減的層級不同而已,而加減的運(yùn)算是非??斓?,因此在進(jìn)行原始文獻(xiàn)數(shù)字化的同時,進(jìn)行針對單篇文檔的字頻統(tǒng)計,對以后的可定制范圍的字頻統(tǒng)計的速度提升是巨大的。
[0090]而傳統(tǒng)方式不預(yù)先進(jìn)行單篇文檔的字頻統(tǒng)計,待需要的時候,才逐個掃描各個文檔,每個文檔掃描后再統(tǒng)計和記錄字頻,然后再累加,速度顯然很慢。如果統(tǒng)計的范圍有所變化,下次統(tǒng)計的時候又要重新掃描統(tǒng)計,非常費時。
[0091]本發(fā)明實施例中,通過預(yù)先對單篇文檔數(shù)字化同時完成單篇文檔的初級字頻統(tǒng)計,之后結(jié)合屬性條件信息,針對各類統(tǒng)計條件,聯(lián)合各篇文檔中的初級字頻統(tǒng)計數(shù)據(jù),進(jìn)行簡單的數(shù)學(xué)累加即可快速完成最后需要的全范圍字頻統(tǒng)計。相比傳統(tǒng)的字頻統(tǒng)計方法而言,大大提高了統(tǒng)計速度和效率以及準(zhǔn)確度。進(jìn)一步地,由于在數(shù)字化進(jìn)程中預(yù)先進(jìn)行的各類屬性記錄與字頻統(tǒng)計關(guān)聯(lián),也可以根據(jù)字頻統(tǒng)計結(jié)果快速定位到涉及字頻統(tǒng)計結(jié)果的所有原始文獻(xiàn)信息,為文字的研究處理提供快捷方便的追溯功能。
[0092]本發(fā)明實施例的方法可廣泛應(yīng)用于計算機(jī)信息處理技術(shù)和文字信息處理領(lǐng)域以及文化遺產(chǎn)的信息化保護(hù)、傳播領(lǐng)域。
[0093]相應(yīng)地,本發(fā)明實施例還提供一種字頻分級統(tǒng)計系統(tǒng),如圖3所示,是該系統(tǒng)的一種結(jié)構(gòu)示意圖。
[0094]在該實施例中,所述字頻分級統(tǒng)計系統(tǒng)包括:
[0095]提取單元301,用于提取每份原始文獻(xiàn)的屬性信息;
[0096]分類單元302,用于根據(jù)所述屬性信息對所述原始文獻(xiàn)進(jìn)行分類,并建立不同類別的文檔屬性表;
[0097]數(shù)字化單元303,用于逐一對各類別的原始文獻(xiàn)進(jìn)行數(shù)字化,生成數(shù)字化文檔;
[0098]初始統(tǒng)計單元304,用于根據(jù)文字的屬性信息進(jìn)行以所述數(shù)字化文檔為單位的初級字頻統(tǒng)計和字?jǐn)?shù)統(tǒng)計,并將統(tǒng)計結(jié)果保存到與所述文檔屬性表與所述數(shù)字化文檔相應(yīng)的電子目錄下;
[0099]綜合統(tǒng)計單元305,用于按每篇文檔的字頻統(tǒng)計記錄為基礎(chǔ)統(tǒng)計單位,進(jìn)行文字在各種統(tǒng)計范圍內(nèi)的逐級合并式字頻統(tǒng)計。
[0100]其中,所述數(shù)字化單元303具體用于逐一將各類別的原始文獻(xiàn)的圖片轉(zhuǎn)換為可以編輯、檢索的數(shù)字化文檔。
[0101]所述初始統(tǒng)計單元304具體用于根據(jù)文字的屬性信息,以每份文檔為單位進(jìn)行每個字符的字頻統(tǒng)計和字?jǐn)?shù)統(tǒng)計。
[0102]所述綜合統(tǒng)計單元305的一種實施例可以包括:第一統(tǒng)計子單元和第二統(tǒng)計子單元(未圖示)。其中:
[0103]所述第一統(tǒng)計子單元用于基于所述數(shù)字化文檔的內(nèi)容屬性信息,進(jìn)行按文檔屬性信息的快速合并式字頻統(tǒng)計;和/或
[0104]所述第二統(tǒng)計子單元用于基于文字的屬性信息,進(jìn)行基于文字屬性信息的快速合并式字頻統(tǒng)計。
[0105]利用所述字頻分級統(tǒng)計系統(tǒng)進(jìn)行字頻統(tǒng)計的詳細(xì)過程可參照前面本發(fā)明實施例字頻分級統(tǒng)計方法中的描述,在此不再贅述。
[0106]本發(fā)明實施例的字頻分級統(tǒng)計系統(tǒng),通過預(yù)先對單篇文檔數(shù)字化同時完成單篇文檔的初級字頻統(tǒng)計,之后結(jié)合屬性條件信息,針對各類統(tǒng)計條件,聯(lián)合各篇文檔中的初級字頻統(tǒng)計數(shù)據(jù),進(jìn)行簡單的數(shù)學(xué)累加即可快速完成最后需要的全范圍字頻統(tǒng)計。相比傳統(tǒng)的字頻統(tǒng)計方法而言,大大提高了統(tǒng)計速度和效率以及準(zhǔn)確度。進(jìn)一步地,由于在數(shù)字化進(jìn)程中預(yù)先進(jìn)行的各類屬性記錄與字頻統(tǒng)計關(guān)聯(lián),也可以根據(jù)字頻統(tǒng)計結(jié)果快速定位到涉及字頻統(tǒng)計結(jié)果的所有原始文獻(xiàn)信息,為文字的研究處理提供快捷方便的追溯功能。
[0107]本發(fā)明實施例的系統(tǒng)可廣泛應(yīng)用于計算機(jī)信息處理技術(shù)和文字信息處理領(lǐng)域以及文化遺產(chǎn)的信息化保護(hù)、傳播領(lǐng)域。
[0108]本說明書中的各個實施例均采用遞進(jìn)的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于系統(tǒng)實施例而言,由于其基本相似于方法實施例,所以描述得比較簡單,相關(guān)之處參見方法實施例的部分說明即可。以上所描述的系統(tǒng)實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上。可以根據(jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動的情況下,即可以理解并實施。
[0109]以上對本發(fā)明實施例進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了【具體實施方式】對本發(fā)明進(jìn)行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及設(shè)備;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實施方式】及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
【權(quán)利要求】
1.一種字頻分級統(tǒng)計方法,其特征在于,包括: 提取每份原始文獻(xiàn)的屬性信息; 根據(jù)所述屬性信息對所述原始文獻(xiàn)進(jìn)行分類,并建立不同類別的文檔屬性表; 逐一對各類別的原始文獻(xiàn)進(jìn)行數(shù)字化,生成數(shù)字化文檔; 根據(jù)文字的屬性信息進(jìn)行以所述數(shù)字化文檔為單位的初級字頻統(tǒng)計和字?jǐn)?shù)統(tǒng)計,并將統(tǒng)計結(jié)果保存到與所述文檔屬性表與所述數(shù)字化文檔相應(yīng)的電子目錄下; 按每篇文檔的字頻統(tǒng)計記錄為基礎(chǔ)統(tǒng)計單位,進(jìn)行文字在各種統(tǒng)計范圍內(nèi)的逐級合并式字頻統(tǒng)計。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述屬性信息包括:文件信息和內(nèi)容信息; 所述文件信息的特征包括:文件時間信息,文件名; 所述內(nèi)容信息的特征包括:類別信息,分類號,作者,朝代信息,字型信息,出土信息,出版信息、樣本名稱。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述逐一對各類別的原始文獻(xiàn)進(jìn)行數(shù)字化,生成數(shù)字化文檔包括: 逐一將各類別的原始文獻(xiàn)的圖片轉(zhuǎn)換為可以編輯、檢索的數(shù)字化文檔。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述文字的屬性信息包括以下任意一項或多項屬性信息:文字的字型、Unicode編碼、筆順、筆畫、部首、字型結(jié)構(gòu)。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)文字的屬性信息進(jìn)行以所述數(shù)字化文檔為單位的初級字頻統(tǒng)計和字?jǐn)?shù)統(tǒng)計包括: 根據(jù)文字的屬性信息,以每份文檔為單位進(jìn)行每個字符的字頻統(tǒng)計和字?jǐn)?shù)統(tǒng)計。
6.根據(jù)權(quán)利要求1至5任一項所述的方法,其特征在于,所述進(jìn)行文字在各種統(tǒng)計范圍內(nèi)的逐級合并式字頻統(tǒng)計包括: 基于所述數(shù)字化文檔的內(nèi)容屬性信息,進(jìn)行按文檔屬性信息的快速合并式字頻統(tǒng)計;和/或 基于文字的屬性信息,進(jìn)行基于文字屬性信息的快速合并式字頻統(tǒng)計。
7.一種字頻分級統(tǒng)計系統(tǒng),其特征在于,包括: 提取單元,用于提取每份原始文獻(xiàn)的屬性信息; 分類單元,用于根據(jù)所述屬性信息對所述原始文獻(xiàn)進(jìn)行分類,并建立不同類別的文檔屬性表; 數(shù)字化單元,用于逐一對各類別的原始文獻(xiàn)進(jìn)行數(shù)字化,生成數(shù)字化文檔; 初始統(tǒng)計單元,用于根據(jù)文字的屬性信息進(jìn)行以所述數(shù)字化文檔為單位的初級字頻統(tǒng)計和字?jǐn)?shù)統(tǒng)計,并將統(tǒng)計結(jié)果保存到與所述文檔屬性表與所述數(shù)字化文檔相應(yīng)的電子目錄下; 綜合統(tǒng)計單元,用于按每篇文檔的字頻統(tǒng)計記錄為基礎(chǔ)統(tǒng)計單位,進(jìn)行文字在各種統(tǒng)計范圍內(nèi)的逐級合并式字頻統(tǒng)計。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于, 所述數(shù)字化單元,具體用于逐一將各類別的原始文獻(xiàn)的圖片轉(zhuǎn)換為可以編輯、檢索的數(shù)字化文檔。
9.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于, 所述初始統(tǒng)計單元,具體用于根據(jù)文字的屬性信息,以每份文檔為單位進(jìn)行每個字符的字頻統(tǒng)計和字?jǐn)?shù)統(tǒng)計。
10.根據(jù)權(quán)利要求7至9任一項所述的系統(tǒng),其特征在于,所述綜合統(tǒng)計單元包括: 第一統(tǒng)計子單元,用于基于所述數(shù)字化文檔的內(nèi)容屬性信息,進(jìn)行按文檔屬性信息的快速合并式字頻統(tǒng)計;和/或 第二統(tǒng)計子單元,用于基于文字的屬性信息,進(jìn)行基于文字屬性信息的快速合并式字頻統(tǒng)計。
【文檔編號】G06F17/30GK104281603SQ201310282492
【公開日】2015年1月14日 申請日期:2013年7月5日 優(yōu)先權(quán)日:2013年7月5日
【發(fā)明者】高玉軍, 劉昉 申請人:北大方正集團(tuán)有限公司, 方正信息產(chǎn)業(yè)控股有限公司, 北京北大方正電子有限公司