的黑點個數(shù),第一個黑點個數(shù)大于等于5的列作為文本起始列。最后一個黑點個數(shù)大于等于5的列作為文本結(jié)束列。將文本起始列和文本起始列之間平均分為5個區(qū)域。如果兩個區(qū)域的黑點個數(shù)小于3,標(biāo)記當(dāng)前文本行為文本結(jié)束行,否則繼續(xù)掃描下一個文本行。文本起始行和文本結(jié)束行之間是文本行分割的結(jié)果。
[0038]3.計算每一行的行高,根據(jù)文本的對齊方式以及行高等信息,確定出正文所在的行。找出文本行的最小字號,自底向上地掃描文本行。找到滿足以下條件的文本行作為正文結(jié)束行:字號與最小字號相差兩個像素以內(nèi);兩端對齊或者左對齊;段后距與最小文本行號所在的文本行的段后距相差兩個像素以內(nèi)。自上而下的掃描文本行,找到滿足以下條件的文本行作為正文起始行:字號與最小字號相差兩個像素以內(nèi);兩端對齊或者右對齊;段后距與最小文本行號所在的文本行的段后距相差兩個像素以內(nèi)。如果找不到正文起始行或者正文結(jié)束行,將正文起始行標(biāo)記為O,正文結(jié)束行標(biāo)記為文本行的結(jié)尾。這樣正文以上是我們要進(jìn)行版式識別的區(qū)域。
[0039]4.根據(jù)連通信息確定每一個區(qū)域,并對每一個區(qū)域內(nèi)進(jìn)行文本行分割,保存該區(qū)域內(nèi)的文本行高、行數(shù)、區(qū)域起始位置、區(qū)域相對于整個掃描圖像的對齊方式等信息。具體步驟如下:
[0040](I)對正文以上區(qū)域進(jìn)行水平投影,形成文本行,區(qū)域預(yù)劃分。
[0041]a)對水平投影進(jìn)行去噪,刪除一些直線以及離散點的影響。(過濾連續(xù)行數(shù)小于等于7的連續(xù)投影行;過濾連續(xù)行數(shù)大于7小于等于10,并且水平投影結(jié)果均值小于等于20的連續(xù)投影行)合并投影文本行成為區(qū)域。(從上至下的掃描水平投影結(jié)果,連續(xù)兩個投影文本行字號相同(判斷標(biāo)準(zhǔn)為差的絕對值小于等于2),(I)判斷行距是否小于等于2倍字號,小于等于2倍字號,合并兩個投影行成為一個區(qū)域;(2)連續(xù)兩行字號相近(判斷標(biāo)準(zhǔn)為差的絕對值大于2小于等于4),判斷行距是否小于等于I倍字號,如果小于等于I倍字號,合并兩個投影行成為一個區(qū)域;(3)下面一行比上面一行字號大,差為小于等于10,并且行距小于等于I倍字號,同時第三行與第二行的行距以及第三行和第一行的字號滿足前兩條規(guī)則。)
[0042](2)對每個預(yù)劃分區(qū)域進(jìn)行劃分確定。
[0043]a)對區(qū)域進(jìn)行垂直投影并對投影結(jié)果去噪,保存區(qū)域列起始位置、結(jié)束位置和寬度。
[0044]b)區(qū)域文本行劃分,文本信息記錄。(對區(qū)域進(jìn)行水平投影,并對投影結(jié)果進(jìn)行去噪操作,重新確定文本行信息,記錄區(qū)域中文本行的詳細(xì)信息。)
[0045]c)判斷垂直投影中是否存在大量空白(大量空白是指連續(xù)白點數(shù)大于等于10倍區(qū)域的行高)。存在跳到d),不存在跳到e)。
[0046]d)根據(jù)大量空白,將區(qū)域劃分為若干個區(qū)域。
[0047]1.確定每個分割后的區(qū)域的行、列的起始位置和結(jié)束位置,高度,寬度。
[0048]i1.對每個分割后的區(qū)域進(jìn)行水平投影,并對投影結(jié)果進(jìn)行去噪操作,重新確定文本行信息,記錄區(qū)域中文本行的詳細(xì)信息。
[0049]e)對區(qū)域中的文本行進(jìn)行判斷,判斷該區(qū)域是否為多個文本行對應(yīng)一個文本行的情況。
[0050]ii1.將區(qū)域預(yù)分類為三個子空間(左子空間、中子空間、右子空間)。(子空間劃分定義為,左子空間:區(qū)域左側(cè)起始位置,到區(qū)域長度的1/3處;中子空間:1/3處到2/3處;右子空間:2/3處到區(qū)域的結(jié)束位置)。
[0051]iv.分別對三個子空間進(jìn)行水平投影,并對投影結(jié)果進(jìn)行去噪操作。
[0052]V.記錄子空間的文本行信息(文本行數(shù),起始位置和結(jié)束位置,行高,行距)
[0053]v1.判斷3個子空間以及整個區(qū)域的文本行的相關(guān)性。右子空間存在一個文本行,左子空間或者中子空間至少有一個空間存在兩個及更多文本行。并且右子空間的文本行的行高占據(jù)整個區(qū)域的高度(95%以上)或者文本行存在于區(qū)域的水平投影部分的中間。此種情況需要特殊處理轉(zhuǎn)到f),否則結(jié)束。
[0054]f)多個文本行對應(yīng)一個文本行的情況。
[0055]1.將多個文本行的部分劃分為區(qū)域,剩余的一個文本行的部分作為該區(qū)域的附屬子區(qū)域。確定當(dāng)前區(qū)域以及附屬子區(qū)域的。(根據(jù)垂直投影)
[0056]i1.檢測當(dāng)前區(qū)域與前一區(qū)域是否可以合并,合并原則與⑴中b)類似。若能則合并,不能則繼續(xù)。
[0057]ii1.檢測當(dāng)前區(qū)域與后一區(qū)域是否可以合并,合并原則與⑴中b)類似。能,合并;不能,繼續(xù)。
[0058]iv.確定合并或者檢測后的區(qū)域的行、列的起始位置和結(jié)束位置,高度,寬度。
[0059]V.對區(qū)域進(jìn)行水平投影,并對投影結(jié)果進(jìn)行去噪操作,重新確定文本行信息,記錄區(qū)域中文本行的詳細(xì)信息。
[0060]確定完畢當(dāng)前公文的區(qū)域,遍歷每個區(qū)域獲得版式信息,提取區(qū)域內(nèi)字號大小,排序,區(qū)域的對齊方式作為版式信息。
[0061]5.利用以上保留的信息和版式特征庫中的規(guī)則進(jìn)行匹配(包括位置匹配和關(guān)鍵詞匹配),匹配上了則按版式特征庫提取版式信息。如果未匹配到版式序列號,則通過設(shè)定的標(biāo)題字集,部門字集,發(fā)文代字的字集,將識別出的每個區(qū)域與字集匹配,獲得版式識別結(jié)果?目息O
[0062]實施例1
[0063]一幅安徽省環(huán)境保護(hù)廳的公文如圖2所示,進(jìn)行版式檢測提取的版式信息如圖3所示,
[0064]首先對圖片進(jìn)行區(qū)域劃分,通過劃分后得到序列號,以及每一個區(qū)域的OCR結(jié)果。按照文中所提供的方法去與版式庫匹配。匹配后命中了版式中第一個樣例圖(圖3中命中id = O),按照命中版式規(guī)則進(jìn)行信息提取。
[0065]實施例2
[0066]一幅審計署的公文如圖4所示,進(jìn)行版式檢測提取的版式信息如圖5所示。
【主權(quán)項】
1.一種文檔圖像的版式識別方法,包括以下步驟: 1)根據(jù)不同文檔樣本的版式圖片,生成版式特征庫; 2)掃描待識別的文檔,得到掃描圖像; 3)對掃描圖像進(jìn)行文本行分割,確定待識別文檔的正文; 4)對待識別文檔正文以上的部分進(jìn)行區(qū)域劃分,并獲取每個區(qū)域的版式信息; 5)將步驟4)得到的版式信息與版式特征庫中的版式信息進(jìn)行匹配,如果匹配上,則從版式特征庫中提取對應(yīng)的版式信息;如果未匹配上,則將每個區(qū)域的版式信息與預(yù)先設(shè)定的版式字集匹配,獲得版式識別結(jié)果信息。2.如權(quán)利要求1所述的文檔圖像的版式識別方法,其特征在于,所述版式特征庫中保存不同文檔樣本的版式內(nèi)容及由版式內(nèi)容相對字高、對齊方式生成的版式序列號。3.如權(quán)利要求1所述的文檔圖像的版式識別方法,其特征在于,步驟2)中,還包括對掃描圖像進(jìn)行預(yù)處理。4.如權(quán)利要求3所述的文檔圖像的版式識別方法,其特征在于,所述預(yù)處理包括去噪和傾斜矯正。5.如權(quán)利要求4所述的文檔圖像的版式識別方法,其特征在于,所述去噪包括去油墨和去印章。6.如權(quán)利要求1所述的文檔圖像的版式識別方法,其特征在于,步驟3)中根據(jù)投影信息對掃描圖像進(jìn)行文本行分割,通過黑白像素點的紋理特征來確定切割位置。7.如權(quán)利要求6所述的文檔圖像的版式識別方法,其特征在于,自底向上找到正文的文本結(jié)束行,然后自頂向下尋找能與結(jié)束行匹配的文本起始行;如果找不到正文起始行或者正文結(jié)束行,將正文起始行標(biāo)記為O,正文結(jié)束行標(biāo)記為文本行的結(jié)尾;文本起始行和文本結(jié)束行之間是文本行分割的結(jié)果。8.如權(quán)利要求1所述的文檔圖像的版式識別方法,其特征在于,步驟4)中把具有相同的字高、行間距、對齊方式的行放到同一個區(qū)域,以及在同一個區(qū)域內(nèi)部如果左側(cè)有多個文本行,右側(cè)只有一個文本行,需要對區(qū)域再次劃分,把右側(cè)的一個文本行作為該區(qū)域的子區(qū)域。9.如權(quán)利要求1所述的文檔圖像的版式識別方法,其特征在于,步驟4)中劃分好的區(qū)域產(chǎn)生一個版式序列號,該版式序列號是由對齊方式,相對字高生成的。10.如權(quán)利要求1所述的文檔圖像的版式識別方法,其特征在于,步驟4)中,所述版式信息包括:區(qū)域內(nèi)字號大小,排序、區(qū)域相對于整個掃描圖像的對齊方式。
【專利摘要】本發(fā)明公開了一種文檔圖像的版式識別方法,首先設(shè)計了一個版式入庫功能,庫中會保存版式內(nèi)容,以及由版式內(nèi)容相對字高、對齊方式生成的版式序列號,如果一張未知圖片經(jīng)過版式分析,得到的版式序列號與庫中的某個版式序列號一樣,那么將通過庫中的提示信息去提取該未知圖片的版式信息。本發(fā)明通過高效以及準(zhǔn)確的版面分析方法來識別文檔圖片,尤其適用于中文公文文檔圖像的版式識別。
【IPC分類】G06K9/00
【公開號】CN104966051
【申請?zhí)枴緾N201510297257
【發(fā)明人】時金橋, 范曉鵬, 陳小軍, 郭莉, 蒲以國, 文新, 鄒亞劼, 王洋
【申請人】中國科學(xué)院信息工程研究所
【公開日】2015年10月7日
【申請日】2015年6月3日