一種數(shù)字切分方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及圖像中字符處理技術(shù)領(lǐng)域,具體涉及一種圖像中的數(shù)字切分方法及系統(tǒng)。
【背景技術(shù)】
[0002]在識(shí)別圖像中待識(shí)別區(qū)域的文字時(shí),由于受到圖像獲取設(shè)備質(zhì)量、文字油墨濃淡、二值化效果等諸多因素的影響,最終得到的待識(shí)別區(qū)域的二值圖像會(huì)出現(xiàn)粘連、斷裂等現(xiàn)象。這會(huì)大大影響OCR的識(shí)別準(zhǔn)確率。為了獲得更加準(zhǔn)確的識(shí)別結(jié)果,在將字符送入OCR之前,需要對(duì)字符進(jìn)行切分。字符之間的連接情況十分復(fù)雜,首先字符粘連的情況千差萬(wàn)別,其次字符還可能存在斷裂情況,另外字符粘連的個(gè)數(shù)是不固定的。
[0003]為了解決上述問(wèn)題,傳統(tǒng)方法大多將粘連、斷裂作為2個(gè)獨(dú)立的問(wèn)題進(jìn)行處理。最常用的去粘連方法是投影法。投影法將投影最小值的地方作為切分點(diǎn),這種方法在粘連點(diǎn)粘連比較厚重的情況下會(huì)導(dǎo)致切分錯(cuò)誤,例如O與O粘連的時(shí)候。針對(duì)數(shù)字去粘連還有人提出了滴水算法。滴水算法模擬水滴下落的過(guò)程,根據(jù)水滴下落的原則得到切分路徑。但是這種方法的局限于起始點(diǎn)的選擇和水滴下落的規(guī)則,并且只能解決2個(gè)數(shù)字粘連的問(wèn)題。另夕卜,還有人提出了一種基于粘連區(qū)域細(xì)化圖像中特征點(diǎn)的數(shù)字去粘連方法。該方法先利用細(xì)化圖像找到若干特征點(diǎn),然后利用這些特征點(diǎn)根據(jù)一定規(guī)則構(gòu)建所有可能的切分路徑,最后根據(jù)最優(yōu)化方法找到最可能的切分路徑。該方法的缺點(diǎn)是只能解決2個(gè)數(shù)字字符粘連的問(wèn)題。
[0004]針對(duì)斷裂問(wèn)題一般采用連通域分析法,利用字形及排布特征對(duì)斷裂區(qū)域進(jìn)行合并,或者設(shè)置一個(gè)能量函數(shù),利用最優(yōu)化的方法找到最好的切分路徑。
【發(fā)明內(nèi)容】
[0005]針對(duì)現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明的目的在于提供一種數(shù)字切分方法及系統(tǒng),解決粘連個(gè)數(shù)未知的情況下數(shù)字粘連的問(wèn)題,提高數(shù)字去粘連的準(zhǔn)確性。
[0006]為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
[0007]一種數(shù)字切分方法,包括以下步驟:
[0008](I)對(duì)待切分圖像進(jìn)行連通域分析,并根據(jù)位置關(guān)系進(jìn)行連通域合并;
[0009](2)計(jì)算待切分圖像中的字符高度H,根據(jù)字符高度確定合并后的連通域中需要進(jìn)行切分的粘連連通域;
[0010](3)對(duì)所述粘連連通域進(jìn)行切分點(diǎn)定位,根據(jù)切分點(diǎn)構(gòu)建切分路徑,,根據(jù)切分路徑進(jìn)行粘連連通域的切分。
[0011]進(jìn)一步,如上所述的一種數(shù)字切分方法,該方法還包括:(4)判斷切分后的連通域是否仍為粘連連通域,若是則根據(jù)字符寬度West進(jìn)行二次切分。
[0012]進(jìn)一步,如上所述的一種數(shù)字切分方法,該方法還包括:(5)判斷切分后的連通域是否存在異常切分區(qū)域,若是則對(duì)異常切分區(qū)域進(jìn)行合并,并對(duì)合并后的異常連通域按照字符寬度West重新進(jìn)行切分。
[0013]進(jìn)一步,如上所述的一種數(shù)字切分方法,步驟(I)中,所述的根據(jù)位置關(guān)系進(jìn)行連通域合并包括將相交關(guān)系的連通域合并、將上下位置關(guān)系的連通域合并、以及將包含關(guān)系的連通域合并。
[0014]進(jìn)一步,如上所述的一種數(shù)字切分方法,步驟(2)中,所述的字符高度H為合并后的所有連通域的高度的均值。
[0015]進(jìn)一步,如上所述的一種數(shù)字切分方法,步驟(2)中,根據(jù)字符高度確定粘連連通域的具體方式為:
[0016]查看合并后的連通域的寬度Rwidth是否滿足Rwidth>TXHest,若是則確定該連通域?yàn)檎尺B連通域;其中,T為閾值,T>0.8。
[0017]進(jìn)一步,如上所述的一種數(shù)字切分方法,步驟(3)中,對(duì)所述粘連連通域進(jìn)行切分點(diǎn)定位,根據(jù)切分點(diǎn)構(gòu)建切分路徑的具體方式為:
[0018]a.獲取粘連連通域中的粘連字符圖像;
[0019]b.填充粘連字符圖像的內(nèi)部空洞;
[0020]c.對(duì)填充后的字符圖像進(jìn)行背景細(xì)化,得到背景細(xì)化圖像;
[0021]d.標(biāo)記背景細(xì)化圖像中的上下分割線,并在上下分割線上查找交叉點(diǎn)作為特征點(diǎn),上下分割線上成對(duì)出現(xiàn)的特征點(diǎn)作為一個(gè)特征點(diǎn)點(diǎn)對(duì),上下分隔線上單獨(dú)出現(xiàn)的特征點(diǎn)作為一個(gè)單獨(dú)特征點(diǎn);
[0022]e.將所述的特征點(diǎn)點(diǎn)對(duì)和單獨(dú)特征點(diǎn)作為切分點(diǎn),構(gòu)建切分路徑。
[0023]再進(jìn)一步,如上所述的一種數(shù)字切分方法,步驟(4)中,根據(jù)字符寬度進(jìn)行二次切分的具體方式為:
[0024]①根據(jù)字符寬度確定粘連字符數(shù)目;
[0025]②根據(jù)字符寬度和粘連字符數(shù)目進(jìn)行強(qiáng)行切分。
[0026]更進(jìn)一步,如上所述的一種數(shù)字切分方法,判斷切分后的連通域是否異常切分區(qū)域的具體方式為:
[0027]查看切分后的連通域是否同時(shí)滿足以下公式,若是則判斷該連通域存在異常切分區(qū)域:
[0028]max ((Rrdcenter-West),(Rldcenter-West))〈diffl
[0029]abs ((Rrdcenter-West) - (Ridcenter-West)) <diff2
[0030]其中,Rld_tOT為切分后的連通域與其左側(cè)相鄰連通域之間的中心距,Rnkmte為切分后的連通域與其右側(cè)相鄰連通域之間的中心距,diffl、diff2為閾值,diffl=mXffest,diff2=nXffest,0.05〈m〈0.5,0.05〈η〈0.5。
[0031]—種數(shù)字切分系統(tǒng),包括:
[0032]連通域合并模塊,用于對(duì)待切分圖像進(jìn)行連通域分析,并根據(jù)位置關(guān)系進(jìn)行連通域合并;
[0033]粘連連通域確定模塊,用于計(jì)算待切分圖像中的字符高度H,根據(jù)字符高度確定合并后的連通域中需要進(jìn)行切分的粘連連通域;
[0034]連通域切分模塊,用于對(duì)所述粘連連通域進(jìn)行切分點(diǎn)定位,根據(jù)切分點(diǎn)構(gòu)建切分路徑,根據(jù)切分路徑進(jìn)行粘連連通域的切分。
[0035]進(jìn)一步,如上所述的一種數(shù)字切分系統(tǒng),該系統(tǒng)還包括:
[0036]二次切分模塊,用于判斷切分后的連通域是否仍為粘連連通域,若是則根據(jù)字符寬度West進(jìn)行二次切分。
[0037]再進(jìn)一步,如上所述的一種數(shù)字切分系統(tǒng),該系統(tǒng)還包括:
[0038]重切模塊,用于判斷切分后的連通域是否存在異常切分區(qū)域,若是則對(duì)異常切分區(qū)域進(jìn)行合并,并對(duì)合并后的異常連通域按照字符寬度West重新進(jìn)行切分。
[0039]更進(jìn)一步,如上所述的一種數(shù)字切分系統(tǒng),重切模塊判斷切分后的連通域是否存在異常切分區(qū)域的方式為:
[0040]查看切分后的連通域是否同時(shí)滿足以下公式,若是則判斷該連通域存在異常切分區(qū)域:
[0041 ] max ((Rrdcenter-West),(Ridcenter-West))〈diffl
[0042]abs ((Rrdcenter-West) - (Ridcenter-West)) <diff2
[0043]其中,Rld_tOT為切分后的連通域與其左側(cè)相鄰連通域之間的中心距,Rnkmte為切分后的連通域與其右側(cè)相鄰連通域之間的中心距,diffl、diff2為閾值,diffl=mXffest,diff2=nXffest,0.05〈m〈0.5,0.05〈η〈0.5。
[0044]本發(fā)明的有益效果在于:本發(fā)明所述的數(shù)字切分方法能夠同時(shí)解決數(shù)字粘連和斷裂的問(wèn)題,并且實(shí)現(xiàn)了粘連個(gè)數(shù)未知情況下字符的去粘連,提高了字符去粘連的準(zhǔn)確性,取得了較好的切分效果。
【附圖說(shuō)明】
[0045]圖1為本發(fā)明【具體實(shí)施方式】中一種數(shù)字切分系統(tǒng)的結(jié)構(gòu)框圖;
[0046]圖2為本發(fā)明【具體實(shí)施方式】中一種數(shù)字切分方法的流程圖;
[0047]圖3為實(shí)施例中待切分圖像;
[0048]圖4為對(duì)圖3進(jìn)行連通域分析后的初始連通域;
[0049]圖5為對(duì)圖4進(jìn)行連通域合并后的連通域;
[0050]圖6為圖5中一個(gè)粘連連通域的字符圖像;
[0051]圖7為對(duì)圖6進(jìn)行內(nèi)部填充后的圖像;
[0052]圖8為圖6的背景細(xì)化圖像;
[0053]圖9為圖8的上下分割線示意圖;
[0054]圖10為標(biāo)記的圖8中特征點(diǎn)的示意圖