国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種字符切分方法和裝置的制作方法

      文檔序號:6463076閱讀:200來源:國知局
      專利名稱:一種字符切分方法和裝置的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明屬于模式識別領(lǐng)域,具體涉及光學(xué)字符的切分技術(shù)。
      技術(shù)背景隨著OCR(Optical Character Recognition,光字符識別)中單字符識別正確率 的提高,字符切分已經(jīng)成為OCR領(lǐng)域中的關(guān)鍵問題,目前在文字識別領(lǐng)域取 得的大部分進(jìn)展也都可以歸功為文字切分水平的提高。但是目前文字識別技術(shù) 的實用化已經(jīng)受限于文字字符的切分技術(shù),文字切分的正確率與文字識別正確 率直接相關(guān),文字切分的錯誤會直接導(dǎo)致文字識別的錯誤。字符切分的目的就是從多字符圖像中切分出 一系列子圖像,其中每個子圖 像都包含一個獨立完整的字符。目前常用的字符切分方法有標(biāo)準(zhǔn)切分法、基 于識別的切分法、整體切分法以及前三種方法的組合。整體切分法主要使用在英文字符切分過程中,該方法是把一個單詞作為一 個整體來進(jìn)行識別,這種方法雖然避免了單詞內(nèi)部切分的問題,但它依賴于現(xiàn) 有的定義好的詞典,這大大限制了該方法的應(yīng)用范圍。標(biāo)準(zhǔn)切分法主要使用在漢字字符切分過程中,該方法通過對圖像進(jìn)行分析 尋找到字符之間較為合理的切分點,采用靜態(tài)的投影分析方法,將文本圖像進(jìn) 行行切分和列切分,該方法的具體實施過程如下通過掃描儀等數(shù)碼成像設(shè)備獲取文檔的灰度圖像數(shù)據(jù)。對于保存時間過長 的文檔、被弄臟的文檔、加深復(fù)印后的復(fù)制件,掃描后的灰度圖像數(shù)據(jù)包含很 多額外的噪聲,往往會影響字符切分的準(zhǔn)確率,如圖l所示??梢圆捎萌只?者局部的閾值化方法對灰度圖像數(shù)據(jù)進(jìn)行二值化操作,例如大津法、迭代法和 雙峰法等,圖2為對圖1所示的圖像采用大津法處理后的效果圖,可以看出,經(jīng)過二值化搡作后的圖像數(shù)據(jù)上面依然存在很多噪聲,比如201所示的長線段和202所示的小的連通區(qū)域,這時可以有選擇性的對噪聲進(jìn)行過濾操作??梢圆捎没趨^(qū)域生長的圖像分割算法來過濾噪聲,該方法將同 一 區(qū)域內(nèi) 具有相似性質(zhì)的像素點聚集起來,形成連通區(qū)域,像素的相似性質(zhì)包括平均灰 度值、紋理、顏色等信息。從初始區(qū)域(如小鄰域或甚至于每個像素)開始, 將相鄰的具有相似性質(zhì)的像素點或者其他區(qū)域具有該性質(zhì)的像素點歸并到當(dāng) 前區(qū)域中,從而逐步增長區(qū)域,直至沒有可以歸并的點或其它小區(qū)域為止,形 成連通區(qū)域。遍歷圖像中所有的連通區(qū)域,并計算每個連通區(qū)域內(nèi)的黑點個數(shù)。計算每個連通區(qū)域內(nèi)的黑點個數(shù)后,設(shè)置一個經(jīng)驗閾值ThresholdPixel, 該經(jīng)驗閾值可以根據(jù)文本圖像的噪聲強弱來設(shè)置,也可以根據(jù)文檔中字體名 稱、字體大小以及排版布局來設(shè)置。所有黑點個數(shù)小于ThresholdPixel的連通 區(qū)域都被視為噪聲而被過濾掉。其中ThresholdPixel的值不能太大,否則會將 很多漢字字符的偏旁部首過濾掉,比如"濾"字中的點;ThresholdPixel的值 也不能太小,否則會遺留一定數(shù)目的噪聲區(qū)域。例如文檔的布局排版格式為A4幅面大??;字體為"仿宋";字體大小為 小三號;文檔共有22行,每行有28個字符(包括標(biāo)點符號在內(nèi))??梢詫?ThresholdPixel設(shè)為50,即黑點個數(shù)小于50的連通區(qū)域都被視為噪聲而被過濾 掉,相應(yīng)區(qū)域內(nèi)的每個像素點值被改為0。圖3為圖2經(jīng)過噪音去除處理后的 效果示意圖,可以看出,其中類似202所述的黑點個數(shù)較少的連通區(qū)域大部分 被過濾掉,但是由于類似201所述的連通區(qū)域內(nèi)的黑點個數(shù)較多不能作為噪聲 過濾掉。將二值化操作后的圖像進(jìn)行行切分和列切分,圖4為如圖3的文本區(qū)域采 用標(biāo)準(zhǔn)切分方法后的效果示意圖??梢钥闯?,由于高噪聲的存在,采用標(biāo)準(zhǔn)切 分法后的文本可能存在字符粘連的問題,粘連是指在多字符圖像中,字符間筆 劃相互接觸的情況?;谧R別的方法是對標(biāo)準(zhǔn)切分法及整體切分法所進(jìn)行的反饋,該方法提供了多個切分^f叚設(shè),然后對切分結(jié)構(gòu)進(jìn)行選擇,得到最優(yōu)的切分結(jié)果,這種方法 能夠識別出字符切分結(jié)果的正確與否,但不能糾正字符切分的錯誤,也不能有 效的解決字符粘連、斷筆等問題,而且這種方法比較復(fù)雜、耗時,在實際中應(yīng) 用得4艮少??梢钥闯觯诂F(xiàn)有的字符切分技術(shù)中,存在以下缺點 (1 )、容易造成兩個及兩個以上的漢字圖像由于圖像預(yù)處理的影響或者字 符之間的間距過小而粘連在一起,造成了字符切分不準(zhǔn)確、識別率低的問題。印刷體文本圖像中,由于印刷樣本質(zhì)量比較差以及對文本圖像進(jìn)行二值化 操作后帶來的噪聲和誤差等,常常會造成粘連搭接字符的存在。而且文獻(xiàn)保存的時間過久或文檔復(fù)制過程也會帶來額外的噪聲,比如文檔 被弄臟、閱讀者隨手添加的批注、復(fù)印過程中增加了濃度設(shè)置等,普通的噪聲 去除算法只會處理噪聲較小的污點,無法處理長線的噪聲,這些長線的噪聲會 造成字符間的粘連,影響字符識別的結(jié)果。(2) 、容易把由偏旁部首組成的漢字分割成多個區(qū)域,把偏旁部首當(dāng)作一 個漢字來處理,造成了漢字字符合并不準(zhǔn)確、識別率低的問題,產(chǎn)生這種結(jié)果 的原因有兩個一是對于由偏旁部首組成的漢字,在印刷或者打印前,由于偏旁部首之間 的距離比較小或者粘連的像素數(shù)比較少,通常會把偏旁部首當(dāng)作一個整體的子 圖像來處理,經(jīng)過掃描后的灰度圖像經(jīng)過二值化操作后,偏旁部首很容易被當(dāng) 作一個漢字來處理。二是對灰度文本圖像進(jìn)行二值化操作經(jīng)常會丟失一些有用的信息,容易造 成字符的斷筆,把由偏旁部首組成的漢字分割成多個區(qū)域。例如打印或者印刷 后的文檔經(jīng)過多數(shù)復(fù)印后,字符圖像的灰度值會變得很淺,字符圖像中較細(xì)的 筆劃經(jīng)常出現(xiàn)中間斷裂的現(xiàn)象。(3) 對于字符切分結(jié)果的正確與否,不用過分依賴于字符識別反饋機(jī)制。發(fā)明內(nèi)容本發(fā)明實施例提供一種字符切分方法和裝置,用以提高字符切分的正確性。本發(fā)明實施例提供一種字符切分方法,包括 對文本圖像進(jìn)行行切分和列切分,獲得若干個字符單元圖像塊;識別包含粘連字符的字符單元圖像塊,并繼續(xù)切分所述包含粘連字符的字符單元圖像塊;識別漢字字符單元圖像塊區(qū)域和英文字符單元圖像塊區(qū)域,并在所述漢字 字符單元圖像塊區(qū)域中識別由漢字字符偏旁部首占用的字符單元圖像塊;將相鄰的漢字字符的偏旁部首占用的字符單元圖像塊合并為一個字符單 元圖像塊。其中,所述粘連字符包括粘連漢字字符,以及所述識別包含粘連漢字字符 的字符單元圖像塊的方法包括當(dāng)字符單元圖像塊的寬度大于漢字字符單元圖像塊的平均寬度,且該字符 單元圖像塊的高度與字符單元圖像塊的平均高度的差值小于設(shè)定的闞值時,確 定字符單元圖像塊包含粘連漢字字符。所述粘連字符包括粘連英文字符,所述識別包含粘連英文字符的字符單元圖像塊的方法包括當(dāng)字符單元圖像塊的寬度大于漢字字符單元圖像塊的平均寬度,且該字符單元圖像塊的高度與字符單元圖像塊的平均高度的差值大于設(shè)定的闊值時,確定字符單元圖像塊包含粘連英文字符。所述識別漢字字符偏旁部首占用的字符單元圖像塊的方法包括 當(dāng)字符單元圖像塊的高度大于字符單元圖像塊的平均高度,寬度大于漢字字符單元圖像塊的平均寬度的4/5時,確定字符單元圖像塊包含漢字字符; 當(dāng)所述漢字字符單元圖像塊與前一字符單元圖像塊之間的距離處于相鄰中英文字符單元圖像塊之間的距離范圍之外時,將前一字符作為當(dāng)前字符;當(dāng)當(dāng)前字符單元圖像塊與前一字符單元圖像塊中心之間的距離處于相鄰 漢字字符單元圖像塊中心之間的距離范圍之外時,確定所述當(dāng)前字符與前一字 符均為偏旁部首字符。進(jìn)一步,該字符切分方法還包括識別標(biāo)點符號的字符單元圖像塊。其中,所述識別標(biāo)點符號的字符單元圖像塊的方法包括 當(dāng)字符單元圖像塊的寬度小于等于該字符單元圖像塊的高度,且該字符單元圖像塊完全在文本行中心線位置的上面或者下面時,確定字符單元圖像塊包含標(biāo)點符號,或者當(dāng)字符單元圖像塊的高度小于文本行的高度,寬度小于漢字字符單元圖像 塊平均寬度的1/4,且該字符單元圖像塊與其相鄰的前一字符單元圖像塊或后 一字符單元圖像塊之間的距離值中,至少有一個距離值大于相鄰中英文字符單 元圖像塊之間距離范圍的上限時,確定字符單元圖像塊包含標(biāo)點符號。本發(fā)明實施例提供一種字符切分裝置,包括初步切分單元,用于對文本圖像進(jìn)行行切分和列切分,獲得若干個字符單 元圖像塊;粘連字符切分單元,用于識別包含粘連字符的字符單元圖像塊,并繼續(xù)切 分所述包含粘連字符的字符單元圖像塊;識別偏旁部首單元,用于識別漢字字符單元圖^f象塊區(qū)域和英文字符單元圖 像塊區(qū)域,并在所述漢字字符單元圖像塊區(qū)域中識別由漢字字符偏旁部首占用 的字符單元圖像塊;字符合并單元,用于將相鄰的漢字字符的偏旁部首占用的字符單元圖像塊合并為一個字符單元圖像塊。其中,所述粘連字符切分單元具體用于,當(dāng)字符單元圖像塊的寬度大于漢 字字符單元圖像塊的平均寬度,且該字符單元圖像塊的高度與字符單元圖像塊 的平均高度的差值小于設(shè)定的闊值時,確定字符單元圖像塊包含粘連漢字字 符,或者當(dāng)字符單元圖像塊的寬度大于漢字字符單元圖像塊的平均寬度,且該字符 單元圖像塊的高度與字符單元圖像塊的平均高度的差值大于設(shè)定的閾值時,確 定字符單元圖^f象塊包含粘連英文字符。所述識別偏旁部首單元具體用于,當(dāng)字符單元圖像塊的高度大于字符單元 圖像塊的平均高度,寬度大于漢字字符單元圖像塊的平均寬度的4/5時,確定字符單元圖像塊包含漢字字符;當(dāng)所述漢字字符單元圖像塊與前一字符單元圖像塊之間的距離處于相鄰中英文字符單元圖像塊之間的距離范圍之外時,將前一字符作為當(dāng)前字符;當(dāng)當(dāng)前字符單元圖像塊與前一字符單元圖像塊中心之間的距離處于相鄰 漢字字符單元圖像塊中心之間的距離范圍之外時,確定所述當(dāng)前字符與前一字 符均為偏旁部首字符。進(jìn)一步,所述字符切分裝置還包括識別標(biāo)點符號單元,用于當(dāng)字符單元圖 像塊的寬度小于等于該字符單元圖像塊的高度,且該字符單元圖像塊完全在文 本行中心線位置的上面或者下面時,確定字符單元圖像塊包含標(biāo)點符號,或者當(dāng)字符單元圖像塊的高度小于文本行的高度,寬度小于漢字字符單元圖像 塊平均寬度的1/4,且該字符單元圖像塊與其相鄰的前一字符單元圖像塊或后 一字符單元圖像塊之間的距離值中,至少有一個距離值大于相鄰中英文字符單 元圖像塊之間距離范圍的上限時,確定字符單元圖像塊包含標(biāo)點符號。通過上述技術(shù)方案,本發(fā)明實施例通過對文本圖像進(jìn)行行切分和列切分, 獲得若干個字符單元圖像塊;識別包含粘連字符的字符單元圖像塊,并繼續(xù)切 分所述包含粘連字符的字符單元圖像塊;識別漢字字符單元圖像塊區(qū)域和英文 字符單元圖像塊區(qū)域,并在所述漢字字符單元圖像塊區(qū)域中識別由漢字字符偏 旁部首占用的字符單元圖像塊;將相鄰的漢字字符的偏旁部首占用的字符單元 圖像塊合并為一個字符單元圖像塊。該方法能夠識別出包含粘連字符的字符單 元圖像塊及包含偏旁部首的字符單元圖像塊,使得字符切分結(jié)果不用過分依賴 于字符識別反饋機(jī)制,進(jìn)一步提高了字符的識別率。


      圖1為掃描后文檔的灰度圖像示意圖; 圖2為圖1經(jīng)過大津法二值化后的效果示意圖; 圖3為圖2經(jīng)過噪音去除處理后的效果示意圖; 圖4為如圖3的文本區(qū)域采用標(biāo)準(zhǔn)切分方法后的效果示意圖; 圖5為本發(fā)明實施例提供的一種字符切分方法的流程圖; 圖6為對二值化處理后文本圖像進(jìn)行行切分和列切分的流程圖; 圖7為經(jīng)過二值化處理的文本點陣圖像; 圖8為圖7所示的文本區(qū)域經(jīng)過行切分后的效果示意圖; 圖9為圖7所示的文本區(qū)域添加額外噪音的文本圖^f象示意圖; 圖IO為圖9在小閾值情況下的行切分文本區(qū)域示意圖; 圖11為圖9在大閾值情況下的行切分文本區(qū)域示意圖; 圖12為低噪音的文本圖像在大閾值情況下的行切分文本區(qū)域示意圖; 圖13為圖7經(jīng)過初步的行切分和列切分后的效果示意圖; 圖14為本發(fā)明實施例提供的文本行的高度及中心線位置的結(jié)構(gòu)示意圖; 圖15為本發(fā)明實施例提供的字符單元圖像塊的高度結(jié)構(gòu)示意圖; 圖16為本發(fā)明實施例提供的字符單元圖像塊的寬度結(jié)構(gòu)示意圖; 圖17為本發(fā)明實施例提供的相鄰字符單元圖像塊中心之間的距離結(jié)構(gòu)示 意圖;圖18為本發(fā)明實施例提供的相鄰字符單元圖像塊之間的距離結(jié)構(gòu)示意圖;圖19為本發(fā)明實施例提供的切分字符單元方法的流程圖;圖20為圖13中部分區(qū)域的放大效果示意圖;圖21為圖20中的粘連字符單元字符塊進(jìn)行切分后的效果示意圖;圖22為將偏旁部首字符進(jìn)行合并的方法流程圖;圖23為采用本發(fā)明實施例提供的方法將圖20進(jìn)行正確切分后的結(jié)果;圖24為采用本發(fā)明實施例提供的方法將圖13進(jìn)行正確切分后的結(jié)果; 圖25為本發(fā)明實施例提供的一種字符切分裝置的結(jié)構(gòu)示意圖。
      具體實施方式
      本發(fā)明實施例提供一種字符切分方法及其裝置,針對現(xiàn)有技術(shù)提供的字符 切分方法導(dǎo)致字符切分錯誤帶來的字符識別率較低的問題,提出了以下技術(shù)方 案,現(xiàn)結(jié)合說明書附圖及具體實施例對該技術(shù)進(jìn)行詳細(xì)說明本發(fā)明第一實施例提供了一種字符切分方法,如圖5所示,具體實施過程 如下5100、 對文本圖像進(jìn)行行切分和列切分,獲得若干個字符單元圖像塊。結(jié) 合圖6對該具體過程進(jìn)行詳細(xì)說明5101、 對二值化后的文本圖像進(jìn)行行切分。獲得待切分的二值文本點陣圖像,文本區(qū)域的像素寬度為nWidth,高度為 nHeight。設(shè)置函數(shù)/ ( ),表示圖像第/行第y'列的像素值,當(dāng)像素點/ () 為前景點時,取值為1;當(dāng)像素點/(4/)為背景點時,取值為0。為了切分出文本的行區(qū)域,并且去除成行狀分布的噪聲,從上向下掃描文 本圖像,并計算每條水平掃描線上前景點的像素值之和Sn,其中Sn = S, + S2 + ...+Si+...(i= 0, 1, 2…nWidth)。設(shè)置閾值NP如果S^N,,則該掃描 線為組成文本的掃描線;如果S,Np則該掃描線為噪聲或者空白,去除成行 狀分布的噪聲,初步切分出文本的行區(qū)域。如圖7所示的文本區(qū)域經(jīng)過行切分 后的效果示意圖如圖8所示。同時記錄每一行的邊界位置左上點和右下點的 坐標(biāo)位置以及兩條水平線之間的中線MiddleLine的位置,并計算出每個聯(lián)體文 本行的高度。對于N!的設(shè)置需要注意以下幾點 (1)、如果文本圖像的噪聲比較小,N,可以設(shè)置得比較小,基本不影響行 切分。例如,可以將N!設(shè)置為IO。(2)、如果文本圖像的噪聲比較大,圖9所示,Ni可以設(shè)置得比較大。如 果N!設(shè)置得比較小,強一些的噪聲就不會被消除,切分出的文本行區(qū)域就會 不準(zhǔn)確,如圖10所示,所以必須將N^殳置得比較大才能解決這個問題,可以 將N^殳置為60,切分后的效果如圖11所示。(3)、 Ni設(shè)置得比較大時,會影響字符數(shù)量較少的文本行。如果文本行 的字符數(shù)量較少,該文本行中某些水平掃描線上的前景點數(shù)量就比較少,計算 出的Sn值就較小,如果N^殳置得比較大,會造成S^Np易將該文本行的某 些前景點視為噪聲或者空白,如圖12所示,最后一行只有一個漢字"戰(zhàn)",文 本被錯誤地切分為2行或者更多行??梢酝ㄟ^兩種途徑解決這個問題 一是需 要人工參與,比如根據(jù)文本圖像的污染情況,手工設(shè)定閾值N!的大??;二是 設(shè)定一個比較大的閾值進(jìn)行切分,初步分析切分后的文本行間距、文本行的高 度,查找異常數(shù)據(jù),根據(jù)異常數(shù)據(jù)嘗試合并文本行邊界。如果合并后沒有引起 新的異常數(shù)據(jù),則合并該異常數(shù)據(jù)對應(yīng)的文本行邊界,否則放棄。這樣即可以 摒除大部分的噪聲干擾,同時還可以有效地消除數(shù)據(jù)高度序列、文本行間距序 列中的異常數(shù)據(jù)。5102、 對二值化后的文本圖像進(jìn)行行切分的基礎(chǔ)上,進(jìn)行列切分的操作。 為了切分出文本的列區(qū)域,并且去除成列狀分布的噪聲,從左至右掃描文本圖像,并計算每條縱向掃描線上的前景點的像素值之和Rn,其中R,R^ R2+... + Rj + ...,其中j的范圍為該文本行區(qū)域的上邊界和下邊界。設(shè)置閾值 N2 ,如果R^N2,則該掃描線為組成字符的掃描線,如果Rj〈N2,則該掃描線為 噪聲或者空白,去除呈列狀分布的噪聲。由于對二值化后的文本圖像進(jìn)行了噪 聲去除處理,所以一般小的噪聲不會影響文本列區(qū)域切分,所以可以設(shè)置N2 為0。這樣每個字符都會有一個外接矩形框,字符的上下邊界為該行的上下邊 界,左右邊界為該字符的列切分點。5103、 獲得包含每個字符所有黑色像素的最小外接矩形框。由于每個字符的外接矩形框高度不一致,尤其是中英文字符高度的差異, 將每個字符的外接矩形框進(jìn)行向內(nèi)收斂或者向外擴(kuò)展,使得矩形框為包含字符 所有黑色像素的最小外接矩形,從而得到一個包含若干個字符單元圖像塊的集 合序列Q,如圖13所示。S200、統(tǒng)計分析文本圖像中所有矩形圖像塊的特征數(shù)據(jù)。 根據(jù)S103中得到的包含字符矩形圖像塊的集合序列Q,統(tǒng)計分析文本圖 像中所有矩形圖像塊的特征數(shù)據(jù),包括如下特征數(shù)據(jù)(1) 、文本行的高度、中心線位置及文本行的平均行高如圖14所示,文本行的高度HL是指包含文字的兩條水平線之間的距離; 文本行的中心線MiddleLine是指兩條水平線之間的中線所處的位置;統(tǒng)計所有 文本行的高度HL,計算出文本區(qū)域的平均行高HLAVE。遍歷S100中切分出 的所有文本區(qū)域,計算相應(yīng)的行高HL、中心線位置MiddleLine、以及文本區(qū) 域的平均4亍高HLAVE。(2) 、字符單元圖像塊的平均高度如圖15所示,字符單元圖像塊的高度H是指每個字符單元最小外接矩形 框的高度,統(tǒng)計所有字符單元最小外接矩形框的高度,計算出字符單元圖像塊 的平均高度HeightAve。(3) 、字符單元圖像塊的平均寬度如圖16所示,字符單元圖像塊的寬度Width (簡寫W)是指每個字符單 元最小外接矩形框的寬度。但是該字符不一定是一個合法字符,比如漢字的偏 旁部首組成的字符或者字符間相互粘連組成的字符等,如圖16中"報紙"和 "到","報紙"是由于字符間相互粘連,將2個漢字字符組成了一個字符,"到" 被分成了 2個漢字的偏旁部首字符。統(tǒng)計所有字符單元圖像塊的寬度分布特征,設(shè)x軸為字符單元圖像塊的寬 度,y軸為該寬度值所對應(yīng)的字符單元圖像塊的個數(shù),類似于灰度圖像的直方 圖統(tǒng)計。由于漢字字符基本上是方塊字,漢字字符單元圖像塊的寬度不會比其高度大很多,故x軸的上限可以為文本區(qū)域的平均行高HLAVE的1.5倍。普通文檔中,漢字和英文/數(shù)字之間不會發(fā)生粘連。得到如上字符單元圖像 塊寬度分布圖后,由分布特征可以看出,會有兩個相鄰的寬度值數(shù)目聚集的區(qū) 域,其中寬度大的聚集區(qū)是正常的漢字字符單元圖像塊的寬度值范圍,寬度較 小的聚集區(qū)是正常的英文或者數(shù)字字符單元圖像塊的寬度值范圍。另外在該寬 度分布圖中,會有一些寬度值更大的區(qū)域或者更小的區(qū)域,其中,寬度值更大 的區(qū)域是由包含粘連字符的字符單元圖像塊造成的,例如"報紙",該字符單 元圖像塊包含兩個漢字字符,所以每個字符單元圖像塊的寬度值都較大;寬度 值更小的區(qū)域可能是由包含漢字字符偏旁部首的字符單元圖像塊組成的,例如 "川"字,被分割成三個字符,所以每個字符單元圖像塊的寬度值都較小。 在漢字字符的寬度值分布區(qū)間內(nèi),取局部的波峰值為漢字字符單元圖像塊 的平均寬度ChnWidth;同樣,在英文/數(shù)字字符的寬度值分布區(qū)間內(nèi),取局部 的波峰值為英文/數(shù)字字符單元圖像塊的平均寬度EnWidth。 (4)、相鄰字符單元圖像塊中心之間的距離如圖17所示,相鄰字符單元圖像塊中心之間的距離Wave是指相鄰字符最 小外接矩形框中心之間的距離。設(shè)x軸為相鄰字符單元圖像塊中心之間的距離值,y軸為該距離值所對應(yīng) 的字符單元圖像塊的數(shù)目,得到字符單元圖像塊中心之間的距離值分布圖后, 由分布特征可以看出,會有兩個相鄰的距離值分布聚集的區(qū)域,其中,距離值 比較大的區(qū)域?qū)?yīng)的是漢字字符單元圖像塊聚集的區(qū)域,距離值比較小的是英 文/數(shù)字字符單元圖像塊聚集的區(qū)域。在漢字字符和英文/數(shù)字字符單元圖像塊聚集的區(qū)域內(nèi),分別找出局部的波 峰值WaveCN和WaveEN。根據(jù)WaveCN和WaveEN,可以劃定出相鄰漢字字 符單元圖像塊中心之間的距離范圍為[(2*WaveCN+WaveEN) /3, (4* WaveCN -WaveEN)/3],相鄰英文/數(shù)字字符單元圖像塊中心之間的距離范圍為[(4* WaveEN - WaveCN) /3 , ( WaveCN+2*WaveEN) /3]。(5)、相鄰字符單元圖像塊之間的距離如圖18所示,字符單元圖像塊之間的距離Dis是指同一文本行中相鄰 的兩個字符單元圖像塊,前一個字符單元圖像塊的右邊界到后一個字符單元圖 像塊的左邊界之間的距離。統(tǒng)計所有字符單元圖像塊之間的距離分布,得到該 分布圖后,可以看到一個明顯的數(shù)目聚集的區(qū)域,該區(qū)域內(nèi)既可能包括相鄰的 漢字字符單元圖像塊之間的距離,也可能包括相鄰的英文/數(shù)字字符單元圖像塊 之間的距離,因為相鄰的漢字字符單元圖像塊之間的距離及相鄰的英文/數(shù)字字 符單元圖像塊之間的距離都很小,沒有絕對的分界線。但是由分布特征可以看 出,會有另外一個聚集區(qū),是相鄰的漢字字符和英文/數(shù)字字符單元圖像塊之間 的距離,取其局部的波峰值DisChnAndEn,該聚集區(qū)的數(shù)目多少不固定,根據(jù) 文檔區(qū)域中英文混排的程度,可以劃定出相鄰中英文字符單元圖像塊之間的距 離范圍是[DisChnAndEn - Threshold, DisChnAndEn + Threshold],其中Threshold 是一個給定的閾值,可以根據(jù)實際情況來設(shè)置。5300、 識別包含粘連字符的字符單元圖像塊,并繼續(xù)切分包含粘連字符的 字符單元圖像塊。如果字符單元圖像塊的寬度大于漢字字符單元圖像塊的平均寬度,則確定 出該字符為粘連字符。根據(jù)確定出的粘連字符單元圖像塊的高度與字符單元圖 像塊的平均高度HeightAve進(jìn)行比較,可以將粘連字符單元圖像塊劃分為粘連 漢字字符圖像塊和粘連英文字符圖像塊,下面分別對粘連漢字字符圖像塊和粘 連英文字符圖像塊進(jìn)行識別,并對包含粘連字符的字符單元圖像塊進(jìn)行切分。如果粘連字符單元圖像塊的高度與字符單元圖像塊的平均高度之差小于 設(shè)定的閾值,則確定出該粘連字符為粘連漢字字符。 一般來說,粘連漢字字符 之間粘連處的縱向掃描線的前景點的個數(shù)最少,處在投影分布的波谷地段,所 以,可以根據(jù)粘連字符縱向掃描線對應(yīng)的前景點個數(shù)對該粘連漢字字符進(jìn)行切 分,下面結(jié)合圖19對該具體過程進(jìn)行詳細(xì)說明5301、 如果粘連字符單元圖像塊的高度與字符單元圖像塊的平均高度之差小于設(shè)定的閾值,則確定出該粘連字符為粘連漢字字符。S302、記粘連字符單元圖像塊的上、下、左、右邊界為分別為T、 B、 L、 R,以L至R為橫軸,T至B為縱軸,計算該粘連字符單元圖像塊縱向掃描 線上黑色像素點的個數(shù),將橫坐標(biāo)按照其對應(yīng)的前景點個數(shù)的多少從小到大 進(jìn)行排序,得到一個關(guān)于位置的數(shù)組序列0。5303、 創(chuàng)建一個空的數(shù)組序列0P將左邊界L和右邊界R的橫坐標(biāo)加入 到0!中,選擇0中的第一個元素,按照位置的大小順序插入到0,中。5304、 計算0i中兩兩相鄰的位置之間的距離,如果距離都小于字符單元 圖像塊的平均寬度,則執(zhí)行S306;否則執(zhí)行S305。5305、 選擇0中的下一個元素,按照位置大小順序插入到0i中,重復(fù) S304的過程,直至0!中兩兩相鄰的位置之間的距離都小于字符單元圖像塊 的平均寬度ChnWidth為止。5306、 以0i中的位置為分割點,將粘連字符單元圖像塊進(jìn)行分割,從而 得到多個首尾重疊的子字符單元圖像塊,將每個字符的外接矩形框進(jìn)行向內(nèi) 收斂或者向外擴(kuò)展,使得矩形框為包含字符所有黑色像素的最小外接矩形。5307、 將粘連字符單元圖像塊從原來的序列Q中刪除,并將S306中得到 的所有字符單元圖像塊插入到Q中相同的位置上,從而得到一個新的字符單 元圖像塊序列Qj。圖20為圖13部分區(qū)域放大后的效果示意圖,圖21為圖20按照S300進(jìn) 行切分后的效果示意圖。如果粘連字符單元圖像塊的高度與字符單元圖像塊的平均高度之差大于 設(shè)定的閾值,確定出該粘連字符單元圖像塊為英文/數(shù)字字符單元圖像塊,對于 英文字符之間的粘連,需要考慮兩種情況第一種情況,相鄰字符圖像間不粘連,但是無法用白豎線進(jìn)行分割而造成 的字符粘連,此時可以使用邊緣跟蹤算法,找出各自的連通區(qū)域即可對粘連字 符進(jìn)行切分。第二種情況,相鄰字符圖像間存在粘連,可以利用字符的輪廓搜索所有可 能的切分點,生成一系列的切分路徑,根據(jù)英文切分評價挑選出最佳的切分路 徑對粘連字符進(jìn)行切分。S400、識別標(biāo)點符號的字符單元圖像塊。對于確定字符單元圖像塊中的字符為標(biāo)點符號,需要考慮兩種情況,只要滿足下面的任一種情況,該字符就確定為標(biāo)點符號第一種情況,若字符單元圖像塊的高度小于文本行行高的1/2,寬度小于 等于該字符單元圖像塊的高度,且該字符單元圖像塊完全在MiddleLine的上面 或者下面,則確定出該字符單元圖像塊中的字符為標(biāo)點符號,例如","、"。"、 "、"等標(biāo)點符號;第二種情況,若字符單元圖像塊的高度小于文本行行高,寬度小于 ChnWidth/4,且該字符單元圖像塊與前后的字符單元圖像塊之間的距離值中, 至少有一個值大于1.2*(DisChnAndEn +Threshold),即該距離已經(jīng)超過了中英 文字符單元圖像塊之間的距離范圍的上限,則確定出該字符單元圖像塊中的字 符為標(biāo)點符號,例如";"、"!"、":"等標(biāo)點符號。5500、 識別漢字字符單元圖像塊區(qū)域和英文字符單元圖像塊區(qū)域,并在漢 字字符單元圖像塊區(qū)域中識別由漢字字符偏旁部首占用的字符單元圖像塊;將 相鄰的漢字字符的偏旁部首占用的字符單元圖像塊合并為一個字符單元圖像塊。該步驟可以針對每個文本行區(qū)域分別進(jìn)行處理,首先在每一個文本行中找 到所有標(biāo)點符號,然后依次處理每兩個標(biāo)點符號之間的字符單元圖像塊,結(jié)合 圖22對該具體過程進(jìn)行詳細(xì)說明5501、 記錄兩個標(biāo)點符號之間起始字符單元圖像塊在整行中的索引值為 IndexBegin和IndexEnd。5502、 遍歷索引值處于IndexBegin和IndexEnd之間所有的字符單元圖像 塊,根據(jù)漢字字符單元圖像塊的高度大于HeightAve,寬度大于ChnWidth*0.8,按照從前至后的順序,查找出第一個漢字字符單元圖像塊O,并記錄該漢字字符單元圖像塊在整行中的索引值Index。5503、 以漢字字符單元圖像塊O為基準(zhǔn),依次往前搜索,并記字符單元圖 像塊C為當(dāng)前的漢字字符單元圖像塊,搜索到索引值IndexBegin的字符單元 圖像塊,具體的處理過程為如果當(dāng)前漢字字符單元圖像塊C的索引值為IndexBegin,則執(zhí)行S507;否則,取出當(dāng)前漢字字符單元圖像塊C前面的一個字符單元圖像塊d, 計算C與d之間的距離Dis,若Dis落在區(qū)間[DisChnAndEn-Threshold, DisChnAndEn +Threshold]中,則表明C,為英文字符單元圖像塊,直接將該字 符單元圖像塊加入切分結(jié)果序列,并將d視為新的當(dāng)前英文字符單元圖像塊 C,執(zhí)行S506;否則執(zhí)行S504。5504、 考察漢字字符單元圖像塊C,前面的字符C2是否為其偏旁部首,具 體包括計算Ci與C2中心之間的距離Disl,如果Disl落在區(qū)間范圍 [(2*WaveCN+WaveEN) /3 , (4* WaveCN - WaveEN)/3]中,表明C2不是d的 偏旁部首,而是一個獨立的漢字字符單元圖像塊,執(zhí)行S505;否則繼續(xù)下面的 過程如果Disl沒有落在區(qū)間范圍[(2*WaveCN+WaveEN) /3, (4* WaveCN-WaveEN)/3]中,將d和C2合并為一個新的字符單元圖像塊Oj;考察C2前面的字符單元圖像塊C3,計算Ch和C3中心之間的距離Dis2, 戈口果Dis2落在區(qū)間范圍[(2*WaveCN+WaveEN) /3, (4* WaveCN - WaveEN)/3] 中,則表明C3為一個獨立的漢字字符單元圖像塊,則將Ch加入到切分結(jié)果序 列中,Ch被視為新的當(dāng)前漢字字符單元圖像塊C,其具體實施過程與S503的 相關(guān)描述雷同,此處不再作詳細(xì)描述;如果Dis2沒有落在區(qū)間范圍[(2* WaveCN+WaveEN) /3, (4* WaveCN -WaveEN)/3]中,則C3肯定不是一個獨立的漢字字符單元圖像塊,它有可能是Oi中字符的偏旁部首,也有可能是C3前面的字符單元圖像塊Q中字符的偏旁 部首;計算Q與Q合并后字符單元圖像塊的寬度Widthl,以及Q與O,合并后 字符單元圖像塊的寬度Width2;如果Widthl的寬度小于Width2的寬度,則Q再次被合并,然后將 Oj加入到切分結(jié)果序列中,0!被視為新的當(dāng)前漢字區(qū)域C,其具體實施過程 與S503的相關(guān)描述雷同,此處不再作詳細(xì)描述;如果Widthl的寬度大于Width2的寬度,直接將C^加入到切分結(jié)果序列 中,Oj皮視為新的當(dāng)前漢字區(qū)域C,其具體實施過程與S503的相關(guān)描述雷同, 此處不再作詳細(xì)描述。5505、 將d直接加入到切分結(jié)果序列中,并將d視為新的當(dāng)前漢字字符 單元圖像塊C,其具體實施過程與S503的相關(guān)描述雷同,此處不再作詳細(xì)描 述。5506、 如果當(dāng)前英文字符單元圖像塊的索引值為IndexBegin,則直接轉(zhuǎn)向 S507,否則,取出當(dāng)前英文字符單元圖像塊C前面的一個字符單元圖像塊d, 計算C與d中心之間的距離Dis,若Dis落在區(qū)間[(4* WaveEN - WaveCN) /3, (WaveCN+2*WaveEN) /3]中,則表明d為英文字符單元圖像塊,直接將 該字符單元圖像塊加入切分結(jié)果序列,并將d視為新的當(dāng)前英文字符單元圖 像塊,并且重復(fù)此過程,否則轉(zhuǎn)向S504;5507、 以漢字字符單元圖像塊O為基準(zhǔn),依次往后搜索,并記字符單元圖 像塊C為當(dāng)前的漢字字符單元圖像塊,搜索到索引值IndexEnd的字符單元圖 像塊,具體實施過程與S503中的相關(guān)描述雷同,此處不再作詳細(xì)描述。按照上述的方法步驟,依次處理完整個文本圖像中所有的文本行區(qū)域,得 到最終的字符區(qū)域切分結(jié)果,其中,圖23為對圖22按照S500進(jìn)行切分后的 效果示意圖。圖24為采用本發(fā)明實施例提供的方法將圖13進(jìn)行切分后的最終字符區(qū)域切分結(jié)果示意圖,可以看出,本發(fā)明實施例提供的字符切分方法保證字符切分 結(jié)果的正確性,解決了字符間的粘連及偏旁部首被當(dāng)作一個獨立字符的問題。 本發(fā)明第二實施例提供了一種字符切分裝置,該字符切分裝置的結(jié)構(gòu)參見圖25,包括,初步切分單元2501、粘連字符切分單元2502、識別偏旁部首單 元2503和字符合并單元2504。其中,初步切分單元2501,用于對文本圖像進(jìn)行行切分和列切分,獲得若 干個字符單元圖像塊;粘連字符切分單元2502,用于識別包含粘連字符的字符單元圖像塊,并繼 續(xù)切分包含粘連字符的字符單元圖像塊;識別偏旁部首單元2503,用于識別漢字字符單元圖像塊區(qū)域和英文字符單 元圖像塊區(qū)域,并在漢字字符單元圖像塊區(qū)域中識別由漢字字符偏旁部首占用 的字符單元圖像塊;字符合并單元2504,用于將相鄰的漢字字符的偏旁部首占用的字符單元圖 像塊合并為 一個字符單元圖像塊。其中,粘連字符切分單元2502具體用于,當(dāng)字符單元圖像塊的寬度大于 漢字字符單元圖像塊的平均寬度,且該字符單元圖像塊的高度與字符單元圖像 塊的平均高度的差值小于設(shè)定的閾值時,確定字符單元圖像塊包含粘連漢字字 符,或者當(dāng)字符單元圖像塊的寬度大于漢字字符單元圖像塊的平均寬度,且該字符 單元圖像塊的高度與字符單元圖像塊的平均高度的差值大于設(shè)定的閾值時,確 定字符單元圖像塊包含粘連英文字符。識別偏旁部首單元2503具體用于,當(dāng)字符單元圖像塊的高度大于字符單 元圖像塊的平均高度,寬度大于漢字字符單元圖像塊的平均寬度的4/5時,.確 定字符單元圖像塊包含漢字字符;當(dāng)漢字字符單元圖像塊與前一字符單元圖像塊之間的距離處于相鄰中英 文字符單元圖像塊之間的距離范圍之外時,將前一字符作為當(dāng)前字符;當(dāng)當(dāng)前字符單元圖像塊與前一字符單元圖像塊中心之間的距離處于相鄰 漢字字符單元圖像塊中心之間的距離范圍之外時,確定當(dāng)前字符與前一字符均 為偏旁部首字符。進(jìn)一步,該字符切分裝置還包括識別標(biāo)點符號單元2505,用于當(dāng)字符單元 圖像塊的寬度小于等于該字符單元圖像塊的高度,且該字符單元圖像塊完全在 文本行中心線位置的上面或者下面時,確定字符單元圖像塊包含標(biāo)點符號,或者當(dāng)字符單元圖像塊的高度小于文本行的高度,寬度小于漢字字符單元圖像 塊平均寬度的1/4,且該字符單元圖像塊與其相鄰的前一字符單元圖像塊或后 一字符單元圖像塊之間的距離值中,至少有一個距離值大于相鄰中英文字符單 元圖像塊之間距離范圍的上限時,確定字符單元圖像塊包含標(biāo)點符號。本發(fā)明實施例保證了字符切分結(jié)果的正確性,使得字符切分結(jié)果不用過分 依賴于字符識別反饋機(jī)制,進(jìn)一步提高了字符的識別率。明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及 其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
      權(quán)利要求
      1、一種字符切分方法,其特征在于,包括對文本圖像進(jìn)行行切分和列切分,獲得若干個字符單元圖像塊;識別包含粘連字符的字符單元圖像塊,并繼續(xù)切分所述包含粘連字符的字符單元圖像塊;識別漢字字符單元圖像塊區(qū)域和英文字符單元圖像塊區(qū)域,并在所述漢字字符單元圖像塊區(qū)域中識別由漢字字符偏旁部首占用的字符單元圖像塊;將相鄰的漢字字符的偏旁部首占用的字符單元圖像塊合并為一個字符單元圖像塊。
      2、 如權(quán)利要求1所述的方法,其特征在于,還包括識別標(biāo)點符號的字 符單元圖像塊。
      3、 如權(quán)利要求2所述的方法,其特征在于,所述識別標(biāo)點符號的字符單 元圖像塊的方法包括當(dāng)字符單元圖像塊的寬度小于等于該字符單元圖像塊的高度,且該字符單 元圖像塊完全在文本行中心線位置的上面或者下面時,確定字符單元圖像塊包 含標(biāo)點符號,或者當(dāng)字符單元圖像塊的高度小于文本行的高度,寬度小于漢字字符單元圖像 塊平均寬度的1/4,且該字符單元圖像塊與其相鄰的前一字符單元圖像塊或后 一字符單元圖像塊之間的距離值中,至少有一個距離值大于相鄰中英文字符單 元圖像塊之間距離范圍的上限時,確定字符單元圖像塊包含標(biāo)點符號。
      4、 如權(quán)利要求1所述的方法,其特征在于,所述粘連字符包括粘連漢字 字符,以及所述識別包含粘連漢字字符的字符單元圖像塊的方法包括當(dāng)字符單元圖像塊的寬度大于漢字字符單元圖像塊的平均寬度,且該字符 單元圖像塊的高度與字符單元圖像塊的平均高度的差值小于設(shè)定的閾值時,確 定字符單元圖像塊包含粘連漢字字符。
      5、 如權(quán)利要求1或4所述的方法,其特征在于,所述粘連字符包括粘連 英文字符,所述識別包含粘連英文字符的字符單元圖像塊的方法包括當(dāng)字符單元圖像塊的寬度大于漢字字符單元圖像塊的平均寬度,且該字符 單元圖像塊的高度與字符單元圖像塊的平均高度的差值大于設(shè)定的闊值時,確 定字符單元圖像塊包含粘連英文字符。
      6、 如權(quán)利要求1所述的方法,其特征在于,所述識別漢字字符偏旁部首 占用的字符單元圖像塊的方法包括當(dāng)字符單元圖像塊的高度大于字符單元圖像塊的平均高度,寬度大于漢字 字符單元圖像塊的平均寬度的4/5時,確定字符單元圖像塊包含漢字字符;當(dāng)所述漢字字符單元圖像塊與前一字符單元圖像塊之間的距離處于相鄰 中英文字符單元圖像塊之間的距離范圍之外時,將前一字符作為當(dāng)前字符;當(dāng)當(dāng)前字符單元圖像塊與前一字符單元圖像塊中心之間的距離處于相鄰 漢字字符單元圖像塊中心之間的距離范圍之外時,確定所述當(dāng)前字符與前一字 符均為偏旁部首字符。
      7、 一種字符切分裝置,其特征在于,包括初步切分單元,用于對文本圖像進(jìn)行行切分和列切分,獲得若干個字符單 元圖像塊;粘連字符切分單元,用于識別包含粘連字符的字符單元圖像塊,并繼續(xù)切 分所述包含粘連字符的字符單元圖像塊;識別偏旁部首單元,用于識別漢字字符單元圖^f象塊區(qū)域和英文字符單元圖 像塊區(qū)域,并在所述漢字字符單元圖像塊區(qū)域中識別由漢字字符偏旁部首占用 的字符單元圖像塊;字符合并單元,用于將相鄰的漢字字符的偏旁部首占用的字符單元圖像塊 合并為一個字符單元圖像塊。
      8、 如權(quán)利要求7所述的字符切分裝置,其特征在于,所述裝置還包括識 別標(biāo)點符號單元,用于當(dāng)字符單元圖像塊的寬度小于等于該字符單元圖像塊的高度,且該字符單元圖像塊完全在文本行中心線位置的上面或者下面時,確定 字符單元圖像塊包含標(biāo)點符號,或者當(dāng)字符單元圖像塊的高度小于文本行的高度,寬度小于漢字字符單元圖像塊平均寬度的1/4,且該字符單元圖像塊與其相鄰的前一字符單元圖像塊或后一字符單元圖像塊之間的距離值中,至少有一個距離值大于相鄰中英文字符單 元圖像塊之間距離范圍的上限時,確定字符單元圖像塊包含標(biāo)點符號。
      9、 如權(quán)利要求7或8所述的字符切分裝置,其特征在于,所述粘連字符 切分單元具體用于,當(dāng)字符單元圖像塊的寬度大于漢字字符單元圖像塊的平均 寬度,且該字符單元圖像塊的高度與字符單元圖像塊的平均高度的差值小于設(shè) 定的閾值時,確定字符單元圖像塊包含粘連漢字字符,或者當(dāng)字符單元圖像塊的寬度大于漢字字符單元圖像塊的平均寬度,且該字符 單元圖像塊的高度與字符單元圖像塊的平均高度的差值大于設(shè)定的闊值時,確 定字符單元圖像塊包含粘連英文字符。
      10、 如權(quán)利要求7或8所述的字符切分裝置,其特征在于,所述識別偏旁 部首單元具體用于,當(dāng)字符單元圖像塊的高度大于字符單元圖像塊的平均高 度,寬度大于漢字字符單元圖像塊的平均寬度的4/5時,確定字符單元圖像塊 包含漢字字符;當(dāng)所述漢字字符單元圖像塊與前一字符單元圖像塊之間的距離處于相鄰 中英文字符單元圖像塊之間的距離范圍之外時,將前一字符作為當(dāng)前字符;當(dāng)當(dāng)前字符單元圖像塊與前一字符單元圖像塊中心之間的距離處于相鄰 漢字字符單元圖像塊中心之間的距離范圍之外時,確定所述當(dāng)前字符與前一字 符均為偏旁部首字符。
      全文摘要
      本發(fā)明公開了一種字符切分方法及裝置,其能夠識別出包含粘連字符的字符單元圖像塊及包含偏旁部首的字符單元圖像塊,保證字符切分結(jié)果的正確性。本發(fā)明技術(shù)方案中,通過對文本圖像進(jìn)行行切分和列切分,獲得若干個字符單元圖像塊,識別包含粘連字符的字符單元圖像塊,并繼續(xù)切分所述包含粘連字符的字符單元圖像塊,識別漢字字符單元圖像塊區(qū)域和英文字符單元圖像塊區(qū)域,并在所述漢字字符單元圖像塊區(qū)域中識別由漢字字符偏旁部首占用的字符單元圖像塊,將相鄰的漢字字符的偏旁部首占用的字符單元圖像塊合并為一個字符單元圖像塊。使得字符切分結(jié)果不用過分依賴于字符識別反饋機(jī)制,進(jìn)一步提高了字符的識別率。
      文檔編號G06K9/68GK101251892SQ20081010159
      公開日2008年8月27日 申請日期2008年3月7日 優(yōu)先權(quán)日2008年3月7日
      發(fā)明者亓文法, 盧書一, 李曉龍, 程道放 申請人:北大方正集團(tuán)有限公司;北京大學(xué);北京北大方正電子有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1