專利名稱:字符識別方法和字符識別裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及字符識別方法和字符識別裝置。更具體地說,本發(fā)明涉及一 種能夠分離字符圖像上的標(biāo)記的字符識別方法和字符識別裝置。
背景技術(shù):
OCR (Optical Character Recognition,光學(xué)字符識別)系統(tǒng)已經(jīng)越來越普及并且對
于計算機(jī)應(yīng)用來說顯得日益重要。OCR系統(tǒng)將紙件形式的文檔轉(zhuǎn)換為電子文件,簡化了 數(shù)據(jù)輸入并且使得能夠方便地進(jìn)行巨量文檔的編輯、管理、分發(fā)等等。OCR引擎的識別 能力是影響其應(yīng)用成本的關(guān)鍵因素,只有高準(zhǔn)確度的識別才能保證其應(yīng)用價值。對于普 通的打印文本文檔,尤其是那些標(biāo)準(zhǔn)化的字符,當(dāng)前的大多數(shù)OCR引擎都能夠?qū)崿F(xiàn)較高 的識別率。但是,在某些情況下,比如登記表、調(diào)查表、票據(jù)等,會將某些字符標(biāo)記以便 表示選擇結(jié)果,這些標(biāo)記對OCR引擎的識別帶來了新的挑戰(zhàn)。首先,一些標(biāo)記將兩個或 更多個字符連接成了一個字符,這通常會導(dǎo)致OCR引擎的字符分割失敗。其次,標(biāo)記可 能會占據(jù)比字符區(qū)域大的區(qū)域,這在OCR引擎進(jìn)行歸一化時將會使字符尺寸變小,從而 導(dǎo)致后續(xù)的識別失敗。為此,現(xiàn)有技術(shù)中已經(jīng)提出了一種通過色彩過濾的方法來提取與字符具有不同 顏色的標(biāo)記上的標(biāo)記像素,但是這種方法在標(biāo)記與字符具有相同顏色時不能正常工作。 現(xiàn)有的另一種方法是根據(jù)標(biāo)記和字符的灰度差來分離標(biāo)記和字符并進(jìn)行識別,但是這種 方法的工作也不穩(wěn)定,因?yàn)榻?jīng)常會出現(xiàn)標(biāo)記與字符具有相同灰度而無法分離的情況。
發(fā)明內(nèi)容
鑒于上述情況,本發(fā)明提出一種字符識別方法和字符識別裝置,通過利用對標(biāo) 記和字符都適用的的空間位置和形狀特征來分離標(biāo)記和字符,由此實(shí)現(xiàn)字符識別。根據(jù) 本發(fā)明的字符識別方法和字符識別裝置,能夠方便地檢測并且分離與要識別的字符圖像 交疊的字符圖像上的標(biāo)記,從而恢復(fù)字符圖像以便于進(jìn)行識別。在下文中首先給出關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的 基本理解。應(yīng)當(dāng)理解,這個概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本 發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給 出某些概念,以此作為稍后論述的更詳細(xì)描述的前序。根據(jù)本發(fā)明的一個方面,提供一種字符識別方法,包括根據(jù)要識別的字符圖 像中標(biāo)記字符上的標(biāo)記的位置和形狀特征提取所述標(biāo)記的部分標(biāo)記像素;通過包含具有 相同方向的相鄰像素將所述提取的部分標(biāo)記像素擴(kuò)展為標(biāo)記線段;獲取要識別的所述字 符圖像的細(xì)化圖像;沿著所述細(xì)化圖像的軌跡將所述擴(kuò)展的標(biāo)記線段生長為識別的標(biāo) 記;將所述識別的標(biāo)記與所述字符圖像分離;以及識別所述分離的字符圖像。根據(jù)本發(fā)明的一個實(shí)施例的字符識別方法還包括選擇要識別的所述字符圖像的候選區(qū)域作為所述標(biāo)記字符。根據(jù)本發(fā)明的另一個方面,提供一種字符識別裝置,包括標(biāo)記像素提取單 元,配置為根據(jù)要識別的字符圖像中標(biāo)記字符上的標(biāo)記的位置和形狀特征提取所述標(biāo)記 的部分標(biāo)記像素;擴(kuò)展單元,配置為通過包含具有相同方向的相鄰像素將所述提取的部 分標(biāo)記像素擴(kuò)展為標(biāo)記線段;細(xì)化圖像獲取單元,配置為獲取要識別的所述字符圖像的 細(xì)化圖像;標(biāo)記線段生長單元,配置為沿著所述細(xì)化圖像的軌跡將所述擴(kuò)展的標(biāo)記線段 生長為識別的標(biāo)記;分離單元,配置為將所述識別的標(biāo)記與所述字符圖像分離;以及識 別單元,配置為識別所述分離的字符圖像。根據(jù)本發(fā)明的一個實(shí)施例的字符識別裝置還包括標(biāo)記字符選擇單元,配置為選 擇要識別的所述字符圖像的候選區(qū)域作為所述標(biāo)記字符。優(yōu)選地,所述選擇候選區(qū)域包括通過將要識別的所述字符圖像中的文本塊交 替投影到水平方向和垂直方向來將所述文本塊分割為字符區(qū)域;通過比較所述分割的字 符區(qū)域的大小將所述分割的字符區(qū)域分類為接觸區(qū)域、大尺寸區(qū)域和正常尺寸區(qū)域;以 及將所述接觸區(qū)域和所述大尺寸區(qū)域作為所述標(biāo)記字符。根據(jù)本發(fā)明的一個實(shí)施例,所述提取部分標(biāo)記像素包括提取包含字符的矩形框 之外的部分標(biāo)記像素。具體地說,所述提取部分標(biāo)記像素包括通過分別分離沿著水平 方向和垂直方向的投影中的兩側(cè)邊波選擇出一組候選標(biāo)記像素;通過利用最小二乘曲線 擬合方法建立曲線模型以擬合所述候選標(biāo)記像素組;以及計算所述候選標(biāo)記像素組的擬 合誤差以確定所述候選標(biāo)記像素組是否是標(biāo)記像素。根據(jù)本發(fā)明的另一個實(shí)施例,所述提取部分標(biāo)記像素包括通過分析游程估計 筆劃寬度;沿著接觸方向的正交方向檢查接觸碎片的穿越特征;以及將具有在穿越線上 有兩個部分且每一部分的寬度與所述筆劃寬度相當(dāng)?shù)拇┰教卣鞯木€段上的像素確定為標(biāo)
記像素。根據(jù)本發(fā)明的再一個實(shí)施例,所述提取部分標(biāo)記像素包括為每一個標(biāo)記字符 確定參考字符,所述參考字符是與所述標(biāo)記字符位于相同行或相同列的那些字符;根據(jù) 所述參考字符計算基準(zhǔn)坐標(biāo);以及提取在所述基準(zhǔn)坐標(biāo)范圍之外的像素作為標(biāo)記像素。 優(yōu)選地,當(dāng)所述參考字符是沿著水平方向時,僅將所述參考字符的垂直坐標(biāo)用于計算所 述基準(zhǔn)坐標(biāo);以及當(dāng)所述參考字符是沿著垂直方向時,僅將所述參考字符的水平坐標(biāo)用 于計算所述基準(zhǔn)坐標(biāo)。根據(jù)本發(fā)明的一個實(shí)施例,所述擴(kuò)展所述提取的部分標(biāo)記像素包括獲取所述 標(biāo)記字符的方向圖;以及通過包含在所述方向圖的局部區(qū)域中的具有相同值的像素擴(kuò)展 之前選擇的標(biāo)記像素。根據(jù)本發(fā)明的一個實(shí)施例,所述生長所述擴(kuò)展的標(biāo)記線段包括逐個包含在所 述細(xì)化圖像的軌跡中的連接像素直到遇到接合點(diǎn)為止??梢钥闯觯鶕?jù)本發(fā)明的字符識別方法和 字符識別裝置,通過利用對標(biāo)記和字 符都適用的空間位置和形狀特征,能夠容易地分離標(biāo)記和字符,從而方便地恢復(fù)字符圖 像以便于進(jìn)行識別。另外,本發(fā)明還提供用于實(shí)現(xiàn)上述字符識別方法的計算機(jī)程序。此外,本發(fā)明也提供至少計算機(jī)可讀介質(zhì)形式的計算機(jī)程序產(chǎn)品,其上記錄有用于實(shí)現(xiàn)上述字符識別方法的計算機(jī)程序代碼。
本發(fā)明可以通過參考下文中結(jié)合附圖所給出的描述而得到更好的理解,其中在 所有附圖中使用了相同或相似的附圖標(biāo)記來表示相同或者相似的部件。所述附圖連同下 面的詳細(xì)說明一起包含在本說明書中并且形成本說明書的一部分,而且用來進(jìn)一步舉例 說明本發(fā)明的優(yōu)選實(shí)施例和解釋本發(fā)明的原理和優(yōu)點(diǎn)。在附圖中圖1 (a)示出要識別的帶有標(biāo)記的字符圖像的示例;
圖1 (b)示出根據(jù)本發(fā)明的實(shí)施例將圖1 (a)所示的帶有標(biāo)記的字符圖像進(jìn)行標(biāo)記 和字符分離之后輸出的字符圖像;圖1 (c)示出根據(jù)本發(fā)明的實(shí)施例將圖1 (a)所示的帶有標(biāo)記的字符圖像進(jìn)行標(biāo)記 和字符分離之后輸出的標(biāo)記圖像;圖2示出根據(jù)本發(fā)明的實(shí)施例的字符識別方法的處理過程的流程圖;圖3示出根據(jù)本發(fā)明的實(shí)施例在圖2的選擇標(biāo)記字符步驟中的具體處理過程的流 程圖;圖4示出根據(jù)本發(fā)明的實(shí)施例在進(jìn)行切分和分類之后的字符圖像示例;圖5 (a)示出標(biāo)記緊密圍繞字符的示例;圖5 (b)示出沒有可用參考字符的接觸情形的示例;圖6示出根據(jù)本發(fā)明的實(shí)施例在圖2的提取部分標(biāo)記像素步驟中的第一示例處理 過程的流程圖;圖7(a)和7(b)示出帶有標(biāo)記的字符圖像在垂直方向上的投影波形示例圖;圖7(c)和7(d)示出帶有標(biāo)記的字符圖像在水平方向上的投影波形示例圖;圖8示出根據(jù)本發(fā)明的實(shí)施例在圖2的提取部分標(biāo)記像素步驟中的第二示例處理 過程的流程圖;圖9示出根據(jù)本發(fā)明的實(shí)施例利用穿越特征進(jìn)行部分標(biāo)記像素提取的示例圖;圖10示出根據(jù)本發(fā)明的實(shí)施例在圖2的提取部分標(biāo)記像素步驟中的第三示例處 理過程的流程圖;圖11示出根據(jù)本發(fā)明的實(shí)施例利用基準(zhǔn)坐標(biāo)作為參考進(jìn)行部分標(biāo)記像素提取的 示例圖;圖12示出根據(jù)本發(fā)明的實(shí)施例在圖2的擴(kuò)展提取的標(biāo)記像素步驟中的處理過程 的流程圖;圖13示出標(biāo)記字符的方向圖的示例圖;圖14示出細(xì)化后的要識別的帶有標(biāo)記的字符圖像的示例圖;圖15示出根據(jù)本發(fā)明的實(shí)施例的字符識別裝置的配置方框圖;以及圖16示出用于實(shí)施根據(jù)本發(fā)明的字符識別方法的信息處理設(shè)備的結(jié)構(gòu)方塊圖。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,附圖中的元件僅僅是為了簡單和清楚起見而示出 的,而且不一定是按比例繪制的。例如,附圖中某些元件的尺寸可能相對于其他元件放 大了,以便有助于提高對本發(fā)明實(shí)施例的理解。
具體實(shí)施例方式在下文中將結(jié)合附圖對本發(fā)明的示范性實(shí)施例進(jìn)行描述。為了清楚和簡明起 見,在說明書中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種 實(shí)際實(shí)施例的過程中必須做出很多特定于該實(shí)際實(shí)施方式的決定,以便實(shí)現(xiàn)開發(fā)人員的 具體目標(biāo),例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會隨 著實(shí)施方式的不同而有所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和 費(fèi)時的,但對得益于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任 務(wù)。在此,還需要說明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與 本發(fā)明關(guān)系不大的其他細(xì)節(jié)。為了便于加深對本發(fā)明原理的理解,在下文中將以圖1所示的具體示例為例說 明如何將具有標(biāo)記的字符圖像分離為字符圖像和標(biāo)記圖像并對字符圖像進(jìn)行識別以得到 識別后的字符。如圖1中所示,圖1(a)示出要識別的帶有標(biāo)記的字符圖像的示例,圖 1(b)示出根據(jù)本發(fā)明的實(shí)施例將圖1(a)所示的帶有標(biāo)記的字符圖像進(jìn)行標(biāo)記和字符分離 之后輸出的字符圖像,而圖1(c)示出根據(jù)本發(fā)明的實(shí)施例將圖1(a)所示的帶有標(biāo)記的字 符圖像進(jìn)行標(biāo)記和字符分離之后輸出的標(biāo)記圖像。下面將首先參照圖2至圖14描述根據(jù)本發(fā)明的實(shí)施例的字符識別方法的基本工
作原理。如圖2所示,根據(jù)本發(fā)明的該實(shí)施例的字符識別方法包括選擇標(biāo)記字符步 驟S210,用于選擇要識別的字符圖像的候選區(qū)域作為標(biāo)記字符;提取部分標(biāo)記像素步 驟S220,用于根據(jù)要識別的字符圖像中標(biāo)記字符上的標(biāo)記的位置和形狀特征提取所述標(biāo) 記的部分標(biāo)記像素;擴(kuò)展提取的標(biāo)記像素步驟S230,用于通過包含具有相同方向的相 鄰像素將所述提取的部分標(biāo)記像素擴(kuò)展為標(biāo)記線段;獲取細(xì)化圖像(thinned image)步驟 S240,用于獲取要識別的所述字符圖像的細(xì)化圖像;生長擴(kuò)展的標(biāo)記線段步驟S250, 用于沿著所述細(xì)化圖像的軌跡將所述擴(kuò)展的標(biāo)記線段生長為識別的標(biāo)記;分離字符和標(biāo) 記步驟S260,用于將所述識別的標(biāo)記與所述字符圖像分離;以及識別分離出的字符步驟 S270,用于識別所述分離的字符圖像。這里需要指出的是,上面所述的選擇標(biāo)記字符的步驟S210是可選步驟。也就是 說,可以不經(jīng)過標(biāo)記字符的選擇而直接對要識別的帶有標(biāo)記的字符圖像進(jìn)行提取部分標(biāo) 記像素步驟S220及其以后的處理,同樣能夠?qū)崿F(xiàn)將標(biāo)記與字符圖像分離并對分離后的字 符圖像進(jìn)行識別,從而提交識別的準(zhǔn)確性和可靠性。接下來將結(jié)合附圖3至附圖14對圖2所示的字符識別方法包括的選擇標(biāo)記字符 步驟S210、提取部分標(biāo)記像素步驟S220、擴(kuò)展提取的標(biāo)記像素步驟S230、獲取細(xì)化圖像 步驟S240、生長擴(kuò)展的標(biāo)記線段步驟S250、分離字符和標(biāo)記步驟S260、以及識別分離出 的字符步驟S270等各個步驟中的處理進(jìn)行詳細(xì)描述。圖3示出根據(jù)本發(fā)明的一個實(shí)施例在圖2的選擇標(biāo)記字符步驟S210中的具體處 理過程的流程圖。如圖3所示,在選擇帶有標(biāo)記的字符時,首先在步驟S310中,通過將 要識別的所述字符圖像中的文本塊交替投影到水平方向和垂直方向來將所述文本塊分割為字符區(qū)域。
接著,在步驟S320中,比較在步驟S310中分割的字符區(qū)域的大小,并且將分割 后的字符區(qū)域分為三類,即接觸區(qū)域、大尺寸區(qū)域和正常尺寸區(qū)域。圖4示出根據(jù)本發(fā) 明的該實(shí)施例在進(jìn)行切分和分類之后的字符圖像示例。最后,在步驟S330中將接觸區(qū)域 和大尺寸區(qū)域作為標(biāo)記字符,而將正常尺寸區(qū)域標(biāo)注為非標(biāo)記字符區(qū)域。這里,還針對每一個標(biāo)記字符標(biāo)注出參考字符,參考字符是那些與標(biāo)記字符位 于同一行或同一列上的字符。如圖4所示,對于示出的大尺寸情形,標(biāo)注出了兩個參考 字符,而對于接觸情形,則只有一個參考字符。另外,如果所有的字符區(qū)域?yàn)檎3叽鐓^(qū)域,則將該要識別的字符圖像分類為 非標(biāo)記字符圖像。如此,無需執(zhí)行圖2所示的提取部分標(biāo)記像素步驟S220、擴(kuò)展提取的 標(biāo)記像素步驟S230、獲取細(xì)化圖像步驟S240、生長擴(kuò)展的標(biāo)記線段步驟S250、以及分離 字符和標(biāo)記步驟S260,處理流程直接前進(jìn)到步驟S270進(jìn)行字符識別處理。在根據(jù)圖3所示的流程選擇了標(biāo)記字符之后,接下來將根據(jù)選擇的標(biāo)記字符上 的標(biāo)記的位置和形狀特征提取所述標(biāo)記的部分標(biāo)記像素。在提取標(biāo)記的部分標(biāo)記像素 時,可以根據(jù)標(biāo)記的不同位置和形狀特征進(jìn)行相應(yīng)的處理。下面將針對幾種具體情況進(jìn) 行具體分析和描述。根據(jù)本發(fā)明的一個實(shí)施例,在提取部分標(biāo)記像素時,如圖5所示,可以提取包 含字符的矩形框之外的部分標(biāo)記像素。利用該特征,在標(biāo)記緊密圍繞字符時能夠方便地 提取部分標(biāo)記像素,如圖5(a)所示。另外,對于沒有可用參考字符的接觸情形,這種處 理方式也能取得較好的處理效果。圖6示出根據(jù)本發(fā)明的實(shí)施例在圖2的提取部分標(biāo)記像素步驟S220中的第一示 例處理過程的流程圖。如圖6所示,首先在步驟S610中,通過分別分離沿著水平方向和 垂直方向的投影中的兩側(cè)邊波選擇出一組候選標(biāo)記像素。圖7(a)和7(b)示出帶有標(biāo)記的字符圖像在垂直方向上的投影波形示例圖,圖 7(b)中左右兩側(cè)的兩條豎直線相應(yīng)于圖7(a)中文字兩邊的兩條豎直線。圖7(c)和7(d) 示出帶有標(biāo)記的字符圖像在水平方向上的投影波形示例圖,圖7(d)中左右兩側(cè)的兩條豎 直線相應(yīng)于圖7(c)中文字兩邊的兩條水平橫線。這樣,對于圖7(a)至圖7(d)所示出的示例,可以選擇圖7(a)中的兩條豎直線 之外的像素點(diǎn)(分別相應(yīng)于圖7(b)中左右兩側(cè)的豎直線之外的兩個波)和圖7(c)中的兩 條水平橫線之外的像素點(diǎn)(分別相應(yīng)于圖7(d)中左右兩側(cè)的豎直線之外的兩個波)作為 標(biāo)記像素。然后,在步驟S620中,通過利用最小二乘曲線擬合方法建立曲線模型以擬合所 述候選標(biāo)記像素組,并且在步驟S630中,計算所述候選標(biāo)記像素組的擬合誤差以確定所 述候選標(biāo)記像素組是否是標(biāo)記像素。如果擬合誤差較小,則可以認(rèn)為該候選標(biāo)記像素組 中的像素為標(biāo)記像素。通過步驟S620和步驟S630的處理,可以將那些判斷為標(biāo)記像素 而實(shí)際為字符像素的虛假標(biāo)記像素排除。例如,對于圖7(a)中右側(cè)豎直線之外的像素, 由于實(shí)際的像素值與擬合的曲線模型之間的擬合誤差超出預(yù)定的閾值,因此將其設(shè)為不 是標(biāo)記像素。此外,在提取部分標(biāo)記像素時,針對上面所述的接觸情形,也可以利用接觸碎片的穿越特征來確定標(biāo)記像素。圖8示出根據(jù)本發(fā)明的實(shí)施例在圖2的提取部分標(biāo)記像 素步驟S220中的第二示例處理過程的流程圖。如圖8所示,根據(jù)該實(shí)施例的提取部分標(biāo)記像素的處理,首先在步驟S810中通 過分析游程估計筆劃寬度,然后在步驟S820中沿著接觸方向的正交方向檢查接觸碎片的 穿越特征,并在步驟S830中將具有在穿越線上有兩個部分且每一部分的寬度與所述筆劃 寬度相當(dāng)?shù)拇┰教卣鞯木€段上的像素確定為標(biāo)記像素。圖9示出根據(jù)本發(fā)明的該實(shí)施例利用穿越特征進(jìn)行部分標(biāo)記像素提取的示例 圖。如圖9中所示的標(biāo)記上灰度較深的部分,即是穿越線上寬度與筆畫寬度相當(dāng)?shù)膬蓚€ 部分,因此將這些像素確定為標(biāo)記像素。 另外,對于上面描述的大尺寸的情形,在提取部分標(biāo)記像素時,可以通過分析 參考字符的布局來進(jìn)行提取。圖10示出根據(jù)本發(fā)明的實(shí)施例在圖2的提取部分標(biāo)記像素 步驟S220中的第三示例處理過程的流程圖。如圖10所示,在提取部分標(biāo)記像素時,首先在步驟S1010,為每一個標(biāo)記字符 確定參考字符,所述參考字符是與所述標(biāo)記字符位于相同行或相同列的那些字符,然后 在步驟S1020根據(jù)所述參考字符計算基準(zhǔn)坐標(biāo)。在確定了字符的基準(zhǔn)坐標(biāo)之后,在步驟 S1030提取在所述基準(zhǔn)坐標(biāo)范圍之外的像素作為標(biāo)記像素。在步驟S1020中計算基準(zhǔn)坐標(biāo)時,當(dāng)所述參考字符是沿著水平方向時,僅將所 述參考字符的垂直坐標(biāo)用于計算所述基準(zhǔn)坐標(biāo)。類似地,當(dāng)所述參考字符是沿著垂直方 向時,僅將所述參考字符的水平坐標(biāo)用于計算所述基準(zhǔn)坐標(biāo)。圖11示出根據(jù)本發(fā)明的該實(shí)施例利用基準(zhǔn)坐標(biāo)作為參考進(jìn)行部分標(biāo)記像素提取 的示例圖。如圖11所示,將字符圖像中兩條豎直的虛線之外的像素提取作為標(biāo)記像素。在按照上面所述的方法提取了部分標(biāo)記像素之后,在圖2所示的擴(kuò)展提取的標(biāo) 記像素步驟S230中通過包含具有相同方向的相鄰像素將所述提取的部分標(biāo)記像素擴(kuò)展為 標(biāo)記線段。圖12示出根據(jù)本發(fā)明的該實(shí)施例在圖2的擴(kuò)展提取的標(biāo)記像素步驟S230中 的處理過程的流程圖。如圖12所示,在擴(kuò)展提取的部分標(biāo)記像素時,首先在步驟S1210獲取標(biāo)記字符 的方向圖,然后在步驟S1220中通過包含在所述方向圖的局部區(qū)域中的具有相同值的像 素擴(kuò)展之前選擇的標(biāo)記像素。圖13示出根據(jù)本發(fā)明的一個具體示例的標(biāo)記字符的方向圖。如圖13中所示,可 以根據(jù)下面的公式計算每一個像素在各個方向上的梯度來獲取標(biāo)記字符區(qū)域的方向圖。C_horizontal = |in(i, j)_in(i,j_l)|+|in(i,j)_in(i,j+1) |+|in(i_l,j)-in(i_l, j-l)|+|in(i_l,j)-in(i_l,j+1) |+|in(i+l,j)_in(i+l,j_l) |+|in(i+l,j)_in(i+l,j+l)|C_vertical = |in(i, j)-in(i_l, j) |+|in(i, j)_in(i+l, j) |+|in(i, j-l)-in(i_l, j-l)|+|in(i,j-l)_in(i+l,j_l)|+|in(i,j+l)-in(i_l,j+l)|+|in(i,j+l)_in(i+l,j+1) |C_diagonall35 = |in(i,j)-in(i_l,j_l)|+|in(i,j)_in(i+l,j+l)|+2 * |in(i, j+l)-in(i_l,j)|+2*|in(i,j-l)_in(i+l,j) |C_diagonal45 = |in (i, j)_in(i_l,j+l)|+|in (i, j)_in(i+l,j-l)|+2 * |in (i, j-l)-in(i_l,j)|+2*|in(i,j+l)_in(i+l,j) |在對之前選擇的標(biāo)記像素進(jìn)行擴(kuò)展時,如果在方向圖中所選擇的標(biāo)記線段位于同一方向線部分上,則將該整個方向線部分都標(biāo)注為標(biāo)記像素,由此實(shí)現(xiàn)對提取的部分 標(biāo)記像素的擴(kuò)展。現(xiàn)在返回圖2,在步驟S230中對提取的部分標(biāo)記像素進(jìn)行擴(kuò)展之后,在步驟 S240獲取要識別的字符圖像的細(xì)化圖像,如圖14所示,示出根據(jù)本發(fā)明的一個具體示例 的細(xì)化后的要識別的帶有標(biāo)記的字符圖像。接著,在步驟S250中,逐個包含在所述細(xì)化圖像的軌跡中的連接像素直到遇到 接合點(diǎn)為止,由此將步驟S230中擴(kuò)展的標(biāo)記線段生長為識別的標(biāo)記。然后,在步驟S260 中將所述識別的標(biāo)記與所述字符圖像分離,并且在步驟S270中識別所述分離的字符圖像。
以上結(jié)合附圖2至附圖14詳細(xì)描述了根據(jù)本發(fā)明的實(shí)施例的字符識別方法的處 理過程及其詳細(xì)工作原理。下面將結(jié)合圖15描述根據(jù)本發(fā)明的實(shí)施例的字符識別裝置的 結(jié)構(gòu)及其工作原理。如圖15所示,根據(jù)該實(shí)施例的字符識別裝置包括標(biāo)記字符選擇單元1510,配 置為選擇要識別的字符圖像的候選區(qū)域作為標(biāo)記字符;標(biāo)記像素提取單元1520,配置為 根據(jù)要識別的字符圖像中標(biāo)記字符上的標(biāo)記的位置和形狀特征提取所述標(biāo)記的部分標(biāo)記 像素;擴(kuò)展單元1530,配置為通過包含具有相同方向的相鄰像素將所述提取的部分標(biāo)記 像素擴(kuò)展為標(biāo)記線段;細(xì)化圖像獲取單元1540,配置為獲取要識別的所述字符圖像的細(xì) 化圖像;標(biāo)記線段生長單元1550,配置為沿著所述細(xì)化圖像的軌跡將所述擴(kuò)展的標(biāo)記線 段生長為識別的標(biāo)記;分離單元1560,配置為將所述識別的標(biāo)記與所述字符圖像分離; 以及識別單元1570,配置為識別所述分離的字符圖像。根據(jù)該實(shí)施例的字符識別裝置包含的標(biāo)記字符選擇單元1510、標(biāo)記像素提取單 元1520、擴(kuò)展單元1530、細(xì)化圖像獲取單元1540、標(biāo)記線段生長單元1550、分離單元 1560、以及識別單元1570等各個模塊中的具體處理過程分別與參照圖2至圖14描述的字 符識別方法中的選擇標(biāo)記字符步驟S210、提取部分標(biāo)記像素步驟S220、擴(kuò)展提取的標(biāo)記 像素步驟S230、獲取細(xì)化圖像步驟S240、生長擴(kuò)展的標(biāo)記線段步驟S250、分離字符和標(biāo) 記步驟S260、以及識別分離出的字符步驟S270等各個步驟中的處理類似,在此略去進(jìn)一 步的詳細(xì)描述。同樣需要指出的是,這里的標(biāo)記字符選擇單元1510是可選配置,根據(jù)本發(fā)明 的一個實(shí)施例可以不包括標(biāo)記字符選擇單元1510,而是僅由上述的標(biāo)記像素提取單元 1520、擴(kuò)展單元1530、細(xì)化圖像獲取單元1540、標(biāo)記線段生長單元1550、分離單元 1560、以及識別單元1570構(gòu)成,也同樣能夠?qū)崿F(xiàn)字符圖像和標(biāo)記圖像的分離,從而提高 識別的準(zhǔn)確度。如此,通過上面描述的根據(jù)本發(fā)明的實(shí)施例的字符識別方法及字符識別裝置, 能夠準(zhǔn)確地檢測要識別的字符圖像上存在的標(biāo)記,并且從字符中分離出全部或部分的標(biāo) 記像素,從而能夠準(zhǔn)確地進(jìn)行識別。另外,由于根據(jù)本發(fā)明的實(shí)施例的字符識別方法及字符識別裝置,采用了穩(wěn)定 且可靠的標(biāo)記位置和形狀特征來分離字符圖像上的標(biāo)記,而且位置和形狀特征同樣也適 用于字符,因此能夠確保所提取的像素屬于標(biāo)記像素,從而能夠從字符圖像中可信地分 離出全部或部分標(biāo)記像素并準(zhǔn)確地對字符圖像進(jìn)行識別。
此外,在根據(jù)本發(fā)明的實(shí)施例的字符識別方法及字符識別裝置中,由于采用了 方向圖和細(xì)化后的圖像的軌跡作為參考來進(jìn)行標(biāo)記線段擴(kuò)展,提供了空間上的約束,由 此有助于避免將字符像素錯誤地劃分為標(biāo)記像素,從而能夠準(zhǔn)確地分離字符圖像和標(biāo)記 圖像,為后續(xù)實(shí)現(xiàn)準(zhǔn)確地識別字符圖像提供了保障。以上結(jié)合具體實(shí)施例描述了本發(fā)明的基本原理,但是,還需要指出的是,對本 領(lǐng)域的普通技術(shù)人員而言,能夠理解本發(fā)明的方法和裝置的全部或者任何步驟或者部 件,可以在任何計算裝置(包括處理器、存儲介質(zhì)等)或者計算裝置的網(wǎng)絡(luò)中,以硬件、 固件、軟件或者它們的組合加以實(shí)現(xiàn),這是本領(lǐng)域普通技術(shù)人員在閱讀了本發(fā)明的說明 的情況下運(yùn)用他們的基本編程技能就能實(shí)現(xiàn)的。因此,本發(fā)明的目的還可以通過在任何計算裝置上運(yùn)行一個程序或者一組程序 來實(shí)現(xiàn)。所述計算裝置可以是公知的通用裝置。因此,本發(fā)明的目的也可以僅僅通過提 供包含實(shí)現(xiàn)所述方法或者裝置的程序代碼的程序產(chǎn)品來實(shí)現(xiàn)。也就是說,這樣的程序產(chǎn) 品也構(gòu)成本發(fā)明,并且存儲有這樣的程序產(chǎn)品的存儲介質(zhì)也構(gòu)成本發(fā)明。顯然,所述存 儲介質(zhì)可以是任何公知的存儲介質(zhì)或者將來所開發(fā)出來的任何存儲介質(zhì)。在通過軟件和/或固件實(shí)現(xiàn)本發(fā)明的實(shí)施例的情況下,從存儲介質(zhì)或網(wǎng)絡(luò)向具 有專用硬件結(jié)構(gòu)的計算機(jī),例如圖16所示的通用個人計算機(jī)700安裝構(gòu)成該軟件的程 序,該計算機(jī)在安裝有各種程序時,能夠執(zhí)行各種功能等等。在圖16中,中央處理單元(CPU) 701根據(jù)只讀存儲器(ROM) 702中存儲的程序 或從存儲部分708加載到隨機(jī)存取存儲器(RAM) 703的程序執(zhí)行各種處理。在RAM 703 中,也根據(jù)需要存儲當(dāng)CPU 701執(zhí)行各種處理等等時所需的數(shù)據(jù)。CPU 701、ROM 702 和RAM 703經(jīng)由總線704彼此連接。輸入/輸出接口 705也連接到總線704。下述部件連接到輸入/輸出接口 705:輸入部分706,包括鍵盤、鼠標(biāo)等等;輸 出部分707,包括顯示器,比如陰極射線管(CRT)、液晶顯示器(LCD)等等,和揚(yáng)聲器 等等;存儲部分708,包括硬盤等等;和通信部分709,包括網(wǎng)絡(luò)接口卡比如LAN卡、 調(diào)制解調(diào)器等等。通信部分709經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動器710也連接到輸入/輸出接口 705??刹鹦督橘|(zhì)711比如磁 盤、光盤、磁光盤、半導(dǎo)體存儲器等等根據(jù)需要被安裝在驅(qū)動器710上,使得從中讀出 的計算機(jī)程序根據(jù)需要被安裝到存儲部分708中。在通過軟件實(shí)現(xiàn)上述系列處理的情況下,從網(wǎng)絡(luò)比如因特網(wǎng)或存儲介質(zhì)比如可 拆卸介質(zhì)711安裝構(gòu)成軟件的程序。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這種存儲介質(zhì)不局限于圖16所示的其中存儲有程 序、與裝置相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)711??刹鹦督橘|(zhì)711的例子 包含磁盤(包含軟盤(注冊商標(biāo)))、光盤(包含光盤只讀存儲器(CD-ROM)和數(shù)字通用 盤(DVD))、磁光盤(包含迷你盤(MD)(注冊商標(biāo)))和半導(dǎo)體存儲器?;蛘撸鎯?質(zhì)可以是ROM 702、存儲部分708中包含的硬盤等等,其中存有程序,并且與包含它們 的裝置一起被分發(fā)給用戶。還需要指出的是,在本發(fā)明的裝置和方法中,顯然,各部件或各步驟是可以分 解和/或重新組合的。這些分解和/或重新組合應(yīng)視為本發(fā)明的等效方案。并且,執(zhí)行 上述系列處理的步驟可以自然地按照說明的順序按時間順序執(zhí)行,但是并不需要一定按照時間順序執(zhí)行。某些步驟可以并行或彼此獨(dú)立地執(zhí)行。雖然已經(jīng)詳細(xì)說明了本發(fā)明及其優(yōu)點(diǎn),但是應(yīng)當(dāng)理解在不脫離由所附的權(quán)利要 求所限定的本發(fā)明的精神和范圍的情況下可以進(jìn)行各種改變、替代和變換。而且,本申 請的術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得 包括一系列要素的過程、方法、物品或者裝置不僅包括那些要素,而且還包括沒有明確 列出的其他要素,或者是還包括為這種過程、方法、物品或者裝置所固有的要素。在沒 有更多限制的情況下,由語句“包括一個......”限定的要素,并不排除在包括所述要素的
過程、方法、物品或者裝置中還存在另外的相同要素。附記附記1. 一種字符識別方法,包括根據(jù)要識別的字符圖像中標(biāo)記字符上的標(biāo)記的位置和形狀特征提取所述標(biāo)記的 部分標(biāo)記像素;通過包含具有相同方向的相鄰像素將所述提取的部分標(biāo)記像素擴(kuò)展為標(biāo)記線 段;獲取要識別的所述字符圖像的細(xì)化圖像;沿著所述細(xì)化圖像的軌跡將所述擴(kuò)展的標(biāo)記線段生長為識別的標(biāo)記;將所述識別的標(biāo)記與所述字符圖像分離;以及識別所述分離的字符圖像。附記2.根據(jù)附記1所述的字符識別方法,還包括選擇要識別的所述字符圖像的候選區(qū)域作為所述標(biāo)記字符。附記3.根據(jù)附記2所述的字符識別方法,其中所述選擇候選區(qū)域包括通過將要識別的所述字符圖像中的文本塊交替投影到水平方向和垂直方向來將 所述文本塊分割為字符區(qū)域;通過比較所述分割的字符區(qū)域的大小將所述分割的字符區(qū)域分類為接觸區(qū)域、 大尺寸區(qū)域和正常尺寸區(qū)域;以及將所述接觸區(qū)域和所述大尺寸區(qū)域作為所述標(biāo)記字符。附記4.根據(jù)附記3所述的字符識別方法,其中所述提取部分標(biāo)記像素包括提取 包含字符的矩形框之外的部分標(biāo)記像素。附記5.根據(jù)附記4所述的字符識別方法,其中所述提取部分標(biāo)記像素包括通過分別分離沿著水平方向和垂直方向的投影中的兩側(cè)邊波選擇出一組候選標(biāo) 記像素;通過利用最小二乘曲線擬合方法建立曲線模型以擬合所述候選標(biāo)記像素組;以 及計算所述候選標(biāo)記像素組的擬合誤差以確定所述候選標(biāo)記像素組是否是標(biāo)記像素。附記6.根據(jù)附記3所述的字符識別方法,其中所述提取部分標(biāo)記像素包括通過分析游程估計筆劃寬度;沿著接觸方向的正交方向檢查接觸碎片的穿越特征;以及將具有在穿越線上有兩個部分且每一部分的寬度與所述筆劃寬度相當(dāng)?shù)拇┰教卣鞯木€段上的像素確定為標(biāo)記像素。 附記7.根據(jù)附記3所述的字符識別方法,其中所述提取部分標(biāo)記像素包括為每一個標(biāo)記字符確定參考字符,所述參考字符是與所述標(biāo)記字符位于相同行 或相同列的那些字符;根據(jù)所述參考字符計算基準(zhǔn)坐標(biāo);以及提取在所述基準(zhǔn)坐標(biāo)范圍之外的像素作為標(biāo)記像素。附記8.根據(jù)附記7所述的字符識別方法,其中 當(dāng)所述參考字符是沿著水平方向時,僅將所述參考字符的垂直坐標(biāo)用于計算所 述基準(zhǔn)坐標(biāo);以及當(dāng)所述參考字符是沿著垂直方向時,僅將所述參考字符的水平坐標(biāo)用于計算所 述基準(zhǔn)坐標(biāo)。附記9.根據(jù)附記1至8中的任意一個所述的字符識別方法,其中所述擴(kuò)展所述提 取的部分標(biāo)記像素包括獲取所述標(biāo)記字符的方向圖;以及通過包含在所述方向圖的局部區(qū)域中的具有相同值的像素擴(kuò)展之前選擇的標(biāo)記像素。附記10.根據(jù)附記1至8中的任意一個所述的字符識別方法,其中所述生長所述 擴(kuò)展的標(biāo)記線段包括逐個包含在所述細(xì)化圖像的軌跡中的連接像素直到遇到接合點(diǎn)為止。附記11. 一種字符識別裝置,包括標(biāo)記像素提取單元,配置為根據(jù)要識別的字符圖像中標(biāo)記字符上的標(biāo)記的位置 和形狀特征提取所述標(biāo)記的部分標(biāo)記像素;擴(kuò)展單元,配置為通過包含具有相同方向的相鄰像素將所述提取的部分標(biāo)記像 素擴(kuò)展為標(biāo)記線段;細(xì)化圖像獲取單元,配置為獲取要識別的所述字符圖像的細(xì)化圖像;標(biāo)記線段生長單元,配置為沿著所述細(xì)化圖像的軌跡將所述擴(kuò)展的標(biāo)記線段生 長為識別的標(biāo)記;分離單元,配置為將所述識別的標(biāo)記與所述字符圖像分離;以及識別單元,配置為識別所述分離的字符圖像。附記12.根據(jù)附記11所述的字符識別裝置,還包括標(biāo)記字符選擇單元,配置為選擇要識別的所述字符圖像的候選區(qū)域作為所述標(biāo) 記字符。附記13.根據(jù)附記12所述的字符識別裝置,其中所述標(biāo)記字符選擇單元還配置 為通過將要識別的所述字符圖像中的文本塊交替投影到水平方向和垂直方向來將 所述文本塊分割為字符區(qū)域;通過比較所述分割的字符區(qū)域的大小將所述分割的字符區(qū)域分類為接觸區(qū)域、 大尺寸區(qū)域和正常尺寸區(qū)域;以及將所述接觸區(qū)域和所述大尺寸區(qū)域作為所述標(biāo)記字符。
附記14.根據(jù)附記13所述的字符識別裝置,其中所述標(biāo)記像素提取單元還配置 為提取包含字符的矩形框之外的部分標(biāo)記像素。附記15.根據(jù)附記14所述的字符識別裝置,其中所述標(biāo)記像素提取單元還配置 為通過分別分離沿著水平方向和垂直方向的投影中的兩側(cè)邊波選擇出一組候選標(biāo) 記像素;通過利用最小二乘曲線擬合方法建立曲線模型以擬合所述候選標(biāo)記像素組;以 及計算所述候選標(biāo)記像素組的擬合誤差以確定所述候選標(biāo)記像素組是否是標(biāo)記像
ο附記16.根據(jù)附記13所述的字符識別裝置,其中所述標(biāo)記像素提取單元還配置 為通過分析游程估計筆劃寬度;沿著接觸方向的正交方向檢查接觸碎片的穿越特征;以及將具有在穿越線上有兩個部分且每一部分的寬度與所述筆劃寬度相當(dāng)?shù)拇┰教?征的線段上的像素確定為標(biāo)記像素。附記17.根據(jù)附記13所述的字符識別裝置,其中所述標(biāo)記像素提取單元還配置 為為每一個標(biāo)記字符確定參考字符,所述參考字符是與所述標(biāo)記字符位于相同行 或相同列的那些字符;根據(jù)所述參考字符計算基準(zhǔn)坐標(biāo);以及提取在所述基準(zhǔn)坐標(biāo)范圍之外的像素作為標(biāo)記像素。附記18.根據(jù)附記17所述的字符識別裝置,其中當(dāng)所述參考字符是沿著水平方向時,僅將所述參考字符的垂直坐標(biāo)用于計算所 述基準(zhǔn)坐標(biāo);以及當(dāng)所述參考字符是沿著垂直方向時,僅將所述參考字符的水平坐標(biāo)用于計算所 述基準(zhǔn)坐標(biāo)。附記19.根據(jù)附記11至18中的任意一個所述的字符識別裝置,其中所述擴(kuò)展單 元還配置為獲取所述標(biāo)記字符的方向圖;以及通過包含在所述方向圖的局部區(qū)域中的具有相同值的像素擴(kuò)展之前選擇的標(biāo)記像素。附記20.根據(jù)附記11至18中的任意一個所述的字符 識別裝置,其中所述標(biāo)記 線段生長單元還配置為逐個包含在所述細(xì)化圖像的軌跡中的連接像素直到遇到接合點(diǎn)為止。
權(quán)利要求
1.一種字符識別方法,包括根據(jù)要識別的字符圖像中標(biāo)記字符上的標(biāo)記的位置和形狀特征提取所述標(biāo)記的部分 標(biāo)記像素;通過包含具有相同方向的相鄰像素將所述提取的部分標(biāo)記像素擴(kuò)展為標(biāo)記線段; 獲取要識別的所述字符圖像的細(xì)化圖像;沿著所述細(xì)化圖像的軌跡將所述擴(kuò)展的標(biāo)記線段生長為識別的標(biāo)記; 將所述識別的標(biāo)記與所述字符圖像分離;以及 識別所述分離的字符圖像。
2.根據(jù)權(quán)利要求1所述的字符識別方法,還包括選擇要識別的所述字符圖像的候選區(qū)域作為所述標(biāo)記字符。
3.根據(jù)權(quán)利要求2所述的字符識別方法,其中所述選擇候選區(qū)域包括通過將要識別的所述字符圖像中的文本塊交替投影到水平方向和垂直方向來將所述 文本塊分割為字符區(qū)域;通過比較所述分割的字符區(qū)域的大小將所述分割的字符區(qū)域分類為接觸區(qū)域、大尺 寸區(qū)域和正常尺寸區(qū)域;以及將所述接觸區(qū)域和所述大尺寸區(qū)域作為所述標(biāo)記字符。
4.根據(jù)權(quán)利要求3所述的字符識別方法,其中所述提取部分標(biāo)記像素包括 通過分別分離沿著水平方向和垂直方向的投影中的兩側(cè)邊波選擇出一組候選標(biāo)記像素;通過利用最小二乘曲線擬合方法建立曲線模型以擬合所述候選標(biāo)記像素組;以及 計算所述候選標(biāo)記像素組的擬合誤差以確定所述候選標(biāo)記像素組是否是標(biāo)記像素。
5.根據(jù)權(quán)利要求3所述的字符識別方法,其中所述提取部分標(biāo)記像素包括 通過分析游程估計筆劃寬度;沿著接觸方向的正交方向檢查接觸碎片的穿越特征;以及將具有在穿越線上有兩個部分且每一部分的寬度與所述筆劃寬度相當(dāng)?shù)拇┰教卣鞯?線段上的像素確定為標(biāo)記像素。
6.根據(jù)權(quán)利要求3所述的字符識別方法,其中所述提取部分標(biāo)記像素包括 為每一個標(biāo)記字符確定參考字符,所述參考字符是與所述標(biāo)記字符位于相同行或相同列的那些字符;根據(jù)所述參考字符計算基準(zhǔn)坐標(biāo);以及 提取在所述基準(zhǔn)坐標(biāo)范圍之外的像素作為標(biāo)記像素。
7.根據(jù)權(quán)利要求1至6中的任意一個所述的字符識別方法,其中所述擴(kuò)展所述提取的 部分標(biāo)記像素包括獲取所述標(biāo)記字符的方向圖;以及通過包含在所述方向圖的局部區(qū)域中的具有相同值的像素擴(kuò)展之前選擇的標(biāo)記像素。
8.根據(jù)權(quán)利要求1至6中的任意一個所述的字符識別方法,其中所述生長所述擴(kuò)展的 標(biāo)記線段包括逐個包含在所述細(xì)化圖像的軌跡中的連接像素直到遇到接合點(diǎn)為止。
9.一種字符識別裝置,包括標(biāo)記像素提取單元,配置為根據(jù)要識別的字符圖像中標(biāo)記字符上的標(biāo)記的位置和形 狀特征提取所述標(biāo)記的部分標(biāo)記像素;擴(kuò)展單元,配置為通過包含具有相同方向的相鄰像素將所述提取的部分標(biāo)記像素擴(kuò) 展為標(biāo)記線段;細(xì)化圖像獲取單元,配置為獲取要識別的所述字符圖像的細(xì)化圖像; 標(biāo)記線段生長單元,配置為沿著所述細(xì)化圖像的軌跡將所述擴(kuò)展的標(biāo)記線段生長為 識別的標(biāo)記;分離單元,配置為將所述識別的標(biāo)記與所述字符圖像分離;以及 識別單元,配置為識別所述分離的字符圖像。
10.根據(jù)權(quán)利要求9所述的字符識別裝置,還包括標(biāo)記字符選擇單元,配置為選擇要識別的所述字符圖像的候選區(qū)域作為所述標(biāo)記字符。
全文摘要
本發(fā)明公開了一種字符識別方法和字符識別裝置。根據(jù)本發(fā)明的一個實(shí)施例的字符識別方法包括根據(jù)要識別的字符圖像中標(biāo)記字符上的標(biāo)記的位置和形狀特征提取所述標(biāo)記的部分標(biāo)記像素;通過包含具有相同方向的相鄰像素將所述提取的部分標(biāo)記像素擴(kuò)展為標(biāo)記線段;獲取要識別的所述字符圖像的細(xì)化圖像;沿著所述細(xì)化圖像的軌跡將所述擴(kuò)展的標(biāo)記線段生長為識別的標(biāo)記;將所述識別的標(biāo)記與所述字符圖像分離;以及識別所述分離的字符圖像。
文檔編號G06K9/34GK102024138SQ20091017369
公開日2011年4月20日 申請日期2009年9月15日 優(yōu)先權(quán)日2009年9月15日
發(fā)明者于浩, 堀田悅伸, 孫俊, 小澤憲秋, 常蘭蘭, 武部浩明, 直井聰 申請人:富士通株式會社