專利名稱:基于鑒別歸一化的手寫漢字識別方法
技術(shù)領(lǐng)域:
本發(fā)明屬于模式識別學科技術(shù)領(lǐng)域,特別是涉及一種手寫漢字的識別方法。
背景技術(shù):
手寫漢字識別在辦公自動化、文檔數(shù)字化、人機交互等領(lǐng)域有著廣泛需求。但高精度的手寫漢字識別是文字識別領(lǐng)域中的一個困難的命題,制約著其實際應(yīng)用范圍。手寫漢字識別困難的根本原因在于手寫漢字樣本往往具有較顯著的變形情況,這導致相同漢字在形狀分布上不緊致。結(jié)合漢字的大類別情況,高精度地識別手寫漢字并不容易。為了彌補字符形變問題,字符圖像歸一化試圖將同一漢字的樣本向統(tǒng)一的形狀模式逼近,從而有效提高手寫漢字的識別效果,也是手寫漢字識別中不可或缺的環(huán)節(jié)。鑒別信息是區(qū)分不同字符樣本的重要信息,其來源于不同字符間的不相似性,對于識別過程很重要。傳統(tǒng)的字符圖像歸一化方法對所有的字符樣本采用同樣的規(guī)則處理,沒有考慮字符間的鑒別信息,不利 于進一步提高手寫漢字的識別性能,尤其對于相似字之間的識別經(jīng)常出現(xiàn)錯誤。
發(fā)明內(nèi)容
本發(fā)明就是為了解決上述現(xiàn)有技術(shù)中的問題,而提供一種基于鑒別歸一化的手寫漢字識別方法,目的在于將鑒別信息結(jié)合到字符圖像歸一化中,從而使得在歸一化后的相似字在識別中更容易被區(qū)分開來,降低識別錯誤率。本發(fā)明是按以下技術(shù)方案實現(xiàn)的
一種基于鑒別歸一化的手寫漢字識別方法,包括訓練部分和識別部分兩大部分;其中,訓練部分包括如下步驟
步驟I. I創(chuàng)建相似字表在漢字字符集中尋找相似字,并構(gòu)建相似字表;
步驟I. 2相似字顯著性區(qū)域檢測,即對相似字的不相似部分進行檢測;
步驟I. 3 創(chuàng)建歸一化模型字典將相似字表和各相似字對的顯著性區(qū)域的中心和尺寸參數(shù)等信息記錄在字典文件中;
步驟I. 4 相似字分類器訓練為上述相似字表中每一對相似字創(chuàng)建一個兩類分類器,專門用于區(qū)分對應(yīng)的兩個相似字;
識別部分包括如下步驟
步驟2. I 初始識別用普通的手寫漢字識別器對待識別字符樣本進行初始識別,獲得該字符樣本的漢字識別候選結(jié)果;
步驟2. 2 相似字搜索搜索相似字表,找到初始識別結(jié)果的前二候選構(gòu)成的字符對在相似字表中的匹配字對;
步驟2. 3 字符圖像變換利用相似字間的鑒別信息對上一步驟中的找到的相似字表中的匹配字對執(zhí)行鑒別歸一化,增加顯著性區(qū)域在字符圖像中所占尺寸比例;
步驟2. 4 相似字識別將在變換后的圖像上進行相似字識別,只對前二候選構(gòu)成的字符對中的兩個字符進行識別,所用的分類器為步驟I. 4中生成的相似字兩類分類器。
其中,相似字顯著性區(qū)域檢測包括如下三個步驟
步驟I. 2. I初始字符圖像歸一化采用普通的字符圖像歸一化方法作為預(yù)處理,改善字符圖像形狀分布上的緊致性;
步驟I. 2. 2字符特征抽取將每一點的字符特征用坐標點的形式進行表示;
步驟I. 2. 3 :顯著性區(qū)域分析
顯著性區(qū)域建立在不相似區(qū)域上,利用字符特征差異圖發(fā)現(xiàn)不相似區(qū)域,用Tm(i,j,k),Tn(i,j,k)分別表示字符Cm和Cn的特征模板,則字符特征差異圖表示為
咖……JHjH ■_Ii
=JZ Jr(ι) 令其方差為δ2 ;滿足下面條件的分格被視為不相似分格,即 SrjtXi, J)>Th(2)
Th=β+δ-t(3)
合理的t值一般可取[-2. O, 2. O]之間。不相似分格組成不相似區(qū)域,顯著性區(qū)域(Saliency Region—SR)被定義為覆蓋在不相似分格上的矩形區(qū)域,字符圖像中非顯著性區(qū)域部分即為相似區(qū)域。根據(jù)不相似分格檢測結(jié)果,計算不相似區(qū)域的矩Hicitl, m1(l,Hitll和中心矩μ 20, μ 02,則不相似區(qū)域的中心和軸長分別為
-(*01^*00- mIOj^biOO)(4)
HE. = Jptt2Zm003 P = JIjM30Imfsi,(5)
根據(jù)不相似區(qū)域中心位置,將顯著性區(qū)域分成9種類型,其中心為不相似區(qū)域中心,長寬分別為
: (wr, y)= ( -ο , !2 -(g)
2: = P-cr,(7)
3: ¢1^ I3O-(2 α,2 (*- ;(8)
4: τryj = (1W31 2-(Ar— irj5Jr,(9)
5= (3-(W-(10)
6= Oi3Iy) = P-(W-Ci)a*);(11)
7:: ryf) =2~cyyt(12)
lypetz(ri,Ty} = (ir,2-cy^(13)
^jpb 9: (W3Iy)=Ca^(14)
字符圖像變換包括如下步驟
步驟2. 3. I初始字符圖像歸一化
采用普通的字符圖像歸一化方法對字符圖像進行預(yù)處理;
步驟2. 3. 2執(zhí)行字符圖像變換
在保持圖像尺寸不變的同時,擴張顯著性區(qū)域并壓縮非顯著性區(qū)域;圖像變換中的坐標映射函數(shù)采用正弦函數(shù)滿足上述要求;I (x, y) and I’(x’,y’)分別為變換前后的圖像,則對于不同顯著性區(qū)域類型,坐標映射函數(shù)分別如下所示
權(quán)利要求
1.一種基于鑒別歸一化的手寫漢字識別方法,其特征在于,該方法包括訓練部分和識別部分兩大部分;其中,訓練部分包括如下步驟 步驟I. I創(chuàng)建相似字表在漢字字符集中尋找相似字,并構(gòu)建相似字表; 步驟I. 2相似字顯著性區(qū)域檢測,即對相似字的不相似部分進行檢測; 步驟I. 3 創(chuàng)建歸一化模型字典將相似字表和各相似字對的顯著性區(qū)域的參數(shù)信息記錄在字典文件中; 步驟I. 4 相似字分類器訓練每對相似字創(chuàng)建一個兩類分類器,專門用于區(qū)分對應(yīng)的兩個相似字; 識別部分包括如下步驟 步驟2. I 初始識別用普通的手寫漢字識別器對待識別字符樣本進行初始識別,獲得該字符樣本的漢字識別候選結(jié)果; 步驟2. 2 相似字搜索搜索相似字表,找到初始識別結(jié)果的前二候選構(gòu)成的字符對在相似字表中的匹配字對; 步驟2. 3 字符圖像變換利用相似字間的鑒別信息對上一步驟中找到的相似字表中的匹配字對執(zhí)行鑒別歸一化,增加顯著性區(qū)域在字符圖像中所占尺寸比例; 步驟2. 4 相似字識別將在變換后的圖像上進行相似字識別,只對前二候選構(gòu)成的字符對中的兩個字符進行識別,所用的分類器為步驟I. 4中生成的相似字兩類分類器。
2.根據(jù)權(quán)利要求I所述的基于鑒別歸一化的手寫漢字識別方法,其特征在于,相似字顯著性區(qū)域檢測包括如下三個步驟 步驟I. 2. I初始字符圖像歸一化采用普通的字符圖像歸一化方法作為預(yù)處理,提高字符圖像形狀分布上的緊致性; 步驟I. 2. 2字符特征抽取將每一點的字符特征用坐標點的形式進行表示; 步驟I. 2. 3 :顯著性區(qū)域分析 顯著性區(qū)域建立在不相似區(qū)域上,利用字符特征差異圖發(fā)現(xiàn)不相似區(qū)域, 用Tm(i,j,k),Tn(i,j,k)分別表示字符Cm和Cn的特征模板,則特征差異圖表示為Ou-^n -( ) 令其方差為均值為5^^ ;滿足下面條件的分格被視為不相似分格,即 Dm-lXu^Tfi(2)JS(3) 合理的t值一般可取[-2. O, 2. O]之間; 不相似分格組成不相似區(qū)域,顯著性區(qū)域(Saliency Region—SR)被定義為覆蓋在不相似分格上的矩形區(qū)域,字符圖像中非顯著性區(qū)域部分即為相似區(qū)域; 根據(jù)不相似分格檢測結(jié)果,計算不相似區(qū)域的矩Hicitl, 1 ,! 和中心矩μ 20, μ C12,則不相似區(qū)域的中心和軸長分別為 CjhOI^mOO" nlIOjlfiwOO)(4) or - Zm00lOy= Jp7fj / M00;(5)根據(jù)不相似區(qū)域中心位置,將顯著性區(qū)域分成9種類型,其中心為不相似區(qū)域中心,長寬分別為
3.根據(jù)權(quán)利要求I所述的基于鑒別歸一化的手寫漢字識別方法,其特征在于,字符圖像變換包括如下步驟 步驟2. 3. I初始字符圖像歸一化 采用普通的字符圖像歸一化方法對字符圖像進行預(yù)處理; 步驟2. 3. 2執(zhí)行字符圖像變換 在保持圖像尺寸不變的同時,擴張顯著性區(qū)域并壓縮非顯著性區(qū)域;圖像變換中的坐標映射函數(shù)采用正弦函數(shù)滿足上述要求; I (x, y) and I’(x’,y’)分別為變換前后的圖像,則對于不同顯著性區(qū)域類型,坐標映射函數(shù)分別如下所示
4.權(quán)利要求I所述的基于鑒別歸一化的手寫漢字識別方法,其中步驟I.3所述的顯著性區(qū)域參數(shù)指的是顯著性區(qū)域的中心和尺寸參數(shù)。
5.權(quán)利要求I所述的基于鑒別歸一化的手寫漢字識別方法,其中步驟I.4所述的每對相似字創(chuàng)建一個兩類分類器,指的是采用fisher分類器為上述相似字表中每一對相似字創(chuàng)建一個兩類分類器,專門用于區(qū)分對應(yīng)的兩個相似字。
6.權(quán)利要求I所述的基于鑒別歸一化的手寫漢字識別方法,其中步驟I.2. 3 :公式(3)所述的
7.權(quán)利要求I所述的基于鑒別歸一化的手寫漢字識別方法,其中權(quán)利要求3中所述的參數(shù)\和Ci2用來控制圖像變換中的變形程度,其取值可直接設(shè)定,也可用下式計算得到
8.權(quán)利要求I所述的基于鑒別歸一化的手寫漢字識別方法,其中權(quán)利要求8中所述的參數(shù)β控制相似區(qū)域的壓縮程度,β優(yōu)選地可取β=0.2。
全文摘要
本發(fā)明公開了一種基于鑒別歸一化的手寫漢字識別方法,本發(fā)明提出的方法將鑒別信息結(jié)合到字符圖像歸一化中,從而有效增強歸一化后的字符圖像的鑒別能力。使用基于鑒別歸一化的手寫漢字識別能顯著減少相似字識別錯誤,增強手寫漢字的識別精度。相比不使用鑒別歸一化的手寫漢字識別方法,使用鑒別歸一化的手寫漢字識別精度可獲得較大的提高。
文檔編號G06K9/20GK102831434SQ201210225810
公開日2012年12月19日 申請日期2012年7月3日 優(yōu)先權(quán)日2012年7月3日
發(fā)明者朱遠平, 何源, 孫俊 申請人:天津師范大學, 富士通株式會社