基于標注關(guān)系的手寫漢字正確性判別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及利用計算機對漢字書寫評價的技術(shù)領(lǐng)域,尤其涉及一種基于標注關(guān)系的手寫漢字正確性判別方法。
【背景技術(shù)】
[0002]文字是記錄、傳遞語言信息的社會性符號系統(tǒng),漢字作為中華民族的一種文字更是承載著我們民族的歷史、文化與氣質(zhì),它是五千年中華文明最直接的傳承者。而伴隨著電腦的普及,人們對電腦打字越來越依賴,手寫漢字的機會則是越來越少。手寫漢字的關(guān)注程度和練習強度被大大弱化,如何提升國人漢字書寫的能力已經(jīng)成為了一個亟待解決的問題。
[0003]目前手寫漢字正確性識別的方法有以下幾種:
[0004]1、根據(jù)建立的漢字庫,漢字庫包含漢字形體結(jié)構(gòu)、漢字筆畫以及漢字筆順,然后對輸入在新媒體上的漢字進行正確性判斷,如中國發(fā)明專利“在新媒體上對手寫漢字正確性的判斷方法”(公開號:CN103679217A)公開了一種在新媒體上對手寫漢字正確性的判斷方法;
[0005]2、根據(jù)標準漢字筆畫類型、絕對位置和相交關(guān)系的特征集,然后記錄手寫漢字筆畫書寫特征,建立手寫漢字特征集,將標準特征集與手寫漢字特征集進行比對處理的方法進行手寫漢字筆畫識別,如中國發(fā)明專利“一種手寫漢字筆畫識別方法”(公開號:CN103810506A)公開了一種手寫漢字筆畫識別方法;
[0006]3、通過記錄書寫筆跡、筆畫數(shù)、判斷筆畫相交關(guān)系來進行評價,如中國發(fā)明專利“手寫漢字筆畫相交離的規(guī)范性判定方法和裝置”(公開號:CN101320422A)公開了一種通過判斷手寫漢字筆畫相交離關(guān)系判定手寫漢字書寫是否規(guī)范的方法;
[0007]4、通過對人工給定的漢字樣本進行機器學習,然后使用圖像處理與人工智能的方法對手寫漢字進行相似度模糊判斷,如中國發(fā)明專利“一種漢字書寫美觀度的計算機評估方法”(公開號:CN101295371A);
[0008]5、通過判斷手寫漢字的橫向、縱向比例關(guān)系、結(jié)構(gòu)特征以及手寫漢字各點在書寫空間內(nèi)的分布關(guān)系進行評價,如中國發(fā)明專利書寫漢字結(jié)構(gòu)規(guī)范性評價的方法和裝置(公開號:CN101251891A)。
[0009]上述的方法雖然能在某些方面對于手寫漢字書寫質(zhì)量進行評價,但是這些方法都沒有辦法實現(xiàn)對手寫漢字中同類筆畫在空間位置歸屬關(guān)系進行準確判斷,及對特殊特征的筆畫進行判斷,不能實現(xiàn)對手寫漢字整體書寫正確性的準確判斷。
【發(fā)明內(nèi)容】
[0010]針對以上現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明提供一種基于標注關(guān)系的手寫漢字正確性判別方法。
[0011]本發(fā)明采用的技術(shù)方案如下:
[0012]基于標注關(guān)系的手寫漢字正確性判別方法,包括如下步驟:
[0013](I)建立包含漢字正確性判斷相關(guān)特征標識的標準漢字庫,標準漢字庫包含內(nèi)容如下:
[0014]I)標注漢字標準筆畫類型信息;2)標注漢字的基本信息,包含拼音和區(qū)位碼;3)標注漢字中同類筆畫的空間位置關(guān)系;4)標注漢字中筆畫的“交”、“接”和“鄰”關(guān)系;5)標注漢字中筆畫與部件的歸屬關(guān)系;6)標注漢字中部件的空間位置關(guān)系;7)標注漢字中特殊特征結(jié)構(gòu)的信息;
[0015](2)獲取用戶手寫漢字點集,并進行預處理,具體方法為:將用戶在書寫平臺上書寫漢字過程中從下筆到起筆所形成的點集定義為一個筆畫;獲取用戶原始手寫點集,并對其進行平滑、鈍化和去除干擾筆段的預處理;
[0016](3)對用戶手寫漢字筆畫類型進行標準化處理,判斷其筆畫類型和筆畫數(shù)量是否正確,具體方法為:1)根據(jù)標準漢字庫中的漢字標準筆畫類型信息將預處理獲取的用戶手寫漢字筆畫進行標準化處理;2)將標準化處理后的用戶手寫漢字筆畫與標準漢字庫中對應漢字的筆畫進行比較,判斷手寫漢字筆畫類型和筆畫數(shù)量是否正確;
[0017](4)判斷手寫漢字同類筆畫的空間位置關(guān)系,完成手寫漢字與標準漢字筆畫一一對應,具體方法為:1)計算用戶手寫漢字中同類筆畫的空間位置關(guān)系,其中同類筆畫的空間位置關(guān)系共包含上、下、左、右四種;2)獲取標準漢字庫中對應漢字的同類筆畫空間位置關(guān)系,將手寫漢字與標準漢字的同類筆畫空間位置關(guān)系進行比對,完成手寫漢字與標準漢字筆畫——對應;
[0018](5)判斷手寫漢字筆畫交、接、鄰關(guān)系的正確性,具體方法為:
[0019]I)將筆畫從拐點處斷開,分拆為若干個具有獨立走向的筆段,通過判斷筆畫所包含筆段間的交、接、鄰關(guān)系實現(xiàn)不同筆畫交、接和鄰關(guān)系的判斷;
[0020]2)判斷筆段“接”的方法為:計算筆段I的的端點到筆段2的垂線距離kjP k 2,取kp k2中值較小者,計算其占筆段I長度的百分比,如果超過閾值N則不相接,否則相接;
[0021]3)判斷筆段“交”的方法為:獲取兩個筆段起點和終點的坐標,根據(jù)筆段起點和終點得到關(guān)于筆段的兩個直線方程FjP F 2,計算兩個方程是否存在共同解,若無,則兩個線段不相交,若有,則判斷解是否同時落在兩個筆段上,若同時落在兩個筆段上,且兩個筆段的關(guān)系不為“接”,則判斷為相交,否則不相交;
[0022]4)判斷筆段“鄰”的方法為:鄰關(guān)系分為三種,分別從筆段I的兩個端點到筆段2做垂線,若垂線的兩個端點完全落在筆段2上,則稱筆段I與筆段2是第一種鄰關(guān)系;若垂線的兩個端點只有一個落在筆段2上,則稱筆段I與筆段2的是第二種鄰關(guān)系;若垂線的兩個端點都沒有落在筆段2上,則稱筆段I與筆段2是第三種鄰關(guān)系;
[0023](6)判斷手寫漢字部件空間位置關(guān)系的正確性,具體方法為:1)計算部件外包矩形對角線交點;2)以其中一個部件的對角線交點為原點作水平線,計算連接兩個部件對角線交點構(gòu)成的直線與水平線的夾角;3)獲取標準漢字庫中對應漢字部件夾角信息,將手寫漢字與標準漢字相同部件間的夾角進行比對,完成手寫漢字部件空間位置關(guān)系正確性判斷;
[0024](7)判斷手寫漢字特殊結(jié)構(gòu)特征的正確性,用戶字特殊結(jié)構(gòu)特征主要包括:同類筆畫的長短關(guān)系和部件的寬高比;
[0025]綜合上述步驟完成對手寫漢字正確性判別。
[0026]本發(fā)明與現(xiàn)有技術(shù)相比具有的有益效果如下:
[0027]1、本發(fā)明通過計算機對手寫漢字點集的預處理,然后根據(jù)漢字結(jié)構(gòu)關(guān)系標識標準編碼來進行判斷手寫漢字中同類筆畫的歸屬,筆畫間交接鄰關(guān)系,部件間的關(guān)系,特殊筆畫特征來完成對手寫漢字正確性的識別,具有客觀,高效的優(yōu)點。
[0028]2、本方法實現(xiàn)了通過建立包含漢字正確性判斷相關(guān)特征標識的標準漢字庫,以此來判斷手寫漢字的正確性,使得解決無監(jiān)督情況下手寫漢字練習過程中漢字的正確性判斷以及評價,具有重要的應用價值。
【附圖說明】
[0029]圖1是本發(fā)明的流程圖,
[0030]圖2是本發(fā)明采用的漢字標準筆畫類型圖,
[0031]圖3是同種筆畫上下關(guān)系示意圖,
[0032]圖4是同種筆畫左右關(guān)系示意圖,
[0033]圖5是漢字“上”接關(guān)系的示意圖,
[0034]圖6是漢字“十”交關(guān)系的示意圖,
[0035]圖7是漢字“玉”第一種鄰關(guān)系的示意圖,
[0036]圖8是漢字“玉”第二種鄰關(guān)系的示意圖,
[0037]圖9是漢字“法”第三種鄰關(guān)系的示意圖,
[0038]圖10是漢字“陽”部件空間位置示意圖。
【具體實施方式】
[0039]下面結(jié)合附圖,對本發(fā)明做詳細說明。
[0040]如圖1,一種基于標注關(guān)系的手寫漢字正確性識別方法,其具體步驟如下:
[0041]1.建立包含漢字正確性判斷相關(guān)特征標識的標準漢字庫:
[0042](I)標注漢字標準筆畫類型信息;
[0043](2)標注漢字的基本信息,包含拼音、區(qū)位碼等;
[0044](3)標注漢字中同類筆畫的空間位置關(guān)系;
[0045](4)標注漢字中筆畫的“交”、“接”、“鄰”關(guān)系;
[0046](5)標注漢字中筆畫與部件的歸屬關(guān)系;
[0047](6)標注漢字中部件的空間位置關(guān)系;
[0048](7)標注漢字中特殊特征結(jié)構(gòu)的信息;
[0049]2.獲取用戶點集并進行預處理:
[0050]I)獲取用戶手寫漢字坐標點集,對其進行平滑處理,處理策略為:遍歷用戶手寫漢字的坐標點集,獲取其中X坐標最小值x-及最大值X _,Y坐標最小值7_及最大值I _,以(χ_,y_),(χ_,y_),(χ_,y_),(χ_,y_)四個點為頂點構(gòu)建矩形,該矩形即為此手寫漢字的外包矩形,以筆畫的起始點Ps為圓心,以用戶手寫漢字外包矩形對角線長度的1/60為半徑做圓C,刪除圓c中除psW外的點,依此規(guī)則遍歷漢字點集中所有點,實現(xiàn)手寫漢字的平滑處理;
[0051]2)針對手寫漢字行筆或轉(zhuǎn)折中的彎曲及修飾成分進行一次鈍化處理,處理策略為:取筆畫起點P1 (X1, Y1),相鄰兩點P2(Xhy2),P3(Xiy3),連接Ρι,P;!得到直線L u連接p2, P3得到直線L2,計算Lrl^L2夾角α$α>= 120°,則將P 2忽略,保留P ^p3,若α〈120°,則保留Pl、p2、P3,遍歷所有點集,實現(xiàn)手寫筆畫的鈍化處理;
[0052]3)去除干擾筆段,處理策略為:獲取每個筆畫包含的筆段集S = {Sl,i = 1..η},η為該筆畫包含的筆段數(shù);計算每個筆段長度山,則整個筆畫長度D = ClAd2+..+dn,,若山〈0.1*D,則去掉筆段i,遍歷所有筆畫,實現(xiàn)手寫筆畫的干擾筆段去除處理;
[0053]4)對完成上述處理的筆畫進行二次鈍化處理,具體處理策略同一次鈍化處理,完成對手寫漢字的預處理。
[0054]3.對手寫漢字筆畫進行標準化處理,判斷手寫漢字的筆畫類型和筆畫數(shù)量是否正確:
[0055](I)將標準漢字筆畫進行聚類并做唯一性編碼,本方法將常用的37個標準筆畫聚類為19個筆畫集,如圖2,根據(jù)標準漢字庫中的