專利名稱:微型計(jì)算機(jī)手寫漢字實(shí)時(shí)識(shí)別裝置的制作方法
本發(fā)明屬于模式識(shí)別和人工智能技術(shù)領(lǐng)域:
。分類號(hào)G06K 09/00。微機(jī)手寫漢字實(shí)時(shí)識(shí)別裝置是一種漢字輸入計(jì)算機(jī)的極為方便的方法,直接由圖形輸入板將漢字寫入計(jì)算機(jī),由計(jì)算機(jī)去辨認(rèn)。
就申請(qǐng)人所知手寫漢字實(shí)時(shí)識(shí)別在日本、美國、法國等都在進(jìn)行研制。以日本的工作做的最多,反映該項(xiàng)技術(shù)的文獻(xiàn)如①“才ンラィン手書き文字認(rèn)
裝置”,電子通信學(xué)會(huì)論文志,82/8 Vol.J65-D,No.8,小高和已,若原微,橋本新一朗(即聯(lián)機(jī)手寫文字識(shí)別裝置)②手寫字符一字母數(shù)字,平假名片假名日語漢字-的在線識(shí)別。
“On-Line Recognition of Handwritten Characters-Alphanumerics,Hiragana,Katakana,Kanji”,Hiroki Arakawa,Pattern Recognition Vol.16,No.1,PP.9~21。
本發(fā)明以抽取筆劃有序列法為基礎(chǔ),利用人工智能原理和技術(shù),形成了便于計(jì)算機(jī)識(shí)別和學(xué)習(xí)的漢字表達(dá)式方案,用漢字識(shí)別卡及漢字學(xué)習(xí)卡實(shí)現(xiàn)。本發(fā)明的目的①該裝置要適應(yīng)手寫漢字的多變性,對(duì)書寫者的限制較少。②該裝置不僅有識(shí)別能力,而且有機(jī)器學(xué)習(xí)歸納能力。
微型計(jì)算機(jī)手寫漢字實(shí)時(shí)識(shí)別裝置的組成,指標(biāo)和識(shí)別、學(xué)習(xí)流程1.裝置的組成如圖1所示。
2.主要技術(shù)指標(biāo)①識(shí)別字量國標(biāo)Ⅰ級(jí)漢字3755個(gè)②識(shí)別率95%③識(shí)別速度平均1字/秒
④書寫要求書寫在圖形輸入板的方格中(15×15mm2),手寫楷體,只要筆劃數(shù)和筆劃類型基本正確,書寫時(shí)有大致的正常筆順即可。
⑤可以顯示,打印實(shí)時(shí)識(shí)別漢字的結(jié)果。
⑥該裝置有學(xué)習(xí)歸納能力,可以把不同用戶的書寫習(xí)慣教給計(jì)算機(jī),則可以進(jìn)一步提高識(shí)別率。
3.識(shí)別、學(xué)習(xí)流程如圖2①圖形輸入板向計(jì)算機(jī)實(shí)時(shí)輸出書寫漢字時(shí)的筆劃軌跡的X、Y坐標(biāo)對(duì)。
②予處理平滑去噪聲。
③特征抽取,得到筆劃有序列。
筆劃數(shù)目書寫時(shí)實(shí)時(shí)記錄。
筆劃類型(-、丨、/、/、
、丶)由筆劃軌跡的點(diǎn)陣列確定。
④判決(1)粗分類按筆劃數(shù)和字的結(jié)構(gòu)類型。
(2)句法結(jié)構(gòu)分析分析實(shí)時(shí)輸入的漢字筆劃有序列符合哪一個(gè)漢字表達(dá)式。
(3)輔助判決對(duì)于少數(shù)同筆劃有序列的字,如土、士、工,日、曰等,用筆劃之間的相對(duì)長度,起點(diǎn)、終點(diǎn)的相對(duì)位置等來判決。
⑤顯示和打印被識(shí)別的漢字。
本發(fā)明與現(xiàn)有技術(shù)相比所具有的優(yōu)點(diǎn)是采用了便于計(jì)算機(jī)識(shí)別和學(xué)習(xí)的漢字表達(dá)式方案。
1.由于手寫漢字書寫的筆劃類型不準(zhǔn)確,而且書寫時(shí)的某些筆順經(jīng)常因人而異,因此造成同一漢字所得到的筆劃有序列有多種合理的可能。
在句法結(jié)構(gòu)模式識(shí)別中,把漢字筆劃有序列看作一個(gè)句子,漢字的筆劃{橫(H),豎(S),撇(P),捺(n),左折(Z),右折(Y),點(diǎn)(D)}作為基元。把若干句子組成的集合稱為語言L0一種語言代表一個(gè)漢字,第i類語言Li代表第i個(gè)漢字。語言Li用形式化的文法規(guī)則Gi(VT,VN,P,S)來表示,因此常把Li寫成L(Gi)。當(dāng)用BNF范式(Baokus-Naur Form)描述手寫漢字的規(guī)則時(shí),因元符號(hào)只有<>,∷=,|,(),{},則寫出的漢字規(guī)則顯得冗長和繁瑣。對(duì)于筆順要求嚴(yán)格部分,文法規(guī)則可以描述清楚,而對(duì)于筆順要求不嚴(yán)格的部分,用BNF范式描述就顯得繁瑣,例如“女”,“里”的文法規(guī)律分別為<女>∷=Y(jié)PH|HYP|YHP|HPY|PHY|PYH<里>∷=SZHHHSH|SZHHSHH|SZHHHHS很繁瑣,因此我們?cè)谛问交枋鍪謱憹h字中提出用漢字表達(dá)式。
(1)將每個(gè)漢字的文法規(guī)則合并為一個(gè)表達(dá)式,識(shí)別時(shí)可在大分類后只進(jìn)行較少量的句法分析,以提高識(shí)別速度。
(2)由于每一個(gè)漢字都有獨(dú)立的漢字表達(dá)式,更便于機(jī)器學(xué)習(xí)、歸納,能靈活地修改每個(gè)漢字的規(guī)則。
(3)擴(kuò)大了BNF范式的元符號(hào),增加元符號(hào)〔〕,稱為碼集符。在〔〕中的基元是無序的,可以任意顛倒。這樣,當(dāng)模式的結(jié)構(gòu)規(guī)則中有的地方要求有序,有的地方是無序時(shí),能夠精練地描述。
每條漢字表達(dá)式的左邊是一個(gè)非終結(jié)符,右邊是用終結(jié)符和元符號(hào)組成的串。當(dāng)然每個(gè)漢字可以用上下文無關(guān)文法表示,這里寫成漢字表達(dá)式式使識(shí)別字典查找方便。
漢字表達(dá)式中元符號(hào)的定義如下<>在<>中的對(duì)象符號(hào)為非終結(jié)符。
∷=表示左邊的對(duì)象符號(hào)用右邊的符號(hào)來定義。
〔〕碼集符,表示它里面的元素(終結(jié)符或表達(dá)式)是無序的,并且元素的符號(hào)可以重復(fù)存在。
//表示它里面的元素(終結(jié)符或表達(dá)式)是“或”的關(guān)系。
()括號(hào),表示分界。
例若終結(jié)符VT={H,S,P,N,Z,Y,D},則漢字表達(dá)式為<女>∷=〔YPH〕,代表6種合法的筆劃有序列。
<里>∷=SZHH〔SHH〕,代表3種合法的筆劃有序列。
<制>∷=PH〔(HSZ)S〕S/ZS/代表4種合法的筆劃有序列。
<些>∷=S/HD//SD/H〔Y/HD/〕HH,代表16種合法的筆劃有序列。
增加了元符號(hào)〔〕,起縮寫作用,使?jié)h字規(guī)則字典所占的空間大大減少,由于檢索的數(shù)量減少,從而也提高了識(shí)別速度。在有序列中增加了無次序的部分,在模式規(guī)則描述過程中是有用的。
2.機(jī)器學(xué)習(xí)功能是指計(jì)算機(jī)在設(shè)計(jì)者或用戶的教授訓(xùn)練下,計(jì)算機(jī)能不斷增添和改善所擁有的漢字知識(shí)。初級(jí)的學(xué)習(xí)能力是由設(shè)計(jì)者或用戶直接向系統(tǒng)提供漢字規(guī)則-漢字表達(dá)式,這個(gè)規(guī)則的總結(jié)是由人來作的,這種機(jī)器的學(xué)習(xí)功能實(shí)際上是記憶。高級(jí)的學(xué)習(xí)功能是用戶提供正反訓(xùn)練示例,由微型計(jì)算機(jī)歸納出規(guī)則。
正示例集S+i={S+i1,S+i2……S+i1}
L(Gi)反示例集Si={S-i1,S-i2……Sin}
(Gi)推斷出Gi,必須滿足L(Gi)
S+i,
L(Gi)
S-i。對(duì)于用筆劃有序列法識(shí)別漢字,由于比較接近人識(shí)別漢字的機(jī)制,人的先驗(yàn)知識(shí)容易放入,先放入一批由人總結(jié)的漢字表達(dá)式,然后逐漸由正反示例歸納,增添和完善規(guī)則。微型計(jì)算機(jī)歸納中教師的作用是為文法推斷中提供每個(gè)漢字的正示例集S+i和反示例集S-i的判斷,用程序自動(dòng)形式漢字表達(dá)式。識(shí)別字典按對(duì)提高常用漢字的識(shí)別速度有利的方式排列。
一般文法推斷要求提供的正示例集必須是完整的,而手寫漢字能提供的正示例集是很難完整的。為了使微型計(jì)算機(jī)學(xué)習(xí)的更快,像人那樣能從有限數(shù)目的正,反示例中推斷出漢字表達(dá)式,要求計(jì)算機(jī)有更高的學(xué)習(xí)能力,有一定的歸納能力,把多個(gè)正反示例上升到概念,概念的形成是更高一級(jí)的學(xué)習(xí)行為,在一個(gè)特定的領(lǐng)域中通過正反示例,從中歸納出正示例的共同特點(diǎn),而排除所有的反示例。從而形成一個(gè)共同的概念,在本質(zhì)上說是一個(gè)搜索問題。當(dāng)新的正示例出現(xiàn)時(shí),學(xué)習(xí)向更一般的概念移動(dòng),以便覆蓋所有的正示例,當(dāng)新的反示例出現(xiàn)時(shí),要縮小概念的范圍,以便使反示例不包含在該概念中。實(shí)時(shí)手寫漢字識(shí)別裝置的學(xué)習(xí)步驟是(1)輸入若干組第1到第N字的訓(xùn)練集,每一組對(duì)每一個(gè)漢字有一個(gè)正示例,每組訓(xùn)練集不允許出現(xiàn)重碼,均由人教授給計(jì)算機(jī),把每個(gè)字的正示例筆劃有序列合并歸納為一個(gè)漢字表達(dá)式,該漢字表達(dá)式要覆蓋已經(jīng)教授的所有正示例。當(dāng)然,覆蓋的結(jié)果不一定都對(duì)。
(2)自動(dòng)檢查所得到的漢字表達(dá)式是否出現(xiàn)“交”,如圖3所示。若出現(xiàn)“交”,即說明一個(gè)筆劃有序列在識(shí)別字典對(duì)應(yīng)兩個(gè)漢字,這是不允許的。這時(shí)計(jì)算機(jī)向人提出問題,指出有“交”的現(xiàn)象。由人進(jìn)行判斷該筆劃有序列是屬于哪個(gè)漢字,重新歸納漢字表達(dá)式A,B。消除二者的交。所以會(huì)出現(xiàn)漢字表達(dá)式相交,可能有兩個(gè)原因(1)輸入多組1-N的訓(xùn)練集時(shí),組間正示例出現(xiàn)異字重碼。
(2)在合并、歸納表達(dá)式時(shí),為了覆蓋而出現(xiàn)錯(cuò)誤。
步驟(1)、(2)反復(fù)進(jìn)行,裝置就不斷地學(xué)習(xí)歸納,使?jié)h字表達(dá)式規(guī)則趨于完善。
以上學(xué)習(xí)過程是用人工智能的學(xué)習(xí)方法,更接近于人類的學(xué)習(xí),便于人工干預(yù),比較靈活。
實(shí)際的漢字表達(dá)式的形式不是任意的,它是由幾種覺的子形式連接而成,因此漢字表達(dá)式的歸納規(guī)則有下面常見的幾種子形式①X1記作A類②/X1X2……Xm/(m≤4) 記作B類③/(X1X2)(X3X4)/ 記作C類
④/〔X1X2〕〔X3X4〕/ 記作D類
(n1,n2……n7,n≥0,C可有可無)記作E類以上各式中X1,X2……X7∈{H,S,P,N,Z,Y,D}。
漢字表達(dá)式Gi的歸納生成規(guī)則是模仿人類思維形成概念的某些規(guī)則,保證覆蓋正示例,不包含反示例。例如輸入正示例HSPSSY,HPPNPY,如果以上兩個(gè)正示例合成表達(dá)式為H/(SPNS)(PPNP)/Y,只是等于以上兩個(gè)正示例,如果歸納表達(dá)式為H/SP/PN/SP/Y,它保括了以上兩個(gè)正示例,還增加了幾種情況HPPNSY和HSPNPY。又例如輸入筆劃有序列HSPNZ和HPSZN,歸納為H〔SP〕〔NZ〕,增加了筆劃有序列HPSNZ和HSPZN。多出的筆劃有序列與原來給出的筆劃有序列之間有密切的關(guān)系,因此多數(shù)情況下是合理的。在沒有獲取完全的正示例時(shí),就得到一個(gè)包含更多合理信息的表達(dá)式,這樣可以學(xué)習(xí)更快。如果歸納錯(cuò)誤,一經(jīng)發(fā)現(xiàn)也會(huì)得到糾正。當(dāng)計(jì)算機(jī)已經(jīng)學(xué)習(xí)了較多時(shí)間每個(gè)漢字表達(dá)式已接近完善時(shí),歸納漢字表達(dá)式的規(guī)則要嚴(yán)格些,使合成的表達(dá)式盡量不包含多余的信息。
圖1 微型計(jì)算機(jī)手寫漢字實(shí)時(shí)識(shí)別裝置圖2 微型計(jì)算機(jī)手寫漢字實(shí)時(shí)識(shí)別裝置的識(shí)別和學(xué)習(xí)流程圖3 漢字表達(dá)式的“交”A漢字A表達(dá)式代表的筆劃有序列空間。
B漢字B表達(dá)式代表的筆劃有序列空間。
權(quán)利要求
1.一種由具有漢字功能的微型計(jì)算機(jī)和圖形輸入板組成的微型計(jì)算機(jī)手寫漢字實(shí)時(shí)識(shí)別裝置,其特征在于該裝置設(shè)有手寫體漢字識(shí)別卡和學(xué)習(xí)漢字卡。
2.按照權(quán)利要求
1所述的漢字識(shí)別卡其特征,在于該識(shí)別卡在形式化描述手寫漢字的規(guī)則中采用“漢字表達(dá)式”。
3.按照權(quán)利要求
2所述的“漢字表達(dá)式”,其特征在于該表達(dá)式擴(kuò)充BNF范式的元符號(hào)即增加碼集符。
4.按照權(quán)利要求
1所述的“漢字識(shí)別卡”,其特征在于該“漢字識(shí)別片”設(shè)有由每個(gè)漢字從多個(gè)筆劃有序列歸納出的獨(dú)立的漢字表達(dá)式組成,按分類技術(shù)和漢字使用頻度的排序的識(shí)別字典。
5.按照權(quán)利要求
1所述的微型計(jì)算機(jī)手寫漢字實(shí)時(shí)識(shí)別裝置其特征在于該裝置設(shè)有的學(xué)習(xí)手寫漢字卡,所說的學(xué)習(xí)手寫漢字卡采用歸納漢字表達(dá)式的方法。
專利摘要
微型計(jì)算機(jī)手寫漢字實(shí)時(shí)識(shí)別裝置是用模式識(shí)別技術(shù)和人工智能原理解決計(jì)算機(jī)聯(lián)機(jī)識(shí)別漢字的實(shí)用裝置。使用該裝置可在圖形輸入板上按人的習(xí)慣書寫漢字直接進(jìn)入計(jì)算機(jī),由微型計(jì)算機(jī)辨認(rèn),不需要記憶漢字編碼,也不需要敲動(dòng)鍵盤,這是一種極為方便的把漢字輸入到計(jì)算機(jī)的裝置。該裝置采用便于微型計(jì)算機(jī)識(shí)別和學(xué)習(xí)的“漢字表達(dá)式方案”,用漢字識(shí)別卡和手寫體漢字學(xué)習(xí)卡同時(shí)在微型計(jì)算機(jī)上實(shí)現(xiàn),可以識(shí)別3755個(gè)國際I級(jí)漢字。
文檔編號(hào)G06K9/72GK85100084SQ85100084
公開日1986年7月23日 申請(qǐng)日期1985年4月1日
發(fā)明者夏瑩, 張炘中, 揚(yáng)德順 申請(qǐng)人:清華大學(xué), 福建電子計(jì)算機(jī)研究所導(dǎo)出引文BiBTeX, EndNote, RefMan