專(zhuān)利名稱:字母化的漢字輸入法及其鍵盤(pán)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一項(xiàng)漢字信息處理技術(shù)。
現(xiàn)有的漢字編碼技術(shù)可以分為兩大類(lèi),第一類(lèi)是面向廣大非專(zhuān)業(yè)錄入人員的普及型方案,如拼音、自然碼、智能ABC等,這類(lèi)方法易學(xué)、易記,但是輸入效率不高。另一類(lèi)是面向廣大專(zhuān)業(yè)人員的快速型方案,有五筆字型、鄭碼等,這類(lèi)方法重碼率低,適合快速輸入但其編碼規(guī)則比較復(fù)雜,不容易學(xué)。目前我國(guó)漢字輸入依然存在著這樣一個(gè)“易學(xué)的輸入不快,輸入快的不易學(xué)”的局面。
本發(fā)明的目的是為了解決上述問(wèn)題,提供一種字母化的漢字輸入方法。這種輸入方法的每組基本部件的形狀相似或有意義上的聯(lián)系,并通過(guò)形義音與電腦輸入鍵盤(pán)的英文字母和標(biāo)點(diǎn)符號(hào)鍵相對(duì)應(yīng);同時(shí)編碼過(guò)程中采取了省單筆、相似相配、筆畫(huà)共享等方法,編碼更為直觀,因而有利于學(xué)習(xí)和記憶。本輸入法的靜態(tài)平均碼長(zhǎng)可低于3.4鍵每字,部件在鍵盤(pán)上的分布符合其動(dòng)態(tài)頻率的分布,一級(jí)漢字的重碼率低于2%,從而滿足了高速輸入的要求。
本發(fā)明的基本部件共29組;基本部件分三類(lèi)代表每組筆形特點(diǎn)的大小寫(xiě)字母,大部分是大小寫(xiě)字母相似部件的形似根,大部分由大小寫(xiě)字母、形似根組合而成的派生根。
29組部件通過(guò)形義音與26個(gè)英文字母鍵以及三個(gè)標(biāo)點(diǎn)符號(hào)鍵相對(duì)應(yīng)。
以下結(jié)合實(shí)施例對(duì)其進(jìn)行說(shuō)明。一、實(shí)例11)基本部件中的大小寫(xiě)字母在計(jì)算機(jī)鍵盤(pán)上分布如
圖1所示,其中“/”鍵作為多功能特殊鍵;基本部件及相對(duì)應(yīng)的鍵通過(guò)表1加以說(shuō)明表1
上表中的基本部件含有由一定的形和義結(jié)合形成的形義碼, 表示交叉性的豎或撇,如必中的丿、申的“丨”。
上表中的字型標(biāo)識(shí)碼有U、I、O,U表示上下型 ,如分、天;“邊、歷、習(xí)”等結(jié)構(gòu)的字也歸為上下型;I表示交叉型 ,如束;“犬、戈”等結(jié)構(gòu)的字也歸為交叉型;O表示包圍型 ,如回、匡。2)拆分原則拆分要求直觀、相似筆畫(huà)盡量在一起、少交叉、允許筆畫(huà)共享、允許截?cái)嗍讲鸱帧?br>
a)相似筆畫(huà)盡量在一起未拆成土與 ,元拆成二與兒,虧拆成二與 ,耒拆成與 乍拆成、丨、二,而不是、、一;b)少交叉生拆成 與,而不是與土;朱拆成 與 而不是與木;c)對(duì)于交叉性的漢字,從直觀出發(fā),允許筆畫(huà)共享申拆成田與 ,甲拆成田與丨,電拆成田與乚,火拆成與人,米拆成與木;d)從直觀對(duì)稱出發(fā),允許截?cái)嗍讲鸱止鸪商锱c木,夫拆成土與人,出拆成兩個(gè)山,圭拆成兩個(gè)土;以上所述的未、朱、耒都采取了中間截?cái)嗍讲鸱帧?)編碼原則取部件對(duì)應(yīng)的鍵名作為其編碼,按順序編碼,最大碼長(zhǎng)為4。
編碼過(guò)程中本發(fā)明采取了三個(gè)重要原則相似相配原則、省單筆原則、三碼原則。
相似相配原則是指當(dāng)部件不屬于基本部件時(shí),可以用形狀最相似的基本部件作為其編碼部件。如耳拆成 與丨后,部件 不是基本部件,用形狀最相似的基本部件“目”作為其編碼部件;練拆成纟、 用形狀最相似的基本部件“小”作為 的編碼部件;也拆成 用形狀最相似的基本部件“力”作為 的編碼部件。取碼不強(qiáng)求部件的細(xì)節(jié),只要求部件整體的筆畫(huà)和形態(tài)。
省單筆原則按筆畫(huà)多少將基本部件分成多筆部件和單筆部件,單筆部件指一、 丿、丨,帶短鉤的亅、 也可作為單筆部件;其它都為多筆部件,乚、乙、 等折畫(huà)都作為多筆部件處理。編碼時(shí)多筆部件優(yōu)先于單筆部件;編碼過(guò)程中根據(jù)字型、多筆部件和單筆部件的數(shù)目決定單筆部件的取舍,根據(jù)字型、多筆部件和單筆部件的數(shù)目、多筆部件所屬類(lèi)別決定多筆部件的拆分。
三碼原則在編碼規(guī)則范圍內(nèi)漢字盡量取三碼。具體步驟如下a)當(dāng)漢字含四個(gè)或四個(gè)以上的多筆部件時(shí),省去單筆部件,取第一、第二、第三及最后一個(gè)多筆部件編碼;演由氵、宀、一、田、八,省去單筆部件一,編碼為“SUOA”液由氵、亠、亻、丿、又、丶,省去單筆部件丿、丶,編碼為“S;AX”藍(lán)由艸、 、、丶、皿,省去單筆部件丶,編碼為“HHCO”b)當(dāng)漢字含三個(gè)多筆部件時(shí),省去單筆部件,取三個(gè)多筆部件編碼姥由女、土、
、丿、乚,省去單筆部件
、丿,編碼為“XTJ”撿由扌、人、一、
一,省去單筆部件一、一,編碼為“FAW”柳由木、
、丿、卩,省去單筆部件丿,編碼為“LCP”突由宀、八、大、丶,省去單筆部件丶,編碼為“UAY”c)當(dāng)漢字含兩個(gè)多筆部件和多個(gè)單筆部件時(shí),取兩個(gè)多筆部件和其中一個(gè)單筆部件編碼;從多個(gè)單筆部件中按第一、最后、第二、第三、第四、第五的順序取其中一個(gè)和另兩個(gè)多筆部件編碼。臭由丿、目、大、丶,取丿、目、大,丶,編碼為“,RY”存由
、丨、了、一,取
、了、一,省去單筆部件丨,編碼為“FBH”d)當(dāng)漢字含兩個(gè)多筆部件和一個(gè)單筆部件時(shí),取這三個(gè)部件編碼;喬編碼為“,YH”e)當(dāng)漢字只含兩個(gè)基本部件且其中至少有一個(gè)為多筆部件時(shí),根據(jù)字型和基本部件所屬類(lèi)別編碼;大小寫(xiě)字母和形似根不拆分。對(duì)于左右型,左邊部件不拆分,右邊部件是派生根的需拆分,右邊部件是小寫(xiě)字母和形似根的補(bǔ)加兩個(gè)F鍵編成四碼,右邊部件是大寫(xiě)字母的補(bǔ)加兩個(gè)J鍵編成四碼。舉例如下伙編碼為“AWA”訓(xùn)編碼為“IMFF”打編碼為“FJJJ”對(duì)于其它字型,若兩個(gè)基本部件都是大小寫(xiě)字母或形似根,根據(jù)字型補(bǔ)加一個(gè)字型標(biāo)識(shí)碼;若其中一個(gè)是派生根,對(duì)派生根拆分,若兩個(gè)都是派生根,按書(shū)寫(xiě)順序?qū)ο葧?shū)寫(xiě)的派生根拆分,另一個(gè)派生根不拆分。分編碼為“ADU”犬編碼為“Y.I”回編碼為“OKO”舌編碼為“,SK”委編碼為“,LX”f)當(dāng)漢字只含兩個(gè)單筆部件時(shí),根據(jù)字型補(bǔ)加一個(gè)字型標(biāo)識(shí)碼;自編碼為“,RU”g)當(dāng)漢字只由一個(gè)基本部件構(gòu)成,若是大寫(xiě)字母,用四個(gè)該大寫(xiě)字母對(duì)應(yīng)的英文鍵編碼表示;目編碼為“RRRR”若是其它基本部件,將其拆成二碼或三碼,然后再補(bǔ)加兩個(gè)或一個(gè)U鍵編成四碼。
禾編碼為“,LUU”馬編碼為“QQHU”省單筆是本發(fā)明的最重要的特征之一,它減少了需要記憶的基本部件數(shù),也減少了漢字細(xì)節(jié)對(duì)拆分的影響,從而降低了拆分難度,同時(shí)還減少了平均碼長(zhǎng),在加上字型標(biāo)識(shí)碼后還能反映漢字大體的筆畫(huà)和形狀。省單筆和相似相配是本發(fā)明對(duì)漢字模糊處理的兩個(gè)重要手段。4)特例處理為了直觀以及減少重碼,對(duì)少數(shù)漢字作特殊處理。
a)左右型漢字的左邊不是基本部件時(shí),而是由一個(gè)多筆部件與一個(gè)或多個(gè)單筆部件組成時(shí),左邊用兩碼表示。如殆編碼為“HDCK”b)只有兩個(gè)多筆部件的左右型漢字的右邊部分含兩個(gè)對(duì)稱相同的單筆部件時(shí),兩個(gè)單筆部件都不能省。如垣編碼為“THGH”c)少數(shù)漢字由于省單筆后變成另外的字,因而不能省單筆,如匆、兔、刪、柵;d)以門(mén)開(kāi)頭的漢字,門(mén)必須用兩個(gè)碼表示,如閣編碼為“.NXK”5)一些常用字可以通過(guò)省去單筆部件編成二級(jí)簡(jiǎn)碼,如在簡(jiǎn)碼為“FT”按實(shí)施例1對(duì)GB2312漢字字集6763字編碼,重碼率為5.4%,其中3755個(gè)一級(jí)漢字的重碼率低于2.0%。由于3755個(gè)一級(jí)漢字累計(jì)使用頻率達(dá)到99.9%,實(shí)施例1的動(dòng)態(tài)重碼率將低于2%。二、實(shí)施例2相對(duì)實(shí)例1增加了一些基本部件,如表2所示,其它規(guī)則和實(shí)例1相同。
按實(shí)施例2對(duì)GB2312漢字字集6763字編碼,重碼率低于5.0%,其中3755個(gè)一級(jí)漢字的重碼率低于2.2%,靜態(tài)平均碼長(zhǎng)比實(shí)施例1短。三、實(shí)施例3基本部件和實(shí)施例2相同,但編碼時(shí)不省單筆,其它規(guī)則和實(shí)施例1相同。
按實(shí)施例2對(duì)GB23 12漢字字集6763字編碼,重碼率低于5.0%,其中3755個(gè)一級(jí)漢字的重碼率為3%,靜態(tài)平均碼長(zhǎng)比實(shí)施例1長(zhǎng)。四、實(shí)施例41)基本部件中的大小寫(xiě)字母、形似根、派生根相對(duì)于實(shí)施例1作了一些變化和調(diào)整,如表3所示。
表3中增加了以下幾個(gè)形義碼。鍵名 形義碼 含義V 表示對(duì)前一個(gè)字根進(jìn)行分離操作,如北為 對(duì)土的分離操作后形成V 表示兩個(gè)相同字根,如潛編碼為“SVG”O(jiān) 表示具有包圍結(jié)構(gòu)的但不同于已有基本部件的部件,如傻中的 R 表示一個(gè)包圍結(jié)構(gòu)的部件與幾結(jié)合構(gòu)成的部件,如兄、 I 表示對(duì)應(yīng)于字母I的基本部件的亠部分,如仿編碼為“AID”3)編碼規(guī)則與實(shí)施例1有以下不同a)當(dāng)漢字只含兩個(gè)基本部件且其中至少有一個(gè)為多筆部件時(shí),①對(duì)于左右型,左邊部件不拆分,右邊部件是小寫(xiě)字母、形似根、派生根的需拆分,對(duì)于不能拆分的折畫(huà)補(bǔ)加一個(gè)I鍵;右邊部件是大寫(xiě)字母的補(bǔ)加兩個(gè)J鍵編成四碼。舉例如下佃“AOS”表2
表3
訓(xùn)“I,H”扎“FJI”打“FJJJ”②對(duì)于其它字型,若兩個(gè)基本部件都是派生根,按書(shū)寫(xiě)順序?qū)髸?shū)寫(xiě)的派生根拆分,另一個(gè)派生根不拆分。如委的編碼為“LXH”b)當(dāng)漢字是一個(gè)小寫(xiě)字母或形似根或派生根時(shí),將其拆二碼或三碼,然后再補(bǔ)加兩個(gè)或一個(gè)該基本部件所對(duì)應(yīng)的鍵編成四碼。
禾“,L,,”馬“QQHQ”其它規(guī)則與實(shí)施例1相同。五、實(shí)施例5基本部件相對(duì)于實(shí)施例1作了一些變化和調(diào)整,如表4所示。
編碼規(guī)則與實(shí)施例1有以下不同1)當(dāng)漢字為左右型,左邊部分由兩個(gè)碼組成,右邊部分由一個(gè)多筆部件和一個(gè)單筆部件組成時(shí),右邊部分的單筆部件不能省,應(yīng)編成四碼,如舶編碼為“N;,G”2)當(dāng)漢字只由一個(gè)大寫(xiě)字母構(gòu)成時(shí),編碼為大寫(xiě)字母對(duì)應(yīng)鍵加上兩個(gè)U鍵。其它規(guī)則與實(shí)施例1相同。圖2為實(shí)施例5部分漢字的編碼。六、實(shí)施例6在實(shí)施例5基礎(chǔ)上,對(duì)第三碼不是字型標(biāo)識(shí)碼的非左右型的三碼字再補(bǔ)加一個(gè)字型標(biāo)識(shí)碼。補(bǔ)加的字型標(biāo)識(shí)碼有以下幾個(gè)U量E墊F前,花D俐S刮O醫(yī),圖對(duì)左右型結(jié)構(gòu)的三碼字不補(bǔ)加字型識(shí)別碼。表4
編碼結(jié)果比較比較實(shí)施例4至6以及王碼的重碼率、靜態(tài)平均碼長(zhǎng)
碼的重碼率摘自專(zhuān)利《規(guī)范王碼輸入法及其輸入鍵盤(pán)》說(shuō)明書(shū)第13頁(yè),專(zhuān)利申請(qǐng)?zhí)枮?8160684.1。
從上表可以看出,實(shí)施例5的GB2312字集中6763個(gè)漢字的重碼率比王碼高,但一級(jí)漢字重碼率要低于王碼,由于3755個(gè)一級(jí)漢字累計(jì)使用頻率占99.9%,因而在實(shí)際應(yīng)用中重碼率要比王碼低;配上字型標(biāo)識(shí)碼的實(shí)施例6重碼率比王碼要低得多,適合于要求重碼率比較低的專(zhuān)業(yè)輸入。
本輸入法也適合繁體字的輸入??梢栽黾右韵路斌w字部件車(chē)
金 糸 言 馬 鳥(niǎo) 魚(yú)部件頻率分布情況根據(jù)《漢語(yǔ)信息字典》(科學(xué)出版社,1988年12月)的部件組字次數(shù)動(dòng)態(tài)統(tǒng)計(jì)表,粗略計(jì)算組字頻率排在前150位的部件在實(shí)施例5中各鍵的累積頻率分布情況,如下表所示表6
從上表可以看出,部件累積動(dòng)態(tài)頻率基本上和鍵的使用效率一致,因而本編碼的部件在鍵盤(pán)上的分布是比較合理的。字母化的編碼法本發(fā)明的編碼特點(diǎn)是能夠反映大部分漢字的信息。
分別以英文的大小寫(xiě)字母代表本編碼大小寫(xiě)母,小寫(xiě)英文字母代表字型標(biāo)識(shí)碼,結(jié)合實(shí)施例6舉例說(shuō)明如下由編碼aDhd可反推出其基本筆畫(huà)和結(jié)構(gòu)
→例由編碼FZwe可反推出其基本筆畫(huà)和結(jié)構(gòu)
→熱由編碼cYKs可反推出其基本筆畫(huà)和結(jié)構(gòu)
→知由編碼cAk可反推出其基本筆畫(huà)和結(jié)構(gòu)
→給從上可以看出本輸入法的編碼反映了漢字大部分筆畫(huà)和結(jié)構(gòu)信息,類(lèi)似于英文字母組成的單詞反映了單詞大部分語(yǔ)音信息,所以本輸入法稱為字母化的漢字輸入法。
權(quán)利要求
1.一種漢字輸入法及其鍵盤(pán),其特征在于本發(fā)明的基本部件共29組;基本部件分三類(lèi)代表每組筆形特點(diǎn)的大小寫(xiě)字母,大部分是大小寫(xiě)字母相似部件的形似根,大部分由大小寫(xiě)字母、形似根組合而成的派生根;每組部件的大小寫(xiě)字母、形似根、派生根之間可以互換,允許組數(shù)變化在10%左右;29組部件通過(guò)形義音與26個(gè)英文字母鍵以及三個(gè)標(biāo)點(diǎn)符號(hào)鍵相對(duì)應(yīng)。
2.如權(quán)利要求1所述的輸入法及其鍵盤(pán),其特征在于還可以附加形似根和派生根。
3.如權(quán)利要求1所述的輸入法及其鍵盤(pán),其特征在于還可以附加繁體部件。
4.如權(quán)利要求1所述的輸入法及其鍵盤(pán),其特征在于還可以附加字型標(biāo)識(shí)碼。
5.如權(quán)利要求1所述的輸入法及其鍵盤(pán),其特征在于還可以附加由一定的形和義結(jié)合形成的形義碼,附加的形義碼可以是對(duì)應(yīng)的英文鍵 形義碼 含義V表示對(duì)前一個(gè)字根進(jìn)行分離操作V 表示兩個(gè)相同字根O表示具有包圍結(jié)構(gòu)的但不同于已有基本部件的部件R表示一個(gè)包圍結(jié)構(gòu)的部件與 結(jié)合構(gòu)成的部件I表示對(duì)應(yīng)于字母I的基本部件的亠部分
6.如權(quán)利要求2所述的輸入法及其鍵盤(pán),其特征在于附加的形似根和派生根可以是金入五毛蟲(chóng)廾甘文方言廣疒礻衤示皿 酉戶羽鼻齒皮巳巴鳥(niǎo)頁(yè) 耳身巾穴雨米攵 羊豸鼠鹿弓己走立辛六斤七 廴豐手白廿用冂 髟夂 爿亡 所述形似根和派生根可以變更調(diào)整,其在鍵盤(pán)上的設(shè)置可以是
7.如權(quán)利要求3所述的輸入法及其鍵盤(pán),其特征在于附加的繁體部件可以是
8.如權(quán)利要求4所述的輸入法及其鍵盤(pán)其特征在于附加的字型標(biāo)識(shí)碼可以是
所述字型標(biāo)識(shí)碼可以變更調(diào)整。
9.如權(quán)利要求1至8任何一項(xiàng)所述的輸入法及其鍵盤(pán),其特征在于按筆畫(huà)多少將基本部件分成多筆部件和單筆部件,編碼時(shí)多筆部件優(yōu)先于單筆部件;根據(jù)字型、多筆部件和單筆部件的數(shù)目決定單筆部件的取舍;根據(jù)字型、多筆部件和單筆部件的數(shù)目、多筆部件所屬類(lèi)別決定多筆部件的拆分。
10.如權(quán)利要求9所述的輸入法及其鍵盤(pán),其特征在于編碼長(zhǎng)度為4,a)當(dāng)漢字含四個(gè)或四個(gè)以上的多筆部件時(shí),省去單筆部件,取第一、第二、第三及最后一個(gè)多筆部件編碼;b)當(dāng)漢字只含三個(gè)多筆部件時(shí),省去單筆部件,取三個(gè)多筆部件編碼;c)當(dāng)漢字只含兩個(gè)多筆部件和多個(gè)單筆部件時(shí),取兩個(gè)多筆部件和其中一個(gè)單筆部件編碼;d)當(dāng)漢字只含兩個(gè)多筆部件和一個(gè)單筆部件時(shí),取這三個(gè)部件編碼;e)當(dāng)漢字只含兩個(gè)基本部件且其中至少有一個(gè)多筆部件時(shí),根據(jù)字型和基本部件所屬類(lèi)別編碼;f)當(dāng)漢字只含兩個(gè)單筆部件時(shí),根據(jù)字型補(bǔ)加一個(gè)字型標(biāo)識(shí)碼;g)當(dāng)漢字是大寫(xiě)字母,用四個(gè)該大寫(xiě)字母對(duì)應(yīng)的英文鍵編成四碼或由一個(gè)該大寫(xiě)字母對(duì)應(yīng)的英文鍵補(bǔ)加兩個(gè)U鍵編成三碼;h)當(dāng)漢字是小寫(xiě)字母或形似根或派生根,將其拆成二碼或三碼,然后再補(bǔ)加兩個(gè)或一個(gè)U鍵編成四碼。
11.如權(quán)利要求10所述的輸入法及其鍵盤(pán),其特征在于當(dāng)漢字含兩個(gè)多筆部件和多個(gè)單筆部件時(shí),從多個(gè)單筆部件中按第一、最后、第二、第三、第四、第五的順序取一個(gè)單筆部件和另外兩個(gè)多筆部件編碼。
12.如權(quán)利要求10所述的輸入法及其鍵盤(pán),其特征在于當(dāng)漢字由兩個(gè)基本部件構(gòu)成時(shí),大小寫(xiě)字母和形似根不拆分;對(duì)于左右型的漢字,左邊部件不拆分,右邊部件是派生根的需拆分,右邊部件是小寫(xiě)字母和形似根的補(bǔ)加兩個(gè)F鍵編成四碼,右邊部件是大寫(xiě)字母的補(bǔ)加兩個(gè)J鍵編成四碼;對(duì)于其它字型,若兩個(gè)基本部件都是大小寫(xiě)字母或形似根,根據(jù)字型補(bǔ)加一個(gè)字型標(biāo)識(shí)碼;若兩個(gè)基本部件中有一個(gè)是派生根,對(duì)派生根拆分;若兩個(gè)基本部件都是派生根,按書(shū)寫(xiě)順序?qū)ο葧?shū)寫(xiě)的派生根拆分,另一個(gè)派生根不拆分。
13.如權(quán)利要求10至12任何一項(xiàng)所述的輸入法及其鍵盤(pán),其特征在于對(duì)第三個(gè)碼不是字型標(biāo)識(shí)碼的三碼字還可以補(bǔ)加一個(gè)字型標(biāo)識(shí)碼編成四碼。
14.如權(quán)利要求1至8任何一項(xiàng)所述的輸入法及其鍵盤(pán),其特征在于拆分要求直觀、少交叉、相似筆畫(huà)盡量在一起、允許筆畫(huà)共享、允許截?cái)嗍讲鸱帧?br>
15.如權(quán)利要求1至8任何一項(xiàng)所述的輸入法及其鍵盤(pán),其特征在于當(dāng)部件不屬于基本部件時(shí),按相似相配原則用筆形最相似的基本部件作為其編碼部件。
16.如權(quán)利要求9所述的輸入法及其鍵盤(pán),其特征在于一些常用字可以通過(guò)省去單筆部件編成二級(jí)簡(jiǎn)碼。
全文摘要
一種字母化的3C漢字輸入法及其鍵盤(pán),含29組基本部件,分成大小寫(xiě)字母、形似根、派生根三類(lèi),通過(guò)形義音與26個(gè)英文字母鍵及3個(gè)標(biāo)點(diǎn)符號(hào)鍵相對(duì)應(yīng);編碼中采取了省單筆、相似相配等模糊處理手段,編碼直觀簡(jiǎn)單,一級(jí)漢字的靜態(tài)平均碼長(zhǎng)為3.3碼每字,重碼率低于2%。
文檔編號(hào)G06F3/023GK1272644SQ0010614
公開(kāi)日2000年11月8日 申請(qǐng)日期2000年4月27日 優(yōu)先權(quán)日2000年4月27日
發(fā)明者楊東寧 申請(qǐng)人:楊東寧