專利名稱:知音碼漢字編碼技術(shù)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及碼長為四碼、以字元讀音首字母作為編碼碼元的計算機漢字輸入編碼技術(shù),它提供一種取碼線索單一,編碼操作規(guī)定性少,重碼率低,能夠盲打的編碼方案。
在已有的漢字編碼技術(shù)中,音碼易學(xué),易記,但因為重碼高,不能盲打。
形碼,包括形聲碼或聲形碼,重碼低,便于盲打,但是這些編碼方案設(shè)計的基礎(chǔ)是先對漢字從形態(tài)上進行分析,拆分出數(shù)百種組成漢字地構(gòu)件或部件,再對這些部件進行分析,找出其中的內(nèi)在規(guī)律,歸納出百種以上的部件作為該方案的基本編碼單位,然后將這些部件用字母鍵和/或數(shù)字鍵的音、形或序來表示。為了解決編碼的重大技術(shù)關(guān)鍵,如基本部件的分類、克服部件的二義性、降低重碼率等,這些方案制定出過多的規(guī)則和約定,因而帶來了記憶量大、不易學(xué)習(xí)的副作用。
音、形、義綜合型編碼方案中,多元化的取碼線索,使編碼過程本身過于復(fù)雜。
本發(fā)明的目的在于根據(jù)漢字總量的有限性和編碼資源豐富性,天然基本部件的多樣性和不確定性,以及這些部件的規(guī)范或約定俗成的讀音本身所具有的區(qū)分和分類的特性,并以公眾在漢字認(rèn)知過程中逐步習(xí)得的字音和字形知識為基礎(chǔ),減少編碼操作的規(guī)定性,承認(rèn)并接受使用者對漢字切分和拆分的多樣性,通過合理利用26個字母所形成的編碼資源,提供一和取碼線索單一,重碼率低,易學(xué)、易記、易用的編碼方案。
本發(fā)明通過下列綜合措施實現(xiàn)上述目的
1、實行“一字多碼”以適應(yīng)人們對漢字認(rèn)識的合理多樣性。對編碼基本部件,提出一般性的原則,從而給使用者以最大的編碼自由度,讓使用者根據(jù)漢字的特點或?qū)h字約定俗成的認(rèn)識去切分或拆分出編碼所需要的基本部件?!耙蛔侄啻a”的出現(xiàn)是有規(guī)律的,因而也是可以預(yù)見和控制的。它通常由下列因素引起
①首字母不同的多音字,如“長”、“重”、“給”等。
②書寫上有一種以上規(guī)范的或可能流行的順序的字,如“火”、“長”等。
③因為對字形結(jié)構(gòu)的認(rèn)識不同而產(chǎn)生多種切分或拆分的字,如“生”(“
丿、主”或“牛、一”);“田”(“口、十”或“日、丨”);“
重”(“千、田、上”,“千、日、土”,“千、日、二”等)。
④書寫容易造成字元混淆的字,如“吉”(“士、口”或“土、口”)。
⑤異體字。
2、對獨體字或由兩個部件組成的合體字進行“動態(tài)取碼”,即對其中一個部件連續(xù)取不同的兩個或兩個以上的碼元。如,“自”的編碼部件是“自、丿、目、日”(“目”中含有“日”);“酒”的編碼部件是“酒、氵、酉、西”(“酉”中含有“西”)。這種“動態(tài)切分”既能使取碼直觀,便于使用,又能比以“末筆劃”和“結(jié)構(gòu)形態(tài)”作為補足碼的做法更能充分地利用編碼資源。
3、編碼的基本單位是字元,包括①整字字元,②成字字元(可讀字或變形的可讀字),③部首字元(規(guī)范的偏旁和部首)和④九種筆劃字元(而不是通常采用的五種)點、橫、豎、撇、捺、提、鉤、折、彎(其中前八種屬傳統(tǒng)的“‘永’字八法”)。允許切分和拆分的多樣性。
4、除極少的約定以外,用規(guī)范的或約定俗成的的字元讀音的首字母作為碼元。用字母“O”表示大量的既不屬于偏旁部首,又沒有約定俗成讀音的筆劃組合。
5、從充分利用編碼資源目的出發(fā),根據(jù)漢字的讀音特點,用字母“V”表示讀音以撮口呼元音ü開始的字元。
6、字母Z,C,和S分別表示Z H,C H,和S H。
7、知音碼方案的輸入鍵盤設(shè)計有標(biāo)準(zhǔn)鍵盤、自定義動態(tài)鍵盤和知音碼定義動態(tài)鍵盤,以滿足不同使用者的需要。(知音碼定義動態(tài)鍵盤見附圖
)
本發(fā)明完整地體現(xiàn)于以下方案
方案分為三部分
一、知音碼的字元和碼元
二、知音碼的編碼總則
三、便捷取碼一、知音碼的字元和碼元
知音碼的編碼基本單位是字元,指的是整字和構(gòu)成整字的離散構(gòu)件。離散的構(gòu)件有三種
1、成字字元(可讀字或變形的可讀字)
2、部首字元(規(guī)范的偏旁和部首);
3、筆劃字元約定為九種。
所謂“離散”,一般指的是構(gòu)件之間沒有明顯的相交。
承認(rèn)并接受字元切分和拆分的多樣性。
知音碼中,由三個或三個以上的字元構(gòu)成的字稱為“多元字”;由一個或兩個字元構(gòu)成的字分別稱為“單元字”和“雙元字”。
知音碼用26個字母作為碼元。
“?”作為模糊輸入鍵。(一)整字字元的碼元
用讀音的首字母作為碼元。
用“V”表示讀音的首字母是撮口呼元音ü(yu)的字,如月(üe),原(üan),魚(ü),運(üen)。
“Z、C、S”同時表示“ZH、CH、SH”。
上述約定同樣適用于成字、部首和筆劃字元。(二)成字字元的碼元
成字字元,用規(guī)范讀音的首字母作為碼元。對于變形但仍可辨認(rèn)的成字字元,讀音從正體字,如“看、著、先”的第一個字元是變形字元,讀音分別從“手、羊、牛”;“春、卷”的第一字元的讀音分別從“豐、半”;“肖、采”的第一字元讀音從“小、爪”。
離散的或切分出的、既不屬于偏旁部首,又沒有約定俗成讀音的筆劃組合,視為可讀字,統(tǒng)一用“○”作為碼元。
可用作部首“山石水手、絲木言蟲”的碼元,見(三)。(三)部首字元的碼元
作為部首字元的偏旁部首的讀音,主要根據(jù)現(xiàn)行語文教學(xué)中所采用的名稱(參見附5)或約定俗成的讀法(參見附4 ),用核心字讀音的首字母作碼元。如“亻”取碼R,從“站人旁”的“人”;“钅”取碼J,從“金字旁”的“金”;“艸”取碼C,從“草字頭”的“草”。
為了充分利用編碼資源,減少重碼,對8個常用的偏旁部首,“山石水(氵)手(扌)、絲(纟)木言(讠)蟲”,通過聯(lián)想助記的方式,重新分配碼元。具體約定見附1。(四)筆劃字元的碼元
筆劃字元,“點、橫、豎、撇、捺、提、鉤、折、彎”,分別用碼元D(ian),H(eng),I,P(ie),N(a),T(i),O(ou),Z(he),W(an)表示?!柏Q”的碼元是“I”,根據(jù)的是字母形態(tài)與筆劃形態(tài)的相似性。具體約定見附2。二、知音碼的編碼總則(一)多元字
多元字按書寫順序取碼,先左后右,自上而下,從外向內(nèi)或從內(nèi)向外,一次取足四碼。三字元以上的字,取碼順序為“前二末一”,即取第一、二和末位三碼。明顯離散而又不可讀的筆劃組合,在知音碼中視為可讀字,用“0”表示。例如
華 HRBS (華、亻、匕、十)
墮 DEYT (墮、阝、有、土)
逢 FWFZ (逢、夂、豐、辶)
福 FSHT (福、礻、一,田。注“一”作為筆劃“橫”,取碼H)
霞 XVOY (霞、雨、
、又。注“雨”拼音“yu”,為撮口呼“ü”,
取碼V;“
”離散而不可讀,視為可讀字,取碼0。)(二)雙元字
雙元字可直接先取三碼,第四碼取碼方法視情況,有三種
(1)第二個字元是可讀字時,首先考慮“動態(tài)取碼”,從中“剝”出一個
可讀字,再根據(jù)這個字元的發(fā)音取碼,例如,
類 LMDR (類、米、大、人。注第二字元“大”中“剝”出“人”,作
為作第四碼。)
秤 CHPG (稱、禾、平、干)
曹 CORK (曹、
、日、口。注
離散而沒有讀音的筆劃組合,視
為可讀字,用“○”表示)
(2)第二個字元無法“動態(tài)取碼”時,取末筆劃的習(xí)慣讀音為碼。例如,
羅 LSXD (羅、四、夕、丶)
餌 ESET (餌、饣、耳、。注第二字元“耳”無法動態(tài)取碼,因此末
筆劃“提”取碼2。)
(3)第二字元是單筆劃,第四碼取空格鍵為碼。例如,
旦 DRH_ (旦、日、一、“空格”)
禮 LSW_ (禮、字、、“空格”。注第劃“豎彎勾”,取碼W,從
“彎”。)(三)單元字
單元字的第二碼在知音碼中是“拆字取碼”,即拆出筆劃順序在前、直觀的成字字元或筆劃字元為碼,剩下的如果是可讀字,其余兩碼的取碼操作同雙元字。例如,
大 DHRN (大、一、人、\)
拆字取碼后,剩下的如果不是可讀字,而僅僅是筆劃的聚合,那么則依次取第二、第三或末筆為三、四碼。例如,
凹 AIZH (第二碼拆出“豎”,取碼I;剩下的不是可讀字,第二筆劃為
“橫折橫”,從“折”取Z;末筆劃為“一”,從“橫”取H。)三、便捷取碼(一)抽“芯”法
抽“芯”指的是從單元字中“抽”出維系全字的筆劃或字。經(jīng)抽芯后,剩下字元,可采用雙元或多元字的取碼方法操作。例如,
秉 (秉、禾、ヨ、一)BHXH
乘 (乘、禾、北、匕)CHBB 或(乘、禾、丬、匕)CHPB
束 (束、木、口、一)SFKH(二)宏拆搬
“宏拆搬”是根據(jù)漢字結(jié)構(gòu)特點和“一字多碼”原則設(shè)計出的單元字的輔助取碼方法,指的是拆分出筆劃在先的最大字元,剩下的是不可再拆分的單筆劃。例如,
匆 (匆、勿、丶、“空格”)CWD_
末 (末、木、一、“空格”)MFH_
開 (開、干、丿、“空格”)KOP_
矛 (矛、予、丿、“空格”)MVP_
丸 (丸、九、丶、“空格”)WJD_
目 (目、日、一、“空格”)MRH
公 (公、么、\、“空格”)OMN_
中 (中、口、丨、“空格”)ZRS_
曲 (曲、由、丨、“空格”)QYS_
酉 (酉、西、一、“空格”)YXH_
鳥 (鳥、烏、丶、“空格”)NWD_
刃 (刃、刀、丶、“空格”)RDD_附1知音碼方案中8個常用部首的聯(lián)想約定
山→D,從“刀山”或“大山”,核心字“刀”或“大”(詞聯(lián)想)。
石→P,從“磐石”或“堅如磐石”,核心字“磐”(詞聯(lián)想)。
氵→U,從“污水”的“污”的發(fā)音(詞音聯(lián)想)或從英語字母“U”聯(lián)想
“油水”。(包括“”)
扌→A,從“挨打的手”,核心字“挨”(詞聯(lián)想)
纟→L,從“綠絲絳”,核心字“綠”,(名句碧玉妝成一樹高,萬條垂下
綠絲絳,不知細(xì)葉誰裁出,二月春風(fēng)似剪刀。)
木→F,從“楓木”,核心字“楓”(詞聯(lián)想)。
讠→I,“讠”(言字旁)形近似1的小寫“1”(字形聯(lián)想)。
蟲→Q,從“蛆蟲”,核心字“蛆”(詞聯(lián)想)附2知音碼方案中筆劃字元的約定
“豎”用“I”表示,取碼元的形態(tài)相似性
“點”D,包括“撇點”;
“撇”P,包括“橫撇”;
“提”T,包括“豎提”;
“鉤”G,包括“橫鉤”、“豎鉤”、“斜勾”等;
“折”Z,包括所有帶“折”的筆劃,(有“彎”的除外),如“橫折”、
“豎折”、“撇折”、“橫折鉤“等。
“彎”W,包括所有帶“彎”的筆劃,如“豎彎”、“豎彎鉤”、“橫折
彎鉤”等;附3知音碼方案中的其它約定(1)“蓋”,碼元“G”所有帶“宀”的組合,如
等。(2)衣字底,碼元“Y”(3)“兒”,碼元“E”含
、和短長兩筆的組合,如
等。(4)碼元“X”表示兩筆交叉的筆劃組合,如“十、
、”等。附4知音碼方案中根據(jù)約定俗成讀法來確定碼元的筆劃組合 “主”青字頭 碼元“Q” “”皮字頭 碼元“P” “耂”老字頭 碼元“L”附5《新編小學(xué)生字典》(人民教育出版社出版)部首讀法(其它與常用字相
同的部首見原書)
部首 讀法核心字 碼元
一 橫 橫 H
丨 豎 豎 I (見附)
丿 撇 撇 T
丶 點 點 D
匚 三框框 K
卜卜 卜 B(含
)
刂 立刀旁 刀 D
冂 同字框 框 E(包括
)
亻 單人旁 人 R
八 八 八 B(含
)
勹 包字頭 包 B
幾 幾 幾 J(含
)
亠 文字頭 文 W
冫 兩點水 水 U(見附1)
冖 禿寶蓋 蓋 G
讠 言字旁 言 I(見附
卩 單耳旁 耳 F(含“已”,
阝 左耳旁 耳 E
阝 右耳旁 耳 F
廴建字旁建J
凵兇字框框K
刀刀刀D(含“ク”*)
厶厶厶S
艸草字頭草C
開字底開K
小小小X(含
*和
**)
扌提手旁手A(見附1)
口方框兒框K
彳雙人旁人R
彡三撇 撇P
犭反犬旁犬Q
夂折文 文W
饣食字旁食S
忄豎心旁心X(含“”*)
字旁
P(含“丬”***)
氵三點水水U(見附1)
宀寶蓋 蓋6
辶走之 走Z
ヨ尋字頭尋X(含
*)
己己己J(含“巳”、“巳”*)
出字頭出C(含
*)
幺幼字旁幼Y
纟絞絲旁綠L(見附1)
巛三拐 拐G
攴敲字旁敲Q
水水水U(含
*)(見附1)
牛牛字頭/旁 牛N(含
*)
攵反文旁文W
爪爪字頭爪Z(含
*)
灬四點底點D
礻示字旁示S
肀聿聿V(含
*)
钅金字旁金J
疒病字旁病B
衤衣字旁衣Y
疋疋疋P(含
*)
虎字頭虎H
羊羊羊Y(含
*)
糸系系X
髟髦字頭髦M
*各類字典的約定。
**知音碼方案的約定
***《新華字典》和《現(xiàn)代漢語詞典》的約定
權(quán)利要求
1、一種用字元讀音的首字母作為編碼的碼元、標(biāo)準(zhǔn)碼長為四碼、并利用計算機鍵盤的26個字母鍵作為編碼基本單位輸入鍵的漢字編碼技術(shù),其特征是根據(jù)①漢字總量的有限性和編碼資源豐富性特點,②漢字天然基本部件的多樣性和不確定性的特點,以及③這些基本部件的規(guī)范或約定俗成的讀音本身所具有的區(qū)分和分類的特性,并以公眾在漢字認(rèn)知過程中逐步習(xí)得的字音和字形結(jié)構(gòu)知識為基礎(chǔ),合理利用26個字母形成的編碼資源,接受對部件切分和拆分的的多樣性,減少編碼操作的規(guī)定性。
2、根據(jù)權(quán)利要求1所述的編碼技術(shù),其特征是一字多碼和動態(tài)取碼。
3、根據(jù)權(quán)利要求1所述的編碼技術(shù),其特征是字元是編碼的基本單位,它包括整字字元,成字字元(可讀字或變形的可讀字),部首字元(符合規(guī)范的偏旁和部首)和筆劃字元(點、橫、豎、撇、捺、提、鉤、折、彎)。
4、根據(jù)權(quán)利要求1所述的編碼技術(shù),其特征是用指定的字母作為離散的或切分出的、既不屬于偏旁部首、又沒有約定俗成讀音的筆劃組合的碼元。
5、根據(jù)權(quán)利要求1所述的編碼技術(shù),其特征是用指定的字母作為讀音首字母是撮口呼元音ü的字元的碼元。
6、根據(jù)權(quán)利要求1所述的編碼技術(shù),其特征是字母Z,C,S分別表示ZH,CH,SH。
7、根據(jù)權(quán)利要1,2,3,4,5和6所述的編碼技術(shù),其特征是實行動態(tài)鍵盤。
全文摘要
本發(fā)明涉及碼長為四碼、字元讀音首字母作為碼元的漢字編碼技術(shù),其特征在于:根據(jù)漢字總量的有限性和編碼資源豐富性,天然部件的多樣性和不確定性以及這些部件規(guī)范的或約定俗成的讀音自身所具有的區(qū)分和分類特性,合理利用26個字母所形成的編碼資源,承認(rèn)并接受對部件切分和拆分的多樣性,減少編碼操作的規(guī)定性,并通過以“一字多碼,動態(tài)取碼”為核心的綜合措施,使計算機漢字編碼真正達(dá)到重碼少,“易學(xué)、易記、易用”的目的。
文檔編號G06F3/023GK1182232SQ9511602
公開日1998年5月20日 申請日期1995年10月7日 優(yōu)先權(quán)日1995年10月7日
發(fā)明者孫鴻仁 申請人:孫鴻仁