專利名稱:演生關(guān)聯(lián)漢字編碼方法
技術(shù)領(lǐng)域:
本發(fā)明是一種漢字編碼方法。
漢字編碼方法很多,有音碼、形碼、音形碼和序號(hào)碼四大類,好幾百種。各有其優(yōu)缺點(diǎn)。有的編碼易學(xué)易記,但輸入速度慢,多為非專職錄入人員所采用;有的編碼輸入速度快,但不易掌握,多為專職錄入人員所采用。目前還沒有一種既容易掌握、輸入速度又快,為廣大非專職錄入人員和專職錄入人員所通用的漢字編碼方法。
本發(fā)明的目地是提供一種易學(xué)易記,輸入速度快,為廣大非專職錄入人員和專職錄入人員所通用的漢字編碼方法。
一、字根歸類與字根代碼
本發(fā)明選擇了398個(gè)字根,作為簡體漢字編碼的字根總集。引入字根結(jié)構(gòu)符概念,根據(jù)字根的音、形、意特征,本著易學(xué)易記、重碼率低的原則,將所選字根歸納為演生字根和關(guān)聯(lián)字根兩大類。以26個(gè)英文字母為字根代碼,在字根與字根代碼之間建立了對應(yīng)關(guān)系。
1.字根結(jié)構(gòu)符與演生根
將字根結(jié)構(gòu)歸納為32種類型,給每種類型設(shè)定了一個(gè)特定符號(hào),稱之為字根結(jié)構(gòu)符,簡稱結(jié)構(gòu)符。在32個(gè)結(jié)構(gòu)符與23個(gè)字根代碼之間建立了對應(yīng)關(guān)系,如表1所示。
表1字根結(jié)構(gòu)符與字根代碼之間的對應(yīng)關(guān)系
演生根是結(jié)構(gòu)符按一定規(guī)則演變而來的。結(jié)構(gòu)符的演變有多種方式。本發(fā)明將符合下述演變規(guī)則或其組合規(guī)則的字根稱為演生字根,簡稱演生根。
(1)旋轉(zhuǎn)結(jié)構(gòu)符以與其所在平面垂直的任一直線為軸線,進(jìn)行任意角度的整體轉(zhuǎn)動(dòng)。如
。逆時(shí)針旋轉(zhuǎn)90°變?yōu)?
,旋轉(zhuǎn)180°變?yōu)?
(2)翻轉(zhuǎn)結(jié)構(gòu)符以其所在平面上的任一直線為軸線,旋轉(zhuǎn)180°。如
翻轉(zhuǎn)后可變?yōu)?
等。
(3)變形構(gòu)成結(jié)構(gòu)符的某一筆段或若干筆段在長度、粗細(xì)、角度、彎曲度等方面發(fā)生變化,但筆段之間的相互關(guān)系不變。筆段之間的相互關(guān)系有離散、連接、交叉、端接和轉(zhuǎn)折五種。如
的兩筆段為離散關(guān)系,丆的兩筆段為連接關(guān)系,ㄨ的兩筆段為交叉關(guān)系,廠的兩筆段為端接關(guān)系,
的兩筆段為轉(zhuǎn)折關(guān)系。本發(fā)明將端接關(guān)系與轉(zhuǎn)折關(guān)系同等對待,即認(rèn)為端接筆畫屬于同一整體,不進(jìn)行分解。
(4)倍增一個(gè)字根由某一結(jié)構(gòu)符的多個(gè)演生符交叉或疊套而成,并且這個(gè)字根的所有筆畫能被所含的演生符全部覆蓋,則稱這個(gè)字根為該結(jié)構(gòu)符的倍增根。演生符指結(jié)構(gòu)符按前述三條規(guī)則或其組合規(guī)則演變而成的各種可能的幾何圖形,字根總集中不一定存在。判斷倍增根時(shí),筆畫允許共用,但不允許截?cái)唷H?
是
的倍增根。
(5)同形增筆給一個(gè)字根增加若干筆畫后,不影響其外圍的幾何形狀。這種演變方式稱為同形增筆。如申是中的同形增筆字根。
(6)鉤筆延伸一個(gè)字根與某一最為相似的結(jié)構(gòu)符或其演生符相比,多了一個(gè)鉤筆段。這種演變方式稱為鉤筆延伸,這一字根稱為該結(jié)構(gòu)符或演生符的鉤筆延伸根,歸屬于相應(yīng)的結(jié)構(gòu)符,如
是的鉤筆延伸根。
(7)平筆相交一個(gè)平筆或多個(gè)平筆(折筆以外的單筆畫統(tǒng)稱為平筆)與結(jié)構(gòu)符或其演生符相交構(gòu)成字根。這種演變方式稱為平筆相交,這一字根稱為該結(jié)構(gòu)符或其演生符的平筆相交根,如
是中的平筆相交根。
一個(gè)字根可歸于多個(gè)不同的結(jié)構(gòu)符時(shí),原則上應(yīng)歸于最為相似的結(jié)構(gòu)符。如目可歸于日,也可歸于口,但目與日更為相似,因此目歸于日。
演生字根與結(jié)構(gòu)符及字根代碼之間的對應(yīng)關(guān)系如表2所示。
表2演生根與字根結(jié)構(gòu)符及字根代碼之間的對應(yīng)關(guān)系
續(xù)表2演生根與字根結(jié)構(gòu)符及字根代碼之間的對應(yīng)關(guān)系
2.關(guān)聯(lián)根與字根代碼、結(jié)構(gòu)符及演生根有關(guān)聯(lián)的字根統(tǒng)稱為關(guān)聯(lián)根。實(shí)際上,字根總集中除演生根以外的所有字根都為關(guān)聯(lián)根,即都能找到關(guān)聯(lián)對象。關(guān)聯(lián)方式有音關(guān)聯(lián)、形關(guān)聯(lián)和意關(guān)聯(lián)三種。關(guān)聯(lián)根與字根代碼的對應(yīng)關(guān)系如表3所示。
表3關(guān)聯(lián)根與字根代碼之間的對應(yīng)關(guān)系
二、單字分解
1.字根關(guān)系
字根之間有拼并和交叉兩種關(guān)系。
(1)拼并關(guān)系兩字根的所有筆畫之間或者為離散關(guān)系,或者為連接關(guān)系。如走字的土
兩字根為拼并關(guān)系。拼并關(guān)系進(jìn)一步分為正并關(guān)系和非正并關(guān)系兩種,正并關(guān)系指上下并列關(guān)系和左右并列關(guān)系。如萬字的一、
兩字根為正并關(guān)系,可字的丁、口兩字根為非正并關(guān)系。
(2)交叉關(guān)系兩字根的所有筆畫或若干筆畫之間互相交叉。如來字的
木兩字根為交叉關(guān)系。
2.單字分解方案的選擇
依據(jù)如下四條原則選擇單字分解方案。
(1)根數(shù)原則在各種可能的分解方案中,選擇字根數(shù)最少的方案。計(jì)算字根數(shù)時(shí)字根右上角的孤點(diǎn)不計(jì),即省去右上角的孤點(diǎn)。
(2)順序原則在根據(jù)根數(shù)原則選出的多種方案中,優(yōu)先選擇符合書寫筆序規(guī)范的方案。
(3)關(guān)系原則在根據(jù)上述兩原則選出的多種方案中,優(yōu)先選擇字根之間具有拼并關(guān)系的方案,在沒有拼并方案的情況下,選擇交叉方案。拼并方案中,優(yōu)先選擇正拼方案。
(4)和并原則在根據(jù)上述三原則選出的多種方案中,如果存在某一字根與多個(gè)其它字根合并的可能,那么,應(yīng)選擇與相鄰前根合并的方案。
根據(jù)上述原則選擇單字分解方案時(shí),如果方案唯一,則此方案便為該字的最終分解方案。
所有漢字按這四條原則選擇之后,都可得到唯一的分解方案。
這四條分解原則從表面上看比較繁鎖,但實(shí)際上很明確。它徹底解決了漢字分解時(shí)通常遇到的模棱兩可的問題。
三、單字編碼
1.字根字字根總集中的字稱為字根字。兩位碼,首碼取字根代碼,尾碼取聲碼。字根字重碼時(shí),對于使用頻率較低的字多取一位或兩位聲碼。
2.非字根字最大碼長為4,尾碼取聲碼,前幾位取形碼。由兩個(gè)字根組成的字,第一、第二碼分別取兩字根的代碼。由兩個(gè)以上字根組成的字,第一、第二碼分別取前兩個(gè)字根的代碼,第三碼取最末字根的代碼。字根右上角的孤點(diǎn)不參與編碼。
聲碼取碼設(shè)兩種方案。第一方案是按通用雙拼雙音編碼法取單字的聲母代碼。該方案適合發(fā)聲準(zhǔn)確的人采用。第二方案是取漢語拼音的第一個(gè)字母,N、L發(fā)聲容易混淆,取N取L均可,該方案適合發(fā)聲不準(zhǔn)的人采用。
四、詞組編碼
1.雙字詞四位碼,按順序每個(gè)字取其首尾兩位形碼,形碼不足時(shí)用聲碼代替。
2.三字詞四位碼,前三位按順序取每個(gè)字的首碼,第四位取第三字的末尾形碼,形碼不足時(shí)用聲碼代替。
3.三字以上詞四位碼,前三位按順序取前三個(gè)字的首碼,第四位取末尾字的首碼。
本發(fā)明字根分類方法新穎、科學(xué),容易記憶,成功地解決了字根記憶難的問題。在398個(gè)字根中,演生根就有299個(gè)。只要理解了字根的演生規(guī)則,所有演生根便可一次性永久記憶。關(guān)聯(lián)根共有99個(gè),與字根代碼、字根結(jié)構(gòu)符及演生根通過音、形、意特征緊密關(guān)聯(lián),記憶起來也很容易。
單字分解原則明確,分解結(jié)果是唯一的。徹底解決了單字分解時(shí)通常遇到的模棱兩可的問題。
聲碼取碼設(shè)兩種方案,使用者可根據(jù)自己的漢字發(fā)聲情況選擇。
碼元少,可盲打。重碼率低,輸入速度快。對于國標(biāo)一、二兩級(jí)漢字,按第一方案取聲碼,靜態(tài)重碼率低于4%,按第二方案取聲碼,靜態(tài)重碼率低于5%。比其它形聲碼都低。
對個(gè)別字根加以調(diào)整,可用于繁體字編碼。
本發(fā)明除了主要用于電腦漢字輸入之外,還可用于編制漢語字、詞典索引。
權(quán)利要求
1.一種漢字編碼方法。其特征在于將字根歸納為演生根和關(guān)聯(lián)根兩大類。以26個(gè)英文字母為字根代碼,引入字根結(jié)構(gòu)符概念,根據(jù)字根的音、形、意特征,在字根與字根代碼之間建立了對應(yīng)關(guān)系。以單字分解為基礎(chǔ),對漢語字詞進(jìn)行最大碼長為4的形聲編碼。
2.根據(jù)權(quán)利要求1所述的漢字編碼方法,其特征在于演生根是字根結(jié)構(gòu)符按旋轉(zhuǎn)、翻轉(zhuǎn)、變形、倍增、同形增筆、鉤筆延伸和平筆相交七種方式及其組合方式演變而來的。
3.根據(jù)權(quán)利要求1所述的漢字編碼方法,其特征在于從字根數(shù)量、書寫筆序、字根關(guān)系及字根合并四個(gè)方面依次選擇漢字分解方案。所有漢字的分解方案都是唯一的。
全文摘要
一種漢字編碼方法。引入字根結(jié)構(gòu)符概念,根據(jù)字根的音、形、意特征,將字根歸納為演生根和關(guān)聯(lián)根兩大類。以26個(gè)英文字母為字根代碼,在字根與字根代碼之間建立了對應(yīng)關(guān)系。從字根數(shù)量、書寫筆序、字根關(guān)系及字根合并四方面依次選擇漢字分解方案。對漢語字詞進(jìn)行最大碼長為4的形聲編碼。本發(fā)明字根歸類科學(xué),單字分解嚴(yán)密,易學(xué)易記;碼元少,重碼率低,輸入速度快。便于在廣大非專職及專取錄入人員中普及推廣。
文檔編號(hào)G06F3/023GK1208887SQ9811583
公開日1999年2月24日 申請日期1998年7月15日 優(yōu)先權(quán)日1997年8月12日
發(fā)明者雷應(yīng)海, 孫勇 申請人:雷應(yīng)海, 孫勇