專利名稱:漢字要素組合碼的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)輸入漢字的編碼方法。
利用普通英文鍵盤輸入漢字仍是當(dāng)前人們進(jìn)行計(jì)算機(jī)漢字輸入的主要手段,計(jì)算機(jī)漢字輸入的難點(diǎn)在漢字編碼。目前,我國已有的各種漢字編碼方案達(dá)千余種,概括地分為音碼、形碼、音形碼。就目前的現(xiàn)狀而言,人們易于掌握音碼,但現(xiàn)有音碼存在著重碼多,輸入效率低的問題。
本發(fā)明的目的就是為了克服現(xiàn)有音碼所存在的主要缺陷,提出一種新的完全由音碼組成、重碼率低、輸入效率高的計(jì)算機(jī)輸入漢字的編碼方法。
漢字的讀音、筆劃、部首是每一個漢字都具有的三個基本要素。本發(fā)明對漢字部首的讀音、筆劃的讀音做出了規(guī)定。
各種讀音通常具有全拼拼音和聲韻雙拼兩種形式的代碼。
1、全拼拼音代碼當(dāng)采用全拼拼音代碼時,漢語拼音的韻母ü的英文代碼字母為v,其余漢語拼音的聲母、韻母字母與相應(yīng)的英文代碼字母完全相同。
2、聲韻雙拼代碼(1)聲母代碼當(dāng)采用聲韻雙拼代碼時,漢語拼音的單字符聲母與它的英文代碼字母完全相同,漢語拼音聲母zh的英文代碼字母為v,聲母ch的英文代碼字母為u,聲母sh的英文代碼字母為i。
漢語拼音中的a音節(jié)、o音節(jié)、e音節(jié),僅有韻母,沒有聲母,可以認(rèn)為它們的聲母為“零聲母”,“零聲母”的英文代碼字母為“o”。
按照《漢語拼音方案》的有關(guān)規(guī)定,i行韻母和ü行韻母,當(dāng)其前面沒有聲母的時候,其第一個字母都寫成y;u行韻母,當(dāng)其前面沒有聲母的時候,其第一個字都寫成w,因此,y和w可以分別看作是它們聲母。y和w與它們的英文代碼字母相同。
(2)韻母代碼在聲韻雙拼方案中,各個韻母也分別用一個英文字母代碼表示。
按照上述規(guī)則,制定出“漢語拼音聲母韻母代碼表”。見附表1。
漢字的部首有成字部首和非成字部首之分,成字部首具有法定的讀音,非成字部首沒有法定的讀音,本發(fā)明規(guī)定了所有部首的讀音,為了減少重碼,本發(fā)明對個別成字部首的讀音作了適當(dāng)?shù)恼{(diào)整。本發(fā)明按照對部首讀音的規(guī)定和讀音代碼的規(guī)定,制定了“部首代碼表”,見附表2。由于部首讀音的漢語拼音字符和部首代碼表中的部首的全拼代碼字符完全相同,因此,部首代碼表中各個部首全拼代碼的漢語拼音讀音,就是該部首的讀音。
對于漢字的部首,其除具有一般的含義外,本發(fā)明還對漢字的部首作了另外一些規(guī)定。漢字有單筆劃漢字和非單筆劃漢字之分,任何非單筆劃漢字都應(yīng)看作是由兩個或兩個以上的部分組成的,每一部分都稱為漢字的部件。我們把漢字中與部首相同的部件稱為部首部件,與部首不相同的部件稱為非部首部件。由于漢字的基本筆劃能夠作為部首用,因此,漢字的任何非部首部件都可繼續(xù)拆分為部首部件,或者說,任何漢字都可最終看作是由部首部件組合而成的。
我們還把按照書寫筆順,漢字的首筆劃與相鄰筆劃所組成的筆劃最多的部首部件稱為漢字的第一部首;把除去第一部首后,按照上述方法,第二次對漢字所取的部首稱為漢字的第二部首;依次還可以對漢字取第三、第四部首等;并且把漢字末筆劃與相鄰筆劃所組成的筆劃最多的部首部件,稱為末筆劃所在的部首部件。例如“輸”的第一、第二、第三、第四部首分別為“車”、“人”、“一”、“月”,末筆劃所在的部首為“刂”。
本發(fā)明還規(guī)定了漢字基本筆畫的讀音,具體規(guī)定如下一heng,丨shu,丿pie,、dian,nai,乙(包括勾亅)zhe, ti。
本發(fā)明的具體內(nèi)容是,將漢字的讀音代碼、漢字具有的各個部首的讀音代碼、及漢字基本筆劃的讀音代碼,通過不同形式的適當(dāng)組合,能夠產(chǎn)生出多種形式實(shí)用的漢字編碼。
一、漢字的讀音代碼與筆劃讀音代碼的組合其常用的編碼形式是;漢字聲韻+首筆劃聲+末筆劃聲它可以有全拼和聲韻雙拼兩種形式的代碼,主要分別用于對GB字庫的漢字進(jìn)行編碼。當(dāng)采用此種形式對GB字庫的漢字進(jìn)行編碼時,全部漢字的重碼個數(shù)都不大于10。以全拼輸入形式為例,它雖需要比現(xiàn)有的全拼輸入法多輸入兩個字符,但是,由于重碼漢字個數(shù)有顯著地減少,其總體輸入效率仍然有明顯的提高。
在全拼形式的代碼中,當(dāng)首、末筆劃為折、豎時,首、末筆劃讀音代碼可以只取其聲母讀音的第1個字符,折筆劃讀音的聲母代碼取Z,豎筆劃讀音的代碼取S。
編碼舉例漢 字 漢 字 輸 入全拼代碼 handn zidh shuhz rupn聲韻雙拼代碼 hfdn zidh iuhv rupn二、漢字具有的各個部首讀音代碼的組合及其對筆劃讀音代碼的組合其編碼形式主要有以下幾種,可以分別對不同字庫的漢字進(jìn)行編碼。
1、第一部首聲+第二部首聲+第三部首聲+第四部首聲;2、第一部首聲+第二部首聲+第三部首聲+除去第一、第二、第三部首后末筆劃所在的部首聲;3、第一部首聲+第二部首聲+第三部首聲+除去第一、第二、第三部首后的首筆劃聲;4、第一部首聲+第二部首聲+第三部首聲+除去第一、第二、第三部首后的末筆劃聲;5、第一部首聲+第二部首聲+第三部首聲+第四部首聲+除去第一、第二、第三、第四部首后末筆劃所在的部首聲。
以上編碼僅具有聲韻雙拼形成的代碼。由于在其編碼結(jié)構(gòu)中并不含有漢字的讀音代碼,因此,它能夠輸入并不認(rèn)識的漢字,尤適合于對GBK字庫的漢字進(jìn)行編碼。
在具體應(yīng)用中,每一個漢字輸入編碼的實(shí)際輸入字符個數(shù),取決于該漢字實(shí)際所具有的部首個數(shù)。對于單筆劃漢字,可以只輸入第一部首聲;對于只具有第一部首、第二部首的漢字,可以只輸入第一部首聲+第二部首聲;對于只具有第一、第二、第三部首的漢字,可以只輸入第一部首聲+第二部首聲+第三部首聲。依此類推。
編碼舉例漢 字 輸 入 一 箱第1種代碼 urhy pn h vmm第2種代碼 urhd pn h vmm第3種代碼 urbp pn h vmm第4種代碼 urbv pn h vmm第5種代碼 urbydpn h vmm以上形式也可對非成字部首編碼。如“亠”的代碼為dh。
三、漢字讀音代碼及漢字部首讀音代碼的組合其編碼形式主要有以下幾種,可以分別對不同字庫的漢字進(jìn)行編碼。
1、漢字聲韻+部首聲;2、漢字聲韻+部首聲韻;3、漢字聲韻+第一部首聲+第二部首聲;以上編碼僅具有聲韻雙拼形式的代碼。當(dāng)我們采用“漢字聲韻+部首聲”對GB字庫的漢字進(jìn)行編碼時,通過適當(dāng)?shù)卦O(shè)置一、二級簡碼,可使所有漢字的重碼數(shù)都不大于10。第一、第二種編碼形式中的“部首”,既可統(tǒng)一采用通常新華字典所確定的漢字的部首(但是,部首字本身不能做自己的部首,需采用第一部首作為自身的部首。例如“言”的部首為“亠”),也可統(tǒng)一采用漢字的第一部首。對同一字庫進(jìn)行編碼時,二者只能任擇其一。
四、漢字讀音代碼、部首讀音代碼及筆畫讀音代碼的組合1、漢字聲韻+部首聲+除去部首后的首筆劃聲;2、漢字聲韻+部首聲+除去部首后的末筆劃聲;以上編碼僅具有聲韻雙拼形式的代碼,可以分別對不同字庫的漢字進(jìn)行編碼。編碼中的部首,既可統(tǒng)一采用通常新華字典所確定的漢字的部首(但是,部首字本身不能作為自己的部首,而應(yīng)采用其第一部首作為自身的部首),也可統(tǒng)一采用漢字的第一部首。對于同一字庫進(jìn)行編碼時,二者只能任擇其一。
五、漢字要素組合碼與詞組編碼的混合編排,可以形成一種完善的漢字輸入方法1、用“漢字聲韻+第一部首聲”對GB字庫的漢字進(jìn)行編碼,可以快速輸入人們已經(jīng)認(rèn)識的漢字。
2、用“漢字聲韻+漢字聲韻”對雙字詞組進(jìn)行編碼,可以快速輸入雙字詞組。
3、對于三個字以上的詞組,用“區(qū)別碼(例如E)+第1漢字聲+第2漢字聲+第3漢字聲+第4漢字聲+第5漢字聲+第6漢字聲+6字以上(不包括6個字)詞組最末一個漢字的聲”進(jìn)行編碼,可以快速輸入3字以上的詞組。(詞組中不包括的漢字不編碼)。
4、用“區(qū)別碼(例如A)+第一部首聲+第二部首聲+第三部首聲+除去第一、第二、第三部首后末筆劃所在部首聲”對GBK字庫的漢字進(jìn)行編碼,可以快速輸入人們并不認(rèn)識的漢字。
以上各種形式的編碼,均只采用聲韻雙拼形式的代碼。
由于在“漢語拼音聲韻雙拼代碼表”中,“E”和“A ”都不能作為聲母代碼使用,在“漢字要素組合碼”的各種形式的編碼中,其第一個字符都為聲母代碼,因此,當(dāng)“E”和“A”處于編碼的第一字符位置時,可以作為“區(qū)別碼”使用。
在以上四種形式的編碼中,或者是由于輸入字符的個數(shù)存在著區(qū)別,或者是由于第一字符有區(qū)別碼的存在,因而,可以對四種形式的編碼實(shí)行混合編排而不至于發(fā)生混淆。在實(shí)際應(yīng)用過程中,可以根據(jù)需要,直接輸入相應(yīng)的形式的單個漢字編碼或詞組編碼,而無須通過功能鍵進(jìn)行轉(zhuǎn)換。
應(yīng)用舉例語 句 代碼 編碼形式張 vgg 漢字聲韻+第一部首聲懿 atmdxA+第一部首聲+第二部首聲+第三部首聲+除去第一、第二、第三部首后末筆劃所在部首聲保持bdui 漢字聲韻+漢字聲韻積極性 ejjx E+第一漢字聲+第二漢字聲+第三漢字聲漢字要素組合碼是一種全部由音碼組成的漢字編碼,它具有簡單易學(xué),重碼率低,輸入效率高的特點(diǎn)。它可以同詞組輸入、容錯碼、頻度處理技術(shù)相結(jié)合,使之更加適用,它必將能進(jìn)一步有力地促進(jìn)計(jì)算機(jī)應(yīng)用的普及工作。
權(quán)利要求
1.一種全部由音碼組成的計(jì)算機(jī)漢字編碼方法,其特征在于將漢字的讀音代碼、漢字具有的各個部首的讀音代碼、及漢字基本筆劃的讀音代碼,通過不同形式的適當(dāng)組合,能夠產(chǎn)生出多種形式實(shí)用的漢字編碼;其單個漢字的編碼形式主要有以下幾種(1)漢字聲韻+首筆劃聲+末筆劃聲;(2)第一部首聲+第二部首聲+第三部首聲+第四部首聲;(3)第一部首聲+第二部首聲+第三部首聲+除去第一、第二、第三部首后末筆劃所在的部首聲;(4)第一部首聲+第二部首聲+第三部首聲+除去第一、第二、第三部首后的末筆劃聲;(5)第一部首聲+第二部首聲+第三部首聲+第四部首聲+除去第一、第二、第三、第四部首后末筆劃所在的部首聲;(6)第一部首聲+第二部首聲+第三部首聲+除去第一、第二、第三部首后的首筆劃聲;(7)漢字聲韻+部首聲;(8)漢字聲韻+部首聲韻;(9)漢字聲韻+第一部首聲+第二部首聲;(10)漢字聲韻+部首聲+除去部首后的首筆劃聲;(11)漢字聲韻+部首聲+除去部首后的末筆劃聲;可以分別對不同字庫的漢字進(jìn)行編碼。
2.根據(jù)權(quán)利要求1所述的漢字要素組合碼的編碼方法,其特征在于漢字除具有通常意義的部首外,還可以具有第一部首、第二部首、第三部首、第三部首、第四部首、以及末筆劃所在的部首。
全文摘要
漢字的讀音、筆劃、部首是漢字組成的基本要素。本發(fā)明規(guī)定了漢字部首的讀音和漢字基本筆劃的讀音。本發(fā)明還定義了漢字的第一部首、第二部首、第三部首、以及漢字末筆劃所在的部首。本發(fā)明認(rèn)為,將漢字的讀音代碼、漢字具有的各個部首的讀音代碼、漢字基本筆劃的讀音代碼,通過不同形式的適當(dāng)組合,能夠產(chǎn)生出多種形式適用的漢字編碼。它的兩種最常用的編碼形式是:1.漢字聲韻+第一部首聲;2.第一部首聲+第二部首聲+第三部首聲+除去第一、第二、第三部首后末筆劃所在的部首聲。這兩種形式的漢字編碼能夠同詞組編碼實(shí)現(xiàn)混合編排,可以交替輸入已認(rèn)識的漢字,或者是并不認(rèn)識的漢字、或者是詞組,并且無須通過功能鍵進(jìn)行轉(zhuǎn)換。
文檔編號G06F3/023GK1267849SQ00102109
公開日2000年9月27日 申請日期2000年2月3日 優(yōu)先權(quán)日2000年2月3日
發(fā)明者蔣世貴, 蔣林濤 申請人:蔣世貴, 蔣林濤