專利名稱:與西文兼容的中文呂氏編碼輸入系統(tǒng)的制作方法
與西文兼容的中文呂氏編碼輸入系統(tǒng),屬計(jì)算機(jī)信息處理領(lǐng)域,利用這一編碼輸入系統(tǒng),能夠高速地輸入全部中文信息,并于西文完全兼容。
中文的信息處理,尤其是漢字的輸入問題,一直是計(jì)算機(jī)信息處理領(lǐng)域的“瓶頸”,它嚴(yán)重地影響了計(jì)算機(jī)在使用漢語的國家和地區(qū)的應(yīng)用與普及,為較好的解決這一問題,人們進(jìn)行了廣泛的探索研究,據(jù)不完全統(tǒng)計(jì)目前已有近七百種漢字輸入方案,但尚沒有一種能夠達(dá)到令人比較滿意的程度,這些輸入方案,可規(guī)納為以下兩類,第一類根據(jù)漢字的“音”,“形”或者“音”,“形”結(jié)合將漢字進(jìn)行編碼,直接利用目前標(biāo)準(zhǔn)的小鍵盤用字母或數(shù)字輸入,這類輸入方式,不須專用鍵盤,造價(jià)低,但由于目前的編碼方案存在很多缺陷,未能得到普遍的接受,主要表現(xiàn)如下a.編碼輸入速度不高,b.編碼規(guī)則未有理論支持,不系統(tǒng),易學(xué)性差,c.對操作者的單項(xiàng)水平要求過高,d.漢字,詞,語不能兼容或不能很好兼容,不能與西文兼容,e.代碼長短不一,難于規(guī)范,第二類漢字非編碼輸入,它包括漢字的整字輸入方法和將漢字分解成字根的直接輸入方法,分別采用大鍵盤和中鍵盤輸入方式,造價(jià)高,且整字輸入方法,盤面字容量一般較小,輸入速度較低;由于漢字極為復(fù)雜,采取字根輸入法時(shí),要求使用者具有很高的字根分解水平,難于熟練掌握應(yīng)用,這類輸入方法與西文的兼容尤為困難。
本發(fā)明的目的尋求一種比較理想的中文輸入方法,基本克服目前漢字輸入方法的各種缺陷,提供一個(gè)具有理論支持,系統(tǒng)規(guī)范,易于學(xué)習(xí)掌握,高效的中文輸入系統(tǒng),在這一系統(tǒng)里,漢文字,詞,語兼容;中西文兼容;并采取造價(jià)低的標(biāo)準(zhǔn)小鍵盤輸入方式,較好地解決漢字輸入的問題用事實(shí)證明具有悠久歷史的漢文字,是一種完全適應(yīng)現(xiàn)代信息社會,便于計(jì)算機(jī)處理的,最豐富,最簡潔的文字。
本發(fā)明的內(nèi)容為一.研究漢字的基本特征,獲得下述認(rèn)識1.漢文字是一種由象形文字發(fā)展的具有二維結(jié)構(gòu)的形意文字,表觀上相當(dāng)部分的簡單字(如大,單,有等),在縱向上具有對稱性或準(zhǔn)對稱性。
2.一個(gè)漢字是一組筆形的有機(jī)組合,筆形間只可能有兩種關(guān)系,即筆形間相互交叉或連接與不相連接,本發(fā)明稱一組相互交叉或連接的筆形為連組。
3.構(gòu)成漢字的有些筆形或筆形組合(簡記為筆形)極為常用,這些筆形相當(dāng)簡單(如、,一,丿等),一般附在其它筆形之上很難獨(dú)立,本發(fā)明稱這類筆形為附體。
4.可根據(jù)漢字的字形特征,提取一些特征符,并根據(jù)漢字所包含的特征符對漢字分體,分類。
5.漢字在現(xiàn)代拼音首字母的分布上極為不均,相當(dāng)數(shù)量的漢字讀音可以根據(jù)構(gòu)成漢字的表音部分得出相近讀音。
二.漢字的分體,分類方法基于上述(內(nèi)容一)對漢字的認(rèn)識,根據(jù)漢字的字形特征,將漢字分為七種體,分別為獨(dú)體,縱體,壘體,并體,靠體,庇體,圍體,二十個(gè)類,分別為1,2,3,4,5,6,7,8,9,a,b,c,d,e,f,g,h,i,j,k,漢字的字形特征圖如
圖1。
對圖1,字形特征圖的說明“
”指必要部分,“
”指非必要部分,“廠”,“囗”是字形特征符,1.為準(zhǔn)確地對漢字分體,分類,進(jìn)一步對連組及附體研究如下漢字由連組及附體構(gòu)成,連組即一組相連的筆形,下列筆形亦認(rèn)為是一個(gè)連組
,,附體指一些常用于構(gòu)成漢字的簡單筆形,附體一般附在字的上部,常用附體歸集如下丶(丷,,
),一(亠,
),丿(爫),人(八,,
,入,丆),乂(十,又),,,在上述附體中,除“丶,丷,;
,一,人,八”外,處于非附體下時(shí)認(rèn)為是連組,如“古”字的“十”為附體,“早”字的“十”為連組,非重復(fù)附體迭加后仍為附體,如“合”字可認(rèn)為由一個(gè)附體和一個(gè)連組組成,其附體為“人”,“一”的迭加,兩個(gè)相同的附體的迭加認(rèn)為是一個(gè)連組,如“爻”認(rèn)為是一個(gè)連組,在考察漢字的各筆形關(guān)系時(shí),若不能確定筆形間有相互連接關(guān)系,即認(rèn)為不相連接,2.漢字的體,結(jié)合圖一,詳述如下獨(dú)體字漢字中最多含有一個(gè)連組,對應(yīng)字形特征圖(1),即圖1,1或難于歸入下述各體的字,如“大,內(nèi),分,鳥”等,縱體字漢字呈縱向串列,且在任一層面上最多只能含有一個(gè)連組,對應(yīng)圖1,2,如“各,草,帛”等,壘體字漢字呈縱向串列,且在至少一個(gè)層面上有兩個(gè)以上連組,對應(yīng)圖1,3及圖1,4,如“磊,菠,孬,梁,哭”等,并體字漢字呈橫向并列,由兩部分組成,且任一部分不為壘體字碼或下面所說的總體圍護(hù)及總體圍護(hù)及總體庇護(hù)字碼,對應(yīng)圖1,5,如“特,地,到,部,加,他,報(bào)”等,靠體字漢字呈橫向并列,由兩部分或者兩個(gè)以上部分組成,當(dāng)由兩部分組成時(shí),其中一部分為壘體字碼,對應(yīng)圖1,6及圖1,7,如“測,操,糊,礁,陛,準(zhǔn),珩”等,庇體字漢字含有庇體特征符(特征符見下文)且符合下面所說的漢字分體時(shí)量的規(guī)則,對應(yīng)圖1,8及圖1,9,如“庇,這,玻,蔑,”等,
圍體字漢字含有圍體特征符(特征符見下文),且符合下面所說的漢字分體時(shí)量的規(guī)則,對應(yīng)圖1,10及圖1,11,如“容,國,風(fēng),同,間簡,洞,闕”等,
漢字分體時(shí)量的規(guī)則當(dāng)漢字含有庇體或圍體特征符時(shí),若特征符所庇護(hù)或圍護(hù)的部分約占一半以上,則該漢字為庇體字或圍體字,如“析,俯,摑,恫”等,若漢字的所有部分都在庇體或圍體特征符之庇護(hù)或圍護(hù)中,則稱該字為總體庇護(hù)或總體圍護(hù),如“慶,同,這,遮”等,而“蔗,讜”不為總體庇護(hù)或總體圍護(hù),若漢字在分體時(shí),依上述規(guī)定可劃歸多種體,依下述順序優(yōu)先;庇體圍體,壘體,獨(dú)體,3.漢字的分類,漢字在上述所說的體上分布很不均勻,要更準(zhǔn)確地把握漢字的字形特征,需進(jìn)一步對漢字分類,為了漢字的分類將一些常用部首及偏旁(簡記為BP)歸集如下
,漢字的分類,結(jié)合字形特征圖及漢字的體規(guī)定如下表
注1.在字形分類表中,字中含有某一BP,對縱體字,壘體字是指該BP單獨(dú)占據(jù)字的最高或最低層面;對并體是指該BP單獨(dú)占據(jù)字的左或右部分,2.在字形分類表中,當(dāng)含有兩個(gè)對應(yīng)BP時(shí),對并體字以右部的BP為準(zhǔn)分類,三.漢字編碼方法由于用單一信息難于準(zhǔn)確地表示出漢字的全部特征,本發(fā)明的漢字編碼方法為,漢字代碼含有四位碼元,包含字的四種特征信息,四位碼元分別為字音碼元,字類碼元,字首碼元,字尾碼元,1.漢字讀音碼元的取法因漢字在讀音首字母的分布上極為不均(內(nèi)容1.5),規(guī)定讀音碼元取法如下讀音碼元由下列字符組成a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r,s,t,u,v,w,x,y,z。
當(dāng)漢字的現(xiàn)代漢語拼音的首字母不為c,j,l,s,y,z時(shí),該字的拼音首字母即為其讀音碼元;否則,其讀音碼元的取法如下表。
表2.漢字讀音碼元取法表
注1.順序比較結(jié)果指漢字拼音的前若干個(gè)字母與比較字符串依(相應(yīng)英文字母的排列)順序進(jìn)行比較的結(jié)果,2.可以用對應(yīng)字母的大寫字母,2.字類碼元的取法字類碼元由下列字符組成1,2,3,4,5,67,8,9,a,b,c,d,e,f,g,h,i,j,k,漢字的分類號即是該漢字的字類碼元,當(dāng)分類號為字母時(shí),可以用對應(yīng)的大寫字母,3.字首碼元及字尾碼元的取法這兩個(gè)碼元由下列字符組成0,12,3,4,5,6,7,8,9,其取法類似新四角號碼查字法中的取角碼方法因相當(dāng)部分的漢字存在對稱性(內(nèi)容1.1),而字首碼元及字尾碼元根據(jù)漢字的字首及字尾的筆形提取,它基本包含了漢字的筆形特征,這兩個(gè)碼元的取法如下表表3.字首碼元及字尾碼元取法表
注應(yīng)盡量使取碼的筆形多包含些筆畫,一個(gè)筆畫可以分開取碼。
字首筆形的取法除以BP1為字首的縱體字或壘體字外,字的左上角筆形即為字首筆形;當(dāng)字為以BP1為字首的縱體字或壘體字時(shí),去除BP1后的字的左上角筆形即為字首筆形。
字尾筆形的取法對獨(dú)體字,并體字,靠體字,非總體庇護(hù)的庇體字非總體圍護(hù)的圍體字和不以BP1為字尾的縱體字及壘體字,字的右下角筆形即為該字的字尾筆形;對以BP1為字尾的縱體字及壘體字(當(dāng)為縱體字時(shí),不以BP1為字首),去除BP1后的字的右下角筆形即為字尾筆形;對為總體庇護(hù)的庇體字,當(dāng)為“廠”式的特征符時(shí),字的右下角筆形即為該字的字尾筆形,當(dāng)為“辶,
,,弋”式的特征符時(shí),取庇護(hù)字碼的右下角筆形為字尾筆形;對為總體圍護(hù)的圍體字,當(dāng)為
式的特征符時(shí),字的右下角筆形即為字尾筆形,當(dāng)為“囗,冂”式的特征符時(shí),取圍護(hù)字碼的右下角筆形為字尾筆形。
漢字的編碼,即是按上述取碼方法,依次寫出該字的各個(gè)碼元,當(dāng)碼元為字母時(shí),采用小寫字母,即為該字的代碼,如“票,好,硼,達(dá),崗田,愁”的代碼分別為“P319,ha44,Pd12,df38,gi22,ti64,i528”,四,中文詞,語的編碼輸入方法當(dāng)詞,語長度不足四字時(shí),用小寫字母的形式,詞,語為二字時(shí),依次寫出第一字的字音碼元,字類碼元,第二字的字音碼元,字類碼元;詞語為三字時(shí),依次寫出,第一字的字音碼元及字類碼元,第二,三字的字音碼元;當(dāng)詞,語長度多于或等于四字時(shí),用大寫字母的形式,依次寫出構(gòu)成該詞,語的前四字的字音碼元,如“共產(chǎn)黨,中華人民共和國,漢語”的代碼分別為“glid,VHRM,h6y7”。
五.西文的輸入方法由于漢,字,詞的代碼規(guī)范,皆為四位;當(dāng)連續(xù)輸入一個(gè)長為四位不含有空格符的字符串時(shí),規(guī)定系統(tǒng)默認(rèn)為漢字,詞,語的代碼,否則系統(tǒng)默認(rèn)為直接輸入,據(jù)此,西文(包括數(shù)字及其它符號)采取分段直接輸入方式,如“Thespeed,v=s/v”可直接輸入為“Thespeed,v=s/v”
六.字的選擇方法由于本編碼方法重碼率很低,重碼數(shù)很小,為減少不必要的選字,規(guī)定選字方法如下當(dāng)連續(xù)輸入四位不含空格符的字符串后,系統(tǒng)默認(rèn)為此字符串是漢字詞,語(簡記為字)的代碼并將具有該代碼的首字送入指定位置,當(dāng)該代碼無對應(yīng)的字或該代碼還有其它字時(shí),系統(tǒng)可以發(fā)出呼叫,請求處理(如有必要時(shí));若所選字為首字,可直接輸入下一個(gè)字,若所選字不為首字,則通過鍵入一數(shù)字選字,系統(tǒng)將所選字送入指定位置,刪除系統(tǒng)自選的首字,若該代碼無對應(yīng)字或待選字里無所需字,則可進(jìn)入其它字庫查找。
在選字時(shí),鍵入空格符,系統(tǒng)默認(rèn)為選第二字。
七.字庫的分類及進(jìn)入漢字依使用頻度統(tǒng)計(jì),大致可劃分為高頻字約100個(gè),常用字約3000個(gè),次常用字約4000個(gè),罕見字約8000個(gè),已基本無使用價(jià)值的死字約45000個(gè);“GB2312-80圖形字符代碼表”給出的常用字為3755個(gè),次常用字為3008個(gè),因此可以認(rèn)為,常用字及次常用字約7000個(gè),本發(fā)明為了進(jìn)一步提高漢字的輸入效率,設(shè)兩級,兩類字庫;兩級字庫分別為一級字庫,二級字庫;兩類字庫分別為通用字庫(包括一級字庫,二級字庫),專用字庫。
1.字庫的建立一級字庫包括97%以上的常用字及次常用字,相當(dāng)部分的罕見字,和大量以這些字為首的詞,語;在一級字庫中,控制重碼數(shù)一般不超過三,以字的使用頻度編序,且若第三字不為“GB2312-80圖形字符代碼表”中的常用字時(shí),將該字歸入二級字庫,二級字庫主要由罕見字,尚有一定使用價(jià)值的所謂“死字”和以這些字為首的詞,語組成。一級字庫和二級字庫具有通用性,稱為通用字庫。
專用字庫主要由專業(yè)述語組成,根據(jù)用戶的專業(yè)需求配置。
2.各字庫的進(jìn)入系統(tǒng)進(jìn)入本輸入系統(tǒng)后,即為一級字庫的使用狀態(tài)若一級字庫不能滿足需要,希望使用其它字庫時(shí),直接鍵入該字庫名和回車鍵即可,系統(tǒng)使用一次該字庫后,自行返回一級字庫;若希望該字庫與一級字庫聯(lián)接使用,重復(fù)兩次鍵入該字庫名和回車鍵即可,各字庫名規(guī)定為不含空格符的四位字符串,如“物理字庫”取名為“WLZK”。
本輸入系統(tǒng)的實(shí)現(xiàn)只需按照上述方法對漢字,詞,語進(jìn)行編碼輸入即可實(shí)現(xiàn)。
本發(fā)明與現(xiàn)有漢字輸入技術(shù)相比具有的優(yōu)點(diǎn)1.編碼規(guī)則具有相當(dāng)?shù)睦碚撝С?,系統(tǒng)規(guī)范,對操作的單項(xiàng)水平要求不高,便于學(xué)習(xí)掌握。
2.系統(tǒng)具有可用編碼空間1200萬余,實(shí)現(xiàn)了漢字,詞,語的完全兼容,其可用編碼空間目前是最大的。
3.系統(tǒng)設(shè)有兩級,兩類字庫,必要時(shí),可以輸入全部中文信息。
4.漢字(包括中文詞,語)編碼的重碼率很低,重碼數(shù)很小。
5.漢字代碼設(shè)計(jì)合理規(guī)范,與西文完全兼容。
6.系統(tǒng)設(shè)計(jì)了快速選字方法。
7.由于系統(tǒng)有上述1,2,3,4,5,6的優(yōu)點(diǎn),與漢字的其它輸入方案相比,本系統(tǒng)可以成倍地提高輸入速度;基本解決了漢字輸入方法的易學(xué)性和好用性的矛盾。
8.本系統(tǒng)采用標(biāo)準(zhǔn)小鍵盤輸入方式,造價(jià)低,其性能價(jià)格比更低。
9.本發(fā)明的核心漢字的分體,分類方法,反應(yīng)了漢字的基本特征可以作為學(xué)習(xí)掌握漢字的手段之一,獨(dú)立出來學(xué)習(xí),用于教學(xué)或培訓(xùn),從而為人們掌握這一漢字編碼輸入系統(tǒng)打下堅(jiān)實(shí)基礎(chǔ)。
10.在本系統(tǒng)中,漢字的代碼可極方便地轉(zhuǎn)換為密碼。
11.本發(fā)明的漢字編碼方法,可以作為快速查字法,用于作中文信息的檢索。
本人已用本發(fā)明的編碼方法,對“GB2312-80圖形字符代碼表”中的全部6719個(gè)漢字(不包括部首偏旁)進(jìn)行了編碼,也根據(jù)現(xiàn)代漢語成語小詞典對最易造成重碼的部分的連續(xù)二百個(gè)成語進(jìn)行了編碼,對其統(tǒng)計(jì)的結(jié)果證明,這一編碼方法確實(shí)具備易學(xué),高效的特點(diǎn),對“GB2312-80圖形字符代碼表”中的漢字編碼統(tǒng)計(jì)結(jié)果如下單碼率72%,兩碼率21%,三碼率5%,其它2%,最大重碼數(shù)6。
本發(fā)明除適于計(jì)算機(jī)的中文信息處理外,還可廣泛用于中文打字機(jī),各種形式的電信通訊,中文信息的檢索;如本發(fā)明的漢字(包括詞,語)編碼方法用作電報(bào)編碼,可收到易學(xué),高效的效果,本發(fā)明的核心漢字的分體,分類方法,可作為學(xué)習(xí),研究漢字的手段之一。
權(quán)利要求
1.與西文兼容的中文呂氏編碼輸入系統(tǒng),屬計(jì)算機(jī)信息處理領(lǐng)域,它包括本發(fā)明對漢字的研究認(rèn)識以及建立在這一認(rèn)識基礎(chǔ)上的漢字,詞,語的編碼方法及其系統(tǒng),其特征是根據(jù)漢字的字形特征對漢字分體,分類,漢字,詞,語的代碼一般含有多種特征信息碼元(一般包括字類碼元)在本系統(tǒng)中,漢字,詞,語與西文完全兼容。
2.如權(quán)利要求(1)所述,基于對漢字的研究認(rèn)識,本發(fā)明提出的連組和附體概念以及漢字的分體,分類方法。
3.如權(quán)利要求(1),(2)所述,本發(fā)明提出的漢字編碼方法,其特征是漢字代碼由四位碼元組成,分別為字音碼元,字首碼元字尾碼元。
4.如權(quán)利要求(1),(2),(3)所述,基于對漢字的研究認(rèn)識,本發(fā)明提出的字音碼元,字類碼元,字首碼元,字尾碼元的取法。
5.如權(quán)利要求(1),(2)所述,本發(fā)明提出的中文詞,語的編碼方法,其特征是根據(jù)詞,語長度的不同,其代碼由組成該詞,語的前若干字的字音碼元或者字音碼元與字類碼元組成。
6.如權(quán)利要求(1)所述,根據(jù)本系統(tǒng)的特點(diǎn),本發(fā)明提出的快速選字方法,其特征為當(dāng)輸入一個(gè)字,詞,語的代碼后,系統(tǒng)自動地將具有該代碼的首字送入指定位置。
7.如權(quán)利要求(1)所述,本系統(tǒng)根據(jù)漢字,詞,語的作用,將其分級,分類的方法,不同字庫的進(jìn)入與聯(lián)接方法。
8.如權(quán)利要求(1)所述,本發(fā)明提出的與中文兼容的西文輸入方法其特征是分段直接輸入。
9.如權(quán)利要求(1),(2),(3),(4),(5),(6)所述,根據(jù)本發(fā)明的漢字,詞,語編碼方法而得出的中文信息檢索方法。
10.本發(fā)明可廣泛應(yīng)用于計(jì)算機(jī),中文打字機(jī),各種形式的電信通訊中文信息的檢索分類等;本發(fā)明的基礎(chǔ);對漢字的研究認(rèn)識,漢字的分體分類方法,可作為學(xué)習(xí)研究漢字的手段之一。
全文摘要
與西文兼容的中文呂氏編碼輸入系統(tǒng),屬計(jì)算機(jī)信息處理領(lǐng)域,是一個(gè)用計(jì)算機(jī)處理中文信息,兼容西文信息的編碼輸入系統(tǒng),其特征是本發(fā)明根據(jù)漢字的字形特征提出了漢字的分體,分類方法、漢字、詞、語相互兼容,并于西文完全兼容,在漢字、詞、語的代碼中,一般含有多種碼元(包括該字、詞、語的字類碼元),碼型規(guī)范,皆為四位,重碼率低,重碼數(shù)小,基本解決了中文信息輸入方法的好用性與易學(xué)性之間的矛質(zhì)??蓮V泛用作計(jì)算機(jī),中文打字機(jī),各種形式的電信通訊系統(tǒng)等方面的漢字輸入系統(tǒng)。
文檔編號G06F3/023GK1043014SQ89106889
公開日1990年6月13日 申請日期1989年12月29日 優(yōu)先權(quán)日1989年12月29日
發(fā)明者呂寶申 申請人:呂寶申