專利名稱:計(jì)算機(jī)漢字鍵盤輸入法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明是一種漢字鍵盤輸入法,屬于計(jì)算機(jī)中文信息處理系統(tǒng)?,F(xiàn)在的漢字鍵盤輸入法相當(dāng)多,如中國(guó)專利90104322、90105471、911066976、91103533等,但迄今為止還沒有任何一種輸入法可以同時(shí)滿足下述八點(diǎn)要求
(一)可處理字集足夠大,凡是現(xiàn)代人可能用到的字(包括簡(jiǎn)體字、繁體字、異體字、別體字和比較常用的非字符號(hào))都應(yīng)該入選;根據(jù)文獻(xiàn)〔1〕,可處理字集應(yīng)在3萬字以上。但是為了盡量節(jié)省內(nèi)存,可處理字集應(yīng)可分為若干子集,以適應(yīng)于不同要求的用戶。
(二)拆字和編碼規(guī)則應(yīng)具有易學(xué)性和通用性,即應(yīng)符合漢字的各種規(guī)范、人們對(duì)漢字的認(rèn)知習(xí)慣(即國(guó)民教育背景),應(yīng)能為中國(guó)大陸、臺(tái)港澳地區(qū)和世界上其他華語(yǔ)地區(qū)所接受。根據(jù)文獻(xiàn)〔2〕,中國(guó)大陸地區(qū)地國(guó)民教育背景(即中小學(xué)語(yǔ)文教材內(nèi)容)為認(rèn)識(shí)3000字左右、掌握漢語(yǔ)拼音方法拼寫漢語(yǔ)的字、詞,會(huì)使用部首檢字法查字典,按正確的筆順書寫漢字。
(三)字的拆分和編碼規(guī)則應(yīng)適用于整個(gè)可處理字集(包括各個(gè)子集)而無任何例外規(guī)定,不應(yīng)由用戶來記憶和分辨高頻、一、二級(jí)和冷僻字詞,讀不準(zhǔn)音、調(diào)和不認(rèn)識(shí)的字也可以正常輸入,對(duì)非字符號(hào)有輸入手段。
(四)有一個(gè)能將目前慣常分類成的通用、專業(yè)和個(gè)人詞庫(kù)三者合并的詞庫(kù),詞庫(kù)應(yīng)能有效地降低動(dòng)態(tài)碼長(zhǎng),滿足所有使用者的需要,即為適用于所有使用者的通用詞庫(kù)。應(yīng)有一個(gè)對(duì)詞庫(kù)進(jìn)行增刪優(yōu)化的極為簡(jiǎn)易快捷的方法,可以即改即用,使得用戶可以方便地將輸入法本身提供的較通用的詞庫(kù)轉(zhuǎn)化為適合于該用戶的專用詞庫(kù)。
(五)動(dòng)態(tài)碼長(zhǎng)、重碼率和輸入速度能同時(shí)為非專業(yè)人員(包括大、中小學(xué)學(xué)生和教師、科技工作者、政府官員、管理人員、文秘人員、作家、記者等)和專業(yè)打字人員所接受。每個(gè)用戶應(yīng)可根據(jù)自己的情況自行調(diào)整字的動(dòng)態(tài)碼長(zhǎng)、重碼率和輸入速度,去除冗余編碼,最大限度地減輕輸入字的工作量。
(六)由于用戶的電腦硬件配置情況不同(尤其是大陸地區(qū)尚有相當(dāng)數(shù)量的286以下的低檔電腦),漢字系統(tǒng)也各式各樣,而詞庫(kù)占用內(nèi)存通常比較大,因此,詞庫(kù)應(yīng)可分為若干子庫(kù),由用戶自行選擇和調(diào)整占用的內(nèi)存量。
(七)進(jìn)入和退出該輸入法操作方便。用戶操作使用方便,提示行有較全面的提示信息,具體地講大體上應(yīng)和全拼輸入法的使用規(guī)則相一致。
(八)從總體上講,應(yīng)能融合字根碼、字形碼、拼音碼和數(shù)碼的優(yōu)點(diǎn)而摒棄其缺點(diǎn),盡可能與國(guó)民教育背景一致,充分利用計(jì)算機(jī)資源,讓用戶盡可能省心、省力、省時(shí)。
本發(fā)明提到的文獻(xiàn)〔1〕~〔9〕分別為
〔1〕《袖珍字?!罚w所生,繆詠禾主編,江蘇教育出版社,1994年1月
〔2〕《漢字鍵盤輸入技術(shù)與理論基礎(chǔ)》,陳一凡、胡宣華著,清華大學(xué)出版社,1994年6月
〔3〕《新華字典》(1992年重排本)商務(wù)印書館,1994年3月
〔4〕《學(xué)生四用字典》,耿發(fā)友、李屹立、張毅丁、阮恒輝,國(guó)際文化出版公司,1992年6月
〔5〕《香港小學(xué)生中文詞典》(增訂本),劉寧甫、夏雨、黃東月,明華出版公司出版,1988年11月
〔6〕《新編漢語(yǔ)詞典》,李國(guó)炎、莫衡、單耀海、吳崇康編著,湖南出版社,1988年8月
〔7〕《電子愛好者實(shí)用資料大全》,趙大和主編,電子工業(yè)出版社,1989年7月
〔8〕《現(xiàn)代漢語(yǔ)詞典》,中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所詞典編輯室編,商務(wù)印書館,1983年1月
〔9〕《現(xiàn)代漢語(yǔ)詞典》(補(bǔ)編),中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所詞典編輯室編,商務(wù)印書館,1989年4月
本發(fā)明的目的在于克服現(xiàn)有的各種漢字鍵盤輸入法不能兼顧易學(xué)性、通用性與較短的動(dòng)態(tài)碼長(zhǎng)、較低的重碼率和較高的輸入速度等性能指標(biāo)的弊病,提供一種既簡(jiǎn)單易學(xué),又有較高性能指標(biāo)的通用漢字鍵盤輸入法。本輸入法稱為藍(lán)月亮輸入法,簡(jiǎn)記為BM輸入法。
本發(fā)明的計(jì)算機(jī)漢字鍵盤輸入法,包含了簡(jiǎn)體字、繁體字、異體字、別體字、偏旁部首和比較常用的非字符號(hào);使用了標(biāo)準(zhǔn)鍵盤上的0~9共10個(gè)數(shù)字鍵、A~Z共26個(gè)英文字母鍵、Alt鍵、回車鍵、退格鍵、空格鍵、分號(hào)鍵、大小寫字母轉(zhuǎn)換鍵Capslock;采用拼音、字根、字形和數(shù)碼相結(jié)合且字詞合一的編碼方式并配置有相應(yīng)的詞庫(kù);其特征在于詞庫(kù)的結(jié)構(gòu)形式為軟詞庫(kù),軟詞庫(kù)為一個(gè)二維詞庫(kù),每個(gè)坐標(biāo)點(diǎn)表示一個(gè)雙字詞,軟詞庫(kù)的橫標(biāo)由字碼表中碼長(zhǎng)大于2的常用字組成,軟詞庫(kù)的縱標(biāo)宜入選7000通用字,并按使用頻度排序,分為56段,每段125字,每段占用64KB空間,依次對(duì)每一個(gè)縱標(biāo)軟詞字與整個(gè)橫標(biāo)軟詞表中的每一個(gè)字考慮能否組成詞,或者說有無較多機(jī)會(huì)在文字和口語(yǔ)中相連出現(xiàn),由此組成軟詞段數(shù)據(jù)文件;字的輸入以1~4個(gè)代碼的形式依次通過鍵盤上的字母鍵和數(shù)字鍵完成;將字按部首拆分,部首分為成字部首和非字部首,成字部首又分為正字部首和類字部首,正字部首以標(biāo)準(zhǔn)讀音的首字母作代碼,類字部首分別用0~9的單個(gè)數(shù)字或字母作為代碼,非字部首以首筆劃分別用單個(gè)數(shù)字作代碼,筆劃分為橫、豎、撇、點(diǎn)和折;字的拆分部首依其首筆劃在該字中的筆順,依次定為第一、次、末部首,字按照拆分部首的數(shù)目分為單部首字、雙部首字和三部首字;單部首字編碼字的讀音首字母+字首筆劃代碼+字次筆劃代碼+字末筆劃代碼,筆劃數(shù)不足時(shí),先取首筆劃,次取末筆劃,不足的用字母V補(bǔ)齊;雙部首字編碼第一部首代碼+末部首代碼+末部首首筆劃代碼+末部首末筆劃代碼,當(dāng)末部首非字時(shí)第3碼改為末部首次筆劃代碼,其余同單部首字規(guī)定;三部首字編碼第一部首代碼+次部首代碼+末部首代碼+末部首末筆劃代碼。
以下對(duì)本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)的描述,
圖1a、1b為本發(fā)明的類字部首一覽表,圖2為筆劃代碼表,圖3為拆字編碼規(guī)流程圖,圖4a、4b為本發(fā)明的輸入法使用流程圖。
1.確定BM輸入法可處理字集,以現(xiàn)代人可能使用到的字和符號(hào)為入選原則,包括簡(jiǎn)體字、繁體字、異體字、別體字、偏旁部首和比較常用的非字符號(hào);包括現(xiàn)代漢語(yǔ)通用字表的7000個(gè)漢字、GB2312-80中的6763個(gè)漢字和687個(gè)非字符號(hào);ISO-10646中的20992個(gè)漢字,等,總計(jì)入選30865個(gè)漢字和非字符號(hào)。為適應(yīng)不同行業(yè)、地區(qū)和使用者的情況,BM輸入法的可處理字集又分為下述四個(gè)子集,由此形成四個(gè)版本
(一)BM100版本,入選7862個(gè)漢字和非字符號(hào),包括現(xiàn)代漢語(yǔ)通用字表的7000個(gè)漢字、GB2312-80中的6763個(gè)漢字和687個(gè)非字符號(hào);適用于使用簡(jiǎn)體字的絕大多數(shù)用戶。
(二)BM110版本,入選7891個(gè)漢字和非字符號(hào),其取字范圍與BM100版本完全相同,只是將具有繁體字的簡(jiǎn)體字置換為對(duì)應(yīng)的繁體字;適用于使用繁體字的絕大多數(shù)用戶。
(三)BM120版本,入選10137字,包括BM100和BM110兩個(gè)版本的所有字;適用于混用簡(jiǎn)、繁體字的絕大多數(shù)用戶。
(四)BM130版本,入選30865字,即包括BM輸入法的整個(gè)可處理字集,適用于包括作家、古籍整理者、戶籍管理人員在內(nèi)的幾乎所有用戶。
2.BM拆字和編碼規(guī)則適用于整個(gè)可處理字集的30865個(gè)漢字和非字符號(hào),由八條拆字規(guī)則、九條補(bǔ)充說明和圖3所示的拆字編碼規(guī)則流程圖所組成。
八條拆字規(guī)則為
(一)拆分的部首盡可能達(dá)到三個(gè),但不得多于三個(gè);依其首筆劃在該字中的筆順,依次定為第一、次、末部首。
(二)字或部首中的相交筆劃一律不準(zhǔn)拆分。
(三)由一個(gè)部首分隔另一個(gè)部首而構(gòu)成的較大部首不準(zhǔn)拆分。例如心、木、禾、業(yè)、本、、亙、鬲、畫、少等;而不=丆+卜≠丁+八,胤=
+厶+月≠兒+幺+月等。
(四)按整體左右、上下、內(nèi)外的優(yōu)先順序拆分;只有當(dāng)這樣拆分無成字部首時(shí),才允許按其它方式拆分。例如倏=亻+
+犬,高=亠+口+冋,而彭=十+彡+豆等。
(五)內(nèi)外結(jié)構(gòu)必須內(nèi)外徹底拆分。內(nèi)外結(jié)構(gòu)包括口、匚、、凵、冂、
、
、山、
、幾、門、乃、
、工、王、土、干、
、門等(內(nèi)外結(jié)構(gòu)其外部還可以附加筆劃,這不影響內(nèi)外結(jié)構(gòu)的屬性,如
、咼均歸類于冂,
歸類于巾等)。例如周=
≠
+口;而下列字不可拆分日、日、岡、同、網(wǎng)、鬲、旦、亙、肉等。
(六)類同于內(nèi)外結(jié)構(gòu)的字或部首,優(yōu)先考慮按內(nèi)外結(jié)構(gòu)方式拆分;只有這樣無成字部首時(shí),才允許按其它方式拆分。類同于內(nèi)外結(jié)構(gòu)包括勹、弋、戈、尸、
、廠(廣)、
(
、)、
、辶(
)、廴、
、弓、
等。例如臧=戈+
,弱=
+冫;但
+幾等。
(七)食、
、、疒、糸這五個(gè)部首本身應(yīng)盡量不要再拆分,除非不拆分時(shí)部首數(shù)不足三個(gè)。
(八)應(yīng)拆分出盡可能多的成字部首,并盡可能使后面的部首成字,且使后面部首的筆劃數(shù)盡可能多。
九條補(bǔ)充說明為
(一)八條拆分規(guī)則,應(yīng)按其敘述的先后優(yōu)先運(yùn)用。
(二)字形以文獻(xiàn)〔3〕為準(zhǔn),文獻(xiàn)〔3〕沒有的字則以文獻(xiàn)〔1〕為準(zhǔn)。字及部首的筆順基本上以文獻(xiàn)〔4〕為準(zhǔn)(只對(duì)以下兩個(gè)字作了改動(dòng)彖4S03,套D0S3),文獻(xiàn)〔4〕沒有的字及部首,則以文獻(xiàn)〔5〕為準(zhǔn)。
(三)部首由至少兩個(gè)筆劃組成,但單筆劃字的本身以及非字符號(hào)則不受此規(guī)定所限,例如乙Y4VV,藝Y569,(1)4Y1V等。部首中只要有筆劃相交即為相交部首,反之為非相交部首。由不少于三個(gè)方向的筆劃包圍一個(gè)部首而構(gòu)成一個(gè)內(nèi)外結(jié)構(gòu)的字或部首;若只有兩個(gè)方向的筆劃包圍,則為類同于內(nèi)外結(jié)構(gòu)的字或部首。應(yīng)盡可能將字拆分為三個(gè)部首,但不得超出三個(gè),即不足三個(gè)時(shí)部首取小不取大,可以超過時(shí)則取大不取小,例如將3XC8,蔣53C8。
(四)部首分為成字部首和非字部首兩類。成字部首又分為正字部首和類字部首兩種,正字部首以文獻(xiàn)〔3〕列有字頭(包括簡(jiǎn)體字、繁體字、異體字和別體字)的字為準(zhǔn),一律用文獻(xiàn)〔3〕標(biāo)注讀音時(shí)首字母做代碼;文獻(xiàn)〔3〕中查不到的單部首字,以文獻(xiàn)〔1〕標(biāo)注讀音的首字母做代碼(但僅限于對(duì)該單部首字本身的編碼,對(duì)于出現(xiàn)在雙、三部首字的場(chǎng)合,仍視為非字部首);BM130版本正字部首計(jì)有1478個(gè)。類字部首實(shí)際上是非字部首,但在拆字和編碼時(shí)將其視為類同于正字部首;類字部首入選41個(gè),其中10個(gè)用阿拉伯?dāng)?shù)字0~9做代碼,有5個(gè)用字母A、0、I、U、V做代碼;單部首非字符號(hào)則一律用字母E做代碼;另外25個(gè)類字部首用文獻(xiàn)〔6〕附表《漢字部首名稱表》中注音的首字母做代碼(其中部首阝無注音,以人們的習(xí)慣讀法用字母E做代碼),詳見圖1。非字部首一律以其首筆劃的代碼表示,詳見圖2。
(五)基本筆劃有橫(一)、豎(丨)、撇(丿)、捺(丶和)、折(、
)五個(gè)。規(guī)定、和同視為標(biāo)準(zhǔn)筆劃;而
歸于橫,亅歸于豎,
和
歸于撇,
、、和乛等均歸于折。由此約定,
等同于金,等同于土,
等同于電等,均視為正字。但不可反過來將一歸于
,丨歸于亅等,例如
不等同于“丁”
為非字,又如“尺”字中的
不等同于八,尺≠八+等。
(六)筆劃可以沿筆劃方向做直線伸縮(但垂直方向除外,例如“青”字的字頭不作“豐”字)或移動(dòng),相沾筆劃可以沿所沾的筆劃移動(dòng)(但不能移為兩個(gè)部首),以盡量成為正字,但以不違反人們對(duì)字的認(rèn)知習(xí)慣為限;例如“成”字中的
不作“力”字,“尺”字不能移為和“人”字;但“最”字中的
可等同于“耳”字,“周”字中的
字可等同于“吉”字(但“吉”字的編碼仍為SK10),“躺”字中的
可等同于“身”字,“好”字中的
可等同于“女”字,“乘”字中的
可等同于“禾”字(但不能移為“千”和“八”)等。
(七)一個(gè)正字部首在文獻(xiàn)〔3〕中有多個(gè)比較常用的讀音時(shí),取其讀音首字母按字母A~Z排序在前面的讀音,但生僻讀音則不在此規(guī)定之列。例如“重”取C,“長(zhǎng)”取C,“率”取L,“剡”取S等,但“合”取H不取G(“合”字有讀音GE)等。
(八)筆劃組成相同的不同正字,除了需要有明顯分別的場(chǎng)合,都可以只取其較常用讀音。例如日(YUE)和(日),由日(YUE)組成的字,除極個(gè)別場(chǎng)合(例如日Y140、汩6Y10,因?yàn)橛腥誖140、汨6R10需要與之區(qū)別)用字母Y做代碼以外,其余時(shí)候均可用字母R做代碼(例如暴RG13,媼NRMO等);再如
(DUN)和不(BU),除了
(DUN)本身的編碼為D023以外,其余場(chǎng)合均用字母B做代碼(例如
BRR3等)。
(九)非字符號(hào)分為有標(biāo)準(zhǔn)讀音(計(jì)有10個(gè)阿拉伯字、52個(gè)大小寫英文字母、12個(gè)羅馬數(shù)字、l69個(gè)日文平假名和片假名、48個(gè)大小寫希臘字母、66個(gè)大小寫俄文字母和若干漢字偏旁部首)和無標(biāo)準(zhǔn)劃一的讀音(例如+、一、*、/等)兩類,前者采用其標(biāo)準(zhǔn)讀音的漢語(yǔ)讀音首字母做代碼(以文獻(xiàn)(6)和文獻(xiàn)(71為準(zhǔn)),后者則一律用字母E做代碼。非字符號(hào)的拆分有如下10點(diǎn)規(guī)定①29個(gè)基本數(shù)字0~9、一~九和I~X可在非字符號(hào)中視為成字部首,而且單筆劃也可視為部首(例如3.=3+.),其余非字符號(hào)一律視為非字部首。②非字符號(hào)的書寫順序如有歧義,應(yīng)比照類似漢字部首的書寫筆順確定。③除
(含乚)、
(含乛、
)這兩個(gè)筆劃以外,其余直線筆劃凡有轉(zhuǎn)折,一律視為兩個(gè)筆劃,例如∠、(等均視為兩個(gè)筆劃組成。④筆劃凡有重復(fù),即視為兩個(gè)筆劃,例如n=|+n。⑤從左下至右上書寫的筆劃,歸于橫,例如字母V的編碼為W3V0。⑥·歸于丶,注意“,”=·+,,編碼為E3V4,即筆劃有重復(fù)。⑦O視為三個(gè)“(”(折)相沾而成(非相交),其余全由半圓組合成的非字符號(hào)均以半圓為筆劃單位進(jìn)行拆分,例如3、∽、ε、S、§和8、∞等由2~4個(gè)半圓構(gòu)成非相交或相交部首;但不完全由半圓組成的非字符號(hào),例如%、‰、6、9、∝、U等,圓圈仍視為單個(gè)筆劃。⑧加粗筆劃視為該筆劃的非相交重復(fù),而且加粗筆劃一律后寫,并且優(yōu)先提取出
筆劃,例如制表符
,編碼為E569;加黑面則視為一個(gè)歸于折的相交筆劃,也是最后寫。⑨單筆劃自身構(gòu)成相交的,無論是否可以拆分為多個(gè)半圓,均視為相交部首(例如8和∞)。⑩字母中的I視為三個(gè)筆劃,其余情況均視為丨,例如羅馬數(shù)字I編碼為Y1VV;各種符號(hào)中的修飾筆劃(可有可無的筆劃)均可忽略不計(jì),例如字母A為3個(gè)筆劃而非5個(gè)筆劃;注意J和τ的“-”筆劃不屬于修飾筆劃,故編碼應(yīng)為J0V4和T0V4。
拆字和編碼規(guī)則流程圖如圖3所示。流程圖規(guī)定了漢字或非字符號(hào)的拆分過程和編碼規(guī)則。任何一個(gè)屬于可處理字集的漢字和非字符號(hào),均可以編出四個(gè)碼。
3.BM輸入法使用流程圖如圖4所示。六條補(bǔ)充說明是
(一)裝配BM輸入法的格式ZBM〔.EXE/?/?/?/?/??〕。符號(hào)?代表選擇參數(shù);參數(shù)1為入口鍵,可任選Alt+F1~Alt+F10,但如該口已被占用或重復(fù)安裝時(shí),會(huì)給出提示信息并中止命令的執(zhí)行;參數(shù)2為所用的漢字系統(tǒng)類型;參數(shù)3為字表的裝配位置,可以選擇裝入常規(guī)內(nèi)存、擴(kuò)展內(nèi)存或擴(kuò)充內(nèi)存;參數(shù)4為軟詞庫(kù)的裝配位置,也可以選擇裝入常規(guī)內(nèi)存、擴(kuò)展內(nèi)存或擴(kuò)充內(nèi)存;毿數(shù)5為軟詞庫(kù)的裝入段數(shù),視其所用版本,以及微機(jī)內(nèi)存的配置情況,用戶可以選擇裝入比較常用的一部分軟詞段(各個(gè)版本均為56段,每段占用64KB內(nèi)存),或全部裝入,或全部不裝入;但如裝入常規(guī)內(nèi)存,則最多允許裝入3段。如字表裝入擴(kuò)展內(nèi)存或擴(kuò)充內(nèi)存,則軟詞庫(kù)也必須裝入擴(kuò)展內(nèi)存或擴(kuò)充內(nèi)存;同樣,如軟詞庫(kù)裝入常規(guī)內(nèi)存,則字表也必須裝入常規(guī)內(nèi)存。
如直接鍵入ZBM回車,即為缺省設(shè)置入口鍵Alt+F4、金山系統(tǒng)、字表裝入常規(guī)內(nèi)存、不裝入軟詞庫(kù)。
對(duì)于只有1MB以下內(nèi)存的低檔機(jī)用戶,也可以將字表和軟詞庫(kù)裝入軟盤或硬盤運(yùn)行,即1.2MB軟盤可裝入18~19段,1.44MB軟盤可裝入22段,硬盤視情況可裝入1~56段;但不推薦這樣做,因?yàn)闀?huì)對(duì)硬件的壽命造成一定的影響。
(二)運(yùn)用BM拆字和編碼規(guī)則,對(duì)每個(gè)屬于可處理字集的漢字和非字符號(hào),均可以編出4個(gè)碼,但絕大多數(shù)漢字和符號(hào)都不需要全部用上這些編碼。在輸入漢字時(shí),依次鍵入該字的編碼字符,當(dāng)可選擇的字(稱為預(yù)報(bào)字)不多于10個(gè)時(shí),即在提示行按高頻先見方式顯示這1~10個(gè)預(yù)報(bào)字,如果只有1個(gè)預(yù)報(bào)字則直接上屏。以BM100版本為例,鍵入2碼即顯示的有4982字,3碼有2713字,4碼僅167字(占BM100版本可處理字集的2.12%,而且均為不常用字)。鍵入誤碼時(shí)則鳴響警示。當(dāng)1~10個(gè)預(yù)報(bào)字中有〔〕符號(hào)出現(xiàn)時(shí),表明該版本留有此字的編碼,但暫時(shí)未確定該字的機(jī)內(nèi)碼;這一點(diǎn)是基于如下考慮BM100版本入選7862個(gè)漢字和非字符號(hào),包括現(xiàn)代漢語(yǔ)通用字表的7000個(gè)漢字、G82312-80中的6763個(gè)漢字和687個(gè)非字符號(hào),但目前絕大多數(shù)用戶的電腦暫時(shí)只能處理GB2312-80字集,在這個(gè)字集之外的漢字和符號(hào),目前只能利用各個(gè)漢字系統(tǒng)提供的自造字功能解決,缺乏通用性,這也不是本發(fā)明要解決的問題;為了使本輸入法能符合將來的行業(yè)規(guī)范,所以暫時(shí)做了這樣的處理,而留待版本升級(jí)時(shí)加以完善。
(三)提示行有〔?詞〕顯示時(shí)才可以進(jìn)行修改。顯示〔1詞〕表示上一字和本字組成軟詞,顯示〔0詞〕時(shí)即為非軟詞。
(四)當(dāng)用戶修改過軟詞庫(kù),而本次預(yù)報(bào)字不多于9個(gè)時(shí),鍵入Alt+O組合鍵,即詢問用戶是否保存修改過的軟詞信息?鍵入“Y”〔時(shí)保存,鍵入“N”時(shí)不保存。
本發(fā)明的一個(gè)輸助軟件CL.EXE也可以在漢字系統(tǒng)提示符狀態(tài)下根據(jù)用戶的意愿保存修改過的軟詞信息,而且回存速度要快得多(當(dāng)有些字處理軟件和本輸入法的回存軟詞功能產(chǎn)生沖突時(shí),則只能用本軟件的回存功能)。CL.EXE還用于將本輸入法從漢字系統(tǒng)中撤消,以及檢查是否已裝入本輸入法。
(五)在提示行尚未顯示預(yù)報(bào)字時(shí),退格鍵每按一次刪除最末一個(gè)編碼字符,回車鍵則一次刪除所有已鍵入的編碼字符,注意如果用退格鍵將上一個(gè)字也刪除了,則本字將作為新一輪輸入的首字處理,由于首字不能利用軟詞庫(kù)信息,因此碼長(zhǎng)將較長(zhǎng)。在提示行已顯示預(yù)報(bào)字后,退格鍵用于調(diào)出非橫標(biāo)軟詞字(不常用字)。在已選擇字后,退格鍵則用于刪除此字和提示行顯示。注意當(dāng)提示行尚未顯示預(yù)報(bào)字,未鍵入誤碼而鳴響時(shí),說明此編碼無橫標(biāo)軟詞字(常用字),此時(shí)可以鍵入“;”鍵,直接調(diào)出非橫標(biāo)軟詞字。
在必要時(shí),可以利用Alt+空格鍵組合強(qiáng)制將本字輸入設(shè)置為新一輪輸入的首字。
(六)本輸入法使用了鍵盤上的下列42個(gè)鍵0~9、A~Z、Alt鍵、回車鍵、退格鍵、空格鍵、分號(hào)鍵、大小寫字母轉(zhuǎn)換鍵Capslock。
4.本發(fā)明的拆字編碼和使用規(guī)則主要著眼于易學(xué)性與通用性,碼長(zhǎng)、重碼率和輸入速度等性能指標(biāo)不高,(以BM100版本為例,平均碼長(zhǎng)3.65,動(dòng)態(tài)碼長(zhǎng)3.18)。性能指標(biāo)的提高,是靠軟詞庫(kù)來實(shí)現(xiàn)的。軟詞庫(kù)為一個(gè)二維的詞庫(kù),每個(gè)坐標(biāo)點(diǎn)表示一個(gè)雙字詞(任何多字詞均可以分解為雙字詞,即軟詞庫(kù)可以容納所有的詞匯),橫標(biāo)入選碼長(zhǎng)超過2的字(規(guī)定碼長(zhǎng)為輸入一個(gè)字或符號(hào)時(shí)所需的按鍵次數(shù),包括必要的退格鍵和數(shù)字選擇鍵),縱標(biāo)則按漢字的使用頻度排序,入選現(xiàn)代漢語(yǔ)通用字表的全部7000個(gè)漢字(分為56段,每段125字),用戶可以自行決定裝入多少段(不裝入也可以用,但性能指標(biāo)不高)。通常,裝入1段時(shí)可以覆蓋43.9%的漢字,2段覆蓋率為60.6%,3段覆蓋率為70.7%,18段覆蓋率達(dá)98.6%。通過軟詞庫(kù)可以舍棄哪些不大可能成為“詞”的組合,即非軟詞字,從而有效地縮短碼長(zhǎng)、降低重碼率和提高輸入速度。由于用戶勿須對(duì)任何一個(gè)詞進(jìn)行專門的編碼和記憶(或者說字詞編碼合一),只需用一個(gè)起開關(guān)作用的分號(hào)鍵向詞庫(kù)添加或刪改詞即可,而且即改即用,因此本發(fā)明將這個(gè)詞庫(kù)稱之為軟詞庫(kù)。由于軟詞庫(kù)中每個(gè)坐標(biāo)點(diǎn)可表示一個(gè)雙字詞,因此軟詞庫(kù)的容量是十分巨大的,BM100版本可有效容納約680萬雙字詞,這是目前任何一種輸入法所難以企及的。當(dāng)然,由于軟詞庫(kù)舍棄功能,在漢字輸入時(shí),會(huì)有預(yù)報(bào)失敗的情況,即1~10個(gè)預(yù)報(bào)字中沒有所想要的字,則應(yīng)鍵入退格鍵,再鍵入該字剩余的編碼,直至提示行重新顯1~10個(gè)預(yù)報(bào)字。因此,預(yù)報(bào)失敗時(shí)將使碼長(zhǎng)比未掛軟詞庫(kù)時(shí)至少還要多一碼。故為了減少預(yù)報(bào)失敗應(yīng)加大軟詞量,當(dāng)軟詞量為最大時(shí),預(yù)報(bào)成功率為1,不過也等于未掛軟詞庫(kù)了;為了降低動(dòng)態(tài)碼長(zhǎng),應(yīng)盡可能減少軟詞量,因此預(yù)報(bào)成功率與動(dòng)態(tài)碼長(zhǎng)之間存在一個(gè)最佳取值范圍。BM輸入法已預(yù)先入選了15余萬雙字詞,囊括了文獻(xiàn)〔3〕、〔6〕、〔8〕、〔9〕中涉及縱橫標(biāo)軟詞字的全部詞匯和比較常用的熟語(yǔ),每個(gè)用戶可以在此基礎(chǔ)上根據(jù)自己的行業(yè)、習(xí)慣等特點(diǎn)對(duì)軟詞庫(kù)逐步進(jìn)行增刪優(yōu)化,使動(dòng)態(tài)碼長(zhǎng)盡可能短而成功率盡可能高,從而將我們提供的較通用的軟詞庫(kù)逐步轉(zhuǎn)化為適合于每個(gè)用戶的專用詞庫(kù),即充分適應(yīng)于每個(gè)用戶的情況,充分發(fā)揮每一個(gè)用戶的智慧;具體地就每一個(gè)用戶而言,動(dòng)態(tài)碼長(zhǎng)可以降到1.5碼以下,甚至接近一碼一鍵,大大地減輕了用戶的工作量,但BM輸入法的易學(xué)性卻絲毫不受影響。
5.本發(fā)明的BM120和BM130版本,由軟件自動(dòng)判斷是簡(jiǎn)體字用戶還是繁體字用戶,如果是簡(jiǎn)體字用戶,則自動(dòng)舍棄繁體字,反之則自動(dòng)舍棄簡(jiǎn)體字;但是如果發(fā)現(xiàn)是簡(jiǎn)、繁體字混合輸入的用戶,則不作舍棄。由于絕大多數(shù)用戶是單純的簡(jiǎn)體字用戶或繁體字用戶,這一智能處理可以有效地降低BM120和BM130版本的動(dòng)態(tài)碼長(zhǎng)。
本發(fā)明的BM130版本,軟件首先只考慮屬于BM120字集的字第一次預(yù)報(bào)(軟詞預(yù)報(bào))失敗即考慮除橫標(biāo)軟詞字以外的所有BM120字集字,再次預(yù)報(bào)失敗時(shí)才考慮不屬于BM120字集的BM130字集字;有舍棄簡(jiǎn)/繁體字的情形時(shí),留待第三次預(yù)報(bào)失敗時(shí)才考慮舍棄了的簡(jiǎn)/繁體字,而且,凡有舍棄,必定一并舍棄異體字和別體字,因此BM130版本的最大碼長(zhǎng)為8。由于BM120字集之外的字均為極少用到的冷僻字,因此,這一處理可以確保本輸入法的動(dòng)態(tài)碼長(zhǎng)不因可處理字集的增大而變差。具體地講,BM130版本中,未有舍棄時(shí),碼長(zhǎng)為5、6、7的字依次有9781、9506和629個(gè),其中屬于BM120字集的字只有225個(gè)5碼字。
本發(fā)明與現(xiàn)有各種漢字輸入法相比具有如下的優(yōu)點(diǎn)和有益效果
1.BM輸入法對(duì)于1478個(gè)正字部首(其中29個(gè)只用于非字符號(hào),202個(gè)不屬于BM100可處理字集且只用于該字本身的編碼,因此,也可以說只有1247個(gè)正字部首)和25個(gè)類字部首,均采用標(biāo)準(zhǔn)讀音的首字母做代碼,只有16個(gè)類字部首的代碼由本發(fā)明自行規(guī)定(圖1中給出了諧音,有助于記憶),非字部首則一律取其筆劃的代碼。正字部首數(shù)量不大(一般小學(xué)生已有這個(gè)識(shí)字水平),因此,BM輸入法基本上具有全拼輸入法易學(xué)易記的優(yōu)點(diǎn),而且由于不用翻頁(yè)選字,碼長(zhǎng)較短,重碼率較低,保證了較快的輸入速度,基本上克服了拼音碼重碼多、翻頁(yè)多、碼長(zhǎng)較長(zhǎng)、輸入速度慢、讀音聲調(diào)不準(zhǔn)以及不認(rèn)識(shí)的字(包括非字符號(hào))難于輸入等一系列缺點(diǎn)。
2.可處理字集達(dá)30865字,基本上能夠滿足所有人的需要(以后還可以進(jìn)一步擴(kuò)大至5萬余字,本發(fā)明在編寫軟件時(shí)已預(yù)留了處理空間),此時(shí)具體對(duì)每一個(gè)用戶而言,仍然可以做到較短的動(dòng)態(tài)碼長(zhǎng)(掛上56段時(shí),可達(dá)約1.84碼)、較低的重碼率和較快的輸入速度。由于BM拆字和編碼規(guī)則只有十?dāng)?shù)條,只規(guī)定了41個(gè)類字部首,使用了(基本上勿須記憶的)1478個(gè)正字部首和若干非字部首,部首與鍵元的映射基本上與全拼輸入法一致,因此BM輸入法既具有字根碼的優(yōu)點(diǎn),又克服了字根碼需要記憶上百個(gè)人為優(yōu)選出的字根和繁瑣的規(guī)則、以及由用戶區(qū)別高頻、一、二級(jí)字詞等難學(xué)難記的缺點(diǎn)。
3.BM輸入法用到了字或部首的五個(gè)基本筆劃、筆順和字的筆劃是否相交的字形特征信息,因此又具有字形碼簡(jiǎn)易的優(yōu)點(diǎn)。由于40個(gè)類字部首均屬于國(guó)家語(yǔ)言文字工作委員會(huì)推薦的201規(guī)范化部首,字形特征信息也只用了人們極易掌握的部分,基本上符合國(guó)民教育背景,故記憶量極小。
4.BM輸入法有十個(gè)部首用阿拉伯?dāng)?shù)字0~9作代碼,非字部首則按書寫筆順用部首的第一(次、末)筆劃用阿拉伯?dāng)?shù)字0~9做代碼,因此可以說具有數(shù)碼的特點(diǎn),但使用規(guī)則極為簡(jiǎn)單,無須繁瑣記憶。
5.BM輸入法的軟詞庫(kù)將目前各種輸入法的通用、專業(yè)和個(gè)人詞庫(kù)有機(jī)地集于一身。在占用相同內(nèi)存的情況下,目前各種輸入法通常采用的兩種數(shù)據(jù)結(jié)構(gòu)的詞碼表(據(jù)文獻(xiàn)〔2〕介紹,一種是獨(dú)立于字碼表的固定詞碼表,另一種是以字碼表作為索引,形成樹形結(jié)構(gòu)詞碼表),可容納的詞匯量分別不及本輸入法的2%和5%,例如BM100版本可容納不小于680萬雙字詞,但用戶卻不用專門為詞編碼,因?yàn)樽衷~編碼合一,用戶只須掌握BM拆字和編碼規(guī)則對(duì)字進(jìn)行編碼,用起開關(guān)作用的分號(hào)鍵向軟詞庫(kù)增刪詞匯即可,而且即改即用,隨心所欲,簡(jiǎn)易快捷,其余工作完全交由軟件進(jìn)行智能化處理,避免了目前各種輸入法個(gè)人詞庫(kù)編碼沖突和難于記憶、容量小等一系列缺點(diǎn)。對(duì)于“通用”詞庫(kù)而言,由于每個(gè)用戶的情況是千差萬別的,所謂詞匯也是因人而異、因地而異和因時(shí)而異的,無論這個(gè)詞庫(kù)有多大,總會(huì)有人覺得還是不通用,或者說不存在一個(gè)放之四海而皆準(zhǔn)的標(biāo)準(zhǔn)通用詞庫(kù);BM輸入法預(yù)先在軟詞庫(kù)里存放了15余萬條比較通用的雙字詞匯,讓用戶用極其簡(jiǎn)捷的手段對(duì)軟詞庫(kù)進(jìn)行增刪優(yōu)化,充分發(fā)揮每一個(gè)用戶的智慧和創(chuàng)造力,使得動(dòng)態(tài)碼長(zhǎng)盡可能短,重碼率盡可能低,輸入速度盡可能高,從而泯滅了通用、專業(yè)和個(gè)人詞庫(kù)的界限,真正做到適用于每一個(gè)使用者。
6.BM輸入法的BM120和BM130版本可處理字集比BM100和BM110版本大得多,四個(gè)版本的拆字和編碼規(guī)則也完全相同,但由于軟詞庫(kù)和軟件智能化處理,四個(gè)版本無任何冗余編碼,動(dòng)態(tài)碼長(zhǎng)相差也不大。這是目前各種輸入法所難以企及的。
7.雖然BM輸入法四個(gè)版本均要求3.6~3.75MB的內(nèi)存,但286以下的低檔機(jī)也不用擔(dān)心內(nèi)存不夠,因?yàn)锽M100和BM110版本只要求64KB內(nèi)存(BM120約為80KB,BM130約為240KB)就可以正常運(yùn)行,此時(shí),BM100版本的動(dòng)態(tài)碼長(zhǎng)為約3.18(BM110版本為約3.2,BM120版本為約3.28,BM130版本為約3.31),性能不算差,不過可用內(nèi)存越多,BM輸入法的性能就越好(具有1MB以上內(nèi)存的微機(jī),可以不將軟詞庫(kù)和字表放入常規(guī)內(nèi)存,則本輸入法BM108和BM110版本在常規(guī)內(nèi)存只占用約33.3和33.7KB的空間),或者說BM輸入法性能的提高不是靠?jī)?yōu)選字根或增加、改進(jìn)拆字和編碼規(guī)則等手段來達(dá)到的,從而徹底解決了目前漢字鍵盤輸入法“好學(xué)的不好用,好用的不好學(xué)”的痼疾。當(dāng)然,為了使只有1MB(甚至512KB)內(nèi)存的低檔機(jī)用戶也可以使用本輸入法,在拆字、編碼和類字部首的選擇等方面也做了一些有記憶量的規(guī)定,其易學(xué)性比全拼輸入法稍差,但遠(yuǎn)比目前的其它的輸入法為好。
8.總的來講,BM輸入法科學(xué)(基本上符合有關(guān)漢字規(guī)范和人們對(duì)漢字的認(rèn)知習(xí)慣,具有較短的動(dòng)態(tài)碼長(zhǎng),較低的重碼率和較快的輸入速度)、簡(jiǎn)明(只具有小學(xué)文化程度的人,對(duì)絕大多數(shù)漢字,一望而知其編碼,也可以聽打和想打)、嚴(yán)謹(jǐn)(可處理字集中的每一個(gè)字,運(yùn)用BM拆字和編碼規(guī)則,都只有一種拆分方案,極少有歧義)。具有識(shí)字1500個(gè)(對(duì)于BM100版本而言,為1200個(gè))、略識(shí)漢語(yǔ)拼音(即知道字的讀音首字母)、識(shí)用文獻(xiàn)〔3〕的部首查字法和按正確筆順書寫字的人,一般可以在1~3小時(shí)內(nèi)學(xué)會(huì)拆字和編碼,一個(gè)星期可以熟練掌握和運(yùn)用。總而言之,BM輸入法是本著易學(xué)、通用和好用的宗旨研制出來的,基本上符合國(guó)民教育背景和人們對(duì)漢字的認(rèn)知習(xí)慣,其原理還可以適用于包括日文、韓文等在內(nèi)的其它方塊文字的鍵盤輸入法;在軟件編寫方面,盡可能利用電腦軟、硬件的新功能,新技術(shù),為方塊字的鍵盤輸入技術(shù)的發(fā)展開辟了一條新路。
下面對(duì)說明書附圖進(jìn)一步說明如下
1.圖1為41個(gè)類字部首及其代碼表。分為四類第一類計(jì)25個(gè),采用文獻(xiàn)〔6)附表《漢字部首名稱表》中注音的首字母做代碼;第二類計(jì)10個(gè)較常用部首,第三類計(jì)5個(gè)較特殊的部首,第四類計(jì)1個(gè)用于非字符號(hào)的部首,均由本發(fā)明規(guī)定其代碼。
2.圖2為筆劃代碼表。規(guī)定了5個(gè)基本筆劃在相交和非相交部首中的代碼。
3.圖3為BM拆字編碼規(guī)則流程圖。規(guī)定了每個(gè)字具體的拆分步驟和編碼規(guī)則。
4.圖4為BM輸入法使用流程圖。規(guī)定了利用本輸入法在鍵盤上輸入漢字和非字符號(hào)時(shí)的具體使用方法。
本發(fā)明的實(shí)施方式如下
1.分別對(duì)四個(gè)版本可處理字集按BM拆字和編碼規(guī)則進(jìn)行編碼,并按阿拉伯?dāng)?shù)字0~9和字母A~Z的順序排列,由此組成字碼表。以下是主要統(tǒng)計(jì)數(shù)據(jù)
各個(gè)版本的單、雙和三部首字分別約占該版本可處理字集的百分比BM100版本為12.12%、18.52%和69.36%,BM110版本為11.39%、13.90%和74.71%,BM120版本為9.53%、15.37%和75.10%,BM130版本為3.91%、11.90%和84.19%。
BM130字集計(jì)有1478個(gè)正字部首,其中屬于國(guó)標(biāo)2500個(gè)常用字的有864個(gè),屬于國(guó)標(biāo)1000個(gè)次常用字的有114個(gè),屬于國(guó)家語(yǔ)言文字工作委員會(huì)頒布的7000通用字但不屬于3500常用字的有226個(gè),屬于7000通用字之外的冷僻字有16個(gè),單部首非正字部首字(即只用于輸入該字本身)有229個(gè)(其中27個(gè)屬于7000通用字),只用于非字符號(hào)的有29個(gè)。在這1478個(gè)正字部首中,有190個(gè)屬于繁體字、異體字或別體字(主要用于BM120、BM130版本)。而BM100字集的正字部首數(shù)為1123個(gè)。
不掛軟詞庫(kù)時(shí)用到編碼的前2、3、4碼(注意不等同于碼長(zhǎng),因?yàn)槲从?jì)及數(shù)字選擇鍵和退格鍵)的分別約占該版本可處理字集的百分比,BM100版本為63.37%、34.51%和2.12%,BM110版本為60.52%、37.36%和2.12%,BM120版本為53.52%、44.84%和1.64%,BM130版本為29.25%、67.48%和3.27%。
2.從四個(gè)版本字碼表的常用字中分別挑選出碼長(zhǎng)大于2的字組成各自版本的橫標(biāo)軟詞字表,縱標(biāo)軟詞字宜入選7000通用字,并按使用頻度排序,分為56段;每段125字,占用64KB空間。依次對(duì)每一個(gè)縱標(biāo)軟詞字與整個(gè)橫標(biāo)軟詞表中的每一個(gè)字考慮能否組成詞,或者說有無較多機(jī)會(huì)在文字和口語(yǔ)中相連出現(xiàn),由此組成軟詞段數(shù)據(jù)文件。以下是各個(gè)版本碼長(zhǎng)的主要統(tǒng)計(jì)數(shù)據(jù)
①未掛軟詞庫(kù)時(shí)各個(gè)版本的平均碼長(zhǎng),BM100版本約為3.648、BM110版本約為3.666、BM120版本約為3.719、BM130版本約為4.857。
②未掛軟詞庫(kù)時(shí)各個(gè)版本的動(dòng)態(tài)碼長(zhǎng),BM100版本約為3.18、BM110版本約為3.2、BM120版本約為3.28、BM130約為3.31。
③掛上56段軟詞庫(kù)時(shí)各個(gè)版本的動(dòng)態(tài)碼長(zhǎng),一般來講,BM100版本約為1.78、BM110版本約為1.78、BM120版本約為1.80、BM130版本約為1.84。
④掛上2段軟詞庫(kù)時(shí)各個(gè)版本的動(dòng)態(tài)碼長(zhǎng),一般來講,BM100版本約為2.33、BM110版本約為2.34、BM120版本約為2.38、BM130版本約為2.42。
3.依據(jù)字碼表、軟詞段文件和BM輸入法使用規(guī)則即可進(jìn)行程序編制、匯編、鏈接和調(diào)試,通過后掛接到漢字系統(tǒng)上。由于本輸入法數(shù)據(jù)繁多,軟件較長(zhǎng),為了盡可能節(jié)省內(nèi)存,使得低檔機(jī)用戶可以使用本輸入法,宜采用匯編語(yǔ)言進(jìn)行程序編制。以下是各個(gè)版本占用內(nèi)存的主要統(tǒng)計(jì)數(shù)據(jù)
BM100版本程序正常運(yùn)行時(shí),最少占用64KB內(nèi)存(其中最少需要33.3KB常規(guī)內(nèi)存),最多占用3.6MB內(nèi)存。
BM110版本程序正常運(yùn)行時(shí),最少占用64KB內(nèi)存(其中最少需要33.7KB常規(guī)內(nèi)存),最多占用3.6MB內(nèi)存。
BM120版本程序正常運(yùn)行時(shí),最少占用80KB內(nèi)存(其中最少需要43.3KB常規(guī)內(nèi)存),最多占用3.65MB內(nèi)存。
BM130版本程序正常運(yùn)行時(shí),最少占用240KB內(nèi)存(其中最少需要128KB常規(guī)內(nèi)存),最多占用3.75MB內(nèi)存。
4.軟件應(yīng)允許用戶進(jìn)行下述選擇組合
①用戶可以任選Alt+F1~Alt+F10作為入口定義鍵。
②用戶可以任選漢字系統(tǒng)。
③用戶可以任意將字碼表裝入常規(guī)內(nèi)存、擴(kuò)展內(nèi)存或擴(kuò)充內(nèi)存。
④用戶可以任意將軟詞庫(kù)裝入常規(guī)內(nèi)存、擴(kuò)展內(nèi)存或擴(kuò)充內(nèi)存。
⑤用戶可以任選裝入0~56段軟詞庫(kù)。
⑥用戶可以方便地保存修改過的軟詞信息,方便地將本輸入法從漢字系統(tǒng)中撤消,以及檢查是否己將本輸入法裝入漢字系統(tǒng)。
權(quán)利要求
1.一種計(jì)算機(jī)漢字鍵盤輸入法,包含了簡(jiǎn)體字、繁體字、異體字、別體字、偏旁部首和比較常用的非字符號(hào),使用了標(biāo)準(zhǔn)鍵盤上的0~9共10個(gè)數(shù)字鍵、A~Z共26個(gè)英文字母鍵、Alt鍵、回車鍵、退格鍵、空楀鍵、分號(hào)鍵、大小寫字母轉(zhuǎn)換鍵Caps lock,采用拼音、字根、字形和數(shù)碼相結(jié)合且字詞合一的編碼方式并配置有相應(yīng)的詞庫(kù),其特征在于詞庫(kù)的結(jié)構(gòu)形式為軟詞庫(kù),軟詞庫(kù)為一個(gè)二維詞庫(kù),每個(gè)坐標(biāo)點(diǎn)表示一個(gè)雙字詞,軟詞庫(kù)的橫標(biāo)由字碼表中碼長(zhǎng)大于2的常用字組成,軟詞庫(kù)的縱標(biāo)宜入選7000通用字,并按使用頻度排序,分為56段,每段125字,每段占用64KB空間,依次對(duì)每一個(gè)縱標(biāo)軟詞字與整個(gè)橫標(biāo)軟詞表中的每一個(gè)字考慮能否組成詞,或者說有無較多機(jī)會(huì)在文字和口語(yǔ)中相連出現(xiàn),由此組成軟詞段數(shù)據(jù)文件,字的輸入以1~4個(gè)代碼的形式依次通過鍵盤上的字母鍵和數(shù)字鍵完成,將字按部首拆分,部首分為成字部首和非字部首,成字部首又分為正字部首和類字部首,正字部首以標(biāo)準(zhǔn)讀音的首字母作代碼,類字部首分別用0~9的單個(gè)數(shù)字或字母作為代碼,非字部首以其首筆劃分別用0~9的單個(gè)數(shù)字作代碼,筆劃分為橫、豎、撇、點(diǎn)和折;字的拆分部首依其首筆劃在該字中的筆順,依次定為第一、次、末部首,字按照拆分部首的數(shù)目分為單部首字、雙部首字和三部首字,單部首字編碼字的讀音首字母+字首筆劃代碼+字次筆劃代碼+字末筆劃代碼,筆劃數(shù)不足時(shí),先取首筆劃,次取末筆劃,不足的用字母補(bǔ)齊;雙部首字編碼第一部首代碼+末部首代碼+末部首首筆劃代碼+末部首末筆劃代碼,當(dāng)末部首非字時(shí)第3碼改為末部首次筆劃代碼,其余同單部首字規(guī)定;三部首字編碼第一部首代碼+次部首代碼+末部乎代碼+末部首末筆劃代碼。
2.如權(quán)利要求1所述的計(jì)算機(jī)漢字鍵盤輸入法,其特征在于字的拆分有八條規(guī)則
(一)拆分的部首盡可能達(dá)到三個(gè),但不得多于三個(gè);
(二)字或部首中的相交筆劃一律不準(zhǔn)拆分;
(三)由一個(gè)部首分隔另一個(gè)部首而構(gòu)成的較大部首不準(zhǔn)拆分,包括心、木、禾、業(yè)、本、亙、鬲、畫、少等;
(四)按整體左右、上下、內(nèi)外的優(yōu)先順序拆分,只有當(dāng)這樣拆分無成字部首時(shí),才允許按其它方式拆分;
(五)內(nèi)外結(jié)構(gòu)必須內(nèi)外徹底拆分。內(nèi)外結(jié)構(gòu)包括口、匚、、凵、冂、
、
山、
、、門、乃、
、工、王、土、干、
門等,內(nèi)外結(jié)構(gòu)其外部還可以附加筆劃,這不影響內(nèi)外結(jié)構(gòu)的屬性,
、咼均歸類于冂,
歸類于
,而下列字不可拆分日、日、同、網(wǎng)、鬲、旦、亙、肉等;
(六)類同于內(nèi)外結(jié)構(gòu)的字或部首,優(yōu)先考慮按內(nèi)外結(jié)構(gòu)方式拆分,只有這樣無成字部首時(shí),才允許按其它方式拆分,類同于內(nèi)外結(jié)構(gòu)包括勹、弋、戈、尸、
、廠(廣)、
(
、)、
、辶(
)、廴、
、弓、
等;
(七)食、
、、疒、糸這五個(gè)部首本身應(yīng)盡量不要再拆分,除非不拆分時(shí)部首數(shù)不足三個(gè);
(八)應(yīng)拆分出盡可能多的成字部首,并盡可能使后面的部首成字,且使后面部首的筆劃數(shù)盡可能多;
3.如權(quán)利要求1所述的計(jì)算機(jī)漢字鍵盤輸入法,其特征在于八條拆字規(guī)則有九條說明細(xì)則
(一)八條拆分規(guī)則,應(yīng)按其敘述的先后優(yōu)先運(yùn)用;
(二)字形以文獻(xiàn)為準(zhǔn),只對(duì)以下兩個(gè)字作了改動(dòng)彖4S03,套D0S3;
(三)部首由至少兩個(gè)筆劃組成,但單筆劃字的本身以及非字符號(hào)則不受此規(guī)定所限,包括一、乙、(1)等,部首中只要有筆劃相交即為相交部首,反之為非相交部首,由不少于三個(gè)方向的筆劃包圍一個(gè)部首而構(gòu)成一個(gè)內(nèi)外結(jié)構(gòu)的字或部首,若只有兩個(gè)方向的筆劃包圍,則為類同于內(nèi)外結(jié)構(gòu)的字或或部首,應(yīng)盡可能將字拆分為三個(gè)部首,但不得超出三個(gè),即不足三個(gè)時(shí)部首取小不取大,可以超過時(shí)則取大不取?。?br>
(四)正字部首包括簡(jiǎn)體字、繁體字、異體字和別體字,以標(biāo)準(zhǔn)讀音的首字母做代碼,正字部首計(jì)有1478個(gè);類字部首是非字部首,但在拆字和編碼時(shí)將其視為類同于正字部首,類字部首入選41個(gè),其中有l(wèi)0個(gè)用阿拉伯?dāng)?shù)字0~9做代碼,有5個(gè)用字母A、0、I、U、V做代碼,單部首非字符號(hào)則一律用字母E做代碼,有24個(gè)類字部首用標(biāo)準(zhǔn)讀音的首字母做代碼,有1個(gè)部首阝以人們的習(xí)慣讀法用字母E做代碼,非字部首一律以其首筆劃的代碼表示;
(五)基本筆劃中,丶和同視為標(biāo)準(zhǔn)筆劃;而
歸于橫,亅歸于豎,
和
歸于撇, 丶
、和乛等均歸于折,以此類推,
等同于金, 等同于土,
等同于電,均視為正字;
(六)筆劃可以沿筆劃方向做直線伸縮,但垂直方向除外,筆劃可以沿筆劃方向做直線移動(dòng),相沾筆劃可以沿所沾的筆劃移動(dòng),但不能移為兩個(gè)部首,以盡量成為正字,但以不違反人們對(duì)字的認(rèn)知習(xí)慣為限,包括“成”字中的
不作“力”字,“尺”字不能移為和“人”字;但“最”字中的
可等同于“耳”字,“周”字中的
字可等同于“吉”字,“躺”字中的
可等同于“身”字,“好”字中的
可等同于“女”字,“乘”字中的
可等同于“禾”字等;
(七)一個(gè)正字部首有多個(gè)比較常用的讀音時(shí),取其讀音首字母按字母A~Z排序在前面的讀音,但生僻讀音則不在此規(guī)定之列,包括“重”取C,“長(zhǎng)”取C,“率”取L,“剡”取S,但“合”取H而不取G等;
(八)筆劃組成相同的不同正字,除了需要有明顯分別的場(chǎng)合,都可以只取其較常用讀音;
(九)非字符號(hào)分為有標(biāo)準(zhǔn)讀音和無標(biāo)準(zhǔn)讀音兩類,有標(biāo)準(zhǔn)讀音的包括10個(gè)阿拉伯?dāng)?shù)字、52個(gè)大小寫英文字母、12個(gè)羅馬數(shù)字、169個(gè)日文平假名和片假名、48個(gè)大小寫希臘字母、66個(gè)大小寫俄文字母和若干漢字偏旁部首,無標(biāo)準(zhǔn)讀音的包括+、-、*、/等,前者采用其標(biāo)準(zhǔn)讀音的漢語(yǔ)讀音首字母做代碼,后者則一律用字母E做代碼,非字符號(hào)的拆分有如下10點(diǎn)規(guī)定①29個(gè)基本數(shù)字0~9、一~九和I~X可在非字符號(hào)中視為成字部首,而且單筆劃也可視為部首,其余非字符號(hào)一律視為非字部首,②非字符號(hào)的書寫順序如有歧義,應(yīng)比照類似漢字部首的書寫筆順確定,③除
(含)、
(含乛、
)這兩個(gè)筆劃以外,其余直線筆劃凡有轉(zhuǎn)折,一律視為兩個(gè)筆劃,④筆劃凡有重復(fù),即視為兩個(gè)筆劃,包括n=|+n等,⑤從左下至右上書寫的筆劃,歸于橫,包括字母V的編碼為W3V0等,⑥.歸于、,“,”=·+,,編碼為E3V4,即筆劃有重復(fù),⑦○視為三個(gè)“(”,即折筆劃相沾而成,其余全由半圓組合成的非字符號(hào)均以半圓為筆劃單位進(jìn)行拆分,3、∽、ε、S、§和8、∞等由2~4個(gè)半圓構(gòu)成非相交或相交部首,但不完全由半圓組成的非字符號(hào),包括%、‰、6、9、∝、U等,圓圈仍視為單個(gè)筆劃,⑧加黑面視為一個(gè)歸于折筆劃的相交筆劃,而且加黑面最后寫,加粗筆劃則視為該筆劃的非相交重復(fù),加粗筆劃也一律后寫,并且優(yōu)先提取出
筆劃,包括制表符
編碼為E569等,⑨單筆劃自身構(gòu)成相交的,無論是否可以拆分為多個(gè)半圓,均視為相交部首,包括8和∞等,⑩字母中的I視為三個(gè)筆劃,其余情況均視為|,包括羅馬數(shù)字I編碼為Y1VV等,各種符號(hào)中的修飾筆劃均可忽略不計(jì),包括字母A視為3個(gè)筆劃等。
4.如權(quán)利要求1所述的計(jì)算機(jī)漢字鍵盤輸入法,其特征在于數(shù)字鍵0~9和空格鍵用于重碼字的選擇,Alt+O鍵組合用于回存修改過的軟詞庫(kù),分號(hào)鍵用于向軟詞庫(kù)增刪詞匯,退格鍵和回車鍵用于修正錯(cuò)誤,Capslock鍵及Alt+空格鍵組合用于結(jié)束或開始一輪漢字和符號(hào)的輸入。
5.如權(quán)利要求1所述的計(jì)算機(jī)漢字鍵盤輸入法,其特征在于可處理字集的第一子集為7862個(gè)簡(jiǎn)體字,其中包括687個(gè)非字符號(hào),軟詞庫(kù)有效容量為不小于680萬雙字詞,程序正常運(yùn)行時(shí),最多占用3.6MB內(nèi)存,最少占用64KB內(nèi)存,其中常規(guī)內(nèi)存最少占用33.3KB,平均碼長(zhǎng)約為3.18,動(dòng)態(tài)碼長(zhǎng)約為1.78~3.18。
6.如權(quán)利要求1所述的計(jì)算機(jī)漢字鍵盤輸入法,其特征在于可處理字集的第二子集為7891個(gè)繁體字,其中包括687個(gè)非字符號(hào),軟詞庫(kù)有效容量為不小于680萬雙字詞,程序正常運(yùn)行時(shí),最多占用3.6MB內(nèi)存,最少占用64KB內(nèi)存,其中常規(guī)內(nèi)存最少占用33.7KB,平均碼長(zhǎng)約為3.20,動(dòng)態(tài)碼長(zhǎng)約為1.78~3.20。
7.如權(quán)利要求1所述的計(jì)算機(jī)漢字鍵盤輸入法,其特征在于可處理字集的第三子集為10137個(gè)簡(jiǎn)體字和繁體字,即為可處理字集的第一子集與第二子集之和,軟詞庫(kù)有效容量為不小于1100萬雙字詞,程序正常運(yùn)行時(shí),最多占用3.65MB內(nèi)存,最少占用80KB內(nèi)存,其中常規(guī)內(nèi)存最少占用43.3KB,平均碼長(zhǎng)約為3.28,動(dòng)態(tài)碼長(zhǎng)約為1.80~3.28。
8.如權(quán)利要求1所述的計(jì)算機(jī)漢字鍵盤輸入法,其特征在于整個(gè)可處理字集為30865字,軟詞庫(kù)有效容量為不小于1800萬雙字詞,程序正常運(yùn)行時(shí),最多占用3.75MB內(nèi)存,最少占用240KB內(nèi)存,其中常規(guī)內(nèi)存最少占用128KB,平均碼長(zhǎng)約為3.31,動(dòng)態(tài)碼長(zhǎng)約為1.84~3.31。
9.如權(quán)利要求1所述的計(jì)算機(jī)漢字鍵盤輸入法,其特征在于所述整個(gè)可處理字集的拆分部首為41個(gè)類字部首,1478個(gè)正字部首和若干非字部首。
10.如權(quán)利要求1所述的計(jì)算機(jī)漢字鍵盤輸入法,其特征在于正字部首和25個(gè)類字部首的代碼取其標(biāo)準(zhǔn)讀音的首字母,另外16個(gè)類字部首的代碼為0~9的單個(gè)數(shù)字或字母。
全文摘要
一種計(jì)算機(jī)漢字鍵盤輸入法,采用字根、字形、拼音和數(shù)碼結(jié)合且字詞合一的編碼方式并配置巨大容量的軟詞庫(kù);軟詞庫(kù)為一個(gè)二維詞庫(kù),將通用、專業(yè)和個(gè)人詞庫(kù)融為一體,每個(gè)用戶因此可使動(dòng)態(tài)碼長(zhǎng)降至1.5~1.2甚至更低;字的輸入以數(shù)字和字母組合的1~4個(gè)代碼的形式來完成,拆字編碼規(guī)則基本上符合國(guó)民教育背景;勿須記憶分辨高頻、一、二級(jí)字詞,讀不準(zhǔn)音、調(diào)或不認(rèn)識(shí)的字也無妨;是一種易學(xué)好用的通用輸入法。
文檔編號(hào)G06F3/023GK1161495SQ9611906
公開日1997年10月8日 申請(qǐng)日期1996年5月3日 優(yōu)先權(quán)日1996年5月3日
發(fā)明者朱亮 申請(qǐng)人:朱亮