專利名稱:自然兩筆輸入法及主要實(shí)施方案的制作方法
(一)輸入法簡(jiǎn)介1999.10國(guó)家語(yǔ)言文字工作委員會(huì)正式發(fā)布GB13000.1字符集(含20902漢字)以來(lái),大量增加了計(jì)算機(jī)能提供的漢字?jǐn)?shù)。但是,對(duì)當(dāng)前較流行的漢字輸入法而言,即使給新增漢字補(bǔ)編輸入碼,也限制不了重碼字?jǐn)?shù)的劇增,使單字和詞組的翻頁(yè)現(xiàn)象更加嚴(yán)重。例如,全拼輸入法中的“ji”和“xian”碼,其單字翻頁(yè)數(shù)分別達(dá)38和25次。
自然兩筆輸入法是一種適合GB13000.1字符集和無(wú)分流字形的純筆畫(huà)輸入法。其鍵盤輸入碼為26,單字最大碼長(zhǎng)為四字首兩筆字尾兩筆次部首兩筆三部首兩筆。此外,對(duì)符號(hào)、繁體字和詞組的處理還另有措施。
本輸入法中使用的漢字,其筆形、筆順和GB13000.1字符集保持一致。
(二)漢字字形的構(gòu)成和筆畫(huà)的分類漢字的字形是一種有若干數(shù)量和形狀的筆畫(huà)(筆形)結(jié)合體。由于每一漢字的字形都具有下述共性筆畫(huà)總數(shù)、規(guī)范的筆畫(huà)順序(筆順)、筆畫(huà)的相對(duì)位置和筆畫(huà)間的互相交、相接和相離狀況。因此,可以從這些共性中,找出其簡(jiǎn)明特征作為漢字的基本輸入信息,在此基礎(chǔ)上,建立漢字鍵盤輸入碼。
(1)漢字基本筆畫(huà)分類漢字的筆畫(huà)約30余種,常用八種筆形為橫、提、豎、撇、捺、點(diǎn)、折、鉤。本輸入法再將其合為五類基本筆畫(huà)
(2)筆畫(huà)的兩筆組合用筆順序號(hào)相鄰的兩筆作為漢字的基本信息,可提供25種特征作為漢字基本輸入單元。即
必須指出,兩筆組合的必要條件是按規(guī)范筆順的序號(hào)。此外,還需確定“兩筆”在漢字中的位置,本法中定位為字首兩筆、字尾兩筆、次部首兩筆、三部首兩筆?!按尾俊⑷俊笔鞘裁??它涉及部件的規(guī)則化問(wèn)題。
(三)漢字部件的規(guī)則化長(zhǎng)時(shí)期以來(lái),偏旁、部首、字根……用作漢字單元,以及最近推出的規(guī)范化部件都對(duì)漢字的信息化起著巨大的推動(dòng)作用。然而,由于這些部件的規(guī)則不十分明確,給操作者帶來(lái)極大不便。因此,在規(guī)范部件基礎(chǔ)上進(jìn)行規(guī)則化為實(shí)用部件的方法,值得一試。
(1)漢字的字段根據(jù)漢字筆畫(huà)之間的相交、相接和相離的特性,可以將大多數(shù)漢字按筆畫(huà)順序依序截取成若干字段。使?jié)h字不僅是筆畫(huà)(最小單位)的組合,而且也是若干最小單元即字段的組合。
漢字字段(可簡(jiǎn)稱段)為若干序號(hào)連續(xù)的筆畫(huà)間通過(guò)相交、相接而連在一起的組合體;序號(hào)連續(xù)的筆畫(huà)依序分段的必要條件為①構(gòu)成字段的筆畫(huà)序號(hào)不得間斷。
②各字段相互之間完全相離。
很明顯,兩序號(hào)間斷的筆畫(huà)相接或相交時(shí),序號(hào)在其間的筆畫(huà),無(wú)論多少是否相離,它們必須此兩筆共一字段。例如“可”字中的“口”,只能與“丁”字合為一段成為單段字。
漢字各字段的截取過(guò)程為先選定首筆,再按序號(hào)順序(不得間斷)逐筆選擇筆畫(huà),若該筆畫(huà)與已選定筆畫(huà)直接或間接相交、接,則該筆畫(huà)被選定;若該筆畫(huà)及其后繼的所有筆畫(huà)均與已選定的所有筆畫(huà)相離,則已選定的筆畫(huà)為″首段″。然后,從首段的后繼首筆開(kāi)始,按成段條件依序截取次段,……。直至末段為止。
有兩點(diǎn)值得注意①單一筆畫(huà)可以成一字段。如“江”字含四段,“銅”字含五段。②某些漢字,其首尾兩筆之間存在直接或間接地相交、接時(shí),該漢字稱為單段字。如目革國(guó)車噩甚……。
(2)首部及次部可以作為漢字基本單元的字段,其字形遠(yuǎn)不能與規(guī)范的部件等同,但在一定條件下,若干序號(hào)連續(xù)的字段可以組成接近于它的實(shí)用部件。其規(guī)則如下①不少于兩筆的任一字段。不允許單筆段獨(dú)立成部件,它必須與下一段組部件,如,二、元、忄、舊、彳、主、文、方、火、讠、戶、衤…。某些不少于兩筆的部件與其后的單筆段又處于其下部或右上方,且共同的下部不在有筆畫(huà)時(shí),它們可作為準(zhǔn)首部處理。如,魚(yú)、馬、纟、饣、鳥(niǎo)、亙、犬、咸…等。
②序號(hào)連續(xù)、位置緊鄰或?qū)ΨQ、不超過(guò)四筆且筆畫(huà)數(shù)與段數(shù)相同的筆畫(huà)組合。例如,川、習(xí)、小、灬、心、門、氵以及“雨”字中的末四筆、赤、東、辦、亦…的末兩筆等。但“洋”、“悶”及類似結(jié)構(gòu)的漢字,不得以字首四筆為部件。又如,漢字“頭”、“學(xué)”…等的首兩筆以及漢字“受”、“買”、“豸”…等的首三筆,可作為首部。
部件的序號(hào)在不破壞字段序號(hào)和筆順的原則下,依次分為首部、次部、三部、…。
(四)鍵盤輸入碼元漢字集的基本單元僅是漢字的信息單元,它必須在轉(zhuǎn)化為與之對(duì)應(yīng)的健盤碼元后,才能輸入漢字。
按一般貫例,鍵盤上的26個(gè)小寫(xiě)字母常用作計(jì)算機(jī)的輸入碼元,由于兩筆組合構(gòu)成的基本單元將占用其中的25個(gè)鍵盤碼元,另一個(gè)作“輔助”元使用。
為了減少對(duì)鍵盤碼的記憶量,可以將漢字集的基本單元有規(guī)則地分布于鍵盤上,首先,將“兩筆”中的首筆進(jìn)行分區(qū)(五區(qū)),次筆在各區(qū)中分別進(jìn)行分位(五位)。其次,將橫區(qū)、豎區(qū)、撇區(qū)、點(diǎn)區(qū)、折區(qū)按鍵盤結(jié)構(gòu)自下而上和先自左至右然后自右至左依次排列,如附圖
一(箭頭指向下一區(qū))。
每區(qū)中的五位按橫、豎、撇、點(diǎn)、折的順序自左至右依位排列。其中,撇區(qū)四位的第五位“撇折”在其下行的右端。全部鍵盤碼元分布如附圖二。
(五)漢字的輸入過(guò)程GB13000.1漢字集中包含三種漢字,(1)GB2312全部漢字,(2)擴(kuò)展字,(3)繁體字。顯然,它們的使用頻度,其差別懸殊。為實(shí)現(xiàn)高頻先見(jiàn)的原則,除繁體字另作處理外,GB2132漢字集按頻度排序且均先于擴(kuò)展字(任意排序)。
(1)單字的輸入本輸入法中,由于一個(gè)漢字的最大碼長(zhǎng)為四和一個(gè)碼元不應(yīng)低于兩筆。不可避免地會(huì)出現(xiàn)某些碼元不足但需添補(bǔ)措施的漢字,它們是①單筆字在其后補(bǔ)一橫筆而按兩筆字處理。
②單部字僅具一個(gè)實(shí)部的漢字。如,國(guó)、豐、咸、區(qū)、氵、小……等。
補(bǔ)筆單筆字和單部字能提供的碼長(zhǎng)均為二(即字首兩筆和字尾兩筆),在需要時(shí),可以使用“輔助”作為第三碼和第四碼。
③兩部字僅含兩個(gè)實(shí)部的漢字。如,貝、誅、礦……等,它們一般能提供的碼長(zhǎng)為三(即字首兩筆、字尾兩筆和次部首兩筆),必要時(shí),可使用“輔助”作為第四碼。
④多部字不低于三部的漢字,如,鐵、策…等,它完全具備四碼的條件。
⑤繁體字已被簡(jiǎn)化的非規(guī)范字,據(jù)不完全統(tǒng)計(jì),它們?cè)贕B13000.1字集中的字?jǐn)?shù)不會(huì)少于6000。留之?重碼劇增;棄之?可惜。本輸入法將其單獨(dú)處理,使14000余規(guī)范字的重碼問(wèn)題合理解決。其要點(diǎn)為在輸入繁體字的“字首兩筆”和“輔助”之后,開(kāi)始提供首批繁體字。
需要強(qiáng)調(diào)的是由于繁體字中某些部件的特點(diǎn),本輸入法使用下列十種不分流的繁體首部及其首碼釒l言y糹t魚(yú)m飠l馬c鳥(niǎo)(烏)j貝g門g風(fēng)m。從而保證最大翻頁(yè)量不超過(guò)一。
⑥常用符鑒于計(jì)算機(jī)中的符號(hào)難于使用筆畫(huà)編碼,故采用按功能特點(diǎn)進(jìn)行分類,以下是常用符號(hào)分類及對(duì)應(yīng)的首碼和次碼表
各種單字和常用符的輸入碼如下表
注第四碼之后,若仍有重碼字,可翻頁(yè)。
(2)詞組的輸入實(shí)踐證明,詞組輸入不僅比單字快而且更易于掌握。但由于GB13000.1字符集的使用,使單字碼和詞組碼的重碼問(wèn)題更加嚴(yán)重。因此,除單字中的繁體字另作處理外,也需要處理一批詞組。
一般說(shuō)來(lái),任何詞組均可由聯(lián)想方式或編碼方式輸入,前者在選定某一漢字的情況下,提示欄提供以該字為首字的詞組;后者則是在輸入詞組編碼后,提示欄提供其重碼的詞組。兩者相比,編碼方式可減少判斷搜索次數(shù),但共同的缺點(diǎn)是詞組的使用者不了解選定者的方案,有可能使輸入落空。因此,盡可能地讓使用者了解通用詞組的可靠性是必要的,在此基礎(chǔ)上讓使用者自編個(gè)性詞組。
①聯(lián)想輸入本輸入法設(shè)置專用的兩字聯(lián)想詞組。詞組內(nèi)容限定為非專有名詞的通用兩字詞組和我國(guó)各省及省會(huì)名、少數(shù)大城市名的兩字詞組。其詞組為一萬(wàn)余條,且有優(yōu)先措施。這不僅減少輸入落空率,同時(shí)也減少了翻頁(yè)次數(shù)。
②編碼輸入分兩字詞、三字詞、多字詞三種。其編碼規(guī)則如下第一鍵 第二鍵 第三鍵 第四鍵兩字詞首字首碼次字首碼次字次碼三字詞首字首碼次字首碼三字首碼三字次碼多字詞首字首碼次字首碼三字首碼末字首碼其中,1.兩字詞為用戶與本法發(fā)明人共同認(rèn)可的專用名詞詞組。其中包括,我國(guó)56個(gè)民族,百家姓中的復(fù)姓,我國(guó)地(盟、自治州)級(jí)政府所在地和全國(guó)各縣縣名,世界各國(guó)名及其首都等可靠詞組。
2.編碼詞組也可以聯(lián)想方式輸入,但其順序在專用聯(lián)想詞組之后。
(六)實(shí)施效果及應(yīng)用前景(1)單字輸入四碼仍需翻一頁(yè)者,僅為12種碼。
(2)不僅可直接安裝于“WINDOWS-9x”,也可在移動(dòng)通訊的手機(jī)上推廣。
權(quán)利要求
1.一種適用于GB13000.1漢字集的兩筆輸入法,其特征(1)鍵盤的基本輸入碼元25位,均由漢字中序號(hào)相鄰的兩筆畫(huà)組成,無(wú)任何分流字形。(2)漢字輸入碼最大碼長(zhǎng)為四,輸入順序依次為字首兩筆字尾兩筆次部首兩筆三部首兩筆。(3)一個(gè)輔助輸入碼元依次在下述情況中使用①用作部分常用符號(hào)的首碼。②用作繁體字的次碼。③必要時(shí),用作單部字的第三、第四碼和兩部字的第四碼。
2.一套定義部件的規(guī)則(1)序號(hào)連續(xù)的筆畫(huà)依序分段的必要條件①構(gòu)成字段的筆畫(huà)序號(hào)不得間斷。②各字段相互之間完全相離。很明顯,兩序號(hào)間斷的筆畫(huà)相接或相交時(shí),序號(hào)在其間的筆畫(huà),無(wú)論多少和是否相離,它們必須此兩筆共一字段。例如“可”字中的“口”,只能與“丁”字合為一段。(2)序號(hào)連續(xù)的字段滿足下述條件之一的字形,均可組成部件。①不少于兩筆的任一字段。不允許單筆段獨(dú)立成部件,它必須與下一段組成部件,如,二、元、忄、舊、彳、主、文、方、火、讠、戶、衤…。某些不少于兩筆的部件與其后的單筆段又處于其下部或右上方,且共同的下部不在有筆畫(huà)時(shí),它們可作為準(zhǔn)首部處理。如,魚(yú)、馬、纟、饣、鳥(niǎo)、亙、犬、咸…等。②序號(hào)連續(xù)、位置緊鄰或?qū)ΨQ、不超過(guò)四筆且筆畫(huà)數(shù)與段數(shù)相同的筆畫(huà)組合。例如,川、習(xí)、小、灬、心、門、氵以及“雨”字中的末四筆、赤、東、辦、亦…的末兩筆等。但“洋”、“悶”及類似結(jié)構(gòu)的漢字,不得以首筆至四筆為部件。又如,漢字“頭”、“學(xué)”…的首兩筆和漢字“受”、“豸”…的首三筆。
3.一種單獨(dú)處理繁體字的方法,其特征(1)選定特別首部釒言糹魚(yú)飠馬鳥(niǎo)(烏)貝門風(fēng)。(2)將輔助碼元Z插入該字的第一和第二碼之間,使繁體字的最大碼長(zhǎng)增加為四。
4.一種減少兩字詞組重碼數(shù)的方法,其特征(1)將非專用名詞的兩字詞組較其余詞組先見(jiàn),且聯(lián)想輸入效果最佳。(2)該詞組首碼為首字首碼,三碼為次字首碼,四碼為三字次碼,次碼取一小于60的ASCII碼,例如,”/”。
全文摘要
自然兩筆輸入法是一種適用于GB13000.1字符集和無(wú)分流字形的純筆畫(huà)輸入法。其鍵盤輸入碼為26,單字的最大輸入碼長(zhǎng)為四:字首兩筆字尾兩筆次部首兩筆三部首兩筆。本輸入法提出以字段為漢字的最小單元,并在此基礎(chǔ)上將漢字部件規(guī)則化,從而劃分漢字首部,次部和三部…;并對(duì)缺部字進(jìn)行處理。為減少單字和詞組的重碼數(shù),還對(duì)繁體字進(jìn)行單獨(dú)處理措施和非專用名詞的兩字詞組優(yōu)先的原則。
文檔編號(hào)G06F3/023GK1380596SQ0210639
公開(kāi)日2002年11月20日 申請(qǐng)日期2002年2月28日 優(yōu)先權(quán)日2002年2月28日
發(fā)明者曾里崗, 郭洪, 禹清泉, 曾曉輝, 曾建明, 曾建航, 王靖楓, 董鴻珠 申請(qǐng)人:曾建明