專利名稱:規(guī)范表形碼輸入法bxmnt及其中西文兼容鍵盤的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的是一種漢字計(jì)算機(jī)輸入方法及其中西文兼容鍵盤。
本發(fā)明所述的規(guī)范表形碼及其中西文兼容鍵盤是國家科委1994年火炬計(jì)劃重點(diǎn)項(xiàng)目“漢字大字符集(ISO10646、GB13000)表形碼輸入輸出系統(tǒng)”的成果之一,國家科委的項(xiàng)目編號(hào)為94232019。本發(fā)明的申請(qǐng)入是項(xiàng)目的承擔(dān)單位。
漢字是使用人口最多,沿用歷史最長的表意二維圖形文字。漢字字量的總數(shù)在六萬以上,每一個(gè)字還有數(shù)十種字體。中國大陸、新加坡以簡化字為國家標(biāo)準(zhǔn),中國臺(tái)灣地區(qū)和海外華人社區(qū)采用繁體字。日本、韓國使用的漢字在字形上與中國標(biāo)準(zhǔn)體漢字略有差異。
使用漢字的國家和地區(qū)在漢字的內(nèi)部碼體系、編碼字符集的大小等方面已往均各自為政、嚴(yán)重影響了海內(nèi)外和國際間的漢字信息交流和資源共享GB231280的6763個(gè)漢字也已經(jīng)束縛了計(jì)算機(jī)處理漢字信息的范圍。國際標(biāo)準(zhǔn)《通用多八位編碼字符集(OCS)》中的《CJK統(tǒng)一編碼字符集》(ISO10646、GB13000)的頒布為解決上述兩個(gè)難題創(chuàng)造了條件。
特征信息編碼鍵盤輸入是漢字進(jìn)入計(jì)算機(jī)的主流方法。提取字音特信息進(jìn)行編碼的稱音碼;提取字形特信息進(jìn)行編碼的稱形碼,形碼中以提取部件(字根)信息類編碼為主流。在現(xiàn)代漢語中,4000個(gè)常用字覆蓋了語料的99.9%。受過中、高等教育的人的識(shí)字量也在這個(gè)數(shù)左右。對(duì)能夠認(rèn)讀的漢字。用音碼輸入是可行的,對(duì)CJK字符集的20902個(gè)漢字,絕大多數(shù)人僅能認(rèn)讀其中的不足五分之一,因此只能“依形輸入”,即提取字形特征編碼輸入。
本發(fā)明的目的就是提供一種能對(duì)ISO 10646的20902個(gè)漢字編碼的漢字輸入系統(tǒng),以拓寬漢字信息處理的領(lǐng)域,方便于國際間的中文信息量交流。
本發(fā)明的另一目的是提供一種易學(xué)、易記,碼長短,且有句輸入功能的輸入法。
本發(fā)明還依據(jù)部件的規(guī)范化使用,部件分類,部件與鍵位的映射關(guān)系,提供了一種中西文高度兼容并符合國內(nèi)、外用戶的使用習(xí)慣的鍵盤。
CJK字符集20902字的平均筆畫數(shù)為15左右,以平均筆畫數(shù)為3筆的漢字部件,每字取3至4個(gè)部件進(jìn)行編碼能較充分地提取流字的字形信息,且信息冗余較低,提高輸入效率。因此,本發(fā)明規(guī)范表形碼輸入法屬部件(字根)類輸入法。
作為部件類輸入法,規(guī)范表形碼的發(fā)明設(shè)計(jì)立足于“規(guī)范、易學(xué)、快速”。
根據(jù)國家標(biāo)準(zhǔn)《漢語信息處理詞匯O2部分》,對(duì)漢字部件界定為“由筆畫組成的具有組配漢字功能的構(gòu)字單位。現(xiàn)代漢字部件按是否成字可分為成字部件與非成字部件”。規(guī)范表形碼設(shè)計(jì)發(fā)明者依據(jù)前中國文字改革委員會(huì)(現(xiàn)國家語委)1985年公布的《漢字結(jié)構(gòu)及其結(jié)構(gòu)成分的分析和統(tǒng)計(jì)》作為規(guī)范將漢字拆分為部件,并按規(guī)則設(shè)計(jì)了“計(jì)算機(jī)自動(dòng)拆分漢字部件”軟件和“計(jì)算機(jī)自動(dòng)編碼與性能評(píng)測(cè)”軟件,對(duì)CJK字符集20902個(gè)漢字按規(guī)范化的拆分規(guī)則進(jìn)行部件拆分和統(tǒng)計(jì)分析,見附
圖1和附圖2。根據(jù)統(tǒng)計(jì)分析結(jié)果,優(yōu)選了表1、表2、表3給出的表形碼編碼部件集。上述部件集及拆分規(guī)則符合國家標(biāo)準(zhǔn)《通用鍵盤漢字編碼輸入方法評(píng)測(cè)規(guī)則》(GB1415993)7.1.2條,編碼設(shè)計(jì)符合“引用國家有關(guān)語言文字和中文信息處理方面的規(guī)范和標(biāo)準(zhǔn)”的規(guī)范化要求。
現(xiàn)有技術(shù)中的漢字編碼輸入方法及其鍵盤一般采用超過26個(gè)鍵元的編碼方法來達(dá)到減少重碼和縮短碼長的效果。這種方法至少存在兩個(gè)主要缺點(diǎn)(1)削弱了通用鍵盤的中西文兼容性或帶來操作上的不便;(2)選鍵時(shí)間長,也增加使用者的疲勞程度。
本發(fā)明所述的規(guī)范表形碼及其中西文兼容鍵盤以通用鍵盤的26個(gè)字母鍵作為語言文字信息輸入,符號(hào)鍵作中西文標(biāo)點(diǎn)符號(hào)輸入,數(shù)字鍵作為中西文數(shù)字符號(hào)輸入,符號(hào)GB1415993中7.1.3條軟硬件兼容款“采用的軟硬件與國內(nèi)現(xiàn)行主流計(jì)算機(jī)軟、硬件系統(tǒng)的兼容程度及可移植性”的要求。
著名工程心理學(xué)家海曼提出的已為大量實(shí)驗(yàn)證實(shí)的鍵元選擇時(shí)間為T=A+BInN N鍵元的數(shù)量可見編碼鍵元多的輸入方法在輸入操作時(shí)選鍵時(shí)間長,影響輸入速度,也增加操作者心理負(fù)荷。
根據(jù)近代語言信息理論測(cè)定,漢字的熵值為9.7bit,漢語語的熵值為11.5bit,規(guī)范表形碼對(duì)三部件字用三鍵輸入,多部件字用四鍵輸入,詞語用四鍵輸入,減少了字形特征輸入的冗余信息,減輕了用戶的編碼負(fù)擔(dān)。
本發(fā)明所述的規(guī)范表形碼輸入法的基本技術(shù)特征在于經(jīng)過規(guī)范化優(yōu)選的150個(gè)左右基本字根和根據(jù)編碼字符集的大小輔以一定數(shù)量的近形歸并字根與26個(gè)鍵位的對(duì)應(yīng)關(guān)系,這種對(duì)應(yīng)關(guān)系基于對(duì)部件的“近形分類”和部件中筆畫組合公因子“字架”的“近形分類”,將分類后的部件分配在26個(gè)英文字母鍵上。采用這種獨(dú)特分類的出發(fā)點(diǎn)是使用戶“易學(xué)、易記、不忘”,在統(tǒng)一的編碼規(guī)則下,規(guī)范表形碼不僅能對(duì)CJK字符集中中、日、韓20902個(gè)漢字進(jìn)行編碼,且能對(duì)GB231280給定的簡化字和港臺(tái)地區(qū)使用的BIG與繁體字符集進(jìn)行編碼。
下面舉例說明利用規(guī)范表形碼BXMNT在計(jì)算機(jī)鍵盤上輸入漢字、詞、句的方法。
1、字的輸入按書寫筆順提取漢字部件進(jìn)行編碼,字編碼的碼長為3鍵/字或4鍵/字。四部件(含四部件)的漢字取該字的前三個(gè)部件和最后一個(gè)部件(前三末一)進(jìn)行編碼,碼長為4鍵/字,三部件的漢字取三個(gè)中件編碼,碼長為3鍵/字;雙部件的漢字除用該兩個(gè)部件進(jìn)行編碼外,再補(bǔ)上第二部件的首筆畫碼,碼長為3鍵/字;單部件的漢字除用該部件編碼外,再補(bǔ)上該字的第一、二筆畫碼,碼長為3鍵/字;單筆畫字重復(fù)輸入該筆畫碼三次,碼長為3鍵/字。
例如啊 OPTO (四部件漢字)吼 OZL (三部件漢字)兇 XUL (兩部件漢字)2、詞的輸入輸入兩字或兩字以上的詞語時(shí)均為4碼。雙字詞的編碼由該詞語的第一字的第一、二碼,第二字的第一、二碼構(gòu)成;三字詞的編碼由該詞語的第一字的第一、二碼和第二、第三字的第一碼構(gòu)成;四字以上(含四字)詞語的編碼由該詞語前三個(gè)字的第一碼和最后一字的第一碼構(gòu)成。
3、句的輸入每字提取字首的第一部件和字余的第一部件或漢字的首、尾部件或漢字的第一、二部件進(jìn)行編碼,碼長均為2鍵/字。
如果理解以上的例字的編碼原則后就能舉一反三的編寫許多字、詞、句的編碼而無需枯燥地死記硬背。
本發(fā)明所述的規(guī)范表形碼的部件分類體系見表1;綜上所述,本發(fā)明所述的規(guī)范表形碼BXMNT及其中西兼容鍵盤在編碼字符集的容量(中、日、韓漢字20902個(gè),可擴(kuò)充至六萬個(gè)),漢字部件的規(guī)范化使用,部件分類、部件與鍵位的映射關(guān)系,鍵盤的中西文兼容性、編碼的易舉、易記,碼長與選鍵時(shí)間構(gòu)成輸入速度素質(zhì),句輸入功能,均取得優(yōu)異成績,綜合指標(biāo)與已有技術(shù)相比具有明顯的進(jìn)步,相對(duì)于本公司的《漢字表形碼號(hào)和字素(即部件)分類編碼法》(專利號(hào)CN85105556)也具有實(shí)質(zhì)性的進(jìn)步。
本發(fā)明的專利保護(hù)范圍見權(quán)利要求書。利用本發(fā)明所提的方法并在本發(fā)明的基礎(chǔ)上作的任何變動(dòng),都在本發(fā)明的保護(hù)范圍內(nèi)。
本說明書共有三張表格和二個(gè)附圖,其中,表一是本發(fā)明的實(shí)現(xiàn)ISO10646(GB13000)的CJK字符集20902個(gè)漢字的編碼輸入時(shí)部件、筆畫與鍵位的對(duì)應(yīng)關(guān)系。
表二是本發(fā)明的編碼字符集GB2312-80時(shí),部件、筆畫與鍵盤的對(duì)應(yīng)關(guān)系。
表三是本發(fā)明對(duì)GB2312-80字符集作為處理智能輸入時(shí),簡易表形碼部件、筆畫與鍵位的對(duì)應(yīng)關(guān)系。
圖1、圖2為本發(fā)明的漢字自動(dòng)切分及編碼流程圖。
和CN85105556和CN95105810相比,本發(fā)明在下列與漢字鍵盤輸入有關(guān)的技術(shù)方面取得了實(shí)質(zhì)性的進(jìn)步。
1、擴(kuò)大了編碼字符集CN85105556的編碼字符集為GB2312-80的6763個(gè)漢字,而本發(fā)明所述的規(guī)范表形碼輸入法BXMNT及其中西文兼容鍵盤所對(duì)應(yīng)的編碼字符集為GB13000的20902個(gè)漢字。
2、規(guī)范化的優(yōu)選編碼部件集CN85105556的約400個(gè)編碼部件中,約有三分之一的部件因采用‘逢撇必折’的規(guī)則而不能與規(guī)范化要求一致。本發(fā)明采用計(jì)算機(jī)輔助拆分與設(shè)計(jì)優(yōu)選的約150個(gè)基本部件與二百多個(gè)近似歸并部件均符合漢字使用規(guī)范,本發(fā)明的編碼部件與CN85105556的編碼部件并不兼容。
3、采用通用鍵盤的26個(gè)字母鍵輸入漢字采用26個(gè)字母鍵對(duì)漢字進(jìn)行編碼輸入較CN85105556采用的31個(gè)鍵位具有更好的中西文兼容性和縮短選鍵時(shí)間,提高輸入速度。
4、簡化拆分規(guī)則
CN85105556專利中存在若干附加規(guī)則,如‘交叉不拆’,‘內(nèi)’‘必’‘離’例外等,增加了用戶的學(xué)習(xí)記憶量,本發(fā)明不存在這些規(guī)則,向直觀易學(xué)邁出了一大步。
表一. GB 10646 CJK字符集規(guī)范表形碼BXMNT部件-鍵位映射表 單筆畫部件鍵位映射表
表2 GB 2312字符集規(guī)范化表形碼BXMNT部件-鍵位映射表 單筆畫部件鍵位映射表
表三 GB 2312字符集簡易表形碼BXMJY部件-鍵位映射表 單筆畫部件鍵位映射表
漢字自動(dòng)切分及編碼流程圖I
漢字自動(dòng)切分及編碼流程圖II 注1.*表示手工完成此工作2.所有的步驟完成后都可以打印出中間結(jié)果以便校對(duì)和修正。
權(quán)利要求
1.一種利用規(guī)范表形碼的計(jì)算機(jī)漢字輸入系統(tǒng),其特征在于對(duì)CJK字符集約20902個(gè)漢字GB231380給定的簡化字和BIG5繁體字按規(guī)范化的拆分規(guī)則進(jìn)行部件拆分和統(tǒng)計(jì)分析,精選150個(gè)左右漢字基本部件定義在計(jì)算機(jī)通用鍵盤的26個(gè)字母上,從而形成一個(gè)實(shí)現(xiàn)規(guī)范表形碼輸入漢字的實(shí)用鍵盤,利用該實(shí)用鍵盤實(shí)現(xiàn)規(guī)范表形碼輸入漢字的具體步驟如下按書寫筆順提取漢字部件進(jìn)行編碼,字編碼的碼長為3鍵/字或4鍵/字;四部件(含四部件)以上的漢字取該字的前三個(gè)部件和最后一個(gè)部件(前三末一)進(jìn)行編碼,碼長為4鍵/字;三部件的漢字取三個(gè)部件編碼,碼長為3鍵/字;雙部件的漢字除用該兩個(gè)部件進(jìn)行編碼外,再補(bǔ)上第二部件的首筆畫碼,碼長為3鍵/字;單部件的漢字除用該部件編碼外,再補(bǔ)上該字的第一、二筆畫碼,碼長為3鍵/字;單筆畫重復(fù)輸入該筆畫碼三次,碼長為3鍵/字。
2.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)漢字輸入系統(tǒng),其特征在于次兩字及兩字以上詞組采用如下步驟輸入輸入兩字及兩字以上詞語時(shí)均為4碼;雙字詞的編碼由該詞語的第一字的第一、二碼,第二字的第一、二碼構(gòu)成;三字詞的編碼由該詞語的第一字的第一、二碼和第二、第三字的第一碼構(gòu)成;四字以上(含四個(gè)字)詞語編碼由該詞語前三個(gè)字的第一碼和最后一字的第一碼構(gòu)成。
3.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)漢字輸入系統(tǒng),其特征在于將句子采用如下步驟輸入每字提取字首的第一部件和字余的第一個(gè)部件或漢字的首、尾部件或漢字的第一、二部件進(jìn)行編碼,碼長均為2鍵/字。
4.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)漢字輸入系統(tǒng),其特征在于部件、筆畫與鍵位的對(duì)應(yīng)關(guān)系如下A、實(shí)現(xiàn)ISO 10646(GB13000)的CJK字符集20920個(gè)漢字的編碼輸入時(shí),部件、筆畫與鍵位的對(duì)應(yīng)關(guān)系如下(表一)B、在編碼字符集為GB231280時(shí),部件、筆畫與鍵位的對(duì)應(yīng)關(guān)系如下(表二)C、在對(duì)GB2312-80字符集作為處理智能輸入時(shí),表形碼部件、筆畫與鍵位的對(duì)應(yīng)關(guān)系如下(表三)
5.根據(jù)權(quán)利要求1的規(guī)范表形碼漢字輸入系統(tǒng),其特征在于當(dāng)出現(xiàn)重碼時(shí),可用數(shù)學(xué)鍵進(jìn)行選擇。表一、GB 10646 CJK字符集規(guī)范表形碼BXMNT部件-鍵位映射表 單筆畫部件鍵位映射表 表2 GB 2312字符集規(guī)范化表形碼BXMNT部件-鍵位映射表 單筆畫部件鍵位映射表 表三 GB 2312字符集簡易表形碼BXMJY部件-鍵位映射表 單筆畫部件鍵位映射表
全文摘要
本發(fā)明提供了一種規(guī)范表形碼漢字輸入法及其中西文兼容鍵盤,規(guī)范表形碼BXM
文檔編號(hào)G06F3/00GK1148699SQ9511630
公開日1997年4月30日 申請(qǐng)日期1995年10月20日 優(yōu)先權(quán)日1995年10月20日
發(fā)明者柴鴻斌, 陳民 申請(qǐng)人:張家港愛文電腦有限公司