專(zhuān)利名稱(chēng)::音形相通碼漢字編碼方案的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及中文信息處理領(lǐng)域,特別是涉及如何對(duì)漢字進(jìn)行編碼及其在漢字排序(編碼)與檢索(查字詞)、漢語(yǔ)鍵盤(pán)輸入(漢語(yǔ)鍵盤(pán)輸入系統(tǒng))、漢字認(rèn)知與規(guī)范書(shū)寫(xiě)教育及后續(xù)漢語(yǔ)教育等方面的應(yīng)用,用一種漢字編碼解決漢字的"檢""用""學(xué)"問(wèn)題。
背景技術(shù):
:在中國(guó),對(duì)漢字進(jìn)行編碼可謂由來(lái)已久。從1900多年前許慎的《說(shuō)文解字》到今天的《新華字典》都在這方面進(jìn)行著探究,其目的是尋找一個(gè)好的方法對(duì)漢字進(jìn)行排序,實(shí)現(xiàn)檢索功能,然而這一探索過(guò)程直至今日依然沒(méi)有結(jié)束。人們通常以拼音、部首和筆畫(huà)這三種方式對(duì)漢字進(jìn)行排序,然而無(wú)論哪一種都有其致命的弊端。拼音排序必須知道漢字的讀音,部首排序必須準(zhǔn)確找出惟一的部首,筆畫(huà)排序又必須按書(shū)寫(xiě)順序數(shù)清筆畫(huà),無(wú)論掌握上述哪一種方式都極其困難,也不切實(shí)際。排序是為了方便檢字,檢字難以進(jìn)行,排序也就極大地喪失了其價(jià)值,這也是漢字直到目前都無(wú)法統(tǒng)一排序的重要原因。上世紀(jì)七八十年代,隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,中文信息化處理成為當(dāng)務(wù)之急。從1978年支秉彝公布中國(guó)大陸第一個(gè)小鍵盤(pán)漢字輸入方案"見(jiàn)字識(shí)碼"起,漢字輸入方案曾如雨后春筍般涌現(xiàn),并一度形成"萬(wàn)碼奔騰"局面。近三十年來(lái),漢字輸入編碼方案無(wú)法實(shí)現(xiàn)統(tǒng)一,其原因似乎是它們各有優(yōu)缺點(diǎn)而難以相互結(jié)合。形碼采取的是漢字字形(字根、碼元等〉取碼輸入方式,最大優(yōu)點(diǎn)是輸入速度快,而最大弱點(diǎn)是難學(xué),漢字難拆分,"塊"的取碼難記憶;音碼采取的是拼音(全拼、雙拼等)取碼方式,最大優(yōu)點(diǎn)是易學(xué)易用,只要能拼出讀音,就能輸入漢字,而最大弱點(diǎn)是輸入速度慢;音形碼試圖集兩者的優(yōu)點(diǎn)于一身,然而在本質(zhì)上是吸取了拼音元素而對(duì)形碼作出的改良,無(wú)法解決漢字拆分難的問(wèn)題。漢字認(rèn)知和規(guī)范書(shū)寫(xiě),無(wú)論是對(duì)推行民族普通話(huà),還是對(duì)外進(jìn)行漢語(yǔ)教育,都是一個(gè)巨大的難題。漢語(yǔ)拼音方案雖然方便了漢字的拼讀,但并不能也決不能代替漢字的書(shū)寫(xiě)。如何正確書(shū)寫(xiě),不僅難倒了無(wú)數(shù)的外國(guó)人,經(jīng)常寫(xiě)錯(cuò)字也大有國(guó)人在,而"萬(wàn)碼奔騰"更是亂上加亂。不尊重漢字結(jié)構(gòu)的形碼和音形碼使?jié)h字書(shū)寫(xiě)變得越來(lái)越不規(guī)范,寫(xiě)出的字不知對(duì)錯(cuò),純音碼又導(dǎo)致"提筆忘字",讓人啼笑皆非。所謂"萬(wàn)碼奔騰"的"碼",只是漢字輸入編碼,而絕不是漢字編碼。因此,漢字編碼必須辯證地處理好"尊重漢字結(jié)構(gòu)"與"實(shí)現(xiàn)經(jīng)濟(jì)編碼"之間的關(guān)系,一味追求輸入編碼而破壞漢字結(jié)構(gòu),無(wú)疑于飲鴆止渴。要解決漢字排序(編碼)與檢索(査字詞)、漢語(yǔ)鍵盤(pán)輸入(漢語(yǔ)鍵盤(pán)輸入系統(tǒng))、漢字認(rèn)知與規(guī)范書(shū)寫(xiě)教育等方面的問(wèn)題,其出路在于編碼層次。漢字編碼首先是一個(gè)漢字研究問(wèn)題,其次才是一個(gè)軟件問(wèn)題。漢字編碼方案應(yīng)能解決這三個(gè)方面的問(wèn)題,將它們統(tǒng)一于其中,一并解決,毫無(wú)例外。
發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種漢字編碼方案,以解決漢字排序與檢索難以統(tǒng)一的問(wèn)題,利用一種方式可迅速査找任何一個(gè)漢字;以制作一種漢語(yǔ)鍵盤(pán)輸入方法和系統(tǒng),使?jié)h語(yǔ)鍵盤(pán)輸入軟件易學(xué)易用且輸入速度快;以解決漢字認(rèn)知與規(guī)范書(shū)寫(xiě)教育難的問(wèn)題。并就這些問(wèn)題的解決給出了具體方案。一、漢字部件拆分與漢字編碼的關(guān)系對(duì)漢字進(jìn)行編碼必須綜合考慮漢字結(jié)構(gòu)和漢字編碼兩個(gè)方面的問(wèn)題。古今中外絕大部分漢字都是合成字,這使得漢字部件間相離和相接(特別是相離)的關(guān)系占據(jù)了絕對(duì)優(yōu)勢(shì),客觀上要求對(duì)漢字盡可能從部件相離和相接處拆分。另一方面,漢字編碼最直接的功能是排序和檢索,要求盡量用最少的碼數(shù)反映漢字的全貌,這就要求使?jié)h字拆分出的部件盡量少。盡量從相離和相接處拆分部件是尊重漢字結(jié)構(gòu)的本質(zhì)要求,使?jié)h字拆分出的部件盡量少則是漢字經(jīng)濟(jì)編碼的客觀要求,后者必須以前者為前提。因jt匕,在漢字部件拆分過(guò)程中,首先必須盡量從漢字相離和相接處拆分。依漢字的上(中)下、左(中)右、(半/全)包圍結(jié)構(gòu)對(duì)漢字進(jìn)行每一級(jí)部件拆分叫漢字部件的不相交有理拆分,依漢字平面結(jié)構(gòu)以其他結(jié)構(gòu)從筆畫(huà)不相交處進(jìn)行部件拆分叫漢字部件的不相交無(wú)理拆分,兩者可概述為不相交拆分。極少數(shù)不影響結(jié)構(gòu)和筆數(shù)的筆畫(huà)搭掛視為相接,按筆畫(huà)相接拆分。然而,若對(duì)所有漢字都進(jìn)行不相交拆分,則必然導(dǎo)致漢字部件總量的增加,這就產(chǎn)生了一對(duì)矛盾一方面,要始終尊重漢字結(jié)構(gòu),就必然增加部件總數(shù),而另一方面,增加部件總數(shù)并無(wú)實(shí)際之必要,因?yàn)檎棘F(xiàn)代漢語(yǔ)使用量約99.99%的漢字占有全部漢字的比重卻不足10%。要解決這個(gè)問(wèn)題,就必須有目的性地選擇從筆畫(huà)相交處拆分部件。,依又字平面結(jié)構(gòu)從筆畫(huà)相交處進(jìn)行部件拆分叫漢字部件的相交無(wú)理拆分或相交拆分,其目的主g^是經(jīng)濟(jì)編碼,方便漢字排序與檢索,它是對(duì)現(xiàn)代漢語(yǔ)通用字以外的部分漢字進(jìn)行部件拆分的一個(gè)行之有效的輔助手段?,F(xiàn)代漢語(yǔ)通用字之外的漢字分為兩種,一種利用現(xiàn)代漢語(yǔ)通用字共有的部件能對(duì)其進(jìn)行不相交拆分,另一種則利用這些部件不能對(duì)其進(jìn)行不相交拆分。.后一種在全部漢字中所占比重較小,因而對(duì)其進(jìn)行相交拆分不會(huì)影響"尊重結(jié)構(gòu)"的大局,較之增加部件總數(shù)也來(lái)得經(jīng)濟(jì)。這樣,在現(xiàn)代漢語(yǔ)通用字中不出現(xiàn)相交無(wú)理拆分既能尊重占現(xiàn)代漢語(yǔ)絕對(duì)使用量的漢字的結(jié)構(gòu),也能降低對(duì)它們進(jìn)行部件拆分的難度,而另一方面,利用它們共有的部件,稍稍改變一下部件拆分方式(即增加相交無(wú)理拆分方式),就能對(duì)它們之外的部分無(wú)f去進(jìn)行不相交拆分的漢字進(jìn)行編碼,這將有利亍所有漢字的編碼和使用,有利于漢字詞學(xué)習(xí)與使用的連貫性和拓展性,有利于不規(guī)范漢字對(duì)規(guī)范漢字的認(rèn)同和歸屬,有利于使用不規(guī)范、漢字向使用規(guī)范漢字的過(guò)渡,從而最終有利于規(guī)范漢字在華人領(lǐng)域乃至在全世界范圍內(nèi)的推廣。二、漢字部件拆分的原則與方法辯證地分析了漢字部件拆分與漢字編碼的關(guān)系,可得出漢字部件拆分的兩條原則與方法。第一條尊重結(jié)構(gòu)少部件,先離后接大優(yōu)先。此條適用于現(xiàn)代漢語(yǔ)通用字和現(xiàn)代漢語(yǔ)通用字之外可以不相交拆分的漢字。^尊重結(jié)構(gòu)少部件"即尊重漢字結(jié)構(gòu),依據(jù)漢字結(jié)構(gòu)拆分部件,使拆分出來(lái)的部件盡量少。尊重漢字結(jié)構(gòu)要從四個(gè)方面理解,一是單筆不拆,二是相交不拆,三是四大結(jié)構(gòu),四是就近組合。依據(jù)漢字結(jié)構(gòu)拆分部件,使拆分出來(lái)的部件盡量少,并不是說(shuō)要使先拆分出來(lái)的部件最大(即筆畫(huà)數(shù)最多)。"先離后接大優(yōu)先"即"先離后接"和"大優(yōu)先"。"先離后,"指從筆畫(huà)相離和相接處拆分部件,如果幾種拆分都使?jié)h字部件最少,則能從部件相離處拆分的不從相接處拆分;"大優(yōu)先"指如果幾種拆分都使^^字部件最少,并且都只從相離處拆分或都只從相接處拆分,則使先拆分出的部件筆畫(huà)盡量多。第二條依照結(jié)構(gòu)難拆分,相交強(qiáng)拆大優(yōu)先。此條適用于現(xiàn)代漢語(yǔ)通用字之外需要相交拆分的漢字。"依照結(jié)構(gòu)難拆分"指明拆分的對(duì)象是現(xiàn)代漢語(yǔ)通用字之外無(wú)法進(jìn)行不相交拆分的漢字,它們無(wú)法按照尊重漢字的結(jié)構(gòu)的方式進(jìn)行拆分。換句話(huà)說(shuō),能按照"蕁重結(jié)構(gòu)"拆分的就是現(xiàn)代漢語(yǔ)通用字,否則就不是,這也是辨別現(xiàn)代漢語(yǔ)通用字的最簡(jiǎn)單的方法。"相交強(qiáng)拆大優(yōu)先"即"相交強(qiáng)拆"和"大優(yōu)先"。"相交強(qiáng)拆"指,對(duì)按照現(xiàn)代漢語(yǔ)通用字共有的部件進(jìn)行不相交拆分但不能完成拆分的漢字,只考慮經(jīng)濟(jì)編碼因素使該漢字部件最少而強(qiáng)行對(duì)其從筆畫(huà)相交處拆分,并使相鄰的筆畫(huà)組合成部件;"大優(yōu)先"指在保持該漢字部件最少的情況下,使先拆分出的部件筆畫(huà)盡量多。另外,漢字中可構(gòu)成部件的幾個(gè)部分有時(shí)會(huì)被其他筆畫(huà)隔離,拆分時(shí)要將其組合還原成一個(gè)部件,漢字部件排列順序由部件的第一筆畫(huà)的先后順序決定。三、漢字部件的定量、取碼與歸并部件拆分原則與方法的提出雖然為部件作了定量處理要求,但并不足以構(gòu)成優(yōu)秀漢字編碼方案的充分條件,還必須就部件的取碼方式作進(jìn)一步探討,使部件'具有易用性。部件的易用性體現(xiàn)在其應(yīng)用方面,即是部件的取碼必須便于漢字的認(rèn)知和書(shū)寫(xiě),便于漢字編碼與檢索,便于漢字詞及語(yǔ)句的鍵盤(pán)輸入。部件的取碼通常有三種作法,一是硬性Wl將部件主要分布在25或26個(gè)字母上,二是依照部件與字母的形似性將部件歸并到字母,三是賦予部件一個(gè)讀音,.按部件讀音首字母對(duì)部件進(jìn)行取碼與歸并。硬性分布決定了部件和取碼對(duì)應(yīng)的無(wú)規(guī)律性,導(dǎo)致對(duì)部〈牛取碼記憶的困難。形似歸并雖有一定的邏輯依據(jù),但相似的部件間經(jīng)常出現(xiàn)取碼"客串"5見(jiàn)象,且相似性并沒(méi)有必然性,只是人為賦予一種想象而將字母和部件聯(lián)系在一起,時(shí)間久了,聯(lián)系鏈也會(huì)斷裂。按部件讀音首字母對(duì)部件進(jìn)行取碼與歸并則不同,這些部件具有字的i荬音而在本質(zhì)上成為了或本就是構(gòu)成其他漢字的基礎(chǔ)漢字,其音和形早己融為一體。只要學(xué)會(huì)這些基礎(chǔ)漢字,又有誰(shuí)能輕易地將它們的音和形分開(kāi)呢?由此,我們就可以對(duì)漢字基本部件的選擇、取碼與歸并作如下安排。單筆根據(jù)漢字部件拆分的實(shí)際需要可成為單筆部件。利用大寫(xiě)字母AEIOU的書(shū)寫(xiě)首筆與漢字筆畫(huà)"撇橫豎點(diǎn)折"的形近聯(lián)系,將"橫豎撇點(diǎn)折"等單筆部件的取碼相應(yīng)定為EIAOU,對(duì)多筆部件(包括部件變體)則取部件讀音首字母為碼并按取碼歸并。四、漢字編碼與漢字(詞)排序檢索我們的漢語(yǔ)辭書(shū)通常以拼音、部首和筆畫(huà)這三種方式對(duì)漢字進(jìn)行排序,然而無(wú)論哪一種都有其致命的弊端。拼音排序必須知道漢字的讀音,部首排序必須準(zhǔn)確找出惟一的部首,筆畫(huà)排序又必須按書(shū)寫(xiě)順序數(shù)清筆畫(huà),無(wú)論掌握上述哪一種方式都極其困難,也不切實(shí)際。排序是為了方便檢字,檢字難以進(jìn)行,排序也就極大地喪失了其價(jià)值,這也是漢字直到目前都無(wú)法統(tǒng)一排序的重要原因。要根本解決這一J句題,就必須尋找一種新的方法,而這一重任最終也會(huì)歷史性地落到部件的頭上。采用部件排序與檢索,無(wú)須認(rèn)識(shí)漢字,也無(wú)須尋找部首,更不必?cái)?shù)筆畫(huà),只要按一個(gè)簡(jiǎn)單的部件拆分與取碼方案,將漢字進(jìn)行部件拆分并以拆分順序取碼,每個(gè)漢字就都能對(duì)應(yīng)惟一的編碼,這就使得統(tǒng)一的漢字排序與檢索方式成為可能。五、漢字編碼與漢語(yǔ)鍵盤(pán)輸入按上述漢字部件拆分的原則和方法對(duì)漢字進(jìn)行拆分最大限度地降低了拆分的難度,對(duì)部件實(shí)行讀音首字母取碼與歸并則使人們對(duì)部件取碼的記憶有根深蒂固的漢語(yǔ)拼音知識(shí)依據(jù),使它們具有不易被忘卻的本質(zhì),兩者結(jié)合就將漢字部件的易學(xué)易用性提升到了更高水平,從而為順利進(jìn)行漢語(yǔ)鍵盤(pán)輸入打下堅(jiān)實(shí)的基礎(chǔ)。除此之外,一個(gè)優(yōu)秀的漢語(yǔ)鍵盤(pán)輸入法還必須具備一個(gè)優(yōu)秀的輸入方式。形碼采取的是漢字字形(字根、碼元等)取碼輸入方式,最大優(yōu)點(diǎn)是輸入速度快,而最大弱點(diǎn)是難學(xué),漢字難拆分,"塊"的取碼難記憶;音碼采取的是拼音(全拼、雙拼等)取碼方式,最大優(yōu)點(diǎn)是易學(xué)易用,只要能拼出讀音,就能輸入漢字,而最大弱點(diǎn)是輸入速度慢;音形碼則是試圖集兩者的優(yōu)點(diǎn)于一身。我們的音形碼在這方面做出了努力,然而由于以往的音形碼在本質(zhì)上是吸取了拼音元素而對(duì)形碼作出的改良,雖然在取碼上有所進(jìn)步,但必須遵循原有的漢字拆分規(guī)則而無(wú)法從根本上解決漢字拆分難的問(wèn)題,從而終難以完成使命。"輸入法要有根本性的突破,關(guān)鍵在編碼層次。"因此,要集兩者的優(yōu)點(diǎn)于一身就必須從根本上解決漢字的拆分問(wèn)題,這樣,問(wèn)題的焦點(diǎn)就又回到了漢字編碼方案上?,F(xiàn)在,我們即便是有了易學(xué)易用的漢字編碼方案,也該重新審視形碼的輸入形式了。形碼自產(chǎn)生P來(lái)雖然在三字的詞或短語(yǔ)的輸入方式上大同小異,但單字幾乎均采用"前三部件+末部件"方式,兩字均采用"P1I+P12+P21+P22"方式,這一現(xiàn)象并非偶然,因?yàn)閷?duì)每個(gè)字至少取兩碼能基本確定爭(zhēng)字、兩字的詞或短語(yǔ),對(duì)其輸入具有合理性。然而,將對(duì)單字的輸入方式擴(kuò)展到對(duì)四字及以上的詞或短語(yǔ)的輸入上,形成"P11+P21+31+N11"方式,卻有失偏頗。所有的形碼幾乎都存在這樣的現(xiàn)象本想輸入一個(gè)不常用到的詞或一個(gè)較長(zhǎng)的短語(yǔ),根據(jù)編碼方式擊鍵4次,卻發(fā)現(xiàn)輸入法中根本沒(méi)有這個(gè)詞或短語(yǔ),于是重新?lián)翩I以求其次,甚至于不得不一字一字地輸入。承認(rèn)形碼存在重碼是必要的,但不能因此就想方設(shè)法甚至"不擇手段"地減少重碼。所謂的低重碼率,基本上是優(yōu)選出來(lái)的結(jié)果,ft"么詞什么結(jié)構(gòu)該收入語(yǔ)料庫(kù)中,由制作者說(shuō)了算。將四字以上的詞或短語(yǔ)的輸入方式改為"P11+P21+31+P41",則可看到"人民民主"和"人民民主專(zhuān)政"重碼。但是,利用現(xiàn)有形碼的輸入技術(shù)完全可以輸入"人民民主"后再按空格鍵來(lái)完成"人民民主專(zhuān)政"的輸入,從而自然地規(guī)避了重碼的危害。這樣,我們似乎就會(huì)有一種全新的認(rèn)識(shí)重碼雖不可避免但也并不像人們想象的那樣可怕J人們不應(yīng)該機(jī)械地把重碼率高與輸入速度低等同起來(lái),甚至于將它當(dāng)成評(píng)判一個(gè)輸入法好壞的標(biāo)準(zhǔn)。從中也可看出,這種方式更符合思維習(xí)慣,可減少不斷往返的思維過(guò)程。事實(shí)上,如果就此簡(jiǎn)單地采用這一方案制作漢語(yǔ)鍵盤(pán)輸入法,那么它充其量只是在原有音形碼基礎(chǔ)上的改良,也無(wú)法解決四碼取碼方式所帶來(lái)的自然重碼問(wèn)題,算不得是什么重大的突破。因?yàn)樵谝舸a、音形碼少有建樹(shù)的同時(shí),音碼卻碩果累累,建樹(shù)不斷,先有紫光拼音、'微軟拼音輸入法出現(xiàn),后有搜狗拼音輸入法問(wèn)世,其重碼問(wèn)題解決的能力越來(lái)越強(qiáng),重碼對(duì)鍵盤(pán)輸入已經(jīng)夠不成威脅了。"漢字鍵盤(pán)輸入法包括編碼和軟件兩個(gè)層次。……,在軟件層次己經(jīng)可以為輸入法提供比'足夠'還要多的支持,只要是符合'邏輯'的功能要求,軟件似乎都能實(shí)現(xiàn)。"這是對(duì)目前拼音輸入法越來(lái)越強(qiáng)現(xiàn)象的根本解釋。音碼能有如此建樹(shù),關(guān)鍵在于它們采用了語(yǔ)料庫(kù)方法和統(tǒng)計(jì)語(yǔ)言模型等中文信息處理技術(shù),使輸入法軟件具有了"智能"。因此,音形i馬也必須走"高科技化"道路,必須"鳥(niǎo)槍換炮",使?jié)h字編碼方案和中文搜索引擎技術(shù)相結(jié)合。六、漢字編碼與漢語(yǔ)教學(xué)及漢語(yǔ)使用漢字由筆畫(huà)構(gòu)成,筆畫(huà)是構(gòu)成漢字形體的最小單位,筆畫(huà)之間千差萬(wàn)別的組合構(gòu)成了所有漢字的集合,而漢字之間存有共同部分的事實(shí)自1900多年前許慎的《說(shuō)文角率字》到今天的《新華字典》都在不斷地證明。沿著這條思路,我們有理由也已經(jīng)將漢字的相同部分從部首、偏旁擴(kuò)展到漢字的其他部分。搞清漢字部件拆分和漢字編碼的關(guān)系,有了清Wf的漢字部件拆分的原則和方法,也有了完整的漢字基礎(chǔ)部件表,就可以用它們對(duì)漢字進(jìn)行排序與檢索,制作優(yōu)秀的漢語(yǔ)鍵盤(pán)輸入法。而在漢語(yǔ)的教學(xué)和使用上,它們也將發(fā)揮重要的作用。我們已無(wú)須一字一字地教小學(xué)生一筆一畫(huà)地書(shū)寫(xiě)漢字,告訴他們這個(gè)字的筆畫(huà)形狀是這樣的,那個(gè)字的筆畫(huà)順序是那樣的,我們只要告訴他們?nèi)绾我勒展P順正確書(shū)寫(xiě)400個(gè)左右的部件的形體,然后再告訴他們這些部件是如何組成其他漢字的,那么所有的纟又字他們就幾乎都可以正確書(shū)寫(xiě)了;我們只要告訴小學(xué)生這些部件的讀音,告訴他們?nèi)h字部件的首字母并按漢字部件順序排列,依這個(gè)字母串在漢語(yǔ)辭典就能很快找到想要查找的字詞,那么他們就能很快^fe'在辭書(shū)中找到這些字詞并學(xué)習(xí)它們的音、義等方面的知識(shí)了;我們只要告訴小學(xué)生這些部件的讀音,告訴他們只要按漢字的書(shū)寫(xiě)順序排列部件,按照漢字詞鍵盤(pán)輸入方式取部件的首字母,就可以在屯腦或其他同類(lèi)產(chǎn)品上輸入任何一個(gè)想要輸入的漢字詞,'那么他們就能立刻在電腦上輸入這些字詞了。等到他們開(kāi)始學(xué)寫(xiě)語(yǔ)句、學(xué)寫(xiě)文章的時(shí)候,他們只要知道了用同樣的方式還可以對(duì)短語(yǔ)、語(yǔ)句進(jìn)行輸入,就可以利用電腦或其他同類(lèi)產(chǎn)品學(xué)寫(xiě)文章。從此刻起,他們就己經(jīng)掌握了一生中都將運(yùn)用到的重要技能了,無(wú)論電腦、手機(jī),還是其他同類(lèi)產(chǎn)品,只要裝有基于優(yōu)秀的漢字編碼方案制作的鍵盤(pán)輸入軟件,他們就能快速地運(yùn)用漢語(yǔ)。而凝結(jié)民族優(yōu)秀文化和智慧于其中的熟語(yǔ)、著名散文詩(shī)詞句等,必將對(duì)他們將來(lái)的為人處事產(chǎn)生強(qiáng)大的潛移默化的引導(dǎo)作用。只要以同樣的方式進(jìn)行對(duì)外漢語(yǔ)教學(xué),外國(guó)學(xué)生也就能很快地學(xué)寫(xiě)漢字,查找并學(xué)習(xí)漢字詞,以及在電腦或同類(lèi)產(chǎn)品上快速地輸入漢語(yǔ),理解中國(guó)的優(yōu)秀傳統(tǒng)文化了。與現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)點(diǎn)本發(fā)明對(duì)現(xiàn)代漢語(yǔ)通用字實(shí)行不相交拆分,對(duì)部件作了定量處理,尊重了占現(xiàn)代漢語(yǔ)使用量約99.99%的漢字的結(jié)構(gòu),使對(duì)它們的部件拆分變得空前簡(jiǎn)單。利用部件的形與音之間的必然聯(lián)系,對(duì)部件實(shí)行讀音首字母取碼與歸并,使人們對(duì)部件取碼的記憶有根深蒂固的漢語(yǔ)拼音知識(shí)依據(jù),使它們具有不易被忘卻的本質(zhì)。本發(fā)明以現(xiàn)代漢語(yǔ)通用字部件為參照對(duì)非通用漢字進(jìn)行拆分,能相交拆分的就進(jìn)行相交拆分,不能相交拆分的就進(jìn)行不相交拆分,最終使70000多漢字中要進(jìn)行不相交拆分的漢字的比重降到極小,從而既維護(hù)了"尊重結(jié)構(gòu)"的大局,也實(shí)現(xiàn)了對(duì)這些漢字的經(jīng)濟(jì)編碼。本發(fā)明尊重了絕大部分漢字的結(jié)構(gòu),使?jié)h字部件拆分變得空前簡(jiǎn)單,并對(duì)部件作了定量處理,又對(duì)部件實(shí)行讀音首字母取碼與歸并,使它們具有不易被忘卻的本質(zhì),兩者結(jié)合就將漢字部件的易學(xué)易用性提升到了更高水平,從而能實(shí)現(xiàn)漢字的排序與檢索。本發(fā)明尊重了絕大部分漢字的結(jié)構(gòu),使?jié)h字部件拆分變得空前簡(jiǎn)單,并對(duì)部件作了定量處理,又對(duì)部件實(shí)行讀音首字母取碼與歸并,使它們具有不易被忘卻的本質(zhì),兩者結(jié)合就將漢字部件的易學(xué)易用性提升到了更高水平,并采用中文搜索引擎技術(shù),最終完成音碼、形碼的優(yōu)點(diǎn)結(jié)合,從而將漢語(yǔ)的輸入速度提升到更高的層次。本發(fā)明絕對(duì)尊重現(xiàn)代漢語(yǔ)通用字的結(jié)構(gòu),給部件定量,形成了"現(xiàn)代漢^"通用字都由固定的'漢字'平面拼合而成"的局面,從而便于進(jìn)行漢字認(rèn)知和規(guī)范書(shū)寫(xiě)教育。站在民族利益和文化發(fā)展的戰(zhàn)略高度觀之,合理的漢字編碼方案不僅能解決漢字的排序與檢索問(wèn)題、漢語(yǔ)的快速輸入問(wèn)題,更能解決漢語(yǔ)學(xué)習(xí)問(wèn)題,從而培養(yǎng)青少年一代使用漢語(yǔ)的能力,令漢語(yǔ)發(fā)揮出巨大的威力。總而言之,成熟的漢字編碼方案必將在漢語(yǔ)鍵盤(pán)輸入、漢語(yǔ)規(guī)范化進(jìn)程、華夏民族優(yōu)秀文化的傳承等各個(gè)方面產(chǎn)生積極而深遠(yuǎn)的影響,也將展現(xiàn)出漢語(yǔ)的無(wú)限優(yōu)越性,讓全世界重新認(rèn)識(shí)人類(lèi)的漢語(yǔ)。附圖為漢字部件拆分原則與方法示意圖具體實(shí)施例方式一、對(duì)漢字進(jìn)行部件拆分對(duì)漢字進(jìn)行編碼涉及漢字結(jié)構(gòu)和漢字編碼兩個(gè)方面的問(wèn)題,以"尊重漢字結(jié)構(gòu),實(shí)現(xiàn)經(jīng)濟(jì)編碼"為原則對(duì)漢字進(jìn)行部件拆分。盡量從相離和相接處拆分部件是尊重漢字結(jié)構(gòu)的本質(zhì)要求,使?jié)h字拆分出的部件盡量少則是漢字經(jīng)濟(jì)編碼的客觀要求,后者須以前者為前提。"相交"指筆畫(huà)相互交叉有交點(diǎn);"相接"指一筆畫(huà)的首或尾與另一筆畫(huà)首、腰、尾接觸,反之亦然;"相離"指筆畫(huà)不相交且不相接。依漢字的上(中)下、左(中)右、(半/全)包圍結(jié)構(gòu)對(duì)漢字進(jìn)行每一級(jí)部件拆分叫漢字部件的不相交有理拆分,依漢字平面結(jié)構(gòu)以其他結(jié)構(gòu)從筆畫(huà)不相交處進(jìn)行部件拆分叫漢字部件的不相交無(wú)理拆分,兩者概述為不相交拆分。極少數(shù)不影響結(jié)構(gòu)和筆數(shù)的筆畫(huà)搭掛視為相接,按筆畫(huà)相接拆分,如"孝"拆為",子","存"拆為"大I子","在"拆為"大I土"等。依漢字平面結(jié)f勾從筆畫(huà)相交處進(jìn)行部件拆分叫漢字部件的相交無(wú)理拆分或相交拆分,^目的主要是經(jīng)濟(jì)編碼,方便漢字排序與檢索,它是對(duì)現(xiàn)代漢語(yǔ)通用字以外的部分漢字進(jìn)行^件拆分的一個(gè)行之有效的輔助手段。辯證地分析了漢字部件拆分與漢字編碼的關(guān)系,可得出漢字部件拆分的兩條原則與方法第一條尊重結(jié)構(gòu)少部件,先離后接大優(yōu)先。此條適用于現(xiàn)代漢語(yǔ)通用字和現(xiàn)代漢語(yǔ)通用字之外可以不相交拆分的漢字。"尊重結(jié)構(gòu)少部件"即尊重漢字結(jié)構(gòu),依據(jù)漢字結(jié)構(gòu)拆分部件,使拆分出來(lái)的部件盡量少。尊重漢字結(jié)構(gòu)要從如下四個(gè)方面理解。一是單筆不拆,即單一筆畫(huà)不拆分成兩個(gè)或多個(gè)筆畫(huà),如"串"不拆分為"中中"、"我"不拆分為"J凈戈";二是相交不拆,即不從筆畫(huà)相互交叉有交點(diǎn)的地方拆分部件,如"甩"不拆分為"月L"、"豕"不拆分為"豕、";三是四大結(jié)構(gòu),即盡量依照漢字的上(中)下、左(中)右、(半/全)包圍結(jié)構(gòu)對(duì)漢字進(jìn)行每一級(jí)部件拆分,如"照"拆分為"日刀口"、、",其次依照漢字的其他結(jié)構(gòu)從筆畫(huà)不相交處進(jìn)行部件拆分,如"奈"拆為"大、/日小";四是就近組合,即盡量使筆順相鄰的筆畫(huà)組合成部件,如"鰥"拆為"魚(yú)^I夕;"而非"魚(yú)^卜-、"。依據(jù)漢字結(jié)構(gòu)拆分部件,使拆分出來(lái)的部件盡量少,并不是說(shuō)要使先拆分出來(lái)的部件最大(即筆畫(huà)數(shù)最多),如"鼓"拆分為"十豆十又"而非"士口"十又",是因?yàn)榍罢呤拐麄€(gè)漢字的部件最少,后者首部件"士"的筆畫(huà)雖比前者首部件"十"的筆畫(huà)多,但并未使整個(gè)漢字的部件最少。"先離后接大優(yōu)先"即"先離后接"和"大優(yōu)先"。"先離后接"指從筆畫(huà)相離和相接處拆分部件,如果幾種拆分都使?jié)h字部件最少,則能從部件相離處拆分的不從相接處拆分,如"余"拆為"人于八"而非"人一木","主"拆為"、王"而非"工土";"大優(yōu)先"指如果幾種拆分都使?jié)h字部件最少,并且都只從相離處拆分或都只從相接處拆分,則使先拆分出的部件筆畫(huà)盡量多,如"午"拆為"—十"而非"j干"。第二條依照結(jié)構(gòu)難拆分,相交強(qiáng)拆大優(yōu)先。此條適用于現(xiàn)代漢語(yǔ)通用字之外需要相交拆分的漢字。"依照結(jié)構(gòu)難拆分"指明拆分的對(duì)象是現(xiàn)代漢語(yǔ)通用字之外無(wú)法進(jìn)行不相交拆分的漢字,它們無(wú)法按照尊重漢字的結(jié)構(gòu)的方式進(jìn)行拆分。換句話(huà)說(shuō),能按照"尊重結(jié)構(gòu)"拆分的就是現(xiàn)代漢語(yǔ)通用字,否則就不是,這也是辨別現(xiàn)代漢語(yǔ)通用字的最簡(jiǎn)單的方法。"相交強(qiáng)拆大優(yōu)先"即"相交強(qiáng)拆"和"大優(yōu)先"。"相交強(qiáng)拆"指,對(duì)按照現(xiàn)代漢語(yǔ)通用字共有的部件進(jìn)行不相交拆分但不能完成拆分的漢字,只考慮經(jīng)濟(jì)編碼因素使該漢字部件最少而強(qiáng)行對(duì)其從筆畫(huà)相交處拆分,并使相鄰的筆畫(huà)組合成部件,如"單"拆分為"口口日十"而非"口口甲一";"大優(yōu)先"指在保持該漢字部件最少的情況下,使先拆分出的部件筆畫(huà)盡量多,如"匁"拆為"刀、"而非"L乂"。另外,漢字中可構(gòu)成部件的幾個(gè)部分有時(shí)會(huì)被其他筆畫(huà)隔離,拆分時(shí)要將其組合還原成一個(gè)部件,漢字部件排列順序由部件的第一筆畫(huà)的先后順序決定。如,"奈"拆為"大v日小","兆"拆為"兒""',"來(lái)"拆為"未、,"。上述原則與方法換言之就是在A漢字進(jìn)行拆分時(shí),首先判斷用部件表中的部件能否將它按照四大結(jié)構(gòu)拆分。能拆分則遵照"尊重結(jié)構(gòu)少部件,先離后接大優(yōu)先"的原則和方法對(duì)其進(jìn)行部件拆分,以達(dá)到在尊重漢字結(jié)構(gòu)的基礎(chǔ)上實(shí)現(xiàn)經(jīng)濟(jì)編碼的目的;不能按照四大結(jié)構(gòu)拆分則遵照"依照結(jié)構(gòu)難拆分,相交強(qiáng)拆大優(yōu)先"的原則和方法對(duì)其進(jìn)行部fW斥分,以達(dá)到在無(wú)法尊重漢字結(jié)構(gòu)的情況下實(shí)現(xiàn)經(jīng)濟(jì)編碼的目的。如附圖l所示。二、對(duì)漢字部件進(jìn)行定量、取碼與歸并漢字筆畫(huà)指在漢字楷體書(shū)寫(xiě)過(guò)程中不間斷的直線(xiàn)或曲線(xiàn)。漢字部件指構(gòu)成漢字的單元或筆畫(huà)塊,既可以是單一筆畫(huà),也可以是多個(gè)筆畫(huà)的組合。由一個(gè)筆畫(huà)構(gòu)成的部^f牛叫單筆部件,單筆部件除漢字"一""乙"外都為非成字部件(即不能單獨(dú)作為現(xiàn)代漢字使用的部件)。由至少兩個(gè)筆畫(huà)組成的部件叫多筆部件,多筆部件可分為成字部件(能單獨(dú)作為現(xiàn)代漢字使用的部件)和非成字部件。單筆根據(jù)漢字部件拆分的實(shí)際需要可成為單筆部件。利用大寫(xiě)字母AEIOU的書(shū)寫(xiě)首筆與漢字筆畫(huà)"撇橫豎點(diǎn)折"的形近聯(lián)系,將"橫豎撇點(diǎn)折"等單筆部件的取碼相應(yīng)定為EIAOU,其中"一""乙"兩個(gè)部件的取碼須具體對(duì)待。對(duì)多筆部件則取部件讀音首字母為碼并按取碼歸并為25類(lèi)(字母V不參與編碼,用作查詢(xún)鍵),其中"長(zhǎng)""車(chē)(車(chē))""單""樂(lè)""'龜(龜)""鳥(niǎo)""石"等部件的取碼也須具體對(duì)待。另外,作為漢字部件使用的"子"在漢字書(shū)寫(xiě)中常受其他筆畫(huà)或部件的影響而寫(xiě)成"孑",與漢字"孑孓"的"孑"同形,故"孑"作為漢字的部件使用時(shí)取碼為Z,而作為漢字"孑(jiO"單獨(dú)使用時(shí)取碼為J。如表l和2所示。在漢字書(shū)寫(xiě)過(guò)程中,鑒于形體美觀等因素,漢字的"豎鉤""豎折鉤"受下方部件或筆畫(huà)的影響演變?yōu)?豎",如"哥"的第五筆和"雀"的第一筆、"園"的第十筆;部件如"i土工王堇生正車(chē)魚(yú)馬立止業(yè)豆耳且"等中的"橫"受右邊部件的影響演變成"提";部件如"木禾耒米束朿夫乂夂"等中的"捺"受右邊部件的影響演變成"點(diǎn)";部件如"L九幾兒七毛Q己"等中帶有"彎鉤"的筆畫(huà)受右邊部件的影響演變成"豎提",如漢字"雞鴆釗顧"等;"十"受下方部件或筆畫(huà)的影響其中"I"的上方會(huì)稍稍向右傾,如"直鄙南"等。另夂卜,"月""用"受上方部件的影響首筆通常變?yōu)樨Q,如"肖肓育肩腎肯背胃冑散"和"甬涌俑蟈踴"等。這些部件變體仍按變化前的部件取碼及歸并。表1<table>tableseeoriginaldocumentpage13</column></row><table>非成字多筆部件的讀音與取碼A!-=兩撇;向=奧字頭;鄉(xiāng)=三撇B3=北字旁;少=步字底;亦=變字頭;1=扁字底尚=敝字旁、^=倒八;—=寶蓋^=禿寶蓋與=卑字頭廣=病字框C處=赤字底;齒=曹字頭目=曾字腰;屮=蚩字頭*=春字頭;*=草字頭;乂=叉子D"'=當(dāng)字頭;^=朵字頭^=登字頭;夂=冬字頭樸=帶字頭;血=典字頭^=帝字頭;]1=商字框1=段字旁;弔=弟?。弧?=兜左角;;)=刀中;>立刀E![5=雙耳;耳=耳省F:幾=鳳字框;廠(chǎng)=反字框;々=負(fù)字頭;力=方字底;幸=豐旁G目=官字底;臾=庚字心;豆=寡字腰;風(fēng)=骨字頭;戈=戈??;巧-gua;A-告字頭;小、=恭字底;毋gudm;龜=龜H爪=荒字底;並=寒字腰;七=化字邊;度=惠字頭;二=侯上角;崔=鶴字邊;-少=鶴字角;互=互??;5=號(hào)字底;產(chǎn)=虎字頭;U-畫(huà)字框.1!1|=一短一長(zhǎng)兩豎Ji牛=舉字底;且-具字頭;牛=降字底;^=祭右角;艮=即字旁;無(wú)=既字邊;8=巻字底;M=將字旁;P-節(jié)字底;乙=建之;勺=句字框〕=巨字心;4=jiii;孑-j";孓=化6K■尹=看字頭G^留左角;東=練字邊*=鹿字心;少=老字頭=臨下角;&=臨右角;3=錄字頭;^=羅字頭;1=立字頭;內(nèi)=離字底M曰=冒字頭;尸=眉字框5=卯字旁;木=木底N.3=那字旁;£=虐字底*=囊字頭;升=弄字底;^^=鳥(niǎo)鳥(niǎo)省0■;7=兩點(diǎn);?"'=三點(diǎn)"、、=四點(diǎn)P!爿pi6nQi"=前字頭;7=輕右角t4頁(yè)字旁;」|=喬字底;lt-其字頭;$=妻字頭;匚=區(qū)字框;曳=錢(qián)字邊;3=反犬旁R!夕=然左角—=臥人;4=單立人;《=雙立人s卩=師字旁豕=豕??;疋=是字底;"=率字腰;*=叟字頭;眠=鼠字底;"^=衰字腰;纟鄉(xiāng)=絲旁;亇f=食旁;才=提手;才、=示旁;厶二si;巳二siT'^=套字腰;申=唐字腰;門(mén)=同字框u〈〈=兩折;〈《=三折WLt二吳字底±=五省;夂=反文;口=圍字框冊(cè)=舞字心X、、e學(xué)字頭定=卸字旁規(guī)=羲字底^=昔字頭3=雪字底;叚sidY1^'=以字旁'卑=衣補(bǔ);正=延字心;-梨=庸字心ft輿字腰6=頤字旁;S-耰字角;一《=勇字頭;1=或字框Z/1=周字框;卜=貞字頭;力=姊字邊.大=左字框;[=走之;^=竹頭;希=制字旁;^豕=啄字邊;^-責(zé)字頭;足=足旁;^=爪頭;豸zhi;隹zhul表2'同樣,漢字在造形上偶爾也存在著筆畫(huà)長(zhǎng)短區(qū)別的現(xiàn)象,如"幸"拆為"土v干","逹"的第四橫雖比第三橫短,但半包圍的部分明顯是一個(gè)"幸",故該字拆為"土、/干L"。類(lèi)似的映射在漢字集中吋有發(fā)生,如"欐"拆為"木王口口口口","噩"雖三橫等長(zhǎng),但參照"欐",仍拆為"王口口口";"鳘""繁"參照"敏"分別拆為"尸母夂魚(yú)"和,""母夂白水","潔"參照"敏""繁"拆分為"?卜母夂幺小";同理,"園""遠(yuǎn)"參照"袁"、"還"參照"袁""寰"進(jìn)行部件拆分。像"乗"這樣的字也存在上述情況,"^"的第二橫雖寫(xiě)得較短,但并不影響它與部件表中其他部件的區(qū)分,故該字拆為"禾^"。然而,部件并不應(yīng)存在形似而神非的替代,要求嚴(yán)格區(qū)分有筆畫(huà)長(zhǎng)短區(qū)別或筆畫(huà)出頭、不出頭區(qū)別的部件,不存在相似性替代,如不用"夕"替代"義",不用"七"替代"匕"或"七(化字邊)",不用"日"替代"曰"或"曰"("曰"與兩橫相離,如"冒、帽、冕")等。其中"口k5u"和"口w6i"的區(qū)別在于,"口wd"中間含有不與之相交的多個(gè)筆畫(huà)。三、對(duì)漢字(詞)進(jìn)行排序與檢索采用部件排序與檢索,無(wú)須認(rèn)識(shí)漢字,也無(wú)須尋找部首,更不必?cái)?shù)筆畫(huà),只要將漢字進(jìn)行部件拆分并以拆分順序取碼,每個(gè)漢字就都能對(duì)應(yīng)惟一的編碼。本發(fā)明在漢字(包括漢字詞)本身的排序(編碼)與檢索(査字詞)和查閱學(xué)習(xí)類(lèi)的排序(編碼)與檢索(查字詞)上分別采用如下方法-(一)漢字詞通用排序與檢索1.部件以漢字的形式出現(xiàn)構(gòu)成單音節(jié)詞時(shí),編碼為其讀音首字母加筆畫(huà);2.部件作為某一漢字的非惟一構(gòu)成部分時(shí),編碼為其讀音首字母;3.部件以漢字形式出現(xiàn)在非單音節(jié)詞中時(shí),編碼為其讀音首字母。單音節(jié)詞和非單音節(jié)詞均以編碼后的字母排列順序進(jìn)行排序;若幾個(gè)非單音節(jié)詞的編碼完全相同,則依次以各自部件的排序決定它們的排序。檢索時(shí),先拆分單音節(jié)詞,或非單咅節(jié)詞的前一或幾個(gè)字,依拆分部件的取碼順序查找即可很快找到所查的字或詞。舉例如表3所示。(二)查閱學(xué)習(xí)類(lèi)辭書(shū)排序與檢索1.部件以漢字形式出現(xiàn)構(gòu)成單音節(jié)詞時(shí),編碼為其讀音首字母加筆畫(huà);2.部件作為某一漢字的非惟一構(gòu)成部分時(shí),編碼為其讀音首字母;3.部件以漢字形式出現(xiàn)在非單音節(jié)詞中時(shí),編碼為其讀音首字母。辭書(shū)以漢字(單音節(jié)詞)編碼后的字母排列順序?qū)h字進(jìn)行排序,對(duì)非單音節(jié)詞則按其首字歸為一類(lèi),并以首字后的漢字的編碼順序排序;若幾個(gè)非單音節(jié)詞的編碼完全相同,則依次以各自部件的排序決定它們的排序。檢索時(shí),先拆分單音節(jié)詞,依拆分部件的取碼順序查找即可找到所査的字,或先拆分非單i節(jié)詞的首字,依拆分部件的取碼順序找到首學(xué),再拆分該詞首字后的字,依拆分部件的取碼順序即可在首字所屬詞條內(nèi)很快找到所查的詞。舉例如表4所示'。四、制作鍵盤(pán)輸入系統(tǒng)按上述漢字部件拆分的原則和方法對(duì)漢字進(jìn)行拆分最大限度地降低了拆分的難度,對(duì)部件實(shí)行讀音首字母取碼與歸并則使人們對(duì)部件取碼的記憶有根深蒂固的漢語(yǔ)拼者知識(shí)依據(jù),使它們具有不易被忘卻的本質(zhì),兩者結(jié)合就將漢字部件的易學(xué)易用性提升到了更高水平,從<table>tableseeoriginaldocumentpage15</column></row><table>而為順利進(jìn)行漢語(yǔ)鍵盤(pán)輸入打下堅(jiān)實(shí)的基礎(chǔ)。制作鍵盤(pán)輸入系統(tǒng)采取如下輸入取碼方式.單音字詞中的部件字(指可整體作基礎(chǔ)部件的漢字).的輸入取碼方式為部件字加其前三筆,少于三筆時(shí)取實(shí)際筆畫(huà)數(shù),單音字詞中的非部件字的輸入取碼方式為前三部件加末部件(不足三部件時(shí)依次取前兩部件首筆湊碼);雙音節(jié)詞或短語(yǔ)的輸入取碼方式為兩字前兩部件(部件字取其首筆湊碼);三音節(jié)詞或短語(yǔ)的輸入取碼,式為前字前兩部件加后兩字首部件(部件字取首筆湊碼);四及以上音節(jié)詞或短語(yǔ)的輸入取i馬方式為前四字首部件。如表5所示。單音節(jié)字或詞部件字部件字+其前三筆少于三筆時(shí)^:又實(shí)際筆畫(huà)數(shù)木木一1JMEIA々FAU非部件字前三部'件+末部件不足三部件依次取前兩部件首筆湊碼魏未女口厶鵬S'親立本、一LM0E雙音節(jié)詞或短語(yǔ)兩字前兩部件部件字取其首筆湊碼便利4更禾iJRGHD豆腐豆一廣4DEGR三音節(jié)詞或短語(yǔ)前字前兩部件+后兩字首部件部件字取首筆湊碼四季豆四1禾豆SIHD灰蒙蒙丈火廿廿ZHCC四及以上音節(jié)詞或短語(yǔ)前四字首部件南轅北轍十車(chē)口車(chē)SCBC人民民主人民民、R,人民民主專(zhuān)政人民民、R鵬中華人民共和國(guó)中<人民ZRMER丁YU10p起為而人他要你我有片XcBM在些次不能民ASDGHK匕這是的一三個(gè)禾口就可了表5鍵盤(pán)輸入系統(tǒng)采用語(yǔ)料庫(kù)方法和統(tǒng)計(jì)語(yǔ)言模型等中文信息處理技術(shù),使輸入法軟件具有"智能"。只要鍵入Warra-zlrm-d-yjzk-s-yeeb,中文搜索引擎技術(shù)的前后匹配功能就會(huì)使屏幕上出現(xiàn)"我們?cè)谶@個(gè)問(wèn)題上的觀點(diǎn)是一致的"的語(yǔ)句,其中重碼詞語(yǔ)被自動(dòng)取舍,這樣就不必輸入全拼Women-zaizhegewentishang-de-guandian-shi-yizhide或雙拼形式下的30個(gè)字母。此外,新的輸入系統(tǒng)將漢語(yǔ)通用字和非通用字分別建庫(kù),以減少單音字詞鍵盤(pán)輸入的重碼率。同吋允許存在-一三鍵簡(jiǎn)碼,一鍵簡(jiǎn)碼字可按漢字部件拆分的原則和方式拆分、按漢字詞的輸入取碼方式取碼,而不影響由其構(gòu)成的漢字詞或短語(yǔ)的正常輸入。如表6所示。五、進(jìn)行漢字認(rèn)知與規(guī)范書(shū)寫(xiě)教育及后續(xù)漢語(yǔ)教育搞清漢字部件拆分和漢字編碼的關(guān)系,有了清晰的漢字部件拆分的原則和方法,也有了完整的漢字基礎(chǔ)部件表,不僅可以用它們對(duì)漢字進(jìn)行排序與檢索,用它們制作漢語(yǔ)鍵盤(pán)輸入系統(tǒng),還可以用來(lái)進(jìn)行漢語(yǔ)教學(xué)。1.教會(huì)學(xué)生認(rèn)讀基礎(chǔ)部件,掌握筆順規(guī)則正確書(shū)寫(xiě)基礎(chǔ)部件,掌握漢字的結(jié)構(gòu),讓他們認(rèn)識(shí)漢字是怎樣由這些基本部件構(gòu)成的,采取"以部件為綱"的識(shí)字、寫(xiě)字方法,從簡(jiǎn)單到復(fù)雜地循序漸進(jìn)地進(jìn)行漢字認(rèn)知。表62.把上述l的方式反過(guò)來(lái),讓學(xué)生掌握漢字拆分成部件的原則和方法,教會(huì)他們?nèi)h字部件的首字母并按漢字部件順序排列,依這個(gè)字母串在漢語(yǔ)辭書(shū)中查找字詞,實(shí)現(xiàn)漢字詞的檢索,學(xué)習(xí)它們的音、義等方面的知識(shí)。3.讓學(xué)生掌握漢字拆分成部件的原則和方法,教會(huì)他們按照漢字詞鍵盤(pán)輸入取碼方式取漢字詞各字所規(guī)定的部件的首字母,在電腦、手機(jī)或其他同類(lèi)產(chǎn)品上快速輸入漢字詞、查閱凝結(jié)民族優(yōu)秀文化和智慧于其中的熟語(yǔ)、著名散文詩(shī)詞句等,并教會(huì)他們以同樣的方式對(duì)短語(yǔ)、語(yǔ)句進(jìn)行輸入,讓系統(tǒng)強(qiáng)大的語(yǔ)料功能幫助他們糾正漢語(yǔ)詞f及語(yǔ)法錯(cuò)誤,規(guī)范其漢語(yǔ)言的使用。4.以上述13的方法進(jìn)行對(duì)外漢語(yǔ)教學(xué),外國(guó)學(xué)生也能很快地學(xué)寫(xiě)漢字,查找并學(xué)習(xí)漢字詞,以及在電腦或同類(lèi)產(chǎn)品上快速地輸入漢語(yǔ),學(xué)習(xí)漢語(yǔ),理解中國(guó)的優(yōu)秀傳統(tǒng)文化。權(quán)利要求1.古今中外絕大部分漢字是合成字,這使得漢字部件間相離和相接(特別是相離)的關(guān)系占據(jù)了絕對(duì)優(yōu)勢(shì),客觀上要求對(duì)漢字盡可能從部件相離和相接處拆分。另一方面,漢字編碼最直接的功能是排序和檢索,要求盡量用最少的碼數(shù)反映漢字的全貌,這就要求使?jié)h字拆分出的部件盡量少。盡量從相離和相接處拆分部件是尊重漢字結(jié)構(gòu)的本質(zhì)要求,使?jié)h字拆分出的部件盡量少則是漢字經(jīng)濟(jì)編碼的客觀要求,后者必須以前者為前提。2.按權(quán)利要求l,在漢字部件拆分過(guò)程中,首先必須盡量從漢字相離和相接處拆分。依漢字的上(中)下、左(中)右、(半/全)包圍結(jié)構(gòu)對(duì)漢字進(jìn)行每一級(jí)部件拆分叫漢字部件的不相交有理拆分,依漢字平面結(jié)構(gòu)以其他結(jié)構(gòu)從筆畫(huà)不相交處進(jìn)行部件拆分叫漢字部件的不相交無(wú)理拆分,兩者可概述為不相交拆分,依漢字平面結(jié)構(gòu)從筆畫(huà)相交處進(jìn)行部件拆分叫漢字部件的相交無(wú)理拆分或相交拆分。'3.按權(quán)利要求1和2,漢字部件拆分的原則與方法之一是尊重結(jié)構(gòu)少部件,先離后接大優(yōu)先。它適用于現(xiàn)代漢語(yǔ)通用字和現(xiàn)代漢語(yǔ)通用字之外可以不相交拆分的漢字。"尊重結(jié)構(gòu)少部件"即尊重漢字結(jié)構(gòu),依據(jù)漢字結(jié)構(gòu)拆分部件,使拆分出來(lái)的部件盡量少。"先離后接大優(yōu)先"即"先離后接"和"大優(yōu)先"。"先離后接"指從筆畫(huà)相離和相妾處拆分部件,如果幾種拆分都使?jié)h字部件最少,則能從部件相離處拆分的不從相接處拆分;"大優(yōu)先"指如果幾種拆分都使?jié)h字部件最少,并且都只從相離處拆分或都只從相接處拆分,則使先拆分出的部件筆畫(huà)盡量多。4.按權(quán)利要求1和2,漢字部件拆分的原則與方法之一是依照結(jié)構(gòu)難拆分,相交強(qiáng)拆大優(yōu)先。它適用于現(xiàn)代漢語(yǔ)通用字之外需要相交拆分的漢字。"依照結(jié)構(gòu)難拆分"指明拆分的對(duì)象是現(xiàn)代漢語(yǔ)通用字之外無(wú)法進(jìn)行不相交拆分的漢字,它們無(wú)法按照尊重漢字的結(jié)構(gòu)的方式進(jìn)行拆分。"相交強(qiáng)拆大優(yōu)先"即"相交強(qiáng)拆"和"大優(yōu)先"。"相交強(qiáng)拆"指,對(duì)按照現(xiàn)代漢語(yǔ)通用字共有的部件進(jìn)行不相交拆分但不能完成拆分的漢字,只考慮經(jīng)濟(jì)編碼因素使該漢字部件最少而強(qiáng)行對(duì)其從筆畫(huà)相交處拆分,并使相鄰的筆畫(huà)組合成部件;"大優(yōu)先"指在保持該漢字部件最少的情況下,使先拆分出的部件筆畫(huà)盡量多。5.單筆根據(jù)漢字部件拆分的實(shí)際需要可成為單筆部件,利用大寫(xiě)字母AEIOU的書(shū)寫(xiě)首筆與漢字筆畫(huà)"撇橫豎點(diǎn)折"的形近聯(lián)系,將"橫豎撇點(diǎn)折"等單筆部件的取碼相應(yīng)定為EIAOU,對(duì)多筆部件則取部件讀音首字母為碼并按取碼歸并為25類(lèi),其中多筆部件的選擇、取碼及歸并是-A撇-囪多凹Bj少亦冊(cè)》衝八(、/)—d半(,)廣卜匕白貝巴不必本秉C處w^出(屮)秀w乂川蟲(chóng)廠(chǎng)寸才串匆朿斥臣冊(cè)垂承丑車(chē)(車(chē)r長(zhǎng)'D、"A*j&f宋〔"夂A(f])刀(jij)丁大東歹豆電丹單'E橫二耳(P斗)兒而F幾廠(chǎng)々方(力)豐W)飛非夫弗發(fā)甫市G口臾旦&(巧)戈(戈)&小、丐工干弓廣革瓜甘更果毋央龜(龜)4H瓜在乜繭二崔(少)A萬(wàn)產(chǎn)U未火戶(hù)乎亥奐黑I豎II6.按權(quán)利要求1、2和5,漢字詞通用排序與檢索方式為部件以漢字的形式出現(xiàn)構(gòu)成單音節(jié)詞時(shí),編碼為其讀音首字母加筆畫(huà);作為某一漢字的非惟一構(gòu)成部分時(shí),編碼為其讀音首字母;以漢字形式出現(xiàn)在非單音節(jié)詞中時(shí),編碼為其讀音首字母。單音節(jié)詞和非單音節(jié)詞均以編碼后的字母排列順序進(jìn)行排序,若幾個(gè)非單音節(jié)詞的編碼完全相同,則依次以各自部件的排序決定它們的排序;檢索時(shí),先拆分單音節(jié)詞,或非單音節(jié)詞的前一或幾個(gè)字,依拆分部件的取碼順序査找即可很快找到所査的字或詞。7.按權(quán)利要求1、2和5,查閱學(xué)習(xí)類(lèi)辭書(shū)排序與檢索方式為部件以漢字形式出現(xiàn)構(gòu)成單音節(jié)詞吋,編碼為其讀音首字母加筆畫(huà);作為某一漢字的非惟一構(gòu)成部分時(shí),編碼為其讀音首字母;以漢字形式出現(xiàn)在非單音節(jié)詞中時(shí),編碼為其讀音首字母。辭書(shū)以漢字(單音節(jié)詞)編碼后的字母排列順序?qū)h字進(jìn)行排序,對(duì)非單音節(jié)詞則按其首字歸為一類(lèi),并以首字后的漢字的編碼順序排序,若幾個(gè)非單音節(jié)詞的編碼完全相同,則依次以各自部件的排序決定它們的排序;檢索時(shí),先拆分單音節(jié)詞,依拆分部件的取碼順序査找即可找到所査的字,或先拆分非單音節(jié)詞的首字,依拆分部件的取碼順序找到首字,再拆分該詞首字后的字,依拆分部件的取碼順序即可在首字所屬詞條內(nèi)很快找到所査的詞。8.按權(quán)利要求l、2、3、4和5制作成音形王碼漢語(yǔ)輸入法,單音字詞中的部件字的輸入取碼方式為部件字加其前三筆,少于三筆時(shí)取實(shí)際筆畫(huà)數(shù),單音字詞中的非部件字的輸入取碼方式為前三部件加末部件(不足三部件時(shí)依次取前兩部件首筆湊碼);雙音節(jié)詞或短語(yǔ)的輸入取碼方式為兩字前兩部件(部件字取其首筆湊碼);三音節(jié)詞或短語(yǔ)的輸入取碼方式為前字前兩部件加后兩字首部件(部件字取首筆湊碼);四及以上音節(jié)詞或短語(yǔ)的輸入取碼方式為前四字首部件。9.按權(quán)利要求8,輸入法采用語(yǔ)料庫(kù)方法和統(tǒng)計(jì)語(yǔ)言模型等中文信息處理技術(shù),使其與中文搜索引擎技術(shù)相結(jié)合。如輸入語(yǔ)句"我們?cè)谶@個(gè)問(wèn)題上的觀點(diǎn)是一致的",只要鍵入Warm-zlrm-d-yjzk-s-yeeb就可以,不必像音碼夷卩樣輸入全拼Women陽(yáng)zaizhegewentishang-de-guandian-shi-yizhide或雙拼形式下的30個(gè)字母。10.按權(quán)利要求8和9,輸入法將漢語(yǔ)通用字和非通用字分別建庫(kù),以減少單音字詞鍵盤(pán)輸入的重碼率,同時(shí)允許存在一三鍵簡(jiǎn)碼,一鍵簡(jiǎn)碼字可按漢字部件拆分的原則和方式拆分、按漢字詞的輸入取碼方式取碼,而不影響由其構(gòu)成的漢字詞或短語(yǔ)的正常i入。全文摘要音形王碼漢字編碼方案,涉及漢字編碼方案的設(shè)計(jì)及其在漢字排序與檢索、漢語(yǔ)鍵盤(pán)輸入、漢字認(rèn)知與書(shū)寫(xiě)教育及漢語(yǔ)后續(xù)教育等方面的應(yīng)用。對(duì)通用字不相交拆分,實(shí)現(xiàn)部件定量,再用它們對(duì)非通用字進(jìn)行相交或不相交拆分。對(duì)絕大多數(shù)漢字不相交拆分尊重了漢字結(jié)構(gòu)也使拆分簡(jiǎn)單,對(duì)少數(shù)非通用字相交拆分則能實(shí)現(xiàn)經(jīng)濟(jì)編碼。對(duì)部件取其讀音首字母為碼并歸并,使部件易學(xué)易用。將漢字進(jìn)行部件拆分并依次取碼能實(shí)現(xiàn)漢字排序與檢索,再對(duì)詞或短語(yǔ)中的漢字進(jìn)行選碼能實(shí)現(xiàn)漢語(yǔ)鍵盤(pán)輸入,采用中文搜索引擎技術(shù)可將普通速度提高到每分鐘150~200個(gè)漢字。部件與漢字關(guān)系緊密而清晰,能正確書(shū)寫(xiě)部件,就能正確書(shū)寫(xiě)漢字并用鍵盤(pán)輸入漢語(yǔ),利于漢語(yǔ)基礎(chǔ)教育和后續(xù)教育。文檔編號(hào)G06F17/28GK101295297SQ20071005197公開(kāi)日2008年10月29日申請(qǐng)日期2007年4月26日優(yōu)先權(quán)日2007年4月26日發(fā)明者王道平申請(qǐng)人:王道平