專利名稱:使用漢語拼音的漢字?jǐn)?shù)據(jù)處理和字處理的方法和裝置的制作方法
供參考的相關(guān)申請本申請是申請?zhí)枮镹o.745,302的美國專利的繼續(xù)部分,該專利的申請日為1985.6.14,現(xiàn)已放棄。
發(fā)明背景本發(fā)明為用于指示漢語數(shù)據(jù)和漢字處理的方法及設(shè)備,特別是利用規(guī)定的漢語拼音的處理方法和設(shè)備,這將避免由於同音異義和同音而引起的含糊。
現(xiàn)代漢字首先是多音節(jié)的,按照傳統(tǒng)慣例,書寫的每一個漢字由一個或多個表意文字所組成,它們是一個概念或一種事物的形象化的表示方法。每一個表意文字都有一個單音節(jié)的發(fā)音。然而,由于在口語中,漢字包括大量的同音異義字,這些字(系指表意字)寫法不同或者意義不同,卻具有同樣的聲音,因而使用單音節(jié)字是不夠的。那也就是說,一單個的漢語口頭音節(jié)能表示許多不同的表意文字,因此,也就能表示許多不同的意義。這種情況,使得用單音節(jié)字進行口頭交換成為不實際的情形。
為了克服這個困難,一種首先是多音節(jié)的口頭語言已逐漸形成,它把一個復(fù)雜的表意文字排成一串,形成一個多音節(jié)字,這樣在很大的程度上減少了這種字具有多個函意的可能性,結(jié)果,口頭漢語約有80%的多音節(jié)字(75%為雙音節(jié)字)?,F(xiàn)代的書寫漢字已經(jīng)效仿口語,結(jié)果,在書寫漢字中采用了許多表意文字復(fù)合詞,它們都是多音節(jié)字。
在現(xiàn)代漢語中大約使用8000個表意文字,而全部表意文字略超過50,000個,其中多數(shù)是很少使用的,而且在日常語言中也不出現(xiàn)。在1981年,中華人民共和國建立了6,763個表意文字標(biāo)準(zhǔn)集,用于中國的廣播系統(tǒng),結(jié)果約8000個基本表意漢字能應(yīng)付漢字的實際應(yīng)用。
在中國對使用表意文字享有強烈的文化上的偏見,并將它視作為一種民族統(tǒng)一的力量。由于這個原因,任何漢字處理系統(tǒng)或漢字?jǐn)?shù)據(jù)處理系統(tǒng)最好能以漢字表意文字作為其輸出,但是以表意文字作為直接輸入手段是不實際的,因為它要求在鍵盤上能夠容納很大數(shù)量的表意文字(約8000個)。同樣,由于表意文字不可能用字母標(biāo)記,致使處理或管理表意文字成為困難而麻煩的事情。然而對數(shù)據(jù)和字處理系統(tǒng)而言,重要的是輸出表意文字,而且這種輸出對漢字處理是足夠的,對數(shù)據(jù)處理是不夠的。由于表意文字不能用字母標(biāo)記,故不可能使任何數(shù)據(jù)處理系統(tǒng)輸出的表意文字轉(zhuǎn)成按字母表順序排列的的形式,這就妨礙了高效詞典,電話薄,個人索引薄和其他的分類目錄或按字母表順序排列的目錄的建立,因此,要求具有能夠用按字母表順序排列分類編目的但卻不用表意文字表示的漢字處理系統(tǒng)。
為克服上述困難問題,中國政府已經(jīng)擬定了按字母表順序排列的方案來代表漢字表意文字的方案,這種稱之謂漢語拼音的語言代表了官方(北京方言)的讀法。北京方言具有大約400個不同的單音節(jié)聲音。拼音依靠25個英文字母(不用V)代表所有這400個聲音。這種純語音基準(zhǔn)使拼音取得了成功的效果。在漢語中具有21個輔音字母和16個元音字母(聲音“I”,“u”和“ü”可以加到其他元音字母上去,結(jié)果得到附加的18個復(fù)合元音聲音)。以上每個聲音都能夠唯一地用一個或者多個拼音字母的組合來表示。這樣在輸入和輸出端都采用拼音的系統(tǒng),導(dǎo)致了漢字處理系統(tǒng)在處理效率或方便性等方面的改善。
但是,為了得到表意文字輸出,這種處理系統(tǒng)最初的缺陷在于需要區(qū)分表意漢字中的大量的同音異義字。假定一個劣等字典具有8000個表意文字,每一個漢字音節(jié)(對應(yīng)一單個表意文字)平均具有20個同音異義字(因為漢語中大約有400個不同的聲音音節(jié)),因此,平均的結(jié)果,一個拼音音節(jié)區(qū)分20個不同的表意文字。在某些情況下,對于一個給定的聲音,同音異義字將超過150個。
由于漢語大約80%是多音節(jié)的,而且僅僅用若干有限的表意文字組合構(gòu)成多音節(jié)字,關(guān)于這個問題,在計算機應(yīng)用中,能采取將多音節(jié)拼音的字典式目錄儲存在計算機存儲器中的方法部分地加以克服。當(dāng)送入一個多音節(jié)拼音字時,能夠區(qū)分出表意文字的有限量的可能組合,而通常能用多音節(jié)字唯一地區(qū)分表意文字的簡單組合。但是,使用多音節(jié)字典式目錄比使用純單音節(jié)(表意文字)字典式目錄要求更大的存儲容量,而且將明顯增加從拼音輸入到表意文字輸出的處理時間。甚至由于存儲了大量的多音節(jié)字典式目錄,漢字所突出的同音異義的特點(雙音節(jié)漢字的40%具有同音異義字)妨礙了在拼音和表意文字之間進行唯一而單值的變換。
由于許多的表意文字具有相同的發(fā)音,因此轉(zhuǎn)成的拼音字也具有大量的同音異義字。一般對以拼音作為輸入語言的系統(tǒng)要求具有特殊的拼音方式,或者為了區(qū)分同音異義字要求在多音節(jié)字的末尾附加一個字符。另一種語言轉(zhuǎn)換系統(tǒng)則要求操作人員用手動方式選擇顯示出來的表意文字或復(fù)合字的同音異義字。
拼音具有另外一些較明顯的缺陷,因為它沒有注意到漢語的最基本的特點-音調(diào),拼音僅僅規(guī)定了不同的元音字母或輔音字母的聲音,也就是只規(guī)定了它們的音素。而每一個漢字音節(jié)也有一個音調(diào)問題,即有音調(diào)變化或聲調(diào)高低變化,音調(diào)可以是圖1所示的四種音調(diào)當(dāng)中的任何一種。如圖所示的四種聲調(diào)為第一聲調(diào)(1),它開始高,而且一直停留在高聲調(diào);第二聲調(diào)(2),它開始處中等水平,然后升高;第(3)聲調(diào),開始水平適度,之后跌落,最后升高;而第四聲調(diào)(4),開始高,然后跌落。
人們將把一個聲音音節(jié)以及與此相關(guān)聯(lián)的音調(diào)的組合看作音調(diào)音節(jié)。每一個漢字表意文字,以及由此每一個漢字的音節(jié)都發(fā)一個音調(diào)音節(jié)的音。
因此,一個音調(diào)基準(zhǔn)系統(tǒng)應(yīng)該具有較多的優(yōu)點。僅僅提供聲音信息是不夠的,因為它不能提供發(fā)出一個表意文字所需要的完整信息。再者,如以上所說明的,一個聲音基準(zhǔn)系統(tǒng),對于一個給定的漢字聲音音節(jié),必須涉及到整套同音異義字,而且只能做出不能令人滿意的結(jié)果。而一個音調(diào)基準(zhǔn)系統(tǒng)僅僅需要涉及同音(具有相同音調(diào)的音節(jié),也就是具有相同聲音的音節(jié))。如果在同音程度上分析,而不是在同音異義程度上分析,則由多于一個由給定音調(diào)一音節(jié)所表示的表意文字所引起的含糊不清的平均數(shù)將顯著減少,約降低了三分之二(僅約四分三的音調(diào)音節(jié)用於漢語)。
為了辨別同音異義字,某些屬于已有技術(shù)的刊物已經(jīng)提出了區(qū)分具體要求的同音異義字的方法,即把一個有意義的指示字母附加到每一個拼音音節(jié)上去。由于在拼音字母中有25個字符,則可以用將這25個拼音字符中之一個加到一給定音節(jié)的末尾這個方法來區(qū)分26個不同的表意文字。上述這種系統(tǒng)并未實際應(yīng)用,因為,在這個提出的系統(tǒng)中,附加字母沒有合理地聯(lián)到具體表示的表意文字,而且即使可能,也難以記住哪一個具體字母相應(yīng)每一個具體表意文字。
在1928年,Y,R,Chow考慮到了一個聲音基準(zhǔn)語言的缺陷,他提出了使用拉丁字母的語音(學(xué))系統(tǒng),該系統(tǒng)采用把一個音調(diào)指示字母插進每個聲音音節(jié)來指示該音節(jié)音調(diào)的方法。該系統(tǒng)最初的問題在于這個外加音調(diào)指示字母妨礙對復(fù)合字有意義的按字母順序排列的目錄的建立。該系統(tǒng)不僅難讀,而且不可能唯一地區(qū)別語音字和單個的表意文字。
概括以上所述,拼音在如下兩方面存在著缺陷(1)它并不考慮音調(diào),以及(2)它不可能區(qū)分同音異義字。經(jīng)改進的包括音調(diào)及有意義的指示字母的拼音系統(tǒng)或另外的已有技術(shù)系統(tǒng)能在一定程度上克服上述缺陷,但也可能產(chǎn)生它本身的問題,因為它破壞了語言按字母表順序排列的特點,而且使建立合適的字典式目錄或另一種存儲目錄更為困難。還有一個由已有技術(shù)提出的同改進漢字有關(guān)的問題是,為了區(qū)分具體的表意文字將使所要求的字母的數(shù)量顯著增加,因而降低了清晰度并且使得學(xué)習(xí)起來非常困難。
在任何實際的按字母順序排列的系統(tǒng)中,每一個漢字(由一個或多個表意文字組成)都必須以單獨的字母串打印出來,字間都留有空格。在已有技術(shù)中,沒有用來把一個多音節(jié)字分成組成它們的各個音節(jié)的方法,結(jié)果,必須儲存按字母表排列的字典式目錄,從而增加了對存儲器數(shù)量的要求,同時增加了數(shù)據(jù)或字處理系統(tǒng)的處理時間。即使提供了把一個多音節(jié)字分成組成它們的各個音節(jié)的裝置,現(xiàn)有技術(shù)的按字母表排列的系統(tǒng)不可能在表意文字的拼音表示和相應(yīng)的各個漢字表意文字它們自身之間獲得一一對應(yīng)的關(guān)系。這樣按字母順序排列的表示方法,往往必須進一步由系統(tǒng)的操作人員用手工操作的辦法來區(qū)分大量的表意文字。
發(fā)明的簡要說明該發(fā)明采用的漢語拼音(PCL)系統(tǒng),它用漢語語音字母表(PCA)構(gòu)成漢語拼音字(PCWs),每一個漢語拼音字(PCWs)相應(yīng)有一個表意文字。漢語拼音字依次排成一串形成多音節(jié)的漢語拼音字(PPCWs)。每個PPCW對應(yīng)于一個由復(fù)雜表意文字組成的一個的漢語多音節(jié)復(fù)合字。該發(fā)明的漢語拼音有如下特點1.它利用純音調(diào)基準(zhǔn)字母表,在基音字母表中,一個不連續(xù)的字母組提供全部發(fā)所有漢語音節(jié)音的語音和音調(diào)信息(官方方言);
2.它或用主根原理或用語義分類符原理來選擇一個附加的字符加到某些PCW上,以便在PCWs和漢字之間給出一個唯一的一一對應(yīng)關(guān)系,這樣,每一個PCW唯一地不含糊地等同于一個單個的表意文字;
3.有可能使用分離邏輯自動地把一個多音節(jié)漢語拼音字(PPCW)分成單獨的PCWs(它與表意文字相對應(yīng)),多音節(jié)漢語拼音字包括一個連續(xù)的表示一個多音節(jié)復(fù)合字的PCL字符串(一個漢字是由許多表意文字組成的)。
在PCL中一個給定的聲音音節(jié)可以寫成四種不同的形式來表示四種不同的聲音音節(jié)的音調(diào)。通過字母表的音調(diào)特性,語言是非常清楚的而且自動提供一個比純聲音基準(zhǔn)系統(tǒng)大三倍的分辨率。接收一個PCL輸入所需的數(shù)據(jù)處理器或字處理器平均地說僅僅涉及6個同音字而不是如已有技術(shù)中所涉及的約20個同音異義字。(假定一組約有8000個表意文字)。
由于音調(diào)基準(zhǔn)字母表提供三倍于聲音基準(zhǔn)字母表的分辨度,加上下述PCL的專有的特點,使得有可能在PCWs和漢字之間實現(xiàn)一一對應(yīng)關(guān)系,即使存在大量同音異義字的情況下。正如下面將特別詳細指出的,該發(fā)明的PCL對僅僅元音拼音聲音是“i”,“u”或“
”的音調(diào)一音節(jié),能識別255個同音字(等價於1020(255×4)個同音異義字);對拼音結(jié)尾發(fā)音“i”的音調(diào)一音節(jié),可識別170個同音字(等價於680個同音異義字);而對所有的其它音調(diào)一音節(jié),可識別85個同音字(相當(dāng)于340個同音異義字)。在PCWs和表意文字之間這種一一對應(yīng)關(guān)系為已有技術(shù)體制所不可及的。(PCWs包含全部所要求的發(fā)一個給定音調(diào)-音節(jié)音的聲音和音調(diào)信息)。
該發(fā)明的一個主要優(yōu)點是具有這種能力,即按照允許計算機程序?qū)PCW串分離成單個的PCWs而不要予先存貯多音節(jié)的字典式目錄的這種方式,把一個多音節(jié)漢語拼音字根據(jù)漢語拼音字母表寫成一串連續(xù)的字母。本發(fā)明的這個概念尤為重要。由于這個特點,在PCWs和表意文字間用一一對應(yīng)關(guān)系組合時,無需在計算機存貯器中存儲多音節(jié)字典式目錄,相反,把所有PPCWs都以連續(xù)的須經(jīng)分離法處理的PCL字母串輸入,該分離法就是將PPCW分成單個的PCWs。然后計算機參照一個多音節(jié)字典式目錄將每個PCW轉(zhuǎn)換成它的相應(yīng)的表意文字。這樣使用本發(fā)明有效地削減了存儲要求和任何數(shù)據(jù)處理或字處理系統(tǒng)的處理時間。
使用分離邏輯和在PCWs和表意文字間用一個唯一的一一對應(yīng)關(guān)系另一個重要的結(jié)果是數(shù)據(jù)處理器可以自動地根據(jù)存儲的PCWs產(chǎn)生一個α規(guī)則表(AGL),這是已有技術(shù)體制所不可能辦到的。α規(guī)則表(AGL)是一個按一般的字母順序把PCW編目,但要保證即使在字母順序指出它們應(yīng)分離時,同音字和相同的表意文字是歸類在一起的。一個單純按字母排列的PCL表可以導(dǎo)致字和詞組產(chǎn)生。它們有相同字首的而且彼此分開的表意文字,這是由于在某些文字中存在語義分類符而在另一些字中不存在語義分類符所致。一個AGL避免了這種可能性,而將所有具有相同字首的表意文字歸在一起。下面給出AGL較詳細的敘述。
由于PCL的音調(diào)基準(zhǔn)特性,進而由于主根和下面敘述的語義分類符的差別,PCL能唯一地區(qū)別所有50000個表意文字。在第一組8000個表意文字中,按照規(guī)定的主根原理根據(jù)每個PCW“根”的拼音僅用三次變化就能唯一地區(qū)分3900個表意文字。這些總共占所有漢語的約97%。在第一組剩余的表意文字中,利用語義分類符可區(qū)分80%,語義分類符是類似或等同于漢字的根,而表意文字基于漢字的根。這樣,PCL既簡單又具有高清晰度。漢語中所有其余的表意文字利用一個單一的語義分類符也可以唯一地加以識別。于是,PCL可以唯一地識別所有漢字。
這樣,PCL最多使用4個字母和每個表意文字僅有2.4個字母的出現(xiàn)率加權(quán)平均值,相當(dāng)于拼音體制所要求的最大7個字母(可能8個)和每個表意文字4個字母的出現(xiàn)率加權(quán)平均值。借助選擇那些在形狀上類似或部分類似漢字的漢語拼音字母表的字母,用單個熟悉的漢字容易地了解PCA字母(甚至當(dāng)用做語義分類符時)。當(dāng)語義分類符直接用表意文字的根表示時,該技術(shù)設(shè)備發(fā)揮了它的最大的優(yōu)點,這乃是區(qū)別於傳統(tǒng)漢字的基礎(chǔ)表意文字形式。
此外,當(dāng)把PCL與相應(yīng)的表意文字一行接一行地或錯行並置在一個視頻顯示器上或打印輸出時,可容易地把每一個表意文字連同相應(yīng)的PCW一起讀出。這樣把表意文字與它的發(fā)音一起以密集形式表示出來,並且使PCL成為用做教授具有獨特風(fēng)格的漢語的一個理想的工具。
PCL還簡化了用于處理漢字的計算機所需要的硬件和軟件。上述被稱為“用于信息交換的漢字圖解字符代碼-第一組“漢字標(biāo)準(zhǔn)對每個漢字用兩個字節(jié)數(shù)字代碼。一個類似的但卻更大的具有13053個表意文字組對每一個表意文字也采用兩字節(jié)碼,而“用于通用漢字的獨特字符”已在1986年3月由中國臺灣給予免除。
這里所述的漢語拼音中,只需要7位二進制數(shù)代碼對整個85個漢語拼音字母進行編碼。圖13中用圖說明的7位二進制數(shù)代碼,它是用于信息交換的漢字標(biāo)準(zhǔn)碼(CSCLL)。它類似于ASCLL碼(用于信息交換的美國標(biāo)準(zhǔn)碼)。以上兩者都使用7位有效的二進制數(shù)。但是,當(dāng)ASCLL占有010-12710(OOH-7FH)范圍時,如圖13所示包含標(biāo)點符號的CSCLL占有12910-22210(SLH-DEH)范圍。這樣,CSCLL類似于ASCLL附加首位“1”。從而對用于英/漢兩種文字對照信息交換是很方便的。對于這兩者無論是用形象化的字母顯示還是用數(shù)碼系統(tǒng)都容易適用于計算機。
這樣PCL不再需要對表意文字進行圖形編碼,說得更確切些,每一個表意文字都用把它按音調(diào)拼成一個PCW的形式,該表意文字編成7位PCA字母代碼的唯一的組合形式,這樣每一個表意文字編成不多于4個字母和出現(xiàn)率加權(quán)平均為2.4個字母的標(biāo)準(zhǔn)的7位PCA字母碼,這就大大地簡化了對用計算機進行漢字電文處理的軟件和硬件的要求。
由于上述特征,本發(fā)明應(yīng)用與英語處理技術(shù)相同的PCL形式對漢語拼音中的字及信息數(shù)據(jù)處理提供了園滿的自由度。同時使單值輸出漢字及建立AGL成為可能。
附圖的簡要說明為用圖解說明本發(fā)明,在附圖中示出了一個實施例,它是最佳的,可以相信,本發(fā)明並不拘泥于所示的設(shè)備和使用的儀器。
圖1為漢語四音調(diào)的圖形表示。
圖2為漢字拼音字母(PCA)順序表及它們?nèi)绾螌?yīng)拼音字母的聲域。
圖3為說明所有漢字聲音音節(jié)拼音表示的聲音表。
圖S.4A-4J為表示所有漢字音調(diào)-音節(jié)的漢語拼音表示的音調(diào)表。
圖S.5A,5B和5C為說明聲音-音節(jié)“i”,“u”和“ü”每一個分別能用12個不同的漢語拼音字編寫的表。
圖6為說明所有可能有的格式表,在格式中,一個拼音漢字(PCW)能按照本發(fā)明的漢語拼音(PCL)處理。
圖S.7A-7D為說明本發(fā)明分離邏輯的流程圖。
圖8為由本發(fā)明能產(chǎn)生的一個AGL的取樣。
圖S.9A-9B為說明如何用本發(fā)明的語義分類符去區(qū)分同音異義字的字符。
圖10為本發(fā)明鍵盤布置示意圖。
圖11為一個表格,它作為表示漢語拼音(PCL)如何分辨同音字的一個例子。
圖S.12A和12B為流程圖,說明在α規(guī)則指令中供PCL電文使用的一個比較程序。
圖13說明用來把PCA表示成數(shù)字形式的7位碼。
一個發(fā)明實施例的詳細說明A,漢語拼音本發(fā)明乃是基于圖2中用例子說明的字母表,這個字母表代表了發(fā)明人的最佳實施例,也還能用另外的攜帶相同或者基本相同的音調(diào)和聲音信息的字母表來表示。用有差別但同時又相關(guān)的字母表示聲音相同但聲調(diào)卻不同的元音字母,那將是更可取的。
如圖13所示,PCA能編成一組具有7位有效二進制數(shù)的數(shù)字碼,與現(xiàn)有技術(shù)系統(tǒng)相比,顯然簡化了對軟件和硬件的要求。
如圖2所示,申請人的漢語字母表總共包括25個輔音字母和60個元音字母的音調(diào)(一個元音字母音調(diào)是既表示元音字母聲音又表示用來發(fā)音的特有音調(diào)的一個字母),每一個字母被指定為一個能直接用于數(shù)據(jù)處理的有序數(shù)。在圖2中,等效于PCA字母的拼音,只要這種等效存在,就出現(xiàn)在PCA字母的下方。拼音往往不能區(qū)別發(fā)“u”音的字符以及在其上打兩點的字符“ü”。就字符如何發(fā)音而言,這能引起混淆,但是在PCL中顯然能使這種差別增加其清晰度。由于拼音字母不包含音調(diào)信息,對PCA元音字母音調(diào)的拼音對應(yīng)詞僅僅用低于第一音調(diào)發(fā)音的元音字母音調(diào)來加以說明(見圖1)。對圖2縱列中每一個相關(guān)的元音字母音調(diào)使用同聲但不同音調(diào)。這樣,元音字母音調(diào)23-26中的每一個具有相同的聲音“a”。因而,漢語拼音字母表的字母將由它們的拼音對應(yīng)詞,指定數(shù)或PCA字母本身提供互換性。
漢字包括21個輔音字母和15個元音字母21個輔音字母列成兩排,分別對應(yīng)短輔音字母和長輔音字母,每一個長輔音字母內(nèi)含一個各種不同的基礎(chǔ)元音。某些漢字對應(yīng)長輔音字母,它們必須具有內(nèi)含在相應(yīng)一個PCW中的一個音調(diào)指示字符,在這種情況下僅僅附加給27-30或79-82元音字母音調(diào)中之一個音調(diào),但卻不影響一個元音字母的聲音。另一方面短輔音字母不包含一個元音字母聲,而且在一個PCW中必須跟隨一個既指示元音聲音又指示被采用的音調(diào)的元音字母音調(diào)。
除傳統(tǒng)的21個輔音字母1-21外,PCA還包括一個零輔音字母22和半輔音字母83-85。零輔音字母22(用符號0表示)是不發(fā)聲的,用作音節(jié)分界符。在以下所述某些特殊情況下是用來區(qū)分多音節(jié)字的各個音節(jié)的。它還利用下面討論的主根原理區(qū)分同音字。
半輔音字母83,84和85用一個元音字母聲音發(fā)音,但起輔音字母的作用。因為它們不包含任何音調(diào)。另外,在一個PCW中必須對它們附加一個音調(diào)。半輔音字母83,84和85的聲音分別等同于元音字母音調(diào)27-30,39-42和47-50。因此每一個元音字母音調(diào)可以附加到各個半輔音字母並影響它們的音調(diào)。這對PCL增加了很大的靈活性,同時對大量的同音字賦于鑒別力。更重要的是,83,84和85當(dāng)中之一個同其它元音字母的結(jié)合將構(gòu)成18個拼音復(fù)合字。包括“I”,“U”和“
”的兩個不相連的組(83-85對27-30,39-42和47-50),將提供一個主要的功能,正是由它可能形成分離邏輯。
漢字包括15個元音字母聲音,每一個能帶有圖1所示的四個音調(diào)中之一個音調(diào)。結(jié)果在漢語中就有60個不同的元音字母音調(diào),在PCL中,每一個元音字母又分裂成為四個相關(guān)元音字母音調(diào)的族,每一族具有相同的聲音,但音調(diào)卻不相同。
作為例子,元音字母音調(diào)23-26都具有相同的聲音“a”,但是正如指出的那樣,它們都帶有第一到第四個音調(diào)(對應(yīng)圖1音調(diào)1-4)。元音字母音調(diào)族的每一個字母具有相同的基礎(chǔ)字符。但是這同為了識別第2,第3和第4音調(diào),而在某基礎(chǔ)字符某處采用外加附加線是有區(qū)別的,特別是參看元音字母音調(diào)族23-26。例如,加到基礎(chǔ)字符底部的一條線是用來識別第二音調(diào);而加到基礎(chǔ)字符頂部的一條線是用來識別第三音調(diào);附加到基礎(chǔ)字符頂部下面大約 1/4 處的線是用來識別第四音調(diào)。類似的區(qū)別適用所表示的每一個元音字母音調(diào)族。
元音字母音調(diào)27-30用于兩個目的,當(dāng)它們跟接短輔音字母時,包括聲音和音調(diào),它們發(fā)“I”音。當(dāng)它們跟接長輔音字母時,或者跟接半輔音83時,它們實際上起到不發(fā)音元音字母的作用而僅僅帶有音調(diào)。在圖2中,這由波折號表示,在后一種情況,一個缺少的元音字母聲音包含于長輔音字母或半輔音字母自身之中。
元音字母音調(diào)35-38也用于兩個目的,當(dāng)它們跟接短輔音字母1-4或跟接半輔音字母83-85時,它們發(fā)“O”音。當(dāng)它們跟接其余字母時,它們發(fā)“e”音。這種雙重使用乃是由于這樣的事實,即聲音“e”跟接聲音“b”、“P”、“m”、“f”、“Y”、“W”和“Yu”的漢語中,不存在音調(diào)音節(jié),以及在聲音“O”跟接其余輔音字母聲音的漢語中,不存在音調(diào)音節(jié)。有效地使用元音字母(韻母)音調(diào)35-38,則PCA中所要求的字母的總數(shù)將減少到四分之一(減少了四分之三)。
元音字母音調(diào)79-82,用于三個目的,當(dāng)這些元音字母音調(diào)單獨寫或者跟接零輔音字母22時,它們發(fā)“er”音;當(dāng)它們跟接一個短輔音字母時,發(fā)“i”音。當(dāng)它們跟接一個長輔音字母或者跟接任何一個半輔音字母時,它們不發(fā)聲而是僅僅提供音調(diào)信息(元音字母聲音由長輔音字母或半輔音字母本身提供)。
每一個漢字表意文字由一個單音調(diào)音節(jié)確定,它采取以下任何一種形式CV,CSV,SV和V,其中C是一個輔音字母,S是一個半輔音字母(具有一個元音字母聲音但不帶有音調(diào)的一個字母),而V是元音字母音調(diào)(具有一個元音字母聲音和一個音調(diào)的一個字母)。使用圖2中的字母,漢字拼音字母表(PCA)能提供發(fā)出漢語的每一個音調(diào)音節(jié)(因此,每一個表意文字)所要求的所有的聲音和音調(diào)信息。這些字母可以連接起來產(chǎn)生所要求的信息的方式在圖4A-4J中詳盡地加以說明。這些圖是音調(diào)表,它們代表了在漢語中產(chǎn)生的所有音調(diào)-音節(jié)的PCL的表示方法,在表中,PCA的輔音字母是沿垂直方向排列的,而元音字母是水平向排列的。每一個PCA字母的拼音聲音等效符,以及賦于該字母的數(shù)字,貼近PCA字母。
圖4A-4D表示所有采用CV,SV和V格式的音調(diào)-音節(jié),圖4E-4J表示所有采用CSV格式的音調(diào)-音節(jié)。在輔音字母11和12之間所劃的一條粗水平線是為了把短輔音字母和長輔音字母分開,因為元音字母音調(diào)27-30和79-82的發(fā)音不同,而且賴于它們跟接短的輔音字母還是長的輔音字母(見上)。同樣,在圖4A中,在元音音調(diào)35-38列下面的輔音字母4和5之間以及在零輔音字母和半輔音字母之間也劃了加粗線,這是為了指示,賦于元音-音調(diào)35-38的不同的聲音取決于它們跟接哪一個輔音字母。
PCA具有表示大約3,000個音調(diào)-音節(jié)的能力,利用PCA,能用多個方法編寫音調(diào)-音節(jié),這將在圖4A-4J中表示,并將在下面給予進一步描述。漢語只包括1292個音調(diào)-音節(jié)。漢語中不使用的那些音調(diào)-音節(jié)用空白區(qū)間或點劃線表示在4A-4J之中。
而PCA能表示所有1292個漢字音調(diào)-音節(jié)。標(biāo)準(zhǔn)拼音只能表示漢語的410個聲音-音節(jié)。詳盡的拼音聲音表表示在圖3中。漢語同拼音相比較,顯而易見,增加了分辨力,這只要比較圖3和圖4A-4J的音調(diào)和聲音表就一目了然。每個音節(jié)使用的字母并不比拼音系統(tǒng)使用的多,但是能獲得附加分辨力,因此增加了漢語拼音的清晰度,而且與拼音系統(tǒng)相比,提供更多的信息。
由于采用了漢語拼音字母,使得在語音上和音調(diào)上提供所有要求發(fā)一個采用任何CV,CSV,SV和V格式的音調(diào)-音節(jié)音的信息成為可能。但是,發(fā)一個所要求的表意文字聲音和音調(diào)信息本身不可能提供足夠的信息去區(qū)分同音字,由于這個原因,如果有必要的話,PCL將增加一附加的分類字符至音調(diào)-音節(jié)上,以便區(qū)分同音字,這個附加到音調(diào)-音節(jié)的特別的字符可由主根系統(tǒng)確定,也可由語意分類系統(tǒng)確定。
主根系統(tǒng)用于識別每個音調(diào)-音節(jié)最常出現(xiàn)的三個同音(以實際使用的頻度為基準(zhǔn))。按照這個系統(tǒng),一個拼音漢字(相當(dāng)于一種獨特的表意符號)可以寫成三種形式,第一種形式是僅由該音調(diào)-音節(jié)(TS)組成(當(dāng)不需對同音識別時),第二種形式是由該音調(diào)-音節(jié)及重復(fù)該音調(diào)-音節(jié)的元音(TS+V)組成,第三種形式是由該音調(diào)-音節(jié)及跟在其后的零態(tài)輔音(TS+Z)組成。例如,對音調(diào)-音節(jié)“Sha”,其三種形式是三人(第一種形式),三從(第二種形式)及三人
(第三種形式)。利用這個簡單的系統(tǒng),每個音調(diào)-音節(jié)可得到三次附加的變化,而每個語音可獲得12(4×3)次附加的變化。要表示百分之九十七的漢字,根據(jù)出現(xiàn)的頻度,音調(diào)-音節(jié)的組合集寫成第一種,第二種或第三種形式是足夠了。因此PCA可以識別百分之九十七在漢語中出現(xiàn)的表意文字,下述的僅是簡單的主根規(guī)則。
因為單獨存貯每個音調(diào)-音節(jié)中三個最常用的同音還是比較容易的,這就提供了一個非常實用的輸入系統(tǒng)。即使人們在寫入拼音漢字時(輸入到鍵盤或其它輸入設(shè)備)也不必記住所寫入的同音按出現(xiàn)的頻度來說是第一、第二或第三,而僅要推測其合適的PCW形式,並觀察在顯示器熒光屏上所顯示的相應(yīng)的表意文字,如果不是所要求的表意文字時只要改變其輸入即可,這是一項既簡單又可迅速完成的工作。
占漢語百分之三的漢語同音是由一個語義分類符系統(tǒng)來識別的。PCA的每一組字母都可利用語義分類符表示出一個含意明確的語義(如昆蟲、山、樹),以提供一個所要求的符合邏輯的同音字意(這是由它們采用的聲和音調(diào)信息指示符來區(qū)分的)。元音79是一個例外,它只是一個用于識別在漢語中稱之為卷舌音的特殊的表意符號,這在下面將要討論。當(dāng)使用語義分類符時,一個PCA字母附在一個音調(diào)音節(jié)的末尾,這個語義分類符對讀者來說表示了某種意義,但它沒有聲或音調(diào)。
例如字符72,84,68和3對于慣用的表意文字的詞根是相同或基本相同的,它們分別是昆蟲、蟲(72);山(84);池、灰塵(68)和樹、木(3)。這些字符是用作具有這些詞義的語義分類符。在圖9A的上面一行中,這些字符是附在音調(diào)-音節(jié)“ч
”的后面,構(gòu)成了四種不同形式的PCWS。所構(gòu)成的漢字(基本上是相同詞根結(jié)合)表示在PCWS的下面。
圖9B是語義分類符如何對同音進行識別的另外的說明。這張圖是按音序從左至右,依照它們相應(yīng)的表意符號排列的PCWS的字表。每個表意文字都包含有詞根“木”,每個PCW都有字符(
),並且字符(3)都放在每個PCW的末尾。從它們的末尾來看,它們都是相似的。應(yīng)注意的是,有四個放在標(biāo)號為9b的虛線框內(nèi)的同音,這四個同音在拼音中是不能識別的。
主根系統(tǒng)和語義分類符系統(tǒng)組合起來使用時,每個音調(diào)-音節(jié)可在85個同音中識別(相當(dāng)于340個同音異義)。而對大多數(shù)音調(diào)-音節(jié)來說,這已足夠了,但某些音調(diào)-音節(jié)的同音多于85個。這些音調(diào)-音節(jié)可分為兩類(1)其中僅有元音“i”、“u”或“ü”,(2)其末尾帶有元音“i”。利用中文拼音字母表的特點,對于所有未端是元音“i”的音調(diào)-音節(jié),拼音漢語可分辨出170個同音(相當(dāng)于680個同音異義);而對那些只含有元音“i”、“u”或“ü”的音調(diào)-音節(jié),拼音漢語可分辨出225個同音(相當(dāng)于1020個同音異義)。這是用下述的方法實現(xiàn)的。
如圖2所示,聲“i”可用半輔音83或元音音調(diào)27-30中的一個寫出來。聲“ü”可用半輔音84或元音音調(diào)39-42寫出。聲“ü”可用半輔音85或元音音調(diào)47-50寫出來。盡管半輔音83-85不包含一個音調(diào),但當(dāng)上述的元音音調(diào)跟在具有相同聲信息的半輔音后面時,則可以表示出音調(diào)。如像上面所述一樣,當(dāng)元音音調(diào)79-82跟在半輔音83-85的后面時,也可以表示音調(diào)。
如圖5A-5c所示,對于“i”、“u”和“ü”可以寫出12種不同的音調(diào)-音節(jié)的形式。圖5A-5C各圖的第一行中的半輔音用于提供聲信息,具有相同發(fā)聲的元音音調(diào)是用于提供音調(diào)信息。圖5的第二行中,半輔音是用于提供聲信息,不發(fā)音元音音調(diào)79-82用于提供音調(diào)信息。圖5的第三行中,元音音調(diào)是用于提供聲和音調(diào)兩種信息。PCA的這種獨到之處,與現(xiàn)有技術(shù)的系統(tǒng)相比,使PCL的靈活性和識別能力有所提高。
對于末端接有聲“i”的音調(diào)-音節(jié),PCL的分辨能力比現(xiàn)有技術(shù)要優(yōu)越的多。這是由于元音音調(diào)27-30和79-82都可發(fā)“i”的音,這取決于它們所跟的具體的輔音。當(dāng)元音音調(diào)79-82跟在一個短輔音后面時發(fā)“i”的音。事實上,在漢語里並沒有在輔音“t”、“g”、“K”、“h”或“r”后面跟有聲“i”的音調(diào)-音節(jié)。因此元音音調(diào)79-82是決不會跟在輔音4、9、10、11或18后面,而這些組合對于識別同音卻是有用的。元音音調(diào)79-82總是跟在長輔音12-21或半輔音83-85的后面(它們中的每一個都有由空格構(gòu)成的元音聲),它們實際上不發(fā)音,但這些不發(fā)音的元音音調(diào)指出了該音調(diào)-音節(jié)的音調(diào)。元音音調(diào)27-30每當(dāng)跟在一個短輔音的后面時總是發(fā)“i”的聲。當(dāng)它們跟在一個長輔音后面時則作為不發(fā)音的元音音調(diào)指示該音調(diào)-音節(jié)的音調(diào)。由上述的元音音調(diào)27-30和79-82具備的特點可知,拼音漢語能夠?qū)懗?70個末端帶有聲“i”的同音其中85個是基本音調(diào)-音節(jié)的末端帶有元音音調(diào)27-30中的一個,另外85個同音是基本音節(jié)的末端帶有元音音調(diào)79-82,因此PCL可以在680個末端帶有這個發(fā)音的同音異義中準(zhǔn)確的識別。
圖11給出了二個例子說明PCL如何在具有大量同音和同音異義的表意文字中進行識別。在該圖中,“Sha”有24個同音異義,“Shi”有86個同音異義。
圖11的每一行給出的是一個所給的音調(diào)-音節(jié)的全部同音。例如第一行(該行的右端標(biāo)有標(biāo)記“14”)給出了帶有第一聲音調(diào)的音調(diào)-音節(jié)“Sha”的14個同音。每個PCW的下面給出的是它相應(yīng)的漢字。第一行最前面的三個PCWS是相應(yīng)于主根系統(tǒng)的第一種,第二種和第三種形式的PCWS。在其余的11個PCWS中,第三PCL是一個語義分類符。
在圖11的下部(右端標(biāo)有標(biāo)記“40”)給出了用第四聲發(fā)音的音調(diào)-音節(jié)“Shi”的40個同音。其中前33個同音中,元音是用元音音調(diào)30來表示的,后7個同音中的元音“i”是由元音音調(diào)82來表示的。
B.區(qū)分邏輯漢語表達一個概念應(yīng)具備三個特性1.提供漢字音調(diào)-音節(jié)發(fā)音所需的語音和音調(diào)的全部聲音和音調(diào)的信息。
2.提供一種在同音中進行識別的簡便有效的方法。
3.提供將多音節(jié)串分隔為獨立成分的基準(zhǔn),每一個分隔的分量都相應(yīng)于一個表意符號,而不必依靠多音節(jié)字典。
由上面詳細的敘述可見,本發(fā)明的拼音漢語明顯地具備前二個特性,通過下面的敘述還可看到,本發(fā)明的拼音漢語也具備第三個特征。
所有采用本發(fā)明中文拼音字母的拼音漢字都可歸納為下面兩種形式中的一種PCW=TS+G 式(1)PCW=TS 式(2)其中TS是一個音調(diào)-音節(jié)(具有CV,CVS,SV或V四種形式中的一種)。G是PCA的一個單獨的字符,它是附在所屬音調(diào)-音節(jié)的后面對同音進行識別,這個附加的字符用上述的主根規(guī)則或語義分類規(guī)則進行選擇,即不論是用主根規(guī)則還是選擇語義分類規(guī)則選擇。都稱之為廣義語義分類符G。
式(1)和式(2)可表示為更一般的關(guān)系PCW=TS+Q 式(3)其中Q是一個廣義音調(diào)-音節(jié)修正符。它定義為包括有廣義分類符G和零集φ(也就是沒有任何字符)兩部分。廣義音調(diào)-音節(jié)修正符Q表示一個字母缺位或者PCA字母串出現(xiàn)的任何字母(元音音調(diào)79除外,它不作為語義分類符,這在下面要討論。)如上所述,音調(diào)-音節(jié)可具有CV,CSV,SV和V四種形式。廣義音調(diào)-音節(jié)修正符可以使用φ、C、Z、V或S五種形式中的任一種。因而,PCWS可以使用如圖6所示的20種形式中的任何一種。
連貫起來看,圖6的前兩列(CV,CSV)總是可以相互分辨的。第三列和第四列的PCWS組成一個PPCW的一部分,其中緊靠前面的PCW是以輔音結(jié)尾的,則第三列和第四列(暫且不管它的前面的星號)可能與第一列和第二列發(fā)生混淆。特別是當(dāng)?shù)谌械囊粋€PCW跟在一個具有CVC或CSVC形式的PCW后面時,它很可能會與第一列的PCWS相混淆。
為了避免這種可能出現(xiàn)的混淆情況,由PCL文本的作者將零態(tài)輔音22加到第三列和第四列的PCWS的開始,則上述PCW具有CVC或CSVC的形式。這是由第三列和第四列每個PCW前面的星號來代表的。根據(jù)下面簡單的輸入規(guī)則可以編制一個簡單的計算機程序,利用這個程序可將PPCW清楚地分成幾個單獨的PCW成分,然后識別出每一個PCW的確切的中文意思。
另一個特殊的方式是運用了卷舌音的特性。卷舌音(也稱之為卷舌元音)是一個單獨的漢語的表意符號。它是在已有音的后面的末尾加“er”的聲用以改善已有表意符號的發(fā)音。它是由兩個連續(xù)的表意符號組成的單獨的音節(jié)(末尾是“er”)。卷舌音也出現(xiàn)在多音節(jié)串的末端,因而也出現(xiàn)在一個PPCW的末端。如上所述,元音音調(diào)79就是它們中的一個,當(dāng)它們單獨存在或跟在零輔音后面時發(fā)“er”的聲。因為卷舌音在漢語中發(fā)“er”的聲,所以把元音音調(diào)79定義為表示卷舌音。這一指定是重要的,它使得計算機程序能夠把一個PPCW分隔成為單獨的PCW分量,並可識別每一個PCW相應(yīng)的漢字含義。如像下面所述的,這個程序?qū)砩嘁舻奶幚聿煌谄渌写幚淼谋硪夥?。這個程序是在將PPCW分隔成單獨的PCWS之前查詢這個表意符以便去識別它。
圖7A-70是一個為分隔PCWS而采用的一種方法的流程圖。這種方法可由一個計算機程序來實現(xiàn)。這個流程圖給出了一種利用區(qū)分邏輯和多音節(jié)字典將輸入的PPCWS變換為漢字的方法,這個多音節(jié)字典是將每一個PCW與單個的表意文字相對應(yīng)。這個程序還可以作為任何較大的數(shù)據(jù)或字的處理程序。
這里以一個特定的程序予以說明,但本發(fā)明並不區(qū)限于這一特定的程序,一個普通的程序設(shè)計人員能夠運用同樣的原則設(shè)計出許多其它的程序並達到與本發(fā)明實施例相同的效果。此外,這個程序還可以識別一個表意文字,並將它在一個輸出器件上顯示出來。但這個表意文字也並非一定要顯示出來,PCL和區(qū)分邏輯也可對這個字進行簡單的識別而不必顯示。廣義地說,本發(fā)明可以認(rèn)為是使用區(qū)分邏輯去區(qū)分一個多音節(jié)字符串。
在圖7A-7D中,程序由指令訣10開始執(zhí)行,訣中的數(shù)組STRING(S),SEG(M)和PCW(X)被清零,特征位RV,Z和E以及變量JMAX均被置0。數(shù)組STRING(J)是用作存貯一個PPCW的連續(xù)字符。該PPCW的第一個字符存貯在STRING(1)單元中,第二個字符存儲在STRING(2)單元中,以此類推。數(shù)組STRING(J)應(yīng)具有足夠的存儲單元以便存貯最大的PPCW。在大多數(shù)情況下,具有20個單元已足夠滿足要求了。如有必要,數(shù)組STRING(J)也可以做的很大,以使一個PCA的連續(xù)字符串(包括多個PPCWS)可以輸入;而不降低一個空白位去區(qū)分PPCWS(復(fù)合漢字)。
數(shù)組SEG(M)是一個五單元的數(shù)組,它將暫時存貯一個PPCW字符串的一部分,通過檢驗來確定所規(guī)定的PCW存貯了多少字符。數(shù)組PCW(X)暫時存貯一個PCW,以便識別它相應(yīng)的表意文字。這時數(shù)組STRING(J),SEG(M)和PCW(X)均被清零,它們的每一個單元都被置0。
特征位RV是卷舌元音特征位,當(dāng)PPCW的最后的字符為卷舌元音79時,特征位RV置1。當(dāng)RV置0時,表示一個PPCW的最后的字符不是卷舌元音。
零輔音特征位Z指出一個PCW的第一個字符是否零態(tài)輔音22,當(dāng)一個PCW的第一個字符是零態(tài)輔音時,特征位置1。
特征位E是錯誤標(biāo)志位,當(dāng)區(qū)別邏輯確定PCA字符串出現(xiàn)錯誤時,特征位E被置1。
變量JMAX是隨計數(shù)器J而增長的變量,計數(shù)器J隨著一個PCW被寫入STRING(J)而增加。以便跟蹤PPCW的長度。
在各數(shù)組均被清零及特征位也被置零的情況下,由區(qū)分邏輯給出第一個操作指令去識別單個PPCW並把它存貯在數(shù)組STRING(J)中,這是由圖7A的邏輯塊12-23來進行的。
首先執(zhí)行指令塊12中的程序,置變量J為1。然后判斷在數(shù)據(jù)緩沖器REGA中是否有一個字符(塊14)。為此,假定在一定時間在緩沖寄存器中只放入一個輸入字符,其輸入速度比計算機程序速度要慢,這樣就保證在一定時間內(nèi)僅有一個字符在寄存器REGA中。如有必要,這個程序也可以修改以接受一張予置的表格,這張表格包括多個之間有或沒有空格的PPCWS。這時,程序可先把這張表中的多個PPCWS分隔為單獨的PPCWS,然后再按下述的方法處理每一個PPCW。
在判斷塊14中,該程序連續(xù)詢問寄存器REG,直到PPCW的第一個字符出現(xiàn)在REG中為止。這時執(zhí)行判斷塊16中的程序,判斷在寄存器REGA中出現(xiàn)的這個字符是否是一個空格。如果不是,則執(zhí)行判斷塊18的程序並將數(shù)組STRING(J)中的第一個單元(J初始置位為1)置為等于REGA中PCA字符的數(shù)目。這時寄存器REGA被清零(指令塊20),變量J加1(指令塊22)。變量JMAX也同樣加1,以便跟蹤PPCW,最后再寫入STRING(J)。這時程序又返回判斷塊14並等待第二個字符進入REGA。如果這個字符不是一個空格,它將被送入STRING(J)中的第二個單元中,因為在指令塊22中,J已增加到2。這個程序通過塊14-23進行循環(huán),直至寄存器REGA中的這個字符是空格為止。當(dāng)PPCW的全部字符都進入STRING(J)中后,PPCW的每個字符都順序地存貯到STRING(J)的各單元中。變量JMAX的數(shù)值,也就是PPCW的長度,也同樣被存貯。當(dāng)單個PPCW完全輸入到STRING(J)之后,程序轉(zhuǎn)去處理判斷塊24。
當(dāng)把一個PPCW輸入到數(shù)組PPCW后,則程序必須要判斷這個PPCW的最后一個字符是否卷舌音(即是否卷舌元音),這是在邏輯塊24-30中進行的。對邏輯塊24進行處理,首先要判斷在STRING(J)中最后一個字符是否元音音調(diào)79。如果不是,表示在PPCW中最后一個字符不是卷舌音,則可立即去執(zhí)行判斷塊32的程序。
如果STRING(J)中最后一個字符是元音音調(diào)79,則要進一步判斷它是否表示卷舌音,根據(jù)上述規(guī)則,元音音調(diào)79不能作為語義分類符,由于這個原因,它不可能跟在一個元音的后面作為一個音調(diào)-音節(jié)的一部分。如果元音音調(diào)79跟在另一個元音音調(diào)的后面,則它必定表示是一個卷舌音。同樣,如圖4D所示,元音音調(diào)79也不可能跟在輔音1、3、4、7-11或18的后面而成為一個音調(diào)-音節(jié)的一部分(但是3-79和8-79的組合也在漢語中出現(xiàn),為了避免混淆,應(yīng)當(dāng)從那些容許的音調(diào)-音節(jié)形式的字符組合中將它們明顯的隔開,見圖40)。因此,如果元音音調(diào)79是跟在一個元音或輔音1、3、4、7-11或18的末端,則可肯定元音音調(diào)79表示卷舌音。在判斷塊26中,程序?qū)TRING(J)中的第二個至最后一個字符進行檢驗,以判定這個字符是一個元音(V)還是輔音C′=1,3,4,7-11或18中的一個。如果不是,則元音音調(diào)79不表示卷舌音,則程序處理判斷塊26。在這種情況,STRING(J)中最后一個字符置0,卷舌元音特征位RV置1(參見塊20和30)。
要判斷STRING(J)中最后一個字符是否表示卷舌音,還必須對存貯在STRING(J)中的PPCW的第一個PCW進行檢驗,這是由邏輯塊32-76(見圖7B)中的子程序來進行的。
如像上面所提到過的,一個PCW具有TS+Q的廣義形式。一個音調(diào)-音節(jié)具有CSV,CV,SV或V的形式,因此一個音調(diào)-音節(jié)可能有1,2或3個字符長。因為廣義音調(diào)-音節(jié)修正因子Q可能是零或1個字符長,那么該PCW的總長度可能是1,2,3或4個字符長。STRING(J)中的第一個音調(diào)-音節(jié)的實際長度是根據(jù)邏輯塊32-42的子程序來確定的。
完成上述程序后,再檢驗緊跟在該音調(diào)-音節(jié)后面的兩個字符,就可以清楚地確定PCW的長度。這是由塊44-76中所包括的子程序來進行的。詳細的說,就是判斷該字符是否具有CS,CV,SV或VP(P=φ,C,V,Z或S)形式中的一種,這些形式對應(yīng)于所容許的音調(diào)-音節(jié)形式CSV,CV,SV和VP中的前兩個字符。如果它們具有CS,CV,SV或VP的形式,那么這兩個字符規(guī)定在STRING(J)中第二個音調(diào)-音節(jié)的起始端,Q置為零集,PCW的長度就等于這個音節(jié)的長度。如果它們不具有這些形式中的一種形式,則Q就是廣義語義分類符G,PCW的長度等于該音調(diào)-音節(jié)的長度加1。
圖7B中,判斷塊32開始的子程序是用于確定STRING(J)中第一個音調(diào)-音節(jié)的長度。計算機首先判斷放入STRING(J)中的PPCW的第一個字符是否一個半輔音。如果是,這個音調(diào)-音節(jié)必定具有SV的形式並有兩個字符。這時程序轉(zhuǎn)向處理塊34並置變量n=2。變量n表示在該音調(diào)-音節(jié)中字符的數(shù)目。
如果STRING(J)中的第一個單元不是一個半元音,則判斷塊36判斷STRING(J)中的第一個單元是否一個元音。如果是,則這個音調(diào)-音節(jié)包括了一個V並將變量n置1(塊38)。如果在STRING(J)中的第一個單元既不是半輔音又不是元音,那么它一定是一個輔音。在這種情況,這個音調(diào)-音節(jié)可以具有CSV或CV的形式,這取決于STRING(J)中的第二個字符是一個半輔音還是一個元音。完成這一判斷后,程序轉(zhuǎn)向判斷塊40,判斷STRING(J)中第二個字符是否一個半輔音,如果是,這個音調(diào)-音節(jié)具有CSV的形式並將變量n置為3(塊42)。如果不是一個半輔音,那么這個音調(diào)-音節(jié)具有CV的形式並將變量n置為2(塊34)。
當(dāng)塊32-42包括的子程序確定了音調(diào)-音節(jié)中字符的數(shù)目並置變量n等于字符數(shù)目后,在廣義音調(diào)-音節(jié)修正因子Q等于零集或等于G的情況下,還要判斷一個n+2字符長度的字符串。這是由塊44-76包括的子程序來進行的。
從指令塊44開始,該指令塊的程序置變量N=n+2,m=1和J=1。變量N定義為字符的數(shù)目並放入數(shù)組SEG(m)中,變量M定義為數(shù)組SEG(M)中的一個被檢驗的特定的單元,變量J定義為在STRING(J)中一個被檢驗的特定的單元。緊跟在這兩個字符后的音調(diào)-音節(jié)被檢驗之前,STRING(J)的前N個字符必須送入數(shù)組SEG(m)。這是由邏輯塊46-50完成的。
當(dāng)這些程序完成后,則判斷塊52-76所包括的子程序,在這些子程序中要確定PCW包括有n個字符還是n+1個字符(也就是廣義音調(diào)-音節(jié)修正因子Q是一個字符還是零集)。這就要看看數(shù)組SEG(m)中的最后兩個字符具有的形式是CS,CV,SV還是VP,以及這兩個字符是否STRING(J)中第二個PCW的前兩個字符。如果在數(shù)組SEG(M)中的第二個至最后一個字符是STRING(J)中PCW的第二單元中的第一個字符,則它不是一個語義分類符,PCW的長度等于這個音調(diào)-音節(jié)的長度。如果數(shù)組SEG(M)的最后的字符是STRING(J)中第二個PCW的前面的字符,則SEG(M)中第2至最后的字符是一個語義分類符,在這種情況,STRING(J)中的第一個PCW的長度要比這個音調(diào)-音節(jié)長一個字符。
在指令塊52的開始,判斷SEG(M)中的最后字符是否一個元音(應(yīng)記住在塊46-50包括的子程序中變量M已增加到數(shù)值N)。如果SEG(M)中的最后字符是一個元音音調(diào),還要判斷SEG(M)中第二個至最后的字符是否一個元音音調(diào)。如果是元音音調(diào),則出現(xiàn)一個錯誤狀態(tài)(PCL的輸入規(guī)則不允許第二個PCW的始端為元音音調(diào))。如果出現(xiàn)錯誤狀態(tài),則程序轉(zhuǎn)去處理指令塊56並啟動鈴或其它的表示錯誤狀態(tài)出現(xiàn)的指示器。這時程序處理指令塊58,將錯誤特征位E置1,變量P置為N。如像在下面所要敘述的,將存貯在SEG(M)中的全部內(nèi)容在顯示器熒光屏上進行顯示,因而分別檢查全部的PCW並斷定輸入的錯誤是在什么地方。
如果SEG(M)的第二個至最后一個字符不是一個元音音調(diào)(塊54),則程序處理判斷塊62以判斷是否一個零輔音。如果是零輔音,則零輔音特征位Z置1,變量P置n(塊64和65)。如第二位至最后一位字符不是一個零態(tài)輔音,則程序直接處理指令塊66並將變量P置為n,在這兩種情況的判斷中,廣義音調(diào)-音節(jié)修正因子Q置為零集,因此P只能置為n。PCW的這種識別是在單個的音調(diào)-音節(jié)情況下進行的。
在判斷塊52中,如果SEG(M)中的最后的字符不是一個元音,則程序判斷它是否半輔音(判斷塊68)。如果是半輔音,則程序緊接著判斷SEG(M)中的第二個至最后一個字符是否一個輔音(塊70)。如果是輔音,則第二個PCW在SEG(M)中是從第二個字符開始至最后一個字符,第一個PCW的長度為n個字符。為此,PCW長度變量P置為n(塊66)。如果在SEG(M)中的第二個至最后字符不是一個輔音,則位于SEG(M)最后位置的半輔音是STRING(J)中第二個PCW的起始位。因此,STRING(J)中的第一個PCW是n+1個字符長。為此,程序處理指令塊76並將PCW長度變量P置為n+1。
在判斷塊68中,如果斷定SEG(M)的最后一個字符既不是一個元音音調(diào)也不是一個半輔音,那么它必定不是一個輔音就是一個零態(tài)輔音。在這種情況下,在STRING(J)中的第一個PCW是n+1個字符長,並且在指令塊78中將PCW長度變量P置為n+1。在處理指令塊76之前,判斷塊72判斷在SEG(M)中的最后一個字符是否零輔音。如果是零輔音,則將零態(tài)輔音變量Z置1。在下面的敘述中,將會出現(xiàn)零態(tài)輔音從STRING(J)中移出的情況。
此時,程序明確的判斷了在STRING(J)中的第一個PCW有多少個字符,然后根據(jù)塊78-84所包括的子程序?qū)⑦@個PCW放入數(shù)組PCW(x)中。
在判斷塊86中,計算機判斷錯誤特征位E是否等于1。如果E等于1,則程序轉(zhuǎn)向指令塊88並在顯示器上顯示存貯在SEG(M)中的信息,以供鍵盤操作人員去判斷是他還是她輸入了錯誤的信息。
如果錯誤特征位E不等于1,則程序轉(zhuǎn)向指令塊90。計算機裝有一個單音節(jié)字典,它使得每一個PCW有一個並僅有一個表意文字。這個程序?qū)τ蓴?shù)組PCW(x)中PCW識別的表意文字進行檢驗並將這個表意文字在顯示器中顯示。
至此,下一步的程序是檢驗STRING(J)中的下一個PCW,識別它的表意文字並在顯示器上顯示。如像上面所述,塊32-90所包括的子程序?qū)TRING(J)中的第一個PCW進行分析並假定裝入STRING(J)第一單元位置中的字母是STRING(J)中第一個PCW的起始字母。按照這個程序去分析STRING(J)中的第二個PCW時,在STRING(J)中的每一個字符都必須左移一定的位置,以保證STRING(J)中第二個PCW的第一個字母放入STRING(J)的第一單元位置中去,這一步是在圖70的塊92-104中進行的。
如上所討論的,在塊58-66和76中,PCW的長度變量P置為等于在STRING(J)中第一個PCW的字符數(shù)。根據(jù)程序為了對STRING(J)中的第二個PCW賦值,這些字符必須從STRING(J)中移出。如果零態(tài)輔音作為STRING(J)中第一和第二個PCWS之間的音節(jié)區(qū)分字符,則一個另外的字符必須要移出。如果出現(xiàn)一個錯誤狀態(tài),則有兩個另外的字符要移出,因為已有P+2個字符在顯示器上顯示,供鍵盤操作員判斷他的錯誤和正確。這一結(jié)果是在塊90-104包括的子程序中完成的(見圖70)。
在塊92中,首先判斷零輔音特征位Z是否置1。如果Z是1,則PCW長度變量P置為P+1並且程序轉(zhuǎn)入指令塊100中。如果Z不是1,則該程序轉(zhuǎn)入判斷塊96並判斷錯誤特征位E是否置1。如果E置1,則PCW長度變量P置為P+2(塊98)並且程序轉(zhuǎn)入指令塊100。如E不是1,則程序直接轉(zhuǎn)入指令塊100。
根據(jù)指令塊100的程序,變量J置1,並且該程序在塊102-106之間循環(huán)。STRING(J)中的每個單元向左有效地移動P個字符長度,以保證STRING(J)中的第二個PCW的第一個字符被裝入STRING(J)中第一個單元位置中。在判斷塊104中,這個與J一樣長的過程是連續(xù)的,J比JMAX要小,J的值是在塊23中被置入的並在判斷塊16中最先判斷其中的空格(參見圖7A)。當(dāng)這一過程完成后,程序進入指令塊108並判斷數(shù)組STRING(J)是否空位。
此時,程序已經(jīng)對STRING(J)中的第一個PCW進入了分析並將其顯示出來並且STRING(J)中的字符向左移位以便使STRING(J)中第二個PCW的第一個字符移到STRING(J)中第一個單元位置中。如果在STRING(J)中還有任何另外的PCWS(塊108),則程序轉(zhuǎn)回到判斷塊32(圖7B)並分析這個放入STRING(J)中的第一個PCW,隨后再執(zhí)行上述的程序。當(dāng)這個PCW被分析並顯示出現(xiàn)后,STRING(J)中的字符再次向左位移,以保證在STRING(J)中的下一個PCW的第一個字符放入STRING(J)中第一單元位置。這個過程是連續(xù)進行的直到STRING(J)中的所有PCWS都被賦值並被顯示為止(即直至STRING(J)成為空位為止)。
當(dāng)STRING(J)成為空位,則程序轉(zhuǎn)入判斷塊110並判斷卷舌元音特征位RV是否置1,如果RV是1,則這個卷舌表意符號被顯示(塊112)並且程序轉(zhuǎn)入指令塊10等待下一個PPCW中的第一個字符。如果RV不是1,則程序直接轉(zhuǎn)入指令塊10。
前面的程序的一個重要的特點(僅由所舉例子看出)是一個PCA字符串(表示一個PPCW更好些,但無必要)可以自動地被分隔成單個的PCWS並且可同時使用一張PCWS的單音節(jié)字典把PCWS轉(zhuǎn)換為恰如其分的表意文字,這就避免了需要多張多音節(jié)詞典且允許PCL跟在寫成漢語的表意文字的后面。
C、按字母順序排列的表PCL的另一個主要的特點是用它可以簡單而直接地得到單音節(jié)和雙音節(jié)字的α規(guī)則表(按字母順序規(guī)則排列的表)。α規(guī)則表的內(nèi)容是按字母順序排列的,並能使得詞首為相同的表意文字的多音節(jié)字或詞組歸為一類,即使一個直接按字母排列的順序也可分隔這些相同的表意文字。參見圖8就可很好地理解,圖8是應(yīng)用本發(fā)明的PCL而得出的一張按字母順序排列的詞表。在圖8中最左邊的一列包括PPCWS,緊接著的一列包括了PPCWS的相應(yīng)的表意文字。
在任何以字母順序表示的漢字中,其用以表示一個給定音調(diào)-音節(jié)的字符的數(shù)目隨著該音調(diào)-音節(jié)的形式(CSV,CV,SV或V)而變化的。當(dāng)使用一個語義分類符時,在一個PCW中的字符數(shù)也發(fā)生變化。在一張完全按字母順序排列的表中,會出現(xiàn)某些具有相同詞首的復(fù)合漢字在表中被分隔開來。例如圖8中的詞八億、八萬和八月將被向下移到虛線所指的位置,這是因為字符¥的標(biāo)號為83字符
的標(biāo)號為35,結(jié)果在圖8第2列帶有相同詞首的詞將被相互分隔開。
為了避免出現(xiàn)這種分隔現(xiàn)象,在將PPCWS排出α規(guī)則表中之前,本發(fā)明利用前面所述的分離邏輯的一個修正形式在一個PPCW的兩個PCWS之間引入了一個虛擬空格。將這個虛擬空格賦于“0”標(biāo)號,因而用分類程序時,這個虛擬空格是作為在字符1和所有的PCA字符之前的一個字符來處理的。
虛擬空格可以用如圖7B-70,特別是塊32-84和92-108的分離邏輯的修正形式來引入。為了在PPCW中引入一個虛擬空格而使用了分離邏輯,以便能夠得出α規(guī)則表。這個分離邏輯可按如下所述方式進行修正。塊54-64和塊72-74不需要,可以去掉。由圖7C流程圖的塊82-90代替。存貯在PCW(x)中的PCW可放入一個保存數(shù)組中,這個保存數(shù)組保存了字符串中的全部字符(可以比一個PCW的字符要多),其中還設(shè)置了一個虛擬空格。當(dāng)這個PCW放入保存數(shù)組后,一個虛擬空格放入保存數(shù)組的下一個單元中。此后程序轉(zhuǎn)向塊92,並通過分離邏輯保持循環(huán),直到這個字符串中的所有PCW都放入保存數(shù)組為止。這時,為了以后的分類,全部字符串從保存數(shù)組中移到大容量存儲器中。當(dāng)所有字符串通過分離邏輯進行了分類並放入大容量存貯器時,這些字符串都是按字母順序來排列的,對虛擬空格是作為一個比字符1還要在先的一個字符來處理。這樣就將自動產(chǎn)生如圖8所示的α規(guī)序表。
單純的按字母順序排列的一個特例是α規(guī)則表還帶有相同音調(diào)的PCWS的組合。例如字LMNV,這里V是不發(fā)聲元音27,而后是字LMNV′,這里V′是不發(fā)聲元音79,因此LMNV和LMNV′是發(fā)第一聲音調(diào)的同音字。后面的兩個字如LMNV″和LMNV′″,這里V″和V′″是元音28和80,這兩個字雖然也和LMNV和LMNV′有相同的發(fā)音,但LMNV′和LMNV″是發(fā)第二聲音調(diào)。
圖12A和圖12B是用于對PCL文本中各行中的兩行進行字對字或音節(jié)對音節(jié)的比較的COMPARE程序的流程圖,利用此程序以確定這兩行中按字母表順序排列時是哪一行在前。COMPARE的特例是在英文文本中的各行是以正常的字母順序來排列的。COMPARE應(yīng)用在整個分類過程中,稱之為SORT,在COMPARE程序識別了正確指令后,對文本的各行重新排列。
在應(yīng)用COMPARE之前,全部文本存入暫存存貯器中。包括一個字、詞組的每個字段都有序地單獨放在一行。SORT程序使一個數(shù)組的地址指針指向文本每行的開始,也就是這個數(shù)組中包括了每行第一個字符的地址,在每行的末端還有一個可檢測的字符。
COMPARE對所檢測的二行的地址進行比較,也就是COMPARE具有兩個自變量ARRAYLiNE1和ARRAYLiNE2。每一個自變量都有一個來自SORT所設(shè)置的數(shù)組的地址。對這些地址所對應(yīng)的二行進行比較,並返回一個指明了對于α規(guī)則表的形式來說它們是否符合正確排列規(guī)則的數(shù)據(jù)。如果某一行發(fā)生混亂,則SORT調(diào)換這二行的地址指針,以使這二行的排列正確。
在下面的討論中,我們將由COMPARE比較的兩行稱之為行1和行2。在塊210中,COMPARE置兩個計算器I1=I2=0。I1和I2分別是被檢驗的行1和行2的字或音節(jié)中的現(xiàn)存字符的標(biāo)志。在該算法中I1通??偸堑扔贗2,這在下面還要討論。
在塊220-230中,確定數(shù)值是否仍在行1和行2中並進行比較。如果沒有,上述之一的處理進行到兩行末端不會檢出任何不同,或者說,由于某種原因兩行都沒有任何數(shù)值。在判斷塊220中,判斷行1和行2末端的字符是否要檢測。如果要檢測,則在程序塊222中,COMPARE算法返回一個0值,這個0值表示在這兩行之間沒有不同,只需變換其地址指針。如果不能確定到達行1和行2的末端,那么在判斷塊224中則要判斷是否到達了行1的末端。如果是,在塊226中程序返回一個數(shù)-1,因為行1比行2要短,但在其它方面相同,因此地址指針不必變換。如果行1沒有終止,則在塊228中要判斷行2是否終止,如果行2已終止,則塊230返回一個數(shù)值+1,數(shù)值+1表示行1和行2的地址指針要變換,因為行2比行1要短。
如果兩行中都不能確定哪一個較短,然后,COMPARE檢驗在行1和行2的下一個字或音節(jié),以便確定它們恰當(dāng)?shù)摩烈?guī)則表順序。
如果不能確定兩個字都是PCL字,如其中一個是英文字,則它們適用于塊240-250。在指令塊240中,指針END1和END2分別設(shè)置在行1和行2現(xiàn)行字后的空格地址。按規(guī)定,在PCL中這些字是由空格來分隔的。因此,在對行1和行2的內(nèi)容進行字對字比較時,空格是作為一種合適的分界符而使用的。多位空格,控制碼、零態(tài)輔音被用作音節(jié)分界符,而其它不適當(dāng)?shù)淖址梢月匀?。I1和I2可以通過這種字符而增值,此時,兩個計數(shù)器將不保持相等。
在判斷塊242中,為確定它們是否為漢語拼音形式的兩個字,對現(xiàn)存字進行了檢查。假如不是,然后在塊244中,“比較檢驗”功能將運用于這兩個現(xiàn)存字之上。“比較檢驗”檢查在線1部份中,從用I1表示的現(xiàn)存位置到用END1表示的結(jié)束位置的每個字符。同樣,“比較檢驗”也檢查線2中從I2到END2的內(nèi)容。這兩個字被嚴(yán)格地按字母表,例如,按美國信息交換標(biāo)準(zhǔn)代碼(ASCII)或中國信息交換標(biāo)準(zhǔn)代碼(CSCII,參看圖13)的標(biāo)準(zhǔn)分類順序,進行比較?!氨容^檢驗”返回一個比較值,根據(jù)詞匯使用的慣例,按照在線1排列中的這個字是否等于、低于或高于線2中這個字,此比較值分別為0、-1或+1。
在塊246中,確定該比較值是否等于0。假如為0,這兩個現(xiàn)存的字就是相同的,而且無需進行轉(zhuǎn)換了。在塊248中,通過調(diào)正I1-END1和I2-END2,程序進入下一個字。在塊205中,I1和I2按1遞增,以開始下一個字的檢查。
假如比較值不等于0,在塊250中,“比較”返回一個比較值,即或為-1,或為+1,這依據(jù)在線1中的現(xiàn)存字是否低于或高于在線2中的這個字來決定。在這后一種情況下,兩線之間將發(fā)生轉(zhuǎn)換。
假如在判斷塊242中已經(jīng)確定現(xiàn)存的兩個字就是漢語拼音字,即為PCWs(漢語拼音字)或PPCWs(多音節(jié)漢語拼音字),然后須進行音節(jié)間(表意文字間)的比較。這是由260-284的各步來完成的。
參考圖12B,在指令塊260中,前一個字的末端或現(xiàn)存的多音節(jié)漢語拼音字的第一個音節(jié),是采用上述的分離邏輯來完成的,“分離”子程序返回“末端音節(jié)1”和“末端音節(jié)2”的值。“末端”音節(jié)1”表示存在于線1中I1和END2之間的第一個音節(jié)的末端的標(biāo)記;同樣,“末端音節(jié)2”在線2中下一個音節(jié)末端的標(biāo)記。
在音節(jié)末端建立之后,在塊262中,現(xiàn)存的音節(jié)將進行音調(diào)比較,這是由稱之為“音調(diào)比較”的子程序來完成的?!耙粽{(diào)比較”與“比較檢驗”相似,但它依據(jù)同音調(diào)字必須一起出現(xiàn)在α規(guī)則表中,進而必須彼此置于α規(guī)則表順序之中的的上述原則進行了修正。同時,它忽略了最后一個字符,此字符可以構(gòu)成起始表意符號相同,又可分離的多音節(jié)漢語拼音字?!耙粽{(diào)比較”的一個優(yōu)點是,它能把一個給定音調(diào)的音節(jié),變成單個的具有特定發(fā)音的形式,然后加到“比較檢驗”。
“音調(diào)比較”返回一個音調(diào)比較值。假如現(xiàn)存的音節(jié)是同音調(diào)的,此值為0,依據(jù)線1中現(xiàn)存的音節(jié)是否比線2中現(xiàn)存的音節(jié)的音調(diào)低或高,此值或為-1,或為+1。在塊264中,假如音調(diào)比較值不等于0,則“音調(diào)比較”在指令塊266中返回一個音調(diào)比較值。假如音調(diào)比較值等于0則現(xiàn)存的兩個音調(diào)是同音調(diào)的,還須確定對α規(guī)則表的順序是否進行了校正。為了完成這任務(wù),對現(xiàn)存的音節(jié),“比較”則加到上述的“比較檢驗”子程序。在比較漢語拼音字母時,“比較檢驗”遵循與美國信息交換標(biāo)準(zhǔn)代碼或中國信息交換標(biāo)準(zhǔn)代碼(參看圖13)類似的分類慣例。此系統(tǒng)對漢語拼音字符賦予數(shù)字值,就像上面對美國信息交換標(biāo)準(zhǔn)代碼(ASCII)的字符組賦予的值一樣,所以,“分類”把漢語拼音字母置于英文字母之后。在指令塊268中,“比較檢驗”以類似于上述的方法返回一個比較值。在塊270中,確定“比較”值是否等于0。假如不等于0,則塊272中,“比較”返回或是-1或是+1的比較值。
假如比較值等于0,由于同音調(diào),現(xiàn)存的兩個音節(jié)在α規(guī)則表上是相同的。在塊274中,通過調(diào)正“線1-末端音節(jié)1”和“線2-末端音節(jié)2”,程序則進行到下一個現(xiàn)存字。
在塊276中,程序根據(jù)規(guī)定的法則進行檢驗,以確定兩個字中的一個是否達到末端,也即,用來確定I1是否低于END1,以及I2是否低于END2。假如兩個字中的一個已到末端。則系統(tǒng)返回到塊260,以確定在線1和線2中下兩個音節(jié)的末端,並加到“音調(diào)比較”。
假如在判斷塊276中,一個字已到末端,然后在塊278中確定兩個字是否都到末端。假如是,程序則通過指令塊205,在此I1和I2按1遞增,並繼續(xù)比較下兩個現(xiàn)存字。
假如在判斷塊278中,確定只有一個字到末端了,則在塊280中確定線1中的現(xiàn)存字是否到末端,假如不是末端,即假如I1低END1,則線1中的現(xiàn)存字比線2中的現(xiàn)存字長,兩線應(yīng)該轉(zhuǎn)換。因此,在塊282中,程序返回一個+1值。換言之,假如I1=END1,則在線1中的現(xiàn)存字已經(jīng)到末端了,那么就無需轉(zhuǎn)換了。因此,在塊284中,返回一個-1值。
D、鍵盤把漢語拼音字母表送入計算機系統(tǒng)、字處理機或類似的設(shè)備中去的特別有效的鍵盤示于圖10。鍵盤的實際安排與標(biāo)準(zhǔn)的“魁蒂”(QWERTY)鍵盤和示于每個鍵位左邊的“魁蒂”符號相同。相應(yīng)于每個鍵位置的漢語拼音字母表中的字母示于每個鍵的右邊,相應(yīng)于每個鍵的位置上示出了兩個漢語拼音字母,右上方的字母相應(yīng)于鍵盤的大寫字母位置(此時,移位鍵已按下),而在每個鍵的右下方位置的字母,相應(yīng)于那個鍵的小寫字母位置。這種鍵盤安排,使效率最高。采用這個鍵盤,打字員或鍵盤操作者可以把漢語拼音信息送入數(shù)據(jù)處理機或字處理機之中。
關(guān)于有效的鍵盤布置有許多公開的研究,恐怕最著名的要算在1936年,鈕約的美國圖書公司出版的,由A·DVorak等人合著的“打字行為”一書。此書揭示了在鍵盤上的字符配置應(yīng)根據(jù)傳統(tǒng)的基礎(chǔ)來確定,以便打字員的手指盡可能少地離開中間鍵(在“魁蒂”鍵盤上,中間鍵為a,s,d,f,j,k,l,;)。為此,使用最頻繁的一組鍵被安置在中間行(圖10的第三行),第二位頻繁使用的一組鍵直接配置在中間行之上(圖10的第二行),第三位頻繁使用的一組鍵直接配置在中間行之下(圖10的第四行),最少頻繁使用的一組鍵配置在中間行之上兩行(圖10中最上面的一行)。在每一行中,最頻繁使用的鍵是食指鍵,第二位最頻繁使用的鍵是中指鍵,第三位最頻繁使用的鍵是無名指鍵,而第四位最頻繁使用的鍵是小指鍵。
雖然Dvorak系統(tǒng)通常是最有效的,但它未考慮盡可能多地用左右手交替打字的客觀需要。本發(fā)明的鍵盤通過把全部輔音和最好是全部半輔音設(shè)置在鍵盤的右側(cè)達到這種效果,以便可以用操作者的右手打字。最頻繁使用的元音音調(diào)配置在鍵盤的左手側(cè)。由于在鍵盤的左手側(cè),元音音調(diào)的數(shù)量比設(shè)置的鍵數(shù)還多,必須把一些元音音調(diào)放置在鍵盤的右手側(cè)。在使用時,鍵盤的左手側(cè)系指圖10中黑線左側(cè)的這些鍵,這些鍵用左手打擊。鍵盤右手側(cè)的鍵系指圖10中黑線右側(cè)配置的那些鍵,這些鍵用右手打擊。
本發(fā)明還確定有鍵盤大寫字母和小寫字母狀態(tài)功能的鍵盤字母的配置。由于漢語拼音字母表包含85個字母,不能全部配置于鍵盤的小寫字母區(qū),只有43個字母被配置在鍵盤的小寫字母區(qū),通過選擇示于圖10的特定符號,根據(jù)使用頻度,所用字母的74%包含在小寫字母區(qū)。
本發(fā)明的鍵盤還確定作為載有元音音調(diào)的音調(diào)功能的鍵的字母位置。最頻繁出現(xiàn)的音調(diào)有四種,帶有第四種音調(diào)的全部元音音調(diào)全部配置在中間行(圖10的第三行);第二位最頻繁使用的音調(diào)是第一種音調(diào),帶有這個音調(diào)的全部元音音調(diào)配置在第二行;第三位最頻繁使用的音調(diào)是第二種音調(diào),帶有這個音調(diào)的元音音調(diào)全部配置在鍵盤的最低一行;最少頻繁使用的音調(diào)是第三種音調(diào),帶有第三種音調(diào)的音調(diào)-音節(jié)全部配置在鍵盤的最高一行。
為了使學(xué)習(xí)鍵盤上字母的位置變得容易,圖10的鍵盤還把元音音調(diào)族編組,以便把給定族的元音音調(diào)引入使用同一手指的基本范圍中來。參考圖10,元音音調(diào)族47-50全部用左手小指打字,元音音調(diào)族51-54全部用左手無名指打字,元音音調(diào)71-74全部用左手中指打字,余此類推。
權(quán)利要求
1.一種漢語表意文字的數(shù)字編碼和儲存的方法,其特征在于由如下步驟組成,a)選擇一組被編碼和儲存的漢語表意文字,b)對每個被選擇的表意文字而言,選擇一個且只選擇一個數(shù)字表示之,c)從漢語拼音字母表中選擇一組字母,用漢語拼音字母表的字母可以構(gòu)成漢語拼音字,且這種被選擇的表意文字的讀音完全可以區(qū)別開,d)對每個漢語拼音字母而言,選擇一個且只選擇一個數(shù)字來表示之,e)儲存一個單音節(jié)字典,以識別每個被選擇的表意文字及其相應(yīng)的漢語拼音字的單獨數(shù)字表示之間的--對應(yīng)關(guān)系。
2.如權(quán)利要求
1所述的方法,其特征在于所述的漢語拼音字母表中的字母代表如下的語言要素,a)多個元音,b)多個元音發(fā)音音調(diào),c)多個輔音。
3.如權(quán)利要求
2所述的方法,其特征在于所述的元音包括a)多個元音音調(diào),其中每一個元音音調(diào)都表示具有一個給定音調(diào)的給定元音發(fā)出的聲音,b)多個半輔音,其中每一個都表示一個給定元音,在不考慮音調(diào)時發(fā)出的聲音,
4.如權(quán)利要求
3所述的方法,其特征在于所述的多個音調(diào)包括四種音調(diào)。
5.如權(quán)利要求
4所述的方法,其特征在于所述的元音由一個基本字符和一個用來指明音調(diào)的並與之結(jié)合的標(biāo)記組成。6、如權(quán)利要求
2所述的方法,其特征在于所述的輔音包括a)多個短輔音,其中每一個都表示一個單個輔音的發(fā)音,b)多個長輔音,其中每一個都表示一個單個輔音像單個元音發(fā)音一樣所發(fā)出的聲音,c)不發(fā)音的零輔音。
7.如權(quán)利要求
2所述的方法,其特征在于每個漢語拼音字都具有TS+Q的形式,其中a)TS為CV,CSV,SV和V四種格式之一的音調(diào)一音節(jié),C為輔音,S為半輔音,V為元音,b)Q為廣義的音調(diào)音節(jié)修正符,以指明同音調(diào)之間可區(qū)別的意義。
8.如權(quán)利要求
7所述的方法,其特征在于所述的Q為φ和G形式中的一種,其中a)φ為零集b)G為廣義的語義分類符,由漢語拼音字母附加到音調(diào)-音節(jié)TS組成,用來把同音調(diào)字區(qū)分到必需的程度。
9.如權(quán)利要求
8所述的方法,其特征在于所述的G為C,V,S和Z四種形式之一,其中Z為零輔音。
10.如權(quán)利要求
4所述的方法,其特征在于所述的元音發(fā)音“i”是由三組單獨的漢語拼音字母表中的字母來表示的。
11.如權(quán)利要求
10所述的方法,其特征在于元音發(fā)音“u”和元音發(fā)音“
”,每個都是由兩組單獨的漢語拼音字母表中的字母來表示的。
12.如權(quán)利要求
11所述的方法,其特征在于所述的漢語拼音字母表可以把255個同音調(diào)的漢語拼音字加以區(qū)分,其中元音發(fā)音只有“i”,“u”或“
”;編碼于元音發(fā)音“i”的漢語拼音字有170個同音調(diào),而對其他全部漢語拼音字有85個相同音調(diào)。
13.如權(quán)利要求
6所述的方法,其特征在于所述的多個音調(diào)包括四種音調(diào),所述的元音音調(diào)包括多個元音音調(diào)和多個半輔音,其中每一個元音音調(diào)都表示一個給定元音按給定音調(diào)所發(fā)出的聲音,而其中每一個半輔音都表示一個給定元音,在不考慮音調(diào)時所發(fā)出的聲音,所述的四種元音音調(diào)分別四種音調(diào),當(dāng)它們跟隨在一個所述的短輔音之后時,進而表示元音發(fā)音“i”。
14.如權(quán)利要求
13所述的方法,其特征在于所述的四個元音音調(diào)分別表示元音發(fā)音“e”按四種音調(diào)所發(fā)出的聲音,當(dāng)它們跟在發(fā)音“b”,“p”,“m”和“f”以及半輔音之后時,代表元音發(fā)音“o”。
15.如權(quán)利要求
14所述的方法,其特征在于所述的元音音調(diào)分別表示四種音調(diào),當(dāng)它們順寫或跟在零輔音之后時,進而表示元音發(fā)音“er”,當(dāng)它們跟在短輔音之后時,進而表示元音發(fā)音“i”。
16.如權(quán)利要求
9所述的方法,其特征在于在漢語使用最頻繁的字中至少選擇大約8000個表意文字構(gòu)成主組。
17.如權(quán)利要求
16所述的方法,其特征在于所述的主組中有至少約3900個表意文字(對至少約97%用法的統(tǒng)計),可以通過具有TS+φ,TS+V*和TS+Z三種形式之一的漢語拼音字加以唯一的區(qū)分,其中V*為在音調(diào)-音節(jié)TS中的相同元音音調(diào)。
18.如權(quán)利要求
17所述的方法,其特征在于剩余的全部漢語表意文字,通過具有TS+G的形式加以唯一的區(qū)分,其中G是漢語拼音字母表中的字母,而不是V*或Z。
19.如權(quán)利要求
18所述的方法,其特征在于在主組中剩下的大約4100個表意文字中至少約80%可以通過采用語義分類符G來加以唯一的區(qū)分,其中G為類似于區(qū)分表意文字意義的表意文字詞根的漢語拼音表中的字母。
20.如權(quán)利要求
1所述的方法,其特征在于每個漢語拼音字由不多于4個漢語拼音字母表中的字母構(gòu)成。
21.如權(quán)利要求
20所述的方法,其特征在于每個漢語拼音字由平均為2.4漢語拼音字母表中的字母的頻度加權(quán)構(gòu)成。
22.一種適用于處理漢語拼音字母表的鍵盤布置的方法,所述的漢語拼音字母表由多個元音音調(diào)組成,其中每個元音音調(diào)都表示按漢語中存在的四種音調(diào)之一發(fā)出的元音發(fā)音,其特征在于,所述的方法組成如下,a)至少四行鍵的布置被順序地確定為上行,第二行,中間行和下行,b)確定所述的四種音調(diào)的相對使用頻度,c)把最頻繁使用的音調(diào)-元音音調(diào)用鍵布置在中間行。
23.如權(quán)利要求
22所述的方法,其特征在于結(jié)合元音音調(diào)的進一步構(gòu)成為a)第二位最頻繁使用的音調(diào)用鍵布置在第二行,b)第三位最頻繁使用的音調(diào)用鍵布置在下行,c)第四位最頻繁使用的音調(diào)用鍵布置在上行。
24.如權(quán)利要求
22所述的方法,其特征在于進一步構(gòu)成為a)確定在每一段中用同一手指操作的鍵盤的各段,b)采用其中一段的各鍵,把元音發(fā)音相同但音調(diào)不同的多個元音音調(diào)聯(lián)系在一起。
25.如權(quán)利要求
24所述的方法,所述的漢語拼音字母表進一步由多個元音音調(diào)和半輔音構(gòu)成,其特征在于所述的方法進一步構(gòu)成如下a)確定所述的輔音、半輔音和元音音調(diào)的相對使用頻度b)采用由一只手操作的各鍵,把頻繁使用的元音音調(diào)聯(lián)系在一起,c)采用由另一只手操作的各鍵,把頻繁使用的輔音和半輔音聯(lián)系在一起。
26.如權(quán)利要求
25所述的方法,其特征在于進一步由具有頻繁使用的漢語拼音字母表中字母的,用食指操作的各鍵構(gòu)成。
27.如權(quán)利要求
26所述的方法,其特征在于進一步由符合中指、無名指和小指操作的,比上述一組字母使用頻度低些的漢語拼音字母所用的鍵構(gòu)成。
28.如權(quán)利要求
26所述的方法,所述的各鍵具有大寫字母和小寫字母兩個狀態(tài),其特征在于所述的方法由符合頻繁使用的元音,輔音和半輔音小寫字母狀態(tài)所述的各鍵構(gòu)成。
29.一種適用于處理漢語拼音字母表中字母的鍵盤布置方法,所述的漢語拼音字母表由多個元音音調(diào)構(gòu)成,其中每一個都表示按漢語中存在的四種音調(diào)之一發(fā)出的元音聲音,且進一步由多個輔音和半輔音構(gòu)成,其特征在于所述的方法構(gòu)成如下a)確定在鍵盤上用同一手操作的所述鍵盤的各段,b)確定所述的輔音,半輔音和元音音調(diào)的相對使用頻度,c)采用由一只手操作的各鍵,把頻繁使用的元音音調(diào)聯(lián)系在一起,d)采用由另一只手操作的各鍵,把頻繁使用的輔音和半輔音聯(lián)系在一起。
30.一種適用于把漢語拼音字母表中的字母送入計算機系統(tǒng)或類似設(shè)備中去的鍵盤,所述的漢語拼音字母表,由多個元音音調(diào)(其中每一個都表示按漢語中存在的四種音調(diào)之一發(fā)出的元音發(fā)音),多個輔音音調(diào)和多個半輔音音調(diào)構(gòu)成,其特征在于所述的鍵盤構(gòu)成如下a)多個鍵,所述的各鍵分成左右兩部份,分別由左手和右手操作,b)一部份鍵適用于送入頻繁使用的元音音調(diào),c)另一部份鍵適用于送入頻繁使用的輔音和半輔音。
31.如權(quán)利要求
30所述的鍵盤,其特征在于a)所述的各鍵分成四行,命名為上行,第二行,中間行和下行,b)所述的中間行的各鍵,適用于送入最頻繁使用的音調(diào)-元音音調(diào)。
32.如權(quán)利要求
31所述的鍵盤,其特征在于a)所述的各鍵分成指定用同一手操作的鍵組,b)至少有這樣一組鍵適用于送入元音發(fā)音相同但音調(diào)不同的元音音調(diào)。
33.如權(quán)利要求
32所述的鍵盤,其特征在于相對靠近鍵盤中部的各鍵適用于送入頻繁使用的字母。
34.如權(quán)利要求
33所述的鍵盤,其特征在于a)每個鍵都有小寫字母和大寫字母兩個狀態(tài),b)小寫字母狀態(tài)下的各鍵適用于送入頻繁使用的字母。
35.一種正文處理方法,其特征在于由如下步驟組成送入一串漢語拼音字符,區(qū)別每個字符的漢語發(fā)音和音調(diào),所述的一串字符至少包括兩組字符,每一組字符確定一個可變字符長度的漢字拼音字,每一個漢語拼音字表示一個且只表示一個表意文字,且提供要求發(fā)音的表意文字的發(fā)音和音調(diào)信息,最后處理所述的連續(xù)一串字符,直到能唯一地確定在所述的一串字符中每個漢語拼音字的開始和末端。
36.如權(quán)利要求
35所述的方法,其特征在于進一步由稱之為所儲存的單音節(jié)字典構(gòu)成,以便唯一地確定相應(yīng)于每個漢語拼音字的那個表意文字。
37.一種建立一組字串的α規(guī)則表的方法,每個字串包括多個由其結(jié)合而構(gòu)成一個或多個漢語拼音字的字符,每個漢語拼音字表示一個且只表示一個漢語表意文字,並提供要求發(fā)音的表意文字的發(fā)音和音調(diào)信息,所述的字符具有一予定的α規(guī)則表的順序,其特征在于所述處理方法由如下步驟組成將一組字串按α規(guī)則表的順序分類,其中所述的字串是按字串中字符的字母順序排列的字串,所述的字母順序未考慮如下范圍(a)相應(yīng)于第一個漢語表意文字相同的所有字串排列在一起,(b)為了字母表化,把發(fā)音和音調(diào)相同的全部字作為一個單元來考慮,在所述的(a)和(b)組中的所有字串,彼此按字母順序排列。
38.一種處理字符串的方法,其特征在于由如下步驟構(gòu)成,a)送入一串漢語拼音字母表的字母,其中1)所述漢語拼音字母表包括多個元音音調(diào)(V),半輔音(S),輔音(C)和零輔音(Z);2)所述的字母串至少包括兩個單個的漢語拼音字,每個漢語拼音字都具有TS+Q形式,其中TS是具有CV,CSV,SV和V四種形式之一的音調(diào)-音節(jié),而Q是廣義的表意修正符,此修正符具有稱之為漢語拼音字母表中的字母和漢語拼音字母表中任一字母省略兩種形式的一種,倘若,Q不能采用一種元音音調(diào)形式,在它出現(xiàn)于字符串的末端之時,用它來指明卷舌的表意文字,3)所述的每個漢語拼音字表示一個且只表示一個漢語表意文字,並提供要求發(fā)音的表意文字的發(fā)音和音調(diào)信息,4)每個具有V+Q形式的非起始漢語拼音字是按這類字串借助零輔音加以處理的,而每個具有SV+Q形式的非起始漢語拼音字是按這類字串借助零輔音加以處理的,因此,上述這種漢語拼音字接續(xù)一個具有CVC和CSVS兩種形式之一的漢語拼音字。b)上述兩種不同的字串,明確地分入在這其中所包括的上述分別的漢語拼音字。
39.如權(quán)利要求
38所述的方法,其特征在于進一步由一個稱之為所儲存的單音節(jié)字典構(gòu)成,以便唯一地確定相應(yīng)于每個漢語拼音字的表意文字。
40.如權(quán)利要求
38所述的方法,其特征在于進一步由如下步驟組成。a)確定所述的漢語拼音字母表中的字母的予定字母順序,b)至少送入兩個所述的漢語拼音字母表中的字母的字串,c)按字母順序儲存所述的字串,其中所述的字串是按字串中字母順序加以排列的字串,所述的字母順序未考以下范圍;(a)相應(yīng)于第一個漢語表意文字相同的所有字串排列在一起,(b)為了字母表化,把發(fā)音和音調(diào)相同的全部字作為一個單元來考慮,在所述的(a)和(b)組之中的所有字串彼此按字母順序加以排列。
41.一種漢語表意文字編碼和儲存的方法,其特征在于由如下步驟構(gòu)成a)選擇一組能單一加以區(qū)分的漢語拼音音調(diào)-音節(jié)的漢語拼音字母表中的字母,b)選擇一個且只選擇一個7位數(shù)字表示法,用它來表示漢語拼音字母表中的每個字母,c)選擇一組用來編碼和儲存的漢語表意文字,d)為了單一地區(qū)分每個被選擇的表意文字,選擇且只選擇一個由漢語拼音字母組成的漢語拼音字,e)存儲一個單音節(jié)字典,此字典用來識別用各個數(shù)字表示的每個所選擇的表意文字與相應(yīng)的漢語拼音字之間的一一對應(yīng)關(guān)系。
42.如權(quán)利要求
41所述的方法,其特征在于所述的對每個漢語拼音字母表的字母的7位數(shù)字表示是在80H-FFM范圍之內(nèi)。
43.如權(quán)利要求
42所述的方法,其特征在于所述的7位數(shù)字表示是在80H-DFH范圍之內(nèi)。
44.如權(quán)利要求
41所述的方法,其特征在于所述的7位數(shù)字表示是在81H-DEH范圍之內(nèi)。
專利摘要
處理中文文字或數(shù)據(jù)的方法及設(shè)備。本發(fā)明制定了一套《拼音中文》系統(tǒng)。采用拼音定調(diào)表意的拼音文字為電腦自然語言?!镀匆糇帧放c漢字通過漢字庫達到唯一轉(zhuǎn)換。每個拼音字不超過四個字母,平均是2.4個字母。拼音中文字母采用七位二進制字符交換碼。同音字和同調(diào)字分辨得到了解決。拼音字相連組成拼音詞,不必在電算機內(nèi)設(shè)詞庫。拼音中文的詞匯可以按《音字序》排列,使?jié)h字得到音字序排列的功能。左右手交替打字高速輸入鍵盤設(shè)計。
文檔編號G06F3/01GK86105610SQ86105610
公開日1987年6月10日 申請日期1986年6月14日
發(fā)明者葉漳民 申請人:葉漳民導(dǎo)出引文BiBTeX, EndNote, RefMan