国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      拼音漢詞編碼及其鍵盤的制作方法

      文檔序號:6412107閱讀:431來源:國知局
      專利名稱:拼音漢詞編碼及其鍵盤的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明屬于漢字信息處理領(lǐng)域,主要用于漢字的編碼、輸入、輸出、以及漢語詞匯和語句的計算機(jī)處理等。
      漢字小鍵盤輸入方法中,按漢字編碼所依據(jù)的漢字屬性來劃分,有形碼、音碼,形音碼、音形碼四大類。上述漢字編碼方法各有利弊,解決問題也多少不同,各種有關(guān)介紹很多,這里就不談了。它們有三個共同的缺點(diǎn),一是對重碼漢字,普遍使用人工選字,給眾多使用者造成不便;二是漢字編碼不能象英文詞那樣方便地輸入計算機(jī),給計算機(jī)普及帶來困難;三是各種漢字編碼方法,都不能促進(jìn)漢字信息處理各種應(yīng)用問題的解決。例如,由周志農(nóng)先生發(fā)明的“自然碼輸入法”就很有名,主要缺點(diǎn)是自然碼的拼音編碼方法,使用人工選字解決重碼問題,不能象使用英文詞一樣方便,漢語分詞問題沒有解決;自然碼的形義編碼方法,不能為漢字信息處理各種應(yīng)用問題的解決,提供一個良好的環(huán)境。
      本發(fā)明的目的是提供一種支撐漢字信息處理各種應(yīng)用問題解決的、以字處理為基礎(chǔ)、詞句處理的、沒有重碼的,可以讀的漢字編碼(鍵盤)輸入方法。為此,提供一種新的漢字編碼單位“漢詞”,在漢字信息處理和漢字編碼中,漢詞可以對中文語料進(jìn)行窮盡切分;提供一種新的漢字編碼形式“趙詞”,即“拼音漢詞”,趙詞在分詞連寫、可以讀、不使用人工選字、輸入跟英文詞差不多的條件下,使?jié)h字編碼沒有一個重碼;提供一種適宜趙詞簡碼輸入的小鍵盤,以便提供輸入速度;趙詞全碼使用國際通用的標(biāo)準(zhǔn)小鍵盤。
      為完成上述目的,本發(fā)明提供了一種拼音漢詞編碼的方法,以及適用于拼音漢詞編碼的鍵盤,其特殊之處在于包括下述內(nèi)容1.一種拼音漢詞編碼及其鍵盤專用的漢字輸入鍵盤,其特征在于拼音漢詞編碼及其鍵盤使用“全碼”和“簡碼”兩種鍵盤,全碼鍵盤無圖,簡碼鍵盤,即圖7;全碼和簡碼,都使用國際通用的標(biāo)準(zhǔn)小鍵盤,把拼音漢詞編碼的26個聲母、38個韻母、26個節(jié)調(diào)字母、以及對應(yīng)的漢語拼音22個聲母、38個韻母、4個聲調(diào)符號,定義在標(biāo)準(zhǔn)鍵盤的26個英文字母鍵上;下述的“代替”,都是指把漢語拼音的字母用標(biāo)準(zhǔn)鍵盤上的英文字母代替;全碼和簡碼的聲母相同,zh用y代替,ch用w代替、sh用V代替,跟漢語拼音相比,增加五個“無讀音”聲母a、i、e、o、u,同英文字母,其它聲母也同英文字母,即圖2;全碼的韻母,全部由二個英文字母構(gòu)成,er用eh代替、a用al代替、 o用oj代替、e用ef代替、ai用ak代替、ei用ec代替、ao用ag代替、ou用od代替、an用am代替、en同英文字母、ang用at代替、eng用eb代替、ong用oy代替、i用ih代替、ia用il代替、ie用if代替、iao用ig代替、iou用id代替、ian用im代替、in同英文字母、iang用it代替、ing用ib代替、iong用iy代替、u用uh代替、ua用ul代替、uo用uj代替、uai用uk代替、uei用uc代替、uan用um代替、uen用un代替、uang用ut代替、ueng用ub代替、ü用oh代替、üe用of代替、üan用om代替、ün用on代替,把漢語拼音的韻母ê并入韻入韻母ei,用ec代替、把漢語拼音的聲母ng,作為韻母使用,用ob代替,跟漢語拼音相比,增加一個“無讀音”韻母ot,同英文字母,圖3;簡碼的韻母,全部由一個英文字母構(gòu)成,er、ia以及全碼的無讀音韻母ot,都用Q代替、iou用w代替、e同英文字母、üan和uan用R代替、üe和uei用T代替、ian用Y代替、u同英文字母、i同英文字母、o同英文字母、uo用o代替、ün和uen用P代替、a同英文字母、iong和ong用s代替、iang和uang用D代替、en用F代替、eng和ueng用G代替、ang用H代替、an用J代替、ao用k代替、ai用L代替、ei和ê用z代替、ie用x代替、ü和ua用C代替、iao用V代替、ou用B代替、in和ng用N代替、ing和uai用M代替,圖3;全碼和簡碼的節(jié)調(diào)字母相同,陰平用s、t、u、v、w、x、z代替,陽平用m、n、o、p、q、r、z代替,上聲用g、h、i、j、k、l、y代替,去聲用a、b、c、d、e、f、y代替,圖1。
      2.一種拼音漢詞的漢字編碼方法,其特征在于,以漢詞為漢字編碼單位,以拼音漢詞和拼音句言為漢字編碼形式,以漢詞和拼音漢詞一對一編碼,以句言和拼音漢詞為輸入單位,以句讀和漢詞為輸出單位的漢字音義編碼方法,內(nèi)容包括1)以漢詞和編碼句讀為漢字編碼單位,由一個漢字和二個漢字組成的漢字編碼單位,叫作漢字漢詞,一個漢字的漢字漢詞,叫作“單漢字”,或者叫作“單漢字漢詞”,二個漢字的漢字漢詞,叫作“雙漢字”,或者叫作“雙漢字漢詞”,不加區(qū)別時,統(tǒng)稱為“漢詞”,漢詞的數(shù)學(xué)定義是c2+c1,式中c=0,1,2,3…正整數(shù),c表示不同漢字的個數(shù),c1表示單漢字漢詞的個數(shù),c2表示雙漢字漢詞的個數(shù);一個漢詞只有一個意義,叫作“類屬意義”,簡稱“類義”,漢詞類義的數(shù)學(xué)模型是H1=log2(c2+c1),式中,c>0,H1表示漢詞類義的平均信息量,單位是比特,c表示不同漢字的個數(shù),c1表示單漢字漢詞類義的個數(shù),c2表示雙漢字漢詞類義的個數(shù);漢詞具有規(guī)定的書寫形式和意義,漢詞之間有空格;由二個漢詞組成的漢字編碼單位,叫作“編碼句讀”,又叫作“句讀”,句讀的漢字編碼單位有四種,就是,單漢字+單漢字、單漢字+雙漢字、雙漢字+單漢字、雙漢字+雙漢字;2)以拼音漢詞和拼音句言為漢字編碼形式,拼音漢詞編碼使用“全碼”,又叫作“趙詞全碼”,“簡碼”,又叫作“趙詞簡碼”,兩種漢字編碼形式;全碼和簡碼的聲母相同,都是26個b、p、m、f、d、t、n、l、g、k、h、j、q、x、y、w、v、r、z、c、s、a、i、e、o、u,即圖2;全碼的韻母有38個,是eh、al、oj、ef、ak、ec、ag、od、am、en、at、eb、oy、ih、il、if、ig、id、im、in、it、ib、iy、uh、ul、uj、uk、uc、um、un、ut、ub、oh、of、om、on、ot、ob即圖3;簡碼的韻母有26個,是Q、W、E、R、T、Y、U、I、O、P、A、S、D、F、G、H、J、K、L、Z、X、C、V、B、N、M,即圖3;全碼和簡碼的“節(jié)調(diào)字母”,又叫作“節(jié)調(diào)”,相同,都是26個,另外,分別還有2個相同的節(jié)調(diào)字母,陰平節(jié)調(diào)是s、t、u、v、w、x、z,陽平節(jié)調(diào)是m、n、o、p、q、r、z,上聲節(jié)調(diào)是g、h、i、j、k、l、y,去聲節(jié)調(diào)是a、b、c、d、e、f、y,即圖1;全碼和簡碼分別使用聲母、韻母、節(jié)調(diào),把漢語拼音有聲韻調(diào)的不同音節(jié)大約1300個,編碼為大約8580個有聲韻調(diào)的不同的編碼,這8580個編碼,叫作“拼音漢詞”,一個聲節(jié)的拼音漢詞,叫作“單聲節(jié)”,或者叫作“單聲節(jié)趙詞”,二個聲節(jié)的拼音漢詞,叫作“雙聲節(jié)”,或者叫作“雙聲節(jié)趙詞”不加區(qū)別時,統(tǒng)稱為“拼音漢詞”或者“趙詞”,趙詞的數(shù)學(xué)定義是a2+a1,式中a=0,1,2,3…正整數(shù),a表示不同聲節(jié)的個數(shù),a1表示單聲節(jié)趙詞的個數(shù),a2表示雙聲節(jié)趙詞的個數(shù);一個趙詞只有一個標(biāo)準(zhǔn)語音,就是標(biāo)準(zhǔn)普通話語音,趙詞普通話語音的數(shù)學(xué)模型是H2=log2(a2+a1),式中,a>0,H2表示趙詞普通話語音的平均信息量,單位是比特,a表示不同聲節(jié)的個數(shù),a1表示單聲節(jié)趙詞普通話語音的個數(shù),a2表示雙聲節(jié)趙詞普通話語音的個數(shù);以8580個聲節(jié)計算,趙詞的總數(shù)是7.362498×107個,趙詞語音的熵,即普通話語音的平均信息量是26.134比特;趙詞之間有空格;單聲節(jié)由聲母、韻母、節(jié)調(diào)、共三部分構(gòu)成,雙聲節(jié)由聲母、韻母、節(jié)調(diào)、聲母、韻母、節(jié)調(diào),共六部分構(gòu)成;由二個拼音漢詞組成的漢字編碼形式,叫作“拼音句言”,又叫作“句言”,句言的漢字編碼形式有四種,就是,單聲節(jié)+單聲節(jié)、單聲節(jié)+雙聲節(jié),雙聲節(jié)+單聲節(jié)、雙聲節(jié)+雙聲節(jié);3)漢詞和拼音漢詞對應(yīng)編碼的基本規(guī)則有三條,一個雙漢字固定使用一個雙聲節(jié)編碼,一個單漢字固定使用一個單聲節(jié)編碼,一個單漢字固定使用一個雙聲節(jié)編碼;漢詞和拼音漢詞對應(yīng)編碼的附加規(guī)則有一條,就是漢字和節(jié)調(diào)字母對應(yīng)排序的規(guī)則,下述的“序號”,都是指圖1的“節(jié)調(diào)字母序號”,一是“字頻排序法”,在同音同聲調(diào)漢字中,按照使用漢字的頻度大小,從序號1到序號6順序排列6個漢字,反復(fù)排列,可排列所有的同音同聲調(diào)漢字;二是“字義排序法”,又叫作“音義排序法”,在同音同聲調(diào)漢字中,根據(jù)漢字的一個基本意義,規(guī)定漢字和節(jié)調(diào)字母的對應(yīng)排序,把全部漢字的基本意義,歸類為二種“類屬意義”,就是“名詞”和“動詞”,又細(xì)分為6種類屬意義,就是,實(shí)物名詞、抽象名詞、代時名詞、動作動詞、靜態(tài)動詞、過程動詞,在同音同聲調(diào)漢字中,按照漢字的一個基本意義,從序號1到序號6,順序排列6個漢字,反復(fù)排列,可排列所有的同音同聲調(diào)漢字,圖1;4)以句言和拼音漢詞為輸入單位,在二個拼音漢詞之間有一個空格的前提下,由二個拼音漢詞組成的輸入單位,叫作“輸入句言”,又叫作“句言”,句言后面擊二次空格鍵,如果單聲節(jié)用數(shù)字“1”表示,雙聲節(jié)用數(shù)字“2”表示,那么,句言的組合形式有四種,就是“1+1”,“1+2”,“2+1”,“2+2”,以拼音漢詞為輸入單位時,輸入一個拼音漢詞,擊一次空格鍵;5)以句讀和漢詞為輸出單位,在二個漢詞之間有一個空格的前提下,由二個漢詞組成的輸出單位,叫作“輸出句讀”,又叫作“句讀”,句讀后面有二個空格的距離,如果單漢字用數(shù)字“1”表示,雙漢字用數(shù)字“2”表示,那么,句讀的組合形式有四種,就是“1+1”,“1+2”、“2+1”、“2+2”,以漢詞為輸出單位時,輸出一個漢詞,后面有一個空格。
      對上述的方法和鍵盤作專業(yè)技術(shù)應(yīng)用的分類和限定,就適用于一切大、中、小、微型計算機(jī)漢字信息處理系統(tǒng)、漢字電傳機(jī)、漢字電腦打字機(jī)、漢字終端機(jī)、各類電子印刷排版系統(tǒng)、情報檢索和檔案管理、辦公室自動化系統(tǒng)、專家系統(tǒng)、翻譯系統(tǒng)、漢字語音識別系統(tǒng)和漢字字形識別系統(tǒng)、漢字信息通訊系統(tǒng)、廣告宣傳系統(tǒng)、電話查號系統(tǒng)和公用咨詢服務(wù)系統(tǒng)中。
      中文語料,總是由不同的漢字組成的。以GB2312-80中的6763個不同漢字計算,共可構(gòu)造不同的漢詞4.5744932×107個,即一個唯一的漢詞集合,每個漢詞的熵,即平均信息量是25.447比特,計算方法如下當(dāng)c=6763時,c2+c1=67632+67631=4.5744932×107(個)H1=log2(c2+c1)=log24.5744932×107=25.447(比特)漢詞的數(shù)量很大,但現(xiàn)代漢語實(shí)際使用的漢詞,并不多?,F(xiàn)代漢語實(shí)際使用的漢詞,可以根據(jù)漢語語法詞的數(shù)量作對比估算。從形式上看,語法詞中的全部雙音節(jié)詞,都可以看作是雙漢字,全部單音節(jié)詞,都可以看作是單漢字,三音節(jié)詞、四音節(jié)詞、五音節(jié)以上的詞,都可以切分成雙漢字和單漢字,兩個漢字的語法詞組,都是雙漢字,還有一些漢詞無法跟語法詞對比,參看實(shí)施例中的例句。實(shí)際使用漢詞的數(shù)量,明顯地多于語法詞的數(shù)量。根據(jù)現(xiàn)代通用語法詞的數(shù)量,發(fā)明人估算,現(xiàn)代漢語通用漢詞的數(shù)量,大約六萬個,中文語料覆蓋率為99%,其中,中文語料覆蓋率為95%,最常用的通用漢詞,大約一萬二千個。
      漢詞之間的距離有一個空格就可以了。在漢字編碼時,首先把中文語料切分成漢詞,然后經(jīng)趙詞編碼輸入計算機(jī),輸出計算機(jī)的是分詞連寫的漢詞,也可以是不分詞連寫的漢字,但最好是漢詞。分詞連寫將對漢字信息處理的各種應(yīng)用問題,帶來無窮無盡的方便和好處。分詞連寫的重要性,怎么強(qiáng)調(diào)都不過分。
      漢詞的數(shù)學(xué)定義說明。漢詞是一種不同漢字重復(fù)排列的方法。參看圖4,“信”、“息”、“論”三個不同漢字的重復(fù)排列方法。根據(jù)重復(fù)排列種數(shù)的公式mn,以及加法定義,就可以計算出漢詞的總數(shù)。計算漢詞的總數(shù),就是漢詞的數(shù)學(xué)定義。從圖4漢詞原理例圖可以看出,由“信”、“息”、“論”、三個不同漢字,可構(gòu)造9個不同的雙漢字漢詞、3個不同的單漢字漢詞,共計12個不同的漢詞,現(xiàn)代漢語實(shí)際使用的不同漢詞有4個,即“信”、“息”、“論”、“信息”,其余的8個雙漢字漢詞備用。“備用”這個道理很簡單,在“信息論”沒有產(chǎn)生以前,“信息”這個漢詞沒有人使用,而現(xiàn)在大量使用。
      漢詞的數(shù)學(xué)定義,能夠使計算機(jī)和普通使用者,從總體上把握漢詞,能夠定量地描述漢詞的各種特征,這對漢字信息處理和漢字編碼各種問題的解決,是非常有用的。再舉一個例子,如果把“通訊功能的開啟和停止”??闯墒且粋€句子,那么,共使用了10個不同漢字,使用了6個漢詞,因?yàn)楸景l(fā)明規(guī)定一個漢詞只有一個意義,即“類屬意義”,簡稱“類義”,所以,根據(jù)信息論的方法,以及漢詞類義的數(shù)學(xué)模型,可以建立漢詞句子類義的數(shù)學(xué)模型H3=log2(c2+c1)n,c≥1,1≤n≤c,H3表示句子類義的平均信息量,單位比特;n表示句子里使用漢詞的個數(shù);其它同漢詞類義的數(shù)學(xué)模型。
      “通訊功能的開啟和停止”這句話的類義,即這句話意義的平均信息量是當(dāng)c=10,n=6時,H3=log2(c2+c1)n=log2(102+101)6=6×6.781=40.686比特。
      對于英文詞和漢語語法詞來說,進(jìn)行類似的計劃,將是極為困難的。漢詞的數(shù)學(xué)定義,漢詞類義的數(shù)學(xué)模型,句子類義的數(shù)學(xué)模型,將為第三代漢字編碼輸入方法,漢字信息處理提供一個良好的工作環(huán)境。
      趙詞的數(shù)學(xué)定義說明。趙詞的數(shù)學(xué)定義,跟漢詞的數(shù)學(xué)定義,沒有什么根本地不同,只是寫法和數(shù)量不同,趙詞使用的是聲節(jié),是一種以語音為主的漢字編碼形式,漢詞使用的是漢字,是一種規(guī)定性的漢字編碼單位,從總體數(shù)量上說,漢詞比趙詞要多很多。由于趙詞是可以讀的,所以,可以對趙詞的語音進(jìn)行定量地描述。本發(fā)明規(guī)定,一個趙詞只有一個語音,不同的趙詞,就有不同的語音,如果不同的趙詞讀音相同,即同音不同型,也是不同的語音。趙詞語音的信息量和趙詞類義的信息量,計算方法完全一樣,如果不同漢字的個數(shù)跟不同聲節(jié)的個數(shù)相同,那么,信息量也就相同,這符合常識。趙詞普通話語音的數(shù)學(xué)模型,H2=log2(a2+a1),a>0,將為漢字的語音輸入識別與合成提供方法。用趙詞編碼所組成的編碼句子,即普通話語音句,計算方法同“漢詞句子類義”的計算方法。只是把“漢詞句子類義的數(shù)學(xué)模型”中的“c”換成“a”,“n”表示語音句中趙詞的個數(shù),用H4表示普通話語音句的信息量即可,即H4=log2(a2+a1)n,a≥1,1≤n≤a。根據(jù)漢詞句子類義和語音的數(shù)學(xué)模型,可以統(tǒng)一寫成一種形式,即H=log2(c2+c1)n,c>0,0<n≤c。
      使用聲節(jié),不會改變普通話的語音。本發(fā)明不使用輕聲音節(jié),凡遇輕聲漢字,一律標(biāo)注本調(diào),如在小型字典上查不到漢字本調(diào)的,一律用“去聲”聲調(diào)替代。
      聲節(jié)的編碼說明。參看圖1節(jié)調(diào)字母表,其中,序號1由節(jié)調(diào)字母“s、m、g、a”構(gòu)成,分別表示陰平、陽平、上聲、去聲四個聲調(diào),序號1的四個節(jié)調(diào)字母跟本發(fā)明的聲母,韻母組合,可編碼1300個不同的聲節(jié),相當(dāng)于使用漢語拼音的四個聲調(diào)符號跟聲母、韻母組合,構(gòu)造1300個不同的單音節(jié)。反復(fù)使用序號1的方法,就有了序號2至序號7。其中,序號1至序號6,共可編碼不同的聲節(jié)6×1300=7800個。序號7的情況比較特殊,用一個聲調(diào)字母“z”表示陰平和陽平聲調(diào),用“y”表示上聲和去聲聲調(diào)。GB2312-80的“一級字”的聲調(diào)比例,大約是,陰平0.25、陽平0.23、上聲0.17、去聲0.35,分別以最高的陰平0.25和去聲0.35計算,則有,0.25+0.35=0.6,即1300×0.6=780,用“z”和“y”兩個節(jié)調(diào)字母可編碼不同的聲節(jié)780個,所以有,7800+780=8580,這就是8580個不同聲節(jié)的由來。根據(jù)趙詞的定義,可以計算出,單聲節(jié)的不同編碼形式是8580個,雙聲節(jié)的不同編碼形式是8580×8580=7.36164×107。趙詞編碼形式的總數(shù)是8580+85802=7.362498×107;7.362498×107個趙詞,是使?jié)h字編碼無重碼的關(guān)鍵技術(shù)。由于趙詞的總數(shù)是七千余萬個,解決漢字編碼的重碼問題,根本使用不完,所以,本發(fā)明規(guī)定只使用圖1的序號1至序號6的節(jié)調(diào)字母,序號7的節(jié)調(diào)字母備用。
      聲節(jié)共使用26個聲母,參看圖2聲母表,其中五個元音聲母“a、i、e、o、u”只出現(xiàn)在聲母位置上,沒有讀音,因?yàn)楸景l(fā)明不允許沒有聲母的聲節(jié)存在,所以,解決辦法是,當(dāng)聲節(jié)只有韻母沒有聲母時,韻母的第一字母,必須重寫一次,以確保每個聲節(jié)都有一個聲母。因?yàn)轫嵞傅牡谝粋€字母都是元音字母,這樣,跟漢語拼音聲母表的21個聲母相比,本發(fā)明就增加了五個不發(fā)音的元音聲母,聲節(jié)的聲母表跟漢語拼音的聲母表,在使用上沒有什么不同。
      聲節(jié)共使用38個韻母,參看圖3韻母表。跟漢語拼音的韻母表相比,除了在寫法上大多數(shù)韻母不同以外,還有四點(diǎn)不同,第一,一般字典的漢語拼音韻母表列出35個韻母,韻母er未列入表內(nèi),本發(fā)明列入表內(nèi);第二,為了使聲母和韻母整齊劃一,把漢語拼音沒列入聲母表的聲母ng,本發(fā)明作為韻母使用,列入韻母表,讀音和作用都不變;第三,本發(fā)明增加一個無讀音韻母,無讀音韻母只有書寫形式,沒有讀音,作為普通話中無韻母的漢字“口歆”、“口舞”、“唔”的韻母,以使中文語料中的任何一個漢字,在使用本發(fā)明編碼時,聲節(jié)都由聲母、韻母、節(jié)調(diào)三部分組成,無一例外;第四,本發(fā)明把漢語拼音的韻母“e”并入韻母“ei”。
      趙詞全碼使用小寫英文字母,單聲節(jié)由四個字母構(gòu)成,雙聲節(jié)由八個字母構(gòu)成,趙詞簡碼使用大寫英文字母,單聲節(jié)由三個字母構(gòu)成,雙聲節(jié)由六個字母構(gòu)成,趙詞的編碼形式是確定的。僅看字母的個數(shù),趙詞就不會跟英文詞或者其它西文詞混淆,也不會跟漢語拼音詞混淆,聲節(jié)的界限也不會混淆。趙詞最好使用普通話讀,也可以使用不標(biāo)準(zhǔn)的普通話讀,還可以使用方言語音讀。趙詞只是一種漢字編碼形式,不是漢語拼音詞,讀音是否標(biāo)準(zhǔn),不會影響正常使用。
      從圖5的“意義”,圖6的“他們”,可以看出,雙聲節(jié)大約是漢語拼音雙音節(jié)的49倍,單聲節(jié)大約是漢語拼音單音節(jié)的7倍。以現(xiàn)代漢語同音詞最多的“意義、異義、異議、異意、意譯、奕奕、翼翼、熠熠”為例,使用漢語拼音書寫,只有一種寫法“yi yi”,重碼是八個。使用本發(fā)明,只用了雙聲節(jié)的編碼八個,沒有重碼。對于通用的雙漢字來說,一個同音雙漢字的總數(shù),超過六個的是少數(shù),例如上面提到的“意義”的同音雙漢字是八個,通用的同音雙漢字要達(dá)到36個,是不可能的,即使把古代、現(xiàn)代、未來的都算上,可能性也極小,而通用的同音雙漢字要達(dá)到49個,更是不可能的。當(dāng)然,中國人姓名、地名、科技專業(yè)詞匯等使用的雙漢字,以及外國人姓名、地名、科技專業(yè)詞匯翻譯成中文后使用的雙漢字,屬于漢詞和趙詞的特殊問題,根據(jù)用戶的要求,發(fā)明人將另外處理。
      類推,雙漢字使用雙聲節(jié)編碼無重碼,根據(jù)第三條基本編碼規(guī)則,從技術(shù)的角度看,就可以保證全部漢字編碼無重碼?,F(xiàn)有的不同漢字就算有十萬個,假設(shè)都使用雙聲節(jié)編碼,也才用去十萬個不同的雙聲節(jié),只占七千余萬個雙聲節(jié)的極少數(shù)。漢語拼音的雙音節(jié),雖然有1300×1300=1.69×106個不同的書寫形式,遺憾的是,雙音節(jié)沒有處理同音碼,或者說重碼的能力。
      對句讀和句言的說明。“編碼句讀”和“輸出句讀”的形式完全相同,只是一個用在編碼前的切分,一個用在計算機(jī)輸出,所以簡稱相同?!捌匆艟溲浴焙汀拜斎刖溲浴钡暮喎Q相同的道理同上。句讀是指漢字的三字語和四字語,句言是指漢字編碼的三個聲節(jié)(相當(dāng)于音節(jié))和四個聲節(jié)的編碼。使用句讀的主要目的是,一是為了解決漢字編碼的重碼問題,當(dāng)漢字有重碼時,使用三字句讀編碼,三聲節(jié)句言輸入,可以解決重碼問題,句讀和句言使用最多的形式是三聲節(jié)“1+2”和“2+1”,因?yàn)楸景l(fā)明的雙聲節(jié)即“2”不會有重碼,所以,四字語“2+2”不會有重碼問題;二是為了使語義更確定,例如,漢語的“三字經(jīng)”,“四字成語”等,都能表示一個確定的意義或者故事;三是為了把句讀和句言作為句處理方法,為準(zhǔn)備拼音的趙詞和句言輸入計算機(jī)后,自動轉(zhuǎn)換成漢詞和句讀輸出,提供條件;四是為了使語句更通順,表達(dá)更清楚,五是為了從語句中切分出漢詞更方便。
      例1萬向節(jié)是一種非常靈巧的機(jī)械裝置。
      “A1,A2,A4,A5”表示句讀,“A3,A11,A12,A21,A22,A41,A42,A51,A52”表示漢詞。切分結(jié)果如下萬向節(jié)是一種非常靈巧的機(jī)械裝置。
      上述方法叫作“句讀切分法”,本發(fā)明規(guī)定,一個句讀必須切分成二個漢詞,并且只能切分成二個漢詞,因?yàn)榫渥x后面使用二個空格,所以,從書面上看,句讀跟漢詞一樣,具有形式標(biāo)志,這對于計算機(jī)自動分詞,將會帶來許多方便。兩個句讀叫作“超句讀”,兩個超句讀叫作“次語句”兩個次語句叫作“語句”,兩個語句叫作“超語句”等等,根據(jù)需要,一直可以二合下去。雖然超句讀、語句等沒有形式標(biāo)志,但作為一種算法,將給自然語言理介、機(jī)器翻譯等帶來方便。
      例2他對該事件的意義,持有異議。
      使用“句讀切分法”切分“例2”,覺得很不順手,如果把“例2”改寫成“他對于該事件的意義,持有異議。”增加了一個“于”字,覺得好切分一點(diǎn),但還是不順手,如果把“例2”改寫成“他對于該事件產(chǎn)生的意義,持有異議?!鼻蟹志晚樖忠稽c(diǎn),語句也比較通順。這說明,句讀可以幫助用戶在文字表達(dá)上,更清楚,具有修辭作用?!袄?”雖然讀起來不通,但對說明如何進(jìn)行編碼,不會有什么不利影響。
      本發(fā)明是怎樣解決漢字編碼重碼問題的。
      用戶要學(xué)會GB2312-80常用漢字表的3755個漢字的趙詞編碼,或者學(xué)會GB2312-80中的6763個漢字的趙詞編碼。根據(jù)雙聲節(jié)趙詞無重碼,句言無重碼,以及本發(fā)明將為所有的常用漢字都備有容錯碼。在鍵盤輸入時,只要編碼屬于下面的一項(xiàng),即可保證無重碼。一是同音漢字中的第一輪6個節(jié)調(diào)序號內(nèi)的漢字;二是使用雙聲節(jié)趙詞輸入;三是使用句言輸入,句言內(nèi)必有一個是雙聲節(jié)趙詞。如果不屬于上述三項(xiàng)的漢字編碼輸入,才會有重碼,解決辦法是使用編碼的基本規(guī)則第三條,即一個單漢字固定使用一個雙聲節(jié)編碼。
      編碼的鍵盤圖說明。全碼鍵盤只使用了三個壓縮碼,即zh用y,ch用w,sh用v表示,全碼使用標(biāo)準(zhǔn)英文鍵盤,因?yàn)閴嚎s碼只有三個,所以,全碼鍵盤不再畫圖。
      “簡碼鍵盤”參看圖7,是本發(fā)明的專用鍵盤,簡碼的鍵位代碼,聲母參看圖2,韻母參看圖3,節(jié)調(diào)字母參看圖1。圖7中的鍵位代碼,下面左側(cè)是全碼韻母和聲母,右側(cè)中括號內(nèi)是漢語拼音。“/”表示沒有對應(yīng)代碼。
      趙詞編碼的附加規(guī)則說明。附加規(guī)則實(shí)際上是三條基本編碼規(guī)則的一部分,三條基本編碼規(guī)則都必須使用附加規(guī)則,這里是為了敘述更方便,才單獨(dú)作為一條附加規(guī)則列出來的。附加規(guī)則就是講一個聲調(diào)的6個節(jié)調(diào)字母,如何跟同音漢字對應(yīng)排序編碼的方法,簡稱“排序”。
      字頻排序法,就是根據(jù)現(xiàn)代漢語書面語中漢字相對使用頻率來“排序”編碼的。這一方法比較簡單,但規(guī)律性差,用戶記憶量很大。
      字義排序法,發(fā)明人認(rèn)為,漢字不是表示“名稱”,就是表示“動作”,所以,把“名稱”一類的意義叫作“名詞”,動作一類的意義,叫作“動詞”。一個漢字的意義雖多,總有一個基本意義。規(guī)定一個單漢字漢詞只表示基本意義,漢字的其它意義,使用雙漢字漢詞表示。例如漢字“打”,基本意義是“用手或器具撞擊物體”,單漢字漢詞是“動詞”,再細(xì)分是“動作動詞”,漢字“打”的其它意義,總要跟其它漢字連用,即使用雙漢字漢詞,才能表示,如“打手”(名詞),實(shí)物名詞,“打人”(動詞),動作動詞,“打發(fā)”(動詞),過程動詞,“打量”(動詞),靜態(tài)動詞,“打算”(動詞),靜態(tài)動詞,等等。
      把漢字的基本意義分為二大類,又細(xì)分為六類基本意義,雖然“同義”詞很多,但并不影響使用。規(guī)定一個漢詞只有一個意義,使“類義”成為可以計算的,這以對漢字信息處理、漢字編碼、都將帶來方便。字義排序法的主要缺點(diǎn),是記憶量很大。
      對六種類義的補(bǔ)充說明下面的“相當(dāng)于”都是指漢語中的語法語。
      參看圖1,序號1,實(shí)物名詞,相當(dāng)于名詞中的具體名詞。
      例如人、山、水,序號2,抽象名詞,相當(dāng)于名詞中的抽象名詞。
      例如友、思、政序號3,代時名詞,相當(dāng)于代詞、數(shù)量詞、時間、處所、方位詞等。
      例如他、年、秒、上、東、之、以。
      序號4,動作動詞,相當(dāng)于大部分動詞例如打、放、寫序號5靜態(tài)動詞,相當(dāng)于一部分動詞、形容詞的全部。
      例如是、大、小、好、快、慢。
      序號6,過程動詞,相當(dāng)于一部分動詞,副詞、介詞、助詞、連詞、嘆詞。
      例如漂、流、很、都、在、向、地、的、得、著、了、過、和、哈。
      單漢字的類義跟雙漢字的類義,有時會發(fā)生變化,例如,單漢字漢詞“學(xué)”是過程動詞,“生”是過程動詞,雙漢字漢詞“學(xué)生”是實(shí)物名詞,詞義的這一變化過程,叫作“形態(tài)”,所以,“字義排序法”又叫作“形態(tài)編碼”。
      另外,“字義排序法”有例外情況,例如“他、她、它”都應(yīng)屬于序號3,代時名詞,但為了使用上的方便,規(guī)定“他”,代對名詞,“她”,抽象名詞,“它”,實(shí)物名詞。類似的情況還有“地”、“得”、“的”等等,對例外作專門規(guī)定,顯然是缺點(diǎn),好在于這樣的特殊漢字并不多。
      與現(xiàn)有技術(shù)相比,本發(fā)明的主要優(yōu)點(diǎn)1.趙詞編碼在可以讀的前提下,從技術(shù)上作到了使?jié)h字編碼沒有一個重碼。這為普及計算機(jī)應(yīng)用,創(chuàng)造了條件。
      2.趙詞編碼的可讀性適應(yīng)面廣,會說普通話或者不會說普通話的人,都可以使用。
      3.編碼的基本規(guī)則就是三條,從一個漢字的編碼到全都漢字的編碼,都是這三條基本編碼規(guī)則。
      4.漢字和趙詞的數(shù)學(xué)定義,以及漢詞音義句的數(shù)學(xué)模型將為漢字信息處理各種應(yīng)用問題的解決,提供方法。
      5.漢詞和趙詞的數(shù)學(xué)定義和音義句的數(shù)學(xué)模型說明,趙詞比英文詞更適宜計算機(jī)處理。
      下面結(jié)合附圖的圖面對本發(fā)明的內(nèi)容說明如下圖1,節(jié)調(diào)字母表(類義字母表);圖2,聲母表;圖3,韻母表;圖4,漢詞原理例圖;圖5,“意義”的拼音漢詞編碼表;圖6,“他們”的拼音漢詞編碼表;圖7,簡碼鍵盤圖。
      結(jié)合


      具體實(shí)施例;在使用拼音漢詞編碼時,首先要從中文語料中切分出漢詞。切分漢詞,可以看作是使用一個漢字和二個漢字進(jìn)行修辭的過程。所以,除了在形式上有相似之處外,漢字跟語法詞沒有任何關(guān)系。根據(jù)“漢詞定義”,是切分漢詞的基本方法,圖4是切分漢詞的基本原理,例1是語法詞和漢詞的切分結(jié)果對比。
      例1.①萬向節(jié)/是/一/種/非常/靈巧/的/機(jī)械裝置。(語法詞切分)②萬向節(jié)是一種非常靈巧的機(jī)械裝置。(漢字定義切分)
      從例1的①和②,可以直觀地看出語法詞和漢詞的不同。語法詞的主要問題是詞的定義無法把握,給切分造成困難,而漢詞的定義簡單明確,就是根據(jù)一個漢字和二個漢字進(jìn)行切分。因?yàn)榍蟹譂h詞跟個人的修辭水平有關(guān),所以,操作者必須是以漢語為母語的具有初中以上文化的人。
      對于同一個中文語料,不同的人切分出的漢詞,一般地說是一樣的。因?yàn)槿藗兊膬A向,總是希望有最好的修辭表達(dá),總是希望切分出最好的漢詞,在同一文化背景下,人們的思維方式,對“好壞”的理解程度,也總是一樣的。有例外也是正常的,切分出不同的漢詞,可以看作是修辭水平不同,或者是表達(dá)方法不同,也就是使用的漢詞不同,還可以看作是創(chuàng)新,也可以看作是糟粕,不規(guī)范,等等這一切,都有可能發(fā)生。一般地說,好的漢詞切分結(jié)果只有一種,不好的和一般的切分結(jié)果是多種多樣的,而創(chuàng)新和糟粕,總是極個別的。
      漢詞切分出來以后,就可以使用趙詞進(jìn)行編碼,參看圖1至圖6,為了便于理解,發(fā)明人首先給出例句的漢語語法和漢語拼音詞的書寫形式,然后再給出漢詞和拼音漢詞編碼。例2是使用“字頻排序法”、全碼的例句。
      例2①他/對/ 該/ 事/ 件/ 的/ 意義, 持/ 有/異議。(漢語語法詞)②Tāduìgāi shìjīān de yìyì,chíyǒu yìyì(漢語拼音詞)③他對該事件的意義,持有異議。(漢詞)④Tai sduca gaks vihdjimb defa iihbiiha,wihmiidg iihciihd1 114 212 1 13 [4](拼音漢詞全碼,字頻排序法)在例2的④中,趙詞下面的阿拉伯?dāng)?shù)字1、2、3、4、以及沒有使用的5、6,跟圖1的節(jié)調(diào)序號1至序號6中的節(jié)調(diào)字母一一對應(yīng),跟GB2312-80中現(xiàn)代常用漢字表的3755個漢字中每個音節(jié)的六個同音漢字一一對應(yīng),對應(yīng)由發(fā)明人根據(jù)字頻規(guī)定,參看下面例2的同音漢字統(tǒng)計表中漢字右下側(cè)的數(shù)字。在例2的④中,趙詞下面的帶中括號的阿拉伯?dāng)?shù)字[1]、[2]、[3]、[4]、[5]、[6],跟圖1的節(jié)調(diào)序號1至序號6中的節(jié)調(diào)字母一一對應(yīng),跟GB2312-80常用漢字表的3755個漢字中每個音節(jié)的第七個及更多的同音漢字一一對應(yīng),對應(yīng)由發(fā)明人規(guī)定,參看下面例2的同音漢字統(tǒng)計表中漢字右下側(cè)的數(shù)字。例2的④中只使用了[4],只是為了學(xué)習(xí)和說明方便才標(biāo)注的,學(xué)會了趙詞,就不必標(biāo)注了。
      下面拼音漢詞簡碼、字義排序法仍然使用例2的句子。
      ⑤他對該事件的意義,持有異議。
      ⑥TAUDTF GLX VIBJYC DEF IIBIIE,WIPIWK IIFIIA.(拼音漢詞3 6 6 2 3 6 [2][5] 4 5 6 1編碼、字義排序法)在⑤中的“該事件”和“持有異議”是句讀,其它是漢詞。句讀后面有二個空格,句讀后面有標(biāo)點(diǎn)符號時,標(biāo)點(diǎn)符號前加一個空格,表示前面是句讀。
      在⑥中的“GLX VIBJYC”和“WIPIWK IIFIIA”是句言,其它是趙詞??崭竦囊?guī)定同⑤中的句讀。
      例2中的同音漢字統(tǒng)計表,前面標(biāo)的是漢語拼音,漢字右下角的數(shù)字是“字頻排序法”中的漢字排序序號,在漢字下方的數(shù)字是“字義排序法”中的漢字排序序號。
      例2的④中,提到的“對應(yīng)由發(fā)明人規(guī)定”,在例2的⑥中,改寫成“對應(yīng)由漢字的基本意義決定,即由類義決定。”漢字的基本意義可以查《現(xiàn)代漢語詞典》,或者由發(fā)明人提供。
      使用趙詞簡碼時,聲節(jié)如果沒有聲母,韻母的第一個字母,是指趙詞全碼的第一個字母,要重寫一次,例如“瓦”,漢語拼音,“w?!保w詞全碼“uulg”,趙詞簡碼“UCG”。趙詞簡碼不能寫成“CCG”。
      例2的同音漢字統(tǒng)計表1/tā塌4他1它3她24 3 1 22/duì 兌3隊(duì)2對14 1 63/gāī 該164/shì 式6示[5]士[1]世[2]柿[1]事41 4 [1][3][1]2
      拭[3]誓[5]逝[5]勢[2]是1嗜[4][4][4][6][5]5 [5]筮[6]適[3]仕[6]侍[2]釋[3]飾[4][4][5][1][6]6 [5]氏5市2恃[6]室3視[3]試[1][2]3 [5][3][4] [6](例3使用的“軾”字,屬于GB2312-80的次常用字,發(fā)明人規(guī)定為“軾[2]”。)[1]5/jīǎn 薦[2]檻[4]鑒[1]踐[5]賤[5]見15 [1][1][4][5]4鍵[2]箭6件2健[6]艦[1]劍51 [1]3 [5][1][1]餞[3]漸4濺[4]澗[5]建3[4][5][4][1]66/de 的1(根據(jù)本發(fā)明的規(guī)定,輕聲漢字如在小型字典上查不到6漢字本調(diào)的,用去聲聲調(diào)替代,把de寫成dè)7/yì藝4抑[2]易[5]邑[1]屹[4]億[6]2 4 [6][1][5]3臆[6]逸[5]肄[6]疫[6]亦[1]裔[2][1] [5][6][1][5][1]意2毅[3]憶[3]義1益[1]溢[4][2] [5][6]5 5 [4]詣[2]議[4]誼[2]譯[4]異3翼[5][5] 1 [5][5]6 [1]翌[4]繹[3][3] [6]8/chí 持1匙2池3遲4弛5馳64 [1]1 5 6 [5]9/yǒu 酉3有1友23 5 1
      例3 ①題/西林壁蘇/軾橫/看/成/嶺/側(cè)/成/峰,遠(yuǎn)/近/高/低/各/不同。
      不/識/廬山/真/面目,只/緣/身/在/此/山中。(漢語語法詞)② TíxīLíBì Sū SHìHéng Kàn chéng Líng cè chéng fēng,yuǎn jìn gāo dí gé bùtóng。
      Bù shí Lúshān zhēn miànmù,zhǐ yuán shēn zài cī shānzhōng。(漢語拼音)③ 題西林壁 蘇軾橫看 成嶺 側(cè) 成峰。
      遠(yuǎn)近 高低 各 不同。
      不識 廬山 真 面目。
      只緣 身在 此 山中。
      (漢詞)④TIHN XIHSLINN BIHF SUIHS VIHB(YIHV)2 1 2 6 1 [2] [4]Hebmkama webmlibh cefc webmfebw.
      1 11 2 31 5Oomgjinb gagsdihs gefb buhatoym.
      1 21 1 21 1Buhavihn Luhnvams ycns mimamuhb.
      1 [2]2 1 11 2yihjoomm vcnuzaka cihg vamsyoys.(拼音漢詞全碼、字頻排序法)4[1] 3 1 11 1例3的說明如下;例3的同音漢字統(tǒng)計表略,其方法同例2的同音漢字統(tǒng)計表。
      漢字“軾”用的很少,在現(xiàn)代漢語里,只是作為人名使用,按照本發(fā)明的第三條基本編碼規(guī)則,漢字“軾”作為單漢字使用時,必須寫成雙聲節(jié),“vihb(yihv)”,即“軾之”,這樣寫是發(fā)明人規(guī)定的。小括號[2] [4]( )表示括號內(nèi)的聲節(jié)不輸出漢字,但必須編碼輸入計算機(jī),作為人名地名使用的“人名類”漢字,椐臺灣的有關(guān)部門統(tǒng)計,大約是二萬五千多個,其中的通用漢字還好辦,比漢字“軾”用得更少的漢字也不少,對普通使用者來說,學(xué)習(xí)大量的象“軾之”這樣的現(xiàn)代漢語不使用的雙漢字及雙聲節(jié),以及大量的雙漢字專用人名及雙聲節(jié),顯然是不合適的??萍紝I(yè)漢字等,也屬于這類問題,對此,發(fā)明人將另外設(shè)法外理。
      漢字“識”和“緣”,雖然是常用漢字,但不在發(fā)明人規(guī)定的同音漢字中的六個漢字序號之內(nèi),但“不識”,“只緣”是雙漢字,編碼用雙聲節(jié),“buhavihn”、“yihjoomm”,符合第一條基本編碼規(guī)則。
      1 [2]4 [1]漢字“側(cè)”、“各”、“真”、“此”、“題”、“壁”、“蘇”是單漢字,在發(fā)明人規(guī)定的六個漢字序號之內(nèi),編碼用單聲節(jié),“ccfc”、3“gcfb”、“yens”、“cihg”、2 1 1“tihn”、“bihf”、“suhs”,符合第二條編碼規(guī)則。
      2 6 1只要是雙漢字,就適用于第一條編碼規(guī)則,一個雙漢字固定使用一個雙聲節(jié)編碼。大多數(shù)常用單漢字適用于第二條基本編碼規(guī)則,一個單漢字固定使用一個單聲節(jié)編碼。少數(shù)常用單漢字、所有的不常用單漢字及今后新產(chǎn)生的單漢字,適用于第三條基本編碼規(guī)則,一個單漢字固定使用一個雙聲節(jié)編碼。當(dāng)你對拼音漢詞編碼熟練應(yīng)用以后,第三條基本編碼規(guī)則可以靈活使用,即,一個單漢字可以使用多個相關(guān)的雙聲節(jié)編碼。例如,漢字“軾”還可以寫成雙聲節(jié)“(pibq)vihb”,即“憑軾”,根據(jù)使用者的方便,自己決定。但第一條和第二條基本編碼規(guī)則是永遠(yuǎn)不能變的。拼音漢詞編碼,就是反復(fù)使用這三條基本的編碼規(guī)則。
      權(quán)利要求
      1.一種拼音漢詞編碼及其鍵盤專用的漢字輸入鍵盤,其特征在于拼音漢詞編碼及其鍵盤使用“全碼”和“簡碼”兩種鍵盤,全碼鍵盤無圖,簡碼鍵盤,即圖7;全碼和簡碼,都使用國際通用的標(biāo)準(zhǔn)小鍵盤,把拼音漢詞編碼的26個聲母、38個韻母、26個節(jié)調(diào)字母、以及對應(yīng)的漢語拼音22個聲母、38個韻母、4個聲調(diào)符號,定義在標(biāo)準(zhǔn)鍵盤的26個英文字母鍵上;下述的“代替”,都是指把漢語拼音的字母用標(biāo)準(zhǔn)鍵盤上的英文字母代替;全碼和簡碼的聲母相同,zh用y代替,ch用w代替、sh用V代替,跟漢語拼音相比,增加五個“無讀音”聲母a、i、e、o、u,同英文字母,其它聲母也同英文字母,即圖2;全碼的韻母,全部由二個英文字母構(gòu)成,er用eh代替、a用al代替、o用oj代替、e用ef代替、ai用ak代替、ei用ec代替、ao用ag代替、ou用od代替、an用am代替、en同英文字母、ang用at代替、eng用eb代替、ong用oy代替、i用ih代替、ia用il代替、ie用if代替、iao用ig代替、iou用id代替、ian用im代替、in同英文字母、iang用it代替、ing用ib代替、iong用iy代替、u用uh代替、ua用ul代替、uo用uj代替、uai用uk代替、uei用uc代替、uan用um代替、uen用un代替、uang用ut代替、ueng用ub代替、ü用oh代替、üe用of代替、üan用om代替、ün用on代替,把漢語拼音的韻母ê并入韻入韻母ei,用ec代替、把漢語拼音的聲母ng,作為韻母使用,用ob代替,跟漢語拼音相比,增加一個“無讀音”韻母ot,同英文字母,圖3;簡碼的韻母,全部由一個英文字母構(gòu)成,er、ia以及全碼的無讀音韻母ot,都用Q代替、iou用w代替、e同英文字母、üan和uan用R代替、üe和uei用T代替、ian用Y代替、u同英文字母、i同英文字母、o同英文字母、uo用o代替、ün和uen用P代替、a同英文字母、iong和ong用s代替、iang和uang用D代替、en用F代替、eng和ueng用G代替、ang用H代替、an用J代替、ao用k代替、ai用L代替、ei和ê用z代替、ie用x代替、ü和ua用C代替、iao用V代替、ou用B代替、in和ng用N代替、ing和uai用M代替,圖3;全碼和簡碼的節(jié)調(diào)字母相同,陰平用s、t、u、v、w、x、z代替,陽平用m、n、o、p、q、r、z代替,上聲用g、h、i、j、k、l、y代替,去聲用a、b、c、d、e、f、y代替,圖1。
      2.一種拼音漢詞的漢字編碼方法,其特征在于,以漢詞為漢字編碼單位,以拼音漢詞和拼音句言為漢字編碼形式,以漢詞和拼音漢詞一對一編碼,以句言和拼音漢詞為輸入單位,以句讀和漢詞為輸出單位的漢字音義編碼方法,內(nèi)容包括1)以漢詞和編碼句讀為漢字編碼單位,由一個漢字和二個漢字組成的漢字編碼單位,叫作漢字漢詞,一個漢字的漢字漢詞,叫作“單漢字”,或者叫作“單漢字漢詞”,二個漢字的漢字漢詞,叫作“雙漢字”,或者叫作“雙漢字漢詞”,不加區(qū)別時,統(tǒng)稱為“漢詞”,漢詞的數(shù)學(xué)定義是c2+c1,式中c=0,1,2,3…正整數(shù),c表示不同漢字的個數(shù),c1表示單漢字漢詞的個數(shù),c2表示雙漢字漢詞的個數(shù);一個漢詞只有一個意義,叫作“類屬意義”,簡稱“類義”,漢詞類義的數(shù)學(xué)模型是H1=log2(c2+c1),式中,c>0,H1表示漢詞類義的平均信息量,單位是比特,c表示不同漢字的個數(shù),c1表示單漢字漢詞類義的個數(shù),c2表示雙漢字漢詞類義的個數(shù);漢詞具有規(guī)定的書寫形式和意義,漢詞之間有空格;由二個漢詞組成的漢字編碼單位,叫作“編碼句讀”,又叫作“句讀”,句讀的漢字編碼單位有四種,就是,單漢字+單漢字、單漢字+雙漢字、雙漢字+單漢字、雙漢字+雙漢字;2)以拼音漢詞和拼音句言為漢字編碼形式,拼音漢詞編碼使用“全碼”,又叫作“趙詞全碼”,“簡碼”,又叫作“趙詞簡碼”,兩種漢字編碼形式;全碼和簡碼的聲母相同,都是26個,b、p、m、f、d、t、n、l、g、k、h、j、q、x、y、w、v、r、z、c、s、a、i、e、o、u,即圖2;全碼的韻母有38個,是eh、al、oj、ef、ak、ec、ag、od、am、en、at、eb、oy、ih、il、if、ig、id、im、in、it、ib、iy、uh、ul、uj、uk、uc、um、un、ut、ub、oh、of、om、on、ot、ob,即圖3;簡碼的韻母有26個,是Q、W、E、R、T、Y、U、I、O、P、A、S、D、F、G、H、J、K、L、Z、X、C、V、B、N、M,即圖3;全碼和簡碼的“節(jié)調(diào)字母”,又叫作“節(jié)調(diào)”,相同,都是26個,另外,分別還有2個相同的節(jié)調(diào)字母,陰平節(jié)調(diào)是s、t、u、v、w、x、z,陽平節(jié)調(diào)是m、n、o、p、q、r、z,上聲節(jié)調(diào)是g、h、i、j、k、l、y,去聲節(jié)調(diào)是a、b、c、d、e、f、y,即圖1;全碼和簡碼分別使用聲母、韻母、節(jié)調(diào),把漢語拼音有聲韻調(diào)的不同音節(jié)大約1300個,編碼為大約8580個有聲韻調(diào)的不同的編碼,這8580個編碼,叫作“拼音漢詞”,一個聲節(jié)的拼音漢詞,叫作“單聲節(jié)”,或者叫作“單聲節(jié)趙詞”,二個聲節(jié)的拼音漢詞,叫作“雙聲節(jié)”,或者叫作“雙聲節(jié)趙詞”,不加區(qū)別時,統(tǒng)稱為“拼音漢詞”或者“趙詞”,趙詞的數(shù)學(xué)定義是a2+a1,式中a=0,1,2,3…正整數(shù),a表示不同聲節(jié)的個數(shù),a1表示單聲節(jié)趙詞的個數(shù),a2表示雙聲節(jié)趙詞的個數(shù);一個趙詞只有一個標(biāo)準(zhǔn)語音,就是標(biāo)準(zhǔn)普通話語音,趙詞普通話語音的數(shù)學(xué)模型是H2=log2(a2+a1),式中,a>0,H2表示趙詞普通話語音的平均信息量,單位是比特,a表示不同聲節(jié)的個數(shù),a1表示單聲節(jié)趙詞普通話語音的個數(shù),a2表示雙聲節(jié)趙詞普通話語音的個數(shù);以8580個聲節(jié)計算,趙詞的總數(shù)是7.362498×107個,趙詞語音的熵,即普通話語音的平均信息量是26.134比特;趙詞之間有空格;單聲節(jié)由聲母、韻母、節(jié)調(diào)、共三部分構(gòu)成,雙聲節(jié)由聲母、韻母、節(jié)調(diào)、聲母、韻母、節(jié)調(diào),共六部分構(gòu)成;由二個拼音漢詞組成的漢字編碼形式,叫作“拼音句言”,又叫作“句言”,句言的漢字編碼形式有四種,就是,單聲節(jié)+單聲節(jié)、單聲節(jié)+雙聲節(jié),雙聲節(jié)+單聲節(jié)、雙聲節(jié)+雙聲節(jié);3)漢詞和拼音漢詞對應(yīng)編碼的基本規(guī)則有三條,一個雙漢字固定使用一個雙聲節(jié)編碼,一個單漢字固定使用一個單聲節(jié)編碼,一個單漢字固定使用一個雙聲節(jié)編碼;漢詞和拼音漢詞對應(yīng)編碼的附加規(guī)則有一條,就是漢字和節(jié)調(diào)字母對應(yīng)排序的規(guī)則,下述的“序號”,都是指圖1的“節(jié)調(diào)字母序號”,一是“字頻排序法”,在同音同聲調(diào)漢字中,按照使用漢字的頻度大小,從序號1到序號6順序排列6個漢字,反復(fù)排列,可排列所有的同音同聲調(diào)漢字;二是“字義排序法”,又叫作“音義排序法”,在同音同聲調(diào)漢字中,根據(jù)漢字的一個基本意義,規(guī)定漢字和節(jié)調(diào)字母的對應(yīng)排序,把全部漢字的基本意義,歸類為二種“類屬意義”,就是“名詞”和“動詞”,又細(xì)分為6種類屬意義,就是,實(shí)物名詞、抽象名詞、代時名詞、動作動詞、靜態(tài)動詞、過程動詞,在同音同聲調(diào)漢字中,按照漢字的一個基本意義,從序號1到序號6,順序排列6個漢字,反復(fù)排列,可排列所有的同音同聲調(diào)漢字,圖1;4)以句言和拼音漢詞為輸入單位,在二個拼音漢詞之間有一個空格的前提下,由二個拼音漢詞組成的輸入單位,叫作“輸入句言”,又叫作“句言”,句言后面擊二次空格鍵,如果單聲節(jié)用數(shù)字“1”表示,雙聲節(jié)用數(shù)字“2”表示,那么,句言的組合形式有四種,就是“1+1”,“1+2”,“2+1”,“2+2”,以拼音漢詞為輸入單位時,輸入一個拼音漢詞,擊一次空格鍵;5)以句讀和漢詞為輸出單位,在二個漢詞之間有一個空格的前提下,由二個漢詞組成的輸出單位,叫作“輸出句讀”,又叫作“句讀”,句讀后面有二個空格的距離,如果單漢字用數(shù)字“1”表示,雙漢字用數(shù)字“2”表示,那么,句讀的組合形式有四種,就是“1+1”;“1+2”、“2+1”、“2+2”,以漢詞為輸出單位時,輸出一個漢詞,后面有一個空格。
      3.根據(jù)權(quán)利要求1或者權(quán)利要求2所述的拼音漢詞編碼方法和鍵盤輸入方法,其特征在于,對所述的方法和鍵盤作專業(yè)技術(shù)應(yīng)用的分類和限定,就可以用在一切大、中、小、微型計算機(jī)漢字信息處理系統(tǒng)、漢字電傳機(jī)、漢字電腦打字機(jī)、漢字終端機(jī)、各類電子印刷排版系統(tǒng)、情報檢索和檔案管理、辦公室自動化系統(tǒng)、專家系統(tǒng)、翻譯系統(tǒng)、漢字語音識別系統(tǒng)和漢字字形識別系統(tǒng)、漢字信息通訊系統(tǒng)、廣告宣傳系統(tǒng)、電話查號系統(tǒng)和公用咨詢服務(wù)系統(tǒng)中。
      全文摘要
      拼音漢詞編碼及其鍵盤屬于漢字信息處理的漢字編碼技術(shù)領(lǐng)域。本發(fā)明提供了一種在字處理基礎(chǔ)上的詞句音義漢字編碼鍵盤輸入方法。為此,提供了一種新的漢字編碼單位“漢詞”和“句讀”,提供了一種新的漢字編碼形式“拼音漢詞”和“句言”。漢詞、句讀、拼音漢詞和句言的數(shù)學(xué)化方法,可以為語言信息處理、漢語信息處理和漢字信息處理提供方法。本發(fā)明在不使用人工選字的前提下,使?jié)h字編碼無重碼,可以讀。
      文檔編號G06F3/023GK1172983SQ9711331
      公開日1998年2月11日 申請日期1997年5月28日 優(yōu)先權(quán)日1996年5月29日
      發(fā)明者趙延勝 申請人:趙延勝
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1