国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      中文信息數(shù)字化處理方法和漢字隨機編碼方法

      文檔序號:6463940閱讀:593來源:國知局
      專利名稱:中文信息數(shù)字化處理方法和漢字隨機編碼方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及一種計算機中文信息處理領(lǐng)域,特別涉及一種中文信息數(shù)字化處理方 法以及采用這種數(shù)字化處理方法的一種漢字隨機編碼方法。
      背景技術(shù)
      在現(xiàn)有的中文信息處理領(lǐng)域中,以字形編碼為例,碼表結(jié)構(gòu)設(shè)計者為了在標準鍵 盤上實現(xiàn)字、詞輸入,一般都將200多個部件信息來分解一、二級國標漢字(GB2312),然后 把這200多個部件信息直接地定位在26個字符鍵上,于是就把拆分漢字得到的部件碼變成 可操作的鍵盤碼(字碼表)。并另行編制一套詞碼表(或用編碼生成器協(xié)助生成字、詞碼 表),一并放入WINDOWS中文操作系統(tǒng)進行字、詞編碼操作。碼表結(jié)構(gòu)雖然解決了字、詞的輸 入,由于分解后的漢字信息沒有經(jīng)過數(shù)字化處理,電腦程序無法操作,不僅每一個編碼方案 都必須編制一套字、詞碼表,而且只能實現(xiàn)單一類的編碼操作(單一信息、單一序碼、單一 碼長),浪費了大量人力和財力,也給編碼設(shè)計者和操作者帶來許多不便。

      發(fā)明內(nèi)容
      針對上述現(xiàn)有技術(shù)的不足,本發(fā)明要解決的技術(shù)問題是提供一種可使中文信息進 行程序化控制和處理的中文信息數(shù)字化處理方法,以便實現(xiàn)字和詞的隨機編碼輸入操作。為解決上述技術(shù)問題,本發(fā)明采用如下技術(shù)方案一種中文信息數(shù)字化處理方法,將一、二級國標漢字按規(guī)范化信息標準進行拆分, 拆分后的漢字信息進行特征碼信息列表,列表中的每個漢字特征碼包括漢字國標碼(GB 碼)和控制碼二部分,國標碼是漢字代碼,控制碼則標記列表信息在該漢字拆分中的序碼。 集合部件、聲韻母、筆劃的全部特征碼原始信息列表(YG表)作為漢字隨機編碼設(shè)計的信息 源。優(yōu)選的,一、二級國標漢字的分解規(guī)范可以為“漢字部件規(guī)范”、“漢字筆畫規(guī)范”或
      “漢字拼音方案”三種。本發(fā)明還公開了一種采用上述中文信息數(shù)字化處理方法進行漢字隨機編碼的方 法,其采用如下技術(shù)方案a)首先將一、二級國標漢字按“漢字部件規(guī)范”、“漢字筆畫規(guī)范”和“漢字拼音方 案”進行拆分,拆分信息進行包括漢字國標碼和控制碼二部分的特征碼信息列表;b)建立漢字特征碼原始信息列表;c)對數(shù)字化的原始信息進行鍵位設(shè)計;d)將原始信息列表轉(zhuǎn)化為數(shù)字化的鍵位信息列表;e)設(shè)立字、詞編碼緩沖區(qū);f)儲存鍵入信息于字、詞編碼緩沖區(qū);g)字(或詞)結(jié)束鍵后,根據(jù)字(或詞)編碼特性在字(或詞)緩沖區(qū)中采集編 碼信息;
      4
      h)根據(jù)字(或詞)的編碼特性(特征數(shù)據(jù))判別該字(或詞)是否符合編碼條 件,檢出編碼字(或詞),隨機編碼處理結(jié)束。優(yōu)選的,在一、二級國標漢字按“漢字拼音方案”拆分的漢語拼音信息中的聲母(21 個)列表,其控制碼數(shù)據(jù)均為"01",韻母(35個)控制碼數(shù)據(jù)均為"02"。優(yōu)選的,在一、二級國標漢字按“漢字筆畫規(guī)范”拆分的漢字筆劃一般采用"橫、 豎、撇、點(捺),鉤"五個筆劃,用數(shù)字鍵1 5作代碼,也可以按雙筆劃組合(5X5 = 25 組)虛擬地排列于字符鍵上,按數(shù)字鍵操作,按字符鍵列表。優(yōu)選的,所述部件列表中控制碼的標記信息,包括首部件標記、次部件標記、第三 部件標記、末部件標記和尾部件標記,其中末部件是特指四個或四個以上部件漢字的最后 一個部件;尾部件是泛指包括成字部件、雙部件、三部件及多部件在內(nèi)的所有漢字的最后一 個部件。進一步的,原始信息列表轉(zhuǎn)化為數(shù)字化的鍵位信息列表采用四碼長鍵序(四碼長 鍵序可同時兼容于三碼長和二碼長編碼操作),在四碼長的鍵序中,第一次出現(xiàn)的部件被看 作首部件,其后依次為第二部件、第三部件和末部件;同樣,四鍵中首次出現(xiàn)的拼音信息視 作聲母,其后為韻母;四鍵中出現(xiàn)的筆劃信息依次為第一二筆、第三四筆和第五末筆。優(yōu)選的,所述隨機編碼實施例中,不論字或詞編碼都可隨機變換輸入信息類型而 無需切換。優(yōu)選的,所述隨機編碼實施例中,對于字編碼,不論是輸入同類信息還是異類信 息,可隨機變換碼長而無需切換。優(yōu)選的,所述隨機編碼實施例中,包括建立字、詞編碼緩沖區(qū),其容量包含整個字 庫(GB2312)。其作用為輸入信息分別儲存于字和詞編碼緩沖區(qū);從字(詞)庫采集字 (詞)的編碼信息并去編碼緩沖區(qū)判別字(詞)編碼條件,最終獲得編碼字(或詞)。優(yōu)選的,所述字、詞編碼緩沖區(qū)每個漢字的數(shù)據(jù)位在輸入字、詞信息前要清零。上述技術(shù)方案具有如下有益效果該中文信息進行數(shù)字化處理方法把200多個拆 分部件、聲韻母和筆劃信息進行特征碼信息列表,列表中的每個漢字特征碼包括漢字國標 碼和控制碼二部分,國標碼是漢字代碼,控制碼則標記列表信息在該漢字拆分中的序碼。由 此可見,漢字拆分后的各個信息不僅全部保存在該漢字的控制碼中,而且進行了數(shù)字化處 理。漢字拆分后的每一個信息電腦都能進行程序處理,因而字、詞的各類編碼組合都將可以 通過程序設(shè)計自動生成。有關(guān)漢字特征碼信息列表結(jié)構(gòu)的示例見附表一。經(jīng)過了數(shù)字化處理的漢字信息,終使?jié)h字編碼變成為人機之間的一種簡單“約 定”,不再需要編制各種碼表,只需在系統(tǒng)中設(shè)定人機都能識別的編碼規(guī)則,人們只需按預(yù) 先設(shè)定的編碼規(guī)則輸入字和詞,然后由系統(tǒng)自動采樣編碼信息并判別編碼條件來完成一系 列不同編碼操作(即隨機編碼)。顯而易見,設(shè)定編碼規(guī)則比人工編制碼表和編碼生成器生 成碼表(編碼生成器并沒有擺脫碼表的弊病)都要簡單方便和快捷,且編碼功能也強大得 多。設(shè)定編碼規(guī)則的目的只是讓電腦能分辨出你輸入的鍵位、序碼和碼長等信息在其一系 列編碼組合中屬于哪一類別的編碼。經(jīng)過數(shù)字化處理后的中文信息最顯著的一個特點是可以納入電腦程序設(shè)計軌道, 也是實現(xiàn)隨機編碼操作的核心技術(shù)。這里以實現(xiàn)漢字隨機編碼為例詳細說明中文信息數(shù)字 化處理后的程序設(shè)計方法及其強大的信息處理功能。
      說明書附1為本發(fā)明實施例的流程圖。
      具體實施例方式(1)漢字隨機編碼的技術(shù)特點1,漢字信息有部件、拼音、筆劃等。然而所有碼表方案都是單一信息、單一序碼、單 一碼長的輸入模式,一套字詞碼表只能完成一種輸入操作。隨機編碼容許字、詞的輸入過程中隨機變換不同類信息,既可以按部件碼、拼音碼 或筆劃碼操作,也可以按上述三種不同類信息混合輸入。只需遵循如下規(guī)則,電腦就能從一 系列的編碼組合中分辨出用戶輸入的是哪類編碼操作,并由程序完成自動編碼字編碼規(guī)則不論輸入同類或異類信息,鍵入的字、詞編碼信息均按各自的分解 次序取碼,總是先取該類信息的首鍵序,后取次鍵序。如首部件、聲母、次部件、韻母(四碼 長),或第一二筆劃、聲母、第三四筆劃(三碼長)。詞編碼規(guī)則如二字詞,首鍵可以鍵入任意信息,第二鍵信息若與首鍵信息同類, 電腦將認同為同類信息的次鍵序,如次部件或韻母或第三四筆劃;若與首鍵信息(如部件) 不同類別,電腦將認同為異類信息的首鍵序,如聲母或第一二筆劃。電腦對尾字信息的處理 同首字。若是三字詞,取首、次字的首鍵序,尾字的壓鍵規(guī)則同二字詞。四字及以上詞語,取第一、二、三字及尾字的任意類信息的首鍵序。隨機編碼的取碼規(guī)則和傳統(tǒng)編碼基本一致,符合人的常規(guī)思維,無需特別記憶。2,隨機編碼容許隨機變換碼長。若輸入四鍵加SP (空格)鍵,系統(tǒng)即按四碼長處 理(如部件碼即為第一、二、三及末部件);若輸入三鍵加SP鍵,系統(tǒng)則按三碼長處理(如 部件碼即為第一、二部件及系統(tǒng)自動調(diào)整后的末部件);二鍵加SP鍵即按二碼長處理。它 們都是不同碼長的隨機編碼輸入,與二級、三級簡碼是截然不同的輸入模式。3,隨機編碼包含的字、詞編碼系列均為實時處理,無需切換。熟悉部件信息的用戶 鍵入部件信息壓字符鍵,輸入聲、韻母壓SHIFT+字符鍵,而熟悉拼音信息的用戶壓鍵相反。 五個筆劃(橫、豎、撇、點,鉤)用數(shù)字鍵1 5作代碼。4,隨機編碼不僅功能強、實施簡單、操作容易,而且無需編制一條碼表,系統(tǒng)中的 字、詞編碼系列,均由系統(tǒng)程序自動生成。5,碼表結(jié)構(gòu)系統(tǒng)修改編碼設(shè)計十分困難,即使改動一個鍵位,都將修改一大片字 表和詞表。隨機編碼處理技術(shù)實施或修改編碼設(shè)計只需啟動系統(tǒng)的鍵位設(shè)計程序,即可立 刻實施新的隨機編碼操作。也許人們會覺得隨機編碼的操作功能有點不可思疑,或者認為實現(xiàn)它一定十分復(fù) 雜和困難,但你看完本說明書后會立刻釋疑。上述所有編碼組合這里都作了可行性論證,實 施隨機編碼并不十分復(fù)雜,由于改革了封閉型的碼表信息結(jié)構(gòu),取而代之的是經(jīng)過數(shù)字化 處理的特征碼信息列表結(jié)構(gòu)。中文信息數(shù)字化是實現(xiàn)隨機編碼的技術(shù)基礎(chǔ)。(2),漢字特征碼原始信息列表(YG表)以部件信息為例,漢字特征碼部件列表就是200多個部件信息列表的集合。其部件列表示例見附表二。實際部件列表中的碼長采用四碼,因為四碼長的部件列表同時可兼用于三碼長、二碼長的部件編碼。列表結(jié)構(gòu)中的尾鍵位標記該漢字的部件 數(shù),并在變換碼長處理時用于末鍵位調(diào)整。每個漢字中的部件信息是開放的,所謂“開放”是 指隨時隨地都可以對漢字中的任何一個部件信息進行實時處理,不再局限于某一類編碼處 理,同時可處理一系列混合類信息的編碼組合,這便是漢字“隨機編碼”的技術(shù)理念。同樣地可以建立漢語拼音(聲、韻母)和漢字筆劃信息的特征碼列表,構(gòu)成一個完 整的漢字特征碼原始信息列表(YG表)。拼音和筆劃信息的列表結(jié)構(gòu)和部件列表是一樣的。 漢語拼音信息列表即把21個聲母和35個韻母分別列表,首先把每個漢字分解成聲母(包 括零聲母)和韻母,把屬于同一聲母的漢字GB碼列在該聲母的列表中,并賦予控制碼“01”; 把屬于同一韻母的漢字GB碼列在該韻母列表中,并賦于控制碼“02”。特征碼筆劃列表的建 立既可以按單筆劃列表,即在5個筆劃下列出各自包含的漢字,并標出該筆劃在漢字中的 序碼;也可以按雙筆劃列表,5個不同筆劃組成25組雙筆劃系列,并在每組雙筆劃下列出包 含的漢字,并標記該雙筆劃組在該漢字中的序碼。漢語拼音和漢字筆劃信息中國已建立國家標準。漢字部件雖也曾頒有國家標準 “漢字部件規(guī)范”,有560個部件,但不為公眾認同和采用。一旦部件規(guī)范獲得公認,那末一 個包含綜合型漢字信息的中文特征碼原始信息列表(YG表)將成為漢字編碼的規(guī)范化信息 和各類編碼設(shè)計的信息源,提供用戶在系統(tǒng)中直接進行各類編碼設(shè)計和輸入操作。也將有 助于中文編碼走向統(tǒng)一。(3),漢字特征碼鍵位信息列表(JG表)為了實施有效的鍵盤輸入操作,要在上述漢字特征碼原始信息列表(YG表)基礎(chǔ) 上進行編碼設(shè)計,即要對部件、拼音、筆劃信息進行鍵盤定位,把特征碼原始信息列表(YG 表)轉(zhuǎn)換為特征碼鍵位信息列表(JG表)。這種轉(zhuǎn)換十分簡單,只是把所屬同一鍵位的幾個 原始信息列表集合在同一鍵位信息列表中,并把同一漢字的控制碼數(shù)據(jù)相加(“或”處理), 合并成一個漢字的特征碼。漢字特征碼鍵位信息部件列表示例見附表三。這里的所有示例僅是后敘舉例需 要。漢語拼音編碼中的聲韻母列表轉(zhuǎn)換為鍵位列表比較簡單,聲母一般按其輔音字母定位 (CH、SH、ZH通常定位U、V、I三鍵),差別主要在于韻母定位,要把35個韻母兼并在字符鍵 上。聲、韻母的鍵位信息列表示例見附表四。漢字筆劃的定位更簡單,25組雙筆劃系列虛擬地定位在25個字符鍵上,但實際輸 入按單筆劃操作為宜,以便與部件碼和拼音碼兼容輸入,二個筆劃合為一碼。特征碼雙筆劃列表示例見附表五。經(jīng)過鍵位設(shè)計,YG表最終轉(zhuǎn)換成一個可以實時操作的綜合型特征碼鍵位信息列表 (JG表)。JG表和YG表一樣也是開放型數(shù)字化的特征碼信息列表。它和漢字碼表結(jié)構(gòu)雖然 形式不同,但包含的信息內(nèi)容是相同的。碼表結(jié)構(gòu)只能實施單一類編碼操作,而綜合信息的 JG表可以實施任何一類字、詞編碼操作,包括單一類信息編碼(部件碼或拼音碼或筆劃碼) 和混合類信息編碼(例如部件/拼音、部件/筆劃、拼音/筆劃或部件/拼音/筆劃等各 類編碼組合)以及不同碼長的各類編碼,都將可以在綜合信息JG表基礎(chǔ)上自動生成,它們 之間無需切換,電腦能夠識別它們之間不同的編碼操作,本人把整個編碼系列稱之謂“隨機 編碼,,。隨機編碼中的所有字、詞編碼操作均無需編制一條碼表。隨機編碼包含的每一種編
      7碼組合其輸入的信息都遵循預(yù)先設(shè)定的鍵序規(guī)則,而不是自由式篩選。(4),字、詞編碼自動生成處理為了對鍵入的編碼信息進行快速有效的處理,應(yīng)該在系統(tǒng)中開辟一個用于字、詞 編碼處理的緩沖區(qū)。這個緩沖區(qū)的一個特點是利用漢字國標碼直接轉(zhuǎn)換為緩沖區(qū)地址碼, 稱之為緩沖區(qū)國標地址。每一個漢字在字、詞緩沖區(qū)分別設(shè)置一個單元(Byte),分別記錄輸 入的字、詞編碼信息和判別字、詞編碼操作,稱之謂字國標單元和詞國標單元(根據(jù)實際需 要可增至二個字節(jié)或更多)。這里以部件編碼為例,詳細說明字、詞編碼的程序處理過程。1,字編碼自動生成處理假定我們要輸入“系”這個字,壓鍵操作是“j (C)、糸(E) ”,二部件碼長,不涉及末 鍵位操作,無需對鍵位列表作調(diào)整。電腦程序處理如下第一鍵C:把C鍵位列表中的每一個漢字控制碼的DO位(第一鍵序位)置入緩沖 區(qū)字國標單元的DO位,并把漢字控制碼的DODl (第一、第二鍵序位)置入緩沖區(qū)詞國標單 元的DODl位。第二鍵E 把E鍵位列表中漢字控制碼的Dl位(第二鍵序位)置入字國標單元的 Dl位,控制碼的DODl置入詞國標單元的D2D3位。如果二鍵后系統(tǒng)檢測到是字輸入(SP鍵),電腦將按二碼長字編碼處理。系統(tǒng)將掃 視字緩沖區(qū)中的每一個字國標單元,判別其中的DODl位是否均為“ 1”,若是,該字即屬編碼漢字。三碼長部件字輸入時,因涉及第三鍵為末鍵,所以要對四碼長設(shè)立的部件鍵位列 表中的末鍵位作調(diào)整。如鍵入漢字“動”的部件信息“二”、“厶”和“力”,系統(tǒng)對首、次部件 “二”、“厶”的鍵位處理同上述,當處理第三部件“力”的鍵位列表時,要檢測控制碼中的尾鍵 位信息D4,判別D4D2或D4D3是否均為“ 1 ”?若是,則把D4中的“ 1 ”視作末鍵信息置入緩沖 區(qū)字國標單元的D2位,若不是,檢測下一個漢字的控制碼。檢測結(jié)束,判別緩沖區(qū)中每個字 國標單元的D0D1D2,若均是“1”,即為編碼漢字(“動”字符合上述字編碼條件)。若D0D1D2 中有“0”,則不是編碼漢字。若鍵入四碼長部件信息“鄉(xiāng)(C)、i (D)、厶(F)、兒(G) ”,符合編碼鍵序(D0D1D2D3 均為“1”)的漢字“統(tǒng)”將被檢出。漢字部件編碼自動生成示例見附表六。2,詞編碼自動生成處理詞編碼只涉及漢字的首、次鍵序,不涉及末鍵位,無末鍵位信息的調(diào)整問題。如果我們輸入二字詞“系統(tǒng)”,將鍵入“j (C)、糸(Ε)、鄉(xiāng)(E)、i (D) ”四鍵,電腦程 序處理如下第一、二鍵的處理同上所述。第三鍵E 把E鍵列表中漢字控制碼的D2位(第三鍵序位)置入字國標單元的D2 位,控制碼的DODl置入詞國標單元的D4D5位。第四鍵D 把D鍵列表中漢字控制碼的D3位(末鍵位)置入字國標單元的D3位, 控制碼的DODl置入詞國標單元中的D6D7位。四鍵后系統(tǒng)檢出到詞輸入(詞結(jié)束鍵),開始詞編碼判別,詞碼的判別過程要復(fù)雜 一些。詞碼的自動生成,雖然免除了編制詞碼表,但詞庫依然是需要的。詞庫中的詞條是按國標碼序列排列的,“啊”為首字的詞語占有詞庫的首位。為了加速詞碼的判別過程,詞庫 中的詞條最好按詞長排列二字詞、三字詞、四字詞和多字詞,這可以免除逐條檢測其詞長; 或者在每條詞語前加入一個字節(jié)的詞長碼,這樣詞條排列就不受詞長限制。這里設(shè)定詞編 碼按常規(guī)四碼取碼。系統(tǒng)檢測到詞輸入后,便開始掃視緩沖區(qū)的詞國標單元。詞編碼判別 過程如下①,找出詞編碼緩沖區(qū)中第一個漢字(GB碼),如果詞國標單元中DO = 0,則不必 處理以下各步驟。因為DO = 0表示首鍵信息不是該漢字的第一鍵序碼,而詞編碼規(guī)則規(guī)定, 不論二字詞、三字詞或多字詞,它們的首鍵取碼必定取其首字的第一鍵序碼(如首部件)。 所以接著取下一個漢字(GB碼),如果它的詞國標單元中DO = 1,則表示首鍵信息屬于該字 的第一鍵序碼,則在詞庫中找出以該漢字為首字的全部詞條,并逐條地進行詞編碼特征判 別。②,取出第一條詞語,先根據(jù)詞長找出與之相關(guān)的編碼漢字及它們在緩沖區(qū)中的 詞國標單元。根據(jù)詞條的詞長分別判別二字詞取其首字的詞國標單元前四位和尾字的詞國標單元后四位,組成詞編碼 判別單元。二字詞的編碼特征數(shù)據(jù)是“99”,即判別單元中的D0D3D4D7位均為“1”,它們分 別代表首字的第一鍵序(DO)、第二鍵序(D3)和尾字的第一鍵序(D4)、第二鍵序(D7),符合 上述條件的二字詞是編碼詞語,否則不是。三字詞取首字的詞國標單元DODl位,次字的D2D3位以及尾字的D4D5D6D7位,依 次合成一個詞編碼判別單元。它的編碼特征數(shù)據(jù)是“95”,即判別單元中的D0D2D4D7位均為 “1”,它們分別代表首字、次字的第一鍵序(D0、D2)和尾字的第一、第二鍵序(D4、D7)。如果 我們改變?nèi)衷~的取碼規(guī)則,取首、尾字的第一鍵序和中間字的第一、第二鍵序,我們只需 改變它的編碼判別單元的合成方式(取首字的詞國標單元的DODl位、次字的D2D3D4D5位 和尾字的D6D7位合成)和它的編碼特征數(shù)據(jù)(改為“65”),其它一切均不改變。四字詞或四字以上詞語分別取出第一、第二、第三和尾字的詞國標單元的DODl 位、D2D3位、D4D5位和D6D7位合成詞編碼判別單元。它的編碼特征數(shù)據(jù)是“55”,即判別單 元中的D0D2D4D6位均為“1”,它們分別代表詞語中第一、第二、第三和尾字的第一鍵序,符 合此條件的為編碼詞語,否則不是。③,接著按相同的方法判別同一首字的第二條詞語的編碼特征,直到最后一條詞 語判別完畢。至此僅判別了詞緩沖區(qū)中詞國標單元DO = 1的第一個漢字為首字的全部詞
      ^^ ο④,接著取出緩沖區(qū)詞國標單元DO = 1的第二個漢字(GB碼),并在詞庫中找出以 該漢字為首字的全部詞條,作上述同樣的詞判別處理。直到取出緩沖區(qū)詞國標單元DO = 1的最后一個漢字,并以此為首字的全部詞條判別完為止。把得到的編碼詞列入提示行??梢钥闯稣麄€詞編碼的判別過程很長,尤其是詞庫容量很大時,因此在程序設(shè)計 時要考慮到盡量加快程序的執(zhí)行速度。在詞庫中加入詞長碼也是這個原因。漢字部件詞編碼自動生成示例見附表七。從該示例中可看出,二字詞“系統(tǒng)”的詞 編碼決定于緩沖區(qū)中“系”的詞國標單元中D1D3位和“統(tǒng)”的詞國標單元中D4D7位是否均 為“1”(相當于其詞編碼判別單元特征數(shù)據(jù)“99”),若是,一定符合“系”字的第一、二鍵序和 “統(tǒng)”的第一、二鍵序,詞語“系統(tǒng)”即為編碼詞語。若鍵入三字詞“自動化”的編碼信息“ J
      9(C)、二 (IM (C)、匕⑶”,它的詞判別單元是由“自”的詞國標單元DODl位、“動”的D2D3 位和“化”的D4D5D6D7位合成,它的編碼特征數(shù)據(jù)是“95”,即符合三字詞首、次字的第一鍵 序和尾字的第一、二鍵序,因此三字詞“自動化”為編碼詞語。同樣道理,當鍵入“鄉(xiāng)(E)、石 (A)W (C)、鄉(xiāng)(E) ”時,將符合四字詞“編碼系統(tǒng)”的編碼鍵序(編碼特征數(shù)據(jù)“55”)。拼音和筆劃信息的字、詞編碼生成處理與部件的字、詞編碼生成處理是相同的,它 們的字、詞編碼示例見附表八。(5),隨機編碼隨機編碼實際上就是一系列預(yù)先設(shè)定的混合類信息編碼,所謂“預(yù)先設(shè)定”是指這 一系列編碼組合均符合說明書設(shè)定的電腦能分辨的字、詞編碼規(guī)則。包括同類信息編碼和 所有的異類信息編碼以及不同碼長的字、詞編碼。下面以字三碼、詞四碼為例來說明不同類 信息之間實現(xiàn)隨機編碼的可行性。1,混合類信息字編碼鍵入“系”的混合信息首部件“ j (C) ”、聲母“x(SH+X) ”、第一二筆劃“ j (3)、乙 (5)”。輸入第一鍵,取C鍵位列表控制碼的DO置入字國標單元的DO位。當我們輸入第二 鍵序時電腦檢測到是拼音信息x(SH+X)。按上述約定,它與第一鍵序的信息類型不同,因而 電腦認同取聲母而不是韻母,所以取其聲母鍵位列表控制碼的DO置入字國標單元中的Dl 位;同樣,當輸入第三鍵序時,電腦檢測到是筆劃信息,與前二鍵序的信息類型均不同,所以 電腦從“ J (3)、乙(5)”的雙筆劃虛擬鍵位列表“X”(相當于二個單筆劃“ J、乙”)控制碼 中取出DO置入字國標單元中的D2。字編碼結(jié)束鍵(SP)后,掃視字編碼生成緩沖區(qū),將發(fā) 現(xiàn)“系”的字國標單元中的D0D1D2位均為“1”,檢出“系”為編碼漢字。同樣,鍵入首、次部 件“J (C)”、“糸(E)”和聲母“x(SH+X)”三鍵,當輸入第二鍵序“糸(E)”時,電腦檢測到它 與第一鍵序同屬部件信息,因而取該鍵位列表控制碼的Dl置入字國標單元的Dl位;當鍵入 第三鍵序時,電腦檢測到是拼音,與前二鍵序信息類型不同,取其聲母鍵位列表控制碼的DO 位,置入字國標單元的D2位,字結(jié)束鍵后,電腦檢測到“系”的字國標單元中D0D1D2位均為 “1”,也可檢出“系”字。若鍵入第一二筆劃“乙(5)、乙(5)”(相當于雙筆劃虛擬鍵位信息 “0”)、聲母1(5肝10和韻母ong(SH+B),即可把編碼字“統(tǒng)”檢出來。當然還會有一些重碼 字?;旌项愋畔⒆志幋a示例見附表九。2,混合類信息詞編碼鍵入二字詞“系統(tǒng)”的混合信息“系”的聲母“x(SH+X) ”、韻母“i (SH+H) ”、“統(tǒng)”的 首部件“鄉(xiāng)(E) ”、次部件“ι⑶”。電腦將把聲母“x(SH+X)”鍵位列表中每個漢字控制碼 的DODl置入詞緩沖區(qū)中同一漢字的詞國標單元中的DODl位;把韻母“i (SH+H) ”鍵位列表 中每個漢字控制碼的DODl置入詞緩沖區(qū)中同一漢字的詞國標單元的D2D3位;同樣,電腦將 把“統(tǒng)”的首部件“鄉(xiāng)(E) ”和次部件“ι (D) ”的二個鍵位列表中控制碼的DODl分別置入 詞緩沖區(qū)中同一漢字的詞國標單元的D4D5位和D6D7位。四鍵后,根據(jù)上述詞編碼的判別 過程,從詞庫中逐條檢測詞語,依據(jù)不同詞長的取碼規(guī)則構(gòu)建詞編碼判別單元,符合其編碼 特征數(shù)據(jù)的詞語為編碼詞。拿上述的二字詞來說,它的詞編碼判別單元由“系”的詞國標單 元的D0D1D2D3位和“統(tǒng)”的詞國標單元的D4D5D6D7位構(gòu)成,它的編碼特征數(shù)據(jù)為“99” (因 為鍵入的首次鍵和第三四鍵均為同類信息)。二字詞“系統(tǒng)”屬編碼詞條?;旌项愋畔⒃~編碼生成示例見附表十。示例中的二字詞“自動”的鍵入信息“自”的首部件“ i (C) ”、聲母“z (SH+Z) ”,“動”的第一二筆劃“一 (1)、一 (1) ”和聲母“d(SH+D) ”, 它的判別過程和上述“系統(tǒng)”是相同的,但它鍵入的首、次鍵以及第三、四鍵的信息類型不 同。雖然二者都是二字詞,但判別詞編碼的特征數(shù)據(jù)是不同的,這里判別的特征數(shù)據(jù)是 “55”。同樣輸入二字詞“編碼”:“編”的聲母“b(SH+B) ”、韻母“ian(SH+C) ”,“碼”的第一二筆 劃“一(1)、i (3) ”及其聲母“m(SH+M) ”,判別該二字詞的特征數(shù)據(jù)是“59”,因為輸入“編” 用的是同類信息(都是拼音),而“碼”字用的是異類信息(筆劃和拼音)。示例中的三字 詞“自動化”的鍵入信息“自”字的首部件“)(C) ”、“動”字的聲母“d(SH+D),,以及“化”字 的聲母“h(SH+H)”和第一二筆劃“ j (3)、丨(2)”,它的三字詞編碼特征數(shù)據(jù)是“55”;若鍵 入的四鍵信息是"自,,的聲母‘‘z (SH+Z) ”、“動”的聲母“d(SH+D) ”、以及“化”的首、次部件 M (C)、匕(G) ”,它的三字詞的編碼特征數(shù)據(jù)是“95”。因為四字及以上詞語的混合類信息 編碼只涉及漢字的首鍵信息,不牽涉第二鍵序,所以判別它們編碼的特征數(shù)據(jù)與鍵入的信 息類型無關(guān),如“自動編碼”、“編碼系統(tǒng)”或“自動編碼系統(tǒng)”,無論鍵入什么信息,都屬首鍵 信息,它們的詞編碼特征數(shù)據(jù)都是“55”。以上對本發(fā)明實施例所提供的一種中文信息數(shù)字化處理方法和漢字隨機編碼方 法進行了詳細介紹,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明實施例的思想,在具體實施方 式及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制,凡 依本發(fā)明設(shè)計思想所做的任何改變都在本發(fā)明的保護范圍之內(nèi)。附表一漢字特征碼部件列表結(jié)構(gòu)示例 注1,上述部件列表中的漢字編碼碼長設(shè)計為四碼。四碼長部件列表可兼用于三 碼長和二碼長編碼操作。2,末部件是特指四個或四個以上部件漢字的最后一個部件。3,尾部件是泛指包括成字部件、雙部件、三部件及多部件在內(nèi)的所有漢字的最后 一個部件。4,實際列表中的國標碼在字、詞、句編碼的處理中要換算為機內(nèi)碼。5,實際列表中高頻構(gòu)字部件的漢字GB碼常有百多個(GB2312)。6,這里僅是漢字部件列表結(jié)構(gòu)的示例,實際漢字部件數(shù)應(yīng)編碼設(shè)計者而異,一般 在200 250個之間。7,實際系統(tǒng)還應(yīng)包括漢語拼音信息和筆劃信息的列表,構(gòu)成完整的中文特征碼原 始信息列表(YG表)。8,漢語拼音信息中的聲母(21個)列表,其控制碼數(shù)據(jù)均為"01",韻母(35個) 控制碼數(shù)據(jù)均為"02"。9,漢字筆劃一般采用"橫、豎、撇、點(捺),鉤"五個筆劃,用數(shù)字鍵1 5作代 碼,也可以按雙筆劃組合(5X5 = 25組)虛擬地排列于字符鍵上,按數(shù)字鍵操作,按字符鍵 列表。
      附表二漢字特征碼部件信息列表示例 注1,上述漢字部件列表中的空格均為“0”。2,這里的特征碼原始信息列表僅是漢字部件列表的示例,整個部件列表有200個 以上部件。3,D0、D1、D2分別標記列表信息(部件)屬漢字第一、第二、第三部件D3標記列表信息屬漢字末部件,用于標記四部件或四部件以上漢字的最后一個部 件D4標記為尾部件信息,用于標記包括成字部件、二、三、四部件或以上漢字的最后 一個部件。4,四碼長部件列表可兼容于三碼長部件列表,三碼長列表中的末部件標記(D2)
      14等于“ 1 ”的條件:D4D2 = 1或D4D3 = 1 (即D4D2均為“ 1”或D4D3均為“ 1”)。附表三漢字特征碼鍵位信息部件列表示例 注1,上述列表中的空格均為“0”。2,漢字部件一般選擇200 250個,所以每個鍵位上實際定位的漢字部件數(shù)往往 有10個左右。3,實際鍵位列表中的漢字GB碼數(shù)量很大,有的鍵位列表甚至有數(shù)百個之多 (GB2312)。4,一個完整的特征碼鍵位信息列表(JG表)中還應(yīng)包括漢語拼音列表(設(shè)置于 Shift+字符鍵)和漢字筆劃列表(設(shè)置于數(shù)字鍵1 5)。習(xí)慣于拼音信息者可切換為輸 入拼音用字符鍵,部件用Shift+字符鍵。5,這里的特征碼鍵位信息列表僅是其中部件列表的示列,只為文本中舉例所用。6,特征碼鍵位信息列表(JG表)是通過對特征碼原始信息列表(YG表)的鍵位設(shè) 計由系統(tǒng)程序自動生成,因此這里的JG表跟YG表一樣也是開放型信息結(jié)構(gòu)。7,同樣這里的JG表跟YG表一樣也是四碼長,兼用于三碼長部件編碼操作時(三 鍵+SP鍵),要把D2定為漢字的末鍵序,D2 = 1的條件為D4D2 = 1 (三部件漢字)或D4D3 =1(四部件或以上漢字)。8,D0、D1、D2分別標記列表信息屬漢字第一、第二、第三鍵序。D3標記列表信息屬漢字末鍵序,用于標記四部件或四部件以上漢字的最后一個部件所屬鍵序。D4標記為尾鍵序,用于標記包括成字部件、二、三、或多部件漢字的最后一個部件 所屬鍵序。9,一個開放型的綜合信息JG表是生成各類字、詞、句編碼(隨機編碼)的信息基 石出。附表四 特征碼鍵位信息漢語拼音列表示例
      注1,上述拼音(聲韻母)鍵位列表中的空格均為“0”。2,拼音鍵位列表控制碼的DO位標記列表信息屬該漢字的聲母,Dl位標記列表信 息屬該漢字的韻母。3,特征碼鍵位信息拼音列表是通過拼音(聲、韻母)列表的鍵位設(shè)計由系統(tǒng)程序 自動生成。4,實際鍵位列表中的漢字GB碼數(shù)量很大,有的鍵位列表甚至有數(shù)百個之多 (GB2312)。5,習(xí)慣于拼音信息者可切換為輸入拼音信息用字符鍵,輸入部件信息用Shift+ 字符鍵。6,這里的特征碼鍵位信息列表僅是漢語拼音信息列表的示列。只為文本中舉例所用。附表五
      漢字特征碼鍵位信息筆劃列表示例 注1,上述雙筆劃鍵位列表中的空格均為“0”。2,筆劃編碼輸入操作壓第一、二、三、四、五及末筆劃,五個筆劃(橫、豎、撇、點、 鉤)壓1 5數(shù)字鍵。3,筆劃鍵位列表一般按雙筆劃虛擬定位在25個字符鍵上,二個筆劃合成一碼。4,三、五筆劃數(shù)的漢字末筆劃要作奇位標記,用D3 = 1標記在它的復(fù)筆劃鍵位上 (其它筆劃數(shù)無需標記)。附表六 3,上述緩沖區(qū)詞國標單元中的濃黑數(shù)據(jù)位構(gòu)建詞編碼判別單元,用于判別漢字部 件信息的詞編碼二字詞編碼特征數(shù)據(jù)99 (即該二字詞的詞編碼判別單元中的DO、D3、D4、D7位均 為“1,,)三字詞編碼特征數(shù)據(jù)95 (即該三字詞的詞編碼判別單元中的DO、D2、D4、D7位均 為“1,,)四字及以上詞的編碼特征數(shù)據(jù)55(即該多字詞的詞編碼判別單元中的DO、D2、 04、06位均為“1”)附表八漢語拼音編碼字、詞自動生成示例 漢字筆劃編碼字、詞自動生成示例 注1,上述字、詞編碼緩沖區(qū)中的空格均為“0”。上述括弧中的字符為漢字聲韻母 或雙筆劃組合所屬鍵位。2,實際字詞編碼緩沖區(qū)中的漢字GB碼數(shù)量應(yīng)為GB2312中全部一、二級國標漢字。3,上述字、詞緩沖區(qū)國標單元中的濃黑數(shù)據(jù)位用于字編碼檢測和詞編碼判別二碼長的編碼漢字檢測數(shù)據(jù)為D0、D1均為“1”
      19
      三碼長的編碼漢字檢測數(shù)據(jù)為D0、D1、D2均為“1”四碼長的編碼漢字檢測數(shù)據(jù)為D0、D1、D2、D3均為“1”二字詞編碼特征數(shù)據(jù)99(即該二字詞的詞編碼判別單元中的D0、D3、D4、D7位均 為“1,,)三字詞編碼特征數(shù)據(jù)95 (即該三字詞的詞編碼判別單元中的DO、D2、D4、D7位均 為“1,,)四字及以上詞的編碼特征數(shù)據(jù)55(即該多字詞的詞編碼判別單元中的DO、D2、 04、06位均為“1”)附表九混合類信息字編碼自動生成示例 注1,上述字編碼生成緩沖區(qū)中的空格均為“0”。上述括弧中的字符為輸入信息 所屬鍵位。2,實際字編碼生成緩沖區(qū)中的漢字GB碼數(shù)量應(yīng)為GB2312中全部一、二級國標漢字。3,習(xí)慣于部件輸入操作的用戶輸入部件信息用字符鍵,聲、韻母信息用SHIFT+字 符鍵習(xí)慣于拼音輸入操作的用戶輸入聲、韻母信息用字符鍵,部件信息用SHIFT+字符鍵輸 入筆劃信息壓1 5五個數(shù)字鍵(代表橫、豎、撇、點、鉤五類不同筆劃)。4,上述緩沖區(qū)中字國標單元中的濃黑數(shù)據(jù)位用于字編碼檢測數(shù)據(jù)二碼長的編碼漢字檢測數(shù)據(jù)為D0、D1均為“1”。三碼長的編碼漢字檢測數(shù)據(jù)為D0、D1、D2均為“1”。四碼長的編碼漢字檢測數(shù)據(jù)為D0、D1、D2、D3均為“1”。附表十混合類信息詞編碼自動生成示例 注1,上述詞編碼生成緩沖區(qū)中的空格均為“0”。上述括弧中的字符為漢字編碼 信息所屬鍵位。2,實際詞編碼生成緩沖區(qū)中的漢字GB碼數(shù)量應(yīng)為GB2312中全部一、二級國標漢字。3,上述詞緩沖區(qū)國標單元中的濃黑數(shù)據(jù)位構(gòu)建詞編碼判別單元,用于判別詞編 碼二字詞編碼特征數(shù)據(jù)99(首字的第一、二鍵序信息屬同類,尾字的第一、二鍵序 信息也屬同類)95(首字的第一、二鍵序信息屬異類,尾字的第一、二鍵序信息屬同類)59 (首字的第一、二鍵序信息屬同類,尾字的第一、二鍵序信息屬異類)55(首字的第一、二鍵序信息屬異類,尾字的第一、二鍵序信息也屬異類)三字詞編碼特征數(shù)據(jù)95(尾字的第一、二鍵序信息屬同類,與首、次字的鍵入信 息類別無關(guān))55 (尾字的第一、二鍵序信息屬異類,與首、次字的鍵入信息類別無關(guān))四字及四字以上詞語的編碼特征數(shù)據(jù)55(與鍵入信息類別無關(guān))。
      權(quán)利要求
      一種中文信息數(shù)字化處理方法,其特征在于將一、二級國標漢字按相應(yīng)的分解規(guī)范進行拆分,拆分后的漢字信息進行特征碼信息列表,特征碼信息列表中的每個漢字特征碼包括漢字國標碼(GB碼)和控制碼二部分,國標碼是漢字代碼,控制碼則標記列表信息在該漢字拆分中的序碼。
      2.根據(jù)權(quán)利要求1所述的中文信息數(shù)字化處理方法,其特征在于一、二級國標漢字的 分解規(guī)范可以為“漢字部件規(guī)范”、“漢字筆畫規(guī)范”或“漢字拼音方案”三種。
      3.一種漢字隨機編碼方法,其特征在于,包括如下步驟a)首先將一、二級國標漢字按“漢字部件規(guī)范”、“漢字筆畫規(guī)范”或“漢字拼音方案”進 行拆分,拆分后的部件、聲韻母、筆劃信息進行包括漢字國標碼和控制碼二部分的特征碼信 息列表;b)建立漢字特征碼原始信息列表;c)對原始信息進行鍵位設(shè)計;d)將特征碼原始信息列表轉(zhuǎn)化為特征碼鍵位信息列表;e)設(shè)立字、詞編碼緩沖區(qū);f)儲存鍵入信息于字、詞緩沖區(qū);g)字(或詞)結(jié)束鍵后,根據(jù)字(或詞)編碼特性從字(或詞)庫中采集編碼信息入 字(或詞)編碼緩沖區(qū);h)根據(jù)字(或詞)的編碼特性(特征數(shù)據(jù))判別該字(或詞)是否符合編碼條件,檢 出編碼字(或詞),編碼處理結(jié)束。
      4.根據(jù)權(quán)利要求3所述的漢字隨機編碼方法,其特征在于在一、二級國標漢字按“漢 字拼音方案”拆分的漢語拼音信息中的聲母(21個)列表,其控制碼數(shù)據(jù)均為"01",其韻 母(35個)列表中控制碼數(shù)據(jù)均為"02"。
      5.根據(jù)權(quán)利要求3所述的漢字隨機編碼方法,其特征在于在一、二級國標漢字按“漢 字筆畫規(guī)范”拆分的漢字筆劃一般采用"橫、豎、撇、點(捺),鉤"五個筆劃,用數(shù)字鍵1-5 作代碼,也可以按雙筆劃組合(5X5 = 25組)虛擬地排列于字符鍵上,按數(shù)字鍵操作,按字 符鍵列表。
      6.根據(jù)權(quán)利要求3所述的漢字隨機編碼方法,其特征在于所述控制碼包括首部件標 記、次部件標記、第三部件標記、末部件標記和尾部件標記。
      7.根據(jù)權(quán)利要求6所述的漢字隨機編碼方法,其特征在于數(shù)字化的漢字部件信息列 表采用四碼長鍵序,四碼長鍵序可兼容于二碼長和三碼長。在四碼長的鍵序中,電腦對鍵入 信息的取碼是按如下規(guī)則進行的第一次出現(xiàn)的部件一定被看作首部件,其后為次部件、第 三部件和末部件;四鍵中首次出現(xiàn)的拼音信息視作聲母,其后為韻母;四鍵中出現(xiàn)的筆劃 信息依次為第一二筆、第三四筆和第五末筆。
      8.根據(jù)權(quán)利要求6所述的漢字隨機編碼方法,其特征在于在四碼長的鍵序中,不論是 字編碼還是詞編碼,輸入信息可隨機變換信息類型而無需進行切換。
      9.根據(jù)權(quán)利要求6所述的漢字隨機編碼方法,其特征在于對于字編碼,不論是輸入同 類信息還是異類信息,可隨機變換字編碼的碼長(二碼長或三碼長或四碼長)。
      10.根據(jù)權(quán)利要求6所述的漢字隨機編碼方法,其特征在于在隨機編碼系統(tǒng)中一定要 建立字、詞編碼緩沖區(qū),其容量包含整個字庫,分別用以儲存輸入的鍵位信息,并在該緩沖區(qū)中判別字或詞的編碼生成條件。
      全文摘要
      本發(fā)明公開了一種中文信息數(shù)字化處理方法,該方法將一、二級國標漢字按規(guī)范化信息進行拆分,然后把拆分的信息進行特征碼信息列表,特征碼信息列表中的每個漢字特征碼包括漢字國標碼(GB碼)和控制碼二部分,國標碼是漢字代碼,控制碼則標記列表信息(部件、聲韻母和筆劃)在該漢字拆分中的序碼。經(jīng)過了數(shù)字化處理的漢字信息,終使?jié)h字編碼變成為人機之間的一種簡單“約定”,人們只需按預(yù)先設(shè)定的編碼規(guī)則輸入字和詞,不論是單一類信息還是混合類信息,也不論什么碼長的編碼操作,電腦都將可以通過采樣相關(guān)的編碼信息和判別編碼條件來生成每一類編碼操作,實現(xiàn)這一系列組合編碼無需編制一條碼表,也無需作任何切換,字、詞的各類編碼組合都將可以通過程序設(shè)計自動生成,這就是隨機編碼操作技術(shù)。
      文檔編號G06F3/023GK101930300SQ20101027414
      公開日2010年12月29日 申請日期2010年9月7日 優(yōu)先權(quán)日2010年9月7日
      發(fā)明者陳玉龍 申請人:劉陶
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1