一種字元檢索漢字的方法

文檔序號：6597076閱讀：344來源：國知局

專利名稱：一種字元檢索漢字的方法
技術領域：
本發(fā)明屬于漢語文字信息處理背景技術目前的漢語字典對于檢索漢字的方法基本上有3種l偏旁部首、2漢語拼音、3四角號碼。其中四角號碼由于不容易被人們所理解，基本己經被放棄使用了，因此就只有利用偏旁部首和漢語拼音來檢索和査閱漢字這2種方法。偏旁部首從康熙字典就已經采用，歷史悠久，根據(jù)漢字的200多個部首從字典或者詞典檢索字、詞；而利用漢語拼音檢索漢字是從1958年以后，漢語拼音成為中國的法律后，才開始使用。完全按照漢字拼音的檢索漢字雖然方便快捷，但是對于常用的漢字如國標的一級漢字3753個，具有極大的優(yōu)勢，人們可以利用漢語拼音的英文字母順序快速的找到檢索和查詢的漢字的位置，對于小型字典如收字在5000個左右還可以，其余的利用部首檢字表作為輔助，也是一個權益之計。但是，對于大部分字典，該方法是不合適的，因為即使是對于小學生使用的《新華字典》收字也達一萬多，更何況對于收字幾萬以上的大中型字詞典，因為大多數(shù)的具有中等教育水平的中國人的認識漢字(讀音)，基本上就在4000左右，對于"生字"，就只能采用部首檢字表來檢索查找"生字"。首先要判斷這個字的部首，然后在計算出該部首的筆畫數(shù)，最后在檢字表中仔細的尋找出該字在字典正文所在的頁碼，最后才查出該字的讀音和釋義，這幾乎是目前所有漢字檢索采用的方法，效率低下，而且需要查閱者極大的耐心；如查"貔(ju6)"字，先要査部首目錄的"豸(7畫)"在檢字表的67頁(商務印書館《現(xiàn)代漢語詞典》第5版為例)，在"163 豸部"找到"貔"字，在正文的1039頁，整個過程費時費力，特別是對于當代漢語走向世界和計算機的中文處理，落后的檢索漢字手段需要根本的改進。發(fā)明內容本發(fā)明就是針對目前的漢字詞典的漢字檢索和査閱的落后手段，進行了徹底的改革。無論多么復雜漢字，其構成或者有幾個簡單的漢字或者是與偏旁部首構成的，在漢字的全集中(古今中外的全部數(shù) 暈，估計在10-13萬左右)，都是由這些簡單的漢字(大部分是國標一級漢字3700個漢字和200個左右非成字的偏旁部首或者部件構成的)，這些漢字與漢字或者與部首/部件的組合，理論上可以構成百萬以上的漢字，當然實際上只有十幾萬的漢字，而且這個數(shù)量相對是穩(wěn)定的，基本不會增加。因此理論上只要掌握了這4000個之內的基本漢字，就可以通過這個基本漢字的子局去査詢構成的漢字全集，因為基本上受過9 年制教育的國人，是知道其讀音，我們把這個稱為漢字元；可以是單獨的"單字元"，也可以是獨體字和獨體字或者部件/部首構成，我把它定義為合成字元，簡稱"合字元"。如"王"，可以被認為是單字元，"尾" 字被定義為"合字元"，由"尸"和"毛"構成"邦"，由豐字旁和'卞"構成，非成字的偏旁部首/部件不作為字元處理，理由是無法進行拼音編碼，而且會造成字元集的龐大，如205個部首，扣掉成字的部首，只有150個，要對應200個，"[S "。字元的數(shù)量規(guī)模應該控制在2000左右，如果字元過少，會造成一個字元對應過多的由該字元構成的漢字(字元集)；如有1000個字元，那么平均1個字元集包括100個漢字，會影響檢索速度，數(shù)量過多比如多于4000個，會導致有部分人不認識字元的讀音而無法檢索，根據(jù)目前的《GB18030》的27000個左右漢字，發(fā)明者認為字元的數(shù)量在2000-3000個左右比較合適，平均每個字元集含15個左右的漢字，考慮到將來的漢字總數(shù)如果擴展到12萬個，那么平均每個字元集有40個左右漢字，檢索起來也不會費太多的時間；當然也可以適當?shù)脑黾右恍┳衷獢?shù)作為一些特殊的偏僻漢字的檢索。把這些字元，按照其漢語拼音字母(a-z)和拼音調號的順序編制成一個字元檢索表，安排在字典或者詞典的前序部分，替代目前的筆畫檢字表。我們以3000個字元計算，按照目前字典的筆畫檢字表，平均每頁150個漢字(字體按照5號字)計算，那么只要20頁就可以容納這些字元，篇幅和紙張都減少了；而目前的字典如《國際標準漢字詞典》(ISBN7-5600-3130-7)，收字20902,其筆畫檢字表多達80頁。我們以國標一級漢字中的"暴"字元為例，在GB18030的漢字中"暴"字元集或者"暴"字集包括如下的14個漢字暴、爆、爆、鑤、曝、爆、樓、楊、鑤、瀑、曝、摞、揚和釀；如要查漢字"爆"(b6)，，該字包括字元"暴"，根據(jù)其拼音"bao",在字元檢索表中找到"bdo暴120-122"(這里為說明方便不一定在120-122頁)，說明"暴"字集在詞典120-122頁，翻閱到120-122頁，査到"爆"字。字元集里的所有漢字也是按照漢語拼音和調號的升序排序的，除了字元被排列在字元集的首位。
具體實施方式
可以利用Windows的Excel軟件，把所有的漢字放到B列，進行排序后，找出全部每個漢字的字元放到與A并列的B列，然后選中A、 B倆列，以A列重新排序之后，A列不動，再對B列的每個含有相同字元的字元集，從以拼音字母"A"開始的各個字元集一一進行排列，直到排序最后的以"Z"開始的一列。最后把所有的字元(去掉重復的只選取一個字元字)，單獨匯編成字元檢索表，并且根據(jù)具體的每個字元集在不同字典、詞典的位置，分配給這些字元集對應的頁碼。如果漢字數(shù)量超過10萬個，可以將漢字集一分為二，實現(xiàn)漢字元的排序和匯編字元檢索表，或者直接利用Access來實現(xiàn)。
權利要求
1、一種字元檢索漢字的方法，其特征在于找出所有漢字的字元，然后匯編字元檢索表，根據(jù)每個漢字包括的字元拼音，查找出該字元在字典或者詞典的字元檢索表的位置，每個字元的后面標示出頁碼范圍來表明該字元集在字典或者詞典正文的頁碼范圍。
2、根據(jù)權利要求1所述的方法，其特征在于把這些字元按照其漢語拼音和拼音調號的排序，編制成一個字元檢索表，安排在字典或者詞典的前序部分。
3、根據(jù)權利要求1所述的方法，其特征在于字元檢索表中，每個字元的后面標示出頁碼范圍。
4、根據(jù)權利要求1所述的方法，其特征在于査找某個漢字時，先根據(jù)該漢字的字元拼音，査找出該字元在字元檢索表的位置，然后按照該字元的頁碼范圍，在字典或者詞典的正文査出相應的漢字。
全文摘要
本發(fā)明利用漢字是由簡單的常用漢字和偏旁部首構成的特點，并且考慮到多數(shù)的國人都認識國標一級漢字(拼音的讀音)的事實，把這些常用的基本漢字當作構成漢字的字元，構成一個字元集，每個字元集包括幾十個含有相同字元的漢字；根據(jù)字元的拼音構造一個字元檢索表，查詢漢字不是按照漢字的拼音和偏旁部首，而是根據(jù)其字元的拼音，查找出其在字元表的位置，然后在查找該字元集在詞典正文的頁碼，在字元集里查找出該漢字。徹底顛覆了傳統(tǒng)的按照偏旁部首及筆畫查找漢字的方法。該方法簡單方便，而且符合國際和國際標準，節(jié)省漢字的檢索時間，有利于小學生和國外人士的漢語教學，知道漢字的傳統(tǒng)來歷，同時也節(jié)約了紙張，為漢字的計算機檢索和漢字的內碼編碼奠定了基礎；有利于漢語在時間的傳播。
文檔編號G06F3/023GK101403948SQ200810228840
公開日2009年4月8日申請日期2008年11月17日優(yōu)先權日2008年11月17日
發(fā)明者周連惠申請人:張家港市赫圖阿拉信息技術有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：周連惠
技術所有人：張家港市赫圖阿拉信息技術有限公司
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯(lián)網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯(lián)網安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種字元檢索漢字的方法