新型漢語(yǔ)普通話信息ascii碼的制作方法

文檔序號(hào)：10594044閱讀：496來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

新型漢語(yǔ)普通話信息ascii碼的制作方法
【專(zhuān)利摘要】本發(fā)明是一種漢語(yǔ)普通話信息編碼技術(shù)方案，屬于中文信息處理領(lǐng)域，本發(fā)明用26個(gè)拉丁字母和一個(gè)標(biāo)點(diǎn)符號(hào)(：)對(duì)語(yǔ)素、詞、詞組等漢語(yǔ)普通話信息進(jìn)行ASCII編碼，從而拓展了中文信息處理技術(shù)的廣度和深度，為今后中文信息處理和漢語(yǔ)自然語(yǔ)言理解軟件的開(kāi)發(fā)提供了一個(gè)更好的平臺(tái)，達(dá)到了一個(gè)全新的境界。
【專(zhuān)利說(shuō)明】新型漢語(yǔ)普通話信息ASCI I碼
[0001] ( - )技術(shù)領(lǐng)域本發(fā)明是一種漢語(yǔ)普通話信息編碼技術(shù)方案，屬于中文信息處理技術(shù)領(lǐng)域 (二)【背景技術(shù)】
[0002] 本發(fā)明的【背景技術(shù)】是中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn)GB2312-1980《信息交換用漢字編碼字符集?基本集》和《新型漢語(yǔ)信息Ascn碼》 (H)
【發(fā)明內(nèi)容】

[0003] 國(guó)家標(biāo)準(zhǔn)GB2312-1980《信息交換用漢字編碼字符集?基本集》是計(jì)算機(jī)系統(tǒng)內(nèi)部處理和存儲(chǔ)漢字時(shí)使用的代碼，在GB2312中規(guī)定，編碼采用雙屯位編碼方式（即兩個(gè)字節(jié)表示一個(gè)漢字），為了與英文字母相區(qū)別，漢字機(jī)內(nèi)代碼中兩個(gè)字節(jié)的最高位規(guī)定為"1"，英文字母的機(jī)代碼是7位的ASCII碼，運(yùn)種編碼在使用范圍上有一些限制，例如在一些大中型計(jì) 算機(jī)系統(tǒng)W及在網(wǎng)絡(luò)通信環(huán)境中，要用字節(jié)的最高位作奇偶校驗(yàn)的情況下，就不能用運(yùn)種漢字內(nèi)部標(biāo)識(shí)方法，而必須考慮設(shè)計(jì)其他形式的標(biāo)識(shí)信息。國(guó)家標(biāo)準(zhǔn)GB2312-1980《信息交換用漢字編碼字符集?基本集》只規(guī)定了漢字的編碼，為了中文信息處理技術(shù)發(fā)展的需要，必須要對(duì)語(yǔ)素、詞、語(yǔ)素的義位、詞的義位等漢語(yǔ)普通話信息進(jìn)行編碼來(lái)拓展中文信息處理技術(shù)的廣度和深度，本編碼的獨(dú)特性在于另辟曖徑W《漢語(yǔ)拼音方案》為基礎(chǔ)，直接用ASCII 碼對(duì)漢語(yǔ)普通話信息進(jìn)行編碼。
[0004] 《新型漢語(yǔ)信息ASCII碼》（申請(qǐng)?zhí)柣驅(qū)＠?hào)201510442110.8)是本人2015年7月24 日申請(qǐng)的發(fā)明專(zhuān)利，該申請(qǐng)?jiān)?1卷46期2015年11月18日專(zhuān)利公報(bào)上予W發(fā)布，運(yùn)項(xiàng)專(zhuān)利的編碼方法存在一些瑕疵，例如對(duì)古漢語(yǔ)詞和方言詞等漢語(yǔ)信息進(jìn)行編碼，沒(méi)有考慮到古漢語(yǔ)和方言與漢語(yǔ)普通話的巨大差異，還有將外來(lái)詞、非語(yǔ)素漢字等漢語(yǔ)信息單獨(dú)編碼，編碼方式過(guò)于繁瑣，所W有必要發(fā)明新的、簡(jiǎn)便的編碼方法來(lái)實(shí)現(xiàn)直接用ASCII碼對(duì)漢語(yǔ)普通話信息進(jìn)行編碼。
[0005] 漢語(yǔ)聲母的編碼
[0006] 《漢語(yǔ)拼音方案》中規(guī)定漢語(yǔ)拼音中有聲母"b"、V'、V'、吁"、"zh"、"ch"、"Sb"等 21個(gè)聲母，本發(fā)明W《漢語(yǔ)拼音方案》的聲母作為聲碼。
[0007] 漢語(yǔ)韻母的編碼
[000引《漢語(yǔ)拼音方案》中規(guī)定漢語(yǔ)拼音中有韻母V'、V'、V'、"i"、V'等35個(gè)韻母，本發(fā)明W《漢語(yǔ)拼音方案》的韻母作為韻碼，因 ASCII字符集中無(wú) U運(yùn)個(gè)字母的編碼，我的解決辦法是按照"滬=U:的方式編碼，所W《漢語(yǔ)拼音方案》的4個(gè)韻母"滬、"lie"、"化n"、"to"分別W "if =U:、"lie" =u:e、"iian" =u:an、"化1" =u:n的方式編碼，其余韻母不作變更，作為韻碼。
[0009] 漢語(yǔ)聲調(diào)的編碼
[0010] 《漢語(yǔ)拼音方案》中規(guī)定聲調(diào)符號(hào)為：陰平(-)陽(yáng)平(/)上聲(V)去聲（\)，聲調(diào)符號(hào) 標(biāo)在音節(jié)的主要母音上，輕聲不標(biāo)，漢語(yǔ)聲調(diào)有字母式、數(shù)字式和符號(hào)式3種標(biāo)調(diào)方式，《漢語(yǔ)拼音方案》采用的是符號(hào)式，符號(hào)式標(biāo)調(diào)的缺點(diǎn)是將聲調(diào)符號(hào)和韻母復(fù)合在一起，增加了計(jì)算機(jī)處理漢語(yǔ)普通話信息的難度，數(shù)字式標(biāo)調(diào)的缺點(diǎn)是不符合國(guó)際慣例，我的解決辦法是用5個(gè)拉下字母符號(hào)&、6、'i、6、女分別表示陰平、陽(yáng)平、上聲、去聲、輕聲5個(gè)聲調(diào)，聲調(diào) 標(biāo)在韻母之后，因 Ascn字符集中沒(méi)有運(yùn)5個(gè)拉下字母符號(hào)，我認(rèn)為調(diào)碼可W用扣a:、6=e:、 'i=i:、5=0:、戶(hù)y:的方式進(jìn)行編碼。
[0011] 漢語(yǔ)普通話常用詞的編碼
[0012] 漢字不是漢語(yǔ)的語(yǔ)言單位，語(yǔ)素、詞和詞組是漢語(yǔ)的語(yǔ)言單位，運(yùn)是一個(gè)語(yǔ)言學(xué)常識(shí)，如果我們不首先將漢語(yǔ)的自身規(guī)律研究清楚，則漢語(yǔ)普通話信息的編碼也就沒(méi)有科學(xué) 性可言。漢語(yǔ)詞、語(yǔ)素和詞組的區(qū)分眾說(shuō)紛運(yùn)，呂叔湘先生說(shuō)過(guò)，任何對(duì)漢語(yǔ)詞、語(yǔ)素和詞組的區(qū)分做過(guò)一番思索的人都認(rèn)為運(yùn)是個(gè)很困難的問(wèn)題，我認(rèn)為語(yǔ)素是最小的、有意義的、沒(méi) 有詞性的語(yǔ)言單位，詞是有意義的、有詞性的語(yǔ)言單位，詞組是有意義的、沒(méi)有詞性的、可W 單獨(dú)作為一個(gè)句子成分的語(yǔ)言單位，詞性是詞所獨(dú)有的語(yǔ)法性質(zhì)，詞根據(jù)詞性不同而被劃分為不同的詞類(lèi)。
[0013] 國(guó)家漢辦漢語(yǔ)水平考試部和北京語(yǔ)言學(xué)院漢語(yǔ)水平考試中屯、研制的《漢語(yǔ)水平詞匯與漢字等級(jí)大綱》收漢語(yǔ)普通話常用詞8822個(gè)，《現(xiàn)代漢語(yǔ)詞典》收漢語(yǔ)普通話詞65000多條，計(jì)算機(jī)必須像人腦一樣優(yōu)先處理常用詞才能提高效率，所W漢語(yǔ)普通話漢語(yǔ)信息的編碼首先要進(jìn)行常用詞的編碼。在漢語(yǔ)普通話中絕大部分單音節(jié)漢語(yǔ)詞、少部分雙音節(jié)和多音節(jié)詞都有同音詞，為區(qū)分同音詞，我選定a、e、n、o、u、w、x、z運(yùn)8個(gè)拉下字母作為漢語(yǔ)普通話常用詞編碼字母，根據(jù)《漢語(yǔ)水平詞匯與漢字等級(jí)大綱》大綱排查，漢語(yǔ)普通話常用詞 "世"的同音詞最多，有7個(gè)同音詞，根據(jù)筆畫(huà)數(shù)多寡和相同筆畫(huà)數(shù)第一筆橫豎撇點(diǎn)折的順序排列，分別是"市"、"式V'試"、"事V'狐V'是'、"窒'，根據(jù)數(shù)學(xué)上的抽屜定理，每個(gè)同音詞在調(diào)碼后加一個(gè)編碼字母，則不會(huì)重碼，所W漢語(yǔ)普通話常用詞可W按照W下公式編碼:漢語(yǔ)普通話常用詞的編碼=聲碼+韻碼+調(diào)碼+漢語(yǔ)普通話常用詞編碼字母，漢語(yǔ)普通話常用詞編碼字母的作用是區(qū)別漢語(yǔ)普通話常用詞的同音詞，如有的漢語(yǔ)普通話常用詞沒(méi)有同音詞，可省略漢語(yǔ)普通話常用詞編碼字母。
[0014] 漢語(yǔ)普通話非常用詞的編碼
[0015] 漢語(yǔ)普通話非常用詞的編碼可W按照W下公式編碼:漢語(yǔ)普通話非常用詞的編碼 =聲碼+韻碼+調(diào)碼+漢語(yǔ)普通話非常用詞編碼字母，漢語(yǔ)普通話非常用詞編碼字母是aa、 ae、an、ao、au、aw、ax、az等64個(gè)拉下字母組合，漢語(yǔ)普通話非常用詞編碼字母的作用是區(qū)別漢語(yǔ)普通話非常用詞的同音詞，如有的漢語(yǔ)普通話非常用詞沒(méi)有同音詞可省略漢語(yǔ)普通話非常用詞編碼字母，如有的漢語(yǔ)普通話非常用詞的同音詞的數(shù)量超過(guò)64個(gè)，可W增加 aaa、 aae、aao、aau、aaw、aax、aaz等字母組合作為漢語(yǔ)普通話非常用詞編碼字母。
[0016] 漢語(yǔ)普通話常用詞的義位編碼
[0017] 義位是由語(yǔ)匯形式表示的、獨(dú)立的、概括的、固定的語(yǔ)義單位，語(yǔ)匯形式包括語(yǔ)素、詞和詞組，英語(yǔ)中使用的是sememe運(yùn)一術(shù)語(yǔ)，義位與義項(xiàng)是有區(qū)別又有聯(lián)系的概念，詞典學(xué) 家將用于書(shū)面的、收錄在詞典之中的每個(gè)詞和詞組的每個(gè)義項(xiàng)都開(kāi)列了條目，運(yùn)些義項(xiàng)就成了語(yǔ)義學(xué)家研究的義位，嚴(yán)格地講義位是屬于語(yǔ)義學(xué)的范疇，義項(xiàng)是屬于詞典學(xué)的范疇，詞典的編纂可W有不同的編纂原則，如歷史原則、邏輯原則和使用頻率原則，因而在不同的詞典中義項(xiàng)的排列順序不是固定不變的，本發(fā)明中義位的排序采用歷史原則，使用歷史原則最大的優(yōu)點(diǎn)是可W保持義位排序的穩(wěn)定，義位歷史原則排序方法是W每個(gè)漢語(yǔ)普通話語(yǔ) 素、詞、詞組的義位在國(guó)家語(yǔ)委現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)中出現(xiàn)的時(shí)間順序來(lái)為每個(gè)義位排序，在語(yǔ) 料庫(kù)中出現(xiàn)時(shí)間早的義位排在前面，在語(yǔ)料庫(kù)中出現(xiàn)時(shí)間晚的義位排在后面，國(guó)家語(yǔ)委現(xiàn) 代漢語(yǔ)語(yǔ)料庫(kù)1991年12月立項(xiàng)，1998年底建成，為避免新的語(yǔ)料加入造成義位排序變更，可 W規(guī)定W1998年12月31日為界，在1998年12月31日W后加入的新語(yǔ)料不得影響W前義位的排序，新語(yǔ)料中的義位必須排在老語(yǔ)料義位的后面。
[0018] 詞大多有2個(gè)或2個(gè)W上的義位，為了中文信息技術(shù)發(fā)展的需要，必須要對(duì)漢語(yǔ)普通話常用詞的義位進(jìn)行編碼，為區(qū)分漢語(yǔ)普通話中文常用詞不同的義位，我選定b、d、f、h、 i、k、l、t運(yùn)8個(gè)拉下字母+字母S作為漢語(yǔ)普通話常用詞義位的編碼字母，字母S為英語(yǔ)義位 sememe的簡(jiǎn)寫(xiě)，為避免拼讀錯(cuò)誤，字母S和聲母之間用：隔開(kāi)，有的漢語(yǔ)普通話常用詞（例如： "愛(ài)情"）沒(méi)有聲母，則字母S和運(yùn)些詞的韻母之間用：隔開(kāi)，如有的漢語(yǔ)普通話常用詞的義位超過(guò)8個(gè)，則采用6、(1^、11、1、^1八8個(gè)拉下字母+33+:來(lái)進(jìn)行編碼，如有的漢語(yǔ)普通話中文常用詞只有一個(gè)義位，也必須加義位編碼字母b+s+:，因?yàn)槿绮患恿x位編碼字母b+s+:會(huì)造成詞與詞的義位編碼混淆，所W漢語(yǔ)普通話常用詞的義位編碼可W按照W下公式進(jìn)行:漢語(yǔ)普通話常用詞的義位編碼=義位編碼字母+S(SS) + :+聲碼+韻碼+調(diào)碼+漢語(yǔ)普通話常用詞編碼字母。
[0019] 漢語(yǔ)普通話非常用詞的義位編碼
[0020] 漢語(yǔ)普通話非常用詞的義位編碼可W按照W下公式進(jìn)行:漢語(yǔ)普通話非常用詞的義位編碼=義位編碼字母+S(SS)+:+聲碼+韻碼+調(diào)碼+漢語(yǔ)普通話非常用詞編碼字母，如有的漢語(yǔ)普通話非常用詞（例如："愛(ài)斯基摩人"）沒(méi)有聲母，則字母S和運(yùn)些詞的韻母之間用：隔開(kāi)，如有的漢語(yǔ)普通話非常用詞的義位超過(guò)8個(gè)，則采用6、(1^、11、1、4、1八8個(gè)拉下字母+ SS+:來(lái)進(jìn)行編碼，如有的漢語(yǔ)普通話中文非常用詞只有一個(gè)義位時(shí)，也必須加義位編碼字母b+s+:，因?yàn)槿绮患恿x位編碼字母b+s+:會(huì)造成詞與詞的義位編碼混淆。
[0021] 漢語(yǔ)普通話中文常用語(yǔ)素的編碼
[0022] 語(yǔ)素是最小的、有意義的、沒(méi)有詞性的語(yǔ)言單位，漢字與語(yǔ)素是有區(qū)別又有聯(lián)系的概念，嚴(yán)格地說(shuō)漢字是屬于文字學(xué)的范疇，語(yǔ)素是屬于語(yǔ)言學(xué)的范疇，1988年國(guó)家語(yǔ)言文字工作委員會(huì)頒布了《現(xiàn)代漢語(yǔ)常用字表》，在運(yùn)個(gè)字表中1000常用字的覆蓋率為97.97%， 1000次常用詞覆蓋率為1.51%，合計(jì)(3500字)覆蓋率達(dá)到99.48%，因?yàn)槌Ｓ谜Z(yǔ)素與常用漢字存在著高度相關(guān)的關(guān)系，所W我們判斷一個(gè)語(yǔ)素是不是常用語(yǔ)素，可W用在《現(xiàn)代漢語(yǔ)常用字表》中查找對(duì)應(yīng)漢字的方法來(lái)進(jìn)行，語(yǔ)素在英語(yǔ)中譯為moreme，為了中文信息處理技術(shù) 發(fā)展的需要，必須要對(duì)漢語(yǔ)普通話常用語(yǔ)素進(jìn)行編碼，漢語(yǔ)普通話常用語(yǔ)素的編碼可W按照W下公式進(jìn)行:漢語(yǔ)普通話常用語(yǔ)素的編碼=聲碼+韻碼+調(diào)碼+m(mm)+漢語(yǔ)普通話常用詞編碼字母，如有的同音的漢語(yǔ)普通話常用語(yǔ)素超過(guò)8個(gè)，則采用mm+漢語(yǔ)普通話常用詞編碼字母來(lái)進(jìn)行編碼，如有的漢語(yǔ)普通話常用語(yǔ)素沒(méi)有同音語(yǔ)素，也必須加 m+漢語(yǔ)普通話常用詞編碼字母a來(lái)進(jìn)行編碼，因?yàn)槿绮患?m+漢語(yǔ)普通話常用詞編碼字母a來(lái)進(jìn)行編碼，則會(huì) 造成詞與語(yǔ)素的編碼混淆。
[0023] 漢語(yǔ)普通話非常用語(yǔ)素的編碼
[0024] 漢語(yǔ)普通話非常用語(yǔ)素的編碼可W按照W下公式編碼:漢語(yǔ)普通話非常用語(yǔ)素的編碼=聲碼+韻碼+調(diào)碼+m+漢語(yǔ)普通話非常用詞編碼字母，如有的漢語(yǔ)普通話非常用語(yǔ)素沒(méi)有同音語(yǔ)素，也必須加 m+漢語(yǔ)普通話非常用詞編碼字母aa來(lái)進(jìn)行編碼，因?yàn)槿绮患?m+漢語(yǔ)普通話非常用詞編碼字母aa來(lái)進(jìn)行編碼，則會(huì)造成詞與語(yǔ)素的編碼混淆。
[0025] 漢語(yǔ)普通話常用語(yǔ)素的義位編碼
[0026] 語(yǔ)素雖然是最小的、有意義的、無(wú)詞性的語(yǔ)言單位，但是很多漢語(yǔ)語(yǔ)素還是有多個(gè) 義位，例如漢語(yǔ)常用語(yǔ)素"高"的義位有：1、敬辭，稱(chēng)贊別人的事務(wù)，如:高見(jiàn)、高論，2、表示酸根或化合物中比標(biāo)準(zhǔn)酸根多含一個(gè)氧原子的，如:高儘酸鐘，所W為了中文信息處理技術(shù)發(fā) 展的需要，必須要對(duì)漢語(yǔ)普通話常用語(yǔ)素的義位進(jìn)行編碼，漢語(yǔ)普通話常用語(yǔ)素的義位編碼可W按照W下公式進(jìn)行:漢語(yǔ)普通話常用語(yǔ)素的義位編碼=義位編碼字母+S(SS) + :+聲碼+韻碼+調(diào)碼+m(mm)+漢語(yǔ)普通話常用詞編碼字母，如有的常用語(yǔ)素（例如："愛(ài)"）沒(méi)有聲母，則字母S和運(yùn)些語(yǔ)素的韻母之間用：隔開(kāi)，如有的漢語(yǔ)普通話常用語(yǔ)素的義位超過(guò)8個(gè)，則采用6、(1^、11、1、以1八8個(gè)拉下字母+33+:來(lái)進(jìn)行編碼，如有的漢語(yǔ)普通話常用語(yǔ)素只有一個(gè)義位，也必須加義位編碼字母b+s+:，因?yàn)槿绮患恿x位編碼字母b+s+:，則會(huì)造成語(yǔ)素的義位與語(yǔ)素編碼混淆。
[0027] 漢語(yǔ)普通話非常用語(yǔ)素的義位的編碼
[0028] 漢語(yǔ)普通話非常用語(yǔ)素的義位的編碼可W按照W下公式進(jìn)行:漢語(yǔ)普通話非常用語(yǔ)素的義位的編碼=義位編碼字母+S(SS) + :+聲碼+韻碼+調(diào)碼+m(mm)漢語(yǔ)普通話非常用詞編碼字母，如有的漢語(yǔ)普通話非常用語(yǔ)素(例如："扱"）沒(méi)有聲母，則字母S和運(yùn)些語(yǔ)素的韻母之間用：隔開(kāi)，如有的漢語(yǔ)普通話非常用語(yǔ)素的義位超過(guò)8個(gè)，則采用6、(1^、11、1、^1八8 個(gè)拉下字母+SS+:來(lái)進(jìn)行編碼，如有的漢語(yǔ)普通話中文非常用語(yǔ)素只有一個(gè)義位，也必須加義位編碼字母b+s+:，因?yàn)槿绮患恿x位編碼字母b+s+:，則會(huì)造成語(yǔ)素的義位與語(yǔ)素的編碼混淆。
[0029] 漢語(yǔ)普通話常用漢字的編碼
[0030] 為了建立漢語(yǔ)普通話中漢字與語(yǔ)素、詞等中文信息單位的聯(lián)系，所W有必要對(duì)漢語(yǔ)普通話中的漢字進(jìn)行編碼，除個(gè)別特殊的漢字外（例如漢字"曖"沒(méi)有同音字），一般每個(gè) 漢字都有數(shù)量不等的同音字，我的解決方案是:首先將漢語(yǔ)普通話中常用漢字的同音字按照筆畫(huà)數(shù)多寡和相同筆畫(huà)數(shù)第一筆橫豎撇點(diǎn)折的順序排列，W字母C+漢語(yǔ)普通話常用漢字編碼字母來(lái)區(qū)別同音的漢語(yǔ)普通話常用漢字，漢語(yǔ)普通話常用漢字編碼字母由a、e、n、o、u、 w、x、Z運(yùn)8個(gè)拉下字母構(gòu)成，選擇字母C是因?yàn)闈h字在英語(yǔ)中是用Chinese character運(yùn)個(gè)詞組來(lái)表示的，所W漢語(yǔ)普通話常用漢字的編碼可W按照W下公式進(jìn)行:漢語(yǔ)普通話中常用漢字的編碼=聲碼+韻碼+調(diào)碼+C(CC)+漢語(yǔ)普通話常用漢字編碼字母，如有的漢語(yǔ)普通話常用漢字的同音字超過(guò)8個(gè)，則增加 cea、cce、ccn、CCO、CCU、CCW、CCX等拉下字母組合作為漢語(yǔ)普通中常用漢字編碼字母，如有的漢語(yǔ)普通話常用漢字沒(méi)有同音字，也不可W省略C+漢語(yǔ)普通話常用漢字編碼字母日，必須加因?yàn)镃+漢語(yǔ)普通話常用漢字編碼字母日，如省略C+漢語(yǔ)普通話常用漢字編碼字母a,會(huì)造成詞與字的編碼混淆。
[0031 ]漢語(yǔ)普通話中非常用漢字的編碼
[0032]漢語(yǔ)普通話中非常用漢字的編碼=聲碼+韻碼+調(diào)碼+C+漢語(yǔ)普通話中非常用漢字編碼字母，如有的漢語(yǔ)普通話非常用漢字沒(méi)有同音字，也不可W省略C+漢語(yǔ)普通話非常用漢字編碼字母aa，必須加 C+漢語(yǔ)普通話非常用漢字編碼字母aa，如省略C+漢語(yǔ)普通話非常用漢字編碼字母aa，會(huì)造成詞與字的編碼混淆。
[0033] 漢語(yǔ)普通話詞典中詞組的編碼
[0034] 在漢語(yǔ)普通話中有一些詞匯是收錄在詞典(包括電子詞典）中的詞組，運(yùn)些詞組都有比較固定的用法和涵義，因而可W作為一個(gè)信息單位來(lái)處理，我的解決方案是使用符號(hào) "0"來(lái)提醒計(jì)算機(jī)，將括號(hào)內(nèi)的中文信息作為一個(gè)信息單位來(lái)處理，所W漢語(yǔ)普通話詞典中詞組的編碼可W按照W下公式進(jìn)行:漢語(yǔ)普通話詞典中的詞組的編碼=(詞組的漢語(yǔ)拼音編碼字母），詞組的漢語(yǔ)拼音編碼要按照國(guó)家語(yǔ)委頒布的《漢語(yǔ)拼音正詞法基本規(guī)則》的規(guī)定按詞分拆編碼，如不能全部拆分為詞的，可W拆分至語(yǔ)素甚至字母、符號(hào)，然后再進(jìn)行編碼，例如：詞組(B族維生素)可拆分為字母(B)、語(yǔ)素(族)和詞(維生素)運(yùn)3個(gè)中文信息單位，然后再按照編碼公式進(jìn)行編碼。
[0035] 漢語(yǔ)普通話詞典中詞組的義位的編碼
[0036] 在漢語(yǔ)普通話中，有一些收錄在詞典(包括電子詞典）中的詞組有多個(gè)義位，例如 "拼音字母"運(yùn)個(gè)詞組有2個(gè)義位，1、拼音文字所用的字母，2、指《漢語(yǔ)拼音方案》采用的為漢字注音的二十六個(gè)拉下字母，漢語(yǔ)普通話詞典中的詞組的義位的編碼可W按照W下公式進(jìn) 行:漢語(yǔ)普通話詞典中的詞組的義位的編碼=義位編碼字母+S(SS)+:+(詞組的漢語(yǔ)拼音編碼字母），義位編碼字母我選擇用g、j、P、q、y 5個(gè)拉下字母作為義位編碼字母，如詞組的義位超過(guò)5個(gè)，則采用義位編碼字母+SS+:來(lái)進(jìn)行編碼。
[0037] 漢語(yǔ)普通話自由詞組的編碼
[0038] 漢語(yǔ)普通話自由詞組的編碼必須根據(jù)國(guó)家語(yǔ)委頒布的《漢語(yǔ)拼音正詞法基本規(guī) 貝1J》的規(guī)定，首先將自由詞組拆分為詞，再W詞為單位進(jìn)行編碼，如不能全部拆分為詞的，可 W拆分至語(yǔ)素甚至字母、符號(hào)，然后再進(jìn)行編碼，例如：自由詞組(語(yǔ)素"中"和語(yǔ)素"國(guó)"）可拆分為詞(語(yǔ)素）、標(biāo)點(diǎn)符號(hào)（"）、語(yǔ)素（中）、標(biāo)點(diǎn)符號(hào)("）、詞（和）、詞(語(yǔ)素）、標(biāo)點(diǎn)符號(hào)（"）、語(yǔ)素（國(guó)）標(biāo)點(diǎn)符號(hào)r)運(yùn)9個(gè)中文信息編碼單位，然后再按照編碼公式編碼。 (四）【具體實(shí)施方式】
[0039] -、例如:漢語(yǔ)普通話中"終端"運(yùn)個(gè)常用詞從文字學(xué)的角度看是由"終"和："端"兩個(gè)漢字構(gòu)成的，從語(yǔ)言學(xué)的角度看是由"終"和"端"兩個(gè)語(yǔ)素構(gòu)成的，從語(yǔ)義學(xué)的角度看是由1、狹長(zhǎng)東西的頭2、終端設(shè)備的簡(jiǎn)稱(chēng)二個(gè)義位構(gòu)成的，根據(jù)上述編碼公式我們可W得到W 下編碼，并建立各編碼之間的聯(lián)系，從而將漢語(yǔ)普通話中漢字編碼、詞的編碼、語(yǔ)素的編碼等漢語(yǔ)普通話信息編碼連成一個(gè)編碼體系，從而拓展了中文信息編碼的廣度和深度： zhonga：duana：= zhonga：cn+duana：ca = zhonga：mn+duan：ma = bs：zhonga：duana：+ds： zhong曰：du曰n曰：O
[0040] 二、例如:漢語(yǔ)普通話中共有"高"、"膏"、"富"、"黑"、"糕"5個(gè)常用語(yǔ)素，我們可W 按照漢語(yǔ)普通話常用語(yǔ)素的編碼公式進(jìn)行編碼，分別得到高（gaoa:ma)、膏（gaoa:me)、富 (gaoa: mn)、黑(gaoa: mo)、糕(gaoa:mu)運(yùn)些編碼，"高"的義位有：1、敬辭，稱(chēng)贊別人的事務(wù)，如：高見(jiàn)、高論，2、表示酸根或化合物中比標(biāo)準(zhǔn)酸根多含一個(gè)氧原子的，如：高儘酸鐘，我們可W按照漢語(yǔ)普通話常用語(yǔ)素的義位的編碼公式編碼得到W下編碼，并建立各編碼之間的聯(lián)系：gaoa: ma = bs: gaoa: ma+ds: gaoa: ma，通過(guò)對(duì)漢語(yǔ)普通話語(yǔ)素的義位進(jìn)行編碼，我們就可W將漢語(yǔ)普通話信息的編碼體系推進(jìn)到語(yǔ)素的義位運(yùn)一級(jí)中文信息單位，從而拓展了中文信息編碼的廣度和深度。
[0041] =、例如："拼音字母"運(yùn)個(gè)詞組有2個(gè)義位，1、拼音文字所用的字母，2、指《漢語(yǔ)拼音方案》采用的為漢字注音的二十六個(gè)拉下字母，我們可W按照漢語(yǔ)普通話詞典中的詞組的義位編碼公式進(jìn)行編碼，得到W下編碼并建立編碼之間的聯(lián)系：（pina:yina:wene:zio:) =邑S: (pina:yina:wene:zio: )+js: (pina:yina:wene:zio:)通過(guò)對(duì)漢語(yǔ)普通話詞典中的詞組的義位進(jìn)行編碼，我們就可W將漢語(yǔ)普通話信息的編碼體系推進(jìn)到詞組的義位運(yùn)一級(jí)中文信息單位，從而拓展了中文信息編碼的廣度和深度。
[0042] 我們將按照上述編碼公式得到的編碼，對(duì)照Ascn字符集，就可W將運(yùn)些編碼轉(zhuǎn)換為計(jì)算機(jī)可W進(jìn)行信息處理的二進(jìn)制編碼，而按照國(guó)家標(biāo)準(zhǔn)GB2312-1980《信息交換用漢字編碼字符集?基本集》只能對(duì)漢字進(jìn)行編碼，而不能對(duì)語(yǔ)素、詞、語(yǔ)素的義位、詞的義位等漢語(yǔ)普通話信息進(jìn)行編碼，所W本發(fā)明拓展了中文信息處理技術(shù)的廣度和深度，為今后漢語(yǔ) 自然語(yǔ)言理解軟件和中文信息處理軟件的開(kāi)發(fā)提供了一個(gè)更好的平臺(tái)，達(dá)到了一個(gè)全新的境界。
【主權(quán)項(xiàng)】
1.本發(fā)明是一種漢語(yǔ)普通話信息編碼技術(shù)方案，屬于中文信息處理領(lǐng)域，其特征是：用 26個(gè)拉丁字母和一個(gè)標(biāo)點(diǎn)符號(hào)（：）對(duì)語(yǔ)素、詞、詞組等漢語(yǔ)普通話信息進(jìn)行ASCII編碼，從而拓展了中文信息處理技術(shù)的廣度和深度，為今后中文信息處理和漢語(yǔ)自然語(yǔ)言理解軟件的開(kāi)發(fā)提供了一個(gè)更好的平臺(tái)，達(dá)到了一個(gè)全新的境界。
【文檔編號(hào)】G06F17/22GK105955936SQ201610239869
【公開(kāi)日】2016年9月21日
【申請(qǐng)日】2016年4月18日
【發(fā)明人】王欣
【申請(qǐng)人】王欣

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王欣;
技術(shù)所有人：王欣;
我是此專(zhuān)利的發(fā)明人

上一篇：一種比較linux系統(tǒng)光盤(pán)iso異同的方法
上一篇：一種文字控件的實(shí)現(xiàn)方法及其裝置的制造方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

漢語(yǔ)普通話相關(guān)技術(shù)

ascii碼表相關(guān)技術(shù)

ascii碼相關(guān)技術(shù)

ascii碼轉(zhuǎn)換器相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

新型漢語(yǔ)普通話信息ascii碼的制作方法