新型漢語(yǔ)普通話信息ascii碼的制作方法
【專(zhuān)利摘要】本發(fā)明是一種漢語(yǔ)普通話信息編碼技術(shù)方案,屬于中文信息處理領(lǐng)域,本發(fā)明用26個(gè)拉丁字母和一個(gè)標(biāo)點(diǎn)符號(hào)(:)對(duì)語(yǔ)素、詞、詞組等漢語(yǔ)普通話信息進(jìn)行ASCII編碼,從而拓展了中文信息處理技術(shù)的廣度和深度,為今后中文信息處理和漢語(yǔ)自然語(yǔ)言理解軟件的開(kāi)發(fā)提供了一個(gè)更好的平臺(tái),達(dá)到了一個(gè)全新的境界。
【專(zhuān)利說(shuō)明】新型漢語(yǔ)普通話信息ASCI I碼
[0001] ( - )技術(shù)領(lǐng)域本發(fā)明是一種漢語(yǔ)普通話信息編碼技術(shù)方案,屬于中文信息處理技 術(shù)領(lǐng)域 (二)【背景技術(shù)】
[0002] 本發(fā)明的【背景技術(shù)】是中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn)GB2312-1980《信息交換用漢字編 碼字符集?基本集》和《新型漢語(yǔ)信息Ascn碼》 (H)
【發(fā)明內(nèi)容】
[0003] 國(guó)家標(biāo)準(zhǔn)GB2312-1980《信息交換用漢字編碼字符集?基本集》是計(jì)算機(jī)系統(tǒng)內(nèi)部 處理和存儲(chǔ)漢字時(shí)使用的代碼,在GB2312中規(guī)定,編碼采用雙屯位編碼方式(即兩個(gè)字節(jié)表 示一個(gè)漢字),為了與英文字母相區(qū)別,漢字機(jī)內(nèi)代碼中兩個(gè)字節(jié)的最高位規(guī)定為"1",英文 字母的機(jī)代碼是7位的ASCII碼,運(yùn)種編碼在使用范圍上有一些限制,例如在一些大中型計(jì) 算機(jī)系統(tǒng)W及在網(wǎng)絡(luò)通信環(huán)境中,要用字節(jié)的最高位作奇偶校驗(yàn)的情況下,就不能用運(yùn)種 漢字內(nèi)部標(biāo)識(shí)方法,而必須考慮設(shè)計(jì)其他形式的標(biāo)識(shí)信息。國(guó)家標(biāo)準(zhǔn)GB2312-1980《信息交 換用漢字編碼字符集?基本集》只規(guī)定了漢字的編碼,為了中文信息處理技術(shù)發(fā)展的需要, 必須要對(duì)語(yǔ)素、詞、語(yǔ)素的義位、詞的義位等漢語(yǔ)普通話信息進(jìn)行編碼來(lái)拓展中文信息處理 技術(shù)的廣度和深度,本編碼的獨(dú)特性在于另辟曖徑W《漢語(yǔ)拼音方案》為基礎(chǔ),直接用ASCII 碼對(duì)漢語(yǔ)普通話信息進(jìn)行編碼。
[0004] 《新型漢語(yǔ)信息ASCII碼》(申請(qǐng)?zhí)柣驅(qū)@?hào)201510442110.8)是本人2015年7月24 日申請(qǐng)的發(fā)明專(zhuān)利,該申請(qǐng)?jiān)?1卷46期2015年11月18日專(zhuān)利公報(bào)上予W發(fā)布,運(yùn)項(xiàng)專(zhuān)利的 編碼方法存在一些瑕疵,例如對(duì)古漢語(yǔ)詞和方言詞等漢語(yǔ)信息進(jìn)行編碼,沒(méi)有考慮到古漢 語(yǔ)和方言與漢語(yǔ)普通話的巨大差異,還有將外來(lái)詞、非語(yǔ)素漢字等漢語(yǔ)信息單獨(dú)編碼,編碼 方式過(guò)于繁瑣,所W有必要發(fā)明新的、簡(jiǎn)便的編碼方法來(lái)實(shí)現(xiàn)直接用ASCII碼對(duì)漢語(yǔ)普通話 信息進(jìn)行編碼。
[0005] 漢語(yǔ)聲母的編碼
[0006] 《漢語(yǔ)拼音方案》中規(guī)定漢語(yǔ)拼音中有聲母"b"、V'、V'、吁"、"zh"、"ch"、"Sb"等 21個(gè)聲母,本發(fā)明W《漢語(yǔ)拼音方案》的聲母作為聲碼。
[0007] 漢語(yǔ)韻母的編碼
[000引《漢語(yǔ)拼音方案》中規(guī)定漢語(yǔ)拼音中有韻母V'、V'、V'、"i"、V'等35個(gè)韻母,本 發(fā)明W《漢語(yǔ)拼音方案》的韻母作為韻碼,因 ASCII字符集中無(wú) U運(yùn)個(gè)字母的編碼,我的解決 辦法是按照"滬=U:的方式編碼,所W《漢語(yǔ)拼音方案》的4個(gè)韻母"滬、"lie"、"化n"、"to"分 別W "if =U:、"lie" =u:e、"iian" =u:an、"化1" =u:n的方式編碼,其余韻母不作變更,作為韻 碼。
[0009] 漢語(yǔ)聲調(diào)的編碼
[0010] 《漢語(yǔ)拼音方案》中規(guī)定聲調(diào)符號(hào)為:陰平(-)陽(yáng)平(/)上聲(V)去聲(\),聲調(diào)符號(hào) 標(biāo)在音節(jié)的主要母音上,輕聲不標(biāo),漢語(yǔ)聲調(diào)有字母式、數(shù)字式和符號(hào)式3種標(biāo)調(diào)方式,《漢 語(yǔ)拼音方案》采用的是符號(hào)式,符號(hào)式標(biāo)調(diào)的缺點(diǎn)是將聲調(diào)符號(hào)和韻母復(fù)合在一起,增加了 計(jì)算機(jī)處理漢語(yǔ)普通話信息的難度,數(shù)字式標(biāo)調(diào)的缺點(diǎn)是不符合國(guó)際慣例,我的解決辦法 是用5個(gè)拉下字母符號(hào)&、6、'i、6、女分別表示陰平、陽(yáng)平、上聲、去聲、輕聲5個(gè)聲調(diào),聲調(diào) 標(biāo)在韻母之后,因 Ascn字符集中沒(méi)有運(yùn)5個(gè)拉下字母符號(hào),我認(rèn)為調(diào)碼可W用扣a:、6=e:、 'i=i:、5=0:、戶(hù)y:的方式進(jìn)行編碼。
[0011] 漢語(yǔ)普通話常用詞的編碼
[0012] 漢字不是漢語(yǔ)的語(yǔ)言單位,語(yǔ)素、詞和詞組是漢語(yǔ)的語(yǔ)言單位,運(yùn)是一個(gè)語(yǔ)言學(xué)常 識(shí),如果我們不首先將漢語(yǔ)的自身規(guī)律研究清楚,則漢語(yǔ)普通話信息的編碼也就沒(méi)有科學(xué) 性可言。漢語(yǔ)詞、語(yǔ)素和詞組的區(qū)分眾說(shuō)紛運(yùn),呂叔湘先生說(shuō)過(guò),任何對(duì)漢語(yǔ)詞、語(yǔ)素和詞組 的區(qū)分做過(guò)一番思索的人都認(rèn)為運(yùn)是個(gè)很困難的問(wèn)題,我認(rèn)為語(yǔ)素是最小的、有意義的、沒(méi) 有詞性的語(yǔ)言單位,詞是有意義的、有詞性的語(yǔ)言單位,詞組是有意義的、沒(méi)有詞性的、可W 單獨(dú)作為一個(gè)句子成分的語(yǔ)言單位,詞性是詞所獨(dú)有的語(yǔ)法性質(zhì),詞根據(jù)詞性不同而被劃 分為不同的詞類(lèi)。
[0013] 國(guó)家漢辦漢語(yǔ)水平考試部和北京語(yǔ)言學(xué)院漢語(yǔ)水平考試中屯、研制的《漢語(yǔ)水平詞 匯與漢字等級(jí)大綱》收漢語(yǔ)普通話常用詞8822個(gè),《現(xiàn)代漢語(yǔ)詞典》收漢語(yǔ)普通話詞65000多 條,計(jì)算機(jī)必須像人腦一樣優(yōu)先處理常用詞才能提高效率,所W漢語(yǔ)普通話漢語(yǔ)信息的編 碼首先要進(jìn)行常用詞的編碼。在漢語(yǔ)普通話中絕大部分單音節(jié)漢語(yǔ)詞、少部分雙音節(jié)和多 音節(jié)詞都有同音詞,為區(qū)分同音詞,我選定a、e、n、o、u、w、x、z運(yùn)8個(gè)拉下字母作為漢語(yǔ)普通 話常用詞編碼字母,根據(jù)《漢語(yǔ)水平詞匯與漢字等級(jí)大綱》大綱排查,漢語(yǔ)普通話常用詞 "世"的同音詞最多,有7個(gè)同音詞,根據(jù)筆畫(huà)數(shù)多寡和相同筆畫(huà)數(shù)第一筆橫豎撇點(diǎn)折的順序 排列,分別是"市"、"式V'試"、"事V'狐V'是'、"窒',根據(jù)數(shù)學(xué)上的抽屜定理,每個(gè)同音詞 在調(diào)碼后加一個(gè)編碼字母,則不會(huì)重碼,所W漢語(yǔ)普通話常用詞可W按照W下公式編碼:漢 語(yǔ)普通話常用詞的編碼=聲碼+韻碼+調(diào)碼+漢語(yǔ)普通話常用詞編碼字母,漢語(yǔ)普通話常用 詞編碼字母的作用是區(qū)別漢語(yǔ)普通話常用詞的同音詞,如有的漢語(yǔ)普通話常用詞沒(méi)有同音 詞,可省略漢語(yǔ)普通話常用詞編碼字母。
[0014] 漢語(yǔ)普通話非常用詞的編碼
[0015] 漢語(yǔ)普通話非常用詞的編碼可W按照W下公式編碼:漢語(yǔ)普通話非常用詞的編碼 =聲碼+韻碼+調(diào)碼+漢語(yǔ)普通話非常用詞編碼字母,漢語(yǔ)普通話非常用詞編碼字母是aa、 ae、an、ao、au、aw、ax、az等64個(gè)拉下字母組合,漢語(yǔ)普通話非常用詞編碼字母的作用是區(qū)別 漢語(yǔ)普通話非常用詞的同音詞,如有的漢語(yǔ)普通話非常用詞沒(méi)有同音詞可省略漢語(yǔ)普通話 非常用詞編碼字母,如有的漢語(yǔ)普通話非常用詞的同音詞的數(shù)量超過(guò)64個(gè),可W增加 aaa、 aae、aao、aau、aaw、aax、aaz等字母組合作為漢語(yǔ)普通話非常用詞編碼字母。
[0016] 漢語(yǔ)普通話常用詞的義位編碼
[0017] 義位是由語(yǔ)匯形式表示的、獨(dú)立的、概括的、固定的語(yǔ)義單位,語(yǔ)匯形式包括語(yǔ)素、 詞和詞組,英語(yǔ)中使用的是sememe運(yùn)一術(shù)語(yǔ),義位與義項(xiàng)是有區(qū)別又有聯(lián)系的概念,詞典學(xué) 家將用于書(shū)面的、收錄在詞典之中的每個(gè)詞和詞組的每個(gè)義項(xiàng)都開(kāi)列了條目,運(yùn)些義項(xiàng)就 成了語(yǔ)義學(xué)家研究的義位,嚴(yán)格地講義位是屬于語(yǔ)義學(xué)的范疇,義項(xiàng)是屬于詞典學(xué)的范疇, 詞典的編纂可W有不同的編纂原則,如歷史原則、邏輯原則和使用頻率原則,因而在不同的 詞典中義項(xiàng)的排列順序不是固定不變的,本發(fā)明中義位的排序采用歷史原則,使用歷史原 則最大的優(yōu)點(diǎn)是可W保持義位排序的穩(wěn)定,義位歷史原則排序方法是W每個(gè)漢語(yǔ)普通話語(yǔ) 素、詞、詞組的義位在國(guó)家語(yǔ)委現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)中出現(xiàn)的時(shí)間順序來(lái)為每個(gè)義位排序,在語(yǔ) 料庫(kù)中出現(xiàn)時(shí)間早的義位排在前面,在語(yǔ)料庫(kù)中出現(xiàn)時(shí)間晚的義位排在后面,國(guó)家語(yǔ)委現(xiàn) 代漢語(yǔ)語(yǔ)料庫(kù)1991年12月立項(xiàng),1998年底建成,為避免新的語(yǔ)料加入造成義位排序變更,可 W規(guī)定W1998年12月31日為界,在1998年12月31日W后加入的新語(yǔ)料不得影響W前義位的 排序,新語(yǔ)料中的義位必須排在老語(yǔ)料義位的后面。
[0018] 詞大多有2個(gè)或2個(gè)W上的義位,為了中文信息技術(shù)發(fā)展的需要,必須要對(duì)漢語(yǔ)普 通話常用詞的義位進(jìn)行編碼,為區(qū)分漢語(yǔ)普通話中文常用詞不同的義位,我選定b、d、f、h、 i、k、l、t運(yùn)8個(gè)拉下字母+字母S作為漢語(yǔ)普通話常用詞義位的編碼字母,字母S為英語(yǔ)義位 sememe的簡(jiǎn)寫(xiě),為避免拼讀錯(cuò)誤,字母S和聲母之間用:隔開(kāi),有的漢語(yǔ)普通話常用詞(例如: "愛(ài)情")沒(méi)有聲母,則字母S和運(yùn)些詞的韻母之間用:隔開(kāi),如有的漢語(yǔ)普通話常用詞的義位 超過(guò)8個(gè),則采用6、(1^、11、1、^1八8個(gè)拉下字母+33+:來(lái)進(jìn)行編碼,如有的漢語(yǔ)普通話中文 常用詞只有一個(gè)義位,也必須加義位編碼字母b+s+:,因?yàn)槿绮患恿x位編碼字母b+s+:會(huì)造 成詞與詞的義位編碼混淆,所W漢語(yǔ)普通話常用詞的義位編碼可W按照W下公式進(jìn)行:漢 語(yǔ)普通話常用詞的義位編碼=義位編碼字母+S(SS) + :+聲碼+韻碼+調(diào)碼+漢語(yǔ)普通話常用 詞編碼字母。
[0019] 漢語(yǔ)普通話非常用詞的義位編碼
[0020] 漢語(yǔ)普通話非常用詞的義位編碼可W按照W下公式進(jìn)行:漢語(yǔ)普通話非常用詞的 義位編碼=義位編碼字母+S(SS)+:+聲碼+韻碼+調(diào)碼+漢語(yǔ)普通話非常用詞編碼字母,如有 的漢語(yǔ)普通話非常用詞(例如:"愛(ài)斯基摩人")沒(méi)有聲母,則字母S和運(yùn)些詞的韻母之間用: 隔開(kāi),如有的漢語(yǔ)普通話非常用詞的義位超過(guò)8個(gè),則采用6、(1^、11、1、4、1八8個(gè)拉下字母+ SS+:來(lái)進(jìn)行編碼,如有的漢語(yǔ)普通話中文非常用詞只有一個(gè)義位時(shí),也必須加義位編碼字 母b+s+:,因?yàn)槿绮患恿x位編碼字母b+s+:會(huì)造成詞與詞的義位編碼混淆。
[0021] 漢語(yǔ)普通話中文常用語(yǔ)素的編碼
[0022] 語(yǔ)素是最小的、有意義的、沒(méi)有詞性的語(yǔ)言單位,漢字與語(yǔ)素是有區(qū)別又有聯(lián)系的 概念,嚴(yán)格地說(shuō)漢字是屬于文字學(xué)的范疇,語(yǔ)素是屬于語(yǔ)言學(xué)的范疇,1988年國(guó)家語(yǔ)言文字 工作委員會(huì)頒布了《現(xiàn)代漢語(yǔ)常用字表》,在運(yùn)個(gè)字表中1000常用字的覆蓋率為97.97%, 1000次常用詞覆蓋率為1.51%,合計(jì)(3500字)覆蓋率達(dá)到99.48%,因?yàn)槌S谜Z(yǔ)素與常用漢 字存在著高度相關(guān)的關(guān)系,所W我們判斷一個(gè)語(yǔ)素是不是常用語(yǔ)素,可W用在《現(xiàn)代漢語(yǔ)常 用字表》中查找對(duì)應(yīng)漢字的方法來(lái)進(jìn)行,語(yǔ)素在英語(yǔ)中譯為moreme,為了中文信息處理技術(shù) 發(fā)展的需要,必須要對(duì)漢語(yǔ)普通話常用語(yǔ)素進(jìn)行編碼,漢語(yǔ)普通話常用語(yǔ)素的編碼可W按 照W下公式進(jìn)行:漢語(yǔ)普通話常用語(yǔ)素的編碼=聲碼+韻碼+調(diào)碼+m(mm)+漢語(yǔ)普通話常用 詞編碼字母,如有的同音的漢語(yǔ)普通話常用語(yǔ)素超過(guò)8個(gè),則采用mm+漢語(yǔ)普通話常用詞編 碼字母來(lái)進(jìn)行編碼,如有的漢語(yǔ)普通話常用語(yǔ)素沒(méi)有同音語(yǔ)素,也必須加 m+漢語(yǔ)普通話常 用詞編碼字母a來(lái)進(jìn)行編碼,因?yàn)槿绮患?m+漢語(yǔ)普通話常用詞編碼字母a來(lái)進(jìn)行編碼,則會(huì) 造成詞與語(yǔ)素的編碼混淆。
[0023] 漢語(yǔ)普通話非常用語(yǔ)素的編碼
[0024] 漢語(yǔ)普通話非常用語(yǔ)素的編碼可W按照W下公式編碼:漢語(yǔ)普通話非常用語(yǔ)素的 編碼=聲碼+韻碼+調(diào)碼+m+漢語(yǔ)普通話非常用詞編碼字母,如有的漢語(yǔ)普通話非常用語(yǔ)素 沒(méi)有同音語(yǔ)素,也必須加 m+漢語(yǔ)普通話非常用詞編碼字母aa來(lái)進(jìn)行編碼,因?yàn)槿绮患?m+漢 語(yǔ)普通話非常用詞編碼字母aa來(lái)進(jìn)行編碼,則會(huì)造成詞與語(yǔ)素的編碼混淆。
[0025] 漢語(yǔ)普通話常用語(yǔ)素的義位編碼
[0026] 語(yǔ)素雖然是最小的、有意義的、無(wú)詞性的語(yǔ)言單位,但是很多漢語(yǔ)語(yǔ)素還是有多個(gè) 義位,例如漢語(yǔ)常用語(yǔ)素"高"的義位有:1、敬辭,稱(chēng)贊別人的事務(wù),如:高見(jiàn)、高論,2、表示酸 根或化合物中比標(biāo)準(zhǔn)酸根多含一個(gè)氧原子的,如:高儘酸鐘,所W為了中文信息處理技術(shù)發(fā) 展的需要,必須要對(duì)漢語(yǔ)普通話常用語(yǔ)素的義位進(jìn)行編碼,漢語(yǔ)普通話常用語(yǔ)素的義位編 碼可W按照W下公式進(jìn)行:漢語(yǔ)普通話常用語(yǔ)素的義位編碼=義位編碼字母+S(SS) + :+聲 碼+韻碼+調(diào)碼+m(mm)+漢語(yǔ)普通話常用詞編碼字母,如有的常用語(yǔ)素(例如:"愛(ài)")沒(méi)有聲 母,則字母S和運(yùn)些語(yǔ)素的韻母之間用:隔開(kāi),如有的漢語(yǔ)普通話常用語(yǔ)素的義位超過(guò)8個(gè), 則采用6、(1^、11、1、以1八8個(gè)拉下字母+33+:來(lái)進(jìn)行編碼,如有的漢語(yǔ)普通話常用語(yǔ)素只有 一個(gè)義位,也必須加義位編碼字母b+s+:,因?yàn)槿绮患恿x位編碼字母b+s+:,則會(huì)造成語(yǔ)素的 義位與語(yǔ)素編碼混淆。
[0027] 漢語(yǔ)普通話非常用語(yǔ)素的義位的編碼
[0028] 漢語(yǔ)普通話非常用語(yǔ)素的義位的編碼可W按照W下公式進(jìn)行:漢語(yǔ)普通話非常用 語(yǔ)素的義位的編碼=義位編碼字母+S(SS) + :+聲碼+韻碼+調(diào)碼+m(mm)漢語(yǔ)普通話非常用詞 編碼字母,如有的漢語(yǔ)普通話非常用語(yǔ)素(例如:"扱")沒(méi)有聲母,則字母S和運(yùn)些語(yǔ)素的韻 母之間用:隔開(kāi),如有的漢語(yǔ)普通話非常用語(yǔ)素的義位超過(guò)8個(gè),則采用6、(1^、11、1、^1八8 個(gè)拉下字母+SS+:來(lái)進(jìn)行編碼,如有的漢語(yǔ)普通話中文非常用語(yǔ)素只有一個(gè)義位,也必須加 義位編碼字母b+s+:,因?yàn)槿绮患恿x位編碼字母b+s+:,則會(huì)造成語(yǔ)素的義位與語(yǔ)素的編碼 混淆。
[0029] 漢語(yǔ)普通話常用漢字的編碼
[0030] 為了建立漢語(yǔ)普通話中漢字與語(yǔ)素、詞等中文信息單位的聯(lián)系,所W有必要對(duì)漢 語(yǔ)普通話中的漢字進(jìn)行編碼,除個(gè)別特殊的漢字外(例如漢字"曖"沒(méi)有同音字),一般每個(gè) 漢字都有數(shù)量不等的同音字,我的解決方案是:首先將漢語(yǔ)普通話中常用漢字的同音字按 照筆畫(huà)數(shù)多寡和相同筆畫(huà)數(shù)第一筆橫豎撇點(diǎn)折的順序排列,W字母C+漢語(yǔ)普通話常用漢字 編碼字母來(lái)區(qū)別同音的漢語(yǔ)普通話常用漢字,漢語(yǔ)普通話常用漢字編碼字母由a、e、n、o、u、 w、x、Z運(yùn)8個(gè)拉下字母構(gòu)成,選擇字母C是因?yàn)闈h字在英語(yǔ)中是用Chinese character運(yùn)個(gè)詞 組來(lái)表示的,所W漢語(yǔ)普通話常用漢字的編碼可W按照W下公式進(jìn)行:漢語(yǔ)普通話中常用 漢字的編碼=聲碼+韻碼+調(diào)碼+C(CC)+漢語(yǔ)普通話常用漢字編碼字母,如有的漢語(yǔ)普通話 常用漢字的同音字超過(guò)8個(gè),則增加 cea、cce、ccn、CCO、CCU、CCW、CCX等拉下字母組合作為漢 語(yǔ)普通中常用漢字編碼字母,如有的漢語(yǔ)普通話常用漢字沒(méi)有同音字,也不可W省略C+漢 語(yǔ)普通話常用漢字編碼字母日,必須加因?yàn)镃+漢語(yǔ)普通話常用漢字編碼字母日,如省略C+漢 語(yǔ)普通話常用漢字編碼字母a,會(huì)造成詞與字的編碼混淆。
[0031 ]漢語(yǔ)普通話中非常用漢字的編碼
[0032]漢語(yǔ)普通話中非常用漢字的編碼=聲碼+韻碼+調(diào)碼+C+漢語(yǔ)普通話中非常用漢字 編碼字母,如有的漢語(yǔ)普通話非常用漢字沒(méi)有同音字,也不可W省略C+漢語(yǔ)普通話非常用 漢字編碼字母aa,必須加 C+漢語(yǔ)普通話非常用漢字編碼字母aa,如省略C+漢語(yǔ)普通話非常 用漢字編碼字母aa,會(huì)造成詞與字的編碼混淆。
[0033] 漢語(yǔ)普通話詞典中詞組的編碼
[0034] 在漢語(yǔ)普通話中有一些詞匯是收錄在詞典(包括電子詞典)中的詞組,運(yùn)些詞組都 有比較固定的用法和涵義,因而可W作為一個(gè)信息單位來(lái)處理,我的解決方案是使用符號(hào) "0"來(lái)提醒計(jì)算機(jī),將括號(hào)內(nèi)的中文信息作為一個(gè)信息單位來(lái)處理,所W漢語(yǔ)普通話詞典 中詞組的編碼可W按照W下公式進(jìn)行:漢語(yǔ)普通話詞典中的詞組的編碼=(詞組的漢語(yǔ)拼 音編碼字母),詞組的漢語(yǔ)拼音編碼要按照國(guó)家語(yǔ)委頒布的《漢語(yǔ)拼音正詞法基本規(guī)則》的 規(guī)定按詞分拆編碼,如不能全部拆分為詞的,可W拆分至語(yǔ)素甚至字母、符號(hào),然后再進(jìn)行 編碼,例如:詞組(B族維生素)可拆分為字母(B)、語(yǔ)素(族)和詞(維生素)運(yùn)3個(gè)中文信息單 位,然后再按照編碼公式進(jìn)行編碼。
[0035] 漢語(yǔ)普通話詞典中詞組的義位的編碼
[0036] 在漢語(yǔ)普通話中,有一些收錄在詞典(包括電子詞典)中的詞組有多個(gè)義位,例如 "拼音字母"運(yùn)個(gè)詞組有2個(gè)義位,1、拼音文字所用的字母,2、指《漢語(yǔ)拼音方案》采用的為漢 字注音的二十六個(gè)拉下字母,漢語(yǔ)普通話詞典中的詞組的義位的編碼可W按照W下公式進(jìn) 行:漢語(yǔ)普通話詞典中的詞組的義位的編碼=義位編碼字母+S(SS)+:+(詞組的漢語(yǔ)拼音編 碼字母),義位編碼字母我選擇用g、j、P、q、y 5個(gè)拉下字母作為義位編碼字母,如詞組的義 位超過(guò)5個(gè),則采用義位編碼字母+SS+:來(lái)進(jìn)行編碼。
[0037] 漢語(yǔ)普通話自由詞組的編碼
[0038] 漢語(yǔ)普通話自由詞組的編碼必須根據(jù)國(guó)家語(yǔ)委頒布的《漢語(yǔ)拼音正詞法基本規(guī) 貝1J》的規(guī)定,首先將自由詞組拆分為詞,再W詞為單位進(jìn)行編碼,如不能全部拆分為詞的,可 W拆分至語(yǔ)素甚至字母、符號(hào),然后再進(jìn)行編碼,例如:自由詞組(語(yǔ)素"中"和語(yǔ)素"國(guó)")可 拆分為詞(語(yǔ)素)、標(biāo)點(diǎn)符號(hào)(")、語(yǔ)素(中)、標(biāo)點(diǎn)符號(hào)(")、詞(和)、詞(語(yǔ)素)、標(biāo)點(diǎn)符號(hào)(")、 語(yǔ)素(國(guó))標(biāo)點(diǎn)符號(hào)r)運(yùn)9個(gè)中文信息編碼單位,然后再按照編碼公式編碼。 (四)【具體實(shí)施方式】
[0039] -、例如:漢語(yǔ)普通話中"終端"運(yùn)個(gè)常用詞從文字學(xué)的角度看是由"終"和:"端"兩 個(gè)漢字構(gòu)成的,從語(yǔ)言學(xué)的角度看是由"終"和"端"兩個(gè)語(yǔ)素構(gòu)成的,從語(yǔ)義學(xué)的角度看是 由1、狹長(zhǎng)東西的頭2、終端設(shè)備的簡(jiǎn)稱(chēng)二個(gè)義位構(gòu)成的,根據(jù)上述編碼公式我們可W得到W 下編碼,并建立各編碼之間的聯(lián)系,從而將漢語(yǔ)普通話中漢字編碼、詞的編碼、語(yǔ)素的編碼 等漢語(yǔ)普通話信息編碼連成一個(gè)編碼體系,從而拓展了中文信息編碼的廣度和深度: zhonga:duana:= zhonga:cn+duana:ca = zhonga:mn+duan:ma = bs:zhonga:duana:+ds: zhong曰:du曰n曰:O
[0040] 二、例如:漢語(yǔ)普通話中共有"高"、"膏"、"富"、"黑"、"糕"5個(gè)常用語(yǔ)素,我們可W 按照漢語(yǔ)普通話常用語(yǔ)素的編碼公式進(jìn)行編碼,分別得到高(gaoa:ma)、膏(gaoa:me)、富 (gaoa: mn)、黑(gaoa: mo)、糕(gaoa:mu)運(yùn)些編碼,"高"的義位有:1、敬辭,稱(chēng)贊別人的事務(wù), 如:高見(jiàn)、高論,2、表示酸根或化合物中比標(biāo)準(zhǔn)酸根多含一個(gè)氧原子的,如:高儘酸鐘,我們 可W按照漢語(yǔ)普通話常用語(yǔ)素的義位的編碼公式編碼得到W下編碼,并建立各編碼之間的 聯(lián)系:gaoa: ma = bs: gaoa: ma+ds: gaoa: ma,通過(guò)對(duì)漢語(yǔ)普通話語(yǔ)素的義位進(jìn)行編碼,我們就 可W將漢語(yǔ)普通話信息的編碼體系推進(jìn)到語(yǔ)素的義位運(yùn)一級(jí)中文信息單位,從而拓展了中 文信息編碼的廣度和深度。
[0041] =、例如:"拼音字母"運(yùn)個(gè)詞組有2個(gè)義位,1、拼音文字所用的字母,2、指《漢語(yǔ)拼 音方案》采用的為漢字注音的二十六個(gè)拉下字母,我們可W按照漢語(yǔ)普通話詞典中的詞組 的義位編碼公式進(jìn)行編碼,得到W下編碼并建立編碼之間的聯(lián)系:(pina:yina:wene:zio:) =邑S: (pina:yina:wene:zio: )+js: (pina:yina:wene:zio:)通過(guò)對(duì)漢語(yǔ)普通話詞典中的詞 組的義位進(jìn)行編碼,我們就可W將漢語(yǔ)普通話信息的編碼體系推進(jìn)到詞組的義位運(yùn)一級(jí)中 文信息單位,從而拓展了中文信息編碼的廣度和深度。
[0042] 我們將按照上述編碼公式得到的編碼,對(duì)照Ascn字符集,就可W將運(yùn)些編碼轉(zhuǎn)換 為計(jì)算機(jī)可W進(jìn)行信息處理的二進(jìn)制編碼,而按照國(guó)家標(biāo)準(zhǔn)GB2312-1980《信息交換用漢字 編碼字符集?基本集》只能對(duì)漢字進(jìn)行編碼,而不能對(duì)語(yǔ)素、詞、語(yǔ)素的義位、詞的義位等漢 語(yǔ)普通話信息進(jìn)行編碼,所W本發(fā)明拓展了中文信息處理技術(shù)的廣度和深度,為今后漢語(yǔ) 自然語(yǔ)言理解軟件和中文信息處理軟件的開(kāi)發(fā)提供了一個(gè)更好的平臺(tái),達(dá)到了一個(gè)全新的 境界。
【主權(quán)項(xiàng)】
1.本發(fā)明是一種漢語(yǔ)普通話信息編碼技術(shù)方案,屬于中文信息處理領(lǐng)域,其特征是:用 26個(gè)拉丁字母和一個(gè)標(biāo)點(diǎn)符號(hào)(:)對(duì)語(yǔ)素 、詞、詞組等漢語(yǔ)普通話信息進(jìn)行ASCII編碼,從而 拓展了中文信息處理技術(shù)的廣度和深度,為今后中文信息處理和漢語(yǔ)自然語(yǔ)言理解軟件的 開(kāi)發(fā)提供了一個(gè)更好的平臺(tái),達(dá)到了一個(gè)全新的境界。
【文檔編號(hào)】G06F17/22GK105955936SQ201610239869
【公開(kāi)日】2016年9月21日
【申請(qǐng)日】2016年4月18日
【發(fā)明人】王欣
【申請(qǐng)人】王欣