国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于中文漢字和日文漢字的映射方法及其應(yīng)用的制作方法

      文檔序號(hào):6466984閱讀:234來(lái)源:國(guó)知局
      專利名稱:一種基于中文漢字和日文漢字的映射方法及其應(yīng)用的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及通訊技術(shù)領(lǐng)域的文字轉(zhuǎn)化技術(shù),尤其一種基于中文漢字和日文 漢字的映射方法及該方法在手機(jī)短信交流中應(yīng)用。
      背景技術(shù)
      中國(guó)和日本兩國(guó)一衣帶水,有悠久的交流歷史。隨著兩國(guó)關(guān)系回暖,來(lái)往
      于兩國(guó)的人員也迅速增長(zhǎng),從2005年至2007年,兩國(guó)的旅游從404萬(wàn)人次至 突破500萬(wàn)人次。在日本的中國(guó)工作人員、留學(xué)生、實(shí)習(xí)生、長(zhǎng)期居住的人員 共有100萬(wàn)以上(《日本外務(wù)省白皮書(shū)2007》);根據(jù)日本外務(wù)省的統(tǒng)計(jì)資料,2006 年常住中國(guó)的日本人已經(jīng)超過(guò)11萬(wàn)。這些人伴隨著兩國(guó)間的探親和商務(wù)往來(lái)。 同時(shí)隨著兩國(guó)人民思想的開(kāi)放,跨國(guó)婚姻交流的數(shù)量也明顯增加。以上各種情 況極大的帶動(dòng)了兩國(guó)人員間的交流需求。
      短信是最常用的手機(jī)服務(wù)之一,其快速、價(jià)廉、方便等特點(diǎn),深受中國(guó)和 曰本兩國(guó)人民的喜愛(ài)。2000年至2007年,我國(guó)短信業(yè)務(wù)量分別為10億、189 億、900億、1371億、2177億、3046億、4296億、5921億,2007年短信日均 發(fā)送17億。而日本85%的人擁有手機(jī),其短信使用量占全球之首。溝通中國(guó)和 日本的手機(jī)短信,能給兩國(guó)的交流提供更加方便的途徑。
      而平常短信的運(yùn)行流程為發(fā)送方編寫(xiě)短信內(nèi)容向目的地號(hào)碼處提交,經(jīng)基 站轉(zhuǎn)送到運(yùn)營(yíng)商的短信息業(yè)務(wù)中心(SMSC),短信息業(yè)務(wù)中心再根據(jù)短信的目 的地號(hào)碼進(jìn)行派發(fā),最終發(fā)送給接收者進(jìn)行解碼,得到短信內(nèi)容。該過(guò)程只是 對(duì)信息進(jìn)行轉(zhuǎn)發(fā),并不對(duì)通訊內(nèi)容進(jìn)行處理,這適用于同一國(guó)家內(nèi)進(jìn)行的交流, 能有效的保護(hù)通訊自由和通訊隱私。但是當(dāng)進(jìn)行跨國(guó)短信進(jìn)行時(shí),由于兩國(guó)的 運(yùn)營(yíng)商和手機(jī)優(yōu)先支持和處理本國(guó)文字,而對(duì)他國(guó)文字支持不充分,如果依舊 按照同一國(guó)家內(nèi)的短信運(yùn)行流程傳送短信,容易使接收者得到的短信殘缺或完 全無(wú)法顯示,無(wú)法獲取短信所表達(dá)的意思,使本次短信交流失效,并給接收者 帶來(lái)困惑。不僅在本國(guó)的手機(jī)上無(wú)法顯示對(duì)方的文字,而且也無(wú)法在本國(guó)的手 機(jī)上編寫(xiě)對(duì)方國(guó)家的文字。通常在中文手機(jī)上無(wú)法輸入日文,相同地在日文手機(jī)上也無(wú)法輸入中文。
      鑒于此問(wèn)題困擾了兩國(guó)的文字交流,各種社會(huì)團(tuán)體都在想方設(shè)法解決或減 少這種情況的發(fā)生,產(chǎn)生了多種方法。主要有翻譯、拼音法、拆字法等。上 述方法值得借鑒,但都存在不足
      跨國(guó)短信交流其基本的要求是短信能快速的被傳遞、能被成功的接收、能 讓對(duì)方讀懂內(nèi)容。讓對(duì)方讀懂短信內(nèi)容,并不是指對(duì)方接收到的短信文字必須 與發(fā)送方發(fā)出的短信文字完全相同,而是可以把短信轉(zhuǎn)化成其他適合的形式, 讓對(duì)方通過(guò)這種形式理解短信內(nèi)容的含義。只有把本國(guó)文字轉(zhuǎn)化成對(duì)方國(guó)家的 文字,即把中文轉(zhuǎn)化成日文中存在的文字或把日文轉(zhuǎn)化成中文中存在的文字, 該本問(wèn)題就能得到緩解。
      翻譯常被用于跨國(guó)交流。由于其是把一國(guó)文字按照文字的含義轉(zhuǎn)換成另一 國(guó)文字,期間已經(jīng)實(shí)現(xiàn)了文字的轉(zhuǎn)化,于是避免了在接收方手機(jī)中顯示原文方 文字亂碼的問(wèn)題。由于現(xiàn)有機(jī)器翻譯工具的翻譯準(zhǔn)確率不高,目前并未獲取廣 泛的應(yīng)用。常用的機(jī)器翻譯工具不過(guò)是一本自動(dòng)的大詞典,只是簡(jiǎn)單的對(duì)文字
      逐個(gè)翻譯,然后按順序拼接成文章。而目前能用到的最先進(jìn)的翻譯工具Google
      翻譯,需要先存儲(chǔ)數(shù)十億字詞的文字內(nèi)容,然后應(yīng)用統(tǒng)計(jì)學(xué)的學(xué)習(xí)技術(shù)構(gòu)建翻 譯模型,其翻譯質(zhì)量也無(wú)法達(dá)到一個(gè)人講母語(yǔ)時(shí)的流利程度,也無(wú)法與專業(yè)譯
      員的技能相媲美(《Google翻譯常見(jiàn)問(wèn)題解答》)。當(dāng)前翻譯工作大多由人工完成。
      但是翻譯工作人員無(wú)法充分了解溝通雙方的語(yǔ)境,易受工作情緒的影響,無(wú)法 保證翻譯結(jié)果的準(zhǔn)確度和可靠性。另外人工翻譯需要接觸交流雙方的原文,交 流雙方的隱私無(wú)法得到保障。上述原因也使的人工翻譯未在短信交流上開(kāi)展。
      由于現(xiàn)有的手機(jī)和運(yùn)營(yíng)商都支持字母和數(shù)字字符,拼音法(中文漢字的羅 馬拼音和日文漢字的羅馬拼音)能很快的解決兩國(guó)交流中的亂碼問(wèn)題,不需要 經(jīng)過(guò)文字轉(zhuǎn)換,這是解決亂碼問(wèn)題最容易想到的方法。由于拼音和文字的映射 具有一音多字的問(wèn)題,某些常用字的一音多字現(xiàn)象會(huì)給文章的正確理解帶來(lái)嚴(yán)
      重的干擾,比如中文中拼音為"shanxi",就對(duì)應(yīng)"山西"和"陜西"兩個(gè)詞組, 日文中拼音為"kenkou",就對(duì)應(yīng)"健康","建工","兼行"等8個(gè)詞組,所以 采用拼音法,需要根據(jù)上下文意思來(lái)判斷目前該拼音指代哪個(gè)漢字,而更可怕 的是,提供依據(jù)的上下文也存在選擇漢字的問(wèn)題。所以使用拼音法書(shū)寫(xiě)的語(yǔ)句, 容易被誤解,準(zhǔn)確率偏低。
      針對(duì)拼音一音多字的問(wèn)題(主要存在于中文漢字拼音中),人們對(duì)拼音法進(jìn) 行改進(jìn),出現(xiàn)注調(diào)拼音法,就是在拼音字母用添加數(shù)字表示聲調(diào),"0"表示輕 聲,"1"表示陰平,"2"表示陽(yáng)平,"3"表示上聲,"4"表示去聲,如"ni"、"nT"、 "m'"、 "n〖"、"ni"可以表示為"niO"、 "nil"、 "ni2"、 "ni3"、 "ni4",使 用注調(diào)拼音法能降低一音多字的概率,但不能完全避免。再用"ni"的注調(diào)表示
      "ni2"為例,就至少對(duì)應(yīng)"泥"、"倪"、"霓"等字。
      由于中文拼音存在前鼻音、后鼻音,日文拼音存在清音、濁音,容易導(dǎo)致 在書(shū)寫(xiě)時(shí),遺漏或增加了不該存在的字符,如中文中"shanliang"(善良),容易 被寫(xiě)出"shangliang";日文中"kakkou"(恰好),容易被寫(xiě)出"kakou"(加工)。 另外由于中國(guó)南北在發(fā)音上的區(qū)別,"N", "H",就容易被讀成"L", "F", 影響信息的書(shū)寫(xiě)和識(shí)別,如"wozaihuzhoudengni"(我在湖州等你),被寫(xiě)成
      "wozaifiizhoudengni"(我在福州等標(biāo)),差之毫厘,謬以千里。
      由于拼音是一種書(shū)寫(xiě)讀音的體系,通常只用于漢字的學(xué)習(xí),無(wú)法取代漢字 使用。完全用拼音寫(xiě)出來(lái)的文章很難懂。它不是一種正式的書(shū)寫(xiě)方式,而只是 一種閱讀的幫助。
      拼音由字母組成,多數(shù)漢字的拼音需要3個(gè)或以上字母組成,占用空間比 二字節(jié)漢字多,導(dǎo)致在有限空間內(nèi)傳達(dá)的信息量比漢字少。
      而另外的方法是采用拆字法,就是把一些無(wú)法在對(duì)方字庫(kù)中顯示的漢字進(jìn) 行拆分,能以最簡(jiǎn)單的字根組合形式顯示在對(duì)方的字庫(kù)中。如中文的"你"字, 按照此方法,被拆分為'M "、"爾"。此方法適用于左右結(jié)構(gòu)的漢字,而對(duì)于上 下結(jié)構(gòu)、半包圍結(jié)構(gòu)、全包圍結(jié)構(gòu)和復(fù)合結(jié)構(gòu)的漢字,這種拆分方式難以讓人 直觀的識(shí)別拆分前的字。這種方法是對(duì)文字的破壞,是為了漢字而漢字的拼湊 方法。
      使用漢字交流是中國(guó)人民和日本人民的生活習(xí)慣,具有優(yōu)先的認(rèn)同感,是 寫(xiě)書(shū)和閱讀首選。漢字屬于表意文字書(shū)寫(xiě)系統(tǒng)的詞素音節(jié)文字,以字表意是其 重要的特點(diǎn)之一。具有漢字儲(chǔ)備的人更喜歡使用漢字來(lái)傳達(dá)信息。在閱讀一篇 文章時(shí),通過(guò)閱讀漢字,能直接得到字面意思,而不需要像閱讀拼音一樣,需 要經(jīng)過(guò)二次轉(zhuǎn)換,增加獲取信息的花費(fèi)長(zhǎng)度。實(shí)踐證明,使用漢字比使用拼音 更能正確的傳達(dá)所要表示的含義,漢字的識(shí)別率比拼音高。
      觀察中國(guó)常用的漢字(屬于GB2312字符集,GB2312字符集全稱《信息交 換用漢字編碼字符集 基本集》,是一個(gè)中國(guó)大陸簡(jiǎn)體字國(guó)家標(biāo)準(zhǔn))和日本常用 的漢字(屬于Shift—JIS字符集,Shift一JIS字符集是日本一個(gè)常用的文字編碼集), 首先可以發(fā)現(xiàn)其中的許多漢字是在字形上是相同或相似的,其次一些漢字在字 形上可以用中國(guó)的繁體字進(jìn)行對(duì)應(yīng),對(duì)應(yīng)于UNICODE碼,剩余漢字就存在明 顯區(qū)別,需要其他的方式進(jìn)行關(guān)聯(lián)。就此可以對(duì)這些漢字進(jìn)行整理,建立中文 漢字和日文漢字的映射表。然后使用映射表從事兩國(guó)文字的映射。從GB2312中文映射為Shift—JIS日文或從Shift—JIS日文映射為GB2312中文。

      發(fā)明內(nèi)容
      本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)的不足,提供一種基于中文漢字和日文漢字 的映射方法及其應(yīng)用。
      本發(fā)明的目的是通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)的 一種基于中文漢字和日文漢 字的映射方法,該方法首先生成映射表,然后根據(jù)映射表進(jìn)行中文漢字和曰文
      漢字的相互映射。其中,所述映射表通過(guò)以下步驟來(lái)生成
      (1) 獲取并整理GB2312字庫(kù)和ShiftjIS字庫(kù);
      (2) 進(jìn)行字形相同映射;
      (3) 進(jìn)行UNICODE碼映射;
      (4) 進(jìn)行字形相似映射;
      (5) 進(jìn)行讀音映射。
      進(jìn)一步地,所述步驟(2)具體為按照字形相同的條件,比照GB2312和 Shift—JIS字庫(kù)文本文件中的GB2312字和Shift—JIS字列,以GB2312文本文件 的GB2312字為參照物,用Shift一JIS文本文件的Shift—JIS字來(lái)匹配GB2312文 本文件中的漢字,使用窮舉法,把雙方字庫(kù)表中的漢字字形逐個(gè)比對(duì),當(dāng)出現(xiàn) 字形相同的比對(duì)時(shí),提取本對(duì)映射,放入映射表。剩余的中文漢字重新歸檔為 中文字庫(kù)表GB2312-A文本文件。
      進(jìn)一步地,所述步驟(3)具體為把中文字庫(kù)表GB2312-A文本文件的 GB2312字列中的漢字和日文字庫(kù)表Shift—JIS文本文件的Shift—JIS字列中漢字 進(jìn)行比較,當(dāng)條件符合時(shí),提取本對(duì)映射,合并入字形相同過(guò)程生成的映射表 中。剩余的中文漢字重新歸檔為中文字庫(kù)表GB2312-B文本文件。
      進(jìn)一步地,所述步驟(4)具體為先提取需要映射的GB2312-B文本文件 中的GB2312字列中的漢字,分析漢字部首組成和筆畫(huà)順序,給漢字打分,確定 漢字的分值,再?gòu)腟hift—JIS文本文件的ShiftjIS字列中尋找通過(guò)相同方法得到 的分值相近的漢字,當(dāng)?shù)玫降暮蜻x漢字個(gè)數(shù)大于1個(gè)時(shí),選擇最合適的比對(duì), 加入到映射表。剩余的中文漢字重新歸檔為中文字庫(kù)表GB2312-C文本文件。
      進(jìn)一步地,所述步驟(5)具體為提取需要映射的GB2312-C文本文件中 的GB2312字列中的漢字,獲取漢字讀音,當(dāng)該字為多音字時(shí),選擇最為常用的 讀音,然后從Shift—JIS文本文件的ShiftjIS字列中尋找通過(guò)相同方法得到的讀 音相同或相似的漢字,當(dāng)?shù)玫降暮蜻x漢字個(gè)數(shù)大于1時(shí),從候選漢字中選擇最合適的比對(duì),最終加入映射表。
      上述基于中文漢字和日文漢字的映射方法在手機(jī)短信交流中的應(yīng)用。具體 為發(fā)送方編寫(xiě)短信內(nèi)容和目的地號(hào)碼,經(jīng)基站轉(zhuǎn)送到運(yùn)營(yíng)商的短信息業(yè)務(wù)中 心,短信息業(yè)務(wù)中心把短信派發(fā)到映射表處,映射表處獲取短信的內(nèi)容和目的 地號(hào)碼,對(duì)短信內(nèi)容運(yùn)用映射表進(jìn)行映射,得到經(jīng)過(guò)映射的目標(biāo)短信內(nèi)容,然 后把目標(biāo)短信內(nèi)容向目的地號(hào)碼處提交。
      本發(fā)明與背景技術(shù)相比,具有的有益效果是
      基于中文漢字和日文漢字的映射方法,揭示了中日漢字的固有關(guān)系中文 漢字和日文漢字起源于中國(guó)古漢字,在字形和字義上共通。中國(guó)和日本同屬于 漢字文化圈,在思考方式和使用習(xí)慣上存在相似性,都適應(yīng)和喜歡書(shū)寫(xiě)和閱讀 漢字。
      雖然中文和日文漢字起源相同,但由于各自的漢字演化過(guò)程和程度不同, 存在某些漢字無(wú)法直接映射。為避免短信交流中出現(xiàn)文字缺失,對(duì)這些漢字采 用特殊方式,當(dāng)成"通假字"處理。實(shí)際生活中偶爾在文章中出現(xiàn)"通假字", 交流雙方能根據(jù)語(yǔ)法習(xí)慣、社會(huì)常識(shí)和交流場(chǎng)景判斷出這個(gè)"通假字"的原型, 而此判斷的準(zhǔn)確率高于拼音書(shū)寫(xiě)的文章。
      本發(fā)明不同于翻譯過(guò)程,不對(duì)短信內(nèi)容所體現(xiàn)的含義進(jìn)行解析,而僅對(duì)短 信文字進(jìn)行一一映射。其過(guò)程完全能由程序?qū)崿F(xiàn),避免了人工參與,有效的保 護(hù)用戶通信的隱私。
      依本方法建立的映射表漢字全、條數(shù)多??梢圆捎冒延成浔韺?dǎo)入內(nèi)存,在 內(nèi)存中進(jìn)行映射計(jì)算。同時(shí)可以運(yùn)行在對(duì)稱多處理(SMP)技術(shù)的硬件平臺(tái)上, 采用并行映射,提高映射速度。


      圖1是基于中文漢字和日文漢字的映射方法的流程圖; 圖2是進(jìn)行字形相同映射框圖3是進(jìn)行UNICODE碼映射框圖; 圖4是進(jìn)行字形相近映射框圖; 圖5是進(jìn)行發(fā)音相近映射框圖6是中文漢字通過(guò)映射表映射為日文漢字示意圖; 圖7是日文漢字通過(guò)映射表映射為中文漢字示意圖。
      具體實(shí)施例方式
      下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步說(shuō)明。
      如圖l所示,本發(fā)明的基于中文漢字和日文漢字的映射方法分成兩個(gè)步驟: 一、生成映射表,二、根據(jù)映射表進(jìn)行中文漢字和日文漢字的相互映射。
      基于中文漢字和日文漢字的映射方法的映射表建立過(guò)程,包括以下步驟
      1. 獲取并整理GB2312字庫(kù)和Shift—JIS字庫(kù);
      2. 進(jìn)行字形相同映射;
      3 .進(jìn)行UNICODE碼映射; 、
      4. 進(jìn)行字形相似映射;
      5. 進(jìn)行讀音映射。
      以從中文漢字映射到日文漢字為例。以中文漢字為參照物,使用日文漢字 滿足對(duì)參照物進(jìn)行比對(duì)。
      從Internet上獲取中文GB2312編碼表,把編碼表中以區(qū)塊形式的對(duì)應(yīng)改造 成編碼對(duì),每一編碼對(duì)由一個(gè)GB2312編碼、分隔符和與該編碼對(duì)應(yīng)的一個(gè)字符 組成,如C9A1傘、B8F1格。從Unicode的官方網(wǎng)站獲取CP936.txt (CP936 為 GB2312 的編碼頁(yè)別名 ,
      http:〃www.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/cp93 6.txt),其組織格式為列1為CP936編碼(16進(jìn)制,0xXXXX),列2為Unicode 編碼(16進(jìn)制,0xYYYY),列3為Unicode對(duì)應(yīng)的名稱或字符。以GB2312表 中的GB2312編碼和Unicode表CP936中的CP936編碼為連接,得到含有 UNICODE碼的GB2312的字庫(kù)表,存放于文本文件中,命名為GB2312。其格 式為Unicode碼、GB2312碼、GB2312字,以分隔符分害ij。如其中兩列"4FlE C9A1 傘"和"683CB8F1格"(不含雙引號(hào))。此排列約有8000項(xiàng),加入部分不屬于 GB2312表,但屬于GBK表的常用中文漢字后,約有8995項(xiàng)。
      從Internet上獲取日文Shift—JIS編碼表,把編碼表中以區(qū)塊形式的對(duì)應(yīng)改造 成編碼對(duì),每一編碼對(duì)由一個(gè)Shift—JIS編碼、分隔符和與該編碼對(duì)應(yīng)的一個(gè)字 符組成,如8948羽、90B3正。從Unicode的官方網(wǎng)站獲取CP932.txt (CP932 為 Shift—JIS 的編碼頁(yè)別名 ,
      http:〃www.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/cp93 2.txt),其組織格式為歹U 1為CP932編碼(16進(jìn)帝lj, 0xXXXX),列2為Unicode 編碼(16進(jìn)制,0xYYYY),列3為Unicode對(duì)應(yīng)的名稱或字符。以Shift一JIS表 中的ShiftjIS編碼和Unicode表CP932中的CP932編碼為連接,得到含有UNICODE碼的Shift—JIS的字庫(kù)表,存放于文本文件中,命名為Shift一JIS。其 格式為Unicode碼、Shift—JIS碼、Shift—JIS字,以分隔符分割。如其中兩列"7FBD 8948羽"和"6B63 90B3正"(不含雙引號(hào))。此排列約有9000項(xiàng),加入部分 不屬于Shift—JIS表,但屬于JIS表的常用日文漢字后,約有9397項(xiàng)。
      首先對(duì)條數(shù)最多,且最方便的部分,即字形相同部分進(jìn)行映射,如圖2所 示。按照字形相同的條件,比照GB2312和Shift一JIS文本文件中的GB2312字 和Shift一JIS字列,以GB2312文本文件的GB2312字為參照物,用Shift—JIS文 本文件的Shift—JIS字來(lái)匹配GB2312文本文件中的漢字,使用窮舉法,把雙方 字庫(kù)表中的漢字字形逐個(gè)比對(duì),當(dāng)出現(xiàn)字形相同的比對(duì)時(shí),提取本對(duì)映射,放 入映射表,映射表的結(jié)構(gòu)為UNICODE碼、GB2312碼、GB2312字、Shift—JIS 碼、Shift—JIS字和分割符。剩余的中文漢字重新歸檔為中文字庫(kù)表GB2312-A 文本文件,用于下一映射方法。此過(guò)程能解決GB2312表的60%, Shift一JIS表 的57%。
      由于中文和日文中都包含數(shù)字、字母以及符號(hào)。所以這些文字按照字形相 同的方式進(jìn)行處理。日文中的平片假名,也使用該方法處理。
      圖3所示即是用于處理Unicode碼映射的方法,此過(guò)程主要處理中文和日文 存在簡(jiǎn)繁體對(duì)應(yīng)或字義相同的對(duì)應(yīng)。Unicode組織在進(jìn)行字庫(kù)設(shè)計(jì)時(shí),已經(jīng)考慮 到中日韓CJK的對(duì)應(yīng),所以我們可以利用這種便利來(lái)為映射表服務(wù)。同字形相 同映射過(guò)程相似,此步過(guò)程是把剩余中文字庫(kù)表GB2312-A文本文件的GB2312 字列中的漢字和日文字庫(kù)表ShiftjIS文本文件的Shift一JIS字列中漢字進(jìn)行比 較,當(dāng)條件符合時(shí),提取本對(duì)映射,合并入字形相同過(guò)程生成的映射表中。剩 余的中文漢字重新歸檔為中文字庫(kù)表GB2312-B文本文件,用于下一映射方法。 此過(guò)程能解決GB2312表的28%, Shift—JIS表的27%。
      經(jīng)過(guò)以上二次對(duì)應(yīng)所形成的映射表,己經(jīng)包含絕大多數(shù)常用漢字,能滿足 普通日常交流。
      剩余少量漢字,由于沒(méi)有明顯的規(guī)律可尋,于是采用復(fù)雜方法進(jìn)行映射, 人工進(jìn)行校正,此映射可以根據(jù)日常使用習(xí)慣進(jìn)行調(diào)整。
      圖4所示為字形相似的比較,字形相似和字形相同的區(qū)別在于構(gòu)成漢字的 多個(gè)部首中存在一個(gè)或多個(gè)部首存在書(shū)寫(xiě)的不同。生活中的這些字常被誤認(rèn)成 另一個(gè)"白字",雖然在讀音上容易被人誤認(rèn),但是在字形上還是被清晰區(qū)分開(kāi)。 此步過(guò)程先提取需要映射的GB2312-B文本文件中的GB2312字列中的漢字,分 析漢字部首組成和筆畫(huà)順序,給漢字打分,確定漢字的分值,再?gòu)腟hift—JIS文 本文件的Shift—JIS字列中尋找通過(guò)相同方法得到的分值相近的漢字,當(dāng)?shù)玫降暮蜻x漢字個(gè)數(shù)大于1個(gè)時(shí),需要人工選擇最合適的比對(duì),最終加入到映射表。
      剩余的中文漢字重新歸檔為中文字庫(kù)表GB2312-C文本文件,用于下一映射方 法。此過(guò)程能解決GB2312表的9。/。, Shift—JIS表的8°/。。
      當(dāng)參考漢字分值得到的另一個(gè)漢字分值偏移較大時(shí),認(rèn)為兩個(gè)漢字不適合 匹配,用漢字的讀音對(duì)其進(jìn)行匹配。如圖5所示。提取需要映射的GB2312-C 文本文件中的GB2312字列中的漢字,獲取漢字讀音(不涉及聲調(diào)),當(dāng)該字為 多音字時(shí),那么選擇最為常用的讀音,然后從Shift—JIS文本文件的Shift一JIS字 列中尋找通過(guò)相同方法得到的讀音相同或相似(不涉及聲調(diào))的漢字,當(dāng)?shù)玫?的候選漢字個(gè)數(shù)大于1時(shí),需要人工從候選漢字中選擇最合適的比對(duì),最終加 入映射表。此過(guò)程能解決GB2312表的約2n/。, Shift—JIS表的約2%。
      極少數(shù)剩余的漢字,由于無(wú)法對(duì)應(yīng),暫時(shí)空余。此漢字量不足映射表的1%。 日常使用中遇到的幾率極低。
      統(tǒng)計(jì)映射表,由于日文漢字原始條目多于中文漢字原始條目,并且存在一 個(gè)日文漢字對(duì)應(yīng)不同的多個(gè)中文漢字的現(xiàn)象,所以約有6%日文漢字不參于從中 文對(duì)應(yīng)日文的映射。
      用同樣的過(guò)程建立從日文漢字映射到中文漢字的映射表。
      由于日常交流中,信息的內(nèi)容有多個(gè)漢字組成,又由于映射表?xiàng)l目多,勢(shì) 必影響映射速度。需要對(duì)映射表進(jìn)行優(yōu)化1、對(duì)漢字的出現(xiàn)順序進(jìn)行重新排列, 把常用漢字放置于優(yōu)先位置,提高命中率,減少大幅度偏移的査詢;2、使用內(nèi) 存數(shù)據(jù)庫(kù),把整個(gè)映射表加載到內(nèi)存,由于訪問(wèn)內(nèi)存的速度比硬盤(pán)等存儲(chǔ)設(shè)備 快,能減少査詢映射表的時(shí)間;3、采用對(duì)稱多處理架構(gòu)(SMP)的硬件平臺(tái), 由于短信交流天生的時(shí)間分割,能讓我們輕松的使用對(duì)稱多處理架構(gòu)(SMP) 的硬件平臺(tái)。
      映射表建立完成后,可以被放置于數(shù)據(jù)庫(kù)表或加載到內(nèi)存,用于中國(guó)和曰 本間短信交流,從事漢字映射工作。
      用于中國(guó)和日本間短信交流的映射方法種類繁多,但從文字處理方法所使 用的機(jī)理上,可歸納為基于翻譯、基于拼音、基于字根、基于編碼。本發(fā)明 基于中文漢字和日文漢字映射的方法,舍棄了拼音一音多字、字根無(wú)法拆分和 翻譯需要人工參與的缺點(diǎn),結(jié)合編碼的發(fā)展而來(lái)。這種方法具有,交流雙方書(shū) 寫(xiě)短信方便,到達(dá)短信無(wú)亂碼,閱讀識(shí)別率高等特點(diǎn)。為目前的中日短信交流 提供了最為準(zhǔn)確的方法。
      本發(fā)明基于中文漢字和日文漢字的映射方法,首先通過(guò)組合中文漢字 (GB2312字庫(kù))和日文漢字(ShifLJIS字庫(kù)),依據(jù)字形、UNICODE碼和讀音等特點(diǎn),采用比照字形相同、相似,UNICODE碼相同,讀音相同、相似等順序,
      建立中日文漢字映射表。
      然后對(duì)獲取的短信內(nèi)容逐字利用映射表進(jìn)行中日文映射,轉(zhuǎn)化為目標(biāo)短信
      內(nèi)容??梢允箯闹形氖謾C(jī)發(fā)送的GB2312編碼的中文漢字短信,變成Shift—JIS 編碼的日文漢字短信,使其顯示在日文手機(jī)中;也可以使從日文手機(jī)發(fā)送的 Shift—JIS編碼的日文漢字短信,變成GB2312編碼的中文漢字短息,使其能顯示 在中文手機(jī)中。
      基于本發(fā)明的方法,短信的流程變成發(fā)送方編寫(xiě)短信內(nèi)容和目的地號(hào)碼, 經(jīng)基站轉(zhuǎn)送到運(yùn)營(yíng)商的短信息業(yè)務(wù)中心;短信息業(yè)務(wù)中心把短信派發(fā)到映射表 處,映射表處獲取短信的內(nèi)容和目的地號(hào)碼,對(duì)短信內(nèi)容運(yùn)用映射表進(jìn)行映射, 得到經(jīng)過(guò)映射的目標(biāo)短信內(nèi)容,然后把目標(biāo)短信內(nèi)容向目的地號(hào)碼處提交,最 終發(fā)送給接收者進(jìn)行解碼,得到目標(biāo)短信內(nèi)容。
      下面以放置于數(shù)據(jù)庫(kù)為例,介紹映射表的應(yīng)用。
      以映射表建立映射表的MS SQL SERVER數(shù)據(jù)庫(kù)表,表名為HanCode,,并
      映射表導(dǎo)入向該表中。表結(jié)構(gòu)為
      CREATE TABLE [HanCode]( [char] (4) COLLATE Chinese—PRC_CI_AS NOT NULL , [FROM—CODE] [char] (4) COLLATE Chinese—PRC一CI一AS NULL , [FROM—TEXT] [varchar] (2) COLLATE Chinese—PRC—CI—AS NULL , [DEST—CODE] [char] (4) COLLATE Chinese—PRC—CI—AS NULL , [DEST—TEXT] [varchar] (2) COLLATE Chinese—PRC—CI一AS NULL, CONSTRAINT [PK—HanCode] PRIMARY KEY CLUSTERED
      ( )ON [PRIMARY] )ON [PRIMARY]
      接收到短信后,對(duì)短信內(nèi)容逐字進(jìn)行分割,得到一個(gè)短信內(nèi)容的字符串。 按順序取得字符串中的一個(gè)文字(屬于漢字、符號(hào)、數(shù)字和字母),用這個(gè)文字 的字形作為查詢條件,使用査詢語(yǔ)句從映射表中查找目標(biāo)文字,得到目標(biāo)文字 的字形,然后把這個(gè)目標(biāo)文字添加入目標(biāo)短信中。依次順序處理完所有文字, 組織成目標(biāo)短信,發(fā)送給接收者。
      查詢語(yǔ)句為
      select DEST—CODE,DEST一TEXTfrom HanCode
      where FROM—TEXT^〈被映射的文字〉' 實(shí)施例1
      從中文手機(jī)發(fā)送的GB2312編碼的中文漢字短信,經(jīng)過(guò)映射表中文漢字到日 文漢字映射,變成Shift一JIS編碼的日文漢字短信,使其顯示在日文手機(jī)中。如 "你們短信業(yè)務(wù)方便嗎"9個(gè)中文漢字,其中4個(gè)漢字"短信方便"是依據(jù)字形 相同;2個(gè)漢字"業(yè)務(wù)"是依據(jù)UNICODE碼相同;2個(gè)漢字"你們"是依據(jù)字 形相似;最后1個(gè)漢字"嗎"是依據(jù)讀音相似。這幾個(gè)中文漢字經(jīng)過(guò)映射表映 射完成后,得到"禰門(mén)短信業(yè)務(wù)方便嘛^ 9個(gè)日文漢字。映射過(guò)程如圖6所示。
      實(shí)施例2
      從日文手機(jī)發(fā)送的Shift—JIS編碼的日文漢字短信,經(jīng)過(guò)映射表日文漢字到 中文漢字映射,變成GB2312編碼的中文漢字短息,使其能顯示在中文手機(jī)中。 如"禰門(mén)短信業(yè)務(wù)方便嘛"9個(gè)日文漢字,其中5個(gè)漢字"短信方便嘛"是依 據(jù)字形相同;3個(gè)漢字"業(yè)務(wù)門(mén)"是依據(jù)UNICODE碼相同;1個(gè)漢字"你"是 依據(jù)字形相似;0個(gè)漢字是依據(jù)讀音相似。這幾個(gè)中文漢字經(jīng)過(guò)映射表映射完成 后,得到"你門(mén)短信業(yè)務(wù)方便嘛"9個(gè)中文漢字。映射過(guò)程如圖7所示。
      權(quán)利要求
      1. 一種基于中文漢字和日文漢字的映射方法,其特征在于,該方法首先生成映射表,然后根據(jù)映射表進(jìn)行中文漢字和日文漢字的相互映射。其中,所述映射表通過(guò)以下步驟來(lái)生成(1)獲取并整理GB2312字庫(kù)和Shift_JIS字庫(kù)。(2)進(jìn)行字形相同映射。(3)進(jìn)行UNICODE碼映射。(4)進(jìn)行字形相似映射。(5)進(jìn)行讀音映射。
      2. 根據(jù)權(quán)利要求1所述的映射方法,其特征在于,所述步驟(2)具體為按照 字形相同的條件,比照GB2312和Shift—JIS字庫(kù)文本文件中的GB2312字和 Shift—JIS字列,以GB2312文本文件的GB2312字為參照物,用Shift—JIS文本 文件的Shift一JIS字來(lái)匹配GB2312文本文件中的漢字,使用窮舉法,把雙方字 庫(kù)表中的漢字字形逐個(gè)比對(duì),當(dāng)出現(xiàn)字形相同的比對(duì)時(shí),提取本對(duì)映射,放入 映射表。剩余的中文漢字重新歸檔為中文字庫(kù)表GB2312-A文本文件。
      3. 根據(jù)權(quán)利要求1所述的映射方法,其特征在于,所述步驟(3)具體為把中 文字庫(kù)表GB2312-A文本文件的GB2312字列中的漢字和日文字庫(kù)表Shift一JIS 文本文件的SWft一JIS字列中漢字進(jìn)行比較,當(dāng)條件符合時(shí),提取本對(duì)映射,合 并入字形相同過(guò)程生成的映射表中。剩余的中文漢字重新歸檔為中文字庫(kù)表 GB2312-B文本文件。
      4. 根據(jù)權(quán)利要求1所述的映射方法,其特征在于,所述步驟(4)具體為先提 取需要映射的GB2312-B文本文件中的GB2312字列中的漢字,分析漢字部首組 成和筆畫(huà)順序,給漢字打分,確定漢字的分值,再?gòu)腟hift一JIS文本文件的Shift_JIS 字列中尋找通過(guò)相同方法得到的分值相近的漢字,當(dāng)?shù)玫降暮蜻x漢字個(gè)數(shù)大于1 個(gè)時(shí),選擇最合適的比對(duì),加入到映射表。剩余的中文漢字重新歸檔為中文字 庫(kù)表GB2312-C文本文件。
      5. 根據(jù)權(quán)利要求1所述的映射方法,其特征在于,所述步驟(5)具體為提取 需要映射的GB2312-C文本文件中的GB2312字列中的漢字,獲取漢字讀音,當(dāng) 該字為多音字時(shí),選擇最為常用的讀音,然后從Shift—JIS文本文件的ShiftjIS 字列中尋找通過(guò)相同方法得到的讀音相同或相似的漢字,當(dāng)?shù)玫降暮蜻x漢字個(gè) 數(shù)大于1時(shí),從候選漢字中選擇最合適的比對(duì),最終加入映射表。
      6. —種權(quán)利要求1所述基于中文漢字和日文漢字的映射方法在手機(jī)短信交流中的應(yīng)用。
      7.根據(jù)權(quán)利要求6所述的應(yīng)用,其特征在于,該應(yīng)用具體為發(fā)送方編寫(xiě)短信內(nèi) 容和目的地號(hào)碼,經(jīng)基站轉(zhuǎn)送到運(yùn)營(yíng)商的短信息業(yè)務(wù)中心,短信息業(yè)務(wù)中心把 短信派發(fā)到映射表處,映射表處獲取短信的內(nèi)容和目的地號(hào)碼,對(duì)短信內(nèi)容運(yùn) 用映射表進(jìn)行映射,得到經(jīng)過(guò)映射的目標(biāo)短信內(nèi)容,然后把目標(biāo)短信內(nèi)容向目 的地號(hào)碼處提交。
      全文摘要
      本發(fā)明公開(kāi)了一種基于中文漢字和日文漢字的映射方法及其應(yīng)用,它以中國(guó)和日本同屬漢字文化圈,都有使用漢字的習(xí)慣,且中文漢字和日文漢字具有共通性、相似性為切入點(diǎn),通過(guò)依次比較字形、UNICODE碼和發(fā)音等步驟來(lái)對(duì)應(yīng)中文漢字和日文漢字,建立中文漢字和日文漢字映射表,以一國(guó)文字表示另一國(guó)文字,用來(lái)對(duì)中國(guó)和日本兩國(guó)間跨國(guó)短信中的文字逐一進(jìn)行映射,使得經(jīng)過(guò)映射的短信文字能被對(duì)方正確接收并保持原意。此發(fā)明有效的解決了中國(guó)和日本兩國(guó)間短信交流中存在的亂碼和文字空缺問(wèn)題。本方法中的映射表具有漢字映射數(shù)量多、查找速度快、可擴(kuò)展等特點(diǎn),不僅方便兩國(guó)短信間的交流,而且適用于中日兩國(guó)其他需要用一國(guó)文字表示另一國(guó)家文字的環(huán)境。
      文檔編號(hào)G06F17/28GK101458682SQ20081016315
      公開(kāi)日2009年6月17日 申請(qǐng)日期2008年12月18日 優(yōu)先權(quán)日2008年12月18日
      發(fā)明者孫寶樂(lè), 磊 陳, 勤 黃 申請(qǐng)人:杭州方捷信息技術(shù)有限公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1