本發(fā)明涉及計算機文字處理技術(shù)領(lǐng)域,尤其涉及一種少數(shù)民族文字在計算機文字處理技術(shù)中字母變體形式的自適應(yīng)方法,特指一種蒙古文字母在計算機、計算機移動設(shè)備、移動通訊設(shè)備上顯示、輸入和識別變體形式的自適應(yīng)方法。
背景技術(shù):
蒙古文字是經(jīng)過腓尼基字母--阿拉馬字母--粟特字母--畏兀兒字母這樣一個漫長的演變過程的。它從上到下連寫(一個單詞為一個單位),從左到右移行。由8個元音、27個輔音共35個讀音組成。蒙古文字母在字詞中所處的位置不同分為獨立、詞首、詞中、詞尾等四種字形,蒙古文字詞中上下黏結(jié)不同字母時會有不同的變體形式。
從發(fā)明計算機開始,經(jīng)歷互聯(lián)網(wǎng)信息時代到現(xiàn)在的大數(shù)據(jù)時代,國家標準的規(guī)則中只對蒙古文35個字母進行了名義字符的編碼,未對所有字母的變體形式進行次序和編碼,且未考慮計算機操作系統(tǒng)的版本兼容性問題。采用國家標準會產(chǎn)生多對多的二義性和復(fù)雜性問題;也會產(chǎn)生蒙古文字母在字詞中上下黏結(jié)不同字母時產(chǎn)生結(jié)構(gòu)失真的問題。上述的蒙古文字母變體形式次序規(guī)定和編碼無法保證蒙古文字詞的完全讀音分解和自然排序。需要開發(fā)二次蒙古文字詞排序軟件,否則無法保證在計算機鍵盤輸入拉丁文相互轉(zhuǎn)寫和與國家標準相互轉(zhuǎn)化中的一對多和多對一的關(guān)系;同時也會因為編碼設(shè)計的局限性造成蒙古文在計算機上的字體數(shù)量有限和字形效果呆板的問題。隨著國家“大眾創(chuàng)業(yè),萬眾創(chuàng)新”的繼續(xù)深入發(fā)展,民族地區(qū)需要有和計算機相結(jié)合能夠豐富的處理民族文字、快速準確識別民族語音和圖像中的民族文字以及計算機、計算機移動設(shè)備和移動通訊設(shè)備上顯示民族文字多種字體和具有美感字形的技術(shù)方案。
為了解決上述的問題,本發(fā)明人經(jīng)過多年的研究和多次試驗,開發(fā)了一種蒙古文字母變體形式的自適應(yīng)方法以此來解決蒙古文字母在計算機、計算機移動設(shè)備、移動通訊設(shè)備上顯示、輸入和識別變體形式的自適應(yīng)方法。
技術(shù)實現(xiàn)要素:
本發(fā)明一種蒙古文字母變體形式的自適應(yīng)方法的目的,在于解決計算機、計算機移動設(shè)備、移動通訊設(shè)備上的蒙古文字體數(shù)量有限、字形效果呆板和二義性問題;提供一種蒙古文字母在計算機、計算機移動設(shè)備、移動通訊設(shè)備上顯示、輸入和識別變體形式的自適應(yīng)方法。
本發(fā)明一種蒙古文字母變體形式的自適應(yīng)方法的另一目的,在于采用本發(fā)明的方法提供一種能夠在計算機上設(shè)計出蒙古文多種字體、更美觀的計算機用字體。
本發(fā)明一種蒙古文字母變體形式的自適應(yīng)方法為達到上述的目的,所采用的的技術(shù)手段為:首先依據(jù)《蒙古文字母順序》國家規(guī)范標準建立涵蓋蒙古文字母變體形式的蒙古文字母數(shù)據(jù)庫;其次根據(jù)蒙古文字詞結(jié)構(gòu)規(guī)律建立蒙古文字母變體形式處理單元列舉出字母變體形式的多種組合;再次調(diào)用數(shù)字化的蒙古文詞典庫,對經(jīng)過蒙古文字母變體形式處理單元列舉出的各種組合正音正字;最后將判斷出正確的字母變體形式與計算機中的蒙古文國家標準碼位對應(yīng);
在蒙古文字母變體形式處理單元中按照蒙古文字詞結(jié)構(gòu)中建立獨立字形、詞首字形、詞尾字形和詞中字形數(shù)據(jù)單元;建立常用形式、第二形式、第三形式、詞中整形、詞中分寫形和詞中連寫形數(shù)據(jù)單元;
采用四次循環(huán)嵌套的方式將獨立字形、詞首字形、詞尾字形和詞中字形中的字母變體形式與常用形式、第二形式、第三形式、詞中整形、詞中分寫形和詞中連寫形進行組合,組合出的蒙古文字母變體形式存放在蒙古文字母變體形式處理單元對比數(shù)據(jù)庫中;
讀音不同字母按照國家規(guī)范《蒙古文字母順序》的讀音次序編碼。即讀a;讀e;讀i;讀o;讀u;讀oe;讀ue;讀ee;讀n;讀ang;讀b;讀p;讀q;讀g;讀m;讀l;讀s;讀sh;讀t;讀d;讀ch;讀j;讀y;讀r;讀w;讀f;讀k;讀kh;讀ts;讀z;讀ha;讀zr;讀lh;讀zhi;讀chi的依次編碼;
讀音a的所有變體形式的編碼次序為
讀音e的所有變體形式的編碼次序為
讀音i的所有變體形式的編碼次序為
讀音o的所有變體形式的編碼次序為
讀音u的所有變體形式的編碼次序為
讀音oe的所有變體形式的編碼次序為
讀音ue的所有變體形式的編碼次序為
讀音ee的所有變體形式的編碼次序為
讀音n的所有變體形式的編碼次序為
讀音ang的所有變體形式的編碼次序為
讀音b的所有變體形式的編碼次序為
讀音p的所有變體形式的編碼次序為
讀音q的所有變體形式的編碼次序為
讀音g的所有變體形式的編碼次序為
讀音m的所有變體形式的編碼次序為
讀音l的所有變體形式的編碼次序為
讀音s的所有變體形式的編碼次序為
讀音sh的所有變體形式的編碼次序為
讀音t的所有變體形式的編碼次序為
讀音d的所有變體形式的編碼次序為
讀音ch的所有變體形式的編碼次序為
讀音j的所有變體形式的編碼次序為
讀音y的所有變體形式的編碼次序為
讀音r的所有變體形式的編碼次序為
讀音w的所有變體形式的編碼次序為
讀音f的所有變體形式的編碼次序為
讀音k的所有變體形式的編碼次序為
讀音kh的所有變體形式的編碼次序為
讀音ts的所有變體形式的編碼次序為
讀音z的所有變體形式的編碼次序為
讀音ha的所有變體形式的編碼次序為
讀音zr的所有變體形式的編碼次序為
讀音lh的所有變體形式的編碼次序為
讀音zhi的所有變體形式的編碼次序為
讀音chi的所有變體形式的編碼次序為
采用上述的技術(shù)手段,本發(fā)明一種蒙古文字母變體形式的自適應(yīng)方法的有益效果為使所有現(xiàn)有蒙古文編碼完全實現(xiàn)讀音編碼,實現(xiàn)了蒙古文字詞自然排序、完全達到蒙古文字詞的拉丁文相互轉(zhuǎn)寫、國家標準相互轉(zhuǎn)換的一對多和多對一關(guān)系、在蒙古文計算機用字體開發(fā)上提供了寬松的設(shè)計制作條件,為蒙古文語音輸入、輸出鋪平了技術(shù)瓶頸。
附圖說明
為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1.所示為實現(xiàn)本發(fā)明實施方式的示例性計算系統(tǒng)的框圖。
圖2.所示為本發(fā)明一種蒙古文字母變體形式的自適應(yīng)方法的裝置結(jié)構(gòu)圖。
圖3.所示為計算機蒙古文識別裝置結(jié)構(gòu)圖。
具體實施方式
為使本發(fā)明的目的,技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明實施方式作進一步地詳細描述。
實施例一
圖1.所示為實現(xiàn)本發(fā)明實施方式的示例性計算系統(tǒng)的框圖。如圖所示計算機系統(tǒng)可以包括:cpu(中央處理單元)、ram(隨機存取存儲器)、rom(只讀存儲器)、系統(tǒng)總線、硬盤控制器、鍵盤控制器、串行接口控制器、并行接口控制器、顯示控制器、硬盤、鍵盤、串行外部設(shè)備、并行外部設(shè)備和顯示器。在這些設(shè)備中,與系統(tǒng)總線耦合的有cpu、ram、rom、硬盤控制器、鍵盤控制器、串行控制器、并行控制器和顯示控制器。硬盤與硬盤控制器耦合,鍵盤與鍵盤控制器耦合,串行外部設(shè)備與串行接口控制器耦合,并行外部設(shè)備與并行接口控制器耦合,以及顯示器與顯示控制器耦合。應(yīng)當理解,圖1.所述的結(jié)構(gòu)框圖僅僅為了示例的目的而示出的,而不是對本發(fā)明范圍的限制。在某些情況下,可以根據(jù)具體情況而增加或者減少某些設(shè)備。實現(xiàn)本發(fā)明方法實施例的全部或部分步驟可以通過方法步驟和相關(guān)程序結(jié)合硬件來完成,前述的程序可以存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,執(zhí)行包括本發(fā)明方法,實施例的步驟、而前述的存儲介質(zhì)包括:rom、ram、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
如圖2.所示為本發(fā)明一種蒙古文字母變體形式的自適應(yīng)方法的裝置結(jié)構(gòu)圖。如圖2.所示該裝置包括處理單元和加載單元、所述處理單元,用于當應(yīng)用程序加載輸入法時,獲得為該應(yīng)用程序設(shè)置的專用輸入法參數(shù)配置規(guī)則、所述加載單元,用于根據(jù)所述處理單元獲得的輸入法參數(shù)配置規(guī)則,根據(jù)該輸入法參數(shù)配置規(guī)則確定的配置參數(shù)代替輸入法全局參數(shù)中對應(yīng)的參數(shù)加載輸入法。本發(fā)明所列舉的裝置可以內(nèi)置于用戶終端。
該裝置進一步包括兩個數(shù)據(jù)庫單元。第一數(shù)據(jù)庫單元為蒙古文字母數(shù)據(jù)庫單元,用于保存記錄蒙古文字母字變體形式以及對應(yīng)配置規(guī)則的本地規(guī)則庫。第二數(shù)據(jù)庫單元為數(shù)字化蒙古文詞典庫單元,用于保存記錄蒙古文詞典以及對應(yīng)蒙古文語法規(guī)則和文字含義及組詞的本地規(guī)則庫。規(guī)則庫是根據(jù)結(jié)合蒙古文字母變體形式規(guī)范使用規(guī)則,依據(jù)蒙古文字母的變體形式歸類為常用形式字形、第二形式字形、第三形式字形、詞中整形字形、詞中分寫字形和詞中連寫字形。詳細歸類如下:
常用形式字形有:獨立字形的
第二形式字形有:獨立字形的
第三形式字形有:詞尾字形的
詞中整形字形有:
詞中分寫字形有:
詞中連寫字形有:
所述的處理單元與蒙古文字母數(shù)據(jù)庫單元和加載單元分別連接。處理單元從蒙古文字母數(shù)據(jù)庫中調(diào)入蒙古文字母字形,按照蒙古文字母數(shù)據(jù)庫單元中配置的本地規(guī)則,即蒙古文文字的常用形式字形、第二形式字形、第三形式字形、詞中整形和詞中分寫字形和獨立字形、詞首字形、詞尾字形和詞中字形組成矩陣。按照矩陣中逐個排列組合出所有字形的組合形式。所述加載單元逐個將處理單元中組合出來的蒙古文變體形式與蒙古文詞典庫單元進行比對,選擇出正確的字母變體形式返回到處理單元。處理單元將接收到的正確字母變體形式與蒙古文國家標準鍵盤碼位進行對應(yīng),結(jié)合國家規(guī)范《蒙古文字母順序》做出如下編碼:
一、讀音不同字母按照國家規(guī)范《蒙古文字母順序》的讀音次序編碼。即讀a、讀e、讀i、讀o、讀u、讀oe、讀ue、讀ee、讀n、讀ang、讀b、讀p、讀q、讀g、讀m、讀l、讀s、讀sh、讀t、讀d、讀ch、讀j、讀y、讀r、讀w、讀f、讀k、讀kh、讀ts、讀z、讀ha、讀zr、讀lh、讀zhi、讀chi的依次編碼。
二、讀音相同字母的變體形式按照字詞中的不同位置,依次為獨立字形、詞首字形、詞尾字形、詞中字形的順序編碼;
三、讀音相同、字詞中所處位置相同字母的變體形式按照如下順序編碼:
1.讀音相同字母的獨立字形的編碼順序依次為讀音a、讀音e、讀音i、讀音o、讀音u、讀音oe、讀音ue和讀音ee等的獨立字形的常用形式編在最前,第二形式編在最后;
2.讀音相同字母的詞首字形的編碼順序依次為讀音a、讀音e、讀音i、讀音o、讀音u、讀音oe、讀音ue、讀音ee、讀音ch、讀音w、讀音ts、讀音z、讀音ha、讀音lh、讀音zhi和讀音chi等的詞首字形的常用形式編在最前,第二形式在常用形式之后、讀音n的詞首字形遵循
3.讀音相同字母的詞尾字形的編碼順序依次為所有讀音的常用形式編在最前,第二形式編在其次,第三形式編在第三位,元音字母的上粘結(jié)讀音b、讀音p、讀音q、讀音g、讀音f、讀音k和讀音kh等詞首或詞中字形的編在最后。
4.讀音相同字母的詞中字形的編碼順序依次為讀音a、讀音e、讀音i、讀音o、讀音u、讀音oe、讀音ue、讀音ee、讀音d、讀音ch、讀音ts、讀音z和讀音ha等的詞中字形的常用形式編在最前,第二形式其次,元音字母的上粘結(jié)讀音b、讀音p、讀音q、讀音g、讀音f、讀音k和讀音kh等詞首或詞中字形的編在第三位,詞中整形編在最后、讀音n的詞中字形先遵循
四、讀音ang、讀音b、讀音p、讀音q、讀音g、讀音m、讀音l、讀音f、讀音k、讀音kh和讀音lh等與蒙古文字母部分變體形式相互上下粘結(jié)時,按照如下規(guī)則粘結(jié)字母變體形式:
1.讀音ang和讀音g的變體形式粘結(jié)規(guī)則如下:
字形
字形
字形
2.讀音b、讀音p、讀音q、讀音g、讀音f、讀音k和讀音kh等與元音組合時變體形式粘結(jié)規(guī)則如下:
讀音a、讀音e、讀音i和讀音ee等詞中和詞尾字形組合時,字形分別為
與讀音o、讀音u、讀音oe和讀音ue等詞中和詞尾字形組合時,字形分別為
3.讀音b、讀音p、讀音f、讀音k和讀音kh等在下粘結(jié)輔音時變體形式粘結(jié)規(guī)則如下:
字形為
字形為
4.讀音m、讀音l和讀音lh等在上粘結(jié)讀音ang、讀音b、讀音p、讀音g、讀音f、讀音k和讀音kh等時變體形式粘結(jié)規(guī)則如下:字形
讀音相同字母的所有變體形式編碼次序具體依次如下:
1.讀音a的所有變體形式的編碼次序為
2.讀音e的所有變體形式的編碼次序為
3.讀音i的所有變體形式的編碼次序為
4.讀音o的所有變體形式的編碼次序為
5.讀音u的所有變體形式的編碼次序為
6.讀音oe的所有變體形式的編碼次序為
7.讀音ue的所有變體形式的編碼次序為
8.讀音ee的所有變體形式的編碼次序為
9.讀音n的所有變體形式的編碼次序為
10.讀音ang的所有變體形式的編碼次序為
11.讀音b的所有變體形式的編碼次序為
12.讀音p的所有變體形式的編碼次序為
13.讀音q的所有變體形式的編碼次序為
14.讀音g的所有變體形式的編碼次序為
15.讀音m的所有變體形式的編碼次序為
16.讀音l的所有變體形式的編碼次序為
17.讀音s的所有變體形式的編碼次序為
18.讀音sh的所有變體形式的編碼次序為
19.讀音t的所有變體形式的編碼次序為
20.讀音d的所有變體形式的編碼次序為
21.讀音ch的所有變體形式的編碼次序為
22.讀音j的所有變體形式的編碼次序為
23.讀音y的所有變體形式的編碼次序為
24.讀音r的所有變體形式的編碼次序為
25.讀音w的所有變體形式的編碼次序為
26.讀音f的所有變體形式的編碼次序為
27.讀音k的所有變體形式的編碼次序為
28.讀音kh的所有變體形式的編碼次序為
29.讀音ts的所有變體形式的編碼次序為
30.讀音z的所有變體形式的編碼次序為
31.讀音ha的所有變體形式的編碼次序為
32.讀音zr的所有變體形式的編碼次序為
33.讀音lh的所有變體形式的編碼次序為
34.讀音zhi的所有變體形式的編碼次序為
35.讀音chi的所有變體形式的編碼次序為
實施例二
如圖3.所示計算機蒙古文識別裝置結(jié)構(gòu)圖。如圖3.所示蒙古文識別裝置結(jié)構(gòu)包括收錄/掃描模塊、識別模塊、正音正字模塊和蒙古文顯示模塊。所述收錄/掃描模塊是通過計算機上連接打開收錄裝置,將蒙古文發(fā)音的詞、句子收錄到所述的模塊內(nèi),該模塊位于計算機的ram上,模塊通過計算機總線經(jīng)中央處理器發(fā)布調(diào)用命令從計算機存儲硬盤上調(diào)用?;蛲ㄟ^計算機上連接打開掃描裝置,將蒙古文的詞、句子的圖片收錄到所述的模塊內(nèi),該模塊位于計算機的ram上,模塊通過計算機總線經(jīng)中央處理器發(fā)布調(diào)用命令從計算機存儲硬盤上調(diào)用。如圖2.和圖3.所示識別模塊包括處理單元和加載單元、所述處理單元,用于當應(yīng)用程序加載輸入法時,獲得為該應(yīng)用程序設(shè)置的專用輸入法參數(shù)配置規(guī)則、所述加載單元,用于根據(jù)所述處理單元獲得的輸入法參數(shù)配置規(guī)則,根據(jù)該輸入法參數(shù)配置規(guī)則確定的配置參數(shù)代替輸入法全局參數(shù)中對應(yīng)的參數(shù)加載輸入法,本發(fā)明所列舉的裝置可以內(nèi)置于用戶終端。
該裝置進一步包括兩個數(shù)據(jù)庫單元。第一數(shù)據(jù)庫單元為蒙古文字母數(shù)據(jù)庫單元,用于保存記錄蒙古文字母字變體形式以及對應(yīng)配置規(guī)則的本地規(guī)則庫,所述的數(shù)據(jù)庫在識別模塊內(nèi)。第二數(shù)據(jù)庫單元為數(shù)字化蒙古文詞典庫單元,用于保存記錄蒙古文詞典以及對應(yīng)蒙古文語法規(guī)則和文字含義及組詞的本地規(guī)則庫,所述的蒙古文字典數(shù)據(jù)庫單元在正音正字模塊。規(guī)則庫是根據(jù)結(jié)合蒙古文字母變體形式規(guī)范使用規(guī)則,依據(jù)蒙古文字母的變體形式歸類為常用形式字形、第二形式字形、第三形式字形、詞中整形字形、詞中分寫字形和詞中連寫字形。所述的處理單元與蒙古文字母數(shù)據(jù)庫單元和加載單元分別連接。處理單元從蒙古文字母數(shù)據(jù)庫中調(diào)入蒙古文字母字形,按照蒙古文字母庫單元中配置的本地規(guī)則,即蒙古文文字的常用形式字形、第二形式字形、第三形式字形、詞中整形和詞中分寫字形和獨立字形、詞首字形、詞尾字形和詞中字形組成矩陣。按照矩陣中逐個排列組合出所有字形的組合形式。所述加載單元逐個將處理單元中組合出來的蒙古文變體形式與蒙古文字典數(shù)據(jù)庫單元進行比對,選擇出正確的字母變體形式返回到處理單元。處理單元將接收到的正確字母變體形式與蒙古文國家標準鍵盤碼位進行對應(yīng),然后將正確識別的蒙古文語音或者圖片中對應(yīng)的蒙古文文字顯示在計算機顯示模塊上。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實施例可提供為方法、系統(tǒng)或計算機程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì),包括但不限于磁盤存儲器和光學存儲器等上實施的計算機程序產(chǎn)品的形式。
本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備或系統(tǒng)、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。這些計算機程序指令也可存儲在能引導(dǎo)計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)所述以權(quán)利要求的保護范圍為準。