国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      漢語盲文到漢字的自動轉換方法

      文檔序號:6556558閱讀:12312來源:國知局
      專利名稱:漢語盲文到漢字的自動轉換方法
      技術領域
      本發(fā)明屬于計算機文字處理技術領域,特別涉及盲人用計算機的文字轉換技術。
      盲人使用盲文(摸讀的點字符號)進行文化學習與信息交流。目前在國外一些發(fā)達國家中,已經(jīng)研究出較好的盲人用計算機及其操作平臺。英國已研制出盲人用的計算機,其鍵盤各鍵是由大小、形狀、紋理不一,每鍵均帶有發(fā)聲機制的多媒體信息交互功能。在中國,近年來為了使盲人能夠使用計算機及能夠閱讀普通文本也作了一些局部的工作,如中國盲文書社在中國殘疾人聯(lián)合會和中國盲人協(xié)會的資助支持下,研制出盲文分詞連寫系統(tǒng);北京圖書館在Dos操作系統(tǒng)下研究過盲人閱讀機,是將印刷體普通漢字文本通過掃描輸入計算機進行識別,再將識別的漢字轉換成聲音由計算機輸出;使盲人能夠聽到普通文本;清華大學自動化系研究過盲人用鍵盤輸入法,用聲音幫助選字,及在Dos下的漢字盲文轉換。
      上述已有技術的不足之處包括一、在漢語盲文與漢字的轉換中沒有應用自然語言理解處理技術。二、在已公開的漢字識別后處理技術中,為了提高識別文本的正確率,用Viterbi動態(tài)規(guī)劃算法來快速搜索一條最佳路徑,而進入同一個結點的其余的路徑便被舍棄。不能找出次最優(yōu)的漢語句子。三、已公開系統(tǒng)只涉及漢語盲文和漢字的相互轉換,不支持其它諸如數(shù)學公式等符號的相互轉換。四、已公開的盲文轉換只涉及雙拼盲文,而沒有現(xiàn)行盲文處理功能。
      本發(fā)明的目的是為克服已有技術的不足之處,提出一種漢語盲文到漢字的自動轉換方法。使用該方法,盲文可以由鍵盤和掃描儀兩種方式輸入。對盲文的標調(diào)沒有嚴格限制可以輸入英文,數(shù)字。同時可以追加任意的特殊符號。已建立了數(shù)學庫,可在文檔中輸入數(shù)學符號。同時可以根據(jù)需要加入其它特殊字庫,轉換正確率高。
      本發(fā)明提出的一種漢語盲文到漢字的自動轉換方法,其特征在于,將盲文書籍掃描后識別盲文,或用鍵盤將盲文輸入后,將盲文通過拼音的概念轉換為漢字;所說的拼音與漢字轉換的每一個環(huán)節(jié),利用漢語盲文綜合知識庫,在帶轉移概率權重的拼音到漢字轉換搜索圖上采用viterbi搜索方法得到N個有序最佳結果,來實現(xiàn)由盲文到漢字的自動轉換。
      所說的漢語盲文綜合知識庫包括電子字典、規(guī)則庫和統(tǒng)計信息庫(由統(tǒng)計大規(guī)模真實語料得到的鄰接詞同現(xiàn)概率庫)。
      本發(fā)明所述漢語盲文到漢字的自動轉換方法,包括以下具體步驟1)讀入未轉換文本頭部的全部連續(xù)非盲文點字符號;2)當前的輸入點字符號是否表示非漢字意義,若表示漢字,轉步驟4;若表示非漢字,在viterbi搜索圖中搜索N-best路徑并選擇最好路徑,得到轉換結果,并將開始讀入的非盲文點字符號插入到對應位置;3)記錄本句的轉換結果,記錄表示非漢字意義的輸入點字符號的轉換結果,清空viterbi搜索圖,轉入步驟5;4)查找當前輸入的點字符號能夠匹配的所有漢字詞候選,并在viterbi搜索圖中構造相應結點。
      5)判斷是否全部轉換完畢?若是,輸出轉換后漢字結果;若不是,轉步驟1。
      本發(fā)明的特點是由于盲文掃描識別或盲文碼輸入不可能達到100%正確,雙面掃描盲文的識別錯誤率更高。同時,也是更重要的是由于漢字特有的一字多音、一音多字性質(zhì),以及自然語言的歧義現(xiàn)象,在將掃描盲文或盲文碼輸入與拼音的轉換,拼音與漢字轉換的每一個環(huán)節(jié),均可能發(fā)生歧義或轉換錯誤,因此本發(fā)明利用漢語盲文綜合知識庫包括電子字典、規(guī)則庫和統(tǒng)計信息庫(由統(tǒng)計大規(guī)模真實語料得到的鄰接詞同現(xiàn)概率庫),在帶權的拼音到漢字轉換多部圖上采用N-Best搜索算法,來實現(xiàn)由盲文到漢字的自動轉換。
      本發(fā)明具有以下效果1.盲文可以由鍵盤和掃描儀兩種方式輸入。
      2.對盲文的標調(diào)沒有嚴格限制。例如“公園”可寫作gonglyuan2;gonglyuan;gongyuan2;gongyuan四種方式。
      3.可以輸入英文,數(shù)字。同時可以追加任意的特殊符號。
      4.已建立了數(shù)學庫,可在文檔中輸入數(shù)學符號。同時可以根據(jù)需要加入其它特殊字庫,如化學、物理等。
      5.轉換正確率高。
      附圖簡要說明

      圖1為本發(fā)明的漢語盲文到漢字的自動轉換具體方法流程圖。
      圖2為本發(fā)明的帶轉移概率權重的拼音到漢字轉換搜索圖。
      以下結合實施例對本發(fā)明的實現(xiàn)方法詳細進行說明。
      本發(fā)明所述漢語盲文到漢字的自動轉換具體實施方法,如圖1所示,包括以下步驟1)讀入未轉換文本頭部的全部連續(xù)非盲文點字符號;2)當前的輸入點字符號是否表示非漢字意義,若表示漢字,轉步驟4;若表示非漢字,在viterbi搜索圖中搜索N-best路徑并選擇最好路徑,得到轉換結果,并將開始讀入的非盲文點字符號插入到對應位置;3)記錄本句的轉換結果,記錄表示非漢字意義的輸入點字符號的轉換結果,清空viterbi搜索圖,轉入步驟5;4)查找當前輸入的點字符號能夠匹配的所有漢字詞候選,并在viterbi搜索圖中構造相應結點。
      5)判斷是否全部轉換完畢?若是,輸出轉換后漢字結果;若不是,轉步驟1。
      本發(fā)明中所應用的算法說明如下1.N-Best搜索算法圖2為本發(fā)明的帶轉移概率權重的拼音到漢字轉換搜索圖。圖中,假設某一個拼音句子Y由T個字構成,Y=y1y2…yT。在這個句子的前后各加上分界符,構成#y1,y2,...,yT#。設拼音yi對應的漢字詞候選為Ci,1Ci,2...Ci,ui]]>。在帶轉移概率權重的拼音到漢字轉換搜索圖中對與yi對應的每一個漢字詞候選都構造一個結點,所有與yi對應的結點構成一級。帶轉移概率權重的拼音到漢字轉換搜索圖中級與級之間是全連接的關系,即第i級的每一個結點與第i+1級的每一個結點之間都有一條邊。邊上的權為后一級漢字詞在前一級漢字后出現(xiàn)的條件概率(同現(xiàn)概率)。在帶轉移概率權重的拼音到漢字轉換搜索圖中,每一條邊都是帶權邊。例如,C11與C21之間邊上的權為P(C21|C11),表示C11后出現(xiàn)C21的條件概率。在兩個分界符之間的任意找一條路徑,其中所有邊的權重乘積就是該路徑對應轉換方案的概率值。搜索具有最大概率值的轉換方案就是在帶轉移概率權重的拼音到漢字轉換搜索圖中搜索一條邊權重乘積最大的路徑,路徑上的結點就表示了對應的轉換方案。
      N-Best搜索算法可在圖2中找出具有前N大次最優(yōu)的漢語句子。該搜索方法分為前向和后向兩個過程。在前向過程中,對圖中每一個結點,計算由初始結點到此結點的最佳路徑,并且記錄此最佳路徑的累計分值和指向路徑上前一個結點的指針。在后向過程中,通過比較進入終止結點的路徑就可以得到最優(yōu)路徑。然后,為了使求次優(yōu)路徑時不會又選到最佳路徑,把最佳路徑整個復制到一個所謂N-Best樹的結構中。對N-Best樹中的每一個結點計算后向累計分值。后向累計分值與前向累計分值相結合,使之能夠快速方便地計算出某一條路徑的總分值。
      對N-Best樹上的所有結點進行擴展,比較擴展后所有路徑的分值,最大的那個就是次優(yōu)路徑。然后把次優(yōu)路徑與最優(yōu)路徑不同的部分復制到N-Best樹中。接著計算新加入結點的后向累計分值。假設前N選路徑已經(jīng)求出,那么第N+1選路徑可以通過比較從當前N-Best樹中擴展出的路徑來求得。從此算法可以看出,N-Best樹結構保證了任何一條路徑不會被考慮兩次。而且,此算法也是一個精確的算法,即能夠準確的找出前N個大似然度的N個漢語句子。
      使用N-Best算法使盲文到漢字的轉換正確率得到提高。但是,N-Best對于算法影響轉換速度。因此只有當系統(tǒng)認為最優(yōu)選的漢語句子中存在著轉換錯誤時,才自動進行N-Best搜索。
      特點用該方法完成的系統(tǒng)是國內(nèi)第一個加入了漢語計算語言學處理技術的漢語盲文到漢字自動轉換系統(tǒng),它用數(shù)億字的統(tǒng)計數(shù)據(jù)庫進行后處理。使得系統(tǒng)整體轉化正確率達到97%以上。漢語到盲文的轉換系統(tǒng)具有很高的轉換率,已經(jīng)接近達到實用水平。
      2.表示非漢字意義的點字轉換按照漢語盲文規(guī)則先判斷當前輸入點字是否為標點符號,再判斷是否為數(shù)學公式或者英文字母。
      數(shù)學公式的轉換需要遞歸的進行,對表達式按照數(shù)學符號的運算級別分層次轉換。例如“3*4+5/6”,先對“3*4”和“5/6”進行轉換,然后再轉換“+”,將兩部分連結起來。
      由于轉換后的數(shù)學公式使用純文本表示,因此例如根號,次方這樣的數(shù)學符號就沒法表示。應該通過定義新的數(shù)學公式純文本表示方法來表示。
      3.查找盲文對應的漢字詞現(xiàn)行盲文的點字和漢語拼音中的聲母或者韻母對應。但是也存在同一個盲文點字對應兩個不同拼音部分的情況。例如 可以對應聲母“g”或者“j”,因此應該對所有盲文點字可能轉換成的拼音組合都進行對應漢字詞的查找。例如 可以對應拼音“ho”,“he”,“xo”,“xe”,都需要進行對應漢字詞的查找,其中不合法的拼音顯然沒有對應漢字詞。
      由于詞庫中的漢字詞最長到7字,因此查找的時候最長檢測對應7個漢字的盲文點字。
      用上述方法首次將漢語自然語言理解的理論應用于漢語盲文與漢字的自動處理技術中,完成了漢語盲漢、漢盲自動轉換系統(tǒng)。
      權利要求
      1.一種漢語盲文到漢字的自動轉換方法,其特征在于,將盲文書籍掃描后識別盲文,或用鍵盤將盲文輸入后,將盲文通過拼音的概念轉換為漢字;所說的拼音與漢字轉換的每一個環(huán)節(jié),利用漢語盲文綜合知識庫,在帶轉移概率權重的拼音到漢字轉換搜索圖上采用viterbi搜索方法得到N個有序最佳結果,來實現(xiàn)由盲文到漢字的自動轉換。
      2.如權利要求1所述的漢語盲文到漢字的自動轉換方法,其特征在于,具體包括以下步驟1)讀入未轉換文本頭部的全部連續(xù)非盲文點字符號;2)當前的輸入點字符號是否表示非漢字意義,若表示漢字,轉步驟4;若表示非漢字,在viterbi搜索圖中搜索N-best路徑并選擇最好路徑,得到轉換結果,并將開始讀入的非盲文點字符號插入到對應位置;3)記錄本句的轉換結果,記錄表示非漢字意義的輸入點字符號的轉換結果,清空viterbi搜索圖,轉入步驟5;4)查找當前輸入的點字符號能夠匹配的所有漢字詞候選,并在viterbi搜索圖中構造相應結點。5)判斷是否全部轉換完畢?若是,輸出轉換后漢字結果;若不是,轉步驟1。
      全文摘要
      本發(fā)明屬于計算機文字處理技術領域,其特征在于,將盲文書籍掃描后識別盲文,或用鍵盤將盲文輸入后,將盲文通過拼音的概念轉換為漢字;所說的拼音與漢字轉換的每一個環(huán)節(jié),利用漢語盲文綜合知識庫,在帶轉移概率權重的拼音到漢字轉換搜索圖上采用viterbi搜索方法得到N個有序最佳結果,來實現(xiàn)由盲文到漢字的自動轉換。使得系統(tǒng)整體轉換正確率達到97%以上。
      文檔編號G06F17/28GK1323004SQ0111867
      公開日2001年11月21日 申請日期2001年6月8日 優(yōu)先權日2001年6月8日
      發(fā)明者朱小燕, 江銘虎, 夏瑩, 馬少平, 姜哲, 包塔, 譚剛 申請人:清華大學
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1