国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      字符串識(shí)別的制作方法

      文檔序號(hào):6429502閱讀:246來(lái)源:國(guó)知局
      專利名稱:字符串識(shí)別的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及一種識(shí)別由許多手寫字符形成的字符串的方法和裝置,尤其是涉及手寫文本的識(shí)別。
      背景技術(shù)
      本說(shuō)明書中的背景文件不是,也不應(yīng)被認(rèn)為是構(gòu)成了公知知識(shí)的一部分的承認(rèn)或者任何形式的建議。
      開(kāi)發(fā)高精度的手寫識(shí)別系統(tǒng)所面對(duì)的一個(gè)主要問(wèn)題是手寫物的固有歧義性。人們依靠上下文來(lái)正確地識(shí)別手寫文本。因此,大量的研究工作被定向在應(yīng)用造句法和語(yǔ)言學(xué)的約束來(lái)識(shí)別手寫文本。在語(yǔ)音識(shí)別、自然語(yǔ)言的處理以及機(jī)器翻譯領(lǐng)域中完成相似的工作。
      在手寫識(shí)別系統(tǒng)中,基本的語(yǔ)言元素(primitive)是字符。一些識(shí)別系統(tǒng)完全繞過(guò)字符識(shí)別(已知的整個(gè)單詞識(shí)別),而多數(shù)識(shí)別系統(tǒng)試圖識(shí)別輸入信號(hào)中的單個(gè)字符。那些不這樣做的系統(tǒng),在識(shí)別過(guò)程中過(guò)分依靠字典,并且通常不能支持詞匯表之外的單詞(例如,未收錄在字典中的單詞)的識(shí)別。
      在利用字符識(shí)別的系統(tǒng)中,字符分類器原始的輸出不可避免地包含由于手寫物的固有歧義性所導(dǎo)致的錯(cuò)誤。因此,基于某種語(yǔ)言的后處理技術(shù)通常被用來(lái)分辨輸入的真正意思。
      許多系統(tǒng)都包括簡(jiǎn)單試探法,所述簡(jiǎn)單試探法定義了一套手寫文本語(yǔ)言規(guī)則。因此,例如,大寫字母最常出現(xiàn)在單詞的起始位置(一個(gè)反例是“MacDonald”),多數(shù)字符串全部是字母或全部是數(shù)字(一個(gè)反例是“2nd”),以及規(guī)定在一個(gè)詞中標(biāo)點(diǎn)符號(hào)的可能位置的規(guī)則。然而,這些試探法費(fèi)時(shí)并且難以確定,易于改變,而且通常是不完善的。
      除了上述試探法,一些識(shí)別系統(tǒng)包括字符“N-gram”模型。在1992年9月13-16日,加拿大多倫多的《加拿大電氣與計(jì)算機(jī)工程會(huì)議記錄》(Proceedingsof the Canadian Conference on Electrical and Computer Engineering)第一卷第WA1.27.1-4頁(yè)中H.Beigi和T.Fujisaki所著的“A Character Level PredictiveLanguage Model and Its Application to Handwriting Recognition”一文,記錄了這樣一個(gè)例子。
      特別是,這些系統(tǒng)利用語(yǔ)言模型來(lái)定義遵循給定的先前字符序列的特定字符的概率。例如,字母“e”跟隨在‘th’后的可能性大于字母‘q’。也就是說(shuō),P(e|th)大于P(q|th)。字符N-grams可以容易地從文本文集(text corpus)中得出,是一種強(qiáng)有力的改進(jìn)字符識(shí)別的技術(shù)手段,它不需要將書寫者限制在特定的單詞列表中。
      雖然如此,由于在一種給定的語(yǔ)言中提供許許多多字母組合,這樣該系統(tǒng)的使用就受到限制,而且該系統(tǒng)還要求大量的數(shù)據(jù)處理,因此限制了這種技術(shù)的應(yīng)用范圍。
      此外,一些情況下,識(shí)別系統(tǒng)期望一種特定格式的輸入(例如,美國(guó)郵政編碼,電話號(hào)碼,街道地址,等等)。
      在這些例子中,使用標(biāo)準(zhǔn)表達(dá),簡(jiǎn)單語(yǔ)言模板和強(qiáng)制字符集可以增加識(shí)別的準(zhǔn)確度。不過(guò),這些技術(shù)的使用局限于需要嚴(yán)格地遵守提供的有限格式的情形。因此,這種技術(shù)只適用于郵政編碼,或諸如此類等經(jīng)過(guò)訓(xùn)練就可以使用的系統(tǒng),但是不適用于一般的手寫文本。
      手寫文本表現(xiàn)意義含糊不清不僅體現(xiàn)在字符級(jí),而且在單詞級(jí),尤其是在草書中。識(shí)別系統(tǒng)通過(guò)包含基于單詞的語(yǔ)言模型來(lái)處理這個(gè)問(wèn)題,最通常的是使用一本預(yù)先定義的字典。
      單詞N-grams,類似于字符N-grams但在單詞序列之間而不是字符序列之間定義轉(zhuǎn)換概率,可以用于手寫文本的后處理。為了避免組合記憶和大詞匯量單詞N-grams的處理要求,一些系統(tǒng)使用單詞級(jí)N-grams,在那里轉(zhuǎn)換概率被定義為單詞的部分語(yǔ)言標(biāo)識(shí)(例如,名詞或者動(dòng)詞),而不是單個(gè)單詞。
      其他系統(tǒng)使用馬爾可夫(Markov)句法模型來(lái)消除單詞歧義。1998年,在英國(guó)桑德蘭大學(xué)在第1期的CLUK論文集中D.Tugwell所著的“A MarkovModel of Syntax”一文描述了這樣的一個(gè)例子。
      另一種單詞制造模型的方法是識(shí)別單詞組合,即具有句法或者語(yǔ)義單位特征的兩個(gè)或更多單詞的序列,作為例子記錄在1999年由美國(guó)馬薩諸塞州劍橋市的麻省理工出版社出版的C.Manning和H.Schutze所著的“Foundations ofStatistical Natural Language Processing”一文中。
      但是,同樣,語(yǔ)言后處理的數(shù)據(jù)量非常龐大,因此限制了該技術(shù)的應(yīng)用。
      下面將詳細(xì)描述以上概述的一些技術(shù)方案的例子。
      1992年9月13-16日,加拿大多倫多的《加拿大電氣與計(jì)算機(jī)工程會(huì)議記錄》(Proceedings of the Canadian Conference on Electrical and ComputerEngineering)第一卷第WA1.28.1-4頁(yè)中H.Beigi和T.Fujisaki所著的“AFlexible Template Language Model and its Application to HandwritingRecognition”一文中,提出一類適用于“在形式或者詞匯方面非常受限制”的情形下的模板語(yǔ)言模型。在這個(gè)例子中,通過(guò)使用搜尋試探法集成彈性匹配字符分類得分與模型概率,來(lái)應(yīng)用模板。本例中也描述了用來(lái)估算基于先前N-1個(gè)字符的字符概率的N-gram字符模型的用法。
      在這個(gè)系統(tǒng)里,″在N-gram字符預(yù)報(bào)器中支持一套字符集是A-Z外加空格″,在1992年9月13-16日,加拿大多倫多的《加拿大電氣與計(jì)算機(jī)工程會(huì)議記錄》(Proceedings of the Canadian Conference on Electrical and ComputerEngineering)第一卷第WA1.27.1-4頁(yè)中H.Beigi和T.Fujisaki所著的“ACharacter Level Predictive Language Model and Its Application to HandwritingRecognition”一文中對(duì)其有詳細(xì)的描述。
      而且,1992年9月,加拿大多倫多舉辦的隸屬于電氣和電子工程師協(xié)會(huì)(IEEE)的《加拿大電氣與計(jì)算機(jī)工程會(huì)議》(Canadian Conference on Electricaland Computer Engineering)上H.Beigi的“Character Prediction for On-LineHandwriting Recognition”一文中提出″N=4是實(shí)際在線手寫識(shí)別中最佳的″。
      與此類似,2000年9月11-13日阿姆斯特丹的《關(guān)于手寫識(shí)別的第7屆國(guó)際專題論壇研討會(huì)的會(huì)議記錄》(Proceedings of the Seventh InternationalWorkshop on Frontiers in Handwriting Recognition)中,J.Pitrelli和E.Ratzlaff所著的“Quantifying the Contribution of Language Modeling to Writer-IndependentOn-line Handwriting Recognition”一文中描述了字符N-grams和單詞N-grams在一個(gè)隱藏馬爾可夫模型手寫草書的識(shí)別系統(tǒng)中的用法。
      單詞unigram和bigram語(yǔ)言模型從一本全書派生出來(lái),進(jìn)行手寫文本的整個(gè)單詞的識(shí)別,該方法在2000年西班牙巴塞羅那的《第15屆國(guó)際模式識(shí)別會(huì)議記錄》(Proceedings of the 15thInternational Conference on PatternRecognition)中第3卷,第467-470頁(yè)U.Marti和H.Bunke所著的“HandwrittenSentence Recognition”一文中有所描述,。在這個(gè)例子中,Viterbi算法使用分類器得分和單詞概率來(lái)識(shí)別輸入文本句子。
      在1999年10月《IEEE交易模式分析和機(jī)器智能》(IEEE TransactionsPattern Analysis and Machine Intelligence)一書第21卷第10期第990-999頁(yè)Bouchaffra等所著的“Post processing of Recognized Strings UsingNon-stationary Markovian Models”一文中描述了作為美國(guó)郵政編碼識(shí)別的后處理步驟的非穩(wěn)定馬爾可夫Markov模型的用法。在這個(gè)例子中,郵政編碼具有固定長(zhǎng)度,且編碼內(nèi)的每個(gè)數(shù)字都具有一明確的自然意思這一特定領(lǐng)域知識(shí)用于幫助識(shí)別。尤其,使用一套美國(guó)郵政服務(wù)提供的郵政編碼的訓(xùn)練集,在數(shù)字串內(nèi)各點(diǎn)的任何一個(gè)數(shù)字的轉(zhuǎn)換概率都被計(jì)算,這知識(shí)被用于提高識(shí)別性能。
      AAAI 1998第19卷第1期AI雜志中第73-89頁(yè)L.Yaeger,B.Webb,和R.Lyon所著的“Combining Neural Networks and Context-Driven Search forOn-Line,Printed Handwriting Recognition in the Newton”一文中,描述了使用各種各樣很少應(yīng)用的語(yǔ)言模擬技術(shù)來(lái)為一個(gè)商業(yè)的手寫字符識(shí)別系統(tǒng)確定詞匯的上下文內(nèi)容。這個(gè)計(jì)劃允許″詞匯表,前綴和后綴列表以及標(biāo)點(diǎn)模型″的定義和結(jié)合,包括一些″從正規(guī)表達(dá)式語(yǔ)法派生來(lái)″的內(nèi)容。字典和詞匯的模板可能被并行搜尋,并且每個(gè)表達(dá)式包括一個(gè)事前機(jī)率。句法的模板通過(guò)手工編碼獲得,概率則由經(jīng)驗(yàn)分析而來(lái)。
      1994年3月在新澤西的普林斯頓舉行的《關(guān)于人類語(yǔ)言技術(shù)上的ARPA研討會(huì)》(ARPA Workshop on Human Language Technology)上,R.Srihari在“Useof Lexical and Syntactic Techniques in Recognizing Handwritten Text”一文中描述了通過(guò)使用詞匯和句法技術(shù)的結(jié)合來(lái)消除手寫識(shí)別系統(tǒng)產(chǎn)生的歧義的結(jié)果。具體說(shuō),這種技術(shù)實(shí)行詞的搭配概率來(lái)進(jìn)一步理解基于上下文內(nèi)容的話,并且使用了一個(gè)基于部分講話標(biāo)簽的話句法的馬爾可夫Markov模型。
      美國(guó)專利6,137,908,描述使用與其他試探法聯(lián)合的三連字母(trigram)語(yǔ)言模型來(lái)提高字符分割和識(shí)別的準(zhǔn)確性。
      美國(guó)專利6,111,985,在識(shí)別過(guò)程中,使用字符語(yǔ)法和傳統(tǒng)最大可能性序列評(píng)估算法(即Viterbi識(shí)別)來(lái)消除用N-gram字符模型的數(shù)字串產(chǎn)生的單詞歧義。
      與此類似,美國(guó)專利5,392,363中描述的手寫字識(shí)別系統(tǒng),使用字符和單詞語(yǔ)法模型消除基于框架概率分類器的單詞歧義。
      美國(guó)專利5,787,197,使用基于字典的后處理技術(shù)進(jìn)行在線手寫識(shí)別。字典的搜尋剝?nèi)チ溯斎刖渥又信c字典不相匹配(matched against)的全部標(biāo)點(diǎn)。如果搜尋失敗,“筆劃匹配功能和拼寫幫助字典用來(lái)創(chuàng)建一個(gè)可能的單詞列表”。
      與此類似,美國(guó)專利5,151,950描述使用樹(shù)結(jié)構(gòu)的字典作為決定性的有限自動(dòng)機(jī)來(lái)合并分類器結(jié)果與上下文信息。系統(tǒng)“通過(guò)隱藏Markov過(guò)程從例子字符串中選擇最佳匹配的識(shí)別字符串”。
      美國(guó)專利5,680,511,使用一個(gè)基于單詞的語(yǔ)言模型″識(shí)別出現(xiàn)在一段文章內(nèi)的未被認(rèn)出或者含糊不清的單詞″。這種方法描述在口頭或者手寫文本上下文識(shí)別中。
      美國(guó)專利5,377,281,利用基于知識(shí)的方法來(lái)后處理字符識(shí)別串。使用的知識(shí)源包括單詞概率,單詞di-gram概率,單詞可能性與特殊字符前綴相結(jié)合的統(tǒng)計(jì),以及重寫建議和成本,以及從一本文本文集中導(dǎo)出的單詞。
      美國(guó)專利5,987,170,使用單詞和語(yǔ)法字典的結(jié)合識(shí)別東方字體。美國(guó)專利6,005,973,在識(shí)別期間得到字典字符串和最可能的數(shù)字串,這些呈現(xiàn)給書寫者可供其選擇。
      美國(guó)6,084,985描述一種基于隱藏馬爾可夫Markov模型的在線手寫識(shí)別方法,該專利使用實(shí)時(shí)檢測(cè)至少即時(shí)手寫的一個(gè)書寫位置,此位置來(lái)自遵循時(shí)間的(time-conforming)與每一個(gè)手寫特征向量聯(lián)合的字符串分區(qū)的書寫。這種方法使遵循時(shí)間的字符與來(lái)自一個(gè)與書寫有關(guān)的數(shù)據(jù)庫(kù)的各種各樣的例子字符串相匹配,通過(guò)隱藏Markov過(guò)程,從例子字符串中選出一個(gè)最相匹配的識(shí)別字符串。
      因此,顯然上述每種方法具有各種各樣的缺點(diǎn)。尤其,多數(shù)技術(shù)傾向于需要大量的數(shù)據(jù)處理。這限制了技術(shù)應(yīng)用于識(shí)別的 場(chǎng)景,主要是因?yàn)樾枰\(yùn)行大功率的處理器。

      發(fā)明內(nèi)容
      涉及本發(fā)明的第一主要方面,本發(fā)明提供一種識(shí)別由許多手寫字符組成的字符串的方法,所述方法包括a)確定字符串中每種字符的字符概率,每種字符概率表示各個(gè)字符成為許多預(yù)先確定的字符中的一個(gè)的可能性;b)確定所述字符串的模板概率,每個(gè)模板概率代表字符串與許多模板中的一個(gè)模板相符合的可能性,每個(gè)模板代表字符類型的各自結(jié)合;c)根據(jù)確定的字符和模板概率來(lái)確定字符串的概率;并且,d)根據(jù)確定的字符串的概率來(lái)識(shí)別字符串。
      通常每一個(gè)預(yù)先確定的字符具有各自的字符類型。
      字符類型一般包括至少下述之一a)數(shù)字;b)字母;以及,c)標(biāo)點(diǎn)符號(hào)。
      確定字符概率的方法通常包括使用字符分類器。
      確定模板概率的方法可包括a)確定在字符串中的字符的數(shù)量;b)選擇具有相同的字符數(shù)量的模板;并且,c)對(duì)于每一個(gè)選定模板,獲得其模板概率。
      模板的概率可以通過(guò)文本全集的統(tǒng)計(jì)分析來(lái)預(yù)先確定。
      所述方法一般包括確定與每個(gè)模板相符合的一個(gè)潛在的字符串,通過(guò)下述步驟a)確定來(lái)自模板的字符串中每個(gè)字符的字符類型;并且,b)為所述模板內(nèi)的每個(gè)字符選擇一個(gè)預(yù)先確定的字符,預(yù)先確定的字符是根據(jù)確定的字符類型和字符概率來(lái)選擇。
      更可取地,被選擇的預(yù)先確定字符是具有最高字符概率的預(yù)先確定的字符。
      識(shí)別字符串的方法通常包括a)為每一個(gè)潛在的字符串確定字符串概率,所述字符串概率是通過(guò)連接每一個(gè)被選擇字符的字符概率和各自的模板概率來(lái)確定;并且,b)確定字符串是具有最高的字符串概率的潛在字符串。
      所述方法使用處理系統(tǒng)來(lái)執(zhí)行,所述處理系統(tǒng)包括a)儲(chǔ)存器,用于存儲(chǔ)至少下述一個(gè)i)被預(yù)先確定的字符;ii)模板數(shù)據(jù)代表至少下述一個(gè)(1)模板;以及,(2)模板概率;以及,b)處理器,所述處理器用于i)接收字符串;ii)確定字符串中每個(gè)字符的字符概率;iii)確定模板概率;iv)根據(jù)確定的字符和模板概率來(lái)確定字符串概率;并且,v)根據(jù)確定的字符串概率來(lái)識(shí)別字符串。
      涉及本發(fā)明的第二主要方面,本發(fā)明提供識(shí)別由許多手寫字符組成的字符串的裝置,所述裝置包括a)儲(chǔ)存器,用于存儲(chǔ)至少一個(gè)
      i)許多被預(yù)先確定的字符;ii)代表許多模板的模板數(shù)據(jù);以及,b)處理器,所述處理器用于i)確定字符串中每種字符的字符概率,每種字符概率表示各個(gè)字符成為許多預(yù)先確定的字符中的一個(gè)的可能性;ii)確定所述字符串的模板概率,每個(gè)模板概率代表字符串與許多模板中的一個(gè)模板相符合的可能性,每個(gè)模板代表字符類型的各自結(jié)合;iii)根據(jù)確定的字符和模板概率來(lái)確定字符串的概率;并且iv)根據(jù)確定的字符串的概率來(lái)識(shí)別字符串。
      所述處理器通常連接一輸入端,處理器用于通過(guò)輸入端接收手寫字符串。
      所述裝置,特別是處理器,能因此適用于執(zhí)行本發(fā)明第一個(gè)主要方面的方法。
      這種情況下,模板數(shù)據(jù)進(jìn)一步包括每個(gè)模板的模板概率,處理器被用于從模板數(shù)據(jù)獲得模板概率。
      涉及本發(fā)明的第三個(gè)主要方面,本發(fā)明提供一種產(chǎn)生用于手寫識(shí)別中的模板的方法,所述方法包括a)獲得文本;b)識(shí)別文本中的字符串,每個(gè)字符串由一個(gè)或多個(gè)字符的序列形成,每個(gè)字符具有各自的類型;c)確定每個(gè)字符串中字符類型序列;并且,d)為每個(gè)字符類型序列確定模板。
      所述方法通常包括a)統(tǒng)計(jì)分析確定的模板;并且,b)根據(jù)統(tǒng)計(jì)分析確定模板概率,所述模板概率表明在文本中各個(gè)字符序列出現(xiàn)的概率。
      所述方法通常包括a)確定在文本中每種字符類型序列出現(xiàn)的頻率;并且,
      b)根據(jù)確定的每個(gè)字符類型序列的頻率來(lái)確定模板概率所述方法通常進(jìn)一步包括修改確定的模板概率來(lái)解決有限數(shù)量的字符類型序列。這可以根據(jù)Lidstone定律完成。
      更可取地所述方法包括從大的文本文集中獲得文本。所述文本通常也從許多不同的來(lái)源中獲得。
      所述方法采用處理系統(tǒng)來(lái)執(zhí)行,所述處理系統(tǒng)包括a)儲(chǔ)存器,用于存儲(chǔ)文本;并且,b)處理器,所述處理器用于i)識(shí)別文本中的字符串;ii)確定字符類型序列;并且,iii)確定模板。
      涉及本發(fā)明的第四個(gè)主要方面,本發(fā)明提供一種產(chǎn)生應(yīng)用于手寫識(shí)別的模板的裝置,所述裝置包括處理器用于a)獲得文本;b)識(shí)別在文本中的字符串,每字符串由一個(gè)或多個(gè)字符的序列形成,每個(gè)字符具有各自的類型;c)為每個(gè)字符串確定字符類型序列;并且,d)為每個(gè)字符類型序列確定模板。
      所述裝置通常包括用于存儲(chǔ)文本的存儲(chǔ)器,所述處理器用于從存儲(chǔ)器中獲得文本。
      所述處理器通常適用于執(zhí)行本發(fā)明的第3個(gè)主要方面的方法。


      下面結(jié)合附圖的描述使本發(fā)明變得清晰,但該描述僅通過(guò)舉例的方式,所述例子是優(yōu)選的,不僅僅局限于此實(shí)施例,其中圖1是適于實(shí)現(xiàn)本發(fā)明的處理系統(tǒng)的實(shí)施例。
      具體實(shí)施例方式
      以下通過(guò)書面描述和附加的權(quán)利要求來(lái)更好地理解本發(fā)明的主題。
      參照?qǐng)D1,描述一個(gè)適于實(shí)現(xiàn)本發(fā)明的裝置的實(shí)施例,圖1示出用于執(zhí)行手寫識(shí)別的處理系統(tǒng)10。
      特別是,處理系統(tǒng)10通常至少包括處理器20,內(nèi)存21,以及輸入裝置22,例如圖形輸入板和/或鍵盤,輸出裝置23,例如顯示器,如圖所示,通過(guò)總線24連接在一起。外部接口也如圖中25所示被提供,用于連接處理系統(tǒng)和存儲(chǔ)器11,例如數(shù)據(jù)庫(kù)。
      使用中,處理系統(tǒng)可用于實(shí)現(xiàn)兩個(gè)主要功能。特別是,處理系統(tǒng)可用于從一本文本全集中產(chǎn)生統(tǒng)計(jì)模板和/或在手寫文本的識(shí)別過(guò)程中使用統(tǒng)計(jì)模板??梢岳斫?,處理系統(tǒng)10可以是任何形式的處理系統(tǒng),例如一臺(tái)計(jì)算機(jī),一臺(tái)便攜式電腦,服務(wù)器,專業(yè)化硬件,諸如此類,通過(guò)執(zhí)行存儲(chǔ)在內(nèi)存21中的合適的應(yīng)用軟件來(lái)實(shí)現(xiàn)這些技術(shù)。
      就模板產(chǎn)生而論,處理系統(tǒng)適用于分析通常存儲(chǔ)在數(shù)據(jù)庫(kù)11中的文本。在這方面,所述處理器20識(shí)別在文本中的每個(gè)單詞或者字符串,并且評(píng)價(jià)字符的序列。所述處理器確定在每個(gè)單詞或者字符串中的字符類型,例如所述字符是否是字母,數(shù)字或者標(biāo)點(diǎn)符號(hào)。
      所述處理器確定各個(gè)字符串代表的模板。在這方面,所述模板由代表各自的字符類型的標(biāo)志組成。因此例如,單詞“the”的模板可以具有″aaa″形式,其中“a”代表一個(gè)字母。
      可以理解的是,相同的模板為不同的字符串產(chǎn)生。相應(yīng)地,例如,單詞“cat”和單詞“the”會(huì)導(dǎo)致相同的模板。
      處理器20記錄每一個(gè)模板在數(shù)據(jù)庫(kù)11中被確定的次數(shù)。
      一旦在文本內(nèi)全部單詞被分析完,也就承認(rèn)了在文本實(shí)例中出現(xiàn)的任何給定的模板的概率被確定。這可使用于手寫文本的識(shí)別。
      特別是,如果處理器20獲得手寫的文本,例如從輸入裝置22,或者數(shù)據(jù)庫(kù)11中,處理器將進(jìn)行最初評(píng)價(jià)來(lái)識(shí)別字符串,然后試圖確定字符串中每字符的身份。
      一般地說(shuō),處理器20執(zhí)行字符分類器,所述分類器會(huì)結(jié)合每個(gè)特性概率來(lái)決定許多可能的字符身份。
      這過(guò)程在整個(gè)字符串中重復(fù),這樣就產(chǎn)生了符合不同潛在字符串的許多潛在的字符識(shí)別組合。
      如上所述的模板被處理器20訪問(wèn),處理器20選擇與各個(gè)字符串的字符數(shù)量相同的模板。之后,處理器20確定特殊的字符身份和模板的組合的總概率,來(lái)允許確定最可能的字符串。
      這些技術(shù)將被詳細(xì)描述。
      統(tǒng)計(jì)模板的產(chǎn)生本部分描述在文本全集中產(chǎn)生統(tǒng)計(jì)模板,并給出由統(tǒng)計(jì)導(dǎo)出的模板的例子。
      概述字母代表手寫文本識(shí)別系統(tǒng)分類的基本元素。在英語(yǔ)中,字母可被歸類為按字母順序(‘a(chǎn)’-‘z’,‘A’-‘Z’),按數(shù)字順序(‘0’-‘9’),或者標(biāo)點(diǎn)符號(hào)(其他的)。在一般的字母字符識(shí)別中,字典和字符語(yǔ)法經(jīng)常被用于消除歧義。通常,字典和字符語(yǔ)法包括只是字母字符(盡管有時(shí)在模型包括撇號(hào),例如復(fù)合詞“they’re”和“he’ll”)的。
      由于大多數(shù)語(yǔ)言模型不包括關(guān)于數(shù)字和標(biāo)點(diǎn)符號(hào)的字母的早先的信息,識(shí)別系統(tǒng)采用試探法從一識(shí)別字符串中提取按字母順序或數(shù)值字符的字符串,然后采用語(yǔ)言模型進(jìn)行處理。然而,試探法通常不可靠,會(huì)導(dǎo)致下述的誤識(shí)別問(wèn)題,例如·字母字符串被識(shí)別為數(shù)字,·數(shù)值字符串被識(shí)別為字母,·包含文本和數(shù)值的單詞(例如2nd,V8,B2)被誤識(shí)別為字母的字符串或者數(shù)值字符串,·標(biāo)點(diǎn)符號(hào)誤識(shí)別為按字母順序或者數(shù)字,并且·字母或者數(shù)值字被誤識(shí)別為標(biāo)點(diǎn)。
      然而,在文本序列中存在的特定標(biāo)點(diǎn)字符可幫助解碼所述序列中的其他字符。例如,撇號(hào)可指示文本字符串,逗號(hào),貨幣符號(hào)和句號(hào)能指示數(shù)字字符串。含有破折號(hào)的單詞(句子)包含數(shù)字字符串和字母字符串的混合體(例如“30-year-old”或者“20-pound”)。除此之外,一些標(biāo)點(diǎn)字符通常出現(xiàn)在字符串中的特定位置(例如后綴標(biāo)點(diǎn),比如‘?’,‘!’,或者‘’)。
      統(tǒng)計(jì)語(yǔ)言模板的處理過(guò)程是一種關(guān)于書寫文本結(jié)構(gòu)的早先信息的編碼方法,使用概率模型在按字母字符,數(shù)字字符,和標(biāo)點(diǎn)字符之間互動(dòng)仿效。模型考慮位置信息,并且能夠通過(guò)考慮整個(gè)輸入單詞來(lái)仿效字母附屬物(而不是固定數(shù)量的本地先前的形態(tài),如在字符N-grams中)。
      字母標(biāo)志(Tokenisation)使用書面文本文集產(chǎn)生統(tǒng)計(jì)模板(從許多來(lái)源中收集一大套文本文件)。為了產(chǎn)生模板統(tǒng)計(jì),文集中的每一個(gè)文件被作為通過(guò)空白處來(lái)界定的一套連續(xù)的字母來(lái)處理(例如,單詞、句子和段落標(biāo)記)。這個(gè)字母的序列形成了一個(gè)字符串。
      在模板產(chǎn)生過(guò)程中,單個(gè)字母轉(zhuǎn)換成標(biāo)記,所述標(biāo)記代表字母所屬的種類(或者字符類型)。
      字母種類的定義具有明確范圍,并且基于需要被解決的含糊意義所選擇。下面的討論基于分類系統(tǒng)大寫和小寫字母被轉(zhuǎn)換為標(biāo)志‘a(chǎn)’,全部數(shù)字都轉(zhuǎn)換為標(biāo)志‘d’,并且剩下全部字符(例如標(biāo)點(diǎn))不被轉(zhuǎn)換,并且保留其初始值。
      代表單詞或者字符串的標(biāo)志序列定義模板。
      作為一個(gè)例子,字符串“15-years?”被轉(zhuǎn)換為模板“dd-aaaaa?”。需要指出的是,二者擇一的標(biāo)記(tokenisation)系統(tǒng)可用于模擬其它的語(yǔ)言形式,例如大寫和小寫的區(qū)別(例如“MacDonald”作為“ullulllll”,‘u’表示用大寫字母排印,‘l’表示小寫字母字符)。
      處理產(chǎn)生統(tǒng)計(jì)語(yǔ)言模板的目的是識(shí)別普通書寫文本的習(xí)語(yǔ),并且計(jì)算在書面文本遇到習(xí)語(yǔ)的概率。通過(guò)標(biāo)記(tokenising)在每一個(gè)分開(kāi)的單詞的空白處來(lái)進(jìn)行模型的訓(xùn)練,并且在表格里存儲(chǔ)結(jié)果,通常存儲(chǔ)在數(shù)據(jù)庫(kù)11內(nèi)。與每個(gè)模板相關(guān)的是一個(gè)計(jì)數(shù),所述計(jì)數(shù)指示在輸入流中特定模板出現(xiàn)的次數(shù)。
      當(dāng)文集中的全部文本處理完后,表格就包含了在文本中遇到的全部模板的列表,和每個(gè)模板出現(xiàn)次數(shù)的數(shù)值。顯而易見(jiàn),通常出現(xiàn)的模板(例如模板“aaa”代表“the”,“but”,或者“cat”)與可能性小的模板(例如模板“ada”代表“x1y”或者“b2b”)相比較,包含較高的數(shù)值。
      計(jì)算一個(gè)模板事前概率,模板數(shù)值除以全部模板計(jì)數(shù)的總數(shù)。這些數(shù)值可以作為記錄存儲(chǔ)以避免數(shù)字下溢,并且在識(shí)別期間解除處理。模板的記錄概率ti是P(ti)=log10(ci&Sigma;j=1ncj)]]>其中ci是在訓(xùn)練文本中模板i遇到的次數(shù)n是不同模板的總數(shù)量計(jì)算遇到所有模板的事前概率允許與不同數(shù)量的字母的模板相比較。這表明當(dāng)不知道字母或者單詞的分割,或者可能是許多交替的分割路線時(shí),語(yǔ)言模型可對(duì)輸入解碼有所幫助。
      但是,如果在識(shí)別時(shí)知道輸入字符串中的字母數(shù)量,模板模型可被分開(kāi),這樣可依據(jù)字母數(shù)量來(lái)分組。于是基于模板組的模板計(jì)數(shù)的數(shù)量,而不是在全組的全部計(jì)數(shù),就可計(jì)算出事前概率。
      過(guò)濾上述程序產(chǎn)生基于文本全書的模板概率的最大似然估計(jì)(MLE)。即,計(jì)算的概率是當(dāng)用于訓(xùn)練全書時(shí),那些給出的最高概率。沒(méi)有概率分布被分配到在訓(xùn)練文本過(guò)程中沒(méi)有遇到的模板,因此這些模板被分配為零概率。
      既然文本全書只代表潛在的輸入語(yǔ)言模型的一個(gè)子集,那么過(guò)濾模型必須被用于通過(guò)小數(shù)量來(lái)減少觀察事件的概率,并且對(duì)未出現(xiàn)事件分配大量殘余概率。這個(gè)程序被通常用于字符和單詞N-grams,象1999年由美國(guó)馬薩諸塞州劍橋市的麻省理工出版社出版的C.Manning和H.Schutze所著的“Foundationsof Statistical Natural Language Processing”中描述的那樣。因此在這種情形中,可容易地應(yīng)用相同的技術(shù)。
      在這個(gè)例子里,如“Foundations of Statistical Natural Language Processing”中描述的前面提到的Lidstones定律,用來(lái)過(guò)濾產(chǎn)生的概率,因此P(xi)=ci+&lambda;&Sigma;j=1ncj+B&lambda;]]>其中B是來(lái)自文集中的獨(dú)特模板的數(shù)量;λ是過(guò)濾因子(依經(jīng)驗(yàn)設(shè)定為.5)結(jié)果是非零概率可被分配到在訓(xùn)練全書中沒(méi)有出現(xiàn)的單詞結(jié)構(gòu),允許識(shí)別稀有的和不平常的單詞結(jié)構(gòu)。
      也可以理解的是,用于確定概率的文本全書越大,可獲得的概率越大。
      實(shí)施例結(jié)果訓(xùn)練過(guò)程匆匆瀏覽全書文本,這樣的例子記錄在1993年,D.Harman和M.Liberman所著的完整的情報(bào)全書(Complete TIPSTER Corpus)中,用來(lái)產(chǎn)生一套統(tǒng)計(jì)語(yǔ)言模板。在下面列出確定模板的例子。
      特別是,表格1包含在書面文本全書中出現(xiàn)頻率最高的二十個(gè)模板(從而具有最高的事前概率)。
      所述表格揭示了書寫文本的許多明顯的特性,例如短字一般比長(zhǎng)字更普通,并且逗號(hào)和句號(hào)是最可能的標(biāo)點(diǎn)字符并且作為單詞后綴出現(xiàn)。這些通過(guò)模板和相應(yīng)早先記錄概率定義的規(guī)則是絕對(duì)的,并且允許對(duì)輸入文本進(jìn)行魯棒(robust)的以及有統(tǒng)計(jì)根據(jù)的解碼。
      在上述表格中模板詳述了通過(guò)許多簡(jiǎn)單試探法描述的許多相當(dāng)明顯的語(yǔ)言規(guī)則(雖然這些規(guī)則的事前概率不太可能容易地并且準(zhǔn)確地估計(jì)到)。
      表1

      但是,對(duì)結(jié)果進(jìn)一步的檢查揭示了許多語(yǔ)言習(xí)語(yǔ),使用試探法準(zhǔn)確地模仿將非常困難,如表格2中詳述的那樣。這些模板在按字母順序的文字,數(shù)字以及標(biāo)點(diǎn)符號(hào)之間相互作用地作效仿,并且隱含地定義了一套關(guān)于書寫文本結(jié)構(gòu)的規(guī)則。
      表2


      需要注意的是,這種技術(shù)優(yōu)勢(shì)在于大量模板的產(chǎn)生,以及模板有關(guān)的概率。通常,產(chǎn)生數(shù)千模板,一同定義一套統(tǒng)計(jì)的完整的關(guān)于書寫文本結(jié)構(gòu)的規(guī)則。
      統(tǒng)計(jì)模板的處理本部分描述了使用統(tǒng)計(jì)模板來(lái)對(duì)手寫文本進(jìn)行解碼。給定了通用程序與一些例子的處理。也給定了怎樣將本技術(shù)與其他語(yǔ)言模型相結(jié)合的描述。
      概述手寫體字符識(shí)別的目的是準(zhǔn)確把書寫者產(chǎn)生的筆尖筆劃轉(zhuǎn)變成相應(yīng)文本。然而,在內(nèi)在含糊的手寫文本中,需要使用上下文的信息來(lái)識(shí)別輸入。如上述描述的那樣產(chǎn)生的統(tǒng)計(jì)模板對(duì)輸入的總體結(jié)構(gòu)的識(shí)別有所幫助,并且可以在識(shí)別過(guò)程中與其他語(yǔ)言模型相結(jié)合,例如字典和字符語(yǔ)法。
      大多數(shù)字符分類系統(tǒng)產(chǎn)生一套可能的字母匹配,及與輸入字母相結(jié)合的置信分值。例如,對(duì)字母‘a(chǎn)’分類時(shí),分類字母猜測(cè)如下述表格3設(shè)置的那樣。
      表3

      這(非正式地)表明分類器60%的置信度是字母‘a(chǎn)’,30%的置信度是字母‘d’,等等。需要指出的是,統(tǒng)計(jì)處理,分值應(yīng)該遵循概率規(guī)則,那就是
      0≤P(xi)≤1 對(duì)全部的i并且,&Sigma;i=1nP(xi)=1]]>對(duì)分類器來(lái)說(shuō)不產(chǎn)生概率(例如,分類器報(bào)告距離值),輸出的分值矢量應(yīng)該正?;员WC上述規(guī)章的持續(xù)。對(duì)于面向神經(jīng)網(wǎng)絡(luò)的分類器,一個(gè)正?;霓D(zhuǎn)變功能可用來(lái)使輸出值正常(例如用J.布里德?tīng)柮枋龅膕oftmax激活函數(shù),見(jiàn)1990年紐約施普林格出版社出版的《計(jì)算Neuro算法,建筑學(xué)和應(yīng)用》一書的第227-236頁(yè)的“Probabilistic Interpretation of FeedforwardClassification Network Outputs,with Relationships to Statistical PatternRecognition”一文)。
      解碼解碼是運(yùn)行在由字符分類器產(chǎn)生的一套字母假說(shuō)上,代表輸入單詞或者單詞序列。同模板聯(lián)合的概率意味著諸如字長(zhǎng)和標(biāo)點(diǎn)字符的位置等特征可用于統(tǒng)計(jì)單詞分割。因?yàn)榻y(tǒng)計(jì)模板能估計(jì)一個(gè)特定單詞結(jié)構(gòu)的概率,如果需要,他們可用來(lái)幫助單詞分割。
      但是,下面給出的描述假設(shè)已經(jīng)執(zhí)行單詞分割,并且解碼的程序只被要求提供最可能的字母序列,由字符分類器的輸出所給出。這是通過(guò)查找模板來(lái)實(shí)現(xiàn)的,通過(guò)字符分類器產(chǎn)生的字符概率與模板可能的事前概率相結(jié)合給出最大分值P(wi)=P(ti)&times;&Pi;j=1nP(xij)]]>其中n=輸入字符串中的字母的數(shù)量P(wi)=字母序列的概率P(xij)=在模板ti的位置j處,分類器的得分標(biāo)志(見(jiàn)下)P(ti)=模板ti的事前概率在計(jì)算P(xij)的值的時(shí)候,標(biāo)志種類中最高的分值成員(在字母位置j使用分類器假說(shuō))被使用。例如,如果模板包含‘a(chǎn)’,最高排列分值的字母字符被使用。類似的,如果這個(gè)模板包含‘d’,最高排列分值的數(shù)字的被使用。對(duì)標(biāo)點(diǎn)來(lái)說(shuō),被指定的標(biāo)點(diǎn)字符的分值被使用。
      如果記錄概率用于模板,分類器輸出也必須轉(zhuǎn)換為記錄概率,解碼程序找到最大值P(wi)=P(ti)+&Sigma;j=1nP(xij)]]>舉例來(lái)說(shuō),假設(shè)一個(gè)分類器已經(jīng)從字符串“30-day”產(chǎn)生表4所示的分值,對(duì)于字符指示。
      表4

      在這個(gè)例中,黑色字體示出了正確的解碼路徑。
      如果這些分值轉(zhuǎn)換為記錄概率并且適用于與長(zhǎng)度相配的全部模板,然后最高分值的模板如表格5所示。
      表5

      其中P(ti)是從文本文集中統(tǒng)計(jì)上導(dǎo)出的模板事前概率。
      為了計(jì)算模板“dd-aaa”的字母序列的概率P(wi),處理器20執(zhí)行的計(jì)算過(guò)程如下
      P(wi)=-3.782-0.060-0.319-0.013-0.276-0.237-0.276=-4.963用模板“aaaaaa”計(jì)算P(wi),計(jì)算過(guò)程是P(wi)=-1.171-1.097-0.301-1.699-0.276-0.237-0.276=-5.056用模板“dddddd”計(jì)算P(wi),計(jì)算過(guò)程是P(wi)=-4.549-0.060-0.319-2.000-1.155-1.699-1.699=-6.932找到最高分值的模板(“dd-aaa”),相應(yīng)的文本作為正確的字串(“30-day”)被選擇。
      需要指出的是,最大可能性解碼(例如,在每一個(gè)位置取最可能的字符)將不找到正確的文本(如“3o-day”是最大可能性順序)。
      語(yǔ)言模型結(jié)合在上述例子中,字符串最好匹配的模板被選擇為解碼字符串。通常,被匹配的模板將與其他語(yǔ)言模型相結(jié)合用于另外的處理。
      例如,不是從字符串的字母部分取最大可能性字母(例如,“day”),而是將來(lái)自這部分的分類器分值傳給一本字典或者字符語(yǔ)法來(lái)做進(jìn)一步的解碼。
      或者,通過(guò)用一個(gè)附加的語(yǔ)言模型,對(duì)來(lái)自許多最高分值的模板的文本段進(jìn)行處理,作為結(jié)果的分值被結(jié)合產(chǎn)生最后的單詞概率。
      因此,可以理解的是,如上所述的處理提供一種在手寫字符識(shí)別中使用統(tǒng)計(jì)語(yǔ)言模板用于上下文處理的方法。這包括要求從一文本全集產(chǎn)生模板的過(guò)程,以及使用模板對(duì)字符分類器輸出進(jìn)行解碼的技術(shù)。
      特別是,與現(xiàn)有技術(shù)的方法相比,使用較少處理能力,這些技術(shù)一般就能執(zhí)行更快、更準(zhǔn)確的手寫識(shí)別。
      廣義上說(shuō),在應(yīng)用的說(shuō)明書中引用或者表示的本發(fā)明包括部分、元素和特征,逐個(gè)地或者全體地,兩個(gè)或者多個(gè)所述部分、元素或者特征的一些或者所有組合,在此提到的特定數(shù)字在與本發(fā)明相關(guān)的領(lǐng)域是已知的,即使是分別提出的,這些已知知識(shí)與本發(fā)明也是融為一體的。
      盡管上面對(duì)優(yōu)選實(shí)施方式進(jìn)行了詳細(xì)地描述,但本領(lǐng)域的普通技術(shù)人員仍然可以在不脫離下述請(qǐng)求保護(hù)的本發(fā)明范圍的情況下,做出各種改變、替換和更改。
      權(quán)利要求
      1.一種識(shí)別由許多手寫字符組成的字符串的方法,包括a)確定字符串中每個(gè)字符的字符概率,每個(gè)字符概率表示各個(gè)字符是許多預(yù)先確定的字符中的一個(gè)的可能性;b)確定所述字符串的模板概率,每個(gè)模板概率代表字符串與許多模板中的一個(gè)模板相符合的可能性,每個(gè)模板代表字符類型的各自結(jié)合;c)根據(jù)確定的字符和模板概率來(lái)確定字符串概率;以及d)根據(jù)確定的字符串概率來(lái)識(shí)別字符串。
      2.根據(jù)權(quán)利要求1所述的方法,每一個(gè)預(yù)先確定的字符都具有各自的字符類型。
      3.根據(jù)權(quán)利要求1或2所述的方法,所述字符類型包括至少下述類型之一a)數(shù)字;b)字母;以及c)標(biāo)點(diǎn)符號(hào)。
      4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的方法,確定字符概率的方法包括使用字符分類器。
      5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法,確定模板概率的方法包括a)確定字符串中字符的數(shù)量;b)選擇具有相同的字符數(shù)量的模板;以及c)獲得每一個(gè)選定模板的模板概率。
      6.根據(jù)權(quán)利要求5所述的方法,所述模板概率通過(guò)文本文集的統(tǒng)計(jì)分析來(lái)預(yù)先決定。
      7.根據(jù)權(quán)利要求5或6所述的方法,包括確定與每個(gè)模板相符合的一個(gè)潛在的字符串,通過(guò)a)確定來(lái)自模板的字符串中每個(gè)字符的字符類型;以及b)為所述模板內(nèi)的每個(gè)字符選擇一個(gè)預(yù)先確定的字符,預(yù)先確定的字符根據(jù)確定的字符類型和字符概率來(lái)選擇。
      8.根據(jù)權(quán)利要求7所述的方法,所述被選擇的預(yù)先確定字符是具有最高字符概率的預(yù)先確定的字符。
      9.根據(jù)權(quán)利要求7或8所述的方法,所述識(shí)別字符串的方法包括a)為每個(gè)潛在的字符串確定字符串概率,所述字符串概率是通過(guò)連接每一個(gè)被選擇字符的字符概率和各個(gè)模板概率來(lái)確定;以及b)確定所述字符串是具有最高的字符串概率的潛在字符串。
      10.根據(jù)權(quán)利要求1至9中任一項(xiàng)所述的方法,其通過(guò)處理系統(tǒng)來(lái)執(zhí)行,所述處理系統(tǒng)包括a)存儲(chǔ)器,存儲(chǔ)至少下述中的一個(gè)i)預(yù)先確定的字符;ii)模板數(shù)據(jù),代表至少下述中的一個(gè)(1)模板;以及,(2)模板概率;以及,b)處理器,用于i)接收字符串;ii)確定字符串中每個(gè)字符的字符概率;iii)確定模板概率;iv)根據(jù)確定的字符和模板概率來(lái)確定字符串概率;并且,v)根據(jù)確定的字符串概率來(lái)識(shí)別字符串。
      11.一種識(shí)別由許多手寫字符組成的字符串的裝置,包括a)存儲(chǔ)器,存儲(chǔ)至少下述中的一個(gè)i)許多預(yù)先確定的字符;ii)代表許多模板的模板數(shù)據(jù);以及b)處理器,用于i)確定字符串中每個(gè)字符的字符概率,每個(gè)字符概率表示各個(gè)字符是許多預(yù)先確定的字符中的一個(gè)的可能性;ii)確定所述字符串的模板概率,每個(gè)模板概率代表字符串與許多模板中的一個(gè)模板相符合的可能性,每個(gè)模板代表字符類型的各自結(jié)合;iii)根據(jù)確定的字符和模板概率來(lái)確定字符串概率;以及iv)根據(jù)確定的字符串概率來(lái)識(shí)別字符串。
      12.根據(jù)權(quán)利要求11所述的裝置,所述處理器連接輸入端,且進(jìn)一步用于通過(guò)輸入端接收手寫的字符。
      13.根據(jù)權(quán)利要求10或11所述的裝置,所述處理器用于執(zhí)行權(quán)利要求1至9中任一項(xiàng)所述的方法。
      14.一種產(chǎn)生用于識(shí)別手寫體的模板的方法,包括a)獲得文本;b)識(shí)別文本中的字符串,每個(gè)字符串由一個(gè)或多個(gè)字符的序列形成,每個(gè)字符具有各自的類型;c)為每個(gè)字符串確定字符類型序列;以及d)為每個(gè)字符類型序列確定模板。
      15.根據(jù)權(quán)利要求14所述的方法,包括a)統(tǒng)計(jì)分析確定的模板;以及b)根據(jù)統(tǒng)計(jì)分析確定模板概率,所述模板概率表明在文本中各個(gè)字符類型序列出現(xiàn)的概率。
      16.根據(jù)權(quán)利要求14或15所述的方法,包括a)確定在文本中每種字符類型序列出現(xiàn)的頻率;以及b)根據(jù)確定的每個(gè)字符類型序列的頻率來(lái)確定模板概率。
      17.根據(jù)權(quán)利要求16所述的方法,還包括修改確定的模板概率來(lái)解釋數(shù)量有限的字符類型序列。
      18.根據(jù)權(quán)利要求17所述的方法,包括根據(jù)Lidstone定律來(lái)修改所述概率。
      19.根據(jù)權(quán)利要求14至18中任一項(xiàng)所述的方法,包括從一大的文本文集中獲得文本。
      20.根據(jù)權(quán)利要求14至19中任一項(xiàng)所述的方法,包括從許多不同的來(lái)源獲得文本。
      21.根據(jù)權(quán)利要求14至20中任一項(xiàng)所述的方法,采用處理系統(tǒng)來(lái)執(zhí)行,所述處理系統(tǒng)具有a)存儲(chǔ)器,用于存儲(chǔ)文本;以及b)處理器,用于i)識(shí)別文本中的字符串;ii)確定字符類型序列;以及iii)確定模板。
      22.一種產(chǎn)生用于識(shí)別手寫體的模板的裝置,包括處理器,適用于a)獲得文本;b)識(shí)別文本中的字符串,每個(gè)字符串由一個(gè)或多個(gè)字符的序列形成,每個(gè)字符具有各自的類型;c)為每個(gè)字符串確定字符類型序列;以及d)為每個(gè)字符類型序列確定模板。
      23.根據(jù)權(quán)利要求22所述的裝置,包括用于存儲(chǔ)文本的存儲(chǔ)器,所述處理器用于從存儲(chǔ)器中獲得文本。
      24.根據(jù)權(quán)利要求22或23所述的裝置,用于執(zhí)行權(quán)利要求14至21中任一項(xiàng)所述的方法。
      全文摘要
      本發(fā)明提供一種識(shí)別由許多手寫的字符組成的字符串的方法,例如手寫單詞。為了完成上述目的,所述方法用來(lái)確定字符串中的每一個(gè)字符的字符概率,也即確定所述字符串符合預(yù)先決定模板形式的概率。在這方面,每個(gè)模板代表字符類型各自的結(jié)合。模板和字符概率結(jié)合來(lái)確定字符串概率,根據(jù)確定的字符串概率來(lái)識(shí)別字符串。
      文檔編號(hào)G06K9/72GK1571980SQ02820475
      公開(kāi)日2005年1月26日 申請(qǐng)日期2002年10月15日 優(yōu)先權(quán)日2001年10月15日
      發(fā)明者喬納森·利·納珀 申請(qǐng)人:西爾弗布魯克研究有限公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1