專利名稱:識別圖像塊中文字的方向的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及文檔圖像處理。具體而言,本發(fā)明涉及一種識別圖像塊中文字的方向的方法和裝置。
背景技術(shù):
當用戶使用掃描儀等設備對一疊文檔進行掃描時,理想的輸入是每個文檔的每一頁都以正向放置。以正向放置文檔時,用戶能夠輕松閱讀該文檔,掃描出的文檔圖像也無需用戶調(diào)整方向即可閱讀。然而,實際使用中,用戶要掃描的文檔往往是以正向0°、反向180°、橫向90°和270°交疊放置。如果用戶需要在掃描時對文檔的放置方向進行逐頁的檢查和調(diào)整,工作是繁重而耗時的。因此,掃描儀設計有自動文檔圖像方向判別的功能。基于自動文檔圖像方向判別功能,掃描得到的文檔圖像可以被調(diào)整為正向,從而減輕了用戶的負擔,提高了用戶的使用效率。傳統(tǒng)的文檔圖像自動判別方法是找到文檔圖像中的文本行,在4個可能的方向上分別做光學字符識別OCR (Optical Character Recognition)處理,得到4個可能方向上的識別字符及對應的置信度或識別距離,并計算文本行的平均置信度或平均識別距離。平均置信度最大或平均識別距離最小的方向被判別為文本行的方向。進而根據(jù)文本行的方向判斷文檔圖像的方向。文本行的方向是指文本行的正向,文檔圖像的方向是指文檔圖像的正向。下文中,文字(的)方向是指文字的正向。
發(fā)明內(nèi)容
在下文中給出了關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應當理解,這個概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。如圖1所示,輸入文本行“TIP AMOUNT”的圖像塊,設該方向為0°方向,將該文本行圖像塊旋轉(zhuǎn)180°得到180°方向的文本行圖像塊。由于90°和270°方向與0°和180°方向的處理類似,因此這里僅以0°和180°為例進行說明。分別對0°和180°上的文本行圖像塊進行光學字符識別OCR處理,得到如圖I中所示的兩個方向上的子圖像塊、子圖像塊對應的識別字符及其置信度。采用傳統(tǒng)的方法,0°方向上識別字符的平均置信度=(O. 54+0. 36+0. 48+0. 61+0.62+0. 61+0. 58+0. 65)/8 = O. 55625,180。方向上識別字符的平均置信度=(O. 62+0. 58+0.65+0. 62+0. 46+0. 50+0. 61)/7 = O. 5771。由于 O. 55625 小于O. 5771,傳統(tǒng)的方法會將 180。方向(即平均置信度高的方向)錯誤地判斷為文本行圖像塊中文字的方向。產(chǎn)生上述錯誤的原因之一是采用支持多語種的OCR引擎時,OCR引擎給出的識別字符有時會屬于不同的語種。這一點是容易理解的。因為屬于一個語種的字符在其被正向放置時容易被識別為屬于正確語種的字符,而其經(jīng)過旋轉(zhuǎn)90°、180°、270°之后不總能夠被識別為同語種的字符,反而可能會與其它語種中的字符形似。現(xiàn)有技術(shù)中,缺乏對語種一致性的考慮。本發(fā)明的發(fā)明人意識到文字經(jīng)多個角度旋轉(zhuǎn)后得到的各個方向的OCR識別結(jié)果中,正向的文字被OCR引擎誤判為其它語種字符的概率最低,因而該方向的各個識別字符的語種一致性更高,因此,對包含文字的圖像塊分別以不同的方向作為假設文字方向進行OCR處理,得到在各個所述假設文字方向上的子圖像塊、子圖像塊對應的識別字符及其正確性度量時,能夠在其中的至少一個方向上判斷出圖像塊中的文字所屬的語種,并且識別結(jié)果中與所判斷的語種不同的識別字符更有可能對應不是正向的文字。在傳統(tǒng)的利用平均識別置信度來判斷文本行方向的方法中,由于沒有考慮到語種的一致性,造成了一定的性能下降。本發(fā)明的目的是針對上述問題,提出了一種能夠正確識別圖像塊中文字的方向的方法和裝置。該方案通過考慮識別字符的語種一致性并據(jù)此對子圖像塊對應的正確性度量 (置信度或識別距離)進行調(diào)整,能夠提高自動文檔圖像方向判別的正確率。為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種識別圖像塊中文字的方向的方法,包括分別以不同的方向作為假設文字方向?qū)λ鰣D像塊進行光學字符識別處理,以得到在各個所述假設文字方向上的子圖像塊、子圖像塊對應的識別字符及其正確性度量;判斷圖像塊中文字所屬的語言組;調(diào)整各個所述假設文字方向上不屬于所判斷的語言組的識別字符所對應的子圖像塊對應的正確性度量;基于調(diào)整后的正確性度量計算各個所述假設文字方向上的累積正確性度量;以及根據(jù)所述累積正確性度量識別圖像塊中文字的方向。根據(jù)本發(fā)明的一個具體實施例,所述正確性度量包括置信度和識別距離。根據(jù)本發(fā)明的一個具體實施例,所述調(diào)整各個所述假設文字方向上不屬于所判斷的語言組的識別字符所對應的子圖像塊對應的正確性度量包括減小該子圖像塊對應的置信度或增大該子圖像塊對應的識別距離。根據(jù)本發(fā)明的一個具體實施例,所述調(diào)整各個所述假設文字方向上不屬于所判斷的語言組的識別字符所對應的子圖像塊對應的正確性度量包括將該子圖像塊對應的置信度或識別距離調(diào)整為該子圖像塊所對應的在該假設文字方向上屬于所判斷的語言組的所有候選字符所對應的置信度中的最大置信度或所對應的識別距離中的最小識別距離;并且當該子圖像塊所對應的在該假設文字方向上的所有候選字符均不屬于所判斷的語言組時,將該子圖像塊所對應的在該假設文字方向上的所有候選字符所對應的置信度中的最小置信度或所對應的識別距離中的最大識別距離作為該子圖像塊對應的置信度或識別距離。根據(jù)本發(fā)明的一個具體實施例,所述判斷圖像塊中文字所屬的語言組包括分別在各個假設文字方向上,計算屬于各個語言組的識別字符所對應的子圖像塊個數(shù)占該假設文字方向上的所有子圖像塊個數(shù)的比例;當屬于某個語言組的識別字符所對應的子圖像塊個數(shù)占該假設文字方向上的所有子圖像塊個數(shù)的比例大于第一閾值時,將該語言組判斷為圖像塊中文字所屬的語言組。根據(jù)本發(fā)明的一個具體實施例,所述判斷圖像塊中文字所屬的語言組包括分別在各個假設文字方向上,計算屬于各個語言組的識別字符所對應的子圖像塊個數(shù)占該假設文字方向上的所有子圖像塊個數(shù)的比例;當屬于某個語言組的識別字符所對應的子圖像塊個數(shù)占該假設文字方向上的所有子圖像塊個數(shù)的比例大于第一閾值且屬于該語言組的核心字符集的識別字符所對應的子圖像塊個數(shù)占該假設文字方向上的所有子圖像塊個數(shù)的比例大于第二閾值時,將該語言組判斷為圖像塊中文字所屬的語言組。根據(jù)本發(fā)明的一個具體實施例,所述語言組包括拉丁語言組;所述拉丁語言組包括拉丁字母、阿拉伯數(shù)字和非文字符號;所述第一閾值的取值范圍為(O. 65,0. 85)。根據(jù)本發(fā)明的一個具體實施例,所述語言組包括韓文語言組、中文/日文語言組;所述韓文語言組包括韓文字母、拉丁字母、阿拉伯數(shù)字和非文字符號,所述韓文語言組的核心字符集包括韓文字母;所述中文/日文語言組包括簡體漢字、繁體漢字、日文漢字、日文平假名、日文片假名、拉丁字母、阿拉伯數(shù)字和非文字符號,所述中文/日文語言組的核心字符集包括簡體漢字、繁體漢字、日文漢字、日文平假名、日文片假名;所述第一閾值的取值范圍為(O. 65,O. 85),所述第二閾值的取值范圍為(O. 45,O. 65)。根據(jù)本發(fā)明的另一個方面,提供了一種識別圖像塊中文字的方向的裝置,包括光 學字符識別處理單元,配置為分別以不同的方向作為假設文字方向?qū)λ鰣D像塊進行光學字符識別處理,以得到在各個所述假設文字方向上的子圖像塊、子圖像塊對應的識別字符及其正確性度量;語言組判斷單元,配置為判斷圖像塊中文字所屬的語言組;子圖像塊調(diào)整單元,配置為調(diào)整各個所述假設文字方向上不屬于所判斷的語言組的識別字符所對應的子圖像塊對應的正確性度量;累積正確性度量計算單元,配置為基于調(diào)整后的正確性度量計算各個所述假設文字方向上的累積正確性度量;以及文字方向識別單元,配置為根據(jù)所述累積正確性度量識別圖像塊中文字的方向。根據(jù)本發(fā)明的一個具體實施例,所述子圖像塊調(diào)整單元被配置為減小各個所述假設文字方向上不屬于所判斷的語言組的識別字符所對應的子圖像塊對應的置信度或增大該子圖像塊對應的識別距離。根據(jù)本發(fā)明的一個具體實施例,所述子圖像塊調(diào)整單元被配置為將各個所述假設文字方向上不屬于所判斷的語言組的識別字符所對應的子圖像塊對應的置信度或識別距離調(diào)整為該子圖像塊所對應的在該假設文字方向上屬于所判斷的語言組的所有候選字符所對應的置信度中的最大置信度或所對應的識別距離中的最小識別距離;并且當該子圖像塊所對應的在該假設文字方向上的所有候選字符均不屬于所判斷的語言組時,將該子圖像塊所對應的在該假設文字方向上的所有候選字符所對應的置信度中的最小置信度或所對應的識別距離中的最大識別距離作為該子圖像塊對應的置信度或識別距離。另外,根據(jù)本發(fā)明的另一方面,還提供了一種存儲介質(zhì)。所述存儲介質(zhì)包括機器可讀的程序代碼,當在信息處理設備上執(zhí)行所述程序代碼時,所述程序代碼使得所述信息處理設備執(zhí)行根據(jù)本發(fā)明的上述方法。此外,根據(jù)本發(fā)明的再一方面,還提供了一種程序產(chǎn)品。所述程序產(chǎn)品包括機器可執(zhí)行的指令,當在信息處理設備上執(zhí)行所述指令時,所述指令使得所述信息處理設備執(zhí)行根據(jù)本發(fā)明的上述方法。
參照下面結(jié)合附圖對本發(fā)明實施例的說明,會更加容易地理解本發(fā)明的以上和其它目的、特點和優(yōu)點。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類似的技術(shù)特征或部件將采用相同或類似的附圖標記來表示。附圖中圖I示出了文本行圖像塊在OCR處理后所得到的0°和180°方向上的子圖像塊、識別字符及其置信度、候選字符及其置信度;圖2示出了文本行圖像塊在OCR處理后所得到的0°和180°方向上的子圖像塊、識別字符及其識別距離、候選字符及其識別距離;圖3示出根據(jù)本發(fā)明的一個實施例的識別圖像塊中文字的方向的方法的流程圖;圖4示出根據(jù)本發(fā)明的一個實施例的識別圖像塊中文字的方向的識別裝置的結(jié)構(gòu)方框圖;以及圖5示出可用于實施根據(jù)本發(fā)明實施例的方法和裝置的計算機的示意性框圖。
具體實施方式
在下文中將結(jié)合附圖對本發(fā)明的示范性實施例進行詳細描述。為了清楚和簡明起見,在說明書中并未描述實際實施方式的所有特征。然而,應該了解,在開發(fā)任何這種實際實施例的過程中必須做出很多特定于實施方式的決定,以便實現(xiàn)開發(fā)人員的具體目標,例如,符合與系統(tǒng)及業(yè)務相關(guān)的那些限制條件,并且這些限制條件可能會隨著實施方式的不同而有所改變。此外,還應該了解,雖然開發(fā)工作有可能是非常復雜和費時的,但對得益于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任務。在此,還需要說明的一點是,為了避免因不必要的細節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系不大的其他細節(jié)。另外,還需要指出的是,在本發(fā)明的一個附圖或一種實施方式中描述的元素和特征可以與一個或更多個其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。在本文中進行如下假設,已經(jīng)從文檔圖像中找到文本行,并從文檔圖像中分割出包含文本行的圖像塊。本發(fā)明的重點并不在于如何從文檔圖像中搜索文本行的位置,而關(guān)注如何正確識別包含文本行的圖像塊中文字的正確方向。一般而言,主要考慮四個主要方向作為假設文字方向。即圖像塊本身的方向(0°方向)、將圖像塊旋轉(zhuǎn)180°的方向、將圖像塊旋轉(zhuǎn)90°的方向、將圖像塊旋轉(zhuǎn)270°的方向,也可稱為圖像塊的橫向上的兩個方向和縱向上的兩個方向。90°和270°方向主要應用于漢語、日語等可能豎寫文字的情形。由于0°和180°方向與90°和270°方向的情況類似,因此,在下文中以0°和180°方向為例進行說明。下面將參照圖3描述根據(jù)本發(fā)明的一個實施例的識別圖像塊中文字的方向的方法的流程。首先,以0°和180°作為假設文字方向?qū)D像塊進行OCR處理,以得到0°和180°方向上的子圖像塊、子圖像塊對應的識別字符及其正確性度量(步驟S301)。圖I示出了 0°和180°方向上的子圖像塊、識別字符、置信度的示例,并對子圖像塊設置了序號。圖2示出了 0°和180°方向上的子圖像塊、識別字符、識別距離的示例,并對子圖像塊設置了序號。OCR識別結(jié)果一般包括分割出的子圖像塊、子圖像塊對應的識別字符、識別字符的正確性度量。正確性度量反映了識別字符的可靠程度,通常為置信度或識別距離。置信度越大,識別字符正確的可能性越大;識別距離越小,識別字符正確的可能性越大。接著,判斷圖像塊中文字所屬的語言組(步驟S302)。如上所述,出現(xiàn)錯誤的原因之一是沒有考慮到語種的一致性。在實際生活中,書寫的文字往往除了主要的語種外,摻雜有少量其它語種的字符、阿拉伯數(shù)字、非文字符號等,例如,以中文書寫文字時,可能混用“good lUCk”、“5782”、“Y”、“%”等不屬于漢字的符號。因此,在本發(fā)明中并不局限于語種,而是采用語言組的概念。語言組包括拉丁語言組、韓文語言組、中文/日文語言組等。拉丁語言組包括拉丁字母、阿拉伯數(shù)字和非文字符號等。非文字符號例如是“Y”、 等。韓文語言組包括韓文字母、拉丁字母、阿拉伯數(shù)字和非文字符號等。由于拉丁字母經(jīng)常出現(xiàn)在醫(yī)學名詞、植物品種等中,并經(jīng)常在其它語言中混用,因此,在非拉丁語言組中包括拉丁字母、阿拉伯數(shù)字、非文字符號等。但正是由于例如韓文語言組之類的其它語言組包含了拉丁語言組的全部內(nèi)容,為了防止將拉丁語言組誤判為其它語言組,需要對其它語言組進行進一步的表征以與拉丁語言組區(qū)分。因此,對于其它語言組,還設置了核心字符集。一個語言組的核心字符集包括了該語言組區(qū)別于拉丁語言組的字符集合。例如,韓文語言組的核心字符集包括韓文字母。類似地,中文/日文語言組包括簡體漢字、繁體漢字、日文漢字、日文平假名、日文片假名、拉丁字母、阿拉伯數(shù)字和非文字符號。中文/日文語言組的核心字符集包括簡體漢字、繁體漢字、日文漢字、日文平假名、日文片假名。進行這樣的設置是因為由于歷史上文化傳播的原因,日文書寫的文字中經(jīng)常包含漢字。上述給出的拉丁語言組、韓文語言組、中文/日文語言組僅僅作為語言組的示例。本領(lǐng)域技術(shù)人員能夠在給出的示例的基礎上容易地想到其它語言組的設計。例如,俄文語言組可包括俄文字母、拉丁字母、阿拉伯數(shù)字和非文字符號等。判斷圖像塊中文字所屬的語言組的方法有多種。在此,給出基于OCR處理結(jié)果的示例性方法,但本發(fā)明不限于此。分別在各個假設文字方向上,計算屬于各個語言組的識別字符所對應的子圖像塊個數(shù)占該假設文字方向上的所有子圖像塊個數(shù)的比例。拉丁語言組的判定條件是,當其中一個假設文字方向上、屬于拉丁語言組的識別字符所對應的子圖像塊個數(shù)占該假設文字方向上的所有子圖像塊個數(shù)的比例大于第一閾值時,判斷圖像塊中文字所屬的語言組為拉丁語言組。確定一個語言組的第一閾值可以基于對屬于該語言組的語料構(gòu)造的語料庫進行統(tǒng)計分析。第一閾值相對較高,因為在使用一種語言寫成的文字中,屬于該語言的字符應占主導地位。經(jīng)過統(tǒng)計分析,拉丁語言組的第一閾值的取值范圍宜取(O. 65,O. 85),優(yōu)選為O. 7。韓文語言組的判定條件是,當其中一個假設文字方向上、屬于韓文語言組的識別字符所對應的子圖像塊個數(shù)占該假設文字方向上的所有子圖像塊個數(shù)的比例大于第一閾值且屬于韓文語言組的核心字符集的識別字符所對應的子圖像塊個數(shù)占該假設文字方向上的所有子圖像塊個數(shù)的比例大于第二閾值時,判斷圖像塊中文字所屬的語言組為韓文語言組。同樣,確定一個語言組的第二閾值也可以基于對屬于該語言組的語料構(gòu)造的語料庫進行統(tǒng)計分析。顯然,第一閾值高于第二閾值。經(jīng)過統(tǒng)計分析,韓文語言組的第一閾值的取值范圍宜取(O. 65,O. 85),優(yōu)選為O. 7,第二閾值的取值范圍宜取(O. 45,O. 65),優(yōu)選為O. 5。中文/日文語言組的判斷方法和韓文語言組類似。對于不同的語言組,可根據(jù)統(tǒng)計分析的結(jié)果并基于經(jīng)驗和語言學知識設定不同的第一閾值和第二閾值。
如上所述,在各個假設文字方向上分別判斷圖像塊中文字所屬的語言組是否是拉丁語言組、韓文語言組、中文/日文語言組等。只要在一個假設文字方向上滿足上述條件之一即可判定圖像塊中文字所屬的語言組。為了與實際的文字組成情況相符,在非拉丁語言組中引入了拉丁語言組的全部元素。同時通過引入了核心字符集的概念能夠有效地區(qū)分拉丁語言組和非拉丁語言組,避免了出現(xiàn)在各個假設文字方向上判斷出圖像塊中文字屬于不同語言組的情況。例如,在圖I所示的示例中,0°方向上的識別字符為U、P、A、H、0、V、N、「。設第一閾值為O. 7,第二閾值為O. 5。其中,屬于拉丁語言組的識別字符個數(shù)為8,每個識別字符對應一個子圖像塊,該方向上的子圖像塊個數(shù)為8,100%大于第一閾值O. 7,因此判斷出圖像塊中文字所屬的語言組是拉丁語言組。類似地,180°方向上也能判斷出圖像塊中文字所屬的語言組是拉丁語言組。韓文語言組、中文/日文語言組雖然滿足第一閾值的條件但不滿足第二閾值的條件,從而被排除。接著,在步驟S303中,調(diào)整各個所述假設文字方向上不屬于所判斷的語言組的識別字符所對應的子圖像塊對應的正確性度量。 具體地,減小該子圖像塊對應的置信度或增大該子圖像塊對應的識別距離。這是因為根據(jù)如上分析的結(jié)果,在判斷出正確的所屬語種的情況下,屬于其它語種的識別字符更有可能是由于正向字符被旋轉(zhuǎn)后導致的錯誤識別結(jié)果。因此,減小置信度或增大識別距離以使得基于正確性度量的圖像塊中文字方向的判斷結(jié)果更為準確。因而可以理解,減小置信度和增大識別距離,只要是在合理的程度內(nèi)均可。這里給出一種更為具體的實施方式。在OCR引擎對圖像塊進行切割和識別時,通常會獲得多個子圖像塊,對于每個子圖像塊,可以給出具有不同正確性度量的多個候選字符,其按置信度減小或識別距離增大的順序排列,如圖1、2下方所示。通常將具有最高置信度或最小識別距離的候選字符作為識別字符給出。然而,如上所述,某個假設文字方向上的某個識別字符可能不屬于圖像塊中文字所屬的語言組,例如圖1、2中的子圖像塊N3、N5所對應的識別字符。但是對于N3、N5,其在該假設文字方向上的部分候選字符可能屬于圖像塊中文字所屬的語言組。因此,可取子圖像塊對應的在該假設文字方向上屬于圖像塊中文字所屬的語言組的所有候選字符所對應的置信度中的最大置信度或所對應的識別距離中的最小識別距離作為該子圖像塊對應的調(diào)整后的置信度或識別距離。顯然,調(diào)整后的置信度減小,調(diào)整后的識別距離增大。對于該子圖像塊所對應的在該假設文字方向上的所有候選字符均不屬于圖像塊中文字所屬的語言組的情況,可將該子圖像塊所對應的在該假設文字方向上的所有候選字符所對應的置信度中的最小置信度或所對應的識別距離中的最大識別距離作為該子圖像塊對應的調(diào)整后的置信度或識別距離。例如,在圖1、2所示的示例中,N3、N5的識別字符并不屬于在步驟S302中判斷的拉丁語言組。因此,從N3對應的候選字符中搜索屬于拉丁語言組且具有最大置信度或最小識別距離的候選字符。圖I中示出候選字符“n”,其屬于拉丁語言組,且具有該方向上N3對應的候選字符中最高的置信度O. 49。因此,將O. 49代替O. 65作為N3對應的置信度。類似地,N5對應的置信度被調(diào)整為O. 39。同理,圖2中N3、N5對應的識別距離被分別調(diào)整為920,1230ο
接著,在步驟S304中基于調(diào)整后的正確性度量計算各個所述假設文字方向上的累積正確性度量。在步驟S305中,根據(jù)所述累積正確性度量識別圖像塊中文字的方向。累積正確性度量包括累積置信度和累計識別距離。累積置信度是用來表征一個方向上文本行圖像塊的識別結(jié)果整體的正確性度量。通常可以將一個假設文字方向上的所有子圖像塊對應的置信度之和作為該方向上的累積置信度。也可以將一個假設文字方向上的所有子圖像塊對應的置信度的算術(shù)平均值作為該方向上的累積置信度。累積置信度更高的方向更有可能是正確的識別結(jié)果。由于各個方向上的子圖像塊個數(shù)可能不同,因此,平均置信度更為可靠。累積識別距離也是用來表征一個方向上文本行圖像塊的識別結(jié)果整體的正確性度量。類似地,可以將一個假設文字方向上的所有子圖像塊對應的識別距離之和作為該方向上的累積識別距離。也可以將一個假設文字方向上的所有子圖像塊對應的識別距離的算 術(shù)平均值作為該方向上的累積識別距離。累積識別距離更小的方向更有可能是正確的識別結(jié)果。由于各個方向上的子圖像塊個數(shù)可能不同,因此,平均識別距離更為可靠。在圖I的示例中,經(jīng)步驟S301-S303后,O。方向累積置信度=(O. 54+0. 36+0. 48+0. 61+0. 62+0. 61+0. 58+0. 65) /8 =O.55625180。方向累積置信度=(O. 62+0. 58+0. 49+0. 62+0. 39+0. 50+0. 61)/7 = O. 5442。在圖2的示例中,經(jīng)步驟S301-S303后,O。方向累積識別距離=(928+1279+1034+774+578+779+840+695)/8 = 863. 375180。方向累積識別距離=(759+840+920+769+1230+1005+790)/7 = 901. 857可見,采用上述方式調(diào)整置信度或識別距離后,0°方向累積置信度大于180°方向累積置信度或0°方向累積識別距離小于180°方向累積識別距離。即給出了更為準確的判斷結(jié)果。下面將結(jié)合圖4描述根據(jù)本發(fā)明的一個實施例的識別圖像塊中文字的方向的識別裝置的結(jié)構(gòu)。如圖4所示,根據(jù)該實施例的識別圖像塊中文字的方向的識別裝置400包括光學字符識別處理單元401,配置為分別以不同的方向作為假設文字方向?qū)λ鰣D像塊進行光學字符識別處理,以得到在各個所述假設文字方向上的子圖像塊、子圖像塊對應的識別字符及其正確性度量;語言組判斷單元402,配置為判斷圖像塊中文字所屬的語言組;子圖像塊調(diào)整單元403,配置為調(diào)整各個所述假設文字方向上不屬于所判斷的語言組的識別字符所對應的子圖像塊對應的正確性度量;累積正確性度量計算單元404,配置為基于調(diào)整后的正確性度量計算各個所述假設文字方向上的累積正確性度量;以及文字方向識別單元405,配置為根據(jù)所述累積正確性度量識別圖像塊中文字的方向。由于在根據(jù)本發(fā)明的識別裝置400所包括的光學字符識別處理單元401、語言組判斷單元402、子圖像塊調(diào)整單元403、累積正確性度量計算單元404以及文字方向識別單元405中的處理分別與上面描述的識別圖像塊中文字的方向的方法的步驟S301-S305中的處理類似,因此為了簡潔起見,在此省略這些單元中的詳細描述。此外,這里尚需指出的是,上述裝置中各個組成模塊、單元可以通過軟件、固件、硬件或其組合的方式進行配置。配置可使用的具體手段或方式為本領(lǐng)域技術(shù)人員所熟知,在此不再贅述。在通過軟件或固件實現(xiàn)的情況下,從存儲介質(zhì)或網(wǎng)絡向具有專用硬件結(jié)構(gòu)的計算機(例如圖5所示的通用計算機500)安裝構(gòu)成該軟件的程序,該計算機在安裝有各種程序時,能夠執(zhí)行各種功能等。在圖5中,中央處理單元(CPU) 501根據(jù)只讀存儲器(ROM) 502中存儲的程序或從存儲部分508加載到隨機存取存儲器(RAM) 503的程序執(zhí)行各種處理。在RAM 503中,還根據(jù)需要存儲當CPU 501執(zhí)行各種處理等等時所需的數(shù)據(jù)。CPU 50KROM 502和RAM 503經(jīng)由總線504彼此連接。輸入/輸出接口 505也連接到總線504。下述部件連接到輸入/輸出接口 505 :輸入部分506 (包括鍵盤、鼠標等等)、輸出部分507 (包括顯示器,比如陰極射線管(CRT)、液晶顯示器(LCD)等,和揚聲器等)、存儲部分508 (包括硬盤等)、通信部分509 (包括網(wǎng)絡接口卡比如LAN卡、調(diào)制解調(diào)器等)。通信部分509經(jīng)由網(wǎng)絡比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動器510也可連接到輸入/輸出接口 505??刹鹦督橘|(zhì)511比如磁盤、光盤、磁光盤 、半導體存儲器等等可以根據(jù)需要被安裝在驅(qū)動器510上,使得從中讀出的計算機程序根據(jù)需要被安裝到存儲部分508中。在通過軟件實現(xiàn)上述系列處理的情況下,從網(wǎng)絡比如因特網(wǎng)或存儲介質(zhì)比如可拆卸介質(zhì)511安裝構(gòu)成軟件的程序。本領(lǐng)域的技術(shù)人員應當理解,這種存儲介質(zhì)不局限于圖5所示的其中存儲有程序、與設備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)511。可拆卸介質(zhì)511的例子包含磁盤(包含軟盤(注冊商標))、光盤(包含光盤只讀存儲器(⑶-ROM)和數(shù)字通用盤(DVD))、磁光盤(包含迷你盤(MD)(注冊商標))和半導體存儲器?;蛘?,存儲介質(zhì)可以是ROM 502、存儲部分508中包含的硬盤等等,其中存有程序,并且與包含它們的設備一起被分發(fā)給用戶。本發(fā)明還提出一種存儲有機器可讀取的指令代碼的程序產(chǎn)品。所述指令代碼由機器讀取并執(zhí)行時,可執(zhí)行上述根據(jù)本發(fā)明實施例的方法。相應地,用于承載上述存儲有機器可讀取的指令代碼的程序產(chǎn)品的存儲介質(zhì)也包括在本發(fā)明的公開中。所述存儲介質(zhì)包括但不限于軟盤、光盤、磁光盤、存儲卡、存儲棒等
坐寸ο本發(fā)明實施例中公開的識別圖像塊中文字的方向的識別裝置,識別圖像塊中文字的方向的識別方法,以及相應的程序產(chǎn)品可以用于掃描儀等圖像掃描裝置,用于識別所掃描的文件中文字的方向。在上面對本發(fā)明具體實施例的描述中,針對一種實施方式描述和/或示出的特征可以以相同或類似的方式在一個或更多個其它實施方式中使用,與其它實施方式中的特征相組合,或替代其它實施方式中的特征。應該強調(diào),術(shù)語“包括/包含”在本文使用時指特征、要素、步驟或組件的存在,但并不排除一個或更多個其它特征、要素、步驟或組件的存在或附加。此外,本發(fā)明的方法不限于按照說明書中描述的時間順序來執(zhí)行,也可以按照其他的時間順序地、并行地或獨立地執(zhí)行。因此,本說明書中描述的方法的執(zhí)行順序不對本發(fā)明的技術(shù)范圍構(gòu)成限制。盡管上面已經(jīng)通過對本發(fā)明的具體實施例的描述對本發(fā)明進行了披露,但是,應該理解,上述的所有實施例和示例均是示例性的,而非限制性的。本領(lǐng)域的技術(shù)人員可在所附權(quán)利要求的精神和范圍內(nèi)設計對本發(fā)明的各種修改、改進或者等同物。這些修改、改進或者等同物也應當被認為包括在本發(fā)明的保護范圍內(nèi)。SidI. 一種識別圖像塊中文字的方向的方法,包括分別以不同的方向作為假設文字方向?qū)λ鰣D像塊進行光 學字符識別處理,以得到在各個所述假設文字方向上的子圖像塊、子圖像塊對應的識別字符及其正確性度量;判斷圖像塊中文字所屬的語言組;調(diào)整各個所述假設文字方向上不屬于所判斷的語言組的識別字符所對應的子圖像塊對應的正確性度量;基于調(diào)整后的正確性度量計算各個所述假設文字方向上的累積正確性度量;以及根據(jù)所述累積正確性度量識別圖像塊中文字的方向。2.根據(jù)附記I所述的方法,其中所述正確性度量包括置信度和識別距離;所述調(diào)整各個所述假設文字方向上不屬于所判斷的語言組的識別字符所對應的子圖像塊對應的正確性度量包括減小該子圖像塊對應的置信度或增大該子圖像塊對應的識別距離。3.根據(jù)附記I所述的方法,其中所述正確性度量包括置信度和識別距離;所述調(diào)整各個所述假設文字方向上不屬于所判斷的語言組的識別字符所對應的子圖像塊對應的正確性度量包括將該子圖像塊對應的置信度或識別距離調(diào)整為該子圖像塊所對應的在該假設文字方向上屬于所判斷的語言組的所有候選字符所對應的置信度中的最大置信度或所對應的識別距離中的最小識別距離;并且當該子圖像塊所對應的在該假設文字方向上的所有候選字符均不屬于所判斷的語言組時,將該子圖像塊所對應的在該假設文字方向上的所有候選字符所對應的置信度中的最小置信度或所對應的識別距離中的最大識別距離作為該子圖像塊對應的置信度或識別距離。4.根據(jù)附記I所述的方法,其中所述判斷圖像塊中文字所屬的語言組包括分別在各個假設文字方向上,計算屬于各個語言組的識別字符所對應的子圖像塊個數(shù)占該假設文字方向上的所有子圖像塊個數(shù)的比例;當屬于某個語言組的識別字符所對應的子圖像塊個數(shù)占該假設文字方向上的所有子圖像塊個數(shù)的比例大于第一閾值時,將該語言組判斷為圖像塊中文字所屬的語言組。5.根據(jù)附記I所述的方法,其中所述判斷圖像塊中文字所屬的語言組包括分別在各個假設文字方向上,計算屬于各個語言組的識別字符所對應的子圖像塊個數(shù)占該假設文字方向上的所有子圖像塊個數(shù)的比例;當屬于某個語言組的識別字符所對應的子圖像塊個數(shù)占該假設文字方向上的所有子圖像塊個數(shù)的比例大于第一閾值且屬于該語言組的核心字符集的識別字符所對應的子圖像塊個數(shù)占該假設文字方向上的所有子圖像塊個數(shù)的比例大于第二閾值時,將該語言組判斷為圖像塊中文字所屬的語言組。6.根據(jù)附記4所述的方法,其中所述語言組包括拉丁語言組;所述拉丁語言組包括拉丁字母、阿拉伯數(shù)字和非文字符號;所述第一閾值的取值范圍為(0.65,0.85)。
7.根據(jù)附記5所述的方法,其中所述語言組包括韓文語言組、中文/日文語言組;所述韓文語言組包括韓文字母、拉丁字母、阿拉伯數(shù)字和非文字符號,所述韓文語言組的核心字符集包括韓文字母;所述中文/日文語言組包括簡體漢字、繁體漢字、日文漢字、日文平假名、日文片假名、拉丁字母、阿拉伯數(shù)字和非文字符號,所述中文/日文語言組的核心字符集包括簡體漢字、繁體漢字、日文漢字、日文平假名、日文片假名;所述第一閾值的取值范圍為(O. 65,0. 85),所述第二閾值的取值范圍為(0.45,O. 65)。8.根據(jù)附記1-7之一所述的方法,其中所述不同的方向包括所述圖像塊的橫向上的兩個方向和縱向上的兩個方向。
9. 一種識別圖像塊中文字的方向的裝置,包括光學字符識別處理單元,配置為分別以不同的方向作為假設文字方向?qū)λ鰣D像塊進行光學字符識別處理,以得到在各個所述假設文字方向上的子圖像塊、子圖像塊對應的識別字符及其正確性度量;語言組判斷單元,配置為判斷圖像塊中文字所屬的語言組;子圖像塊調(diào)整單元,配置為調(diào)整各個所述假設文字方向上不屬于所判斷的語言組的識別字符所對應的子圖像塊對應的正確性度量;累積正確性度量計算單元,配置為基于調(diào)整后的正確性度量計算各個所述假設文字方向上的累積正確性度量;以及文字方向識別單元,配置為根據(jù)所述累積正確性度量識別圖像塊中文字的方向。10.如附記9所述的裝置,其中所述子圖像塊調(diào)整單元被配置為減小各個所述假設文字方向上不屬于所判斷的語言組的識別字符所對應的子圖像塊對應的置信度或增大該子圖像塊對應的識別距離。11.如附記9所述的裝置,其中所述子圖像塊調(diào)整單元被配置為將各個所述假設文字方向上不屬于所判斷的語言組的識別字符所對應的子圖像塊對應的置信度或識別距離調(diào)整為該子圖像塊所對應的在該假設文字方向上屬于所判斷的語言組的所有候選字符所對應的置信度中的最大置信度或所對應的識別距離中的最小識別距離;并且當該子圖像塊所對應的在該假設文字方向上的所有候選字符均不屬于所判斷的語言組時,將該子圖像塊所對應的在該假設文字方向上的所有候選字符所對應的置信度中的最小置信度或所對應的識別距離中的最大識別距離作為該子圖像塊對應的置信度或識別距離。12.如附記9所述的裝置,其中所述語言組判斷單元被配置為分別在各個假設文字方向上,計算屬于各個語言組的識別字符所對應的子圖像塊個數(shù)占該假設文字方向上的所有子圖像塊個數(shù)的比例;當屬于某個語言組的識別字符所對應的子圖像塊個數(shù)占該假設文字方向上的所有子圖像塊個數(shù)的比例大于第一閾值時,將該語言組判斷為圖像塊中文字所屬的語言組。13.如附記9所述的裝置,其中所述語言組判斷單元被配置為分別在各個假設文字方向上,計算屬于各個語言組的識別字符所對應的子圖像塊個數(shù)占該假設文字方向上的所有子圖像塊個數(shù)的比例;當屬于某個語言組的識別字符所對應的子圖像塊個數(shù)占該假設文字方向上的所有子圖像塊個數(shù)的比例大于第一閾值且屬于該語言組的核心字符集的識別字符所對應的子圖像塊個數(shù)占該假設文字方向上的所有子圖像塊個數(shù)的比例大于第二閾值時,將該語言組判斷為圖像塊中文字所屬的語言組。
14. 一種掃描儀,所述掃描儀包括附記9-13之一所述的識別圖像塊中文字的方向的裝置。
權(quán)利要求
1.一種識別圖像塊中文字的方向的方法,包括 分別以不同的方向作為假設文字方向?qū)λ鰣D像塊進行光學字符識別處理,以得到在各個所述假設文字方向上的子圖像塊、子圖像塊對應的識別字符及其正確性度量; 判斷圖像塊中文字所屬的語言組; 調(diào)整各個所述假設文字方向上不屬于所判斷的語言組的識別字符所對應的子圖像塊對應的正確性度量; 基于調(diào)整后的正確性度量計算各個所述假設文字方向上的累積正確性度量;以及 根據(jù)所述累積正確性度量識別圖像塊中文字的方向。
2.根據(jù)權(quán)利要求I所述的方法,其中 所述正確性度量包括置信度和識別距離; 所述調(diào)整各個所述假設文字方向上不屬于所判斷的語言組的識別字符所對應的子圖像塊對應的正確性度量包括減小該子圖像塊對應的置信度或增大該子圖像塊對應的識別距離。
3.根據(jù)權(quán)利要求I所述的方法,其中 所述正確性度量包括置信度和識別距離; 所述調(diào)整各個所述假設文字方向上不屬于所判斷的語言組的識別字符所對應的子圖像塊對應的正確性度量包括將該子圖像塊對應的置信度或識別距離調(diào)整為該子圖像塊所對應的在該假設文字方向上屬于所判斷的語言組的所有候選字符所對應的置信度中的最大置信度或所對應的識別距離中的最小識別距離;并且當該子圖像塊所對應的在該假設文字方向上的所有候選字符均不屬于所判斷的語言組時,將該子圖像塊所對應的在該假設文字方向上的所有候選字符所對應的置信度中的最小置信度或所對應的識別距離中的最大識別距離作為該子圖像塊對應的置信度或識別距離。
4.根據(jù)權(quán)利要求I所述的方法,其中所述判斷圖像塊中文字所屬的語言組包括 分別在各個假設文字方向上,計算屬于各個語言組的識別字符所對應的子圖像塊個數(shù)占該假設文字方向上的所有子圖像塊個數(shù)的比例; 當屬于某個語言組的識別字符所對應的子圖像塊個數(shù)占該假設文字方向上的所有子圖像塊個數(shù)的比例大于第一閾值時,將該語言組判斷為圖像塊中文字所屬的語言組。
5.根據(jù)權(quán)利要求I所述的方法,其中所述判斷圖像塊中文字所屬的語言組包括 分別在各個假設文字方向上,計算屬于各個語言組的識別字符所對應的子圖像塊個數(shù)占該假設文字方向上的所有子圖像塊個數(shù)的比例; 當屬于某個語言組的識別字符所對應的子圖像塊個數(shù)占該假設文字方向上的所有子圖像塊個數(shù)的比例大于第一閾值且屬于該語言組的核心字符集的識別字符所對應的子圖像塊個數(shù)占該假設文字方向上的所有子圖像塊個數(shù)的比例大于第二閾值時,將該語言組判斷為圖像塊中文字所屬的語言組。
6.根據(jù)權(quán)利要求4所述的方法,其中所述語言組包括拉丁語言組; 所述拉丁語言組包括拉丁字母、阿拉伯數(shù)字和非文字符號; 所述第一閾值的取值范圍為(0.65,0.85)。
7.根據(jù)權(quán)利要求5所述的方法,其中所述語言組包括韓文語言組、中文/日文語言組; 所述韓文語言組包括韓文字母、拉丁字母、阿拉伯數(shù)字和非文字符號,所述韓文語言組的核心字符集包括韓文字母; 所述中文/日文語言組包括簡體漢字、繁體漢字、日文漢字、日文平假名、日文片假名、拉丁字母、阿拉伯數(shù)字和非文字符號,所述中文/日文語言組的核心字符集包括簡體漢字、繁體漢字、日文漢字、日文平假名、日文片假名; 所述第一閾值的取值范圍為(O. 65,O. 85),所述第二閾值的取值范圍為(O. 45,O. 65)。
8.一種識別圖像塊中文字的方向的裝置,包括 光學字符識別處理單元,配置為分別以不同的方向作為假設文字方向?qū)λ鰣D像塊進行光學字符識別處理,以得到在各個所述假設文字方向上的子圖像塊、子圖像塊對應的識別字符及其正確性度量; 語言組判斷單元,配置為判斷圖像塊中文字所屬的語言組; 子圖像塊調(diào)整單元,配置為調(diào)整各個所述假設文字方向上不屬于所判斷的語言組的識別字符所對應的子圖像塊對應的正確性度量; 累積正確性度量計算單元,配置為基于調(diào)整后的正確性度量計算各個所述假設文字方向上的累積正確性度量;以及 文字方向識別單元,配置為根據(jù)所述累積正確性度量識別圖像塊中文字的方向。
9.如權(quán)利要求8所述的裝置,其中所述子圖像塊調(diào)整單元被配置為減小各個所述假設文字方向上不屬于所判斷的語言組的識別字符所對應的子圖像塊對應的置信度或增大該子圖像塊對應的識別距離。
10.一種掃描儀,所述掃描儀包括權(quán)利要求8或9中所述的識別圖像塊中文字的方向的 裝直。
全文摘要
本發(fā)明公開了一種識別圖像塊中文字的方向的方法和裝置。所述方法包括分別以不同的方向作為假設文字方向?qū)λ鰣D像塊進行光學字符識別處理,以得到在各個所述假設文字方向上的子圖像塊、子圖像塊對應的識別字符及其正確性度量;判斷圖像塊中文字所屬的語言組;調(diào)整各個所述假設文字方向上不屬于所判斷的語言組的識別字符所對應的子圖像塊對應的正確性度量;基于調(diào)整后的正確性度量計算各個所述假設文字方向上的累積正確性度量;以及根據(jù)所述累積正確性度量識別圖像塊中文字的方向。
文檔編號G06K9/20GK102890783SQ20111020983
公開日2013年1月23日 申請日期2011年7月20日 優(yōu)先權(quán)日2011年7月20日
發(fā)明者孫俊, 直井聰 申請人:富士通株式會社