国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      文字識別方法和裝置的制造方法

      文檔序號:10625026閱讀:385來源:國知局
      文字識別方法和裝置的制造方法
      【專利摘要】本發(fā)明公開了一種文字識別方法和裝置。根據(jù)本發(fā)明的一個方面,文字識別方法包括:從包含文字的圖像中提取多個連通部件;對所述多個連通部件進(jìn)行分類,以生成第一語言連通部件和/或非第一語言連通部件;將所述第一語言連通部件聚類為第一語言文本行,并將所述非第一語言連通部件聚類為非第一語言文本行;以及從所述第一語言文本行和所述非第一語言文本行中識別出第一語言文字和非第一語言文字。
      【專利說明】
      文字識別方法和裝置
      技術(shù)領(lǐng)域
      [0001] 本發(fā)明設(shè)及圖像處理領(lǐng)域,具體設(shè)及識別圖像中的地址口牌中的文字的方法和裝 置。
      【背景技術(shù)】
      [0002] 隨著具有拍攝功能的移動設(shè)備在我們的日常生活中使用得越來越普遍,比如手 機(jī)、數(shù)碼相機(jī)等,運(yùn)使得我們獲取自然場景的照片變得十分方便。地址口牌是我們在日常生 活中十分重要的信息,人們可利用移動設(shè)備拍攝包含地址口牌的照片,W記錄或分享自己 的位置。在數(shù)字地圖的標(biāo)注中,需要將大量照片中的地址口牌中的文字信息提取出來,進(jìn)行 識別標(biāo)注。由于照片的數(shù)量很大,因此需要W自動識別的方式來代替人工識別,W降低工作 量。
      [0003] 圖1示出了一種識別地址口牌信息的方法的流程圖。如圖1所示,根據(jù)該方法100, 可在步驟S110輸入照片后,從照片中檢測和提取口牌圖像(步驟S120)。圖2a和圖化分 別示出了輸入的照片和從該照片中提取出的口牌圖像的一例。如圖2a和化所示,通過步 驟S120,可從照片中檢測到并提取出口牌圖像。然后,對提取出的口牌圖像進(jìn)行文字識別, W識別出文字地址(步驟S130)。在圖2a和化所示的示例中,可識別出文字地址"冶金北 路99"。最后,將所識別出的文字地址輸出(步驟S140),W實(shí)現(xiàn)地址的自動識別標(biāo)注。
      [0004] 目前,從照片中檢測并提取口牌圖像的技術(shù)已較為成熟,其正確性和處理速度都 能夠滿足當(dāng)前的應(yīng)用需求。然而,對提取出的口牌圖像進(jìn)行文字識別的技術(shù)往往達(dá)不到要 求。運(yùn)一方面是由于許多口牌中的文字信息的版面結(jié)構(gòu)比較復(fù)雜,不易于進(jìn)行文字識別。另 一方面由于在口牌中通常包含多于一種語言的文字(如,阿拉伯?dāng)?shù)字、英文字符、漢字等), 而對于每個字符,均需要使用包含多種語言字符的識別引擎來進(jìn)行識別,由于多語言字符 的數(shù)量非常大,運(yùn)也影響了利用字符識別引擎進(jìn)行文字識別的處理速度。

      【發(fā)明內(nèi)容】
      陽〇化]有鑒于此,本發(fā)明提出了一種文字識別方法和裝置,W對圖像中的文字信息進(jìn)行 識別。
      [0006] 根據(jù)本發(fā)明的一個方面,提供了一種文字識別方法,包括:從包含文字的圖像中提 取多個連通部件;對所述多個連通部件進(jìn)行分類,W生成第一語言連通部件和/或非第一 語言連通部件;將所述第一語言連通部件聚類為第一語言文本行,并將所述非第一語言連 通部件聚類為非第一語言文本行;W及從所述第一語言文本行和所述非第一語言文本行中 識別出第一語言文字和非第一語言文字。
      [0007] 根據(jù)本發(fā)明的另一方面,提供了一種文字識別裝置,包括:提取單元,從包含文字 的圖像中提取多個連通部件;分類單元,對所述多個連通部件進(jìn)行分類,W生成第一語言連 通部件和/或非第一語言連通部件;聚類單元,將所述第一語言連通部件聚類為第一語言 文本行,并將所述非第一語言連通部件聚類為非第一語言文本行;W及識別單元,從所述第 一語言文本行和所述非第一語言文本行中識別出第一語言文字和非第一語言文字。
      [0008] 根據(jù)本發(fā)明所提供的技術(shù)方案,可對包含文字的圖像中的文字信息進(jìn)行有效識 另IJ,特別適于包含多種語言且具有一定版面結(jié)構(gòu)特征的圖像。
      【附圖說明】
      [0009] 參照附圖來閱讀本發(fā)明的各實(shí)施方式,將更容易理解本發(fā)明的其它特征和優(yōu)點(diǎn), 在此描述的附圖只是為了對本發(fā)明的實(shí)施方式進(jìn)行示意性說明的目的,而非全部可能的實(shí) 施,并且不旨在限制本發(fā)明的范圍。在附圖中:
      [0010] 圖1示出了現(xiàn)有技術(shù)中識別地址口牌信息的方法的流程圖; W11] 圖2a和圖化分別示出了輸入的照片和從該照片中提取出的口牌圖像的一例;
      [0012] 圖3示出了根據(jù)本發(fā)明一個實(shí)施方式的文字識別方法的流程圖;
      [0013] 圖4示出了根據(jù)本發(fā)明一個實(shí)施方式從包含文字的圖像中提取多個連通部件的 流程圖;
      [0014] 圖5示出了根據(jù)本發(fā)明另一實(shí)施方式從包含文字的圖像中提取多個連通部件的 可替選流程圖;
      [0015] 圖6示出了根據(jù)本發(fā)明一個實(shí)施方式將第一語言連通部件聚類為第一語言文本 行并將非第一語言連通部件聚類為非第一語言文本行的流程圖;
      [0016] 圖7示出了根據(jù)本發(fā)明另一實(shí)施方式將第一語言連通部件聚類為第一語言文本 行并將非第一語言連通部件聚類為非第一語言文本行的可替選流程圖;
      [0017] 圖8示出了根據(jù)本發(fā)明一個實(shí)施方式從第一語言文本行和非第一語言文本行中 識別出第一語言文字和非第一語言文字的流程圖;
      [0018] 圖9示出了根據(jù)本發(fā)明一個實(shí)施方式根據(jù)圖像的版面結(jié)構(gòu)特征確定圖像在多個 版面類別中所處的版面類別的流程圖;
      [0019] 圖10a至圖lOd示出了四個版面類別的示例;
      [0020] 圖11示出了根據(jù)本發(fā)明一個實(shí)施方式的文字識別裝置的框圖;
      [0021] 圖12示出了根據(jù)本發(fā)明一個實(shí)施方式的識別單元的框圖;
      [0022] 圖13示出了根據(jù)本發(fā)明一個實(shí)施方式的版面類別確定子單元的框圖;
      [0023] 圖14示出了根據(jù)本發(fā)明一個實(shí)施方式的文本行處理子單元的框圖;
      [0024] 圖15示出了根據(jù)本發(fā)明一個實(shí)施方式的提取單元的框圖;
      [0025] 圖16示出了根據(jù)本發(fā)明一個實(shí)施方式的聚類單元的框圖;
      [00%] 圖17示出了根據(jù)本發(fā)明另一實(shí)施方式的聚類單元的框圖;W及
      [0027] 圖18示出了可用于實(shí)施根據(jù)本發(fā)明實(shí)施例的方法和裝置的計算機(jī)的示意性框 圖。
      【具體實(shí)施方式】
      [0028] 現(xiàn)參照附圖對本發(fā)明的實(shí)施方式進(jìn)行詳細(xì)描述。應(yīng)注意,W下描述僅僅是示例性 的,而并不旨在限制本發(fā)明。此外,在W下描述中,將采用相同的附圖標(biāo)號表示不同附圖中 的相同或相似的部件。在W下描述的不同實(shí)施方式中的不同特征,可彼此結(jié)合,W形成本發(fā) 明范圍內(nèi)的其他實(shí)施方式。
      [0029] 在本發(fā)明的實(shí)施方式中,假設(shè)已利用本領(lǐng)域技術(shù)人員已知的技術(shù)從照片中檢測到 并提取出包含文字的圖像區(qū)域,如圖化所示的口牌圖像。而本發(fā)明的實(shí)施方式中的各種處 理和操作均是在已獲得該圖像的基礎(chǔ)上做出的。
      [0030] 圖3示出了根據(jù)本發(fā)明一個實(shí)施方式的文字識別方法的流程圖。如圖3所示,文 字識別方法300包括步驟S310至S340。對于已獲得的包含文字的圖像,在步驟S310中, 從包含文字的圖像中提取多個連通部件。對連通部件的提取可采用本領(lǐng)域技術(shù)人員已知的 任何適用的方式。所提取出的每個連通部件可包含一個或多個文字字符或文字字符的一部 分。
      [0031] 由于圖像中通常包含多種語言的文字,在步驟S320中,按不同語言對所提取出的 多個連通部件進(jìn)行分類,從而將連通部件分為第一語言連通部件和非第一語言連通部件。 可W理解,對于僅包含第一語言文字而不包含其他語言文字的圖像,經(jīng)過步驟S320的處理 后,所有提取出的連通部件均被分類為第一語言連通部件;而對于所包含的文字均不是第 一語言文字的圖像,經(jīng)過步驟S320的處理后,所有提取出的連通部件均被分類為非第一語 言連通部件。
      [0032] 在步驟S330中,將第一語言連通部件聚類為第一語言文本行,并將非第一語言連 通部件聚類為非第一語言文本行。對連通部件的聚類可采用本領(lǐng)域技術(shù)人員已知的任何適 用的方式。經(jīng)聚類后所得到的每個文本行可包括一個或多個第一語言文字或非第一語言文 字。
      [0033] 在步驟S340中,分別從所得到的第一語言文本行和非第一語言文本行中識別出 第一語言文字和非第一語言文字,W完成對圖像中文字信息的自動識別??衫玫谝徽Z言 字符串識別引擎和非第一語言字符串識別引擎分別從文本行中識別出第一語言文字和非 第一語言文字,運(yùn)將在W下詳述。
      [0034] 根據(jù)本發(fā)明的該實(shí)施方式,通過將圖像中的文字分類為第一語言和非第一語言, 從而能夠從圖像中識別出包括多種語言的文字信息,例如,阿拉伯?dāng)?shù)字、英文字母、漢字等。 而且,通過將不同的語言文字分別聚類成不同文本行W進(jìn)行識別,能夠利用不同語言的識 別引擎分別獨(dú)立地處理不同語言的文本行,而無需采用多語言字符的識別引擎來處理每一 個文本行,從而提高了識別速度。
      [0035] 圖4示出了根據(jù)本發(fā)明一個實(shí)施方式從包含文字的圖像中提取多個連通部件的 流程圖。如圖4所示,上述步驟S310可包括子步驟S311至S313。在子步驟S311中,從圖 像中提取連通單元。對圖像中連通單元的提取,可通過任何適當(dāng)?shù)默F(xiàn)有技術(shù)的手段來完成, 在此不再詳述。隨后,在子步驟S312中,計算提取出的每個連通單元的識別置信度,并在子 步驟S313中,將識別置信度小于預(yù)定的置信度闊值的連通單元除去,并將所保留的連通單 元合并,W形成多個連通部件。對于每個包含文字的圖像,有時會由于圖像的拍攝問題或文 字區(qū)域(如口牌區(qū)域)本身具有一些污垢,而使得所提取的連通單元中有一些是噪聲。為 了去除噪聲,本發(fā)明的一個實(shí)施方式預(yù)設(shè)了置信度闊值。通過將提取出的每個連通單元的 識別置信度與預(yù)設(shè)的置信度闊值進(jìn)行比較,從而過濾掉置信度較低的連通單元,除去噪聲, W獲得置信度較高連通單元。
      [0036] 圖5示出了根據(jù)本發(fā)明另一實(shí)施方式從包含文字的圖像中提取多個連通部件的 可替選流程圖。如圖5所示,上述步驟S310可包括子步驟S315至S318。在子步驟S315 中,從圖像中提取連通單元。隨后,在子步驟S316中,計算提取出的每個連通單元的字符筆 劃寬度,并計算所有連通單元的平均字符筆劃寬度。在子步驟S317中,根據(jù)平均字符筆劃 寬度,確定字符筆劃寬度范圍。例如,假定計算得到的平均字符筆劃寬度為SW,可將字符筆 劃寬度范圍確定為0. 5*SW~1. 5*SW。隨后,在子步驟S318中,將字符筆劃寬度不處于該范 圍內(nèi)的連通單元除去,并將未除去的連通單元合并,W形成多個連通部件。圖5所示的過程 是另一種可選的去噪聲方式,其利用字符筆劃寬度,來作為過濾條件,W除去噪聲。
      [0037] 另外,對于既包括深底淺字區(qū)域又包括淺底深字區(qū)域的混合圖像,在從圖像中提 取連通單元時,可對圖像進(jìn)行正面二值化和反面二值化,并將正面二值化和反面二值化的 結(jié)果分別進(jìn)行分析,W分別提取連通單元。最后,將所提取的連通單元合并,W形成多個連 通部件。
      [0038] 根據(jù)本發(fā)明的一個實(shí)施方式,在上述步驟S320中按不同語言對所提取出的多個 連通部件進(jìn)行分類時,可利用包括所有第一語言字符的第一語言分類器進(jìn)行分類。例如,設(shè) 定第一語言是阿拉伯?dāng)?shù)字0-9,則可利用包括0-9的分類器,將所提取出的連通部件分類為 第一語言連通部件(是阿拉伯?dāng)?shù)字)和非第一語言連通部件(不是阿拉伯?dāng)?shù)字)。根據(jù)本 發(fā)明的一個實(shí)施例,第一語言的字符數(shù)量小于非第一語言的字符數(shù)量,運(yùn)樣,可減小分類時 的計算量,提高處理速度。本領(lǐng)域技術(shù)人員可W理解,還可將非第一語言分類為第二語言和 非第一非第二語言(W此類推),也可獲得較好的效果,其具體方式與上述相類似,在此不 再詳述。
      [0039] 圖6示出了根據(jù)本發(fā)明一個實(shí)施方式將第一語言連通部件聚類為第一語言文本 行并將非第一語言連通部件聚類為非第一語言文本行的流程圖。如圖6所示,上述步驟 S330可包括子步驟S331至S334。在子步驟S331中,比較第一語言連通部件之間的水平 間隔和豎直間隔,并根據(jù)比較結(jié)果為每個第一語言連通部件設(shè)置水平標(biāo)記或豎直標(biāo)記。具 體地,對于每個第一語言連通部件,比較其與水平相鄰的第一語言連通部件的水平間隔和 與豎直相鄰的第一語言連通部件的豎直間隔的大小。如果水平間隔較小,說明在水平方向 上更加緊湊,則為該連通部件設(shè)置水平標(biāo)記,反之則設(shè)置豎直標(biāo)記。類似地,在子步驟S332 中,根據(jù)非第一語言連通部件之間的水平間隔和豎直間隔的比較結(jié)果,為每個非第一語言 連通部件設(shè)置水平標(biāo)記或豎直標(biāo)記。 W40] 然后,在子步驟S333中,將具有水平標(biāo)記的第一語言連通部件和具有豎直標(biāo)記的 第一語言連通部件分別聚類為第一語言水平文本行和第一語言豎直文本行。在子步驟S334 中,將具有水平標(biāo)記的非第一語言連通部件和具有豎直標(biāo)記的非第一語言連通部件分別聚 類為非第一語言水平文本行和非第一語言豎直文本行。
      [0041] 圖7示出了根據(jù)本發(fā)明另一實(shí)施方式將第一語言連通部件聚類為第一語言文本 行并將非第一語言連通部件聚類為非第一語言文本行的可替選流程圖。如圖7所示,上述 步驟S330可包括子步驟S335至S338。在子步驟S335中,比較第一語言連通部件之間的水 平間隔和豎直間隔與預(yù)設(shè)的闊值的大小,并根據(jù)比較結(jié)果為第一語言連通部件設(shè)置水平標(biāo) 記和豎直標(biāo)記。具體地,對于每個第一語言連通部件,將其與水平相鄰的第一語言連通部件 之間的水平間隔與預(yù)設(shè)的闊值進(jìn)行比較,并將其與豎直相鄰的第一語言連通部件之間的豎 直間隔與該闊值進(jìn)行比較。如果水平間隔小于該闊值,則設(shè)置水平標(biāo)記,如果水平間隔大于 該闊值,則不設(shè)置水平標(biāo)記。同樣,如果豎直間隔小于該闊值,則設(shè)置豎直標(biāo)記,如果豎直間 隔大于該闊值,則不設(shè)置豎直標(biāo)記。類似地,在子步驟S336中,比較非第一語言連通部件之 間的水平間隔和豎直間隔與預(yù)設(shè)的闊值的大小,并根據(jù)比較結(jié)果為非第一語言連通部件設(shè) 置水平標(biāo)記和豎直標(biāo)記。
      [0042] 可W理解,對于某些連通部件,可能由于其水平間隔和豎直間隔均小于該預(yù)設(shè)的 闊值,而同時被設(shè)置了水平標(biāo)記和豎直標(biāo)記。在子步驟S337中,對于每個既具有水平標(biāo)記 又具有豎直標(biāo)記的第一語言連通部件和非第一語言連通部件,根據(jù)其與同類連通部件的水 平間隔和豎直間隔的比較結(jié)果,去除其水平標(biāo)記和豎直標(biāo)記之一。目P,如果第一語言連通部 件在水平方向上更接近另一第一語言連通部件,則保留其水平標(biāo)記,反之,則保留其豎直標(biāo) 記。隨后,在子步驟S338中,將具有水平標(biāo)記的第一語言連通部件和具有豎直標(biāo)記的第一 語言連通部件分別聚類為第一語言水平文本行和第一語言豎直文本行,并將具有水平標(biāo)記 的非第一語言連通部件和具有豎直標(biāo)記的非第一語言連通部件分別聚類為非第一語言水 平文本行和非第一語言豎直文本行。
      [0043] 通過上述處理,可得到已經(jīng)過語言分類并確定了文字識別方向的不同文本行,但 還需確定不同文本行之間的識別順序。為此,本申請?zhí)岢隽艘环N通過預(yù)設(shè)的版面模板來確 定待處理圖像的版面類別,從而確定不同文本行之間的識別順序。
      [0044] 圖8示出了根據(jù)本發(fā)明一個實(shí)施方式從第一語言文本行和非第一語言文本行中 識別出第一語言文字和非第一語言文字的流程圖。如圖8所示,上述步驟S340可包括子步 驟S341至S343。在子步驟S341中,根據(jù)第一語言文本行和非第一語言文本行計算圖像的 版面結(jié)構(gòu)特征。隨后,在子步驟S342中,根據(jù)所計算出的版面結(jié)構(gòu)特征,確定該圖像在已知 的多個版面類別中屬于哪個版面類別。在確定了版面類別后,即確定了不同文本行之間的 處理順序。在子步驟S343中,根據(jù)該圖像的版面類別處理其中的第一語言文本行和非第一 語言文本行,W識別出第一語言文字和非第一語言文字。
      [0045] 根據(jù)本發(fā)明的一個實(shí)施方式,在上述子步驟S341中計算的圖像的版面結(jié)構(gòu)特征 可包括:第一語言文本行中最長的文本行的幾何特征和識別置信度W及非第一語言文本行 中最長的文本行的幾何特征。 陽046] 具體地,文本行的幾何特征可包括該文本行的上邊界、下邊界、左邊界、右邊界、該 文本行內(nèi)的連通部件的平均寬高比和/或相鄰連通部件的平均間隔。
      [0047] 根據(jù)本發(fā)明的一個實(shí)施例,圖像的版面結(jié)構(gòu)特征可包括:第一語言最長文本行 的識別置信度(P),第一語言最長文本行的6維幾何特征(上邊界-yo、下邊界-yl、左邊 界-xO、右邊界-XI的相對位置、連通部件的平均寬高比、相鄰連通部件的平均間隔)W及第 二語言最長文本行的6維幾何特征(上邊界-yO、下邊界-yl、左邊界-xO、右邊界-XI的相 對位置、連通部件的平均寬高比、相鄰連通部件的平均間隔)。其中,第一語言最長文本行 的識別置信度(巧指的是該文本行中所有候選連通部件的平均識別置信度,其計算方式如 下: 1^0048] P - (P cci~*~P cc2~*~......+Ρ(χμ)/Μ
      [0049] 其中Μ表示第一語言的最長文本行中候選連通部件的個數(shù)。除此之外,該平均識 別置信度還可W采用其他計算方式,比如:該文本行中所有候選連通部件的基于寬度加權(quán) 的平均識別置信度,即: 陽化0]
      陽051] 其中WecM表示該文本行中第Μ個候選連通部件的寬度,W表示該文本行的寬度。
      [0052] 圖9示出了根據(jù)本發(fā)明一個實(shí)施方式根據(jù)圖像的版面結(jié)構(gòu)特征確定圖像在多個 版面類別中所處的版面類別的流程圖。如圖9所示,上述子步驟S342可包括子步驟S342a 至S342b。在子步驟S342a中,根據(jù)圖像的版面結(jié)構(gòu)特征,計算該圖像與多個版面類別中的 每個的置信度概率。隨后,在子步驟S342b中,將與該圖像的置信度概率最大的版面類別確 定為其版面類別。根據(jù)一個實(shí)施例,圖像與每個版面類別的置信度概率由經(jīng)訓(xùn)練確定的判 別函數(shù)通過闊值受限的非線性變換計算得出,并且該判別函數(shù)可W是線性的或非線性的。
      [0053] 根據(jù)本發(fā)明的一個實(shí)施方式,可利用多個訓(xùn)練樣本,按照版面結(jié)構(gòu)的不同,預(yù)先定 義N種版面類別。圖10a至圖lOd示出了四個版面類別的示例。利用多個已知的訓(xùn)練樣 本,可計算出它們的版面結(jié)構(gòu)特征,從而可W訓(xùn)練一個N類的分類器,可W是線性分類器或 者非線性分類器,比如,判別模型中的經(jīng)典線性SVM分類器。
      [0054] 將屬于每一個版面類別的樣本看成該類別的正樣本,其他所有樣本看成該類別的 負(fù)樣本,能夠訓(xùn)練得到一個線性判別函數(shù),W達(dá)到區(qū)分開正、負(fù)樣本的目的,如下式所示。 陽化5] fi (X) = WiTy+bi, i 二 1, . . . , N
      [0056] 其中,X表示版面結(jié)構(gòu)特征向量,系數(shù)和b 1是線性分類器中與版面類別i相關(guān) 的經(jīng)訓(xùn)練而確定的參數(shù),fi(x)表示版面類別i關(guān)于版面結(jié)構(gòu)特征X的線性函數(shù)。
      [0057] 然后將該線性判別函數(shù)通過如下Sigmoid變換轉(zhuǎn)換為置信度概率:
      [0058]
      [0059] 其中,參數(shù)α為正數(shù),參數(shù)β為實(shí)數(shù),均是預(yù)設(shè)的系數(shù),可由實(shí)驗(yàn)確定。例如,可 將α和β分別設(shè)置為1和0。各個類別可W共享相同的參數(shù)α和β。Pi (X)表示圖像與 版面類別i的置信度概率。 W60] 上述N類分類器的參數(shù)Wi、bi、α和β可W通過本領(lǐng)域已知的訓(xùn)練方法獲得???采用開源的LibSVM工具包進(jìn)行Ν類線性SVM的訓(xùn)練。
      [0061] 在實(shí)際操作中,可將計算出的圖像的版面結(jié)構(gòu)特征輸入到上述訓(xùn)練好的N類分類 器,W將具有最大的分類置信度輸出概率的類別確定為該圖像在已知的多個版面類別中所 處的版面類別。
      [0062] 根據(jù)本發(fā)明的一個實(shí)施方式,上述子步驟S343可包括:分別利用第一語言字符串 識別引擎和非第一語言字符串識別引擎識別第一語言文字和非第一語言文字。并且,可預(yù) 設(shè)一個校正闊值。對于輸入的圖像,當(dāng)所得到的最大置信度概率小于該預(yù)設(shè)的校正闊值時, 則可改變分別用于識別第一語言文本行和/或非第一語言文本行的字符串識別引擎。此 夕F,還可預(yù)設(shè)另一校正闊值。對于輸入的圖像,當(dāng)其最長的第一語言文本行中所有連通部件 的平均識別置信度均小于該預(yù)設(shè)的另一校正闊值時,可調(diào)整第一語言文本行和/或非第一 語言文本行的文本行識別方向。由此,可通過預(yù)設(shè)的闊值調(diào)整對圖像的處理方式,W提高正 確率。
      [0063] 圖11示出了根據(jù)本發(fā)明一個實(shí)施方式的文字識別裝置的框圖。如圖11所示,文字 識別裝置1100可包括:提取單元1110、分類單元1120、聚類單元1130和識別單元1140。提 取單元1110可從包含文字的圖像中提取多個連通部件。分類單元1120可對提取單元1110 提取的多個連通部件進(jìn)行分類,W生成第一語言連通部件和/或非第一語言連通部件。聚 類單元1130可將分類單元1120所生成的第一語言連通部件聚類為第一語言文本行,并將 非第一語言連通部件聚類為非第一語言文本行。識別單元1140可從聚類單元1130所聚類 的第一語言文本行和非第一語言文本行中識別出第一語言文字和非第一語言文字。
      [0064] 圖12示出了根據(jù)本發(fā)明一個實(shí)施方式的識別單元的框圖。如圖12所示,識別單 元1140可包括:版面結(jié)構(gòu)特征計算子單元1141、版面類別確定子單元1142和文本行處理 子單元1143。版面結(jié)構(gòu)特征計算子單元1141可根據(jù)聚類單元1130所聚類的第一語言文本 行和非第一語言文本行計算圖像的版面結(jié)構(gòu)特征。版面類別確定子單元1142可根據(jù)版面 結(jié)構(gòu)特征計算子單元1141所計算的圖像的版面結(jié)構(gòu)特征,確定圖像在多個版面類別中所 處的版面類別。文本行處理子單元1143可根據(jù)版面類別確定子單元1142為該圖像確定的 版面類別處理第一語言文本行和非第一語言文本行,W識別出第一語言文字和非第一語言 文字。
      [0065] 根據(jù)本發(fā)明的一個實(shí)施方式,圖像的版面結(jié)構(gòu)特征可包括:第一語言文本行中最 長的文本行的幾何特征和識別置信度W及非第一語言文本行中最長的文本行的幾何特征。
      [0066] 圖13示出了根據(jù)本發(fā)明一個實(shí)施方式的版面類別確定子單元的框圖。如圖13 所示,版面類別確定子單元1142可包括:置信度概率計算模塊1142a和版面類別確定模塊 1142b。置信度概率計算模塊1142a可根據(jù)圖像的版面結(jié)構(gòu)特征,計算該圖像與預(yù)設(shè)的多個 版面類別中的每個版面類別的置信度概率。版面類別確定模塊114化可將與該圖像的置信 度概率最大的版面類別確定為該圖像的版面類別。
      [0067] 圖14示出了根據(jù)本發(fā)明一個實(shí)施方式的文本行處理子單元的框圖。如圖14所示, 文本行處理子單元1143可包括:第一語言字符串識別引擎1143曰、非第一語言字符串識別 引擎1143b、識別引擎切換模塊1143c和識別方向切換模塊1143d。第一語言字符串識別引 擎1143a和非第一語言字符串識別引擎1143b可分別用于識別第一語言文字和非第一語言 文字。對于所輸入的圖像,當(dāng)其最大置信度概率小于預(yù)定的第一校正闊值時,識別引擎切換 模塊1143c可改變分別用于識別第一語言文本行和/或非第一語言文本行的字符串識別引 擎。對于所輸入的圖像,當(dāng)其最長的第一語言文本行中所有連通部件的平均識別置信度均 小于預(yù)定的第二校正闊值時,識別方向切換模塊1143d可調(diào)整第一語言文本行和/或非第 一語言文本行的文本行識別方向。 W側(cè)圖15示出了根據(jù)本發(fā)明一個實(shí)施方式的提取單元的框圖。如圖15所示,提取單 元1110可包括:提取子單元1111、識別置信度計算子單元1112、字符筆劃寬度計算子單元 1113、范圍確定子單元1114和合并子單元1115。提取子單元1111可從圖像中提取連通單 元。識別置信度計算子單元1112可計算提取子單元1111所提取出的每個連通單元的識別 置信度。字符筆劃寬度計算子單元1113可計算提取子單元1111所提取出的每個連通單元 的字符筆劃寬度和平均字符筆劃寬度。范圍確定子單元1114可根據(jù)所計算出的平均字符 筆劃寬度,確定字符筆劃寬度范圍。合并子單元1115可將識別置信度小于預(yù)定的置信度闊 值的連通單元和字符筆劃寬度不處于字符筆劃寬度范圍中的連通單元除去,并將所保留的 連通單元合并,W形成多個連通部件。
      [0069] 圖16示出了根據(jù)本發(fā)明一個實(shí)施方式的聚類單元的框圖。如圖16所示,聚類單 元1130可包括:比較子單元1131、標(biāo)記子單元1132和聚類子單元1133。比較子單元1131 可將第一語言連通部件之間的水平間隔與豎直間隔進(jìn)行比較,并將非第一語言連通部件之 間的水平間隔與豎直間隔進(jìn)行比較。標(biāo)記子單元1132可根據(jù)比較子單元1131的比較結(jié)果 為每個第一語言連通部件和非第一語言連通部件設(shè)置水平標(biāo)記或豎直標(biāo)記。聚類子單元 1133可將具有水平標(biāo)記的第一語言連通部件和非第一語言連通部件分別聚類為第一語言 水平文本行和非第一語言水平文本行,并將具有豎直標(biāo)記的第一語言連通部件和非第一語 言連通部件分別聚類為第一語言豎直文本行和非第一語言豎直文本行。
      [0070] 圖17示出了根據(jù)本發(fā)明另一實(shí)施方式的聚類單元的框圖。如圖17所示,聚類單 元1130可包括:比較子單元1135、標(biāo)記子單元1136、標(biāo)記去除子單元1137和聚類子單元 1138。比較子單元1135可將第一語言連通部件之間的水平間隔和豎直間隔W及非第一語 言連通部件之間的水平間隔和豎直間隔分別與預(yù)設(shè)的闊值進(jìn)行比較。標(biāo)記子單元1136可 根據(jù)比較子單元1135的比較結(jié)果為第一語言連通部件和非第一語言連通部件設(shè)置水平標(biāo) 記和豎直標(biāo)記。對于標(biāo)記有水平標(biāo)記和豎直標(biāo)記二者的第一語言連通部件和非第一語言連 通部件中的每個,標(biāo)記去除子單元1137可根據(jù)其與同類連通部件的水平間隔和豎直間隔 的大小,去除其水平標(biāo)記和豎直標(biāo)記之一。聚類子單元1138可將具有水平標(biāo)記的第一語言 連通部件和非第一語言連通部件分別聚類為第一語言水平文本行和非第一語言水平文本 行,并將具有豎直標(biāo)記的第一語言連通部件和非第一語言連通部件分別聚類為第一語言豎 直文本行和非第一語言豎直文本行。
      [0071] 本領(lǐng)域技術(shù)人員可W理解,本發(fā)明所提供的文字識別方法和裝置既可用于識別所 拍攝照片中的口牌圖像區(qū)域中的口牌文字信息,也可用于識別任何包含文字的圖像中的文 字信息,尤其適于具有一定版面結(jié)構(gòu)特征的、屬于某種版面類型的、包含多種語言文字的圖 像。
      [0072] 另外,運(yùn)里尚需指出的是,上述裝置中各個組成部件可W通過軟件、固件、硬件或 其組合的方式進(jìn)行配置。配置可使用的具體手段或方式為本領(lǐng)域技術(shù)人員所熟知,在此不 再寶述。在通過軟件或固件實(shí)現(xiàn)的情況下,從存儲介質(zhì)或網(wǎng)絡(luò)向具有專用硬件結(jié)構(gòu)的計算 機(jī)(例如圖18所示的通用計算機(jī)1800)安裝構(gòu)成該軟件的程序,該計算機(jī)在安裝有各種程 序時,能夠執(zhí)行各種功能等。
      [0073] 圖18示出了可用于實(shí)施根據(jù)本發(fā)明實(shí)施例的方法和裝置的計算機(jī)的示意性框 圖。 陽074] 在圖18中,中央處理單元仰U) 1801根據(jù)只讀存儲器(ROM) 1802中存儲的程序或 從存儲部分1808加載到隨機(jī)存取存儲器(RAM) 1803的程序執(zhí)行各種處理。在RAM 1803中, 還根據(jù)需要存儲當(dāng)CPU 1801執(zhí)行各種處理等等時所需的數(shù)據(jù)。CPU 180UR0M 1802和RAM 1803經(jīng)由總線1804彼此連接。輸入/輸出接口 1805也連接到總線1804。 陽0巧]下述部件連接到輸入/輸出接口 1805 :輸入部分1806 (包括鍵盤、鼠標(biāo)等等)、輸 出部分1807(包括顯示器,比如陰極射線管(CRT)、液晶顯示器化CD)等,和揚(yáng)聲器等)、存 儲部分1808 (包括硬盤等)、通信部分1809 (包括網(wǎng)絡(luò)接口卡比如LAN卡、調(diào)制解調(diào)器等)。 通信部分1809經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動器1810也可連接到輸入 /輸出接口 1805??刹鹦督橘|(zhì)1811比如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等可W根據(jù)需 要被安裝在驅(qū)動器1810上,使得從中讀出的計算機(jī)程序根據(jù)需要被安裝到存儲部分1808 中。
      [0076] 在通過軟件實(shí)現(xiàn)上述系列處理的情況下,從網(wǎng)絡(luò)比如因特網(wǎng)或存儲介質(zhì)比如可拆 卸介質(zhì)1811安裝構(gòu)成軟件的程序。
      [0077] 本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,運(yùn)種存儲介質(zhì)不局限于圖18所示的其中存儲有程 序、與設(shè)備相分離地分發(fā)W向用戶提供程序的可拆卸介質(zhì)1811??刹鹦督橘|(zhì)1811的例子 包含磁盤(包含軟盤(注冊商標(biāo)))、光盤(包含光盤只讀存儲器(CD-ROM)和數(shù)字通用盤 值VD))、磁光盤(包含迷你盤(MD)(注冊商標(biāo)))和半導(dǎo)體存儲器。或者,存儲介質(zhì)可W是 ROM 1802、存儲部分1808中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起 被分發(fā)給用戶。
      [0078] 本發(fā)明還提出一種存儲有機(jī)器可讀取的指令代碼的程序產(chǎn)品。所述指令代碼由機(jī) 器讀取并執(zhí)行時,可執(zhí)行上述根據(jù)本發(fā)明實(shí)施方式的方法。
      [0079] 相應(yīng)地,用于承載上述存儲有機(jī)器可讀取的指令代碼的程序產(chǎn)品的存儲介質(zhì)也包 括在本發(fā)明的范圍內(nèi)。所述存儲介質(zhì)包括但不限于軟盤、光盤、磁光盤、存儲卡、存儲棒等 等。
      [0080] 應(yīng)當(dāng)注意,本發(fā)明的方法不限于按照說明書中描述的時間順序來執(zhí)行,也可W按 照其他的次序順序地、并行地或獨(dú)立地執(zhí)行。因此,本說明書中描述的方法的執(zhí)行順序不對 本發(fā)明的技術(shù)范圍構(gòu)成限制。
      [0081] W上對本發(fā)明各實(shí)施方式的描述是為了更好地理解本發(fā)明,其僅僅是示例性的, 而非旨在對本發(fā)明進(jìn)行限制。應(yīng)注意,在W上描述中,針對一種實(shí)施方式描述和/或示出的 特征可W W相同或類似的方式在一個或更多個其它實(shí)施方式中使用,與其它實(shí)施方式中的 特征相組合,或替代其它實(shí)施方式中的特征。本領(lǐng)域技術(shù)人員可W理解,在不脫離本發(fā)明的 發(fā)明構(gòu)思的情況下,針對W上所描述的實(shí)施方式進(jìn)行的各種變化和修改,均屬于本發(fā)明的 范圍內(nèi)。
      [0082] 綜上,在根據(jù)本發(fā)明的實(shí)施例中,本發(fā)明提供了如下技術(shù)方案。
      [0083] 方案1、一種文字識別方法,包括:
      [0084] 從包含文字的圖像中提取多個連通部件;
      [00化]對所述多個連通部件進(jìn)行分類,W生成第一語言連通部件和/或非第一語言連通 部件;
      [0086] 將所述第一語言連通部件聚類為第一語言文本行,并將所述非第一語言連通部件 聚類為非第一語言文本行;W及
      [0087] 從所述第一語言文本行和所述非第一語言文本行中識別出第一語言文字和非第 一語言文字。
      [0088] 方案2、如方案1所述的方法,其中從所述第一語言文本行和所述非第一語言文本 行中識別出第一語言文字和非第一語言文字包括:
      [0089] 根據(jù)所述第一語言文本行和所述非第一語言文本行計算所述圖像的版面結(jié)構(gòu)特 征;
      [0090] 根據(jù)所述圖像的版面結(jié)構(gòu)特征,確定所述圖像在多個版面類別中所處的版面類 另0;化及
      [0091] 根據(jù)所述圖像的版面類別處理所述第一語言文本行和所述非第一語言文本行,W 識別出第一語言文字和非第一語言文字。
      [0092] 方案3、如方案2所述的方法,其中所述圖像的版面結(jié)構(gòu)特征包括:第一語言文本 行中最長的文本行的幾何特征和識別置信度W及非第一語言文本行中最長的文本行的幾 何特征。
      [0093] 方案4、如方案3所述的方法,其中文本行的幾何特征包括該文本行的上邊界、下 邊界、左邊界、右邊界、該文本行內(nèi)的連通部件的平均寬高比和/或相鄰連通部件的平均間 隔。
      [0094] 方案5、如方案2-4中任一項(xiàng)所述的方法,其中根據(jù)所述圖像的版面結(jié)構(gòu)特征,確 定所述圖像在多個版面類別中所處的版面類別包括:
      [0095] 根據(jù)所述圖像的版面結(jié)構(gòu)特征,計算所述圖像與所述多個版面類別中的每個的置 信度概率;W及
      [0096] 將與所述圖像的置信度概率最大的版面類別確定為所述圖像的版面類別。
      [0097] 方案6、如方案5所述的方法,其中所述圖像與每個類別的置信度概率由經(jīng)訓(xùn)練確 定的判別函數(shù)通過闊值受限的非線性變換計算得出,所述判別函數(shù)是線性的或非線性的。 [009引方案7、如方案5或6所述的方法,其中根據(jù)所述圖像的版面類別處理所述第一語 言文本行和所述非第一語言文本行,W識別出第一語言文字和非第一語言文字包括:
      [0099] 分別利用第一語言字符串識別引擎和非第一語言字符串識別引擎識別第一語言 文字和非第一語言文字;并且
      [0100] 其中,對于最大置信度概率小于預(yù)定的第一校正闊值的圖像,改變分別用于識別 第一語言文本行和/或非第一語言文本行的字符串識別引擎;W及 陽101] 其中,對于最長的第一語言文本行中所有連通部件的平均識別置信度均小于預(yù)定 的第二校正闊值的圖像,調(diào)整第一語言文本行和/或非第一語言文本行的文本行識別方 向。 陽102] 方案8、如方案1-7中任一項(xiàng)所述的方法,其中從包含文字的圖像中提取多個連通 部件包括:
      [0103] 從所述圖像中提取連通單元; 陽104] 計算提取出的每個連通單元的識別置信度;W及
      [0105] 將識別置信度小于預(yù)定的置信度闊值的連通單元除去,并將未除去的連通單元合 并,W形成所述多個連通部件。 陽106] 方案9、如方案1-8中任一項(xiàng)所述的方法,其中從包含文字的圖像中提取多個連通 部件包括:
      [0107] 從所述圖像中提取連通單元; 陽10引計算提取出的每個連通單元的字符筆劃寬度和平均字符筆劃寬度;
      [0109] 根據(jù)平均字符筆劃寬度,確定字符筆劃寬度范圍;W及
      [0110] 將字符筆劃寬度不處于所述字符筆劃寬度范圍中的連通單元除去,并將未除去的 連通單元合并,W形成所述多個連通部件。 陽111] 方案10、如方案1-9中任一項(xiàng)所述的方法,其中將所述第一語言連通部件聚類為 第一語言文本行,并將所述非第一語言連通部件聚類為非第一語言文本行包括:
      [0112] 根據(jù)第一語言連通部件之間的水平間隔和豎直間隔的比較結(jié)果W及非第一語言 連通部件之間的水平間隔和豎直間隔的比較結(jié)果,為每個第一語言連通部件和非第一語言 連通部件設(shè)置水平標(biāo)記或豎直標(biāo)記;
      [0113] 將具有水平標(biāo)記的第一語言連通部件和非第一語言連通部件分別聚類為第一語 言水平文本行和非第一語言水平文本行;W及
      [0114] 將具有豎直標(biāo)記的第一語言連通部件和非第一語言連通部件分別聚類為第一語 言豎直文本行和非第一語言豎直文本行。
      [0115] 方案11、如方案1-9中任一項(xiàng)所述的方法,其中將所述第一語言連通部件聚類為 第一語言文本行,并將所述非第一語言連通部件聚類為非第一語言文本行包括:
      [0116] 根據(jù)第一語言連通部件之間的水平間隔與預(yù)設(shè)的闊值的比較結(jié)果W及非第一語 言連通部件之間的水平間隔與所述預(yù)設(shè)的闊值的比較結(jié)果,為第一語言連通部件和非第一 語言連通部件設(shè)置水平標(biāo)記;
      [0117] 根據(jù)第一語言連通部件之間的豎直間隔與所述預(yù)設(shè)的闊值的比較結(jié)果W及非第 一語言連通部件之間的豎直間隔與所述預(yù)設(shè)的闊值的比較結(jié)果,為第一語言連通部件和非 第一語言連通部件設(shè)置豎直標(biāo)記;
      [0118] 對于標(biāo)記有水平標(biāo)記和豎直標(biāo)記二者的第一語言連通部件和非第一語言連通部 件中的每個,根據(jù)其與同類連通部件的水平間隔和豎直間隔的比較結(jié)果,去除其水平標(biāo)記 和豎直標(biāo)記之一;W及
      [0119] 將具有水平標(biāo)記的第一語言連通部件和非第一語言連通部件分別聚類為第一語 言水平文本行和非第一語言水平文本行,并將具有豎直標(biāo)記的第一語言連通部件和非第一 語言連通部件分別聚類為第一語言豎直文本行和非第一語言豎直文本行。
      [0120] 方案12、如方案1-11中任一項(xiàng)所述的方法,其中第一語言的字符數(shù)量小于非第一 語言的字符數(shù)量。 陽121] 方案13、一種文字識別裝置,包括:
      [0122] 提取單元,從包含文字的圖像中提取多個連通部件;
      [0123] 分類單元,對所述多個連通部件進(jìn)行分類,W生成第一語言連通部件和/或非第 一語言連通部件;
      [0124] 聚類單元,將所述第一語言連通部件聚類為第一語言文本行,并將所述非第一語 言連通部件聚類為非第一語言文本行;W及
      [01巧]識別單元,從所述第一語言文本行和所述非第一語言文本行中識別出第一語言文 字和非第一語言文字。 陽126] 方案14、如方案13所述的裝置,其中所述識別單元包括:
      [0127] 版面結(jié)構(gòu)特征計算子單元,根據(jù)所述第一語言文本行和所述非第一語言文本行計 算所述圖像的版面結(jié)構(gòu)特征;
      [0128] 版面類別確定子單元,根據(jù)所述圖像的版面結(jié)構(gòu)特征,確定所述圖像在多個版面 類別中所處的版面類別;W及
      [0129] 文本行處理子單元,根據(jù)所述圖像的版面類別處理所述第一語言文本行和所述非 第一語言文本行,W識別出第一語言文字和非第一語言文字。
      [0130] 方案15、如方案14所述的裝置,其中所述圖像的版面結(jié)構(gòu)特征包括:第一語言文 本行中最長的文本行的幾何特征和識別置信度W及非第一語言文本行中最長的文本行的 幾何特征。 陽131] 方案16、如方案14或15所述的裝置,其中所述版面類別確定子單元包括:
      [0132] 置信度概率計算模塊,根據(jù)所述圖像的版面結(jié)構(gòu)特征,計算所述圖像與所述多個 版面類別中的每個的置信度概率;W及
      [0133] 版面類別確定模塊,將與所述圖像的置信度概率最大的版面類別確定為所述圖像 的版面類別。
      [0134] 方案17、如方案16所述的裝置,其中所述文本行處理子單元包括:
      [0135] 第一語言字符串識別引擎和非第一語言字符串識別引擎,分別用于識別第一語言 文字和非第一語言文字;
      [0136] 識別引擎切換模塊,對于最大置信度概率小于預(yù)定的第一校正闊值的圖像,改變 分別用于識別第一語言文本行和/或非第一語言文本行的字符串識別引擎;W及
      [0137] 識別方向切換模塊,對于最長的第一語言文本行中所有連通部件的平均識別置信 度均小于預(yù)定的第二校正闊值的圖像,調(diào)整第一語言文本行和/或非第一語言文本行的文 本行識別方向。
      [0138] 方案18、如方案13-17中任一項(xiàng)所述的裝置,其中所述提取單元包括:
      [0139] 提取子單元,從所述圖像中提取連通單元;
      [0140] 識別置信度計算子單元,計算提取出的每個連通單元的識別置信度; 陽141] 字符筆劃寬度計算子單元,計算提取出的每個連通單元的字符筆劃寬度和平均字 符筆劃寬度; 陽142] 范圍確定子單元,根據(jù)平均字符筆劃寬度,確定字符筆劃寬度范圍;W及 陽143] 合并子單元,將識別置信度小于預(yù)定的置信度闊值的連通單元和字符筆劃寬度不 處于所述字符筆劃寬度范圍中的連通單元除去,并將未除去的連通單元合并,W形成所述 多個連通部件。
      [0144] 方案19、如方案13-18中任一項(xiàng)所述的裝置,其中所述聚類單元包括:
      [0145] 比較子單元,將第一語言連通部件之間的水平間隔與豎直間隔進(jìn)行比較,并將非 第一語言連通部件之間的水平間隔與豎直間隔進(jìn)行比較; 陽146] 標(biāo)記子單元,根據(jù)所述比較子單元的比較結(jié)果為每個第一語言連通部件和非第一 語言連通部件設(shè)置水平標(biāo)記或豎直標(biāo)記;W及
      [0147] 聚類子單元,將具有水平標(biāo)記的第一語言連通部件和非第一語言連通部件分別聚 類為第一語言水平文本行和非第一語言水平文本行,將具有豎直標(biāo)記的第一語言連通部件 和非第一語言連通部件分別聚類為第一語言豎直文本行和非第一語言豎直文本行。
      [0148] 方案20、如方案13-18中任一項(xiàng)所述的裝置,其中所述聚類單元包括:
      [0149] 比較子單元,將第一語言連通部件之間的水平間隔和豎直間隔W及非第一語言連 通部件之間的水平間隔和豎直間隔分別與預(yù)設(shè)的闊值進(jìn)行比較;
      [0150] 標(biāo)記子單元,根據(jù)所述比較子單元的比較結(jié)果為第一語言連通部件和非第一語言 連通部件設(shè)置水平標(biāo)記和豎直標(biāo)記; 陽151] 標(biāo)記去除子單元,對于標(biāo)記有水平標(biāo)記和豎直標(biāo)記二者的第一語言連通部件和非 第一語言連通部件中的每個,根據(jù)其與同類連通部件的水平間隔和豎直間隔的大小,去除 其水平標(biāo)記和豎直標(biāo)記之一;W及
      [0152] 聚類子單元,將具有水平標(biāo)記的第一語言連通部件和非第一語言連通部件分別聚 類為第一語言水平文本行和非第一語言水平文本行,將具有豎直標(biāo)記的第一語言連通部件 和非第一語言連通部件分別聚類為第一語言豎直文本行和非第一語言豎直文本行。
      【主權(quán)項(xiàng)】
      1. 一種文字識別方法,包括: 從包含文字的圖像中提取多個連通部件; 對所述多個連通部件進(jìn)行分類,以生成第一語言連通部件和/或非第一語言連通部 件; 將所述第一語言連通部件聚類為第一語言文本行,并將所述非第一語言連通部件聚類 為非第一語言文本行;以及 從所述第一語言文本行和所述非第一語言文本行中識別出第一語言文字和非第一語 言文字。2. 如權(quán)利要求1所述的方法,其中從所述第一語言文本行和所述非第一語言文本行中 識別出第一語言文字和非第一語言文字包括: 根據(jù)所述第一語言文本行和所述非第一語言文本行計算所述圖像的版面結(jié)構(gòu)特征; 根據(jù)所述圖像的版面結(jié)構(gòu)特征,確定所述圖像在多個版面類別中所處的版面類別;以 及 根據(jù)所述圖像的版面類別處理所述第一語言文本行和所述非第一語言文本行,以識別 出第一語言文字和非第一語言文字。3. 如權(quán)利要求2所述的方法,其中所述圖像的版面結(jié)構(gòu)特征包括:第一語言文本行中 最長的文本行的幾何特征和識別置信度以及非第一語言文本行中最長的文本行的幾何特 征。4. 如權(quán)利要求2或3所述的方法,其中根據(jù)所述圖像的版面結(jié)構(gòu)特征,確定所述圖像在 多個版面類別中所處的版面類別包括: 根據(jù)所述圖像的版面結(jié)構(gòu)特征,計算所述圖像與所述多個版面類別中的每個的置信度 概率;以及 將與所述圖像的置信度概率最大的版面類別確定為所述圖像的版面類別。5. 如權(quán)利要求4所述的方法,其中根據(jù)所述圖像的版面類別處理所述第一語言文本行 和所述非第一語言文本行,以識別出第一語言文字和非第一語言文字包括: 分別利用第一語言字符串識別引擎和非第一語言字符串識別引擎識別第一語言文字 和非第一語言文字;并且 其中,對于最大置信度概率小于預(yù)定的第一校正閾值的圖像,改變分別用于識別第一 語言文本行和/或非第一語言文本行的字符串識別引擎;以及 其中,對于最長的第一語言文本行中所有連通部件的平均識別置信度均小于預(yù)定的第 二校正閾值的圖像,調(diào)整第一語言文本行和/或非第一語言文本行的文本行識別方向。6. 如權(quán)利要求1-3中任一項(xiàng)所述的方法,其中從包含文字的圖像中提取多個連通部件 包括: 從所述圖像中提取連通單元; 計算提取出的每個連通單元的識別置信度;以及 將識別置信度小于預(yù)定的置信度閾值的連通單元除去,并將未除去的連通單元合并, 以形成所述多個連通部件。7. 如權(quán)利要求1-3中任一項(xiàng)所述的方法,其中從包含文字的圖像中提取多個連通部件 包括: 從所述圖像中提取連通單元; 計算提取出的每個連通單元的字符筆劃寬度和平均字符筆劃寬度; 根據(jù)平均字符筆劃寬度,確定字符筆劃寬度范圍;以及 將字符筆劃寬度不處于所述字符筆劃寬度范圍中的連通單元除去,并將未除去的連通 單元合并,以形成所述多個連通部件。8. 如權(quán)利要求1-3中任一項(xiàng)所述的方法,其中將所述第一語言連通部件聚類為第一語 言文本行,并將所述非第一語言連通部件聚類為非第一語言文本行包括: 根據(jù)第一語言連通部件之間的水平間隔和豎直間隔的比較結(jié)果以及非第一語言連通 部件之間的水平間隔和豎直間隔的比較結(jié)果,為每個第一語言連通部件和非第一語言連通 部件設(shè)置水平標(biāo)記或豎直標(biāo)記; 將具有水平標(biāo)記的第一語言連通部件和非第一語言連通部件分別聚類為第一語言水 平文本行和非第一語言水平文本行;以及 將具有豎直標(biāo)記的第一語言連通部件和非第一語言連通部件分別聚類為第一語言豎 直文本行和非第一語言豎直文本行。9. 如權(quán)利要求1-3中任一項(xiàng)所述的方法,其中將所述第一語言連通部件聚類為第一語 言文本行,并將所述非第一語言連通部件聚類為非第一語言文本行包括: 根據(jù)第一語言連通部件之間的水平間隔與預(yù)設(shè)的閾值的比較結(jié)果以及非第一語言連 通部件之間的水平間隔與所述預(yù)設(shè)的閾值的比較結(jié)果,為第一語言連通部件和非第一語言 連通部件設(shè)置水平標(biāo)記; 根據(jù)第一語言連通部件之間的豎直間隔與所述預(yù)設(shè)的閾值的比較結(jié)果以及非第一語 言連通部件之間的豎直間隔與所述預(yù)設(shè)的閾值的比較結(jié)果,為第一語言連通部件和非第一 語言連通部件設(shè)置豎直標(biāo)記; 對于標(biāo)記有水平標(biāo)記和豎直標(biāo)記二者的第一語言連通部件和非第一語言連通部件中 的每個,根據(jù)其與同類連通部件的水平間隔和豎直間隔的比較結(jié)果,去除其水平標(biāo)記和豎 直標(biāo)記之一;以及 將具有水平標(biāo)記的第一語言連通部件和非第一語言連通部件分別聚類為第一語言水 平文本行和非第一語言水平文本行,并將具有豎直標(biāo)記的第一語言連通部件和非第一語言 連通部件分別聚類為第一語言豎直文本行和非第一語言豎直文本行。10. -種文字識別裝置,包括: 提取單元,從包含文字的圖像中提取多個連通部件; 分類單元,對所述多個連通部件進(jìn)行分類,以生成第一語言連通部件和/或非第一語 言連通部件; 聚類單元,將所述第一語言連通部件聚類為第一語言文本行,并將所述非第一語言連 通部件聚類為非第一語言文本行;以及 識別單元,從所述第一語言文本行和所述非第一語言文本行中識別出第一語言文字和 非第一語言文字。
      【文檔編號】G06K9/00GK105989341SQ201510086612
      【公開日】2016年10月5日
      【申請日】2015年2月17日
      【發(fā)明人】許亮, 范偉, 孫俊, 直井聰
      【申請人】富士通株式會社
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1