本公開涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,更具體地,涉及一種能夠結(jié)合簡(jiǎn)單快速的字符分類器和復(fù)雜高精度的字符分類器對(duì)具有表格結(jié)構(gòu)的圖像進(jìn)行識(shí)別的圖像識(shí)別方法和圖像識(shí)別設(shè)備。
背景技術(shù):
增值稅發(fā)票(抵扣聯(lián))識(shí)別是企業(yè)的財(cái)務(wù)共享中心的一項(xiàng)重要內(nèi)容。通過掃描增值稅發(fā)票(抵扣聯(lián)),得到增值稅發(fā)票的數(shù)字圖像,然后通過增值稅發(fā)票識(shí)別系統(tǒng),產(chǎn)生電子化的增值稅發(fā)票的表格數(shù)據(jù)。
傳統(tǒng)的發(fā)票識(shí)別方法一般基于嚴(yán)格定義的發(fā)票結(jié)構(gòu)模板,找到對(duì)應(yīng)的條目位置,然后通過二值化提取文字,再進(jìn)行字符分割和字符識(shí)別。銀行流水單的識(shí)別方法與上述發(fā)票識(shí)別方法類似。傳統(tǒng)的方法存在如下的不足:
(1)不能正確處理后打印文字和預(yù)打印文字交疊的情形。發(fā)票上的條目?jī)?nèi)容包含預(yù)打印文字和后打印文字,預(yù)打印文字的位置一般是固定的,但后打印文字的位置是不固定的,可能偏離結(jié)構(gòu)模板的指定區(qū)域。圖1是示出發(fā)票上后打印文字與預(yù)打印文字和表格線交疊的示例的圖。如圖1所示,后打印文字和預(yù)打印文字(在圖1中,預(yù)打印文字為“密碼區(qū)”)交疊,并且后打印文字和表格線交疊。
(2)不能正確識(shí)別后打印文字帶有噪聲的情形。發(fā)票上除了打印的文字,還可能會(huì)有加蓋的紅章、灰塵污垢等,二值化后會(huì)給后打印文字帶來噪聲,從而導(dǎo)致不能正確識(shí)別。
技術(shù)實(shí)現(xiàn)要素:
在下文中給出了關(guān)于本公開的簡(jiǎn)要概述,以便提供關(guān)于本公開的某些方面的基本理解。但是,應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本公開的窮舉性概述。它并不是意圖用來確定本公開的關(guān)鍵性部分或重要部分,也不是意 圖用來限定本公開的范圍。其目的僅僅是以簡(jiǎn)化的形式給出關(guān)于本公開的某些概念,以此作為稍后給出的更詳細(xì)描述的前序。
鑒于以上問題,本公開的目的是提供一種圖像識(shí)別方法和圖像識(shí)別設(shè)備,其能夠結(jié)合簡(jiǎn)單快速的字符分類器和復(fù)雜高精度的字符分類器對(duì)具有表格結(jié)構(gòu)的圖像進(jìn)行識(shí)別,從而實(shí)現(xiàn)高精度的字符識(shí)別,同時(shí)識(shí)別速度較快。
根據(jù)本公開的一方面,提供了一種用于對(duì)具有表格結(jié)構(gòu)的輸入圖像進(jìn)行識(shí)別的圖像識(shí)別方法,其中輸入圖像包含有一個(gè)或多個(gè)預(yù)打印字符串以及一個(gè)或多個(gè)后打印字符串,該圖像識(shí)別方法可以包括:提取步驟,可以用于從輸入圖像中提取出表格結(jié)構(gòu);定位步驟,可以用于基于表格結(jié)構(gòu)的先驗(yàn)知識(shí),獲得一個(gè)或多個(gè)后打印字符串中的至少一個(gè)后打印字符串的位置信息;以及識(shí)別步驟,對(duì)于至少一個(gè)后打印字符串中的每個(gè)后打印字符,可以采用基于二值化圖像的第一字符分類器和基于灰度圖像的第二字符分類器來對(duì)該后打印字符進(jìn)行識(shí)別。
根據(jù)本公開的另一方面,還提供了一種用于對(duì)具有表格結(jié)構(gòu)的輸入圖像進(jìn)行識(shí)別的圖像識(shí)別設(shè)備,其中輸入圖像包含有一個(gè)或多個(gè)預(yù)打印字符串以及一個(gè)或多個(gè)后打印字符串,該圖像識(shí)別設(shè)備可以包括:提取單元,可以被配置成從輸入圖像中提取出表格結(jié)構(gòu);定位單元,可以被配置成基于表格結(jié)構(gòu)的先驗(yàn)知識(shí),獲得一個(gè)或多個(gè)后打印字符串中的至少一個(gè)后打印字符串的位置信息;以及識(shí)別單元,可以被配置成對(duì)于至少一個(gè)后打印字符串中的每個(gè)后打印字符,采用基于二值化圖像的第一字符分類器和基于灰度圖像的第二字符分類器來對(duì)該后打印字符進(jìn)行識(shí)別。
根據(jù)本公開的其它方面,還提供了用于實(shí)現(xiàn)上述根據(jù)本公開的方法的計(jì)算機(jī)程序代碼和計(jì)算機(jī)程序產(chǎn)品以及其上記錄有該用于實(shí)現(xiàn)上述根據(jù)本公開的方法的計(jì)算機(jī)程序代碼的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
在下面的說明書部分中給出本公開實(shí)施例的其它方面,其中,詳細(xì)說明用于充分地公開本公開實(shí)施例的優(yōu)選實(shí)施例,而不對(duì)其施加限定。
附圖說明
本公開可以通過參考下文中結(jié)合附圖所給出的詳細(xì)描述而得到更好的理解,其中在所有附圖中使用了相同或相似的附圖標(biāo)記來表示相同或者相似的部件。所述附圖連同下面的詳細(xì)說明一起包含在本說明書中并形成 說明書的一部分,用來進(jìn)一步舉例說明本公開的優(yōu)選實(shí)施例和解釋本公開的原理和優(yōu)點(diǎn)。其中:
圖1是示出發(fā)票上后打印文字與預(yù)打印文字和表格線交疊的示例的圖;
圖2是示出根據(jù)本公開的實(shí)施例的圖像識(shí)別方法的流程示例的流程圖;
圖3是示出具有表格結(jié)構(gòu)的輸入圖像的示例的圖;
圖4是示出從輸入圖像中提取出的表格結(jié)構(gòu)的示例的圖;
圖5是示出從輸入圖像中定位出后打印字符串的示例的圖;
圖6是示出包含噪聲的字符串圖像的示例的圖;
圖7是示出包含破裂字符的字符串圖像的示例的圖;
圖8是示出殘缺字符的示例的圖;
圖9是示出cnn分類器對(duì)字符進(jìn)行識(shí)別的流程的示例的圖;
圖10是示出在cnn分類器中未對(duì)灰度圖像進(jìn)行填充和對(duì)灰度圖像進(jìn)行填充從而進(jìn)行識(shí)別的示例的圖;
圖11是示出根據(jù)本公開的實(shí)施例的圖像識(shí)別設(shè)備的功能配置示例的框圖;以及
圖12是示出作為本公開的實(shí)施例中可采用的信息處理設(shè)備的個(gè)人計(jì)算機(jī)的示例結(jié)構(gòu)的框圖。
具體實(shí)施方式
在下文中將結(jié)合附圖對(duì)本公開的示范性實(shí)施例進(jìn)行描述。為了清楚和簡(jiǎn)明起見,在說明書中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種實(shí)際實(shí)施例的過程中必須做出很多特定于實(shí)施方式的決定,以便實(shí)現(xiàn)開發(fā)人員的具體目標(biāo),例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會(huì)隨著實(shí)施方式的不同而有所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費(fèi)時(shí)的,但對(duì)得益于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任務(wù)。
在此,還需要說明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本公開,在附圖中僅僅示出了與根據(jù)本公開的方案密切相關(guān)的設(shè)備結(jié)構(gòu)和/或 處理步驟,而省略了與本公開關(guān)系不大的其它細(xì)節(jié)。
下面結(jié)合附圖詳細(xì)說明根據(jù)本公開的實(shí)施例。
首先,將參照?qǐng)D2描述根據(jù)本公開的實(shí)施例的圖像識(shí)別方法的流程示例。圖2是示出根據(jù)本公開的實(shí)施例的圖像識(shí)別方法的流程示例的流程圖。如圖2所示,根據(jù)本公開的實(shí)施例的圖像識(shí)別方法可包括提取步驟s202、定位步驟s204以及識(shí)別步驟s206。
根據(jù)本公開實(shí)施例的圖像識(shí)別方法用于對(duì)具有表格結(jié)構(gòu)的輸入圖像進(jìn)行識(shí)別,其中輸入圖像包含有一個(gè)或多個(gè)預(yù)打印字符串以及一個(gè)或多個(gè)后打印字符串。
圖3是示出具有表格結(jié)構(gòu)的輸入圖像的示例的圖。如圖3所示,該輸入圖像是發(fā)票圖像,該發(fā)票圖像包括表格結(jié)構(gòu)、印刷發(fā)票時(shí)所印刷的一個(gè)或多個(gè)預(yù)打印字符串以及在使用發(fā)票時(shí)所輸入的一個(gè)或多個(gè)后打印字符串。發(fā)票圖像僅是具有表格結(jié)構(gòu)的圖像的一個(gè)具體示例,具有表格結(jié)構(gòu)的圖像還可以是銀行流水單等等。
以下將結(jié)合圖3中示出的圖像來分別詳細(xì)描述圖2所示的根據(jù)本公開實(shí)施例的圖像識(shí)別方法中各個(gè)步驟中的處理。
首先,在提取步驟s202中,可以從輸入圖像中提取出表格結(jié)構(gòu)。假設(shè)已經(jīng)將發(fā)票圖像進(jìn)行了傾斜旋轉(zhuǎn)校正,這是業(yè)界公知的技術(shù)。
如果后打印文字和預(yù)打印文字具有不同顏色且已知,那么可以通過不同顏色投影的方法,得到包含后打印文字的灰度圖像a和包含預(yù)打印文字的灰度圖像b。對(duì)于灰度圖像b,進(jìn)行二值化以及連通部件提取,再選擇其中最大的連通部件為表格。
如果不知道顏色信息,那么可以將輸入圖像的灰度圖像進(jìn)行二值化,然后再在二值圖像上尋找最長(zhǎng)的水平游程和豎直游程,最長(zhǎng)的水平游程和豎直游程包圍的區(qū)域即是表格區(qū)域。
圖4是示出從輸入圖像中提取出的表格結(jié)構(gòu)的示例的圖。如圖4所示,從圖3所示的發(fā)票圖像提取出其表格結(jié)構(gòu)。
在定位步驟s204中,可以基于表格結(jié)構(gòu)的先驗(yàn)知識(shí),獲得一個(gè)或多個(gè)后打印字符串中的至少一個(gè)后打印字符串的位置信息。
優(yōu)選地,在定位步驟s204中,可以基于表格結(jié)構(gòu)中的各區(qū)域的相對(duì)位置,選擇如下區(qū)域作為至少一個(gè)后打印字符串中的每個(gè)后打印字符串的 區(qū)域:該區(qū)域包含表格結(jié)構(gòu)中的與該后打印字符串對(duì)應(yīng)的區(qū)域且比表格結(jié)構(gòu)中的與該后打印字符串對(duì)應(yīng)的區(qū)域更大。
在定位步驟s204中,各關(guān)鍵區(qū)域的相對(duì)位置可以通過關(guān)于表格結(jié)構(gòu)的先驗(yàn)知識(shí)獲得。
具體地,基于該表格,根據(jù)各條目的弱結(jié)構(gòu)模板(相對(duì)位置)信息,得到后打印文字的初步區(qū)域。這里的弱結(jié)構(gòu)模板指的是目標(biāo)區(qū)域不是嚴(yán)格地限定在表格的指定區(qū)域,而是包含比表格指定區(qū)域的更大的區(qū)域。也就是說,選擇如下區(qū)域作為后打印字符串的區(qū)域:該區(qū)域包含表格結(jié)構(gòu)中的與該后打印字符串對(duì)應(yīng)的區(qū)域且比表格結(jié)構(gòu)中的與該后打印字符串對(duì)應(yīng)的區(qū)域更大。
優(yōu)選地,在定位步驟s204中,除了表格結(jié)構(gòu)的先驗(yàn)知識(shí)之外,還可以基于顏色信息來獲得至少一個(gè)后打印字符串的位置信息。
結(jié)合后打印文字的灰度圖像a,可以在條目初步區(qū)域內(nèi)精細(xì)定位條目字符串。當(dāng)后打印文字和預(yù)打印文字有交疊時(shí),交疊部分的文字的顏色是介于后打印文字顏色和預(yù)打印文字顏色兩者之間,因此采用該顏色信息,可以將交疊部分的后打印文字定位出來。
圖5是示出從輸入圖像中定位出后打印字符串的示例的圖。如圖5所示,用矩形所包圍的區(qū)域?yàn)閺膱D3所示的發(fā)票圖像中定位出的感興趣的后打印字符串。
在識(shí)別步驟s206中,對(duì)于至少一個(gè)后打印字符串中的每個(gè)后打印字符,可以采用基于二值化圖像的第一字符分類器和基于灰度圖像的第二字符分類器來對(duì)該后打印字符進(jìn)行識(shí)別。
在識(shí)別步驟s206中,結(jié)合簡(jiǎn)單快速的第一字符分類器和復(fù)雜高精度的第二字符分類器對(duì)后打印字符進(jìn)行識(shí)別。第一字符分類器可以是基于二值化圖像的修正二次判別函數(shù)(mqdf)分類器。第二字符分類器可以是基于灰度圖像的卷積神經(jīng)網(wǎng)絡(luò)(cnn)分類器。上述第一字符分類器和第二字符分類器僅是示例而非限制,也即第一字符分類器和第二字符分類器還可以是除了mqdf分類器和cnn分類器之外的其他字符分類器。在下文中,為了清楚,以第一字符分類器是mqdf分類器和第二字符分類器是cnn分類器來進(jìn)行描述。
具體地,本申請(qǐng)?jiān)趥鹘y(tǒng)的基于二值化圖像的mqdf分類器的基礎(chǔ)上,采用一種結(jié)合機(jī)制,還利用了深度學(xué)習(xí)的cnn分類器,該cnn分類器 直接基于灰度圖像提取特征來進(jìn)行分類識(shí)別。這種結(jié)合既能夠保證較高的字符識(shí)別正確率,又能夠保證較快速的處理速度。
下面簡(jiǎn)單介紹簡(jiǎn)單快速的第一字符分類器:二次判別函數(shù)(qdf)分類器。
對(duì)于特征向量x,多類別二次函數(shù)分類器的輸出如下:
其中,μi、σi分別是第i(i=1,2,…n)類別的均值向量和協(xié)方差矩陣。對(duì)于每個(gè)類別,在高斯假設(shè)的前提下,從訓(xùn)練樣本估計(jì)均值和協(xié)方差。對(duì)于輸入樣本,將標(biāo)簽分配給具有最小距離的類別。然后,我們將分類器輸出通過sigmoid變換轉(zhuǎn)換為置信度概率。
具體地,mqdf是修正的qdf。
優(yōu)選地,在識(shí)別步驟s206中,第一字符分類器可以首先對(duì)二值化圖像中的最大連通塊子圖像進(jìn)行識(shí)別,若該識(shí)別的結(jié)果的置信度低,則第一字符分類器可以再對(duì)整個(gè)二值化圖像進(jìn)行識(shí)別,并且選擇這兩個(gè)識(shí)別中置信度高的識(shí)別結(jié)果作為最終識(shí)別結(jié)果。
具體地,在識(shí)別步驟s206中,對(duì)于要識(shí)別的字符的位置上對(duì)應(yīng)的輸入圖像的灰度圖像部分進(jìn)行二值化,為了忽略噪聲的影響,先提取出二值化圖像中最大的連通塊子圖像來采用mqdf分類器進(jìn)行字符識(shí)別。圖6是示出包含噪聲的字符串圖像的示例的圖。如圖6所示,其中的小數(shù)點(diǎn)“.”上面存在噪聲,在對(duì)該小數(shù)點(diǎn)“.”識(shí)別時(shí),可以先提取出其二值化圖像中最大的連通塊子圖像來進(jìn)行字符識(shí)別。如果該識(shí)別的結(jié)果的置信度較低,則采用mqdf分類器對(duì)整個(gè)二值化圖像進(jìn)行字符識(shí)別,最后選擇這兩個(gè)識(shí)別中置信度高的識(shí)別結(jié)果作為最終識(shí)別結(jié)果。
圖7是示出包含破裂字符的字符串圖像的示例的圖。如圖7所示,其中的數(shù)字“9”、“0”、“5”和“7”是破裂字符。圖8是示出殘缺字符的示例的圖。圖8中第一行的圖像是原始圖像。圖8中第二行的圖像是去除上述原始圖像中的蓋章后的灰度圖像。圖8中第三行的圖像是所提取的字符串灰度圖像。圖8中第四行的圖像是二值化后的字符串圖像,其中“6”和“4”是殘缺字符。
然而,對(duì)于如圖6所示的帶噪聲字符、如圖7所示的破裂字符以及如 圖8所示的殘缺字符,mqdf分類器的識(shí)別精度較低。
由以上描述可知,第一字符分類器的優(yōu)點(diǎn)是:快速,對(duì)于噪聲較少的情形,識(shí)別精度較高。其缺點(diǎn)是:一般處理二值圖像,圖像特征是手工設(shè)計(jì)提取的;容易受噪聲的影響,對(duì)于帶噪聲字符、破裂字符以及殘缺字符,識(shí)別精度較低。
下面簡(jiǎn)單介紹復(fù)雜高精度的第二字符分類器:cnn分類器。
圖9是示出cnn分類器對(duì)字符進(jìn)行識(shí)別的流程的示例的圖。
如圖9所示,首先將灰度圖像輸入到cnn分類器。然后,對(duì)所輸入的灰度圖像進(jìn)行縮放處理,即對(duì)所輸入的灰度圖像的長(zhǎng)度和寬度均按一定比例進(jìn)行縮放。接下來,對(duì)經(jīng)縮放的圖像進(jìn)行填充,以使得該灰度圖像具有cnn分類器所要求的歸一化的長(zhǎng)寬比。最后進(jìn)行特征提取和分類,從而得到識(shí)別出的字符。
針對(duì)cnn分類器的輸入樣本需要保持長(zhǎng)寬比值的歸一化,本申請(qǐng)?zhí)岢隽艘环N自適應(yīng)地估計(jì)輸入樣本的背景像素值來得到更加符合實(shí)際情形的字符圖像的方法。
優(yōu)選地,在識(shí)別步驟s206中,在對(duì)輸入到第二字符分類器的灰度圖像進(jìn)行歸一化時(shí),可以基于灰度圖像的背景像素的灰度值來填充該灰度圖像,以使得該灰度圖像具有預(yù)定的長(zhǎng)寬比。具體地,在對(duì)輸入到cnn分類器的灰度圖像進(jìn)行歸一化時(shí),可以對(duì)該灰度圖像進(jìn)行二值化,得到前景像素區(qū)域,余下的為背景像素。若經(jīng)縮放的灰度圖像的長(zhǎng)寬比不是cnn分類器所要求的預(yù)定的長(zhǎng)寬比,則基于背景像素的灰度值來填充經(jīng)縮放的灰度圖像,以使得灰度圖像具有上述預(yù)定的長(zhǎng)寬比。
優(yōu)選地,可以基于背景像素的灰度值的均值或中值來填充該灰度圖像。具體地,可以使用背景像素的灰度值的均值或者中值作為填充像素值。
圖10是示出在cnn分類器中未對(duì)灰度圖像進(jìn)行填充和對(duì)灰度圖像進(jìn)行填充從而進(jìn)行識(shí)別的示例的圖。具體地,如圖10的第一行所示,對(duì)于所輸入的灰度圖像“2”,若未對(duì)縮放后的灰度圖像進(jìn)行填充,則會(huì)將其識(shí)別為數(shù)字“1”。而如圖10的第二行所示,對(duì)于所輸入的灰度圖像“2”,若基于灰度圖像的背景像素的灰度值對(duì)縮放后的灰度圖像進(jìn)行填充,則會(huì)將其識(shí)別為數(shù)字“2”。
優(yōu)選地,cnn分類器所要求的預(yù)定的長(zhǎng)寬比可以根據(jù)實(shí)驗(yàn)確定,也可以根據(jù)本領(lǐng)域中公知的其他方法來確定。
根據(jù)以上示例可以看出,由以上基于灰度圖像的背景像素的灰度值來填充灰度圖像的方法得到的字符圖像更加符合實(shí)際情形,從而提升了cnn分類器的識(shí)別性能。
第二字符分類器的優(yōu)點(diǎn)是:直接基于灰度圖像進(jìn)行識(shí)別,圖像特征是通過訓(xùn)練樣本自動(dòng)學(xué)習(xí)得到的;對(duì)于帶噪聲字符、破裂字符以及殘缺字符,識(shí)別精度依然較高。其缺點(diǎn)是處理速度較慢。
優(yōu)選地,在識(shí)別步驟s206中,若采用第一字符分類器得到的識(shí)別結(jié)果的置信度低或者該識(shí)別結(jié)果的第一候選和第二候選的概率之差小,則可以采用第二字符分類器來進(jìn)行識(shí)別,并且可以選擇這兩個(gè)識(shí)別中置信度高的識(shí)別結(jié)果作為最終識(shí)別結(jié)果。具體地,在識(shí)別步驟s206中,當(dāng)采用第一字符分類器得到的識(shí)別結(jié)果的置信度較低或者該識(shí)別結(jié)果的第一候選和第二候選的概率之差較小時(shí),表示該第一分類器的輸出結(jié)果不太可靠。此時(shí),進(jìn)一步采用基于灰度字符圖像的復(fù)雜高精度的第二字符分類器來進(jìn)行識(shí)別。最后,選擇這兩個(gè)識(shí)別中置信度高的識(shí)別結(jié)果作為最終識(shí)別結(jié)果。舉例來說,對(duì)于無噪聲的字符圖像,可以直接采用基于二值化圖像的mqdf分類器的識(shí)別結(jié)果。而對(duì)于包含噪聲的字符圖像,先得到二值化圖像的mqdf識(shí)別結(jié)果,但是mqdf分類器的識(shí)別結(jié)果的置信度可能較低。那么進(jìn)行灰度圖像的cnn識(shí)別,然后比較兩者的識(shí)別置信度,最后采用較高置信度對(duì)應(yīng)的識(shí)別結(jié)果。
優(yōu)選地,根據(jù)本公開的實(shí)施例的圖像識(shí)別方法還包括可以分離步驟,其可以基于顏色信息來從輸入圖像中分離出至少一個(gè)后打印字符串的圖像。具體地,由于后打印文字和預(yù)打印文字具有不同顏色,因此可以基于顏色信息來從輸入圖像中分離出后打印字符串的圖像。
優(yōu)選地,在識(shí)別步驟s206中,對(duì)于至少一個(gè)后打印字符串中的每個(gè)后打印字符,可以采用基于輸入圖像而生成的二值化圖像和灰度圖像分別作為第一字符分類器和第二字符分類器的輸入來對(duì)該后打印字符進(jìn)行識(shí)別從而得到第一識(shí)別結(jié)果,還可以采用基于至少一個(gè)后打印字符串的圖像而生成的二值化圖像和灰度圖像分別作為第一字符分類器和第二字符分類器的輸入來對(duì)該后打印字符進(jìn)行識(shí)別從而得到第二識(shí)別結(jié)果,并且可以選擇第一識(shí)別結(jié)果和第二識(shí)別結(jié)果中置信度高的識(shí)別結(jié)果作為最終識(shí)別結(jié)果。
具體地,由于在利用顏色信息在分離步驟中分離后打印字符串的圖像的過程中,去除了諸如紅色蓋章等的噪聲從而使得字符更加完整,因此相 比于原始輸入圖像而言,在分離步驟中分離出的后打印字符串的圖像可能噪聲更少并且可能字符更完整。從而,在識(shí)別步驟s206中,為了得到更準(zhǔn)確的識(shí)別結(jié)果,除了將基于原始輸入圖像而生成的二值化圖像和灰度圖像分別作為第一字符分類器和第二字符分類器的輸入來對(duì)后打印字符進(jìn)行識(shí)別外,還可以將基于分離步驟中分離出的后打印字符串的圖像而生成的二值化圖像和灰度圖像分別作為第一字符分類器和第二字符分類器的輸入來對(duì)后打印字符進(jìn)行識(shí)別,最后,識(shí)別結(jié)果中置信度高的識(shí)別結(jié)果作為最終識(shí)別結(jié)果。
優(yōu)選地,在識(shí)別步驟s206中,可以基于至少一個(gè)后打印字符串的圖像來進(jìn)行字符切分。為了避免預(yù)打印字符的交疊影響,本申請(qǐng)?jiān)诜蛛x步驟中分離出的后打印字符串的圖像的灰度圖像上,進(jìn)行字符切分,這樣可以使得字符切分的精確度更高。
根據(jù)以上描述可知,根據(jù)本公開的實(shí)施例的圖像識(shí)別方法結(jié)合簡(jiǎn)單快速的字符分類器和復(fù)雜高精度的字符分類器對(duì)具有表格結(jié)構(gòu)的圖像進(jìn)行識(shí)別,因此可以實(shí)現(xiàn)高精度的字符識(shí)別,同時(shí)識(shí)別速度較快。
與上述方法實(shí)施例相對(duì)應(yīng)地,本公開還提供了以下設(shè)備實(shí)施例。
圖11是示出根據(jù)本公開的實(shí)施例的圖像識(shí)別設(shè)備1100的功能配置示例的框圖。
如圖11所示,根據(jù)本公開的實(shí)施例的圖像識(shí)別設(shè)備1100可以包括提取單元1102、定位單元1104以及識(shí)別單元1106。接下來將描述各個(gè)單元的功能配置示例。
根據(jù)本公開實(shí)施例的圖像識(shí)別設(shè)備用于對(duì)具有表格結(jié)構(gòu)的輸入圖像進(jìn)行識(shí)別,其中輸入圖像包含有一個(gè)或多個(gè)預(yù)打印字符串以及一個(gè)或多個(gè)后打印字符串。
具有表格結(jié)構(gòu)的輸入圖像可參見以上方法實(shí)施例中相應(yīng)位置的描述,在此不再重復(fù)。
提取單元1102可以被配置成從輸入圖像中提取出表格結(jié)構(gòu)。
從輸入圖像中提取出表格結(jié)構(gòu)的具體方法可參見以上方法實(shí)施例中相應(yīng)位置的描述,在此不再重復(fù)。
定位單元1104可以被配置成基于表格結(jié)構(gòu)的先驗(yàn)知識(shí),獲得一個(gè)或多個(gè)后打印字符串中的至少一個(gè)后打印字符串的位置信息。
優(yōu)選地,在定位單元1104中,可以基于表格結(jié)構(gòu)中的各區(qū)域的相對(duì)位置,選擇如下區(qū)域作為至少一個(gè)后打印字符串中的每個(gè)后打印字符串的區(qū)域:該區(qū)域包含表格結(jié)構(gòu)中的與該后打印字符串對(duì)應(yīng)的區(qū)域且比表格結(jié)構(gòu)中的與該后打印字符串對(duì)應(yīng)的區(qū)域更大。
在定位單元1104中,各關(guān)鍵區(qū)域的相對(duì)位置可以通過關(guān)于表格結(jié)構(gòu)的先驗(yàn)知識(shí)獲得。
具體地,基于該表格,根據(jù)各條目的弱結(jié)構(gòu)模板(相對(duì)位置)信息,得到后打印文字的初步區(qū)域。這里的弱結(jié)構(gòu)模板指的是目標(biāo)區(qū)域不是嚴(yán)格地限定在表格的指定區(qū)域,而是包含比表格指定區(qū)域的更大的區(qū)域。也就是說,選擇如下區(qū)域作為后打印字符串的區(qū)域:該區(qū)域包含表格結(jié)構(gòu)中的與該后打印字符串對(duì)應(yīng)的區(qū)域且比表格結(jié)構(gòu)中的與該后打印字符串對(duì)應(yīng)的區(qū)域更大。
優(yōu)選地,在定位單元1104中,除了表格結(jié)構(gòu)的先驗(yàn)知識(shí)之外,還可以基于顏色信息來獲得至少一個(gè)后打印字符串的位置信息。
由于后打印文字和預(yù)打印文字具有不同顏色,那么可以通過不同顏色投影的方法,得到包含后打印文字的灰度圖像a和包含預(yù)打印文字的灰度圖像b。結(jié)合后打印文字的灰度圖像a,在條目初步區(qū)域內(nèi)精細(xì)定位條目字符串。當(dāng)后打印文字和預(yù)打印文字有交疊時(shí),交疊部分的文字的顏色是介于后打印文字顏色和預(yù)打印文字顏色兩者之間,因此采用該顏色信息,可以將交疊部分的后打印文字定位出來。
識(shí)別單元1106可以被配置成對(duì)于至少一個(gè)后打印字符串中的每個(gè)后打印字符,采用基于二值化圖像的第一字符分類器和基于灰度圖像的第二字符分類器來對(duì)該后打印字符進(jìn)行識(shí)別。
在識(shí)別單元1106中,結(jié)合簡(jiǎn)單快速的第一字符分類器和復(fù)雜高精度的第二字符分類器對(duì)后打印字符進(jìn)行識(shí)別。第一字符分類器可以是基于二值化圖像的mqdf分類器。第二字符分類器可以是基于灰度圖像的cnn分類器。
關(guān)于第一分類器的詳細(xì)描述可參見以上方法實(shí)施例中相應(yīng)位置的描述,在此不再重復(fù)。
優(yōu)選地,在識(shí)別單元1106中,第一字符分類器可以首先對(duì)二值化圖像中的最大連通塊子圖像進(jìn)行識(shí)別,若該識(shí)別的結(jié)果的置信度低,則第一字符分類器可以再對(duì)整個(gè)二值化圖像進(jìn)行識(shí)別,并且選擇這兩個(gè)識(shí)別中置 信度高的識(shí)別結(jié)果作為最終識(shí)別結(jié)果。
利用mqdf分類器對(duì)字符進(jìn)行識(shí)別的具體示例可參見以上方法實(shí)施例中相應(yīng)位置的描述,在此不再重復(fù)。
關(guān)于cnn分類器的詳細(xì)描述可參見以上方法實(shí)施例中相應(yīng)位置的描述,在此不再重復(fù)。
針對(duì)cnn分類器的輸入樣本需要保持長(zhǎng)寬比值的歸一化,提出了一種自適應(yīng)地估計(jì)輸入樣本的背景像素值來得到更加符合實(shí)際情形的字符圖像的方法。
優(yōu)選地,在識(shí)別單元1106中,在對(duì)輸入到第二字符分類器的灰度圖像進(jìn)行歸一化時(shí),可以基于灰度圖像的背景像素的灰度值來填充該灰度圖像,以使得該灰度圖像具有預(yù)定的長(zhǎng)寬比。
優(yōu)選地,可以基于背景像素的灰度值的均值或中值來填充該灰度圖像。
優(yōu)選地,cnn分類器所要求的預(yù)定的長(zhǎng)寬比可以根據(jù)實(shí)驗(yàn)確定,也可以根據(jù)本領(lǐng)域中公知的其他方法來確定。
在cnn分類器中基于灰度圖像的背景像素的灰度值來填充灰度圖像的具體示例可參見以上方法實(shí)施例中相應(yīng)位置的描述,在此不再重復(fù)。
優(yōu)選地,在識(shí)別單元1106中,若采用第一字符分類器得到的識(shí)別結(jié)果的置信度低或者該識(shí)別結(jié)果的第一候選和第二候選的概率之差小,則可以采用第二字符分類器來進(jìn)行識(shí)別,并且可以選擇這兩個(gè)識(shí)別中置信度高的識(shí)別結(jié)果作為最終識(shí)別結(jié)果。具體地,在識(shí)別單元110中,當(dāng)采用第一字符分類器得到的識(shí)別結(jié)果的置信度較低或者該識(shí)別結(jié)果的第一候選和第二候選的概率之差較小時(shí),表示該第一分類器的輸出結(jié)果不太可靠。此時(shí),進(jìn)一步采用基于灰度字符圖像的復(fù)雜高精度的第二字符分類器來進(jìn)行識(shí)別。最后,選擇這兩個(gè)識(shí)別中置信度高的識(shí)別結(jié)果作為最終識(shí)別結(jié)果。
優(yōu)選地,根據(jù)本公開的實(shí)施例的圖像識(shí)別設(shè)備還包括可以分離單元,其可以被配置成基于顏色信息來從輸入圖像中分離出至少一個(gè)后打印字符串的圖像。具體地,由于后打印文字和預(yù)打印文字具有不同顏色,因此可以基于顏色信息來從輸入圖像中分離出后打印字符串的圖像。
優(yōu)選地,在識(shí)別單元1106中,對(duì)于至少一個(gè)后打印字符串中的每個(gè)后打印字符,可以采用基于輸入圖像而生成的二值化圖像和灰度圖像分別 作為第一字符分類器和第二字符分類器的輸入來對(duì)該后打印字符進(jìn)行識(shí)別從而得到第一識(shí)別結(jié)果,還可以采用基于至少一個(gè)后打印字符串的圖像而生成的二值化圖像和灰度圖像分別作為第一字符分類器和第二字符分類器的輸入來對(duì)該后打印字符進(jìn)行識(shí)別從而得到第二識(shí)別結(jié)果,并且可以選擇第一識(shí)別結(jié)果和第二識(shí)別結(jié)果中置信度高的識(shí)別結(jié)果作為最終識(shí)別結(jié)果。
具體地,由于在利用顏色信息在分離單元中分離后打印字符串的圖像的過程中,去除了諸如紅色蓋章等的噪聲從而使得字符更加完整,因此相比于原始輸入圖像而言,在分離單元中分離出的后打印字符串的圖像可能噪聲更少并且可能字符更完整。從而,在識(shí)別單元1106中,為了得到更準(zhǔn)確的識(shí)別結(jié)果,除了將基于輸入圖像而生成的二值化圖像和灰度圖像分別作為第一字符分類器和第二字符分類器的輸入來對(duì)后打印字符進(jìn)行識(shí)別外,還可以將基于分離單元中分離出的后打印字符串的圖像而生成的二值化圖像和灰度圖像分別作為第一字符分類器和第二字符分類器的輸入來對(duì)后打印字符進(jìn)行識(shí)別,最后,識(shí)別結(jié)果中置信度高的識(shí)別結(jié)果作為最終識(shí)別結(jié)果。
優(yōu)選地,在識(shí)別單元1106中,可以基于至少一個(gè)后打印字符串的圖像來進(jìn)行字符切分。為了避免預(yù)打印字符的交疊影響,本申請(qǐng)?jiān)诜蛛x單元中分離出的后打印字符串的圖像的灰度圖像上,進(jìn)行字符切分,這樣可以使得字符切分的精確度更高。
根據(jù)以上描述可知,根據(jù)本公開的實(shí)施例的圖像識(shí)別設(shè)備結(jié)合簡(jiǎn)單快速的字符分類器和復(fù)雜高精度的字符分類器對(duì)具有表格結(jié)構(gòu)的圖像進(jìn)行識(shí)別,因此可以實(shí)現(xiàn)高精度的字符識(shí)別,同時(shí)識(shí)別速度較快。
應(yīng)指出,盡管以上描述了根據(jù)本公開的實(shí)施例的圖像識(shí)別設(shè)備的功能配置,但是這僅是示例而非限制,并且本領(lǐng)域技術(shù)人員可根據(jù)本公開的原理對(duì)以上實(shí)施例進(jìn)行修改,例如可對(duì)各個(gè)實(shí)施例中的功能模塊進(jìn)行添加、刪除或者組合等,并且這樣的修改均落入本公開的范圍內(nèi)。
此外,還應(yīng)指出,這里的裝置實(shí)施例是與上述方法實(shí)施例相對(duì)應(yīng)的,因此在裝置實(shí)施例中未詳細(xì)描述的內(nèi)容可參見方法實(shí)施例中相應(yīng)位置的描述,在此不再重復(fù)描述。
應(yīng)理解,根據(jù)本公開的實(shí)施例的存儲(chǔ)介質(zhì)和程序產(chǎn)品中的機(jī)器可執(zhí)行的指令還可以被配置成執(zhí)行上述圖像識(shí)別方法,因此在此未詳細(xì)描述的內(nèi) 容可參考先前相應(yīng)位置的描述,在此不再重復(fù)進(jìn)行描述。
相應(yīng)地,用于承載上述包括機(jī)器可執(zhí)行的指令的程序產(chǎn)品的存儲(chǔ)介質(zhì)也包括在本發(fā)明的公開中。該存儲(chǔ)介質(zhì)包括但不限于軟盤、光盤、磁光盤、存儲(chǔ)卡、存儲(chǔ)棒等等。
另外,還應(yīng)該指出的是,上述系列處理和裝置也可以通過軟件和/或固件實(shí)現(xiàn)。在通過軟件和/或固件實(shí)現(xiàn)的情況下,從存儲(chǔ)介質(zhì)或網(wǎng)絡(luò)向具有專用硬件結(jié)構(gòu)的計(jì)算機(jī),例如圖12所示的通用個(gè)人計(jì)算機(jī)1200安裝構(gòu)成該軟件的程序,該計(jì)算機(jī)在安裝有各種程序時(shí),能夠執(zhí)行各種功能等等。
在圖12中,中央處理單元(cpu)1201根據(jù)只讀存儲(chǔ)器(rom)1202中存儲(chǔ)的程序或從存儲(chǔ)部分1208加載到隨機(jī)存取存儲(chǔ)器(ram)1203的程序執(zhí)行各種處理。在ram1203中,也根據(jù)需要存儲(chǔ)當(dāng)cpu1201執(zhí)行各種處理等時(shí)所需的數(shù)據(jù)。
cpu1201、rom1202和ram1203經(jīng)由總線1204彼此連接。輸入/輸出接口1205也連接到總線1204。
下述部件連接到輸入/輸出接口1205:輸入部分1206,包括鍵盤、鼠標(biāo)等;輸出部分1207,包括顯示器,比如陰極射線管(crt)、液晶顯示器(lcd)等,和揚(yáng)聲器等;存儲(chǔ)部分1208,包括硬盤等;和通信部分1209,包括網(wǎng)絡(luò)接口卡比如lan卡、調(diào)制解調(diào)器等。通信部分1209經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。
根據(jù)需要,驅(qū)動(dòng)器1210也連接到輸入/輸出接口1205??刹鹦督橘|(zhì)1211比如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等根據(jù)需要被安裝在驅(qū)動(dòng)器1210上,使得從中讀出的計(jì)算機(jī)程序根據(jù)需要被安裝到存儲(chǔ)部分1208中。
在通過軟件實(shí)現(xiàn)上述系列處理的情況下,從網(wǎng)絡(luò)比如因特網(wǎng)或存儲(chǔ)介質(zhì)比如可拆卸介質(zhì)1211安裝構(gòu)成軟件的程序。
本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這種存儲(chǔ)介質(zhì)不局限于圖12所示的其中存儲(chǔ)有程序、與設(shè)備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)1211??刹鹦督橘|(zhì)1211的例子包含磁盤(包含軟盤(注冊(cè)商標(biāo)))、光盤(包含光盤只讀存儲(chǔ)器(cd-rom)和數(shù)字通用盤(dvd))、磁光盤(包含迷你盤(md)(注冊(cè)商標(biāo)))和半導(dǎo)體存儲(chǔ)器?;蛘?,存儲(chǔ)介質(zhì)可以是rom1202、存儲(chǔ)部分1208中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起被分發(fā)給用戶。
以上參照附圖描述了本公開的優(yōu)選實(shí)施例,但是本公開當(dāng)然不限于以上示例。本領(lǐng)域技術(shù)人員可在所附權(quán)利要求的范圍內(nèi)得到各種變更和修改,并且應(yīng)理解這些變更和修改自然將落入本公開的技術(shù)范圍內(nèi)。
例如,在以上實(shí)施例中包括在一個(gè)單元中的多個(gè)功能可以由分開的裝置來實(shí)現(xiàn)。替選地,在以上實(shí)施例中由多個(gè)單元實(shí)現(xiàn)的多個(gè)功能可分別由分開的裝置來實(shí)現(xiàn)。另外,以上功能之一可由多個(gè)單元來實(shí)現(xiàn)。無需說,這樣的配置包括在本公開的技術(shù)范圍內(nèi)。
在該說明書中,流程圖中所描述的步驟不僅包括以所述順序按時(shí)間序列執(zhí)行的處理,而且包括并行地或單獨(dú)地而不是必須按時(shí)間序列執(zhí)行的處理。此外,甚至在按時(shí)間序列處理的步驟中,無需說,也可以適當(dāng)?shù)馗淖冊(cè)擁樞颉?/p>
另外,根據(jù)本公開的技術(shù)還可以如下進(jìn)行配置。
附記1.一種用于對(duì)具有表格結(jié)構(gòu)的輸入圖像進(jìn)行識(shí)別的圖像識(shí)別方法,其中所述輸入圖像包含有一個(gè)或多個(gè)預(yù)打印字符串以及一個(gè)或多個(gè)后打印字符串,所述圖像識(shí)別方法包括:
提取步驟,用于從所述輸入圖像中提取出所述表格結(jié)構(gòu);
定位步驟,用于基于所述表格結(jié)構(gòu)的先驗(yàn)知識(shí),獲得所述一個(gè)或多個(gè)后打印字符串中的至少一個(gè)后打印字符串的位置信息;以及
識(shí)別步驟,對(duì)于所述至少一個(gè)后打印字符串中的每個(gè)后打印字符,采用基于二值化圖像的第一字符分類器和基于灰度圖像的第二字符分類器來對(duì)該后打印字符進(jìn)行識(shí)別。
附記2.根據(jù)附記1所述的圖像識(shí)別方法,其中,在所述識(shí)別步驟中,在對(duì)輸入到所述第二字符分類器的所述灰度圖像進(jìn)行歸一化時(shí),基于所述灰度圖像的背景像素的灰度值來填充該灰度圖像,以使得該灰度圖像具有預(yù)定的長(zhǎng)寬比。
附記3.根據(jù)附記2所述的圖像識(shí)別方法,其中,基于所述背景像素的灰度值的均值或中值來填充該灰度圖像。
附記4.根據(jù)附記1所述的圖像識(shí)別方法,其中,在所述識(shí)別步驟中,所述第一字符分類器首先對(duì)所述二值化圖像中的最大連通塊子圖像進(jìn)行識(shí)別,若該識(shí)別的結(jié)果的置信度低,則所述第一字符分類器再對(duì)整個(gè)所述二值化圖像進(jìn)行識(shí)別,并且選擇這兩個(gè)識(shí)別中置信度高的識(shí)別結(jié)果作為最 終識(shí)別結(jié)果。
附記5.根據(jù)附記1所述的圖像識(shí)別方法,還包括分離步驟,用于基于顏色信息來從所述輸入圖像中分離出所述至少一個(gè)后打印字符串的圖像。
附記6.根據(jù)附記5所述的圖像識(shí)別方法,其中,在所述識(shí)別步驟中,對(duì)于所述至少一個(gè)后打印字符串中的每個(gè)后打印字符,采用基于所述輸入圖像而生成的二值化圖像和灰度圖像分別作為所述第一字符分類器和所述第二字符分類器的輸入來對(duì)該后打印字符進(jìn)行識(shí)別從而得到第一識(shí)別結(jié)果,還采用基于所述至少一個(gè)后打印字符串的圖像而生成的二值化圖像和灰度圖像分別作為所述第一字符分類器和所述第二字符分類器的輸入來對(duì)該后打印字符進(jìn)行識(shí)別從而得到第二識(shí)別結(jié)果,并且選擇所述第一識(shí)別結(jié)果和所述第二識(shí)別結(jié)果中置信度高的識(shí)別結(jié)果作為最終識(shí)別結(jié)果。
附記7.根據(jù)附記5所述的圖像識(shí)別方法,其中,在所述識(shí)別步驟中,基于所述至少一個(gè)后打印字符串的圖像來進(jìn)行字符切分。
附記8.根據(jù)附記1所述的圖像識(shí)別方法,其中,在所述識(shí)別步驟中,若采用所述第一字符分類器得到的識(shí)別結(jié)果的置信度低或者該識(shí)別結(jié)果的第一候選和第二候選的概率之差小,則采用所述第二字符分類器來進(jìn)行識(shí)別,并且選擇這兩個(gè)識(shí)別中置信度高的識(shí)別結(jié)果作為最終識(shí)別結(jié)果。
附記9.根據(jù)附記1所述的圖像識(shí)別方法,其中,在所述定位步驟中,基于所述表格結(jié)構(gòu)中的各區(qū)域的相對(duì)位置,選擇如下區(qū)域作為所述至少一個(gè)后打印字符串中的每個(gè)后打印字符串的區(qū)域:該區(qū)域包含所述表格結(jié)構(gòu)中的與該后打印字符串對(duì)應(yīng)的區(qū)域且比所述表格結(jié)構(gòu)中的與該后打印字符串對(duì)應(yīng)的區(qū)域更大。
附記10.根據(jù)附記1所述的圖像識(shí)別方法,其中,在所述定位步驟中,除了所述表格結(jié)構(gòu)的先驗(yàn)知識(shí)之外,還基于顏色信息來獲得所述至少一個(gè)后打印字符串的位置信息。
附記11.一種用于對(duì)具有表格結(jié)構(gòu)的輸入圖像進(jìn)行識(shí)別的圖像識(shí)別設(shè)備,其中所述輸入圖像包含有一個(gè)或多個(gè)預(yù)打印字符串以及一個(gè)或多個(gè)后打印字符串,所述圖像識(shí)別設(shè)備包括:
提取單元,被配置成從所述輸入圖像中提取出所述表格結(jié)構(gòu);
定位單元,被配置成基于所述表格結(jié)構(gòu)的先驗(yàn)知識(shí),獲得所述一個(gè)或多個(gè)后打印字符串中的至少一個(gè)后打印字符串的位置信息;以及
識(shí)別單元,被配置成對(duì)于所述至少一個(gè)后打印字符串中的每個(gè)后打印字符,采用基于二值化圖像的第一字符分類器和基于灰度圖像的第二字符分類器來對(duì)該后打印字符進(jìn)行識(shí)別。
附記12.根據(jù)附記11所述的圖像識(shí)別設(shè)備,其中,在所述識(shí)別單元中,在對(duì)輸入到所述第二字符分類器的所述灰度圖像進(jìn)行歸一化時(shí),基于所述灰度圖像的背景像素的灰度值來填充該灰度圖像,以使得該灰度圖像具有預(yù)定的長(zhǎng)寬比。
附記13.根據(jù)附記12所述的圖像識(shí)別設(shè)備,其中,基于所述背景像素的灰度值的均值或中值來填充該灰度圖像。
附記14.根據(jù)附記11所述的圖像識(shí)別設(shè)備,其中,在所述識(shí)別單元中,所述第一字符分類器首先對(duì)所述二值化圖像中的最大連通塊子圖像進(jìn)行識(shí)別,若該識(shí)別的結(jié)果的置信度低,則所述第一字符分類器再對(duì)整個(gè)所述二值化圖像進(jìn)行識(shí)別,并且選擇這兩個(gè)識(shí)別中置信度高的識(shí)別結(jié)果作為最終識(shí)別結(jié)果。
附記15.根據(jù)附記11所述的圖像識(shí)別設(shè)備,還包括分離單元,被配置成基于顏色信息來從所述輸入圖像中分離出所述至少一個(gè)后打印字符串的圖像。
附記16.根據(jù)附記15所述的圖像識(shí)別設(shè)備,其中,在所述識(shí)別單元中,對(duì)于所述至少一個(gè)后打印字符串中的每個(gè)后打印字符,采用基于所述輸入圖像而生成的二值化圖像和灰度圖像分別作為所述第一字符分類器和所述第二字符分類器的輸入來對(duì)該后打印字符進(jìn)行識(shí)別從而得到第一識(shí)別結(jié)果,還采用基于所述至少一個(gè)后打印字符串的圖像而生成的二值化圖像和灰度圖像分別作為所述第一字符分類器和所述第二字符分類器的輸入來對(duì)該后打印字符進(jìn)行識(shí)別從而得到第二識(shí)別結(jié)果,并且選擇所述第一識(shí)別結(jié)果和所述第二識(shí)別結(jié)果中置信度高的識(shí)別結(jié)果作為最終識(shí)別結(jié)果。
附記17.根據(jù)附記15所述的圖像識(shí)別設(shè)備,其中,在所述識(shí)別單元中,基于所述至少一個(gè)后打印字符串的圖像來進(jìn)行字符切分。
附記18.根據(jù)附記11所述的圖像識(shí)別設(shè)備,其中,在所述識(shí)別單元中,若采用所述第一字符分類器得到的識(shí)別結(jié)果的置信度低或者該識(shí)別結(jié)果的第一候選和第二候選的概率之差小,則采用所述第二字符分類器來進(jìn)行識(shí)別,并且選擇這兩個(gè)識(shí)別中置信度高的識(shí)別結(jié)果作為最終識(shí)別結(jié)果。
附記19.根據(jù)附記11所述的圖像識(shí)別設(shè)備,其中,在所述定位單元中,基于所述表格結(jié)構(gòu)中的各區(qū)域的相對(duì)位置,選擇如下區(qū)域作為所述至少一個(gè)后打印字符串中的每個(gè)后打印字符串的區(qū)域:該區(qū)域包含所述表格結(jié)構(gòu)中的與該后打印字符串對(duì)應(yīng)的區(qū)域且比所述表格結(jié)構(gòu)中的與該后打印字符串對(duì)應(yīng)的區(qū)域更大。
附記20.根據(jù)附記11所述的圖像識(shí)別設(shè)備,其中,在所述定位單元中,除了所述表格結(jié)構(gòu)的先驗(yàn)知識(shí)之外,還基于顏色信息來獲得所述至少一個(gè)后打印字符串的位置信息。