專利名稱:商業(yè)文檔處理器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及商業(yè)文檔處理器以及例如用于去除商業(yè)文檔內(nèi)的印痕(seal impression)的技術(shù)。
背景技術(shù):
對于在公司內(nèi)存檔的龐大數(shù)量的紙質(zhì)商業(yè)文檔,近年來在實現(xiàn)檢索性能、紙質(zhì)文檔的安全存儲和通過經(jīng)由掃描和OCR的字符識別來共享知識的改進方面以及通過文檔管理系統(tǒng)管理文檔數(shù)據(jù)方面存在興趣。雖然當前狀態(tài)下的OCR對于沒有干擾的文檔具有高的字符串識別準確性,但是, 例如當如公司印章的印章圖像等印章圖像與字符串重疊時,存在該部分可能被錯誤識別的問題。如果該部分被錯誤識別,則不僅可能不能獲得該部分的字符信息,而且還可能作為干擾出現(xiàn)并保留沒有意義的字符信息,并且妨礙隨后的檢索。在商業(yè)文檔中出現(xiàn)的印章圖像具有以下特性通常以印章圖像與例如客戶名稱、客戶的代表的名稱等客戶的信息重疊的方式附加印章圖像。這樣條目的信息在識別文檔時通常是至關(guān)重要的。從而,如果不能識別這樣的信息,則在檢索過程中將不返回這些文檔,并且將必須檢查所有所注冊的文檔數(shù)據(jù)。 為此,當應(yīng)用OCR時還需高度準確地識別與印痕重疊的字符串。為了改善這樣的OCR的識別準確性,提出了用于將與字符串重疊的印痕分離的方法。例如,在專利文獻1和專利文獻2中,提出了用于通過使用印痕的顏色和文檔中的文本的顏色之間的區(qū)別從文本中辨別印痕來識別并去除印痕的技術(shù)。從而,即使文本和印痕互相重疊,也可以僅去除印痕而保留重疊的文本。另外,在專利文獻3中,提出了用于利用印痕的輪廓通常呈現(xiàn)規(guī)則的多邊形的形式的事實來識別并去除印痕的技術(shù)。從而,在文本和印痕互相重疊的情況下,可以通過去除印痕和與該印痕重疊的字符串來防止OCR的錯誤識別。引用列表專利文獻1 日本專利公開(Kokai)No. 2008-176521A專利文獻2 日本專利公開(Kokai)No. 2006-309781A專利文獻3 日本專利公開(Kokai) No. 9-229646A (1997)
發(fā)明內(nèi)容
技術(shù)問題然而,由于有時以灰度來保存已經(jīng)電子存檔的商業(yè)文檔,因此專利文獻1和2中的技術(shù)(其是通過顏色識別印痕的技術(shù))是不可用的。圖2是示出以灰度掃描的商業(yè)文檔的示例,其中公司印章以與一部分公司信息重疊的方式被附加在右上部。由于以灰度掃描這種文本,因此即使應(yīng)用使用顏色信息識別印痕的專利文獻1和2中的技術(shù),也不可能識別附加了印痕的部分。另外,圖3是示出其中通過專利文獻3中的技術(shù)去除圖2中的商業(yè)文檔中的印痕并通過OCR識別剩余字符的結(jié)果。當通過專利文獻3中的技術(shù)去除印痕時,如圖3所示,重疊的字符串也與印痕一起被去除。因此,所去除的字符串信息丟失。另外,由于文本是部分剩余的,因此存在剩余的文本成為隨后檢索過程中的干擾的可能性??紤]到上述這些情況做出本發(fā)明,本發(fā)明提供一種用于在對以灰度保存的商業(yè)文檔應(yīng)用OCR時即使在字符串和印痕互相重疊的情況下也在保留字符串信息的同時僅去除印痕的技術(shù)。技術(shù)方案為了解決上述問題,根據(jù)本發(fā)明的商業(yè)文檔處理器包括印痕檢測處理部,用于檢測以灰度輸入的商業(yè)文檔中的印痕區(qū)域,并從商業(yè)文檔中去除印痕區(qū)域;印痕相關(guān)信息提取處理部,用于提取在已經(jīng)去除了印痕區(qū)域的所述商業(yè)文檔中的被去除的印痕區(qū)域附近存在的字符信息作為印痕相關(guān)信息(例如,與客戶相關(guān)的信息),其中由于所述印痕區(qū)域?qū)е虏糠肿址遣磺宄模粚傩苑诸愄幚聿?,用于識別所提取的印痕相關(guān)信息的屬性;及字符推斷(extrapolation)處理部,用于參考保存了字符串候選的字符串候選數(shù)據(jù)庫(例如,保存客戶信息的客戶數(shù)據(jù)庫),并基于通過屬性分類的印痕相關(guān)信息來推斷與印痕區(qū)域重疊并且由此不清楚的字符串。另外,字符推斷處理部用通過推斷獲得的字符串替代由于印痕區(qū)域?qū)е虏磺宄牟糠郑⒃谖臋n數(shù)據(jù)庫中與以灰度輸入的商業(yè)文檔成對地注冊替代有字符串的商業(yè)文檔數(shù)據(jù)。商業(yè)文檔處理器可以進一步包括顯示處理部,顯示處理部用于在顯示部上顯示替代有字符串的商業(yè)文檔數(shù)據(jù)。在這種情況下,如果存在被替代的多個字符串候選,則顯示處理部在顯示部上顯示替代有多個字符串候選的多個商業(yè)文檔數(shù)據(jù),并且字符推斷處理部在文檔數(shù)據(jù)庫中注冊多個商業(yè)文檔數(shù)據(jù)中的、由用戶選擇的商業(yè)文檔數(shù)據(jù)。另外,字符推斷處理部可以計算在字符串候選數(shù)據(jù)庫中保存的信息和通過屬性分類的印痕相關(guān)信息之間的匹配度,并且當所述匹配度超出預(yù)定值時使字符串候選數(shù)據(jù)庫中保存的信息成為用于替代的字符串候選。另一方面,如果所述匹配度等于或小于預(yù)定值,則字符推斷處理部在不用任何字符替代印痕區(qū)域的情況下終止處理。通過下面提供的實現(xiàn)本發(fā)明的最佳實施方式和附圖,使得本發(fā)明的進一步的特征變得清楚。本發(fā)明的有益效果根據(jù)本發(fā)明,即使在文檔中找到的字符串與例如公司印章的印痕等印痕重疊,也可以識別以灰度輸入的文檔。從而改善了商業(yè)文檔的搜索性能,并進一步提高了文檔管理系統(tǒng)的效率。
圖1是示意性地示出根據(jù)本發(fā)明實施例的商業(yè)文檔處理器的配置的功能框圖。圖2是示出在圖1中的數(shù)據(jù)存儲器中保存的灰度圖像數(shù)據(jù)的示例的示意圖。圖3是示出在圖1中的數(shù)據(jù)存儲器中保存的OCR結(jié)果數(shù)據(jù)的示例的示意圖。圖4A是說明與在圖1所示的數(shù)據(jù)存儲器中保存的印痕相關(guān)數(shù)據(jù)的處理的示意圖 ⑴。
圖4B是說明與在圖1所示的數(shù)據(jù)存儲器中保存的印痕相關(guān)數(shù)據(jù)的處理的示意圖 ⑵。圖4C是說明與在圖1所示的數(shù)據(jù)存儲器中保存的印痕相關(guān)數(shù)據(jù)的處理的示意圖 ⑶。圖4D是說明與在圖1所示的數(shù)據(jù)存儲器中保存的印痕相關(guān)數(shù)據(jù)的處理的示意圖 ⑷。圖4E是說明與在圖1所示的數(shù)據(jù)存儲器中保存的印痕相關(guān)數(shù)據(jù)的處理的示意圖 ⑶。圖5A是示出在圖1所示的文檔數(shù)據(jù)庫中包括的文檔數(shù)據(jù)的示例的示意圖。圖5B是示出在圖1所示的文檔數(shù)據(jù)庫中包括的文檔數(shù)據(jù)的示例的示意圖。圖6是示出在圖1中所示的客戶數(shù)據(jù)庫中包括的客戶數(shù)據(jù)的示例的示意圖。圖7是示出在圖1中所示的屬性數(shù)據(jù)庫中包括的屬性數(shù)據(jù)的示例的示意圖。圖8是說明關(guān)于根據(jù)本發(fā)明實施例的商業(yè)文檔處理器的處理的流程圖。圖9是具體說明由商業(yè)文檔處理程序的字符替代處理部執(zhí)行的處理(步驟S805) 細節(jié)的流程圖。圖10是示出顯示了由于印痕而丟失的字符串已經(jīng)被替代的結(jié)果的確認屏幕的示例的示意圖。
具體實施例方式下面,參考附圖具體描述用于實現(xiàn)本發(fā)明的商業(yè)文檔處理器的最佳模式。圖1到 10是示出本發(fā)明的示例性實施例的示意圖。在這些示意圖中,假設(shè)具有相同附圖標記的部件代表相同的部件,并且它們的基本配置和操作是相同的。注意,在本發(fā)明的實施例中使用的裝置、方法等僅是示例,而本發(fā)明并不局限于此。<商業(yè)文檔處理器的配置>圖1是示意性地示出根據(jù)本發(fā)明實施例的商業(yè)文檔處理器的配置的功能框圖。這個商業(yè)文檔處理器包括保存與客戶的交易等相關(guān)的商業(yè)文檔以及對其構(gòu)造的索引的文檔數(shù)據(jù)庫51 ;保存包括客戶的公司名稱、地址、主要電話號碼等客戶信息以及對其構(gòu)造的索引的客戶數(shù)據(jù)庫52 ;保存字符串屬性的定義數(shù)據(jù)的屬性數(shù)據(jù)庫53 ;用于輸入/輸出數(shù)據(jù)的輸入/輸出裝置30 ;執(zhí)行所需要的計算處理、控制處理等的中央處理單元10 ;保存對于中央處理單元10中的處理必需的程序的程序存儲器40 ;及保存對于中央處理單元10中的處理必需的數(shù)據(jù)的數(shù)據(jù)存儲器20。輸入/輸出裝置30包括包含用于顯示數(shù)據(jù)的顯示裝置32、打印機(未示出)等的輸出部;及包含用于執(zhí)行如關(guān)于所顯示的數(shù)據(jù)的菜單選擇等操作的鍵盤31、例如鼠標等定點設(shè)備33、用于掃描文檔的掃描儀34等的輸入部。程序存儲器40包括檢測文檔中存在的、例如公司印章等的印痕的印痕檢測處理部41 ;識別文檔內(nèi)的字符的OCR處理部42 ;將存在于印痕周圍的字符串塊切去的印痕相關(guān)信息區(qū)域提取處理部43 ;將字符串塊內(nèi)的字符串的屬性進行分類的屬性分類處理部44 ;及字符替代處理部45。注意,各個處理部作為程序代碼被保存在程序存儲器40中,并通過中央處理單元10執(zhí)行各個程序代碼來實現(xiàn)各個處理部。
數(shù)據(jù)存儲器20包括通過以灰度掃描紙質(zhì)文檔獲得的灰度圖像數(shù)據(jù)21 ;通過對灰度圖像數(shù)據(jù)21應(yīng)用OCR產(chǎn)生的OCR結(jié)果數(shù)據(jù)22 ;及其中保存了關(guān)于OCR結(jié)果數(shù)據(jù)22內(nèi)的印痕區(qū)域附近的字符串塊的信息的印痕相關(guān)數(shù)據(jù)23。圖2是示出在數(shù)據(jù)存儲器20中包括的灰度圖像數(shù)據(jù)21的示例的示意圖。存在以與公司名稱的一部分重疊的方式附加于右上部的公司印章。在該原件中,印痕是紅色的,并且文本顏色是黑色的。從而,印痕和文本的顏色是不同的。然而,由于以灰度掃描該文檔, 因此,文本和印痕具有相同的顏色。關(guān)于這樣的數(shù)據(jù),通過應(yīng)用專利文獻1和2中的利用顏色識別并分離印痕的技術(shù)不能將印痕和文本分離。另外,如果應(yīng)用專利文獻3中的技術(shù),則由于不能將印痕和文本互相辨別,因此對圖2中的圖像數(shù)據(jù)應(yīng)用該技術(shù)將導(dǎo)致如圖3中所示的、印痕和與印痕重疊的字符串都被去除。圖3是示出在數(shù)據(jù)存儲器20中包括的OCR結(jié)果數(shù)據(jù)22的示例的示意圖。通過印痕去除技術(shù)去除附加了印痕的、包括字符串的區(qū)域內(nèi)部。另外,通過應(yīng)用OCR,去除文本的粗體設(shè)置、下劃線等,并統(tǒng)一字體。通常這是由于OCR不能識別下劃線、粗體設(shè)置等。圖4A到4E是示出與在數(shù)據(jù)存儲器20中包括的印痕相關(guān)數(shù)據(jù)23的示例的示意圖。它們示出一些數(shù)據(jù),這些數(shù)據(jù)是某個區(qū)域的剪切(cutout),該區(qū)域附近的被去除的印痕區(qū)域原來存在于OCR結(jié)果數(shù)據(jù)22中。圖4A是清楚地示出印痕相關(guān)區(qū)域和印痕區(qū)域的示意圖。圖4B是從OCR結(jié)果數(shù)據(jù)22中只剪切印痕相關(guān)區(qū)域的示意圖。圖4C是示出其中對在印痕相關(guān)數(shù)據(jù)23中包括的各個字符串分配的屬性相對應(yīng)的狀態(tài)的示意圖。圖4D和4E是示出其中對于在印痕相關(guān)數(shù)據(jù)23中包括的字符串通過分析字符間隔估計由于印痕造成的字符丟失的數(shù)量的示例的示意圖。由于通過OCR處理可識別字符串的字體大小,因此從具有未知字符的空間的大小可以確定應(yīng)該存在的字符的數(shù)量。圖5A和5B是示出在文檔數(shù)據(jù)庫51中包括的文檔數(shù)據(jù)的示例的示意圖。文檔數(shù)據(jù)包括例如圖5A所示的被掃描的商業(yè)文檔以及例如圖5B所示的索引數(shù)據(jù)(該數(shù)據(jù)是在受到印痕識別處理之后注冊的數(shù)據(jù),其中適當?shù)淖址惶娲鸀橛『鄄糠?。對文檔數(shù)據(jù)分配唯一可識別的文檔ID。另外,由于可獲得完整文本信息,因此能夠進行完整的文本搜索。圖6是示出與客戶相關(guān)并在客戶數(shù)據(jù)庫52中包括的數(shù)據(jù)的示例。如用于唯一識別客戶的客戶號、客戶名稱、地址等信息被保存。圖7是示出在屬性數(shù)據(jù)庫53中包括的屬性定義數(shù)據(jù)的示例的示意圖。在圖7中, 提供了用于將字符串分類為郵政編碼、轄區(qū)名稱、區(qū)域/城市/城鎮(zhèn)/村莊名稱等的定義。 在圖7的示例中,以一行上的“字符圖案屬性”的格式來表達這些定義。例如,“TXXX-XXXX “郵政編碼””表示如果在字符串內(nèi)出現(xiàn)“Txxx-xxxx”(這里,χ是從0到9的任意數(shù)字),則該字符串的屬性是郵政編碼。<商業(yè)文檔處理器中的處理>下面,描述在具有上述配置的商業(yè)文檔處理器中執(zhí)行的處理。圖8是示意性地示出由商業(yè)文檔處理器處理的流程的流程圖。在圖8中,首先,中央處理單元10使用印痕檢測處理部41檢測并去除由掃描儀34 輸入的商業(yè)文檔中的印痕(步驟S801)。隨后,OCR處理部42對該商業(yè)文檔應(yīng)用OCR并識別該文檔內(nèi)的字符信息(步驟S802)。另外,印痕相關(guān)信息區(qū)域提取處理部43將印痕原來存在于OCR結(jié)果數(shù)據(jù)22中的區(qū)域附近的區(qū)域切去并提取印痕相關(guān)數(shù)據(jù)23 (步驟S803)。隨
6后,屬性分類處理部44確定在印痕相關(guān)數(shù)據(jù)23中存在的字符串的屬性(步驟S804)。最后,字符替代處理部45將在客戶數(shù)據(jù)庫52中保存的各個客戶數(shù)據(jù)與印痕相關(guān)數(shù)據(jù)23相匹配,并推斷相關(guān)客戶(步驟S805)。下面具體描述在各個步驟中的處理。<印痕檢測處理>下面描述圖8中的用于檢測在商業(yè)文檔中包括的印痕的處理(步驟S801)的細節(jié)。首先,印痕檢測處理部41讀取通過以灰度掃描商業(yè)文檔獲得的灰度圖像數(shù)據(jù)21, 并搜索灰度圖像數(shù)據(jù)21內(nèi)的印痕的區(qū)域。這樣做時,可使用如專利文獻3中的技術(shù)等傳統(tǒng)技術(shù)搜索印痕。另外,在印痕搜索之后,印痕檢測處理部41去除包括印痕的輪廓的多邊形區(qū)域。這里,由于通過專利文獻3中的技術(shù)不能分離地識別印痕和字符串,因此當去除印痕區(qū)域時,也將字符串一起去除。隨后,如下面描述的,通過字符替代處理部45從周圍字符串進行推斷來替代如上去除的字符串。<印痕相關(guān)信息區(qū)域提取處理>下面描述圖8中的用于提取在商業(yè)文檔中包括的并且包括客戶信息的區(qū)域的處理(步驟S803)的細節(jié)。在該處理中,從如圖3所示的OCR結(jié)果數(shù)據(jù)中切去例如圖4B所示的印痕區(qū)域和與客戶相關(guān)并存在于印痕區(qū)域附近的字符串塊。首先,印痕相關(guān)信息區(qū)域提取處理部43將印痕區(qū)域(通過印痕檢測處理檢測到印痕的區(qū)域)設(shè)置為印痕相關(guān)信息區(qū)域的初始值,并擴大印痕相關(guān)信息區(qū)域以包括附近出現(xiàn)的字符串。具體地,印痕相關(guān)信息區(qū)域提取處理部43搜索印痕相關(guān)信息區(qū)域周圍的字符串。例如,由于可以通過OCR處理識別在印痕周圍出現(xiàn)的字符串的字體大小,因此以比這樣的字體大小較窄的寬度(距離)連接的每個字符串可以被視為一個字符串。然后,印痕相關(guān)信息區(qū)域提取處理部43擴大印痕相關(guān)信息區(qū)域,擴大后的印痕相關(guān)信息區(qū)域是包括作為印痕相關(guān)信息區(qū)域的一部分的這樣的字符串的矩形區(qū)域,并在數(shù)據(jù)存儲器中將擴大后的印痕相關(guān)信息區(qū)域保存為印痕相關(guān)數(shù)據(jù)23。<屬性分類處理>下面描述圖8中的用于分配在印痕相關(guān)數(shù)據(jù)23中包括的字符串的屬性的處理 (步驟S804)的細節(jié)。首先,屬性分類處理部44讀取印痕相關(guān)數(shù)據(jù)23,逐行地劃分印痕相關(guān)數(shù)據(jù)23內(nèi)的字符串,并分配每一行上的字符串的屬性。具體地,屬性分類處理部44使用屬性數(shù)據(jù)庫53 執(zhí)行每一行上的字符串的形態(tài)學(xué)分析,并確定與適合各個字符串的屬性。在本實施例中,通過以“(字符圖案)(屬性)”的格式編寫屬性數(shù)據(jù)庫53的示例提供描述。例如,如果在屬性數(shù)據(jù)庫53中寫入“Txxx-xxxx “郵政編碼””(這里,χ是從0 到9的任意數(shù)字)并且感興趣的字符串是“Τ100-0000”,則將確定該字符串與郵政編碼的格式匹配,并將對該字符串分配郵政編碼的屬性。另外,如果在屬性數(shù)據(jù)庫53中寫入“電話 “電話號碼””并且感興趣的字符串包括如在“電話(03) 1234-5678”中的字符串“電話”(或 “Tel”),則將電話號碼的屬性分配給該字符串。此外,存在以““轄區(qū)名稱” + “區(qū)域/城市 /城鎮(zhèn)/村莊名稱”:“地址””的格式進行說明的情況。這表示一種事實當具有轄區(qū)名稱屬性的字符串與具有區(qū)域/城市/城鎮(zhèn)/村莊名稱屬性的字符串連接時假設(shè)為地址屬性。如此,對各個字符串分配屬性。各種屬性定義互相獨立,并且該定義從不沖突。另外,假設(shè)注冊了代表相同屬性的多個圖案,從而可以承受標記(notation)中的變化。<字符替代處理>下面參考圖9中所示的具體流程圖描述圖8中的用于替代由于與印痕重疊而丟失的字符的處理的細節(jié)。在下文中,除了另外說明之外,假設(shè)由字符替代處理部實施各個步
馬聚ο首先,讀取印痕相關(guān)數(shù)據(jù)23 (步驟S901)。然后,將變量Mmax和η初始化(步驟 S902)。另外,使變量長度陣列max_id為空(步驟S903)。然后,通過從步驟S904到步驟S911的處理,選擇顯示出與在印痕相關(guān)數(shù)據(jù)中包括的客戶信息最佳匹配的客戶。首先,從客戶數(shù)據(jù)庫52中讀取未經(jīng)處理的客戶數(shù)據(jù)(步驟 S904)。然后,配置在印痕相關(guān)數(shù)據(jù)23內(nèi)的各個字符串的布局(步驟S905)。具體地,如圖 4D和4E所示,估計由于印痕而丟失的并且在各個字符串上存在的區(qū)域中包括的字符的數(shù)量。該估計基于字體大小和空白區(qū)域的大小。在圖4D和4E中,通過符號“? ”來表示已經(jīng)確定應(yīng)該存在字符的區(qū)域。另外,將在步驟S904中選擇的客戶數(shù)據(jù)與印痕相關(guān)數(shù)據(jù)23中的數(shù)據(jù)相匹配以計算匹配度Mn (步驟S906)。這樣來計算匹配度Mn 當存在大量的匹配字符時匹配度Mn較大,當存在大量的不匹配字符時或當字符的數(shù)量不一致時匹配度Mn較小。例如聯(lián)配評分 (alignment score)等現(xiàn)有技術(shù)可以用于計算匹配度。在圖4C的示例中,由于在步驟S804 中分配屬于圖6所示的客戶的各種信息的郵政編碼、地址、客戶名稱、代表及電話號碼的屬性,因此將要分別計算關(guān)于以虛線方框標記的屬性值(以實線方框標記的屬性值)的匹配度。隨后,確定Mn是否等于或大于最大值Mmax (步驟S907),并且如果大于,則以Mn更新Mmax (步驟S908)。另外,將此時的值,即表示客戶的ID添加到max_id (步驟S909)。這里,如果步驟S903中的比較是相等,則將η添加到max_id,但是如果在步驟S903的比較中 Mn大于Mmax,則丟棄通過max_id保存的內(nèi)容,并使max_id僅保存η。此后,η增加1(步驟S910)。然后,確定是否對于所有客戶數(shù)據(jù)已執(zhí)行了匹配(步驟S911),并且如果存在任何未經(jīng)處理過的客戶數(shù)據(jù)則重復(fù)從步驟S904到步驟S910的處理。如果不存在未經(jīng)處理過的客戶數(shù)據(jù),則前進到步驟S912,確定Mmax是否大于閾值T (步驟S912)。T是預(yù)先定義的常量并是用于確定匹配結(jié)果是否充分可信的閾值。如果Mmax大于閾值Τ,則利用評分Mmax的客戶數(shù)據(jù),即對應(yīng)于max_id的客戶數(shù)據(jù)來替代由于印痕的去除而丟失的字符串(步驟S913)。如果Mmax等于或小于T,則表示匹配度不夠的事實。從而,確定不存在對應(yīng)的客戶數(shù)據(jù),并且去除印痕相關(guān)數(shù)據(jù)23內(nèi)的所有字符串(步驟S914)。在這種情況下,中央處理單元10例如可以在圖10的⑶I上顯示識別處理失敗的事實。從而,可以防止部分被剩下的字符串成為隨后搜索過程中的干擾。最后,顯示例如圖10所示的確認屏幕,并且使用戶確認替代或去除的結(jié)果(步驟 S915)。在屏幕的上半部,以表格來顯示印痕相關(guān)數(shù)據(jù)23和由max_id保存的對應(yīng)于客戶 ID的客戶數(shù)據(jù),在該表格中通過屬性值來將這些數(shù)據(jù)進行分類。從而,用戶能夠檢查文檔圖像中的印痕周圍的字符串與是被選擇作為用于替代的候選者的并且其匹配度最高的客戶的每個屬性的值的字符串的匹配緊密程度。例如,在文檔圖像中,客戶名稱是字符串“AB Sof ration”,其中間具有11個未被識別的字符,并且可以看到候選者1的客戶名稱是與之匹配的字符串“AB Software Corporation”。另外,在已被選擇作為用于替代的候選者的客戶的確認屏幕上,以高亮顯示由用戶指示的客戶(在圖10的示例中,對候選者1畫出陰影)。在屏幕的下半部顯示將關(guān)于所指示的客戶的信息嵌入圖像的結(jié)果,并且用戶能夠?qū)⑵渑c文檔圖像一起作為整體進行檢查。此外,當用戶指示在該屏幕的上半部的表格中顯示的某些其他客戶時,以高亮顯示所指示的客戶,并且同時切換在屏幕的下半部與文檔圖像一起顯示的客戶信息。通過這樣的顯示,用戶能夠確定哪個候選者適于替代。如果用戶確定顯示適于替代的候選者,則他可以通過按下對話中的“是”按鈕來表達同意。如果獲取了用戶同意,則在客戶數(shù)據(jù)庫中反映該處理結(jié)果。如果沒有獲取用戶同意,則取消處理。< 結(jié)論 >在本發(fā)明的實施例中,關(guān)于例如圖2所示的灰度掃描的商業(yè)文檔,首先通過應(yīng)用專利文獻3中的技術(shù)來識別文檔內(nèi)的印痕的區(qū)域,并去除該區(qū)域。如果該印痕以與字符串重疊的方式被附加,則也與之一起去除該字符串。隨后,通過OCR識別剩余的字符串(沒有與印痕重疊的字符串)。作為結(jié)果,獲得例如圖3中所示的數(shù)據(jù)。然后,如圖4A所示,作為具有與被去除的印痕相關(guān)的信息的區(qū)域切去被去除的印痕周圍出現(xiàn)的字符串的塊。然后,將已經(jīng)被切去的該區(qū)域內(nèi)的字符串與保存了與這些字符串相關(guān)的信息的數(shù)據(jù)庫進行匹配,從而確定該信息與哪些數(shù)據(jù)相關(guān)。在執(zhí)行匹配時,將被切去的字符串劃分為例如圖4C中所示的如郵政編碼、地址、客戶名稱等屬性,并將各個屬性信息與數(shù)據(jù)庫相比較。例如,以如圖6所示的數(shù)據(jù)格式配置數(shù)據(jù)庫。根據(jù)匹配的結(jié)果,確定與每個字符串的信息最佳匹配的數(shù)據(jù)為與該商業(yè)文檔相關(guān)的數(shù)據(jù)。然后,以數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)替代由于去除印痕區(qū)域而丟失的字符。通過執(zhí)行這樣的處理,即使在印痕以與包括客戶信息的字符串重疊的方式存在于文檔內(nèi)的情況下,也可以通過使用這些字符串周圍的信息自動并準確地獲得文檔的客戶信肩、ο在本實施例中,描述了與印痕重疊的字符串是包括客戶信息的字符串的情況。然而,本發(fā)明并不局限于與印痕重疊的字符串必須是包括客戶信息的字符串,而是可以對于所有種類的字符串執(zhí)行處理。換句話說,只要通過與數(shù)據(jù)庫的匹配處理可以推斷出丟失的字符串,則本發(fā)明就可以應(yīng)用于所有種類的文檔。另外,還可以通過實現(xiàn)本實施例的功能的軟件的程序代碼來實現(xiàn)本發(fā)明。在該種情況下,對系統(tǒng)或設(shè)備提供記錄了程序代碼的存儲介質(zhì),并且系統(tǒng)或設(shè)備中的計算機(或 CPU或MPU)讀取在存儲介質(zhì)中存儲的程序代碼。從而,從存儲介質(zhì)讀取的程序代碼本身將實現(xiàn)前述實施例的功能,并且程序代碼本身和記錄了程序代碼的存儲介質(zhì)構(gòu)成本發(fā)明。作為用于提供這樣的程序代碼的存儲介質(zhì),例如可以使用軟盤、CD-ROM、DVD-ROM、硬盤、光盤、 磁光盤、⑶-R、磁帶、非易失性存儲卡、ROM等。此外,基于程序代碼的指令,在計算機上運行的OS (操作系統(tǒng))等可以執(zhí)行部分或所有的實際處理,并且可以通過這些處理實現(xiàn)前述實施例的功能。另外,在將從存儲介質(zhì)中讀取的程序代碼寫入計算機中的存儲器之后,計算機的CPU等可以基于程序代碼的指令執(zhí)行部分或所有的實際處理,并且可以通過這些處理實現(xiàn)前述實施例的功能。另外,可以經(jīng)由網(wǎng)絡(luò)來分配實現(xiàn)實施例的功能的軟件的程序代碼,從而在例如系統(tǒng)或設(shè)備中的硬盤或存儲器等存儲部件或例如CD-RW或CD-R等存儲介質(zhì)中保存該程序,并且當被使用時,系統(tǒng)或設(shè)備中的計算機(或CPU或MPU)可以讀取在存儲部件或存儲介質(zhì)中保存的程序代碼并執(zhí)行該程序代碼。附圖標記列表
10中央處理單元
20數(shù)據(jù)存儲器
21灰度圖像數(shù)據(jù)
22OCR結(jié)果數(shù)據(jù)
23印痕相關(guān)數(shù)據(jù)
30輸入/輸出裝置
31鍵盤
32顯示裝置
33定點裝置
40商業(yè)文檔處理程序
41印痕檢測處理部
42OCR處理部
43印痕相關(guān)信息區(qū)域提取處理部
44屬性分類處理部
45字符替代處理部
51文檔數(shù)據(jù)庫
52客戶數(shù)據(jù)庫
53屬性數(shù)據(jù)庫
權(quán)利要求
1.一種商業(yè)文檔處理器,所述商業(yè)文檔處理器掃描商業(yè)文檔并執(zhí)行識別處理,所述商業(yè)文檔處理器包括印痕檢測處理部,用于檢測以灰度輸入的商業(yè)文檔中的印痕區(qū)域,并從所述商業(yè)文檔中去除所述印痕區(qū)域;印痕相關(guān)信息提取處理部,用于提取在已經(jīng)去除了印痕區(qū)域的所述商業(yè)文檔中的被去除的印痕區(qū)域附近存在的字符信息作為印痕相關(guān)信息,其中由于所述印痕區(qū)域?qū)е虏糠肿址遣磺宄?;屬性分類處理部,用于識別所提取的所述印痕相關(guān)信息的屬性;及字符推斷處理部,用于參考保存了字符串候選的字符串候選數(shù)據(jù)庫,并基于通過屬性分類的所述印痕相關(guān)信息來推斷與印痕區(qū)域重疊并且不清楚的字符串。
2.根據(jù)權(quán)利要求1所述的商業(yè)文檔處理器,其中,字符推斷處理部用通過推斷獲得的字符串替代由于印痕區(qū)域?qū)е虏磺宄牟糠?,并在文檔數(shù)據(jù)庫中與以灰度輸入的商業(yè)文檔成對地注冊替代有字符串的商業(yè)文檔數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的商業(yè)文檔處理器,進一步包括顯示處理部,用于在顯示部上顯示所述替代有字符串的商業(yè)文檔數(shù)據(jù),其中,當存在用于替代的多個字符串候選時,顯示處理部在顯示部上顯示替代有所述多個字符串候選的多個商業(yè)文檔數(shù)據(jù),并且字符推斷處理部在文檔數(shù)據(jù)庫中注冊多個商業(yè)文檔數(shù)據(jù)中的、由用戶選擇的商業(yè)文檔數(shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的商業(yè)文檔處理器,其中,印痕相關(guān)信息提取處理部提取與客戶相關(guān)的信息作為印痕相關(guān)信息,并且字符推斷處理部參考保存了客戶信息的客戶數(shù)據(jù)庫。
5.根據(jù)權(quán)利要求3所述的商業(yè)文檔處理器,其中,字符推斷處理部計算在字符串候選數(shù)據(jù)庫中保存的信息和通過屬性分類的印痕相關(guān)信息之間的匹配度,并且當所述匹配度大于預(yù)定值時使字符串候選數(shù)據(jù)庫中的信息成為用于替代的字符串候選。
6.根據(jù)權(quán)利要求5所述的商業(yè)文檔處理器,其中,如果所述匹配度等于或小于所述預(yù)定值,則字符推斷處理部在不用字符替代印痕區(qū)域的情況下終止處理。
全文摘要
提供一種用于當對以灰度保存的商業(yè)文檔應(yīng)用OCR時即使字符串和印痕互相重疊也在保留字符串信息的同時僅去除印痕的技術(shù)。通過將在印痕附近存在的字符串與數(shù)據(jù)庫相匹配來推斷與印痕重疊的字符串。更具體地,首先,去除以灰度輸入的商業(yè)文檔中的印痕區(qū)域。隨后,提取在被去除的印痕區(qū)域附近存在的并且由于印痕導(dǎo)致其部分字符不清楚的字符信息作為印痕相關(guān)信息。然后,識別所提取的印痕相關(guān)信息的屬性,參考保存了包括客戶信息的字符串候選的客戶數(shù)據(jù)庫,并基于通過屬性分類的印痕相關(guān)信息,推斷與印痕區(qū)域重疊并因此不清楚的字符串。
文檔編號G06K9/34GK102171708SQ20098013878
公開日2011年8月31日 申請日期2009年12月15日 優(yōu)先權(quán)日2008年12月26日
發(fā)明者大峽光晴 申請人:日立系統(tǒng)解決方案有限公司