專利名稱:帶變體的多重表格的識別、分離和壓縮的制作方法
技術(shù)領(lǐng)域:
一般地說,本發(fā)明涉及文檔圖像處理,具體地說,涉及識別預印表格文檔和提取其中所填信息的方法。
背景技術(shù):
在許多文檔成像系統(tǒng)中,大量表格被掃描到計算機中,然后由計算機處理所得到的文檔圖像以提取有關(guān)的信息。通常,這些表格包含預先印好的模板,其中含有已由手工填入的或以機器打印字符填入的字段。為提取已填入的信息,計算機必須首先識別模板。在本領(lǐng)域已知各種圖像分析方法用于這些目的。一種這樣的方法在美國專利5,434,933號中描述,該專利公開的內(nèi)容在這里被引用作為參考。
為了精確識別字段在模板中的位置,一種通用技術(shù)是由計算機登記帶有模板參考圖像的每個文檔圖像。一旦該模板被登記,它便能被從文檔圖像中去除掉,只把手寫的或打印的字符留在頁面上它們的適當位置。例如,美國專利5,182,656、5,191,525、5,793,887以及5,631,984(它們公開的內(nèi)容在這里被引用作為參考)描述了登記帶有圖像模板的文檔圖像從而從表格中提取所填信息的方法。在去除掉模板之后,留在圖像中的字符通常由光學字符識別(OCR)或其他本領(lǐng)域已知技術(shù)進行處理。從文檔圖像中去掉模板在壓縮圖像、顯著減少存儲圖像所需存儲器容量以及減小傳輸圖像所需帶寬方面也是至關(guān)重要的。例如,美國專利6,020,972(它公開的內(nèi)容在這里被引用作為參考)以及上述美國專利5,182,565描述了基于模板識別的文檔圖像壓縮方法。對于整個一組所填表格圖像,模板本身只需被存儲和/或傳輸一次。
本技術(shù)領(lǐng)域已知的模板登記和去掉方法通常需要在壓縮或其他處理進行之前知道該模板。計算機必須得知模板類型或能從事先已知的模板集合中選出該模板。換言之,計算機必須具有能夠使用的用于它處理的每類表格的適當空模板。然而,經(jīng)常發(fā)生的情況是在開始時不是所有模板或模板變化都是已知的。再有,經(jīng)驗表明,在大多數(shù)系統(tǒng)中沒有單個模板用于所有表格類型,相反,要有若干個模板,而且還可能出現(xiàn)未預料到的模板變型,它們不能由當前用于表格識別的各種全局特性的任何組合來辨識。在本專利申請上下文中和在權(quán)利要求中,這種模板變化被稱作“變體(mutant)”。
這樣,在本技術(shù)領(lǐng)域已知的表格處理系統(tǒng)中,在存在這種變體的情況下,如果沒有操作人員高成本地介入識別每個表格所使用的模板,通常便不可能采用去掉模板的方法。
發(fā)明內(nèi)容
在本發(fā)明的優(yōu)選實施例中,一個文檔圖像處理系統(tǒng)接收已填寫的表格的圖像,其中至少有一些是基于事先未知的模板。該系統(tǒng)使用本技術(shù)領(lǐng)域已知的任何適當?shù)姆椒?,自動地把這些圖像排列和分類到具有相似模板特性的各組中。然而,每個這樣的組可以包含多個變體模板,它們的一個或多個特性有所不同。本發(fā)明提出新的方法用于識別這些變體并相應(yīng)地把每組中的圖像分類到精確的子組或類中,每個具有它自己的變體模板。優(yōu)選地,在其后從圖像中提取出每類中的變體模板并去掉它們,從而使得能進行優(yōu)化的圖像壓縮和其他后續(xù)處理。
為了能彼此區(qū)分給定組中的變體,該系統(tǒng)優(yōu)選地通過組合該組中的圖像,產(chǎn)生灰度累積圖像。然后對這個累積圖像進行分析,以逐個圖像地把屬于對所有圖像共同的模板的那些區(qū)域與在其中發(fā)生變化的那些區(qū)域區(qū)分開。對這些變化作進一步分析,以確定在每個區(qū)域中它們是由于模板的變體造成的還是由于填入各單個表格中的內(nèi)容造成的。如果確定在一個給定區(qū)域中的變化是由于模板變體造成的,則在該組中的圖像根據(jù)它們在這一區(qū)域(這里稱作參考區(qū)域)中的內(nèi)容被分類到各變體子組中。通常,在一個參考區(qū)域上對原始組進行分類得到的子組其后會由于在另一個參考區(qū)域上分類而被再分成更小的子組。優(yōu)選地,這一分類過程繼續(xù)到基本上所有圖像都已分到變體子組為止,此時每個子組有它自已的模板,該模板對該子組中的全部圖像是共同的。
優(yōu)選地,在完成分類之后,對每個子組從圖像之一當中提取出各自的模板并從該子組中的全部圖像中去掉該模板。然后這些圖像由壓縮、OCR和/或本技術(shù)領(lǐng)域已知的其他文檔處理方法進行自動處理。優(yōu)選地,將被提取出的模板存儲在一個庫中供處理后續(xù)表格時使用。由本發(fā)明優(yōu)選實施例提供的對全部變體進行識別和分類的能力允許圖像被有效地處理,減少在處理大量表格時所需要的存儲空間和人工處理的費用。
盡管這里描述和優(yōu)選實施例涉及處理表格文檔圖像,但本發(fā)明的原理可以類似地應(yīng)用于從一組其他類型的圖像中提取信息,其中在一個組中的圖像包含共同的、基本上固定的部分加上單個的可變的部分。
所以,根據(jù)本發(fā)明的一個優(yōu)選實施例,提供了一種處理圖像的方法,包含接收有相似特征的一組圖像,該組包括多個類別,其中每個圖像屬于這些類別之一并且包括一個對它所屬類別中全部圖像共同的固定部分以及將該圖像與該類別中其他圖像區(qū)別開的一個可變部分;在這些圖像中找出一個參考區(qū)域,在此區(qū)域中,第一個類別中的圖像的固定部分與第二個類別中的圖像的固定部分始終是不同的;以及根據(jù)該參考區(qū)域?qū)D像分成各個類別。
優(yōu)選地,接收該組圖像包括處理多個圖像以確定它們的特征以及通過發(fā)現(xiàn)這些特征的相似性選擇圖像以包括在該組中。
進一步優(yōu)選地,這些特征包括可由計算機識別的圖像特性,而接收該組圖像包括在響應(yīng)這些特性的組中互相對準這些圖像。在一個優(yōu)選實施例中,這些圖像包括表格文檔圖像,而圖像的固定部分包括表格模板,而且這里的特性包括模板的特性。
優(yōu)選地,找出參考區(qū)域包括把圖像的多個區(qū)域分類成下列各類區(qū)域第一類區(qū)域,在該類區(qū)域中該組中基本上全部圖像都基本相同;第二類區(qū)域,在該類區(qū)域中該組中圖像的一個子組基本上相同,但不是該組中全部圖像都相同;以及第三類區(qū)域,在該類區(qū)域中基本上該組中全部圖像都不相同;以及選擇第二類區(qū)域中的一個作為參考區(qū)域。
進一步優(yōu)選地,把多個區(qū)域分類包括組合該組中的圖像以產(chǎn)生一個累積圖像并分析該累積圖像以找出第二類區(qū)域。最優(yōu)選地,分析累積圖像包括對累積圖像中的每個區(qū)域計算一個絕對閾值指出該區(qū)域亮的部分和暗的部分之間的差,以及一個反差閾值指出該區(qū)域中相鄰像素之間的最小有效差值,并把絕對閾值與反差閾值的比值相對于累積圖像其他區(qū)域比較高的那些區(qū)域識別與第二類區(qū)域。附加地或另外地,選擇第二類區(qū)域作為參考區(qū)包括把累積圖像中的各區(qū)域與該組中各圖像中的相應(yīng)區(qū)域加以比較,從而產(chǎn)生累積圖像中每個區(qū)域的區(qū)配評分,并選擇具有最高區(qū)配評分的一個區(qū)域作為參考區(qū)域。
進一步附加地或另外地,對圖像分類包括選擇子組中的一個圖像作為基礎(chǔ)圖像,并從該子組中去掉該組中那些在該參考區(qū)域中與基礎(chǔ)圖像不同的圖像,并對該子組中的圖像重復下列步驟對多個區(qū)域分類并選出一個第二類區(qū)域從而找出一個新的參考區(qū)域,并根據(jù)這新的參考區(qū)域?qū)υ撟咏M中的圖像進行分類。優(yōu)選地,重復對多個區(qū)域分類、選出一個第二類區(qū)域和從該子組中去掉圖像的步驟,直至被分類的圖像的子組中基本上不會找到剩余的第二類區(qū)域為止。
在一個優(yōu)選實施例中,這些圖像包括表格文檔圖像,而圖像的固定部分包括表格模板,而且第二類區(qū)域包括這樣一些區(qū)域,在這些區(qū)域中該子組中圖像的模板不同于不在該子組中的那些圖像的模板。
優(yōu)選地,找出參考區(qū)域包括找出第一參考區(qū)域,從而根據(jù)第一參考區(qū)域把含有第一類別的第一子組圖像與含有第二類別的第二子組圖像區(qū)分開,而且對圖像分類包括在第一子組圖像中再找出一個參考區(qū)域并根據(jù)這一個參考區(qū)域在第一子組中對圖像分類。
在一個優(yōu)選實施例中,這些圖像包括表格文檔圖像,而固定部分包括表格模板,可變部分包括填入模板的字符,而且對圖像分類包括對文檔分組,從而使每類中的所有文檔有基本相同的模板。優(yōu)選地,該方法包括在一類中找出圖像的基本上不變的部分,從而從該類圖像中提取出模板。附加地或另外地,該方法包括處理這些圖像從而從中去掉模板,而保留圖像中的填入字符。
進一步附加地或另外地,該方法包括在對圖像分類后從第一類中的圖像中去掉固定部分,并在去掉固定部分之后壓縮每個圖像中剩余的可變部分。
根據(jù)本發(fā)明的一個優(yōu)選實施例,還提供了一種處理圖像的裝置,包括一個圖像處理器,該圖像處理器被安排成接收有相似特征的一組圖像,該組包括多個類別,每個圖像屬于這些類別之一并且包括一個對它所屬類別中全部圖像共同的固定部分以及將該圖像與該類別中其他圖像區(qū)別開的一個可變部分;在這些圖像中找出一個參考區(qū)域,在此區(qū)域中第一個類別中的圖像的固定部分與第二個類別中的圖像的固定部分始終是不同的;以及根據(jù)該參考區(qū)域?qū)D像分成各個類別。
根據(jù)本發(fā)明的一個優(yōu)選實施例,還提供了一種計算機軟件產(chǎn)品,包括計算機可讀介質(zhì),在其中存儲程序指令,這些指令當由計算機讀出時使計算機接收有相似特征的一組圖像,該組包括多個類別,每個圖像屬于這些類別之一并且包括一個對它所屬類別中全部圖像共同的固定部分以及將該圖像與該類別中其他圖像區(qū)別開的一個可變部分;在這些圖像中找出一個參考區(qū)域,在此區(qū)域中第一個類別中的圖像的固定部分與第二個類別中的圖像的固定部分始終是不同的;以及根據(jù)該參考區(qū)域?qū)D像分成各個類別。
由下文中結(jié)合附圖對本發(fā)明優(yōu)選實施例的詳細描述,可以更充分地理解本發(fā)明。
圖1以圖形示意性顯示根據(jù)本發(fā)明一個優(yōu)選實施例的文檔圖像處理系統(tǒng);圖2A和2B示意性表示用于說明本發(fā)明一個優(yōu)選實施例的變體表格文檔;圖3是流程圖,示意性說明根據(jù)本發(fā)明一個優(yōu)選實施例的處理文檔圖像的方法;圖4是流程圖,示意性說明根據(jù)本發(fā)明一個優(yōu)選實施例對表格文檔圖像進行分類的方法;以及圖5是流程圖,示意性說明根據(jù)本發(fā)明一個優(yōu)選實施例識別參考區(qū)域供對一組表格文檔圖像分類之用的方法。
具體實施例方式
圖1是以圖形示意性顯示根據(jù)本發(fā)明的一個優(yōu)選實施例的文檔圖像處理系統(tǒng)20。系統(tǒng)20包含掃描儀22或本技術(shù)領(lǐng)域已知的任何其他類型圖像采集設(shè)備,它接收和掃描文檔24。該文檔24包含預印表格,它有一個模板,通常填入手寫的、打字的或印刷的字符。該掃描儀采集文檔圖像并把相應(yīng)的圖像數(shù)據(jù)傳送給表格圖像處理器26,圖像處理26通常包含一個適用的通用計算機??商娲兀搱D像從另一個源輸入到處理器中。
處理器26識別它收到的每個圖像中的模板,并根據(jù)它們各自的模板對圖像分組。與本領(lǐng)域已知的系統(tǒng)不同,處理器26能使用下述方法根據(jù)圖像的模板對具有相似的但不完全相同的變體模板的圖像組分類到子組中。然后從每個圖像中去掉適當?shù)哪0?,而且通常壓縮該圖像以存儲到存儲器28中和/或進行本技術(shù)領(lǐng)域已知的其他文檔處理功能。
優(yōu)選地,在處理器26上運行的軟件中實現(xiàn)下述圖像識別、分類和壓縮方法。該軟件可以在有形介質(zhì)(如軟盤或CD-ROM)上提供并加載到處理器中??商娲?,該軟件可經(jīng)由網(wǎng)絡(luò)連接或其他電子鏈接下載到處理器中。進一步可替代的是,處理器26可以包含專用的硬連線部件或數(shù)字信號處理器,用于進行部分或全部圖像處理步驟。
圖2A和2B分別是格式文檔24a和24b的示意圖,它們對理解下文描述的本發(fā)明優(yōu)選實施例是有用的。文檔24a和24b是基于變體模板,它們是相似的,但不完全相同。每個表格包含一個模板,該模板由線32、框34和預印文本36以及其他圖形等元素構(gòu)成。線和框定義字段,它們由手工或機器填寫,通常以字母數(shù)字字符填寫,如在“ACCT”框中所示填入字符38。在本技術(shù)領(lǐng)域已知的模板識別方法中使用的文檔24a和24b的相似模板元素可能會導致處理器26在開始時把這兩個文檔識別為屬于同一模板組。
另一方面,文檔24a和24b的差別在于它們各自的標志44和46,以及含有簽名42的簽名框40的位置。如果由處理器26把這些表格錯誤地識別為屬于一個共同的表格,則在提取填入信息時可能會造成錯誤,使得必定由操作人員高成本地介入。不正確的模板識別至少將導致不完全地去掉模板,結(jié)果這些文檔中至少一個的壓縮圖像將需要更大的存儲空間。再有,當重建這個壓縮圖像時,它將包含錯誤的模板,而且在處理重建的圖像時可能會發(fā)生錯誤。然而,在本發(fā)明的優(yōu)選實施例中,處理器26能自動區(qū)分文檔24a和24b的模板。
圖3是流程圖,示意性顯示根據(jù)本發(fā)明一個優(yōu)選實施例的處理文檔表格圖像體的方法,這些文檔表格圖像包括變體模板。在初始的分類步驟50,處理器26使用本技術(shù)領(lǐng)域已知的任何適當方法把文檔分離成相似圖像組,例如,該處理器可以從每個圖像中提取水平線和垂直線,并基于這些線使這些圖像彼此匹配。這些匹配的圖像通常會被本技術(shù)領(lǐng)域已知的方法分類為具有相同的模板。在本發(fā)明的優(yōu)選實施例中,它們只是被分類為屬于同一組供進一步進行變體檢驗和分類。然后,在每組中的圖像相互對準供其后處理。下文中將參考圖4詳細描述步驟50。
在步驟50之后對任何給定組中圖像內(nèi)容的詳細分析通常會揭示出三種主要類型的區(qū)域類型1-在這些區(qū)域中,該組中所有圖像實際上是完全相同的。這些區(qū)域是屬于圖像模板的區(qū)域,其中的模板從一個圖像到另一個圖像沒有顯著改變。
類型2-在這些區(qū)域中,由于在組內(nèi)各圖像模板中的變化使在該組中的各圖像當中存在差別。在圖2A和2B的例子中,標志44和46的區(qū)域便是類型2區(qū)域。
類型3-由于填入的文本,在這些區(qū)域中存在差別。
后續(xù)方法步驟的目的是區(qū)分這三類區(qū)域。當發(fā)現(xiàn)類型2區(qū)域時,處理器26根據(jù)這些區(qū)域中圖像內(nèi)容把圖像分類到子組或者說變體類別中。這一分類繼續(xù)下去,需要時要對子組再一進步劃分,直至每個子組中只包含類型1和類型3區(qū)域,即直到已基本上消除了全部類型2區(qū)域為上。
為了組中識別類2區(qū)域,優(yōu)選地,處理器26在區(qū)分步驟52找出圖像中的區(qū)別區(qū)域(distinguishing area)。這些區(qū)域是這樣的區(qū)域,即通過對該組中的圖像進行的分析,這些區(qū)域的內(nèi)容趨向于表明它們是類型2區(qū)域。然后在參考選擇步驟54,把這些區(qū)別區(qū)域之一選作參考區(qū)域。這通常是這樣一個區(qū)別區(qū)域,它被發(fā)現(xiàn)有最大量的像素屬于表格模板而不是填入的內(nèi)容。于是能安全地假定在參考區(qū)域中彼此匹配的圖像屬于同一個變體子組,而那些不匹配的圖像應(yīng)屬于一個或多個其他子組。下文中將參考圖5描述一個用于尋找區(qū)別區(qū)域和選擇參考區(qū)域的優(yōu)選方法。
在細分類步驟56,基于選定的參考區(qū)域,該組中的圖像被分成子組。優(yōu)選地,在一個圖像中的該參考區(qū)域選作基礎(chǔ),在所有其他圖像中的相應(yīng)區(qū)域都與它比較。在一選定閾值內(nèi)與該基礎(chǔ)匹配的所有圖像都被認為是等效的,被分類到同一個子組。在這一步驟之后留下的每個子組應(yīng)比分類前的原始組含有較少的不同變體模板。然后對每個子組重復步驟52、54和56,直至再沒有發(fā)現(xiàn)區(qū)別區(qū)域為止。在這一階段,在任何給定子組中的全部圖像可被認為構(gòu)成單一等效類,共享單一模板變體。優(yōu)選地,根據(jù)應(yīng)用需求設(shè)置在子組中識別區(qū)別區(qū)域和匹配圖像的閾值水平,以在因閾值設(shè)得太高(因而兩個不等效的類可能被識別為單一子組)可能造成的誤差水平和因閾值設(shè)得太低(因而單一等效類可能被分成兩個)可能招致的更大的處理負擔二者之間求得平衡。
在模板提取步驟58,處理器26為每個等效類構(gòu)造一個模板。從一組相似圖像中提取模板的一種優(yōu)選方法在美國專利申請09/566,058中描述,它被轉(zhuǎn)讓后本專利申請的受讓人,其內(nèi)容在這里被納入作為參考,簡言之,處理器26對該類中的各圖像進行相互比較,以提取出從一個圖像到下一個圖像相對不變的那部分圖像,即提取這些圖像的類型1部分。這一不變部分被認為是對應(yīng)于共同模板,而不是對應(yīng)于填入每個表格的可變信息。優(yōu)選地,把該模板存儲在存儲器28中,供處理可能其后輸入到系統(tǒng)20的附加圖像使用。
在處理步驟60,優(yōu)選地,從該類的每個圖像中擦除該模板本身。本技術(shù)領(lǐng)域已知的任何適當方法都可用于這一目的,如在上述美國專利5,793,887中描述的那些方法。最優(yōu)選地,以去掉模板所采取的方式應(yīng)設(shè)計成盡可能減小對填入模板的字符的可讀性造成任何有害影響。這類去掉方法在例如美國專利申請09/379,244中描述,它被轉(zhuǎn)讓給本專利申請的受讓人,其內(nèi)容在這里被納入作為參考。在去掉模板之后,這時留在表格圖像中的是可變的填入內(nèi)容,通常是字母數(shù)字字符。優(yōu)選地,這一內(nèi)容被壓縮和存儲在存儲器28中用于其后處理。附加地或可選地,OCR分析可應(yīng)用于讀每個表格中的字段內(nèi)容。本技術(shù)領(lǐng)域已知的其他工作流程機制也可應(yīng)用于分類后的圖像。
圖4是流程圖,示意性說明根據(jù)本發(fā)明優(yōu)選實施例的分類步驟50詳情。如前文說明的那樣,這一步驟的目的是形成相似的、相互對準(aligned)的一組圖像。該方法對處理器26接收的批量填充表格圖像進行操作。有可能使用先前已提取的或用其他方式提供給系統(tǒng)20并存儲在存儲器28中的模板,以足夠的精度對這一批圖像中的一些進行分類。在模板選擇步驟62,在未被分類的圖像當中,任意選擇第一個表格圖像作為一個模板。優(yōu)選地,選擇這一模板表格的特性,如線32和框34,作為識別特性,該組中的其他未被分類的表格將針對這些特性進行匹配。
在匹配步驟64,將這一批中下一個表格圖像的特性與這模板特性進行比較。如果這些特性不能在預先確定的限度內(nèi)與該模板匹配,則在識別失敗步驟66把該表格留在未被分類的一批中。然而,如果這些特性確定與該模板匹配,則在分組步驟68利用該模板將這個表格分組。在對準步驟70,該組中的所有這些表格圖像被修改以使它們與該模板對準。優(yōu)選地,如在上述美國專利5,182,656或美國專利5,793,887中描述的精細配準算法被用于實現(xiàn)組中全部圖像的精確對準,對利于其后的處理。任何圖像如果由于需要例如大量的修改才能與模板匹配因而不能實現(xiàn)這一精細配準的話,則可以認為是被不正確地分類了,因此優(yōu)選的作法是把它返回給未被分類的組。
在重復步驟72,對該批中所有剩余的未被分類的表格圖像重復步驟64及其后的各步驟。在所有未被分類的圖像都已經(jīng)與當前模板進行了比較并分配到它的適當組之后,在最后分類步驟74,處理器26確定是否還有任何其他未被分類的圖像。如果是,則過程返回到步驟62,在那里取下一個未被分類的圖像作為新模板,并重復步驟64至72,直至所有圖像都已被分類到各組中為止。
圖5是流程圖,示意性說明根據(jù)本發(fā)明一個優(yōu)選實施例在一組圖像中找出參考區(qū)域的詳細方法。該方法對應(yīng)于圖3中的步驟52和54。它始于累積步驟80,其中,通過組合正在處理的組或子組中所有單個的相互配準的表格圖像,形成一個累積圖像。優(yōu)選地,這些正在處理的圖像是二值圖像,而累積圖像是對組中的圖像按像素求和形成的。這樣,在累積圖像中的每個灰度像素持有該組所有圖像中在那個像素處發(fā)生的黑(前景)像素個數(shù)的計數(shù)。
如前文定義的那樣,累積圖像被處理以識別該組圖像當中的類型1、類型2和類型3區(qū)域。優(yōu)選地,在閾值確定步驟82,基于確定每個區(qū)域中的一個絕對閾值T和一個反差閾值D來進行識別。這些閾值及其計算方法在美國專利申請09/519,446中被定義,該申請被轉(zhuǎn)讓給本專利申請的受讓人,其內(nèi)容這里被納入作為參考。在本說明書的附錄中給出計算T和D的一個優(yōu)選方法的概要。如前文指出的那樣,對以這種方式處理的圖像區(qū)域的大小和數(shù)量的選擇取決于應(yīng)用需求,在誤差水平和處理時間之間求得平衡??蛇x地,不同大小的區(qū)域用于該過程的不同階段。通常沒有必要處理累積圖像中的所有矩形。在各矩形之間有50%重疊的覆蓋圖像的矩形圖案一般是適當?shù)摹?br>
在每個區(qū)域中選擇絕對閾值T,從而區(qū)分該區(qū)域的亮部分和暗部分。在認為屬于表格模板的類型1和類型2區(qū)域中,T應(yīng)該相對高,這是因為整個組或大的子組圖像中在同一位置來自同一模板的像素的積累。在屬于表格填入部分的類型3區(qū)域中,絕對閾值將是低值,因為所有單個圖像在這些區(qū)域中有不同的內(nèi)容。
選擇反差閾值D以反映相鄰像素之間的最小有效差別,它指出該圖像的一個特性,通常是像素之間穿過的邊緣。在類型1區(qū)域中,反差閾值將是高值,這與絕對閾值相似。然而,在類型2區(qū)域中,反差閾值將比較低,因為它必須區(qū)分該區(qū)中發(fā)生的兩個或更多個不同模板特性。類似地,在類型3區(qū)域中反差閾值為低值。
在閾值比比較步驟84,絕對閾值和反差閾值用于尋找圖像中的區(qū)別區(qū)域。根據(jù)上述分析,預計類型2區(qū)域的絕對閾值與反差閾值之比將顯著高于類型1和類型3區(qū)域。在實踐中,本發(fā)明者已發(fā)現(xiàn)閾值比T2/D給出較好的結(jié)果,因為它減小了比值T/D在低值時對誤差的敏感性。有最高閾值比的區(qū)域被選作區(qū)別區(qū)域。所選區(qū)別區(qū)域的個數(shù)仍取決于應(yīng)用。通常,在處理1500×1500像素的圖像時,本發(fā)明者已經(jīng)發(fā)現(xiàn),檢驗5個候選矩形,每個有100×100像素,將給出好的結(jié)果。
為了從這些區(qū)別區(qū)域中選擇參考區(qū)域,在匹配步驟86,使累積圖像中的每個區(qū)別區(qū)域與所考慮的組中各圖像中的相應(yīng)區(qū)域進行匹配。這一步驟的目的是在該組中的一個圖像中選擇候選區(qū)域之一,它在全部圖像中的所有候選區(qū)域當中有最少數(shù)量的不屬于該圖像模板的黑像素(即代表填入內(nèi)容的最少數(shù)量的黑像素)。于是,在此特定圖像中選定的候選區(qū)域能被認為是最如實地代表該模板的區(qū)域。所以,它是用作參考區(qū)域的最佳選擇。優(yōu)選地,在進行這一步驟時,對該組中的每個圖像中的每個區(qū)域計算一個匹配評分。對于該組中每個圖像中的每個候選區(qū)域,其評分隨著那個圖像區(qū)域中黑像素個數(shù)逆單調(diào)變化,對于該區(qū)域,在累積圖像中的相應(yīng)像素具有的灰度值小于對該區(qū)域確定的絕對閾值T(因為這些像素被認為是屬于該圖像的填入部分)。在參考選擇步驟88,具有最高匹配評分的區(qū)別區(qū)域被選作參考區(qū)域。如前文所述,這是在步驟56把組中的圖像分成子組時使用的區(qū)域。
在本發(fā)明的其他實施例(在附圖中未詳細顯示)中,可以使用其他方法識別和分類變體模板。例如,在步驟70將圖像與表格模板對準通常需要某些局部圖像畸變。小量畸變是正常的,以補償印刷和掃描表格時產(chǎn)生的扭曲。然而,當畸變超過某個閾值時,它可作為圖像和模板之間不相容的指示。這種畸變區(qū)域可以用作識別變體的區(qū)別區(qū)域。優(yōu)選地,在已識別出變體子組之后,重復對準步驟以確定是否還留有任何區(qū)別區(qū)域。
作為另一個例子,在步驟60從圖像中去掉模板之后,在圖像中應(yīng)只留下填入的文本。如果在圖像中的任何地方留有基本上與模板相似的特性,如線、框或大的黑像素區(qū),這些特性也可以表明與模板的不相容性。這樣,可以在步驟52的階段去掉一個初步的模板,而留有與模板相似特性的圖像區(qū)域可以用作區(qū)別區(qū)域。對于本領(lǐng)域技術(shù)人員,識別變體的其他方法是顯然的,并認為是在本發(fā)明的范圍內(nèi)。
盡管這里描述的優(yōu)選實施例涉及處理表格文檔24的圖像,但本發(fā)明的原理可以類似地應(yīng)用于從各組其他類型的圖像中提取信息,其中,在一個組中的圖像包含共同的、基本上固定的部分加上各個可變的部分。在這類實施例中,從大組中選出由彼此相似的圖像組成的子組。根據(jù)每個子組中的一個或多個圖像產(chǎn)生一個子組模板,并用于以子組中圖像與模板的差別為基礎(chǔ)“共同壓縮(co-compress)”該子組中的圖像。盡管在本技術(shù)領(lǐng)域已知的運動圖像壓縮方法也確定和使用圖像差別,但這些方法只基于圖像序列中相繼圖像之間的差別,而不是尋找圖像相似性(在不一定相繼的圖像中尋找)作為共同壓縮的基礎(chǔ)。
這樣,可以理解,上文描述的優(yōu)選實施例是以舉例方式敘述的,本發(fā)明不限于上文中具體顯示和描述的情況。相反,本發(fā)明的范圍包括上文中描述的各種特性的組合和子組合,以及它們的變化及修改,對于本領(lǐng)域的技術(shù)人員,在閱讀前述描述之后這些都是易于想到的,而且是在先有技術(shù)中沒有公開說明的。
附錄本附錄提供計算優(yōu)化絕對閾值T和反差閾值D的一種優(yōu)選方法,該計算是基于累積圖像中像素的灰度值,特別是基于相鄰像素灰度值之間的間斷(gap)。T和D值的選擇是要增加累積圖像的區(qū)域的二值化版本中將會保留在該區(qū)域的有效邊緣的個數(shù),同時減少會發(fā)生的人為邊緣(artifact edge)的個數(shù)。
這樣,對于本方法,我們把兩個相鄰像素之間的“有效間斷”定義為其絕對大小大于D的間斷。我們說在使用T作為二值化閾值產(chǎn)生的輸出二值圖像I(T)中表示一個間斷,如果在I(T)中該間斷任何一側(cè)的像素有不同的二進制值的話。換言之,如果在輸入圖像(即所考慮的累積圖像的一個區(qū)域)中的像素之一的灰度值大于T而其他像素的灰度值小于T,則表示具有間斷。然后,優(yōu)選地,通過最大化T和D的準則函數(shù)(merit function)來找出T和D的優(yōu)化值,T和D的準則函數(shù)的選取要滿足下列判據(jù)1.與輸入圖像中的在I(T)中表示的有效間斷的個數(shù)正相關(guān);2.與輸入圖像中的在I(T)中表示的無效間斷的個數(shù)負相關(guān);以及3.與輸入圖像中的在I(T)中沒有表示出的有效間斷的個數(shù)負相關(guān)。
為計算這樣的準則函數(shù),令N(T,D)為輸入圖像中的在I(T)中表示的無效間斷的加權(quán)計數(shù)。優(yōu)選地,這樣加權(quán),即在I(T)中表示的間斷越小則它的權(quán)重越大。換言之,在N(T,D)中計數(shù)的每個間斷有一個像素的灰度值大于T而另一個像素的灰度值小于T,兩個灰度值之間的絕對差不大于D。令MAX表示圖像中的最高灰度值,于是N(T,MAX)是在I(T)中表示的所有間斷的加權(quán)計數(shù)。令G(D)為該圖像中有效間斷數(shù)的加權(quán)計數(shù),即其像素灰度值之間的絕對差值大于D的那些間斷的計數(shù)。于是定義如下準則1.good(T,D)=N(T,MAX)-N(T,D),在I(T)中表示的有效間斷的加權(quán)計數(shù);2.artifacts(T,D)=N(T,D),在I(T)中表示的無效間斷;3.missed(T,D)=G(G)-good(T,D),在I(T)中丟掉的有效間斷。
這些準則對應(yīng)于上述三個判據(jù)。于是,對每對(T,D)的準則評分由下式給出Score(T,D)=good(T,D)-artifacts(T,D)-missed(T,D)給出最高評分的一對(T,D)被選為用于所考慮區(qū)域的絕對閾值和反差預值。
上面作為舉例描述了選擇T和D的這一方法,其他評分和方法也可用于最優(yōu)化T和D。例如,賦予間斷的權(quán)重可以改變。還有,雖然這里把“間斷”定義為指相鄰像素,但這些像素不需要是緊鄰的,而是可以有一個小的分開距離。此外,可以不需要評估圖像中的所有間斷,而是可以取有代表性的樣本。再有,由于評估間斷的目的主要是選擇T和D的值,它們能在二值圖像中保留真正的邊緣,所以一個邊緣算子,如Sobel變換,可以用于識別灰度圖像中的邊緣。于是,可以在對應(yīng)于這些邊緣的像素間斷上優(yōu)化T和D。在灰度圖像中的其他信息線索,如V形強度曲線(“屋頂邊緣”——通常在細線和文本特性中會遇到),可以類似地用于這一目的。選擇上限和下限閾值的其他方法對于本領(lǐng)域技術(shù)人員是顯然的。
權(quán)利要求
1.一種處理圖像的方法,包含接收有相似特征的一組圖像,該組包含多個類別,其中每個圖像屬于這些類別之一并且包含一個對它所屬類列中全部圖像共同的固定部分以及將該圖像與該類別中其他圖像區(qū)別開的一個可變部分;在這些圖像中找出一個參考區(qū)域,在此區(qū)域中,第一個類別中的圖像的固定部分與第二個類別中的圖像的固定部分始終是不同的;以及根據(jù)該參考區(qū)域?qū)D像分成各個類別。
2.根據(jù)權(quán)利要求1的方法,其中接收該組圖像包含處理多個圖像以確定它們的特征,以及通過發(fā)現(xiàn)這些特征的相似性選擇圖像以包括在該組中。
3.根據(jù)權(quán)利要求1的方法,其中特征包含可由計算機識別的圖像特性,并且其中接收該組圖像包含在響應(yīng)這些特性的組中互相對準這些圖像。
4.根據(jù)權(quán)利要求3的方法,其中圖像包含表格文檔圖像,而圖像的固定部分包含表格模板,而且其中特性包含模板的特性。
5.根據(jù)權(quán)利要求1的方法,其中找出參考區(qū)域包含把圖像的多個區(qū)域分類成下列各類區(qū)域第一類區(qū)域,在該類區(qū)域中該組中基本上全部圖像都基本相同;第二類區(qū)域,在該類區(qū)域中該組中圖像的一個子組基本上相同,但不是該組中全部圖像都相同;以及第三類區(qū)域,在該類區(qū)域中基本上該組中全部圖像都不相同;以及選擇第二類區(qū)域中的一個作為參考區(qū)域。
6.根據(jù)權(quán)利要求5的方法,其中對多個區(qū)域分類包含組合該組中的圖像以產(chǎn)生一個累積圖像并分析該累積圖像以找出第二類區(qū)域。
7.根據(jù)權(quán)利要求6的方法,其中分析累積圖像包含對累積圖像中的每個區(qū)域計算一個絕對閾值以及一個反差閾值,該絕對閾值表示該區(qū)域的亮的部分和暗的部分之間的差,該反差閾值表示該區(qū)域中相鄰像素之間的最小有效差值,并把絕對閾值與反差閾值的比值相對于累積圖像其他區(qū)域比較高的那些區(qū)域識別為第二類區(qū)域。
8.根據(jù)權(quán)利要求6的方法,其中選擇第二類區(qū)域作為參考區(qū)域包含把累積圖像中的各區(qū)域與該組中各圖像中的相應(yīng)區(qū)域加以比較,從而產(chǎn)生累積圖像中每個區(qū)域的匹配評分,并選擇具有最高匹配評分的一個區(qū)域作為參考區(qū)域。
9.根據(jù)權(quán)利要求5的方法,其中對圖像分類包含選擇子組中的一個圖像作為基礎(chǔ)圖像,并從該子組中去掉該組中那些在該參考區(qū)域中與基礎(chǔ)圖像不同的圖像,并對該子組中的圖像重復下列步驟對多個區(qū)域分類并選出一個第二類區(qū)域從而找出一個新的參考區(qū)域,并根據(jù)這新的參考區(qū)域?qū)υ撟咏M中的圖像進行分類。
10.根據(jù)權(quán)利要求9的方法,其中重復對多個區(qū)域分類、選出一個第二類區(qū)域和從該子組中去掉圖像的步驟,直至被分類的圖像的子組中基本上不會找到剩余的第二類區(qū)域為止。
11.根據(jù)權(quán)利要求5的方法,其中圖像包含表格文檔圖像,而圖像的固定部分包含表格模板,而且其中第二類區(qū)域包含這樣一些區(qū)域,在這些區(qū)域中該子組中圖像的模板不同于不在該子組中的那些圖像的模板。
12.根據(jù)權(quán)利要求1-11中任何一個的方法,其中找出參考區(qū)域包含找出第一參考區(qū)域,從而根據(jù)第一參考區(qū)域把含有第一類別的第一子組圖像與含有第二類別的第二子組圖像區(qū)分開,而且其中對圖像分類包含在第一子組圖像中再找出一個參考區(qū)域并根據(jù)這一個參考區(qū)域在第一子組中對圖像分類。
13.根據(jù)權(quán)利要求1-11中任何一個的方法,其中這些圖像包含表格文檔圖像,而且其中的固定部分包含表格模板,可變部分包含填入模板的字符,而且其中對圖像分類包含對文檔分組,從而使每類中的所有文檔有基本相同的模板。
14.根據(jù)權(quán)利要求13的方法,并且包含在一類中找出圖像的基本上不變的部分,從而從該類圖像中提取出模板。
15.根據(jù)權(quán)利要求13的方法,并且包含處理這些圖像從而從中去掉模板而保留圖像中的填入字符。
16.根據(jù)權(quán)利要求1-11中任何一個的方法,而且包含在對圖像分類后從第一類中的圖像中去掉固定部分,并在去掉固定部分之后壓縮每個圖像中剩余的可變部分。
17.一種處理圖像的裝置,包括一個圖像處理器,被安排成接收有相似特征的一組圖像,該組包括多個類別,每個圖像屬于這些類別之一并且包含一個對它所屬類別中全部圖像共同的固定部分以及將該圖像與該類別中其他圖像區(qū)別開的一個可變部分;在這些圖像中找出一個參考區(qū)域,在此區(qū)域中第一個類別中的圖像的固定部分與第二個類別中的圖像的固定部分始終始是不同的;以及根據(jù)參考區(qū)域?qū)D像分成各個類別。
18.根據(jù)權(quán)利要求17的裝置,其中該處理器被安排成處理這些圖像以確定它們的特征,以及通過發(fā)現(xiàn)這些特征的相似性選擇圖像以包括在該組中。
19.根據(jù)權(quán)利要求17的裝置,其中特征包含可由計算機識別的圖像特性,而且其中該處理器被安排成響應(yīng)這些特性使該組中的圖像彼此對準。
20.根據(jù)權(quán)利要求19的裝置,其中圖像包含表格文檔圖像,而圖像的固定部分包含表格模板,而且其中特性包含模板的特性。
21.根據(jù)權(quán)利要求17的裝置,其中為了找出參考區(qū)域,該處理器被安排成把圖像的多個區(qū)域分類成下列各類區(qū)域第一類區(qū)域,在該類區(qū)域中該組中基本上全部圖像都基本相同;第二類區(qū)域,在該類區(qū)域中該組中圖像的一個子組基本上相同,但不是該組中全部圖像都相同;以及第三類區(qū)域,在該類區(qū)域中基本上該組中全部圖像都不相同,以及選擇第二類區(qū)域中的一個作為參考區(qū)域。
22.根據(jù)權(quán)利要求21的裝置,其中該處理器被安排成組合該組中的圖像以產(chǎn)生一個累積圖像并分析該累積圖像以找出第二類區(qū)域。
23.根據(jù)權(quán)利要求22的裝置,其中該處理器被安排成對累積圖像中的每個區(qū)域計算一個絕對閾值指出該區(qū)域的亮的部分和暗的部分之間的差,以及一個反差閾值指出該區(qū)域中相鄰像素之間的最小有效差值,并把絕對值與反差閾值的比值相對于累積圖像其他區(qū)域比較高的那些區(qū)域識別為第二類區(qū)域。
24.根據(jù)權(quán)利要求21的裝置,其中該處理器被安排成把累積圖像中的各區(qū)域與該組中各圖像中的相應(yīng)區(qū)域加以比較,從而產(chǎn)生累積圖像中每個區(qū)域的匹配評分,并選擇具有最高匹配評分的一個區(qū)域作為參考區(qū)域。
25.根據(jù)權(quán)利要求21的裝置,其中該處理器被安排成選擇子組中的一個圖像作為基礎(chǔ)圖像,并從該子組中去掉該組中那些在該參考區(qū)域中與基礎(chǔ)圖像不同的圖像,并對該子組中的圖像重復下列步驟對多個區(qū)域分類并選出一個第二類區(qū)域從而找出一個新的參考區(qū)域,并根據(jù)這新的參考區(qū)域?qū)υ撟咏M中的圖像進行分類。
26.根據(jù)權(quán)利要求25的裝置,其中該處理器被安排成重復對多個區(qū)域分類、選出一個第二類區(qū)域和從該子組中去掉圖像的步驟,直至被分類的圖像的子組中基本上不會找到剩余的第二類區(qū)域為止。
27.根據(jù)權(quán)利要求21的裝置,其中圖像包含表格文檔圖像,而圖像的固定部分包含表格模板,而且其中第二類區(qū)域包含這樣一些區(qū)域,在這些區(qū)域中該子組中圖像的模板不同于不在該子組中的那些圖像的模板。
28.根據(jù)權(quán)利要求17-27中任何一個的裝置,其中該處理器被安排成找出第一參考區(qū)域,從而根據(jù)第一參考區(qū)域把含有第一類別的第一子組圖像與含有第二類別的第二子組圖像區(qū)分開,而且其中對圖像分類包含在第一子組圖像中再找出一個參考區(qū)域并根據(jù)這一個參考區(qū)域在第一子組中對圖像分類。
29.根據(jù)權(quán)利要求17-27中任何一個的裝置,其中這些圖像包含表格文檔圖像,而且其中固定部分包含表格模板,可變部分包含填入模板的字符,而且其中該處理器被安排成對文檔分類,從而使每類中的所有文檔有基本相同的模板。
30.根據(jù)權(quán)利要求29的裝置,其中該處理器被安排成在一類中找出圖像的基本上不變的部分,從而從該類圖像中提取出模板。
31.根據(jù)權(quán)利要求29的裝置,其中該處理器被安排成處理這些圖像從而從中去掉模板而保留圖像中的填入字符。
32.根據(jù)權(quán)利要求17-27中任何一個的裝置,其中該處理器被安排成在對圖像分類后從第一類中的圖像中去掉固定部分,并在去掉固定部分之后壓縮每個圖像中剩余的可變部分。
33.一種計算機軟件產(chǎn)品,包含其中存儲了程序指令的計算機可讀介質(zhì),這些指令當由計算機讀出時使計算機接收有相似特征的一組圖像,該組包含多個類別,每個圖像屬于這些類別之一并且包含一個對它所屬類別中全部圖像共同的固定部分以及將該圖像與該類別中其他圖像區(qū)別開的一個可變部分;在這些圖像中找出一個參考區(qū)域,在此區(qū)域中每一個類別中的圖像的固定部分與第二個類別中的圖像的固定部分始終是不同的;以及根據(jù)該參考區(qū)域?qū)D像分成各個類別。
全文摘要
一種處理圖像的方法,包括接收有相似特征的一組圖像,該組包括多個類別,其中每個圖像屬于這些類別之一并且包含一個對它所屬類別中全部圖像共同的固定部分(32、34、36)以及將該圖像與該類別中其他圖像區(qū)別開的一個可變部分(42)。在這些圖像中找出一個參考區(qū)域,在此區(qū)域中,第一個類別中的圖像的固定部分(44)與第二個類別中的圖像的固定部分(46)始終是不同的。根據(jù)該參考區(qū)域,這些圖像被分成各個類別。
文檔編號G06K9/20GK1514985SQ01822508
公開日2004年7月21日 申請日期2001年8月16日 優(yōu)先權(quán)日2001年2月6日
發(fā)明者阿維亞德·佐特尼克, 阿維亞德 佐特尼克 申請人:國際商業(yè)機器公司