專利名稱:文檔圖像二值化方法
技術領域:
本發(fā)明涉及圖像處理領域,具體來說提供了一種把從掃描儀、傳真機或者數碼相機得到的數字圖像轉化為二值圖像的技術。本發(fā)明的應用領域為文檔圖像處理、文檔管理以及文檔識別。
背景技術:
當代社會中,文檔是首要的信息載體。因此本發(fā)明針對圖像,特別是由文本、表格、線條以及圖片構成的文檔圖像的二值化進行了改進。由于文檔圖像的信息本質上是二值信息,理想條件下,可以將其用單一的前景和背景來表示,比如用白色表示背景,黑色表示有用信息,即前景。然而,實際應用中,由于打印過程、不均勻的反光、文檔本身內容的多樣化以及各種豐富的藝術效果,通常圖像中的前景和背景都是變化的。文檔圖像二值化的目的就是從無用信息中將有用信息分離出來,并將結果表示為一幅二值圖像。
圖像二值化在很多應用中是必要的步驟,比如美國專利5,452,107提出了一種根據原始圖像局部區(qū)域的密度,包括目標像素和周圍像素的平均值,來確定二值化閾值的方法。該方法的缺陷是局部只能提供有限的信息。
發(fā)明內容
本發(fā)明的目的在于提供一種能夠解決現有技術中存在的上述問題的文檔圖像二值化方法。
為了實現上述目的,本發(fā)明提供一種對文檔圖像進行二值化處理的圖像處理方法,包含如下步驟a)在全局閾值化處理中,確定用于圖像進行二值化的全局閾值,根據所述全局閾值將所述文檔圖像的像素分為三類黑,白和待定像素;b)為每個待定像素確定一個自適應的二值化閾值,根據所述自適應二值化閾值,將待定像素二值化。
本發(fā)明的文檔圖像二值化方法結合了全局和局部信息,同時有效地利用了圖像的局部信息和歷史信息,因此,能夠提供更高質量的二值化文檔圖像。
通過下面結合附圖進行的描述,本發(fā)明的上述和其他目的和特點將會變得更加清楚,其中圖1概述了本發(fā)明所提出的圖像二值化方法的流程圖。
圖2示出了圖1中本發(fā)明方法的預處理模塊的詳細流程圖。
圖3示出了圖1中本發(fā)明方法的全局閾值化模塊的詳細流程圖。
圖4示出了全局閾值化后的一個文檔圖像直方圖的例子,并相應地標出了用全局閾值化方法得到的三個全局閾值T1、T2和T3。
圖5示出了圖1中本發(fā)明方法的局部閾值化模塊的詳細流程圖。
圖6示出了圖1中本發(fā)明方法的后處理模塊的詳細流程圖。
圖7表示應用本發(fā)明方法對圖像進行二值化的過程的例子。
具體實施例方式
以下,參照附圖來詳細說明本發(fā)明的實施例。
如果圖像中的背景和有用信息(或稱為前景)的像素值或色彩值在全圖中是一致的,那么采用單一閾值就可以得到高質量的二值化圖像。這種方法稱為全局閾值化。
但是,目前使用的大多數文檔圖像含有豐富的圖表和藝術效果,單一閾值往往會引入噪聲或者無法保留有用的信息。對不同的像素或者不同區(qū)域的像素采用不同的閾值進行二值化的方法,通常稱為局部閾值化。
圖1概述了本發(fā)明所提出的圖像二值化方法的流程圖。本發(fā)明的圖像二值化方法是結合全局和局部信息進行的。
參考圖1,在本發(fā)明的文檔圖像二值化方法中,其輸入為一個紙質或電子文檔10,經過預處理模塊11、全局閾值化模塊12、局部閾值化模塊13以及后處理模塊14后被轉化為電子二值化圖像。
輸入文檔10如果是紙質文檔的話,需要采用光學掃描設備如掃描儀、傳真機或者數碼照相機將其轉換為計算機能夠處理的數字圖像。數字圖像的格式可以為BMP、JPEG、TIF等。
預處理模塊11對圖像進行下文將要說明的一系列的處理,其處理結果為后續(xù)的閾值化模塊所用。
此后全局閾值化模塊12確定兩個閾值,將圖像像素分為白、黑和待定像素。待定像素指在全局閾值階段無法根據直方圖信息確定其分類的像素集,這些像素可能是藝術效果、圖表、照片、表格甚至是文字信息。由于全局閾值化可以處理大多數圖像像素,因此可以顯著提高二值化的速度。另外一個好處在于由于全局閾值化階段不區(qū)分前景和背景,因此能夠保持文檔中的反色信息,即文本符號的顏色與背景顏色比深的情況。
在本發(fā)明中,局部閾值化模塊13根據圖像局部特征和歷史閾值信息為每一個待定像素確定一個二值化閾值。這里的局部特征包括圖像局部區(qū)域的均值和方差。而歷史閾值信息則來自于已經二值化的鄰近像素。本發(fā)明中,歷史閾值信息的使用非常重要,它可以顯著提高輸出二值化文檔圖像的質量。
最后,后處理模塊14對經過全局閾值化模塊12以及局部閾值化13二值化后的圖像進行處理,以便去除該圖像上的噪聲。一般來講,這樣的噪聲有三類文本筆劃的粘連、文本筆劃的斷開以及孤立噪聲點。本發(fā)明的后處理方法能夠在不引入新的噪聲的情況下去除圖像中的大多數噪聲。
經過上述處理,輸入文檔10的有效信息被表示為一個二值化文檔圖像15。此圖像可被用于很多領域,如進一步的圖像分析、文本字的顏色檢測、文檔圖像壓縮、文檔的版面分析以及光學字符識別等。
下面通過圖2-6對圖1中的每個模塊進行詳細介紹。
圖2詳細表示了預處理模塊11的流程。預處理模塊11的功能是對圖像進行平滑以去除噪聲,同時為后續(xù)的全局閾值化模塊12提供必要的數據。如果輸入是紙質文檔,首先通過模塊101對其進行數字化產生數字圖像。如果是彩色圖像,通過模塊102將其轉化為灰度圖像或者對每個通道分別進行處理。根據圖像的內容和質量,可采用直方圖均衡化模塊對灰度進行處理。隨后的低通濾波器104可選擇如高斯濾波器的線性濾波器,或者如均值濾波器的非線性濾波器。
此后圖像被劃分為圖像塊,如果圖像塊內像素最大值和最小值的差小于預先設定的閾值,則認為該圖像塊是均勻的,對確定全局閾值無法提供有意義的信息,因此在圖像蒙版估計模塊105中該均勻的圖像塊被屏蔽掉不予考慮。對于有效信息只占圖像很小部分的情況,該蒙版也能發(fā)揮很好的作用。最后,根據圖像蒙版計算圖像的直方圖分布,這將作為全局閾值化模塊12的輸入。出于速度的考慮,也可對圖像進行降采樣,并將得到的閾值應用于原始圖像。
圖3詳細表示了全局閾值化算法的流程圖。該模塊對從預處理模塊11得到的直方圖進行分析,首先模塊111在像素灰度最大值和最小值之間選取一個最優(yōu)閾值T1,隨后模塊112和113分別在最小值和T1之間以及T1和最大值之間選取閾值T2和T3。在本發(fā)明的一個可能實施例中,基于線性判別準則的Otsu算法(這是一個非常常用的算法,出處N.Otsu,“A thresholdselection method from grey-level histograms,”IEEE Trans.Syst.,Man,Cybern.,vol.SMC-1,pp.62-66,Jan.1979.)被用于確定T1、T2和T3,即,根據Otsu算法在直方圖上算出來T1、T2和T3,這三個閾值滿足T2≤T1≤T3。在模塊114中,圖像中的像素灰度值如果小于T2,則被判別為黑色像素,表示為1,如果大于T3,則被判別為白色像素,表示為0。剩下的像素則被判別為待定。值得一提的是,因為隨著印刷技術的提高,出現了大量含有豐富背景,而有效的文字信息由單一的亮色表示的文檔。因此為了能夠保持反色信息,模塊114不對前景和背景進行區(qū)分。
圖4給出了全局閾值化的一個例子,其中,橫坐標為像素灰度值,縱坐標為每個像素灰度值在全圖出現的次數,即直方圖,T1,T2和T3是根據上述方法確定的三個全局閾值,其中T2和T3被用于全局閾值化。
僅僅通過對直方圖的分析無法確定落入T2和T3區(qū)間的像素(即待定像素)是否包含有用信息,因此需要借助更多的信息進行分析。
圖5給出了局部自適應閾值化模塊的流程圖,用于確定落入T2和T3區(qū)間的像素(即待定像素)是否包含有用信息。該模塊逐一檢查圖像中的像素,如果當前像素是黑或者白,則檢查下一個像素;如果當前像素的值介于黑和白之間,即屬于待定類的像素,則為該像素確定一個閾值,并根據該閾值,對該待定像素進行二值化。
如果當前像素是所在行的第一個待定像素,則模塊121采用當前像素的局部特征指局部均值和局部方差,采用的方法為Sauvola算法(參見出處J.Sauvola,M.Pietkinen,“Adaptive document image binarization”,PatternRecognition,Vol.33,pp.225-236,2000.)。
如果當前像素不是所在行的第一個待定像素,則在局部特征的基礎上增加歷史閾值信息,即,上一個待定像素確定的閾值。模塊122對局部信息和歷史閾值信息采用特定的方式來為當前像素確定閾值,具體的系數可以根據應用領域以及文檔的特點確定。例如,對OCR應用來說,可以將字提取率作為標準來對系數進行優(yōu)化。選定閾值后,如果像素灰度值小于閾值,則該待定像素被二值化為黑,否則二值化為白。
在本發(fā)明的一個可能的實施例中,局部信息和歷史閾值信息通過如下公式被組合在一起T=m*(1-k1*(k2*VAR+k3*Thistory)/R)其中,T是待定像素的閾值,m是以待定像素為中心的一個鄰域的均值,VAR是所述鄰域的反差,Thistory是歷史閾值信息,k1、k2、k3和R均是線性系數。
文檔圖像通常都由字符、線、表格、照片和圖表等構成,這些不同的成分通常各有特點。但是從二值化圖像上來看,最重要的信息是字符、線、表格的結構以及內部的字符。如上所述,二值化圖像中的噪聲可以分為三類筆劃之間的粘連、筆劃的斷裂以及孤立噪聲點/塊。后處理的目的是將粘連的比劃分開,連接斷裂的筆劃并去除孤立噪聲點,并且在處理過程中不引入新的噪聲。
圖6詳細給出了后處理模塊的流程圖,其基本思路是用迭代的方式對圖像進行分析,是否繼續(xù)取決于每次迭代的結果。首先,后處理的輸入是經過全局和局部閾值化的二值化圖像,在每次迭代中,檢查每個像素鄰域內與其顏色相同的像素數目,如果數目少于一定閾值T4,則將中心像素反色,否則保持其顏色。該方法的成功與否取決于鄰域的閾值和大小。本發(fā)明中的后處理選取一個相對較大的鄰域,同時鄰域閾值根據前次迭代的結果進行適度增大。如果某次迭代中,顏色被反色的像素數目少于一定閾值T5,說明圖像的噪聲已經在一定范圍內,因此迭代停止。這種方式有效減少了引入的噪聲。
經過圖2-6所述的處理,將一個輸入文檔轉化為一個二值圖像。
圖7給出了一個二值化的具體例子。其中,A是原始圖像,B是全局閾值化后的結果,而C是局部閾值化后的結果。
本發(fā)明不限于上述的具體實施例。對于本領域普通技術人員來說,在不超出所附權利要求書限定的保護范圍內,顯然可以進行各種各樣的組合、改變和變型。
例如,本發(fā)明的針對預處理模塊的一種可能的變型為,可以去除或者改變圖2的模塊103、104和105。如果前景和背景的像素分布比較均勻的話,無需進行低通濾波。
本發(fā)明的針對全局閾值化模塊的一種可能的變型為,可以改變圖3的模塊111、112和113中的全局閾值化方法,例如基于信息熵或矩的方法,并且用于確定T1,T2和T3的方法也無須相同。
本發(fā)明的針對局部閾值化模塊的一種可能的變型為,可以改變圖5的有關當前行的第一個待定像素的閾值的確定方法。而且,圖5中的歷史閾值信息可以選取來自與當前像素位于同一列的前一個待定像素的閾值。此外,用于組合局部特征和歷史閾值信息的線性系數可根據具體的應用進行調整。
權利要求
1.一種對文檔圖像進行二值化處理的圖像處理方法,包含如下步驟a)在全局閾值化處理中,確定用于對圖像進行二值化的全局閾值,根據所述全局閾值將所述文檔圖像的像素分為三類黑,白和待定像素;b)為每個待定像素確定一個自適應的二值化閾值,根據所述自適應二值化閾值,將待定像素二值化。
2.根據權利要求1的圖像處理方法,步驟a)進一步包括如下步驟通過直方圖分析,在像素最小值和最大值之間確定第一全局閾值(T1);通過直方圖分析,在像素最小值和第一全局閾值(T1)之間確定第二全局閾值(T2);通過直方圖分析,在第二全局閾值(T2)和像素最大值之間確定第三全局閾值(T3);根據第二全局閾值(T2)和第三全局閾值(T3),將圖像像素分為3類像素值小于第二全局閾值(T2)的為黑像素,像素值大于第三全局閾值(T3)的為白像素,像素值介于第二全局閾值(T2)和第三全局閾值(T3)之間的為待定像素。
3.根據權利要求1的圖像處理方法,其特征在于步驟b)進一步包括如下步驟采用局部特征為每行或每列的第一個待定像素確定所述自適應閾值;采用特定的方式結合局部特征和歷史閾值信息,為后續(xù)的每個待定像素確定所述自適應閾值;選定所述自適應閾值后,如果待定像素灰度值小于所述自適應閾值,則該待定像素被二值化為黑,否則二值化為白。
4.根據權利要求3的圖像處理方法,其特征在于所述局部特征包括圖像局部區(qū)域的均值和方差;所述歷史閾值信息是當前行或列上的前一個待定像素的閾值。
5.根據權利要求1的圖像處理方法,其中,在進行二值化處理之前,還包括步驟對圖像進行預處理以為全局閾值化處理提供數據。
6.根據權利要求5的圖像處理方法,其中所述預處理步驟進一步包括如下步驟對文檔圖像進行低通濾波以去除高頻噪聲;根據圖像塊內的像素值變化幅度確定圖像蒙版;如果需要,可根據圖像蒙版對圖像進行降采樣;根據圖像蒙版計算原始圖像或者降采樣圖像直方圖。
7.根據權利要求6的圖像處理方法,其特征在于使用高斯濾波器或者均值濾波器對文檔圖像進行低通濾波。
8.根據權利要求1的圖像處理方法,其特征在于可進一步包含如下步驟d)在二值化的圖像上進行去除噪聲的后處理。
9.根據權利要求8的圖像處理方法,其特征在于步驟d)可進一步包含如下步驟計算當前像素鄰域內與當前像素顏色相同的像素數目;如果得到的像素數目小于第四閾值(T4),則將當前像素反色;如果當前迭代中被反色的像素小于第五閾值(T5)或者迭代已經達到最大次數,則迭代停止,否則重新計算第四閾值(T4)和第五閾值(T5),并繼續(xù)迭代。
全文摘要
本發(fā)明提供一種對文檔圖像進行二值化處理的圖像處理方法,包含如下步驟a)在全局閾值化處理中,確定用于圖像進行二值化的全局閾值,根據所述全局閾值將所述文檔圖像的像素分為三類黑,白和待定像素;b)為每個待定像素確定一個自適應的二值化閾值,根據所述自適應二值化閾值,將待定像素二值化。
文檔編號H04N1/40GK1941838SQ200510107630
公開日2007年4月4日 申請日期2005年9月29日 優(yōu)先權日2005年9月29日
發(fā)明者郝瑛, 歐文武, 王剛 申請人:株式會社理光