專利名稱:一種數(shù)字圖像中提取文本區(qū)域的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種數(shù)字圖像處理方法,特別是涉及一種數(shù)字圖像中提取文本區(qū)域的方法。
背景技術(shù):
在很多內(nèi)容豐富的數(shù)字圖像中,一幅圖通常都同時(shí)包括圖形區(qū)域、文本區(qū)域、連續(xù)的圖像區(qū)域等。在對(duì)數(shù)字圖像進(jìn)行處理時(shí),針對(duì)不同的區(qū)域,通常會(huì)有不同的處理方式。圖形與文本一般都要求具有較清晰的邊緣,特別是文本區(qū)域,具有較清晰的邊緣才能較容易地識(shí)別出其中的文字內(nèi)容,而圖像區(qū)域則更注重內(nèi)容,例如在打印的時(shí)候如果選用節(jié)約碳粉的打印方式,則將整幅圖都進(jìn)行淡化處理,這樣圖像、圖形、文字同時(shí)被淡化,雖然對(duì)圖像的處理效果比較明顯,但是不能區(qū)別對(duì)待文字和圖形的邊緣和內(nèi)部,因?yàn)槲淖趾蛨D形的打印結(jié)果只需要知道位置和形狀就可以,用戶更關(guān)心輪廓邊緣,輪廓內(nèi)部的可以不要或更淡。
又如在數(shù)字復(fù)印機(jī)中,文件首先通過一個(gè)掃描單元進(jìn)行掃描,經(jīng)過掃描單元處理之后,文件轉(zhuǎn)換為灰度圖像或RGB彩色圖像。圖像根據(jù)例如一位驅(qū)動(dòng)或多位驅(qū)動(dòng)的驅(qū)動(dòng)形式進(jìn)一步處理。如果數(shù)字復(fù)印機(jī)是一個(gè)彩色復(fù)印機(jī),則必須執(zhí)行一個(gè)過網(wǎng)(Screen)功能,將8位灰度圖像或8位RGB圖像轉(zhuǎn)換為1位或多位圖像的步驟,彩色匹配步驟必須在過網(wǎng)功能之前執(zhí)行,一些產(chǎn)品通過有規(guī)律的矩陣執(zhí)行過網(wǎng)操作,另一些產(chǎn)品使用誤差混淆來(lái)消除波紋干擾。雖然執(zhí)行點(diǎn)陣過網(wǎng)中的半色調(diào)對(duì)于表現(xiàn)連續(xù)的色調(diào)源文件具有比較好的處理效果,但是會(huì)降低文本與圖形的質(zhì)量,使文本或圖線的邊緣更加平滑,從而導(dǎo)致邊緣不夠清晰。
因此,當(dāng)前急需一種自動(dòng)識(shí)別圖像中的文本區(qū)域,從而可對(duì)文本區(qū)域進(jìn)行區(qū)別處理,使文本或圖形區(qū)域獲得清晰、尖銳的邊緣,但對(duì)于其它連續(xù)的色調(diào)圖像與半色調(diào)圖像,通過平滑過濾使整個(gè)圖像更加光滑。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題在于提供一種數(shù)字圖像中提取文本區(qū)域的方法,主要的目的在于提取圖像中的文本區(qū)域,從而可以對(duì)文本區(qū)域進(jìn)行區(qū)別處理。
為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種數(shù)字圖像中提取文本區(qū)域的方法,其特點(diǎn)在于,該方法包括如下步驟掃描該數(shù)字圖像,獲得該圖像的亮度值;平滑過濾該數(shù)字圖像;將圖像劃分為多個(gè)塊;計(jì)算各塊中水平方向以及豎直方向的邊緣個(gè)數(shù);及根據(jù)該邊緣個(gè)數(shù)確定文本塊。
上述數(shù)字圖像中提取文本區(qū)域的方法,其特點(diǎn)在于,若該數(shù)字圖像為彩色圖像,則還包括將圖像轉(zhuǎn)換為灰度圖像的步驟。
上述數(shù)字圖像中提取文本區(qū)域的方法,其特點(diǎn)在于,該平滑過濾該數(shù)字圖像的步驟,是用高斯過濾器對(duì)圖像進(jìn)行平滑過濾。
上述數(shù)字圖像中提取文本區(qū)域的方法,其特點(diǎn)在于,將圖像劃分為多個(gè)塊的步驟,是按照每塊包括N*N個(gè)像素進(jìn)行劃分。
上述數(shù)字圖像中提取文本區(qū)域的方法,其特點(diǎn)在于,N的個(gè)數(shù)包括10、16、32或64。
上述數(shù)字圖像中提取文本區(qū)域的方法,其特點(diǎn)在于,該邊緣為一邊的像素與另一邊的像素與其有明顯的灰度差別的像素集。
上述數(shù)字圖像中提取文本區(qū)域的方法,其特點(diǎn)在于,該計(jì)算各塊中邊緣的個(gè)數(shù)的步驟,還包括如下步驟微分該塊中的像素值;根據(jù)該微分?jǐn)?shù)據(jù),標(biāo)記該塊的正向峰值以及負(fù)向峰值;累加該峰值個(gè)數(shù),根據(jù)該峰值個(gè)數(shù)確定邊緣個(gè)數(shù)。
上述數(shù)字圖像中提取文本區(qū)域的方法,其特點(diǎn)在于,該塊的正向峰值以及負(fù)向峰值的步驟,還包括如下步驟確定該微分?jǐn)?shù)據(jù)中數(shù)字符號(hào)發(fā)生變化的像素點(diǎn)分別累計(jì)該微分?jǐn)?shù)據(jù)中正數(shù)和以及負(fù)數(shù)和;將該正數(shù)和以及該負(fù)數(shù)和的絕對(duì)值與一第一基準(zhǔn)值進(jìn)行比較;及根據(jù)該比較結(jié)果標(biāo)記該正向峰值以及該負(fù)相峰值。
上述數(shù)字圖像中提取文本區(qū)域的方法,其特點(diǎn)在于,該第一基準(zhǔn)值為70。
上述數(shù)字圖像中提取文本區(qū)域的方法,其特點(diǎn)在于,根據(jù)該比較結(jié)果標(biāo)記該正向峰值以及該負(fù)相峰值的步驟,還包括若該正數(shù)和大于基準(zhǔn)值,則標(biāo)記正向峰值;及若該負(fù)數(shù)和的絕對(duì)值大于基準(zhǔn)值,則標(biāo)記負(fù)向峰值。
上述數(shù)字圖像中提取文本區(qū)域的方法,其特點(diǎn)在于,根據(jù)該邊緣個(gè)數(shù)確定文本塊的步驟,是若該邊緣個(gè)數(shù)大于一第二基準(zhǔn)值,則將該塊標(biāo)記為文本塊。
上述數(shù)字圖像中提取文本區(qū)域的方法,其特點(diǎn)在于,該第二基準(zhǔn)值為40。
本發(fā)明的功效,在于運(yùn)用關(guān)系像素間的區(qū)別,簡(jiǎn)單有效地提取數(shù)字圖像中的文本區(qū)域,在降低成本的同時(shí)得到了比較好的處理效果,同時(shí)提高了標(biāo)記文本區(qū)域的準(zhǔn)確性。
以下結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述,但不作為對(duì)本發(fā)明的限定。
圖1為本發(fā)明所提數(shù)字圖像中提取文本區(qū)域的方法的總體流程圖;圖2為本發(fā)明實(shí)施例的運(yùn)作流程圖;圖3為本發(fā)明實(shí)施例塊區(qū)域中的像素值示意圖;圖4為本發(fā)明實(shí)施例塊區(qū)域中的像素值經(jīng)過微分后的示意圖;圖5為本發(fā)明實(shí)施例塊區(qū)域中峰值標(biāo)記的示意圖;圖6為本發(fā)明實(shí)施例塊區(qū)域中標(biāo)記峰值過程的示意圖;及圖7A~7I為本發(fā)明實(shí)施例增強(qiáng)文本區(qū)域效果的處理示意圖。
其中,附圖標(biāo)記步驟110-掃描該數(shù)字圖像,獲得該圖像的亮度值步驟120-平滑過濾該數(shù)字圖像步走130-將圖像劃分為多個(gè)塊步驟140-計(jì)算各塊中邊緣的個(gè)數(shù)步驟150-根據(jù)該邊緣個(gè)數(shù)確定文本塊步驟2010-掃描圖像,獲得圖像的亮度值步驟2020-平滑過濾該數(shù)字圖像步驟2030-將圖像劃分為多個(gè)塊步驟2040-微分該塊中的像素值步驟2050-確定該微分?jǐn)?shù)據(jù)中數(shù)字符號(hào)發(fā)生變化的像素點(diǎn),分別累計(jì)該微分?jǐn)?shù)據(jù)中正數(shù)和以及負(fù)數(shù)和步驟2060-正數(shù)和的絕對(duì)值是否大于70?步驟2070-負(fù)數(shù)和的絕對(duì)值是否大于70?步驟2080-標(biāo)記正向峰值步驟2090-標(biāo)記負(fù)相峰值步驟2100-累加峰值個(gè)數(shù)步驟2110-累加橫向以及縱向的峰值總數(shù)步驟2120-峰值總數(shù)是否大于40?步驟2130-將該塊標(biāo)記為文本塊具體實(shí)施方式
本發(fā)明為一種數(shù)字圖像中提取文本區(qū)域的方法,首先由圖1說(shuō)明本發(fā)明的系統(tǒng),該圖為本發(fā)明的數(shù)字圖像中提取文本區(qū)域的方法的總體流程圖,說(shuō)明如下步驟110,首先掃描該數(shù)字圖像,獲得該圖像的亮度值;步驟120,然后平滑過濾該數(shù)字圖像;步驟130,將圖像劃分為多個(gè)塊;步驟140,計(jì)算各塊中水平方向以及豎直方向的邊緣個(gè)數(shù);步驟150,最后根據(jù)該邊緣個(gè)數(shù)確定文本塊。
接著,通過圖2來(lái)進(jìn)一步說(shuō)明本發(fā)明的流程,該圖為本發(fā)明實(shí)施例的運(yùn)作流程圖,說(shuō)明如下步驟2010,首先掃描圖像,獲得圖像的亮度值,如果由掃描儀得到的圖像是單色圖像,那么該提取圖像亮度值得步驟可以跳過,如果由掃描儀獲得的圖像是包含有RGB色彩值的彩色圖像,則需要提取圖像的亮度值,將圖像轉(zhuǎn)換為灰度圖像。如果圖像是RGB格式的,則圖像的亮度值為L(zhǎng)ightness=R*0.30+G*0.59+B*0.11如果原始圖像是其它格式的,可以將其轉(zhuǎn)換為GRB格式,再提取亮度值。從RGB色彩空間到其它如YcbCr或Lab色彩空間的轉(zhuǎn)換算法有很多,用戶可以使用3-D查表或通過公式計(jì)算。
步驟2020,然后對(duì)圖像進(jìn)行預(yù)處理,對(duì)于圖像中的每一個(gè)像素,使用平滑過濾對(duì)圖像進(jìn)行預(yù)處理,來(lái)消除對(duì)原始圖像半色調(diào)(Halftone)處理而導(dǎo)致的調(diào)節(jié)誤差。這種平滑處理并不會(huì)影響原始圖像。在本實(shí)施例中,用高斯過濾器用作平滑過濾器。
步驟2030,再將圖像劃分為多個(gè)塊,每一塊具有N*N個(gè)像素,N可以為10、16、32或64。本實(shí)施例中N=10。請(qǐng)參考圖3,經(jīng)過劃分某一塊(10*10)的數(shù)據(jù)如圖所示。
對(duì)于每一塊,計(jì)算具有在水平與垂直方向上劃分大的對(duì)比區(qū)域的邊緣的個(gè)數(shù),根據(jù)預(yù)先定義的第一基準(zhǔn)值來(lái)判斷當(dāng)前塊是否為文本區(qū)域。邊緣為一邊的像素與另一邊的像素與其有明顯的灰度差別的像素集。如果當(dāng)前塊的邊緣個(gè)數(shù)較多的塊,則該塊為文本區(qū)域。
步驟2040,具體做法為微分當(dāng)前塊中的像素值,微分后得到的數(shù)據(jù)如圖4所示。
步驟2050,確定該微分?jǐn)?shù)據(jù)中數(shù)字符號(hào)發(fā)生變化的像素點(diǎn),分別累計(jì)該微分?jǐn)?shù)據(jù)中正數(shù)和以及負(fù)數(shù)和;步驟2060、2070,再判斷正數(shù)和以及負(fù)數(shù)和的絕對(duì)值是否大于一第一基準(zhǔn)值,本實(shí)施例中第一基準(zhǔn)值優(yōu)選為70,當(dāng)符號(hào)由正數(shù)到負(fù)數(shù)改變時(shí),如果在符號(hào)改變之前,持續(xù)正向之和大于或等于70,步驟2080,則將其標(biāo)記為正向峰值;當(dāng)符號(hào)由負(fù)數(shù)到正數(shù)改變,如果在符號(hào)改變之前,持續(xù)負(fù)向之和小于或等于-70,步驟2090,則將其標(biāo)記為負(fù)向峰值。也就是將正數(shù)和與負(fù)數(shù)和的絕對(duì)值與70進(jìn)行比較,根據(jù)比較結(jié)果進(jìn)行標(biāo)記,標(biāo)記后的塊數(shù)據(jù)如圖5所示。
具體計(jì)算示意圖請(qǐng)參見圖6。例如,對(duì)于第一個(gè)微分序列[-5-40-46-10 2754 17 11 9 1],其中第5個(gè)元素為(27),之后的元素都為正數(shù),負(fù)數(shù)的和為sum=-5-40-46-10=-101<=-70,因此這里峰值個(gè)數(shù)count=count+1;相應(yīng)的,最后一個(gè)元素1,雖然正負(fù)號(hào)沒有改變,正數(shù)的和sum=27+54+17+11+9=118>=70,因此峰值個(gè)數(shù)count=count+1,如果符號(hào)在此處發(fā)生改變,則和大于或等于70,因此將其累加。
步驟2100,然后計(jì)算正向峰值與負(fù)向峰值數(shù)量的和。垂直方向微分步驟與上述類似,步驟2110,累計(jì)水平方向與垂直方向的峰值總和。再根據(jù)該總和進(jìn)行判斷,步驟2120,判斷峰值個(gè)數(shù)是否大于一第二基準(zhǔn)值,本實(shí)施例中第二基準(zhǔn)值為40。如果垂直峰值數(shù)+水平峰值數(shù)的總和大于等于40,步驟2130,則將當(dāng)前塊標(biāo)記為文本區(qū)域。
采用上述方法對(duì)所有塊進(jìn)行處理,從而將整幅圖像的所有文本區(qū)域都標(biāo)記出來(lái)。然后可以有針對(duì)性地對(duì)文本區(qū)域進(jìn)行處理。例如對(duì)文字點(diǎn)的平滑、填充、消除鋸齒等,從而使文字及其邊緣更加清晰,增強(qiáng)了數(shù)字圖像的效果。具體做法請(qǐng)參見圖7A~7I,根據(jù)圖中的方法增強(qiáng)文本區(qū)域的效果。
當(dāng)然,本發(fā)明還可有其他多種實(shí)施例,在不背離本發(fā)明精神及其實(shí)質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明權(quán)利要求的保護(hù)范圍。
權(quán)利要求
1.一種數(shù)字圖像中提取文本區(qū)域的方法,其特征在于,該方法包括如下步驟掃描該數(shù)字圖像,獲得該圖像的亮度值;平滑過濾該數(shù)字圖像;將圖像劃分為多個(gè)塊;計(jì)算各塊中水平方向以及豎直方向的邊緣個(gè)數(shù);及根據(jù)該邊緣個(gè)數(shù)確定文本塊。
2.根據(jù)權(quán)利要求1所述的數(shù)字圖像中提取文本區(qū)域的方法,其特征在于,若該數(shù)字圖像為彩色圖像,則還包括將圖像轉(zhuǎn)換為灰度圖像的步驟。
3.根據(jù)權(quán)利要求1所述的數(shù)字圖像中提取文本區(qū)域的方法,其特征在于,該平滑過濾該數(shù)字圖像的步驟,是用高斯過濾器對(duì)圖像進(jìn)行平滑過濾。
4.根據(jù)權(quán)利要求1所述的數(shù)字圖像中提取文本區(qū)域的方法,其特征在于,將圖像劃分為多個(gè)塊的步驟,是按照每塊包括N*N個(gè)像素進(jìn)行劃分。
5.根據(jù)權(quán)利要求4所述的數(shù)字圖像中提取文本區(qū)域的方法,其特征在于,N的個(gè)數(shù)包括10、16、32或64。
6.根據(jù)權(quán)利要求1所述的數(shù)字圖像中提取文本區(qū)域的方法,其特征在于,該邊緣為一邊的像素與另一邊的像素與其有明顯的灰度差別的像素集。
7.根據(jù)權(quán)利要求1所述的數(shù)字圖像中提取文本區(qū)域的方法,其特征在于,該計(jì)算各塊中邊緣的個(gè)數(shù)的步驟,還包括如下步驟微分該塊中的像素值;根據(jù)該微分?jǐn)?shù)據(jù),標(biāo)記該塊的正向峰值以及負(fù)向峰值;累加該峰值個(gè)數(shù),根據(jù)該峰值個(gè)數(shù)確定邊緣個(gè)數(shù)。
8.根據(jù)權(quán)利要求7所述的數(shù)字圖像中提取文本區(qū)域的方法,其特征在于,該塊的正向峰值以及負(fù)向峰值的步驟,還包括如下步驟確定該微分?jǐn)?shù)據(jù)中數(shù)字符號(hào)發(fā)生變化的像素點(diǎn)分別累計(jì)該微分?jǐn)?shù)據(jù)中正數(shù)和以及負(fù)數(shù)和;將該正數(shù)和以及該負(fù)數(shù)和的絕對(duì)值與一第一基準(zhǔn)值進(jìn)行比較;及根據(jù)該比較結(jié)果標(biāo)記該正向峰值以及該負(fù)相峰值。
9.根據(jù)權(quán)利要求8所述的數(shù)字圖像中提取文本區(qū)域的方法,其特征在于,該第一基準(zhǔn)值為70。
10.根據(jù)權(quán)利要求8所述的數(shù)字圖像中提取文本區(qū)域的方法,其特征在于,根據(jù)該比較結(jié)果標(biāo)記該正向峰值以及該負(fù)相峰值的步驟,還包括若該正數(shù)和大于基準(zhǔn)值,則標(biāo)記正向峰值;及若該負(fù)數(shù)和的絕對(duì)值大于基準(zhǔn)值,則標(biāo)記負(fù)向峰值。
11.根據(jù)權(quán)利要求1所述的數(shù)字圖像中提取文本區(qū)域的方法,其特征在于,根據(jù)該邊緣個(gè)數(shù)確定文本塊的步驟,是若該邊緣個(gè)數(shù)大于一第二基準(zhǔn)值,則將該塊標(biāo)記為文本塊。
12.根據(jù)權(quán)利要求8所述的數(shù)字圖像中提取文本區(qū)域的方法,其特征在于,該第二基準(zhǔn)值為40。
全文摘要
本發(fā)明涉及一種數(shù)字圖像中提取文本區(qū)域的方法,該方法包括如下步驟掃描該數(shù)字圖像,獲得該圖像的亮度值;平滑過濾該數(shù)字圖像;將圖像劃分為多個(gè)塊;計(jì)算各塊中水平方向以及豎直方向的邊緣個(gè)數(shù);及根據(jù)該邊緣個(gè)數(shù)確定文本塊。本發(fā)明運(yùn)用關(guān)系像素間的區(qū)別,簡(jiǎn)單有效地提取數(shù)字圖像中的文本區(qū)域,在降低成本的同時(shí)得到了比較好的處理效果,同時(shí)提高了標(biāo)記文本區(qū)域的準(zhǔn)確性。
文檔編號(hào)G06K9/60GK1755708SQ20041008040
公開日2006年4月5日 申請(qǐng)日期2004年9月29日 優(yōu)先權(quán)日2004年9月29日
發(fā)明者周興平 申請(qǐng)人:德鑫科技股份有限公司