一種基于迭代的圖像文本區(qū)域檢測方法
【專利摘要】本發(fā)明實施例公開了一種基于迭代的圖像文本區(qū)域檢測方法,該方法包括:S1:對圖像I進行預(yù)處理;S2:提取圖像的邊緣的信息,得到邊緣圖像S3:對所有得到邊緣圖像的邊緣像素進行垂直投影,生成水平方向像素直方圖Hh;S4:根據(jù)水平方向像素直方圖對圖像進行分割,得到若干區(qū)域Rh;S5:對于區(qū)域Rh中的每個區(qū)域進行水平投影,生成垂直方向像素直方圖并根據(jù)直方圖對每個區(qū)域進行分割;S6:對于區(qū)域重新執(zhí)行S2~S4,直到區(qū)域不能再分割為止,得到文本區(qū)域的像素信息與位置信息。在本發(fā)明實施例中,通過利用迭代法不斷剔除非文本區(qū)域,能夠準確地檢測背景復(fù)雜的圖像中文本區(qū)域,提高了文本區(qū)域檢索的精確度;該方法計算量較小,檢測所需的時間較小。
【專利說明】一種基于迭代的圖像文本區(qū)域檢測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)字圖像處理【技術(shù)領(lǐng)域】,尤其涉一種基于迭代的圖像文本區(qū)域檢測方 法。
【背景技術(shù)】
[0002] 目前,隨著多媒體技術(shù)和計算機網(wǎng)絡(luò)的飛速發(fā)展,越來越多的信息以數(shù)字圖像的 形式傳播和存儲,并且圖像中的文本包含豐富、明確的信息,如果這些文本能被自動地提取 出來,則對圖像高層語義的自動理解、索引和檢索是非常有價值的,而且文字信息提取的 前提是精確定位圖像的文本區(qū)域,因此文本區(qū)域提取成為計算機領(lǐng)域研究的熱點,在信息 檢索、網(wǎng)絡(luò)過濾、數(shù)字圖書館、智能交通等領(lǐng)域有著廣泛的應(yīng)用。
[0003] 縱觀文本區(qū)域檢測技術(shù)的研究歷史,許多國內(nèi)外學(xué)者提出了各種基于不同理論的 文本區(qū)域檢測方法,包括汽車牌照、路標的文本區(qū)域檢測、自然場景中文本區(qū)域檢測、視頻 中文本區(qū)域檢測等。根據(jù)實現(xiàn)方法的不同,文本區(qū)域檢測算法可以分為:
[0004] (1)基于連通區(qū)域的方法:利用同一行字符的顏色相似這一特性來進行定位的。 這類方法通常是用顏色聚類或圖像分割的技術(shù)把圖像中的連通區(qū)域分割出來,再對連通 區(qū)域進行大小、寬高比等啟發(fā)性知識的限制以及投影分析等來獲得文本區(qū)域。該方法實現(xiàn) 簡單,適用于高對比的圖像,但是當文本是多彩的,或圖像分辨率低噪聲高時,該方法效果 較差。
[0005] (2)基于文字邊緣的方法:利用了圖像中的文本與背景之間有較高對比度這一特 性來進行定位的。此類方法通常是先檢測出圖像的邊緣;然后用平滑濾波或形態(tài)學(xué)膨脹等 方法將邊緣連接成塊;再利用文本的啟發(fā)性知識剔除非文本塊。該方法速度較快,但是要 求文字的筆畫邊緣突出,背景的邊緣較少,且不能與文字邊緣有太多連接交叉。如果背景邊 緣比較復(fù)雜,容易出現(xiàn)文字區(qū)域漏檢或者誤檢。
[0006] (3)基于紋理的方法:利用圖像中的文本有明顯的紋理特征來區(qū)分背景。具有較 高的魯棒性,能夠檢測到字符與背景對比度較小、背景復(fù)雜的文本,但檢測區(qū)域不夠準確, 并且紋理分析的計算量大、復(fù)雜度高,因此該方法比較耗時。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于迭代的圖像文本 區(qū)域檢測方法,能夠準確地檢測背景復(fù)雜的圖像中文本區(qū)域,所耗時間較小,圖像中的文本 字體、顏色及大小具有較好的魯棒性。
[0008] 為了解決上述問題,本發(fā)明提出了一種基于迭代的圖像文本區(qū)域檢測方法,所述 方法包括以下步驟:
[0009] S1 :對圖像I進行預(yù)處理;
[0010] S2 :提取圖像的邊緣的信息,得到邊緣圖像/ ;
[0011] S3:對所有得到邊緣圖像/的邊緣像素進行垂直投影,生成水平方向像素直方圖 Hh ;
[0012] S4 :根據(jù)水平方向像素直方圖對圖像進行分割,得到若干區(qū)域Rh ;
[0013] S5 :對于區(qū)域Rh中的每個區(qū)域和進行水平投影,生成垂直方向像素直方圖///,并 根據(jù)直方圖對每個區(qū)域g進行分割;
[0014] S6 :對于區(qū)域汧,重新執(zhí)行S2?S4,直到區(qū)域不能再分割為止,得到文本區(qū)域的像 素信息與位置信息。
[0015] 優(yōu)選地,S1包括:
[0016] 對圖像I進行二值化處理,并利用利用3x3的中值濾波器進行噪聲處理,得到圖像 BI ;
[0017] 對圖像BI進行去除布局元素。
[0018] 優(yōu)選地,所述對圖像BI進行去除布局元素的步驟包括:
[0019] 對圖像BI進行8連通區(qū)域檢測,得到連通區(qū)域集CR,對于每一個連通區(qū)域CRp標 識為flag。則
[0020]
【權(quán)利要求】
1. 一種基于迭代的圖像文本區(qū)域檢測方法,其特征在于,所述方法包括以下步驟: 51 :對圖像I進行預(yù)處理; 52 :提取圖像的邊緣的信息,得到邊緣圖像J ; 53 :對所有得到邊緣圖像/的邊緣像素進行垂直投影,生成水平方向像素直方圖Hh ; 54 :根據(jù)水平方向像素直方圖對圖像進行分割,得到若干區(qū)域Rh ; 55 :對于區(qū)域Rh中的每個區(qū)域i?/進行水平投影,生成垂直方向像素直方圖,并根據(jù) 直方圖對每個區(qū)域和進行分割; 56 :對于區(qū)域W,重新執(zhí)行S2?S4,直到區(qū)域不能再分割為止,得到文本區(qū)域的像素信 息與位置信息。
2. 如權(quán)利要求1所述的基于迭代的圖像文本區(qū)域檢測方法,其特征在于,S1包括: 對圖像I進行二值化處理,并利用利用3x3的中值濾波器進行噪聲處理,得到圖像BI ; 對圖像BI進行去除布局元素。
3. 如權(quán)利要求2所述的基于迭代的圖像文本區(qū)域檢測方法,其特征在于,所述對圖像 BI進行去除布局元素的步驟包括: 對圖像BI進行8連通區(qū)域檢測,得到連通區(qū)域集CR,對于每一個連通區(qū)域CRp標識為 flag"則
其中,Wp w2, h,h2為閾值,flagi表示連接區(qū)域CRi是否為布局元素,如果flagi = 1,則 該連通區(qū)域不是布局元素,否則,該連通區(qū)域是布局元素。
4. 如權(quán)利要求1所述的基于迭代的圖像文本區(qū)域檢測方法,其特征在于,S2包括:利用 Candy邊緣檢測算法進行提取圖像的邊緣,并記邊緣圖像為/。
5. 如權(quán)利要求1所述的基于迭代的圖像文本區(qū)域檢測方法,其特征在于,S3包括: 對于分辨率為wXh的圖像/,記Hh(i) (i = 1,2, ···,¥)為水平方向像素直方圖的第i
則邊緣圖像的水平方向像素直方圖Hh = [Hh(l),Hh(2),…,Hh(w)]為一個w維的向量。
6. 如權(quán)利要求1所述的基于迭代的圖像文本區(qū)域檢測方法,其特征在于,S4包括: 對于給定的閾值Th,用一個w維的0-1序列= [Ph(l), @h(2),…,@h(w)]記錄直 方圖對應(yīng)的區(qū)域是否存在文本,則爲(0 =
依據(jù)序列1^中元素為1的連續(xù)情況,得到分割后的若干區(qū)域Rh。
7. 如權(quán)利要求1所述的基于迭代的圖像文本區(qū)域檢測方法,其特征在于,S5包括: 對于給定的閾值!;,用一個h維的0-1序列β ν= [βν(1),βν(2),…,βν(?)]來記 錄直方圖對應(yīng)的區(qū)域是否存在文本,貝1
根據(jù)序列βν*元素為1的連續(xù)情況,對每個區(qū)域和進一步分割得到若干區(qū)域沢。
【文檔編號】G06K9/20GK104298985SQ201410392050
【公開日】2015年1月21日 申請日期:2014年8月11日 優(yōu)先權(quán)日:2014年8月11日
【發(fā)明者】羅笑南, 林格, 馮玉財, 薛凱軍, 肖劍 申請人:東莞中山大學(xué)研究院, 中山大學(xué)