專利名稱:基于字符切分和顏色聚類的數(shù)字視頻中的字符提取方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種數(shù)字圖像處理方法,確切地說,涉及一種基于字符切分和 顏色聚類的數(shù)字視頻中的字符提取方法,屬于圖像處理技術(shù)領(lǐng)域。
背景技術(shù):
數(shù)字視頻中的字符信息是理解視頻內(nèi)容高層語義的重要線索,有效地提取 這些字符對(duì)內(nèi)容理解以及基于內(nèi)容的多媒體信息檢索系統(tǒng)來說是一項(xiàng)重要的技
術(shù)。目前,光學(xué)字符識(shí)別(OCR)技術(shù)對(duì)于二值圖像中的字符識(shí)別已經(jīng)趨于成 熟,并進(jìn)入了商業(yè)應(yīng)用?,F(xiàn)在,許多不同來源的字符都是通過OCR系統(tǒng)識(shí)別的。 因此,如何使得輸入的字符圖像能夠符合OCR的識(shí)別要求,已經(jīng)成為一項(xiàng)公認(rèn) 的必須達(dá)到的目標(biāo)。當(dāng)前,OCR系統(tǒng)面向的大都是由掃描儀掃描出來的文件圖 像,要求圖像中的字符清晰、背景單一、分辨率高,并且,多數(shù)OCR都要求以 二值化圖像作為輸入。
但是,因?yàn)橐曨l中的字符的噪聲干擾通常比較嚴(yán)重,且背景復(fù)雜,字符模 糊,字符與背景的對(duì)比度不能得到保證,故分辨率比較低。因此,如何對(duì)視頻 中的字符實(shí)現(xiàn)有效提取就具有很大的挑戰(zhàn)性,這也限制了 OCR技術(shù)在視頻檢索 中的成功應(yīng)用。作為視頻檢索中關(guān)鍵步驟的字符提取,其目標(biāo)就是把含有字符 區(qū)域的復(fù)雜圖像,轉(zhuǎn)化成能夠?yàn)镺CR所識(shí)別的清晰的二值化圖像。
目前,國(guó)內(nèi)外的研究人員在字符提取技術(shù)方面研制了很多方法。現(xiàn)有的提 取方法可分為基于顏色閾值的方法、基于連通區(qū)域分析的方法、基于顏色模 型的方法和聚類法等等。其中
基于顏色閾值的方法是假定圖像中文字的亮度總是比背景高或者比背景 低,再通過估計(jì)背景顏色和前景顏色的閾值來實(shí)現(xiàn)分割的目的。文字的閾值又 分為兩種全局閾值和局部閾值,全局闊值是整個(gè)圖像都使用的一個(gè)闊值;局部閾值是根據(jù)圖像的具體區(qū)域來確定的閾值,與全局閾值相比,后者優(yōu)點(diǎn)是能 處理亮度和對(duì)比度發(fā)生變化的圖像?;陬伾撝档姆椒ㄗ钤鐏碓从谖臋n圖像 分析,在處理背景簡(jiǎn)單的文檔圖像時(shí),該方法簡(jiǎn)單、實(shí)用而有效,但是當(dāng)背景 復(fù)雜起來時(shí),由于圖像中的文字顏色和背景顏色之間不存在簡(jiǎn)單的閾值,因而 這種簡(jiǎn)單的方法就無能為力了。
基于連通分量分析的方法是利用文字筆畫具有連通性的特征,這種方法是 先將輸入的圖片分割成一 系列的連通分量,然后通過自底向上的方法分析和確 定每個(gè)分量屬于前景還是背景,最后將所有前景分量組合成分割結(jié)果。由于該 方法對(duì)文字的筆畫是作為整體進(jìn)行處理的,因此,分割結(jié)果的筆畫的連貫性比
較好,易于被OCR軟件所識(shí)別;但是,該算法復(fù)雜度高,系統(tǒng)效率低。
基于顏色模型的方法是先通過機(jī)器學(xué)習(xí)的方法為文字像素建立一個(gè)顏色模 型,然后利用該模型計(jì)算圖片中每一個(gè)像素屬于文字像素的概率,超過某個(gè)概 率閾值的像素被標(biāo)記為文字像素。由于基于顏色模型的方法考慮了文字顏色的 多峰值分布,因而能夠處理比較復(fù)雜的背景,但是對(duì)不同的圖像,其文字的顏 色模型往往差別很大,為多種不同的圖像分別建立不同的模型很不容易,有時(shí) 候甚至是不可能的。
聚類法是假定文字塊中所有像素都能根據(jù)顏色分為K類,文字像素對(duì)應(yīng)于 其中一類,運(yùn)用經(jīng)典的聚類算法K-means對(duì)所有像素進(jìn)行聚類。類似的聚類方 法還有基于顏色相似性度量的顏色削減算法等,所不同的是K-means算法需要 給定類的個(gè)數(shù)K,后者是根據(jù)顏色相似性度量自動(dòng)生成類的個(gè)數(shù)。這類方法可 以用于復(fù)雜背景的情形,但是當(dāng)背景中含有與文字顏色相同或相近的成分時(shí), 這些成分會(huì)被誤分入文字類,從而產(chǎn)生大量的殘余背景,影響OCR識(shí)別。
總之,相應(yīng)的幾種字符提取技術(shù)在許多方面都有不盡人意之處,因此,如 何研制一種較好的用于視頻圖像中的字符提取方法,就成為業(yè)內(nèi)科技人員關(guān)注 的新課題。發(fā)明內(nèi)容有鑒于此,本發(fā)明的目的是提供一種基于字符切分和顏色聚類的數(shù)字視頻 中的字符提取方法,該方法能夠較好地解決現(xiàn)有技術(shù)存在的缺陷,使得原來復(fù)雜而不能被OCR識(shí)別的圖像中的字符,變成清晰的、二值化的、可供OCR識(shí)別的字符圖像。為了達(dá)到上述目的,本發(fā)明提供了一種基于字符切分和顏色聚類的數(shù)字視 頻中的字符提取方法,其特征在于,包括下列操作步驟(1) 字符切分采用基于垂直投影特征的分析切分方法,即利用字符區(qū)域 與字符間隔區(qū)域的特征差異,進(jìn)行垂直投影來切分字符區(qū)域圖像,將每一行包 含多個(gè)字符的區(qū)域圖像,切分成只包含單個(gè)字符的若干個(gè)子區(qū)域圖像,以P爭(zhēng)4氐 后續(xù)步驟的處理復(fù)雜度,提高準(zhǔn)確率,保證OCR的較高的識(shí)別率;(2) 字符提取先用圖像中的字符顏色特征進(jìn)行顏色聚類,找到包含最多 字符信息的圖層作為目標(biāo)圖像,從而快速刪除大部分背景區(qū)域信息;再用字符 的連通特征分析目標(biāo)圖像的連通區(qū)域,繼續(xù)去除剩余的非字符區(qū)域后,分別得 到三種類型的字符圖像單個(gè)字符提取圖像、字符區(qū)域的整體提取圖像和由單個(gè)字符提取圖像拼接成的整體拼接圖像, 一起輸入給OCR系統(tǒng)進(jìn)行識(shí)別;其中 后兩種圖像是用OCR的語義處理功能,根據(jù)上下文更準(zhǔn)確地確定形近字而提高識(shí)別效果。所述特征差異是指字符區(qū)域的特點(diǎn)是它的空間頻率變化強(qiáng)烈,而字符間 隔區(qū)域的空間頻率變化相對(duì)較小;對(duì)應(yīng)到梯度上,則是字符區(qū)域的梯度較大, 而字符間隔的梯度較小。所述基于垂直投影特征的分析切分方法的特點(diǎn)是簡(jiǎn)單、速度快、有利于工 程實(shí)現(xiàn),故采用對(duì)于字符切分操作最有用的縱向梯度信息進(jìn)行切分,且對(duì)字符 區(qū)域圖像采用的梯度計(jì)算模板是Sobel算子中計(jì)算垂直方向的微分的計(jì)算模板<formula>formula see original document page 8</formula>所述基于垂直投影特征的分析切分方法的依據(jù)是視頻中字符通常呈水平排 列,故對(duì)于根據(jù)上述計(jì)算模板對(duì)字符區(qū)域圖像中的像素進(jìn)行計(jì)算得到的梯度值
的絕對(duì)值,進(jìn)行垂直方向上的投影,以便考察感興趣的區(qū)域并進(jìn)行字符切分; 因字符區(qū)域?qū)?yīng)的梯度值大于字符間隔區(qū)域的梯度值,故在字符切分中,用縱 向梯度投影作為切分的依據(jù),再通過各種啟發(fā)式規(guī)則來最終確定切分線。
所述構(gòu)造各種啟發(fā)式規(guī)則來進(jìn)行字符區(qū)域切分,或?qū)⒄`切分的字符區(qū)域合 并,都是為了解決誤切分問題;
誤切分包括字符內(nèi)的誤切分和字符間的誤切分,前者是由于字符為左右結(jié) 構(gòu)或偏旁呈對(duì)稱或類對(duì)稱結(jié)構(gòu)的原因,在字符的30%、 50%或70%寬度處可能 造成字符內(nèi)的誤切分,此時(shí),綜合運(yùn)用梯度值、區(qū)域?qū)挾群妥址麑挾鹊男畔ⅲ?去除錯(cuò)誤的切分線,將誤切分區(qū)域合并來解決之;后者是誤將兩個(gè)字符相互靠 近的部分切分成一個(gè)字符,此時(shí),通過分析相鄰區(qū)域的寬度是否滿足設(shè)定條件, 去除錯(cuò)誤的切分線,將誤切分的區(qū)域進(jìn)行合并來解決之。
所述步驟(1)進(jìn)一步包括下列操作內(nèi)容
(11) 將字符區(qū)域的彩色圖像轉(zhuǎn)換為灰度圖像,以使后續(xù)操作能夠適用于 各種色彩空間,并將三通道減少為單通道,大大減少計(jì)算量;
(12) 按照所述的Sobel算子中計(jì)算垂直方向的微分的計(jì)算模板,分別計(jì) 算所述單通道灰度圖像中的每個(gè)像素的梯度值,并對(duì)該梯度值取絕對(duì)值后,進(jìn) 行縱向相加,得到該灰度圖像的縱向梯度值之和的數(shù)組,作為反映圖像特性的 梯度值數(shù)組,用作切分的依據(jù);
(13) 用近鄰平均方法平滑該梯度值數(shù)組,以減弱其中微小波動(dòng)的干擾, 突出波動(dòng)趨勢(shì)所述近鄰平均方法是選取某個(gè)位置左右兩邊的梯度值與該位置 的梯度值的平均值,用作該位置的新的梯度值;
(14) 為兼顧波峰和波谷的位置信息和梯度信息,根據(jù)梯度值數(shù)組和下述 公式,計(jì)算用于全面表征垂直投影特征的峰谷差比V(i): V(i) = (C(i-l)+C(i+l)-2 xT(i))/T(i),式中,C(i)為波峰的梯度值,T(i)為波谷的梯度值,自然數(shù)i是波 峰或波谷的序號(hào);該計(jì)算公式的物理涵義是峰谷差比是相鄰兩個(gè)波峰與所的波谷的梯度垂直投影的差值,與波谷的梯度垂直投影值的比值;
(15 )根據(jù)峰谷差比先初選刪除大部分備選切分線后,初步估算字符寬度 因圖像的切分線通常位于梯度值較小的波谷,且該波谷左右兩邊通常有梯度值 較大的波峰,造成峰谷差比較大,故先排除峰谷差比小于平均峰谷差比的大部 分備選切分線;在進(jìn)行平均值的判斷后,對(duì)剩余的備選切分線數(shù)目仍大于估算 的切分線數(shù)目的1.5倍,即1.5x字符寬度/字符高度時(shí),則保留峰谷差比最大的 前1.5x字符寬度/字符高度個(gè)切分線后;初步估算字符寬度,用于從備選的切 分線中得到較可靠的字符寬度,使后續(xù)處理的字符寬度比較精確;
(16) 處理因字符為左右結(jié)構(gòu)或偏旁呈對(duì)稱或類對(duì)稱、或噪音干擾而造成 字符內(nèi)的誤切分情況,綜合運(yùn)用梯度值、區(qū)域?qū)挾群妥址麑挾鹊男畔?,將誤切 分區(qū)域合并,解決字符內(nèi)的誤切分問題
(17) 分析相鄰區(qū)域的寬度是否滿足設(shè)定條件,對(duì)兩個(gè)字符相互靠近部分 切分成一個(gè)字符的字符間的誤切分區(qū)域進(jìn)行合并處理,完成字符的初次切分;
(18) 檢查字符的初次切分結(jié)果,根據(jù)切分寬度是否大于設(shè)定的字符寬度, 判斷是否要按照前述初次切分方法進(jìn)行二次切分,如果該切分寬度大于設(shè)定的 字符寬度,則對(duì)該區(qū)域進(jìn)行二次切分;且二次切分方法與初次切分相同,也包 含處理字符內(nèi)和字符間的誤切分;否則,直接執(zhí)行后續(xù)步驟的操作;
(19) 檢查區(qū)域?qū)挾?,將寬度較小的區(qū)域進(jìn)行合并,生成最終的切分線; 再按照該切分線切分原字符區(qū)域彩色圖像,將每一行文字區(qū)域圖像切分成只包 含單個(gè)字符的多個(gè)子區(qū)域圖像后,將該切分結(jié)果輸入后續(xù)的字符提取步驟。
所述步驟(2)進(jìn)一步包括下列操作內(nèi)容
(21) 擴(kuò)展圖像根據(jù)圖像的字符高度,將圖像向四周擴(kuò)展,用于包含相 應(yīng)的背景區(qū)域,以便在后續(xù)步驟(26)時(shí),利用連通區(qū)域特征消除掉字符區(qū)域 圖像中的背景區(qū)域;
(22) 圖像插值放大因待處理的字符區(qū)域圖像內(nèi)的字符要比OCR要求的 識(shí)別尺寸小,為使OCR達(dá)到最佳識(shí)別效果,先用雙線性插值對(duì)圖像進(jìn)行插值放 大,使得該插值放大后的圖像經(jīng)過后續(xù)步驟處理后,能夠被正確識(shí)別;(23) 圖像增強(qiáng)對(duì)插值放大后出現(xiàn)模糊的圖像字符進(jìn)行增強(qiáng)操作,用于 改善圖像的清晰度和對(duì)比度;
(24) 用顏色聚類的K-Means算法進(jìn)行顏色聚類處理利用顏色信息對(duì)增 強(qiáng)后的圖像進(jìn)行顏色聚類,將字符和背景初步區(qū)分開來;所述K-Means算法中 的聚類是在R、 G、 B三維空間內(nèi),分別依據(jù)每個(gè)像素與四個(gè)聚類中心點(diǎn)的歐氏 距離的平方,進(jìn)行三維聚類實(shí)現(xiàn)的;
(25) 判別聚類結(jié)果和分析連通區(qū)域?qū)η笆霾襟E用K-Means算法將圖像 按顏色聚類形成的4個(gè)備選圖像,分別計(jì)算每個(gè)圖像中像素距離中心區(qū)域的平 均距離,其中平均距離最小的圖像作為目標(biāo)圖像;為保證判別結(jié)果的正確,再 對(duì)該目標(biāo)圖像的連通區(qū)域數(shù)目進(jìn)行;險(xiǎn)查和分析,如果連通區(qū)域數(shù)目過大,則對(duì) 備選圖像重新判別,根據(jù)連通區(qū)域數(shù)目和距離中心區(qū)域的平均距離的兩個(gè)因素
進(jìn)行綜合處理以連通區(qū)域數(shù)目的平方根與平均距離的乘積作為判斷依據(jù),選 取其中最小值所對(duì)應(yīng)的圖像作為目標(biāo)圖像;
(26) 由外向內(nèi)填充將字符區(qū)域圖像中大量由外部的背景區(qū)域延伸進(jìn)來 的背景信息填充為白色,以消除大部分的背景信息;
(27) 對(duì)字符圖像進(jìn)行去噪處理對(duì)步驟(26)處理后遺留的一些較小噪 音區(qū)域,采用連通區(qū)域分析方法分別計(jì)算字符圖像中各個(gè)連通區(qū)域包含的像 素?cái)?shù)目與總的像素?cái)?shù)目的比值,將比值較小的連通區(qū)域視為噪音區(qū)域而予以清 除,改善目標(biāo)圖像的質(zhì)量。
所述步驟(23)中,要把原圖像由RGB色彩空間轉(zhuǎn)換為HSV色彩空間后, 只對(duì)其中的v分量圖像進(jìn)行下述三個(gè)操作步驟后,再轉(zhuǎn)換回RGB色彩空間, 以降低處理的復(fù)雜度,提高效率;
(231)用拉普拉斯算子進(jìn)行圖像銳化操作,增強(qiáng)圖像的細(xì)節(jié),使圖像整體
銳化;
(232 )對(duì)于拉普拉斯算子銳化后出現(xiàn)的圖像噪聲,使用中值濾波方法進(jìn)行 降噪操作,在有效降低噪聲的同時(shí),能夠較好的保留圖像的細(xì)節(jié); (233 )進(jìn)行直方圖均衡化操作,增強(qiáng)圖像的對(duì)比度。本發(fā)明是一種基于字符切分和顏色聚類的數(shù)字視頻中的字符提取方法,該 方法較好地解決了現(xiàn)有技術(shù)存在的缺陷,尤其是在視頻背景比較復(fù)雜、字符顏 色不確定的情況下,對(duì)于視頻圖像中的字符提取非常有效。同時(shí),這種方法可
以使得原來復(fù)雜而不能直接被OCR識(shí)別的視頻圖像中的字符,被處理成清晰 的、二值化的、可供OCR識(shí)別的字符圖像。而且,該方法搡作步驟比較簡(jiǎn)單、 容易實(shí)現(xiàn),且計(jì)算復(fù)雜度較低,能夠適應(yīng)實(shí)時(shí)處理和檢索的需求,對(duì)于進(jìn)行視 頻檢索和視頻信息過濾都有非常大的幫助,具有很好的推廣應(yīng)用前景。
圖1是本發(fā)明基于字符切分和顏色聚類的數(shù)字視頻中的字符提取方法操作
步驟流程圖。
圖2是本發(fā)明字符提取方法中的步驟1的字符切分操作具體流程圖。 圖3是本發(fā)明字符提取方法中的步驟2的字符提取操作具體流程圖。 圖4(A)、 (B)、 (C)分別是本發(fā)明方法的實(shí)施例中的原始圖像、字符切 分結(jié)果和字符提取結(jié)果相應(yīng)操作后示例圖。
具體實(shí)施例方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖對(duì)本發(fā)明作 進(jìn)一步的詳細(xì)描述。
參見圖1,介紹本發(fā)明基于字符切分和顏色聚類的數(shù)字視頻中的字符提取 方法的兩個(gè)具體操作步驟
步驟1、字符切分采用基于垂直投影特征的分析切分方法,即利用字符 區(qū)域與字符間隔區(qū)域的特征差異,進(jìn)行垂直投影來切分字符區(qū)域圖像,將每一 行包含多個(gè)字符的區(qū)域圖像,切分成只包含單個(gè)字符的多個(gè)子區(qū)域圖像,以降 低后續(xù)步驟的處理復(fù)雜度,提高準(zhǔn)確率,保證OCR的較高的識(shí)別率;
步驟2、字符提取先用圖像中的字符顏色特征進(jìn)行顏色聚類,找到包含 最多字符信息的圖層作為目標(biāo)圖像,從而快速刪除大部分背景區(qū)域信息;再用字符的連通特征分析目標(biāo)圖像的連通區(qū)域,繼續(xù)去除剩余的非字符區(qū)域后,分
別得到三種類型的字符圖像單個(gè)字符提取圖像、字符區(qū)域的整體提取圖像和 由單個(gè)字符提取圖像拼接成的整體拼接圖像, 一起輸入給OCR系統(tǒng)進(jìn)行識(shí)別; 其中后兩種圖像是利用OCR的語義處理功能,能夠根據(jù)上下文更準(zhǔn)確地確定形 近字而提高識(shí)別效果。
先對(duì)步驟1的相關(guān)技術(shù)內(nèi)容進(jìn)行詳細(xì)說明
本發(fā)明中的特征差異是指字符區(qū)域的特點(diǎn)是具有強(qiáng)烈的空間頻率變化, 而字符間隔區(qū)域則相對(duì)變化較小。對(duì)應(yīng)到梯度上,就是字符區(qū)域梯度較大,而 字符間隔梯度較小。
基于垂直投影特征的分析切分方法的特點(diǎn)是簡(jiǎn)單和速度快、非常有利于工 程實(shí)現(xiàn),因此,本發(fā)明采用對(duì)于字符切分操作最有用的縱向梯度信息進(jìn)行切分。 這是因?yàn)樘荻忍卣魍ǔM瑫r(shí)包括橫向和縱向的梯度信息,然而對(duì)于字符切分步 驟來說,最有用的是縱向梯度信息。如果引入橫向梯度信息,很可能在一定程 度上干擾了切分,所以,本發(fā)明只采用縱向梯度信息切分字符區(qū)域圖像。且對(duì) 字符區(qū)域圖像采用的梯度計(jì)算模板是Sobel算子中計(jì)算垂直方向的微分的計(jì)算
模板是:
-1 —2 —1
0 0 0
1 2 1
投影法是通過對(duì)圖像進(jìn)行水平或垂直方向上的投影,來考察感興趣的區(qū)域。
本發(fā)明采用對(duì)圖像進(jìn)行豎直方向上的投影來切分字符;也就是根據(jù)上述計(jì)算模 板對(duì)圖像中的字符區(qū)域中的像素進(jìn)行計(jì)算得到的梯度值的絕對(duì)值,進(jìn)行垂直方 向上的投影來切分字符。這是因?yàn)橐曨l中的字符通常呈水平排列,字符區(qū)域?qū)?應(yīng)的梯度值一般要比字符間隔區(qū)域的梯度值大,因此,利用縱向梯度投影作為 切分字符的依據(jù),再通過各種啟發(fā)式規(guī)則來最終確定切分線。
所述構(gòu)造各種啟發(fā)式規(guī)則來進(jìn)行字符區(qū)域切分,或?qū)⒄`切分的字符區(qū)域合 并,都是為了解決誤切分問題;
其中,作為重點(diǎn)操作內(nèi)容的構(gòu)造各種啟發(fā)式規(guī)則來進(jìn)行字符區(qū)域切分,以
13及將誤切分的字符區(qū)域合并,都需要大量實(shí)驗(yàn)來總結(jié)各種誤切分情況。就實(shí)驗(yàn)
結(jié)果來看,誤切分主要有兩種字符內(nèi)的誤切分和字符間的誤切分。前者一般 是由于字符結(jié)構(gòu)的原因,如左右結(jié)構(gòu)的字符,中間部分的梯度值較小,再如字 符左邊或右邊的偏旁呈現(xiàn)對(duì)稱或類對(duì)稱結(jié)構(gòu)時(shí),對(duì)稱中心的梯度值較小。所以, 在字符的30%、 50%或70°/。寬度處可能會(huì)出現(xiàn)字符內(nèi)的誤切分。此時(shí),綜合運(yùn) 用梯度值、區(qū)域?qū)挾群妥址麑挾鹊男畔?,可以去除錯(cuò)誤的切分線,將誤切分區(qū) 域合并來解決字符內(nèi)的誤切分問題。后者最常見的情況是誤將兩個(gè)字符相互靠 近的部分切分成一個(gè)字符。此時(shí),通過分析相鄰區(qū)域的寬度是否滿足設(shè)定條件, 就能夠去除錯(cuò)誤的切分線,將誤切分的區(qū)域進(jìn)行合并來解決之。 參見圖2,介紹本發(fā)明步驟1的具體操作內(nèi)容
(11) 將字符區(qū)域的彩色圖像轉(zhuǎn)換為灰度圖像,以使后續(xù)操作能夠適用于 各種色彩空間,并將三通道減少為單通道,大大減少計(jì)算量。
(12) 按照Sobel算子中計(jì)算垂直方向的微分的計(jì)算模板,分別計(jì)算上述 單通道灰度圖像中的每個(gè)像素的梯度值,并對(duì)該梯度值取絕對(duì)值后,進(jìn)行縱向 相加,得到該灰度圖像的縱向梯度值之和的數(shù)組,作為反映圖像特性的梯度值 數(shù)組,用作切分字符的依據(jù)。
(13) 由于圖像的梯度值數(shù)組波動(dòng)劇烈,而其中有些只是微小波動(dòng),干擾 了對(duì)波動(dòng)趨勢(shì)的研究。故用近鄰平均方法平滑該梯度值數(shù)組,減弱其中微小波 動(dòng)的干擾,突出波動(dòng)趨勢(shì)。該近鄰平均方法是選取某個(gè)位置左右兩邊的梯度值 與該位置的梯度值的平均值,用作該位置的新的梯度值。
(14) 為兼顧波峰和波谷的位置信息和梯度信息,全面表征垂直投影特征, 根據(jù)梯度值數(shù)組,計(jì)算峰谷差比V(i): V(i) = (C(i-l)+C(i+l)-2xT(i))/T(i),式 中,C(i)為波峰的梯度值,T(i)為波谷的梯度值,自然數(shù)i是波峰或波谷的序號(hào); 該計(jì)算公式的物理涵義是峰谷差比是相鄰兩個(gè)波峰與所夾的波谷的梯度垂直 投影的差值,與波谷的梯度垂直投影值的比值。
(15) 根據(jù)峰谷差比先初選刪除大部分備選切分線后,初步估算字符寬度 因圖像的切分線通常位于梯度值較小的波谷,且該波谷左右兩邊通常有梯度值較大的波峰,造成峰谷差比較大,故先排除峰谷差比小于平均峰谷差比的大部
分備選切分線;在進(jìn)行平均值的判斷后,對(duì)剩余的備選切分線數(shù)目仍大于估算的切分線數(shù)目的1.5倍,即1.5x字符寬度/字符高度時(shí),則保留峰谷差比最大的前1.5x字符寬度/字符高度個(gè)切分線后,然后,初步估算字符寬度,用于從備選的切分線中得到較可靠的字符寬度,使后續(xù)處理可依據(jù)字符寬度精確進(jìn)行。
(16) 處理因字符為左右結(jié)構(gòu)或偏旁呈對(duì)稱或類對(duì)稱而造成字符內(nèi)的誤切分情況,并再次估算字符寬度因字符結(jié)構(gòu)原因(例如左右結(jié)構(gòu)的字符,中間部分的梯度值較小;而字符左邊或右邊的偏旁呈現(xiàn)對(duì)稱或類對(duì)稱結(jié)構(gòu)時(shí),對(duì)稱中心的梯度值較小),在字符的30%、 50%、 700/。寬度處可能會(huì)出現(xiàn)字符的誤切分情況。還有一種情況,由于噪音等干擾,可能會(huì)切分出一個(gè)寬度明顯小于可能的字符寬度的區(qū)域。此時(shí),綜合運(yùn)用梯度值信息、區(qū)域?qū)挾刃畔⒑妥址麑挾刃畔ⅲ瑢⒄`切分區(qū)域合并,解決字符內(nèi)的誤切分問題。
該步驟的具體操作過程簡(jiǎn)介如下因?yàn)?0%處誤切分最常見,影響最大,所以先解決50%處誤切分,但是,由于估算的字符寬度可能有誤差,所以要設(shè)置10%的浮動(dòng)空間;即如果相鄰兩個(gè)間距為估算字符寬度的40%-60%,就認(rèn)為出現(xiàn)誤切分。操作如下先判斷相鄰兩個(gè)字符的間距是否同時(shí)為估算字符寬度的40%~60%,如果判斷結(jié)果為真,則進(jìn)行合并操作將兩個(gè)間距共有的3條切分線中,如果中間位置的切分線的特征值同時(shí)小于左右兩邊的切分線的特征值,說明該切分線特征不明顯,就消除掉該中間位置的切分線,執(zhí)行合并處理。然后處理30%或70%寬度處的誤切分。它們都可歸結(jié)為出現(xiàn)間距小于40%的切分區(qū)域。所以,此時(shí)的判斷條件是是否出現(xiàn)間距小于40%的切分區(qū)域。如果存在,則進(jìn)行合并操作如果該區(qū)域的左邊區(qū)域或右邊區(qū)域的寬度小于85%的估算字符寬度,則將該區(qū)域與其左邊區(qū)域或右邊區(qū)域之間的切分線消除,合并該兩個(gè)區(qū)域。如果兩邊區(qū)域?qū)挾韧瑫r(shí)都小于85%的估算字符寬度,則消除該區(qū)域與其左右兩邊區(qū)域之間的兩條切分線,合并三個(gè)區(qū)域。如果左右兩邊區(qū)域?qū)挾染粷M足上述條件,則不做處理。
(17) 處理字符間的誤切分最常見的情況是將兩個(gè)字符相互靠近的部分切分成一個(gè)字符。此時(shí),分析相鄰區(qū)域的寬度是否滿足設(shè)定條件,同時(shí)參考特 征值信息和字符寬度信息,對(duì)兩個(gè)字符相互靠近部分切分成一個(gè)字符的字符間 的誤切分區(qū)域進(jìn)行合并處理,完成字符的初次切分。
該步驟具體操作內(nèi)容是判斷相鄰兩個(gè)區(qū)域的間距對(duì)估算字符寬度求余后, 是否為字符寬度的25% ~75%。這里求余是因?yàn)榭赡軙?huì)出現(xiàn)其中一個(gè)間距大于 估算字符寬度,或兩個(gè)間距都大于估算字符寬度的情況。判斷標(biāo)準(zhǔn)25%~75% 是因?yàn)樵摲秶w了 30%、 50%、 70%三個(gè)容易發(fā)生誤切分的位置。如果結(jié)果 為真,則進(jìn)行合并,也就是該兩個(gè)區(qū)域確定的3條切分線中,左、右兩邊的切 分線的特征值至少有 一個(gè)大于中間位置的切分線的特征值時(shí),則消除掉中間位 置的切分線,將兩個(gè)區(qū)域合并。
(18) 檢查字符的初次切分結(jié)果根據(jù)切分寬度是否大于設(shè)定的字符寬度, 判斷是否需要按照類似初次切分的方法進(jìn)行二次切分如果切分后的字符寬度 較大(如大于1.5倍的字符寬度),則對(duì)該區(qū)域進(jìn)行二次切分;且二次切分方法 與初次切分相同,再次切分后,檢查切分結(jié)果,再處理字符內(nèi)和字符間的誤切 分。如果切分后的字符寬度不大,直接執(zhí)行后續(xù)步驟的操作;
(19) 將二次切分結(jié)果與初次切分結(jié)果合并檢查區(qū)域?qū)挾?,將寬度較小 的區(qū)域進(jìn)行合并,生成最終的切分線。由于在以上各步驟處理過程中,為了保 證準(zhǔn)確切分,每個(gè)步驟只完成特定的目標(biāo),都設(shè)有嚴(yán)格的條件限制,所以可能 會(huì)留下一些未經(jīng)處理的寬度較小區(qū)域。因此,要檢查區(qū)域?qū)挾?,將寬度較小的 區(qū)域進(jìn)行合并后,生成最終的切分線。再按照該切分線對(duì)原文字區(qū)域圖像進(jìn)行 切分,將每一行文字區(qū)域圖像切分成只包含單個(gè)字符的多個(gè)子區(qū)域圖像后,將 該切分結(jié)果輸入后續(xù)的字符提取步驟。
本發(fā)明的前述各項(xiàng)操作步驟中,針對(duì)各種常見的切分問題,進(jìn)行了相應(yīng)的 處理。但是,為保證準(zhǔn)確度,犧牲了一定的查全率,有些特殊位置(如數(shù)字、 字母、數(shù)學(xué)符號(hào)等小于文字寬度的情況)的正確的切分線,也在后續(xù)處理中被 消除。雖然如此,本發(fā)明整個(gè)處理流程對(duì)準(zhǔn)確度的要求仍然要高于對(duì)查全率的 要求,并且能夠?qū)⑾_的切分線的情況的出現(xiàn)概率保持在可以接受的較低
16范圍內(nèi)。所以,總體來說,步驟1的字符切分操作完成了預(yù)期的目標(biāo)。
步驟2的字符提取是從圖像中提取字符信息,而去掉背景等其它信息,以 給OCR系統(tǒng)輸入清晰的字符圖像。這個(gè)步驟是所有字符處理系統(tǒng)都必不可少的
處理步驟。
圖像中的字符有兩個(gè)主要特征顏色特征和連通特征,它是進(jìn)行有效的字 符提取的根據(jù)。本發(fā)明先使用字符顏色特征,進(jìn)行顏色聚類,分離出不同的顏 色圖層,接著找到包含最多字符信息的圖層。這樣通常就排除掉大部分的背景 區(qū)域信息。然后再利用字符的連通特征,繼續(xù)刪除一些延伸到字符區(qū)域的背景 信息和孤立的噪音區(qū)域,得到最終的提取結(jié)果。這種方法的優(yōu)勢(shì)是先利用字 符顏色統(tǒng)一的特點(diǎn),通過顏色聚類來快速去掉大部分背景區(qū)域信息。然后再利 用字符連通的特點(diǎn),通過連通區(qū)域分析,進(jìn)一步去除剩余部分的非字符區(qū)域。 由于通過顏色聚類已經(jīng)去除了大部分的背景,從而避免了對(duì)全圖進(jìn)行完全的連 通區(qū)域分析,提高了系統(tǒng)工效。并給OCR提高一個(gè)高質(zhì)量的待識(shí)別圖像。
在實(shí)際操作中,不僅提取單個(gè)字符圖像,還要提取整個(gè)字符的區(qū)域圖像。
這是因?yàn)樵谝话闱闆r下,單個(gè)字符圖像提取的效果較好,但有時(shí)整個(gè)字符區(qū)域 圖像提取的結(jié)果也能夠給單個(gè)字符的處理結(jié)果提供參考和補(bǔ)充。所以,本發(fā)明
要提取三種類型的結(jié)果圖像給OCR識(shí)別,分別是單個(gè)字符圖像處理結(jié)果,字 符區(qū)域圖像整體處理結(jié)果,以及由單個(gè)字符圖像處理結(jié)果拼接形成的整體圖像。
其中后兩種類型的處理結(jié)果提供給OCR,是為了充分利用OCR的語義處 理功能,能夠根據(jù)上下文確定更可能是哪個(gè)形近字。實(shí)驗(yàn)結(jié)果也驗(yàn)證了本發(fā)明 方法能夠提高識(shí)別效果。
雖然有三種類型的字符圖像處理結(jié)果,但是,提取的方法是相同的。下面 介紹的字符提取操作步驟在三種類型的結(jié)果處理過程中是通用的。
參見圖3,介紹本發(fā)明步驟2的具體操作內(nèi)容
(21)擴(kuò)展圖像根據(jù)圖像的字符高度,將圖像向四周擴(kuò)展,用于包含相 應(yīng)的背景區(qū)域,以便在后續(xù)步驟(26)時(shí),利用連通區(qū)域特征消除掉字符區(qū)域 圖像中的背景區(qū)域;通常的擴(kuò)展的大小為0.1倍的字符高度。(22) 圖像插值放大因待處理的字符區(qū)域圖像內(nèi)的字符要比OCR要求的 識(shí)別尺寸小,為使OCR達(dá)到最佳識(shí)別效果,先用雙線性插值對(duì)圖像進(jìn)行插值放 大,使得該插值放大后的圖像能夠被正確識(shí)別;雙線性插值法的放大效果能夠 被容易接收,且計(jì)算復(fù)雜度適宜。
(23) 圖像增強(qiáng)插值放大后的圖像不可避免會(huì)出現(xiàn)模糊,影響了后續(xù)處 理的效果,所以要對(duì)圖像進(jìn)行增強(qiáng)操作,改善圖像的清晰度和對(duì)比度。
圖像增強(qiáng)包括三個(gè)步驟
A、 用拉普拉斯算子進(jìn)行圖像銳化操作,增強(qiáng)圖像細(xì)節(jié),使圖像整體銳化。
B、 針對(duì)拉普拉斯算子銳化后出現(xiàn)的圖像噪聲,用中值濾波方法進(jìn)行降噪操 作;在有效降低噪聲的同時(shí),能夠較好地保留圖像的細(xì)節(jié)。
C、 進(jìn)行直方圖均衡化操作,增強(qiáng)圖像的對(duì)比度。
需要說明的是,上述三個(gè)步驟都是把原圖像由RGB色彩空間轉(zhuǎn)換為HSV 色彩空間后,只對(duì)其中的V分量圖像進(jìn)行操作,最后再轉(zhuǎn)換回RGB色彩空間。 所以要進(jìn)行色彩空間的轉(zhuǎn)換,是因?yàn)镠SV色彩空間能夠?qū)⑸市畔⒑蛷?qiáng)度信息 分開,使得圖像增強(qiáng)操作可以只單獨(dú)處理其中的強(qiáng)度分量,而不用在RGB色彩 空間內(nèi)進(jìn)行三通道處理,大大降低了處理的復(fù)雜度,提高了效率。
(24) 用顏色聚類的K-Means算法進(jìn)行顏色聚類處理利用顏色信息對(duì)增 強(qiáng)后的圖像進(jìn)行顏色聚類,將字符和背景初步區(qū)分開來。這里采用的顏色聚類 方法是廣泛采用的一種K-Means算法,其中,聚類是在R、 G、 B三維空間內(nèi), 分別依據(jù)每個(gè)像素與四個(gè)聚類中心點(diǎn)的歐氏距離的平方,進(jìn)行三維聚類實(shí)現(xiàn)的。
(25) 判別聚類結(jié)果和分析連通區(qū)域觀察發(fā)現(xiàn),字符信息多聚集在圖像 的中心區(qū)域。因此先對(duì)前述步驟用K-Means算法將圖4象按顏色聚類形成的4個(gè) 備選圖像,分別計(jì)算每個(gè)圖像中像素距離中心區(qū)域的平均距離,比較得到其中 平均距離最小的對(duì)應(yīng)圖像作為目標(biāo)圖像。由于圖層判斷錯(cuò)誤會(huì)嚴(yán)重影響后續(xù)操 作步驟,所以在進(jìn)行距離判斷后,為保證判別結(jié)果的正確,進(jìn)一步檢查和分析 該目標(biāo)圖層的連通區(qū)域數(shù)目。如果該圖層的連通區(qū)域數(shù)目過大,則可能是判斷 錯(cuò)誤,就要備選圖像重新判別,根據(jù)連通區(qū)域數(shù)目和距離中心區(qū)域的平均距離的兩個(gè)因素進(jìn)行綜合處理以連通區(qū)域數(shù)目的平方根與平均距離的乘積作為判 斷依據(jù),選取其中最小值所對(duì)應(yīng)的圖像作為目標(biāo)圖像。
(26) 由外向內(nèi)填充該步驟的出發(fā)點(diǎn)是,字符區(qū)域圖像中的很大一部分 背景信息是從外部的背景區(qū)域延伸進(jìn)來的,所以要將字符區(qū)域圖像中大量的由 外部背景區(qū)域延伸進(jìn)來的背景信息填充為白色,以消除大部分的背景信息。
(27) 對(duì)字符圖像進(jìn)行去噪由于上一步驟主要處理與外部粘連的背景區(qū) 域信息,所以可能會(huì)遺留一些較小的噪音區(qū)域,這會(huì)干擾OCR的識(shí)別。故采用 連通區(qū)域分析方法分別計(jì)算字符圖像中各個(gè)連通區(qū)域包含的像素?cái)?shù)目與總的 像素?cái)?shù)目的比值,將比值較小的連通區(qū)域視為噪音區(qū)域而予以清除,改善目標(biāo) 圖像的質(zhì)量。
本發(fā)明方法已經(jīng)進(jìn)行了多次實(shí)施試驗(yàn),試驗(yàn)的結(jié)果是成功的,圖4中的(A)、 (B)、 (C)三圖分別是本發(fā)明方法在一實(shí)施例中的原始圖像、步驟l的字符切 分結(jié)果和步驟2的字符提取結(jié)果操作后的實(shí)例展示圖。也就是說,輸入為一幅 帶有字符的視頻數(shù)字圖像,經(jīng)過本發(fā)明方法的處理后,輸出為可送給OCR識(shí)別 的清晰的二值化圖像。因此,本發(fā)明實(shí)現(xiàn)了發(fā)明目的。
19
權(quán)利要求
1、一種基于字符切分和顏色聚類的數(shù)字視頻中的字符提取方法,其特征在于,包括下列操作步驟(1)字符切分采用基于垂直投影特征的分析切分方法,即利用字符區(qū)域與字符間隔區(qū)域的特征差異,進(jìn)行垂直投影來切分字符區(qū)域圖像,將每一行包含多個(gè)字符的區(qū)域圖像,切分成只包含單個(gè)字符的若干個(gè)子區(qū)域圖像,以降低后續(xù)步驟的處理復(fù)雜度,提高準(zhǔn)確率,保證OCR的較高的識(shí)別率;(2)字符提取先用圖像中的字符顏色特征進(jìn)行顏色聚類,找到包含最多字符信息的圖層作為目標(biāo)圖像,從而快速刪除大部分背景區(qū)域信息;再用字符的連通特征分析目標(biāo)圖像的連通區(qū)域,繼續(xù)去除剩余的非字符區(qū)域后,分別得到三種類型的字符圖像單個(gè)字符提取圖像、字符區(qū)域的整體提取圖像和由單個(gè)字符提取圖像拼接成的整體拼接圖像,一起輸入給OCR系統(tǒng)進(jìn)行識(shí)別;其中后兩種圖像是用OCR的語義處理功能,根據(jù)上下文更準(zhǔn)確地確定形近字而提高識(shí)別效果。
2、 根據(jù)權(quán)利要求1所述的方法,其特征在于所述特征差異是指字符區(qū) 域的特點(diǎn)是它的空間頻率變化強(qiáng)烈,而字符間隔區(qū)域的空間頻率變化相對(duì)較??; 對(duì)應(yīng)到梯度上,則是字符區(qū)域的梯度較大,而字符間隔的梯度較小。
3、 根據(jù)權(quán)利要求1所述的方法,其特征在于所述基于垂直投影特征的分 析切分方法的特點(diǎn)是簡(jiǎn)單、速度快、有利于工程實(shí)現(xiàn),故采用對(duì)于字符切分操 作最有用的縱向梯度信息進(jìn)行切分,且對(duì)字符區(qū)域圖像采用的梯度計(jì)算模板是Sobel算子中計(jì)算垂直方向的微分的計(jì)算模板:<formula>formula see original document page 2</formula>所述基于垂直投影特征的分析切分方法的依據(jù)是視頻中字符通常呈水平排 列,故對(duì)于根據(jù)上述計(jì)算模板對(duì)字符區(qū)域圖像中的像素進(jìn)行計(jì)算得到的梯度值的絕對(duì)值,進(jìn)行垂直方向上的投影,以便考察感興趣的區(qū)域并進(jìn)行字符切分; 因字符區(qū)域?qū)?yīng)的梯度值大于字符間隔區(qū)域的梯度值,故在字符切分中,用縱向梯度投影作為切分的依據(jù),再通過各種啟發(fā)式規(guī)則來最終確定切分線。
4、 根據(jù)權(quán)利要求3所述的方法,其特征在于所述構(gòu)造各種啟發(fā)式規(guī)則來 進(jìn)行字符區(qū)域切分,或?qū)⒄`切分的字符區(qū)域合并,都是為了解決誤切分問題;誤切分包括字符內(nèi)的誤切分和字符間的誤切分,前者是由于字符為左右結(jié) 構(gòu)或偏旁呈對(duì)稱或類對(duì)稱結(jié)構(gòu)的原因,在字符的30%、 50%或70%寬度處可能 造成字符內(nèi)的誤切分,此時(shí),綜合運(yùn)用梯度值、區(qū)域?qū)挾群妥址麑挾鹊男畔ⅲ?去除錯(cuò)誤的切分線,將誤切分區(qū)域合并來解決之;后者是誤將兩個(gè)字符相互靠 近的部分切分成一個(gè)字符,此時(shí),通過分析相鄰區(qū)域的寬度是否滿足設(shè)定條件, 去除錯(cuò)誤的切分線,將誤切分的區(qū)域進(jìn)行合并來解決之。
5、 根據(jù)權(quán)利要求1所述的方法,其特征在于所述步驟(1)進(jìn)一步包括 下列操作內(nèi)容(11) 將字符區(qū)域的彩色圖像轉(zhuǎn)換為灰度圖像,以使后續(xù)操作能夠適用于 各種色彩空間,并將三通道減少為單通道,大大減少計(jì)算量;(12) 按照所述的Sobel算子中計(jì)算垂直方向的微分的計(jì)算模板,分別計(jì) 算所述單通道灰度圖像中的每個(gè)像素的梯度值,并對(duì)該梯度值取絕對(duì)值后,進(jìn) 行縱向相加,得到該灰度圖像的縱向梯度值之和的數(shù)組,作為反映圖像特性的 梯度值數(shù)組,用作切分的依據(jù);(13) 用近鄰平均方法平滑該梯度值數(shù)組,以減弱其中微小波動(dòng)的干擾, 突出波動(dòng)趨勢(shì)所述近鄰平均方法是選取某個(gè)位置左右兩邊的梯度值與該位置 的梯度值的平均值,用作該位置的新的梯度值;(14) 為兼顧波峰和波谷的位置信息和梯度信息,根據(jù)梯度值數(shù)組和下述 公式,計(jì)算用于全面表征垂直投影特征的峰谷差比V(i): V(i) = (C(i-l)+C(i+l)-2 xT(i))/T(i),式中,C(i)為波峰的梯度值,T(i)為波谷的梯度值,自然數(shù)i是波 峰或波谷的序號(hào);該計(jì)算公式的物理涵義是峰谷差比是相鄰兩個(gè)波峰與所夾 的波谷的梯度垂直投影的差值,與波谷的梯度垂直投影值的比值;(15) 根據(jù)峰谷差比先初選刪除大部分備選切分線后,初步估算字符寬度 因圖像的切分線通常位于梯度值較小的波谷,且該波谷左右兩邊通常有梯度值較大的波峰,造成峰谷差比較大,故先排除峰谷差比小于平均峰谷差比的大部分備選切分線;在進(jìn)行平均值的判斷后,對(duì)剩余的備選切分線數(shù)目仍大于估算 的切分線數(shù)目的1.5倍,即1.5x字符寬度/字符高度時(shí),則保留峰谷差比最大的 前1.5x字符寬度/字符高度個(gè)切分線后;初步估算字符寬度,用于從備選的切 分線中得到較可靠的字符寬度,使后續(xù)處理的字符寬度比較精確;(16) 處理因字符為左右結(jié)構(gòu)或偏旁呈對(duì)稱或類對(duì)稱、或噪音干擾而造成 字符內(nèi)的誤切分情況,綜合運(yùn)用梯度值、區(qū)域?qū)挾群妥址麑挾鹊男畔?,將誤切 分區(qū)域合并,解決字符內(nèi)的誤切分問題(17) 分析相鄰區(qū)域的寬度是否滿足設(shè)定條件,對(duì)兩個(gè)字符相互靠近部分 切分成一個(gè)字符的字符間的誤切分區(qū)域進(jìn)行合并處理,完成字符的初次切分;(18) 檢查字符的初次切分結(jié)果,根據(jù)切分寬度是否大于設(shè)定的字符寬度, 判斷是否要按照前述初次切分方法進(jìn)行二次切分,如果該切分寬度大于設(shè)定的 字符寬度,則對(duì)該區(qū)域進(jìn)行二次切分;且二次切分方法與初次切分相同,也包 含處理字符內(nèi)和字符間的誤切分;否則,直接執(zhí)行后續(xù)步驟的操作;(19) 檢查區(qū)域?qū)挾?,將寬度較小的區(qū)域進(jìn)行合并,生成最終的切分線; 再按照該切分線切分原字符區(qū)域彩色圖像,將每一行文字區(qū)域圖像切分成只包 含單個(gè)字符的多個(gè)子區(qū)域圖像后,將該切分結(jié)果輸入后續(xù)的字符提取步驟。
6、根據(jù)權(quán)利要求1所述的方法,其特征在于所述步驟(2)進(jìn)一步包括 下列操作內(nèi)容(21)擴(kuò)展圖像根據(jù)圖像的字符高度,將圖像向四周擴(kuò)展,用于包含相 應(yīng)的背景區(qū)域,以便在后續(xù)步驟(26)時(shí),利用連通區(qū)域特征消除掉字符區(qū)域 圖像中的背景區(qū)域;(22 )圖像插值放大因待處理的字符區(qū)域圖像內(nèi)的字符要比OCR要求的 識(shí)別尺寸小,為使OCR達(dá)到最佳識(shí)別效果,先用雙線性插值對(duì)圖像進(jìn)行插值放 大,使得該插值放大后的圖像經(jīng)過后續(xù)步驟處理后,能夠被正確識(shí)別;(23)圖像增強(qiáng)對(duì)插值放大后出現(xiàn)模糊的圖像字符進(jìn)行增強(qiáng)操作,用于 改善圖像的清晰度和對(duì)比度;(24) 用顏色聚類的K-Means算法進(jìn)行顏色聚類處理利用顏色信息對(duì)增 強(qiáng)后的圖像進(jìn)行顏色聚類,將字符和背景初步區(qū)分開來;所述K-Means算法中 的聚類是在R、 G、 B三維空間內(nèi),分別依據(jù)每個(gè)像素與四個(gè)聚類中心點(diǎn)的歐氏 距離的平方,進(jìn)行三維聚類實(shí)現(xiàn)的;(25) 判別聚類結(jié)果和分析連通區(qū)域?qū)η笆霾襟E用K-Means算法將圖像 按顏色聚類形成的4個(gè)備選圖像,分別計(jì)算每個(gè)圖像中像素距離中心區(qū)域的平 均距離,其中平均距離最小的圖像作為目標(biāo)圖像;為保證判別結(jié)果的正確,再 對(duì)該目標(biāo)圖像的連通區(qū)域數(shù)目進(jìn)行檢查和分析,如果連通區(qū)域數(shù)目過大,則對(duì) 備選圖像重新判別,根據(jù)連通區(qū)域數(shù)目和距離中心區(qū)域的平均距離的兩個(gè)因素進(jìn)行綜合處理以連通區(qū)域數(shù)目的平方根與平均距離的乘積作為判斷依據(jù),選 取其中最小值所對(duì)應(yīng)的圖像作為目標(biāo)圖像;(26) 由外向內(nèi)填充將字符區(qū)域圖像中大量由外部的背景區(qū)域延伸進(jìn)來 的背景信息填充為白色,以消除大部分的背景信息;(27) 對(duì)字符圖像進(jìn)行去噪處理對(duì)步驟(26)處理后遺留的一些較小噪 音區(qū)域,采用連通區(qū)域分析方法分別計(jì)算字符圖像中各個(gè)連通區(qū)域包含的像 素?cái)?shù)目與總的像素?cái)?shù)目的比值,將比值較小的連通區(qū)域視為噪音區(qū)域而予以清 除,改善目標(biāo)圖像的質(zhì)量。
7、根據(jù)權(quán)利要求6所述的方法,其特征在于所述步驟(23)中,要把原 圖像由RGB色彩空間轉(zhuǎn)換為HSV色彩空間后,只對(duì)其中的V分量圖像進(jìn)行下 述三個(gè)操作步驟后,再轉(zhuǎn)換回RGB色彩空間,以降低處理的復(fù)雜度,提高效率; (231)用拉普拉斯算子進(jìn)行圖像銳化操作,增強(qiáng)圖像的細(xì)節(jié),使圖像整體銳化;(232 )對(duì)于拉普拉斯算子銳化后出現(xiàn)的圖像噪聲,使用中值濾波方法進(jìn)行 降噪操作,在有效降低噪聲的同時(shí),能夠較好的保留圖像的細(xì)節(jié); (233 )進(jìn)行直方圖均衡化操作,增強(qiáng)圖像的對(duì)比度。
全文摘要
一種基于字符切分和顏色聚類的數(shù)字視頻中的字符提取方法,其步驟是(1)字符切分利用字符區(qū)域與字符間隔區(qū)域的特征差異,進(jìn)行垂直投影來切分字符區(qū)域圖像,將每行含多個(gè)字符的區(qū)域圖像,切分成只含單個(gè)字符的多個(gè)子區(qū)域圖像,降低后續(xù)操作處理難度,提高OCR的識(shí)別準(zhǔn)確率;(2)字符提取先用圖像中的字符顏色特征進(jìn)行顏色聚類,找到含最多字符信息的圖層作為目標(biāo)圖層,刪除背景區(qū)域;再用字符的連通特征分析目標(biāo)圖層的連通區(qū)域,去除非字符區(qū)域后,分別得到單個(gè)字符圖像、字符區(qū)域的整體圖像和由單個(gè)字符圖像拼接的整體圖像的三種結(jié)果,都輸入給OCR系統(tǒng)進(jìn)行識(shí)別;后兩者是用OCR的語義處理功能,能根據(jù)上下文準(zhǔn)確確定形近字而提高識(shí)別效果。
文檔編號(hào)G06K9/00GK101515325SQ20091008192
公開日2009年8月26日 申請(qǐng)日期2009年4月8日 優(yōu)先權(quán)日2009年4月8日
發(fā)明者赫 張, 馬華東, 黃曉冬 申請(qǐng)人:北京郵電大學(xué)