一種定位自然場景圖像中文本的方法

文檔序號：6368750閱讀：152來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種定位自然場景圖像中文本的方法
技術(shù)領(lǐng)域：
本發(fā)明屬于圖像文本分析領(lǐng)域，具體涉及ー種定位自然場景圖像中文本的方法。
背景技術(shù)：
以往的定位自然場景圖像中文本的方法大致可以歸為兩類基于文本塊的和基于圖像連通域的?；谖谋緣K的方法使用滑動窗ロ在圖像中捜索可能的文本塊，然后使用機器學(xué)習(xí)的算法進行文本塊判定。基于圖像連通域的方法首先通過某些方法提取圖像中的連通域，然后將連通域聚合成文本塊，并通過進一歩的檢查或使用機器學(xué)習(xí)算法進行文本塊的判定。在非專利文獻I中，通過聚合具有相似筆劃寬度的像素點形成連通域，得到的連通域經(jīng)過過濾后聚合成文本。非專利文獻2是ー種基于文本塊的方法，使用了文本塊的水平和垂直梯度變化率的方差特征。非專利文獻3中提到ー種基于連通域的方法。該方法使用最穩(wěn)定極值區(qū)域作為連通域，連通域聚合成文本塊后提取文本塊的梯度特征，并使用級聯(lián)的分類器對文本塊進行判定。在目前已有的方法中，文本的查全率和查全率較低，處理速度較慢。非專利文獻I :B. Epshtein, E. Ofek, and Y. ffexler. Detecting text innatural scenes with stroke width transform. Computer Vision and PatternRecognition (CVPR)，2010 IEEE Conference on，pages 2963-2970，June 2010非專利文獻2:Χ· Chen and A. Yuille. Detecting and reading text in naturalscenes.In Computer Vision and Pattern Recognition,2004. CVPR 2004.Proceedingsof the 2004 IEEE Computer Society Conference on， volume 2， pages 11-366-11-373Vol. 2，june-2 july 2004非專利文獻3:A. Shahab，F(xiàn). Shafait，and A. Dengel. ICDAR 2011 robust readingcompetition challenge 2 !Reading text in scene images. In Document Analysis andRecognition (ICDAR)，2011 International Conference on，pages 1491-1496，sept.201
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)存在查全率和查準(zhǔn)率低，處理速度慢的缺點，本發(fā)明提出了ー種定位自然場景圖像中文本的方法。本發(fā)明提出的定位自然場景圖像中文本的方法包括圖像連通域提取步驟，提取最穩(wěn)定極值區(qū)域作為圖像連通域；文本塊提取步驟，針對圖像連通域建立無向圖模型并使用并查集提取無向圖的連通域作為文本塊；文本塊判別步驟，提取文本塊特征并使用機器學(xué)習(xí)算法進行文本塊分類。在文本塊提取步驟，定義無向圖模型的鄰接關(guān)系時考慮了連通域的高、寬、中心點、顏色和筆劃寬度特征。在文本塊識別步驟，提取的文本塊特征包括文本塊內(nèi)連通域的筆劃寬度、顏色、飽和度(compactness)、極值區(qū)域穩(wěn)定性和水平垂直兩個方向梯度變化率的方差和筆劃寬度的均值。文本塊判別步驟使用了 AdaBoost學(xué)習(xí)算法進行文本塊分類。根據(jù)本發(fā)明，能夠快速準(zhǔn)確地定位自然場景圖像中的文本，得到的查全率和查準(zhǔn)率高于目前報告的方法。

圖I是本發(fā)明中的定位自然場景圖像中文本的方法的系統(tǒng)流程圖；圖2是本發(fā)明中文本塊提取流程圖；圖3是本發(fā)明中文本塊判別流程圖；圖4是本發(fā)明中像素點的筆劃寬度提取示意圖；圖5是本發(fā)明中基于連通域的文本塊提取算法示意圖；圖6是本發(fā)明中文本塊基于梯度變化率特征的提取示意圖；圖7是本發(fā)明中連通域邊緣像素點導(dǎo)數(shù)計算示意圖。
具體實施例方式以下結(jié)合附圖對本發(fā)明的具體實施方式
作詳細說明。圖I是依據(jù)本發(fā)明的的定位自然場景圖像中文本的方法的系統(tǒng)流程圖。
如圖I所示，依據(jù)本發(fā)明的定位自然場景圖像中文本的方法包括圖像連通域提取步驟101、文本塊提取步驟102和文本塊判別步驟103。圖像連通域提取步驟101使用OpenCV的庫函數(shù)提取最穩(wěn)定極值區(qū)域作為圖像連通域。上述庫函數(shù)需要設(shè)定一系列參數(shù)控制提取過程，各個參數(shù)的具體設(shè)定為delta =7，minArea = 60，maxArea = O. 08 · imageWidthX imageHeight, maxVariation = 0. 25，minDiversity = 0. 5。圖2是文本塊提取步驟102的流程圖，包括針對圖像連通域的無向圖建模的步驟201和基于無向圖連通域的文本塊提取的步驟202。步驟201建立無向圖模型G = (V，E)，其中V是頂點集，其元素為步驟101提取的連通域；E是邊集，其元素為由具有鄰接關(guān)系的連通域所組成的無序?qū)?。頂點之間的鄰接關(guān)系是通過連通域之間的距離確定的。定義連通域u, V之間的距離為d(u, V) = Σ meMdm(u,v)wm，其中M是考慮的特征集合，包括高、寬、中心點、顔色和筆劃寬度，dm(u，v)為連通域特征m下u, V的距離,Wm為分配給特征m的權(quán)重。當(dāng)且僅當(dāng)d(u,v) < e時,連通域u, v是鄰接的，其中e為閾值。各個特征的權(quán)重為wmidth = I. O,Wheight = I. 5,w
centroidX I· ^ ^centroidY
I.り，WCQiQr 2. 5，WstrQke 2. Do步驟201中連通域的高、寬、中心點分別為連通域最小包圍矩形的高、寬、中心點。以下為步驟201中各個特征下連通域的距離計算公式。長
lin !i/hlf it) — In I Ijh I ( r Jl ('I」· maxi //("I. Iii ifilil I Π )寬
n-nli h u ) — fi'nli h i r I
#f “'.丨x ' ,-% . maxi" U n'uiUii r j I
中心點X坐標(biāo)
權(quán)利要求
1.ー種定位自然場景圖像中文本的方法，其特征在于，該方法包括以下步驟 1)圖像連通域提取步驟提取最穩(wěn)定極值區(qū)域作為圖像連通域； 2)文本塊提取步驟針對圖像連通域建立無向圖模型并提取無向圖的連通域作為文本塊； 3)文本塊判別步驟提取文本塊特征并使用機器學(xué)習(xí)算法進行文本塊分類。
2.根據(jù)權(quán)利要求I所述的方法，其特征在于，所述步驟(2)中的針對圖像連通域建立無向圖模型，是使用所述圖像的連通域作為無向圖模型的頂點，根據(jù)圖像連通域之間的距離是否足夠小來確定頂點間的鄰接關(guān)系。
3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述連通域之間的距離為連通域之間高、寬、中心點、顏色和筆劃寬度差異的加權(quán)和。
4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述連通域的筆劃寬度為連通域內(nèi)部分像素點筆劃寬度的均值。
5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述的像素點的筆劃寬度定義為穿過該像素點并落在連通域內(nèi)的從上到下，從左到右，從左上到右下，從右上到左下的四條線段長度的最小值。
6.根據(jù)權(quán)利要求I所述的方法，其特征在于，所述的提取無向圖連通域的文本塊，是使用并查集提取無向圖的連通域作為文本塊。
7.根據(jù)權(quán)利要求I所述的方法，其特征在于，所述的提取文本塊特征，其中所述特征包括文本塊內(nèi)連通域的筆劃寬度、顔色、飽和度、極值區(qū)域穩(wěn)定性和水平垂直兩個方向梯度變化率的方差和筆劃寬度的均值。
8.根據(jù)權(quán)利要求7所述的方法，其特征在干，所述的連通域的水平方向梯度變化率定義為X導(dǎo)數(shù)非零的邊緣像素點的個數(shù)除以連通域的高度；所述的連通域的垂直方向梯度變化率定義為y導(dǎo)數(shù)非零的外邊緣像素點的個數(shù)除以連通域的高度。
9.根據(jù)權(quán)利要求I所述的定位自然場景圖像中文本的方法，其特征在于，所述的使用機器學(xué)習(xí)算法進行文本塊分類是使用AdaBoost學(xué)習(xí)算法進行文本塊分類。
全文摘要
本發(fā)明提出了一種定位自然場景圖像中文本的方法，包括圖像連通域提取步驟，提取最穩(wěn)定極值區(qū)域作為圖像連通域；文本塊提取步驟，針對圖像連通域建立無向圖模型并使用并查集提取無向圖的連通域作為文本塊；文本塊判別步驟，提取文本塊特征并使用機器學(xué)習(xí)算法進行文本塊分類。根據(jù)本發(fā)明，能夠快速準(zhǔn)確地定位自然場景圖像中的文本，得到的查全率和查準(zhǔn)率高于目前現(xiàn)有技術(shù)中的方法。
文檔編號G06K9/20GK102663383SQ20121012713
公開日2012年9月12日申請日期2012年4月26日優(yōu)先權(quán)日2012年4月26日
發(fā)明者尹緒旺, 殷緒成, 郝紅衛(wèi) 申請人:北京科技大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：殷緒成;尹緒旺;郝紅衛(wèi)
技術(shù)所有人：北京科技大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

自然場景文本檢測相關(guān)技術(shù)

自然場景文本識別相關(guān)技術(shù)

圖像文本定位相關(guān)技術(shù)

圖像識別應(yīng)用場景相關(guān)技術(shù)

圖像場景理解相關(guān)技術(shù)

圖像場景分類相關(guān)技術(shù)

圖像場景識別相關(guān)技術(shù)

圖像分類的應(yīng)用場景相關(guān)技術(shù)

場景圖像分類技術(shù)綜述相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種定位自然場景圖像中文本的方法