国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于交互平臺的復(fù)雜背景中文本的快速檢測方法

      文檔序號:9646800閱讀:231來源:國知局
      一種基于交互平臺的復(fù)雜背景中文本的快速檢測方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及計(jì)算機(jī)視覺和人機(jī)交互領(lǐng)域,尤其涉及一種基于交互平臺的復(fù)雜背景 中文本的快速檢測方法。
      【背景技術(shù)】
      [0002] 復(fù)雜背景中的文本檢測問題,在計(jì)算機(jī)視覺領(lǐng)域和人機(jī)交互領(lǐng)域都視為一個(gè)經(jīng)典 難題。原因有兩點(diǎn),首先這項(xiàng)技術(shù)有著廣泛的應(yīng)用。比如,可以利用這項(xiàng)技術(shù)讓手機(jī)等智能 設(shè)備為我們讀書念報(bào),或應(yīng)用于無人車上讓車輛自動識別路標(biāo)路牌。其次,文本檢測問題有 時(shí)非常難解決的,因?yàn)槲谋緳z測不同于人臉、車輛、行人等一般的目標(biāo)檢測。文本的形狀更 加多變(往往出現(xiàn)不同程度的形變、模糊),與背景更加相似,并且計(jì)算時(shí)間復(fù)雜度很高。
      [0003] 對于復(fù)雜背景的文本檢測,目前主要有三種方法:1.基于紋理的文本檢測方法。 2.基于區(qū)域的文本檢測方法。3.基于深度學(xué)習(xí)的方法。
      [0004] 基于紋理的文本檢測方法,是把復(fù)雜背景中的文本視為一種特殊的紋理。通常采 用滑動窗的方法進(jìn)行紋理提取,再用Gabor濾波等對光線魯棒對邊緣信息敏感的濾波器進(jìn) 行圖像預(yù)處理,最后用灰度直方圖的方法統(tǒng)計(jì)圖像中的像素分布情況進(jìn)而確定滑動窗中是 否有文本存在。其缺點(diǎn)是對背景較為復(fù)雜的圖片處理效果不好,并且由于用到了滑動窗方 法其計(jì)算效率是非常低的。
      [0005] 基于區(qū)域的文本檢測方法,是人文復(fù)雜背景中的文本都是一種局部連通的特殊區(qū) 域。其基本思想是利用連通區(qū)域提取算法將圖像中的所有連通部分提取出來,然后用訓(xùn)練 分類器或制定篩選規(guī)則將文本部分與背景部分進(jìn)行區(qū)分,最后再將所得到的文本進(jìn)行整 合。其缺點(diǎn)在于過于依賴于連通區(qū)域的提取算法,但SWT或MSER這樣的連通區(qū)域算法對低 對比度圖像的提取效果是非常不理想的,從而影響整體的檢測率。
      [0006] 基于深度學(xué)習(xí)的方法,是最近最流行的方法之一。其主要思想是利用海量的數(shù)據(jù) 及高性能的計(jì)算機(jī)訓(xùn)練一個(gè)多層的神經(jīng)網(wǎng)絡(luò)。這種方法為了提高訓(xùn)練效率一般要用GPU進(jìn) 行加速。其缺點(diǎn)在于,需要海量的標(biāo)注數(shù)據(jù)十分耗時(shí)耗力,并且一般對水平的文本效果較 好,但旋轉(zhuǎn)的情況準(zhǔn)確率不高。

      【發(fā)明內(nèi)容】

      [0007] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于交互平臺的復(fù)雜背景中文 本的快速檢測方法,解決了文本定位速度過慢的問題,可以快速的將圖片中文本定位,并有 車父強(qiáng)的魯棒性。
      [0008] 本發(fā)明的目的是通過以下技術(shù)方案來實(shí)現(xiàn)的:一種基于交互平臺的復(fù)雜背景中文 本的快速檢測方法,它包括以下步驟:
      [0009] S1 :輸入圖像預(yù)處理:對輸入的圖像進(jìn)行預(yù)處理操作,增強(qiáng)文本邊緣對比度;
      [0010] S2 :文本候選區(qū)域快速定位:對步驟S1預(yù)處理后的圖像作輪廓檢測,并用矩形框 將每個(gè)閉合區(qū)域框選出來,然后通過SIFT算法快速定位每個(gè)矩形框中的所有角點(diǎn),將角點(diǎn) 個(gè)數(shù)作為初步篩選條件進(jìn)行初步篩選;
      [0011] S3 :候選區(qū)域歸一化:通過歸一化算法首先將圖像調(diào)整到統(tǒng)一的大小,再通過前 向映射的方法將原圖像中的內(nèi)容投射到歸一化后的圖片的正中心,并適當(dāng)?shù)男拚嵌龋?br>[0012] S4 :文本/背景篩選:首先離線的根據(jù)訓(xùn)練樣本提取具有魯棒性的特征,經(jīng)過訓(xùn)練 后的分類器篩選后的候選區(qū)域?yàn)闄z測出的文本區(qū)域。
      [0013] 所述的步驟S1包括以下子步驟:
      [0014]S11:將輸入的圖像進(jìn)行直方圖均值化,使得原始圖像的灰度直方圖從比較集中的 某個(gè)灰度區(qū)間變成在全部灰度范圍的均勻分布,公式如下:
      [0016] 式中,η為圖像的像素總和,nk是當(dāng)前灰度級像素的個(gè)數(shù),L是圖像中可能出現(xiàn)的 像素灰度級的總數(shù);
      [0017]S12:采用圖像銳化算法對圖像進(jìn)行加強(qiáng):采用Kirsch算子模板對圖像上的每一 個(gè)像素點(diǎn)進(jìn)行卷積求導(dǎo)數(shù),所述的Kirsch算子模板的數(shù)量N代表方向的數(shù)量,對圖像上的 N個(gè)特點(diǎn)邊緣方向做出最大響應(yīng),運(yùn)算中取最大值作為圖像的邊緣輸出。
      [0018] 所述的步驟S2包括以下子步驟:
      [0019]S21:對步驟S1預(yù)處理后的圖像作輪廓檢測,并用矩形框?qū)⒚總€(gè)閉合區(qū)域框選出 來;
      [0020] S22 :通過SIFT算法快速定位每個(gè)矩形框中的所有角點(diǎn);
      [0021] S23 :統(tǒng)計(jì)落在每個(gè)矩形框中的角點(diǎn)個(gè)數(shù),公式如下:
      [0023] 式中,k代表第k個(gè)矩形框區(qū)域,w和h分別代表所述矩形框區(qū)域的寬和長,p(X,y) 代表矩形框的二值圖像,s(x,y)代表矩形框?qū)?yīng)的SIFT角點(diǎn)圖;
      [0024]S24:用單位面積的角點(diǎn)個(gè)數(shù)作為初步篩選條件,公式如下:
      [0026]當(dāng)PRNk的值大于某個(gè)值時(shí),認(rèn)為該區(qū)域含有文本。
      [0027] 所述的步驟S3包括以下子步驟:
      [0028]S31:采用Moment算法求出原圖像中內(nèi)容的形心,公式如下:
      [0031] 式中,X和y分別代表圖像中(X,y)像素的坐標(biāo),f(x,y)代表在(X,y)點(diǎn)的像素 值;P和q代表階數(shù);mpq代表Moment算子;X。和y。分別代表原矩形框內(nèi)的內(nèi)容形心的坐標(biāo) 值;
      [0032]S32:計(jì)算矩形框中內(nèi)容的傾斜角度Θ,公式如下:
      [0033]μρ(1=Σ χΣγ(χ-χε)(y-yc)f(x,y);
      [0034] tan θ= μ n/μ〇2;
      [0035] S33:經(jīng)過前向映射后得到新圖像,公式如下:
      [0037]式中,X'。和y'。分別代表歸一化圖長寬的一半,(X',y')代表改變大小后的圖像 的中心,α和β代表映射比例。
      [0038] 步驟S4中所述的特征包括方向梯度直方圖特征、文本的起/終點(diǎn)與交叉點(diǎn)個(gè)數(shù)、 幾何特征、輪廓的梯度均值;所述的幾何特征包括:矩形框面積、非〇像素點(diǎn)個(gè)數(shù)、輪廓周 長。
      [0039] 所述的方向梯度直方圖特征的提取包括以下子步驟:
      [0040] S51 :將圖像按照一定形式花費(fèi)為多個(gè)圖像塊,每個(gè)圖像塊包含多個(gè)圖像單元;
      [0041] S52 :計(jì)算圖像單元中每個(gè)像素的梯度,公式如下:
      [0042]Gx(x,y) =H(x+1,y)-Η(χ-1,y);
      [0043] Gy(x,y) =H(x,y+1)-H(x,y-1);
      [0044] 式中,H(x,y)表示在(x,y)點(diǎn)的像素值,Gx(x,y)和Gy(x,y)分別表示在這點(diǎn)上的 x方向和y方向的梯度值;
      [0045] S53 :計(jì)算梯度幅值G(x,y)和梯度方向α(X,y),公式如下:
      [0048] S54 :根據(jù)梯度幅值G(x,y)和梯度方向α(X,y)計(jì)算每一區(qū)域中落在每個(gè)方向中 像素的個(gè)數(shù),作為方向梯度直方圖的提取的特征。
      [0049] 所述的文本的起/終點(diǎn)與交叉點(diǎn)個(gè)數(shù)的提取包括文本的起/終點(diǎn)的提取和交叉點(diǎn) 個(gè)數(shù)的提??;其中,所述的文本的起/終點(diǎn)的提取為:在某像素點(diǎn)的鄰域中只有一個(gè)非零點(diǎn) 與其連通,則認(rèn)為是起/終點(diǎn);所述的交叉點(diǎn)個(gè)數(shù)的提取包括以下幾種情況:
      [0050] (1)當(dāng)含有三個(gè)相鄰像素時(shí):如果與這個(gè)像素直接相連的像素中同時(shí)也與任意對 角方向的像素相連,那么這個(gè)點(diǎn)不是交叉點(diǎn);如果相鄰的像素中彼此不想連通,那么這個(gè)像 素點(diǎn)就是交叉點(diǎn);
      [0051] (2)當(dāng)含有四個(gè)相鄰像素時(shí):如果相鄰像素中,有任意兩個(gè)像素在對角方向同時(shí) 相連,那個(gè)這個(gè)點(diǎn)不是交叉點(diǎn);否則,是交叉點(diǎn);
      [0052] (3)當(dāng)含有五個(gè)或以上相鄰像素時(shí):都視為是交叉點(diǎn)。
      [0053] 所述的輪廓的梯度均值的提取包括以下子步驟:
      [0054] S61 :采用S0BEL算子進(jìn)行計(jì)算,公式如下:
      [0055]gx(x,y) =f(x+l,y_l)+2f(x+l,y)+f(x+l,y+l)-f(x_l,y-l)-2f(x_l,y)-f(x_l ,y+l);
      [0056]gy(x,y) =f(x-l,y+l)+2f(x,y+l)+f(x+l,y+l)-f(x-l,y-l)-2f(x,y-l)_f(x+l ,y_l);
      [0057] 式中,f(x,y)表示在(x,y)點(diǎn)的像素值,gx(x,y)和gy(x,y)分別表示在這點(diǎn)上的 X方向和y方向的梯度值;
      [0058] S62 :根據(jù)輪廓圖對輪廓上的像素點(diǎn)梯度求平均值,得到的平均值作為輪廓的梯度 均值提取的特征。
      [0059] 所述的步驟S4包括以下子步驟:
      [0060] S41 :離線的根據(jù)訓(xùn)練樣本提取具有魯棒性的特征;
      [0061] S42 :經(jīng)過分類器篩選后的候選區(qū)域?yàn)闄z測出的文本區(qū)域;
      [0062] S43 :將備選區(qū)域進(jìn)行整合后輸出結(jié)果。
      [0063] -種基于交互平臺的復(fù)雜背景中文本的快速檢測方法還包括一個(gè)分類器訓(xùn)練步 驟S0,包括以下子步驟:
      [0064] S01 :將正負(fù)樣本分類;
      [0065] S02 :提取特征;
      [0066] S03 :對分類器訓(xùn)練,訓(xùn)練后的分類器為步驟S4提供基礎(chǔ);所述的分類器為隨機(jī)森 林分類器。
      [0067] 本發(fā)明的有益效果是:本發(fā)明實(shí)現(xiàn)復(fù)
      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1