對圖片進行文本檢測的方法及裝置的制造方法
【技術領域】
[0001]本發(fā)明屬于計算機技術領域,尤其涉及對圖片進行文本檢測的方法及裝置。
【背景技術】
[0002]目前,對圖片進行文本檢測的算法主要分為兩類:基于滑動窗口的方法和基于連通區(qū)域的方法。基于滑動窗口的方法是通過一個大小可變的滑動子窗口掃描一張圖片所有可能的位置,來檢測文本信息,其利用一個訓練好的分類器來判別窗口內(nèi)是否有文本信息;基于連通區(qū)域的方法首先通過一個底層的濾波器快速分割文本和非文本像素,然后把具有相似屬性的文本像素連通起來構成文本成分,筆畫寬度轉化(SWT)算法和最穩(wěn)定極值區(qū)域(MSREs)算法是此類方法的代表。然而,上述方法的分類網(wǎng)絡采用全連接層,丟失了文本區(qū)域的位置信息。
【發(fā)明內(nèi)容】
[0003]有鑒于此,本發(fā)明實施例提供了對圖片進行文本檢測的方法及裝置,以解決現(xiàn)有技術會丟失文本區(qū)域的位置信息的問題。
[0004]第一方面,提供了一種對圖片進行文本檢測的方法,包括:
[0005]獲取進行文本檢測的圖片;
[0006]將所述圖片輸入全卷積網(wǎng)絡的第一層,在所述第一層中基于文本區(qū)域的序列特征,檢測出所述圖片中的文本區(qū)域;
[0007]將所述文本區(qū)域輸入到所述全卷積網(wǎng)絡的第二層,在所述第二層中基于文本中間線的監(jiān)督分類器,將所述文本區(qū)域分解為獨立的文本行區(qū)域輸出,所述文本中間線的區(qū)域由高斯分布的函數(shù)定義。
[0008]另一方面,提供了一種對圖片進行文本檢測的裝置,包括:
[0009]獲取單元,用于獲取進行文本檢測的圖片;
[0010]第一處理單元,用于將所述圖片輸入全卷積網(wǎng)絡的第一層,在所述第一層中基于文本區(qū)域的序列特征,檢測出所述圖片中的文本區(qū)域;
[0011]第二處理單元,用于將所述文本區(qū)域輸入到所述全卷積網(wǎng)絡的第二層,在所述第二層中基于文本中間線的監(jiān)督分類器,將所述文本區(qū)域分解為獨立的文本行區(qū)域輸出,所述文本中間線的區(qū)域由高斯分布的函數(shù)定義。
[0012]本發(fā)明實施例基于兩層級聯(lián)式的全卷積網(wǎng)絡,對圖片中的文本行進行提取,不僅充分節(jié)省了重疊區(qū)域之間的計算資源,而且利用了文本更高層的序列特征作為監(jiān)督信息,提高了文本檢測算法的魯棒性。
【附圖說明】
[0013]為了更清楚地說明本發(fā)明實施例中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0014]圖1是本發(fā)明實施例提供的對圖片進行文本檢測的網(wǎng)絡結構圖;
[0015]圖2是本發(fā)明實施例提供的對圖片進行文本檢測的方法的實現(xiàn)流程圖;
[0016]圖3是本發(fā)明實施例提供的文本中間線的檢測示意圖;
[0017]圖4是本發(fā)明實施例提供的對圖片進行文本檢測的檢測效果示意圖;
[0018]圖5是本發(fā)明實施例提供的對圖片進行文本檢測裝置的結構框圖。
【具體實施方式】
[0019]以下描述中,為了說明而不是為了限定,提出了諸如特定系統(tǒng)結構、技術之類的具體細節(jié),以便透切理解本發(fā)明實施例。然而,本領域的技術人員應當清楚,在沒有這些具體細節(jié)的其它實施例中也可以實現(xiàn)本發(fā)明。在其它情況中,省略對眾所周知的系統(tǒng)、裝置、電路以及方法的詳細說明,以免不必要的細節(jié)妨礙本發(fā)明的描述。
[0020]本發(fā)明實施例基于兩層級聯(lián)式的全卷積網(wǎng)絡,對圖片中的文本行進行提取,不僅充分節(jié)省了重疊區(qū)域之間的計算資源,而且利用了文本更高層的序列特征作為監(jiān)督信息,提高了文本檢測算法的魯棒性。
[0021]圖1示出了本發(fā)明實施例提供的對圖片進行文本檢測的網(wǎng)絡結構,如圖1所示,輸入圖像首先經(jīng)過VGG-16網(wǎng)絡的特征提取層,到達池化層-4,然后將池化層-4的特征圖填充不同大小的邊界,同時用三種不同大小的卷積核進行卷積,將鄭積得到的三種特征圖像進行融合并通過全卷積網(wǎng)絡,將得到的特征上采樣并與池化層-4得到的特征進行融合。參照該網(wǎng)絡結構,接下來通過圖2對本發(fā)明實施例提供的對圖片進行文本檢測的方法的實現(xiàn)流程進行詳細闡述。在本發(fā)明實施例中,采用的卷積網(wǎng)絡是以被廣泛使用的VGG-16N et圖像分類模型為基本框架,結合場景文本的具體特征所改進得到的:
[0022]在S201中,獲取進行文本檢測的圖片。
[0023]在S202中,將所述圖片輸入全卷積網(wǎng)絡的第一層,在所述第一層中基于文本區(qū)域的序列特征,檢測出所述圖片中的文本區(qū)域。
[0024]在本實施例中,用1*1的卷積代替全連接層,使得輸入的圖片可以為任意大小,且能夠保留粗糙的空間位置信息。在該級網(wǎng)絡的檢測中,主要利用了文本區(qū)域的監(jiān)督信息,強調(diào)了文本行矩形的序列結構,為了更好地突出這個序列特征,在本發(fā)明實施例中,將文本區(qū)域和非文本區(qū)域的二分類函數(shù)softmax作為誤差函數(shù),這樣將直接輸出一個和原圖同樣大小的熱點圖,簡單地設置一個閾值就可以將粗糙的文本區(qū)域從圖片中分割開來。
[0025]在網(wǎng)絡設計上,本發(fā)明實施例設計了一種針對文本特征的卷積和,并進行了特征整合:由于文本在自然場景中的表現(xiàn)形式一般為矩形序列,因此,設計了3*7、7*3以及3*3的卷積核,以分別針對不同方向的文本區(qū)域的序列特征,解決了在文本檢測中多語言多方向的問題,減少了人為的干預以及啟發(fā)式參數(shù)的設定,省去了復雜的后處理過程。
[0026]同時,為了使不同的卷積和能夠以同樣大小進行融合,在本發(fā)明實施例中,如圖1所示,對特征圖像進行了不同方式的填補(padding),使得輸出的特征圖大小相同。
[0027]此外,為了更加精細地定位文本區(qū)域,提高特征圖像的分辨率,在本發(fā)明實施例中,進行了pool-4和pool-5的特征融合,將pool-5特征上采樣到的和pool-4同樣大小的特征進行逐元素求和,這樣不僅保留了pool-4更為細節(jié)的特征,同時也保留了pool-5的高層語義信息。
[0028]在S203中,將所述文本區(qū)域輸入到所述全卷積網(wǎng)絡的第二層,在所述第二層中基于文本中間線的監(jiān)督分類器,將所述文本區(qū)域分解為獨立的文本行區(qū)域輸出,所述文本中間線的區(qū)域由高斯分布的函數(shù)定義。
[0029]在S102中,第一層網(wǎng)絡的輸出無法精確地分開文本行,得到的文本區(qū)域是由很多文本行連接在一起的,而文本檢測的最終目的是輸出獨立的文本行區(qū)域,因此,為了實現(xiàn)這一目的,在本發(fā)明實施例中,在第二層網(wǎng)絡設計了一種基于文本中間線的監(jiān)督分類器,如圖3所示,文本中間線的區(qū)域是由一個高斯分布的函數(shù)定義的,由區(qū)域的中間逐漸向兩邊遞減,函數(shù)最大值為I,最小值為O,高斯分布的半徑為0.25*H,所述H為文本區(qū)域最小面積文本框的高度。在第二級網(wǎng)絡中,采用的誤差函數(shù)為sigmoid交叉熵。
[0030]由第二層網(wǎng)絡的設計可知,這樣的設計不僅能夠讓文本區(qū)域有重疊的文本行分離,并且可以根據(jù)文本行的高度推算出整個文本框的高度,高效地利用了重疊區(qū)域的計算資源,利用全卷積網(wǎng)絡保留了文本區(qū)域的位置信息。
[0031]進一步地,為了更加準確地找到文本框,本發(fā)明實施例中,在第二層網(wǎng)絡添加了局部的文本區(qū)域約束,即,將文本區(qū)域的局部區(qū)域送入第一層網(wǎng)絡重新進行文本區(qū)域檢測。
[0032]在本發(fā)明實施例中,設計了一種兩步級聯(lián)的由粗糙到細致的神經(jīng)網(wǎng)絡,其第一級網(wǎng)絡用于在整張圖中檢測粗糙的文本區(qū)域,輸出一個像素級別的顯著性圖,以表征某區(qū)域是否為文本區(qū)域的概率;第二級網(wǎng)絡用于精確的定位文本行的位置,并產(chǎn)生兩個顯著性圖:一張基于文本區(qū)域的顯著性圖,一張基于文本中間線的顯著性圖。上述設計利用神經(jīng)網(wǎng)絡直接輸出文本區(qū)域,且無需設計基于字符的分類器,同時解決了多語言多方向的問題。
[0033]圖4示出了本發(fā)明實施例提供的對圖片進行文本檢測的方法的實現(xiàn)示例圖,其中,第一列為輸入圖像,第二列為粗檢測的結果,第三列為根據(jù)粗檢測結果得到的精細局部區(qū)域圖像,第四列為局部中間線的檢測結果,第五列為第二步局部區(qū)域檢測,第六列為得到的文本檢測結果。
[0034]對應于上文所述的對圖片進行文本檢測的方法,圖5示出了本發(fā)明實施例提供的對圖片進行文本檢測的裝置的結構框圖,為了便于說明,