国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      文字檢測(cè)方法及系統(tǒng)與流程

      文檔序號(hào):11459167閱讀:182來(lái)源:國(guó)知局
      本發(fā)明涉及圖像中的文字檢測(cè)技術(shù),尤其涉及一種文字檢測(cè)方法及系統(tǒng)。
      背景技術(shù)
      ::文檔圖像即圖像格式的文檔,它是通過(guò)某種方式(如掃描)將紙質(zhì)文檔等轉(zhuǎn)化為圖像格式的文檔,以供用戶電子閱讀,文檔圖像的典型示例是便攜式文檔格式(pdf,portabledocumentformat)格式圖像、以及djvu格式圖像。目前的文字檢測(cè)技術(shù)可以對(duì)文檔圖像中的文字進(jìn)行檢測(cè)(定位圖像中承載文字的區(qū)域),并基于檢測(cè)到的承載文字的區(qū)域進(jìn)行文字識(shí)別。一般意義上的圖像不僅包括文檔圖像,還包括非文檔圖像(也就是通過(guò)掃描格式圖像如網(wǎng)絡(luò)相冊(cè)中的用戶上傳圖像,這些圖像可能是聯(lián)合照片專家組(jpg)圖像、位圖(bmp)圖像、標(biāo)簽圖像文件格式(tiff)圖像、圖形交換格式(gif)圖像以及可交換的圖像文件格式(exif)圖像等。如果能識(shí)別非文檔格式圖像中的文字,則可以獲得準(zhǔn)確的語(yǔ)義信息,幫助用戶檢索、管理圖像。要想識(shí)別非掃描格式圖像中的文字,檢測(cè)圖像中的文字是必要的前置步驟,目前的文字檢測(cè)技術(shù)多使用人工指定的特征來(lái)判別圖像是否中是否包含有文字,且多針對(duì)英文字符進(jìn)行檢測(cè),由于中文與英文在字形結(jié)構(gòu)上存在顯著的差異,應(yīng)用于文檔圖像中的中文檢測(cè)時(shí)住準(zhǔn)確度與文檔圖像中檢測(cè)英文的精度存在較大差異,難以滿足實(shí)際應(yīng)用的需求。技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例提供一種文字檢測(cè)方法及系統(tǒng),能夠?qū)D像中的文本進(jìn)行準(zhǔn)確檢測(cè)。本發(fā)明實(shí)施例的技術(shù)方案是這樣實(shí)現(xiàn)的:第一方面,本發(fā)明實(shí)施例提供一種文字檢測(cè)方法,所述方法包括:將目標(biāo)圖像的三色通道中的每個(gè)圖像進(jìn)行減色處理,得到減色圖像,以及,將所述目標(biāo)圖像轉(zhuǎn)換為二值圖像;將所述減色圖像中具有相同色彩的連通塊進(jìn)行合并,以及將所述二值圖像中具有相同色彩的連通塊合并;對(duì)所述減色圖像三色通道的每種色彩通道的連通塊、以及所述二值圖像中的連通塊,分別在豎直和水平方向上以連接的方式進(jìn)行合并,得到所述目標(biāo)圖像中候選的文字區(qū)域;在所述目標(biāo)圖像上對(duì)應(yīng)所述候選的文字區(qū)域的位置提取特定區(qū)域,基于所提取的所述特定區(qū)域中包含文字區(qū)域的概率與預(yù)設(shè)概率閾值的比較結(jié)果判斷所述提取的特定區(qū)域中是否包含文字行或文字列。優(yōu)選地,所述將目標(biāo)圖像的三色通道中的每個(gè)圖像進(jìn)行減色處理,得到減色圖像,包括:將所述目標(biāo)圖像的紅綠藍(lán)三色通道中每個(gè)通道分別做k個(gè)等級(jí)的量化得到k個(gè)等級(jí)的區(qū)間;將所述目標(biāo)圖像中每個(gè)像素在rgb三色通道的亮度映射到對(duì)應(yīng)通道量化的區(qū)間中,k為整數(shù)且255>k>1。優(yōu)選地,所述將減色圖像中具有相同色彩的連通塊進(jìn)行合并,以及將所述二值圖像中具有相同色彩的連通塊合并,包括:對(duì)所述減色圖像中以及所述二值圖像中的每個(gè)像素作為一個(gè)單獨(dú)的連通塊,建立針對(duì)所述像素的并查集執(zhí)行以下處理:若所述像素與8鄰接的像素中的任一像素的色彩相同,則將相鄰的兩個(gè)色彩相同的像素所屬的連通塊合并為同一個(gè)連通塊。對(duì)每個(gè)所述連通塊的像素面積進(jìn)行判斷,如果所述連通塊的像素面積小于像素面積閾值,則將所述連通塊并入與所述連通塊相鄰的連通塊,并將所述連通塊的色彩設(shè)置為所并入的連通塊的色彩。優(yōu)選地,所述將所述減色圖像中具有相同色彩的連通塊進(jìn)行合并,以及將 所述二值圖像中具有相同色彩的連通塊合并之后,所述方法還包括:丟棄減色圖像中以及二值圖像中符合預(yù)設(shè)特征的連通塊;所述預(yù)設(shè)特征包括以下至少之一:所述連通塊中面積小于像素面積閾值的連通塊;所述連通塊中任意一邊長(zhǎng)度大于相應(yīng)圖像邊長(zhǎng)的第一預(yù)設(shè)比例的連通塊;所述連通塊中任意一邊長(zhǎng)大于邊框長(zhǎng)度閾值,且像素面積與包圍盒積的比值小于比值閾值的連通塊。優(yōu)選地,所述將所述減色圖像中具有相同色彩的連通塊進(jìn)行合并,以及將所述二值圖像中具有相同色彩的連通塊合并之后,所述方法還包括:基于所述減色圖像中的每種色彩通道的連通塊的位置關(guān)系分別進(jìn)行合并為新的連通塊,以及針對(duì)所述二值圖像中的連通塊基于位置關(guān)系進(jìn)行合并為新的連通塊;其中,包括執(zhí)行以下處理至少之一:合并距離小于距離閾值的連通塊;取任意兩個(gè)所述連通塊的各自的長(zhǎng)寬的平均值的中的最大值,若所述最大值滿足預(yù)設(shè)條件,合并所選取的所述兩個(gè)連通塊;合并包圍盒存在交叉且交叉部分符合預(yù)設(shè)交叉特征的連通塊;合并包圍盒對(duì)齊且滿足預(yù)設(shè)對(duì)齊合并規(guī)則的連通塊。優(yōu)選地,所述對(duì)所述減色圖像三色通道的每種色彩通道的連通塊、以及所述二值圖像中的連通塊,分別在豎直和水平方向上以連接的方式進(jìn)行合并,得到所述目標(biāo)圖像中候選的文字區(qū)域,包括:基于連接合并規(guī)則不同類型的依次進(jìn)行水平方向的合并、豎直方向的合并、以及水平方向的合并;其中,所述連接合并規(guī)則包括:滿足以下條件至少之一連接選取的兩個(gè)連通塊為新的連通塊:兩個(gè)所述連通塊的包圍盒在參考軸向上的中心距離或者邊緣距離中的最小距離,小于兩個(gè)所述連通塊的包圍盒對(duì)應(yīng)所述參考軸向的邊長(zhǎng)中最小邊長(zhǎng)的第一預(yù)設(shè)比例;兩個(gè)所述連通塊的包圍盒在在垂直于所述參考軸向的方向上的距離小于兩 個(gè)所述連通塊的包圍盒在垂直于所述參考軸向的邊長(zhǎng)中最小邊長(zhǎng)的第二預(yù)設(shè)比例;兩個(gè)所述連通塊的包圍盒在所述參考軸向的邊長(zhǎng)的差值小于兩個(gè)所述連通塊的包圍盒對(duì)應(yīng)所述參考軸向的邊長(zhǎng)中最小邊長(zhǎng)的第三預(yù)設(shè)比例。優(yōu)選地,所述在所述目標(biāo)圖像上對(duì)應(yīng)所述候選的文字區(qū)域的位置提取特定區(qū)域,基于所提取的所述特定區(qū)域中包含文字區(qū)域的概率與預(yù)設(shè)概率閾值的比較結(jié)果判斷所述提取的特定區(qū)域中是否包含文字行或文字列,包括:以所述目標(biāo)圖像上提取出一個(gè)所述特定區(qū)域,將在所述減色圖像和所述二值圖像得到連接的包圍盒,以特定滑窗步長(zhǎng)滑窗將在所述減色圖像和所述二值圖中連接得到的包圍盒送入卷積神經(jīng)網(wǎng)絡(luò)分類器中判別,得到每個(gè)所述滑窗內(nèi)包含文字的概率;對(duì)所述滑窗內(nèi)包含文字的概率取平均值,得到所述候選的文字區(qū)域包括文字行或文字列的概率;若所得到的大于預(yù)設(shè)的概率閾值,則判定所述特定區(qū)域內(nèi)存在文字行或文字列。第二方面,本發(fā)明實(shí)施例提供一種文字檢測(cè)系統(tǒng),所述系統(tǒng)包括:減色二值處理單元,用于將目標(biāo)圖像的三色通道中的每個(gè)圖像進(jìn)行減色處理,得到減色圖像,以及,將所述目標(biāo)圖像轉(zhuǎn)換為二值圖像;第一合并單元,用于將所述減色圖像中具有相同色彩的連通塊進(jìn)行合并,以及將所述二值圖像中具有相同色彩的連通塊合并;第二合并單元,用于對(duì)所述減色圖像三色通道的每種色彩通道的連通塊、以及所述二值圖像中的連通塊,分別在豎直和水平方向上以連接的方式進(jìn)行合并,得到所述目標(biāo)圖像中候選的文字區(qū)域;判斷單元,用于在所述目標(biāo)圖像上對(duì)應(yīng)所述候選的文字區(qū)域的位置提取特定區(qū)域,基于所提取的所述特定區(qū)域中包含文字區(qū)域的概率與預(yù)設(shè)概率閾值的比較結(jié)果判斷所述提取的特定區(qū)域中是否包含文字行或文字列。優(yōu)選地,所述減色二值處理單元,還用于將所述目標(biāo)圖像的紅綠藍(lán)三色通 道中每個(gè)通道分別做k個(gè)等級(jí)的量化得到k個(gè)等級(jí)的區(qū)間;將所述目標(biāo)圖像中每個(gè)像素在rgb三色通道的亮度映射到對(duì)應(yīng)通道量化的區(qū)間中,k為整數(shù)且255>k>1。優(yōu)選地,所述第一合并單元,還用于對(duì)所述減色圖像中以及所述二值圖像中的每個(gè)像素作為一個(gè)單獨(dú)的連通塊,建立針對(duì)所述像素的并查集執(zhí)行以下處理:所述第一合并單元,還用于若所述像素與8鄰接的像素中的任一像素的色彩相同,則將相鄰的兩個(gè)色彩相同的像素所屬的連通塊合并為同一個(gè)連通塊所述第一合并單元,還用于對(duì)每個(gè)所述連通塊的像素面積進(jìn)行判斷,如果所述連通塊的像素面積小于像素面積閾值,則將所述連通塊并入與所述連通塊相鄰的連通塊,并將所述連通塊的色彩設(shè)置為所并入的連通塊的色彩。優(yōu)選地,所述系統(tǒng)還包括:丟棄處理單元,用于在所述第一合并單元將所述減色圖像中具有相同色彩的連通塊進(jìn)行合并,以及將所述二值圖像中具有相同色彩的連通塊合并之后,丟棄減色圖像中以及二值圖像中符合預(yù)設(shè)特征的連通塊;所述預(yù)設(shè)特征包括以下至少之一:丟棄掉所述連通塊中面積小于像素面積閾值的連通塊;丟棄所述連通塊中任意一邊長(zhǎng)度大于相應(yīng)圖像邊長(zhǎng)的第一預(yù)設(shè)比例的連通塊;丟棄所述連通塊中任意一邊長(zhǎng)大于邊框長(zhǎng)度閾值,且像素面積與包圍盒積的比值小于比值閾值的連通塊。優(yōu)選地,所述系統(tǒng)還包括第四合并單元,用于在所述第一合并單元將所述減色圖像中具有相同色彩的連通塊進(jìn)行合并,以及將所述二值圖像中具有相同色彩的連通塊合并之后,基于所述減色圖像中的每種色彩通道的連通塊的位置關(guān)系分別進(jìn)行合并為新的連通塊,以及針對(duì)所述二值圖像中的連通塊基于位置關(guān)系進(jìn)行合并為新的連通塊;其中,第四合并單元,還用于執(zhí)行以下處理至少之一:合并距離小于距離閾值的連通塊;取任意兩個(gè)所述連通塊的各自的長(zhǎng)寬的平均值的中的最大值,若所述最大值滿足預(yù)設(shè)條件,合并所選取的所述兩個(gè)連通塊;合并包圍盒存在交叉且交叉部分符合預(yù)設(shè)交叉特征的連通塊;合并包圍盒對(duì)齊且滿足預(yù)設(shè)對(duì)齊合并規(guī)則的連通塊。優(yōu)選地,所述第二合并單元,還用于基于連接合并規(guī)則不同類型的依次進(jìn)行水平方向的合并、豎直方向的合并,以及水平方向的合并;其中,所述連接合并規(guī)則包括:滿足以下條件至少之一連接選取的兩個(gè)連通塊為新的連通塊:兩個(gè)所述連通塊的包圍盒在參考軸向上的中心距離或者邊緣距離中的最小距離,小于兩個(gè)所述連通塊的包圍盒對(duì)應(yīng)所述參考軸向的邊長(zhǎng)中最小邊長(zhǎng)的第一預(yù)設(shè)比例;兩個(gè)所述連通塊的包圍盒在在垂直于所述參考軸向的方向上的距離小于兩個(gè)所述連通塊的包圍盒在垂直于所述參考軸向的邊長(zhǎng)中最小邊長(zhǎng)的第二預(yù)設(shè)比例;兩個(gè)所述連通塊的包圍盒在所述參考軸向的邊長(zhǎng)的差值小于兩個(gè)所述連通塊的包圍盒對(duì)應(yīng)所述參考軸向的邊長(zhǎng)中最小邊長(zhǎng)的第三預(yù)設(shè)比例。優(yōu)選地,所述判斷單元,還用于以所述目標(biāo)圖像上提取出一個(gè)特定區(qū)域,將在所述減色圖像和所述二值圖像得到連接的包圍盒,以特定滑窗步長(zhǎng)滑窗將在所述減色圖像和所述二值圖中連接得到的包圍盒送入卷積神經(jīng)網(wǎng)絡(luò)分類器中判別,得到每個(gè)所述滑窗內(nèi)包含文字的概率;所述判斷單元,還用于對(duì)所述滑窗內(nèi)包含文字的概率取平均值,得到所述候選的文字區(qū)域包括文字行或文字列的概率;所述判斷單元,還用于若所得到的大于預(yù)設(shè)的概率閾值,則判定所述特定區(qū)域內(nèi)存在文字行或文字列。本發(fā)明實(shí)施例中對(duì)圖像按照色彩分割為連通塊,將連通塊為包含文字的潛 在的包圍盒,然后用卷積神經(jīng)網(wǎng)絡(luò)滑窗驗(yàn)證每個(gè)包圍盒包含文字行(或文字列)的概率,當(dāng)概率大于預(yù)設(shè)概率閾值時(shí)判定包圍盒中包含有文字行(或文字列),上述處理適用于文檔圖像和非文檔圖像,能夠?qū)D像中的文本進(jìn)行準(zhǔn)確檢測(cè)。附圖說(shuō)明圖1是本發(fā)明實(shí)施例文字檢測(cè)方法的一個(gè)流程示意圖一;圖2是本發(fā)明實(shí)施例文字檢測(cè)方法的一個(gè)流程示意圖二;圖3至圖6是本發(fā)明實(shí)施例中文字檢測(cè)方法的檢測(cè)結(jié)果示意圖;圖7至圖8是本發(fā)明實(shí)施例中卷積神經(jīng)網(wǎng)絡(luò)的示意圖;圖9是本發(fā)明實(shí)施例文字檢測(cè)系統(tǒng)的一個(gè)可選的結(jié)構(gòu)示意圖。具體實(shí)施方式本發(fā)明實(shí)施例提供一種用于在圖像(包括掃描格式的圖像和非掃描格式的圖像)中檢測(cè)文字的方法及系統(tǒng),這里的圖像不僅包括常規(guī)的掃描格式的圖像如pdf格式,還可以包括非文檔圖像如聯(lián)合照片專家組(jpg)圖像,位圖(bmp)圖像、標(biāo)簽圖像文件格式(tiff)圖像、圖形交換格式(gif)圖像、可交換的圖像文件格式(exif)圖像等。本發(fā)明實(shí)施例記載的文字檢測(cè)系統(tǒng)通過(guò)實(shí)施文件檢測(cè)方法對(duì)圖像中承載文字的區(qū)域進(jìn)行定位,文件檢測(cè)系統(tǒng)進(jìn)行文字檢測(cè)的圖像可以是文檔圖像如pdf文檔,也可以是非文檔圖像,如jpg圖像、bmp圖像、tiff圖像、gif圖像以及exif圖像,作為圖像的一個(gè)來(lái)源,主要是電子設(shè)備(如智能手機(jī)、平板電腦、筆記本電腦)的截屏、海報(bào)雜志等印刷品的掃描電子版、以及其他含有印刷體漢字的數(shù)字圖像。參見(jiàn)圖1,本發(fā)明實(shí)施例中,在步驟101中將目標(biāo)圖像的三色通道中的每個(gè)圖像進(jìn)行減色處理,得到減色圖像,以及,將所述目標(biāo)圖像轉(zhuǎn)換為二值圖像;在步驟102中,將所述減色圖像中具有相同色彩的連通塊進(jìn)行合并,以及將所述二值圖像中具有相同色彩的連通塊合并;在步驟103中對(duì)所述減色圖像三色 通道的每種色彩通道的連通塊、以及所述二值圖像中的連通塊,分別在豎直和水平方向上以連接的方式進(jìn)行合并,得到所述目標(biāo)圖像中候選的文字區(qū)域;在步驟104中,在所述目標(biāo)圖像上對(duì)應(yīng)所述候選的文字區(qū)域的位置提取特定區(qū)域,基于所提取的所述特定區(qū)域中包含文字區(qū)域的概率與預(yù)設(shè)概率閾值的比較結(jié)果判斷所述提取的特定區(qū)域中是否包含文字行或文字列??梢钥闯?,文字檢測(cè)系統(tǒng)通過(guò)將圖像的色彩聚類、分層,連通塊合并和過(guò)濾,以及基于深度卷積神經(jīng)網(wǎng)絡(luò)的判別,定位如圖3至圖6示出的圖像中的文本行(或者為文字列,如漢字的文字行、當(dāng)然也可以為字母如英文字母、數(shù)字、符號(hào)的文本行,或漢字、字母、數(shù)字、符號(hào)等任意類型的字符組合形成的文本行),從而基于定位的文本行對(duì)文本行中的文字進(jìn)行識(shí)別。以下結(jié)合附圖及具體實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。實(shí)施例一參見(jiàn)圖2,本實(shí)施例文字檢測(cè)系統(tǒng)檢測(cè)文字的方法包括以下步驟:步驟201,對(duì)目標(biāo)圖像進(jìn)行減色處理得到目標(biāo)圖像的減色圖像。輸入要檢測(cè)的目標(biāo)圖像,將目標(biāo)圖像的紅綠藍(lán)(rgb)三色的各個(gè)通道分別做k個(gè)等級(jí)的量化(k為整數(shù)且255>k>1,例如取值為4),即rgb三色通道中每個(gè)通道的亮度劃分(例如均勻劃分)為k個(gè)區(qū)間(bin),也就是將0-255的亮度等級(jí)降低為0-(k-1)等級(jí),將目標(biāo)圖像中每個(gè)像素在rgb三色通道的亮度映射到對(duì)應(yīng)通道劃分的bin中,對(duì)于目標(biāo)圖像來(lái)說(shuō),由于rgg三色通道中每個(gè)通道具有256個(gè)亮度等級(jí)(0-255),因此目標(biāo)圖像可以具有255^3(255的三次方)種色彩,而rgb三色通道中每個(gè)通道的亮度劃分為k個(gè)區(qū)間后,目標(biāo)圖像具有k^3(k的三次方,小于255^3)種色彩,因此得到減色圖像f1。以k取值為2為例,每個(gè)通道在量化后具有0和1兩個(gè)亮度的等級(jí),也就是將每個(gè)通道的亮度等級(jí)0-255中的0-127映射到量化后的亮度0,將每個(gè)通道的亮度等級(jí)0-255中的128-255映射到量化后的亮度1,如目標(biāo)圖像中一個(gè)像素的對(duì)應(yīng)rgb三色通道的亮度為(0,122,255),則降色處理后的亮度為(0,0, 1),對(duì)目標(biāo)圖像中的每個(gè)像素進(jìn)行上述的亮度映射的處理。由于圖像中的文字通常有2種情況:1)文字是單色的;2)文字的亮度與文字周邊的區(qū)域有明顯差異。步驟201分別針對(duì)上述兩種情況實(shí)現(xiàn)了以下的技術(shù)效果:使減色圖像中的文字具有k^3種色彩的一種。步驟202,對(duì)目標(biāo)圖像進(jìn)行局部二值化處理得到目標(biāo)圖像的二值圖像。將目標(biāo)圖像轉(zhuǎn)換為灰度圖(只有一個(gè)灰度通道),對(duì)灰度圖進(jìn)行局部自適應(yīng)二值化:將灰度圖劃分為n個(gè)窗口,對(duì)這n個(gè)窗口中的每一個(gè)窗口再按照一個(gè)統(tǒng)一的閾值t將窗口內(nèi)的像素劃分為兩部分,得到二值圖像f2,t為此像素為中心的預(yù)設(shè)尺寸(如25*25像素)的窗口的高斯加權(quán)和。由于圖像中的文字通常有2種情況:1)文字是單色的;2)文字的亮度與文字周邊的區(qū)域有明顯差異。步驟202分別針對(duì)上述兩種情況實(shí)現(xiàn)了以下的技術(shù)效果:使二值圖像中的文字屬于黑色或白色的一種。步驟201和步驟202中得到的減色圖像以及二值圖像中的文字對(duì)應(yīng)的像素具有相同的色彩,步驟203中以每個(gè)像素作為連通塊并將具有相同色彩的連通塊合并,從而將文字進(jìn)行連接。步驟203,識(shí)別減色圖像中以及二值圖像中的連通塊,將減色圖像中具有相同色彩的連通塊進(jìn)行合并,以及將二值圖像中具有相同色彩的連通塊合并。對(duì)于減色圖像f1的rgb三色通道的每個(gè)色彩通道的連通塊,以及二值圖像f2的連通塊(只有一個(gè)灰度圖像),執(zhí)行以下處理:1)對(duì)每個(gè)像素作為一個(gè)單獨(dú)的連通塊(也就是連通子圖,是圖論中的概念,把圖像上每個(gè)像素作為無(wú)向圖中的一個(gè)頂點(diǎn),相鄰的像素之間視作有一條邊,整個(gè)圖像視作一個(gè)無(wú)向圖)。2)建立并查集,并查集是一種經(jīng)典的算法,用于高效率地進(jìn)行連通塊合并過(guò)程)。3)遍歷減色圖像f1,以及二值圖像f2的每個(gè)像素以執(zhí)行以下處理:遍歷減色圖像f1中的像素:對(duì)于某一像素,若該像素與8鄰接的像素(是指像素的上下左右以及2條對(duì)角線的兩端的共8個(gè)鄰接的像素)中的任一像素 的色彩(像素在rgb通道中任一通道的色彩是指像素在相應(yīng)通道的亮度值,像素灰度圖中的色彩是指像素在該灰度圖中的灰度值)相同,則將相鄰的兩個(gè)色彩相同的像素所屬的連通塊合并為同一個(gè)連通塊;然后,遍歷每個(gè)連通塊,對(duì)每個(gè)連通塊的像素面積進(jìn)行判斷:如果連通塊k(k的取值范圍對(duì)應(yīng)連通塊的數(shù)量)的像素面積小于像素面積閾值(4像素),則該連通塊k(像素面積小于像素面積閾值的)并入與該連通塊k相鄰的連通塊,并將連通塊(像素面積小于像素面積閾值的)的色彩設(shè)置為所并入的連通塊的色彩。例如,對(duì)于減色圖像f1中的像素i(i取值為i1≥i≥1,i1為減色圖像f1中的像素的數(shù)量)在rgb三色通道中任一通道x(這里,通道x為rgb三色通道中的任一通道,這里設(shè)為r通道)的亮度,若像素i與8鄰接的像素(是指像素i的上下左右以及2條對(duì)角線的兩端的共8個(gè)鄰接像素)中的任一像素j在相應(yīng)通道(與前述假設(shè)的r通道一致)的亮度一致,則將像素i所屬的連通塊與像素j所屬的連通塊合并為一個(gè)連通塊。然后,遍歷每個(gè)連通塊,對(duì)每個(gè)連通塊的像素面積進(jìn)行判斷:如果連通塊k(k的取值范圍為連通塊的數(shù)量)的像素面積小于閾值(4像素),則將連通塊k合并到與連通塊k相鄰的連通塊中,連通塊k中像素的色彩設(shè)置為連通塊k所并入的連通塊的亮度。再例如,對(duì)于某一像素,若目標(biāo)圖像的灰度圖中的像素i(i取值為i2≥i≥1,i2為灰度圖中的像素的數(shù)量)與8鄰接的像素(像素i的上下左右以及2條對(duì)角線的兩端的共8個(gè)像素)中的像素j的色彩(灰度值)相同,則將相鄰的像素i和像素j所屬的連通塊合并為同一個(gè)連通塊;然后,遍歷每個(gè)連通塊,對(duì)每個(gè)連通塊的像素面積進(jìn)行判斷:如果連通塊k(k的取值范圍為連通塊的數(shù)量)的像素面積小于閾值(4像素),則將連通塊k合并到與連通塊k相鄰的連通塊中,連通塊k中像素的灰度值設(shè)置為連通塊k所并入的連通塊中像素的灰度值。步驟203將屬于同一個(gè)字符(對(duì)于漢字,至少是同一個(gè)筆畫)的像素合并在一起成為一個(gè)稱為一個(gè)連通塊供后續(xù)處理。后續(xù)步驟204丟棄減色圖像中以及二值圖像中符合預(yù)設(shè)特征(這里的預(yù)設(shè) 特征與圖像中的非文字區(qū)域的特征對(duì)應(yīng))的連通塊。步驟204,對(duì)減色圖像中以及二值圖像中的連通塊合并后,丟棄減色圖像中以及二值圖像中符合預(yù)設(shè)特征(這里的預(yù)設(shè)特征與圖像中的非文字區(qū)域的特征對(duì)應(yīng))的連通塊。對(duì)減色圖像f1中每種色彩通道的連通塊、以及二值圖像f2的連通塊分別進(jìn)行以下處理至少之一:1)丟棄掉連通塊中面積仍然小于像素面積閾值(例如4像素)的連通塊,面積仍然小于像素面積閾值(例如4像素)的連通塊視為未承載文字;2)丟棄掉背景色對(duì)應(yīng)的連通塊:連通塊任意一邊長(zhǎng)度大于相應(yīng)圖像邊長(zhǎng)的第一預(yù)設(shè)比例(如0.8倍);3)丟棄掉邊框?qū)?yīng)的連通塊:連通塊任意一邊長(zhǎng)大于邊框長(zhǎng)度閾值(如65像素),且連通塊像素面積與包圍盒積的比值小于比值閾值(如0.22)。連通塊的包圍盒就是將連通塊所含的所有像素都包括進(jìn)去的最小的矩形(矩形的邊對(duì)應(yīng)平行于圖像x和y軸,所以可以唯一確定)可選地,鑒于圖像中包括漢字等筆畫不連通的文字的情況,還可以執(zhí)行步驟206將圖像中的文字(如漢字、以及英文字符中的i和j)中不連通的筆畫合并到一起。步驟205,基于減色圖像中的每種色彩通道的連通塊的位置關(guān)系(如距離、交叉)分別進(jìn)行合并為新的連通塊,以及針對(duì)二值圖像中的連通塊基于位置關(guān)系(如距離、交叉)進(jìn)行合并為新的連通塊。1)合并距離小于距離閾值的連通塊(距離是指兩個(gè)連通塊的包圍盒中心點(diǎn)的切比雪夫距離d)。2)取兩個(gè)連通塊的各自的長(zhǎng)寬的平均值的中的最大值,設(shè)為ms(max((a1+b1)/2.0,(a2+b2)/2.0)),a1、b1是第一個(gè)連通塊的包圍盒的長(zhǎng)度和寬度a2、b2是第二個(gè)連通塊的包圍盒的長(zhǎng)度和寬度),取0.4ms作為距離閾值。然后,若滿足預(yù)設(shè)條件如:0.4ms<1或者1<0.4ms<3,且距離d<3;合并所選取的兩個(gè)連通塊。3)對(duì)于減色圖像f1的rgb三色通道的每個(gè)通道的連通塊,以及二值圖像f2的連通塊,合并包圍盒存在交叉且交叉部分符合預(yù)設(shè)交叉特征的連通塊。例如,若兩個(gè)連通塊的包圍盒存在交叉,則交叉部分的面積大于兩個(gè)包圍盒中面積較小者的面積的預(yù)設(shè)10%,且交叉部分面積小于圖像面積的10%,則合并上述包圍盒存在交叉的連個(gè)連通塊。4)合并包圍盒對(duì)齊且滿足預(yù)設(shè)對(duì)齊合并規(guī)則的連通塊(對(duì)齊是指:連通塊的包圍盒在水平或者豎直方向上對(duì)齊,即:1)兩個(gè)連通塊的包圍盒高度一致,且在豎直方向位置一致;2)兩個(gè)連通塊的包圍盒的寬度一致,且在水平方向的位置一致)合并。對(duì)齊合并規(guī)則的一個(gè)示例為:將對(duì)齊的連通塊合并后,兩個(gè)連通塊的包圍盒(也就是包含兩個(gè)包圍盒的最小包圍盒)相對(duì)兩個(gè)連通塊的包圍盒面積加和的增量小于面積增量比例閾值(如10%),且合并后的包圍盒的面積小于圖像面積的比例閾值(如10%),則合并這兩個(gè)連通塊的包圍盒。步驟206,對(duì)減色圖像f1的rgb三色通道的每種色彩通道的連通塊、以及二值圖像f2中的連通塊,分別在豎直和水平方向上以連接的方式進(jìn)行合并,得到圖像中候選的文字區(qū)域(包括文字行區(qū)域和文字列區(qū)域)。目的在將單個(gè)的文字(如漢字)連接成文字行或者列:基于連接合并規(guī)則(對(duì)水平方向的合并和豎直方向的合并使用相同的連接合并規(guī)則,后續(xù)進(jìn)行說(shuō)明)首先對(duì)連通塊的進(jìn)行一次水平方向的合并,然后再做一次豎直方向的合并,最后再做一次水平方向的合并。通常在圖像中橫排方式的文字比豎排文字常見(jiàn),所以步驟206中首先對(duì)連通塊進(jìn)行水平方向的合并,,保證水平排列的文字首先進(jìn)行合并,減小水平文字被錯(cuò)誤地豎直合并的可能,然后對(duì)連通塊進(jìn)行豎直方向的合并,把不滿足水平合并規(guī)則但滿足豎直合并規(guī)則的合并好;但是這個(gè)過(guò)程中因?yàn)檫B通塊的包圍盒可能是變化的,產(chǎn)生新的滿足水平合并規(guī)則的包圍盒對(duì),所以再做一次水平方向的連通塊的合并。連接合并規(guī)則的一個(gè)示例為兩個(gè)連通塊的包圍盒滿足以下條件至少之一連 接兩個(gè)連通塊為新的連通塊:1)兩個(gè)連通塊的包圍盒在參考軸向(水平軸或豎直軸)上的中心距離(兩個(gè)包圍盒在相應(yīng)參考軸向上的中心的坐標(biāo)的距離)或者邊緣距離中的最小距離(兩個(gè)包圍盒在參考軸向上的邊緣坐標(biāo)之間的距離),小于兩個(gè)包圍盒對(duì)應(yīng)參考軸向的邊長(zhǎng)(與參考軸向方向一致邊長(zhǎng))中最小邊長(zhǎng)的第一預(yù)設(shè)比例(如0.15倍);由于兩個(gè)包圍盒在相應(yīng)參考軸向上的坐標(biāo)范圍可能是分離的也可能是部分重合的,所以采用中心距離或邊緣距離中較小距離的方式能夠最準(zhǔn)確表征兩個(gè)連通塊的包圍盒在相應(yīng)參考軸向上的距離。2)兩個(gè)連通塊的包圍盒在垂直于參考軸向的方向的距離小于兩個(gè)包圍盒對(duì)應(yīng)垂直于參考軸向的邊長(zhǎng)中最小邊長(zhǎng)的第二預(yù)設(shè)比例(如兩倍);3)兩個(gè)連通塊的包圍盒在參考軸向的邊長(zhǎng)的差值(兩個(gè)2連通塊的包圍盒的對(duì)應(yīng)參考軸向的邊長(zhǎng)的差值)小于兩個(gè)連通塊的包圍盒在相應(yīng)參考軸向的邊長(zhǎng)中最小邊長(zhǎng)的第三預(yù)設(shè)比例(如30%)。步驟207,在目標(biāo)圖像上對(duì)應(yīng)連接到一起的連通塊對(duì)應(yīng)的包圍盒(也就是包含文字行或文字列的候選的文字區(qū)域)的位置提取特定區(qū)域,對(duì)于每個(gè)提取的特定區(qū)域,基于特定區(qū)域中包含文字行或文字列的概率對(duì)應(yīng)判斷該特定區(qū)域中是否包含文字行或文字列。前述步驟201至步驟206中,將在減色圖像f1和二值圖像f2得到連接的包圍盒,也就是被連接成一行的包圍盒的并集得到的新的包圍盒,形狀上為矩形,也就是潛在的包括文字行或文字列的區(qū)域(也就是候選的文字區(qū)域),在目標(biāo)圖像i上提取出一個(gè)感興趣區(qū)域(roiregionofinterest,也就是前述的特定區(qū)域,從目標(biāo)圖像i中以方框、圓、橢圓、不規(guī)則多邊形等方式勾勒出的需要處理的區(qū)域),以特定滑窗步長(zhǎng)如以該區(qū)域的最短邊長(zhǎng)s為窗口邊長(zhǎng),0.5s為滑窗步長(zhǎng)滑窗送入預(yù)先訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)(cnn)分類器中判別,得到每個(gè)滑窗內(nèi)包含文字的概率p_w,對(duì)所有p_w取平均值,得到候選的文字區(qū)域是文字行(或文字列)的概率p_l,若概率p_l大于預(yù)設(shè)的概率閾值(取0.5),則判 定感興趣區(qū)域內(nèi)存在文字行(或文字列)。步驟208,對(duì)重疊的包圍盒合并成一個(gè)包圍盒并作為包含文字的區(qū)域輸出。步驟201到204保證了包圍盒(也即是潛在的文字區(qū)域)的位置準(zhǔn)確性(即使這個(gè)包圍盒內(nèi)是別的圖像元素而不是文字行(或文字列),也能夠準(zhǔn)確地把對(duì)應(yīng)文字行的圖像元素丟棄,而步驟208中概率閾值過(guò)濾保證通過(guò)過(guò)濾的包圍盒內(nèi)都包含文字行(或文字列),通過(guò)過(guò)濾的包圍盒均有比較準(zhǔn)確的位置,不需要非極大抑制,直接對(duì)所有重疊的包圍盒,合并成一個(gè)包圍盒并輸出。卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練步驟:對(duì)拿到的數(shù)據(jù)(包含文字的圖像),標(biāo)注其中的漢字,然后對(duì)上述步驟206(卷積神經(jīng)網(wǎng)絡(luò)過(guò)濾前)的輸出進(jìn)行篩選,選取于標(biāo)注接近的部分,將包圍盒按照上述步驟208中的方法切割為滑窗,人工分離出屬于文字和不屬于文字的窗口,所有的窗口被縮放至32*32像素。將這些窗口構(gòu)建訓(xùn)練和驗(yàn)證數(shù)據(jù),訓(xùn)練圖6和圖7示出的神經(jīng)網(wǎng)絡(luò),訓(xùn)練時(shí)每個(gè)數(shù)據(jù)被隨機(jī)中心裁剪成27*27像素大小,并隨機(jī)翻轉(zhuǎn)。使用隨機(jī)梯度下降(sgd)訓(xùn)練,訓(xùn)練的batch_size取50,權(quán)值衰減_(weight_decay)取0.0005,動(dòng)量momentum取0.9,學(xué)習(xí)率(learningrate)以如下公式計(jì)算lr=base_lr*(1+0.0001*iter)^(-0.75),iter是迭代的次數(shù),前10萬(wàn)次迭代,base_lr取0.001,之后取0.0001。本發(fā)明實(shí)施例提供一種文字檢測(cè)系統(tǒng),參見(jiàn)圖9,包括:減色二值處理單元100,用于將目標(biāo)圖像的三色通道中的每個(gè)圖像進(jìn)行減色處理,得到減色圖像,以及,將所述目標(biāo)圖像轉(zhuǎn)換為二值圖像;第一合并單元200,用于將所述減色圖像中具有相同色彩的連通塊進(jìn)行合并,以及將所述二值圖像中具有相同色彩的連通塊合并;第二合并單元300,用于對(duì)所述減色圖像三色通道的每種色彩通道的連通塊、以及所述二值圖像中的連通塊,分別在豎直和水平方向上以連接的方式進(jìn)行合并,得到所述目標(biāo)圖像中候選的文字區(qū)域;判斷單元400,用于在所述目標(biāo)圖像上對(duì)應(yīng)所述候選的文字區(qū)域的位置提 取特定區(qū)域,基于所提取的所述特定區(qū)域中包含文字區(qū)域的概率與預(yù)設(shè)概率閾值的比較結(jié)果判斷所述提取的特定區(qū)域中是否包含文字行或文字列。優(yōu)選地,所述減色二值處理單元100,還用于將所述目標(biāo)圖像的紅綠藍(lán)三色通道中每個(gè)通道分別做k個(gè)等級(jí)的量化得到k個(gè)等級(jí)的區(qū)間;將所述目標(biāo)圖像中每個(gè)像素在rgb三色通道的亮度映射到對(duì)應(yīng)通道量化的區(qū)間中,k為整數(shù)且255>k>1。優(yōu)選地,所述第一合并單元200,還用于對(duì)所述減色圖像中以及所述二值圖像中的每個(gè)像素作為一個(gè)單獨(dú)的連通塊,建立針對(duì)所述像素的并查集執(zhí)行以下處理:所述第一合并單元200,還用于若所述像素與8鄰接的像素中的任一像素的色彩相同,則將相鄰的兩個(gè)色彩相同的像素所屬的連通塊合并為同一個(gè)連通塊所述第一合并單元200,還用于對(duì)每個(gè)所述連通塊的像素面積進(jìn)行判斷,如果所述連通塊的像素面積小于像素面積閾值,則將所述連通塊并入與所述連通塊相鄰的連通塊,并將所述連通塊的色彩設(shè)置為所并入的連通塊的色彩。優(yōu)選地,所述系統(tǒng)還包括:丟棄處理單元500,用于在所述第一合并單元200將所述減色圖像中具有相同色彩的連通塊進(jìn)行合并,以及將所述二值圖像中具有相同色彩的連通塊合并之后,丟棄減色圖像中以及二值圖像中符合預(yù)設(shè)特征的連通塊;所述預(yù)設(shè)特征包括以下至少之一:丟棄掉所述連通塊中面積小于像素面積閾值的連通塊;丟棄所述連通塊中任意一邊長(zhǎng)度大于相應(yīng)圖像邊長(zhǎng)的第一預(yù)設(shè)比例的連通塊;丟棄所述連通塊中任意一邊長(zhǎng)大于邊框長(zhǎng)度閾值,且像素面積與包圍盒積的比值小于比值閾值的連通塊。優(yōu)選地,所述系統(tǒng)還包括第三合并單元600,用于在所述第一合并單元200將所述減色圖像中具有 相同色彩的連通塊進(jìn)行合并,以及將所述二值圖像中具有相同色彩的連通塊合并之后,基于所述減色圖像中的每種色彩通道的連通塊的位置關(guān)系分別進(jìn)行合并為新的連通塊,以及針對(duì)所述二值圖像中的連通塊基于位置關(guān)系進(jìn)行合并為新的連通塊;其中,第三合并單元600,還用于執(zhí)行以下處理至少之一:合并距離小于距離閾值的連通塊;取任意兩個(gè)所述連通塊的各自的長(zhǎng)寬的平均值的中的最大值,若所述最大值滿足預(yù)設(shè)條件,合并所選取的所述兩個(gè)連通塊;合并包圍盒存在交叉且交叉部分符合預(yù)設(shè)交叉特征的連通塊;合并包圍盒對(duì)齊且滿足預(yù)設(shè)對(duì)齊合并規(guī)則的連通塊。優(yōu)選地,所述第二合并單元300,還用于基于連接合并規(guī)則不同類型的依次進(jìn)行水平方向的合并、豎直方向的合并,以及水平方向的合并;其中,所述連接合并規(guī)則包括:滿足以下條件至少之一連接選取的兩個(gè)連通塊為新的連通塊:兩個(gè)所述連通塊的包圍盒在參考軸向上的中心距離或者邊緣距離中的最小距離,小于兩個(gè)所述連通塊的包圍盒對(duì)應(yīng)所述參考軸向的邊長(zhǎng)中最小邊長(zhǎng)的第一預(yù)設(shè)比例;兩個(gè)所述連通塊的包圍盒在在垂直于所述參考軸向的方向上的距離小于兩個(gè)所述連通塊的包圍盒在垂直于所述參考軸向的邊長(zhǎng)中最小邊長(zhǎng)的第二預(yù)設(shè)比例;兩個(gè)所述連通塊的包圍盒在所述參考軸向的邊長(zhǎng)的差值小于兩個(gè)所述連通塊的包圍盒對(duì)應(yīng)所述參考軸向的邊長(zhǎng)中最小邊長(zhǎng)的第三預(yù)設(shè)比例。優(yōu)選地,所述判斷單元400,還用于以所述目標(biāo)圖像上提取出一個(gè)感興趣區(qū)域,將在所述減色圖像和所述二值圖像得到連接的包圍盒,以特定滑窗步長(zhǎng)滑窗將在所述減色圖像和所述二值圖中連接得到的包圍盒送入卷積神經(jīng)網(wǎng)絡(luò)分類器中判別,得到每個(gè)所述滑窗內(nèi)包含文字的概率;所述判斷單元400,還用于對(duì)所述滑窗內(nèi)包含文字的概率取平均值,得到 所述候選的文字區(qū)域包括文字行或文字列的概率;所述判斷單元400,還用于若所得到的大于預(yù)設(shè)的概率閾值,則判定所述感興趣區(qū)域內(nèi)存在文字行或文字列。本發(fā)明實(shí)施例提供一種計(jì)算機(jī)存儲(chǔ)介質(zhì),所述計(jì)算機(jī)存儲(chǔ)介質(zhì)中存儲(chǔ)有可執(zhí)行指令,所述可執(zhí)行指令用于執(zhí)行圖1或圖2示出的文件檢測(cè)方法。綜上所述,本發(fā)明實(shí)施例具有以下有益效果:本發(fā)明提出了圖像中文字檢測(cè)的方法及系統(tǒng),適用于定位網(wǎng)絡(luò)相冊(cè)中的圖像中的印刷體漢字等文字,輸出的結(jié)果可作為文字識(shí)別系統(tǒng)的輸入,幫助最終產(chǎn)生準(zhǔn)確的文字識(shí)別結(jié)果。本領(lǐng)域的技術(shù)人員可以理解:實(shí)現(xiàn)上述方法實(shí)施例的全部或部分步驟可以通過(guò)程序指令相關(guān)的硬件來(lái)完成,前述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),執(zhí)行包括上述方法實(shí)施例的步驟;而前述的存儲(chǔ)介質(zhì)包括:移動(dòng)存儲(chǔ)設(shè)備、隨機(jī)存取存儲(chǔ)器(ram,randomaccessmemory)、只讀存儲(chǔ)器(rom,read-onlymemory)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)?;蛘撸景l(fā)明上述集成的單元如果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),也可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本發(fā)明實(shí)施例的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)相關(guān)技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī)、服務(wù)器、或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分。而前述的存儲(chǔ)介質(zhì)包括:移動(dòng)存儲(chǔ)設(shè)備、ram、rom、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本
      技術(shù)領(lǐng)域
      :的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。當(dāng)前第1頁(yè)12當(dāng)前第1頁(yè)12
      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1