圖像主體區(qū)域的識(shí)別方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種圖像主體區(qū)域的識(shí)別方法及裝置。
【背景技術(shù)】
[0002]目前,圖像信息的提取主要集中在三種粒度層面,其一是以圖像整體為單位的粗粒度圖像分類標(biāo)注,其二是以獲得圖像中實(shí)體目標(biāo)(例如行人、人臉、汽車等)為目的的目標(biāo)檢測(cè)方式,該方式需要訓(xùn)練專門類別的檢測(cè)器進(jìn)行檢測(cè)。其三是精細(xì)到圖像像素的細(xì)粒圖像分割或者剖析,圖像分割或者剖析能夠?qū)D像主體細(xì)節(jié)進(jìn)行像素級(jí)的粒度描述,然而,上述三種粒度層面的圖像處理方式存在的問(wèn)題是,圖像分類標(biāo)注不能準(zhǔn)確和全面的分析包含多個(gè)主體的圖像,所獲得的分析結(jié)果不穩(wěn)定;目標(biāo)檢測(cè)方式對(duì)于包含多個(gè)類別的目標(biāo)主體時(shí)需要對(duì)圖像進(jìn)行多次遍歷處理,所需計(jì)算量大;圖像分割或者剖析所需分析時(shí)間較長(zhǎng),可在例如人臉、服飾、皮膚、箱包分割等特定場(chǎng)景上使用。
[0003]隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,上述單一粒度的圖像處理的方式在處理效率上難以滿足更加多樣化的網(wǎng)頁(yè)(web)圖片、社交(social)圖片等的要求,為了適應(yīng)時(shí)代的發(fā)展,現(xiàn)有的對(duì)圖像進(jìn)行處理的過(guò)程為:從圖像中檢測(cè)出主體所在的主體區(qū)域,然后基于主體區(qū)域?qū)χ黧w進(jìn)行后續(xù)分析,例如,可對(duì)主體進(jìn)行分類或者識(shí)別。在這個(gè)整個(gè)過(guò)程中獲得圖像中的主體區(qū)域是獲得圖像準(zhǔn)確分析結(jié)果的關(guān)鍵,目前常用的圖像主體區(qū)域檢測(cè)方式有兩種,第一種方式為基于顯著性區(qū)域的主體檢測(cè)方式,該方式通過(guò)顯著性能量函數(shù)對(duì)圖像進(jìn)行處理,以生成圖像的能量分布圖,并根據(jù)能量分布圖獲得顯著性較高的區(qū)域,并將該區(qū)域作為圖像的主體區(qū)域。第二種方式為基于深度學(xué)習(xí)的主體坐標(biāo)回歸,該方式獲得待處理的圖像,然后通過(guò)已訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)主體外接矩形的四個(gè)點(diǎn)坐標(biāo),實(shí)現(xiàn)主體區(qū)域檢測(cè)定位。
[0004]然而,上述兩種方式存在的問(wèn)題是:第一種方式所使用的顯著性能量函數(shù)不具有通用性,主體區(qū)域檢測(cè)結(jié)果的準(zhǔn)確性和有效性不足,第二種方式不僅計(jì)算復(fù)雜,時(shí)效性效果不佳,而且該方式只能返回一個(gè)主體區(qū)域,很難處理包含多個(gè)主體的圖像。
【發(fā)明內(nèi)容】
[0005]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問(wèn)題之一。為此,本發(fā)明第一方面實(shí)施例在于提出一種圖像主體區(qū)域的識(shí)別方法,該方法可以準(zhǔn)確地獲得圖像的主體區(qū)域,且可以從包含多個(gè)主體的圖像中識(shí)別出多個(gè)主體對(duì)應(yīng)的主體區(qū)域。
[0006]本發(fā)明的第二方面實(shí)施例在于提出一種圖像主體區(qū)域的識(shí)別裝置。
[0007]為了實(shí)現(xiàn)上述目的,本發(fā)明第一方面實(shí)施例的圖像主體區(qū)域的識(shí)別方法,包括:接收待識(shí)別的圖像,并從所述圖像中提取候選主體區(qū)域;對(duì)所提取到的候選主體區(qū)域中的非主體區(qū)域進(jìn)行排除,以獲得目標(biāo)候選主體區(qū)域,并對(duì)所述目標(biāo)候選主體區(qū)域進(jìn)行調(diào)整和分類,以獲得至少一個(gè)目標(biāo)候選主體區(qū)域集合;以及對(duì)每個(gè)目標(biāo)候選主體區(qū)域集合中的目標(biāo)候選主體區(qū)域合并,以識(shí)別出所述圖像的主體區(qū)域。
[0008]根據(jù)本發(fā)明實(shí)施例的圖像主體區(qū)域的識(shí)別方法,首先從待識(shí)別圖像中提取候選主體區(qū)域,然后對(duì)所提取到的候選主體區(qū)域中的非主體區(qū)域進(jìn)行排除,以獲得目標(biāo)候選主體區(qū)域,并對(duì)目標(biāo)候選主體區(qū)域進(jìn)行調(diào)整和分類,以獲得至少一個(gè)目標(biāo)候選主體區(qū)域集合,最后對(duì)每個(gè)目標(biāo)候選主體區(qū)域集合中的目標(biāo)候選主體區(qū)域進(jìn)行合并,以識(shí)別出圖像的主體區(qū)域,由此,可以準(zhǔn)確地獲得圖像的主體區(qū)域,且可以從包含多個(gè)主體的圖像中識(shí)別出多個(gè)主體對(duì)應(yīng)的主體區(qū)域。
[0009]為了實(shí)現(xiàn)上述目的,本發(fā)明第二方面實(shí)施例的圖像主體區(qū)域的識(shí)別裝置,包括:提取模塊,用于接收待識(shí)別的圖像,并從所述圖像中提取候選主體區(qū)域;處理模塊,用于對(duì)所提取到的候選主體區(qū)域中的非主體區(qū)域進(jìn)行排除,以獲得目標(biāo)候選主體區(qū)域,并對(duì)所述目標(biāo)候選主體區(qū)域進(jìn)行調(diào)整和分類,以獲得至少一組目標(biāo)候選主體區(qū)域集合;以及合并模塊,用于對(duì)每個(gè)目標(biāo)候選主體區(qū)域集合中的目標(biāo)候選主體區(qū)域合并,以識(shí)別出所述圖像的主體區(qū)域。
[0010]根據(jù)本發(fā)明實(shí)施例的圖像主體區(qū)域的識(shí)別裝置,通過(guò)提取模塊從待識(shí)別圖像中提取候選主體區(qū)域,然后通過(guò)處理模塊對(duì)所提取到的候選主體區(qū)域中的非主體區(qū)域進(jìn)行排除,以獲得目標(biāo)候選主體區(qū)域,并對(duì)目標(biāo)候選主體區(qū)域進(jìn)行調(diào)整和分類,以獲得至少一個(gè)目標(biāo)候選主體區(qū)域集合,以及對(duì)每個(gè)目標(biāo)候選主體區(qū)域集合中的目標(biāo)候選主體區(qū)域進(jìn)行合并,以識(shí)別出圖像的主體區(qū)域,由此,可以準(zhǔn)確地獲得圖像的主體區(qū)域,且可以從包含多個(gè)主體的圖像中識(shí)別出多個(gè)主體對(duì)應(yīng)的主體區(qū)域。
【附圖說(shuō)明】
[0011]圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的圖像主體區(qū)域的識(shí)別方法的流程圖。
[0012]圖2是根據(jù)本發(fā)明一個(gè)實(shí)施例的圖像主體區(qū)域的識(shí)別方法的流程圖。
[0013]圖3是未經(jīng)過(guò)處理的原圖的示例圖。
[0014]圖4是對(duì)圖3提取候選主體區(qū)域后的結(jié)果的示例圖。
[0015]圖5是對(duì)圖4中的候選主體區(qū)域排除非主體區(qū)域后的結(jié)果的示例圖。
[0016]圖6是對(duì)圖5中的候選主體區(qū)域進(jìn)行調(diào)整和分類后的結(jié)果的示例圖。
[0017]圖7是對(duì)圖6中的目標(biāo)候選主體區(qū)域進(jìn)行合并后的結(jié)果的示例圖。
[0018]圖8是根據(jù)本發(fā)明一個(gè)實(shí)施例的圖像主體區(qū)域的識(shí)別裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0019]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附圖描述的實(shí)施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。
[0020]下面參考附圖描述本發(fā)明實(shí)施例的圖像主體區(qū)域的識(shí)別方法及裝置。
[0021]圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的圖像主體區(qū)域的識(shí)別方法的流程圖,如圖1所示,該圖像主體區(qū)域的識(shí)別方法包括:
[0022]S101,接收待識(shí)別的圖像,并從圖像中提取候選主體區(qū)域。
[0023]具體地,可根據(jù)通用的主體檢測(cè)模型從待識(shí)別的圖像中提取不同大小尺寸、長(zhǎng)寬比的候選主體區(qū)域,為了可以使得候選主體區(qū)域可以涵蓋待識(shí)別的圖像中各種類別、不同大小、不同尺寸的主體內(nèi)容,通常通用的主體區(qū)域檢測(cè)模型可以獲得圖像的大量的候選主體區(qū)域,候選主體區(qū)域在圖像中通常用矩形框標(biāo)示。
[0024]其中,通用的主體檢測(cè)模型是一種提取圖像的候選主體區(qū)域的模型,該模型可根據(jù)預(yù)先設(shè)定的圖像特征(例如像素灰度、顏色、圖像梯度、邊緣、方向梯度直方圖HOG (Histogram of Oriented Gradient)特征、局部二值模式 LBP (Local Binary Pattern)特征等)對(duì)圖像的特征進(jìn)行提取,在提取待識(shí)別的圖像后,可通過(guò)圖像的機(jī)器學(xué)習(xí)算法(例如支持向量機(jī)svm (support vector machine)、Adaboost算法(該算法是一種自適應(yīng)集成學(xué)習(xí)算法)、隨機(jī)森林(random forest)算法等)對(duì)所獲得的特征進(jìn)行分析,以獲得待識(shí)別圖像對(duì)應(yīng)的候選主體區(qū)域。需要說(shuō)明的是,該模型提取圖像的候選主體區(qū)域的效率