本申請涉及圖像識別
技術(shù)領(lǐng)域:
:,尤其涉及物體識別方法及裝置。
背景技術(shù):
::物體識別技術(shù),廣泛應(yīng)用于例如,在搜索場景中,用戶對某一物體拍照后,通過物體識別技術(shù)搜索該物體或者類似物體的信息展示;再例如,在購物場景中,用戶對某一物體拍照后,通過物體識別技術(shù)搜索該物體或者類似物體供用戶選擇購買。現(xiàn)有技術(shù)中,物體識別主要是通過將待識別圖像進(jìn)行區(qū)域劃分,得到若干圖像區(qū)域,每個待識別圖像的區(qū)域劃分結(jié)果構(gòu)成一個圖像區(qū)域集合;提取每個圖像區(qū)域的特征,并根據(jù)預(yù)先通過機(jī)器學(xué)習(xí)算法構(gòu)建的物體識別模型分別對每個圖像區(qū)域進(jìn)行物體識別,這一識別過程通??梢苑Q之為標(biāo)簽推理。為了提高物體識別的準(zhǔn)確率,一般可以通過以下方式:第一,通過挖掘圖像區(qū)域中更有效的特征,來提高識別的準(zhǔn)確率。例如使用深度學(xué)習(xí)(deep-learning)提取出的特征比尺度不變特征變換(Scale-invariantfeaturetransform,SIFT)提取的特征更加有效。這樣,可以避免不是很有效的特征在識別過程中所引起的干擾。第二,通過空間視覺上下文信息來提高識別的準(zhǔn)確率。所述空間識別上下文信息所基于的假設(shè)為:在相鄰圖像區(qū)域之間,屬于同一個物體的可能性較大。例如,在識別當(dāng)前圖像區(qū)域i時,可以參考其相鄰圖像區(qū)域j,假設(shè)相鄰圖像區(qū)域j被標(biāo)注為牛,那么當(dāng)前圖像區(qū)域i同樣被標(biāo)注為牛的可能性要比其它物體要高的多。這樣的方式也被稱為標(biāo)簽平滑。然而,這些方式雖然可以部分提高物體識別的準(zhǔn)確率,但是整體上物體識別的準(zhǔn)確率依然不是很理想,尤其是當(dāng)圖像中內(nèi)容較為復(fù)雜,包含的物體較多的情況下,采用現(xiàn)有技術(shù)中物體識別方法的準(zhǔn)確率經(jīng)常無法滿足應(yīng)用需求。技術(shù)實現(xiàn)要素:本申請?zhí)峁┮环N物體識別方法及裝置,以解決現(xiàn)有技術(shù)中存在的物體識別的準(zhǔn)確率不高的問題。根據(jù)本申請實施例提供的一種物體識別方法,所述方法包括:對待識別的圖像進(jìn)行區(qū)域劃分,得到圖像區(qū)域集合;將所述圖像區(qū)域集合輸入預(yù)設(shè)的物體識別模型中;其中,所述物體識別模型基于空間視覺上下文信息和語義上下文信息構(gòu)建而成;在所述物體識別模型中對所述圖像區(qū)域集合中每一個圖像區(qū)域進(jìn)行標(biāo)簽推理;將所述標(biāo)簽推理得出的概率最大的物體標(biāo)簽集合中的物體標(biāo)簽一一標(biāo)注給對應(yīng)的圖像區(qū)域??蛇x的,所述物體識別模型包括條件隨機(jī)場、馬爾科夫隨機(jī)場或稀疏編碼模型??蛇x的,所述條件隨機(jī)場模型為:其中,Z是預(yù)設(shè)的歸一化常數(shù);是圖像區(qū)域的特征和被判斷物體之間關(guān)系的點勢函數(shù);所述是基于空間視覺上下文信息的邊勢函數(shù);是基于語義上下文信息的邊勢函數(shù);S是圖像區(qū)域集合;R是圖像區(qū)域i相鄰的圖像區(qū)域j的集合;C是物體k、p之間具有共現(xiàn)關(guān)系的集合;X是所有圖像區(qū)域的特征集合;是圖像區(qū)域i被標(biāo)注為物體k的標(biāo)簽值;是圖像區(qū)域j被標(biāo)注為物體k的標(biāo)簽值;是圖像I被標(biāo)注為物體p的標(biāo)簽值。可選的,所述圖像區(qū)域的特征和被判斷物體之間關(guān)系的點勢函數(shù)如下公式所示:其中,λk,αk是點勢函數(shù)上的參數(shù);是圖像區(qū)域i被標(biāo)注為物體k的標(biāo)簽值;是物體k出現(xiàn)在圖像區(qū)域i中的概率值??蛇x的,所述基于空間視覺上下文信息的邊勢函數(shù)如下公式所示:其中,是該邊勢函數(shù)上的參數(shù);是圖像區(qū)域i被標(biāo)注為物體k的標(biāo)簽值;是圖像區(qū)域j被標(biāo)注為物體k的標(biāo)簽值;是物體k出現(xiàn)在圖像區(qū)域j中的概率值;sim(xi,xj)=exp(-dist(xi,xj)),其中,dist(xi,xj)是圖像特征xi,xj之間的歐式距離值??蛇x的,所述基于語義上下文信息的邊勢函數(shù)如下公式所示:其中,εkp是該邊勢函數(shù)上的參數(shù),是圖像區(qū)域i被標(biāo)注為物體k的標(biāo)簽值;是圖像I被標(biāo)注為物體p的標(biāo)簽值;cor(k,p)=μ·occur(k,p),其中,μ是平滑參數(shù);occur(k,p)是物體k與p之間的共現(xiàn)頻率;是物體p出現(xiàn)在圖像I中的概率值??蛇x的,所述歸一化常數(shù)通過最優(yōu)化算法進(jìn)行迭代求解??蛇x的,所述最優(yōu)化算法包括投影梯度下降算法??蛇x的,所述在所述物體識別模型中對所輸入的圖像區(qū)域集合中每一個圖像區(qū)域進(jìn)行標(biāo)簽推理,具體包括:根據(jù)圖像區(qū)域的特征和被判斷物體,計算得出該圖像區(qū)域的第一概率值;根據(jù)圖像區(qū)域和相鄰圖像區(qū)域之間特征的相似度進(jìn)行標(biāo)簽平滑處理,計算得出該圖像區(qū)域的第二概率值;根據(jù)圖像區(qū)域的被判斷物體和相鄰圖像區(qū)域被標(biāo)注的物體,從語義概念集合中獲取這兩個物體之間的共現(xiàn)頻率,計算該圖像區(qū)域的第三概率值;根據(jù)所述第一概率值、第二概率值和第三概率值,計算得出該圖像區(qū)域聯(lián)合的概率值??蛇x的,所述標(biāo)簽推理通過迭代算法進(jìn)行??蛇x的,所述迭代算法包括ICM(iteratedconditionalmode)算法。根據(jù)本申請實施例提供的一種物體識別裝置,所述裝置包括:劃分單元,對待識別的圖像進(jìn)行區(qū)域劃分,得到圖像區(qū)域集合;輸入單元,將所述圖像區(qū)域集合輸入預(yù)設(shè)的物體識別模型中;其中,所述物體識別模型基于空間視覺上下文信息和語義上下文信息構(gòu)建而成;識別單元,在所述物體識別模型中對所述圖像區(qū)域集合中每一個圖像區(qū)域進(jìn)行標(biāo)簽推理;標(biāo)注單元,將所述標(biāo)簽推理得出的概率最大的物體標(biāo)簽集合中的物體標(biāo)簽一一標(biāo)注給對應(yīng)的圖像區(qū)域??蛇x的,所述物體識別模型包括條件隨機(jī)場、馬爾科夫隨機(jī)場或稀疏編碼模型??蛇x的,所述條件隨機(jī)場模型為:其中,Z是預(yù)設(shè)的歸一化常數(shù);是圖像區(qū)域的特征和被判斷物體之間關(guān)系的點勢函數(shù);所述是基于空間視覺上下文信息的邊勢函數(shù);是基于語義上下文信息的邊勢函數(shù);S是圖像區(qū)域集合;R是圖像區(qū)域i相鄰的圖像區(qū)域j的集合;C是物體k、p之間具有共現(xiàn)關(guān)系的集合;X是所有圖像區(qū)域的特征集合;是圖像區(qū)域i被標(biāo)注為物體k的標(biāo)簽值;是圖像區(qū)域j被標(biāo)注為物體k的標(biāo)簽值;是圖像I被標(biāo)注為物體p的標(biāo)簽值??蛇x的,所述圖像區(qū)域的特征和被判斷物體之間關(guān)系的點勢函數(shù)如下公式所示:其中,λk,αk是點勢函數(shù)上的參數(shù);是圖像區(qū)域i被標(biāo)注為物體k的標(biāo)簽值;是物體k出現(xiàn)在圖像區(qū)域i中的概率值??蛇x的,所述基于空間視覺上下文信息的邊勢函數(shù)如下公式所示:其中,是該邊勢函數(shù)上的參數(shù);是圖像區(qū)域i被標(biāo)注為物體k的標(biāo)簽值;是圖像區(qū)域j被標(biāo)注為物體k的標(biāo)簽值;是物體k出現(xiàn)在圖像區(qū)域j中的概率值;sim(xi,xj)=exp(-dist(xi,xj)),其中,dist(xi,xj)是圖像特征xi,xj之間的歐式距離值。可選的,所述基于語義上下文信息的邊勢函數(shù)如下公式所示:其中,εkp是該邊勢函數(shù)上的參數(shù),是圖像區(qū)域i被標(biāo)注為物體k的標(biāo)簽值;是圖像I被標(biāo)注為物體p的標(biāo)簽值;cor(k,p)=μ·occur(k,p),其中,μ是平滑參數(shù);occur(k,p)是物體k與p之間的共現(xiàn)頻率;是物體p出現(xiàn)在圖像I中的概率值??蛇x的,所述歸一化常數(shù)通過最優(yōu)化算法進(jìn)行迭代求解??蛇x的,所述最優(yōu)化算法包括投影梯度下降算法??蛇x的,所述識別單元,具體包括:第一計算子單元,根據(jù)圖像區(qū)域的特征和被判斷物體,計算得出該圖像區(qū)域的第一概率值;第二計算子單元,根據(jù)圖像區(qū)域和相鄰圖像區(qū)域之間特征的相似度進(jìn)行標(biāo)簽平滑處理,計算得出該圖像區(qū)域的第二概率值;第三計算子單元,根據(jù)圖像區(qū)域的被判斷物體和相鄰圖像區(qū)域被標(biāo)注的物體,從語義概念集合中獲取這兩個物體之間的共現(xiàn)頻率,計算該圖像區(qū)域的第三概率值;第四計算子單元,根據(jù)所述第一概率值、第二概率值和第三概率值,計算得出該圖像區(qū)域聯(lián)合的概率值。可選的,所述標(biāo)簽推理通過迭代算法進(jìn)行??蛇x的,所述迭代算法包括ICM(iteratedconditionalmode)算法。本申請實施例中,對待識別的圖像進(jìn)行區(qū)域劃分,得到圖像區(qū)域集合;將所述圖像區(qū)域集合輸入預(yù)設(shè)的物體識別模型中;其中,所述物體識別模型基于空間視覺上下文信息和語義上下文信息構(gòu)建而成;在所述物體識別模型中對所述圖像區(qū)域集合中每一個圖像區(qū)域進(jìn)行標(biāo)簽推理;將所述標(biāo)簽推理得出概率最大的物體標(biāo)簽標(biāo)注給對應(yīng)的圖像區(qū)域。如此,通過預(yù)先基于空間視覺上下文信息和語義上下文信息構(gòu)建而成的物體識別模型,不僅采取標(biāo)簽平滑處理這種基于空間視覺上下文信息的方式來提高物體識別的準(zhǔn)確率;還進(jìn)一步的,結(jié)合語義上下文信息來提高物體識別的準(zhǔn)確率,所述語義上下文信息為在語義概念集合中,頻繁共現(xiàn)的物體之間,當(dāng)其中一個出現(xiàn)在待識別圖像中時,另一個物體出現(xiàn)的可能性要比其它物體出現(xiàn)的可能性更高。附圖說明圖1是本申請一實施例提供的物體識別方法的流程圖;圖2是本申請?zhí)峁┑膱D像區(qū)域劃分的示意圖;圖3是本申請?zhí)峁┑膶D像區(qū)域進(jìn)行物體識別的示意圖;圖4是本申請一實施例提供的物體識別方法的流程圖;圖5是本申請一實施例提供的物體識別裝置所在設(shè)備的一種硬件結(jié)構(gòu)圖;圖6是本申請一實施例提供的物體識別裝置的模塊示意圖。具體實施方式這里將詳細(xì)地對示例性實施例進(jìn)行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實施例中所描述的實施方式并不代表與本申請相一致的所有實施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本申請的一些方面相一致的裝置和方法的例子。在本申請使用的術(shù)語是僅僅出于描述特定實施例的目的,而非旨在限制本申請。在本申請和所附權(quán)利要求書中所使用的單數(shù)形式的“一種”、“所述”和“該”也旨在包括多數(shù)形式,除非上下文清楚地表示其他含義。還應(yīng)當(dāng)理解,本文中使用的術(shù)語“和/或”是指并包含一個或多個相關(guān)聯(lián)的列出項目的任何或所有可能組合。應(yīng)當(dāng)理解,盡管在本申請可能采用術(shù)語第一、第二、第三等來描述各種信息,但這些信息不應(yīng)限于這些術(shù)語。這些術(shù)語僅用來將同一類型的信息彼此區(qū)分開。例如,在不脫離本申請范圍的情況下,第一信息也可以被稱為第二信息,類似地,第二信息也可以被稱為第一信息。取決于語境,如在此所使用的詞語“如果”可以被解釋成為“在……時”或“當(dāng)……時”或“響應(yīng)于確定”。為了解決前述物體識別準(zhǔn)確率不高的問題,請參見圖1,為本申請一實施例提供的物體識別方法的流程圖,包括以下步驟:步驟110:將待識別的圖像進(jìn)行區(qū)域劃分,得到圖像區(qū)域的集合。本實施例中,通過將待識別的圖像進(jìn)行區(qū)域劃分,得到若干圖像區(qū)域,每個待識別圖像的區(qū)域劃分結(jié)果構(gòu)成一個圖像區(qū)域集合。所述區(qū)劃劃分可以是通過預(yù)設(shè)規(guī)則進(jìn)行劃分的。所述預(yù)設(shè)規(guī)則可以是人為預(yù)先設(shè)置的。例如,根據(jù)預(yù)設(shè)邊長(預(yù)設(shè)規(guī)則),將所述待識別的圖像劃分為若干個大小相同的矩形區(qū)域,從而到劃分后的圖像區(qū)域集合。如圖2所述的區(qū)域劃分示意圖中,一個待識別的圖像100,根據(jù)預(yù)設(shè)邊長將其進(jìn)行區(qū)域劃分,從而得到圖像區(qū)域的集合S={1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16};每一個集合中的元素對應(yīng)了一個圖像區(qū)域。通常,一個圖像中可能存在有多種物體,通過將識別的圖像進(jìn)行區(qū)域劃分后,使得劃分后的每個圖像區(qū)域相對獨立,避免圖像中不同物體之間可能造成的干擾。步驟120:將所述圖像區(qū)域集合輸入預(yù)設(shè)的物體識別模型中;其中,所述物體識別模型基于空間視覺上下文信息和語義上下文信息構(gòu)建而成。本實施例中,物體識別一般可以是基于物體識別模型來實現(xiàn)的,所述物體識別模型主要是通過機(jī)器學(xué)習(xí)算法并基于大量模型訓(xùn)練得出的。在本實施例中,所述物體識別模塊主要可以包括例如條件隨機(jī)場(conditionalrandomfield,CRF)、稀疏編碼(sparsecoding)、馬爾科夫隨機(jī)場(markovrandomfield,MRF)等模型。以下通過條件隨機(jī)場模型為例加以說明。所述條件隨機(jī)場是一種判別式概率模型。所述條件隨機(jī)場模型主要是借助了能量函數(shù)(energyfunction),所述能量函數(shù)可以包括多種勢函數(shù),例如點勢函數(shù)(sitepotential)、邊勢函數(shù)(edgepotantial)。所述能量函數(shù)通過模擬現(xiàn)實中能量越低,物質(zhì)越穩(wěn)定;能量越高,物質(zhì)越不穩(wěn)定的現(xiàn)象,在勢函數(shù)中,勢函數(shù)的值越低,代表越穩(wěn)定,而構(gòu)建的模型的整體概率值則越高。本實施例中,所述條件隨機(jī)場模型的聯(lián)合概率可以寫作若干個勢函數(shù)聯(lián)乘的形式的公式。在本實施例中,所述條件隨機(jī)場模型主要為如下公式1所示:其中,Z是預(yù)設(shè)的歸一化常數(shù);是圖像區(qū)域的特征和被判斷的物體之間關(guān)系的點勢函數(shù)(sitepotential);所述是基于空間視覺上下文信息的邊勢函數(shù)(edgepotantial);是基于語義上下文信息的邊勢函數(shù)(edgepotential);S是圖像區(qū)域集合;R是圖像區(qū)域i相鄰的圖像區(qū)域j的集合;C是物體k、p之間具有共現(xiàn)關(guān)系的集合;X是所有圖像區(qū)域的特征集合;是圖像區(qū)域i被標(biāo)注為物體k的標(biāo)簽值;是圖像區(qū)域j被標(biāo)注為物體k的標(biāo)簽值;是圖像I被標(biāo)注為物體p的標(biāo)簽值。需要說明的是,上述標(biāo)簽值為真假兩個值;例如+1代表真,-1代表假。舉例說明,假設(shè)的標(biāo)簽值為-1,則說明圖像區(qū)域i被標(biāo)注為物體k為假。所述圖像區(qū)域i相鄰的圖像區(qū)域j的集合R,如圖2所示的圖像區(qū)域集合S中,假設(shè)圖像區(qū)域i為7,則相鄰的圖像區(qū)域j包括3、6、8、11,即圖像區(qū)域7相鄰的圖像區(qū)域的集合R為{3、6、8、11}。所述物體k、p之間具有共現(xiàn)關(guān)系的集合C,為本申請實施例中預(yù)先構(gòu)建的一個語義概率庫,反映了頻繁共現(xiàn)的物體之間的關(guān)系,體現(xiàn)為兩個物體之間同時出現(xiàn)在圖像中的次數(shù),即共現(xiàn)頻率。如果某兩個物體k,p同時在同一圖像中出現(xiàn)一次,則在所述集合C中,將所述物體k,p之間的共現(xiàn)頻率加1。隨著模型訓(xùn)練次數(shù)的不斷增加,該集合C可以越來越豐富。本實施例中,如前公式1所示,所述圖像區(qū)域的特征和被判斷的語義概念的點勢函數(shù)具體可以如下公式2所示:其中,λk,αk是點勢函數(shù)上的參數(shù);與前述相同是圖像區(qū)域i被標(biāo)注為物體k的標(biāo)簽值;是物體k出現(xiàn)在圖像區(qū)域i中的概率值。具體地,可以表示圖像區(qū)域i被標(biāo)注為物體k的概率值,可以通過邏輯斯特回歸(logisticregression)進(jìn)行求解,即:其中,xi是圖像區(qū)域i的特征;γk0、是參數(shù)。本實施例中,如前公式1所示,所述基于空間視覺上下文信息的邊勢函數(shù)具體可以如下公式4所示:其中,是該邊勢函數(shù)上的參數(shù);是圖像區(qū)域i被標(biāo)注為物體k的標(biāo)簽值;是圖像區(qū)域j被標(biāo)注為物體k的標(biāo)簽值;是物體k出現(xiàn)在圖像區(qū)域j中的概率值;sim(xi,xj)=exp(-dist(xi,xj)),其中,dist(xi,xj)是圖像特征xi,xj之間的歐式距離值。具體地,與上述公式3類似,可以表示圖像區(qū)域j被標(biāo)注為物體k的概率值,可以通過邏輯斯特回歸(logisticregression)進(jìn)行求解,即:其中,xj是圖像區(qū)域j的特征;γk0、是參數(shù)。本實施例中,如前公式1所示,所述基于語義上下文信息的邊勢函數(shù)具體可以如下公式6所示:其中,εkp是該邊勢函數(shù)上的參數(shù),是圖像區(qū)域i被標(biāo)注為物體k的標(biāo)簽值;是圖像I被標(biāo)注為物體p的標(biāo)簽值;cor(k,p)=μ·occur(k,p),其中,μ是平滑參數(shù);occur(k,p)是物體k與p之間的共現(xiàn)頻率;是物體p出現(xiàn)在圖像I中的概率值。所述物體k與p之間的共現(xiàn)頻率,如前所述為物體之間具有共現(xiàn)關(guān)系的集合C中記錄的物體k,p同時出現(xiàn)在圖像中的次數(shù)。可以表示圖像I中標(biāo)注了物體p的圖像區(qū)域的概率平均值:其中,I是整個的圖像;是圖像區(qū)域j被標(biāo)注為物體p的標(biāo)簽值;σ(·)是指示函數(shù)(indictorfunction),當(dāng)該指示函數(shù)內(nèi)的表達(dá)式為真時,該指示函數(shù)值為1;當(dāng)該指示函數(shù)內(nèi)的表達(dá)式為假時,該指示函數(shù)值為0。具體地,與上述公式3、5類似,可以表示圖像區(qū)域j被標(biāo)注為物體p的概率值,可以通過邏輯斯特回歸(logisticregression)進(jìn)行求解,即:其中,xj是圖像區(qū)域j的特征;γk0、是參數(shù)。值得一提的是,如公式1所示,其中Z表示為一個歸一化常數(shù),具體地,Z是一個配分函數(shù)(partitionfunction),所述Z是根據(jù)作用于公式2-8中的參數(shù)(λk,αk,γk0、εkp,μ)計算得出。一般的,在構(gòu)建目標(biāo)公式后,可以通過偽似然函數(shù)(pseudo-likelihood)將基于訓(xùn)練觀察值的聯(lián)合概率轉(zhuǎn)換為單一的條件概率,如此使得原本參數(shù)求和變?yōu)榍蠓e,這樣配分函數(shù)就能被有效計算,如此所述歸一化常數(shù)Z可以通過最優(yōu)化算法進(jìn)行迭代求解。具體地,所述最優(yōu)化算法可以包括投影梯度下降算法、坐標(biāo)梯度下降、網(wǎng)格搜索算法、模擬退火、爬山算法等。本申請實施例對此并加以限定。舉例說明,如圖3所示的示意圖中,虛線為已被標(biāo)注的圖像區(qū)域,即圖像區(qū)域(1,2,5)被標(biāo)注為樹,圖像區(qū)域(3,6,8,11)被標(biāo)注為牛,圖像區(qū)域(12,15,16)被標(biāo)注為草。實線為待識別的當(dāng)前圖像區(qū)域,即當(dāng)前圖像區(qū)域為7。矩形為語義概念集合S中具有共現(xiàn)頻率的物體,假設(shè)(牛,草)的共現(xiàn)頻率為5;(牛,樹)的共現(xiàn)頻率為8;(牛,羊)的共現(xiàn)頻率為6。基于空間語義上下文信息的標(biāo)簽平滑處理時,由于當(dāng)前圖像區(qū)域7,周圍相鄰的圖像區(qū)域集合{3,6,8,11}均被標(biāo)注為牛,所以圖像區(qū)域7也被標(biāo)注為牛的概率就相對較大。同時,基于語義上下文信息時,由于存在圖像區(qū)域被標(biāo)注為樹、牛、草;所以當(dāng)前圖像區(qū)域7被標(biāo)注為樹、牛、草的概率較大。綜合上述因素,最終該當(dāng)前圖像區(qū)域7被標(biāo)注為牛的概率最大。在其它一些實施例中,可以根據(jù)在模型中重要程度或者對聯(lián)合概率值的影響程度設(shè)置不同的權(quán)重值,例如:在前設(shè)置權(quán)重ω1,在前設(shè)置權(quán)重ω2,在前設(shè)置權(quán)重ω3。假設(shè)的重要程度大于大于則權(quán)重之間ω1大于ω2大于ω3。步驟130:在所述物體識別模型中對所述圖像區(qū)域集合中每一個圖像區(qū)域進(jìn)行標(biāo)簽推理。本實施例中,在所述物體識別模型中對所述圖像區(qū)域集合中每一個圖像區(qū)域進(jìn)行標(biāo)簽推理,即根據(jù)前述公式1,并通過迭代條件算法對圖像區(qū)域進(jìn)行標(biāo)簽推理。一般的,所述迭代條件算法可以包括ICM(iteratedconditionalmode)算法。如上述公式1所示,其輸入數(shù)據(jù)包括了:圖像區(qū)域的集合S;相鄰圖像區(qū)域的集合R;當(dāng)前圖像區(qū)域i;當(dāng)前被判斷物體k;某個與i相鄰圖像區(qū)域j;某個與k具有共現(xiàn)關(guān)系的物體p;所有圖像區(qū)域的特征集合X。其中,所述特征集合X,可以是通過如下方式獲得的:提取所述待識別圖像中所有圖像區(qū)域的特征集合。本實施例中,提取所述待識別圖像中所有圖像區(qū)域的特征集合,可以通過多種方式,例如前述SIFT、deep-learning、或者M(jìn)SER(MaximallyStableExtremalRegions,區(qū)域特征提取)、DoG(DifferenceofGaussian)等等。本實施例中,并不對其加以限定。在具體應(yīng)用中,為了盡可能提高物體識別的準(zhǔn)確率,可以使用更為有效的deep-learning。具體地,所述步驟130,即在所述物體識別模型中對所輸入的圖像區(qū)域集合中每一個圖像區(qū)域進(jìn)行標(biāo)簽推理中,每一個圖像區(qū)域進(jìn)行標(biāo)簽推理的過程都可以如下圖4所示:步驟131:根據(jù)圖像區(qū)域的特征和被判斷物體,計算得出該圖像區(qū)域的第一概率值。本實施例中,根據(jù)前述公式2,可以計算得出當(dāng)前圖像區(qū)域的第一概率值。步驟132:根據(jù)圖像區(qū)域和相鄰圖像區(qū)域之間特征的相似度進(jìn)行標(biāo)簽平滑處理,計算得出該圖像區(qū)域的第二概率值。本實施例中,根據(jù)前述公式4,可以計算得出當(dāng)前圖像區(qū)域的第二概率值。步驟133:根據(jù)圖像區(qū)域的被判斷物體和相鄰圖像區(qū)域被標(biāo)注的物體,從語義概念集合中獲取這兩個物體之間的共現(xiàn)頻率,計算該圖像區(qū)域的第三概率值。本實施例中,根據(jù)前述公式6,可以計算得出當(dāng)前圖像區(qū)域的第三概率值。步驟134:根據(jù)所述第一概率值、第二概率值和第三概率值,計算得出當(dāng)前圖像區(qū)域的聯(lián)合的概率值。本實施例中,在得出對應(yīng)的第一概率值,對應(yīng)的第二概率值,對應(yīng)的第三概率值后,根據(jù)前述公式1,可以計算得出當(dāng)前圖像區(qū)域?qū)?yīng)物體的聯(lián)合的概率值。值得一提的是,所述標(biāo)簽推理可以是通過迭代算法進(jìn)行的。如此,每一次迭代計算都會對當(dāng)前圖像區(qū)域的標(biāo)簽值造成影響,多次迭代計算可以使得每一個圖像區(qū)域形成一個最優(yōu)的物體標(biāo)簽集合。具體地,所述迭代算法可以包括ICM(iteratedconditionalmode)算法。步驟140:將所述標(biāo)簽推理得出的概率最大的物體標(biāo)簽集合中物體標(biāo)簽一一標(biāo)注給對應(yīng)的圖像區(qū)域。在對上述每個圖像區(qū)域判斷是否標(biāo)注物體k時,通過例如ICM算法迭代運算過程中,隨著迭代概率值也會逐步提高,最終在所述概率值最大時收斂,可以得出一個最優(yōu)的物體標(biāo)簽集合,該物體標(biāo)簽集合中包括了每一個圖像區(qū)域的物體標(biāo)簽。所述最優(yōu)的物體標(biāo)簽集合就是在所述概率值最大的時候得出的。將概率值最大的物體標(biāo)簽集合中的物體標(biāo)簽一一標(biāo)注給對應(yīng)的圖像區(qū)域:其中,表示最大的聯(lián)合的概率值。通過本實施例,將待識別圖像進(jìn)行區(qū)域劃分,得到圖像區(qū)域集合;將所述圖像區(qū)域集合輸入預(yù)設(shè)的物體識別模型中;其中,所述物體識別模型通過相鄰圖像區(qū)域的標(biāo)簽平滑處理和語義上下文信息構(gòu)建得到;在所述物體識別模型中對所述圖像區(qū)域集合中每一個圖像區(qū)域進(jìn)行標(biāo)簽推理;將所述標(biāo)簽推理得出概率最大的物體標(biāo)簽賦予對應(yīng)的圖像區(qū)域。如此,通過預(yù)先基于空間視覺上下文信息和語義上下文信息構(gòu)建而成的物體識別模型,不僅采取標(biāo)簽平滑處理這種基于空間視覺上下文信息的方式來提高物體識別的準(zhǔn)確率;還進(jìn)一步的,結(jié)合語義上下文信息來提高物體識別的準(zhǔn)確率,所述語義上下文信息為在語義概念集合中,頻繁共現(xiàn)的物體之間,當(dāng)其中一個出現(xiàn)在待識別圖像中時,另一個物體出現(xiàn)的可能性要比其它物體出現(xiàn)的可能性更高。與前述物體識別方法實施例相對應(yīng),本申請還提供了物體識別裝置的實施例。本申請物體識別裝置的實施例可以分別應(yīng)用在服務(wù)器。裝置實施例可以通過軟件實現(xiàn),也可以通過硬件或者軟硬件結(jié)合的方式實現(xiàn)。以軟件實現(xiàn)為例,作為一個邏輯意義上的裝置,是通過其所在設(shè)備的處理器將非易失性存儲器中對應(yīng)的計算機(jī)程序指令讀取到內(nèi)存中運行形成的。從硬件層面而言,如圖5所示,為本申請物體識別裝置所在設(shè)備的一種硬件結(jié)構(gòu)圖,除了圖5所示的處理器、網(wǎng)絡(luò)接口、內(nèi)存以及非易失性存儲器之外,實施例中裝置所在的設(shè)備通常根據(jù)該物體識別的實際功能,還可以包括其他硬件,對此不再贅述。參見圖6,為本申請一實施例提供的物體識別裝置的模塊圖,該實施例從服務(wù)器側(cè)進(jìn)行描述,所述裝置包括:劃分單元210、輸入單元220、標(biāo)簽推理單元230和識別單元240。其中,劃分單元210,對待識別的圖像進(jìn)行區(qū)域劃分,得到圖像區(qū)域集合;輸入單元220,將所述圖像區(qū)域集合輸入預(yù)設(shè)的物體識別模型中;其中,所述物體識別模型基于空間視覺上下文信息和語義上下文信息構(gòu)建而成;識別單元230,在所述物體識別模型中對所述圖像區(qū)域集合中每一個圖像區(qū)域進(jìn)行標(biāo)簽推理;標(biāo)注單元240,將所述標(biāo)簽推理得出的概率最大的物體標(biāo)簽集合中的物體標(biāo)簽一一標(biāo)注給對應(yīng)的圖像區(qū)域。在一個可選的實施例中:所述物體識別模型包括條件隨機(jī)場、馬爾科夫隨機(jī)場或稀疏編碼模型。在一個可選的實施例中:所述條件隨機(jī)場模型為:其中,Z是預(yù)設(shè)的歸一化常數(shù);是圖像區(qū)域的特征和被判斷物體之間關(guān)系的點勢函數(shù);所述是基于空間視覺上下文信息的邊勢函數(shù);是基于語義上下文信息的邊勢函數(shù);S是圖像區(qū)域集合;R是圖像區(qū)域i相鄰的圖像區(qū)域j的集合;C是物體k、p之間具有共現(xiàn)關(guān)系的集合;X是所有圖像區(qū)域的特征集合;是圖像區(qū)域i被標(biāo)注為物體k的標(biāo)簽值;是圖像區(qū)域j被標(biāo)注為物體k的標(biāo)簽值;是圖像I被標(biāo)注為物體p的標(biāo)簽值。在一個可選的實施例中:所述圖像區(qū)域的特征和被判斷的語義概念之間關(guān)系的點勢函數(shù)如下公式所示:其中,λk,αk是點勢函數(shù)上的參數(shù);是圖像區(qū)域i被標(biāo)注為物體k的標(biāo)簽值;是物體k出現(xiàn)在圖像區(qū)域i中的概率值。在一個可選的實施例中:所述基于空間視覺上下文信息的邊勢函數(shù)如下公式所示:其中,是該邊勢函數(shù)上的參數(shù);是圖像區(qū)域i被標(biāo)注為物體k的標(biāo)簽值;是圖像區(qū)域j被標(biāo)注為物體k的標(biāo)簽值;是物體k出現(xiàn)在圖像區(qū)域j中的概率值;sim(xi,xj)=exp(-dist(xi,xj)),其中,dist(xi,xj)是圖像特征xi,xj之間的歐式距離值。在一個可選的實施例中:所述基于語義上下文信息的邊勢函數(shù)如下公式所示:其中,εkp是該邊勢函數(shù)上的參數(shù),是圖像區(qū)域i被標(biāo)注為物體k的標(biāo)簽值;是圖像I被標(biāo)注為物體p的標(biāo)簽值;cor(k,p)=μ·occur(k,p),其中,μ是平滑參數(shù);occur(k,p)是物體k與p之間的共現(xiàn)頻率;是物體p出現(xiàn)在圖像I中的概率值。在一個可選的實施例中:所述歸一化常數(shù)通過最優(yōu)化算法進(jìn)行迭代求解。在一個可選的實施例中:所述最優(yōu)化算法包括投影梯度下降算法。在一個可選的實施例中:所述識別單元230,具體包括:第一計算子單元,根據(jù)圖像區(qū)域的特征和被判斷物體,計算得出該圖像區(qū)域的第一概率值;第二計算子單元,根據(jù)圖像區(qū)域和相鄰圖像區(qū)域之間特征的相似度進(jìn)行標(biāo)簽平滑處理,計算得出該圖像區(qū)域的第二概率值;第三計算子單元,根據(jù)圖像區(qū)域的被判斷物體和相鄰圖像區(qū)域被標(biāo)注的物體,從語義概念集合中獲取這兩個物體之間的共現(xiàn)頻率,計算該圖像區(qū)域的第三概率值;第四計算子單元,根據(jù)所述第一概率值、第二概率值和第三概率值,計算得出該圖像區(qū)域聯(lián)合的概率值。在一個可選的實施例中:所述標(biāo)簽推理通過迭代算法進(jìn)行。在一個可選的實施例中:所述迭代算法包括ICM(iteratedconditionalmode)算法。綜上所述,通過本申請實施例中,將待識別圖像進(jìn)行區(qū)域劃分,得到圖像區(qū)域集合;將所述圖像區(qū)域集合輸入預(yù)設(shè)的物體識別模型中;其中,所述物體識別模型通過相鄰圖像區(qū)域的標(biāo)簽平滑處理和語義上下文信息構(gòu)建得到;在所述物體識別模型中對所述圖像區(qū)域集合中每一個圖像區(qū)域進(jìn)行標(biāo)簽推理;將所述標(biāo)簽推理得出概率最大的物體標(biāo)簽賦予對應(yīng)的圖像區(qū)域。如此,通過預(yù)先基于空間視覺上下文信息和語義上下文信息構(gòu)建而成的物體識別模型,不僅采取標(biāo)簽平滑處理這種基于空間視覺上下文信息的方式來提高物體識別的準(zhǔn)確率;還進(jìn)一步的,結(jié)合語義上下文信息來提高物體識別的準(zhǔn)確率,所述語義上下文信息為在語義概念集合中,頻繁共現(xiàn)的物體之間,當(dāng)其中一個出現(xiàn)在待識別圖像中時,另一個物體出現(xiàn)的可能性要比其它物體出現(xiàn)的可能性更高。上述裝置中各個單元的功能和作用的實現(xiàn)過程具體詳見上述方法中對應(yīng)步驟的實現(xiàn)過程,在此不再贅述。對于裝置實施例而言,由于其基本對應(yīng)于方法實施例,所以相關(guān)之處參見方法實施例的部分說明即可。以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本申請方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動的情況下,即可以理解并實施。本領(lǐng)域技術(shù)人員在考慮說明書及實踐這里公開的發(fā)明后,將容易想到本申請的其它實施方案。本申請旨在涵蓋本申請的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本申請的一般性原理并包括本申請未公開的本
技術(shù)領(lǐng)域:
:中的公知常識或慣用技術(shù)手段。說明書和實施例僅被視為示例性的,本申請的真正范圍和精神由下面的權(quán)利要求指出。應(yīng)當(dāng)理解的是,本申請并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進(jìn)行各種修改和改變。本申請的范圍僅由所附的權(quán)利要求來限制。當(dāng)前第1頁1 2 3 當(dāng)前第1頁1 2 3