本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體涉及一種鞋類檢索方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的快速普及以及電子商務(wù)的興起與發(fā)展,基于計算機(jī)視覺的圖像檢索技術(shù)得到了空前的發(fā)展。一般的電子商務(wù)網(wǎng)站是通過人工的方式對于商品圖片添加標(biāo)注來區(qū)別和分類圖片,但是對于用戶提供的無標(biāo)注商品圖片就無法進(jìn)行檢索和反饋了。針對上述問題,大量的基于商品圖片視覺信息的檢索方法不斷被大家提出,目前比較流行的方法大多是基于卷積神經(jīng)網(wǎng)絡(luò)來提取圖片深度特征,計算與數(shù)據(jù)庫中圖片的深度特征相似度度量,并進(jìn)行升序排序,將排序后的前若干個結(jié)果返回給用戶,即為所檢索的結(jié)果。
早在上個世紀(jì)90年代圖像檢索技術(shù)就已經(jīng)興起,當(dāng)時的技術(shù)更多的還是基于文本的圖像檢索,但是隨著社會生產(chǎn)力和工業(yè)化水平的不斷提高,以及老百姓對于商品需求的提升,使得各類商品的多樣性和復(fù)雜程度已經(jīng)超出了幾個文本可以描述清楚的地步。與此同時互聯(lián)網(wǎng)以及多媒體技術(shù)的普及,商品圖片的數(shù)量有了爆炸式的增長,基于文本的檢索方式顯然無法滿足現(xiàn)在用戶的需求。回歸圖像本身,其包含了豐富的信息,如顏色,紋理,形狀等。提取圖像內(nèi)容特征可以更好的描述和表征圖片,所以基于圖像內(nèi)容或視覺信息的圖像檢索技術(shù)等到了廣泛的發(fā)展。
現(xiàn)有的基于圖像內(nèi)容的圖像檢索方法(如專利cn103049513a)多采用低層的視覺特征,如顏色,紋理,形狀等,其不能很好的解決光照帶來的明暗變化,視角不同帶來的形狀變化,以及圖像分辨率不足帶來的紋理特征不明顯等問題。
技術(shù)實現(xiàn)要素:
本發(fā)明提供一種鞋類檢索方法,用于解決鞋類檢索過程中圖像背景復(fù)雜以及鞋身角度多樣所導(dǎo)致的鞋類檢索準(zhǔn)確度不高的問題。
本發(fā)明實施例第一方面提供一種鞋類檢索方法,包括:
根據(jù)邊緣坐標(biāo)檢測模型對輸入圖像進(jìn)行裁剪,得到鞋身圖像,所述輸入圖像為待檢索的鞋類圖像;
使用關(guān)鍵點檢測模型對所述鞋身圖像進(jìn)行關(guān)鍵點檢測,得到所述鞋身圖像的關(guān)鍵點;
根據(jù)所述鞋身圖像的關(guān)鍵點進(jìn)行圖像調(diào)整,使得所述鞋身圖像的鞋身朝向以及圖像尺寸與數(shù)據(jù)庫中的比對圖像一致;
使用特征提取模型對所述圖像調(diào)整后的鞋身圖像進(jìn)行深度特征提取,得到所述鞋身圖像的深度特征;
使用所述鞋身圖像的深度特征與數(shù)據(jù)庫中比對圖像的深度特征進(jìn)行相似度比對,根據(jù)所述相似度比對的結(jié)果輸出所述輸入圖像的檢索結(jié)果。
本發(fā)明實施例第二方面提供一種鞋類檢索裝置,包括:
裁剪單元,用于根據(jù)邊緣坐標(biāo)檢測模型對輸入圖像進(jìn)行裁剪,得到鞋身圖像,所述輸入圖像為待檢索的鞋類圖像;
檢測單元,用于使用關(guān)鍵點檢測模型對所述鞋身圖像進(jìn)行關(guān)鍵點檢測,得到所述鞋身圖像的關(guān)鍵點;
調(diào)整單元,用于根據(jù)所述鞋身圖像的關(guān)鍵點進(jìn)行圖像調(diào)整,使得所述鞋身圖像的鞋身朝向以及圖像尺寸與數(shù)據(jù)庫中的比對圖像一致;
特征提取單元,用于使用特征提取模型對所述圖像調(diào)整后的鞋身圖像進(jìn)行深度特征提取,得到所述鞋身圖像的深度特征;
比對單元,用于使用所述鞋身圖像的深度特征與數(shù)據(jù)庫中比對圖像的深度特征進(jìn)行相似度比對,根據(jù)所述相似度比對的結(jié)果輸出所述輸入圖像的檢索結(jié)果。
在本發(fā)明實施例中,通過深度學(xué)習(xí)物體檢測方法,先對輸入圖像進(jìn)行剪裁,得到鞋身圖像;再利用深度學(xué)習(xí)回歸關(guān)鍵點方法找到所述鞋身圖像的關(guān)鍵點,之后按照關(guān)鍵點位置將輸入圖像與數(shù)據(jù)庫圖片進(jìn)行對齊,并對所述圖像調(diào)整后的鞋身圖像進(jìn)行深度特征提取,最后使用所述鞋身圖像的深度特征與數(shù)據(jù)庫中比對圖像的深度特征進(jìn)行相似度比對;本發(fā)明實施例中的特征提取方法能更準(zhǔn)確的描述鞋類圖像的特征,有效解決了鞋類圖像中復(fù)雜背景以及多角度的問題,提高了鞋類檢索的準(zhǔn)確度。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實施例中的鞋類檢索方法的一個流程圖;
圖2為本發(fā)明實施例中的鞋類檢索方法的另一個流程圖;
圖3為本發(fā)明實施例中的鞋類檢索方法的矩形框示意圖;
圖4為本發(fā)明實施例中的鞋類檢索方法的關(guān)鍵點示意圖;
圖5為本發(fā)明實施例中的鞋類檢索方法的卷積模型示意圖;
圖6為本發(fā)明實施例中的鞋類檢索裝置的結(jié)構(gòu)示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
以下分別進(jìn)行詳細(xì)說明。
本發(fā)明的說明書和權(quán)利要求書中,應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實施例如能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤4送?,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
現(xiàn)有的圖像檢索方法中,基本的檢索步驟包括以下三步:
1.設(shè)計構(gòu)建圖像特征提取算法,并將其應(yīng)用到數(shù)據(jù)庫所有圖片;
2.利用特征提取算法提取待檢索圖片的特征;
3.將待檢索圖片的特征與數(shù)據(jù)庫中圖片的特征進(jìn)行特征比對,按相似度排序返給用戶。
本發(fā)明實施例主要針對商品圖片中的鞋類圖片檢索提出,是針對基于卷積神經(jīng)網(wǎng)絡(luò)來提取圖片深度特征方法的進(jìn)一步細(xì)化和提升,克服了現(xiàn)有技術(shù)中,受鞋類圖片背景復(fù)雜,鞋類圖片中鞋子擺放角度較多,以及深度特征不能很好表達(dá)鞋類等問題,從而提升鞋類圖片檢索效果。
其中,本發(fā)明實施例中所使用到的技術(shù)術(shù)語包括:
boundingbox,邊界框;
fasterr-cnn,更快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)算法(fasterregionwithconvolutionalneuralnetwork)。
實施例一
請參閱圖1,本發(fā)明實施例中鞋類檢索方法的一個實施例包括:
101、根據(jù)邊緣坐標(biāo)檢測模型對輸入圖像進(jìn)行裁剪;
鞋類檢索裝置根據(jù)邊緣坐標(biāo)檢測模型對輸入圖像進(jìn)行裁剪,得到鞋身圖像,所述輸入圖像為待檢索的鞋類圖像。
具體的,鞋類檢索裝置可以使用邊緣坐標(biāo)檢測模型對輸入圖像進(jìn)行鞋身坐標(biāo)定位,得到所述輸入圖像的鞋身坐標(biāo);再根據(jù)所述鞋身坐標(biāo)對所述輸入圖像進(jìn)行裁剪,得到鞋身圖像。
本發(fā)明實施例中的邊緣坐標(biāo)檢測模型,通過模型訓(xùn)練得到;所述模型訓(xùn)練具體為:以坐標(biāo)樣本圖像(即,帶標(biāo)記的鞋類圖像),以及大量的原始鞋類圖像(無標(biāo)記的鞋類圖像)作為輸入,使用fasterr-cnn對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,不斷的更新迭代鞋身坐標(biāo)模型。其中,所述所述坐標(biāo)樣本圖像為帶邊緣坐標(biāo)位置標(biāo)記的鞋類圖像,所述帶標(biāo)記的鞋類圖像指的是帶鞋身坐標(biāo)標(biāo)記的鞋類圖像,該鞋身坐標(biāo)可以為手工標(biāo)記的boundingbox的坐標(biāo),如圖3所示的矩形框左上角右下角兩點的坐標(biāo);所述卷積神經(jīng)網(wǎng)絡(luò)可以為具有五個卷積層以及兩個全連接層的神經(jīng)網(wǎng)絡(luò),如zeiler網(wǎng)絡(luò)。
102、使用關(guān)鍵點檢測模型對所述鞋身圖像進(jìn)行關(guān)鍵點檢測;
鞋類檢索裝置使用關(guān)鍵點檢測模型對所述鞋身圖像進(jìn)行關(guān)鍵點檢測,得到所述鞋身圖像的關(guān)鍵點。
所述關(guān)鍵點檢測模型為使用鞋身圖像和關(guān)鍵點樣本圖像對卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練得到,所述關(guān)鍵點樣本圖像為帶關(guān)鍵點標(biāo)記的鞋類圖像。
103、根據(jù)所述鞋身圖像的關(guān)鍵點進(jìn)行圖像調(diào)整;
鞋類檢索裝置根據(jù)所述鞋身圖像的關(guān)鍵點進(jìn)行圖像調(diào)整,使得所述鞋身圖像的鞋身朝向以及圖像尺寸與數(shù)據(jù)庫中的比對圖像一致。
具體的,所述圖像調(diào)整為對鞋身圖像的鞋身朝向以及鞋身圖像的圖像尺寸進(jìn)行調(diào)整。
請參閱圖4,所述鞋身圖像的關(guān)鍵點包括:鞋口關(guān)鍵點p1和p5,鞋頭切線點p3,鞋頭關(guān)鍵點p2和鞋跟關(guān)鍵點p4;具體的,所述鞋口關(guān)鍵點為穿鞋入口所形成弧圈上的關(guān)鍵點,所述鞋頭切線點為鞋頭弧線與鞋身側(cè)面邊緣線的連接點。
示例性的,鞋類檢索裝置根據(jù)所述鞋頭關(guān)鍵點p2和所述鞋跟關(guān)鍵點p4進(jìn)行鞋身旋轉(zhuǎn),使所述鞋身圖像的鞋身朝向與數(shù)據(jù)庫中的比對圖像一致;通過比較鞋口關(guān)鍵點p1與鞋頭切線點p3兩點的縱坐標(biāo)大小調(diào)整圖片,使所述鞋身圖像的鞋口朝向與數(shù)據(jù)庫圖片一致;按照包含所有關(guān)鍵點的最小矩形進(jìn)行裁剪,并將裁剪后的圖片調(diào)整到統(tǒng)一尺寸。
可以理解的是,在實際應(yīng)用中,鞋身圖像的調(diào)整方式可以有多種,本發(fā)明實施例僅舉出一種實現(xiàn)方式,該實現(xiàn)方式不應(yīng)理解為本發(fā)明實施例的唯一實現(xiàn)方法。
104、使用特征提取模型對所述圖像調(diào)整后的鞋身圖像進(jìn)行深度特征提??;
鞋類檢索裝置使用特征提取模型對所述圖像調(diào)整后的鞋身圖像進(jìn)行深度特征提取,得到所述鞋身圖像的深度特征。
具體的,所述特征提取模型為卷積神經(jīng)網(wǎng)絡(luò)模型,所述深度特征為所述卷積神經(jīng)網(wǎng)絡(luò)模型的中間層特征。進(jìn)一步的,所述卷積神經(jīng)網(wǎng)絡(luò)模型可以通過大量的鞋類圖像作為訓(xùn)練數(shù)據(jù)調(diào)整得到。所述訓(xùn)練數(shù)據(jù)包括:不同光照,角度,分辨率,場景下的鞋類圖像。
105、使用所述鞋身圖像的深度特征與數(shù)據(jù)庫中比對圖像的深度特征進(jìn)行相似度比對。
鞋類檢索裝置使用所述鞋身圖像的深度特征與數(shù)據(jù)庫中比對圖像的深度特征進(jìn)行相似度比對,根據(jù)所述相似度比對的結(jié)果輸出所述輸入圖像的檢索結(jié)果。具體的,所述相似度比對的結(jié)果可以為所述比對圖像與所述輸入圖像相似度的百分比。
示例性的,所述輸入圖像的檢索結(jié)果可以為根據(jù)相似度百分比依次排序的數(shù)據(jù)庫中的比對圖像。
在本發(fā)明實施例中,通過深度學(xué)習(xí)物體檢測方法,先對輸入圖像進(jìn)行剪裁,得到鞋身圖像;再利用深度學(xué)習(xí)回歸關(guān)鍵點方法找到所述鞋身圖像的關(guān)鍵點,之后按照關(guān)鍵點位置將輸入圖像與數(shù)據(jù)庫圖片進(jìn)行對齊,并對所述圖像調(diào)整后的鞋身圖像進(jìn)行深度特征提取,最后使用所述鞋身圖像的深度特征與數(shù)據(jù)庫中比對圖像的深度特征進(jìn)行相似度比對;本發(fā)明實施例中的特征提取方法能更準(zhǔn)確的描述鞋類圖像的特征,有效解決了鞋類圖像中復(fù)雜背景以及多角度的問題,提高了鞋類檢索的準(zhǔn)確度。
實施例二
下面實施例對本發(fā)明實施例中的鞋類檢索方法進(jìn)行詳細(xì)描述,包括:
邊緣坐標(biāo)檢測模型的訓(xùn)練:
以坐標(biāo)樣本圖像(即,帶標(biāo)記的鞋類圖像),以及大量的原始鞋類圖像(無標(biāo)記的鞋類圖像)作為輸入,使用fasterr-cnn對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,不斷的更新迭代鞋身坐標(biāo)模型。其中,所述所述坐標(biāo)樣本圖像為帶邊緣坐標(biāo)位置標(biāo)記的鞋類圖像,所述帶標(biāo)記的鞋類圖像指的是帶鞋身坐標(biāo)標(biāo)記的鞋類圖像,該鞋身坐標(biāo)可以為手工標(biāo)記的boundingbox的坐標(biāo),如圖3所示的矩形框左上角右下角兩點的坐標(biāo);所述卷積神經(jīng)網(wǎng)絡(luò)可以為具有五個卷積層以及兩個全連接層的神經(jīng)網(wǎng)絡(luò),如zeiler網(wǎng)絡(luò)。
關(guān)鍵點檢測模型的訓(xùn)練:
訓(xùn)練關(guān)鍵點檢測模型實現(xiàn)鞋子關(guān)鍵點回歸預(yù)測,利用上一階段訓(xùn)練的邊緣坐標(biāo)檢測模型進(jìn)行微調(diào)。保留zeiler網(wǎng)絡(luò)的前五層卷積結(jié)構(gòu)(請參考圖5,其中,conv1為卷積層,conv2為卷積層,conv3為卷積層,conv4為卷積層,conv5為卷積層,fc6為全連接層,fc7為全連接層),修改后面幾層網(wǎng)絡(luò)參數(shù),最后一層輸出關(guān)鍵點坐標(biāo)。本發(fā)明實施例使用邊緣坐標(biāo)檢測模型進(jìn)行微調(diào),充分利用了檢測模型卷積網(wǎng)絡(luò)權(quán)重對于鞋子位置的敏感性,相當(dāng)于在找到鞋子的位置的基礎(chǔ)上對于關(guān)鍵點進(jìn)行回歸預(yù)測,從而縮短了訓(xùn)練時間,提升了訓(xùn)練效率。訓(xùn)練數(shù)據(jù)為按照鞋子boundingbox擴(kuò)大1.1倍裁剪的鞋類圖片以及手工標(biāo)定的鞋子關(guān)鍵點坐標(biāo),使用時輸入數(shù)據(jù)為鞋類圖片按照boundingbox裁剪的圖片,輸出為在此圖片上鞋子關(guān)鍵點的坐標(biāo)。
特征提取模型的訓(xùn)練:
利用鞋類圖片微調(diào)現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)模型,得到本發(fā)明實施例中的特征提取模型。在實驗過程中發(fā)現(xiàn),使用ilsvrc2012訓(xùn)練的alexnet模型對于提取鞋類圖片的特征有很好的效果,所以,微調(diào)都是基于此模型進(jìn)行。訓(xùn)練過程中保留alexnet模型前五層卷積網(wǎng)絡(luò)的權(quán)重,后面層的權(quán)重進(jìn)行重新學(xué)習(xí)。訓(xùn)練數(shù)據(jù)為不同光照,角度,分辨率,場景下的鞋類圖片,在不同條件下的同款鞋子作為一類,訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)做分類問題,類別數(shù)量依訓(xùn)練數(shù)據(jù)量而定,本發(fā)明實施例使用的類別數(shù)量在一千左右。本發(fā)明實施例選擇的中間層特征(pool5層)作為鞋類圖片的深度特征,經(jīng)過實驗驗證全連接層fc6,fc7的特征并不能很好的表征圖片,檢索效果低于conv5,pool5層特征,但是conv5層特征的長度是pool5層的5倍左右,特征過長會增加特征匹配的時間,從而影響用戶體驗,所以選取pool5層特征作為鞋類圖片的深度特征。
201、使用邊緣坐標(biāo)檢測模型對輸入圖像進(jìn)行鞋身坐標(biāo)定位;
鞋類檢索裝置使用邊緣坐標(biāo)檢測模型對輸入圖像進(jìn)行鞋身坐標(biāo)定位,得到所述輸入圖像的鞋身坐標(biāo),所述輸入圖像為待檢索的鞋類圖像。
202、根據(jù)所述鞋身坐標(biāo)對所述輸入圖像進(jìn)行裁剪;
鞋類檢索裝置根據(jù)所述鞋身坐標(biāo)對所述輸入圖像進(jìn)行裁剪,得到鞋身圖像。具體的,所述鞋身坐標(biāo)可以為boundingbox坐標(biāo);進(jìn)行裁剪時,可以在boundingbox坐標(biāo)的基礎(chǔ)上擴(kuò)大x倍進(jìn)行裁剪,x倍可以為1.1。
203、使用關(guān)鍵點檢測模型對所述鞋身圖像進(jìn)行關(guān)鍵點檢測;
鞋類檢索裝置使用關(guān)鍵點檢測模型對所述鞋身圖像進(jìn)行關(guān)鍵點檢測,得到所述鞋身圖像的關(guān)鍵點。
所述關(guān)鍵點檢測模型為使用鞋身圖像和關(guān)鍵點樣本圖像對卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練得到,所述關(guān)鍵點樣本圖像為帶關(guān)鍵點標(biāo)記的鞋類圖像。
204、比較關(guān)鍵點連線面積與裁剪后的鞋身圖像面積;
鞋類檢索裝置計算所述鞋身圖像的關(guān)鍵點連線之后的面積,得到的第一鞋身面積;計算所述對輸入圖像進(jìn)行裁剪之后鞋身圖像的面積,得到的第二鞋身面積;若所述第一鞋身面積小于所述得到的第二鞋身面積n分之一,則執(zhí)行步驟205,直接根據(jù)所述第二鞋身面積對所述鞋身圖像進(jìn)行裁剪,并將裁剪后的圖片調(diào)整到統(tǒng)一尺寸;所述n為大于1的整數(shù)。若所述第一鞋身面積大于或等于所述得到的第二鞋身面積n分之一,則執(zhí)行步驟206。
示例性的,所述n可以為4。理論上五個關(guān)鍵點連線的內(nèi)部面積幾乎等于整個鞋子的面積,而boundingbox又是包含鞋子的矩形邊框,boundingbox中大部分為鞋子,所以這兩個的面積不應(yīng)相差太大,小于1/4就認(rèn)為關(guān)鍵點預(yù)測并不準(zhǔn)確,就退而求其次,不使用關(guān)鍵點,直接根據(jù)boundingbox進(jìn)行裁剪resize然后提feature。
205、根據(jù)所述第二鞋身面積對所述鞋身圖像進(jìn)行裁剪;
鞋類檢索裝置根據(jù)所述第二鞋身面積對所述鞋身圖像進(jìn)行裁剪。
206、根據(jù)所述鞋身圖像的關(guān)鍵點進(jìn)行圖像調(diào)整;
鞋類檢索裝置根據(jù)所述鞋身圖像的關(guān)鍵點進(jìn)行圖像調(diào)整,使得所述鞋身圖像的鞋身朝向以及圖像尺寸與數(shù)據(jù)庫中的比對圖像一致。
所述鞋身圖像的關(guān)鍵點包括:鞋口關(guān)鍵點p1和p5,鞋頭切線點p3,鞋頭關(guān)鍵點p2和鞋跟關(guān)鍵點p4;具體的,所述鞋口關(guān)鍵點為穿鞋入口所形成弧圈上的關(guān)鍵點,所述鞋頭切線點為鞋頭弧線與鞋身側(cè)面邊緣線的連接點。
示例性的,鞋類檢索裝置根據(jù)所述鞋頭關(guān)鍵點p2和所述鞋跟關(guān)鍵點p4進(jìn)行鞋身旋轉(zhuǎn),使所述鞋身圖像的鞋身朝向與數(shù)據(jù)庫中的比對圖像一致;通過比較鞋口關(guān)鍵點p1與鞋頭切線點p3兩點的縱坐標(biāo)大小調(diào)整圖片,使所述鞋身圖像的鞋口朝向與數(shù)據(jù)庫圖片一致;按照包含所有關(guān)鍵點的最小矩形進(jìn)行裁剪,并將裁剪后的圖片調(diào)整到統(tǒng)一尺寸。
可以理解的是,在實際應(yīng)用中,鞋身圖像的調(diào)整方式可以有多種,本發(fā)明實施例僅舉出一種實現(xiàn)方式,該實現(xiàn)方式不應(yīng)理解為本發(fā)明實施例的唯一實現(xiàn)方法。
207、使用特征提取模型對所述圖像調(diào)整后的鞋身圖像進(jìn)行深度特征提??;
鞋類檢索裝置使用特征提取模型對所述圖像調(diào)整后的鞋身圖像進(jìn)行深度特征提取,得到所述鞋身圖像的深度特征。
具體的,所述特征提取模型為卷積神經(jīng)網(wǎng)絡(luò)模型,所述深度特征為所述卷積神經(jīng)網(wǎng)絡(luò)模型的中間層特征。進(jìn)一步的,所述卷積神經(jīng)網(wǎng)絡(luò)模型可以通過大量的鞋類圖像作為訓(xùn)練數(shù)據(jù)調(diào)整得到。所述訓(xùn)練數(shù)據(jù)包括:不同光照,角度,分辨率,場景下的鞋類圖像。
208、使用所述鞋身圖像的深度特征與數(shù)據(jù)庫中比對圖像的深度特征進(jìn)行相似度比對。
鞋類檢索裝置使用所述鞋身圖像的深度特征與數(shù)據(jù)庫中比對圖像的深度特征進(jìn)行相似度比對,根據(jù)所述相似度比對的結(jié)果輸出所述輸入圖像的檢索結(jié)果。具體的,所述相似度比對的結(jié)果可以為所述比對圖像與所述輸入圖像相似度的百分比。
示例性的,所述輸入圖像的檢索結(jié)果可以為根據(jù)相似度百分比依次排序的數(shù)據(jù)庫中的比對圖像。
本發(fā)明實施例具有以下有益效果:
1、本發(fā)明實施例通過訓(xùn)練并使用鞋子檢測模型確定鞋子位置,明確了檢索主體,排除了背景的干擾信息;
2、本發(fā)明實施例提出了鞋子的關(guān)鍵點定義,并通過關(guān)鍵點進(jìn)行對齊,可以使數(shù)據(jù)庫中所有鞋子圖片與待檢索鞋子圖片保持相同方向,有利于下一步特征提取和匹配。
3、本發(fā)明實施例利用檢測模型調(diào)整訓(xùn)練出關(guān)鍵點檢測模型,充分利用了檢測模型所包含的鞋子位置信息,相當(dāng)于在鞋子位置已知的情況下回歸預(yù)測關(guān)鍵點,降低了對于訓(xùn)練數(shù)據(jù)量的要求,提升了收斂速度,縮短了訓(xùn)練時間;
4、利用不同角度,不同條件下的同款鞋子圖片對于現(xiàn)有模型進(jìn)行微調(diào),可以使提出的深度特征對于鞋子角度,光照,背景,分辨率等具有更好的魯棒性。
請參閱圖6,本發(fā)明實施例中鞋類檢索裝置的一個實施例包括:
裁剪單元601,用于根據(jù)邊緣坐標(biāo)檢測模型對輸入圖像進(jìn)行裁剪,得到鞋身圖像,所述輸入圖像為待檢索的鞋類圖像;
檢測單元602,用于使用關(guān)鍵點檢測模型對所述鞋身圖像進(jìn)行關(guān)鍵點檢測,得到所述鞋身圖像的關(guān)鍵點;
調(diào)整單元603,用于根據(jù)所述鞋身圖像的關(guān)鍵點進(jìn)行圖像調(diào)整,使得所述鞋身圖像的鞋身朝向以及圖像尺寸與數(shù)據(jù)庫中的比對圖像一致;
特征提取單元604,用于使用特征提取模型對所述圖像調(diào)整后的鞋身圖像進(jìn)行深度特征提取,得到所述鞋身圖像的深度特征;
比對單元605,用于使用所述鞋身圖像的深度特征與數(shù)據(jù)庫中比對圖像的深度特征進(jìn)行相似度比對,根據(jù)所述相似度比對的結(jié)果輸出所述輸入圖像的檢索結(jié)果。
所述裁剪單元具體用于:使用邊緣坐標(biāo)檢測模型對輸入圖像進(jìn)行鞋身坐標(biāo)定位,得到所述輸入圖像的鞋身坐標(biāo);根據(jù)所述鞋身坐標(biāo)對所述輸入圖像進(jìn)行裁剪,得到鞋身圖像。
進(jìn)一步的,所述裝置還包括:模型訓(xùn)練單元,所述模型訓(xùn)練單元用于使用原始鞋類圖像和坐標(biāo)樣本圖像對卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到所述邊緣坐標(biāo)檢測模型,所述坐標(biāo)樣本圖像為帶邊緣坐標(biāo)位置標(biāo)記的鞋類圖像。
進(jìn)一步的,所述調(diào)整單元具體用于:
所述鞋身圖像的關(guān)鍵點,包括:鞋口關(guān)鍵點p1,鞋頭切線點p3,鞋頭關(guān)鍵點p2和鞋跟關(guān)鍵點p4;
根據(jù)所述鞋頭關(guān)鍵點p2和所述鞋跟關(guān)鍵點p4進(jìn)行鞋身旋轉(zhuǎn),使所述鞋身圖像的鞋身朝向與數(shù)據(jù)庫中的比對圖像一致;
通過比較鞋口關(guān)鍵點p1與鞋頭切線點p3兩點的縱坐標(biāo)大小調(diào)整圖片,使所述鞋身圖像的鞋口朝向與數(shù)據(jù)庫圖片一致;
按照包含所有關(guān)鍵點的最小矩形進(jìn)行裁剪,并將裁剪后的圖片調(diào)整到統(tǒng)一尺寸。
上述各個單元具體的操作方法在上述圖1至圖2實施例中已經(jīng)有相應(yīng)的描述,此處不再贅述。
在本申請所提供的幾個實施例中,應(yīng)該理解到,所揭露的裝置和方法可以通過其它的方式實現(xiàn)。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。
另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。
所述集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機(jī)可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機(jī)軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機(jī)設(shè)備(可以是個人計算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:u盤、移動硬盤、只讀存儲器(rom,read-onlymemory)、隨機(jī)存取存儲器(ram,randomaccessmemory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)所述以權(quán)利要求的保護(hù)范圍為準(zhǔn)。