專利名稱:局部描述子的提取方法、圖片檢索方法及圖像匹配方法
技術(shù)領(lǐng)域:
本發(fā)明涉及圖像檢索技術(shù),尤其涉及一種緊湊性的局部描述子的提取方法及使用提取方法的圖片檢索方法、圖像匹配方法。
背景技術(shù):
現(xiàn)有技術(shù)中的圖像檢索方法包括第一步,客戶端獲取待查詢目標(biāo)圖片的局部描述子;第二步,客戶端將局部描述子發(fā)送至服務(wù)端;第三步,服務(wù)端根據(jù)局部描述子在服務(wù)端內(nèi)的數(shù)據(jù)庫中查找相似圖片,并將查找的相似圖片發(fā)送至客戶端。為保證局部描述子能夠正確表示目標(biāo)圖片,現(xiàn)有技術(shù)中在客戶端獲取的局部描述子為尺度不變描述子(Scale Invariant Feature ^Transform,簡(jiǎn)稱SIFT)或快速魯棒的尺度不變特征(Speeded Up Robust Features,簡(jiǎn)稱SURF)。然而,上述SIFT和SURF均為多維向量的局部描述子,該局部描述子占用的空間比較大,由于網(wǎng)絡(luò)帶寬的限制,客戶端無法較快的將上述局部描述子發(fā)送至服務(wù)端。進(jìn)一步地,服務(wù)端根據(jù)占用空間較大的局部描述子查找相似圖片也非常遲緩,進(jìn)而嚴(yán)重影響了檢索系統(tǒng)的查詢響應(yīng)時(shí)間,降低了查詢效率。為此,業(yè)內(nèi)人士改進(jìn)了上述的局部描述子,采用線性判別分析方法將上述高維向量的SIFT轉(zhuǎn)化為低維向量的主成分分析尺度不變描述子(Principal Component Analysis-SIFT,簡(jiǎn)稱PCA_SIFT)。然而,經(jīng)由多次實(shí)驗(yàn)驗(yàn)證,該P(yáng)CA-SIFT降低了局部描述子的區(qū)分能力,其查找的相似圖片的匹配度低,結(jié)果不準(zhǔn)確。
發(fā)明內(nèi)容
本發(fā)明提供一種局部描述子的提取方法,該提取方法獲取的局部描述子相對(duì)于現(xiàn)有技術(shù)中的局部描述子具有較高的區(qū)分能力。本發(fā)明還提供一種圖片檢索方法,用于解決現(xiàn)有技術(shù)中檢索系統(tǒng)的查詢響應(yīng)時(shí)間長、查詢效率低的問題。本發(fā)明還提供一種圖像匹配方法,用于較準(zhǔn)確的查找與目標(biāo)圖片匹配的圖像。為實(shí)現(xiàn)上述第一個(gè)目的,本發(fā)明提供的局部描述子的提取方法,包括獲取預(yù)檢索的目標(biāo)圖片的一個(gè)以上的興趣點(diǎn);根據(jù)預(yù)置規(guī)則獲取所述目標(biāo)圖片中與每一興趣點(diǎn)對(duì)應(yīng)的N個(gè)子扇區(qū),N為整數(shù),且大于等于3; 針對(duì)每一興趣點(diǎn),根據(jù)所述N個(gè)子扇區(qū)中每一子扇區(qū)內(nèi)部的像素建立像素梯度方向直方圖,得到與所述N個(gè)子扇區(qū)對(duì)應(yīng)的N個(gè)多維原始子局部描述子;將每一多維原始子局部描述子與預(yù)置權(quán)重相乘,得到N個(gè)多維加權(quán)子局部描述子,所述預(yù)置權(quán)重為多維向量,所述預(yù)置權(quán)重的維數(shù)與所述多維原始子局部描述子的維數(shù)相同;在預(yù)置的量化詞典中查找與所述多維加權(quán)子局部描述子相似的視覺單詞,得到與每一興趣點(diǎn)對(duì)應(yīng)的N個(gè)視覺單詞;
將查找的所有興趣點(diǎn)的所有視覺單詞組成所述目標(biāo)圖片的局部描述子。由上述技術(shù)方案可知,本發(fā)明的局部描述子的提取方法,針對(duì)目標(biāo)圖片獲取N個(gè)多維加權(quán)子局部描述子,并在預(yù)置的量化詞典中查找與多維加權(quán)子局部描述子相似的視覺單詞,并將該些視覺單詞組成局部描述子,該局部描述子相對(duì)于現(xiàn)有技術(shù)中的局部描述子的區(qū)分能力的到較大的提高。為實(shí)現(xiàn)上述第二個(gè)目的,本發(fā)明還提供一種圖片檢索方法,其包括客戶端獲取預(yù)檢索的目標(biāo)圖片的一個(gè)以上的興趣點(diǎn);所述客戶端根據(jù)預(yù)置規(guī)則獲取所述目標(biāo)圖片中與每一興趣點(diǎn)對(duì)應(yīng)的N個(gè)子扇區(qū), N取整數(shù),且大于等于3;針對(duì)每一興趣點(diǎn),所述客戶端根據(jù)所述N個(gè)子扇區(qū)中每一子扇區(qū)內(nèi)部的像素建立像素梯度方向直方圖,得到與所述N個(gè)子扇區(qū)對(duì)應(yīng)的N個(gè)多維原始子局部描述子;所述客戶端采將每一多維原始子局部描述子與預(yù)置權(quán)重相乘,得到N個(gè)多維加權(quán)子局部描述子,所述預(yù)置權(quán)重為多維向量,所述預(yù)置權(quán)重的維數(shù)與所述多維原始子局部描述子的維數(shù)相同;所述客戶端在預(yù)置的量化詞典中查找與所述多維加權(quán)子局部描述子相似的視覺單詞及該視覺單詞的位置標(biāo)識(shí)符,得到與每一興趣點(diǎn)對(duì)應(yīng)的N個(gè)位置標(biāo)識(shí)符;所述客戶端將所有興趣點(diǎn)的所有位置標(biāo)識(shí)符壓縮并發(fā)送至服務(wù)端;其中,所述量化詞典與所述服務(wù)端的量化詞典相同。本發(fā)明還提供一種圖片檢索方法,其包括服務(wù)端接收客戶端發(fā)送的壓縮的位置標(biāo)識(shí)符;所述服務(wù)端對(duì)所述位置標(biāo)識(shí)符解壓縮,得到一組以上的位置標(biāo)識(shí)符;針對(duì)每一組的位置標(biāo)識(shí)符,在預(yù)置的量化詞典中查找與所述位置標(biāo)識(shí)符對(duì)應(yīng)的視覺單詞,將查找的所有的視覺單詞作為目標(biāo)視覺單詞;所述服務(wù)端在預(yù)置的原始視覺單詞索引表中查找與所述目標(biāo)視覺單詞匹配的原始視覺單詞,根據(jù)查找的原始視覺單詞獲得與所述原始視覺單詞對(duì)應(yīng)的結(jié)果信息;所述服務(wù)端將所述結(jié)果信息發(fā)送至所述客戶端;其中,所述量化詞典與所述客戶端的量化詞典相同。由上述技術(shù)方案可知,本發(fā)明的圖片檢索方法,可較好的降低圖片檢索時(shí)的查詢響應(yīng)時(shí)間,使得圖片檢索的效率提高,以及提高了檢索結(jié)果的準(zhǔn)確性。為實(shí)現(xiàn)第三個(gè)目的,本發(fā)明還提供一種圖像匹配方法,其包括服務(wù)端接收客戶端發(fā)送的壓縮的位置標(biāo)識(shí)符;所述服務(wù)端對(duì)所述位置標(biāo)識(shí)符解壓縮,得到一組以上的位置標(biāo)識(shí)符,并與服務(wù)端待匹配圖像中的一組以上的原始位置標(biāo)識(shí)符進(jìn)行匹配;具體地,針對(duì)每一個(gè)位置標(biāo)識(shí)符,在所述服務(wù)端的任一組原始位置標(biāo)識(shí)符中查找與所述位置標(biāo)識(shí)符的第一距離和第二距離的原始位置標(biāo)識(shí)符,所述第一距離為所述位置標(biāo)識(shí)符與所述原始位置標(biāo)識(shí)符的距離最小,所述第二距離為所述位置標(biāo)識(shí)符與所述原始位置標(biāo)識(shí)符的距離次小;若所述第一距離與所述第二距離的比值小于預(yù)設(shè)閾值,則所述位置標(biāo)識(shí)符與所述原始位置標(biāo)識(shí)符相匹配;
其中,所述第一距離和所述第二距離在預(yù)設(shè)的距離表格中查找獲得,所述距離表格中的任一距離為與原始位置標(biāo)識(shí)符對(duì)應(yīng)的視覺單詞間的歐式距離。由上述技術(shù)方案可知,本發(fā)明的圖像匹配方法,能夠在服務(wù)端快速查找到與目標(biāo)圖片相匹配的圖片,進(jìn)而較好的降低圖像匹配時(shí)的等待時(shí)間,使得圖像匹配的效率提高,且提高了結(jié)果的準(zhǔn)確性。
為了更清楚地說明本發(fā)明的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見地下面附圖只是本發(fā)明的一些實(shí)施例的附圖,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得同樣能實(shí)現(xiàn)本發(fā)明技術(shù)方案的其它附圖。圖1為本發(fā)明一實(shí)施例提供的局部描述子的提取方法的流程示意圖;圖2A為本發(fā)明一實(shí)施例提供的目標(biāo)圖片的子扇區(qū)的示意圖;圖2B和圖2C為本發(fā)明一實(shí)施例提供的訓(xùn)練圖片的示意圖;圖3為圖1所示的提取方法中所使用的權(quán)重的一種計(jì)算方法的流程示意圖;圖4為圖1所示的提取方法中所使用的量化詞典的一種獲取方法的流程示意圖;圖5為本發(fā)明一實(shí)施例提供的圖片庫中一圖片的扇區(qū)的示意圖;圖6A為本發(fā)明一實(shí)施例提供的圖片檢索方法的流程示意圖;圖6B示出了本發(fā)明中客戶端獲取位置標(biāo)識(shí)符的示意圖;圖7A為本發(fā)明另一實(shí)施例提供的圖片檢索方法的流程示意圖;圖7B示出了本發(fā)明中服務(wù)端獲取目標(biāo)圖片的局部描述子的示意圖;圖8為本發(fā)明一實(shí)施例提供的圖像匹配方法的流程示意圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明的技術(shù)方案進(jìn)行清楚、完整地描述。顯然,下述的各個(gè)實(shí)施例都只是本發(fā)明一部分的實(shí)施例?;诒景l(fā)明下述的各個(gè)實(shí)施例,本領(lǐng)域普通技術(shù)人員即使沒有作出創(chuàng)造性勞動(dòng),也可以通過等效變換部分甚至全部的技術(shù)特征,而獲得能夠解決本發(fā)明技術(shù)問題,實(shí)現(xiàn)本發(fā)明技術(shù)效果的其它實(shí)施例,而這些變換而來的各個(gè)實(shí)施例顯然并不脫離本發(fā)明所公開的范圍。結(jié)合圖1和圖2A所示,圖1為本發(fā)明一實(shí)施例提供的局部描述子的提取方法的流程示意圖,圖2A為本發(fā)明一實(shí)施例提供的目標(biāo)圖片的子扇區(qū)的示意圖;本實(shí)施例中的局部描述子的提取方法如下文所述。步驟101、獲取預(yù)檢索的目標(biāo)圖片的一個(gè)以上的興趣點(diǎn)。本實(shí)施例中的目標(biāo)圖片可為任意一張圖片,例如目標(biāo)圖片可為具有文字或繪圖的照片、油畫照片、從視頻中截取的幀、地標(biāo)照片以及物品照片等,本實(shí)施例中對(duì)目標(biāo)圖片的類型和圖片內(nèi)容不進(jìn)行限定。在實(shí)際應(yīng)用中,獲取預(yù)檢索的目標(biāo)圖片的興趣點(diǎn)的方式還可為將目標(biāo)圖片與拉普拉斯核函數(shù)進(jìn)行卷積;采用極值點(diǎn)方式獲取所述卷積后的目標(biāo)圖片的一個(gè)以上的興趣點(diǎn)。通常,獲取一張照片中的興趣點(diǎn)為400至500個(gè)。當(dāng)然,在一些情況下,還可由用戶根據(jù)需要直接指定興趣點(diǎn)的提取方法,本實(shí)施例中對(duì)目標(biāo)圖片的興趣點(diǎn)的獲取方式僅為舉例說明。步驟102、根據(jù)預(yù)置規(guī)則獲取目標(biāo)圖片中與每一興趣點(diǎn)對(duì)應(yīng)的N個(gè)子扇區(qū),N取整數(shù),且大于等于3。本實(shí)施例中的預(yù)置規(guī)則為用戶預(yù)先設(shè)定的獲取N個(gè)子扇區(qū)的方式。通常,各興趣點(diǎn)的子扇區(qū)不重合。以下舉例說明一個(gè)興趣點(diǎn)的9個(gè)子扇區(qū)的獲取方式,參照?qǐng)D2A所示。在目標(biāo)圖片20中選取興趣點(diǎn)21為中心,半徑為禮、R2, R3的三個(gè)同心圓,其中,R1
< R2 < R3 ;將R1與&之間的圓環(huán)均等劃分為四個(gè)相等的第一區(qū)域Bp B2, B3、B4,以及將&與 R3之間的圓環(huán)均等劃分為四個(gè)相等的第二區(qū)域Q、C2、C3、C4 ;上述半徑為R1的圓形、Bp B2, B3> B4, C1, C2, C3> C4組成與興趣點(diǎn)21對(duì)應(yīng)的9個(gè)子扇區(qū)。在一些情況下,可以設(shè)定R3 = 2* = 4*禮。通常,如果采用的興趣點(diǎn)提取方法能夠提供尺度信息,可以設(shè)定民為尺度的大小。步驟103、針對(duì)每一興趣點(diǎn),根據(jù)N個(gè)子扇區(qū)中每一子扇區(qū)內(nèi)部的像素建立像素梯度方向直方圖,得到與N個(gè)子扇區(qū)對(duì)應(yīng)的N個(gè)多維原始子局部描述子。步驟104、針對(duì)每一興趣點(diǎn)的N個(gè)多維原始子局部描述子,將每一多維原始子局部描述子與預(yù)置權(quán)重相乘,得到N個(gè)多維加權(quán)子局部描述子。在具體應(yīng)用過程中,可預(yù)先設(shè)定一多維向量的權(quán)重,該權(quán)重的維數(shù)與多維原始子局部描述子的維數(shù)是相同的。當(dāng)然,預(yù)先設(shè)定的權(quán)重是業(yè)內(nèi)人士通過一組或多組的訓(xùn)練圖片試驗(yàn)獲取的向量。 本發(fā)明舉例說明了一種獲取權(quán)重的方法,如下圖3的描述。步驟105、針對(duì)每一興趣點(diǎn)的N個(gè)多維加權(quán)子局部描述子,在預(yù)置的量化詞典中查找與多維加權(quán)子局部描述子相似的視覺單詞,進(jìn)而將查找的所有興趣點(diǎn)的所有視覺單詞組成目標(biāo)圖片的局部描述子。在實(shí)際的圖片檢索過程中,預(yù)置的量化詞典可包括N個(gè)子量化詞典,每一子量化詞典對(duì)應(yīng)一多維加權(quán)子局部描述子;此時(shí),步驟105可具體為每一興趣點(diǎn)的每一多維加權(quán)子局部描述子在其對(duì)應(yīng)的子量化詞典中查找與該多維加權(quán)子局部描述子相似的視覺單詞,并用該查找的視覺單詞代替多維加權(quán)子局部描述子;最后將查找的所有興趣點(diǎn)的所有視覺單詞組成目標(biāo)圖片的局部描述子。步驟105中所述的“相似”可為根據(jù)相似性度量原則獲取的最相似的視覺詞典。 通常的相似性度量原則可采用KulllDack-Leibler差異(Kulll^ack-LeiblerDivergence,簡(jiǎn)稱KL距離)進(jìn)行度量。需要說明的是,在實(shí)際的圖片檢索過程中,位于客戶端的量化詞典或子量化詞典均是從服務(wù)器端下載更新的。或者,在客戶端采用圖片檢索之前可獲取量化詞典或子量化詞典。下文通過圖4流程圖示意性的說明服務(wù)端/客戶端如何獲取量化詞典/子量化詞典的過程。由上述實(shí)施例可知,本實(shí)施例的局部描述子的提取方法,針對(duì)目標(biāo)圖片獲取N個(gè)多維加權(quán)子局部描述子,并在預(yù)置的量化詞典中查找與多維加權(quán)子局部描述子相似的視覺單詞,并將該些視覺單詞組成局部描述子,該局部描述子相對(duì)于現(xiàn)有技術(shù)中的局部描述子來說,空間占有率低,且區(qū)分能力高即保證了局部描述子的判決力。結(jié)合圖2B、2C和圖3所示,圖3示出了本發(fā)明中的預(yù)置權(quán)重的計(jì)算方法,其中,預(yù)置權(quán)重的計(jì)算方法包括步驟301、在預(yù)置的一組以上的訓(xùn)練圖片中建立一組以上的三維點(diǎn)云,每一組三維點(diǎn)云包括若干個(gè)三維點(diǎn),該些三維點(diǎn)對(duì)應(yīng)一組訓(xùn)練圖片。特別地,可利用現(xiàn)有技術(shù)中的局部立體匹配和多視角一致性限制為一組訓(xùn)練圖片
產(chǎn)生一組或多組三維點(diǎn)云。舉例來說,上述的一組訓(xùn)練圖片可為同一建筑物在不同角度拍攝的十張圖片(如圖2B、圖2C所示的一組訓(xùn)練圖片中的兩張圖片),該十張風(fēng)景圖片包括基本相同的內(nèi)容,但每一張風(fēng)景圖片的拍攝角度均不同。步驟302、獲取三維點(diǎn)云在與所述三維點(diǎn)云對(duì)應(yīng)的訓(xùn)練圖片中的原始子局部描述子,得到一組以上的原始子局部描述子。也就是說,針對(duì)三維點(diǎn)云中的一個(gè)三維點(diǎn),獲得與其對(duì)應(yīng)的訓(xùn)練圖像及該三維點(diǎn)在所述訓(xùn)練圖像中的投影位置,以所述投影位置為中心獲取原始子局部描述子。舉例來說,若從上述十張風(fēng)景圖片中選取了一組三維點(diǎn)云,則將該三維點(diǎn)云投影到每一張風(fēng)景圖片上,該每一張風(fēng)景圖片上的投影點(diǎn)可理解為該風(fēng)景圖片的興趣點(diǎn);此時(shí),獲取各風(fēng)景圖片中的每一個(gè)興趣點(diǎn)的N個(gè)子扇區(qū),以及將每一子扇區(qū)內(nèi)部的像素建立像素梯度方向直方圖,進(jìn)而得到與三維點(diǎn)云對(duì)應(yīng)的原始子局部描述子,一組三維點(diǎn)云對(duì)應(yīng)一組原始子局部描述子。舉例來說,一組訓(xùn)練圖片對(duì)應(yīng)的一組三維點(diǎn)云包括三個(gè)三維點(diǎn),該三個(gè)三維點(diǎn)投影到該組訓(xùn)練圖片中,該組訓(xùn)練圖片的每一張訓(xùn)練圖片獲得9個(gè)興趣點(diǎn);同上步驟102、步驟103中獲取多維原始子局部描述子的方式,獲取每一訓(xùn)練圖片的所有興趣點(diǎn)的原始子局部描述子;若每一興趣點(diǎn)對(duì)應(yīng)4個(gè)子扇區(qū),則每一張訓(xùn)練圖片可獲的4*9個(gè)原始子局部描述子??梢岳斫獾氖?,該處風(fēng)景圖片的每一個(gè)興趣點(diǎn)的N個(gè)子扇區(qū)劃分方式與圖2A所示的劃分方式可以相同也可以不同。步驟303、計(jì)算所有的原始子局部描述子中的每一維度的均方差,將計(jì)算得到的各維度的均方差的一個(gè)遞減函數(shù)作為預(yù)置權(quán)重。舉例來說,如下的遞減函數(shù)f (χ) = exp (-χ)由上方法計(jì)算的各維度的權(quán)重值反應(yīng)了該維度的魯棒性。在理想狀態(tài)下,上述同一個(gè)三維點(diǎn)投影到該組的各訓(xùn)練圖片中得到的原始子局部描述子應(yīng)該是一致的,但,由于實(shí)際成像條件變換等原因,上述的原始子局部描述子可能有部分的偏差,故本實(shí)施例中通過獲取訓(xùn)練圖片的權(quán)重,以調(diào)整圖1中的目標(biāo)圖片的多維原始子局部描述子的偏差,以使偏差更小,進(jìn)而保證獲取的目標(biāo)圖片的N個(gè)多維加權(quán)子局部描述子較準(zhǔn)確的表示目標(biāo)圖片。結(jié)合圖5和圖4所示,圖4示出了本發(fā)明中的量化詞典的獲取方法,其中,量化詞典的獲取方法包括步驟401、獲取圖片庫中每一張圖片的興趣點(diǎn)以及每一興趣點(diǎn)對(duì)應(yīng)的N個(gè)扇區(qū)。
其中,N個(gè)扇區(qū)的排序與N個(gè)子扇區(qū)的排序是相同的。該步驟中獲取每一興趣點(diǎn)的N個(gè)扇區(qū)的方式與上述步驟102中獲取N個(gè)子扇區(qū)的方式是相同的。舉例來說,如圖5所示的圖片庫中任一圖片50的任一興趣點(diǎn)51,興趣點(diǎn)51對(duì)應(yīng)的9個(gè)子扇區(qū)包括半徑為R1的圓形、M1區(qū)域、M2區(qū)域、M3區(qū)域、M4區(qū)域、N1區(qū)域、N2區(qū)域、 N3區(qū)域、N4區(qū)域。其中,圖5中的M1區(qū)域與圖2A中的B1區(qū)域?qū)?yīng),N1區(qū)域與C1區(qū)域?qū)?yīng)。步驟402、針對(duì)每一圖片的任一興趣點(diǎn),獲取該興趣點(diǎn)的N個(gè)第一加權(quán)子局部描述子。具體地,獲取每一圖片的任一興趣點(diǎn)的第一加權(quán)子局部描述子的方式與前述的獲取目標(biāo)圖片的任一興趣點(diǎn)的N個(gè)多維加權(quán)子局部描述子的方式是一致的。應(yīng)了解的是,該處的“第一加權(quán)子局部描述子”也是多維向量,其在名稱上與目標(biāo)圖片的多維加權(quán)子局部描述子進(jìn)行區(qū)分。步驟403、在圖片庫中,將所有圖片中相同序號(hào)的扇區(qū)對(duì)應(yīng)的第一加權(quán)子局部描述子進(jìn)行匯總,得到N個(gè)集合。舉例來說,將圖片庫中任一圖片的任一興趣點(diǎn)的Ml區(qū)域?qū)?yīng)的第一加權(quán)子局部描述子匯總,得到一個(gè)集合;相應(yīng)地,可將所有圖片的所有興趣點(diǎn)的N1區(qū)域的第一加權(quán)子局部描述子匯總,得到另一個(gè)集合,由此,在上述圖片庫中,可得到N個(gè)集合。步驟404、對(duì)每一集合中的第一加權(quán)子局部描述子進(jìn)行聚類,獲取K個(gè)聚類中心, 該K個(gè)聚類中心組成一子量化詞典,得到N個(gè)子量化詞典,該N個(gè)子量化詞典組成量化詞典;K為大于零的自然數(shù)。該步驟中的聚類的具體方式可以是K均值聚類方式、分層聚類方式、譜聚類方式等,其中譜聚類方式可以參考文獻(xiàn)“Ng Α.,Jordan Μ. , and Weiss Y. On Spectral Clustering Analysis and an algorithm. NIPS,849-856,2001 ”中的方法。聚類時(shí)采用的相似性度量規(guī)則可為子描述子之間的歐式距離、余弦距離等。上述的量化詞典可對(duì)前述的提取目標(biāo)圖片的N個(gè)多維加權(quán)子局部描述子進(jìn)行量化,進(jìn)一步,還可以推廣以對(duì)現(xiàn)有技術(shù)中的SIFT、SURF等進(jìn)行量化。圖6A為本發(fā)明一實(shí)施例提供的圖片檢索方法的流程示意圖,如圖6A所示,本實(shí)施例中的圖片檢索方法如下文所述。步驟601、客戶端獲取預(yù)檢索的目標(biāo)圖片的一個(gè)以上的興趣點(diǎn)。步驟602、客戶端根據(jù)預(yù)置規(guī)則獲取目標(biāo)圖片中與每一興趣點(diǎn)對(duì)應(yīng)的N個(gè)子扇區(qū)。N取整數(shù),且大于等于3。步驟603、針對(duì)每一興趣點(diǎn),客戶端根據(jù)N個(gè)子扇區(qū)中每一子扇區(qū)內(nèi)部的像素建立像素梯度方向直方圖,得到與N個(gè)子扇區(qū)對(duì)應(yīng)的N個(gè)多維原始子局部描述子。步驟604、客戶端將每一多維原始子局部描述子與預(yù)置權(quán)重相乘,得到N個(gè)多維加權(quán)子局部描述子。
預(yù)置權(quán)重為多維向量,預(yù)置權(quán)重的維數(shù)與所述多維原始子局部描述子的維數(shù)相同。步驟605、客戶端在預(yù)置的量化詞典中查找與多維加權(quán)子局部描述子相似的視覺單詞及該視覺單詞的位置標(biāo)識(shí)符,得到與每一興趣點(diǎn)對(duì)應(yīng)的N個(gè)位置標(biāo)識(shí)符。步驟606、客戶端將所有興趣點(diǎn)的所有位置標(biāo)識(shí)符壓縮并發(fā)送至服務(wù)端。舉例來說,所有的位置標(biāo)識(shí)符可通過熵編碼或游程編碼的方式進(jìn)行壓縮。當(dāng)然,客戶端也可以直接將查找的所有位置標(biāo)識(shí)符發(fā)送至服務(wù)端。結(jié)合圖6B所示,圖6B示出了本發(fā)明中客戶端獲取位置標(biāo)識(shí)符的示意圖,其中,w/、 W12,……< ;^1、……ι1;……^9均為量化詞典中的視覺單詞,在步驟605中查找的與多維加權(quán)子局部描述子相似的視覺單詞為《Λ 22、···《/,其在量化詞典中的位置標(biāo)識(shí)符為5、
2.....3,進(jìn)而可采用該位置標(biāo)識(shí)符5、2.....3表示目標(biāo)圖片的局部描述子,并發(fā)送至服務(wù)
端,由此在圖片檢索時(shí),可較好的降低客戶端發(fā)送至服務(wù)端的局部描述子的空間占有率,使得服務(wù)端的查詢響應(yīng)時(shí)間也能夠被提高。需要注意的是,所述量化詞典與所述服務(wù)端的量化詞典相同,位置標(biāo)識(shí)符可為一維向量、二維矩陣或其他空間占有率低的表示字符,其位置標(biāo)識(shí)符所占用的空間遠(yuǎn)遠(yuǎn)小于前述的任一局部描述子所占用的空間。由此,客戶端將該些壓縮后的位置標(biāo)識(shí)符發(fā)送于服務(wù)端較好的實(shí)現(xiàn)圖片檢索過程中的低比特傳輸,同時(shí)還能夠保證目標(biāo)圖片檢索結(jié)構(gòu)的準(zhǔn)確性。另外,上述的圖片檢索方法尤其適用于無線網(wǎng)絡(luò)的圖片檢索。上述實(shí)施例中的圖片檢索方法可較好的降低圖片檢索時(shí)的查詢響應(yīng)時(shí)間,使得圖片檢索的效率提高,以及提高了檢索結(jié)果的準(zhǔn)確性。圖7Α為本發(fā)明一實(shí)施例提供的圖片檢索方法的流程示意圖,如圖7所示,本實(shí)施例中的圖片檢索方法如下文所述。步驟701、服務(wù)端接收客戶端發(fā)送的壓縮的位置標(biāo)識(shí)符。步驟702、服務(wù)端對(duì)位置標(biāo)識(shí)符解壓縮,得到一組以上的位置標(biāo)識(shí)符;針對(duì)每一組的位置標(biāo)識(shí)符,在預(yù)置的量化詞典中查找與位置標(biāo)識(shí)符對(duì)應(yīng)的視覺單詞,將查找的所有的視覺單詞作為目標(biāo)視覺單詞。結(jié)合圖7Β所示,圖7Β示出了本發(fā)明中服務(wù)端獲取局部描述子的示意圖,其中,w/、
W12,……W19 ;W21,……Wl1;……Wl9均為量化詞典中的視覺單詞,位置標(biāo)識(shí)符為5、2.....
3,在步驟702中查找的與位置標(biāo)識(shí)符對(duì)應(yīng)的視覺單詞為 1、 2、…巧9,其在量化詞典中的位置標(biāo)識(shí)符為5、2.....3,進(jìn)而在服務(wù)端可獲得目標(biāo)圖片的局部描述子。在具體使用中,一組位置標(biāo)識(shí)符的數(shù)量為N個(gè),N為整數(shù),且大于等于3 ;相應(yīng)地,量化詞典包括N個(gè)子量化詞典,每一子量化詞典與一組位置標(biāo)識(shí)符中的一個(gè)位置標(biāo)識(shí)符對(duì)應(yīng)。該步驟中獲取量化詞典的方式與圖4中所示的方式相同,在此不再詳述。步驟703、服務(wù)端在預(yù)置的原始視覺單詞索引表中查找與目標(biāo)視覺單詞匹配/ 一致的原始視覺單詞,根據(jù)查找的原始視覺單詞獲得與所述原始視覺單詞對(duì)應(yīng)的結(jié)果信息。該步驟中根據(jù)查找的原始視覺單詞獲得與所述原始視覺單詞對(duì)應(yīng)的結(jié)果信息可為根據(jù)現(xiàn)有技術(shù)中的相似性度量規(guī)則獲取結(jié)果信息。
例如,將包含查找的原始視覺單詞的圖片庫中的所有圖片按照相似性分?jǐn)?shù)從高到低進(jìn)行排序,其結(jié)果信息可為排在前面的多張圖片。步驟704、服務(wù)端將結(jié)果信息發(fā)送至客戶端。舉例來說,結(jié)果信息包括查找的圖片以及圖片的相關(guān)說明等。需要注意的是,上述的量化詞典可與客戶端的量化詞典相同,以及上述的原始視覺單詞索引表可代表服務(wù)端所有的圖片的視覺單詞,服務(wù)端使用原始視覺單詞為與客戶端的視覺單詞進(jìn)行區(qū)分。由上述實(shí)施例可知,服務(wù)端的查詢響應(yīng)時(shí)間短,查詢結(jié)果信息的準(zhǔn)確性高。應(yīng)了解的是,原始視覺單詞索引表中的每一原始視覺單詞與包含該原始視覺單詞的圖片建立有映射關(guān)系,可以理解的是,原始視覺單詞索引表中的每一原始視覺單詞均指向包含該單詞的圖片。當(dāng)原始視覺單詞索引表中的一原始視覺單詞對(duì)應(yīng)多個(gè)包含該原始視覺單詞的圖片時(shí),該多個(gè)圖片的排序是按照相似性分?jǐn)?shù)進(jìn)行排序的,排在前面的圖片是與與目標(biāo)圖片最相似的。上述圖片按照相似性分?jǐn)?shù)排序的方法屬于可參照現(xiàn)有技術(shù)。圖8為本發(fā)明一實(shí)施例提供的圖像匹配方法的流程示意圖,如圖8所示,本實(shí)施例中的圖像匹配方法如下文所述。步驟801、服務(wù)端接收客戶端發(fā)送的壓縮的位置標(biāo)識(shí)符。步驟802、服務(wù)端對(duì)位置標(biāo)識(shí)符解壓縮,得到一組以上的位置標(biāo)識(shí)符,并與服務(wù)端待匹配圖像中的一組以上的原始位置標(biāo)識(shí)符進(jìn)行匹配。步驟803、針對(duì)服務(wù)端接收的每一個(gè)位置標(biāo)識(shí)符,在服務(wù)端的任一組原始位置標(biāo)識(shí)符中查找與位置標(biāo)識(shí)符的第一距離和第二距離的原始位置標(biāo)識(shí)符。上述的第一距離為位置標(biāo)識(shí)符與原始位置標(biāo)識(shí)符的距離最小,第二距離為位置標(biāo)識(shí)符與原始位置標(biāo)識(shí)符的距離次小。步驟804、若第一距離與第二距離的比值小于預(yù)設(shè)閾值,則位置標(biāo)識(shí)符與原始位置標(biāo)識(shí)符相匹配。否則,上述比值大于預(yù)設(shè)閾值,則認(rèn)為量化詞典中不存在與客戶端的局部描述子的目標(biāo)視覺單詞匹配的視覺單詞。若所有的比值均大于預(yù)設(shè)閾值,則可認(rèn)為服務(wù)端不存在與目標(biāo)圖片匹配的圖片。上述的閾值通常設(shè)為0.6。在具體應(yīng)用中,第一距離和第二距離可在預(yù)設(shè)的距離表格中查找,距離表格中的任一距離為與原始位置標(biāo)識(shí)符對(duì)應(yīng)的視覺單詞間的歐式距離、KL距離或者余弦距離。該處需要說明的是,若距離表格中的一距離為歐式距離,則該距離表格中的其他任一距離均為歐式距離;相應(yīng)地,若距離表格中的一距離為KL距離,則該距離表格中的其他任一距離均為KL距離。也就是說,距離表格中的任一距離的計(jì)算方式是相同的。在其他的實(shí)施例中上述距離表格中的任一距離還可為其他方式計(jì)算的與原始位置標(biāo)識(shí)符對(duì)應(yīng)的視覺單詞間的距離,本實(shí)施例僅為舉例說明。進(jìn)一步地,一組位置標(biāo)識(shí)符的數(shù)量為N個(gè),N為整數(shù),且大于等于3 ;量化詞典包括 N個(gè)子量化詞典,所述每一子量化詞典與一組位置標(biāo)識(shí)符中的一個(gè)位置標(biāo)識(shí)符對(duì)應(yīng)。通常,針對(duì)每一子量化詞典,可預(yù)先計(jì)算該子量化詞典內(nèi)部任一兩個(gè)視覺單詞時(shí)間的距離,例如可采用KL散度方式計(jì)算上述距離,并將計(jì)算的距離按照一定的規(guī)律排列在相對(duì)應(yīng)的距離表格中。若量化詞典包括9個(gè)子量化詞典,則每一子量化詞典產(chǎn)生一距離表格,進(jìn)而在計(jì)算上述比值時(shí),可直接在相對(duì)應(yīng)的距離表格中查找最小距離即第一距離和次小距離即第二距離。由上實(shí)施例可知,本實(shí)施例中的圖像匹配方法能夠在服務(wù)端快速查找到與目標(biāo)圖片相匹配的圖片,進(jìn)而較好的降低圖像匹配時(shí)的等待時(shí)間,使得圖像匹配的效率提高,且提高了結(jié)果的準(zhǔn)確性。本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述方法實(shí)施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成,前述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),執(zhí)行包括上述方法實(shí)施例的步驟;而前述的存儲(chǔ)介質(zhì)包括R0M、RAM、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。最后應(yīng)說明的是以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍。
權(quán)利要求
1.一種局部描述子的提取方法,其特征在于,包括 獲取預(yù)檢索的目標(biāo)圖片的一個(gè)以上的興趣點(diǎn);根據(jù)預(yù)置規(guī)則獲取所述目標(biāo)圖片中與每一興趣點(diǎn)對(duì)應(yīng)的N個(gè)子扇區(qū),N為整數(shù),且大于等于3;針對(duì)每一興趣點(diǎn),根據(jù)所述N個(gè)子扇區(qū)中每一子扇區(qū)內(nèi)部的像素建立像素梯度方向直方圖,得到與所述N個(gè)子扇區(qū)對(duì)應(yīng)的N個(gè)多維原始子局部描述子;將每一多維原始子局部描述子與預(yù)置權(quán)重相乘,得到N個(gè)多維加權(quán)子局部描述子,所述預(yù)置權(quán)重為多維向量,所述預(yù)置權(quán)重的維數(shù)與所述多維原始子局部描述子的維數(shù)相同;在預(yù)置的量化詞典中查找與所述多維加權(quán)子局部描述子相似的視覺單詞,得到與每一興趣點(diǎn)對(duì)應(yīng)的N個(gè)視覺單詞;將查找的所有興趣點(diǎn)的所有視覺單詞組成所述目標(biāo)圖片的局部描述子。
2.根據(jù)權(quán)利要求1所述的提取方法,其特征在于,所述獲取預(yù)檢索的目標(biāo)圖片的一個(gè)以上的興趣點(diǎn),包括獲取所述目標(biāo)圖片;將所述目標(biāo)圖片與拉普拉斯核函數(shù)進(jìn)行卷積;采用極值點(diǎn)方式獲取所述卷積后的目標(biāo)圖片的一個(gè)以上的興趣點(diǎn)。
3.根據(jù)權(quán)利要求1所述的提取方法,其特征在于,所述根據(jù)預(yù)置規(guī)則獲取所述目標(biāo)圖片中與每一興趣點(diǎn)對(duì)應(yīng)的N個(gè)子扇區(qū),包括若N等于9,則在目標(biāo)圖片中選取所述興趣點(diǎn)為中心,半徑為R1、R2、R3的三個(gè)同心圓, 其中,Rl < R2 < R3 ;將Rl與R2之間的圓環(huán)均等劃分為四個(gè)相等的第一區(qū)域,以及將R2與R3之間的圓環(huán)均等劃分為四個(gè)相等的第二區(qū)域;所述半徑為Rl的圓形、四個(gè)第一區(qū)域、四個(gè)第二區(qū)域組成與所述興趣點(diǎn)對(duì)應(yīng)的9個(gè)子扇區(qū)。
4.根據(jù)權(quán)利要求1至3任一所述的提取方法,其特征在于,所述預(yù)置權(quán)重的獲取方式為在預(yù)置的一組以上的訓(xùn)練圖片中建立一組以上的三維點(diǎn)云,每一組三維點(diǎn)云包括若干個(gè)三維點(diǎn),所述一組三維點(diǎn)云對(duì)應(yīng)一組訓(xùn)練圖片;獲取所述三維點(diǎn)云在與所述三維點(diǎn)云對(duì)應(yīng)的訓(xùn)練圖片中的原始子局部描述子,得到與三維點(diǎn)云對(duì)應(yīng)的原始子局部描述子;計(jì)算所有的原始子局部描述子中的每一維度的均方差,將計(jì)算得到的各維度的均方差的一個(gè)遞減函數(shù)作為預(yù)置權(quán)重。
5.根據(jù)權(quán)利要求1所述的提取方法,其特征在于,所述預(yù)置的量化詞典包括N個(gè)子量化詞典,每一子量化詞典對(duì)應(yīng)一多維加權(quán)子局部描述子;相應(yīng)地,所述在預(yù)置的量化詞典中查找與所述多維加權(quán)子局部描述子相似的視覺單詞,具體為每一多維加權(quán)子局部描述子在其對(duì)應(yīng)的子量化詞典中查找與該多維加權(quán)子局部描述子相似的視覺單詞。
6.根據(jù)權(quán)利要求1或5所述的提取方法,其特征在于,所述量化詞典的獲取方式為獲取圖片庫中每一張圖片的興趣點(diǎn)以及每一興趣點(diǎn)對(duì)應(yīng)的N個(gè)扇區(qū),所述N個(gè)扇區(qū)的排序與所述N個(gè)子扇區(qū)的排序是相同的;針對(duì)每一圖片的任一興趣點(diǎn),獲取該興趣點(diǎn)的N個(gè)第一加權(quán)子局部描述子; 在圖片庫中,將所有圖片中相同序號(hào)的扇區(qū)對(duì)應(yīng)的第一加權(quán)子局部描述子進(jìn)行匯總, 得到N個(gè)集合;對(duì)每一集合中的第一加權(quán)子局部描述子進(jìn)行聚類,獲取K個(gè)聚類中心,該K個(gè)聚類中心組成一子量化詞典,得到N個(gè)子量化詞典;K為大于0的自然數(shù); 所述N個(gè)子量化詞典組成量化詞典。
7.一種圖片檢索方法,其特征在于,包括客戶端獲取預(yù)檢索的目標(biāo)圖片的一個(gè)以上的興趣點(diǎn);所述客戶端根據(jù)預(yù)置規(guī)則獲取所述目標(biāo)圖片中與每一興趣點(diǎn)對(duì)應(yīng)的N個(gè)子扇區(qū),N取整數(shù),且大于等于3;針對(duì)每一興趣點(diǎn),所述客戶端根據(jù)所述N個(gè)子扇區(qū)中每一子扇區(qū)內(nèi)部的像素建立像素梯度方向直方圖,得到與所述N個(gè)子扇區(qū)對(duì)應(yīng)的N個(gè)多維原始子局部描述子;所述客戶端將每一多維原始子局部描述子與預(yù)置權(quán)重相乘,得到N個(gè)多維加權(quán)子局部描述子,所述預(yù)置權(quán)重為多維向量,所述預(yù)置權(quán)重的維數(shù)與所述多維原始子局部描述子的維數(shù)相同;所述客戶端在預(yù)置的量化詞典中查找與所述多維加權(quán)子局部描述子相似的視覺單詞及該視覺單詞的位置標(biāo)識(shí)符,得到與每一興趣點(diǎn)對(duì)應(yīng)的N個(gè)位置標(biāo)識(shí)符; 所述客戶端將所有興趣點(diǎn)的所有位置標(biāo)識(shí)符壓縮并發(fā)送至服務(wù)端; 其中,所述量化詞典與所述服務(wù)端的量化詞典相同。
8.一種圖片檢索方法,其特征在于,包括服務(wù)端接收客戶端發(fā)送的壓縮的位置標(biāo)識(shí)符;所述服務(wù)端對(duì)所述位置標(biāo)識(shí)符解壓縮,得到一組以上的位置標(biāo)識(shí)符;針對(duì)每一組的位置標(biāo)識(shí)符,在預(yù)置的量化詞典中查找與所述位置標(biāo)識(shí)符對(duì)應(yīng)的視覺單詞,將查找的所有的視覺單詞作為目標(biāo)視覺單詞;所述服務(wù)端在預(yù)置的原始視覺單詞索引表中查找與所述目標(biāo)視覺單詞匹配的原始視覺單詞,根據(jù)查找的原始視覺單詞獲得與所述原始視覺單詞對(duì)應(yīng)的結(jié)果信息; 所述服務(wù)端將所述結(jié)果信息發(fā)送至所述客戶端; 其中,所述量化詞典與所述客戶端的量化詞典相同。
9.根據(jù)權(quán)利要求8所述的圖片檢索方法,其特征在于,一組位置標(biāo)識(shí)符的數(shù)量為N個(gè), N為整數(shù),且大于等于3;所述量化詞典包括N個(gè)子量化詞典,所述每一子量化詞典與一組位置標(biāo)識(shí)符中的一個(gè)位置標(biāo)識(shí)符對(duì)應(yīng)。
10.一種圖像匹配方法,其特征在于,包括 服務(wù)端接收客戶端發(fā)送的壓縮的位置標(biāo)識(shí)符;所述服務(wù)端對(duì)所述位置標(biāo)識(shí)符解壓縮,得到一組以上的位置標(biāo)識(shí)符,并與服務(wù)端待匹配圖像中的一組以上的原始位置標(biāo)識(shí)符進(jìn)行匹配;具體地,針對(duì)每一個(gè)位置標(biāo)識(shí)符,在所述服務(wù)端的任一組原始位置標(biāo)識(shí)符中查找與所述位置標(biāo)識(shí)符的第一距離和第二距離的原始位置標(biāo)識(shí)符,所述第一距離為所述位置標(biāo)識(shí)符與所述原始位置標(biāo)識(shí)符的距離最小,所述第二距離為所述位置標(biāo)識(shí)符與所述原始位置標(biāo)識(shí)符的距離次??;若所述第一距離與所述第二距離的比值小于預(yù)設(shè)閾值,則所述位置標(biāo)識(shí)符與所述原始位置標(biāo)識(shí)符相匹配;其中,所述第一距離和所述第二距離在預(yù)設(shè)的距離表格中查找獲得,所述距離表格中的任一距離為與原始位置標(biāo)識(shí)符對(duì)應(yīng)的視覺單詞間的歐式距離、KL距離或者余弦距離。
全文摘要
本發(fā)明公開了一種局部描述子的提取方法、圖片檢索方法及圖像匹配方法,其中,提取方法包括獲取預(yù)檢索的目標(biāo)圖片的一個(gè)以上的興趣點(diǎn);獲取所述目標(biāo)圖片中與每一興趣點(diǎn)對(duì)應(yīng)的N個(gè)子扇區(qū);針對(duì)每一興趣點(diǎn),根據(jù)N個(gè)子扇區(qū)中每一子扇區(qū)內(nèi)部的像素建立像素梯度方向直方圖,得到與N個(gè)子扇區(qū)對(duì)應(yīng)的N個(gè)多維原始子局部描述子;將每一多維原始子局部描述子與預(yù)置權(quán)重相乘,得到N個(gè)多維加權(quán)子局部描述子;在預(yù)置的量化詞典中查找與所述多維加權(quán)子局部描述子相似的視覺單詞,得到與每一興趣點(diǎn)對(duì)應(yīng)的N個(gè)視覺單詞;將查找的所有興趣點(diǎn)的所有視覺單詞組成所述目標(biāo)圖片的局部描述子。上述提取方法獲取的局部描述子具有較好的判決力。
文檔編號(hào)G06K9/64GK102521618SQ20111035818
公開日2012年6月27日 申請(qǐng)日期2011年11月11日 優(yōu)先權(quán)日2011年11月11日
發(fā)明者楊爽, 段凌宇, 王春雨, 高文, 黃鐵軍 申請(qǐng)人:北京大學(xué)