本發(fā)明涉及視覺實例搜索領(lǐng)域,尤其是涉及了一種利用全景圖構(gòu)建的視覺實例檢索方法。
背景技術(shù):
隨著多媒體、網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,圖像、視頻信息的應用日益廣泛,對規(guī)模越來越大的圖像和視頻庫、視覺信息進行有效的管理成為迫切人們需要解決的問題。近些年,深度學習在各種計算機視覺任務(wù)上都取得了重大的突破,其中一個重要因素就是其強大的非線性表示能力,能夠理解圖像更深層次的信息。其中,視覺實例檢索是一個重要研究方向,它可以實現(xiàn)從候選的圖片庫中找到那些與查詢圖片包含相同物體的圖片,這可以應用在商品搜索、車輛搜索和基于圖像的地理位置識別等。移動商品圖像搜索就是通過分析利用手機相機拍攝的商品照片,從商品庫中找到相同或相似的商品。然而,原來的檢索方法占用內(nèi)存太多,查詢時間長,計算成本也很高,所以,我們需要尋找更好的方法來實現(xiàn)搜索。
本發(fā)明提出了一種利用全景圖構(gòu)建的視覺實例檢索方法,先通過卷積神經(jīng)網(wǎng)絡(luò)獲得特定的適合于實例搜索的描述符表示,定義總和存儲向量為求和向量,偽逆存儲向量為關(guān)聯(lián)向量,用聚合數(shù)據(jù)集圖像降低查詢時間相似搜索的計算成本,用關(guān)聯(lián)向量聚合查詢向量提高搜索質(zhì)量,通過隱式和顯式兩種方法構(gòu)建全景圖。本發(fā)明中數(shù)據(jù)集圖像的聚合提高了速度,擴大了內(nèi)存,同時降低了性能損失;通過聚合每個組中的各個圖像的描述來大大節(jié)省空間,同時降低了查詢時間相似搜索的計算成本。
技術(shù)實現(xiàn)要素:
針對占用內(nèi)存太多,查詢時間長,計算成本高等問題,本發(fā)明的目的在于提供一種利用全景圖構(gòu)建的視覺實例檢索方法,先通過卷積神經(jīng)網(wǎng)絡(luò)獲得特定的適合于實例搜索的描述符表示,定義總和存儲向量為求和向量,偽逆存儲向量為關(guān)聯(lián)向量,用聚合數(shù)據(jù)集圖像降低查詢時間相似搜索的計算成本,用關(guān)聯(lián)向量聚合查詢向量提高搜索質(zhì)量,通過隱式和顯式兩種方法構(gòu)建全景圖。
為解決上述問題,本發(fā)明提供一種利用全景圖構(gòu)建的視覺實例檢索方法,其主要內(nèi)容包括:
(一)卷積神經(jīng)網(wǎng)絡(luò)(cnn)描述符檢索;
(二)代表矢量集;
(三)聚合數(shù)據(jù)集圖像;
(四)聚合查詢圖像;
(五)全景圖匹配。
其中,所述的基于全景圖構(gòu)建的視覺實例檢索方法,該方法無人監(jiān)督,有效提高了性能,而且通過聚合每個組中的各個圖像的描述節(jié)省空間。
其中,所述的cnn描述符檢索,通過由imagenet訓練的網(wǎng)絡(luò)進行調(diào)整,能夠獲得特定的適合于實例搜索的描述符表示。
其中,所述的代表矢量集,計算一個集合中所有向量的和,給定表示為d×n矩陣,其中xi∈rd,總和存儲向量定義為:
假設(shè)線性獨立的列(n<d),偽逆矩陣x+,由下式給出:
將總和存儲向量(1)作為求和向量,將偽逆存儲向量(2)稱為關(guān)聯(lián)向量。
其中,所述的聚合數(shù)據(jù)集圖像,聚合數(shù)據(jù)集圖像的主要目的是降低查詢時間相似搜索的計算成本;數(shù)據(jù)集向量在離線過程中被分配給集合,并且每個集合由單個(存儲器)向量表示;在查詢時,計算查詢向量與每個存儲向量之間的相似度,并對其進行排序;查詢只與屬于頂級集合的數(shù)據(jù)庫向量進行比較。
進一步地,所述的聚合查詢圖像,針對實例級對象檢索研究查詢圖像的聚合,描述查詢對象的多個圖像,允許處理閉塞、視點變化、大小變化和其他變化;可用于查詢向量的平均值或最大池、創(chuàng)建支持向量機(svm)模型等;使用關(guān)聯(lián)向量聚合查詢向量可以提高搜索質(zhì)量。
其中,所述的全景圖匹配,對于每個可能的位置,給出一組涵蓋全部360度視圖的圖像,連續(xù)圖像具有重疊;通過隱式和顯式兩種方法構(gòu)建全景圖。
進一步地,所述的隱式全景圖的構(gòu)建,通過聚合來自同一位置的圖像的描述符來形成全景表示;假設(shè)數(shù)據(jù)集位置中的n個圖像由d×n矩陣x表示,k個圖像在查詢位置由d×k矩陣y表示;分析兩個求和向量之間的相似性;
全景相似度由內(nèi)積給出,如上式所示。
進一步地,所述的全景相似度,針對向量的全景相似度由下式給出:
其中,gx=xtx是x的格拉姆矩陣(內(nèi)積的對稱矩陣);與公式(3)相比,加權(quán)和后驗交叉匹配,權(quán)重由
進一步地,所述的顯式全景圖的構(gòu)建,根據(jù)局部尺度不變特征轉(zhuǎn)換(sift)描述符和異常對象自動對齊、拼接和混合圖像;拼接完成后,可以從全景圖像中提取單個全局描述符,捕獲整個場景。
附圖說明
圖1是本發(fā)明一種利用全景圖構(gòu)建的視覺實例檢索方法的系統(tǒng)框架圖。
圖2是本發(fā)明一種利用全景圖構(gòu)建的視覺實例檢索方法的隱式全景圖的構(gòu)建。
圖3是本發(fā)明一種利用全景圖構(gòu)建的視覺實例檢索方法的顯式全景圖的構(gòu)建。
具體實施方式
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互結(jié)合,下面結(jié)合附圖和具體實施例對本發(fā)明作進一步詳細說明。
圖1是本發(fā)明一種利用全景圖構(gòu)建的視覺實例檢索方法的系統(tǒng)框架圖。主要包括卷積神經(jīng)網(wǎng)絡(luò)(cnn)描述符檢索,代表矢量集,聚合數(shù)據(jù)集圖像,聚合查詢圖像,全景圖匹配。
基于全景圖構(gòu)建的視覺實例檢索方法無人監(jiān)督,有效提高了性能,而且通過聚合每個組中的各個圖像的描述節(jié)省空間。
cnn描述符檢索,通過由imagenet訓練的網(wǎng)絡(luò)進行調(diào)整,能夠獲得特定的適合于實例搜索的描述符表示。
代表矢量集,計算一個集合中所有向量的和,給定表示為d×n矩陣,其中xi∈rd,總和存儲向量定義為:
假設(shè)線性獨立的列(n<d),偽逆矩陣x+,由下式給出:
將總和存儲向量(1)作為求和向量,將偽逆存儲向量(2)稱為關(guān)聯(lián)向量。
聚合數(shù)據(jù)集圖像,聚合數(shù)據(jù)集圖像的主要目的是降低查詢時間相似搜索的計算成本;數(shù)據(jù)集向量在離線過程中被分配給集合,并且每個集合由單個(存儲器)向量表示;在查詢時,計算查詢向量與每個存儲向量之間的相似度,并對其進行排序;查詢只與屬于頂級集合的數(shù)據(jù)庫向量進行比較。
聚合查詢圖像,針對實例級對象檢索研究查詢圖像的聚合,描述查詢對象的多個圖像,允許處理閉塞、視點變化、大小變化和其他變化;可用于查詢向量的平均值或最大池、創(chuàng)建支持向量機(svm)模型等;使用關(guān)聯(lián)向量聚合查詢向量可以提高搜索質(zhì)量。
全景圖匹配,對于每個可能的位置,給出一組涵蓋全部360度視圖的圖像,連續(xù)圖像具有重疊;通過隱式和顯式兩種方法構(gòu)建全景圖。
圖2是本發(fā)明一種利用全景圖構(gòu)建的視覺實例檢索方法的隱式全景圖的構(gòu)建。通過聚合來自同一位置的圖像的描述符來形成全景表示;假設(shè)數(shù)據(jù)集位置中的n個圖像由d×n矩陣x表示,k個圖像在查詢位置由d×k矩陣y表示;分析兩個求和向量之間的相似性;
全景相似度由內(nèi)積給出,如上式所示。
針對向量的全景相似度由下式給出:
其中,gx=xtx是x的格拉姆矩陣(內(nèi)積的對稱矩陣);與公式(3)相比,加權(quán)和后驗交叉匹配,權(quán)重由
圖3是本發(fā)明一種利用全景圖構(gòu)建的視覺實例檢索方法的顯式全景圖的構(gòu)建。根據(jù)局部尺度不變特征轉(zhuǎn)換(sift)描述符和異常對象自動對齊、拼接和混合圖像;拼接完成后,可以從全景圖像中提取單個全局描述符,捕獲整個場景。
對于本領(lǐng)域技術(shù)人員,本發(fā)明不限制于上述實施例的細節(jié),在不背離本發(fā)明的精神和范圍的情況下,能夠以其他具體形式實現(xiàn)本發(fā)明。此外,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍,這些改進和變型也應視為本發(fā)明的保護范圍。因此,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。