專利名稱:基于監(jiān)督流形學(xué)習(xí)的場(chǎng)景分類方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)視覺領(lǐng)域,特別涉及一種基于監(jiān)督流形學(xué)習(xí)的場(chǎng)景分類方法及
直O(jiān)
背景技術(shù):
場(chǎng)景分類時(shí)利用機(jī)器學(xué)習(xí)方法,得到圖片所代表的場(chǎng)景類別。它在場(chǎng)景識(shí)別中有非常重要的作用。場(chǎng)景識(shí)別的應(yīng)用領(lǐng)域主要在為遙感圖像解釋、目標(biāo)識(shí)別和理解、基于內(nèi)容和圖像和視頻檢索?,F(xiàn)有場(chǎng)景分類做法是,對(duì)于每一幅圖片,提取出一個(gè)向量(也就是l*n的數(shù)組)來表示它。然后把訓(xùn)練圖片的向量和其類別送入SVM(支持向量機(jī))進(jìn)行訓(xùn)練,得到每個(gè)場(chǎng)景類別的分類器。對(duì)于測(cè)試圖像,也提取出相應(yīng)的向量,根據(jù)訓(xùn)練得到的分類器獲得它的場(chǎng)景類別。但是傳統(tǒng)的軟分配、硬分配算法,都沒有考慮高維圖像特征點(diǎn)的流形特征。流形計(jì)算的效率很差,而且如何建立數(shù)據(jù)的流形結(jié)構(gòu)也是一個(gè)問題。采用譜圖分配的方法可以顯著的提高算法的準(zhǔn)確度,但是,譜圖算法需要對(duì)拉普拉斯矩陣求逆,使得算法的效率不如傳統(tǒng)的線性分配方法。并且統(tǒng)計(jì)圖像的直方圖向量較短,識(shí)別率較差。
發(fā)明內(nèi)容
本發(fā)明的目的旨在至少解決上述技術(shù)缺陷之一。為此,本發(fā)明需要提供一種基于監(jiān)督流形學(xué)習(xí)的場(chǎng)景分類方法及裝置,該基于監(jiān)督流形學(xué)習(xí)的場(chǎng)景分類方法及裝置的優(yōu)點(diǎn)是提高了基于譜圖分析的碼字分配算法的效率,得到了較長的圖片直方圖向量結(jié)果并提高了算法的準(zhǔn)確度。根據(jù)本發(fā)明的一方面,提供了一種基于監(jiān)督流形學(xué)習(xí)的場(chǎng)景分類方法,其特征在于,包括以下步驟1)輸入人工標(biāo)注了場(chǎng)景類別的N個(gè)訓(xùn)練圖像,其中場(chǎng)景類別為C個(gè),N 是大于等于1的整數(shù);2)提取所述N個(gè)訓(xùn)練圖像的S個(gè)SIFT特征并獲取由所述S個(gè)SIFT 特征的M個(gè)聚類中心組成的碼本,其中每個(gè)聚類中心是一個(gè)碼字,其中S是大于等于N的整數(shù);3)對(duì)于每個(gè)場(chǎng)景類別,將SIFT特征和碼字作為節(jié)點(diǎn),建立有監(jiān)督的譜圖G = (V,E)并獲取與V對(duì)應(yīng)的權(quán)重矩陣W,所述權(quán)重矩陣W用于表示與每個(gè)場(chǎng)景類別對(duì)應(yīng)的流形結(jié)構(gòu),V是譜圖中所有節(jié)點(diǎn)的集合,E是節(jié)點(diǎn)間相鄰邊的集合;4)獲取每個(gè)流形結(jié)構(gòu)上的各個(gè)SIFT特征到所述M個(gè)碼字的度量;5)輸入新的訓(xùn)練圖像或測(cè)試圖像;6)獲取所述新的訓(xùn)練圖像或測(cè)試圖像上的SIFT特征在C個(gè)流形結(jié)構(gòu)上到所述M個(gè)碼字的度量;7)計(jì)算所述新的訓(xùn)練圖像或測(cè)試圖像上的SIFT特征到所述M個(gè)碼字的隸屬度并得到C個(gè)直方圖向量;以及8) 利用支持向量機(jī)對(duì)所述C個(gè)直方圖向量進(jìn)行學(xué)習(xí),得到每個(gè)場(chǎng)景類別的判斷模型。根據(jù)本發(fā)明實(shí)施例的基于監(jiān)督流形學(xué)習(xí)的場(chǎng)景分類方法,可以提高基于譜圖分析的碼字分配算法的效率并提高算法的準(zhǔn)確度。根據(jù)本發(fā)明的一個(gè)實(shí)施例,在所述步驟2~)中利用K-means算法將所述S個(gè)SIFT 特征聚類。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,步驟幻包括以下步驟31)計(jì)算兩兩節(jié)點(diǎn)之間的歐式距離;32)根據(jù)計(jì)算的距離,找到每一個(gè)節(jié)點(diǎn)的K近鄰;33)構(gòu)建與每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的權(quán)重矩陣W,用于表示節(jié)點(diǎn)之間的關(guān)系,所述權(quán)重矩陣W表達(dá)如下
ΤΓ _ k 丨和j為近鄰節(jié)點(diǎn)。
k 其它情況根據(jù)本發(fā)明的一個(gè)實(shí)施例,步驟4)包括使用測(cè)地距離或者擴(kuò)散圖獲取每個(gè)流形結(jié)構(gòu)上的各個(gè)SIFT特征到所述M個(gè)碼字的度量,其中度量越小則相似程度越大,度量越大則相似程度越小。根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述步驟6)包括對(duì)于所述新的訓(xùn)練圖像或測(cè)試圖像上的每個(gè)SIFT特征,在每個(gè)流形結(jié)構(gòu)上,找到離所述每個(gè)SIFT特征最近的SIFT特征,利用所述最近的SIFT特征到所述M個(gè)碼字的度量,進(jìn)行線性插值,從而得到所述每個(gè)SIFT特征到所述M個(gè)碼字的度量。根據(jù)本發(fā)明實(shí)施例所述的監(jiān)督流形學(xué)習(xí)的場(chǎng)景分類方法,可以提
高算法的效率。根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述步驟7)包括對(duì)所述度量利用負(fù)指數(shù)函數(shù)進(jìn)行懲罰,得到相應(yīng)的隸屬度。根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述步驟7)包括根據(jù)預(yù)定順序把所述C個(gè)直方圖向量拼接起來,所述步驟8)包括利用支持向量機(jī)對(duì)拼接起來的C個(gè)直方圖向量進(jìn)行學(xué)習(xí),得到每個(gè)場(chǎng)景類別的判斷模型。根據(jù)本發(fā)明實(shí)施例所述的監(jiān)督流形學(xué)習(xí)的場(chǎng)景分類方法,可以加長直方圖向量,增加識(shí)別率。根據(jù)本發(fā)明的另一方面,提供了一種基于監(jiān)督流形學(xué)習(xí)的場(chǎng)景分類裝置,包括輸入模塊,所述輸入模塊用于輸入人工標(biāo)注了場(chǎng)景類別的N個(gè)訓(xùn)練圖像,其中場(chǎng)景類別為C 個(gè),所述輸入模塊還用于輸入新的訓(xùn)練圖像或測(cè)試圖像,其中N是大于等于1的整數(shù);碼本獲取模塊,所述碼本獲取模塊用于提取所述N個(gè)訓(xùn)練圖像的S個(gè)SIFT特征并獲取由所述S 個(gè)SIFT特征的M個(gè)聚類中心組成的碼本,其中每個(gè)聚類中心是一個(gè)碼字,其中S是大于等于N的整數(shù);權(quán)重矩陣構(gòu)建模塊,對(duì)于每個(gè)場(chǎng)景類別,所述矩陣構(gòu)建模塊用于將SIFT特征和碼字作為節(jié)點(diǎn),建立有監(jiān)督的譜圖G= (V,E)并獲取與V對(duì)應(yīng)的權(quán)重矩陣W,所述權(quán)重矩陣 W用于表示與每個(gè)場(chǎng)景類別對(duì)應(yīng)的流形結(jié)構(gòu),V是譜圖中所有節(jié)點(diǎn)的集合,E是節(jié)點(diǎn)間相鄰邊的集合;度量獲取模塊,所述度量獲取模塊用于獲取每個(gè)流形結(jié)構(gòu)上的各個(gè)SIFT特征到所述M個(gè)碼字的度量;隸屬度計(jì)算模塊,所述隸屬度計(jì)算模塊計(jì)算所述新的訓(xùn)練圖像或測(cè)試圖像上的SIFT特征到所述M個(gè)碼字的隸屬度并得到C個(gè)直方圖向量;以及判斷模型獲取模塊,所述判斷模型獲取模塊利用支持向量機(jī)對(duì)所述C個(gè)直方圖向量進(jìn)行學(xué)習(xí),得到每個(gè)場(chǎng)景類別的判斷模型。根據(jù)本發(fā)明實(shí)施例的基于監(jiān)督流形學(xué)習(xí)的場(chǎng)景分類裝置,可以提高基于譜圖分析的碼字分配算法的效率并提高算法的準(zhǔn)確度。根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述碼本獲取模塊利用K-means算法將所述S個(gè)SIFT 特征聚類。根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述矩陣構(gòu)建模塊進(jìn)一步用于計(jì)算兩兩節(jié)點(diǎn)之間的歐式距離;根據(jù)計(jì)算的距離,找到每一個(gè)節(jié)點(diǎn)的K近鄰;構(gòu)建與每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的權(quán)重矩陣W,用于表示節(jié)點(diǎn)之間的關(guān)系,所述權(quán)重矩陣W表達(dá)如下
權(quán)利要求
1.一種基于監(jiān)督流形學(xué)習(xí)的場(chǎng)景分類方法,其特征在于,包括以下步驟1)輸入人工標(biāo)注了場(chǎng)景類別的N個(gè)訓(xùn)練圖像,其中場(chǎng)景類別為C個(gè),N是大于等于1的整數(shù);2)提取所述N個(gè)訓(xùn)練圖像的S個(gè)SIFT特征并獲取由所述S個(gè)SIFT特征的M個(gè)聚類中心組成的碼本,其中每個(gè)聚類中心是一個(gè)碼字,其中S是大于等于N的整數(shù);3)對(duì)于每個(gè)場(chǎng)景類別,將SIFT特征和碼字作為節(jié)點(diǎn),建立有監(jiān)督的譜圖G= (V, E)并獲取與V對(duì)應(yīng)的權(quán)重矩陣W,所述權(quán)重矩陣W用于表示與每個(gè)場(chǎng)景類別對(duì)應(yīng)的流形結(jié)構(gòu),V 是譜圖中所有節(jié)點(diǎn)的集合,E是節(jié)點(diǎn)間相鄰邊的集合;4)獲取每個(gè)流形結(jié)構(gòu)上的各個(gè)SIFT特征到所述M個(gè)碼字的度量;5)輸入新的訓(xùn)練圖像或測(cè)試圖像;6)獲取所述新的訓(xùn)練圖像或測(cè)試圖像上的SIFT特征在C個(gè)流形結(jié)構(gòu)上到所述M個(gè)碼字的度量;7)計(jì)算所述新的訓(xùn)練圖像或測(cè)試圖像上的SIFT特征到所述M個(gè)碼字的隸屬度并得到 C個(gè)直方圖向量;以及8)利用支持向量機(jī)對(duì)所述C個(gè)直方圖向量進(jìn)行學(xué)習(xí),得到每個(gè)場(chǎng)景類別的判斷模型。
2.根據(jù)權(quán)利要求1所述的基于監(jiān)督流形學(xué)習(xí)的場(chǎng)景分類方法,其特征在于,在所述步驟2)中利用K-means算法將所述S個(gè)SIFT特征聚類。
3.根據(jù)權(quán)利要求1所述的基于監(jiān)督流形學(xué)習(xí)的場(chǎng)景分類方法,其特征在于,步驟3)包括以下步驟31)計(jì)算兩兩節(jié)點(diǎn)之間的歐式距離;32)根據(jù)計(jì)算的距離,找到每一個(gè)節(jié)點(diǎn)的K近鄰;33)構(gòu)建與每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的權(quán)重矩陣W,用于表示節(jié)點(diǎn)之間的關(guān)系,所述權(quán)重矩陣W表達(dá)如下
4.根據(jù)權(quán)利要求1所述的基于監(jiān)督流形學(xué)習(xí)的場(chǎng)景分類方法,其特征在于,步驟4)包括使用測(cè)地距離或者擴(kuò)散圖獲取每個(gè)流形結(jié)構(gòu)上的各個(gè)SIFT特征到所述M個(gè)碼字的度量,其中度量越小則相似程度越大,度量越大則相似程度越小。
5.根據(jù)權(quán)利要求4所述的基于監(jiān)督流形學(xué)習(xí)的場(chǎng)景分類方法,其特征在于,所述步驟6)包括對(duì)于所述新的訓(xùn)練圖像或測(cè)試圖像上的每個(gè)SIFT特征,在每個(gè)流形結(jié)構(gòu)上,找到離所述每個(gè)SIFT特征最近的SIFT特征,利用所述最近的SIFT特征到所述M個(gè)碼字的度量, 進(jìn)行線性插值,從而得到所述每個(gè)SIFT特征到所述M個(gè)碼字的度量。
6.根據(jù)權(quán)利要求1所述的基于監(jiān)督流形學(xué)習(xí)的場(chǎng)景分類方法,其特征在于,所述步驟7)包括對(duì)所述度量利用負(fù)指數(shù)函數(shù)進(jìn)行懲罰,得到相應(yīng)的隸屬度。
7.根據(jù)權(quán)利要求1所述的基于監(jiān)督流形學(xué)習(xí)的場(chǎng)景分類方法,其特征在于,所述步驟 7)包括根據(jù)預(yù)定順序把所述C個(gè)直方圖向量拼接起來,所述步驟8)包括利用支持向量機(jī)對(duì)拼接起來的C個(gè)直方圖向量進(jìn)行學(xué)習(xí),得到每個(gè)場(chǎng)景類別的判斷模型。
8.一種基于監(jiān)督流形學(xué)習(xí)的場(chǎng)景分類裝置,其特征在于,包括輸入模塊,所述輸入模塊用于輸入人工標(biāo)注了場(chǎng)景類別的N個(gè)訓(xùn)練圖像,其中場(chǎng)景類別為C個(gè),所述輸入模塊還用于輸入新的訓(xùn)練圖像或測(cè)試圖像,其中N是大于等于1的整數(shù);碼本獲取模塊,所述碼本獲取模塊用于提取所述N個(gè)訓(xùn)練圖像的S個(gè)SIFT特征并獲取由所述S個(gè)SIFT特征的M個(gè)聚類中心組成的碼本,其中每個(gè)聚類中心是一個(gè)碼字,其中S 是大于等于N的整數(shù);權(quán)重矩陣構(gòu)建模塊,對(duì)于每個(gè)場(chǎng)景類別,所述矩陣構(gòu)建模塊用于將SIFT特征和碼字作為節(jié)點(diǎn),建立有監(jiān)督的譜圖G= (V,E)并獲取與V對(duì)應(yīng)的權(quán)重矩陣W,所述權(quán)重矩陣W用于表示與每個(gè)場(chǎng)景類別對(duì)應(yīng)的流形結(jié)構(gòu),V是譜圖中所有節(jié)點(diǎn)的集合,E是節(jié)點(diǎn)間相鄰邊的集合;度量獲取模塊,所述度量獲取模塊用于獲取每個(gè)流形結(jié)構(gòu)上的各個(gè)SIFT特征到所述M 個(gè)碼字的度量;隸屬度計(jì)算模塊,所述隸屬度計(jì)算模塊計(jì)算所述新的訓(xùn)練圖像或測(cè)試圖像上的SIFT 特征到所述M個(gè)碼字的隸屬度并得到C個(gè)直方圖向量;以及判斷模型獲取模塊,所述判斷模型獲取模塊利用支持向量機(jī)對(duì)所述C個(gè)直方圖向量進(jìn)行學(xué)習(xí),得到每個(gè)場(chǎng)景類別的判斷模型。
9.根據(jù)權(quán)利要求8所述的基于監(jiān)督流形學(xué)習(xí)的場(chǎng)景分類裝置,其特征在于,所述碼本獲取模塊利用K-means算法將所述S個(gè)SIFT特征聚類。
10.根據(jù)權(quán)利要求8所述的基于監(jiān)督流形學(xué)習(xí)的場(chǎng)景分類裝置,其特征在于,所述矩陣構(gòu)建模塊進(jìn)一步用于計(jì)算兩兩節(jié)點(diǎn)之間的歐式距離;根據(jù)計(jì)算的距離,找到每一個(gè)節(jié)點(diǎn)的K近鄰;構(gòu)建與每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的權(quán)重矩陣W,用于表示節(jié)點(diǎn)之間的關(guān)系,所述權(quán)重矩陣W 表達(dá)如下
11.根據(jù)權(quán)利要求8所述的基于監(jiān)督流形學(xué)習(xí)的場(chǎng)景分類裝置,其特征在于,所述度量獲取模塊進(jìn)一步用于使用測(cè)地距離或者擴(kuò)散圖獲取每個(gè)流形結(jié)構(gòu)上的各個(gè)SIFT特征到所述M個(gè)碼字的度量,其中度量越小則相似程度越大,度量越大則相似程度越小。
12.根據(jù)權(quán)利要求11所述的基于監(jiān)督流形學(xué)習(xí)的場(chǎng)景分類裝置,其特征在于,所述度量模塊進(jìn)一步用于對(duì)于所述新的訓(xùn)練圖像或測(cè)試圖像上的每個(gè)SIFT特征,在每個(gè)流形結(jié)構(gòu)上,找到離所述每個(gè)SIFT特征最近的SIFT特征,利用所述最近的SIFT特征到所述M個(gè)碼字的度量,進(jìn)行線性插值,從而得到所述每個(gè)SIFT特征到所述M個(gè)碼字的度量。
13.根據(jù)權(quán)利要求8所述的基于監(jiān)督流形學(xué)習(xí)的場(chǎng)景分類裝置,其特征在于,所述隸屬度計(jì)算模塊進(jìn)一步用于對(duì)所述度量利用負(fù)指數(shù)函數(shù)進(jìn)行懲罰,得到相應(yīng)的隸屬度。
14.根據(jù)權(quán)利要求8所述的基于監(jiān)督流形學(xué)習(xí)的場(chǎng)景分類裝置,其特征在于,所述隸屬度計(jì)算模塊進(jìn)一步用于根據(jù)預(yù)定順序把所述C個(gè)直方圖向量拼接起來;所述判斷模型獲取模塊進(jìn)一步用于利用支持向量機(jī)對(duì)拼接起來的C個(gè)直方圖向量進(jìn)行學(xué)習(xí),得到每個(gè)場(chǎng)景類別的判斷模型。
全文摘要
本發(fā)明公開了一種基于監(jiān)督流形學(xué)習(xí)的場(chǎng)景分類方法及裝置?;诒O(jiān)督流形學(xué)習(xí)的場(chǎng)景分類方法包括以下步驟輸入人工標(biāo)注了場(chǎng)景類別的N個(gè)訓(xùn)練圖像,其中場(chǎng)景類別為C個(gè);提取N個(gè)訓(xùn)練圖像的S個(gè)SIFT特征并獲取由S個(gè)SIFT特征的M個(gè)聚類中心組成的碼本;對(duì)于每個(gè)場(chǎng)景類別,將SIFT特征和碼字作為節(jié)點(diǎn),建立有監(jiān)督的譜圖G=(V,E)并獲取與V對(duì)應(yīng)的權(quán)重矩陣;獲取每個(gè)流形結(jié)構(gòu)上的各個(gè)SIFT特征到M個(gè)碼字的度量;輸入新的訓(xùn)練圖像或測(cè)試圖像;獲取新的訓(xùn)練圖像或測(cè)試圖像上的SIFT特征到M個(gè)碼字的度量;計(jì)算新的訓(xùn)練圖像或測(cè)試圖像上的SIFT特征到M個(gè)碼字的隸屬度并得到C個(gè)直方圖向量;以及利用支持向量機(jī)對(duì)C個(gè)直方圖向量進(jìn)行學(xué)習(xí),得到每個(gè)場(chǎng)景類別的判斷模型。
文檔編號(hào)G06K9/66GK102254194SQ20111020275
公開日2011年11月23日 申請(qǐng)日期2011年7月19日 優(yōu)先權(quán)日2011年7月19日
發(fā)明者劉燁斌, 戴瓊海, 錢彥君 申請(qǐng)人:清華大學(xué)