專利名稱:一種結(jié)合不同聚類算法生成視覺字典集體的方法
技術領域:
本發(fā)明屬于模式識別、計算機視覺、圖像理解技術領域,具體涉及基于視覺字典的圖像分類方法。
背景技術:
當前圖像分類的流行方法是“bag-of-words”模型。盡管“bag-of-words”模型沒有顯式形狀模型化,學習到的模型對于形狀不規(guī)則的物體或者高度結(jié)構(gòu)化的物體類都是有效的。在檢測到獨立顯著性區(qū)域塊且為這些獨立塊計算描述子(也就是特征表示)后,通過對特定訓練圖像集的描述子進行聚類得到一個視覺字典,然后圖像基于視覺字典量化后輸入傳統(tǒng)分類器得到分類結(jié)果。當前圖像分類方法的學習監(jiān)督程度普遍比較強,有的要求將圖像預先分割,有的要求對目標物體的矩形定位,有的要求對圖像給予類標簽。監(jiān)督樣本的獲取代價非常大,這就意味著不可能獲取很多的樣本,也不可能所有類的樣本都能獲取到, 這就限制了學習的性能和學習的廣度。最近,許多基于“bag-of-words”模型的方法致力于融合多種特征來得到性能提升,結(jié)合多個特征的流行趨勢是使用多核學習方法,但從時間復雜性角度來說,多核學習方法不能并行學習多個特征。本發(fā)明通過生成能表達物體多方面信息的視覺字典集體來識別物體,相對于基于單個視覺字典的圖像識別方法,本方法具有魯棒性較強、實踐簡單和平均效果好等優(yōu)勢。本發(fā)明將圖像中包含的多種信息分散在基于各個視覺字典的表達中,從而并行生成一個分類器集體,降低了求解的復雜度,能夠有效提高計算效率、減少計算資源的消耗,快速準確的識別物體。
發(fā)明內(nèi)容
為了解決傳統(tǒng)物體識別中存在的模型過于復雜,監(jiān)督程度過強和魯棒性差的問題,本發(fā)明提供了一種結(jié)合不同聚類算法生成視覺字典集體的方法,利用視覺字典來并行利用圖像中存在的多種信息識別物體。在聚類集成方法中,利用不同的聚類算法來生成一個聚類集體是一種能捕獲不同形狀簇的集成技術。為了捕獲自然物體類的不同數(shù)據(jù)結(jié)構(gòu),不同的聚類算法用來構(gòu)造視覺字典集體。不管一種聚類算法用的是哪種聚類準則(目標函數(shù)),都不能探測到不同形狀和大小的簇,這是聚類算法的固有局限性。為了達到探測到不同形狀和大小簇的目的,需要一個構(gòu)架來綜合多個聚類算法的輸出,這相當于應用了多個不同聚類準則到同一數(shù)據(jù)上。本發(fā)明是一種能有效融合來自于不同聚類算法的多個不同信息特征的方法,它應用不同的聚類算法到顯著性區(qū)域集上生成不同的成員視覺字典,過程描述如下
(O用顯著性區(qū)域檢測子提取訓練圖像的顯著性區(qū)域,然后用描述子描述提取出來的顯著性區(qū)域;
(2)隨機選擇一部分描述好的顯著性區(qū)域;
(3)在其上運行不同聚類算法得到一個成員視覺字典,通過用不同的聚類算法構(gòu)造視覺字典,捕獲自然物體類的不同數(shù)據(jù)結(jié)構(gòu);
(4)重復步驟2到步驟3,生成預設大小的視覺字典集體。通過在同一訓練圖像集的局部視覺描述子集合上運行不同的聚類算法,可以得到一個視覺字典集體。視覺字典集體的構(gòu)建是非監(jiān)督式的,視覺字典集體的差異性來自于不同的聚類算法。本方法很容易并行化,成員視覺字典可以使用不同的聚類算法獨立并行地構(gòu)建。在生成視覺字典集體后,基于每個成員視覺字典可以得到不同的量化訓練數(shù)據(jù)集。在融合了不同信息的量化訓練數(shù)據(jù)集上訓練不同的分類器,可以得到一個分類器集體, 每個成員分類器根據(jù)不同方面的特征為物體建立模型。通過構(gòu)建差異視覺字典集體,得到具有高差異性的分類器集體,具有高差異性的集體能有效減少建立一個準確模型所需要的監(jiān)督程度?;谏傻囊曈X字典集體學習分類器集體的具體步驟如下
步驟I.生成視覺字典集體,每個成員視覺字典融合了自然物體類的不同數(shù)據(jù)結(jié)構(gòu); 步驟2.基于一個成員視覺字典,對訓練圖像集進行量化;
步驟3. 在量化后的訓練圖像集上學習一個分類器;
步驟4. 重復步驟2到步驟3,生成預設大小的分類器集體。成員視覺字典和對應的成員分類器是獨立的,可以并行訓練?;谝曈X字典集體的分類器集體形成后,分類一個新的測試圖像時,同樣也包括顯著性區(qū)域的提取和描述、圖像的量化以及應用學到的模型到量化矢量的過程,最后集成分類器集體的分類結(jié)果,輸出集成結(jié)果用于分類圖像,具體的步驟如下
步驟I. 對新圖像檢測出顯著性區(qū)域,并利用描述子描述這些顯著性區(qū)域;
步驟2. 基于一個對應成員視覺字典,對新圖像進行量化;
步驟3. 使用對應成員分類器分類新圖像,得到分類結(jié)果;
步驟4. 重復步驟2到步驟3,直到每個成員分類器得到了自己的分類結(jié)果;
步驟5. 利用集成技術集成成員分類器的分類結(jié)果得到最終物體類標簽。本發(fā)明能抓住圖像的不同特征信息,得到的集體差異性高,從而識別效果好。實驗結(jié)果表明本發(fā)明能產(chǎn)生顯著的性能提升,具有比較強的魯棒性,分類效果好。本發(fā)明具有在不同領域數(shù)據(jù)集上的平均性能更好,魯棒性強的優(yōu)點,且模型簡單,非常適用于一般操作者,不需要復雜參數(shù)的調(diào)整,監(jiān)督程度低,且對訓練數(shù)據(jù)的要求低。利用集成學習固有的并行性,可以在多個處理器上利用少量訓練數(shù)據(jù)并行學習,所以本發(fā)明的效率也相對較高。
具體實施例方式本發(fā)明優(yōu)選的具體實施例
使用HarriS-Laplace顯著性區(qū)域檢測子檢測圖像的顯著性區(qū)域,用C-SFIT描述子來描述顯著性區(qū)域,成員視覺字典的大小設置成2000。為了提高成員的性能,使用了空間金字塔結(jié)構(gòu)Ixl+2x2+lx3。一個描述子對應到與它在歐拉空間中最近的單詞。在形成一個成員視覺字典后,為了量化圖像,所有檢測出來的顯著性區(qū)域都用來建立基于此成員視覺字典上的直方圖。為了使直方圖獨立于描述子個數(shù),直方圖矢量規(guī)范化成總和為I。視覺字典是應用聚類算法到200,000個隨機從訓練圖像集中選擇來的描述子集合上得到的。加權(quán)LibSVM用來訓練分類器,在訓練階段,正例樣本的權(quán)值設為_
權(quán)利要求
1.一種結(jié)合不同聚類算法生成視覺字典集體的方法,其特征在于為了捕獲自然物體類的不同數(shù)據(jù)結(jié)構(gòu),不同的聚類算法用來構(gòu)造視覺字典集體,通過在同一訓練圖像集的局部視覺描述子集合上運行不同的聚類算法,可以得到一個視覺字典集體,包括以下步驟(1)用顯著性區(qū)域檢測子提取訓練圖像的顯著性區(qū)域,然后用描述子描述提取出來的顯著性區(qū)域;(2)隨機選擇一部分描述好的顯著性區(qū)域;(3)在其上運行不同聚類算法得到一個成員視覺字典,通過用不同的聚類算法構(gòu)造視覺字典,捕獲自然物體類的不同數(shù)據(jù)結(jié)構(gòu);(4)重復步驟2到步驟3,生成預設大小的視覺字典集體。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于為了檢測不同的分布結(jié)構(gòu),以下12種聚類算法被用來形成成員視覺字典,得到一個大小為12的視覺字典集體(1)Cluto-rb方法,采用“cosine”函數(shù)作為相似性度量,通過執(zhí)行一系列的k_l次對分來得到有k個組的聚類,相似矩陣首先聚成二組,然后其中的一組選擇來做進一步的劃分,這個過程一直進行到達到了所要的分組個數(shù);(2)Cluto-rb方法,采用相關系數(shù)函數(shù)作為相似性度量;(3)使用歐氏距離度量的k-means聚類算法;(4)使用街區(qū)距離度量的k-means聚類算法;(5)使用余弦距離度量的k-means聚類算法;(6)譜聚類算法clusteringby2ndEV,首先計算訓練圖像的相似矩陣,然后這個矩陣的第二廣義特征矢量用來聚類;(7)標準譜聚類算法;(8)局部尺度適應的譜聚類算法;(9)VL_ikmeans, VLFeat 的整型 k-means 聚類算法;(10)VL-hiKmeans, VLFeat的整型k-means聚類算法的分級版本,通過遞歸調(diào)用整型 k-means聚類算法來獲得越來越好的劃分;(11)基于簇特征矢量的分級凝聚k-means算法,數(shù)據(jù)點簇表示成一個CF結(jié)構(gòu),它有三個元素N, SS,-LS ,N表示數(shù)據(jù)點的個數(shù),是數(shù)據(jù)點的平方和,-LS是數(shù)據(jù)點的線性和,兩個簇間的距離度量為
3.根據(jù)權(quán)利要求I所述的方法,其特征在于基于視覺字典集體上,得到同一圖像的不同量化矢量,在同一訓練圖像集的不同表達矢量集上學習得到一個分類器集體。
4.根據(jù)權(quán)利要求I所述的方法,其特征在于成員視覺字典和對應的成員分類器是獨立的,可以并行訓練,基于視覺字典集體的分類器集體形成后,分類一個新的測試圖像時,同樣也包括顯著性區(qū)域的提取和描述、圖像的量化以及應用學到的模型到量化矢量的過程, 最后集成分類器集體的分類結(jié)果,輸出集成結(jié)果用于分類圖像。
全文摘要
本發(fā)明公開了一種視覺字典集體生成方法,涉及模式識別、計算機視覺、圖像理解技術領域。為了達到捕獲自然物體類的不同數(shù)據(jù)結(jié)構(gòu)及探測不同形狀和大小簇的目的,需要一個構(gòu)架來綜合多個聚類算法的輸出,通過在同一訓練圖像集的局部視覺描述子集合上運行不同的聚類算法,得到一個視覺字典集體。基于視覺字典集體上,得到同一圖像的不同量化矢量。在同一訓練圖像集的不同表達矢量集上學習得到一個分類器集體。視覺字典集體的構(gòu)建是非監(jiān)督式的,成員視覺字典可以使用不同的聚類算法獨立并行地構(gòu)建。實驗結(jié)果表明本發(fā)明能顯著提高單一視覺字典的性能,對于背景噪聲具有魯棒性,識別效果好。
文檔編號G06K9/62GK102609718SQ20121001063
公開日2012年7月25日 申請日期2012年1月15日 優(yōu)先權(quán)日2012年1月15日
發(fā)明者劉發(fā)升, 羅會蘭, 胡春安 申請人:江西理工大學