專利名稱:面向植物葉片的圖像檢索的自適應的魯棒cmvm特征降維方法
技術領域:
本發(fā)明涉及特征降維方法,特別涉及一種植物葉片圖像檢索的自適應的魯棒CMVM特征降維方法。
背景技術:
植物是地球上物種數(shù)量最多、分布最廣泛的生命形式之一,通過光合作用維持著大氣中二氧化碳與氧氣的平衡。同時,植物是人類的重要食物來源,也是人類生產(chǎn)和生活所必需的資源。此外,植物在水土保持、抑制荒漠和改善氣候等方面也起著至關重要的作用。根據(jù)統(tǒng)計,地球上大約有400,000種植物,其中已被植物學家命名和記錄在案的約有270, 000種。在我國僅高等植物就有35,000多種,占世界總數(shù)的10. 5%左右,是世界第二 大植物物種資源庫。近年來,日益增加的人類生產(chǎn)活動已經(jīng)嚴重地破壞了生態(tài)環(huán)境,據(jù)統(tǒng)計,世界上大約有3. 4萬種植物物種已處于滅絕的邊緣,占世界上已知的27萬種植物的12. 6%,對植物物種的保護已刻不容緩。近年來,隨著計算機硬件性能的不斷提高,數(shù)字圖像采集設備的廣泛使用,以及網(wǎng)絡的普及應用,大量植物信息已經(jīng)被數(shù)字化,而利用計算機處理數(shù)字植物信息可以避免傳統(tǒng)研究過程中的工作效率低、工作量大且客觀性難以保證等缺點?;趦热莸膱D像檢索通過自動提取圖像的視覺特征來描述其內容,其優(yōu)點是使得圖像數(shù)據(jù)庫能夠自動進行索引,一般的圖像檢索技術都著重于提高檢索的相關性。本發(fā)明的研究是為了解決植物葉片的圖像檢索這一重要實際問題,可以為多樣化圖像檢索服務,有著重要的應用價值,一旦研究成功并投入應用,將產(chǎn)生巨大的社會和經(jīng)濟效益。有關基于內容的植物葉片的圖像檢索技術的研究還處于起步階段,已有的方法對特征抽取模型的研究工作很少;流形學習方法的應用對象是嵌入在高維復雜空間的非線性低維流形上的數(shù)據(jù),利用流形學習方法抽取本征特征是進行圖像檢索的有效手段之一。但是流形學習方法本身還存在著一些問題,常見問題有(a)流形學習中的監(jiān)督學習或半監(jiān)督學習機制;(b)噪聲敏感問題;(C)樣本外點學習問題;(d)對樣本點鄰域參數(shù)敏感問題;Ce)本征維數(shù)估計問題等。如果不能很好地解決這些問題,必然會對圖像檢索產(chǎn)生不利影響;本發(fā)明將針對上述問題提出解決方案。
發(fā)明內容
本發(fā)明的目的是提出一種面向植物葉片的圖像檢索的自適應的魯棒CMVM特征降維方法,該方法從圖像流形特征抽取和選擇層面展開,針對多樣化圖像檢索問題,(I)提出魯棒CMVM流形算法來解決圖像數(shù)據(jù)中的噪聲問題;(2)提出基于線性近似法的CMVM流形樣本外點學習方法和本征維數(shù)估計方法;(3)提出基于“有序”層次最大間隔相關性靜態(tài)評價指標的自適應的CMVM流形參數(shù)的選擇和本征維數(shù)的估計方法。
CMVM算法是基于同一類別的數(shù)據(jù)點是分布在同一個子流形上,而不同類別的數(shù)據(jù)點分布在不同的子流形上的假設提出來的。該算法在保證子流形的局域拓撲結構不變的前提下,將不同類別的子流形投影得更分散,提取最適合分類同時又能保持子流形局域結構的特征。本發(fā)明的技術方案是一種面向植物葉片的圖像檢索的自適應的魯棒CMVM特征降維方法,其特征在于,具體包括以下步驟(I)對于植物圖像數(shù)據(jù)集進行預處理;(2)采用交互式水平集分割方法進行圖像分割;經(jīng)研究發(fā)現(xiàn),基于閾值的分割方法簡單、易實現(xiàn),但有很大的局限性,僅可以有效處理背景較簡單的圖像;對于具有復雜背景的葉片圖像,基于交互方式的Snake方法和分水嶺方法比較有效,但需要進行大量的交互時間用以設置初始輪廓和標記,效率較低。而水平集方法由于其適于處理復雜的拓撲結構變化、有著較強的曲線逼近能力、分割精度較高等顯著特點,因此較為適合處理復雜背景下的植物圖像分割,所以本發(fā)明中采用水平集方法。(3)對于分割后的圖像數(shù)據(jù)集使用自適應的魯棒CMVM半監(jiān)督流形學習算法進行降維,其中工作包括I)可用于多樣化CBIR的CMVM流形學習中的噪聲處理問題本發(fā)明采用兩個步驟來處理高復雜圖像數(shù)據(jù)的噪聲對流形學習的影響,即首先用Boxplot箱線圖方法去除樣本集中的噪聲點,然后采取強化正類局域保持的方法消除正類局域內的反類噪聲樣本對正類子流形學習的影響。具體如下①去除圖像數(shù)據(jù)集中的噪聲點。使用局域魯棒主分量分析(RPCA)方法,設置用以表示數(shù)據(jù)點為噪聲可能性的權值和數(shù)據(jù)點局域PCA映射誤差兩者之間的函數(shù)關系,接著采用循環(huán)賦權最小均方(IRLS)算法對每一個數(shù)據(jù)點包括噪聲進行賦權優(yōu)化;然后利用Boxplot統(tǒng)計工具對權值進行分析,將權值為奇異值所對應的點看作噪聲點,從原始數(shù)據(jù)中去掉這些噪聲點后再進行后續(xù)的流形學習。區(qū)別于經(jīng)典的識別異常值方法,Boxplot箱線圖依靠實際數(shù)據(jù)來繪制,不需要事先假定數(shù)據(jù)服從某種特定的分布形式,因而在識別高復雜圖像數(shù)據(jù)集中的異常值方面具有一定的優(yōu)越性。②消除正類局域內反類噪聲樣本的影響。CMVM應用到多樣化圖像檢索中時,正類局域內的反類噪聲樣本會使正類子流形產(chǎn)生扭曲或變形,從而不利正類中“子概念”的區(qū)分,因此,本發(fā)明基于強化正類數(shù)據(jù)局域結構保持的思想,在原局域約束項的基礎上,再添加一個如下正類局域約束項
權利要求
1.一種面向植物葉片的圖像檢索的自適應的魯棒CMVM特征降維方法,其特征在于,具體包括以下步驟 (1)對于植物圖像數(shù)據(jù)集進行預處理; (2)采用交互式水平集分割方法進行圖像分割; (3)對于分割后的圖像數(shù)據(jù)集使用自適應的魯棒CMVM半監(jiān)督流形學習算法進行降維,其中工作包括 1)可應用于多樣化CBIR的CMVM流形學習中的噪聲處理問題 首先用Boxplot箱線圖方法去除樣本集中的噪聲點,然后采取強化正類局域保持的方法消除正類局域內的反類噪聲樣本對正類子流形學習的影響,具體如下 ①去除圖像數(shù)據(jù)集中的噪聲點 使用局域魯棒主分量分析(RPCA)方法,設置用以表示數(shù)據(jù)點為噪聲可能性的權值和數(shù)據(jù)點局域PCA映射誤差兩者之間的函數(shù)關系,接著采用循環(huán)賦權最小均方(IRLS)算法對每一個數(shù)據(jù)點包括噪聲進行賦權優(yōu)化;然后利用Boxplot統(tǒng)計工具對權值進行分析,將權值為奇異值所對應的點看作噪聲點,從原始數(shù)據(jù)中去掉這些噪聲點后再進行后續(xù)的流形學習; ②消除正類局域內反類噪聲樣本的影響 CMVM應用到多樣化圖像檢索中時,正類局域內的反類噪聲樣本會使正類子流形產(chǎn)生扭曲或變形,從而不利正類中“子概念”的區(qū)分,因此,需要在原局域約束項的基礎上,再添加一個如下正類局域約束項
全文摘要
本發(fā)明公開了一種面向植物葉片的圖形檢索的自適應的魯棒CMVM特征降維方法,從圖像流形特征抽取和選擇層面展開研究,采用的約束最大差異投影(CMVM)半監(jiān)督流形降維方法既有保持正類局域“子概念”區(qū)分性的能力,又有強化正反類別即“概念”的區(qū)分性的能力,為多樣化圖像檢索提供了有效的服務;面向圖像檢索的實際應用,針對CMVM的基本問題,本發(fā)明提出去除噪聲點方法,提出線性近似法來解決CMVM樣本外點學習問題,提出設計多樣化檢索的“有序”層次最大間隔相關性評價函數(shù)來進行CMVM流形參數(shù)的選擇和圖像本征維數(shù)的估計,在此基礎上,提出面向多樣化圖像檢索的自適應的魯棒CMVM算法。本發(fā)明去除冗余特征,提高了檢索的效率。
文檔編號G06K9/62GK102930283SQ20121028503
公開日2013年2月13日 申請日期2012年8月10日 優(yōu)先權日2012年8月10日
發(fā)明者趙仲秋, 黃德雙, 吳信東, 馬林海 申請人:合肥工業(yè)大學