專利名稱:圖像檢索系統(tǒng)中數(shù)據(jù)聚類方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的是一種信息處理技術(shù)領(lǐng)域的方法,具體是一種圖像檢索系統(tǒng)中數(shù)據(jù) 聚類方法。
背景技術(shù):
早期的圖像檢索系統(tǒng)一般采用顏色、紋理、形狀等信息來描述圖像特征,隨著研究 的深入,學者開始引入具有某種不變性的特征,如用經(jīng)典SIFT (Scale Invariant Feature Transform)特征來表征圖像信息,可以獲得比傳統(tǒng)方法更好的檢索效果。這里所面臨的主要挑戰(zhàn)是圖像特征數(shù)據(jù)量非常龐大,直接利用原始的特征進行檢 索是非常低效的。傳統(tǒng)的文本檢索技術(shù)在實際應用中獲得了巨大的成功,因此,學者們開始 將文本檢索的技術(shù)引入到圖像檢索中來。目前比較典型的方法是將來自所有圖像庫的特征 聚類成一定數(shù)目的碼字(即聚類中心),這些碼字的數(shù)目要小于圖像庫所提取的特征數(shù)目, 再利用這些碼字對每幅圖像的特征進行編碼,這樣每幅圖像就可以用一個描述碼字的特征 向量來表示,從而可以有效的進行圖像檢索。在上述基于碼字的圖像檢索系統(tǒng)中,在設(shè)計聚類方法時,值得關(guān)注的一個問題是 對于大型圖像庫能夠提取的總特征數(shù)目往往很龐大,而且每個特征的維數(shù)也很高,本發(fā)明 采用的是1 維SIFT特征(測試表明十萬圖庫的特征數(shù)量將達到千萬量級),對這樣的大 規(guī)模數(shù)據(jù)進行聚類,傳統(tǒng)的聚類方法(如經(jīng)典的K-means方法),由于沒有良好的可擴展性, 不能有效的處理大規(guī)模數(shù)據(jù)的聚類問題。另一個具有現(xiàn)實意義的問題是,實際應用的圖像 數(shù)據(jù)庫是需要不斷更新,最常見的情況就是在圖庫中增加圖像,這樣就有可能使得從新圖 像中提取的特征與原聚類分析得到的結(jié)果不匹配。這時有必要獲得新的聚類結(jié)果來適應新 增加的特征數(shù)據(jù),而獲得新的聚類的方法通常有兩種;一是重新聚類,二是增量聚類。由于 聚類分析所面對的一般都是大數(shù)據(jù)集,所以重新聚類一方面是代價太大;另一方面,因未利 用前一次聚類的有關(guān)信息,而導致計算資源的浪費。因此,如何設(shè)計處理大規(guī)模數(shù)據(jù)和處理 新增圖像數(shù)據(jù)的聚類方法,是當前圖像檢索領(lǐng)域的一個重要挑戰(zhàn)。經(jīng)對現(xiàn)有技術(shù)文獻的檢索發(fā)現(xiàn),David Nister等在文獻“Salable Recognition with a Vocabulary Tree”(公開時期2006 年 6 月 17 日;2006 IEEE Conference on Computer Vision and Pattern Recognition-Volume 2pp2161_2168,電氣和電子工程學會 2006年計算機視覺和模式識別會議第2卷第2161-2168頁;中文名用字典樹實現(xiàn)可擴展 識別;其核心技術(shù)在美國申請專利,美國專利號為US7,725,484,
公開日期為2010年5月 25日)中提到的分層K均值(Hierarchical k-means, HKM)方法。它在傳統(tǒng)k-means方法 中引入了分層的概念,在傳統(tǒng)k-means方法中k的含義是最終的類別數(shù),而在HKM方法中 的k代表的是分支因子(即每個結(jié)點的子結(jié)點數(shù)目,因此HKM方法可以看作是k叉的樹結(jié) 構(gòu))。HKM方法先設(shè)定k個類,在待聚類數(shù)據(jù)上運行k-means方法,那么待聚類數(shù)據(jù)就被分 成k組;對每一個組上遞歸地運行k-means方法,每次k值保持不變,每組的待聚類數(shù)據(jù)就 被遞歸地分成k組,該樹結(jié)構(gòu)逐層增加,直到預先設(shè)定的L層(根結(jié)點為第0層),所以最終的類別數(shù)最多為P個(這是因為,當某組的待聚類數(shù)據(jù)個數(shù)少于k,那么在該組上就不再進 行k-means運算,即有的分支的層數(shù)小于L)。但是該技術(shù)具有以下缺陷1.該技術(shù)在聚類過程中,遞歸地對待聚類數(shù)據(jù)進行分組,組與組之間的待聚類數(shù) 據(jù)在各自的迭代過程中是相互獨立的,當先前分組錯誤,在后續(xù)的迭代過程中無法得到彌 補,且容易出現(xiàn)分組不均勻的情況,即部分組數(shù)據(jù)量極多,部分組數(shù)據(jù)量極少。2.該技術(shù)不能處理實際圖像檢索系統(tǒng)中增量聚類問題,即當預先建立的圖像庫有 新的圖像需要加入時,對原來圖像的聚類結(jié)果不能復用,只能重新進行聚類。進一步檢索發(fā)現(xiàn),JamesPhilbin 等在文獻"Object Retrieval with Large Vocabularies and Fast Spatial matching”(公開時期2007年3月 12 日;出處2007IEEE Conference on Computer Vision and Pattern Recognition—Volume 3612ppl545_1552, 電氣和電子工程學會2007年計算機視覺和模式識別會議第3612卷第1545-1552頁; 文獻中文名用大型碼書和快速空間匹配實現(xiàn)目標識別)一文中提出的近似K均值 (Approximate k-means, AKM)方法。AKM方法是在改進傳統(tǒng)k-means方法的基礎(chǔ)上獲得的。 傳統(tǒng)k-means方法的主要運算代價在于數(shù)據(jù)尋找最近鄰聚類中心的過程,而AKM方法利用 一種近似搜索最近鄰的方法取代了經(jīng)典方法中精確搜索最近鄰的過程,即在每一次迭代開 始時,方法首先根據(jù)聚類中心創(chuàng)建一個由多棵隨機kd樹(kdimensional tree)構(gòu)成的森 林,以此加速搜索最近鄰聚類中心的過程。AKM方法將每次迭代的復雜度從k-means時的 O(NK)降低為O(NlogOO),其中N為進行聚類的總數(shù)據(jù)量,K表示初始類別數(shù)。較好的解決 了圖像檢索系統(tǒng)中處理大規(guī)模數(shù)據(jù)時,聚類方法的可擴展性問題。該技術(shù)具有以下缺陷該技術(shù)在圖像檢索系統(tǒng)中應用中,各個聚類中心所分配到 的數(shù)據(jù)量會出現(xiàn)不均勻的情況,即有的聚類中心分到的數(shù)據(jù)極少甚至不能分配到數(shù)據(jù),而 有的聚類中心分配的數(shù)據(jù)又極多,且技術(shù)本身沒有任何處理措施;該技術(shù)也不能處理實際 圖像檢索系統(tǒng)中新增圖像所帶來的增量聚類問題。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)存在的上述不足,提供一種圖像檢索系統(tǒng)中數(shù)據(jù)聚類方法, 能夠快速獲得大規(guī)模數(shù)據(jù)中具有較強代表性和可區(qū)分能力的特征,解決了大規(guī)模數(shù)據(jù)的聚 類問題,并在有效重用原始圖像數(shù)據(jù)聚類結(jié)果的基礎(chǔ)上,實現(xiàn)新增圖像數(shù)據(jù)的快速增量聚 類,最終實現(xiàn)高效的圖像檢索任務。本發(fā)明是通過以下技術(shù)方案實現(xiàn)的,本發(fā)明由離線過程和在線過程組成,其中離線過程對標準圖像提取SIFT特征,然后將SIFT特征進行離線聚類處理,在離 線聚類結(jié)果的基礎(chǔ)上通過矢量化處理建立標準圖像矢量;在線過程對待檢索圖像提取SIFT特征,然后在所述離線聚類結(jié)果的基礎(chǔ)上通過 矢量化處理得到待檢索圖像矢量,將待檢索圖像矢量在標準圖像矢量中進行相似性搜索。所述的將SIFT特征進行離線聚類處理包含兩種情況第一種是針對大規(guī)模數(shù)據(jù) 的聚類,即聚類開始前所有標準圖像的SIFT特征都已經(jīng)獲得,且SIFT特征數(shù)量很龐大的情 況;第二種是針對新增圖像數(shù)據(jù)時的增量聚類,即在完成對已有標準圖像的SIFT特征聚類 后,又需要在該標準圖像庫中新增部分圖像的情況。
所述的針對大規(guī)模數(shù)據(jù)的聚類包括以下步驟第一步、預處理設(shè)置大規(guī)模數(shù)據(jù)聚類參數(shù),具體有總的迭代次數(shù)maxlter,單個 聚類中心所包含數(shù)據(jù)個數(shù)的下限閾值numMin,單個聚類中心在所有圖像中出現(xiàn)的比例(這 里“出現(xiàn)”的含義是指當?shù)趗幅圖像中某個特征數(shù)據(jù)的最近聚類中心是第ν個聚類中心,那 么稱第ν個聚類中心在第u幅圖像出現(xiàn),設(shè)M表示所有標準圖像數(shù)目,則單個聚類中心在所 有標準圖像出現(xiàn)的幅數(shù)閾值SFimage = MXSF),建立隨機kd樹的數(shù)目t。第二步、從總的待聚類數(shù)據(jù)中隨機選擇K個數(shù)據(jù)作為初始聚類中心,2 <K<N,然 后初始化當前迭代次數(shù)iter為1,其中N表示初始時總的待聚類數(shù)據(jù)量,重復執(zhí)行第三步 直至指定的總迭代次數(shù)maxlter,得到并保存最終的聚類結(jié)果。所述的待聚類數(shù)據(jù)是指從標準圖像中提取的SIFT特征。所述的SIFT特征是指先對圖像采用高斯差分算子(Different of Gaussian, DOG)進行特征點檢測,然后將每個高斯差分算子通過尺度不變描述子(Scale Invariant Feature Transformation, SIFT)進行描述,該描述子稱為SIFT特征,每一個SIFT特征是 一個128維的向量。第三步、聚類迭代過程,該過程包含如下具體步驟a、初始化階段對聚類中心建立由t(t彡1)棵隨機kd樹組成的一個森林,利用 該森林,所有的待聚類數(shù)據(jù)可以從這些聚類中心中找到與各自歐式距離近似最近的聚類中 心,即近似最近鄰,這個過程稱為劃分。所述的聚類中心在不同時期含義不同,在當前迭代次數(shù)iter = 1時,聚類中心是 指初始聚類中心;在當前迭代次數(shù)iter > 1時,聚類中心是指完成上一次迭代后的有效聚 類中心(有效聚類中心的定義見步驟b)。所述的近似是指對大量數(shù)據(jù)而言,在利用上述森林搜索每個數(shù)據(jù)的最近聚類中 心過程中,可能存在幾個數(shù)據(jù)找到的并不是最近聚類中心,但提出AKM方法(其中也利用了 該森林結(jié)構(gòu)實現(xiàn)快速近似搜索)的作者用實驗證明這種近似對圖像檢索精度影響不大,因 此本發(fā)明中提到的“最近聚類中心”就是指在這種意義下的近似最近聚類中心。所述的隨機kd樹是指一種對已知數(shù)據(jù)(k維數(shù)據(jù))在k維空間建立樹形結(jié)構(gòu)的 方法,利用該樹形結(jié)構(gòu),對某一個新數(shù)據(jù)可以在已知數(shù)據(jù)中快速地進行搜索,找到距離近似 最近的那個數(shù)據(jù),隨機性的引入加速了建樹的過程,步驟a中用多棵隨機kd樹組成一個森 林,這樣做的目的是使得每個數(shù)據(jù)搜索的最近鄰盡量正確,減少近似最近鄰出現(xiàn)的次數(shù)。所述的森林是指t棵隨機kd樹組成的樹形結(jié)構(gòu)的整體,形似森林,為后文需要提 到該整體時而自擬的一個名詞。b、對所有待聚類數(shù)據(jù)完成劃分后,逐一對每個聚類中心進行分析,設(shè)當前處理的 聚類中心為第i個(1 < i <礦,第一次迭代時K* = K,從第二次迭代開始K*表示當前迭代 時聚類中心集合中的聚類中心數(shù)目),分別統(tǒng)計第i個聚類中心實際所劃分到的數(shù)據(jù)個數(shù) num(i),第i個聚類中心在多少幅圖像中出現(xiàn),記為app(i),比較num(i)和單個聚類中心所 包含數(shù)據(jù)個數(shù)的下限閾值numMin的關(guān)系,當num(i) < numMin.......................................................
.(1)則稱第i個聚類中心為偽聚類中心,說明該聚類中心代表性不強,不適合作為聚類中心,應該從聚類中心集中剔除,對于劃分到該偽聚類中心的num(i)個數(shù)據(jù)將被移出待 聚類數(shù)據(jù)集,不參與下一次迭代。對于不滿足式(1)的聚類中心,進一步比較app(i)和單 個聚類中心在所有標準圖像中出現(xiàn)的幅數(shù)閾值SFimage的關(guān)系,當
權(quán)利要求
1.一種圖像檢索系統(tǒng)中數(shù)據(jù)聚類方法,其特征在于,由離線過程和在線過程組成,其中離線過程對標準圖像提取SIFT特征,然后將SIFT特征進行離線聚類處理,在離線聚 類結(jié)果的基礎(chǔ)上通過矢量化處理建立標準圖像矢量;在線過程對待檢索圖像提取SIFT特征,然后在所述離線聚類結(jié)果的基礎(chǔ)上通過矢量 化處理得到待檢索圖像矢量,將待檢索圖像矢量在標準圖像矢量中進行相似性搜索。
2.根據(jù)權(quán)利要求1所述的圖像檢索系統(tǒng)中數(shù)據(jù)聚類方法,其特征是,所述的將SIFT特 征進行離線聚類處理包含兩種情況第一種是針對大規(guī)模數(shù)據(jù)的聚類,即聚類開始前所有 標準圖像的SIFT特征都已經(jīng)獲得,且SIFT特征數(shù)量很龐大的情況;第二種是針對新增圖像 數(shù)據(jù)時的增量聚類,即在完成對已有標準圖像的SIFT特征聚類后,又需要在該標準圖像庫 中新增部分圖像的情況。
3.根據(jù)權(quán)利要求2所述的圖像檢索系統(tǒng)中數(shù)據(jù)聚類方法,其特征是,所述的針對大規(guī) 模數(shù)據(jù)的聚類包括以下步驟第一步、預處理設(shè)置大規(guī)模數(shù)據(jù)聚類參數(shù),具體有總的迭代次數(shù)maxlter,單個聚類 中心所包含數(shù)據(jù)個數(shù)的下限閾值numMin,單個聚類中心在所有圖像中出現(xiàn)的比例,建立隨 機kd樹的數(shù)目t;第二步、從總的待聚類數(shù)據(jù)中隨機選擇K個數(shù)據(jù)作為初始聚類中心,2 < K < N,然后初 始化當前迭代次數(shù)iter為1,其中N表示初始時總的待聚類數(shù)據(jù)量,重復執(zhí)行第三步直至 指定的總迭代次數(shù)maxlter,得到并保存最終的聚類結(jié)果; 第三步、聚類迭代過程,該過程包含如下具體步驟a、初始化階段對聚類中心建立由t(t> 1)棵隨機kd樹組成的一個森林,利用該森 林,所有的待聚類數(shù)據(jù)可以從這些聚類中心中找到與各自歐式距離近似最近的聚類中心, 即近似最近鄰,這個過程稱為劃分;b、對所有待聚類數(shù)據(jù)完成劃分后,逐一對每個聚類中心進行分析,設(shè)當前處理的聚類 中心為第i個(1 < i <礦,第一次迭代時K* = K,從第二次迭代開始K*表示當前迭代時聚類 中心集合中的聚類中心數(shù)目),分別統(tǒng)計第i個聚類中心實際所劃分到的數(shù)據(jù)個數(shù)num(i), 第i個聚類中心在多少幅圖像中出現(xiàn),記為app(i),比較num(i)和單個聚類中心所包含數(shù) 據(jù)個數(shù)的下限閾值numMin的關(guān)系,當num(i) < numMin........................................................(1)則稱第i個聚類中心為偽聚類中心,說明該聚類中心代表性不強,不適合作為聚類中 心,應該從聚類中心集中剔除,對于劃分到該偽聚類中心的num(i)個數(shù)據(jù)將被移出待聚類 數(shù)據(jù)集,不參與下一次迭代,對于不滿足式(1)的聚類中心,進一步比較app(i)和單個聚類 中心在所有標準圖像中出現(xiàn)的幅數(shù)閾值SFimage的關(guān)系,當app(i) ^ SFimage.......................................................(2)則稱第i個聚類中心為無意義聚類中心,對于滿足式(1)但不滿足式O)的聚類中心 稱為有效聚類中心,不做特殊處理,直接進入下一步更新過程;迭代次數(shù)增加一次iter = iter+1,C、更新后的新聚類中心為
4.根據(jù)權(quán)利要求3所述的圖像檢索系統(tǒng)中數(shù)據(jù)聚類方法,其特征是,所述的聚類迭代 過程中聚類中心在不同時期含義不同,在當前迭代次數(shù)iter = 1時,聚類中心是指初始聚 類中心;在當前迭代次數(shù)iter > 1時,聚類中心是指完成上一次迭代后的有效聚類中心; 所述的隨機kd樹是指一種對已知k維數(shù)據(jù)在k維空間建立樹形結(jié)構(gòu)的方法,利用該樹形 結(jié)構(gòu),對某一個新數(shù)據(jù)可以在已知數(shù)據(jù)中快速地進行搜索,找到距離近似最近的那個數(shù)據(jù), 隨機性的引入加速了建樹的過程,步驟a中用多棵隨機kd樹組成一個森林;所述的聚類結(jié) 果包含有效聚類中心、最終剔除了部分待聚類數(shù)據(jù)后剩下的每個數(shù)據(jù)的類別屬性,以及每 個類中的數(shù)據(jù)與所在類的聚類中心的最遠距離。
5.根據(jù)權(quán)利要求2所述的圖像檢索系統(tǒng)中數(shù)據(jù)聚類方法,其特征是,所述的針對新增 圖像數(shù)據(jù)時的增量聚類包括以下步驟步驟一、預處理設(shè)置增量聚類參數(shù),具體有建立隨機kd樹的數(shù)目t*,步驟五中當需要 用到聚類時,初始類別數(shù)設(shè)為待聚類數(shù)據(jù)量的1/s ;步驟二、當有新增圖像數(shù)據(jù)到來時,將原始聚類結(jié)果讀入計算機內(nèi)存,對讀入的Ke個 聚類中心建立由1)棵隨機kd樹組成的森林,實現(xiàn)新增圖像數(shù)據(jù)從這些聚類中心中 尋找各自近似最近聚類中心的過程;步驟三、確定新增圖像數(shù)據(jù)的類別屬性第Γ個新增圖像數(shù)據(jù)與其最近聚類中心Γ之間的距離為&& ,第Γ個聚類中心與其所在類中舊圖像數(shù)據(jù)的最遠距離為力&/,比較和必汐的關(guān)系,當
6.根據(jù)權(quán)利要求5所述的圖像檢索系統(tǒng)中數(shù)據(jù)聚類方法,其特征是,所述的公共存儲 區(qū)是指在計算機內(nèi)存中為存儲數(shù)據(jù)而開辟的物理空間,在具體實現(xiàn)時只把需要放入該存 儲區(qū)的數(shù)據(jù)索引放進去。
7.根據(jù)權(quán)利要求5所述的圖像檢索系統(tǒng)中數(shù)據(jù)聚類方法,其特征是,所述的調(diào)整是指 對于在公共存儲區(qū)內(nèi)的每個新增圖像數(shù)據(jù)的類別屬性加上Ke,Ke為步驟二中讀入公共存 儲區(qū)內(nèi)的來自于對舊圖像數(shù)據(jù)的聚類結(jié)果的聚類中心的數(shù)目,即由這部分新增圖像數(shù)據(jù)形 成的聚類中心是拼接在舊圖像數(shù)據(jù)形成的聚類中心后面;然后保存包括每個數(shù)據(jù)的類別屬 性、聚類中心以及每個類中數(shù)據(jù)與聚類中心的最遠距離的增量聚類結(jié)果。
8.根據(jù)權(quán)利要求5所述的圖像檢索系統(tǒng)中數(shù)據(jù)聚類方法,其特征是,所述的標準圖 像矢量通過以下方式得到這時上述的兩種聚類情況,即針對大規(guī)模數(shù)據(jù)的聚類和針對新 增圖像數(shù)據(jù)時的增量聚類可以只歸結(jié)為一種情況,處理方式相同,即從聚類結(jié)果中提取聚 類中心和每個數(shù)據(jù)的類別屬性,即該數(shù)據(jù)的最近聚類中心是哪一個;然后采用聚類中心頻 率-倒圖像頻率方法進行統(tǒng)計處理。
9.根據(jù)權(quán)利要求5所述的圖像檢索系統(tǒng)中數(shù)據(jù)聚類方法,其特征是,所述的待檢索圖 像矢量通過以下方式得到利用離線過程中獲得的聚類中心和在線過程中從待檢索圖像 Q提取的SIFT特征,首先將這些SIFT特征從聚類中心找到各自的最近聚類中心,然后在tf-idf方法下統(tǒng)計得到待檢索圖像矢量
10.根據(jù)權(quán)利要求5所述的圖像檢索系統(tǒng)中數(shù)據(jù)聚類方法,其特征是,所述的相似性搜索是指把兩個矢量間的余弦值進行相似性計算,
全文摘要
一種信息處理技術(shù)領(lǐng)域的圖像檢索系統(tǒng)中數(shù)據(jù)聚類方法,由離線過程和在線過程組成,離線過程中對標準圖像提取SIFT特征,然后將SIFT特征進行離線聚類處理,在離線聚類結(jié)果的基礎(chǔ)上通過矢量化處理建立標準圖像矢量;在線過程中對待檢索圖像提取SIFT特征,然后在所述離線聚類結(jié)果的基礎(chǔ)上通過矢量化處理得到待檢索圖像矢量,將待檢索圖像矢量在標準圖像矢量中進行相似性搜索,本發(fā)明能夠快速獲得大規(guī)模數(shù)據(jù)中具有較強代表性和可區(qū)分能力的特征,解決了大規(guī)模數(shù)據(jù)的聚類問題,并在有效重用原始圖像數(shù)據(jù)聚類結(jié)果的基礎(chǔ)上,實現(xiàn)新增圖像數(shù)據(jù)的快速增量聚類,最終實現(xiàn)高效的圖像檢索任務。
文檔編號G06F17/30GK102129451SQ201110039139
公開日2011年7月20日 申請日期2011年2月17日 優(yōu)先權(quán)日2011年2月17日
發(fā)明者楊杰, 顧王一 申請人:上海交通大學