一種基于gmm的手機(jī)內(nèi)圖像的組織和搜索方法
【專利摘要】本發(fā)明屬于圖像庫(kù)的組織和搜索領(lǐng)域,主要涉及一種基于GMM的手機(jī)內(nèi)圖像的組織和搜索方法。本發(fā)明包括:對(duì)手機(jī)內(nèi)photo文件夾下的所有圖像按高斯混合模型進(jìn)行聚類;對(duì)全部圖像進(jìn)行聚類的K幅聚類中心圖像;將每幅最上一層圖像所對(duì)應(yīng)的該類別下的所有圖像繼續(xù)按高斯混合模型進(jìn)行聚類;從第二層圖像開(kāi)始重復(fù)步驟3;圖像索引結(jié)構(gòu)建立好后,用戶開(kāi)始搜索圖像;點(diǎn)選圖像后進(jìn)入圖像索引結(jié)構(gòu)的下一層。本發(fā)明提供給手機(jī)用戶按圖像語(yǔ)義的不同進(jìn)行搜索和查找的方式,極大地方便了手機(jī)圖像管理和使用上的智能化??紤]到手機(jī)內(nèi)圖像的數(shù)量要比大型圖像庫(kù)要小得多,因此經(jīng)典的圖像聚類技術(shù)就可以滿足其實(shí)時(shí)性的要求。
【專利說(shuō)明】一種基于GMM的手機(jī)內(nèi)圖像的組織和搜索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明專利屬于圖像庫(kù)的組織和搜索領(lǐng)域,主要涉及一種基于GMM的手機(jī)內(nèi)圖像的組織和搜索方法。
【背景技術(shù)】
[0002]隨著手機(jī)的廣泛普及和移動(dòng)通信技術(shù)的快速發(fā)展,手機(jī)已經(jīng)不單純是作為個(gè)人用戶的移動(dòng)通信終端,而是越來(lái)越多地發(fā)展成為個(gè)人的多媒體綜合應(yīng)用平臺(tái),其中被應(yīng)用得最多的功能就是利用手機(jī)拍攝圖片,并對(duì)圖像進(jìn)行瀏覽和搜索。目前手機(jī)內(nèi)圖像的存儲(chǔ)一般是按照?qǐng)D像文件名稱的字典順進(jìn)行排列,而不是按圖像的內(nèi)容進(jìn)行合理組織,導(dǎo)致語(yǔ)義內(nèi)容相同或相近的圖片無(wú)法存放在一起。當(dāng)手機(jī)用戶在搜索圖像時(shí)往往需要不停地翻屏,這種按圖像名稱來(lái)組織圖像的方式無(wú)疑會(huì)給用戶帶來(lái)極大的不便。
[0003]本專利針對(duì)這一不足,提出一種基于分層聚類的手機(jī)內(nèi)圖像的圖像組織和搜索方法。圖像分類是將一些圖像按語(yǔ)義分成不同的類別的處理技術(shù),常分為監(jiān)督和非監(jiān)督兩大類,監(jiān)督方法需要訓(xùn)練樣本具有先驗(yàn)的類別信息,而非監(jiān)督方法(聚類分析)則無(wú)需樣本的類別信息,因此利用聚類分析對(duì)圖像進(jìn)行分類顯得更加方便。我們利用聚類分析技術(shù)將手機(jī)內(nèi)圖像按語(yǔ)義內(nèi)容進(jìn)行聚類,使每張圖像都?xì)w屬于不同的類別。目前手機(jī)拍攝圖像的存儲(chǔ)一般是按照拍攝時(shí)間的先后按順序進(jìn)行存儲(chǔ),而不是按圖像的內(nèi)容進(jìn)行組織,在搜索相同內(nèi)容的圖像時(shí)方面非常不方便。本發(fā)明針對(duì)這一不足,提出一種針對(duì)手機(jī)圖像的層次聚類圖像組織和搜索算法。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于提供一種手機(jī)圖像管理智能化的基于GMM的手機(jī)內(nèi)圖像的組織和搜索方法。
[0005]本發(fā)明的目的是這樣實(shí)現(xiàn)的:
[0006]步驟1:對(duì)手機(jī)內(nèi)photo文件夾下的所有圖像按高斯混合模型進(jìn)行聚類,圖像特征采用MPEG-7的視覺(jué)特征描述子,聚類的數(shù)目K需要事先設(shè)置,K 一般可設(shè)置為手機(jī)一屏所顯示的圖像數(shù)目,得到K個(gè)聚類,由于采用軟聚類方式,每幅圖像按一定概率分別屬于每個(gè)聚類;
[0007]步驟2:對(duì)全部圖像進(jìn)行聚類的K幅聚類中心圖像,作為圖像索引結(jié)構(gòu)中的最上一層的圖像;
[0008]步驟3:將每幅最上一層圖像所對(duì)應(yīng)的該類別下的所有圖像繼續(xù)按高斯混合模型進(jìn)行聚類,聚類的數(shù)目仍然為K,將本次聚類的κ*κ幅聚類中心圖像作為圖像索引結(jié)構(gòu)中的
第二層圖像;
[0009]步驟4:從第二層圖像開(kāi)始重復(fù)步驟3,直到每個(gè)聚類為一幅圖像,建立一個(gè)手機(jī)內(nèi)圖像的基于軟聚類的GMM分層聚類圖像索引結(jié)構(gòu);
[0010]步驟5:圖像索引結(jié)構(gòu)建立好后,用戶可以開(kāi)始搜索圖像,由圖像索引結(jié)構(gòu)的最上一層圖像開(kāi)始,將K個(gè)最上一層圖像顯示在手機(jī)屏幕上,用戶如果發(fā)現(xiàn)欲搜索的圖像則停止搜索,否則點(diǎn)選手機(jī)屏幕上與欲搜索圖像內(nèi)容最接近似的一幅圖像;
[0011]步驟6:點(diǎn)選圖像后進(jìn)入圖像索引結(jié)構(gòu)的下一層,手機(jī)屏幕上則顯示與所點(diǎn)選圖像對(duì)應(yīng)的K個(gè)下一層圖像,這樣逐層進(jìn)行搜索,直到找到滿意的結(jié)果。
[0012]本發(fā)明的有益效果在于:
[0013]本發(fā)明提供給手機(jī)用戶按圖像語(yǔ)義的不同進(jìn)行搜索和查找的方式,極大地方便了手機(jī)圖像管理和使用上的智能化??紤]到手機(jī)內(nèi)圖像的數(shù)量要比大型圖像庫(kù)要小得多,因此經(jīng)典的圖像聚類技術(shù)就可以滿足其實(shí)時(shí)性的要求。
【專利附圖】
【附圖說(shuō)明】
[0014]圖1 一般的分層聚類的圖像分層組織示意圖;
[0015]圖2本專利的GMM分層聚類的圖像索引結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0016]下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步描述。
[0017]本專利對(duì)手機(jī)內(nèi)圖像采用逐層聚類的方式,逐步縮小圖像高低級(jí)語(yǔ)義之間的差異。本專利對(duì)手機(jī)圖像進(jìn)行組織和搜索的具體方法如下:
[0018]首先對(duì)所有圖像進(jìn)行聚類,聚類數(shù)目設(shè)為手機(jī)一屏之內(nèi)所能顯示的圖片數(shù)目,將聚類中心的圖像作為最上層的代表圖像;對(duì)每個(gè)類別下的圖像進(jìn)行進(jìn)一步聚類,分成更細(xì)化的類別,將本次聚類的聚類中心圖像作為第二層的代表圖像;依此類推,直到每個(gè)聚類就是一幅圖像,這樣,圖像按類別的由粗到細(xì)構(gòu)成了一個(gè)樹(shù)狀索引結(jié)構(gòu),對(duì)圖像的層次組織就完成了。
[0019]對(duì)于圖片搜索功能,先在屏幕上顯示圖像組織結(jié)構(gòu)中最上層的圖像代表,如果該屏圖像中包含用戶的欲搜索圖像則停止,如果沒(méi)有包含,則用戶點(diǎn)選與其欲搜索圖片最接近的相應(yīng)圖像,進(jìn)入下一層,屏幕上則顯示剛才被點(diǎn)選圖像所對(duì)應(yīng)的圖像聚類的代表圖像,如果該屏圖像中包含用戶的欲搜索圖像則停止,如果沒(méi)有包含,用戶繼續(xù)點(diǎn)選,直到搜索到所需要的圖像。
[0020]高斯混合模型(GaussianMixtureModel, GMM)是最具有代表性的一種聚類方法,它在圖像聚類過(guò)程中考慮了像素在視覺(jué)空間中的統(tǒng)計(jì)分布特性。高斯混合模型的求解采用期望最大化(Expectation Maximization, EM)算法,為GMM模型參數(shù)提供了一種簡(jiǎn)單有效的最大似然迭代估計(jì)方法。因此我們采用高斯混合模型來(lái)對(duì)手機(jī)內(nèi)圖像進(jìn)行逐層聚類,來(lái)達(dá)到對(duì)圖像的分層組織和按這種組織方式進(jìn)行搜索的目標(biāo)。由于一幅圖像可能呈現(xiàn)出不同層面的信息,因此我們采取軟聚類(Soft Clustering)方式,一幅圖像在聚類時(shí),可以按照一定的概率被歸屬于不同的圖像類別,即使用戶按不同語(yǔ)義選擇了不同的路徑,也會(huì)找到相同的圖像(見(jiàn)圖1和圖2)。在建立好的圖像索引結(jié)構(gòu)中,最上層(圖2中的聚類層I)圖像代表對(duì)所有圖像進(jìn)行聚類的聚類中心圖像,最底層圖像代表手機(jī)內(nèi)的所有圖像,邊上的權(quán)值代表某圖像屬于上一層聚類的概率。這樣,手機(jī)內(nèi)的任意一幅圖像都相當(dāng)于通過(guò)一定的概率相乘和最上一層的圖像建立了連接,因此,由最上層節(jié)點(diǎn)開(kāi)始,沿著某一條路徑就可以搜索到任一幅圖像。[0021]對(duì)于圖像的視覺(jué)特征,我們采用國(guó)際標(biāo)準(zhǔn)化組織發(fā)布的MPEG-7標(biāo)準(zhǔn),即多媒體內(nèi)容描述接口(Multimedia Content Description Interface)。其中視覺(jué)特征描述子部分(Visual Descriptor)使對(duì)圖像視覺(jué)特征的提取和描述將更具規(guī)范性。MPEG-7標(biāo)準(zhǔn)確定了一個(gè)標(biāo)準(zhǔn)描述子(Descriptors)集,用來(lái)描述各種類型的多媒體信息。一個(gè)特征,如顏色、紋理或形狀,可能對(duì)應(yīng)多個(gè)描述子,這組描述子力圖從不同的角度對(duì)視覺(jué)特征進(jìn)行描述。
[0022]本專利提出的針對(duì)手機(jī)內(nèi)圖像的分層聚類圖像組織和搜索方法,其具體的實(shí)施方案如下:設(shè)置每層的聚類數(shù)目K均為手機(jī)一屏內(nèi)所顯示的圖像數(shù)目。首先對(duì)手機(jī)內(nèi)photo文件夾下的所有圖像按高斯混合模型進(jìn)行聚類,對(duì)應(yīng)K個(gè)聚類,每個(gè)聚類下包含有該類別下的所有圖像。將代表K個(gè)聚類中心的K幅圖像,作為GMM分層聚類的圖像索引結(jié)構(gòu)的最上一層的圖像。然后,對(duì)每一幅最上一層圖像,將其對(duì)應(yīng)的類別下的所有圖像繼續(xù)按高斯混合模型進(jìn)行聚類,聚類數(shù)目仍然為K,將代表K個(gè)聚類中心的K幅圖像,作為GMM分層聚類的圖像索引結(jié)構(gòu)的第二層的圖像。重復(fù)上述步驟,直到每幅圖像為一個(gè)單獨(dú)的聚類。在上述步驟中,一幅圖像在聚類時(shí),可以按照一定的概率被歸屬于不同的圖像類別,即使用戶按不同語(yǔ)義選擇了不同的路徑,也會(huì)找到相同的圖像。手機(jī)內(nèi)圖像的分層聚類的圖像索引結(jié)構(gòu)建立好后,將索引結(jié)構(gòu)中K個(gè)最上一層圖像(對(duì)全部圖像進(jìn)行聚類的K幅聚類中心圖像)顯示在手機(jī)屏幕上。用戶可以從最上一層開(kāi)始搜索圖像,點(diǎn)選與欲搜索圖像內(nèi)容接近的圖像,然后,手機(jī)屏幕上顯示相應(yīng)的K個(gè)第二層圖像(由被點(diǎn)選的上一層圖像所確定的該類別下所有圖像的K幅聚類中心圖像)。這樣,通過(guò)逐層點(diǎn)選與欲搜索圖像內(nèi)容接近的圖像,逐層向下搜索,直到找到滿意的結(jié)果。具體步驟如下:
[0023]步驟1:首先對(duì)手機(jī)內(nèi)photo文件夾下的所有圖像按高斯混合模型進(jìn)行聚類,圖像特征采用MPEG-7的視覺(jué)特征描述子。聚類的數(shù)目K需要事先設(shè)置,K 一般可設(shè)置為手機(jī)一屏所顯示的圖像數(shù)目。這樣,得到K個(gè)聚類,由于采用軟聚類方式,每幅圖像按一定概率分別屬于每個(gè)聚類。
[0024]步驟2:對(duì)全部圖像進(jìn)行聚類的K幅聚類中心圖像,作為圖像索引結(jié)構(gòu)中的最上一層的圖像。
[0025]步驟3:將每幅最上一層圖像所對(duì)應(yīng)的該類別下的所有圖像繼續(xù)按高斯混合模型進(jìn)行聚類,聚類的數(shù)目仍然為K,將本次聚類的κ*κ幅聚類中心圖像作為圖像索引結(jié)構(gòu)中的
第二層圖像。
[0026]步驟4:從第二層圖像開(kāi)始重復(fù)步驟3,直到每個(gè)聚類為一幅圖像。這時(shí),一個(gè)手機(jī)內(nèi)圖像的基于軟聚類的GMM分層聚類圖像索引結(jié)構(gòu)就建立好了。
[0027]步驟5:圖像索引結(jié)構(gòu)建立好后,用戶可以開(kāi)始搜索圖像。由圖像索引結(jié)構(gòu)的最上一層圖像開(kāi)始,將K個(gè)最上一層圖像顯示在手機(jī)屏幕上,用戶如果發(fā)現(xiàn)欲搜索的圖像則停止搜索,否則點(diǎn)選手機(jī)屏幕上與欲搜索圖像內(nèi)容最接近似的一幅圖像。
[0028]步驟5:點(diǎn)選圖像后進(jìn)入圖像索引結(jié)構(gòu)的下一層,手機(jī)屏幕上則顯示與所點(diǎn)選圖像對(duì)應(yīng)的K個(gè)下一層圖像。這樣逐層進(jìn)行搜索,直到找到滿意的結(jié)果。
[0029](I)由于手機(jī)內(nèi)photo文件夾下的圖像不會(huì)更新得特別頻繁,所以可以對(duì)手機(jī)圖像按天進(jìn)行圖像索引結(jié)構(gòu)的建立,即在每天的固定時(shí)間進(jìn)行索引結(jié)構(gòu)的更新。(2)由于手機(jī)內(nèi)圖像的數(shù)目相比于大型圖像庫(kù)來(lái)說(shuō)要小得多,所以圖像索引結(jié)構(gòu)的層數(shù)不會(huì)太多,例如K=6,手機(jī)內(nèi)圖像為1000幅時(shí),圖像索引結(jié)構(gòu)的層數(shù)為4。
【權(quán)利要求】
1.一種基于GMM的手機(jī)內(nèi)圖像的組織和搜索方法,其特征在于:步驟1:對(duì)手機(jī)內(nèi)Photo文件夾下的所有圖像按高斯混合模型進(jìn)行聚類,圖像特征采用MPEG-7的視覺(jué)特征描述子,聚類的數(shù)目K需要事先設(shè)置,K 一般可設(shè)置為手機(jī)一屏所顯示的圖像數(shù)目,得到K個(gè)聚類,由于采用軟聚類方式,每幅圖像按一定概率分別屬于每個(gè)聚類;步驟2:對(duì)全部圖像進(jìn)行聚類的K幅聚類中心圖像,作為圖像索引結(jié)構(gòu)中的最上一層的圖像; 步驟3:將每幅最上一層圖像所對(duì)應(yīng)的該類別下的所有圖像繼續(xù)按高斯混合模型進(jìn)行聚類,聚類的數(shù)目仍然為K,將本次聚類的K*K幅聚類中心圖像作為圖像索引結(jié)構(gòu)中的第二層圖像; 步驟4:從第二層圖像開(kāi)始重復(fù)步驟3,直到每個(gè)聚類為一幅圖像,建立一個(gè)手機(jī)內(nèi)圖像的基于軟聚類的GMM分層聚類圖像索引結(jié)構(gòu); 步驟5:圖像索引結(jié)構(gòu)建立好后,用戶可以開(kāi)始搜索圖像,由圖像索引結(jié)構(gòu)的最上一層圖像開(kāi)始,將K個(gè)最上一層圖像顯示在手機(jī)屏幕上,用戶如果發(fā)現(xiàn)欲搜索的圖像則停止搜索,否則點(diǎn)選手機(jī)屏幕上與欲搜索圖像內(nèi)容最接近似的一幅圖像; 步驟6:點(diǎn)選圖像后進(jìn)入圖像索引結(jié)構(gòu)的下一層,手機(jī)屏幕上則顯示與所點(diǎn)選圖像對(duì)應(yīng)的K個(gè)下一層圖像, 這樣逐層進(jìn)行搜索,直到找到滿意的結(jié)果。
【文檔編號(hào)】G06K9/62GK104021171SQ201410239322
【公開(kāi)日】2014年9月3日 申請(qǐng)日期:2014年6月3日 優(yōu)先權(quán)日:2014年6月3日
【發(fā)明者】劉詠梅, 李智慧, 張菁 申請(qǐng)人:哈爾濱工程大學(xué)