專利名稱:安排用于顯示的項(xiàng)目的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于安排用于顯示的項(xiàng)目的系統(tǒng)和方法,尤其,但不僅僅涉及對(duì)當(dāng)使用圖像瀏覽系統(tǒng)時(shí)可用圖形方式顯示的圖像的查看。本發(fā)明也可用于安排能在顯示上用圖形表示的其他數(shù)字資源。
背景技術(shù):
人類能處理大量的可視化的和多媒體的信息。然而,他們通常很難精確地定義和描述這樣的信息。例如,據(jù)估計(jì)大腦可辨別大約10000個(gè)顏色上的細(xì)微差別,而個(gè)人只能命名少量的顏色詞(大約12個(gè))。因此,當(dāng)用通常采用元數(shù)據(jù)的基于文本的搜索來(lái)搜索數(shù)據(jù)庫(kù)時(shí),訪問(wèn)圖像可能是具有挑戰(zhàn)性的。基于內(nèi)容的索引和檢索方法給該問(wèn)題提供了部分解決方案。在許多基于內(nèi)容的檢索系統(tǒng)中的重點(diǎn)在于基于對(duì)查詢項(xiàng)的相似性概念來(lái)自動(dòng)檢索相關(guān)項(xiàng)。例如,基于內(nèi)容的圖像檢索(CBIR)可使用繪畫、照片、打印、圖畫或其他對(duì)象的所選擇的圖像的特征來(lái)找到視覺(jué)上相似的圖像并且定位集合中的匹配,即使它們沒(méi)有與原始圖像共享元數(shù)據(jù)。瀏覽為探索式搜索提供了有效的手段并且給傳統(tǒng)的基于內(nèi)容的檢索提供了可用的替代方法,在所述基于內(nèi)容的檢索中,用戶構(gòu)造文本查詢或圖像查詢。另外,當(dāng)探索圖像和/或多媒體集合時(shí),用戶意圖可能是很模糊的。他們期望系統(tǒng)能夠提供大量的線索和選項(xiàng)來(lái)指導(dǎo)他們的導(dǎo)航。圖像和/或多媒體瀏覽系統(tǒng)需要通過(guò)適當(dāng)?shù)夭贾庙?xiàng)目的集合用于顯示來(lái)使用戶能夠看見(jiàn)它們(或者它們的縮略圖或圖標(biāo))。許多系統(tǒng)將項(xiàng)目分為不同的類并且簡(jiǎn)單地將這些項(xiàng)目在二維顯示上布置為每個(gè)類的ID列表(Kang,H. and Shneiderman, B. (2000). Visualization methods for personal photo collections browsing and searching in the photofinder. ¢: IEEE International Conference on Multimedia and Expo 中,第 1539-1542頁(yè))。這樣的ID列表不能很好地描繪項(xiàng)目之間的相互關(guān)系?;蛘?基于 2D 映射的可視化(例如,G. Nguyen and Μ. Worring(2006). Interactive access to large image collections using similarity-based visualization. Journal of Visual Languages and Computing, 19 (2) :203-224)這樣布置項(xiàng)目以使得相似的項(xiàng)目在2D顯示上互相靠近而非常不同的圖形將進(jìn)一步分開(kāi)。基于2D映射的技術(shù)在其從項(xiàng)目提取高維特征向量、測(cè)量成對(duì)項(xiàng)目的相似性以及執(zhí)行降維以便將項(xiàng)目的分布從高維空間映射到 2D 顯示空間的方式上存在差異(Rodden, K. (2002). Evaluating similarity-based visualisations as interfaces for image browsing. iUl^^cfllliifet) °例如,Rubner 等人(Rubner,Y. , Tomasi, C.,and Guibas,L. (1998). A metric for distributions with applications to image databases. In ICCV,第 59-66 頁(yè),Bombay, India)使用推土機(jī)距離(Earth Mover' s Distance)來(lái)測(cè)量成對(duì)相異性和執(zhí)行多維標(biāo)度法(MDQ以將圖像顏色和紋理特征轉(zhuǎn)換到2D空間。當(dāng)在顯示上可視化大量的項(xiàng)目用于瀏覽時(shí),這些項(xiàng)目將重疊并且重疊的程度將傾
4向于隨著項(xiàng)目的數(shù)量而增加。另外,該顯示空間的區(qū)域?qū)⒔?jīng)常是空的。由于降維技術(shù)在映射到顯示位置時(shí)沒(méi)有考慮用于表示這些項(xiàng)目(例如,圖像縮略圖或圖標(biāo))的圖像的大小,這些問(wèn)題將進(jìn)一步被惡化。兩個(gè)非常相似的項(xiàng)目可能被投影到非常接近的位置以致于一個(gè)項(xiàng)目將與另一個(gè)項(xiàng)目在很大程度上重疊。為了減少重疊,在通過(guò)降維獲得2D顯示上的圖像位置后,使用梯度下降法來(lái)向未被占用的2D顯示區(qū)域移動(dòng)被重疊的圖像。Basalaj (Basalaj, 2000)和Liu等人(Liu et al.,2004)在離散域使用模擬MDS以在網(wǎng)格的單個(gè)單元中顯示每個(gè)圖像。盡管這些方式能有助于減少圖像重疊,但它們主要處理少量的圖像(大約20 200 個(gè))。本發(fā)明的目標(biāo)在于改善在顯示上布置或安排項(xiàng)目的方式。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的第一個(gè)方面,提供了一種安排用于顯示的諸如數(shù)字圖像或多媒體圖標(biāo)的可搜索項(xiàng)目的系統(tǒng),所述系統(tǒng)包括優(yōu)化器模塊,其最小化用于在布局空間安排項(xiàng)目的成本函數(shù),所述成本函數(shù)被應(yīng)用于所述項(xiàng)目的一個(gè)或多個(gè)預(yù)定的特性;通過(guò)將每個(gè)項(xiàng)目視為具有在布局空間中的空間分布來(lái)創(chuàng)建混合分布;以及控制混合分布的熵以便最大化每個(gè)項(xiàng)目占據(jù)布局空間中單獨(dú)的位置的程度;繪制器模塊,用于將這樣產(chǎn)生的布局繪制到顯示。優(yōu)先地,成本函數(shù)懲罰低熵混合分布,并對(duì)布局空間中的在其中項(xiàng)目間的距離取決于項(xiàng)目?jī)?nèi)容的相似性的布局進(jìn)行獎(jiǎng)勵(lì)。優(yōu)選地,布局空間包括在其中包含項(xiàng)目的一個(gè)或多個(gè)布局區(qū)域。優(yōu)選地,布局空間中每個(gè)項(xiàng)目的空間分布是高斯分布。優(yōu)選地,高斯分布是高斯混合分布。優(yōu)選地,混合分布對(duì)每個(gè)高斯分量具有相同的權(quán)重。優(yōu)選地,基于內(nèi)容的相似性來(lái)布置項(xiàng)目。優(yōu)選地,所述預(yù)定特性是描述諸如顏色、紋理和/或形狀的方面的特征。優(yōu)選地,每個(gè)項(xiàng)目的縮略圖或圖標(biāo)的大小和形狀信息可被嵌入到成本函數(shù)中。優(yōu)選地,所述熵是二次Renyi熵。
優(yōu)選地,處理項(xiàng)目的步驟包括;假定項(xiàng)目分布在數(shù)據(jù)流形上;確定所述數(shù)據(jù)流形的結(jié)構(gòu);以及應(yīng)用流形學(xué)習(xí)技術(shù)來(lái)將項(xiàng)目映射到低維布局空間以便近似地保存項(xiàng)目的內(nèi)容結(jié)構(gòu)。優(yōu)選地,成本函數(shù)還進(jìn)一步適用于折衷布局空間中項(xiàng)目的內(nèi)容結(jié)構(gòu)保存和熵。優(yōu)選地,控制該折衷的參數(shù)是用戶定義的。有利地,這將允許用戶對(duì)內(nèi)容結(jié)構(gòu)保存和布局熵的折衷進(jìn)行實(shí)驗(yàn)。優(yōu)選地,項(xiàng)目被以2-D方式安排在顯示上?;蛘?,放置項(xiàng)目以便在2-D顯示上給出3-D安排的外觀。或者,項(xiàng)目被以3-D方式安排在3-D顯示上。優(yōu)選地,顯示包括可以是包括顯示的一部分的顯示空間使得項(xiàng)目在顯示空間內(nèi)展開(kāi)。優(yōu)選地,項(xiàng)目是圖像或其縮略圖。或者,項(xiàng)目是諸如音頻或視頻剪輯的多媒體項(xiàng)目的圖標(biāo)。優(yōu)選地,優(yōu)化器模塊包括多個(gè)子模塊。優(yōu)選地,優(yōu)化器模塊包括初始化器模塊,其產(chǎn)生項(xiàng)目的初始布局。優(yōu)選地,優(yōu)化器模塊包括搜索引擎,其基于成本函數(shù)搜索最佳布局。優(yōu)選地,以由多媒體內(nèi)容模塊、布局展開(kāi)模塊和布局范圍模塊計(jì)算的布局質(zhì)量分?jǐn)?shù)的組合來(lái)計(jì)算成本函數(shù)。優(yōu)選地,多媒體內(nèi)容子模塊計(jì)算度量布局對(duì)內(nèi)容結(jié)構(gòu)的保存程度的分?jǐn)?shù)。優(yōu)選地,布局展開(kāi)子模塊計(jì)算度量布局的熵的分?jǐn)?shù)。優(yōu)選地,布局范圍子模塊計(jì)算度量對(duì)在布局區(qū)域或區(qū)域內(nèi)放置項(xiàng)目的約束的滿意程度的分?jǐn)?shù)。優(yōu)選地,優(yōu)化器模塊還包括組合器模塊,其將這些分?jǐn)?shù)組合為總分?jǐn)?shù),搜索引擎用該總分?jǐn)?shù)作為布局的成本函數(shù)值。優(yōu)選地,搜索引擎應(yīng)用最優(yōu)化方法來(lái)建議將要被評(píng)分的布局。優(yōu)選地,搜索引擎在建議和評(píng)分布局的多次迭代后輸出經(jīng)優(yōu)化的布局。根據(jù)本發(fā)明的第二個(gè)方面,提供了一種安排用于顯示的諸如數(shù)字圖像或多媒體圖標(biāo)的可搜索項(xiàng)目的方法,所述方法包括通過(guò)將每個(gè)項(xiàng)目視為具有在布局空間中的空間分布來(lái)創(chuàng)建混合分布;以及最小化用于在布局空間安排項(xiàng)目的成本函數(shù),所述成本函數(shù)被應(yīng)用于所述項(xiàng)目的一個(gè)或多個(gè)預(yù)定的特性;控制混合分布的熵以便最大化每個(gè)項(xiàng)目占據(jù)布局空間中一個(gè)單獨(dú)位置的程度;以及將這樣產(chǎn)生的布局繪制到顯示。優(yōu)選地,成本函數(shù)懲罰低熵混合分布,并對(duì)在其中布局上項(xiàng)目間的距離取決于項(xiàng)目?jī)?nèi)容的相似性的布局進(jìn)行獎(jiǎng)勵(lì)。優(yōu)選地,布局空間包括在其中包含項(xiàng)目的一個(gè)或多個(gè)布局區(qū)域。優(yōu)選地,布局空間中每個(gè)項(xiàng)目的空間分布是高斯分布。優(yōu)選地,混合分布是高斯混合分布。優(yōu)選地,混合分布對(duì)每個(gè)高斯分量具有相同的權(quán)重。優(yōu)選地,基于內(nèi)容的相似性來(lái)布局項(xiàng)目。優(yōu)選地,所述預(yù)定特性是描述諸如顏色、紋理和/或形狀的方面的特征。優(yōu)選地,每個(gè)項(xiàng)目的縮略圖或圖標(biāo)的形狀信息可被嵌入到成本函數(shù)中。優(yōu)選地,所述熵是二次Renyi熵。優(yōu)選地,處理項(xiàng)目的步驟包括;假定項(xiàng)目分布在數(shù)據(jù)流形上;確定所述數(shù)據(jù)流形的結(jié)構(gòu);以及應(yīng)用流形學(xué)習(xí)技術(shù)來(lái)將項(xiàng)目映射到低維布局空間以便近似地保存項(xiàng)目的內(nèi)容結(jié)構(gòu)。優(yōu)選地,成本函數(shù)還進(jìn)一步適用于折衷布局空間中項(xiàng)目的內(nèi)容結(jié)構(gòu)保存和熵。
優(yōu)選地,控制該折衷的參數(shù)是用戶定義的。有利地,這將允許用戶對(duì)內(nèi)容結(jié)構(gòu)保存和布局熵的折衷進(jìn)行實(shí)驗(yàn)。優(yōu)選地,項(xiàng)目被以2-D方式安排在顯示上?;蛘撸胖庙?xiàng)目以便在2-D顯示上給出3-D安排的外觀?;蛘?,項(xiàng)目被以3-D方式安排在3-D顯示上。優(yōu)選地,顯示包括可以是顯示的一部分的顯示空間使得項(xiàng)目在顯示空間內(nèi)展開(kāi)。優(yōu)選地,項(xiàng)目是圖像或其縮略圖?;蛘?,項(xiàng)目是諸如音頻或視頻剪輯的多媒體項(xiàng)目的圖標(biāo)。根據(jù)本發(fā)明的第三個(gè)方面,提供瀏覽器,其包括具有顯示的用戶接口;適于運(yùn)行用于在顯示屏幕上安排諸如數(shù)字圖像或多媒體圖標(biāo)的可搜索項(xiàng)目的計(jì)算機(jī)軟件的計(jì)算裝置,所述計(jì)算機(jī)軟件包括優(yōu)化器模塊,用于最小化用于在布局空間安排項(xiàng)目的成本函數(shù),所述成本函數(shù)被應(yīng)用于所述項(xiàng)目的一個(gè)或多個(gè)預(yù)定的特性;通過(guò)將每個(gè)項(xiàng)目視為具有在布局空間中的空間分布來(lái)創(chuàng)建混合分布;以及控制混合分布的熵以便最大化每個(gè)項(xiàng)目占據(jù)布局空間中一個(gè)單獨(dú)位置的程度;繪制器模塊,用于將這樣產(chǎn)生的布局繪制到顯示。優(yōu)選地,成本函數(shù)懲罰低熵混合分布,并對(duì)在其中布局上的項(xiàng)目間的距離取決于項(xiàng)目?jī)?nèi)容的相似性的布局進(jìn)行獎(jiǎng)勵(lì)。優(yōu)選地,布局空間包括在其中包含項(xiàng)目的一個(gè)或多個(gè)布局區(qū)域。優(yōu)選地,布局空間中每個(gè)項(xiàng)目的空間分布是高斯分布。優(yōu)選地,混合分布是高斯混合分布。優(yōu)選地,混合分布對(duì)每個(gè)高斯分量具有相同的權(quán)重。優(yōu)選地,基于內(nèi)容的相似性來(lái)布置項(xiàng)目。優(yōu)選地,所述預(yù)定特性是描述諸如顏色、紋理和/或形狀的方面的特征。優(yōu)選地,每個(gè)項(xiàng)目的縮略圖或圖標(biāo)的形狀信息可被嵌入到成本函數(shù)中。優(yōu)選地,所述熵是二次Renyi熵。優(yōu)選地,處理項(xiàng)目的步驟包括;假定項(xiàng)目分布在數(shù)據(jù)流形上
確定所述數(shù)據(jù)流形的結(jié)構(gòu);以及應(yīng)用流形學(xué)習(xí)技術(shù)來(lái)將項(xiàng)目映射到低維布局空間以便近似地保存項(xiàng)目的內(nèi)容結(jié)構(gòu)。優(yōu)選地,成本函數(shù)還進(jìn)一步適用于折衷布局空間中布局的內(nèi)容結(jié)構(gòu)保存和熵。優(yōu)選地,控制該折衷的參數(shù)是用戶定義的。有利地,這將允許用戶對(duì)內(nèi)容結(jié)構(gòu)保存和布局熵的折衷進(jìn)行實(shí)驗(yàn)。優(yōu)選地,項(xiàng)目被以2-D方式安排在顯示上?;蛘撸胖庙?xiàng)目以便在2-D顯示上給出3-D安排的外觀。或者,項(xiàng)目被以3-D方式安排在3-D顯示上。優(yōu)選地,優(yōu)化器模塊包括多個(gè)子模塊。
7
優(yōu)選地,優(yōu)化器模塊包括初始化器模塊,其產(chǎn)生項(xiàng)目的初始布局。優(yōu)選地,優(yōu)化器模塊包括搜索引擎,其基于成本函數(shù)搜索最佳布局。優(yōu)選地,以由多媒體內(nèi)容模塊、布局展開(kāi)模塊和布局范圍模塊計(jì)算的布局質(zhì)量分?jǐn)?shù)的組合來(lái)計(jì)算成本函數(shù)。優(yōu)選地,多媒體內(nèi)容子模塊計(jì)算度量布局對(duì)內(nèi)容結(jié)構(gòu)的保存程度的分?jǐn)?shù)。優(yōu)選地,布局展開(kāi)子模塊計(jì)算度量布局的熵的分?jǐn)?shù)。優(yōu)選地,布局范圍子模塊計(jì)算度量對(duì)在布局區(qū)域或區(qū)域內(nèi)放置項(xiàng)目的約束的滿意程度的分?jǐn)?shù)。優(yōu)選地,優(yōu)化器模塊還包括組合器模塊,其將這些分?jǐn)?shù)組合為總分?jǐn)?shù),搜索引擎用該總分?jǐn)?shù)作為布局的成本函數(shù)值。優(yōu)選地,搜索引擎應(yīng)用最優(yōu)化方法來(lái)建議將要被評(píng)分的布局。優(yōu)選地,搜索引擎在建議和評(píng)分布局的多次迭代后輸出經(jīng)優(yōu)化的布局。
現(xiàn)將參考附圖僅以示例的方式來(lái)描述本發(fā)明,其中圖Ia至Ic顯示了使用根據(jù)本發(fā)明實(shí)施例的系統(tǒng)的示例的、項(xiàng)目數(shù)據(jù)的收斂,尤其是,圖1(a)顯示了對(duì)于迭代次數(shù)的成本函數(shù)值,圖1(b)和1(c)顯示了基于初始圖像位置和收斂后的位置的圖像集合的可視化結(jié)果;圖2是顯示使用本發(fā)明的方法以及現(xiàn)有技術(shù)替代方法即Moghaddam的方法和 Nguyen的方法的內(nèi)容結(jié)構(gòu)錯(cuò)誤和圖像重疊之間的關(guān)系的曲線圖;圖3a至圖3d分別顯示使用Isomap、Moghaddm的方法、Nguyen的方法和本發(fā)明方法的示例的100個(gè)圖像的可視化結(jié)果;圖如至虹顯示了 1000個(gè)藝術(shù)圖像的可視化結(jié)果,其中圖3至c顯示了初始圖像位置的分布、采用結(jié)構(gòu)保存和圖像重疊間折衷的位置的分布,以及僅關(guān)注減少圖像重疊的位置的分布。圖4d、4f和4h顯示了對(duì)應(yīng)于圖如、4b、如中的位置的圖像集合的可視化結(jié)果, 而圖像如、4g和4i顯示了在布局中心的一個(gè)圖像周圍縮放圖像位置之后部分圖像集的可視化結(jié)果;以及圖如至51顯示了 1000個(gè)藝術(shù)圖像的可視化結(jié)果,其中圖3至c顯示了初始圖像位置的分布、采用內(nèi)容結(jié)構(gòu)保存和熵之間折衷的位置的分布,以及僅關(guān)注熵的位置的分布。 圖5d、4f和處顯示了對(duì)應(yīng)于圖如、413、如中的位置的圖像集合的可視化結(jié)果,而圖像^5、48 和4i顯示了在布局中心的一個(gè)圖像周圍縮放圖像位置之后部分圖像集的可視化結(jié)果;圖6示出了通過(guò)限制使所有圖像的位置位于矩形布局區(qū)域內(nèi)的、藝術(shù)圖像的圖像位置和相應(yīng)的圖像可視化結(jié)果;圖7是織物樣本被基于圖像位置可視化的又一個(gè)示例;圖和8b分別顯示了當(dāng)優(yōu)化500個(gè)圖像的布局時(shí)每次迭代的時(shí)間曲線圖和所獲得的圖像近似的準(zhǔn)確度曲線圖。圖6c顯示了隨布局中圖像數(shù)量變化的平均計(jì)算時(shí)間的曲線圖,并表明了改善的縮放比例。圖6d顯示了使用本發(fā)明的近似法所獲得的100個(gè)圖像的布局;圖9示出了在步驟大小上沒(méi)有閾值τ (第一列)和閾值τ = 0. 05的幾次迭代中
8圖像位置的變化;圖10是當(dāng)圖像的數(shù)量相對(duì)于可用的布局區(qū)域相對(duì)大時(shí)比較本發(fā)明和兩個(gè)現(xiàn)有技術(shù)的將圖像展開(kāi)的能力的三個(gè)圖的集合。圖Ila至Ild說(shuō)明了對(duì)圖10有關(guān)的描述的技術(shù)的性能上的變化的簡(jiǎn)化的解釋;圖12顯示了使用本發(fā)明和現(xiàn)有的Isomap技術(shù)基于顏色直方圖的1000個(gè)圖像的
可視化結(jié)果。圖13是本發(fā)明一個(gè)實(shí)施例的框圖;以及圖14顯示了根據(jù)本發(fā)明實(shí)施例的優(yōu)化器模塊的示例的更詳細(xì)的框圖。
具體實(shí)施例方式本發(fā)明提供允許基于圖像內(nèi)容的相似性來(lái)安排用于顯示的項(xiàng)目的系統(tǒng)、方法和瀏覽器。本發(fā)明可用于根據(jù)項(xiàng)目?jī)?nèi)容的特征(例如形狀、顏色、紋理和圖案)來(lái)安排項(xiàng)目(例如圖像),以使得顯示上項(xiàng)目間的距離與就這些特征而言的項(xiàng)目間的相似性相關(guān)。該過(guò)程的第一階段是計(jì)算在布局空間的項(xiàng)目的布局(layout)。一旦計(jì)算出布局, 該布局可以用來(lái)呈現(xiàn)項(xiàng)目用于在諸如計(jì)算機(jī)屏幕的裝置上顯示。在任何一次不需要將所有的布局空間都映射到顯示。例如,用戶可能想詳細(xì)查看該布局的一小部分,在這種情形中, 只有位于這一小部分布局中的項(xiàng)目將被實(shí)際地呈現(xiàn)到顯示空間/窗口中。應(yīng)理解術(shù)語(yǔ)布局、布局區(qū)域和布局空間指的是在有關(guān)項(xiàng)目的數(shù)據(jù)被繪制到可見(jiàn)的顯示圖像中之前被處理的該數(shù)據(jù)。在本發(fā)明的至少一個(gè)示例中,目的是通過(guò)如下方式“充分”利用布局空間,所述方式包括近似均勻地布置項(xiàng)目以便有效地使用可用的布局區(qū)域;將項(xiàng)目保持在可用的布局區(qū)域(例如,其可以是圓形的、矩形的或環(huán)形的)的邊界之內(nèi);以及以依賴于項(xiàng)目?jī)?nèi)容的方式來(lái)布置項(xiàng)目,通常使相似的項(xiàng)目互相靠近(此處稱為 “內(nèi)容結(jié)構(gòu)保存”)。本發(fā)明優(yōu)化成本函數(shù)并且使用通過(guò)將每個(gè)項(xiàng)目和混合模型中的分量相關(guān)聯(lián)而在布局空間中形成的混合模型。最大化該混合模型的熵可以在布局空間中展開(kāi)圖像以占據(jù)預(yù)定布局區(qū)域。特別地,每個(gè)項(xiàng)目可與高斯分布相關(guān)聯(lián),所述高斯分布具有由該項(xiàng)目的空間范圍確定的協(xié)方差矩陣和被有效地計(jì)算和優(yōu)化的二次Renyi熵。無(wú)意于被理論所束縛,但給出至少本發(fā)明的下列實(shí)施例通過(guò)其操作的數(shù)學(xué)描述的下列說(shuō)明。給定一組項(xiàng)目{IJ,i = 1,...,N,其具有所提取的高維特征向量{XJ和圖像(或縮略圖或圖標(biāo))大小{SJ,關(guān)心的問(wèn)題是通過(guò)折衷如下兩個(gè)要求來(lái)在布局空間的預(yù)定區(qū)域或某些區(qū)域中布置項(xiàng)目,所述要求如下(1)在布局空間中項(xiàng)目之間的距離應(yīng)該取決于項(xiàng)目?jī)?nèi)容的相似性,和( 項(xiàng)目應(yīng)該分散以充分利用布局區(qū)域。第一個(gè)要求可通過(guò)流形(manifold)學(xué)習(xí)來(lái)實(shí)現(xiàn)。通過(guò)假設(shè)項(xiàng)目分布于嵌入在高維空間中的低維的非線性流形,流形學(xué)習(xí)技術(shù)能被應(yīng)用以檢測(cè)和發(fā)現(xiàn)數(shù)據(jù)流形的結(jié)構(gòu)并將該流形展開(kāi)到向量空間中。一旦原始的高維數(shù)據(jù)點(diǎn)能被如實(shí)地嵌入到較低維的向量空間,數(shù)據(jù)庫(kù)中的圖像的相對(duì)近鄰將被近似地保存在較低維的(例如,2D或3D)空間中。這被稱為內(nèi)容結(jié)構(gòu)保存。大量的高維項(xiàng)目被可視化于2D或3D空間中用于瀏覽、探索和組織。根據(jù)用于流形結(jié)構(gòu)和結(jié)構(gòu)保存的標(biāo)準(zhǔn),已經(jīng)提出了許多不同的流形學(xué)習(xí)技術(shù),例如,Isomap (Tenenbaum 等人,2000),Laplacian eigenmaps (拉普拉斯特征映射)(Belkin 和 Niyogi,2002),擴(kuò)散映射(Nadler等人,2005),和最大方差展開(kāi)(Weinberger等,2005)。原則上,可以使用任何流形學(xué)習(xí)技術(shù)。這里Isomap被用作示例。Isomap首先基于{XJ構(gòu)造稀疏圖,其中,稀疏圖中的頂點(diǎn)和項(xiàng)目之間一一對(duì)應(yīng)。通過(guò)K-最近鄰(KNN)法來(lái)構(gòu)造相似項(xiàng)目之間的邊。每條邊被分配以權(quán)重Wij,其是這兩個(gè)鄰近項(xiàng)目之間的相異性。然后,獲取任何兩個(gè)項(xiàng)目間的最短線的(geodesic)距離的近似值Du來(lái)作為這兩個(gè)項(xiàng)目在該圖中對(duì)應(yīng)頂點(diǎn)之間的最短路徑。不失一般性,{Du}是歸一化的,這使得最大值{Du}由布局區(qū)域的大小來(lái)限定。Isomap能通過(guò)最小化Es來(lái)確定在較低維的(例如,2D或3D)向量空間中的圖像位置{YJ,所述Es滿足Es=ZllZ1J^lj-Dlj)2(1)其中Clij是Ji和y」之間的歐式距離。注意,當(dāng)兩個(gè)項(xiàng)目、和Ij在內(nèi)容上相似時(shí),這兩個(gè)項(xiàng)目間的距離Dij將是很小的, 并且相應(yīng)地在較低維空間中這兩個(gè)項(xiàng)目可能將顯得彼此靠近。對(duì)于第二個(gè)要求,提出了一種從熵的角度來(lái)度量在布局區(qū)域展開(kāi)的項(xiàng)目的質(zhì)量的方法。給定低維布局區(qū)域中的圖像位置使用高斯分布G(yi; Σ 0來(lái)近似該圖像在空間中的空間分布,其中Σ 1是由項(xiàng)目的大小和形狀、圖像的數(shù)量和布局區(qū)域的大小來(lái)確定的。接著,可合并將要被安排在該布局區(qū)域的所有項(xiàng)目的高斯分布以便獲得對(duì)每個(gè)高斯分量具有相同權(quán)重的高斯混合,即,p{y) = ^YjIlGiyYji )(2)為了在布局區(qū)域R中展開(kāi)項(xiàng)目,該布局空間中的高斯混合的熵可以被最大化。這里建議使用Renyi的二次熵測(cè)量,而不是傳統(tǒng)的香農(nóng)熵。高斯混合的二次Renyi熵H可以作為高斯分量之間成對(duì)測(cè)量的總和而被有效地估計(jì)(TorkkOla,2003),即η = -logi^zf.Z;.^·-力,Σ,+Σ, )} (3)通過(guò)最大化H(或最小化-H)可以很好地使用區(qū)域R。這可以安排項(xiàng)目使得保持較小的空的空間以及保持較小的項(xiàng)目間的重疊,并且這樣項(xiàng)目可以更均勻地分散在該區(qū)域上。不得不折衷這兩個(gè)要求。這意味著,該問(wèn)題是要最小化Ελ,Ελ = (I-A)Es-AH, (4)受到每個(gè)項(xiàng)目應(yīng)該停留在區(qū)域R內(nèi)的約束,其中λ e
是折衷參數(shù)。應(yīng)該以應(yīng)用相關(guān)的方式來(lái)確定λ。當(dāng)λ接近于0時(shí),重點(diǎn)在于保存流形結(jié)構(gòu)。當(dāng)λ接近于1時(shí), 重點(diǎn)在于最大化熵??梢允褂萌魏螖?shù)量的已知的最優(yōu)化方法來(lái)解決這個(gè)最優(yōu)化問(wèn)題。這里使用懲罰函數(shù)法來(lái)懲罰R之外的項(xiàng)目位置。直觀地,從項(xiàng)目位置Yi到布局區(qū)域R的歐式距離越大,該項(xiàng)目的位置越差,因此懲罰值越高。以Eb表示所有圖像位置的平均懲罰成本,即,
Eb =-ΣΓ=1/(Λ·)(5)其中,f(yi)是從yi到布局區(qū)域R的歐式距離(即minyeK| y-yj )的單調(diào)增加非負(fù)函數(shù)。然后,該問(wèn)題可最終轉(zhuǎn)換為最小化E,E = EA+yEb,(6)其中,γ是平衡Ελ和、的常量。可使用基于梯度的優(yōu)化來(lái)找到E的(局部)最小值。自公式
(I- λ)^-γ^(7)
^y j^y j ^y j ^y 3
Kruskal (Cox and Cox, 2001)已經(jīng)推導(dǎo)出 Es 與 Yi 的梯度
^二-^^從-。(8)
°yjJ dv
從公式(3),能推導(dǎo)出H與yj的梯度
dH ^iGiyl - Σ,+Σ,)((Σ,+Σ,)—1(兄-八)} (9)
Sy1 a-其中,α=Σ i Σ jG(Yi-Yj, Σ ^ Σ ρ。對(duì)于&與71的梯度,采用離散逼近,因?yàn)殍b于布局區(qū)域的自由形式的形狀,通常很難參數(shù)化地表示函數(shù)f(yj)。在該逼近中,Eb與yi的梯度的第k個(gè)分量通過(guò)以下公式來(lái)計(jì)算的,如產(chǎn)+Τ"力)(10)
Sy β N<5其中δ為離散的單位比例(unit scale),Uk是對(duì)于布局區(qū)域的第k維的基本向量。對(duì)于優(yōu)化,可以通過(guò)使用Isomap算法最小化艮來(lái)很容易地獲得良好的初始項(xiàng)目
位置{yj。該方法不受布局區(qū)域維度的限制,也不受項(xiàng)目形狀的限制。然后,為了實(shí)驗(yàn)上評(píng)估該方法,在下文中,認(rèn)為2D布局區(qū)域和每個(gè)圖像Ii被假設(shè)為具有高度Iii和寬度Wi的矩形。 在這種情形下,協(xié)方差矩陣Σ 1是對(duì)角的,即, Σ,=
0I0ση)σ π禾口 σ
(11)
會(huì)收斂為常數(shù)函數(shù),因此圖像布局不能有效地展開(kāi)。這里,提出了一種通過(guò)圖像大小、布局區(qū)域大小和要展開(kāi)的圖像的數(shù)量來(lái)自動(dòng)確定ση和Oi2的方法,即,
「 ιW. ση= ·
2 V W-Ji
_ .,^-JSf(12)
2 V w-h 其中,|R|是布局區(qū)域的面積,。和;^是要展開(kāi)的所有圖像的平均寬度和平均高度。是對(duì)于每個(gè)項(xiàng)目的全局尺度,使得所有項(xiàng)目的空間分布的組合P (y)(公式2)能有
V w-h
效地覆蓋布局區(qū)域,從而將項(xiàng)目展開(kāi)為近似地均勻分布。對(duì)于固定的布局區(qū)域R,項(xiàng)目的數(shù)量越多,平均的項(xiàng)目大小越大,全局尺度就越小。對(duì)于固定的項(xiàng)目集合,布局區(qū)域越大,全局尺度就越大。每一對(duì)(ση,oi2)與對(duì)應(yīng)的項(xiàng)目大小和全局尺度是線性相關(guān)的?,F(xiàn)參考本發(fā)明在多個(gè)圖像數(shù)據(jù)庫(kù)上的使用來(lái)描述本發(fā)明的性能,所述多個(gè)圖形數(shù)據(jù)庫(kù)包括兩個(gè)圖像數(shù)據(jù)庫(kù),第一個(gè)圖像數(shù)據(jù)庫(kù)具有1000個(gè)來(lái)自商業(yè)檔案的織物設(shè)計(jì)的圖像而第二個(gè)數(shù)據(jù)庫(kù)包括1000個(gè)來(lái)自公共博物館收藏的藝術(shù)圖像。使用兩類特征來(lái)表示圖像。通過(guò)在HSV顏色空間有規(guī)則地量化色彩為32個(gè)值以及量化飽和度為16個(gè)值來(lái)提取具有512格的顏色直方圖。通過(guò)執(zhí)行多分辨率Gabor變換,接著計(jì)算在每級(jí)圖像分辨率的變換系數(shù)的方差和均值,來(lái)提取紋理特征,給出108個(gè)紋理特征。對(duì)于這兩類特征,使用歐式距離來(lái)確定用于構(gòu)建流形結(jié)構(gòu)的最近鄰。在該測(cè)試中, 缺省布局區(qū)域大小為σ,=爿=1,調(diào)整每個(gè)項(xiàng)目Ii的大小,使得其長(zhǎng)度和寬度的最大值為預(yù)設(shè)值Smax = 0. 08。此外,為了將所提出的算法與已有的兩個(gè)算法進(jìn)行定量和定性的比較, 在公式4中γ =0,因?yàn)樵谝延械乃惴ㄖ胁皇褂?amp;。在這種情形下,對(duì)于每個(gè)Σ Qil = Wi/2和σ i2 =、/2而沒(méi)有全局尺度。在該評(píng)價(jià)中,通過(guò)結(jié)構(gòu)錯(cuò)誤&來(lái)度量結(jié)構(gòu)保存的性能,es =~Dl})2}( 13 )其中,具有最小&的歸一化因子β可以由分析計(jì)算得到,
λΝ ^-^Ν
Σ Σ d, -D11
γ ι η ^z=I ^/=1 y y β= ^n '-
(14)
Σ" Σ" diβ對(duì)于計(jì)算 是必須的,因?yàn)橹庇^地,如果所有的知縮放相同量,那么圖像分布的結(jié)構(gòu)應(yīng)該是相同的。對(duì)于該評(píng)價(jià)的第二量度是總體的圖像重疊e。,其是顯示空間中所有成對(duì)圖像重疊的總和,即,eo =YlX^(15)其中,重疊區(qū)域的面積Zij是可以從圖像位置以及圖像的大小,Ovhi)和 (wj; hj)直接計(jì)算得出的。應(yīng)注意,在計(jì)算圖像重疊e。之前,所有Yi的和y」的圖像位置必須歸一化以使所有圖像位于缺省顯示空間。d= 1。參考附圖,包括100個(gè)圖像的第一個(gè)示例是從如圖Ia和Ib所示的織物圖像集合均勻采樣得到的。每個(gè)圖像由Gabor特征表示,并且λ被設(shè)置為0.5。圖Ia是說(shuō)明相對(duì)于迭代次數(shù)的成本函數(shù)的值的曲線圖1。它顯示了在大約70次迭代后該成本值降到穩(wěn)定值。圖Ib和Ic是基于初始圖像位置和收斂后的位置的所有100個(gè)圖像的可視化結(jié)果 (visualization).這些圖像是由灰度背景上由多件圖案化的織物組成的。圖Ib和Ic都包含了相同數(shù)量的織物圖像。圖Ib示出了聚集在布局空間3中心的圖像,而圖Ic中的圖像很明顯在布局空間5分散得更開(kāi)。這可以從圖Ib和Ic的布局空間的視覺(jué)比較而看出,同時(shí)注意到圖Ic中布局空間的大部分面積被圖像覆蓋。換句話說(shuō),這些可視化結(jié)果顯示了圖像重疊已經(jīng)降低到一定程度,而圖像的位置分布保持相當(dāng)類似的程度。例如,圖Ib和Ic 的圖像7和9已保持在相同的位置,并且由參考標(biāo)記11和13指示的左顯示邊界附近的幾個(gè)圖像間的重疊已被大量減少盡管它們?nèi)韵嗷タ拷T谄胶鈭D像重疊和結(jié)構(gòu)保存方面,本發(fā)明的系統(tǒng)和方法的一個(gè)實(shí)施例與兩個(gè)現(xiàn)有的算法進(jìn)行了定量和定性的比較,這兩個(gè)現(xiàn)有算法為=Moghaddam的算法(Moghaddam等人, 2004)和Nguyen的算法(Nguyen和Worring,2006).為了公平比較,對(duì)于結(jié)構(gòu)保存,在這三個(gè)方法的每一個(gè)的成本函數(shù)中使用同一 Es。在Moghaddam的方法和Nguyen的方法中,用半徑為Smax/2的圓形圖像來(lái)近似每個(gè)圖像。使用與上文相同的100個(gè)圖像和Gabor特征。折衷參數(shù)λ從O到1逐漸地變化。對(duì)于每個(gè)λ的值,基于每個(gè)算法收斂的結(jié)果來(lái)測(cè)量結(jié)構(gòu)錯(cuò)誤A和重疊e。。如圖2所示的結(jié)構(gòu)保存和重疊之間的關(guān)系,可看出對(duì)于任何給定的結(jié)構(gòu)錯(cuò)誤,本發(fā)明的方法總是可獲得與另外兩個(gè)算法相等或比另外兩個(gè)算法更少的圖像重疊。另外,由本發(fā)明的方法獲得的最小圖像重疊(即, 2)比由其他兩方法獲得的最小圖像重疊(例如,分別為 4. 5和 4)要少得多。這可以從圖像集的對(duì)應(yīng)可視化結(jié)果(圖3)得到視覺(jué)上的驗(yàn)證。與如圖3a所示的由Isomap獲得的初始的可視化結(jié)果相比,在由Moghaddam的方法和Nguyen的方法獲得的可視化結(jié)果(圖3 (b)和(c))中圖像重疊少得多。然而,最少的圖像重疊出現(xiàn)在如圖3(d)所示的由本發(fā)明的方法獲得的可視化結(jié)果中??梢钥闯?,在圖 3(d)中,幾乎每個(gè)圖像都被清晰地可視化,與其他圖像的重疊非常少。應(yīng)指出,本發(fā)明的方法的實(shí)施例性能較好可能是因?yàn)橄旅鎯蓚€(gè)原因。首先,每個(gè)圖像的寬度和高度都被嵌入到成本函數(shù)中,這樣可以更有效地近似成對(duì)圖像重疊。在前兩個(gè)方法中,用圓形圖像來(lái)近似每個(gè)圖像。其次,在所提出的成本函數(shù) (公式5)中,成本項(xiàng)-H是平滑的并且在成對(duì)距離上有更大的影響區(qū)域。相比之下,前兩個(gè)方法中用于圖像重疊的成本項(xiàng)是分段光滑函數(shù),當(dāng)兩個(gè)圖像之間沒(méi)有重疊時(shí)對(duì)成對(duì)距離沒(méi)有影響,這使得其很難找到好的最小值。使用兩組1000個(gè)圖像測(cè)試了該算法對(duì)于大量圖像的性能。使用Gabor特征表示織物圖像而使用顏色直方圖表示藝術(shù)圖像。圖如至1示出了藝術(shù)圖像集在2D顯示中的圖像位置和對(duì)應(yīng)的圖像可視化結(jié)果。 在圖如所示的由Isomap獲得的初始圖像分布中,大部分圖像被聚集在顯示中心附近而少量的圖像不規(guī)則地分布在邊界處。通過(guò)折衷結(jié)構(gòu)保存和圖像重疊,如圖4b所示,這些圖像更均勻地分布而沒(méi)有密的集群(strong clusters)。如果強(qiáng)調(diào)減少圖像重疊(S卩,λ = 1), 那么如圖4所示圖像與其相鄰圖像相隔更均勻。在圖4d、4f和4h中所示的對(duì)應(yīng)的圖像可視化結(jié)果顯示了當(dāng)放松對(duì)結(jié)構(gòu)保存的要求時(shí),相似的圖像位置仍相互靠近。在該黑白版本的圖像中,附圖標(biāo)記21a-C、23a-C、2fe-C 和27a_c代表了不同的著色區(qū)域。為了說(shuō)明本發(fā)明的方法在減少圖像重疊方面的效果,在顯示中心附近的一個(gè)圖像周圍放大了這三個(gè)分布,然后對(duì)應(yīng)的可視化結(jié)果被顯示在圖4e、4g和4i中。注意,通過(guò)縮放操作對(duì)圖像的位置進(jìn)行縮放,但圖像本身并沒(méi)有被縮放。圖4(e)、(g)和(i)清楚地顯示了通過(guò)本發(fā)明的方法可以有效地減少圖像重疊。
13
在圖像瀏覽方面,本發(fā)明可為用戶提供一種在大量圖像上放大的有效方式以便查看圖像細(xì)節(jié)且只有較少的圖像重疊。圖5示出了織物圖像的圖像位置和對(duì)應(yīng)的圖像可視化結(jié)果,以及在顯示中心附近的一個(gè)圖像周圍的、通過(guò)在所選擇的圖像周圍縮放該圖像位置的坐標(biāo)所產(chǎn)生的放大的可視化結(jié)果。對(duì)于藝術(shù)圖像可以進(jìn)行如上的類似觀察。這里,根據(jù)紋理特征而不是顏色特征來(lái)分布圖像。從圖5d、5f和5h,可以看出在用附圖標(biāo)記31a至c、33a至c和3 至c標(biāo)識(shí)的區(qū)域中,圖像紋理的粗糙度在顯示空間中從頂部至底部平滑地改變。紋理的光滑變化可有助于用戶瀏覽大量的圖像并且用特定的紋理信息來(lái)找到感興趣的圖像。圖5e、g和i清楚地顯示了通過(guò)本發(fā)明的方法可以有效地減少圖像重疊。所有上述的實(shí)驗(yàn)結(jié)果均是在當(dāng)Y =0時(shí)獲得的。圖6示出了通過(guò)設(shè)置Y =10(這足以限制所有圖像位置在布局區(qū)域中)的藝術(shù)圖像的圖像位置和對(duì)應(yīng)的圖像可視化結(jié)果。 與圖4h和證相比,其顯示了圖像布局在整個(gè)布局空間更分散,從而減少了圖像重疊。圖7是又一個(gè)示例,其中根據(jù)圖像位置可視化了 10個(gè)織物樣品。圖7a是使用本發(fā)明的可視化結(jié)果,圖7b是使用Isomap的可視化結(jié)果,圖7c使用Moghaddam等人的技術(shù), 而圖7d使用了 Nauyen等人的技術(shù)。使用本發(fā)明獲得的可視化結(jié)果與使用如圖7b、7c和7d 所示的已有技術(shù)產(chǎn)生的可視化結(jié)果相比幾乎沒(méi)有圖像重疊。此處描述的高熵布局法(HELD)產(chǎn)生項(xiàng)目的布局,其符合可用的布局區(qū)域、接近高維數(shù)據(jù)分布并且產(chǎn)生所的用項(xiàng)目均勻地填充的顯示。采用項(xiàng)目以便在低維布局空間形成分布。懲罰具有低熵的分布,因?yàn)樗鼈儗?dǎo)致了布局被多度填充而使其他區(qū)域被稀疏地填充或空白。一方面,本發(fā)明描述了基于內(nèi)容可視化圖像集合的構(gòu)想,組合現(xiàn)有的基于流形的學(xué)習(xí)方法與Reyi熵來(lái)創(chuàng)建以更有效的計(jì)算方式來(lái)安排圖像的系統(tǒng)和方法,其中在圖形用戶接口上顯示的圖像被更好地分配和組織以便幫助用戶從在屏幕上顯示的那些圖像中選擇一個(gè)或多個(gè)項(xiàng)目。此外,可以用熵的近似,其包含在小鄰近區(qū)域上的成對(duì)測(cè)量以便提高該系統(tǒng)和方法的有效性。在這種情況下,下列公式表示只在近鄰的每個(gè)圖像上求和的特定情形。圖像i的近鄰集合由F(i)表示,H = -logi^z^Z^o^^· -"Σ, + Σ, )}(16)近似法提供了在減少計(jì)算消耗和保持準(zhǔn)確之間的良好的折衷。將要被包含在協(xié)方差矩陣中的最近鄰集合,特別是每個(gè)圖像中心的3 σ i之內(nèi)的那些近鄰。Σ=卜2 0 2](IV)
厶 Io (ασ,Υ)其中,a是如先前所述的圖像的長(zhǎng)寬比,最小化Renyi的二次熵將最小化布局空間
中空白空間,并且將最小化圖像重疊。圖8考察了進(jìn)行近似對(duì)計(jì)算時(shí)間和準(zhǔn)確性的影響。使用近似和不使用近似安排 500個(gè)織物圖像的集合并且對(duì)結(jié)果進(jìn)行比較。圖8a和8b分別顯示了當(dāng)優(yōu)化500個(gè)圖像的布局時(shí)每次迭代的時(shí)間曲線和所獲得的圖像近似的準(zhǔn)確度曲線。圖8c顯示了隨布局中圖像數(shù)量變化的平均計(jì)算時(shí)間的曲線圖,并表明了改善的縮放。圖8d顯示了使用本發(fā)明的近
14似所獲得的100個(gè)圖像的布局。盡管近似可以說(shuō)是產(chǎn)生了稍微差的布局,但它好于由現(xiàn)有已知的競(jìng)爭(zhēng)者產(chǎn)品所產(chǎn)生的布局,而且使用了較少的計(jì)算能力。為了研究在優(yōu)化期間步驟大小α的作用,將本發(fā)明的方法應(yīng)用于1000個(gè)藝術(shù)圖像,其中λ =1.0和γ =1.0。每個(gè)圖像是由顏色直方圖表示的,并且公式5的函數(shù)f(yi) 是從Yi到布局區(qū)域R的歐式距離的平方。圖9示出了在步驟大小上沒(méi)有閾值τ (第一列)和具有閾值τ = 0. 05 (第二列) 的幾次迭代中圖像位置的變化。當(dāng)沒(méi)有使用閥值時(shí),第一次迭代中大量圖像位置突然改變, 這導(dǎo)致了圖像互相“跳過(guò)(jump over)”對(duì)方和結(jié)構(gòu)的重大損失。相比而言,當(dāng)τ =0.05 時(shí),最初圖像位置中的變化是有限的;最大的移動(dòng)是可從右手側(cè)觀察的邊遠(yuǎn)的圖像的移動(dòng)。 之后,布局的密集的中心部分發(fā)散。在這兩種情形下,如圖9c所示,所產(chǎn)生的位置分布是相似的??刂撇襟E大小使得使用共軛梯度下降而不損失結(jié)構(gòu)成為可能。這是本發(fā)明的一個(gè)重要方面,因?yàn)槿绻麤](méi)有它將會(huì)獲得較差的可視化結(jié)果。此夕卜,閾值τ的使用使該優(yōu)化對(duì)大范圍的Y (例如,0. 1到100)和不同類型的函數(shù)f (Yi)(即從Ii到R的歐式距離的線性以及平方)不敏感。執(zhí)行了進(jìn)一步的實(shí)驗(yàn)來(lái)比較當(dāng)圖像的數(shù)量相對(duì)于可用的布局區(qū)域相對(duì)大時(shí)展開(kāi)圖像的能力。1000個(gè)圖像的集合被自動(dòng)安排在顏色直方圖上。在用Isomap初始化后,λ被設(shè)置為1以便盡可能地在布局區(qū)域展開(kāi)這些圖像。圖10顯示了所得到的1000個(gè)圖像的位置。 依照本發(fā)明(圖IOa)的系統(tǒng)產(chǎn)生了圖像的最均勻的分布以及布局區(qū)域上基本上穩(wěn)定的圖像密度?;贛oghaddam等人的結(jié)果顯示了一個(gè)緊密的集群(tight cluster)(圖10b)。 并且圖IOc中Nguyen等人的結(jié)果顯示了盡管圖像密度變化很大但更均勻地展開(kāi)。圖Ila至Ild示出了關(guān)于圖10中所描述的技術(shù)的性能上變化的簡(jiǎn)化解釋。在這個(gè)示例中,寬度w = 1. 0的4個(gè)正方形圖像被安排在寬為2. 0且高為1. 0的矩形區(qū)域中。其中兩個(gè)圖像位置是固定的,以便它們可以一起填充該區(qū)域。該布局區(qū)域的左下角是原點(diǎn),因此這些圖像具有橫坐標(biāo)0. 5和1. 5。另外兩個(gè)圖像在這兩個(gè)固定的圖像之間反對(duì)稱地移動(dòng),使得當(dāng)其中一個(gè)在u(0. 彡1.5)處時(shí),另一個(gè)在2.0處。圖Ila示出了對(duì)于u的三個(gè)值的該實(shí)驗(yàn)的示意圖。圖lib至Ild顯示了重疊成本項(xiàng)的值。當(dāng)這4個(gè)圖像以使得任何圖像和其最鄰近圖像之間的距離都進(jìn)似地相同的方式放置時(shí)使用本發(fā)明的重疊成本被最小化。 圖lib、圖Ilc顯示了當(dāng)這兩個(gè)可移動(dòng)的圖像直接位于那兩個(gè)固定的圖像上時(shí),Moghaddam 等人的方法的重疊成本被最小化。圖Ild顯示了當(dāng)這兩個(gè)可移動(dòng)的圖像互相只有稍微重疊時(shí),Nguyen等人的方法的重疊成本被最小化。圖12顯示了使用本發(fā)明和已有的Isomap技術(shù)的基于顏色直方圖的1000個(gè)圖像的可視化結(jié)果。參數(shù)Y被設(shè)置為10并且該方法每次迭代大約花10秒(沒(méi)有鄰近近似)。 在由Isomap得到的初始分布(圖12a)中,大部分圖像被聚集在布局中心周圍,而少量的圖像不規(guī)則地分布在邊界附近。當(dāng)強(qiáng)調(diào)熵(λ = 1)時(shí),圖像密度變得近似穩(wěn)定(圖12b)。為了更好地說(shuō)明這一點(diǎn),將在布局中心附近的一個(gè)圖像周圍的可視化結(jié)果進(jìn)行放大。所得到的可視化結(jié)果如圖12c和12d所示。通過(guò)縮放操作重新調(diào)整了圖像位置的比例大小但圖像本身的比例大小并沒(méi)有被重新調(diào)整。圖13是顯示本發(fā)明一個(gè)實(shí)施例的框圖。在這個(gè)示例中,本發(fā)明包括加載到計(jì)算機(jī)上的一系列軟件模塊。系統(tǒng)101包括優(yōu)化器105,所述優(yōu)化器105處理多媒體數(shù)據(jù)103以在布局空間的布局區(qū)域中提供經(jīng)優(yōu)化的布局,所述經(jīng)優(yōu)化的布局用于在用戶的控制下在顯示裝置上進(jìn)行呈現(xiàn)。用戶具有對(duì)下述的控制在比較項(xiàng)目?jī)?nèi)容時(shí)使用的差異性的概念(即,用于組織多媒體數(shù)據(jù)的概念),和數(shù)據(jù)的內(nèi)容結(jié)構(gòu)的保存應(yīng)該與利用可用的布局區(qū)域的要求相折衷的程度。用戶也可指定要使用的布局區(qū)域的大小和形狀。圖14更詳細(xì)地顯示了本發(fā)明一個(gè)實(shí)施例的優(yōu)化器模塊。優(yōu)化器模塊110包括多個(gè)子模塊。初始化器模塊119例如通過(guò)應(yīng)用Isomap算法來(lái)產(chǎn)生多媒體數(shù)據(jù)或項(xiàng)目111的初始布局。搜索引擎123基于成本函數(shù)來(lái)搜索最佳布局,所述成本函數(shù)是由三個(gè)子模塊多媒體內(nèi)容113、布局展開(kāi)115和布局范圍117所計(jì)算的布局質(zhì)量分?jǐn)?shù)的組合。多媒體內(nèi)容子模塊113計(jì)算度量布局對(duì)內(nèi)容結(jié)構(gòu)的保存程度的分?jǐn)?shù)。布局展開(kāi)子模塊115計(jì)算度量布局的熵的分?jǐn)?shù)。布局范圍子模塊117計(jì)算度量對(duì)在布局區(qū)域或區(qū)域內(nèi)放置項(xiàng)目的約束的滿意程度的分?jǐn)?shù)。組合器模塊121將這些分?jǐn)?shù)組合為總分?jǐn)?shù),搜索引擎使用該總分?jǐn)?shù)作為布局的成本函數(shù)值。搜索引擎122應(yīng)用優(yōu)化方法來(lái)建議將要被評(píng)分的布局。搜索引擎在建議布局和對(duì)布局評(píng)分的多次迭代后輸出經(jīng)優(yōu)化的布局125。本發(fā)明的實(shí)施例可以作為例如一種用于在顯示上安排可搜索項(xiàng)目(例如數(shù)字圖像或多媒體圖標(biāo))的方法而存在,在這種情況下,該方法可采用加載到計(jì)算裝置上的計(jì)算機(jī)程序的形式。也可包括根據(jù)本發(fā)明的用于在顯示上安排諸如數(shù)字圖像或多媒體圖標(biāo)的可搜索項(xiàng)目的系統(tǒng),并且可以包括硬件和軟件的組合。應(yīng)理解本發(fā)明的系統(tǒng)和方法可以被包含到現(xiàn)有的圖形瀏覽軟件和硬件中或者與其一起使用以便以如上所述的方式來(lái)提高它們的性能。此外,瀏覽器會(huì)是允許用戶執(zhí)行從數(shù)據(jù)庫(kù)中選擇項(xiàng)目的任務(wù)的裝置。本發(fā)明的裝置或系統(tǒng)可包括瀏覽,并且瀏覽器能指定將要在其上顯示搜索結(jié)果的物理顯示器的區(qū)域。在使用中,瀏覽器可基于查詢項(xiàng)目(在其被要求找到最接近匹配時(shí))、文本查詢或草圖查詢來(lái)開(kāi)始項(xiàng)目數(shù)據(jù)庫(kù)的搜索。此外,搜索可開(kāi)始于顯示上有代表性的一組項(xiàng)目,并因此提供對(duì)數(shù)據(jù)集的概覽。當(dāng)用戶開(kāi)始瀏覽時(shí),他們可能不太知道或不知道要尋找什么。他們可能會(huì)尋找靈感。當(dāng)他們?yōu)g覽根據(jù)各種標(biāo)準(zhǔn)布置的顯示時(shí),他們可能突然遇到感興趣的項(xiàng)目,那么他們的搜索可能變得更有目標(biāo)。在這種情況下,強(qiáng)調(diào)的是用戶通覽項(xiàng)目空間以有效地找到感興趣的項(xiàng)目。在這些情形和其他情形下,顯示項(xiàng)目的用戶接口應(yīng)該實(shí)時(shí)響應(yīng),在用戶和系統(tǒng)之間形成閉合的交互環(huán)。在不脫離本發(fā)明的范圍的情況下可并入改進(jìn)和修改。
權(quán)利要求
1.一種安排用于顯示的諸如數(shù)字圖像或多媒體圖標(biāo)的可搜索項(xiàng)目的系統(tǒng),所述系統(tǒng)包括優(yōu)化器模塊,其最小化用于在布局空間安排項(xiàng)目的成本函數(shù),所述成本函數(shù)被應(yīng)用于所述項(xiàng)目的一個(gè)或多個(gè)預(yù)定的特性;通過(guò)將每個(gè)項(xiàng)目視為具有在布局空間中的空間分布來(lái)創(chuàng)建混合分布;以及控制混合分布的熵以便最大化每個(gè)項(xiàng)目占據(jù)布局空間中單獨(dú)位置的程度; 呈現(xiàn)器模塊,用于將這樣產(chǎn)生的布局呈現(xiàn)到顯示。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,成本函數(shù)懲罰低熵混合分布,并對(duì)布局空間中的在其中項(xiàng)目間的距離取決于項(xiàng)目?jī)?nèi)容的相似性的布局進(jìn)行獎(jiǎng)勵(lì)。
3.根據(jù)前面任一權(quán)利要求所述的系統(tǒng),其中,布局空間包括在其中包含項(xiàng)目的一個(gè)或多個(gè)布局區(qū)域。
4.根據(jù)前面任一權(quán)利要求所述的系統(tǒng),其中,布局空間中每個(gè)項(xiàng)目的空間分布是高斯分布。
5.根據(jù)權(quán)利要求4所述的系統(tǒng),其中,空間分布是高斯混合分布。
6.根據(jù)權(quán)利要求5所述的系統(tǒng),其中,混合分布對(duì)每個(gè)高斯分量具有相同的權(quán)重。
7.根據(jù)前面任一權(quán)利要求所述的系統(tǒng),其中,基于內(nèi)容的相似性來(lái)布置項(xiàng)目。
8.根據(jù)前面任一權(quán)利要求所述的系統(tǒng),其中,所述預(yù)定特性是描述諸如顏色、紋理和/ 或形狀的方面的特征。
9.根據(jù)前面任一權(quán)利要求所述的系統(tǒng),其中,每個(gè)項(xiàng)目的縮略圖或圖標(biāo)的大小和形狀信息可被嵌入到成本函數(shù)中。
10.根據(jù)前面任一權(quán)利要求所述的系統(tǒng),其中,所述熵是二次Renyi熵。
11.根據(jù)權(quán)利要求11所述的系統(tǒng),其中使用Renyi熵的成對(duì)公式。
12.根據(jù)前面任一權(quán)利要求所述的系統(tǒng),其中,處理項(xiàng)目的步驟包括;假定項(xiàng)目分布在數(shù)據(jù)流形上;確定所述數(shù)據(jù)流形的結(jié)構(gòu);以及應(yīng)用流形學(xué)習(xí)技術(shù)來(lái)將項(xiàng)目映射到低維布局空間以便近似地保存項(xiàng)目的內(nèi)容結(jié)構(gòu)。
13.根據(jù)前面任一權(quán)利要求所述的系統(tǒng),其中,成本函數(shù)還進(jìn)一步適用于折衷布局空間中項(xiàng)目的內(nèi)容結(jié)構(gòu)保存和所述熵。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其中,控制該折衷的參數(shù)是用戶定義的。有利地,這將允許用戶對(duì)內(nèi)容結(jié)構(gòu)保存和布局熵的折衷進(jìn)行實(shí)驗(yàn)。
15.根據(jù)前面任一權(quán)利要求所述的系統(tǒng),其中,項(xiàng)目以2-D方式被安排顯示上。
16.根據(jù)權(quán)利要求1-14所述的系統(tǒng),其中,放置項(xiàng)目以便在2-D顯示上給出3-D安排的外觀。
17.根據(jù)權(quán)利要求1-14所述的系統(tǒng),其中,項(xiàng)目以3-D方式安排在3-D顯示上。
18.根據(jù)前面任一權(quán)利要求所述的系統(tǒng),其中,該顯示包括可以是一個(gè)顯示的一部分的顯示空間使得項(xiàng)目在顯示空間之內(nèi)展開(kāi)。
19.根據(jù)前面任一權(quán)利要求所述的系統(tǒng),其中,項(xiàng)目是圖像或其縮略圖。
20.根據(jù)權(quán)利要求1-18所述的系統(tǒng),其中,項(xiàng)目是諸如音頻或視頻剪輯的多媒體項(xiàng)目的圖標(biāo)。
21.根據(jù)前面任一權(quán)利要求所述的系統(tǒng),其中,優(yōu)化器模塊包括多個(gè)子模塊。
22.根據(jù)前面任一權(quán)利要求所述的系統(tǒng),其中,優(yōu)化器模塊包括初始化器模塊,其產(chǎn)生項(xiàng)目的初始布局。
23.根據(jù)前面任一權(quán)利要求所述的系統(tǒng),其中,優(yōu)化器模塊包括搜索引擎,其基于成本函數(shù)搜索最佳布局。
24.根據(jù)前面任一權(quán)利要求所述的系統(tǒng),其中,以由多媒體內(nèi)容模塊、布局展開(kāi)模塊和布局范圍模塊計(jì)算的布局質(zhì)量分?jǐn)?shù)的組合來(lái)計(jì)算成本函數(shù)。
25.根據(jù)權(quán)利要求M所述的系統(tǒng),其中,多媒體內(nèi)容子模塊計(jì)算度量布局對(duì)內(nèi)容結(jié)構(gòu)的保存程度的分?jǐn)?shù)。
26.根據(jù)權(quán)利要求M所述的系統(tǒng),其中,布局展開(kāi)子模塊計(jì)算度量布局的熵的分?jǐn)?shù)。
27.根據(jù)權(quán)利要求M所述的系統(tǒng),其中,布局范圍子模塊計(jì)算度量對(duì)在布局區(qū)域或區(qū)域內(nèi)放置項(xiàng)目的約束的滿意程度的分?jǐn)?shù)。
28.根據(jù)權(quán)利要求23所述的系統(tǒng),其中,優(yōu)化器模塊還包括組合器模塊,其將這些分?jǐn)?shù)組合為總分?jǐn)?shù),搜索引擎用該總分?jǐn)?shù)作為布局的成本函數(shù)值。
29.根據(jù)權(quán)利要求觀所述的系統(tǒng),其中,搜索引擎應(yīng)用最優(yōu)化方法來(lái)建議將要被評(píng)分的布局。
30.根據(jù)權(quán)利要求觀或四所述的系統(tǒng),其中,搜索引擎在建議和評(píng)分布局的多次迭代后輸出經(jīng)優(yōu)化的布局。
31.瀏覽器包括具有顯示的用戶接口;適于運(yùn)行用于在顯示屏幕上安排諸如數(shù)字圖像或多媒體圖標(biāo)的可搜索項(xiàng)目的計(jì)算機(jī)軟件的計(jì)算裝置,所述計(jì)算機(jī)軟件包括如權(quán)利要求1至30的任何一個(gè)所述的優(yōu)化器模塊;以及將這樣產(chǎn)生的布局呈現(xiàn)到顯示的呈現(xiàn)器模塊。
全文摘要
一種安排諸如數(shù)字圖像或多媒體圖標(biāo)的可搜索項(xiàng)目以用于在圖形用戶接口上展示的系統(tǒng)。該系統(tǒng)具有優(yōu)化器模塊,其最小化用于在布局空間安排項(xiàng)目的成本函數(shù)并被應(yīng)用于項(xiàng)目的一個(gè)或多個(gè)預(yù)定的特性。優(yōu)化器模塊還通過(guò)將每個(gè)項(xiàng)目視為具有在布局空間中的空間分布來(lái)創(chuàng)建混合分布,以及控制混合分布的熵以便最大化每個(gè)項(xiàng)目在布局空間中占用一個(gè)單獨(dú)位置的程度。然后,繪制器模塊繪制布局以產(chǎn)生顯示。
文檔編號(hào)G06F17/30GK102395963SQ201080014891
公開(kāi)日2012年3月28日 申請(qǐng)日期2010年1月28日 優(yōu)先權(quán)日2009年1月28日
發(fā)明者R·王, S·麥克肯納 申請(qǐng)人:敦提大學(xué)