專利名稱:通過詞匯表示的圖像管理的制作方法
通過詞匯表示的圖像管理
背景技術(shù):
由于在互聯(lián)網(wǎng)上可得到的日益增加的數(shù)字圖像和視頻內(nèi)容,使用個 人計算機和其它數(shù)字硬件來處理和顯示數(shù)字圖像已經(jīng)得以普及。普及增 加的一個結(jié)果是,由于大量存在的圖像而使得檢索所需圖像變得越來越 復(fù)雜。傳統(tǒng)上,所需圖像常常是通過圖像的文件名來檢索的。
但是,文件名往往不能提供圖像或視頻內(nèi)容的充分說明,使用戶能 夠確定圖像或視頻內(nèi)容包含什么。因此,在傳統(tǒng)的數(shù)據(jù)庫中存儲的圖像 和視頻的內(nèi)容經(jīng)常是帶標簽儲存的,所述標簽提供了內(nèi)容的簡要說明。 例如,包含黑色道路上的藍色汽車的圖像可包括例如"汽車"、"藍色" 和"道路"的標簽。這些標簽通常是人工輸入到數(shù)據(jù)庫中的,費力費時。
例如,關(guān)于說明顏色,說明圖像和視頻的自動化方法已包括基于顏 色編碼的系統(tǒng),所述顏色編碼用多維顏色空間中的位置或坐標來表示顏 色分量。換言之,已經(jīng)用表示顏色空間中的位置或坐標的數(shù)字數(shù)據(jù)數(shù)學 地表示了顏色。雖然有關(guān)顏色的數(shù)據(jù)可相應(yīng)于顏色空間明確定義顏色, 但這些表示通常不能給人們直觀地傳達有關(guān)顏色的信息。
對本領(lǐng)域的技術(shù)人員而言,通過如下參照附圖的說明,本發(fā)明的特
征將是明顯的,在附圖中
圖1示出了根據(jù)本發(fā)明的實施例的圖像管理系統(tǒng)的框圖,該圖像管
理系統(tǒng)可采用在此公開的基于文本的圖像數(shù)據(jù)庫創(chuàng)建和圖像檢索過程 的各種實施例。
圖2示出了一原始圖像的結(jié)構(gòu)圖以及根據(jù)本發(fā)明的實施例由該原始 圖像所得的語素詞匯組織圖。
圖3A示出了根據(jù)本發(fā)明的實施例的用于創(chuàng)建圖像數(shù)據(jù)庫的方法的
流程圖。
圖3B示出了根據(jù)本發(fā)明的實施例的在圖3A中討論的語素詞匯處理 步驟中執(zhí)行的各個步驟的更詳細的流程圖。圖4示出了根據(jù)本發(fā)明的實施例的在通過實施圖3A中所述的方法
所創(chuàng)建的數(shù)據(jù)庫中檢索圖像的方法的流程圖。
具體實施例方式
出于簡約和說明的目的,本發(fā)明通過主要參照其一優(yōu)選實施例來說 明。在下面的說明中,為提供對本發(fā)明的透徹的了解,規(guī)定了許多具體 的細節(jié)。但很顯然,對本領(lǐng)域的技術(shù)人員,實施本發(fā)明并不限于這些具 體的細節(jié)。在其它情況下,并沒有詳細說明眾所周知的方法和結(jié)構(gòu),以 免不必要地與本發(fā)明混淆。
在此公開了管理圖像的方法和系統(tǒng)。特別是,在此公開的管理圖像 的方法和系統(tǒng)中,多個圖像的各種特征可以用人可讀的詞匯來表示。這 些表示包括圖像中各對象之間的關(guān)系,所述關(guān)系也可以用人可讀的詞匯 來表示。通過使用這里公開的方法和系統(tǒng),可以創(chuàng)建可通過定義了各種 圖像特征的文本術(shù)語來檢索的圖像的數(shù)據(jù)庫。此外,可通過使用文本搜 索項搜索數(shù)據(jù)庫或通過與輸入圖像進行比較來檢索期望的圖像。
一般而言,在一個例子中,用戶可以像文本式文件所用的搜索那樣 訪問和搜索數(shù)據(jù)庫以得到一個或多個圖像。因此,這里公開的方法和系 統(tǒng)可以使用戶以相對更直觀的方式搜索圖像。
參照圖1,圖1示出了基于一實施例的圖像管理系統(tǒng)100的框圖, 所述圖像管理系統(tǒng)IOO可采用這里公開的基于文本的圖像數(shù)據(jù)庫創(chuàng)建和 圖像檢索過程的多種實施例。所示圖像管理系統(tǒng)100包括通信接口 102、 處理電路104、存儲電路106、用戶接口 108、圖像輸入設(shè)備110和數(shù)據(jù) 庫120。圖像管理系統(tǒng)100可包括另外的組件,這里說明的一些組件可 被去除和/或修改,而不偏離圖像管理系統(tǒng)100的范圍。
通信接口 102用于實現(xiàn)可包括在計算機設(shè)備中的圖像管理系統(tǒng)100 和未圖示的外部設(shè)備間的通信。例如,可使通信接口 102與另一計算機 設(shè)備雙向交流信息。通信接口 102可以為網(wǎng)絡(luò)接口卡(NIC)、串行或 并行連接、通用串行總線(USB) 口、火線接口、閃存接口、軟盤驅(qū)動 器或任何其它適宜于與圖像管理系統(tǒng)1 0 0通信的設(shè)置。
在一個實施例中,處理電路104用于處理數(shù)據(jù)、控制數(shù)據(jù)訪問和存 儲、發(fā)出指令以及控制其它期望的操作。在例如下文公開的方法的至少 一個實施例中,處理電路104可包括設(shè)置為執(zhí)行由合適的介質(zhì)提供的期望程序設(shè)計的電路。舉例來說,處理電路104可以是處理器和其它設(shè)置 為執(zhí)行可執(zhí)行指令的結(jié)構(gòu)的一個或多個,可執(zhí)行指令例如包括軟件、固
件和/或硬件電路指令。處理電路104因此可包括例如硬件邏輯、引腳 網(wǎng)格陣列(PGA)、現(xiàn)場可編程門陣列(FPGA)、專用集成電路(ASIC)、 狀態(tài)機或其它結(jié)構(gòu)自身或其與處理器的組合。
存儲電路106用于存儲諸如可執(zhí)行代碼或指令的程序設(shè)計(如軟件 和/或固件)、電子數(shù)據(jù)、圖像數(shù)據(jù)、與圖像數(shù)據(jù)關(guān)聯(lián)的元數(shù)據(jù)、數(shù)據(jù) 庫或其它數(shù)字信息,并且可以包括處理器可用的介質(zhì)。處理器可用的介 質(zhì)可在任何計算機程序產(chǎn)品或制造品中包含,它們可包含、儲存或保持 程序設(shè)計、數(shù)據(jù)和/或數(shù)字信息,為包括處理電路104的指令執(zhí)行系統(tǒng) 所用或與之結(jié)合使用。舉例來說,處理器可用的介質(zhì)可包括諸如電、磁、 光、電磁、紅外或半導(dǎo)體介質(zhì)等物理介質(zhì)中的任一種。處理器可用的介 質(zhì)的別的例子例如包括可攜式磁性計算機盤,如軟盤、壓縮盤、硬驅(qū)、 隨機存取存儲器、只讀存儲器、閃存、高速緩沖存儲器和/或其它能存 儲程序設(shè)計、數(shù)據(jù)或其它數(shù)字信息的配置。
存儲電路106中和/或通過網(wǎng)絡(luò)或其它傳播媒介傳遞、并且配置為控制 適當?shù)奶幚黼娐返某绦蛟O(shè)計來實現(xiàn)。舉例來說,程序設(shè)計可通過適當?shù)?介質(zhì)來提供,包括,例如包括在制造品112中,包括在例如通過通信接 口,通過諸如通信網(wǎng)(如互聯(lián)網(wǎng)和/或個人網(wǎng))、有線電連接、光連接和 電磁能等合適的傳輸媒介傳遞的數(shù)據(jù)信號(如調(diào)制載波、數(shù)據(jù)包、數(shù)字 表示等)中,或用其它適當?shù)耐ㄐ沤Y(jié)構(gòu)或介質(zhì)來提供。例如,包括處理 器可用的代碼的程序設(shè)計可作為在包含在載波中的數(shù)據(jù)信號來進行傳 遞。
存儲電路106還可與數(shù)據(jù)庫120通信,可由處理電路104創(chuàng)建數(shù)據(jù) 庫來存儲圖像和/或圖像的語素詞匯表示。如下文更具體地討論的 那樣,可創(chuàng)建數(shù)據(jù)庫120來廣泛地支持通過基于文本的搜索查詢的圖像 搜索和檢索,就像文本文件搜索和檢索中使用的那樣。
用戶接口 108配置為與用戶進行交互,包括給用戶傳送數(shù)據(jù)(如顯 示數(shù)據(jù)供用戶觀察、用聲音向用戶傳遞數(shù)據(jù)等)和從用戶處接收輸入(如 觸覺輸入、聲音指令等)。相應(yīng)地,用戶接口 108可包括配置為描繪視 覺信息的顯示器114 (例如陰極射線管,液晶顯示器等)和鍵盤、鼠標
7和/或其它合適的輸入設(shè)備116,以支持與圖像管理系統(tǒng)100的用戶交 互。
在一個實施例中,用戶可采用用戶接口 108將搜索項輸入到圖像管 理系統(tǒng)100,所述搜索項與基于文本的搜索所用的搜索項相似。
圖像輸入設(shè)備110可以是提供與供給圖像管理系統(tǒng)100的例如照 片、視頻拍攝幀等圖像相對應(yīng)的電子圖像數(shù)據(jù)的任何適當?shù)脑O(shè)備。例如, 圖像輸入設(shè)備110可包括例如平板彩色照片掃描儀的掃描設(shè)備、數(shù)碼相 機、數(shù)碼攝像機、另一圖像管理系統(tǒng)等。
圖像輸入設(shè)備110可進而實施為向圖像管理系統(tǒng)100輸入搜索標 準。舉例來說,可通過圖像輸入設(shè)備110將圖像掃描到圖像管理系統(tǒng) 100,圖像可如下所述進行語素詞匯處理。然后,將語素詞匯處理后的 圖像的特征與存儲在數(shù)據(jù)庫120中的語素詞匯處理后的圖像的特征進行 比較,以便例如找到圖像數(shù)據(jù)庫120中與掃描圖像相似的圖像。
根據(jù)一例,處理電路104可量化多個圖像形成基本單位(例如像素) 的可包括例如RGB、 Ub等的圖像數(shù)據(jù),以確定具有一致的或共同的特 征的圖像區(qū)。 一致或共同的特征可包括,例如,圖像中具有相同顏色的 毗連區(qū)。如下文詳細說明的那樣,量化圖像數(shù)據(jù)可進一步進行語素詞匯 處理,從而把圖像數(shù)據(jù)轉(zhuǎn)化為人可讀的詞匯。
術(shù)語"語素詞匯處理"可定義為包括辨別圖像中各個區(qū)的一個或多 個特征和使用人可讀的詞匯來標識的處理。 一個或多個特征可包括例如 各個區(qū)相對于彼此的位置、各個區(qū)的顏色、各個區(qū)的大小等。此外,所 述一個或多個特征可包括各個區(qū)相互之間的關(guān)系和圖像的邊界。換句話 說,如下文詳細說明的那樣,可對已詞匯化量化的圖像進行形態(tài)處理。
術(shù)語"詞匯化量化"可定義為包括使用例如英語或其它語言的詞語 等人可讀的詞匯中人可理解的詞語說明圖像中內(nèi)容或?qū)ο蟮囊曈X特征。 人可理解的詞語可與圖像數(shù)據(jù)相關(guān)聯(lián),可用來輔助或利于例如在創(chuàng)建圖 像的可搜索的數(shù)據(jù)庫120中的圖像管理。如在此所公開的,人可理解的 詞語也可輔助或利于從圖像的可搜索數(shù)據(jù)庫120中檢索圖像。
人可理解的詞語可使用普通人易懂的自然語言說明圖像內(nèi)容的特 征,如顏色、灰度或顏色及灰度。人可理解的詞語可包括例如人可讀和 可理解的詞匯中的詞匯顏色名稱,人可讀和可理解的詞匯例如,作為人 類語言的一部分、易于為人所閱讀和理解的內(nèi)容,這與機器語言或代碼不同,雖然程序員也可以理解機器語言或代碼,但機器語言或代碼通常 需要某種類型的數(shù)學關(guān)系到顏色的映射或理解。人容易辨認的詞匯顏色 名稱的例子包括黑、紅、藍、綠、黃、橙等。
人可理解的詞語還可包括在人可讀和可理解的詞匯中的量化詞匯 大小標示。人容易辨認的量化詞匯大小標示例如包括非常小、小、中、 大、非常大等。應(yīng)清楚理解,根據(jù)說明圖像中包含的對象相對于彼此或 否則的話相對于某個其它特征的大小中期望的粒度等級,詞匯大小標示 可包括另外或其它的大小標示。
人可理解的詞語還可包括在人可讀和可理解的詞匯中的詞匯相對 位置標簽。詞匯相對位置標簽例如可說明第 一對象相對于第二對象位置 的位置、第一對象或第二對象相對于圖像的位置、第一對象或第二對象 相對于圖像的一個或多個邊界的位置等。詞匯相對位置標簽可另外或替 代地說明第一對象是否接觸第二對象或其它對象。在任何方面,人容易
辨認的詞匯相對位置標簽的例子包括北、南、東、西、左、右、中心、 上、下等。這樣,詞匯相對位置標簽可以是根據(jù)例如說明圖像中對象的 相對位置中期望的粒度等級而隨意詳盡或廣泛。
根據(jù)一個例子,對顏色來說,與各量化支(bin)對應(yīng)的詞匯顏色 名稱可通過相對多人口的定義的集合來產(chǎn)生。因此,在一些例子中,在 至少一種實施方式中采用了描述可見電磁光譜中的頻率范圍的詞語,所 述詞語是容易理解的人類詞匯詞語,而不同于標識電磁能的、或許只有 受過這些技術(shù)術(shù)語教育的技術(shù)人員才懂的技術(shù)術(shù)語。詞語可以指任何有 意義的詞匯符號序列,舉例來說可包括縮寫和詞條。
在一個針對顏色的實施例中,詞匯化量化的類別或支的數(shù)量根據(jù)用 來表征圖像的顏色名稱的數(shù)量來確定。 一旦圖像詞匯化量化,說明圖像 內(nèi)容的詞語(例如詞匯顏色名稱)就與圖像的圖像形成基本單位關(guān)聯(lián)起 來。下面詳細討論詞匯化量化的更多細節(jié)。
此處所述的形態(tài)處理可對已經(jīng)如上所述進行了詞匯化量化的圖像 進行。也就是說,詞匯顏色名稱中與圖像形成基本單位的顏色內(nèi)容相對 應(yīng)的合適的一個,與圖像的圖像形成基本單位中的每一個相關(guān)聯(lián)。 一般 來說,形態(tài)處理辨別圖像有一致或共同特征的多個區(qū)。在一個更具體的 例中,圖像的多個區(qū)在詞匯顏色名稱中的一個與這些區(qū)中的每一個相關(guān) 聯(lián)并與相應(yīng)區(qū)的顏色對應(yīng)時,被找出。形態(tài)處理可包括濾除掉給定區(qū)中不具有共同特征的圖像形成基本單位,并將這些圖像形成基本單位的內(nèi) 容改為共同特征??梢杂孟挛挠懻摰牟煌姆桨竵硖峁V除。
與所產(chǎn)生的區(qū)相關(guān)的信息可與初始的圖像數(shù)據(jù)關(guān)聯(lián),并使用存儲電 路106例如作為圖像的元數(shù)據(jù)存儲,所述初始的圖像數(shù)據(jù)例如是詞匯化 量化和語素詞匯處理之前的圖像的圖像數(shù)據(jù),可用于再現(xiàn)圖像的真實復(fù) 制。在一個實施例中,可用元數(shù)據(jù)辨別和檢索相應(yīng)圖像的期望的初始圖 像數(shù)據(jù)。
與得到的區(qū)有關(guān)的信息,可稱為區(qū)信息,可包括表示該區(qū)的圖像形 成基本單位的顏色的詞匯顏色名稱。例如,區(qū)信息還可包括區(qū)的量信息 和位置信息,所述量信息例如是該區(qū)的圖像形成基本單位以像素數(shù)或占 總體百分比計的數(shù)量。在一個實施例中,位置信息可標識與該區(qū)的所有
圖像形成基本單位的平均x和y位置對應(yīng)的相應(yīng)區(qū)域的形心。在另 一例 中,量信息可由詞匯量標示表示,位置信息可由詞匯相對位置標簽來表示。
參照圖2提供如何獲取詞匯表示及怎樣用其來說明圖像的更詳細的 例子,圖2描繪了原始圖像200和從原始圖像200所得的語素詞匯組織 圖220。
如圖2所示,原始圖像200可包括使用將在下面詳細討論的量化方 法生成的分割的圖像。在其它例中,可使用其它分割圖像的方法,例如, 產(chǎn)生圖像的多個片段并給每一個片段分配一種單一的顏色。在任何情況 下,原始圖像200包括多個對象,包括具有外部顏色204和內(nèi)部顏色206 的水壺202。在水壺202的把手部內(nèi)是第三顏色208,由于陰影,所述 第三顏色208可能比水壺202的周圍區(qū)域暗。此外,將水壺202周圍的 各對象標記為210a-210c。
對原始圖像200的圖像數(shù)據(jù)處理后,可創(chuàng)建語素詞匯組織圖220。 圖2的語素詞匯組織圖220包括原始圖像200中各區(qū)的圖形表示。更具 體地說,語素詞匯組織圖220 —般根據(jù)其大小、顏色、相應(yīng)位置和形態(tài) 來描繪各對象的圖形表示。因此,語素詞匯組織圖220根據(jù)其形心、大 小和顏色圖形式地描繪了水壺2 02的各部分2 04-2 08和水壺202周圍的 各個區(qū)"Oa-210c。因此,例如,水壺202的外部顏色204用具有外部 顏色204的相對大的圓圈204'來圖形地表示,其形心位于語素詞匯組織 圖2M的中心附近。此外,具有外部顏色204的區(qū)的圖形表示204'描繪成通過各線222分別與具有內(nèi)部顏色206和第三顏色208的各區(qū)的圖形 表示206'和208'接觸。圖形表示204'- 208'也描繪成與水壺202周圍 的區(qū)210a-210c的圖形表示210a'- 210c'接觸。
根據(jù)一個例子,處理電路104可用語素詞匯組織圖220來獲得原始 圖像200中的對象的詞匯表示。舉例來說,處理電路104可確定圖形表 示204'- 210c'的顏色,可為圖形表示204'- 21 Oc'分配詞匯顏色名稱, 如上所述。此外,處理電路104可確定圖形表示204'非常大、圖形表示 210b'和210c'中等、圖形表示206'和208'小、圖形表示21 Oa'非常小。 此外,處理電路104可根據(jù)確定的大小來分配詞匯大小標示。
處理電路104還可確定圖形表示204'- 210c/相對于彼此的相對位 置和/或相對于圖像200的邊界的相對位置。處理電路104也可為圖形 表示204'- 210c'分配詞匯相對位置標簽。例如,處理電^^104可存儲 表明圖形表示206'位于圖形表示204'的上方和圖形表示210c/位于圖 形表示204'的右邊的指示。
作為另一個例子,處理電路104可將語素詞匯組織圖220分成多個 虛擬條帶。例如,語素詞匯組織圖220可分為3個等分的虛擬條帶,橫 向延伸過語素詞匯組織圖220。此外,每個條帶可分成若干區(qū)域。語素 詞匯組織圖220分成的條帶和區(qū)域的數(shù)量例如可取決于各區(qū)域的密度。 也就是說,例如,如果有更大的區(qū)域密度,處理電路104可將語素詞匯 組織圖220分成更多個區(qū)域。如下面更詳細地討論的那樣,當條帶被穿 過時,區(qū)域就可被確定,從而使得能夠生成區(qū)域,以及區(qū)域中包含的圖 形表示的詞匯表示。
現(xiàn)在參照圖3A,其示出了根據(jù)一個實施例的創(chuàng)建圖像數(shù)據(jù)庫的方 法300的流程圖,其中該數(shù)據(jù)庫可通過人可讀的詞匯檢索。該方法300 可使用處理電^各104進行。然而,在其它實施例中,其它方法可包括更 多、更少和/或替代的步驟。
在步驟302,處理電路104可以通過收到用戶的命令、在預(yù)定的時 間段、自動等啟動方法300。 一旦開始,處理電路104可在步驟304獲 取要處理圖像的圖像數(shù)據(jù)。圖像數(shù)據(jù)可包括多個圖像形成基本單位(例 如,像素)的RGB數(shù)據(jù)。因此,例如,處理電路104可操作,來將圖像 數(shù)據(jù)轉(zhuǎn)換到期望的顏色空間,如Ub。
在任何情況下,如步驟306所示,處理電路104可對圖像數(shù)據(jù)進行語素詞匯處理??扇缟辖Y(jié)合圖2所述,對圖像數(shù)據(jù)進行語素詞匯處理, 來生成圖像中所含的各區(qū)域的人可讀的詞匯表示。下面將結(jié)合圖3B更 為詳細地討論一種對圖像數(shù)據(jù)進行語素詞匯處理的方式。
在步驟306,圖像數(shù)據(jù)可通過一系列允許從圖像中的顏色均勻區(qū)去 除雜散顏色的多個分辨率下的形態(tài)操作進行形態(tài)處理。在步驟306,圖 像可形態(tài)地過濾以將圖像表示為各自包括 一 種單——致顏色的多個圖 形表示。 一般情況下,圖形表示定義為其中多數(shù)圖像形成基本單位具有 一致或共同的特征(詞匯化量化產(chǎn)生的共同詞匯顏色名稱)而圖形表示 的其它不 一致的圖像形成基本單位可被改變或濾除到該 一致的特征。對 圖像數(shù)據(jù)進行形態(tài)處理的各種方式的更詳細的說明在題為"圖像處理方 法、圖像管理系統(tǒng)以及制造品,,的美國專利申請?zhí)柎ā⑻峤蝗?006 年7月27號、委托案件號200408243-1和題為"圖像管理方法、圖像 管理系統(tǒng)以及制造品"的美國專利申請?zhí)柎?、提交?006年7月 27號、委托案件號200408244-1中有所說明。上述兩個指出的申請的公 開在這里一并引用并入。
如在步驟308所示,處理電路104可控制存儲電路106,將詞匯表 示作為人可讀的詞匯儲存在數(shù)據(jù)庫120中。如下文詳述的那樣,該數(shù)據(jù) 庫120可通過文本查詢進行搜索。此外,圖像可存儲在數(shù)據(jù)庫中,圖中 區(qū)域的人可讀的詞匯表示可存儲在圖像的元數(shù)據(jù)中。
在步驟310,處理電路104可確定方法300是否將繼續(xù)進行。例如, 處理電路104可確定方法300要繼續(xù),以便建立和儲存另外的圖像的詞 匯表示。但是,如果沒有更多的圖像,處理電路104將在步驟312結(jié)束 方法300。
現(xiàn)在特別參照圖3B,其中詳細地示出了根據(jù)一個實施例的與圖3A 中的步驟306相應(yīng)執(zhí)行的各個步驟。因此,圖3B說明了根據(jù)一個實施 例的語素詞匯處理圖像的步驟。
在步驟320,處理電路104可產(chǎn)生在例如圖像200的圖像中的各對 象或區(qū)的圖形表示。特別是,例如,處理電路104可將量化圖像的各單 獨的圖像形成基本單位與多個相應(yīng)圖形表示中的一個相關(guān)聯(lián)。圖像的量 化考慮了允許濾除圖形表示中的不 一 致的顏色的離散結(jié)果。
對象可以通過確定圖像中哪些區(qū)包含一致或共同的特征來定義成 相應(yīng)的圖形表示。 一致或共同的特征例如可包括圖像中具有相同顏色的毗連區(qū)。此外,如果多個區(qū)被確定為對應(yīng)于原始圖像中一個單個的部分 或?qū)ο螅缬捎谠谠摬糠只驅(qū)ο笾谐霈F(xiàn)的顏色梯度導(dǎo)致該部分或?qū)ο?的詞匯化量化被分為多個區(qū),那么,這些區(qū)可合并。在任何情況下,參
照圖2,相應(yīng)的圖形表示可能包括外部顏色204、內(nèi)部顏色206、第三 顏色208和圍繞水壺2 02的區(qū)210a-210c。
在一個實施例中,對單個的圖形表示,處理電路104可關(guān)于接觸或 毗接相應(yīng)的主題圖形表示的其它圖形表示來分析相應(yīng)的主題圖形表示, 如果某些條件得到滿足,處理電路104可合并多個合適的圖形表示。一 旦找出毗接主題圖形表示的各區(qū)域,處理電路104獲取圖像的初始圖像 數(shù)據(jù),例如在詞匯或形態(tài)處理前的,與主題圖形表示和毗接圖形表示對 應(yīng)的圖像數(shù)據(jù)的內(nèi)容,并可使用該初始圖像數(shù)據(jù)計算這些圖形表示的各 自的平均值,例如,示例性Lab顏色空間的平均亮度及色度L、 a和b 值。主題圖形表示的平均值可例如使用歐幾里德度量與各毗接的圖形表 示的平均值的每一個進行比較
歐幾里德距離=少1)2..."—少《)2 (公式l)
其中各x值對應(yīng)于主題區(qū)的平均L、 a、 b值,各y值對應(yīng)于所分析的毗 接區(qū)的平均L、 a、 b值。
如果將主題圖形表示與相應(yīng)毗接圖形表示進行比較的公式1的結(jié)果 低于某一閾值,那么,這兩個圖形表示可相互合并。在一個實施例中, 可選擇閾值來區(qū)分在原始圖像中是如此相似以致它們應(yīng)當合并的多個 圖形表示的合并,例如,選擇閾值以辨別多個相似的接近量化支之間的 邊界的圖形表示,與不合并顯然包括不同顏色內(nèi)容的圖形表示,例如, 量化到不同的支沒有因顏色穿入多個相似的量化支中而發(fā)生。在一個實 施例中,可對毗接主題圖形表示的各其它圖形表示重復(fù)該分析。在一個 實施例中,合并后的圖形表示可以表示圖像中使用單個圖像圖形表示的 單個對象。
一旦區(qū)域被確定并在適當時合并,包括每個圖形表示的詞匯顏色名 稱、量和位置的圖形表示信息例如可作為元數(shù)據(jù)與相應(yīng)的圖像關(guān)聯(lián)起 來。下面更詳細地討論確定和分配圖形表示信息的詞匯表示的不同方式。在步驟322,處理電路104可確定各圖形表示的形心和大小。處理 電路104可根據(jù)圖像中圖像形成基本單位或?qū)ο蟮牟贾?,確定圖形表示 的這些特征。在任何情況下,在步驟324,處理電路104可以例如以與 圖2描繪的語素詞匯組織圖220類似的方式,將各圖形表示繪制在語素 詞匯組織圖上。
在步驟326,處理電路104可確定各圖形表示的詞匯顏色名稱。如 上所述,處理電路104可確定人可理解的詞語來說明圖像中各個區(qū)的詞 匯顏色名稱,如黑、紅、藍、綠、黃、橙等。
在步驟328,處理電路104可為各圖形表示確定詞匯大小標示。詞 匯大小標示可包括例如非常小、小、中,大、非常大等。在一個實施例 中,處理電路104可將圖形表示的大小相互比較,以確定詞匯大小標示。 在另一個實施例中,處理電路104可將圖形表示的大小與預(yù)設(shè)的標準比 較,以確定詞匯大小標示。在這個例子中,例如,處理電路可以決定, 如果圖形表示低于整個圖像的預(yù)定百分比,圖像表示就是小。
在步驟330,處理電路104可形態(tài)處理量化圖像以確定各圖形表示 之間的關(guān)系。特別是,例如,處理電路104可確定各圖形表示相對于彼 此的位置以及在圖像自身上的相應(yīng)位置。步驟330的形態(tài)處理可包括一
個或多個等級的不同分辨率下的形態(tài)處理(濾除)。在一個實施例中的 多級處理的更多細節(jié)在歐布拉多和佩爾發(fā)表在《SPIE可視通信和圖像處 理》(2006年1月15-19號,加利福尼亞州圣何塞)上的"多分辨率 顏色補塊提取"中有詳述,其教義在這里全部引用并入。
此外,處理電路104可使用多個形態(tài)濾除器生成多分辨率級下的圖 像的抽象表示。這些形態(tài)濾波器可用于改變保存在圖像的抽象表示中的 細節(jié)的多少。例如,在較低的分辨率水平,較小的圖形表示被消除,從 而留下了圖像的非常粗的抽象表示和詞匯表示。形成對比的是,在較高 的分辨率水平,更大程度的細節(jié)被保留,相對較小的圖形表示在抽象表 示中表現(xiàn),提供了圖像更具體的詞匯表示。
在任何情況下,處理電路104可確定哪個圖形表示與其它圖形表示 中的哪一個接觸,哪一個圖形表示與圖像的邊界接觸等。進而/或者, 處理電路l(M可將圖像或圖像的語素詞匯組織圖表示分為多個虛擬條 帶,每個條帶包含零個或多個虛擬區(qū)域。在這種情況下,處理電路104 可例如掃描過所述虛擬條帶以確定虛擬區(qū)域相互間的相對位置。例如,處理電路104可確定區(qū)域A位于圖像的中心,與位于其北部的區(qū)域B及 位于其東部的區(qū)域C相鄰。
在步驟332,處理電路104可為虛擬區(qū)域分配人可讀的詞匯表示。 因此,例如,參考圖2,處理電路104可確定用虛線224表示、從組織 圖的左上角取出的第一區(qū)包括圖形表示210a'和208'。例如,假設(shè) 圖形表示210a'是淡灰色的且圖像表示20『是深灰色的,處理電路104 可為第一區(qū)域224分配人可讀的詞匯表示,表明一個非常小的、淺灰色 的圖形表示位于一個小的深灰色圖形表示的左邊。此外,假定圖像表示 204'是橙色,處理電路104可為位于中間的區(qū)域226分配指示非常大的 橙色圖形表示的人可讀的詞匯表示。換句話說,處理電路104可確定第 一區(qū)域224是在中央?yún)^(qū)域226的西北方。此外,處理電路104可確定一 個非常大的橙色圖形表示位于一個小的深灰色補塊的右下方,所述小深 灰色補塊位于一個非常小的淺灰色補塊的右方,等等。
處理電路104可以對其余區(qū)域重復(fù)這一處理,從而確定和分配其余 圖形表示的人可讀的詞匯表示。此外,如步驟308所示,人可讀的詞匯 表示可存儲在基于文本的可檢索數(shù)據(jù)庫中。
現(xiàn)在談到圖4,其示出了用于在通過實施方法300所創(chuàng)建的數(shù)據(jù)庫 120上檢索圖像的方法400的流程圖。該方法400 —般性地說明了查詢 數(shù)據(jù)庫120以檢索到一個或多個所需圖像的方式。特別是,方法400使 類似于檢索文本文件所用的、基于文本的查詢能夠應(yīng)用在尋找和檢索圖 像文件中。
在步驟402,處理電i 各104訪問數(shù)據(jù)庫120。此外,在步驟404,處 理電路l(M可接收搜索查詢。在一個例子中,可通過用戶接口 108接收 搜索查詢作為一個或多個搜索項。在本例中,處理電路104可解析一個 或多個搜索項以確定該一個或多個搜索項的各種特征。例如,如果搜索 查詢包"fe項"海灘",處理電^各104可以確定與期望的項匹配的圖j象在
層次上,處理電路104可確定含有藍天和米色沙地的圖像匹配項"海灘,, 的特征。在任一情況下,處理電路104可確定與搜索查詢項相關(guān)的不同 區(qū)域的相對位置。
除詞匯顏色名稱外或者作為其替代,處理電路104可通過輸入108 接收搜索所需圖像的請求,其所用搜索標準包括的特征例如在要檢索的期望圖像中的 一 個或多個區(qū)域的諸如詞匯顏色名稱、量和/或位置信息。 請求可指定要檢索的圖像的一個或多個區(qū)域,例如,"找中間頂部有大 藍色區(qū)域、正中間有中等紅色區(qū)域、中間底部有黃色區(qū)域的圖像,,,如
步驟406所示,處理電路104可使用搜索標準和與存儲的圖像相關(guān)聯(lián)的 區(qū)域信息,搜索存儲在存儲電路106中的圖像,并根據(jù)其與搜索標準匹 配的密切程度對存儲圖像進行分級。
在執(zhí)行搜索中,處理電路104可使用輸入的文本搜索請求創(chuàng)建搜索 表示,其代表了可用來搜索存儲圖像的指定的詞匯顏色名稱、量和/或 位置信息。搜索表示可以是例如以與顏色、量和位置相對應(yīng)的三個矢量 的形式。
在另一個例子中,搜索查詢可通過圖像輸入設(shè)備110例如作為掃描 的圖像而收到。在這個例子中,處理電路104可如上參照圖3A和圖3B 所述那樣對掃描的圖像進行語素詞匯處理,以獲得掃描圖像的詞匯表 示。因此,舉例來說,如果掃描的圖像包括海灘圖片,處理電路104可 確定掃描圖像包含一個在非常大的米色區(qū)之上的非常大的藍色區(qū)。
在這個例子中,處理電路104可以根據(jù)與掃描圖像的相應(yīng)相似度對 存儲在數(shù)據(jù)庫120中的圖像進行分級。處理電路104可以建立搜索圖像 的至少 一個區(qū)域的區(qū)域信息以創(chuàng)建搜索表示,利用與各存儲圖像相關(guān)聯(lián) 的區(qū)域信息,使用搜索表示搜索存儲的圖像。特別是,例如,在步驟406, 處理電路104可訪問數(shù)據(jù)庫120以取回響應(yīng)搜索查詢的一個或多個圖 像。因此,就上述海灘例來說,處理電路104可檢索在非常大的米色區(qū) 之上有非常大的藍色區(qū)的所有圖像。
在上面所述的任 一 例中,處理電路1 0 4可訪問存儲圖像的區(qū)域信息, 將搜索標準與存儲圖像的區(qū)域的區(qū)域信息進行比較,來試圖找出期望的 圖像。處理電路104可以使用詞匯顏色名稱、量和位置信息來進行比較 操作。例如,可使用詞匯顏色名稱、量和位置信息來計算搜索標準的至 少一個區(qū)域相對于每一個儲存圖像的區(qū)域的距離。處理電路104可配置 為將搜索標準與每一個存儲圖像的相似性分級為,與圖形表示的大小成 正比、與圖形表示的形心成反比、與圖形表示的顏色差異成反比的關(guān)系。 例如,可用下式計算兩幅圖像1和2之間的距離戸/c/;5V2e, * / 加Wze^
其中,
公式2
處理電路1 04可響應(yīng)由與相應(yīng)區(qū)域?qū)?yīng)的計算出的距離指示的圖像 的區(qū)域的相似性,提供指示所比較的圖像的相似性的信息。例如,存儲 的圖像可從最近或最相似到最遠或最不相似進行分級。如步驟408所示, 處理電路104可以使用顯示器116描繪搜索結(jié)果,用戶可以選擇想要的 圖像來閱覽??蓮拇鎯﹄娐?06獲得選定圖像的初始圖像數(shù)據(jù),使用顯 示器116進行顯示。
為方便搜索表示相對于與存儲圖像有關(guān)的信息進行的處理,處理電 路104可最開始將搜索表示的最大圖形表示與存儲圖像的最大圖形表示
進行比較,如果發(fā)現(xiàn)較大圖形表示足夠相似,就隨后繼續(xù)分析較小尺寸 的圖形表示。
這里說明和解釋了本發(fā)明的優(yōu)選實施例及其變形。這里所用的術(shù) 語、說明和附圖僅僅是說明性的而不是限制性的。本領(lǐng)域的技術(shù)人員將 認識到,在本發(fā)明的精神和范圍內(nèi)可能有多種變化。本發(fā)明的精神和范 圍將由下面的權(quán)利要求及其等同物來界定,其中除非另有說明外,所有 術(shù)語都是指最廣的合理化的范疇。
權(quán)利要求
1.一種圖像管理方法(300),包括獲得(304)包含對象的圖像的圖像數(shù)據(jù);產(chǎn)生(320)對象的圖形表示(204′-210c′);確定(322)圖形表示(204′-210c′)的形心和大??;確定(324)形心的位置;根據(jù)所確定的形心位置,確定(328)圖形表示(204′-210c′)的形態(tài),其中所述圖形表示(204′-210c′)的形態(tài)包括圖形表示(204′-210c′)相互之間的物理關(guān)系;對圖形表示(204′-210c′)的形心位置、大小、顏色和形態(tài),分配(332)人可讀的詞匯表示;和將所分配的人可讀的詞匯表示存儲(308)在數(shù)據(jù)庫(120)中,所述數(shù)據(jù)庫(120)可通過人可讀的詞匯進行搜索。
2. 如權(quán)利要求l所述的方法(300 ),還包括 對包含多個圖形表示(204'- 210cO的圖像,確定(330 )該多個圖形表示210c')相互之間的形態(tài);和分配(332 )該多個圖形表示210cO的相對位置的詞匯表示。
3. 如權(quán)利要求2所述的方法(300 ),其中分配該多個圖形表示 (204'- 210cO的詞匯表示還包括分配與哪個圖形表示(204'- 210cO和哪個圖形表示(204'- 210cO接觸、以及哪個圖形表示(210cO 和相應(yīng)圖像的至少一個邊界接觸有關(guān)的詞匯表示。
4. 如權(quán)利要求l、 2或3所述的方法(300 ),其中產(chǎn)生對象的圖 形表示(204'- 210cO還包括量化圖像以確定具有至少一個一致和共同 的特征的圖形表示(204'- 210cO,來確定該多個圖形表示(204'-210cO 。
5. 如權(quán)利要求l、 2、 3或4所述的方法(300, 400 ),還包括 響應(yīng)收到搜索查詢,從數(shù)據(jù)庫中檢索出(406 )至少一個圖像,其中搜索查詢包括基于文本的查詢。
6. —種圖像管理系統(tǒng)(100 ),包括處理電路(104),配置為獲得多個圖像的圖像數(shù)據(jù),所述處理電路(1 04 )配置為生成該多個圖像中所含對象的圖形表示(2 04' - 210O , 確定圖形表示的形心和大小,確定圖形表示的形態(tài),以及分配圖形表示 (204'- 210cO的形心位置、大小、顏色和形態(tài)的人可讀的詞匯表示; 和存儲電路(106 ),配置為存儲該多個圖像和存儲該多個圖像的多 個人可讀的詞匯表示。
7. 如權(quán)利要求6所述的圖像管理系統(tǒng)(100),其中處理電路(104 ) 還配置為量化圖像以確定相應(yīng)的圖像中具有至少一個一致和共同的特 征的圖形表示,來由此確定多個圖形表示(204'- 210c')。
8. 如權(quán)利要求6或7所述的圖像管理系統(tǒng)(100 ),其中,處理電 路(104 )還配置為將形心的位置繪制在語素詞匯組織圖(2M)上,將 語素詞匯組織圖(220 )分成多個虛擬區(qū)域(224, 226 ),以及#^據(jù)虛 擬區(qū)域(224, 226 )和包含在虛擬區(qū)域(224, 226 )中的圖形表示(204'-210cO之間的關(guān)系,分配圖形表示(204'- 210cO的形態(tài)的人可讀的表 示。
9. 如權(quán)利要求6、 7或8所述的圖像管理系統(tǒng)(100 ),其中,處 理電路(104 )配置為響應(yīng)收到搜索查詢從存儲電路(106 )中檢索出至 少一個圖像,并且其中處理電路(104 )還配置為確定搜索查詢的一個 或多個特征,其中該一個或多個特征至少定義了期望圖像中的各圖形表 示(204'- 210c')的相對位置。
10. —種在其上包含一個或多個計算機程序的計算機可讀存儲介 質(zhì),所述一個或多個計算機程序?qū)崿F(xiàn)圖像管理的方法(300),所述一個 或多個計算機程序包括一 系列指令來獲得(304 )多個包含對象的圖像的圖像數(shù)據(jù);產(chǎn)生(320 )對象的圖形表示(204'- 210c。;確定(322 )圖形表示(204'- 210cO的形心和大?。粸樵摱鄠€圖像中的每一個確定(324 )形心的位置;根據(jù)標繪的形心位置,確定(328 )圖形表示(204'- 210c')的形態(tài),其中所述圖形表示(2 04' - 210cO的形態(tài)包括圖形表示(2 04' - 210cO相互之間的物理關(guān)系;為該多個圖像中的每一個分配(332 )圖形表示(204'- 210cO的形心位置、大小、顏色和形態(tài)的人可讀的詞匯表示;和將所分配的人可讀的詞匯表示存儲(308 )在數(shù)據(jù)庫(120)中,所述數(shù)據(jù)庫(120)可通過含有人可讀的詞匯的搜索查詢進行搜索。
全文摘要
在一種圖像管理的方法(300)中,獲得(304)包含對象的圖像的圖像數(shù)據(jù)。產(chǎn)生(320)對象的圖形表示(204′-210c′),確定(322)圖形表示(204′-210c′)的形心和大小。確定(324)形心的位置,以及確定(328)基于形心位置的圖形表示(204′-210c′)的形態(tài)。分配(332)圖形表示(204′-210c′)的形心位置、大小、顏色和形態(tài)的人可讀的詞匯表示,并存儲(308)在數(shù)據(jù)庫(120)中,所述數(shù)據(jù)庫可通過人可讀的詞匯進行搜索。
文檔編號G06F17/30GK101529422SQ200780038845
公開日2009年9月9日 申請日期2007年10月17日 優(yōu)先權(quán)日2006年10月17日
發(fā)明者P·吳, P·奧布拉多 申請人:惠普開發(fā)有限公司