專利名稱:自動(dòng)發(fā)現(xiàn)受歡迎的地標(biāo)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及數(shù)字圖像集合,更具體地涉及識(shí)別大型數(shù)字圖像集合中的受歡 迎的地標(biāo)(landmark)。
背景技術(shù):
隨著數(shù)字圖像的使用增加、數(shù)字存儲(chǔ)介質(zhì)的容量和可用性增大以及由諸如因特網(wǎng) 的數(shù)字傳輸介質(zhì)提供的互連性,數(shù)量日益增大的人群可訪問愈加大型的數(shù)字圖像庫。來自 遍及世界的各種位置的具有廣泛興趣的人拍攝各種主題的照片,并且使那些照片例如在因 特網(wǎng)上可用。例如,來自世界各地的各種地標(biāo)和旅游地點(diǎn)的數(shù)字照片可以由具有拍攝照片 的不同技能水平的人拍攝,并且被張貼(post)到web上。照片可以示出來自不同角度、以 及從相同或不同距離拍攝的相同地標(biāo)。為了利用包含在這些大型數(shù)字圖像庫中的信息,必要的是,對(duì)所述庫進(jìn)行組織。例 如,在諸如Google照片或Picasa的數(shù)字圖像網(wǎng)站,起始于高級(jí)菜單,人們可以向下鉆取 (drill down)至對(duì)其而言照片可用的詳細(xì)的主題收錄。替選地,人們可以能夠搜索具有數(shù) 字照片的一個(gè)或多個(gè)站點(diǎn)。例如,一些旅游信息網(wǎng)站下載了與已公布的受歡迎的旅游地點(diǎn) 列表相關(guān)聯(lián)的地標(biāo)的圖像。然而,沒有可以從這些大型集合自動(dòng)提取諸如最受歡迎的旅游目的地的信息的已 知系統(tǒng)。隨著大量新的照片被添加到這些數(shù)字圖像集合,可能不可行的是,用戶以會(huì)增加那 些數(shù)字圖像集合的有用性的完整和一致的方式人工標(biāo)記照片。因此所需要的是,可以自動(dòng) 識(shí)別并標(biāo)記大型數(shù)字圖像集合中的受歡迎的地標(biāo)的系統(tǒng)和方法。
發(fā)明內(nèi)容
在一個(gè)實(shí)施例中,本發(fā)明是一種用于填充(populate)以及更新地標(biāo)圖像數(shù)據(jù) 庫的方法,所述方法包括根據(jù)地理接近性對(duì)地理標(biāo)注(geo-tagged)圖像進(jìn)行地理聚類 (geo-cluster)以生成一個(gè)或多個(gè)地理集群(geo-cluster),以及根據(jù)圖像相似性對(duì)一個(gè) 或多個(gè)地理集群視覺聚類以生成一個(gè)或多個(gè)視覺集群。在另一個(gè)實(shí)施例中,本發(fā)明是一種用于從數(shù)字圖像識(shí)別地標(biāo)的系統(tǒng),其包括以下 組件地理標(biāo)注圖像數(shù)據(jù)庫;地標(biāo)數(shù)據(jù)庫;與所述地理標(biāo)注圖像數(shù)據(jù)庫通信的地理聚類模 塊,其中所述地理標(biāo)注圖像被聚組成一個(gè)或多個(gè)地理集群;以及與所述地理聚類模塊通信 的視覺聚類模塊,其中所述一個(gè)或多個(gè)地理集群被聚組成一個(gè)或多個(gè)視覺集群,以及其中 視覺集群數(shù)據(jù)被存儲(chǔ)在地標(biāo)數(shù)據(jù)庫中。在一個(gè)進(jìn)一步實(shí)施例中,本發(fā)明是一種增強(qiáng)用來檢索地標(biāo)圖像的用戶查詢的方 法,包括以下階段接收用戶查詢;識(shí)別用戶查詢中的一個(gè)或多個(gè)觸發(fā)詞;從地標(biāo)數(shù)據(jù)庫中 選擇與一個(gè)或多個(gè)觸發(fā)詞相對(duì)應(yīng)的一個(gè)或多個(gè)對(duì)應(yīng)的標(biāo)簽(tag);以及用一個(gè)或多個(gè)對(duì)應(yīng) 的標(biāo)簽增補(bǔ)用戶查詢,生成增補(bǔ)的用戶查詢。在又另一個(gè)實(shí)施例中,本發(fā)明是一種自動(dòng)標(biāo)注新的數(shù)字圖像的方法,包括以下階段將新的數(shù)字圖像與地標(biāo)圖像數(shù)據(jù)庫中的圖像進(jìn)行比較,其中地標(biāo)圖像數(shù)據(jù)庫包括一個(gè) 或多個(gè)地標(biāo)的圖像的視覺集群;以及基于所述視覺集群中的至少一個(gè)用至少一個(gè)標(biāo)簽標(biāo)注 新的數(shù)字圖像。
將參考本發(fā)明的實(shí)施例,這些實(shí)施例的示例可以在附圖中圖示。這些附圖意在說 明而非限制。盡管在這些實(shí)施例的語境中一般地描述了本發(fā)明,但是應(yīng)當(dāng)理解的是,這并不 意在將本發(fā)明的范圍限制在這些特定實(shí)施例。圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施例的用來填充和更新地標(biāo)圖像數(shù)據(jù)庫的系統(tǒng)。圖2示出了實(shí)現(xiàn)本發(fā)明的一個(gè)實(shí)施例的方法的高層級(jí)流程圖。圖3是示出了在一個(gè)實(shí)施例中的圖2中所示的地理聚類階段的更詳細(xì)操作的流程 圖。圖4是示出了在一個(gè)實(shí)施例中的圖3中所示的地理集群創(chuàng)建階段的更詳細(xì)操作的 流程圖。圖5是示出了在一個(gè)實(shí)施例中的圖2中所示的視覺聚類階段的更詳細(xì)操作的流程 圖。圖6是在本發(fā)明的一個(gè)實(shí)施例中使用的圖形用戶接口。圖7是根據(jù)本發(fā)明的一個(gè)實(shí)施例的更新地標(biāo)圖像數(shù)據(jù)庫的方法。圖8是根據(jù)本發(fā)明的一個(gè)實(shí)施例的使用已存儲(chǔ)的地標(biāo)信息來增強(qiáng)用戶查詢的方法。圖9是根據(jù)本發(fā)明的一個(gè)實(shí)施例的用來自動(dòng)注釋包含地標(biāo)的圖像的方法。圖10是根據(jù)本發(fā)明的一個(gè)實(shí)施例的示出了關(guān)于根據(jù)用戶指定的選擇標(biāo)準(zhǔn)檢索的 地標(biāo)和對(duì)應(yīng)的集群的信息的示例用戶界面屏。圖11是根據(jù)本發(fā)明的一個(gè)實(shí)施例圖示了用來維護(hù)集群和地標(biāo)的方法的操作的流 程圖。圖12是根據(jù)本發(fā)明的一個(gè)實(shí)施例的示出了有關(guān)一個(gè)視覺集群的細(xì)節(jié)的示例用戶
界面屏。圖13是根據(jù)本發(fā)明的一個(gè)實(shí)施例圖示了用來維護(hù)視覺集群的方法的操作的流程 圖。
具體實(shí)施例方式雖然在此參考用于特定應(yīng)用的說明性實(shí)施例描述了本發(fā)明,但是應(yīng)當(dāng)理解的是, 本發(fā)明不限于此。本領(lǐng)域的技術(shù)人員使用在此的教導(dǎo)將認(rèn)識(shí)到額外修改、應(yīng)用和在本發(fā)明 的范圍以及本發(fā)明在其中將是大量利用的額外領(lǐng)域內(nèi)的實(shí)施例。本發(fā)明包括用于自動(dòng)識(shí)別并分類數(shù)字圖像中的對(duì)象的方法和系統(tǒng)。例如,本發(fā)明 的實(shí)施例可以基于在因特網(wǎng)上可訪問的數(shù)字圖像集合來識(shí)別、分類以及排序最受歡迎的旅 游地標(biāo)。本發(fā)明的方法和系統(tǒng)可以使得能夠?qū)ψ钍軞g迎的旅游位置的最新列表和圖像集合 的有效維護(hù),其中旅游位置的受歡迎度可以由該位置被用戶張貼到因特網(wǎng)上的圖像的數(shù)量 來估算。
在圖1中示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的受歡迎的地標(biāo)識(shí)別系統(tǒng)100。處理模 塊101包括地理聚類模塊102和視覺聚類模塊103。視覺聚類模塊103還可以包括受歡迎 度模塊104。在下面描述了模塊102-104的處理功能關(guān)于圖3-4描述了地理聚類模塊102 ; 關(guān)于圖5描述了視覺聚類模塊??梢栽谲浖?、硬件或以上的組合中實(shí)現(xiàn)模塊102-104的處理 功能。例如,可以將模塊102-104完全實(shí)現(xiàn)為軟件模塊,或可以使用諸如現(xiàn)場(chǎng)可編程門陣列 (FPGA)的硬件來實(shí)現(xiàn)地理聚類模塊102的一些功能。本領(lǐng)域技術(shù)人員將理解的是,處理模 塊101可以包括幫助本發(fā)明的功能的額外組件和模塊。例如,處理模塊101可以包括一個(gè) 或多個(gè)處理器、存儲(chǔ)器、存儲(chǔ)設(shè)備、用于連接到包括圖形用戶接口 130、地理標(biāo)注圖像庫110 和地標(biāo)數(shù)據(jù)庫系統(tǒng)120的外部設(shè)備的模塊。地標(biāo)數(shù)據(jù)庫系統(tǒng)120可以包括地標(biāo)數(shù)據(jù)庫121和相關(guān)聯(lián)的索引122。地標(biāo)數(shù)據(jù)庫 系統(tǒng)120可以與模塊101共同位于同一處理平臺(tái)或可以分立定位。地標(biāo)數(shù)據(jù)庫121可以包 括系統(tǒng)100所識(shí)別的地標(biāo)的集合。地標(biāo)數(shù)據(jù)庫121中的為每一個(gè)地標(biāo)存儲(chǔ)的信息可以包括 地標(biāo)的圖像或圖像列表、圖像和特征模板以及來自圖像的包括地理坐標(biāo)、時(shí)間和用戶信息 的元數(shù)據(jù)。地標(biāo)數(shù)據(jù)庫121還可以包含處理模塊101中的處理所需的視覺聚類和地理聚類 數(shù)據(jù)。索引122可以包括按照例如而非限制受歡迎度、地理區(qū)域、時(shí)間或如感興趣的主題的 其它用戶定義的標(biāo)準(zhǔn)中的一個(gè)或多個(gè)的順序?qū)⒌貥?biāo)安排在地標(biāo)數(shù)據(jù)庫121中的索引。鏈路 141可以是包括例如而非限制,外圍組件互連(PCI)總線、IEEE 1394火線接口、以太網(wǎng)接口 或IEEE 802. 11接口的互連機(jī)制中的任何一個(gè)或組合。用戶接口 130允許用戶或其它外部實(shí)體與處理系統(tǒng)101、地標(biāo)數(shù)據(jù)庫系統(tǒng)120以及 地理標(biāo)注圖像庫110交互??梢允褂冒ɡ缍窍拗疲琍CI總線、IEEE 1394火線接口、以 太網(wǎng)接口或IEEE 802. 11接口的互連機(jī)制中的任何一個(gè)或組合將用戶接口 130連接到系統(tǒng) 100的其它實(shí)體。可以將圖形用戶接口、web接口以及應(yīng)用編程接口中的一個(gè)或多個(gè)包括在 用戶接口 130中。地理標(biāo)注圖像庫110可以包括跨一個(gè)或多個(gè)網(wǎng)絡(luò)分布的一個(gè)或多個(gè)數(shù)字地理標(biāo) 注圖像庫。本領(lǐng)域技術(shù)人員將理解的是,還可以將庫110實(shí)現(xiàn)為指向遍及網(wǎng)絡(luò)分布的可訪 問的地理標(biāo)注圖像集合的鏈接的集合。還可以通過制作在分布式位置可用的全部或部分圖 像的副本(例如,下載并存儲(chǔ)在本地存儲(chǔ)中)來實(shí)現(xiàn)庫110。在一些實(shí)施例中,地理標(biāo)注圖 像庫的一部分可以存在于與處理系統(tǒng)101和/或地標(biāo)數(shù)據(jù)庫系統(tǒng)120相同的處理平臺(tái)上。 構(gòu)成地理標(biāo)注圖像庫110的不同地理標(biāo)注圖像集合可以通過因特網(wǎng)、內(nèi)聯(lián)網(wǎng)或其它形式的 互聯(lián)網(wǎng)絡(luò)互連。處理系統(tǒng)101將從地理標(biāo)注圖像庫可用的圖像作為輸入。在一些實(shí)施例 中,可以在將來自分布式圖像集合的圖像存儲(chǔ)在庫110中時(shí)或輸入到處理模塊101之前將 其轉(zhuǎn)換為諸如GIF的標(biāo)準(zhǔn)圖形格式。實(shí)施例還可以要求其它形式的標(biāo)準(zhǔn)化,諸如降低或增 強(qiáng)分辨率,或在下述之前執(zhí)行對(duì)圖像的處理將圖像存儲(chǔ)在庫110時(shí)或輸入到處理模塊101 之前??梢酝ㄟ^鏈路142和143使用包括例如而非限制,PCI總線、IEEE 1394火線接口、以 太網(wǎng)接口或IEEE 802. 11接口的互連機(jī)制中的任何一個(gè)或組合將庫110連接到系統(tǒng)的其它 組件。圖2是使用來自圖像庫110的地理編碼圖像來創(chuàng)建或更新地標(biāo)數(shù)據(jù)庫121的本發(fā) 明的一個(gè)實(shí)施例的過程200的流程圖。過程200包括兩個(gè)主要處理階段地理聚類階段201 和視覺聚類階段202。給定地理編碼數(shù)字圖像集合,例如大型的各種旅游目的地?cái)?shù)字圖像集合,地理聚類階段201可以基于每一個(gè)照片的地理位置代碼將可用圖像分成分立的組。地 理聚類階段使用在每一個(gè)照片中可用的地理編碼以將圖像相對(duì)快速地分隔成不同的組或 地理集群??梢岳妙A(yù)配置的參數(shù),包括在其內(nèi)的圖像被認(rèn)為屬于同一地理集群的默認(rèn)半 徑。然后可以將在地理聚類階段201生成的地理集群輸入到視覺聚類階段202。在視覺聚 類階段202,系統(tǒng)試圖通過基于圖像相似性將每一個(gè)地理集群中的圖像再分成同一對(duì)象或 地標(biāo)的圖像集群(即,視覺集群)來分隔每一個(gè)地理集群中的圖像。注意到,總的來說,至 少部分由于對(duì)照片集合的地理聚類是比較已包括在每一個(gè)照片中的地理位置信息,所以對(duì) 照片集合的地理聚類在計(jì)算上比對(duì)同一圖像集合的視覺聚類花費(fèi)更少。例如,相比之下,視 覺聚類202可以包括執(zhí)行對(duì)象識(shí)別、特征向量生成以及對(duì)圖像的每一個(gè)中的每一個(gè)可識(shí)別 的對(duì)象的比較,然后比較不同圖像的特征向量。在一些實(shí)施例中,可以將包括相關(guān)聯(lián)的圖像和/或?qū)ο嚓P(guān)聯(lián)的圖像的引用的視覺 集群信息存儲(chǔ)在諸如地標(biāo)數(shù)據(jù)庫121的數(shù)據(jù)庫中。存儲(chǔ)在地標(biāo)數(shù)據(jù)庫121中的圖像和/或 虛擬圖像可以使用允許基于包括受歡迎度的可配置的標(biāo)準(zhǔn)訪問已存儲(chǔ)的視覺集群的一個(gè) 或多個(gè)索引122來訪問。例如,已存儲(chǔ)的視覺集群可以由更新索引122以允許按照向每一 個(gè)集群提交了圖像的獨(dú)特(unique)用戶的數(shù)量的順序訪問的受歡迎度模塊104處理。在一些實(shí)施例中,所選擇的視覺集群可以經(jīng)受用戶查閱和/或可以由計(jì)算機(jī)程序 進(jìn)一步處理。例如,可選地,滿足指定標(biāo)準(zhǔn),諸如具有少于預(yù)定數(shù)量的圖像,的視覺集群可以 經(jīng)受用戶查閱。用戶可以通過包括以下的行為來修改一個(gè)或多個(gè)視覺集群刪除圖像、添 加圖像或?qū)D像重新分配到另一個(gè)集群。用戶還可以指定新的標(biāo)簽信息或修改現(xiàn)存標(biāo)簽信 息。本領(lǐng)域技術(shù)人員將理解的是,根據(jù)從用戶或計(jì)算機(jī)程序接收的外部數(shù)據(jù)來處理視覺集 群可以要求系統(tǒng)執(zhí)行額外的功能以維護(hù)存儲(chǔ)在數(shù)據(jù)庫系統(tǒng)120中的地理集群和視覺集群 信息的一致性。圖3示出了兩個(gè)處理階段,創(chuàng)建地理集群301和驗(yàn)證地理集群302,在本發(fā)明的一 些實(shí)施例中所述階段包括在地理聚類階段201中。創(chuàng)建地理集群301可以包括使用一個(gè)或 多個(gè)預(yù)定義半徑參數(shù)來基于兩個(gè)圖像上的地理位置代碼確定一個(gè)圖像是否在另一個(gè)圖像 的地理半徑內(nèi)。注意到,地理聚類算法可能需要考慮實(shí)際指示相機(jī)的位置而不是對(duì)象或地 標(biāo)的位置的地理位置編碼。對(duì)照片的地理標(biāo)注可以通過若干裝置來實(shí)現(xiàn),所述裝置包括具 有GPS能力的數(shù)碼相機(jī)、連同匹配軟件的與相機(jī)分離的GPS設(shè)備、使用諸如Google地球的 工具或?qū)φ掌目山粨Q圖像格式(EXIF)標(biāo)簽的人工編輯。地理標(biāo)注的方法在本領(lǐng)域一般 已知,因此在本公開中沒有描述。并且,盡管默認(rèn)的地理集群半徑可以適于感興趣的大部分 地標(biāo)或?qū)ο?,但是一些地?biāo)可能需要不同的集群半徑參數(shù)以產(chǎn)生對(duì)圖像的最有效的聚組。 在階段301,基于地理接近性來生成一個(gè)或多個(gè)圖像的集群。在地理集群驗(yàn)證階段302,可以基于所選擇的標(biāo)準(zhǔn)來驗(yàn)證在創(chuàng)建地理聚類階段 301生成的地理集群中的每一個(gè)。例如,在本發(fā)明的一個(gè)實(shí)施例中,目標(biāo)可以是確保選擇用 于進(jìn)一步處理的每一個(gè)地理集群合理地包括旅游地標(biāo),即受歡迎的地標(biāo)。相應(yīng)地,驗(yàn)證標(biāo)準(zhǔn) 可以是僅進(jìn)一步處理具有來自比預(yù)定閾值多的獨(dú)特用戶的圖像的地理集群。諸如具有至少 預(yù)定數(shù)量的提交了同一地標(biāo)的圖像的獨(dú)特用戶的驗(yàn)證標(biāo)準(zhǔn)可能濾除沒有什么受歡迎吸引 力的其它建筑物、構(gòu)筑物和名勝古跡、公園、山巒、風(fēng)景等的圖像。例如,張貼自己的沒有太 大受歡迎吸引力的新近建造的房屋的圖片的熱情房主不太可能張貼他的房屋的若干數(shù)量的圖像,其中該圖像的數(shù)量與由因特網(wǎng)數(shù)字圖像集合站點(diǎn)的所有用戶張貼的任何受歡迎的 地標(biāo)的圖像的數(shù)量相比較是可觀的。在一個(gè)實(shí)施例中,可以每季節(jié)和/或每地理區(qū)域設(shè)置 閾值。在其它實(shí)施例中,可以通過針對(duì)獨(dú)特用戶的分布首先分析地理集群來導(dǎo)出閾值。在 又其它實(shí)施例中,可以為每一個(gè)類型的地標(biāo)設(shè)置閾值。對(duì)用于設(shè)置閾值的方法的前述描述 僅用于說明的目的。本領(lǐng)域技術(shù)人員將理解的是,存在許多其它方法,通過其可以根據(jù)每一 次使用的焦點(diǎn)來驗(yàn)證地理集群。圖4圖示了在本發(fā)明的一個(gè)實(shí)施例中的地理聚類階段中的處理的進(jìn)一步細(xì)節(jié) 301。對(duì)于每一個(gè)地理標(biāo)注圖像,可以重復(fù)階段401-405。對(duì)于尚不屬于集群的每一個(gè)地理 標(biāo)注圖像,在階段401確定從圖像到每一個(gè)集群的距離。距離確定可以基于圖像的中心的 地理坐標(biāo)。例如,在一個(gè)實(shí)施例中,距離可以是從圖像的中心到集群的移動(dòng)平均圖像中心, 其中每當(dāng)新的圖像被添加到集群時(shí)移動(dòng)平均被更新以及移動(dòng)平均可以被計(jì)算為集群中的 圖像中的每一個(gè)的中心的平均。在階段402,作出關(guān)于圖像是否與現(xiàn)存集群匹配的決定。決 定可以基于落入距集群的中心地理坐標(biāo)的預(yù)定半徑所定義的區(qū)域內(nèi)的圖像的地理坐標(biāo)。預(yù) 定半徑可以例如基于每地理區(qū)域基礎(chǔ)、基于對(duì)每一個(gè)集群中的圖像的中心坐標(biāo)的分析或基 于地標(biāo)的類型。如果認(rèn)為圖像是對(duì)現(xiàn)存集群的匹配,則在階段403將圖像添加到該集群。否 則,在階段404創(chuàng)建新的集群。將圖像添加到現(xiàn)存集群或創(chuàng)建新的集群,可能需要計(jì)算一些 集群參數(shù),諸如集群的地理中心坐標(biāo)。當(dāng)過程301為輸入的地理標(biāo)注圖像集而完成后,地理 集群集應(yīng)當(dāng)可用。可以將地理集群與相關(guān)聯(lián)的信息一起存儲(chǔ)為地理標(biāo)注圖像庫110或處理 模塊101可訪問的另一個(gè)存儲(chǔ)設(shè)備的一部分。與每一個(gè)圖像或地理集群相關(guān)聯(lián)的信息可以 包括地理位置和描述圖像的其它元數(shù)據(jù)、如果可用的話,分配給圖像的文本標(biāo)簽以及基于 圖像的地理位置信息的額外位置信息(即,指定國(guó)家和城市的文本標(biāo)記)。圖5是在本發(fā)明的一個(gè)實(shí)施例中的視覺聚類階段202的詳細(xì)視圖。對(duì)于在階段201 生成的每一個(gè)地理集群,重復(fù)階段501-505。到視覺聚類階段202的輸入是在階段201產(chǎn)生 的地理集群集。來自視覺聚類階段202的輸出是有關(guān)輸入的地理集群中的每一個(gè)的一個(gè)或 多個(gè)視覺集群。每一個(gè)視覺集群應(yīng)當(dāng)包括具有同一例如受歡迎的旅游地標(biāo)的圖像。視覺集 群集可以收集以各種相機(jī)角度、相機(jī)距離和光線條件描繪特定地標(biāo)的所有圖像。該視覺集 群集是否包含具有特定地標(biāo)的所有圖像并且只有那些圖像,是視覺聚類方法的有效性和參 數(shù)的函數(shù)。無論視覺集群集是否具有包含特定地標(biāo)的所有圖像并且只有那些圖像,本公開 的教導(dǎo)都適用。對(duì)于地理集群,階段501創(chuàng)建集群中的圖像的索引。索引可以是集群中的圖 像的列表,其具有包括原始圖像或?qū)υ紙D像的引用、從原始圖像導(dǎo)出的圖像(例如,原始 圖像的較低分辨率版本)、一個(gè)或多個(gè)圖像模板和特征向量、用戶標(biāo)識(shí)、地理標(biāo)注、時(shí)間信息 以及已分配的任何標(biāo)簽的數(shù)據(jù)元素。在階段502,將地理集群中的每一個(gè)圖像與對(duì)應(yīng)的索引 進(jìn)行匹配。匹配過程502對(duì)于地理集群中的每一個(gè)圖像,生成對(duì)匹配圖像的引用。在匹配過 程502之后,索引可以對(duì)于每一個(gè)圖像,包含對(duì)該地理集群內(nèi)的所有其它匹配圖像的引用。 階段502中的匹配可以包括每一個(gè)圖像內(nèi)的對(duì)象識(shí)別以識(shí)別諸如地標(biāo)的感興趣的對(duì)象、生 成每一個(gè)所識(shí)別的對(duì)象的特征向量,然后比較特征向量以獲取匹配信息。比較可以基于分 配給包括在特征向量中的特征的可配置的數(shù)字分值以及將兩個(gè)圖像分類成匹配對(duì)的可配 置的數(shù)字閾值。圖像中的對(duì)象識(shí)別和生成特征向量的方法在本領(lǐng)域眾所周知。例如,在希 臘科孚島的 hternational Conference on Computer Vision (1999 年 9 月)第 1150-1157頁,David G.Lowe 的〃 Object recognition from local scale-invariant features “中 描述了圖像中的對(duì)象識(shí)別的方法。在階段503,基于在階段501-502生成的索引和匹配,生成匹配區(qū)域圖。在匹配區(qū) 域圖中,節(jié)點(diǎn)是圖像,以及在節(jié)點(diǎn)之間的鏈接指示圖像之間的關(guān)系。例如,根據(jù)階段502匹 配的圖像對(duì)會(huì)具有在它們之間的鏈接。在階段504,使用匹配區(qū)域圖來生成視覺集群。簡(jiǎn) 而言之,視覺集群是在基于階段504中的額外處理刪去弱鏈接后匹配區(qū)域圖中的連接的子 樹。弱鏈接可以是在圖像基于圖像或特征模板來匹配的情況下帶有小于閾值數(shù)量的匹配特 征的鏈接。一些實(shí)施例可以將沒有匹配指定特征集的鏈接認(rèn)作為弱鏈接。如果可用的話, 集群中的圖像之間的文本標(biāo)記協(xié)議可以是另一個(gè)標(biāo)準(zhǔn)。并且,可以在刪去弱鏈接時(shí)考慮集 群中的圖像的數(shù)量,以最小化帶有非常少圖像的集群。本領(lǐng)域技術(shù)人員將理解的是,除在此 描述的那些外,刪去弱鏈接可以基于多種標(biāo)準(zhǔn)。最后,在階段505保存視覺集群數(shù)據(jù)??梢?將視覺集群保存到地標(biāo)數(shù)據(jù)庫121。連同每一個(gè)視覺集群的圖像和對(duì)象信息外,可以保存其 它相關(guān)數(shù)據(jù),包括但不限于描述集群的一個(gè)或多個(gè)文本標(biāo)記以及特別代表集群的一個(gè)或多 個(gè)圖像??梢岳缤ㄟ^合并視覺集群的每一個(gè)構(gòu)成圖像的文本標(biāo)記來生成描述該視覺集群 的文本標(biāo)記。特別代表視覺集群的一個(gè)或多個(gè)圖像對(duì)于在例如受歡迎的旅游地標(biāo)的索引中 顯示可以是有用的。在本發(fā)明的另一個(gè)實(shí)施例中,實(shí)現(xiàn)了對(duì)生成的視覺集群的用戶驗(yàn)證。圖6圖示了 圖形用戶接口 601,其可以向用戶顯示每一個(gè)視覺集群中的圖像,以及向用戶提供人工編輯 每一個(gè)集群的各個(gè)方面的能力。例如,圖形用戶接口可以檢索存儲(chǔ)在地標(biāo)數(shù)據(jù)庫621中的 視覺集群,以及將編輯后的視覺集群寫回到同一數(shù)據(jù)庫621。圖形用戶接口 601可以包括集 群標(biāo)記模塊602,其允許用戶將新的文本標(biāo)記分配給每一個(gè)集群和/或圖像和/或修改每 一個(gè)集群和/或圖像的當(dāng)前分配的文本標(biāo)記。例如,集群標(biāo)記模塊602可以顯示每一個(gè)集 群和它的當(dāng)前文本標(biāo)記,以及分配給集群中的個(gè)體圖像的標(biāo)記,以及允許用戶修改分配給 集群的文本標(biāo)記。集群合并模塊603可以允許用戶合并或拆分集群。對(duì)集群的這樣的人工 合并或拆分可以是用戶在查看了一個(gè)或多個(gè)集群中的圖像后所期望的。集群編輯模塊604 可以允許用戶從集群添加或刪除個(gè)體圖像。模塊604在人工去除集群的對(duì)應(yīng)的地標(biāo)的低劣 表示時(shí)以及對(duì)于人工添加集群的對(duì)應(yīng)的地標(biāo)的一個(gè)或多個(gè)新的圖像可以是有用的。除上述 外,本發(fā)明的實(shí)施例可以在用戶與系統(tǒng)100交互時(shí)向用戶提供各種選項(xiàng)。返回到圖1,在一些實(shí)施例中,受歡迎度模塊104可以計(jì)算每一個(gè)視覺集群的受歡 迎度分值,并且相應(yīng)地對(duì)視覺集群進(jìn)行排名。用于訪問地標(biāo)數(shù)據(jù)庫121的索引122中的一 個(gè)或多個(gè)可以基于受歡迎度模塊所計(jì)算的受歡迎度排名。集群的受歡迎度分值可以基于以 下中的一個(gè)或多個(gè)集群中的圖像的總數(shù)、向集群貢獻(xiàn)了圖像的獨(dú)特用戶的數(shù)量、在視覺集 群的中心的某一預(yù)定半徑內(nèi)的圖像或帶有獨(dú)特用戶標(biāo)識(shí)符的圖像的數(shù)量。應(yīng)當(dāng)理解的是, 還可以使用沒有在上面描述的其它方法來計(jì)算受歡迎度分值。在本發(fā)明的另一個(gè)實(shí)施例中,逐步生成地標(biāo)數(shù)據(jù)庫。圖7是可以用于逐步生成地 標(biāo)數(shù)據(jù)庫的示例性過程。階段701中通過其它裝置將新近可用的地理標(biāo)注圖像下載到本地 存儲(chǔ)或使新近可用的地理標(biāo)注圖像對(duì)處理模塊101可用。在階段702,在包括新的地理標(biāo) 注圖像的所有可用的地理標(biāo)注圖像上實(shí)現(xiàn)地理聚類。在上面關(guān)于圖3-4描述了地理聚類。 在階段703,由階段702產(chǎn)生的地理集群經(jīng)受視覺聚類。在上面關(guān)于圖5描述了視覺聚類。完成了視覺聚類后,在階段704,一些實(shí)施例可以傳播用戶發(fā)起的對(duì)先前存儲(chǔ)在地標(biāo)數(shù)據(jù)庫 中的視覺聚類中的先前聚類的部分或全部改變。例如,可以將用戶分配或修改的標(biāo)簽傳播 給新的聚類??蛇x地,在階段705,新的視覺聚類可以經(jīng)受用戶驗(yàn)證和人工編輯。在上面關(guān) 于圖6描述了若干類型的用戶交互。具有地標(biāo)數(shù)據(jù)庫121的系統(tǒng)100可以使能許多應(yīng)用。例如,地標(biāo)數(shù)據(jù)庫121可以 用于增補(bǔ)用戶查詢以使查詢更聚焦。圖8圖示了一個(gè)實(shí)施例中的可以用于增補(bǔ)用戶查詢的 過程。在階段802可以為預(yù)定觸發(fā)詞集解析所接收的用戶查詢。例如,諸如“巴黎”的城市 名可以用于觸發(fā)城市中的地標(biāo),反之亦然。識(shí)別了查詢中的觸發(fā)詞后,在階段803可以為那 些觸發(fā)詞搜索地標(biāo)數(shù)據(jù)庫以識(shí)別相關(guān)聯(lián)的標(biāo)簽詞。繼續(xù)前面的示例,“巴黎”的觸發(fā)詞可以 促使搜索發(fā)現(xiàn)“埃菲爾鐵塔”。在階段804,然后將所識(shí)別的相關(guān)聯(lián)的標(biāo)簽詞用于增補(bǔ)查詢 字符串。這樣的增補(bǔ)后的查詢字符串對(duì)于找到更廣泛的相關(guān)信息可以是有用的。在圖9中示出了在本發(fā)明的一個(gè)實(shí)施例中的另一個(gè)應(yīng)用。過程900可以用于對(duì)數(shù) 字圖像的在線自動(dòng)標(biāo)注。例如,在階段901,將新的數(shù)字圖像與地標(biāo)圖像數(shù)據(jù)庫中的圖像進(jìn) 行比較。如果找到一個(gè)或多個(gè)匹配的圖像,則在階段902基于所有匹配的圖像生成標(biāo)簽。在 階段903,用新近生成的標(biāo)簽標(biāo)注新的圖像。圖10圖示了在本發(fā)明的一個(gè)實(shí)施例中的用戶接口 1000,其中根據(jù)用戶輸入選擇 了地標(biāo)集,并且顯示了關(guān)于每一個(gè)所選擇的地標(biāo)的視覺集群的細(xì)節(jié)??梢栽谥T如1010的每 一個(gè)區(qū)域內(nèi)顯示根據(jù)用戶指定的標(biāo)準(zhǔn)來選擇的地標(biāo)。每一個(gè)所選擇的地標(biāo)還可以具有用于 接收用戶輸入的區(qū)域,例如復(fù)選框1040。對(duì)于每一個(gè)所顯示的地標(biāo),可以顯示視覺集群的摘 要列表。視覺集群的摘要列表可以被顯示,使得其被清楚地示出為屬于特定所顯示的地標(biāo), 例如,用于第一所顯示的地標(biāo)的視覺集群的摘要列表可以包含在與第一所顯示的地標(biāo)相對(duì) 應(yīng)的顯示區(qū)域1010內(nèi)。用于所顯示的地標(biāo)的視覺集群的摘要列表的每一個(gè)條目1020可以 具有對(duì)應(yīng)的位置以接收特定于該集群的用戶輸入,諸如對(duì)應(yīng)于在1020中表示的視覺集群 的復(fù)選框1030。每一個(gè)條目1020可以包括關(guān)于集群的描述信息1022和用來檢索進(jìn)一步細(xì) 節(jié)的鏈接1021。例如,關(guān)于每一個(gè)集群的描述信息可以包括圖像的數(shù)量、就向集群貢獻(xiàn)圖像 的獨(dú)特用戶或作者的數(shù)量而言的受歡迎度、關(guān)于集群是否被人工修改或驗(yàn)證過的信息以及 諸如鍵的任何訪問信息。鏈接1021包括用來檢索所選擇的集群的圖像和個(gè)體圖像相關(guān)數(shù) 據(jù)的鏈接方法,諸如用戶可導(dǎo)航的超鏈接。圖11是示出了本發(fā)明的一個(gè)實(shí)施例中的與接口 1000有關(guān)的處理的流程圖。在階 段1110,用戶指定一個(gè)或多個(gè)選擇標(biāo)準(zhǔn),諸如國(guó)家、城市、地區(qū)和/或其它關(guān)鍵詞。包括關(guān) 鍵詞的用戶指定的信息可以用來基于分配給圖像的標(biāo)簽搜索圖像。用戶還可以指定其它檢 索標(biāo)準(zhǔn),諸如所顯示的地標(biāo)的最低受歡迎程度以及具有用戶所提交的最小數(shù)量的圖像的地 標(biāo)。例如,用戶可能希望查看埃及的至少10個(gè)獨(dú)立用戶為其提交過圖像的地標(biāo)。用戶還可 以指定只有具有至少指定數(shù)量的圖像的地標(biāo)才應(yīng)當(dāng)被顯示。對(duì)于滿足用戶指定的選擇標(biāo)準(zhǔn) 的每一個(gè)地標(biāo),重復(fù)階段1112至1120。在階段1112,找到滿足用戶指定的選擇標(biāo)準(zhǔn)的一個(gè) 或多個(gè)地標(biāo)。對(duì)于每一個(gè)所選擇的地標(biāo),重復(fù)階段1114至1116以顯示具有所選擇的地標(biāo) 的視覺集群。在階段1114,選擇視覺集群,以及在階段1116,顯示描述1020視覺集群的信 息。例如,對(duì)于每一個(gè)視覺集群,可以顯示圖像的數(shù)量、圖像的獨(dú)特用戶標(biāo)識(shí)符或作者的數(shù) 量、用來訪問集群中的圖像的鏈接、其它訪問信息等。對(duì)于在階段1116顯示的每一個(gè)視覺集群,可以顯示諸如復(fù)選框1030的用戶輸入圖形并且使所述用戶輸入圖形能夠用于用戶 輸入。在階段1118,作出關(guān)于是否存在待顯示的與所選擇的地標(biāo)相對(duì)應(yīng)的更多視覺集群 的確定。如果對(duì)于所選擇的地標(biāo),沒有更多視覺集群待被顯示,則在階段1120,顯示關(guān)于地 標(biāo)的信息。例如,可以顯示諸如地標(biāo)的名稱和位置、受歡迎度、圖像的數(shù)量等的信息。對(duì)于 在階段1120中顯示的每一個(gè)地標(biāo),還可以顯示對(duì)應(yīng)的用戶輸入圖形,并且使所述用戶輸入 圖形能夠用于用戶輸入。例如,在圖10中,復(fù)選框1040可以接收與在區(qū)域1010中顯示的 地標(biāo)相對(duì)應(yīng)的用戶輸入。在階段1122,作出關(guān)于是否存在待被顯示的額外地標(biāo)的確定。如 果已顯示所有滿足用戶指定的選擇標(biāo)準(zhǔn)的地標(biāo),則在階段1124,接收與視覺集群相對(duì)應(yīng)的 用戶輸入。與視覺集群相對(duì)應(yīng)的用戶輸入例如可以指示合并一個(gè)或多個(gè)集群或使一個(gè)或多 個(gè)集群與所選擇的地標(biāo)去關(guān)聯(lián)。在階段1126,相應(yīng)地處理視覺集群。在階段1128,接收與 每一個(gè)地標(biāo)相對(duì)應(yīng)的用戶輸入。與每一個(gè)地標(biāo)相對(duì)應(yīng)的用戶輸入例如可以指示合并和/或 刪除一個(gè)或多個(gè)地標(biāo)。圖12示出了在本發(fā)明的一個(gè)實(shí)施例中的在其中用戶可以查看關(guān)于所選擇的視覺 集群的信息的用戶接口 1200。接口 1200可以包括在其中顯示了代表所選擇的視覺集群的 一個(gè)或多個(gè)示例圖像的區(qū)域1210、在其中列出了包括視覺集群中的每一個(gè)圖像的細(xì)節(jié)的描 述數(shù)據(jù)元素組的區(qū)域1220以及在其中顯示了所選擇的圖像的區(qū)域1230。區(qū)域1220對(duì)于所 選擇的集群中的每一個(gè)圖像,可以包括描述信息12M和諸如復(fù)選框1222的對(duì)應(yīng)的用戶輸 入圖形。描述信息12M可以包括,例如而非限制,用來檢索對(duì)應(yīng)的圖像的鏈接、有關(guān)圖像的 數(shù)據(jù)和時(shí)間信息、圖像的作者信息以及標(biāo)簽信息。區(qū)域1230可以顯示從在1220中顯示的 列表檢索的圖像。在區(qū)域1230中顯示的圖像可以例如而非限制,使用戶能夠查看所顯示的 圖像中的感興趣的區(qū)1232。例如,探明任何圖像中的感興趣的區(qū)的能力可以允許用戶更好 地確定特定圖像處于當(dāng)前集群中的合適性。圖13是示出了在一個(gè)實(shí)施例中的與接口 1200有關(guān)的處理的流程圖。在階段1310, 接收選擇視覺集群的用戶輸入。在階段1312,例如在區(qū)域1210中選擇并顯示代表所選擇的 視覺集群的一個(gè)或多個(gè)圖像。在階段1314,例如在區(qū)域1220中顯示有關(guān)所選擇的集群中的 每一個(gè)圖像的信息。信息關(guān)于每一個(gè)各種數(shù)據(jù)元素列出,所述各種數(shù)據(jù)元素包括例如而非 限制,用來檢索對(duì)應(yīng)的圖像的鏈接、有關(guān)圖像的數(shù)據(jù)和時(shí)間信息、圖像的作者信息以及標(biāo)簽 信息。還可以為每一個(gè)列出的圖像顯示諸如復(fù)選框1222的用戶輸入圖形,并且使所述用戶 輸入圖像能夠用于用戶輸入。在階段1316,接收用戶輸入。在階段1318,根據(jù)所接收的用 戶輸入來處理視覺集群。例如,可以從所選擇的集群刪除圖像、可以改變一些標(biāo)簽信息等。在本發(fā)明的一個(gè)實(shí)施例中,使用眾所周知的計(jì)算機(jī)來實(shí)現(xiàn)在此描述的本發(fā)明的 系統(tǒng)和組件。這樣的計(jì)算機(jī)可以是能夠執(zhí)行在此描述的功能的任何商用和眾所周知的計(jì) 算機(jī),諸如可從 hternational Business Machines (國(guó)際商業(yè)機(jī)器)、Apple、Silicon Graphics 公司、Sun、HP、Dell、Compaq、Digital、Cray 等獲得的計(jì)算機(jī)。包括具有存儲(chǔ)在其中的控制邏輯(軟件)的計(jì)算機(jī)可用或可讀介質(zhì)的任何裝置或 制成品在此被稱為計(jì)算機(jī)程序產(chǎn)品或程序存儲(chǔ)設(shè)備。這包括但不限于計(jì)算機(jī)、主存儲(chǔ)器、硬 盤或可移動(dòng)的存儲(chǔ)單元。具有存儲(chǔ)在其中的、在由一個(gè)或多個(gè)數(shù)據(jù)處理設(shè)備執(zhí)行時(shí)促使這 樣的數(shù)據(jù)處理設(shè)備如在此所描述的那樣操作的控制邏輯的這樣的計(jì)算機(jī)程序產(chǎn)品表示本發(fā)明的實(shí)施例。應(yīng)當(dāng)理解,具體實(shí)施方式
部分而不是發(fā)明內(nèi)容和摘要部分意在用于解釋權(quán)利要 求。發(fā)明內(nèi)容和摘要部分可以闡明發(fā)明人考慮的本發(fā)明的一個(gè)或多個(gè)而非所有的示例性實(shí) 施例,因此發(fā)明內(nèi)容和摘要部分并不意在以任何方式來限制本發(fā)明和所附的權(quán)利要求。在上面借助于說明指定的功能及其關(guān)系的實(shí)現(xiàn)的功能構(gòu)造塊來描述了本發(fā)明。在 此為了便于描述,任意地限定了這些功能構(gòu)造塊的邊界。可以限定替選邊界,只要所述指定 的功能及其關(guān)系被適當(dāng)?shù)貓?zhí)行。特定實(shí)施例的前述描述如此充分地揭示了本發(fā)明的一般特性,使得其他人可以在 不背離本發(fā)明的一般思想的情況下,通過應(yīng)用在本領(lǐng)域的技術(shù)內(nèi)的知識(shí)而容易地修改和/ 或調(diào)整本發(fā)明的一般特性以用于這樣的特定實(shí)施例的各種應(yīng)用,而不用進(jìn)行過度的實(shí)驗(yàn)。 因此,基于在此提供的教導(dǎo)和指導(dǎo),這樣的調(diào)整和修改意在在所公開的實(shí)施例的等同物的 含義和范圍內(nèi)。應(yīng)當(dāng)理解的是,在此的措詞或術(shù)語用于描述而非限制的目的,因此本說明書 的術(shù)語或措詞應(yīng)當(dāng)由技術(shù)人員根據(jù)所述教導(dǎo)和指導(dǎo)來解釋。本發(fā)明的寬度和范圍不應(yīng)當(dāng)由上述示例性實(shí)施例的任何一個(gè)限制,而是應(yīng)當(dāng)僅根 據(jù)所附權(quán)利要求及其等同物來限定。
權(quán)利要求
1.一種用于填充以及更新地標(biāo)圖像數(shù)據(jù)庫的方法,包括(a)根據(jù)地理接近性對(duì)地理標(biāo)注圖像進(jìn)行地理聚類以生成一個(gè)或多個(gè)地理集群;以及(b)根據(jù)圖像相似性對(duì)所述一個(gè)或多個(gè)地理集群進(jìn)行視覺聚類以生成一個(gè)或多個(gè)視覺集群ο
2.如權(quán)利要求1所述的方法,其中所述地理聚類包括驗(yàn)證所述一個(gè)或多個(gè)地理集群。
3.如權(quán)利要求2所述的方法,其中所述驗(yàn)證包括選擇具有至少預(yù)定數(shù)量的相關(guān)聯(lián)的獨(dú) 特用戶標(biāo)識(shí)符的所述一個(gè)或多個(gè)地理集群。
4.如權(quán)利要求1所述的方法,其中所述視覺聚類包括基于區(qū)域圖來選擇視覺集群。
5.如權(quán)利要求4所述的方法,其中所述區(qū)域圖是基于地理集群中的匹配的圖像來生成的。
6.如權(quán)利要求1所述的方法,其中所述視覺聚類包括生成用于至少一個(gè)視覺集群的文 本標(biāo)記。
7.如權(quán)利要求6所述的方法,其中所述用于至少一個(gè)視覺集群的文本標(biāo)記基于所述至 少一個(gè)視覺集群中的個(gè)體圖像的文本標(biāo)記。
8.如權(quán)利要求6所述的方法,其中所述用于至少一個(gè)視覺集群的文本標(biāo)記基于先前分 配給在先視覺集群的文本標(biāo)記,以及其中所述在先視覺集群是具有用戶分配的文本標(biāo)記的集群ο
9.如權(quán)利要求1所述的方法,進(jìn)一步包括(c)接收外部數(shù)據(jù);以及(d)基于所述外部數(shù)據(jù)來處理視覺集群。
10.如權(quán)利要求9所述的方法,其中所述外部數(shù)據(jù)包括文本標(biāo)簽。
11.如權(quán)利要求9所述的方法,其中所述外部數(shù)據(jù)包括用戶輸入。
12.如權(quán)利要求1所述的方法,進(jìn)一步包括(e)存儲(chǔ)視覺集群。
13.一種用于從數(shù)字圖像識(shí)別地標(biāo)的系統(tǒng),包括(a)地理標(biāo)注圖像數(shù)據(jù)庫;(b)地標(biāo)數(shù)據(jù)庫;(c)與所述地理標(biāo)注圖像數(shù)據(jù)庫通信的地理聚類模塊,其中所述地理標(biāo)注圖像被聚組 成一個(gè)或多個(gè)地理集群;以及(d)與所述地理聚類模塊通信的視覺聚類模塊,其中所述一個(gè)或多個(gè)地理集群被聚組 成一個(gè)或多個(gè)視覺集群,以及其中視覺集群數(shù)據(jù)被存儲(chǔ)在所述地標(biāo)數(shù)據(jù)庫中。
14.如權(quán)利要求13所述的系統(tǒng),其中所述地標(biāo)數(shù)據(jù)庫包括地標(biāo)的圖像和相關(guān)聯(lián)的文本 標(biāo)記。
15.如權(quán)利要求13所述的系統(tǒng),進(jìn)一步包括(e)接口,所述接口用來接收外部數(shù)據(jù),其中所述外部數(shù)據(jù)包括用于所述一個(gè)或多個(gè)視 覺集群的標(biāo)簽。
16.如權(quán)利要求15所述的系統(tǒng),其中所述外部數(shù)據(jù)進(jìn)一步包括用于所述一個(gè)或多個(gè)視 覺集群的圖像。
17.如權(quán)利要求15所述的系統(tǒng),其中所述接口是圖形用戶接口。
18.如權(quán)利要求13所述的系統(tǒng),其中所述視覺聚類模塊進(jìn)一步包括受歡迎度索引模塊。
19.一種增強(qiáng)檢索地標(biāo)圖像的用戶查詢的方法,包括(a)接收用戶查詢;(b)識(shí)別所述用戶查詢中的一個(gè)或多個(gè)觸發(fā)詞;(c)從地標(biāo)數(shù)據(jù)庫中選擇與所述一個(gè)或多個(gè)觸發(fā)詞相對(duì)應(yīng)的一個(gè)或多個(gè)對(duì)應(yīng)的標(biāo)簽;以及(d)用所述一個(gè)或多個(gè)對(duì)應(yīng)的標(biāo)簽增補(bǔ)所述用戶查詢,生成增補(bǔ)的用戶查詢。
20.如權(quán)利要求19所述的方法,進(jìn)一步包括(e)基于所述增補(bǔ)的用戶查詢來檢索圖像。
21.如權(quán)利要求20所述的方法,進(jìn)一步包括(f)根據(jù)地標(biāo)的受歡迎度來對(duì)所檢索的圖像進(jìn)行排序。
22.如權(quán)利要求21所述的方法,其中所述地標(biāo)的受歡迎度基于與具有每一個(gè)地標(biāo)的圖 像相關(guān)聯(lián)的獨(dú)特用戶標(biāo)識(shí)符的數(shù)量。
23.一種自動(dòng)標(biāo)注新的數(shù)字圖像的方法,包括(a)將所述新的數(shù)字圖像與地標(biāo)圖像數(shù)據(jù)庫中的圖像進(jìn)行比較,其中所述地標(biāo)圖像數(shù) 據(jù)庫包括一個(gè)或多個(gè)地標(biāo)的圖像的視覺集群;以及(b)基于所述視覺集群中的至少一個(gè)用至少一個(gè)標(biāo)簽標(biāo)注所述新的數(shù)字圖像。
24.一種包括具有存儲(chǔ)在其中的用于促使計(jì)算機(jī)填充以及更新地標(biāo)圖像數(shù)據(jù)庫的控制 邏輯的計(jì)算機(jī)可用介質(zhì)的計(jì)算機(jī)程序產(chǎn)品,所述控制邏輯包括(a)第一計(jì)算機(jī)可讀程序代碼,所述第一計(jì)算機(jī)可讀程序代碼使所述計(jì)算機(jī)能夠根據(jù) 地理接近性對(duì)地理標(biāo)注圖像進(jìn)行聚類以生成一個(gè)或多個(gè)地理集群;以及(b)第二計(jì)算機(jī)可讀程序代碼,所述第二計(jì)算機(jī)可讀程序代碼使所述計(jì)算機(jī)能夠根據(jù) 圖像相似性對(duì)所述一個(gè)或多個(gè)地理集群進(jìn)行聚類。
25.—種包括具有存儲(chǔ)在其中的用于促使計(jì)算機(jī)增強(qiáng)用戶查詢的控制邏輯的計(jì)算機(jī)可 用介質(zhì)的計(jì)算機(jī)程序產(chǎn)品,所述控制邏輯包括(b)第一計(jì)算機(jī)可讀程序代碼,所述第一計(jì)算機(jī)可讀程序代碼使所述計(jì)算機(jī)能夠識(shí)別 所述用戶查詢中的一個(gè)或多個(gè)觸發(fā)詞;(c)第二計(jì)算機(jī)可讀程序代碼,所述第二計(jì)算機(jī)可讀程序代碼使所述計(jì)算機(jī)能夠從地 標(biāo)數(shù)據(jù)庫中選擇與所述一個(gè)或多個(gè)觸發(fā)詞相對(duì)應(yīng)的一個(gè)或多個(gè)對(duì)應(yīng)的標(biāo)簽;以及(d)第三計(jì)算機(jī)可讀程序代碼,所述第三計(jì)算機(jī)可讀程序代碼使所述計(jì)算機(jī)能夠用所 述一個(gè)或多個(gè)對(duì)應(yīng)的標(biāo)簽增補(bǔ)所述用戶查詢。
26.—種維護(hù)圖像集合中的地標(biāo)圖像的方法,包括(a)選擇第一圖像集和第二圖像集,其中所述第一圖像集和所述第二圖像集是第一地 標(biāo)集的成員;(b)顯示包括第一列表元素和第二列表元素的第一列表,其中所述第一列表元素包括 與所述第一圖像集相對(duì)應(yīng)的第一描述數(shù)據(jù)元素和第一輸入,以及其中所述第二列表元素包 括與所述第二圖像集相對(duì)應(yīng)的第二描述數(shù)據(jù)元素和第二輸入;以及(c)接收所述第一和第二輸入中的用戶輸入。
27.如權(quán)利要求沈所述的方法,進(jìn)一步包括(d)基于所述用戶輸入來合并所述第一圖像集和所述第二圖像集。
28.如權(quán)利要求沈所述的方法,進(jìn)一步包括(e)基于所述用戶輸入從所述第一地標(biāo)集移除所述第一圖像集。
29.如權(quán)利要求沈所述的方法,其中所述第一描述數(shù)據(jù)元素包括至少一個(gè)用戶可導(dǎo)航 的鏈接。
30.如權(quán)利要求沈所述的方法,其中所述選擇基于選擇標(biāo)準(zhǔn),以及其中所述選擇標(biāo)準(zhǔn) 包括用戶指定的選擇標(biāo)準(zhǔn)。
31.如權(quán)利要求30所述的方法,其中所述選擇標(biāo)準(zhǔn)包括地標(biāo)的受歡迎度。
32.—種包括具有存儲(chǔ)在其中的用于促使計(jì)算機(jī)維護(hù)圖像集合中的地標(biāo)圖像的控制邏 輯的計(jì)算機(jī)可用介質(zhì)的計(jì)算機(jī)程序產(chǎn)品,所述控制邏輯包括(a)第一計(jì)算機(jī)可讀程序代碼,所述第一計(jì)算機(jī)可讀程序代碼使所述計(jì)算機(jī)能夠選擇 第一圖像集和第二圖像集,其中所述第一圖像集和所述第二圖像集是第一地標(biāo)集的成員;(b)第二計(jì)算機(jī)可讀程序代碼,所述第二計(jì)算機(jī)可讀程序代碼使所述計(jì)算機(jī)能夠顯示 包括第一列表元素和第二列表元素的第一列表,其中所述第一列表元素包括與所述第一圖 像集相對(duì)應(yīng)的第一描述數(shù)據(jù)元素和第一輸入,以及其中所述第二列表元素包括與所述第二 圖像集相對(duì)應(yīng)的第二描述數(shù)據(jù)元素和第二輸入;以及(c)第三計(jì)算機(jī)可讀程序代碼,所述第三計(jì)算機(jī)可讀程序代碼使所述計(jì)算機(jī)能夠接收 所述第一和第二輸入中的用戶輸入。
33.一種維護(hù)圖像集合中的地標(biāo)圖像的方法,包括(a)顯示至少一個(gè)示例圖像,其中所述示例圖像包括在第一集中,以及其中所述第一集 包括具有第一地標(biāo)的圖像;以及(b)顯示一個(gè)或多個(gè)描述數(shù)據(jù)組,其中每一個(gè)描述數(shù)據(jù)組包括相關(guān)用戶輸入,以及其中 每一個(gè)描述數(shù)據(jù)組對(duì)應(yīng)于所述第一集中的一個(gè)圖像。
34.如權(quán)利要求33所述的方法,進(jìn)一步包括(c)接收用戶輸入,其中用戶輸入指示對(duì)第一圖像的選擇,以及其中所述第一圖像是所 述至少一個(gè)示例圖像中的一個(gè);以及(d)顯示所述第一圖像上的感興趣的有界區(qū),其中所述感興趣的有界區(qū)包含所述第一 地標(biāo)。
35.如權(quán)利要求33所述的方法,進(jìn)一步包括(e)在一個(gè)或多個(gè)描述數(shù)據(jù)組的相關(guān)用戶輸入圖形處接收用戶輸入;以及(f)基于所述用戶輸入從所述第一集移除至少一個(gè)圖像。
36.一種包括具有存儲(chǔ)在其中的用于促使計(jì)算機(jī)維護(hù)圖像集合中的地標(biāo)圖像的控制邏 輯的計(jì)算機(jī)可用介質(zhì)的計(jì)算機(jī)程序產(chǎn)品,所述控制邏輯包括(a)第一計(jì)算機(jī)可讀程序代碼,所述第一計(jì)算機(jī)可讀程序代碼使所述計(jì)算機(jī)能夠顯示 至少一個(gè)示例圖像,其中所述示例圖像包括在第一集中,以及其中所述第一集包括具有第 一地標(biāo)的圖像;以及(b)第二計(jì)算機(jī)可讀程序代碼,所述第二計(jì)算機(jī)可讀程序代碼使所述計(jì)算機(jī)能夠顯示 一個(gè)或多個(gè)描述數(shù)據(jù)組,其中每一個(gè)描述數(shù)據(jù)組包括相關(guān)用戶輸入,以及其中每一個(gè)描述數(shù)據(jù)組對(duì)應(yīng)于所述第一集中的一個(gè)圖像。
全文摘要
在一個(gè)實(shí)施例中,本發(fā)明是一種用于填充以及更新地標(biāo)圖像數(shù)據(jù)庫的方法,所述方法包括根據(jù)地理接近性對(duì)地理標(biāo)注圖像進(jìn)行地理聚類以生成一個(gè)或多個(gè)地理集群,以及根據(jù)圖像相似性對(duì)一個(gè)或多個(gè)地理集群進(jìn)行視覺聚類以生成一個(gè)或多個(gè)視覺集群。在另一個(gè)實(shí)施例中,本發(fā)明是一種用于從數(shù)字圖像識(shí)別地標(biāo)的系統(tǒng),其包括以下組件地理標(biāo)注圖像數(shù)據(jù)庫;地標(biāo)數(shù)據(jù)庫;地理聚類模塊;以及視覺聚類模塊。在其它實(shí)施例中,本發(fā)明可以是一種增強(qiáng)檢索地標(biāo)圖像的用戶查詢的方法,或一種用文本標(biāo)記自動(dòng)標(biāo)注新的數(shù)字圖像的方法。
文檔編號(hào)G06F17/30GK102089761SQ200980127106
公開日2011年6月8日 申請(qǐng)日期2009年5月12日 優(yōu)先權(quán)日2008年5月12日
發(fā)明者烏爾里?!げ嫉逻~爾, 哈特姆特·內(nèi)文, 哈特維?!啴?dāng), 費(fèi)爾南多·A·布魯切爾 申請(qǐng)人:谷歌公司