專利名稱:一種圖像相似性判斷的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本申請(qǐng)屬于圖像處理技術(shù)領(lǐng)域,特別涉及一種圖像相似性判斷的方法及裝置。
背景技術(shù):
當(dāng)前網(wǎng)上購(gòu)物,將商品歸類為不同的集合,是一種幫助用戶購(gòu)物的重要方法。對(duì)商 品按照某個(gè)屬性分類,得到幾種不同類別的商品,再在子類目中按照其他的屬性進(jìn)行(更 細(xì)致的)分類,通過(guò)不斷的分類操作,到最后我們就得到了特定的商品集合,比如黑色、制 造商為NOKIA、型號(hào)為N73的手機(jī)。其中‘黑色’、‘NOKIA’、‘N73’乃至‘手機(jī)’都是不同屬 性的各個(gè)值。某些商品的分類是比較明確的,比如手機(jī),一定是某個(gè)特定的品牌,特定的型號(hào) 等,當(dāng)?shù)怯浟耸謾C(jī)的各種屬性后(比如品牌,型號(hào),樣式),就能夠使用程序?qū)ι唐愤M(jìn)行自動(dòng) 分類,將它們歸類于相同或不同的集合。而對(duì)于另一些商品,分類就不那么明確了,既可以是這種,也可以是那種,比如服 裝中的上衣、衛(wèi)衣、長(zhǎng)袖。由于有時(shí)無(wú)法完全登記這些商品的各種屬性,同時(shí)有些屬性的值 也無(wú)法確定,比如顏色、圖案等。這些困難直接造成無(wú)法將它們歸類為相同或不同的集合 中?;诘诙N情況,現(xiàn)有技術(shù)中有的解決方案是通過(guò)它們的圖片信息,將使用相似 圖片的商品聚合在一起,可以將它們歸類為相同或不同的集合中。使用每個(gè)商品都具有的 圖片作為屬性,將屬性確定下來(lái)。使用圖片作為屬性的一大優(yōu)勢(shì)是圖片相對(duì)于文字,修改的 成本要更高,所以更可信。同時(shí),從圖片中抽取足夠能將不同商品區(qū)分開的、并且可以判斷 相似的信息,作為屬性的值。這樣,不同的商品就可以互相比較、分類。因此采用圖片作為 屬性,首先要從圖片中得到能夠區(qū)分不同商品、并且可以進(jìn)行相似比較的信息。目前對(duì)于圖 片,由于無(wú)法理解圖片的內(nèi)容,需要通過(guò)MD5算法對(duì)圖片進(jìn)行計(jì)算得到該圖片對(duì)應(yīng)的散列 值,利用該散列值代表圖片進(jìn)行比較,這樣做有以下缺點(diǎn)通過(guò)MD5算法得到的散列值只能 標(biāo)識(shí)出圖片的唯一性,一張圖片稍微有一點(diǎn)變化,甚至無(wú)法識(shí)別的變化,也會(huì)導(dǎo)致完全不同 的散列值出現(xiàn)。因此也就無(wú)法進(jìn)行相似匹配,一張圖改動(dòng)一點(diǎn)和改動(dòng)很多,根本無(wú)法從計(jì)算 得到的散列值上區(qū)分開來(lái)??梢姮F(xiàn)有技術(shù)中存在對(duì)商品圖片進(jìn)行相似性判斷時(shí),商品圖片 被改動(dòng)一點(diǎn)后不能夠被準(zhǔn)確識(shí)別,導(dǎo)致商品圖片相似性判斷不夠準(zhǔn)確的問(wèn)題,并且計(jì)算工 作量大,導(dǎo)致商品圖片相似性判斷效率低下。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)中商品圖片相似性判斷不夠準(zhǔn)確的問(wèn)題,本申請(qǐng)實(shí)施例提供了 一種圖像相似性判斷的方法,包括將已獲取的商品圖片分成多個(gè)區(qū)域,計(jì)算得到各區(qū)域的主顏色值和商品圖片整體 的主顏色值,主顏色值通過(guò)對(duì)區(qū)域內(nèi)的像素點(diǎn)或商品圖片整體全部像素點(diǎn)的顏色值取均值 獲得;
5
根據(jù)多個(gè)區(qū)域的主顏色值和商品圖片整體的主顏色值得到一個(gè)矢量空間;對(duì)多個(gè)商品圖片對(duì)應(yīng)的矢量空間進(jìn)行比對(duì),根據(jù)差值在一定閾值范圍內(nèi),確定進(jìn) 行比對(duì)的商品圖片相似。同時(shí)本申請(qǐng)實(shí)施例還提供一種商品信息聚合的方法,包括對(duì)進(jìn)行圖像相似性判斷的兩個(gè)商品圖片分別執(zhí)行下述步驟,獲得各圖片的矢量空 間將商品圖片分成多個(gè)區(qū)域,分別確定各區(qū)域的主顏色值為區(qū)域內(nèi)的像素點(diǎn)顏色值 的均值,以及確定商品圖片整體的主顏色值為商品圖片整體全部像素點(diǎn)顏色值的均值;根據(jù)多個(gè)區(qū)域的主顏色值和商品圖片整體的主顏色值得到一個(gè)矢量空間;對(duì)進(jìn)行圖像相似性判斷的兩個(gè)商品圖片對(duì)應(yīng)的矢量空間進(jìn)行比對(duì),確定兩個(gè)商品 圖片的相似性;將使用相似商品圖片商品的商品信息聚合在同一集合中。同時(shí),本申請(qǐng)實(shí)施例還提供了一種圖像搜索方法,包括搜索引擎服務(wù)器接收客戶端發(fā)送的用戶查詢圖片的搜索請(qǐng)求;搜索引擎服務(wù)器將待查詢圖片劃分為若干個(gè)區(qū)域,分別確定各區(qū)域的主顏色值為 區(qū)域內(nèi)的像素點(diǎn)顏色值的均值,以及確定待查詢圖片整體的主顏色值為待查詢圖片整體全 部像素點(diǎn)顏色值的均值;搜索引擎服務(wù)器根據(jù)待查詢圖片整體的主顏色值以及每一區(qū)域的主顏色值得到 一個(gè)矢量空間;搜索引擎服務(wù)器獲取數(shù)據(jù)庫(kù)中保存的圖片整體的主顏色值,以及數(shù)據(jù)庫(kù)中圖片各 區(qū)域的主顏色值,并根據(jù)數(shù)據(jù)庫(kù)中圖片整體的主顏色值以及各區(qū)域的主顏色值得到對(duì)應(yīng)的 矢量空間,數(shù)據(jù)庫(kù)中圖片的區(qū)域數(shù)量與待查詢圖片的區(qū)域數(shù)量相同;搜索引擎服務(wù)器對(duì)待查詢圖片的以及數(shù)據(jù)庫(kù)中圖片的矢量空間進(jìn)行一一比對(duì),確 定兩個(gè)圖片的相似性;搜索引擎服務(wù)器將比對(duì)獲得的與待查詢圖片相似的圖片發(fā)送給客戶端。同時(shí)本申請(qǐng)實(shí)施例還提供一種圖像相似性判斷的裝置,包括第一運(yùn)算模塊,用于將已獲取的商品圖片分成多個(gè)區(qū)域,計(jì)算得到各區(qū)域的主顏 色值和商品圖片整體的主顏色值,主顏色值通過(guò)對(duì)區(qū)域內(nèi)的像素點(diǎn)或商品圖片整體全部像 素點(diǎn)的顏色值取均值獲得;第二運(yùn)算模塊,用于根據(jù)多個(gè)區(qū)域的主顏色值和商品圖片整體的主顏色值得到一 個(gè)矢量空間;比對(duì)模塊,用于對(duì)多個(gè)商品圖片對(duì)應(yīng)的矢量空間進(jìn)行比對(duì),根據(jù)差值在一定閾值 范圍內(nèi),確定進(jìn)行比對(duì)的商品圖片相似。同時(shí)本申請(qǐng)實(shí)施例還提供一種圖像相似性判斷的裝置,包括運(yùn)算模塊,用于對(duì)進(jìn)行圖片相似性判斷的兩個(gè)圖片分別執(zhí)行下述步驟,獲得各圖 片的矢量空間將圖片分成多個(gè)區(qū)域,分別確定各區(qū)域的主顏色值為區(qū)域內(nèi)的像素點(diǎn)顏色值的均 值,以及確定圖片整體的主顏色值為圖片整體全部像素點(diǎn)顏色值的均值;根據(jù)多個(gè)區(qū)域的主顏色值和圖片整體的主顏色值得到一個(gè)矢量空間;
比對(duì)模塊,用于對(duì)進(jìn)行圖片相似性判斷的兩個(gè)圖片對(duì)應(yīng)的矢量空間進(jìn)行比對(duì),確 定兩個(gè)圖片的相似性。由上述本申請(qǐng)?zhí)峁┑木唧w實(shí)施方案可以看出,正是由圖片可以得到包括多個(gè)主顏 色值的矢量空間,這種值比較穩(wěn)定,可以忽略圖片微小的變化,也能判斷出圖片變動(dòng)的多 少,基于此可以同其他圖片對(duì)應(yīng)的矢量空間進(jìn)行相似匹配,使得商品圖片相似性判斷較為 準(zhǔn)確,并且由于僅對(duì)圖片各區(qū)域的主顏色差值以及圖片整體主顏色差值為參數(shù)對(duì)兩個(gè)矢量 空間進(jìn)行比較,運(yùn)算參數(shù)少,加快了圖片相似性判斷的速度。
圖1為本申請(qǐng)?zhí)峁┑牡谝粚?shí)施例系統(tǒng)結(jié)構(gòu)2為本申請(qǐng)?zhí)峁┑牡谝粚?shí)施例方法流程圖;圖3為本申請(qǐng)?zhí)峁┑牡诙?shí)施例裝置結(jié)構(gòu)圖;圖4為本申請(qǐng)?zhí)峁┑牡谌龑?shí)施例裝置結(jié)構(gòu)圖。
具體實(shí)施例方式本申請(qǐng)?zhí)峁┑牡谝粚?shí)施例是一種圖像相似性判斷的方法,該方法應(yīng)用于如圖1所 示的系統(tǒng)中,該系統(tǒng)包括服務(wù)器10和若干客戶端20,其中服務(wù)器10用于收集、整理商戶 通過(guò)客戶端上傳的商品圖片,并對(duì)獲取的商品圖片進(jìn)行相似性判斷。其中,客戶端20可以 是移動(dòng)終端、計(jì)算機(jī)等。該方法流程如圖2所示,包括步驟101 商戶甲通過(guò)客戶端20打開商品上傳表單,添加待上傳商品A的商品圖 片01,并在上傳表單的商品描述中提供商品A的商品圖片02的鏈接,進(jìn)行商品上傳。商品上傳后,商品A的商品圖片01和商品圖片02會(huì)被存儲(chǔ)于一個(gè)商品圖片庫(kù)中 以備后續(xù)步驟調(diào)用。步驟102 商戶乙通過(guò)客戶端20打開商品上傳表單,添加待上傳商品B的商品圖 片02’,進(jìn)行商品上傳。同樣,商品上傳后,商品B的商品圖片02’也會(huì)被存儲(chǔ)于該商品圖片庫(kù)中已備后續(xù) 步驟調(diào)用。步驟103 服務(wù)器10從商品圖片庫(kù)中獲取商品圖片01、商品圖片02和商品圖片 02,。商品圖片庫(kù)可以設(shè)置在服務(wù)器10中,也可以設(shè)置在專門存儲(chǔ)服務(wù)器11中,存儲(chǔ)服 務(wù)器11可以通過(guò)網(wǎng)絡(luò)與服務(wù)器10連接,使得服務(wù)器10能夠方便的從商品圖片庫(kù)中獲取商 品圖片。步驟104 服務(wù)器10將圖片01分成9個(gè)區(qū)域,計(jì)算得到9個(gè)區(qū)域的主顏色值和商 品圖片01整體的主顏色值,并據(jù)此得到一個(gè)矢量空間,依次得到商品圖片02和商品圖片 02’對(duì)應(yīng)的矢量空間。服務(wù)器10將商品圖片01分成9個(gè)區(qū)域僅是本實(shí)施例中的一個(gè)優(yōu)選的方案,當(dāng)然 也可以將將圖片01劃分為4個(gè)區(qū)域或16個(gè)區(qū)域。本實(shí)施例中的顏色值由一個(gè)十六進(jìn)制符號(hào)來(lái)表示,這個(gè)符號(hào)由紅色、綠色和藍(lán)色的值組成(RGB)。每種顏色的最小值是0 (十六進(jìn)制#00),最大值是255 (十六進(jìn)制#FF)。 例如一個(gè)純黑的像素點(diǎn)的顏色值為#FFFFFF,一個(gè)純白的像素點(diǎn)的顏色值為#000000。本實(shí) 施例中商品圖片1包括640*480個(gè)像素點(diǎn),將商品圖片1分為大小基本相同的9個(gè)區(qū)域,每 個(gè)區(qū)域的像素點(diǎn)個(gè)數(shù)大約為3。4萬(wàn)個(gè),對(duì)區(qū)域1中的全部像素點(diǎn)的顏色值取均值得到區(qū)域 1的主顏色值#102030,下面對(duì)像素點(diǎn)的顏色值取均值進(jìn)行說(shuō)明,例如有2個(gè)像素點(diǎn)顏色值 分別為#111111和#333333取均值得到#222222,同樣得到區(qū)域2-區(qū)域9的主顏色值,具體 參見表1,標(biāo)識(shí)1-9表示區(qū)域1-區(qū)域9的標(biāo)識(shí),標(biāo)識(shí)0表示商品圖片整體的標(biāo)識(shí)。
^色值主顏色值標(biāo)識(shí)1#1020302#2020303#3020304#4020305#5020306#6020307#7020308#8020309#9020300#502030表 1根據(jù)表1中的主顏色值得到一個(gè)矢量空間rl,類似的得到商品圖片02對(duì)應(yīng)的矢量 空間r2和商品圖片02’對(duì)應(yīng)的矢量空間r2’。步驟105 服務(wù)器10對(duì)商品圖片01、商品圖片02和商品圖片02’對(duì)應(yīng)的矢量空間 rl、r2和r2’進(jìn)行比對(duì),根據(jù)差值在一定閾值Δ范圍內(nèi),確定進(jìn)行比對(duì)的商品圖片01、商品 圖片02和商品圖片02’相似。將矢量空間rl和矢量空間r2進(jìn)行比較,差值小于等于閾值Δ,由此確定商品圖片 01和商品圖片02相似,將矢量空間r2和矢量空間r2’進(jìn)行比較,差值小于等于閾值Δ,由 此確定商品圖片02和商品圖片02’相似,將矢量空間rl和矢量空間r2’進(jìn)行比較,差值小 于等于閾值Δ,由此確定商品圖片01和商品圖片02’相似。當(dāng)然若矢量空間rl和矢量空 間r2進(jìn)行比較,差值X大于閾值Δ,由此確定商品圖片01和商品圖片02不相似,同樣若矢 量空間r2和矢量空間r2’進(jìn)行比較,差值大于閾值Δ,由此確定商品圖片02和商品圖片 02’不相似。本實(shí)施例中以商品圖片02和商品圖片02’相似,商品圖片02和商品圖片01 相似進(jìn)行后續(xù)說(shuō)明。將矢量空間rl和矢量空間r2進(jìn)行比較的差值和閾值Δ比較的具體的計(jì)算如
8下,rl 一 (rIidi, r 1ID2 r 1ID3j r 1ID4j r 1ID5,rlID6, rlID7, rlID8, rlID9, rlID10),τ2 一 (r2ID1, r2ID2 r2ID3,t2im, t2w5, τ2ι 6, τ2ι 7, r2ID8, t2iw, γ2ΙΜ0 ),其中rl皿至rlID9表示圖片01區(qū)域1至 區(qū)域9的主顏色值,其中rlID1(l表示商品圖片01整體的主顏色值,其中r2ID1-r2ID9表示 圖片02區(qū)域1至區(qū)域9的主顏色值,其中r2ID1Q表示商品圖片02整體的主顏色值,差 值X=[時(shí)皿-!^皿尸+時(shí)皿-!^皿尸+…+時(shí)誦-!^刪尸產(chǎn),將差值和閾值Δ比較,根據(jù) 差值小于等于閾值Δ,由此確定商品圖片01和商品圖片02相似。通過(guò)上述計(jì)算,對(duì)矢 量空間rl和矢量空間r2進(jìn)行比對(duì),確定進(jìn)行比對(duì)的商品圖片01和商品圖片02相似,只 是本實(shí)施例中優(yōu)選方案,還可以采用如下方法,對(duì)矢量空間rl和矢量空間r2進(jìn)行比較, 確定進(jìn)行比對(duì)的商品圖片01和商品圖片02相似。當(dāng)然,差值X還可以表示如下X = (rlID1-r2ID1)2+ (rlID2-r2ID2)2+…+ (rlID10-r2ID10)20 或者 X = (rlID1-r2ID1)4+ (rlID2-r2ID2)4+… + (rlID10-r2ID10)4o 差值 X 還可以表示如下:X = rlID1-r2ID11 +1 rlID2-r2ID21 +. . . +1 rlID10-r2ID1 」??梢姼鶕?jù)矢量空間rl中的9個(gè)區(qū)域的主顏色值和圖片01整體的主顏色值,以及矢量空 間r2中的9個(gè)區(qū)域的主顏色值和圖片02整體的主顏色值,以對(duì)應(yīng)區(qū)域的顏色差值以及主 顏色差值為參數(shù)對(duì),利用多種預(yù)定的算法,均可以實(shí)現(xiàn)對(duì)矢量空間rl和矢量空間r2進(jìn)行比 較,進(jìn)而確定商品圖片01和商品圖片02相似,本實(shí)施例中的上述算法僅是為了說(shuō)明本申請(qǐng) 技術(shù)方案的優(yōu)選實(shí)施例,而并非對(duì)本申請(qǐng)的限定。前述方法,適用于商品圖片同樣也適用于其它圖片。通過(guò)上述的說(shuō)明可知,由圖片可以得到包括多個(gè)主顏色值的矢量空間,這種值比 較穩(wěn)定,可以忽略圖片微小的變化,也能判斷出圖片變動(dòng)的多少。經(jīng)過(guò)大量的實(shí)驗(yàn)發(fā)現(xiàn),將 圖片劃分為9個(gè)區(qū)域,計(jì)算得到每個(gè)區(qū)域的主顏色值,再結(jié)合圖片整體的主顏色值,就足以 區(qū)分不同的商品圖片,可以消除商品圖片的放大、縮小、輕度水印帶來(lái)的變化。并且,由于主 顏色是一個(gè)穩(wěn)定、連續(xù)的值,9個(gè)區(qū)域及整體的主顏色可以構(gòu)成一個(gè)矢量空間,基于此可以 同其他圖片對(duì)應(yīng)的矢量空間進(jìn)行相似匹配,使得商品圖片相似性判斷較為準(zhǔn)確。進(jìn)一步基于上述方法,本實(shí)施例還提供一種商品信息聚合的方法,基于商品圖片 中得到矢量空間后,使用圖片對(duì)應(yīng)的矢量空間,進(jìn)行相似匹配,可以將相似的商品圖片對(duì)應(yīng) 的商品聚類為同一個(gè)集合。為此本實(shí)施例中服務(wù)器10還會(huì)將使用相似商品圖片的商品聚合在同一集合中。具體實(shí)施時(shí),首先從商品圖片庫(kù)中獲得商品A,對(duì)于商品A此時(shí)其作為一個(gè)新增商 品,它使用了 2張商品圖片商品圖片01和商品圖片02。由于當(dāng)前沒(méi)有任何集合,所以也沒(méi) 有任何集合中的商品使用到商品圖片01和商品圖片02,基于此得到了一個(gè)新的集合集合 1。從商品圖片庫(kù)中獲得商品B,再根據(jù)商品B,它使用到了商品圖片02’,由于商品圖片02’ 和商品圖片02相似,將商品B加入集合1中。從商品圖片庫(kù)中獲得商品C,作為新增商品的 商品C,它使用了商品圖片03和商品圖片04。根據(jù)商品圖片03和商品圖片04,與集合1中 的商品A、商品B使用的商品圖片01、商品圖片02和商品圖片02’均不相似(具體的相似 判斷與前述的方法類似,此處不再贅述),則將商品C加入一個(gè)新的集合2中。最后從商品 圖片庫(kù)中獲得商品D,根據(jù)作為新增商品的商品D,它使用了商品圖片03’和商品圖片01’, 根據(jù)商品圖片01’與商品圖片01相似,根據(jù)商品圖片03’與商品圖片03相似,將集合1和 集合2合并為集合3并將商品D使用的商品圖片03’和商品圖片01’加入集合3中。若從 商品圖片庫(kù)中獲得商品D早于獲得商品C,此時(shí)只有集合1,集合1中商品的商品圖片包括商品圖片01、商品圖片02和商品圖片02’。則將商品D中的商品圖片03’和商品圖片01’ 加入到集合1中,同時(shí),將商品圖片03作為集合1中商品的商品圖片的一部分。若用戶甲有5個(gè)商品Al、商品A2、商品A3、商品A4和商品A5,其中商品Al使用了 商品圖片11,商品A2使用了商品圖片12,商品A3使用了商品圖片13,商品A4使用了商品 圖片14,商品A5使用了商品圖片15,商品圖片11、商品圖片12、商品圖片13、商品圖片14 和商品圖片15相似,由于用戶甲的商品數(shù)量為5個(gè)不大于預(yù)定數(shù)量6,則根據(jù)商品圖片11、 商品圖片12、商品圖片13、商品圖片14和商品圖片15相似,將商品Al、商品A2、商品A3、商 品A4和商品A5聚合在同一集合中。類似的,商品Al、商品A2、商品A3、商品A4和商品A5, 分屬于5個(gè)不同的用戶標(biāo)識(shí),根據(jù)商品圖片11、商品圖片12、商品圖片13、商品圖片14和商 品圖片15相似,將商品Al、商品A2、商品A3、商品A4和商品A5聚合在同一集合中。但若在 不同的應(yīng)用系統(tǒng)中,商品A1、商品A2、商品A3、商品A4和商品A5同屬于用戶甲,由于用戶甲 的商品數(shù)量為5個(gè)大于預(yù)定數(shù)量4,即使商品圖片11、商品圖片12、商品圖片13、商品圖片 14和商品圖片15相似,也不將商品Al、商品A2、商品A3、商品A4和商品A5聚合在同一集
α由
口 T O進(jìn)行商品聚合時(shí),使用每個(gè)商品都具有的商品圖片作為屬性,將屬性確定下來(lái)。使 用圖片作為屬性的一大優(yōu)勢(shì)是圖片相對(duì)于文字,修改的成本要更高,所以進(jìn)行商品聚合時(shí), 從圖片中抽取足夠能將不同商品區(qū)分開的、并且可以判斷相似的信息如前述提到的矢量空 間,作為屬性的值。這樣,不同的商品就可以互相比較、分類,同時(shí)分類的結(jié)果更加準(zhǔn)確。本申請(qǐng)判斷圖像相似性的方法可以應(yīng)用在不同的技術(shù)領(lǐng)域,如,垃圾圖片的過(guò)濾, 以及圖像搜索技術(shù)領(lǐng)域等。當(dāng)應(yīng)用于垃圾圖片的過(guò)濾時(shí),可在服務(wù)器中預(yù)先建立垃圾圖片 庫(kù),所述垃圾圖片庫(kù)中預(yù)先存儲(chǔ)了各種違反法律規(guī)定或社會(huì)道德標(biāo)準(zhǔn)的圖片以及任何被認(rèn) 為不宜在互聯(lián)網(wǎng)上傳播的圖片,如,淫穢圖片、暴力圖片等。當(dāng)用戶利用客戶端傳輸圖片類 信息時(shí),服務(wù)器會(huì)掃描獲取該圖片,并將該圖片與服務(wù)器中的垃圾圖片圖中的圖片一一比 對(duì),并利用本申請(qǐng)所述的圖像相似性判斷方法確定該圖片是否為垃圾圖片。若為垃圾圖片, 則禁止該圖片的傳輸。當(dāng)將本申請(qǐng)所述的圖像相似性判斷方法應(yīng)用于圖片搜索技術(shù)領(lǐng)域時(shí),服務(wù)器端接 收到用戶欲搜索的圖片時(shí),會(huì)與服務(wù)器中預(yù)存儲(chǔ)的圖片或利用爬蟲技術(shù)抓取到的圖片一一 比對(duì),以兩個(gè)圖片中對(duì)應(yīng)區(qū)域的主顏色差值以及圖片整體主顏色差值為參數(shù)對(duì)兩個(gè)矢量空 間進(jìn)行比較,確定兩個(gè)圖片的相似性。并將所有相似的圖片作為搜索結(jié)果發(fā)送至用戶客戶 端。利用本申請(qǐng)的圖像相似性判斷方法,由于只計(jì)算各區(qū)域的主顏色差值,計(jì)算工作量較 小,因此提高了搜索的效率,并盡可能多的搜索到相似的圖片。本實(shí)施例方法流程的具體步驟包括步驟301 搜索引擎服務(wù)器接收客戶端發(fā)送的用戶查詢相似圖片的搜索請(qǐng)求。用戶欲通過(guò)搜索引擎服務(wù)器搜索與某一待查詢圖片相同或相似的圖片,可以向搜 索引擎客戶端指定欲搜索的圖片,并通過(guò)該客戶端向搜索引擎服務(wù)器發(fā)出圖片搜索請(qǐng)求, 其中,欲搜索的圖片可以是用戶上傳至客戶端的圖片,也可以是客戶端從互聯(lián)網(wǎng)中獲取的 圖片。步驟302 搜索引擎服務(wù)器將待查詢圖片劃分為若干個(gè)區(qū)域,分別確定各區(qū)域的 主顏色值為區(qū)域內(nèi)的像素點(diǎn)顏色值的均值,以及確定待查詢圖片整體的主顏色值為待查詢
10圖片整體全部像素點(diǎn)顏色值的均值。 搜索引擎服務(wù)器將待查詢圖片劃分為N個(gè)區(qū)域,并盡量保證每個(gè)區(qū)域的大小基本 相同,這里,N的取值為大于1的整數(shù),例如9、4、16等;然后,對(duì)于劃分后N個(gè)區(qū)域中的每一 區(qū)域,統(tǒng)計(jì)該區(qū)域上的像素點(diǎn)個(gè)數(shù),以及每個(gè)像素點(diǎn)的顏色值,并以該區(qū)域內(nèi)的像素點(diǎn)的顏 色值的平均值作為該區(qū)域的主顏色值。本實(shí)施例中的顏色值由一個(gè)十六進(jìn)制符號(hào)來(lái)表示, 這個(gè)符號(hào)由紅色、綠色和藍(lán)色的值組成(RGB)。每種顏色的最小值是0(十六進(jìn)制#00),最 大值是255(十六進(jìn)制:#FF)。例如一個(gè)純黑的像素點(diǎn)的顏色值為#FFFFFF,一個(gè)純白的像 素點(diǎn)的顏色值為#000000。本實(shí)施例中以待查詢圖片包括640*480個(gè)像素點(diǎn)為例,將待查詢 圖片分為大小基本相同的9個(gè)區(qū)域,每個(gè)區(qū)域的像素點(diǎn)個(gè)數(shù)大約為3. 4萬(wàn)個(gè),對(duì)區(qū)域1中的 全部像素點(diǎn)的顏色值取均值得到區(qū)域1的主顏色值#102030,下面對(duì)像素點(diǎn)的顏色值取均 值進(jìn)行說(shuō)明,例如有2個(gè)像素點(diǎn)顏色值分別為#111111和#333333取均值得到#222222,同 樣得到區(qū)域2-區(qū)域9的主顏色值,具體參見表2,標(biāo)識(shí)1-9表示區(qū)域1-區(qū)域9的標(biāo)識(shí),標(biāo)識(shí) 0表示待查詢圖片整體的標(biāo)識(shí)。
權(quán)利要求
1.一種圖像相似性判斷的方法,其特征在于,包括對(duì)進(jìn)行圖片相似性判斷的兩個(gè)圖片分別執(zhí)行下述步驟,獲得各圖片的矢量空間 將圖片分成多個(gè)區(qū)域,分別確定各區(qū)域的主顏色值為區(qū)域內(nèi)的像素點(diǎn)顏色值的均值, 以及確定圖片整體的主顏色值為圖片整體全部像素點(diǎn)顏色值的均值; 根據(jù)多個(gè)區(qū)域的主顏色值和圖片整體的主顏色值得到一個(gè)矢量空間; 對(duì)進(jìn)行圖片相似性判斷的兩個(gè)圖片對(duì)應(yīng)的矢量空間進(jìn)行比對(duì),確定兩個(gè)圖片的相似性。
2.如權(quán)利要求1所述的方法,其特征在于,將獲取的圖片分成九個(gè)區(qū)域。
3.如權(quán)利要求1所述的方法,其特征在于,根據(jù)進(jìn)行圖片相似性判斷的兩個(gè)圖片中的 各自的矢量空間中的多個(gè)區(qū)域的主顏色值和圖片整體的主顏色值,以對(duì)應(yīng)區(qū)域的主顏色差 值以及圖片整體主顏色差值為參數(shù)對(duì)兩個(gè)矢量空間進(jìn)行比較,確定兩個(gè)圖片的相似性。
4.如權(quán)利要求3所述的方法,其特征在于,所述以對(duì)應(yīng)區(qū)域的主顏色差值以及圖片整 體主顏色差值為參數(shù)對(duì)兩個(gè)矢量空間進(jìn)行比較的公式具體包括X = [ (rlID1-r2ID1)2+ (rlID2-r2ID2)2+· · · + (rlID10-r2ID10)2]1/2,或 X = (rlID1-r2ID1)2+(rlID2-r2ID2)2+. · · + (rl皿0_r2刪)2,或 X = (rlID1-r2ID1)4+ (rlID2-r2ID2)4+. · · + (rl皿0-r2皿0)4,或 X = I rlID1_r2ID11 +1 rlID2-r2ID21 +· · · +1 rlID10-r2ID101,其中,X為差值,rlID1至rlID9表示進(jìn)行圖片相似性判斷的第一圖片各區(qū)域?qū)?yīng)的主顏 色值,H1■表示圖片整體的主顏色值;r2ID1至r2ID9表示進(jìn)行圖片相似性判斷的第二圖片各 區(qū)域?qū)?yīng)的主顏色值,r2ID10表示圖片整體的主顏色值。
5.一種商品信息聚合的方法,其特征在于,包括對(duì)進(jìn)行圖像相似性判斷的兩個(gè)商品圖片分別執(zhí)行下述步驟,獲得各圖片的矢量空間 將商品圖片分成多個(gè)區(qū)域,分別確定各區(qū)域的主顏色值為區(qū)域內(nèi)的像素點(diǎn)顏色值的均 值,以及確定商品圖片整體的主顏色值為商品圖片整體全部像素點(diǎn)顏色值的均值; 根據(jù)多個(gè)區(qū)域的主顏色值和商品圖片整體的主顏色值得到一個(gè)矢量空間; 對(duì)進(jìn)行圖像相似性判斷的兩個(gè)商品圖片對(duì)應(yīng)的矢量空間進(jìn)行比對(duì),確定兩個(gè)商品圖片 的相似性;將使用相似商品圖片商品的商品信息聚合在同一集合中。
6.如權(quán)利要求5所述的方法,其特征在于,還包括將新增商品的商品圖片和已有集合中商品的商品圖片進(jìn)行比較; 將商品信息聚合具體為若新增商品的所有商品圖片和已有集合中商品的商品圖片均不相似,則將該新增商品 的商品信息加入一個(gè)新的集合中;若新增商品的所有商品圖片均和已有的一個(gè)集合中商品的商品圖片相似,則將新增商 品的商品信息加入該已有集合中;若新增商品的所有商品圖片中的部分和已有一個(gè)集合中商品的商品圖片相似,其它部 分與其它已有集合中的商品圖片均不相似,則將新增商品的商品信息加入該集合中,且將 新增商品的其它部分商品圖片作為該已有集合中商品的商品圖片的一部分;若新增商品的所有商品圖片分別與幾個(gè)集合中的商品圖片相似,將這幾個(gè)集合合并同一集合。
7.如權(quán)利要求5所述的方法,其特征在于,使用相似商品圖片的商品屬于不同用戶標(biāo) 識(shí),或使用相似商品圖片的商品的數(shù)量不大于預(yù)定數(shù)量,且屬于同一用戶標(biāo)識(shí)。
8.一種圖像搜索方法,其特征在于,包括搜索引擎服務(wù)器接收客戶端發(fā)送的用戶查詢圖片的搜索請(qǐng)求;搜索引擎服務(wù)器將待查詢圖片劃分為若干個(gè)區(qū)域,分別確定各區(qū)域的主顏色值為區(qū)域 內(nèi)的像素點(diǎn)顏色值的均值,以及確定待查詢圖片整體的主顏色值為待查詢圖片整體全部像 素點(diǎn)顏色值的均值;搜索引擎服務(wù)器根據(jù)待查詢圖片整體的主顏色值以及每一區(qū)域的主顏色值得到一個(gè) 矢量空間;搜索引擎服務(wù)器獲取數(shù)據(jù)庫(kù)中保存的多個(gè)圖片整體的主顏色值,以及數(shù)據(jù)庫(kù)中圖片各 區(qū)域的主顏色值,并根據(jù)數(shù)據(jù)庫(kù)中圖片整體的主顏色值以及各區(qū)域的主顏色值得到對(duì)應(yīng)的 矢量空間,數(shù)據(jù)庫(kù)中圖片的區(qū)域數(shù)量與待查詢圖片的區(qū)域數(shù)量相同;搜索引擎服務(wù)器對(duì)待查詢圖片的以及數(shù)據(jù)庫(kù)中圖片的矢量空間進(jìn)行一一比對(duì),確定兩 個(gè)圖片的相似性;搜索引擎服務(wù)器將比對(duì)獲得的與待查詢圖片相似的圖片發(fā)送給客戶端。
9.如權(quán)利要求8所述的方法,其特征在于,所述搜索引擎服務(wù)器獲取數(shù)據(jù)庫(kù)中保存的 圖片整體的主顏色值,以及數(shù)據(jù)庫(kù)中圖片中各區(qū)域的主顏色值,具體包括將數(shù)據(jù)庫(kù)中的圖片劃分為若干個(gè)區(qū)域,分別確定各區(qū)域的主顏色值為區(qū)域內(nèi)的像素點(diǎn) 顏色值的均值,以及確定待查詢圖片整體的主顏色值為待查詢圖片整體全部像素點(diǎn)顏色值 的均值,并將所述主顏色值與相應(yīng)的圖片標(biāo)識(shí)建立索引表;搜索引擎服務(wù)器從索引表中獲取相應(yīng)的主顏色值。
10.一種圖像相似性判斷的裝置,其特征在于,包括運(yùn)算模塊,用于對(duì)進(jìn)行圖片相似性判斷的兩個(gè)圖片分別執(zhí)行下述步驟,獲得各圖片的矢量空間將圖片分成多個(gè)區(qū)域,分別確定各區(qū)域的主顏色值為區(qū)域內(nèi)的像素點(diǎn)顏色值的均值, 以及確定圖片整體的主顏色值為圖片整體全部像素點(diǎn)顏色值的均值;根據(jù)多個(gè)區(qū)域的主顏色值和圖片整體的主顏色值得到一個(gè)矢量空間;比對(duì)模塊,用于對(duì)進(jìn)行圖片相似性判斷的兩個(gè)圖片對(duì)應(yīng)的矢量空間進(jìn)行比對(duì),確定兩 個(gè)圖片的相似性。
11.如權(quán)利要求10所述的裝置,其特征在于,運(yùn)算模塊,具體用于將獲取的圖片分成九 個(gè)區(qū)域。
12.如權(quán)利要求10所述的裝置,其特征在于,運(yùn)算模塊,具體用于根據(jù)進(jìn)行圖片相似性 判斷的兩個(gè)圖片中的各自的矢量空間中的多個(gè)區(qū)域的主顏色值和圖片整體的主顏色值,以 對(duì)應(yīng)區(qū)域的主顏色差值以及圖片整體主顏色差值為參數(shù)對(duì)兩個(gè)矢量空間進(jìn)行比較,確定兩 個(gè)圖片的相似性。
13.—種商品信息聚合的裝置,其特征在于,運(yùn)算模塊,用于對(duì)進(jìn)行圖片相似性判斷的 兩個(gè)圖片分別執(zhí)行下述步驟,獲得各圖片的矢量空間將圖片分成多個(gè)區(qū)域,分別確定各區(qū)域的主顏色值為區(qū)域內(nèi)的像素點(diǎn)顏色值的均值,以及確定圖片整體的主顏色值為圖片整體全部像素點(diǎn)顏色值的均值; 根據(jù)多個(gè)區(qū)域的主顏色值和圖片整體的主顏色值得到一個(gè)矢量空間; 比對(duì)模塊,用于對(duì)進(jìn)行圖片相似性判斷的兩個(gè)圖片對(duì)應(yīng)的矢量空間進(jìn)行比對(duì),確定兩 個(gè)圖片的相似性,聚合模塊,用于將使用相似商品圖片的商品聚合在同一集合中。
14.如權(quán)利要求13所述的裝置,其特征在于,還包括比較模塊,用于將新增商品的商品圖片和已有集合中商品的商品圖片進(jìn)行比較; 聚合模塊,具體用于若新增商品的所有商品圖片和已有集合中商品的商品圖片均不 相似,則將該商品加入一個(gè)新的集合中,若新增商品的所有商品圖片均和已有的一個(gè)集合 中商品的商品圖片相似,則將新增商品加入該已有集合中,若新增商品的所有商品圖片中 的部分和已有一個(gè)集合中商品的商品圖片相似,其它部分與其它已有集合中的商品圖片均 不相似,則將新增商品加入該集合中,且將新增商品的其它部分商品圖片作為該已有集合 中商品的商品圖片的一部分,若新增商品的所有商品圖片分別與幾個(gè)集合中的商品圖片相 似,將這幾個(gè)集合合并同一集合。
15.如權(quán)利要求13所述的裝置,其特征在于,聚合模塊,還用于將使用相似商品圖片的 商品聚合在同一集合中,使用相似商品圖片的商品屬于不同用戶標(biāo)識(shí),或使用相似商品圖 片的商品的數(shù)量不大于預(yù)定數(shù)量,且屬于同一用戶標(biāo)識(shí)。
全文摘要
本申請(qǐng)公開了一種圖像相似性判斷的方法及裝置,為了解決圖片相似性判斷不夠準(zhǔn)確的問(wèn)題,本申請(qǐng)公開的方法包括對(duì)進(jìn)行圖片相似性判斷的兩個(gè)圖片分別執(zhí)行下述步驟,獲得各圖片的矢量空間將圖片分成多個(gè)區(qū)域,分別確定各區(qū)域的主顏色值為區(qū)域內(nèi)的像素點(diǎn)顏色值的均值,以及確定圖片整體的主顏色值為圖片整體全部像素點(diǎn)顏色值的均值;根據(jù)多個(gè)區(qū)域的主顏色值和圖片整體的主顏色值得到一個(gè)矢量空間;對(duì)進(jìn)行圖片相似性判斷的兩個(gè)圖片對(duì)應(yīng)的矢量空間進(jìn)行比對(duì),確定兩個(gè)圖片的相似性,由于圖片可以得到包括多個(gè)主顏色值的矢量空間,這種值比較穩(wěn)定,因此基于此使得圖片相似性判斷較為準(zhǔn)確。
文檔編號(hào)G06T7/00GK102122389SQ201010002240
公開日2011年7月13日 申請(qǐng)日期2010年1月12日 優(yōu)先權(quán)日2010年1月12日
發(fā)明者戴能, 賈夢(mèng)雷 申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司