專利名稱::一種基于感性認知的圖像檢索結(jié)果排序方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及圖像搜索
技術(shù)領(lǐng)域:
,尤其涉及一種基于感性認知的圖像檢索結(jié)果排序方法。
背景技術(shù):
:目前市場上存在幾個典型的搜索引擎,包括百度、Google、搜狐的搜狗和微軟的Bing。上述搜索引擎面向文本,適合各種用戶,且已經(jīng)基本占領(lǐng)了文本搜索的市場。但是文本搜索引擎也具有某些不足和缺陷。當人們要搜索某些無法確切描述的內(nèi)容時,或者需要搜素的內(nèi)容含有主觀概念,又或者需要搜索和已知格式的數(shù)據(jù)(音頻、視頻、圖像、3D網(wǎng)格等各種多媒體數(shù)據(jù))很類似的結(jié)果時,文本搜索就顯示了它的不足。為此,市場上出現(xiàn)了一些基于圖像的搜索引擎?;趫D像的搜索引擎需要輸入樣例圖,然后從數(shù)據(jù)庫中查找和樣例圖的圖像特征相似的結(jié)果。比如,www,tinyeye.com,www.like,com就是基于圖像檢索(記為CBIRContentBasedImageRetrieval)的例子。大部分基于圖像的搜索引擎以圖像內(nèi)容理解和模式識別等技術(shù)為基礎(chǔ),且面向各種各種的圖像?,F(xiàn)有的CBIR具有以下不足之處對于服飾類的CBIR系統(tǒng),現(xiàn)有的應(yīng)用僅僅依靠圖像的視覺特征進行檢索,而沒有考慮人們在現(xiàn)實中的購買環(huán)境,缺乏真實體驗感。另外,現(xiàn)有系統(tǒng)中的圖像數(shù)據(jù)都相對比較統(tǒng)一,數(shù)據(jù)量也不多。隨著互聯(lián)網(wǎng)上各類數(shù)據(jù)的爆炸式增長,人們尋找目標產(chǎn)品所需的時間越來越多。另外,雖然存在各種功能強大的文本搜索引擎,但對于服飾類產(chǎn)品,用戶常常無法利用文字準確描述需求。
發(fā)明內(nèi)容本發(fā)明的目的在于針對現(xiàn)有技術(shù)的不足,提供一種基于感性認知的圖像檢索結(jié)果排序方法。本發(fā)明利用樣圖描述用戶的需求,在基于圖像內(nèi)容的理解上,幫助用戶快速尋找到目標產(chǎn)品(主要是服飾類產(chǎn)品)。本發(fā)明主要基于圖像的客觀特征和主觀感性認知對圖像結(jié)果進行排序。在對圖像理解的基礎(chǔ)上,提取圖像特征,取得相似度,并基于用戶體驗對顯示方式進行布局。這種方式不但能及時找到用戶的目標產(chǎn)品,而且能給用戶極大的視覺沖擊,積極引導(dǎo)用戶進入購物環(huán)節(jié)。這是文本檢索無法實現(xiàn)的,是一種新型的電子導(dǎo)購平臺。為了建立這樣一種方便直觀的智能導(dǎo)購平臺,本發(fā)明采取以下步驟作為技術(shù)方案。1)首先,建立含有大量圖像的原始數(shù)據(jù)庫。為了建立圖像數(shù)據(jù)庫,需要利用網(wǎng)絡(luò)爬蟲去各種含有服飾類圖像的網(wǎng)站抓取原始數(shù)據(jù)。2)針對庫中的每張圖像,獲取圖像中目標所在的精確區(qū)域,記為MASK區(qū)域(掩膜區(qū)域記為MASK)。為了獲取MASK區(qū)域,需要開發(fā)一種半自動的目標定位子系統(tǒng),用于確定服飾在圖像中的大概位置,并在此基礎(chǔ)上利用圖像分割技術(shù)獲得準確的區(qū)域。3)根據(jù)每張圖像的MASK區(qū)域獲取各種圖像特征。針對服飾類圖像,能用于特征表述的參數(shù)有顏色、形狀、紋理和圖案等。不同種類的衣服可能需要獲取不同的特征。比如T恤不需要形狀特征,但需要圖案特征。4)建立含有圖像和特征數(shù)據(jù)的綜合數(shù)據(jù)庫。整個數(shù)據(jù)庫由原始圖像數(shù)據(jù)庫和特征數(shù)據(jù)庫組成。為了方便存儲和訪問,需要將圖像數(shù)據(jù)和特征數(shù)據(jù)分段存儲。庫中每新增一張圖像,都需要提取其特征,并將其存入特征數(shù)據(jù)庫。每刪除一張圖像,需要同時刪除原始圖像和其特征數(shù)據(jù)。5)搭建B/S結(jié)構(gòu)平臺,向用戶提供基于樣例圖的檢索服務(wù)。綜合數(shù)據(jù)庫放在服務(wù)器,客戶端建立一個入口平臺,方便用戶上傳圖像,或者從庫中選擇圖像作為樣例圖進行檢索。服務(wù)器端根據(jù)圖像的顏色、形狀、局部圖案等特征,按照相似性返回數(shù)據(jù)庫中與樣例圖比較接近的系列圖像,最終檢索結(jié)果顯示在客戶端。6)檢索結(jié)果圖中,根據(jù)感知相似度對結(jié)果進行排序?;跇訄D檢索得到的結(jié)果圖列表中,按照布局方式,以客觀特征(顏色特征、形狀或圖案特征等)和主觀特征(產(chǎn)品風格等)的相似性進行結(jié)果圖的展示。結(jié)果圖中同時含有商品價格、相應(yīng)網(wǎng)絡(luò)商家鏈接等信息。單擊結(jié)果圖,將可以該張結(jié)果圖作為輸入圖進行新一輪的檢索。本發(fā)明的有益效果是作為一種新型的電子購物引導(dǎo)平臺,在文本無法準確表達的情況下,結(jié)合主觀特征和客觀特征的圖像相似性可以更快、更準確地找到目標商品。用戶可在該平臺上更好地展示自己的購物需求,減少商品的查找時間,更加高效地促成網(wǎng)絡(luò)商品交易。同時,本發(fā)明將促進新型電子購物平臺的發(fā)展,使中國電子商務(wù)網(wǎng)絡(luò)平臺更加多元化。圖1是系統(tǒng)框架圖;圖2是顏色特征提取流程圖;圖3是形狀特征提取示意圖;圖4是B/S架構(gòu)示意圖;圖5是局部匹配模塊流程圖;圖6是客戶端頁面的搜索結(jié)果顯示效果示意圖。具體實施例方式下面以服飾類圖像的檢索和顯示為例,結(jié)合附圖對本發(fā)明做進一步詳細的說明。本發(fā)明涉及到的操作可綜合為下表所示,而整個系統(tǒng)的框架及流程見圖1所示。本發(fā)明的基于感性認知的圖像檢索結(jié)果排序方法,包括以下步驟1.1)在構(gòu)建圖像特征庫前,采用目標自動定位方法,獲取入庫圖像的掩膜區(qū)域。由圖1可見,目標提取模塊包括網(wǎng)絡(luò)數(shù)據(jù)抓取、初步過濾子模塊、目標定位子模塊、圖像掩碼提取子模塊等四個步驟。網(wǎng)絡(luò)數(shù)據(jù)抓取模塊利用網(wǎng)絡(luò)爬蟲機器人,從互聯(lián)網(wǎng)上搜集相關(guān)的服飾圖像。但是爬蟲機器人只根據(jù)圖像格式的判斷進行抓取,因此并不是所有下載到的圖像都是所需的服飾類圖像。初步過濾子模塊的功能就是刪除一些明顯的非服飾類圖像,過濾策略包括格式過濾,即只下載特定格式的圖像。尺寸過濾,即根據(jù)圖像大小、長寬比等數(shù)據(jù)過濾一些無用的圖像。圖像屬性過濾,去除所有非彩色的圖像。由于網(wǎng)絡(luò)上各類圖像沒有標準和規(guī)范,非常不統(tǒng)一。因此很多圖像中,沒有固定的背景,一張圖像中可能含有好幾件衣服或者服飾類物品,圖像中可能含有模特等等。目標定位子模塊主要用來確定衣服等目標區(qū)域所在的大概位置。在目標定位子模塊中,需要對原始圖像數(shù)據(jù)進行分類,對不同的分類采取不同的方法進行定位。目前的分類有衣服平鋪類基于平鋪時拍攝者會將衣服放在與衣服顏色有區(qū)分度的背景下的假設(shè),因此采用大津法(0STU算法)直接進行二值化處理,然后分析二值圖中的連通區(qū)域信息,最終確定目標的合理位置。該類的定位效果比較理想,且能直接獲得掩膜MASK數(shù)據(jù),省略了后面的掩膜區(qū)域獲取子模塊的處理。衣服模特類很多衣服圖像中都有模特,可采用人臉檢測的算法,獲得衣服的大致區(qū)域。衣服分格類首先檢測衣服的分格區(qū)間,然后再每個區(qū)間分別采用不同的方法。其它分類除了上述分類的其它分類。目標定位結(jié)果只是一個長方形的框,框內(nèi)除了目標物以外,還有可能存在其它物體或者背景。因此,需要得到目標物的精確區(qū)域,這就需要掩碼提取。圖像掩碼提取子模塊是在目標定位子模塊的基礎(chǔ)上,獲取圖像中目標的精確位置。目前采用基于最小能量的收斂算法。1.2)獲得圖像的掩膜區(qū)域后,提取圖像的顏色特征。顏色特征的提取方法如圖2所示。步驟如下顏色量化將每個通道8位共256級量化為16級,紅、綠、藍三原色RGB三個通道共4096級,即4096個格子Bin。顏色聚類根據(jù)量化后的顏色分布,獲取顏色直方圖。取前N(目前N=8)位顏色為初始聚類中心,利用K-Means進行顏色聚類。特征保存將最終聚類后的顏色從RGB轉(zhuǎn)換到色調(diào)-飽和度-亮度顏色空間(HSV空間)。HSV空間被量化為36000級,分別是H值360級,S值和V值各10級。將轉(zhuǎn)換后的HSV顏色分類以及該類顏色占的比重保存到特征文件。1.3)得到圖像的掩膜區(qū)域后,獲取圖像的形狀特征。形狀特征的獲取主要采用“N線法”,如圖3所示。在掩膜區(qū)域利用N線法,衡量每條線和MASK寬度的比例,以N條線的比例值數(shù)組作為形狀特征。針對不同的服飾類別,還需要獲取掩膜區(qū)域的長寬比作為一個簡單的形狀特征。1.4)獲得圖像的掩膜區(qū)域后,對于T恤等特殊類別服裝,獲取圖案等特征。圖案特征只在特殊類目的圖像中獲取,其方法為首先采用圖案區(qū)域自動定位方法,粗略估算MASK區(qū)域中T恤上的圖案所在的長方形(RECT)區(qū)域。對于自動定位不準確的圖像,采用人工畫框確定RECT區(qū)域。確定衣服上的圖案RECT區(qū)域后,獲取圖案區(qū)域的SIFT6特征作為圖案特征。1.5)構(gòu)建檢索數(shù)據(jù)庫,整個數(shù)據(jù)庫由原始圖像和特征文件兩部分組成。構(gòu)建檢索數(shù)據(jù)庫對應(yīng)的是“ADD”操作,這個過程可稱之為“入庫”。為了使整個“入庫”過程自動化,需要建立一整套流程機制和處理、審核規(guī)范。如圖1所示,不同類目的服飾放在不同的文件目錄中,原始圖像根據(jù)規(guī)定的組織結(jié)構(gòu)放在特定路徑下,構(gòu)成整個原始圖像庫。而每入庫一張圖像,就獲取其各種視覺特征,并在特征文件中增加響應(yīng)記錄。不同的特征記錄在不同的特征文件中。由于某些特征較復(fù)雜,可能還需要多個文件分別存放特征數(shù)據(jù)。2)以B/S架構(gòu)在建立導(dǎo)購平臺。導(dǎo)購平臺采用B/S架構(gòu),即互聯(lián)網(wǎng)終端用戶可通過終端瀏覽器訪問導(dǎo)購平臺。服務(wù)端同時需要多臺服務(wù)器,包括應(yīng)用服務(wù)器、搜索引擎服務(wù)器、數(shù)據(jù)庫服務(wù)器以及文件服務(wù)器,整個架構(gòu)如圖4所示。其中,應(yīng)用服務(wù)器提供對外網(wǎng)頁接口,供用戶訪問,并收集用戶的請求。當用戶發(fā)送搜索請求后,應(yīng)用服務(wù)器將把請求轉(zhuǎn)交給圖像引擎服務(wù)器,由后者獲取相似度信息,并返回檢索結(jié)果。在整個檢索請求的處理過程中,還需要圖像服務(wù)器和數(shù)據(jù)庫服務(wù)器的配合,共同將檢索結(jié)果圖像序列返回到應(yīng)用服務(wù)器,并最終顯示在客戶端瀏覽器。上述架構(gòu)可支持大用戶量的訪問,各服務(wù)器節(jié)點都可進行擴展,采用集群方式,如應(yīng)用服務(wù)器、圖像引擎服務(wù)器、文件服務(wù)器、數(shù)據(jù)庫服務(wù)器,都可部署多臺,統(tǒng)一向外提供服務(wù),可支持千萬級別的日用戶訪問量。3.1)根據(jù)圖像的視覺特征,對檢索結(jié)果進行排序。對商品圖像進行排序時,首先考慮圖像的局部特征是否相似,即先進行局部匹配,獲得相似性列表。然后在局部匹配的基礎(chǔ)上根據(jù)顏色、形狀或者圖案等特征進行層級過濾,得到二次排序。局部匹配主要用于從數(shù)據(jù)庫中檢索完全含有,或者含有大部分輸入樣圖的圖像。整個算法步驟如圖5所示,具體如下訓(xùn)練圖像數(shù)據(jù)庫中每張圖像的特征,生成N個視覺單詞(VisualWords)。首先提取所有數(shù)據(jù)庫中的SIFT特征,然后采用級聯(lián)K-Means算法對SIFT特征進行聚類,生成N個特征中心,并將此作為視覺單詞集合。為了后續(xù)的SIFT特征匹配,獲取每個SIFT特征的海明碼,并連同SIFT特征保存。利用MSER(MostStableExternalRegion最穩(wěn)外部區(qū)域)算法,獲取圖像數(shù)據(jù)庫中每張圖像的MSER特征。將MSER和SIFT特征進行綁定。如果某個MSER特征對應(yīng)的區(qū)域沒有任何SIFT特征,則去除該MSER特征。否則,以某個MSER特征對應(yīng)的區(qū)域內(nèi)含有的SIFT特征集作為后續(xù)特征檢索的基本特征單元。在進行檢索前,需要保存上述的SIFT特征庫,對應(yīng)的海明碼集合,以及視覺單詞集合。在進行檢索時,首先獲取樣例圖的MSER和SIFT的綁定特征。然后統(tǒng)計每個綁定特征所對應(yīng)的視覺單詞集合,并根據(jù)集合中的每個視覺單詞找到含有同樣視覺單詞的數(shù)據(jù)庫圖像,衡量兩者之間的匹配度。對樣例圖中的每個綁定特征實施上述步驟,并建立一個投票機制,記錄匹配度。投票機制的過程如下SIFT所映射的每一個視覺單詞都在視覺單詞集合中查詢,對查詢到的含有該視覺單詞的圖像中的綁定特征進行投票打分,投票結(jié)果放在臨時結(jié)果隊列中,投票結(jié)果附上綁定特征的編號,用于對投票結(jié)果的整理,所有視覺單詞都查詢完后,整理臨時結(jié)果隊列,一個SIFT對一張圖像的一個綁定特征,只保留一張得分最高的票,重復(fù)的票都刪除;將整理后的結(jié)果存入投票隊列中。整理投票結(jié)果,統(tǒng)計每張圖像的得分,按分數(shù)對圖像進行排序,結(jié)果寫回投票隊列。為了得到最終的檢索結(jié)果,采用層級過濾策略。首先利用局部特征匹配過程進行初步篩選,將篩選后的結(jié)果送入顏色和形狀特征(或者圖案特征)模塊進行更進一步的相似度匹配。并將最終的結(jié)果返回給客戶端。3.2)顯示頁面進行布局,對相似度進行排序。所有的檢索結(jié)果將返回給客戶端,并顯示在客戶端瀏覽器。顯示模式可以有多種不同的布局。圖6所示即為其中一種,客戶端顯示以斜對角線作為區(qū)分線,分別在X方向和Y方向(以左上角為原點)上按照顏色特征和形狀特征(圖案特征、局部特征)的相似性進行結(jié)果圖的展示。結(jié)果圖中同時含有商品價格、相應(yīng)網(wǎng)絡(luò)商家鏈接等信息。單擊結(jié)果圖,將可以該張結(jié)果圖作為輸入圖進行新一輪的檢索。3.3)顯示頁面中,每張結(jié)果圖同時含有商品價格、商家鏈接、比價鏈接等多種屬性。在結(jié)果頁面,為了給用戶提供更多的選擇,引導(dǎo)客戶更快地查看商品相關(guān)的信息,以及商品之間的比較,在每個結(jié)果顯示頁面,除了提供結(jié)果圖以外,還在結(jié)果圖的周圍(上面或下面)提供商品價格信息、商品的商家鏈接、以及比價鏈接等信息。在研究用戶的購物習慣和用戶網(wǎng)上購物體驗以后,將對結(jié)果圖像及其相關(guān)信息進行特定的布局排列,使得用戶更容易、更方便、更快速的購買到想要的商品。最終目的是為了快速促成網(wǎng)絡(luò)交易。權(quán)利要求一種基于感性認知的圖像檢索結(jié)果排序方法,其特征在于,包括如下步驟(1)構(gòu)建圖像特征庫。1.1)在構(gòu)建圖像特征庫前,預(yù)先獲得入庫圖像的掩膜區(qū)域。1.2)獲得圖像的掩膜區(qū)域后,得到圖像的顏色特征。1.3)獲得圖像的掩膜區(qū)域后,得到圖像的形狀特征。1.4)獲得圖像的掩膜區(qū)域后,對于T恤等特殊類別服裝,得到圖案特征。1.5)構(gòu)建檢索數(shù)據(jù)庫,整個數(shù)據(jù)庫由原始圖像和特征文件兩部分構(gòu)成。(2)以B/S架構(gòu)在客戶端建立導(dǎo)購平臺,用戶可選擇庫中圖像或其它圖像作為輸入進行檢索,檢索結(jié)果返回客戶端。(3)基于感性認知的相似性顯示檢索結(jié)果。3.1)根據(jù)圖像的顏色、形狀、圖案特征,以及款式、風格主觀特征對檢索結(jié)果進行排序。3.2)顯示頁面中,以基于相似性的順序排列或者基于特征的縱橫交錯布局,分別根據(jù)顏色、形狀、圖案特征的相似度進行排序。3.3)顯示頁面中,每張結(jié)果圖同時含有商品價格、商家鏈接、比價鏈接等多種屬性。其中,所述步驟(1.1)中,所述圖像掩膜區(qū)域的獲取方法是采用目標自動定位方法,粗略估算圖像中目標物體所在的長方形區(qū)域。對于自動定位不準確的圖像,采用人工畫框確定長方形區(qū)域。確定長方形區(qū)域后,利用圖像分割算法獲得目標的非規(guī)則性準確區(qū)域,即掩膜區(qū)域。所述步驟(1.2)中,圖像的顏色特征獲取方法為首先將紅、綠、藍三原色進行量化,形成有限個格子。根據(jù)量化后的顏色分布,得到顏色直方圖。取前N位顏色為初始聚類中心,利用K-均值算法進行顏色聚類。將最終聚類后的顏色從紅、綠、藍三原色轉(zhuǎn)換到色調(diào)-飽和度-亮度顏色空間。色調(diào)-飽和度-亮度顏色空間空間被量化為M級,分別是H值M1級,S值和V值各M2級。最終將轉(zhuǎn)換后的色調(diào)-飽和度-亮度顏色空間顏色分類以及該類顏色占的比重保存到特征文件。所述步驟(1.3)中,圖像的形狀特征獲取方法為在掩膜區(qū)域利用N線法,衡量每條線和掩膜區(qū)域?qū)挾鹊谋壤?,以N條線的比例值數(shù)組作為形狀特征。而對于箱包之類的圖像,形狀特征還包括長寬比。所述步驟(1.4)中,圖像的圖案特征獲取方法為首先采用目標自動定位方法,粗略估算掩膜區(qū)域區(qū)域中圖案所在的長方形區(qū)域。對于自動定位不準確的圖像,采用人工畫框確定長方形區(qū)域。確定長方形區(qū)域后,獲取圖案區(qū)域的縮放、旋轉(zhuǎn)不變的特征變換SIFT特征作為圖案特征。所述步驟(1.5)中,整個數(shù)據(jù)庫中的圖像數(shù)據(jù)來源于網(wǎng)絡(luò),每張圖像在入庫前,需要單獨獲取各種特征,并存入特征文件。采用分段方式存儲圖像特征,每次讀入一個分段的所有圖像的特征,加快后期的檢索速度。所述步驟(2)中,檢索步驟是輸入樣圖,首先獲取樣圖的MASK區(qū)域,然后在MASK區(qū)域獲取樣圖的特征。將樣圖特征與數(shù)據(jù)庫中圖像的特征進行比較,返回前N張結(jié)果圖。樣圖可以是庫中的,也可以是用戶自己上傳的。所述步驟(3)中,基于樣圖檢索得到的結(jié)果圖列表中,按照感知相似性進行結(jié)果圖的展示。結(jié)果圖中同時含有商品價格、相應(yīng)網(wǎng)絡(luò)商家鏈接。單擊結(jié)果圖,將可以該張結(jié)果圖作為輸入圖進行新一輪的檢索。全文摘要本發(fā)明公開了一種基于感性認知的圖像檢索結(jié)果排序方法,該方法主要基于圖像的客觀特征和主觀感性認知對圖像結(jié)果進行排序。在對圖像理解的基礎(chǔ)上,提取圖像特征,獲取相似度,并基于用戶體驗對顯示方式進行布局。本發(fā)明在文本無法準確表達的情況下,用戶可在該平臺上更好地展示自己的購物需求,減少用戶對商品的查找時間,更加有效地促成網(wǎng)絡(luò)商品交易。同時,本發(fā)明將促進新型電子購物平臺的發(fā)展,使中國電子商務(wù)網(wǎng)絡(luò)平臺更加多元化。文檔編號G06F17/30GK101853299SQ20101018651公開日2010年10月6日申請日期2010年5月31日優(yōu)先權(quán)日2010年5月31日發(fā)明者徐舒暢,林建聰,王海洋,鄭聃,黃琦申請人:杭州淘淘搜科技有限公司