一種基于Lucene倒排索引的圖像特征索引方法
【專利摘要】本發(fā)明公開了一種基于Lucene倒排索引的圖像特征索引方法,提出在待索引的圖像特征中,對每一個(gè)維度加入位置信息,以標(biāo)識其為固定維度上的數(shù)值,從而解決無法區(qū)分每個(gè)數(shù)據(jù)所處的維度位置的問題,在檢索時(shí)能夠過濾不相關(guān)的圖像,提高檢索效率。
【專利說明】—種基于Lucene倒排索弓I的圖像特征索弓I方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于多媒體信息檢索【技術(shù)領(lǐng)域】,涉及一種倒排索引改進(jìn)方案,具體地說,涉及一種基于Lucene倒排索引的圖像特征索引方法。
【背景技術(shù)】
[0002]近年來,隨著web2.0的普及,多媒體信息檢索需求越來越大,需求推動技術(shù)的發(fā)展,近年來圖像檢索的研究取得了很大的成就,基于內(nèi)容的圖像檢索技術(shù)的研究已經(jīng)成為了搜索引擎研究最為活躍的研究領(lǐng)域之一。
[0003]目前基于內(nèi)容的圖像檢索的主要索引方式有LSH算法及其數(shù)據(jù)結(jié)構(gòu)、多維空間樹R-TREE、分層K-meansTree和倒排索引。LSH算法通過局部敏感感知原理,過濾掉大部分不相關(guān)的數(shù)據(jù),從而只需要計(jì)算少量的圖像與源圖像之間的相似度,他的優(yōu)點(diǎn)是速度較快,缺點(diǎn)是內(nèi)存消耗很大,而且不保證得到最優(yōu)解。R-TREE: —種類似B-tree的高維空間索引結(jié)構(gòu),R-TREE適應(yīng)的維數(shù)不高,只能在2-5維之間,維數(shù)的增加會導(dǎo)致性能程指數(shù)級下降,也就是所謂的維度災(zāi)難,后續(xù)一系列的R-TREE改進(jìn)算法也都沒能克服維度災(zāi)難。目前檢索性能最好的應(yīng)該是分層K-meansTree,他通過分層的k-means聚類算法,將相似的圖像聚類到一個(gè)相似半徑里面,這樣查詢的時(shí)候直接取相似半徑里的圖像計(jì)算相似度就行了,這種算法的優(yōu)勢是,避免了線性的計(jì)算每個(gè)圖像之間的相似度,極大的提高了檢索速度。但缺點(diǎn)是,我們每層選取的類數(shù)目很大程度影響著檢索效率,而且如果在用k-means算法聚類的時(shí)候,初始值選擇不合適會導(dǎo)致產(chǎn)生局部最優(yōu)解,而不是全局最優(yōu)解,這個(gè)時(shí)候我們就得多次隨機(jī)選擇初始值,然后選擇最優(yōu)解。還有一個(gè)缺點(diǎn)就是,這種結(jié)構(gòu)如果新增一個(gè)圖像,就需要整棵樹的重新分層聚類一遍,這個(gè)代價(jià)太大了。
[0004]相對而言,采用倒排索引的方式索引和檢索圖像特征,是一種不錯(cuò)的選擇,倒排索引不存在維度災(zāi)難,而且現(xiàn)在對于倒排索引技術(shù)的應(yīng)用相當(dāng)成熟,他的索引更新代價(jià)相對較小,但是倒排索引應(yīng)用在圖像檢索中模糊程度過大,因?yàn)榈古潘饕诮o文檔評分的時(shí)候是按照關(guān)聯(lián)度來評分的,也就是文檔包含某個(gè)詞,他就具有一定的分?jǐn)?shù),而對于圖像特征向量,每個(gè)維度上的值是不能與其他維度上的值相關(guān)聯(lián)的,索引現(xiàn)在一般的倒排索引應(yīng)用在圖像檢索中會導(dǎo)致搜索結(jié)果過于模糊,結(jié)果集太大,導(dǎo)致檢索性能低。
[0005]在已有研究成果中,現(xiàn)今的倒排索引應(yīng)用在圖像檢索領(lǐng)域,無法區(qū)分?jǐn)?shù)據(jù)所在的維度位置,因而導(dǎo)致檢索時(shí)會有大量的不相關(guān)的圖像加入候選集,候選集的數(shù)量直接影響了檢索效率。普通的文本在倒排表中建立索引是沒有順序的,也就是說向量[1,2,3]會被認(rèn)為和[3,1,2]是相似的,這對于圖像的特征向量是不符合邏輯,在圖像的特征向量中,每個(gè)維度的值比較只能和自己對應(yīng)維度上值的比較,而不能和其他維度值比較。因此,我們需要找到一種方式能讓倒排索引認(rèn)為[1,2,3]和[1,2,4]是相似的,而不是[1,2,3]和[3,1,2]是不相似的,這就要求在對圖像的特征向量建立倒排索引的時(shí)候,需要讓索引加入位置信息。
【發(fā)明內(nèi)容】
[0006]為了克服現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供了一種基于Lucene倒排索引的圖像特征索引方法,針對圖像檢索,本方法通過改進(jìn)圖像特征的存儲和索引方式,提高圖像的檢索速度和綜合檢索性能。其技術(shù)方案為,
[0007]一種基于Lucene倒排索引的圖像特征索引方法,包括以下步驟:
[0008]A創(chuàng)建索引過程:
[0009]Al詞法分析語言處理,對文本串做分詞處理;
[0010]A2加入位置信息,對每個(gè)分好的詞,按照其在文本中的位置加入含有位置編號的前綴,例如:第一個(gè)位置加入Ll_ ;
[0011]A3索引創(chuàng)建,根據(jù)分好的詞,創(chuàng)建索引,建立詞和文檔的倒排表;
[0012]A4將倒排索引表寫入磁盤保存;
[0013]B檢索過程:
[0014]BI詞法分析語言處理,對文本串做分詞處理;
[0015]B2加入位置信息,對每個(gè)分好的詞,按照其在文本中的位置加入含有位置編號的iu綴;
[0016]B3語法分析,分析查詢語句的查詢邏輯,提交檢索器根據(jù)查詢邏輯搜索結(jié)果;
[0017]B4搜索索引,根據(jù)語法分析器提交的邏輯檢索相關(guān)文檔;
[0018]B5相關(guān)性排序,按照查詢文檔和候選集文檔的相關(guān)性排序選擇TopN作為結(jié)果集返回。
[0019]進(jìn)一步優(yōu)選,步驟Al中所述詞法分析語言處理是根據(jù)圖像特征向量文本串化后的特點(diǎn),使用Iucene的WhitespaceAnalyzer按照空格分詞。
[0020]進(jìn)一步優(yōu)選,步驟A2中所述加入位置信息,對每個(gè)分好的詞,按照其在文本中的位置加入含有位置編號的前綴,同時(shí)去掉值為O的詞;
[0021]進(jìn)一步優(yōu)選,步驟B4中所述搜索索引包括了對文檔按照索引相關(guān)性打分的邏輯,根據(jù)向量間的距離計(jì)算方法,重寫Iucene的Similarity對象,只需保留tdf屬性作為評分標(biāo)準(zhǔn),用詞頻來評分。
[0022]本發(fā)明的有益效果:
[0023]本發(fā)明提出在待索引的圖像特征中,對每一個(gè)維度加入位置信息,以標(biāo)識其為固定維度上的數(shù)值,從而解決無法區(qū)分每個(gè)數(shù)據(jù)所處的維度位置的問題,在檢索時(shí)能夠過濾不相關(guān)的圖像,提聞檢索效率。
【專利附圖】
【附圖說明】
[0024]圖1是本發(fā)明基于Lucene倒排索引的圖像特征索引方法流程圖。
【具體實(shí)施方式】
[0025]下面結(jié)合附圖和【具體實(shí)施方式】對本發(fā)明的技術(shù)方案作進(jìn)一步詳細(xì)地說明。
[0026]A、概念
[0027]首先基于以往的研究成果,定義圖像特征向量:
[0028]image 1: v = {a1; a2, a3, a4 an}[0029]image2:v = {b” b2, b3, b4''' bj
[0030]在對圖像向量建立索引的之前需要對向量文本串化,也就是把V變成ala2a3at..an(中間用空格隔開),然后對特征向量中的每個(gè)量加入位置信息,例如第一個(gè)位置加上
Ll_的前綴,則特征串變成了 Ll_alL2_a2L3_a3......L3_an,這樣在建立索引的時(shí)候就會
帶上位置信息,當(dāng)我們通過空格分詞,并建立索引的時(shí)候,沒個(gè)詞都帶上了位置信息,標(biāo)示出了是某個(gè)維度上的值,從而不會和其他維度上的值混淆。
[0031]B、算法的基本思想
[0032]V= {dl,d2,d3…dn}為圖像的η維的特征向量。
[0033]S= {ν?, ν2, ν3...νη}為圖像特征庫,我們通過V在S中找到相似度大于閥值th的圖像特征,從而得到候選集。
[0034]傳統(tǒng)的Iucene比較方式是按照詞在文檔中的出現(xiàn)頻率進(jìn)行評分。
[0035]V和Vj的相似度計(jì)算方法為:
[0036]
【權(quán)利要求】
1.一種基于Lucene倒排索引的圖像特征索引方法,其特征在于,包括以下步驟: A創(chuàng)建索引過程: Al詞法分析語言處理,對文本串做分詞處理; A2加入位置信息,對每個(gè)分好的詞,按照其在文本中的位置加入含有位置編號的前綴,例如:第一個(gè)位置加入Ll_ ; A3索引創(chuàng)建,根據(jù)分好的詞,創(chuàng)建索引,建立詞和文檔的倒排表; A4將倒排索引表寫入磁盤保存; B檢索過程: BI詞法分析語言處理,對文本串做分詞處理; B2加入位置信息,對每個(gè)分好的詞,按照其在文本中的位置加入含有位置編號的前三雙; B3語法分析,分析查詢語句的查詢邏輯,提交檢索器根據(jù)查詢邏輯搜索結(jié)果; B4搜索索引,根據(jù)語法分析器提交的邏輯檢索相關(guān)文檔; B5相關(guān)性排序,按照查詢文檔和候選集文檔的相關(guān)性排序選擇TopN作為結(jié)果集返回。
2.根據(jù)權(quán)利要求1所述的基于Lucene倒排索引的圖像特征索引方法,其特征在于,步驟Al中所述詞法分析語言處理是根據(jù)圖像特征向量文本串化后的特點(diǎn),使用Iucene的WhitespaceAnalyzer 按照空格分詞。
3.根據(jù)權(quán)利要求1所述的基于Lucene倒排索引的圖像特征索引方法,其特征在于,步驟A2中所述加入位置信息,對每個(gè)分好的詞,按照其在文本中的位置加入含有位置編號的前綴,同時(shí)去掉值為O的詞。
4.根據(jù)權(quán)利要求1所述的基于Lucene倒排索引的圖像特征索引方法,其特征在于,步驟B4中所述搜索索引包括了對文檔按照索引相關(guān)性打分的邏輯,根據(jù)向量間的距離計(jì)算方法,重寫Iucene的Similarity對象,只需保留tdf屬性作為評分標(biāo)準(zhǔn),用詞頻來評分。
【文檔編號】G06F17/30GK103955514SQ201410185288
【公開日】2014年7月30日 申請日期:2014年5月5日 優(yōu)先權(quán)日:2014年5月5日
【發(fā)明者】葉柏龍, 龍坡, 陳浩, 姚明東, 程京, 楊國龍 申請人:陳浩, 長沙博龍信息技術(shù)有限公司