本發(fā)明涉及計算機領(lǐng)域,尤其涉及一種多媒體信息檢索方法和系統(tǒng)。
背景技術(shù):近年來,隨著多媒體技術(shù)和計算機技術(shù)的飛速發(fā)展、大規(guī)模的多媒體信息越來越多地出現(xiàn)在眾多的研究和應(yīng)用領(lǐng)域。為了使這些龐雜的數(shù)據(jù)中所包含的信息能夠得到有效地訪問和利用,傳統(tǒng)的基于文本的檢索技術(shù)已經(jīng)無法滿足用戶日益增長的需求,基于內(nèi)容的檢索技術(shù)便應(yīng)運而生?;趦?nèi)容的檢索方法需要先提取出多媒體的特征數(shù)據(jù)建立特征數(shù)據(jù)庫,然后將對多媒體信息的檢索轉(zhuǎn)換為對特征數(shù)據(jù)的近鄰檢索。對于大規(guī)模多媒體信息而言,其特征數(shù)據(jù)也是大規(guī)模的。這就需要有與特征數(shù)據(jù)相對應(yīng)的合適的索引方法來組織特征數(shù)據(jù),加快檢索的速度。然而,多媒體信息的特征數(shù)據(jù)往往是高維的向量數(shù)據(jù)(簡稱高維向量),傳統(tǒng)的適應(yīng)于低維數(shù)據(jù)的索引機制難以適應(yīng)于基于內(nèi)容檢索的要求,這也就是通常所說的高維數(shù)據(jù)的索引維數(shù)災難現(xiàn)象。為了降低索引維數(shù)災難的影響,更好的實現(xiàn)高維數(shù)據(jù)索引,從而提高多媒體信息的檢索性能,目前在研究領(lǐng)域,通常采用哈希方法將高維向量映射成離散的比特向量,這可以大大節(jié)約高維向量的存儲消耗和提高相似查找速度。在利用比特向量進行多媒體信息檢索時,首先需要建立多媒體特征數(shù)據(jù)庫,具體包括:針對資料庫中的每個多媒體,提取出該多媒體的特征數(shù)據(jù),采用哈希方法將該多媒體的特征數(shù)據(jù)轉(zhuǎn)換成離散的n維比特向量,作為該多媒體的特征比特向量存儲于多媒體特征數(shù)據(jù)庫中?,F(xiàn)有技術(shù)在對多媒體信息進行檢索時,首先需要對已有的多媒體特征數(shù)據(jù)庫中的特征比特向量進行集合劃分和排序,建立有序表,其具體流程圖如圖1所示,具體包括如下步驟:S101:對已有的多媒體特征數(shù)據(jù)庫中的特征比特向量按照前p(p<n)個元素進行集合劃分。具體地,將多媒體特征數(shù)據(jù)庫中前p個元素相同的特征比特向量劃分到同一集合中。S102:針對每個集合,確定該集合的有序表。具體地,針對每個集合,將該集合內(nèi)的特征比特向量按照前一特征比特向量的二進制數(shù)值不大于后一特征比特向量的二進制數(shù)值大小進行排序,將排序后的各特征比特向量構(gòu)成該集合的有序表。根據(jù)已有的多媒體特征數(shù)據(jù)庫和有序表,現(xiàn)有技術(shù)基于比特向量的多媒體檢索方法,其具體流程圖如圖2所示,具體包括如下步驟:S201:提取出當前多媒體信息的特征數(shù)據(jù),采用哈希方法將其轉(zhuǎn)換成離散的n維比特向量,得到當前多媒體信息的特征比特向量。S202:根據(jù)當前多媒體信息的特征比特向量的前p個元素確定其所在的集合,在該集合內(nèi)利用有序表查找與當前多媒體信息的特征比特向量的漢明距離小于等于q的特征比特向量。具體地,將當前多媒體信息的特征比特向量劃分到與其前p個元素相同的特征比特向量所屬的集合中,在該集合內(nèi)利用有序表查找與當前多媒體信息的特征比特向量不同元素個數(shù)小于等于q的比特向量。事實上,如果比特向量各元素獨立,比特向量間的相似性一般可以用漢明距離度量,比特向量間的漢明距離可以表示為兩個相比較的等長比特向量間對應(yīng)位置比特值不同的元素個數(shù)。S203:將上述查找到的特征比特向量所對應(yīng)的多媒體,作為最終檢索結(jié)果輸出。然而,本發(fā)明的發(fā)明人發(fā)現(xiàn),上述的多媒體信息檢索方法進行檢索的速度仍然不能滿足系統(tǒng)面臨大量檢索需求時對檢索速度的要求;因此,有必要提供一種速度更快、效率更高的多媒體信息檢索方法。
技術(shù)實現(xiàn)要素:針對上述現(xiàn)有技術(shù)存在的缺陷,本發(fā)明提供了一種多媒體信息檢索方法及系統(tǒng),用以提高對多媒體信息檢索的速度和效率。根據(jù)本發(fā)明的一個方面,提供了一種多媒體信息檢索方法,包括:提取當前多媒體信息的特征數(shù)據(jù),將提取的特征數(shù)據(jù)轉(zhuǎn)換為特征比特向量后,對其進行均勻分割,得到k個子向量,其中第i個子向量由所述特征比特向量均勻分割后的第i組元素組成;i為1~k的自然數(shù);分別確定對應(yīng)所述當前多媒體信息的各子向量的候選集合,其中,針對第i個子向量,具體過程包括:在預先確定的第i個索引結(jié)構(gòu)的索引集中查找出與該第i個子向量相同的索引,并將查找出的索引所對應(yīng)的向量標識集合作為對應(yīng)該第i個子向量的候選集合;其中,第i個索引結(jié)構(gòu)中,第i個子 向量相同的待檢索多媒體信息的特征比特向量的向量標識存儲于同一向量標識集合中,且該向量標識集合的索引為該第i個子向量;對于得到的候選集合中的各向量標識,分別在多媒體特征數(shù)據(jù)庫中查找出對應(yīng)的特征比特向量;并計算所述當前多媒體信息的特征比特向量與查找到的特征比特向量之間的漢明距離,將漢明距離符合設(shè)定條件的特征比特向量所對應(yīng)的多媒體信息作為檢索結(jié)果輸出。較佳地,第i個索引結(jié)構(gòu)的確定方法,包括:針對每個待檢索多媒體信息,將該待檢索多媒體信息的特征比特向量進行均勻分割,得到該待檢索多媒體信息的k個子向量;其中,該待檢索多媒體信息的第i個子向量由所述特征比特向量分割后的第i組元素組成;i為1~k的自然數(shù);將第i個子向量相同的待檢索多媒體信息的特征比特向量的向量標識劃分到同一向量標識集合中;并將該向量標識集合中的向量標識所對應(yīng)的特征比特向量中的相同的第i個子向量,作為該向量標識集合的索引,并存儲到第i個索引結(jié)構(gòu)的索引集中。較佳地,所述對于得到的候選集合中的各向量標識,分別在多媒體特征數(shù)據(jù)庫中查找出對應(yīng)的特征比特向量,具體包括:將得到的候選集合進行并集操作后,得到候選合并集合;對于所述候選合并集合中的每個向量標識,在所述多媒體特征數(shù)據(jù)庫中查找出對應(yīng)該向量標識的特征比特向量。較佳地,所述漢明距離符合設(shè)定條件的特征比特向量具體為:與所述當前多媒體信息的特征比特向量的漢明距離小于等于q的特征比特向量,其中,所述q小于等于k。較佳地,第i個索引結(jié)構(gòu)具體為鍵/值Key/Value形式結(jié)構(gòu);其中,所述相同的第i個子向量作為Key,對應(yīng)所述相同的第i個子向量的向量標識集合作為對應(yīng)該Key的Value。根據(jù)本發(fā)明的另一個方面,還提供了一種多媒體信息檢索系統(tǒng),包括:特征比特向量確定模塊,用于提取當前多媒體信息的特征數(shù)據(jù),根據(jù)提取的特征數(shù)據(jù)得到所述當前多媒體信息的特征比特向量;特征比特向量分割模塊,用于對所述特征比特向量確定模塊得到的特征比特向量進行均勻分割,得到所述當前多媒體信息的k個子向量,其中第i個子向量由所述特征比特向量分割后的第i組元素組成;i為1~k的自然數(shù);候選集合確定模塊,用于針對所述特征比特向量分割模塊得到的當前多媒體信息的每個子向量,分別確定對應(yīng)該子向量的候選集合;其中,針對第i個子向量確定其對應(yīng)的候選集合具體過程包括:在預先確定的第i個索引結(jié)構(gòu)的索引集中查找出與該第i個子向量相同的索引,并將查找出的索引所對應(yīng)的向量標識集合作為對應(yīng)該第i個子向量的候選集合;其中,第i個索引結(jié)構(gòu)中,第i個子向量相同的待檢索多媒體信息的特征比特向量的向量標識存儲于同一向量標識集合中,且該向量標識集合的索引為該第i個子向量;特征比特向量查找模塊,用于對于所述候選集合確定模塊得到的候選集合中的各向量標識,分別在多媒體特征數(shù)據(jù)庫中查找出對應(yīng)的特征比特向量;漢明距離計算模塊,用于計算所述當前多媒體信息的特征比特向量與所述特征比特向量查找模塊查找到的特征比特向量之間的漢明距離;檢索結(jié)果輸出模塊,用于根據(jù)所述漢明距離計算模塊計算的漢明距離,將漢明距離符合設(shè)定條件的特征比特向量所對應(yīng)的多媒體信息作為檢索結(jié)果輸出。較佳地,所述多媒體信息檢索系統(tǒng)還包括:索引結(jié)構(gòu)構(gòu)建模塊,用于構(gòu)建k個索引結(jié)構(gòu),其中第i個索引結(jié)構(gòu)是采用如下方法構(gòu)建:針對每個待檢索多媒體信息,將該待檢索多媒體信息的特征比特向量進行均勻分割,得到該待檢索多媒體信息的k個子向量;其中,該待檢索多媒體信息的第i個子向量由該待檢索多媒體信息的特征比特向量中的第i組元素組成;i為1~k的自然數(shù);將第i個子向量相同的待檢索多媒體信息的特征比特向量的向量標識劃分到同一向量標識集合中;并將該向量標識集合中的向量標識所對應(yīng)的特征比特向量中的相同的第i個子向量,作為該向量標識集合的索引,并存儲到第i個索引結(jié)構(gòu)的索引集中。較佳地,所述索引結(jié)構(gòu)構(gòu)建模塊具體包括:特征比特向量分割單元,用于針對每個待檢索多媒體信息,將該待檢索多媒體信息的特征比特向量進行分割,得到該待檢索多媒體信息的k個子向量;向量標識集合劃分單元,用于在構(gòu)建第i個索引結(jié)構(gòu)時,將第i個子向量相同的待檢索多媒體信息的特征比特向量的向量標識劃分到同一向量標識集合中;索引建立單元,用于在構(gòu)建第i個索引結(jié)構(gòu)時,對于所述向量標識集合劃分單元劃分出的向量標識集合,將該向量標識集合中的向量標識所對應(yīng)的 特征比特向量中的相同的第i個子向量,作為對應(yīng)該向量標識集合的子向量,并作為第i個索引結(jié)構(gòu)中的索引進行存儲。較佳地,所述特征比特向量查找模塊具體包括:候選集合合并單元,將所述候選集合確定模塊得到的候選集合進行并集操作后,得到候選合并集合;向量查找單元,用于對于所述候選合并集合中的每個向量標識,在所述多媒體特征數(shù)據(jù)庫中查找出對應(yīng)該向量標識的特征比特向量。較佳地,所述漢明距離符合設(shè)定條件的特征比特向量具體為:與所述當前多媒體信息的特征比特向量的漢明距離小于等于q的特征比特向量,其中,所述q小于等于k。本發(fā)明的技術(shù)方案中,通過對待檢索多媒體信息建立k個分段索引結(jié)構(gòu),查找與當前多媒體信息的特征比特向量中m(每個子向量中的向量元素個數(shù))個元素相同的特征比特向量參與漢明距離計算,相比于現(xiàn)有技術(shù)中采用分塊有序表查找與當前多媒體信息的特征比特向量中前p個元素相同的特征比特向量參與漢明距離計算,本發(fā)明方案可以大大減少參與漢明距離計算的特征比特向量個數(shù),從而大大減少了一次檢索過程中的計算量,達到提高檢索速度和效率的目的。進一步,本發(fā)明的檢索方法中,為了檢索的可持續(xù)性,只需要根據(jù)當前多媒體信息的各子向量,將當前多媒體信息的特征比特向量的向量標識劃分到k個索引結(jié)構(gòu)中的相對應(yīng)的向量標識集合中,此計算量遠小于現(xiàn)有技術(shù)的將特征比特向量與有序表中海量的特征比特向量進行比較、排序的計算量,從而大大提高檢索速度、檢索效率。附圖說明圖1為現(xiàn)有技術(shù)構(gòu)建有序表的方法流程圖;圖2為現(xiàn)有技術(shù)的多媒體信息檢索的方法流程圖;圖3為本發(fā)明實施例的構(gòu)建分段索引的方法流程圖;圖4為本發(fā)明實施例的多媒體信息檢索的方法流程圖;圖5為本發(fā)明實施例的多媒體信息檢索系統(tǒng)的示意圖;圖6為本發(fā)明實施例的特征比特向量查找模塊的內(nèi)部結(jié)構(gòu)框圖;圖7為本發(fā)明實施例的索引結(jié)構(gòu)構(gòu)建模塊的內(nèi)部結(jié)構(gòu)框圖。具體實施方式以下將結(jié)合附圖對本發(fā)明的技術(shù)方案進行清楚、完整的描述,顯然, 所描述的實施例僅僅是本發(fā)明的一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動的前提下所得到的所有其它實施例,都屬于本發(fā)明所保護的范圍。本發(fā)明的思路為,預先建立k個分段索引結(jié)構(gòu),在對當前多媒體信息進行檢索時,利用k個分段索引結(jié)構(gòu)查找與當前多媒體信息的特征比特向量中m(比如32)個元素相同的特征比特向量參與漢明距離計算,相比于現(xiàn)有技術(shù)中,參與漢明距離計算的前p(比如3)個元素相同的特征比特向量,大大縮小了參與漢明距離計算的特征比特向量數(shù),從而大大減少了一次檢索過程中的計算量,達到提高檢索速度和效率的目的。下面結(jié)合附圖詳細說明本發(fā)明的技術(shù)方案。本發(fā)明具體實施方式以在待檢索的多媒體n維特征比特向量中,查找與當前多媒體信息特征比特向量漢明距離小于等于k的特征為例,介紹基于分段索引思想設(shè)計的多媒體信息檢索的方法,首先需要建立多媒體特征數(shù)據(jù)庫和分段索引,具體流程圖如圖3所示,具體包括如下步驟:S301:針對資料庫中的每個待檢索多媒體信息,提取出該待檢索多媒體信息的特征數(shù)據(jù),采用哈希方法將該特征數(shù)據(jù)轉(zhuǎn)換成離散的n維比特向量,得到每個待檢索多媒體信息的特征比特向量。S302:將每個待檢索多媒體信息的特征比特向量及其向量標識存儲于多媒體特征數(shù)據(jù)庫中。具體地,為每個待檢索多媒體信息的特征比特向量分配一個唯一的向量標識,然后以該向量標識作為Key(鍵),以與該向量標識對應(yīng)的特征比特向量作為Value(值),以Key/Value(鍵/值)的形式存儲于多媒體特征數(shù)據(jù)庫中,以便后面查詢和匹配。S303:針對每個待檢索多媒體信息,將該待檢索多媒體信息的特征比特向量進行均勻分割,建立分段索引,得到k個索引結(jié)構(gòu)。具體地,將每個待檢索多媒體信息的特征比特向量進行均勻分割,得到該待檢索多媒體信息的k個子向量;其中,該待檢索多媒體信息的第i個子向量由該待檢索多媒體信息的特征比特向量分割后的第i組元素組成;該待檢索多媒體信息的特征比特向量分割后的第i組元素具體包括特征比特向量中第(i-1)×m+1~i×m個元素;其中,i為1~k中的任意一個自然數(shù),m為每個子向量(或每組元素)中的向量元素個數(shù);在建立分段索引過程中,k個索引結(jié)構(gòu)中的第i個索引結(jié)構(gòu)是根據(jù)如下 方法得到的:在第i個索引結(jié)構(gòu)中,第i個子向量相同的待檢索多媒體信息的特征比特向量的向量標識存儲于同一向量標識集合中,且該向量標識集合的索引為該第i個子向量;并將該向量標識集合中的向量標識所對應(yīng)的特征比特向量中的相同的第i個子向量,作為該向量標識集合的索引,并存儲到第i個索引結(jié)構(gòu)的索引集中。具體地,將第i個子向量相同的待檢索多媒體信息的特征比特向量的向量標識劃分到同一向量標識集合中;并將該向量標識集合中的向量標識所對應(yīng)的特征比特向量中的相同的第i個子向量作為Key,對應(yīng)上述相同的第i個子向量的向量標識集合作為對應(yīng)該Key的Value,從而構(gòu)建出Key/Value結(jié)構(gòu)的分段索引中的第i個索引結(jié)構(gòu)。其中,i可以是1~k中的任意一個自然數(shù)。在構(gòu)建了上述的分段索引的k個索引結(jié)構(gòu)后,基于該分段索引,本發(fā)明實施例所提供的多媒體信息檢索方法,具體流程圖如圖4所示,具體包括如下步驟:S401:提取出當前多媒體信息的特征數(shù)據(jù),采用哈希方法將當前多媒體信息的特征數(shù)據(jù)轉(zhuǎn)換成離散的n維比特向量,得到當前多媒體信息的特征比特向量。S402:將所述當前多媒體信息的特征比特向量進行均勻分割,得到所述當前多媒體信息的k個子向量。具體地,所述當前多媒體信息的第i個子向量由所述當前多媒體信息的特征比特向量均勻分割后的第i組元素組成,其中第i組元素具體包括當前多媒體信息的特征比特向量中的第(i-1)×m+1個元素~第i×m個元素;其中i為1~k的自然數(shù),m為每個子向量(或每組元素)中的向量元素個數(shù);S403:針對所述當前多媒體信息的每個子向量,分別確定對應(yīng)該子向量的候選集合。具體地,針對當前多媒體信息的各子向量,分別確定出對應(yīng)的候選集合,從而確定出k個候選集合;其中,在確定對應(yīng)當前多媒體信息的第i個子向量的候選集合的過程中,對于所述當前多媒體信息的第i個子向量,其對應(yīng)的候選集合根據(jù)如下方法確定:在第i個索引結(jié)構(gòu)的索引集中查找出與該待檢索多媒體信息的第i個子向量相同的索引,并將查找出的索引所對應(yīng)的向量標識集合作為對應(yīng)所述當前多媒體信息的第i個子向量的候選集合。S404:對于得到的候選集合中的各向量標識,分別在多媒體特征數(shù)據(jù)庫中查找出對應(yīng)的特征比特向量。具體地,對于上述步驟S403中得到的對應(yīng)當前多媒體信息的各子向量的候選集合,即k個候選集合,在多媒體特征數(shù)據(jù)庫中查找出對應(yīng)候選集合中的各向量標識的特征比特向量。作為一種更優(yōu)的實施方式,考慮到上述步驟S403中得到的各候選集合中可能存在一些重復的向量標識;因此,可以先將得到的k個候選集合進行并集操作后,得到候選合并集合;對于所述候選合并集合中的每個向量標識,在所述多媒體特征數(shù)據(jù)庫中查找出對應(yīng)該向量標識的特征比特向量。具體地,以候選合并集合中的每個向量標識作為Key,去多媒體特征庫中查找對應(yīng)該Key的Value,即為與所述每個候選向量標識對應(yīng)的特征比特向量。S405:計算所述當前多媒體信息的特征比特向量與查找到的特征比特向量之間的漢明距離。S406:將漢明距離符合設(shè)定條件的特征比特向量所對應(yīng)的多媒體信息作為檢索結(jié)果輸出。具體地,符合設(shè)定條件的特征比特向量具體可以是:與所述當前多媒體信息的特征比特向量的漢明距離小于等于q的特征比特向量;較優(yōu)地,上述的k大于q,即q小于等于k,這樣可以保證不會出現(xiàn)漏檢,即符合設(shè)定條件的特征比特向量的向量標識都包括在候選集合中。以在128維的待檢索多媒體信息的特征比特向量中,查找與當前多媒體信息特征比特向量漢明距離小于等于3(q)為例,本發(fā)明通過對待檢索多媒體信息建立4(k=q+1)個鍵值Key/Value結(jié)構(gòu)的分段索引,查找到與當前多媒體信息的特征比特向量中32(m)個元素相同的特征比特向量,再計算上述查找到的特征比特向量與當前多媒體信息的特征比特向量間的漢明距離,此時參與漢明距離計算的特征比特向量有2128-32+2=298個,而現(xiàn)有技術(shù)中采用分塊有序表查找與當前多媒體信息的特征比特向量中前p個元素相同的特征比特向量,再計算上述查找到的特征比特向量與當前多媒體信息的特征比特向量間的漢明距離,由于p不能是一個較大的數(shù)——若p值較大將導致漏檢數(shù)量較大;因此,p通常為一個較小的數(shù),例如小于等于3,此時參與漢明距離計算的特征比特向量至少有2128-3-1=2124個;雖然利用有序表可以在一定程度上便于漢明距離計算中的比特位的比較,但是由于現(xiàn)有技術(shù)中參與漢明距離計算的特征比特向量的倍數(shù)是本發(fā)明技術(shù)中參與漢明距離計算的特征比特向量的226倍,數(shù)量差距巨大;事實上,上述的m是由k決定的:m=n/k,其中,n為特征比特向量的 維數(shù),對于高維特征比特向量,n通常為100以上的值;而k則是比q稍大的一個數(shù);通常,為滿足檢索要求,本領(lǐng)域技術(shù)人員通常將漢明距離q值設(shè)置為一個較小的數(shù),比如小于3或4的數(shù);因此,通常m至少為兩位數(shù),甚至更大。而現(xiàn)有技術(shù)中為了避免出現(xiàn)過多漏檢的情況,p值設(shè)定不能過大,通常要小于或等于q值;因此,由于本發(fā)明中參與漢明距離計算的32(m)個元素相同的特征比特向量的個數(shù),要遠小于現(xiàn)有技術(shù)中的參與漢明距離計算的3(p)個元素相同的特征比特向量的個數(shù),從而大大減小了參與漢明距離計算的特征比特向量的數(shù)量,以減小運算量,提高檢索速度和效率。此外,為了檢索的可持續(xù)性,現(xiàn)有技術(shù)的檢索方法中,在檢索出多媒體后,還需將當前多媒體信息的特征比特向量插入到有序表中,作為待檢索的多媒體的特征比特向量以備下次檢索。而將特征比特向量插入到有序表中的計算過程,也是計算量非常大;而本發(fā)明的檢索方法中,為了檢索的可持續(xù)性,只需要根據(jù)當前多媒體信息的各子向量,將當前多媒體信息的特征比特向量的向量標識劃分到k個索引結(jié)構(gòu)中的相對應(yīng)的向量標識集合中,并將當前多媒體信息的特征比特向量及其向量標識插入到多媒體特征數(shù)據(jù)庫中,此計算量遠小于現(xiàn)有技術(shù)的將特征比特向量與有序表中海量的特征比特向量進行比較、排序的計算量,從而大大提高檢索速度、檢索效率。上述將當前多媒體信息的特征比特向量的向量標識劃分到k個索引結(jié)構(gòu)中的相對應(yīng)的向量標識集合的具體過程可以是:將當前多媒體信息的特征比特向量的向量標識劃分(插入)到上述得到的k個候選集合中。對于在檢索過程中,若k個索引結(jié)構(gòu)中的第i個索引結(jié)構(gòu),其索引中不存在當前多媒體信息的第i子向量,則將當前多媒體信息的第i子向量作為第i個索引結(jié)構(gòu)的索引進行存儲,并創(chuàng)建包含當前多媒體信息的特征比特向量的向量標識的向量標識集合,將創(chuàng)建的向量標識集合對應(yīng)該索引存儲到第i個索引結(jié)構(gòu)中。若所述當前多媒體信息的數(shù)據(jù)被刪除,則將當前多媒體信息的特征比特向量及其向量標識從多媒體特征數(shù)據(jù)庫中刪除,并將k個索引結(jié)構(gòu)中的k個候選集合中的當前多媒體信息的特征比特向量的向量標識刪除?;谏鲜龅臋z索方法,本發(fā)明實施例提供的一種多媒體信息檢索系統(tǒng),如圖5所示,包括:檢索裝置501和數(shù)據(jù)庫索引結(jié)構(gòu)構(gòu)建裝置502;其中,檢索裝置501包括:特征比特向量確定模塊511、特征比特向量分割模塊512、候選集合確定模塊513、特征比特向量查找模塊514、漢明距離計算模塊515以及檢索結(jié)果輸出模塊516。特征比特向量確定模塊511用于提取當前多媒體信息的特征數(shù)據(jù),根據(jù)提取的特征數(shù)據(jù)得到所述當前多媒體信息的特征比特向量。特征比特向量分割模塊512用于對特征比特向量確定模塊511得到的特征比特向量進行均勻分割,得到所述當前多媒體信息的k個子向量,其中第i個子向量由所述特征比特向量分割后的第i組元素組成;i為1~k的自然數(shù);候選集合確定模塊513用于針對所述特征比特向量分割模塊得到的當前多媒體信息的每個子向量,分別確定對應(yīng)該子向量的候選集合;其中,針對第i個子向量確定其對應(yīng)的候選集合具體過程包括:在預先確定的第i個索引結(jié)構(gòu)的索引集中查找出與該第i個子向量相同的索引,并將查找出的索引所對應(yīng)的向量標識集合作為對應(yīng)該第i個子向量的候選集合;其中,第i個索引結(jié)構(gòu)中,第i個子向量相同的待檢索多媒體信息的特征比特向量的向量標識存儲于同一向量標識集合中,且該向量標識集合的索引為該第i個子向量。特征比特向量查找模塊514用于對于候選集合確定模塊513得到的候選集合中的各向量標識,分別在多媒體特征數(shù)據(jù)庫中查找出對應(yīng)的特征比特向量。漢明距離計算模塊515用于計算所述當前多媒體信息的特征比特向量與特征比特向量查找模塊514查找到的特征比特向量之間的漢明距離。檢索結(jié)果輸出模塊516用于根據(jù)漢明距離計算模塊515計算的漢明距離,將漢明距離符合設(shè)定條件的特征比特向量所對應(yīng)的多媒體作為檢索結(jié)果輸出。其中,數(shù)據(jù)庫索引結(jié)構(gòu)構(gòu)建裝置502包括:多媒體特征數(shù)據(jù)庫建立模塊521和索引結(jié)構(gòu)構(gòu)建模塊522。多媒體特征數(shù)據(jù)庫建立模塊521用于存儲待檢索多媒體信息的特征比特向量及其向量標識。索引結(jié)構(gòu)構(gòu)建模塊522用于構(gòu)建k個索引結(jié)構(gòu),其中第i個索引結(jié)構(gòu)是采用如下方法構(gòu)建:針對每個待檢索多媒體信息,將該待檢索多媒體信息的特征比特向量進行均勻分割,得到該待檢索多媒體信息的k個子向量;其中,該待檢索多媒體信息的第i個子向量由該待檢索多媒體信息的特征比特向量 中的第i組元素組成;i為1~k的自然數(shù);將第i個子向量相同的待檢索多媒體信息的特征比特向量的向量標識劃分到同一向量標識集合中;并將該向量標識集合中的向量標識所對應(yīng)的特征比特向量中的相同的第i個子向量,作為該向量標識集合的索引,并存儲到第i個索引結(jié)構(gòu)的索引集中。上述的特征比特向量查找模塊514中的內(nèi)部結(jié)構(gòu)框圖如圖6所示,具體包括:候選集合合并單元601和向量查找單元602。候選集合合并單元601用于將候選集合確定模塊513得到的候選集合進行并集操作后,得到候選合并集合;向量查找單元602用于對于所述候選合并集合中的每個向量標識,在所述多媒體特征數(shù)據(jù)庫中查找出對應(yīng)該向量標識的特征比特向量。上述的索引結(jié)構(gòu)構(gòu)建模塊522中的內(nèi)部結(jié)構(gòu)框圖如圖7所示,具體包括:特征比特向量分割單元701、向量標識集合劃分單元702、索引建立單元703。特征比特向量分割單元701針對每個待檢索多媒體信息,將該待檢索多媒體信息的特征比特向量進行均勻分割,得到該待檢索多媒體信息的k個子向量;向量標識集合劃分單元702在構(gòu)建第i個索引結(jié)構(gòu)時,對于特征比特向量分割單元701得到的每個待檢索多媒體信息的k個子向量,將第i個子向量相同的待檢索多媒體信息的特征比特向量的向量標識劃分到同一向量標識集合中;索引建立單元703在構(gòu)建第i個索引結(jié)構(gòu)時,對于向量標識集合劃分單元702劃分出的向量標識集合,將該向量標識集合中的向量標識所對應(yīng)的特征比特向量中的相同的第i個子向量,作為對應(yīng)該向量標識集合的子向量,并作為第i個索引結(jié)構(gòu)中的索引進行存儲。本發(fā)明的技術(shù)方案中,通過對待檢索多媒體信息建立k個分段索引結(jié)構(gòu),查找與當前多媒體信息的特征比特向量中m個元素相同的特征比特向量參與漢明距離計算,相比于現(xiàn)有技術(shù)中采用分塊有序表查找與當前多媒體信息的特征比特向量中前p個元素相同的特征比特向量參與漢明距離計算,本發(fā)明方案可以大大減少參與漢明距離計算的特征比特向量個數(shù),從而大大減少了一次檢索過程中的計算量,達到提高檢索速度和效率的目的。進一步,本發(fā)明的檢索方法中,為了檢索的可持續(xù)性,只需要根據(jù)當前多媒體信息的各子向量,將當前多媒體信息的特征比特向量的向量標識劃分到k個索引結(jié)構(gòu)中的相對應(yīng)的向量標識集合中,此計算量遠小于現(xiàn)有技術(shù)的 將特征比特向量與有序表中海量的特征比特向量進行比較、排序的計算量,從而大大提高檢索速度、檢索效率。以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以作出若干改進和潤飾,這些改進和潤飾也應(yīng)視為本發(fā)明的保護范圍。