專利名稱:基于倒排技術的快速檢索方法
技術領域:
本發(fā)明涉及檢索、排序、統(tǒng)計技術領域,特別涉及基于倒排技術的快速檢索方法。
背景技術:
在全球信息化大潮的推動下,各種信息,如文本信息、圖像信息、音頻信息、視頻信息等,都在無節(jié)制地膨脹;目前,這些信息已經(jīng)成為一個信息的海洋,改變了并還在改變著人類的工作和生活方式;面對海量的信息,如何從中找到自己感興趣的內容便成了一個人們研究的課題,搜索引擎在這種情況下應運而生。而在檢索方面,快速有效的倒排索引技術開辟了文本搜索引擎的先河,并在上個世紀末成就了一批新興的搜索引擎公司,獲得了巨大的商業(yè)利益。倒排表索引技術是受書目索引啟發(fā)而誕生的,是一種將文本中出現(xiàn)的各個索引項和索引項出現(xiàn)的位置信息存儲在稱為表結構的索引中,檢索時,僅查找倒排表來檢索查詢詞的方法。在查詢的時候由于可以一次得到關鍵字所對應的所有文檔,所以效率很尚ο倒排索引技術廣泛地用于支持高效的海量數(shù)據(jù)的快速檢索,目前很多優(yōu)秀搜索引擎都是構建在這種結構之上的。圖像、視頻檢索和文本檢索相比要應對更大的數(shù)據(jù)量,那么借鑒文本搜索的優(yōu)勢,倒排索引結構將無疑是最好的選擇,因此倒排索引結構也被應用到圖像、音視頻等多媒體檢索中。在采用倒排索引技術的檢索中,檢索的快速響應是最為關鍵的,而索引建立是在后臺進行,效率會相對低一些。倒排索引的檢索時間主要由兩部分時間決定建立量化表所須的時間,根據(jù)量化表讀取倒排索引中相關倒排列表并進行查找所須的時間。建立量化表所須的時間與所選用的特征、量化方式等有關,在這里不作深入研究;本發(fā)明重點研究根據(jù)量化表讀取倒排索引中相關倒排列表并進行查找所須的時間,并在此基礎上提高查找的效率。這對要求實時響應或批量檢索任務的用戶來說這是非常有意義的。
發(fā)明內容
本發(fā)明的目標是提供一種能夠在海量的數(shù)據(jù)中快速、精確的找到用戶所關心數(shù)據(jù)的檢索方法。為了實現(xiàn)上述目標,基于倒排技術的快速檢索方法,包括下列步驟根據(jù)量化表,應用幾何一致性,在倒排表中取出對應中心滿足要求的所有數(shù)據(jù),形成數(shù)據(jù)集A ;在量化表內逐個取出中心數(shù),并在倒排表內找到這個中心所在倒排項的起始位置,逐個取出當前中心所對應的所有倒排項,滿足規(guī)定的幾何一致性,放入數(shù)據(jù)集A中;應用基于數(shù)組的桶排序方法,快速排序統(tǒng)計數(shù)據(jù)集A中數(shù)據(jù)的順序及出現(xiàn)次數(shù), 獲得數(shù)據(jù)集B;根據(jù)內容一致性計算匹配率,濾出干擾數(shù)據(jù),獲得數(shù)據(jù)集C ;根據(jù)精度要求在數(shù)據(jù)集C中快速查找最優(yōu)集D,作為輸出結果。所述倒排表是一個詞匯到出現(xiàn)過該詞匯的所有文本、圖像或視頻幀位置的映射,以及關于這個詞匯的方向、位置和尺度信息。所述量化表是每個詞匯在倒排表中對應中心位置和關于這個詞匯的方向、位置和尺度信息。所述幾何一致性是指待查找內容與目標內容在局部具有空間幾何一致性的屬性, 應用這一屬性可以對查詢的結果進行篩選。所述應用基于數(shù)組的桶排序方法,快速排序統(tǒng)計數(shù)據(jù)集A中數(shù)據(jù)的順序及出現(xiàn)次數(shù),包括下列步驟建立一個按順序排列的桶,根據(jù)目標數(shù)據(jù)的序號信息,建立一個數(shù)組,初始化為0, 每個數(shù)組元素的下標對應著目標數(shù)據(jù)的一個序號,這個數(shù)組根據(jù)目標數(shù)據(jù)的序號信息可以是一維、二維或多維,把每一個數(shù)組元素看成一個桶,就建立了一個按順序排列的桶;把數(shù)據(jù)集A中數(shù)據(jù)分入桶中,根據(jù)數(shù)據(jù)集A中數(shù)據(jù)的序號信息,把每個數(shù)據(jù)分入對應桶中,即對應下標的數(shù)組元素增1,獲得了一個有序的統(tǒng)計集合,即數(shù)據(jù)集B。所述內容一致性是指待查找內容與目標內容在內容上具有相似性的屬性,這樣提取出的特征點數(shù)應該比較接近,應用這一屬性對查詢的結果進行篩選。所述根據(jù)內容一致性計算匹配率,濾出干擾數(shù)據(jù),獲得數(shù)據(jù)集C,包括下列步驟找出數(shù)據(jù)集B中大于0的數(shù)組元素,該數(shù)組元素的值為匹配點數(shù),即以這個元素下標為序號的目標項和查詢項的特征匹配上的點數(shù);根據(jù)匹配點數(shù)、查詢項和目標項的總特征點數(shù),求得匹配率,先比較查詢項總特征點數(shù)、目標項的總特征點數(shù)哪個大,然后用匹配點數(shù)除以較大的總特征點數(shù)得到匹配率;找出數(shù)據(jù)集B中匹配率大于域值t的所有比值,放入數(shù)據(jù)集C中。所述根據(jù)精度要求在數(shù)據(jù)集C中快速查找最優(yōu)集D,作為輸出結果,根據(jù)匹配率高說明匹配效果好這一事實,在數(shù)據(jù)集C中快速查找匹配率最高的前m項,形成最優(yōu)集D,其中 m代表精度,決定最優(yōu)集的范圍。所述快速查找是指建立一個具有m項的有序單向鏈表L,掃描數(shù)據(jù)集C中的數(shù)據(jù), 如果找到一個數(shù)比鏈表L中最小的數(shù)大則插入鏈表L中,同時在鏈表L中刪除最小的數(shù),利用鏈表結構的快速插入和刪除的特性,一次循環(huán)即可找到匹配率最高的前m項。本發(fā)明的主要優(yōu)點是檢索結果精確、運行速度非常快,可以在大量雜亂無章數(shù)據(jù)中快速、精確地找到用戶所關心的數(shù)據(jù),而且可根據(jù)實際應用對查詢結果精度作出不同的調整。應用本發(fā)明方法的時間復雜度為0(n),只與據(jù)集A的規(guī)模η有關,與總體數(shù)據(jù)集的規(guī)模無關,從而大大提高查詢的效率。本發(fā)明適用于應用倒排索引技術的檢索引擎,可以用于文本檢索、圖像檢索、視頻檢索等方面的快速檢索。從以上技術方案可以看出,本發(fā)明方案具有以下有益效果1)檢索效率非常高,時間復雜度為Ο(η);2)適用范圍廣泛,可用于基于倒排索引技術的檢索引擎;3)檢索結果精確,并且可根據(jù)實際應用調整查詢結果精度。
圖1為本發(fā)明方法的處理流程圖;圖2為本發(fā)明方法中的倒排索引示例 下面結合附圖對本發(fā)明的內容作進一步詳細說明。
具體實施例方式如圖1所示,為本發(fā)明實現(xiàn)對海量數(shù)據(jù)快速檢索的流程示意圖。首先,根據(jù)量化表,應用幾何一致性,在倒排表中取出對應中心的滿足要求所有數(shù)據(jù),形成數(shù)據(jù)集A ;其次, 應用基于數(shù)組的桶排序方法,快速排序統(tǒng)計數(shù)據(jù)集A中數(shù)據(jù)的順序及出現(xiàn)次數(shù),獲得數(shù)據(jù)集B;然后,根據(jù)內容一致性計算匹配率,濾出干擾數(shù)據(jù),獲得數(shù)據(jù)集C;最后,根據(jù)精度要求在數(shù)據(jù)集C中快速查找最優(yōu)集D,作為輸出結果。如圖2所示,為本發(fā)明方法中的倒排索引示例圖。首先,把查詢項量化成量化表, 然后根據(jù)量化表在倒排表中查找,根據(jù)查找到的信息再進行排序、統(tǒng)計,最終得到所查找的目標頂。一個倒排索引通??梢杂闪炕砦募偷古疟砦募刹糠纸M成。量化表文件記錄了文檔集(圖像、視頻幀)中出現(xiàn)的所有詞匯。倒排表文件將每個詞匯在記錄文件(圖像、 視頻幀)中的位置和頻率等信息都記錄下來,所有詞匯的這些信息就構成了倒排表。對于量化表文件中的η個詞匯(特征的一個Wi,在m個記錄文件(圖像、視頻幀)(V·· 《中的倒排表可以表示為W1 d\f^pil,Pif) ··· dm[fm](^pa,---,pifm)(1)這樣η條這樣的記錄就構成一個完整的倒排表,其中fi表示頻率、方向、尺度等其它信息。表達式(1)給出了一個完整的用于查詢文本詞匯的倒排索引結構?!獋€倒排表實際上就是一個詞匯到出現(xiàn)過該詞匯的所有文本、圖像或視頻幀位置的映射,它同時也提供了一種描述符直接一對一匹配的近似方法。倒排索引技術被廣泛應用到圖像、拷貝檢測、圖像目標檢索以及視頻拷貝檢測及檢索領域,在如何利用局部特征建詞匯這一問題上,很多研究者近幾年做了大量的工作。Sivic J,Zisserman等人介紹了一種視頻中的目標及場景檢索方法。而他們的索引結構采用的是基于視覺詞匯的倒排索引結構,在量化環(huán)節(jié),最基本的K-均值聚類方法被用來將采樣后的二十萬個局部特征描述符樣本分別量化到6000和10000個視覺詞匯上,而后分別基于這6000和10000兩個視覺詞匯庫,對特定目標和特殊場景進行檢索。David Nister等人在研究了 Sivic J等人的工作基礎上,認為基于k-均值的視覺詞匯產(chǎn)生方法在應對數(shù)量較大的描述符樣本點時效率不高, 他們提出用分級的k-均值聚類方法來產(chǎn)生分級的視覺詞匯,從而建立分級的倒排索引文件。他們認為這種分級的倒排索引結構在搜索時更有效率,而且可以應對更大的數(shù)據(jù)庫的需求。其他很多聚類及量化方法,如類k均值聚類方法或者網(wǎng)格量化方法等,也都曾被用來有效地產(chǎn)生視覺詞匯。倒排表和量化表的產(chǎn)生人們已經(jīng)對它做出了大量研究,在這里不再做深入研究, 本發(fā)明使用分級K-均值聚類方法來生成倒排表和量化表。這種基于詞匯的倒排索引結構,詞匯的區(qū)分力度并不是很大,根據(jù)查詢結果篩選出候選結果會存在大量的錯誤候選點,也就是說導入詞匯的倒排表會非常大,而且很多倒排文件里的特征,與查詢的特征所代表的內容,相差很遠。那么大量的錯誤候選點將對后期進行所有詞匯的倒排表求交帶來困難。一方面是帶來巨大的數(shù)據(jù)存貯和不可估量的運算量,另一方面,也有可能讓誤檢點淹沒真實的目標。所以,在導入某個詞匯的倒排表前,可以先利用一些查詢信息的基本特征參數(shù),以相似性度量的方式對候選點進行篩選,從而在查詢具體內容之前,就大大減少數(shù)據(jù)量,提升運算效率。在文本的查詢結果的排序中,Google對目標文檔中,出現(xiàn)的與多個檢索詞順序一致的候選文檔排得靠前,而順序不一致的則靠后。對于圖像、視頻幀來說,在特征點/區(qū)域檢測時存儲的特征空間分布及幾何特性等信息就可以用來進行相似度的度量。查詢圖像、 視頻中的目標——即視頻關鍵幀的局部區(qū)域,在目標視頻庫關鍵幀中出現(xiàn)的部分,這兩者的局部分布應該是一樣的。根據(jù)具體情況的不同,本發(fā)明提出了三種空間幾何一致性篩選方案
權利要求
1.基于倒排技術的快速檢索方法,其特征在于,包括以下步驟根據(jù)量化表,應用幾何一致性,在倒排表中取出對應中心滿足要求的所有數(shù)據(jù),形成數(shù)據(jù)集A ;在量化表內逐個取出中心數(shù),并在倒排表內找到這個中心所在倒排項的起始位置, 逐個取出當前中心所對應的所有倒排項,滿足規(guī)定的幾何一致性,放入數(shù)據(jù)集A中;應用基于數(shù)組的桶排序方法,快速排序統(tǒng)計數(shù)據(jù)集A中數(shù)據(jù)的順序及出現(xiàn)次數(shù),獲得數(shù)據(jù)集B;根據(jù)內容一致性計算匹配率,濾出干擾數(shù)據(jù),獲得數(shù)據(jù)集C ;根據(jù)精度要求在數(shù)據(jù)集C中快速查找最優(yōu)集D,作為輸出結果。
2.根據(jù)權利要求1所述的方法,其特征在于,所述倒排表是一個詞匯到出現(xiàn)過該詞匯的所有文本、圖像或視頻幀位置的映射,以及關于這個詞匯的方向、位置和尺度信息。
3.根據(jù)權利要求1所述的方法,其特征在于,所述量化表是每個詞匯在倒排表中對應中心位置和關于這個詞匯的方向、位置和尺度信息。
4.根據(jù)權利要求1所述的方法,其特征在于,所述幾何一致性是指待查找內容與目標內容在局部具有空間幾何一致性的屬性,應用這一屬性可以對查詢的結果進行篩選。
5.根據(jù)權利要求1所述的方法,其特征在于,所述應用基于數(shù)組的桶排序方法,快速排序統(tǒng)計數(shù)據(jù)集A中數(shù)據(jù)的順序及出現(xiàn)次數(shù),包括下列步驟建立一個按順序排列的桶,根據(jù)目標數(shù)據(jù)的序號信息,建立一個數(shù)組,初始化為0,每個數(shù)組元素的下標對應著目標數(shù)據(jù)的一個序號,這個數(shù)組根據(jù)目標數(shù)據(jù)的序號信息可以是一維、二維或多維,把每一個數(shù)組元素看成一個桶,就建立了一個按順序排列的桶;把數(shù)據(jù)集A中數(shù)據(jù)分入桶中,根據(jù)數(shù)據(jù)集A中數(shù)據(jù)的序號信息,把每個數(shù)據(jù)分入對應桶中,即對應下標的數(shù)組元素增1,獲得了一個有序的統(tǒng)計集合,即數(shù)據(jù)集B。
6.根據(jù)權利要求1所述的方法,其特征在于,所述內容一致性是指待查找內容與目標內容在內容上具有相似性的屬性,這樣提取出的特征點數(shù)應該比較接近,應用這一屬性對查詢的結果進行篩選。
7.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)內容一致性計算匹配率,濾出干擾數(shù)據(jù),獲得數(shù)據(jù)集C,包括下列步驟找出數(shù)據(jù)集B中大于0的數(shù)組元素,該數(shù)組元素的值為匹配點數(shù),即以這個元素下標為序號的目標項和查詢項的特征匹配上的點數(shù);根據(jù)匹配點數(shù)、查詢項和目標項的總特征點數(shù),求得匹配率,先比較查詢項總特征點數(shù)、目標項的總特征點數(shù)哪個大,然后用匹配點數(shù)除以較大的總特征點數(shù)得到匹配率;找出數(shù)據(jù)集B中匹配率大于域值t的所有比值,放入數(shù)據(jù)集C中。
8.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)精度要求在數(shù)據(jù)集C中快速查找最優(yōu)集D,作為輸出結果,根據(jù)匹配率高說明匹配效果好這一事實,在數(shù)據(jù)集C中快速查找匹配率最高的前m項,形成最優(yōu)集D,其中m代表精度,決定最優(yōu)集的范圍。
9.根據(jù)權利要求7所述的方法,其特征在于,所述快速查找是指建立一個具有m項的有序單向鏈表L,掃描數(shù)據(jù)集C中的數(shù)據(jù),如果找到一個數(shù)比鏈表L中最小的數(shù)大則插入鏈表L中,同時在鏈表L中刪除最小的數(shù),利用鏈表結構的快速插入和刪除的特性,一次循環(huán)即可找到匹配率最高的前m項。
全文摘要
本發(fā)明提供了一種基于倒排技術的快速檢索方法,包括如下步驟1.根據(jù)量化表,利用幾何一致性,在倒排表中取出對應中心滿足要求的所有數(shù)據(jù),形成數(shù)據(jù)集A;2.利用基于數(shù)組的桶排序方法,快速排序統(tǒng)計數(shù)據(jù)集A中數(shù)據(jù)的順序及出現(xiàn)次數(shù);3.根據(jù)內容一致性計算匹配率,濾出干擾數(shù)據(jù),獲得數(shù)據(jù)集B;4.根據(jù)精度要求在數(shù)據(jù)集B中快速查找最優(yōu)集C,作為輸出結果。本發(fā)明的方法運行速度非??欤梢栽诖罅侩s亂無章的數(shù)據(jù)中快速、精確地找到用戶所關心的數(shù)據(jù),而且可根據(jù)實際應用對查詢結果的精度進行調整。應用本發(fā)明方法的時間復雜度為O(n),只與據(jù)集A的規(guī)模n有關,與總體數(shù)據(jù)集的規(guī)模無關,從而大大提高查詢的效率。
文檔編號G06F17/30GK102201001SQ201110110118
公開日2011年9月28日 申請日期2011年4月29日 優(yōu)先權日2011年4月29日
發(fā)明者劉貴忠, 南楠, 廖開陽, 惠有師, 王喆, 肖莉 申請人:西安交通大學