基于壓縮域的社會(huì)圖像標(biāo)簽排序方法
【專利摘要】基于壓縮域的社會(huì)圖像標(biāo)簽排序方法屬于圖像處理領(lǐng)域。本發(fā)明以社會(huì)化媒體網(wǎng)站中的壓縮格式圖像為研究對(duì)象,針對(duì)社會(huì)圖像標(biāo)簽的不準(zhǔn)確性提出基于壓縮域的社會(huì)圖像標(biāo)簽排序方法。主要運(yùn)用壓縮域圖像處理技術(shù),提取壓縮域社會(huì)圖像的特征生成圖像的視覺單詞,將空間上下文信息融入視覺單詞,建立描述性視覺詞包。然后結(jié)合社會(huì)圖像標(biāo)簽的語義信息,在充分分析視覺單詞和標(biāo)簽語義的基礎(chǔ)上,運(yùn)用近鄰?fù)镀奔夹g(shù)計(jì)算標(biāo)簽和圖像語義的關(guān)聯(lián)性,進(jìn)而依據(jù)關(guān)聯(lián)性來對(duì)圖像標(biāo)簽排序,有效提高社會(huì)圖像標(biāo)簽的準(zhǔn)確性以及標(biāo)記效率,并進(jìn)一步為社會(huì)化媒體網(wǎng)站提供一種高效的圖像組織和管理技術(shù)手段。
【專利說明】基于壓縮域的社會(huì)圖像標(biāo)簽排序方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明以社會(huì)化媒體網(wǎng)站中的壓縮格式圖像為研究對(duì)象,針對(duì)社會(huì)圖像標(biāo)簽的不準(zhǔn)確性提出基于壓縮域的社會(huì)圖像標(biāo)簽排序方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)信息技術(shù)的飛速發(fā)展,社會(huì)化媒體成為了人們傳播和分享信息的重要媒介,其主要特點(diǎn)是用戶可以自由上傳自己的媒體信息,并為其添加標(biāo)簽。社會(huì)化媒體網(wǎng)站擁有數(shù)以億計(jì)的圖像資源,并保持持續(xù)高速增長(zhǎng),面對(duì)海量的社會(huì)圖像,如何有效地提供滿足用戶實(shí)際需求的社會(huì)圖像,成為社會(huì)化媒體技術(shù)面臨的難題之一。隨著社會(huì)網(wǎng)絡(luò)的發(fā)展,社會(huì)圖像分享網(wǎng)站成為活躍于互聯(lián)網(wǎng)上的一支新秀。社會(huì)圖像分享網(wǎng)站(如Flickr)允許大眾群體對(duì)社會(huì)圖像標(biāo)注文本信息,即標(biāo)簽,這是一種重要的圖像語義信息。然而由于人們的文化背景及其對(duì)圖像的理解和關(guān)注角度不同,對(duì)相同的圖像所標(biāo)記的標(biāo)簽也會(huì)產(chǎn)生差異,標(biāo)簽的無序性、不準(zhǔn)確性嚴(yán)重降低了對(duì)圖像內(nèi)容的解釋能力,因而難以有效的實(shí)現(xiàn)圖像的組織、管理和分析。
[0003]為了組織和管理社會(huì)化媒體網(wǎng)站中的圖像,基于內(nèi)容的社會(huì)圖像標(biāo)簽排序技術(shù)成為研究熱點(diǎn)。目前,低層視覺特征的提取仍然是圖像標(biāo)簽排序的基礎(chǔ),然而由于圖像低層特征與其本身所包含的高層語義之間存在著巨大差距,使得標(biāo)簽排序還未取得令人滿意的效果O
[0004]受文本內(nèi)容分析的啟發(fā),有研究學(xué)者借鑒傳統(tǒng)詞典中用文本單詞組合解釋術(shù)語的思路,將圖像視為視覺單詞的組合(也稱為詞包),利用詞包來描述圖像的語義內(nèi)容。該方法為缺乏準(zhǔn)確描述圖像信息的特征描述算子這一問題,提供了一種重要的解決思路,并進(jìn)而為有效彌補(bǔ)圖像低層特征和高層語義的鴻溝,提供了行之有效的方法。
[0005]據(jù)統(tǒng)計(jì),社會(huì)媒體網(wǎng)站中絕大多數(shù)的圖像是以壓縮格式進(jìn)行存儲(chǔ)和傳播的,對(duì)于這些以壓縮格式存在的圖像數(shù)據(jù),傳統(tǒng)的視覺單詞提取方法須先解壓縮才能進(jìn)行局部特征描述算子的計(jì)算。這無疑增加了整個(gè)標(biāo)簽排序系統(tǒng)的時(shí)間,極大地影響了系統(tǒng)的靈活性、實(shí)時(shí)性?;诖?,壓縮域圖像處理技術(shù)成為一種必要,該技術(shù)充分利用圖像壓縮算法及其所形成壓縮數(shù)據(jù)的特點(diǎn),直接在盡量少解碼的壓縮數(shù)據(jù)上進(jìn)行圖像處理,減少了圖像處理的數(shù)據(jù)量,有效地提高了圖像處理的速度。
[0006]近年來有研究人員將圖像標(biāo)注問題看成是檢索問題,通過提取圖像的全局低層視覺特征和多種距離度量策略相結(jié)合的手段尋找與關(guān)鍵圖視覺特征最相近的圖像子集,借助近鄰?fù)镀辈呗猿槿∪舾蓚€(gè)出現(xiàn)頻率較高的關(guān)鍵詞作為待標(biāo)注圖像的標(biāo)注結(jié)果。其中的近鄰?fù)镀辈呗阅軌蚪档蛷?fù)雜度,可適應(yīng)大規(guī)模的訓(xùn)練數(shù)據(jù),且對(duì)訓(xùn)練數(shù)據(jù)中的噪聲不敏感。
[0007]本發(fā)明將視覺單詞和壓縮域圖像處理兩種技術(shù)有機(jī)地結(jié)合在一起,提取圖像的尺度不變特征描述算子,建立視覺單詞庫,并融合圖像的上下文信息得到描述性視覺詞包。然后,查詢得到圖像的k近鄰圖像子集,再借助近鄰?fù)镀钡乃枷?,統(tǒng)計(jì)圖像子集中各個(gè)標(biāo)簽的相關(guān)度得分,即標(biāo)簽和圖像的關(guān)聯(lián)性,按照得分的高低來進(jìn)行標(biāo)簽排序。不但能提高標(biāo)簽排序的準(zhǔn)確率,而且可以滿足社會(huì)圖像實(shí)時(shí)處理的要求,對(duì)其組織、管理和分析具有重要的研
究意義。
【發(fā)明內(nèi)容】
[0008]本發(fā)明與已有的基于圖像全局特征的方法不同,針對(duì)網(wǎng)絡(luò)上大部分以壓縮格式存在的社會(huì)圖像,引入壓縮域圖像處理技術(shù),通過提取圖像的特征建立各類別圖像的視覺單詞庫,并結(jié)合圖像的空間上下文信息對(duì)其進(jìn)行優(yōu)化,最終生成的視覺詞包具有更強(qiáng)的描述能力。然后查詢得到圖像的k近鄰圖像子集,并借助近鄰?fù)镀睂?shí)現(xiàn)社會(huì)圖像的標(biāo)簽排序。該方法主要分為兩大步驟:壓縮域描述性視覺詞包構(gòu)建和標(biāo)簽排序,其流程如附圖1所示。其中,壓縮域描述性詞包構(gòu)建又可細(xì)分為四個(gè)步驟:重建低分辨率圖像,提取SIFT描述算子,生成視覺單詞,構(gòu)建描述性視覺詞包。標(biāo)簽排序又可細(xì)分為兩個(gè)步驟:返回k近鄰圖像集,統(tǒng)計(jì)標(biāo)簽相關(guān)度得分并降序排列。
[0009]1.壓縮域描述性詞包構(gòu)建
[0010]本發(fā)明運(yùn)用壓縮域圖像處理技術(shù),重建低分辨率圖像,提取SIFT描述算子,聚類分析得到視覺單詞庫,最后構(gòu)建描述性視覺詞包,其流程如附圖2所示。
[0011]I)重建低分辨率圖像
[0012]低分辨率圖像重建可以避免反離散余弦變換的過程,提高圖像重建的速度。本發(fā)明針對(duì)8X8的圖像塊進(jìn)行討論。圖像塊在壓縮過程中,經(jīng)DCT變換和量化后大量的高頻系數(shù)變?yōu)镺。因此,為了簡(jiǎn)化計(jì)算,在解碼端反量化后,對(duì)DCT變換后的高頻系數(shù)進(jìn)行了一定程度的舍棄,保留zigzag排序后的前16位DCT系數(shù)組成4X4維的矩陣,其中包括I個(gè)直流系數(shù)和15個(gè)交流系數(shù)。然后將所有子塊矩陣組合起來,構(gòu)建出原圖像分辨率的1/2X1/2版本的圖像。
[0013]2)提取SIFT描述算子
[0014]通過上述方法從壓縮碼流中獲取低分辨率圖像后,采用DoG高斯差分尺度空間興趣點(diǎn)檢測(cè)子檢測(cè)圖像中的興趣點(diǎn),根據(jù)興趣點(diǎn)的位置與尺度信息,計(jì)算各點(diǎn)SIFT描述算子。
[0015]3)生成視覺單詞
[0016]本發(fā)明從圖像中提取SIFT特征數(shù)據(jù)庫,采用k均值聚類方法進(jìn)行聚類分析,并選取每類中心作為視覺單詞,構(gòu)建視覺單詞庫。
[0017]4)構(gòu)建描述性視覺詞包
[0018]在無監(jiān)督聚類產(chǎn)生的視覺單詞庫中,復(fù)雜背景下的局部特征會(huì)產(chǎn)生很多帶噪的視覺單詞,也會(huì)引入大的量化誤差。此外,空間上下文信息對(duì)視覺匹配和識(shí)別非常重要,然而單一的視覺單詞所具有的空間上下文信息是非常有限的,因此它不能有效的描述圖像的特征?;诖?,本發(fā)明提出了描述性視覺詞包建立方案,包括描述性視覺單詞(DVW,Descriptive Visual Words)和描述性視覺單詞對(duì)(DVP, Descriptive Visual wordPairs )。DVW指能夠高效描述某類目標(biāo)或者場(chǎng)景的特定視覺單詞,DVP指在某類別的圖像中經(jīng)常出現(xiàn)的視覺單詞對(duì)。
[0019]針對(duì)DVW,依據(jù)網(wǎng)頁排序的原理提出一種視覺單詞排序算法,挑選出各個(gè)圖像類別中具有描述性的視覺單詞,也即得到DVW。針對(duì)DVP,首先通過檢測(cè)一定的空間距離內(nèi)經(jīng)常成對(duì)出現(xiàn)的視覺單詞得到DVP候選詞,然后計(jì)算每個(gè)DVP候選詞的重要性并進(jìn)行排序,從中挑選出各類別中具有描述性的候選詞對(duì),得到DVP。最后將DVW和DVP集中起來,形成最終的描述性視覺詞包,這種融合空間信息的描述性視覺詞包比傳統(tǒng)的視覺單詞具有更強(qiáng)的描述能力。
[0020]2.標(biāo)簽排序
[0021]本發(fā)明在描述性視覺詞包基礎(chǔ)上,進(jìn)行相似性匹配得到查詢圖像的k近鄰圖像子集。對(duì)于視覺相似的圖像,如果不同的人都選擇相同的標(biāo)簽進(jìn)行標(biāo)注,就說明這些標(biāo)簽對(duì)這類圖像的解釋能力較強(qiáng),也說明它們與這類圖像的相關(guān)性較高。由此引入近鄰?fù)镀蹦P瓦M(jìn)行標(biāo)簽排序,其流程如附圖3所示。圖中所示第一列為關(guān)鍵圖的近鄰圖像及其標(biāo)簽,第二列為關(guān)鍵圖的標(biāo)簽,通過近鄰圖像的標(biāo)簽對(duì)關(guān)鍵圖的標(biāo)簽進(jìn)行投票,進(jìn)行投票統(tǒng)計(jì),也即計(jì)算標(biāo)簽的相關(guān)度得分,按照最終的相關(guān)度得分對(duì)標(biāo)簽排序,得到圖像新的標(biāo)簽列表。
[0022]具體說來,給定圖像I和相應(yīng)的標(biāo)簽列表T= It1, t2,…,tn},首先,根據(jù)圖像的低層特征尋找圖像I的k近鄰圖像集;然后,統(tǒng)計(jì)標(biāo)簽列表T=It1, t2,…,tn}中各標(biāo)簽在圖像I的k近鄰圖像集中的出現(xiàn)次數(shù),計(jì)算相關(guān)度得分;最后,依據(jù)各標(biāo)簽的相關(guān)度得分將標(biāo)簽進(jìn)行降序排列,得到最終的排序結(jié)果。
[0023]本發(fā)明的特點(diǎn)
[0024]首先,本發(fā)明結(jié)合空間上下文信息對(duì)傳統(tǒng)的視覺單詞進(jìn)行了優(yōu)化,構(gòu)建描述能力更強(qiáng)的描述性視覺詞包,從而有效地提高了視覺單詞的表征性,得到能夠準(zhǔn)確描述社會(huì)圖像信息的特征,進(jìn)而達(dá)到提高社會(huì)圖像標(biāo)簽排序準(zhǔn)確率的目的。其次,本發(fā)明運(yùn)用近鄰?fù)镀奔夹g(shù)進(jìn)行標(biāo)簽排序,優(yōu)化了檢索難題,而且圖像中僅僅被用戶標(biāo)注的標(biāo)簽才予以傳播,能有效降低視覺相似性和語義相似性不一致造成的標(biāo)簽誤傳播的風(fēng)險(xiǎn)。此外,本發(fā)明還引入了壓縮域圖像處理技術(shù),從壓縮碼流中重建低分辨率圖像快速提取其特征,有效提高了構(gòu)建視覺單詞的速度。
【專利附圖】
【附圖說明】:
圖1是本發(fā)明流程圖。
圖2是壓縮域描述性詞包構(gòu)建流程圖。
圖3是標(biāo)簽排序流程圖。
圖4是K均值聚類過程圖。
【具體實(shí)施方式】
[0025]根據(jù)上述的描述,以下是一個(gè)具體的實(shí)施流程:從社會(huì)化媒體網(wǎng)站中的圖像出發(fā),首先利用壓縮數(shù)據(jù)重建低分辨率圖像,計(jì)算SIFT描述算子,通過聚類分析構(gòu)建傳統(tǒng)視覺單詞庫,然后融入空間上下文信息得到描述性視覺詞包,接下來檢索得到查詢圖像的k近鄰圖像子集,最后通過標(biāo)簽近鄰?fù)镀奔夹g(shù),計(jì)算圖像子集中各個(gè)標(biāo)簽的相關(guān)度得分,并按照相關(guān)度得分的高低進(jìn)行排序,得到標(biāo)簽排序結(jié)果。
[0026]1.壓縮域描述性視覺詞包構(gòu)建 [0027]本發(fā)明運(yùn)用壓縮域圖像處理技術(shù),重建壓縮域低分辨率圖像,提取尺度不變特征描述算子,聚類分析得到視覺單詞庫,結(jié)合空間上下文信息構(gòu)建壓縮域描述性視覺詞包。
[0028]1.1壓縮域低分辨率圖像的重建[0029]本發(fā)明首先從壓縮碼流中快速重建低分辨率圖像,這樣可以避免反離散余弦變換的過程,提高了圖像重建的速度。這個(gè)方法可以從碼流中獲取原圖像1/2X 1/2大小的低分辨率圖像。
[0030]在構(gòu)建1/2X 1/2低分辨率圖像時(shí),首先在解碼端反量化后,提取8X8塊的前16個(gè)DCT系數(shù),組成4X4維矩陣An(n為總的塊數(shù)),然后按照公式(I)計(jì)算4X4維矩陣Ιη,最后將矩陣In組合起來構(gòu)建一幅原圖像分辨率1/2 X 1/2版本的圖像
【權(quán)利要求】
1.基于壓縮域的社會(huì)圖像標(biāo)簽排序方法,其特征在于包括: 壓縮域描述性詞包構(gòu)建 `1)重建低分辨率圖像 對(duì)8X8的圖像塊構(gòu)建出原圖像分辨率的1/2X 1/2版本的圖像; `2)提取SIFT描述算子 `3)生成視覺單詞 從圖像中提取SIFT特征數(shù)據(jù)庫,采用k均值聚類方法進(jìn)行聚類分析,并選取每類中心作為視覺單詞,構(gòu)建視覺單詞庫; `4)構(gòu)建描述性視覺詞包 提出了描述性視覺詞包建立方案,包括描述性視覺單詞DVW和描述性視覺單詞對(duì)DVP ;DVW指能夠高效描述某類目標(biāo)或者場(chǎng)景的特定視覺單詞,DVP指在某類別的圖像中經(jīng)常出現(xiàn)的視覺單詞對(duì); 針對(duì)DVW,依據(jù)網(wǎng)頁排序的原理提出一種視覺單詞排序算法,挑選出各個(gè)圖像類別中具有描述性的視覺單詞,也即得到DVW ;針對(duì)DVP,首先通過檢測(cè)一定的空間距離內(nèi)經(jīng)常成對(duì)出現(xiàn)的視覺單詞得到DVP 候選詞,然后計(jì)算每個(gè)DVP候選詞的重要性并進(jìn)行排序,從中挑選出各類別中具有描述性 的候選詞對(duì),得到DVP ;最后將DVW和DVP集中起來,形成最終的描述性視覺詞包; 還包括標(biāo)簽排序: 在描述性視覺詞包基礎(chǔ)上,進(jìn)行相似性匹配得到查詢圖像的k近鄰圖像子集;引入近鄰?fù)镀蹦P瓦M(jìn)行標(biāo)簽排序,通過近鄰圖像的標(biāo)簽對(duì)關(guān)鍵圖的標(biāo)簽進(jìn)行投票,進(jìn)行投票統(tǒng)計(jì),也即計(jì)算標(biāo)簽的相關(guān)度得分,按照最終的相關(guān)度得分對(duì)標(biāo)簽排序,得到圖像新的標(biāo)簽列表; 具體說來,給定圖像I和相應(yīng)的標(biāo)簽列表T=It1, t2,…,tn},首先,根據(jù)圖像的低層特征尋找圖像I的k近鄰圖像集;然后,統(tǒng)計(jì)標(biāo)簽列表T=ItptfJj中各標(biāo)簽在圖像I的k近鄰圖像集中的出現(xiàn)次數(shù),計(jì)算相關(guān)度得分;最后,依據(jù)各標(biāo)簽的相關(guān)度得分將標(biāo)簽進(jìn)行降序排列,得到最終的排序結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于壓縮域的社會(huì)圖像標(biāo)簽排序方法,其特征在于: 生成視覺單詞具體為: 對(duì)圖像庫中的每類圖像進(jìn)行SIFT特征的提??;假定該類圖像共N幅,首先檢測(cè)每幅圖像的關(guān)鍵點(diǎn),得到每幅圖像各個(gè)關(guān)鍵點(diǎn)的描述算子,即128維的SIFT特征向量;然后將所有圖像的所有關(guān)鍵點(diǎn)的描述算子集中起來,采用K均值聚類方法進(jìn)行聚類分析,選取每個(gè)聚類中心作為視覺單詞,也就得到了該類別N幅圖像的視覺單詞庫。
3.根據(jù)權(quán)利要求1所述的基于壓縮域的社會(huì)圖像標(biāo)簽排序方法,其特征在于: 描述性視覺詞包生成具體包括: ` 1.4.1DVff 生成 DVff指能夠高效描述某類目標(biāo)或者場(chǎng)景的特定視覺單詞; 在類別C中建立一個(gè)維的矩陣R?,代表類別C中視覺單詞的個(gè)數(shù),矩陣R(c)對(duì)角元素定義為i?5=./:r/ln(/*:)(62) i表示DVW的一個(gè)候選詞,Fi和C分別為i在所有類別中的平均頻率和類別C中的頻率,^代表候選詞i在類別C中自身的重要性的大??; 非對(duì)角元素^用視覺單詞i和j共現(xiàn)的頻率來表示: KiJ 一1MU) 在此矩陣的基礎(chǔ)上,參照網(wǎng)頁排序的原理進(jìn)行循環(huán)迭代,直到最終結(jié)果保持穩(wěn)定,選擇前N個(gè)視覺單詞即得到類別C的DVW集合;
`1.4.2DVP的生成 DVP指在某類別的圖像中經(jīng)常出現(xiàn)的視覺單詞對(duì);針對(duì)DVP,首先通過檢測(cè)一定的空間距離內(nèi)經(jīng)常出現(xiàn)的視覺單詞對(duì)得到DVP候選詞,然后計(jì)算每個(gè)DVP候選詞的重要性并進(jìn)行排序,從中挑選出各類別中具有描述性的候選詞對(duì),得到DVP ; 首先是DVP候選詞的生成;依據(jù)兩個(gè)視覺單詞共現(xiàn)這一條件,將某一類別的DVP候選詞定義為該類別中共現(xiàn)的傳統(tǒng)視覺單詞對(duì);假定視覺單詞i和j同時(shí)出現(xiàn)在類別C中,那么包含這兩個(gè)視覺單詞的DVP候選詞表示為
4.根據(jù)權(quán)利要求1所述的基于壓縮域的社會(huì)圖像標(biāo)簽排序方法,其特征在于: 標(biāo)簽排序具體包括: 首先給出圖像標(biāo)簽相關(guān)性排序中的準(zhǔn)則; 準(zhǔn)則1:圖像庫中標(biāo)簽與圖像相關(guān)的概率大于標(biāo)簽與圖像不相關(guān)的概率,即
Pright
(I, t)>Pwrong(I, t)(6)Pright(I, t)和??_(1,0分別表示標(biāo)簽與圖像相關(guān)的概率和標(biāo)簽與圖像不相關(guān)的概率; 準(zhǔn)則2:為保證投票的客觀性,每個(gè)用戶在每輪投票中至多有一幅圖像出現(xiàn)在近鄰圖像集中; NdZUiX=I (7) 式中m/%)表示用戶Ui出現(xiàn)在近鄰圖像集合中的圖像數(shù)目; 根據(jù)視覺詞包對(duì)圖像進(jìn)行語義分析,得到每幅圖像的視覺單詞直方圖;首先根據(jù)關(guān)鍵圖的視覺單詞直方圖尋找圖像的k近鄰圖像集;然后根據(jù)公式(8)計(jì)算關(guān)鍵圖中每個(gè)標(biāo)簽的相關(guān)度得分;
S(t, I) =V(t, I)-Prior (t, k)(8) 其中,S (t, I)為關(guān)鍵圖1中標(biāo)簽t的相關(guān)度得分,V(t, I)表不關(guān)鍵圖1的k幅近鄰圖像對(duì)標(biāo)簽t的投票統(tǒng)計(jì)結(jié)果,Prior (t, k)表示在k幅圖像中標(biāo)簽t的先驗(yàn)概率得分;也就是說,標(biāo)簽t的相關(guān)性由近鄰圖像的投票結(jié)果減去標(biāo)簽t在近鄰圖像集中的先驗(yàn)概率得到;其中,先驗(yàn)概率Prior (t,k)可由下式得到;
【文檔編號(hào)】G06F17/30GK103970838SQ201410146890
【公開日】2014年8月6日 申請(qǐng)日期:2014年4月12日 優(yōu)先權(quán)日:2014年4月12日
【發(fā)明者】張菁, 劉欣, 卓力, 周倩蘭, 王超 申請(qǐng)人:北京工業(yè)大學(xué)