一種用于圖像場(chǎng)景識(shí)別的特征提取方法
【專利摘要】本發(fā)明涉及一種用于圖像場(chǎng)景識(shí)別的特征提取方法,包括在一組已知類別的訓(xùn)練圖像中挖掘信息和將待識(shí)別的測(cè)試圖像進(jìn)行識(shí)別兩大步驟,其中第一步驟包括對(duì)圖像進(jìn)行預(yù)處理;提取圖像的目標(biāo)特征;降低目標(biāo)特征的維度;執(zhí)行LDA模型訓(xùn)練算法;生成訓(xùn)練圖像的場(chǎng)景環(huán)境特征;特征組合;執(zhí)行SVM訓(xùn)練算法。第二步驟包括將測(cè)試圖像預(yù)處理;生成測(cè)試圖像的碼字;生成測(cè)試圖像的場(chǎng)景環(huán)境特征;提取測(cè)試圖像的目標(biāo)特征;降低測(cè)試圖像的目標(biāo)特征維度;測(cè)試圖像的特征組合;利用已訓(xùn)練的SVM分類器生成圖像類別。本發(fā)明減小了現(xiàn)有方法的計(jì)算量,擴(kuò)展了應(yīng)用范圍并提高了識(shí)別準(zhǔn)確率。
【專利說(shuō)明】一種用于圖像場(chǎng)景識(shí)別的特征提取方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于圖像場(chǎng)景識(shí)別技術(shù),具體涉及一種用于圖像場(chǎng)景識(shí)別的特征提取方 法。
【背景技術(shù)】
[0002] 圖像場(chǎng)景識(shí)別的目的是得到圖像的語(yǔ)義信息并給出其類別標(biāo)簽。它是計(jì)算機(jī)視 覺(jué)、模式識(shí)別和機(jī)器學(xué)習(xí)等領(lǐng)域的重要研究?jī)?nèi)容,在圖像庫(kù)管理、圖像檢索等實(shí)用領(lǐng)域也是 不可或缺的技術(shù)。基于特征袋(Bag of Features)和主題模型的方法是近年來(lái)的研究熱潮, 取得了很多新成果和進(jìn)展。這類方法借鑒于自然語(yǔ)言處理過(guò)程,把圖像視為局部觀察量的 集合并建立特征袋,利用特征袋建立主題模型,生成特征或直接生成類別。此外,圖像中的 目標(biāo)識(shí)別技術(shù)也為圖像的場(chǎng)景識(shí)別帶來(lái)有利信息,這類方法通過(guò)識(shí)別圖像中的部分目標(biāo)來(lái) 推斷圖像的場(chǎng)景類別。
[0003] 目前,主題模型技術(shù)尚存在一些缺點(diǎn),主要體現(xiàn)在表達(dá)一幅待識(shí)別圖像需要對(duì)圖 像的特征袋進(jìn)行統(tǒng)計(jì)和推理,這種需要進(jìn)行迭代的運(yùn)算會(huì)加大圖像識(shí)別的計(jì)算量。主題模 型方法往往對(duì)場(chǎng)景環(huán)境敏感,但是對(duì)于一些非場(chǎng)景環(huán)境敏感的圖像識(shí)別準(zhǔn)確率并不理想, 例如室內(nèi)場(chǎng)景類和事件類。結(jié)合圖像中的目標(biāo)信息有利于彌補(bǔ)這一缺點(diǎn),但是目前的目標(biāo) 識(shí)別技術(shù)難以和主題模型方法直接結(jié)合,例如Object Bank技術(shù),其產(chǎn)生的特征本身具有極 高的維度,這會(huì)沖淡主題模型方法所產(chǎn)生的特征在組合中占據(jù)的比例,并且由于維度災(zāi)難 問(wèn)題,識(shí)別算法運(yùn)算量極大,在個(gè)人計(jì)算機(jī)、工作站平臺(tái)上只能使用線性分類器。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是通過(guò)公開(kāi)一種基于LDA模型的主題特征提取方法,用該方法得到 的主題環(huán)境特征描述圖像的場(chǎng)景環(huán)境。解決下列技術(shù)問(wèn)題:表達(dá)一幅待識(shí)別圖像需要進(jìn)行 統(tǒng)計(jì)和推理,運(yùn)算量較大;對(duì)于事件類和室內(nèi)場(chǎng)景識(shí)別準(zhǔn)確率差。
[0005] 通過(guò)公開(kāi)一種Object Bank特征的降維方法,解決其維度過(guò)高,難以與主題特征結(jié) 合的技術(shù)問(wèn)題。
[0006] 公開(kāi)將環(huán)境主題特征和降維后的目標(biāo)特征進(jìn)行結(jié)合組成特征向量進(jìn)行識(shí)別的方 法,提高識(shí)別準(zhǔn)確率。
[0007] 為實(shí)現(xiàn)所述目的,本發(fā)明提出的技術(shù)方案如下: 本發(fā)明所述的一種用于圖像場(chǎng)景識(shí)別的特征提取方法,包括下列兩大步驟: 1.在一組已知類別的訓(xùn)練圖像中挖掘信息 參閱圖1,輸入一組已知類別的訓(xùn)練圖像,每次選取一幅圖像,依次執(zhí)行"對(duì)圖像進(jìn)行預(yù) 處理"、"提取圖像的目標(biāo)特征"步驟,直至選取完所有圖像后,執(zhí)行后續(xù)步驟"降低目標(biāo)特 征的維度"、"執(zhí)行LDA模型訓(xùn)練算法"、"生成訓(xùn)練圖像的場(chǎng)景環(huán)境特征"、"特征組合"、"執(zhí)行 SVM訓(xùn)練算法"。其中"對(duì)圖像進(jìn)行預(yù)處理"步驟與"提取圖像的目標(biāo)特征"為并行步驟,不 分先后,"降低目標(biāo)特征的維度"與"執(zhí)行LDA模型訓(xùn)練算法"、"生成訓(xùn)練圖像的場(chǎng)景環(huán)境特 征"為并行步驟,不分先后。
[0008] 本步驟中已知類別的訓(xùn)練圖像數(shù)量要求不低于每類50幅。
[0009] I. 1對(duì)圖像進(jìn)行預(yù)處理 a.將圖像歸一化為PxP像素的正方形圖像。
[0010] b.通過(guò)滑動(dòng)網(wǎng)格方法,將正方形圖像劃分為iV個(gè)有重疊的子塊。
[0011] c.對(duì)每個(gè)子塊分別計(jì)算128維的SIFT灰度尺度強(qiáng)度區(qū)域描述符。
[0012] 1.2提取圖像的目標(biāo)特征 利用已公開(kāi)的Object Bank算法提取圖像的目標(biāo)特征,具體為 a.圖像按照三層空間金字塔進(jìn)行分塊,具體為在每一層上分別均分圖像為F , 22,43 個(gè)子圖像,每幅圖像共得到21個(gè)子圖像。
[0013] b.依次遍歷所有目標(biāo),對(duì)于每個(gè)目標(biāo),執(zhí)行如下操作:在每個(gè)子塊上,依次按照12 個(gè)尺度運(yùn)行目標(biāo)濾波器,求得響應(yīng)值,每個(gè)尺度下響應(yīng)值的最大值作為輸出結(jié)果。
[0014] c.轉(zhuǎn)存并輸出結(jié)果,得到維度為12x21xiV。的一條目標(biāo)特征向量,其中if,為選用 的目標(biāo)探測(cè)器的個(gè)數(shù)。
[0015] 1.3降低目標(biāo)特征的維度 利用本發(fā)明公開(kāi)的一種目標(biāo)特征降維算法對(duì)圖像的目標(biāo)特征進(jìn)行降維,具體為 a.目標(biāo)特征輸入到含有個(gè)神經(jīng)元的一層神經(jīng)網(wǎng)絡(luò),特征的每個(gè)維度對(duì)應(yīng)一 個(gè)神經(jīng)元,該層網(wǎng)絡(luò)被叫做輸入層。神經(jīng)元的輸出為:
【權(quán)利要求】
1. 一種用于圖像場(chǎng)景識(shí)別的特征提取方法,其特征是包括下列兩大步驟: 一. 在一組已知類別的訓(xùn)練圖像中挖掘信息 輸入一組已知類別的訓(xùn)練圖像,每次選取一幅圖像,依次執(zhí)行"對(duì)圖像進(jìn)行預(yù)處理"、 "提取圖像的目標(biāo)特征"步驟,直至選取完所有圖像后,執(zhí)行后續(xù)步驟"降低目標(biāo)特征的維 度"、"執(zhí)行LDA模型訓(xùn)練算法"、"生成訓(xùn)練圖像的場(chǎng)景環(huán)境特征"、"特征組合"、"執(zhí)行SVM訓(xùn) 練算法"其中"對(duì)圖像進(jìn)行預(yù)處理"步驟與"提取圖像的目標(biāo)特征"為并行步驟,不分先后, "降低目標(biāo)特征的維度"與"執(zhí)行LDA模型訓(xùn)練算法"、"生成訓(xùn)練圖像的場(chǎng)景環(huán)境特征"為并 行步驟,不分先后,本步驟中已知類別的訓(xùn)練圖像數(shù)量要求不低于每類50幅; 二. 將待識(shí)別的測(cè)試圖像進(jìn)行識(shí)別 其中"將測(cè)試圖像預(yù)處理"、"生成測(cè)試圖像的碼字"、"生成測(cè)試圖像的場(chǎng)景環(huán)境特征" 步驟與"提取測(cè)試圖像的目標(biāo)特征"、"降低測(cè)試圖像的目標(biāo)特征維度"步驟為并行步驟,不 分先后。
2. 按照權(quán)利要求1所述的一種用于圖像場(chǎng)景識(shí)別的特征提取方法,其特征是具體步驟 如下: 一.在一組已知類別的訓(xùn)練圖像中挖掘信息 輸入一組已知類別的訓(xùn)練圖像,每次選取一幅圖像,依次執(zhí)行"對(duì)圖像進(jìn)行預(yù)處理"、 "提取圖像的目標(biāo)特征"步驟,直至選取完所有圖像后,執(zhí)行后續(xù)步驟"降低目標(biāo)特征的維 度"、"執(zhí)行LDA模型訓(xùn)練算法"、"生成訓(xùn)練圖像的場(chǎng)景環(huán)境特征"、"特征組合"、"執(zhí)行SVM訓(xùn) 練算法"其中"對(duì)圖像進(jìn)行預(yù)處理"步驟與"提取圖像的目標(biāo)特征"為并行步驟,不分先后, "降低目標(biāo)特征的維度"與"執(zhí)行LDA模型訓(xùn)練算法"、"生成訓(xùn)練圖像的場(chǎng)景環(huán)境特征"為并 行步驟,不分先后, 本步驟中已知類別的訓(xùn)練圖像數(shù)量要求不低于每類50幅, 1) .對(duì)圖像進(jìn)行預(yù)處理 a. 將圖像歸一化為PxiM象素的正方形圖像; b. 通過(guò)滑動(dòng)網(wǎng)格方法,將正方形圖像劃分為AT個(gè)有重疊的子塊; c. 對(duì)每個(gè)子塊分別計(jì)算128維的SIFT灰度尺度強(qiáng)度區(qū)域描述符; 2) .提取圖像的目標(biāo)特征 利用已公開(kāi)的Object Bank算法提取圖像的目標(biāo)特征,具體為 a. 圖像按照三層空間金字塔進(jìn)行分塊,具體為在每一層上分別均分圖像為I2,22,42 個(gè)子圖像,每幅圖像共得到21個(gè)子圖像; b. 依次遍歷所有目標(biāo),對(duì)于每個(gè)目標(biāo),執(zhí)行如下操作:在每個(gè)子塊上,依次按照12個(gè)尺 度運(yùn)行目標(biāo)濾波器,求得響應(yīng)值,每個(gè)尺度下響應(yīng)值的最大值作為輸出結(jié)果; c. 轉(zhuǎn)存并輸出結(jié)果,得到維度為12x21x2^的一條目標(biāo)特征向量,其中Jfe為選用的目 標(biāo)探測(cè)器的個(gè)數(shù); 3) .降低目標(biāo)特征的維度 利用本發(fā)明公開(kāi)的一種目標(biāo)特征降維算法對(duì)圖像的目標(biāo)特征進(jìn)行降維,具體為 a.目標(biāo)特征輸入到含有UmxJVe個(gè)神經(jīng)元的一層神經(jīng)網(wǎng)絡(luò),特征的每個(gè)維度對(duì)應(yīng)一 個(gè)神經(jīng)元,該層網(wǎng)絡(luò)被叫做輸入層, 神經(jīng)元的輸出為:
其中,1
纟輸入層神經(jīng)元的閾值,為輸入的圖像數(shù)量,#表示網(wǎng)絡(luò)的 第/個(gè)輸入,此處#的總數(shù)量與Ob ject Bank特征維度相同,表示第i層網(wǎng)絡(luò)的第j個(gè) 神經(jīng)元的輸出; b. 輸入層神經(jīng)元的輸出結(jié)果再次輸入到含有SlxJV0個(gè)神經(jīng)元的一層,該層命名為中 間層,其中每12個(gè)對(duì)應(yīng)同一圖像12個(gè)目標(biāo)檢測(cè)尺度的輸入層神經(jīng)元為一組,每組連接到一 個(gè)的中間層神經(jīng)元,該層神經(jīng)元的輸出為:
c. 中間層神經(jīng)元的輸出結(jié)果再次輸入到含有目標(biāo)數(shù)個(gè)神經(jīng)元的一層,該層命名為輸出 層,其中對(duì)應(yīng)每個(gè)目標(biāo)的21個(gè)空間金字塔子塊作為一組,輸入到一個(gè)輸出層神經(jīng)元,該層 神經(jīng)元不設(shè)閾值,神經(jīng)元輸出為:
d. 輸出層上的輸出結(jié)果y=(y5'/_\…即為降維后的目標(biāo)特征; 4).行LDA模型訓(xùn)練算法 a. 取"對(duì)圖像進(jìn)行預(yù)處理"步驟中得到的SIFT灰度尺度強(qiáng)度區(qū)域描述符,隨機(jī)選取其 中的一部分作為聚類目標(biāo)執(zhí)行K均值聚類算法,求得聚類中心,此處隨機(jī)選取的數(shù)量要求 總數(shù)不小于十萬(wàn)個(gè)樣本,聚類中心計(jì)算為 Ci = 其中Ci表示對(duì)應(yīng)聚類號(hào)i的聚類中心,運(yùn)算O0表示向量組的元素均值運(yùn)算, 表示所有當(dāng)前聚類號(hào)為i的樣本向量組成的向量組; b. 根據(jù)所求的聚類中心,計(jì)算每一幅"已知類別的訓(xùn)練圖像"中每一個(gè)子塊對(duì)應(yīng)的聚類 號(hào),稱為碼字,計(jì)算公式為: L = m^vEm.{R(Sam ,Ci)) M 其中表示任一樣本向量,運(yùn)算f(-)表示歐幾里得距離二范數(shù), c. 圖像依據(jù)其對(duì)應(yīng)的碼字,按照ID:C〇unt碼字:計(jì)數(shù)方式進(jìn)行統(tǒng)計(jì),利用已公開(kāi)的 Gibbs Sampling算法,使用ID:Count訓(xùn)練一個(gè)LDA模型, 采樣公式為
其中,假設(shè)表示第I個(gè)碼字對(duì)應(yīng)的主題變量;下標(biāo)-?表示剔除其中的第f項(xiàng), 所以表示從對(duì)應(yīng)的主題中剔除第g-項(xiàng);Iitw表示主題i;中出現(xiàn)碼字^的次數(shù);爲(wèi)是碼字 V的狄利克雷先驗(yàn);^表示圖像IB中出現(xiàn)主題z的次數(shù)是主題z的狄利克雷先驗(yàn), 通過(guò)采樣可以根據(jù) 2值估計(jì)其LDA的模型參數(shù)Am和,
其中表示主題Jt中碼字?的概率表示圖像B中主題的概率, 對(duì)fbr和匕t進(jìn)行反復(fù)計(jì)算,直至每次計(jì)算結(jié)果不再改變, 5).生成訓(xùn)練圖像的場(chǎng)景環(huán)境特征 圖像通過(guò)其ID:C〇unt和訓(xùn)練好的LDA模型,利用本發(fā)明公開(kāi)的環(huán)境特征提取算法生成 特征向量, 具體為: a. 作出簡(jiǎn)化假設(shè)如下,對(duì)于碼字為安的新圖像,ft.,不更新并且等于其均值 ,則新圖像主題的先驗(yàn)概率公式被改進(jìn)為
其中M是訓(xùn)練集圖像的數(shù)量, 通過(guò)本發(fā)明提出的新圖像主題先驗(yàn)概率改進(jìn)公式,先驗(yàn)概率可以被描述為一 個(gè)JTxF維矩陣A,其中元素 Λ表示第J個(gè)碼字被分配給第i個(gè)主題的概率; b. 定義\=1(^),其中A(;J)表示矩陣A的第J列,所以每幅圖像都被其碼字的統(tǒng) 計(jì)所定義,對(duì)于包含碼字= 的圖像,其環(huán)境特征向量為
6) .特征組合 將"生成訓(xùn)練圖像的場(chǎng)景環(huán)境特征"步驟中得到的特征向量1與"降低目標(biāo)特征的維 度"步驟中得到的特征向量y順次組合成一條向量; 7) 執(zhí)行SVM訓(xùn)練算法 以"特征組合"步驟中得到的特征向量為訓(xùn)練樣本特征向量,以圖像已知的類別為類別 標(biāo)簽,利用已公開(kāi)LibSVM軟件包執(zhí)行SVM訓(xùn)練算法,得到一個(gè)訓(xùn)練好的SVM分類器; 二.將待識(shí)別的測(cè)試圖像進(jìn)行識(shí)別 其中"將測(cè)試圖像預(yù)處理"、"生成測(cè)試圖像的碼字"、"生成測(cè)試圖像的場(chǎng)景環(huán)境特征" 步驟與"提取測(cè)試圖像的目標(biāo)特征"、"降低測(cè)試圖像的目標(biāo)特征維度"步驟為并行步驟,不 分先后, 1) .將測(cè)試圖像預(yù)處理 a. 將圖像歸一化為PxP像素的正方形圖像; b. 通過(guò)滑動(dòng)網(wǎng)格方法,將正方形圖像劃分為I個(gè)有重疊的子塊; c. 對(duì)每個(gè)子塊分別計(jì)算128維的SIFT灰度尺度強(qiáng)度區(qū)域描述符; 2) .生成測(cè)試圖像的碼字 a. 取"執(zhí)行LDA模型訓(xùn)練算法"步驟所求的聚類中心,并取"將測(cè)試圖像預(yù)處理"步驟 中得到的SIFT灰度尺度強(qiáng)度區(qū)域描述符,計(jì)算待識(shí)別圖像中每一個(gè)區(qū)域描述符對(duì)應(yīng)的聚 類號(hào),稱為碼字, 計(jì)算公式為:
其中表示任一樣本向量,運(yùn)算AG灰示歐幾里得距離二范數(shù); b. 圖像依據(jù)其對(duì)應(yīng)的碼字,按照ID:Count (碼字:計(jì)數(shù))方式進(jìn)行統(tǒng)計(jì); 3) .生成測(cè)試圖像的場(chǎng)景環(huán)境特征 圖像通過(guò)其ID:C〇unt和訓(xùn)練好的LDA模型,利用本發(fā)明公開(kāi)的環(huán)境特征提取算法生成 特征向量,具體為 a. 作出簡(jiǎn)化假設(shè)如下,對(duì)于碼字為牙的新圖像,Pb不更新并且等于其均值 EiU,則新圖像主題的先驗(yàn)概率公式被改進(jìn)為
其中M是訓(xùn)練集圖像的數(shù)量, 通過(guò)本發(fā)明提出的新圖像主題先驗(yàn)概率改進(jìn)公式,先驗(yàn)概率F(z|w)可以被描述為一 個(gè)JTxF維矩陣J1,其中元素表示第個(gè)碼字被分配給第i個(gè)主題的概率; b. 定義\- ,其中A(;J)表示矩陣Jk的第J列,所以每幅圖像都被其碼字的統(tǒng) 計(jì)所定義, 對(duì)于包含碼字胃" = (W1的圖像,其環(huán)境特征向量為
4) .提取測(cè)試圖像的目標(biāo)特征 利用已公開(kāi)的Object Bank算法提取圖像的目標(biāo)特征,具體為 a. 圖像按照三層空間金字塔進(jìn)行分塊,具體為在每一層上分別均分圖像為I3,23,43 個(gè)子圖像,每幅圖像共得到21個(gè)子圖像; b. 依次遍歷所有目標(biāo),對(duì)于每個(gè)目標(biāo),執(zhí)行如下操作:在每個(gè)子塊上,依次按照12個(gè)尺 度運(yùn)行目標(biāo)濾波器,求得響應(yīng)值,每個(gè)尺度下響應(yīng)值的最大值作為輸出結(jié)果; c. 轉(zhuǎn)存并輸出結(jié)果,得到維度為的一條目標(biāo)特征向量,其中為選用的目 標(biāo)探測(cè)器的個(gè)數(shù); 5) .降低測(cè)試圖像的目標(biāo)特征維度 利用本發(fā)明公開(kāi)的一種目標(biāo)特征降維算法對(duì)圖像的目標(biāo)特征向量進(jìn)行降維, 具體步驟又可分為: a. 目標(biāo)特征向量輸入到含有乂個(gè)神經(jīng)元的一層神經(jīng)網(wǎng)絡(luò),特征的每個(gè)維度 對(duì)應(yīng)一個(gè)神經(jīng)元,該層網(wǎng)絡(luò)被叫做輸入層, 神經(jīng)元的輸出為:
其中,Gm為"降低目標(biāo)特征的維度"步驟運(yùn)算得到的結(jié)果,χω表示網(wǎng)絡(luò)的第J個(gè)輸 入,此處P的總數(shù)量與object Bank特征維度相同,f表示第I層網(wǎng)絡(luò)的第/個(gè)神經(jīng)元的 輸出; b. 輸入層神經(jīng)元的輸出結(jié)果再次輸入到含有SlxJV0個(gè)神經(jīng)元的一層,該層命名為中 間層,其中每12個(gè)對(duì)應(yīng)同一圖像12個(gè)目標(biāo)檢測(cè)尺度的輸入層神經(jīng)元為一組,每組連接到一 個(gè)的中間層神經(jīng)元, 該層神經(jīng)元的輸出為:
c. 中間層神經(jīng)元的輸出結(jié)果再次輸入到含有目標(biāo)數(shù)個(gè)神經(jīng)元的一層,該層命名為輸 出層,其中對(duì)應(yīng)每個(gè)目標(biāo)的21個(gè)空間金字塔子塊作為一組,輸入到一個(gè)輸出層神經(jīng)元,該 層神經(jīng)元不設(shè)閾值,神經(jīng)元輸出為:
d. 輸出層上的輸出結(jié)果y = 氣…/#·)即為降維后的目標(biāo)特征; 6) .測(cè)試圖像的特征組合 將"生成測(cè)試圖像的場(chǎng)景環(huán)境特征"步驟中得到的向量1與"降低測(cè)試圖像的目標(biāo)特征 維度"步驟中得到的向量--幌次組合成一條向量; 7).利用已訓(xùn)練的SVM分類器生成圖像類別 以"測(cè)試圖像的特征組合"步驟中得到的特征向量為圖像的特征向量,利用"執(zhí)行SVM 訓(xùn)練算法"步驟中得到訓(xùn)練好的SVM分類器對(duì)圖像進(jìn)行識(shí)別。
【文檔編號(hào)】G06K9/62GK104376326SQ201410603389
【公開(kāi)日】2015年2月25日 申請(qǐng)日期:2014年11月2日 優(yōu)先權(quán)日:2014年11月2日
【發(fā)明者】臧睦君, 劉通, 宋偉偉, 李陽(yáng), 王珂 申請(qǐng)人:吉林大學(xué)