[0051] 采取對圖像的局部規(guī)范化處理基于以下兩個因素:首先,規(guī)范化運算將大大降低 運算過程中的數(shù)據(jù)量,從而避免的大范圍數(shù)據(jù)環(huán)境下產(chǎn)生的誤差帶來的影響,并提高了運 算速度。其次,由于圖像的失真程度在全圖范圍內(nèi)是相同的,這也決定了可以使用局部規(guī)范 化手段來處理圖像塊。
[0052] 單輸入卷積神經(jīng)網(wǎng)絡:如圖3所示,在利用2D圖像訓練時采用一個 32 X 32-7 X 7 X 50-50 X 2-800-800-1的五層單輸入卷積神經(jīng)網(wǎng)絡模型,其中輸出層神經(jīng)元 個數(shù)為1,即圖像的質(zhì)量分數(shù)。其輸入為經(jīng)過預處理的32X32的圖像塊。卷積神經(jīng)網(wǎng)絡是 通過對輸入進行卷積池化運算,由特征map獲得特征向量,隨后通過神經(jīng)網(wǎng)絡訓練,隨機初 始化網(wǎng)絡權(quán)值,采用隨機梯度下降(Stochasticgradient descent, S⑶)算法以及反向傳播 (back propagation, BP)算法,全局的調(diào)整定位系統(tǒng)參數(shù)。為了更有效的訓練定位系統(tǒng)參 數(shù),我們采用了 dropout方法以及momentum方法,其中dropout隨機置零的概率為0.5。這 樣將有效的改善在網(wǎng)絡訓練過程中出現(xiàn)的陷入局部最小的問題。
[0053] 雙輸入卷積神經(jīng)網(wǎng)絡:通過使用2D圖像對網(wǎng)絡進行初次訓練之后,網(wǎng)絡已對2D 圖像質(zhì)量有一定認知度,即對所輸入的2D圖像進行可靠分數(shù)預測。在此基礎上,針對立體 圖像對存在左右雙視圖的結(jié)構(gòu)特點如圖2a_2b所示,擴充網(wǎng)絡結(jié)構(gòu)如圖4所示,使屬于同 一圖像對的左右圖像對應位置圖像塊同時進入深度網(wǎng)絡,利用第一階段已訓練好的網(wǎng)絡 在分別得到各自質(zhì)量分數(shù)之前得到對應的高級特征向量。利用多層感知機(Multi-layer Perceptron, MLP)訓練學習兩組高級特征向量,以此獲得屬于此立體圖像的圖像塊質(zhì)量分 數(shù),最終通過對圖像對中所有圖像塊質(zhì)量分數(shù)的加權(quán)平均獲得整體圖像的質(zhì)量評估。該部 分的訓練是基于單輸入網(wǎng)絡所獲得的網(wǎng)絡權(quán)值,采用少量立體圖像對訓練完成的。
[0054] 實驗結(jié)果:為驗證本文算法及模型,我們在訓練和測試過程中選用的數(shù)據(jù)庫為 LIVE 2D DATABASE以及LIVE 3D DATABASE,如圖2a-圖2b。其中第一階段訓練是訓練圖 片均來自2DDATABASE,選用了 5類失真圖像作為訓練樣本,包括JPEG壓縮(組),JPEG2000 壓縮(組),GBLUR高斯模糊(組),高斯白噪聲(組),fast-fading在快衰落瑞利信道中 傳輸JPEG2000碼流所產(chǎn)生的失真(組),無失真的參考圖像不計入訓練樣本。每一次迭代 過程中,我們按照4:1的比例隨機選取訓練組圖像和驗證組圖像,以此來保證網(wǎng)絡的學習 不會陷入局部最小值產(chǎn)生錯誤結(jié)果。在雙輸入網(wǎng)絡訓練中,我們針對LIVE 3D中5種不同 類型失真,選取了占各自數(shù)量20%的圖片進行訓練,剩余圖片用于驗證網(wǎng)絡的準確性。為保 證網(wǎng)絡的準確度與可信度,我們確保進入網(wǎng)絡作為輸入的圖像塊來自同一圖像對的左右圖 像的相同位置。
[0055] 兩階段訓練過程中均給出了每組圖像的平均主觀分數(shù)差值(Difference Mean Opinion Score,DMOS),DMOS值越小表示體圖像的主觀質(zhì)量越差,反之,主觀質(zhì)量則越好。立 本文米用 Spearman 相關系數(shù)(Spearman Rank-order Correlation Coefficient,SR0CC) 以及線性一致性參數(shù)(Linear Correlation Coefficient,LCC)作為模型準確率預測的指 標,SROCC及LCC的值越接近1,說明客觀評價方法與平均主觀評分差值的相關性越好。
[0056] 通過表1以及表2我們可以看到,本文所提出的基于無參考圖像的雙輸入卷積神 經(jīng)網(wǎng)絡在LIVE 3D公開數(shù)據(jù)庫下得到的評估參數(shù)總體優(yōu)于其他質(zhì)量評估算法。其中,針對 整體數(shù)據(jù)庫圖像的評估指標均提升較大,同時對于各類失真類型圖片的單獨評估也有改 善。這說明了本網(wǎng)絡對不同類型的失真類型具有較高的適應性。
[0057] 表1各類立體圖像評估算法在SROCC指標下的比較
[0059] 表2各類立體圖像評估算法在LCC指標下的比較
[0061] 本文給出了一種無參考圖像的卷積神經(jīng)網(wǎng)絡圖像質(zhì)量評估算法。基本思路為,利 用卷積網(wǎng)絡對圖像的認知能力,通過對2D圖像特征學習獲得高級特征,應用于3D立體圖像 質(zhì)量評估中。運用一系列卷積、池化、回歸算法,最終通過對立體圖像對中左右圖像的綜合 分析獲得3D圖像的質(zhì)量分數(shù)。通過在公開數(shù)據(jù)庫的測試表明,本算法在整體數(shù)據(jù)庫以及每 一類失真類型圖像的質(zhì)量評估上均能獲得理想的效果。今后的研究方向主要包括改善網(wǎng)絡 結(jié)構(gòu),優(yōu)化網(wǎng)絡參數(shù),獲得適應性更好的質(zhì)量評估算法。
[0062] 上述雖然結(jié)合附圖對本發(fā)明的【具體實施方式】進行了描述,但并非對本發(fā)明保護范 圍的限制,所屬領域技術人員應該明白,在本發(fā)明的技術方案的基礎上,本領域技術人員不 需要付出創(chuàng)造性勞動即可做出的各種修改或變形仍在本發(fā)明的保護范圍以內(nèi)。
【主權(quán)項】
1. 一種基于卷積神經(jīng)網(wǎng)絡的無參考立體圖像質(zhì)量評估方法,其特征是,包括以下步 驟: 選用LIVE 2D數(shù)據(jù)庫中的圖片作為訓練樣本; 對2D圖像進行預處理:將圖片分割為大小相同的圖片塊,并通過局部規(guī)范化方法進行 處理; 將預處理得到的圖像塊輸入到深度卷積神經(jīng)網(wǎng)絡,通過卷積池化處理,由此獲得圖像 塊的高級特征,隨后利用原圖像DMOS分數(shù)對神經(jīng)網(wǎng)絡進行BP訓練,獲得基礎模型的網(wǎng)絡層 權(quán)重和偏置的最優(yōu)解; 選用LIVE 3D數(shù)據(jù)庫中圖片作為新的訓練樣本; 根據(jù)基礎模型訓練得到的網(wǎng)絡層權(quán)重和偏置,構(gòu)建對應的雙輸入基本模型,將立體圖 像對中左右圖像分別經(jīng)過與2D圖像相同的預處理后,將相同位置的圖像塊同時輸入到基 本模型中,得到對應的高級特征向量; 利用多層感知機訓練學習兩組高級特征向量,獲得屬于此立體圖像的圖像塊質(zhì)量分 數(shù),最終通過對圖像對中所有圖像塊質(zhì)量分數(shù)的加權(quán)平均獲得整體圖像的質(zhì)量評估。2. 如權(quán)利要求1所述的一種基于卷積神經(jīng)網(wǎng)絡的無參考立體圖像質(zhì)量評估方法,其特 征是,對2D圖像的進行預處理時,采用非重疊式分割方法將每個圖像分割為32X32圖像 塊。3. 如權(quán)利要求1所述的一種基于卷積神經(jīng)網(wǎng)絡的無參考立體圖像質(zhì)量評估方法,其特 征是,在利用2D圖像訓練時采用一個的五層單輸入卷積神經(jīng)網(wǎng)絡模型,其中輸出層神經(jīng)元 個數(shù)為1,即圖像的質(zhì)量分數(shù)。4. 如權(quán)利要求1所述的一種基于卷積神經(jīng)網(wǎng)絡的無參考立體圖像質(zhì)量評估方法,其特 征是,五層單輸入卷積神經(jīng)網(wǎng)絡模型其輸入為經(jīng)過預處理的32X32的圖像塊,卷積神經(jīng)網(wǎng) 絡是通過對輸入進行卷積池化運算,由特征map獲得特征向量,隨后通過神經(jīng)網(wǎng)絡訓練,隨 機初始化網(wǎng)絡權(quán)值,采用隨機梯度下降算法以及反向傳播算法,全局的調(diào)整定位系統(tǒng)參數(shù)。5. 如權(quán)利要求1所述的一種基于卷積神經(jīng)網(wǎng)絡的無參考立體圖像質(zhì)量評估方法,其特 征是,在訓練定位系統(tǒng)參數(shù)時,采用了 dropout方法以及momentum方法,其中設置隨機置零 的概率為0.5。6. 如權(quán)利要求1所述的一種基于卷積神經(jīng)網(wǎng)絡的無參考立體圖像質(zhì)量評估方法,其 特征是,針對立體圖像,擴充網(wǎng)絡結(jié)構(gòu),使屬于同一圖像對的左右圖像對應位置圖像塊同時 進入深度網(wǎng)絡,利用已訓練好的網(wǎng)絡在分別得到各自質(zhì)量分數(shù)之前得到對應的高級特征向 量。7. 如權(quán)利要求1所述的一種基于卷積神經(jīng)網(wǎng)絡的無參考立體圖像質(zhì)量評估方法,其特 征是,在訓練時,確保進入網(wǎng)絡作為輸入的圖像塊來自同一圖像對的左右圖像的相同位置。8. 如權(quán)利要求1所述的一種基于卷積神經(jīng)網(wǎng)絡的無參考立體圖像質(zhì)量評估方法,其 特征是,卷積池化處理時,卷積公式為:.其中%表示卷積圖像大 小,4為卷積核尺寸,另表示卷積層偏置,f( ·)表示卷積算法中激活函數(shù);池化公式為: CN 105160678 A _權(quán)利要求書_ _2/2 頁/?和4分別表示乘性偏置和一個加性偏置,f (·)表示池化算法 中激活函數(shù)。9. 如權(quán)利要求1所述的一種基于卷積神經(jīng)網(wǎng)絡的無參考立體圖像質(zhì)量評估方法,其特 征是,圖像塊質(zhì)量分數(shù)的獲取,以此公式= + 獲得屬于此立體圖像的 /=1 圖像塊質(zhì)量分數(shù),式中0,(11)表示節(jié)點輸出,W]1 (η)和1^分別表示對應的網(wǎng)絡層權(quán)重和偏 置。10. 如權(quán)利要求1所述的一種基于卷積神經(jīng)網(wǎng)絡的無參考立體圖像質(zhì)量評估方法,其 特征是,在多層感知機訓練定位系統(tǒng)參數(shù)時,采用了 dropout方法以及momentum方法,其中 設置dropout隨機置零的概率為0· 5, momentum公式如下:其中Wt表示t次迭代過程中網(wǎng)絡權(quán)值,ε。為學習率,d表示學習率的衰減值,r JPre分表表示初始及最終動量(momentums)值,T為控制學習率在不同迭代次數(shù)中變化的閾值。
【專利摘要】本發(fā)明公開了基于卷積神經(jīng)網(wǎng)絡的無參考立體圖像質(zhì)量評估方法,包括以下步驟:對2D圖像的進行預處理:將預處理得到的圖像塊輸入到深度卷積神經(jīng)網(wǎng)絡,通過卷積池化處理,獲得圖像塊的高級特征,隨后通過神經(jīng)網(wǎng)絡利用原圖像自身質(zhì)量分數(shù)進行BP訓練獲得基礎模型的參數(shù);根據(jù)基礎模型的參數(shù)獲得到對應的基本模型,將立體圖像對中左右圖像分別經(jīng)過與2D圖像相同的預處理后,將相同位置的圖像塊同時輸入到基本模型中,得到對應的高級特征向量;在LIVE?3D數(shù)據(jù)庫下進行測試,該無參考評估算法得到了相較于已有質(zhì)量評估更好的結(jié)果。
【IPC分類】G06T7/00
【公開號】CN105160678
【申請?zhí)枴緾N201510554762
【發(fā)明人】張偉, 瞿晨非, 馬林, 張海峰, 張偉東
【申請人】山東大學
【公開日】2015年12月16日
【申請日】2015年9月2日