国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種視覺目標上下文空間關(guān)系編碼的系統(tǒng)和方法

      文檔序號:6613839閱讀:189來源:國知局
      專利名稱:一種視覺目標上下文空間關(guān)系編碼的系統(tǒng)和方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及圖像識別和神經(jīng)元網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別是涉及一種以神經(jīng)元網(wǎng)絡(luò)形式實現(xiàn)的、用于表達視覺圖像目標上下文空間關(guān)系編碼的系統(tǒng)和方法。

      背景技術(shù)
      視覺目標的上下文關(guān)系是指圖像任意兩個目標之間的空間相對關(guān)系。其中目標可以是圖像中的任何內(nèi)容,包括簡單目標和復雜目標,前者如一段邊緣、一個形狀、一段輪廓或一個較緊湊的單一紋理區(qū)域;后者由前者組成,如人臉、人臉面部的各個感官等。
      一般地,除了特別指定以外,兩個目標之間的空間關(guān)系一般以各自中心點之間的連線的方向和距離表示。
      在現(xiàn)有技術(shù)中,對視覺目標上下文關(guān)系進行編碼主要包括兩個部分對兩個視覺目標的編碼和對視覺目標相對空間關(guān)系的編碼。
      目前關(guān)于視覺目標上下文關(guān)系的表示,普遍采用基于概率統(tǒng)計框架的模型方法,例如貝葉斯網(wǎng)或馬爾可夫場模型。
      歐洲專利申請WO2004111931公開了一種視覺注意選擇系統(tǒng)和方法(ASystem And Method for Attentional Selection)。其基于自下而上的視覺注意,它能夠自動選擇和分離可能包含對象的顯著區(qū)域。其主要工作體現(xiàn)在接受輸入圖像,自動分割出顯著區(qū)域,得到一張顯著映射圖,能夠直接定位顯著對象的位置,因此,可以產(chǎn)生僅僅包括顯著對象的掩碼圖像,并把這些分隔結(jié)果顯示給用戶,這樣識別系統(tǒng)就可以在僅有顯著對象的圖上進行對象識別,而舍棄了一些無關(guān)的、不重要或者干擾的因素。
      同時,美國專利公開文獻US5664065,US2002154833,US2005047647,日本專利公開文獻JP2002373333,以及中國專利公開文獻申請?zhí)枮?9810425.6,200380103136.5,200410035084也公開了一些現(xiàn)有的視覺目標上下文關(guān)系的表示系統(tǒng)和方法,其主要是關(guān)于視覺選擇性注意、圖像目標表達和跟蹤的技術(shù)。但是,現(xiàn)有技術(shù)中,并沒有以神經(jīng)元網(wǎng)絡(luò)形式表達的關(guān)于視覺上下文空間關(guān)系的編碼表示,無法更好地對視覺上下文關(guān)系進行表示。


      發(fā)明內(nèi)容
      本發(fā)明所要解決的問題在于提供一種視覺目標上下文空間關(guān)系編碼的系統(tǒng)和方法,其具有極大的靈活性和自適應(yīng)性。
      為實現(xiàn)本發(fā)明目的而提供的一種視覺目標上下文空間關(guān)系編碼的系統(tǒng),其以神經(jīng)元網(wǎng)絡(luò)形式實現(xiàn); 包括視覺圖像基元編碼神經(jīng)元層、視覺圖像目標編碼神經(jīng)元層、視覺圖像目標邏輯關(guān)系編碼神經(jīng)元層和視覺目標空間關(guān)系編碼神經(jīng)元層; 所有相鄰兩層神經(jīng)元之間的連接權(quán)值構(gòu)成了對圖像內(nèi)容的編碼,每個編碼神經(jīng)元及其連接權(quán)值分別編碼圖像基元、圖像目標、目標二元邏輯關(guān)系和目標空間關(guān)系。
      所述的視覺目標上下文空間關(guān)系編碼的系統(tǒng),還包括一圖像傳感輸入神經(jīng)元層,用于圖像輸入。
      所述圖像傳感輸入神經(jīng)元層構(gòu)成的神經(jīng)元與圖像上的等間隔像素采樣一一對應(yīng),而神經(jīng)元的響應(yīng)值取對應(yīng)的像素值。
      所述視覺圖像基元編碼神經(jīng)元層、視覺圖像目標編碼神經(jīng)元層、視覺圖像目標邏輯關(guān)系編碼神經(jīng)元層和視覺目標空間關(guān)系編碼神經(jīng)元層編碼分別采用稀疏特征、赫布學習權(quán)值特征、連接特征和距離特征作為編碼的基本要素,四個編碼層分別由稀疏編碼神經(jīng)元組成。
      為實現(xiàn)本發(fā)明目的還提供一種視覺目標上下文空間關(guān)系編碼的方法,包括下列步驟 步驟A,根據(jù)局部圖像傳感神經(jīng)元的像素值,計算得到視覺圖像基元編碼神經(jīng)元的編碼值和響應(yīng)值; 步驟B,根據(jù)視覺圖像基元編碼神經(jīng)元的響應(yīng),計算得到視覺圖像目標編碼神經(jīng)元的編碼值和響應(yīng)值; 步驟C,根據(jù)任意兩個有關(guān)聯(lián)的視覺圖像目標編碼神經(jīng)元的響應(yīng)值,計算得到視覺圖像目標邏輯關(guān)系編碼神經(jīng)元的編碼值和響應(yīng)值; 步驟D,根據(jù)圖像目標之間的空間關(guān)系,計算得到視覺目標空間關(guān)系編碼神經(jīng)元的編碼值。
      所述步驟C中的邏輯關(guān)系為二元邏輯關(guān)系。
      所述步驟D中,還包括計算得到視覺目標空間關(guān)系編碼神經(jīng)元的響應(yīng)值的步驟。
      所述步驟A中,15個視覺圖像基元編碼神經(jīng)元的編碼值(wi1,wi2,wi3,wi4)是根據(jù)2×2像素的15種組合對應(yīng)的權(quán)值,經(jīng)過歸一化處理而得到; 對來自視覺圖像傳感神經(jīng)元的響應(yīng)輸入(x1,x2,x3,x4),所述視覺圖像基元編碼神經(jīng)元Bi的響應(yīng)值Ri2由以下函數(shù)決定
      其中,T是一個閾值,wik為圖像基元Bi的四個編碼中的一個。
      所述步驟B中,所述計算得到視覺圖像目標編碼神經(jīng)元的編碼值,包括下列步驟 設(shè)圖像目標區(qū)域包含M個子區(qū)域,對每個子區(qū)域Xm(1≤m≤M),基元編碼神經(jīng)元B0和Bk的響應(yīng)值是Rm02和Rmk2(1≤k≤14),則對應(yīng)的權(quán)值Wm0,j23和Wmk,j23由下式?jīng)Q定 其中w’mi,j的值根據(jù)赫布學習規(guī)則來決定其中,α2是一個系數(shù),即首先根據(jù)赫布學習規(guī)則計算得到一個連接權(quán)值,再進行歸一化計算,得到第二層到第三層的連接權(quán)值; 對來自第二層基元編碼神經(jīng)元響應(yīng)值(R12,R22,...Ri2,...R2m2),第三層的目標編碼神經(jīng)元Oi的輸入值Ij3,如下式所示 經(jīng)過進一步經(jīng)競爭響應(yīng)得到最佳響應(yīng)值Rj3,由下式響應(yīng)函數(shù)決定
      所述步驟C中,所述計算得到視覺圖像目標邏輯關(guān)系編碼神經(jīng)元的兩個編碼值,根據(jù)赫布規(guī)則,都用相同的常數(shù)表示; 對來自第三層目標編碼神經(jīng)元(Oi1,Oi2)的響應(yīng)值(Ri13,Ri23),第四層的二元邏輯關(guān)系編碼神經(jīng)元Pj的輸入值Ij4由以下函數(shù)決定 其中wi1,j和wi2,j為等值常數(shù)。
      進一步經(jīng)競爭響應(yīng)得到最佳響應(yīng)值Rj4,由以下響應(yīng)函數(shù)決定,使得突出其響應(yīng)
      所述步驟D中,所述計算得到視覺目標空間關(guān)系編碼神經(jīng)元的編碼值,包括下列步驟 第四層到第五層的連接權(quán)值Wij45(w向左或w向右,w向上或w向下)是根據(jù)赫布規(guī)則wij=α3RiRj計算得出,其中,α3是一個系數(shù),Ri是第四層神經(jīng)元的響應(yīng)值,為1;Rj是第五層神經(jīng)元的響應(yīng)值,其為兩個目標之間的水平或者垂直方向的距離|Δx|或|Δy|;計算如下 w向左=α3|Δx|(Δx<0) w向右=α3|Δx|(Δx>0) w向上=α3|Δy|(Δy<0) w向下=α3|Δy|(Δy>0) 對來自第四層目標二元邏輯關(guān)系編碼神經(jīng)元Pi的響應(yīng)Ri4,其響應(yīng)值為1,第五層的空間關(guān)系編碼神經(jīng)元(S向左、S向右、S向上、S向下)的響應(yīng)值(s向左、s向右、s向上、s向下)由以下響應(yīng)函數(shù)決定

      s向右=0(Δx<0)

      s向左=0(Δx>0)

      s向下=0(Δy<0)

      s向上=0(Δy>0)。
      本發(fā)明的有益效果是本發(fā)明的視覺目標上下文空間關(guān)系編碼的系統(tǒng)和方法,其提出的編碼網(wǎng)絡(luò)中的模擬神經(jīng)元在硬件實現(xiàn)上可以與物理器件一一對應(yīng),在對圖像目標空間關(guān)系學習和表達過程中可以動態(tài)擴充,對于表達多對、每對任意兩個目標之間的空間關(guān)系方面表現(xiàn)出了極大的靈活性、自適應(yīng)性,可應(yīng)用于視覺圖像的表示和理解、視點的運動控制以及目標的搜索、檢測和識別上。



      圖1是本發(fā)明神經(jīng)元網(wǎng)絡(luò)目標上下文空間關(guān)系編碼結(jié)構(gòu)示意圖; 圖2是本發(fā)明視覺圖像基元的神經(jīng)元編碼示意圖; 圖3是圖像基元類別示意圖。

      具體實施例方式 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明的一種視覺目標上下文空間關(guān)系編碼的系統(tǒng)和方法進行進一步詳細說明。應(yīng)當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
      本發(fā)明的一種視覺目標上下文空間關(guān)系編碼的系統(tǒng)和方法,是以神經(jīng)元網(wǎng)絡(luò)形式實現(xiàn)的,用于表達視覺圖像目標上下文空間關(guān)系的編碼系統(tǒng)和方法。
      神經(jīng)元網(wǎng)絡(luò),也稱為人工神經(jīng)網(wǎng)絡(luò)(ARTIFICIAL NEURAL NETWORK,ANN)是在對人腦組織結(jié)構(gòu)和運行機制的認識理解基礎(chǔ)之上模擬其結(jié)構(gòu)和智能行為的一種工程系統(tǒng)。早在本世紀40年代初期,心理學家McCulloch、數(shù)學家Pitts就提出了神經(jīng)元網(wǎng)絡(luò)的第一個數(shù)學模型,從此開創(chuàng)了神經(jīng)計算科學理論的研究時代。其后,Rosenblatt、Widrow和Hopfield等學者又先后提出了一系列感知學習模型,使得神經(jīng)元網(wǎng)絡(luò)技術(shù)得以蓬勃發(fā)展。
      神經(jīng)元網(wǎng)絡(luò)是由大量的神經(jīng)元廣泛互連而成的系統(tǒng),它的這一結(jié)構(gòu)特點決定著神經(jīng)元網(wǎng)絡(luò)具有高速信息處理的能力。人腦的每個神經(jīng)元大約有103~104個樹突及相應(yīng)的突觸,一個人的大腦總計約形成1014~1015個突觸。用神經(jīng)網(wǎng)絡(luò)的術(shù)語來說,即是人腦具有1014~1015個互相連接的存儲潛力。雖然每個神經(jīng)元的運算功能十分簡單,且信號傳輸速率也較低(大約100次/秒),但由于各神經(jīng)元之間的極度并行互連功能,最終使得一個普通人的大腦在約1秒內(nèi)就能完成現(xiàn)行計算機至少需要數(shù)10億次處理步驟才能完成的任務(wù)。
      本發(fā)明的視覺目標上下文空間關(guān)系編碼的系統(tǒng),即視覺目標上下文空間關(guān)系編碼的神經(jīng)元網(wǎng)絡(luò),包括四個編碼神經(jīng)元層視覺圖像基元編碼神經(jīng)元層、視覺圖像目標編碼神經(jīng)元層、視覺圖像目標邏輯關(guān)系編碼神經(jīng)元層以及視覺圖像目標空間關(guān)系編碼神經(jīng)元層。四層編碼分別采用稀疏特征、赫布(Hebb)學習權(quán)值特征、連接特征和距離特征作為編碼的基本要素,四個編碼層分別由稀疏編碼神經(jīng)元組成,神經(jīng)元之間實現(xiàn)局域稀疏連接、層與層之間實現(xiàn)無縫連接,結(jié)構(gòu)上既稀疏又緊湊。
      如圖1所示,本發(fā)明的視覺目標上下文空間關(guān)系編碼的系統(tǒng),包括一個圖像傳感輸入神經(jīng)元層和四個編碼神經(jīng)元層。
      圖像傳感輸入神經(jīng)元層用于圖像輸入,其構(gòu)成的神經(jīng)元與圖像上的等間隔像素采樣一一對應(yīng),而神經(jīng)元的響應(yīng)值取對應(yīng)的像素值。
      四個編碼神經(jīng)元層分別是視覺圖像基元編碼神經(jīng)元層、視覺圖像目標編碼神經(jīng)元層、視覺圖像目標邏輯關(guān)系編碼神經(jīng)元層和視覺目標空間關(guān)系編碼神經(jīng)元層。其中,每一層編碼神經(jīng)元的響應(yīng)值是下一層中與之有連接的神經(jīng)元的響應(yīng)值的加權(quán)輸入和,并經(jīng)閾值截斷保證非負。
      所有相鄰兩層神經(jīng)元之間的連接權(quán)值構(gòu)成了對圖像內(nèi)容的編碼值,從第二到第五層中,每個編碼神經(jīng)元及其連接權(quán)值分別代表圖像基元、圖像目標、目標二元邏輯關(guān)系和目標空間關(guān)系。
      編碼神經(jīng)元的功能除了以連接到自身的所有突觸的權(quán)值來存儲、記憶或編碼目標(或基元)外,還負責對下層神經(jīng)元的響應(yīng)值進行加權(quán)求和計算,并通過自身的競爭響應(yīng)來表示目前圖像中含有這么一個目標或基元,也就是起到識別和判斷的作用。
      在本發(fā)明實施例中,作為一種可實施的方式,第二層視覺圖像基元編碼神經(jīng)元層,任意一個視覺圖像基元編碼神經(jīng)元接受來自第一層圖像傳感輸入神經(jīng)元層一個子區(qū)域內(nèi)2×2個輸入神經(jīng)元的連接輸入,也就是一個子區(qū)域內(nèi)2×2個像素的連接輸入。本發(fā)明實施例用連接權(quán)值(wi1,wi2,wi3,wi4)表示第一層中對應(yīng)的2×2像素的子圖像(x1,x2,x3,x4)的第i個基底,該基底同時代表了一種圖像基本特征,如亮度或邊緣特征,如圖2和圖3所示,稱之為圖像基元。
      這些連接權(quán)值(wi1,wi2,wi3,wi4)被稱為對應(yīng)該基底i的圖像基元編碼,可以計算得到子圖像(x1,x2,x3,x4)對應(yīng)的2×2像素的15種組合B0~B14(共24-1種)對應(yīng)的連接權(quán)值。如圖3所示的15種基元編碼示意圖,圖中每個基元由4個權(quán)值(w1,w2,w3,x4)代表;每個基元的四個權(quán)值對應(yīng)于一組2×2個小方格,每個小方格代表一個實數(shù)?;疑礁翊碚龑崝?shù),黑色方格代表負實數(shù)。計算方法如下設(shè)4個小方格中有n個小灰格,則有4-n個小黑格;n個小灰格對應(yīng)的權(quán)值=1/n,4-n個小灰格對應(yīng)的權(quán)值=-1/(4-n);計算出來的權(quán)值,最后經(jīng)過歸一化處理,就得到如表1所示的編碼值(w1,w2,w3,w4)。
      表1圖像基元編碼(wi1,wi2,wi3,wi4)表

      如圖1所示,第一層第i個神經(jīng)元到第二層第j個神經(jīng)元之間的連接權(quán)值的集合構(gòu)成了圖像內(nèi)所有子區(qū)域的所有圖像基元的編碼。
      同時計算出該層基元編碼神經(jīng)元的響應(yīng)值Ri2 一個圖像基元編碼神經(jīng)元Bi(0≤i≤14)通過對子圖像(x1,x2,x3,x4)的加權(quán)(wi1,wi2,wi3,wi4)求和運算,如式(1)所示,實現(xiàn)對該子圖像的基本特征提取,所提取的特征的值Ii2被稱之為該圖像基元編碼神經(jīng)元的輸入值。
      本發(fā)明中,還進一步經(jīng)閥值截斷,得到閥值截斷后第二層編碼神經(jīng)元的響應(yīng)值,如式(2)所示
      其中,T為閥值,其作用在于讓神經(jīng)元對較小的加權(quán)輸入不做出響應(yīng)。
      第三層視覺圖像目標編碼神經(jīng)元層,其中,每個神經(jīng)元對應(yīng)圖像中的一個目標,任意一個視覺圖像目標編碼神經(jīng)元接受來自第二層中一個目標區(qū)域內(nèi)所有子區(qū)域的圖像基元編碼神經(jīng)元的連接輸入,用于一個圖像目標的表達或編碼。其中編碼值體現(xiàn)在第二層到第三層的連接權(quán)值Wij23,該視覺圖像目標編碼神經(jīng)元通過對圖像目標區(qū)域內(nèi)所有圖像基元編碼神經(jīng)元的響應(yīng)值的加權(quán)求和運算,實現(xiàn)對圖像目標的表達和響應(yīng)。
      其中,第二層到第三層的連接權(quán)值Wij23是根據(jù)赫布規(guī)則wij=α1RiRj計算得出,其中,α1是一個系數(shù),Ri是第二層第i個神經(jīng)元的響應(yīng)值,Ri是第三層第j個神經(jīng)元的響應(yīng)值,在計算第二層到第三層的連接權(quán)值時,由于第三層的響應(yīng)值未知,本發(fā)明中,設(shè)定第三層,即視覺圖像目標編碼神經(jīng)元層的響應(yīng)值為1,則第三層的連接權(quán)值Wij23是根據(jù)赫布規(guī)則wij=α1Ri計算得到,其中,Ri是第二層第i個神經(jīng)元的響應(yīng)值。
      如圖1所示,連接權(quán)值Wij23計算如下 設(shè)圖像目標區(qū)域包含M個子區(qū)域,對每個子區(qū)域Xm(1≤m≤M),基元編碼神經(jīng)元B0和Bk的響應(yīng)值是Rm02和Rmk2(1≤k≤14),則對應(yīng)的權(quán)值Wm0,j23和Wmk,j23由公式(3)決定 其中w’mi,j的值根據(jù)赫布學習規(guī)則來決定其中,α1是一個系數(shù),即首先根據(jù)赫布學習規(guī)則計算得到一個連接權(quán)值,再進行歸一化計算,得到第二層到第三層的連接權(quán)值。
      所有這些連接權(quán)值或編碼的集合構(gòu)成了對圖像中相關(guān)所有視覺圖像目標編碼的表示。
      同時,對來自第二層基元編碼神經(jīng)元響應(yīng)值(R12,R22,...Ri2,...R2m2),第三層的目標編碼神經(jīng)元Oi的輸入值Ij3,如式(4)所示 經(jīng)過進一步經(jīng)競爭響應(yīng)得到最佳響應(yīng)值Rj3,由式(5)響應(yīng)函數(shù)決定,使得能夠突出其目標響應(yīng)
      第四層視覺圖像目標邏輯關(guān)系編碼神經(jīng)元層,任意一個目標邏輯關(guān)系編碼神經(jīng)元通過與第三層中任意兩個目標編碼神經(jīng)元的連接來表達對應(yīng)的兩個圖像目標的一對二元配對關(guān)系,用于編碼這兩個目標之間的二元邏輯關(guān)系,為進一步表達兩個目標之間的空間關(guān)系提供索引。其中編碼值體現(xiàn)在第二層到第三層的連接權(quán)值Wij34,該目標邏輯關(guān)系編碼神經(jīng)元通過對兩個圖像目標編碼神經(jīng)元的響應(yīng)值的加權(quán)求和運算實現(xiàn)對這一二元配對關(guān)系的響應(yīng)。
      第三層到第四層的連接權(quán)值Wij34根據(jù)赫布規(guī)則wij=α2RiRj計算得出,其中,本發(fā)明實施例中,α2是一個常數(shù),Ri是第三層第i個神經(jīng)元的響應(yīng)值,Rj是第四層第j個神經(jīng)元的響應(yīng)值,在計算第三層到第四層的連接權(quán)值時,由于第四層的響應(yīng)值未知,本發(fā)明中,設(shè)定第四層,即目標邏輯關(guān)系編碼神經(jīng)元層的響應(yīng)值為1,則第四層的連接權(quán)值Wij34是根據(jù)赫布規(guī)則wij=α2Ri計算得到,其中,Ri是第三層第i個神經(jīng)元的響應(yīng)值,而由于第三層的神經(jīng)元的響應(yīng)值Ri=1,因此,第四層的連接權(quán)值
      較佳地,取α2=1/2,這樣可以使第四層的神經(jīng)元響應(yīng)值為1,簡化后續(xù)計算。
      所有這些連接權(quán)值或編碼的集合構(gòu)成了對圖像中相關(guān)所有目標配對關(guān)系的表示。
      對來自第三層目標編碼神經(jīng)元(Oi1,Oi2)的響應(yīng)值(Ri13,Ri23),第四層的二元邏輯關(guān)系編碼神經(jīng)元Pj的輸入值Ij4由式(6)響應(yīng)函數(shù)決定 其中wi1,j和wi2,j為等值常數(shù)(如1/2)。
      進一步經(jīng)競爭響應(yīng)得到最佳響應(yīng)值Rj4,由式(7)響應(yīng)函數(shù)決定,使得突出其響應(yīng)
      如圖1所示,在神經(jīng)元網(wǎng)絡(luò)編碼結(jié)構(gòu)的第四層和第五層之間的連接是關(guān)于圖像目標之間空間關(guān)系(即一個目標相對于另一個目標在水平方向和豎直方向上的位移(Δx,Δy))的編碼表示。
      第五層由四個方向(向左、向右、向上、向下)神經(jīng)元構(gòu)成,其中向左、向右兩個方向神經(jīng)元的響應(yīng)值代表一個目標B相對于另一個目標A在水平方向上的偏移Δx,其中當Δx<0時,表示目標B在目標A的左側(cè)且距離是|Δx|,向左神經(jīng)元S向左的響應(yīng)值R向左=|Δx|,向右神經(jīng)元S向右的響應(yīng)值R向右=0;當Δx>0時,表示目標B在目標A的由側(cè)且距離是|Δx|,向左神經(jīng)元S向左的響應(yīng)值R向左=0,向右神經(jīng)元S向右的響應(yīng)值R向右=|Δx|;同理,向上、向下兩個方向神經(jīng)元的響應(yīng)值代表一個目標B相對于另一個目標A在豎直方向上的偏移Δy,其中當Δy<0時,表示目標B在目標A的下側(cè)且距離是|Δy|,向下神經(jīng)元S向下的響應(yīng)值R向下=|Δy|,向上神經(jīng)元S向上的響應(yīng)值R向上=0;當Δy>0時,表示目標B在目標A的上側(cè)且距離是|Δy|,向下神經(jīng)元S向下的響應(yīng)值R向下=0,向上神經(jīng)元S向上的響應(yīng)值R向上=|Δy|。
      第四層到第五層的連接權(quán)值Wij45(w向左或w向右,w向上或w向下)是根據(jù)赫布規(guī)則wij=α3RiRj計算得出,其中,α3是一個系數(shù),Ri是第四層神經(jīng)元的響應(yīng)值,為1;Rj是第五層神經(jīng)元的響應(yīng)值,其為兩個目標之間的水平或者垂直方向的距離|Δx|或|Δy|。計算如下 w向左=α3|Δx| (Δx<0)(8) w向右=α3|Δx| (Δx>0)(9) w向上=α3|Δy| (Δy<0)(10) w向下=α3|Δy| (Δy>0)(11) 如圖1所示,所有這些連接權(quán)值或編碼的集合構(gòu)成了對圖像中有關(guān)的任意兩個目標之間空間關(guān)系的表示。
      對于任意兩個目標,如果它們的Δx,Δy都不為零,則水平方向(向左、向右)和豎直方向(向上、向下)上各有一個神經(jīng)元接受來自第四層中一個響應(yīng)值不為零的目標邏輯關(guān)系編碼神經(jīng)元的輸入。這兩個空間關(guān)系編碼神經(jīng)元通過對目標二元邏輯關(guān)系編碼神經(jīng)元的響應(yīng)值的加權(quán)輸入運算實現(xiàn)對任意一對圖像目標空間關(guān)系(即水平和豎直方向上的偏移距離)的響應(yīng)。而另外兩個方向神經(jīng)元因為沒有輸入,所以響應(yīng)值都為零。
      因此,對來自第四層目標二元邏輯關(guān)系編碼神經(jīng)元Pi的響應(yīng)Ri4,其響應(yīng)值為1,第五層的空間關(guān)系編碼神經(jīng)元(S向左、S向右、S向上、S向下)的響應(yīng)值(s向左、s向右、s向上、s向下)由式(12)~式(15)的響應(yīng)函數(shù)決定

      s向右=0(Δx<0)(12)

      s向左=0(Δx>0)(13)

      s向下=0(Δy<0)(14)

      s向上=0(Δy>0)(15) 由以上就算可以看出,空間關(guān)系編碼神經(jīng)元(S向左、S向右、S向上、S向下)的響應(yīng)值與|Δx|或|Δy|成比例,因而反映了目標之間的空間關(guān)系。
      下面詳細說明本發(fā)明的視覺目標上下文空間關(guān)系編碼的方法,包括下列步驟 步驟S100,根據(jù)局部圖像傳感神經(jīng)元的像素值,計算得到視覺圖像基元編碼神經(jīng)元的編碼值和響應(yīng)值; 如圖1所示,是神經(jīng)元網(wǎng)絡(luò)目標上下文空間關(guān)系編碼結(jié)構(gòu)示意圖。在神經(jīng)元網(wǎng)絡(luò)編碼結(jié)構(gòu)的第一層和第二層之間的連接是對圖像基元進行編碼的表示。
      如圖2所示,是圖像基元的神經(jīng)元網(wǎng)絡(luò)編碼(wi1,wi2,wi3,wi4)示意圖。作為一種示例,局部圖像(x1,x2,x3,x4),也就是對應(yīng)的第一層傳感神經(jīng)元的響應(yīng)值,它的一個基元Bi可以表示為神經(jīng)元網(wǎng)絡(luò)編碼(wi1,wi2,wi3,wi4)=(0.5,0.5,-0.5,-0.5)。
      如圖3所示,是圖像基元類別示意圖,任意一個圖像基元Bi由四個編碼(wi1,wi2,wi3,wi4)表示,共有15個這樣的基元。每個基元都由四個小方格表示,每個小方格代表一個實數(shù)。灰色方格代表正實數(shù),黑色方格代表負實數(shù)。
      計算得到圖3中15個基元的編碼值,如表1所示。
      因此,對來自第一層局部圖像傳感神經(jīng)元的響應(yīng)(x1,x2,x3,x4),也就是局部圖像的像素值(x1,x2,x3,x4),第二層的基元編碼神經(jīng)元Bi的輸入值由式(2)定義的輸入函數(shù)決定。
      本發(fā)明中,將響應(yīng)值經(jīng)閾值截斷,得到響應(yīng)值Ri2,如式(2)所示,保證其非負。
      步驟S200,根據(jù)視覺圖像基元編碼神經(jīng)元的響應(yīng)值,計算得到視覺圖像目標編碼神經(jīng)元的編碼值和響應(yīng)值; 如圖1所示,在神經(jīng)元網(wǎng)絡(luò)編碼結(jié)構(gòu)的第二層和第三層之間的連接是對圖像目標進行編碼的表示。
      圖1中第三層中的圖像目標編碼神經(jīng)元采用稀疏編碼策略方法,即該層任意一個神經(jīng)元都不與第二層中所有基元編碼神經(jīng)元連接,而只于其中一小部分相連。
      具體而言,對于圖像目標中任意一個子區(qū)域圖像(xi1,xi2,xi3,xi4),圖像目標編碼神經(jīng)元只接受對這個子區(qū)域響應(yīng)的兩個基元編碼神經(jīng)元B0和Bk(1≤k≤14)的輸入。其中,k對應(yīng)于除B0外具有最大響應(yīng)的基元編碼神經(jīng)元的序號,如圖3所示。
      B0和Bk與目標編碼神經(jīng)元Oj的連接權(quán)值w0j和wkj,就是目標編碼神經(jīng)元對該子區(qū)域的編碼。圖像目標區(qū)域中所有這樣的子區(qū)域的編碼總和構(gòu)成了目標編碼神經(jīng)元對這一圖像目標的編碼。
      連接權(quán)值w0j和wkj的獲得如下設(shè)圖像目標區(qū)域包含M個子區(qū)域,對每個子區(qū)域Xm(1≤m≤M),基元編碼神經(jīng)元B0和Bk的響應(yīng)值是Rm02和Rmk2(1≤k≤14),則連接目標編碼神經(jīng)元Oj的權(quán)值Wm0,j23和Wmk,j23由公式(3)決定。
      其中w’mi,j的值根據(jù)赫布學習規(guī)則來決定(i=0,k;1≤k≤14),其中,α2是一個系數(shù),即首先根據(jù)赫布學習規(guī)則計算得到一個連接權(quán)值,再進行歸一化計算,得到第二層到第三層的連接權(quán)值。
      對來自第二層基元編碼神經(jīng)元響應(yīng)值(R12,R22,...Ri2,...R2m2),第三層的目標編碼神經(jīng)元Oi的輸入值Ij3,如式(4)所示。
      經(jīng)過進一步經(jīng)競爭響應(yīng)得到最佳響應(yīng)值Rj3,由式(5)響應(yīng)函數(shù)決定,使得能夠突出其目標響應(yīng)。
      步驟S300,根據(jù)任意兩個有關(guān)聯(lián)的視覺圖像目標編碼神經(jīng)元的響應(yīng)值,計算得到視覺圖像目標邏輯關(guān)系編碼神經(jīng)元的編碼值和響應(yīng)值; 如圖1所示,在神經(jīng)元網(wǎng)絡(luò)編碼結(jié)構(gòu)的第三層和第四層之間的連接是關(guān)于圖像目標之間二元邏輯配對關(guān)系的編碼表示。例如,第三層中對三個圖像目標A、B和C進行編碼的神經(jīng)元分別與第四層中的神經(jīng)元AB、AC和BC形成連接,分別表示目標A、B和C之間兩兩配對成(A,B)、(A,C)和(B,C)的二元邏輯關(guān)系。此編碼是為了第四部分表示任意兩個目標之間的具體空間關(guān)系提供索引。根據(jù)赫布規(guī)則wij=αRiRj計算得出,用于本部分編碼的連接權(quán)值都用相同的常數(shù)(如數(shù)值α=1/2)表示。設(shè)置邏輯關(guān)系編碼神經(jīng)元的響應(yīng)值為1,由于圖像目標編碼神經(jīng)元的響應(yīng)輸入值也為1,則wij=α。
      對來自第三層目標編碼神經(jīng)元(Oi1,Oi2)的響應(yīng)值(Ri13,Ri23),第四層的二元邏輯關(guān)系編碼神經(jīng)元Pj的輸入值Ij4由式(6)響應(yīng)函數(shù)決定。
      進一步經(jīng)競爭響應(yīng)得到最佳響應(yīng)值Rj4,由式(7)響應(yīng)函數(shù)決定,使得突出其響應(yīng)。
      步驟S400,根據(jù)視覺圖像目標的空間關(guān)系,計算得到視覺目標空間關(guān)系編碼神經(jīng)元的編碼值,并進一步得到其相應(yīng)的響應(yīng)值。
      如圖1所示,在神經(jīng)元網(wǎng)絡(luò)編碼結(jié)構(gòu)的第四層和第五層之間的連接是關(guān)于圖像目標之間空間關(guān)系(即一個目標相對于另一個目標在水平方向和豎直方向上的位移(Δx,Δy))的編碼表示。
      第五層由四個方向(向左、向右、向上、向下)神經(jīng)元構(gòu)成,水平(向左、向右)和豎直(向上、向下)方向上各有一個神經(jīng)元與第四層中的目標二元邏輯關(guān)系神經(jīng)元的連接權(quán)(w向左或w向右,w向上或w向下)編碼一個目標在水平和豎直方向上相對于另一個目標的空間關(guān)系。
      根據(jù)赫布規(guī)則,其連接權(quán)值大小正比于兩個目標之間在水平和豎直方向上的距離(|Δx|,|Δy|),如式(8)~(11)所示。
      因此,對來自第四層目標二元邏輯關(guān)系編碼神經(jīng)元Pi的響應(yīng)Ri4,其響應(yīng)值為1,第五層的空間關(guān)系編碼神經(jīng)元(S向左、S向右、S向上、S向下)的響應(yīng)值(s向左、s向右、s向上、s向下)由式(12)~式(15)的響應(yīng)函數(shù)決定。
      本發(fā)明的視覺目標上下文空間關(guān)系編碼的系統(tǒng)和方法,以神經(jīng)元網(wǎng)絡(luò)形式實現(xiàn)關(guān)于圖像目標上下文空間關(guān)系表達的核心技術(shù)和方法,其提出的編碼網(wǎng)絡(luò)中的模擬神經(jīng)元在硬件實現(xiàn)上可以與物理器件一一對應(yīng),在對圖像目標空間關(guān)系學習和表達過程中可以動態(tài)擴充,對于表達多對、每對任意兩個目標之間的空間關(guān)系方面表現(xiàn)出了極大的靈活性、自適應(yīng)性,可應(yīng)用于視覺圖像的表示和理解、視點的運動控制以及目標的搜索、檢測和識別上。
      舉例而言,一幅人臉圖像由頭發(fā)、面部輪廓及感覺器官等目標圖像組成,對人臉內(nèi)的各個目標及其空間關(guān)系的編碼表達可以實現(xiàn)對人臉圖像組成內(nèi)容及其空間結(jié)構(gòu)的表示和理解;本發(fā)明所述神經(jīng)元網(wǎng)絡(luò)第五層中的空間關(guān)系編碼神經(jīng)元直接模擬了控制人類眼球轉(zhuǎn)動的四個肌肉神經(jīng)元,四個編碼神經(jīng)元的響應(yīng)等價于肌肉神經(jīng)元的收縮響應(yīng)而引起的視點位置變化,因而具有視點的運動控制功能;另用該編碼神經(jīng)元網(wǎng)絡(luò)可以編碼任意視點到一個圖像目標、或者第一時刻的目標到第二時刻的目標的空間關(guān)系,因而利用視點運動控制機制可以實現(xiàn)目標的檢測和跟蹤;通過對不同圖像目標的各個子目標及其空間關(guān)系的不同的編碼表達,通過整體目標編碼神經(jīng)元的響應(yīng)計算,根據(jù)響應(yīng)值的大小可以區(qū)分和識別目標。
      通過以上結(jié)合附圖對本發(fā)明具體實施例的描述,本發(fā)明的其它方面及特征對本領(lǐng)域的技術(shù)人員而言是顯而易見的。
      以上對本發(fā)明的具體實施例進行了描述和說明,這些實施例應(yīng)被認為其只是示例性的,并不用于對本發(fā)明進行限制,本發(fā)明應(yīng)根據(jù)所附的權(quán)利要求進行解釋。
      權(quán)利要求
      1.一種視覺目標上下文空間關(guān)系編碼的系統(tǒng),其特征在于,其以神經(jīng)元網(wǎng)絡(luò)形式實現(xiàn);
      包括視覺圖像基元編碼神經(jīng)元層、視覺圖像目標編碼神經(jīng)元層、視覺圖像目標邏輯關(guān)系編碼神經(jīng)元層和視覺目標空間關(guān)系編碼神經(jīng)元層;
      所有相鄰兩層神經(jīng)元之間的連接權(quán)值構(gòu)成了對圖像內(nèi)容的編碼,每個編碼神經(jīng)元及其連接權(quán)值分別編碼圖像基元、圖像目標、目標二元邏輯關(guān)系和目標空間關(guān)系。
      2.根據(jù)權(quán)利要求1所述的視覺目標上下文空間關(guān)系編碼的系統(tǒng),其特征在于,還包括一圖像傳感輸入神經(jīng)元層,用于圖像輸入。
      3.根據(jù)權(quán)利要求2所述的視覺目標上下文空間關(guān)系編碼的系統(tǒng),其特征在于,所述圖像傳感輸入神經(jīng)元層構(gòu)成的神經(jīng)元與圖像上的等間隔像素采樣一一對應(yīng),而神經(jīng)元的響應(yīng)值取對應(yīng)的像素值。
      4.根據(jù)權(quán)利要求1至3任一項所述的視覺目標上下文空間關(guān)系編碼的系統(tǒng),其特征在于,所述視覺圖像基元編碼神經(jīng)元層、視覺圖像目標編碼神經(jīng)元層、視覺圖像目標邏輯關(guān)系編碼神經(jīng)元層和視覺目標空間關(guān)系編碼神經(jīng)元層編碼分別采用稀疏特征、赫布學習權(quán)值特征、連接特征和距離特征作為編碼的基本要素,四個編碼層分別由稀疏編碼神經(jīng)元組成。
      5.一種視覺目標上下文空間關(guān)系編碼的方法,其特征在于,包括下列步驟
      步驟A,根據(jù)局部圖像傳感神經(jīng)元的像素值,計算得到視覺圖像基元編碼神經(jīng)元的編碼值和響應(yīng)值;
      步驟B,根據(jù)視覺圖像基元編碼神經(jīng)元的響應(yīng),計算得到視覺圖像目標編碼神經(jīng)元的編碼值和響應(yīng)值;
      步驟C,根據(jù)任意兩個有關(guān)聯(lián)的視覺圖像目標編碼神經(jīng)元的響應(yīng)值,計算得到視覺圖像目標邏輯關(guān)系編碼神經(jīng)元的編碼值和響應(yīng)值;
      步驟D,根據(jù)圖像目標之間的空間關(guān)系,計算得到視覺目標空間關(guān)系編碼神經(jīng)元的編碼值。
      6.根據(jù)權(quán)利要求5所述的視覺目標上下文空間關(guān)系編碼的方法,其特征在于,所述步驟C中的邏輯關(guān)系為二元邏輯關(guān)系。
      7.根據(jù)權(quán)利要求5或6所述的視覺目標上下文空間關(guān)系編碼的方法,其特征在于,所述步驟D中,還包括計算得到視覺目標空間關(guān)系編碼神經(jīng)元的響應(yīng)值的步驟。
      8.根據(jù)權(quán)利要求5或6所述的視覺目標上下文空間關(guān)系編碼的方法,其特征在于,所述步驟A中,15個視覺圖像基元編碼神經(jīng)元的編碼值(wi1,wi2,wi3,wi4)是根據(jù)2×2像素的15種組合對應(yīng)的權(quán)值,經(jīng)過歸一化處理而得到;
      對來自視覺圖像傳感神經(jīng)元的響應(yīng)輸入(x1,x2,x3,x4),所述視覺圖像基元編碼神經(jīng)元Bi的響應(yīng)值Ri2由以下函數(shù)決定
      其中,T是一個閾值,wik為圖像基元Bi的四個編碼中的一個。
      9.根據(jù)權(quán)利要求5或6所述的視覺目標上下文空間關(guān)系編碼的方法,其特征在于,所述步驟B中,所述計算得到視覺圖像目標編碼神經(jīng)元的編碼值,包括下列步驟
      設(shè)圖像目標區(qū)域包含M個子區(qū)域,對每個子區(qū)域Xm(1≤m≤M),基元編碼神經(jīng)元B0和Bk的響應(yīng)值是Rm02和Rmk2(1≤k≤14),則對應(yīng)的權(quán)值Wm0,j23和Wmk,j23由下式?jīng)Q定
      其中w’mi,j的值根據(jù)赫布學習規(guī)則來決定其中,a2是一個系數(shù),即首先根據(jù)赫布學習規(guī)則計算得到一個連接權(quán)值,再進行歸一化計算,得到第二層到第三層的連接權(quán)值;
      對來自第二層基元編碼神經(jīng)元響應(yīng)值(R12,R22,...Ri2,...R2m2),第三層的目標編碼神經(jīng)元Oi的輸入值Ij3,如下式所示
      經(jīng)過進一步經(jīng)競爭響應(yīng)得到最佳響應(yīng)值Rj3,由下式響應(yīng)函數(shù)決定
      10.根據(jù)權(quán)利要求5或6所述的視覺目標上下文空間關(guān)系編碼的方法,其特征在于,所述步驟C中,所述計算得到視覺圖像目標邏輯關(guān)系編碼神經(jīng)元的兩個編碼值,根據(jù)赫布規(guī)則,都用相同的常數(shù)表示;
      對來自第三層目標編碼神經(jīng)元(Oi1,Oi2)的響應(yīng)值(Ri13,Ri23),第四層的二元邏輯關(guān)系編碼神經(jīng)元Pj的輸入值Ij4由以下函數(shù)決定
      其中wi1,j和wi2,j為等值常數(shù)。
      進一步經(jīng)競爭響應(yīng)得到最佳響應(yīng)值Rj4,由以下響應(yīng)函數(shù)決定,使得突出其響應(yīng)
      11.根據(jù)權(quán)利要求5或6所述的視覺目標上下文空間關(guān)系編碼的方法,其特征在于,所述步驟D中,所述計算得到視覺目標空間關(guān)系編碼神經(jīng)元的編碼值,包括下列步驟
      第四層到第五層的連接權(quán)值Wij45(w向左或w向右,w向上或w向下)是根據(jù)赫布規(guī)則wij=α3RiRj計算得出,其中,α3是一個系數(shù),Ri是第四層神經(jīng)元的響應(yīng)值,為1;Rj是第五層神經(jīng)元的響應(yīng)值,其為兩個目標之間的水平或者垂直方向的距離|Δx|或|Δy|;計算如下
      w向左=α3|Δx|(Δx<0)
      w向右=α3|Δx|(Δx>0)
      w向上=α3|Δy|(Δy<0)
      w向下=α3|Δy|(Δy>0)
      對來自第四層目標二元邏輯關(guān)系編碼神經(jīng)元Pi的響應(yīng)Ri4,其響應(yīng)值為1,第五層的空間關(guān)系編碼神經(jīng)元(S向左、S向右、S向上、S向下)的響應(yīng)值(s向左、s向右、s向上、s向下)由以下響應(yīng)函數(shù)決定
      s向右=0(Δx<0)
      s向左=0(Δx>0)
      s向下=0(Δy<0)
      s向上=0(Δy>0)。
      全文摘要
      本發(fā)明公開了一種視覺目標上下文空間關(guān)系編碼的系統(tǒng)和方法。該系統(tǒng)以神經(jīng)元網(wǎng)絡(luò)形式實現(xiàn);包括視覺圖像基元編碼神經(jīng)元層、視覺圖像目標編碼神經(jīng)元層、視覺圖像目標邏輯關(guān)系編碼神經(jīng)元層和視覺目標空間關(guān)系編碼神經(jīng)元層;所有相鄰兩層神經(jīng)元之間的連接權(quán)值構(gòu)成了對圖像內(nèi)容的編碼,每個編碼神經(jīng)元及其連接權(quán)值分別編碼圖像基元、圖像目標、目標二元邏輯關(guān)系和目標空間關(guān)系。其具有極大的靈活性和自適應(yīng)性。
      文檔編號G06N3/06GK101159043SQ20071017765
      公開日2008年4月9日 申請日期2007年11月19日 優(yōu)先權(quán)日2007年11月19日
      發(fā)明者軍 苗, 卿來云, 段立娟, 陳熙霖, 文 高, 喬元華 申請人:中國科學院計算技術(shù)研究所, 中國科學院研究生院, 北京工業(yè)大學
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1