專利名稱:用于測定圖像中的對象的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于測定圖像中的對象的方法和用于測定圖像中的對象的裝置。
從[1]中已公開這種方法和這種裝置。
在[1]所公開的方案中,從一個借助攝像機(jī)拍攝的、且包含有需識別的對象的圖像中采集該圖像的一個子區(qū)內(nèi)的信息。針對被采集的信息執(zhí)行特征提取,并借助已知的圖樣識別方法把從該子區(qū)中提取的特征與預(yù)先提取的、描述所述待識別的對象的特征進(jìn)行比較。
如果在所述從子區(qū)提取的特征和所述描述待識別的對象的預(yù)定特征之間存在足夠大的相似性,則終止所述的方法,并輸出所述已針對其形成了所述提取特征的被識別對象,以作為被識別出的對象。
可以迭代地針對圖像的不同子區(qū)一直執(zhí)行該方法,直到測出所述的對象或直到滿足預(yù)定的中斷判據(jù),譬如預(yù)定數(shù)目的迭代或以足夠的精度識別待識別的對象。
該方案的缺點尤其在于,為測定待考察的圖像內(nèi)的對象需要大量的計算時間。這尤其歸因于以相同的方式處理所述圖像的所有子區(qū),也就是說在對象測定方法的范圍內(nèi),所述圖像的所有子區(qū)的局部分辨率是相同的。
另外,[2]以小波變換的形式公開過一種所謂的兩維蓋博變換。該兩維蓋博變換是一些借助局部的空間帶通濾波器的基本函數(shù),所述的濾波器在空間域和頻域、也即在一維的空間域和兩維的頻域內(nèi)實現(xiàn)理論上最佳的總分辨率。和[4]公開了其它一些變換。
本發(fā)明基于的問題在于測定圖像內(nèi)的對象,其中所述的測定可以用統(tǒng)計上較少的計算時間來實現(xiàn)。另外,本發(fā)明基于的問題還在于訓(xùn)練一種具有學(xué)習(xí)能力的裝置,使得該裝置能被用來測定圖像內(nèi)的對象,以便在測定對象時,通過采用被訓(xùn)練過的具有學(xué)習(xí)能力的裝置可以比已知的解決方案實現(xiàn)更少的計算時間。
該問題通過具有各獨立權(quán)利要求所述特征的方法、裝置、計算機(jī)程序單元和計算機(jī)可讀的存儲介質(zhì)來解決。
在本發(fā)明的用于測定圖像中的對象的方法中,以第一局部分辨率從所述的圖像中采集信息。針對所采集的信息而執(zhí)行第一次特征提取。根據(jù)所述的第一次特征提取而從所述的圖像中選出所述對象可能所在的至少一個子區(qū)。繼續(xù)以第二局部分辨率從所述被選定的子區(qū)中采集信息。且所述的第二局部分辨率大于所述的第一局部分辨率。針對所述的以第二局部分辨率采集的信息而執(zhí)行第二次特征提取,并檢驗所述借助第二特征提取從所述的信息中所提取的特征是否滿足預(yù)定的判據(jù)。如果不滿足所述預(yù)定的判據(jù),則分別以更高的局部分辨率迭代地從所述被選定的子區(qū)的至少一個分子區(qū)中采集信息,并檢驗所述分別以更高的局部分辨率所采集的信息是否滿足預(yù)定的判據(jù),直到滿足該預(yù)定的判據(jù),或者從所述的圖像中選出另一個子區(qū),并以第二局部分辨率從該另一子區(qū)中采集信息。作為替換方案,也可以終止所述的方法。
譬如在數(shù)字化圖像處理中,所述的信息可以是分配給數(shù)字化圖像像點的亮度信息和/或顏色信息。
利用本發(fā)明可以在測定圖像中的對象時大大地節(jié)省計算時間。
顯然,本發(fā)明是基于如下知識,即在生物的視覺感受中,以不同的局部分辨率來感覺大小不同的各個區(qū)域的分級方法通常可以達(dá)到識別出被找尋的對象的目的。
當(dāng)然從本發(fā)明可以看出,為測定圖像中的對象而分級地選擇各個子區(qū)和分子區(qū),這些子區(qū)或分子區(qū)分別是以不同的分辨率被拍攝到各個分級的層上的,并且在成功地進(jìn)行特征提取之后將其與待識別對象的特征進(jìn)行比較。如果以足夠的可靠性識別出所述的對象,則輸出所述待識別的對象以作為被識別出的對象。但如果不是這種情況,則可選地提供如下可能性,即選出當(dāng)前的子區(qū)的另一個分子區(qū),并再次以一個提供的局部分辨率從該分子區(qū)中采集信息,或者選出另一個子區(qū)并根據(jù)待識別的對象而檢測該子區(qū)。
在用于訓(xùn)練具有學(xué)習(xí)能力的裝置的方法中,所述的裝置可以被用來測定圖像中的對象,并且采集一個包含待測定對象的圖像。預(yù)給定所述待識別的對象在所述圖像中的位置和該對象自身。對所述的對象分別以不同的局部分辨率執(zhí)行多次特征提取。利用所述被提取的特征分別針對一個不同的局部分辨率而訓(xùn)練所述的具有學(xué)習(xí)能力的裝置。
所述的裝置在本發(fā)明中既可以借助計算機(jī)程序、也即用軟件來實現(xiàn),也可以借助特殊的電子電路、也即用硬件來實現(xiàn)。
本發(fā)明的優(yōu)選改進(jìn)方案由各個從屬權(quán)利要求給出。
這些其它的改進(jìn)方案既涉及方法、裝置、計算機(jī)可讀的存儲介質(zhì),也涉及計算機(jī)程序單元。
作為預(yù)定的判據(jù)可以采用以下的檢驗,即檢驗所述以相應(yīng)的局部分辨率所采集的信息是否足以用足夠的精度測定所述的對象。
另外,所述的判據(jù)也可以是預(yù)定數(shù)量的迭代,也即被用來分別選擇分子區(qū)和以提高的局部分辨率檢測該分子區(qū)的預(yù)定最大數(shù)量的迭代。
此外,所述的判據(jù)可以是預(yù)定數(shù)量的待檢測的子區(qū)或最多待檢測的分子區(qū)數(shù)量。
所述的特征提取可以借助一種變換而分別以不同的局部分辨率來實現(xiàn)。
作為變換可以優(yōu)選地采用小波變換,優(yōu)選地采用兩維的蓋博變換(2D-蓋博-變換)。
通過采用兩維的蓋博變換,以最佳的方式既在空間域也在頻域內(nèi)對所述的圖像信息進(jìn)行編碼,也就是說在減少冗余信息方面,在空間域編碼和頻域編碼之間達(dá)成最佳的折衷。
可以采用各種變換作為所述的變換,該變換尤其滿足以下前提條件-橢圓的高斯包絡(luò)的形態(tài)比應(yīng)該基本上為2∶1;-所述平面波的傳播方向應(yīng)該沿著所述橢圓高斯包絡(luò)的較短軸;-頻率響應(yīng)的半幅帶寬應(yīng)該沿著最佳方向約等于1-1.5倍頻程。
另外,所述變換的平均值應(yīng)該等于0,以確保所述小波變換的可靠的函數(shù)基。
作為替換方案,也可以采用在[3]和[4]中所講述的變換。
所述的變換可以借助多個神經(jīng)元網(wǎng)絡(luò)中的一個神經(jīng)元網(wǎng)絡(luò)來實現(xiàn),優(yōu)選地使用一種遞歸的神經(jīng)元網(wǎng)絡(luò)。
通過使用神經(jīng)元網(wǎng)絡(luò),尤其可以采用一種快速的、與每次待識別的對象或與相應(yīng)被采集的圖像信息相匹配的變換裝置。
在本發(fā)明的另一改進(jìn)方案中,在所述的圖像中測定多個子區(qū),其中針對每個子區(qū)分別求出相應(yīng)子區(qū)包含有所述待識別對象的概率。以相應(yīng)待測定的對象的所屬概率下降的順序針對所述的子區(qū)執(zhí)行所述的迭代方法。
通過該方法可以進(jìn)一步減少所需的計算時間,因為從統(tǒng)計學(xué)的觀點來看,這給出了一種用于測定所述待識別對象的最佳方案。
為進(jìn)一步降低所需的計算時間,在本發(fā)明的改進(jìn)方案中規(guī)定,被選定的子區(qū)的形狀基本上對應(yīng)于所述待測定的對象的形狀。
利用該方法分別檢測已經(jīng)基本上對應(yīng)于所述待測定對象的子區(qū)或一個分子區(qū)。由此避免了檢測那個肯定不存在所述待測定對象的圖像區(qū),因為相應(yīng)的圖像區(qū)一定已經(jīng)具有不同的形狀。
可以采用至少一個神經(jīng)元網(wǎng)絡(luò)作為具有學(xué)習(xí)能力的裝置。
優(yōu)選地按照形貌布置所述神經(jīng)元網(wǎng)絡(luò)的神經(jīng)元。
附圖中示出了本發(fā)明的一個實施例,下面來詳細(xì)講述它。其中
圖1用框圖示出了本發(fā)明一種實施例的用于測定對象的裝置結(jié)構(gòu),圖2用框圖詳細(xì)示出了在圖1的本發(fā)明實施例中用于執(zhí)行兩維蓋博變換的模塊結(jié)構(gòu),圖3用框圖詳細(xì)示出了在圖1的實施例中的識別模塊,圖4用框圖示出了本發(fā)明一種實施例的用于測定對象的裝置結(jié)構(gòu),其中詳細(xì)示出了優(yōu)先卡的測定,圖5a和5b示出了具有不同對象的圖像,從這些對象中需要求出待測定的對象,其中在圖5a中示出了不同的拍攝對象,以及圖5b中在不同的局部分辨率的情況下求出了識別結(jié)果,圖6用流程圖示出了本發(fā)明實施例的方法的各個步驟。
圖1示出了裝置100的簡圖,利用該裝置來測定待測定的對象。
所述的裝置100具有一個視場101。
另外還設(shè)有一個采集單元102,利用它可以經(jīng)所述的視場101以不同的局部分辨率從圖像中采集信息。
所述的采集單元102具有一個特征提取單元103和一個識別單元104。
圖1在采集單元102中示出了許多特征提取單元103,這些特征提取單元分別以不同的局部分辨率從圖像中采集信息。
由所述的特征提取單元103把從被測定的圖像信息中所提取的特征輸入到識別模塊中,也即以特征矢量105的形式輸入到識別單元104中。
在下面還要詳細(xì)講述的識別單元104中,以下文還要詳細(xì)講述的方式把所述的特征矢量105與一個預(yù)先形成的特征矢量進(jìn)行樣式比較。
識別結(jié)果被輸入到控制單元106中,由該控制單元判斷選定所述圖像的哪個子區(qū)或哪個分子區(qū)-下文還要進(jìn)一步講述-,以及利用何種局部分辨率來檢測相應(yīng)的子區(qū)或分子區(qū)??刂茊卧?06另外還具有一個判定單元,在該判定單元中檢驗在所提取的特征方面是否滿足預(yù)定的判據(jù)。
如同箭頭107所示,根據(jù)控制單元106的控制信號而在各個識別單元104之間進(jìn)行“切換”,以便分別利用不同的局部分辨率在不同的采集區(qū)域108中采集信息。
下面來詳細(xì)講述圖2詳細(xì)示出的特征提取單元103。
如果如此地設(shè)立兩維的蓋博小波,使得頻率范圍被置于一個對數(shù)劃分之中,則每個采集的頻率被稱作倍頻程。每個倍頻程在下文被稱作局部分辨率。
在預(yù)定的局部分辨率情況下執(zhí)行小波變換的每個單元都具有一種神經(jīng)元布置,其采集范圍對應(yīng)于兩維的蓋博函數(shù),并依賴于某種取向。
相應(yīng)神經(jīng)元的輸出還依賴于預(yù)定的局部分辨率,并且是對稱的。每個特征提取單元103都具有一個遞歸的神經(jīng)元網(wǎng)絡(luò)200,如圖2所示。
下文假定一個具有n*n個像點的數(shù)字化圖像201(根據(jù)該實施例,n=128,也即根據(jù)該實施例所述的圖像具有16384個像點)。
每個像點被分配一個位于“0” (黑)和“255”(白)之間的亮度值Iijorig。所述的亮度值Iijorig分別標(biāo)明了一個像點所分配的亮度值,且所述的像點在圖像201內(nèi)是處于用指數(shù)i,j表示的局部坐標(biāo)上。
從圖像201、也即從位于相應(yīng)采集區(qū)域內(nèi)的像點中求出所述圖像201的像點亮度值Iijorig的平均亮度值DCDC=1n2Σi=1nΣj=1nIijorig,---(1)]]>這些像點位于所述的采集區(qū)域內(nèi),并且通過一個對比度校正單元202從每個像點的亮度值Iijorig中減去該平均亮度值DC。
結(jié)果是對比度不變的亮度值的一個集合。對于在采集區(qū)域內(nèi)的像點,其亮度值的對比度不變的描述通過以下公式來得出Iij=Iijorig-1n2Σi=1nΣj=1nIijorig,---(2)]]>該沒有DC的亮度值被輸入到一個神經(jīng)元層203中,由其神經(jīng)元提取簡單的特征。
神經(jīng)元層203的神經(jīng)元具有一些感受域,由這些感受域根據(jù)以下公式執(zhí)行兩維的蓋博變換。Ψ(x,y,ω0,Θ)=ω02Πκe-ω028κ2(4·(xcosΘ+ysinΘ)2+(-xsinΘ+ycosΘ)2)·[eiω0(xcosΘ+ysinΘ)-e-k22]]]>(3)其中·ω0表示每個長度單元用弧度計的角頻率,以及·Θ以弧度表示小波的取向。
所述的蓋博小波在x=y(tǒng)=0 (4)
處集中,并借助L2標(biāo)準(zhǔn)進(jìn)行標(biāo)準(zhǔn)化,使得<Ψ,Ψ>=1. (5)利用恒量K來確定頻帶寬度。
根據(jù)該實施例而使用K=Π(6)這對應(yīng)于一個倍頻程的頻帶寬度。
通過按照下式離散化所述連續(xù)小波函數(shù)(3)的頻率、取向和中心點可以求出一系列離散的2D-蓋博-小波Gkpql(x,y)Gkpql(x,y)=a-kΨΘ1(a-kx-pb,a-ky-qb),--(7)]]>其中,ΨΘ1=Ψ(xcos(1Θ0)+ysin(1Θ0),-xsin(1Θ0)+ycos(1Θ0))---(8)]]>而且基本小波為Ψ(x,y)=12Πe-18(4x2+y2)·[eikx-e-κ22].---(9)]]>根據(jù)該公式,·Θ0=п/L表示各個角度旋轉(zhuǎn)的步進(jìn)量,·1表示根據(jù)優(yōu)選的取向Θ1=1п/L的旋轉(zhuǎn)的指數(shù),·k表示各個倍頻程,以及·p和q表示感受域的中心位置(cx=pbak和cy=qbak)。對于給定的倍頻程k,根據(jù)P=[nbak],---(10)]]>Q=[nbak],---(11)]]>得出p和q的最大值,其中用 表示小于x的最大整數(shù)。
下文利用rkpql來表示激活所述神經(jīng)元層203內(nèi)的神經(jīng)元。
激活rkpql依賴于某個局部的頻率,該頻率取決于距優(yōu)選取向和中心處激勵的倍頻程k,其中所述的優(yōu)選取向由旋轉(zhuǎn)指數(shù)1確定,而所述的中心由指數(shù)p和q確定。
各個神經(jīng)元層203內(nèi)的神經(jīng)元的激活rkpql被定義為相應(yīng)的感受域和圖像(也即像點的亮度值)的卷積,因此根據(jù)以下公式得出神經(jīng)元的激活rkpqlrkpql=<Gkpql,I>=Σi=1nΣj=1nGkpql(i,j)·Iij·gij,---(12)]]>其中用gij表示所述具有相應(yīng)局部分辨率k的采集單元的像點(i,j)的加權(quán)值。
需注意的是,神經(jīng)元的激活rkpql是一個復(fù)數(shù),因此該實施例采用兩個神經(jīng)元來編碼一個亮度值Iij,一個神經(jīng)元用于亮度值Iij的實部,一個神經(jīng)元用于被變換的亮度信息Iij的虛部。
所述神經(jīng)元層205的采集所述被變換的亮度信號204的神經(jīng)元206產(chǎn)生一個神經(jīng)元輸出值207。
借助該神經(jīng)元輸出信號207在圖像重構(gòu)單元208內(nèi)形成一個重構(gòu)的圖像209。
根據(jù)該實施例,所述的圖像重構(gòu)單元208具有一些用于執(zhí)行蓋博-小波-變換的神經(jīng)元。
為此,所述的圖像重構(gòu)單元208具有一些按照前饋結(jié)構(gòu)彼此相連的神經(jīng)元,它們對應(yīng)于一個蓋博感受域。
換句話說,這意味著按照如下公式進(jìn)行圖像重構(gòu)I^ij=cΣk=0KΣp=0PΣq=0QΣl=0L-1rkpqlGkpql(i,j),---(13)]]>
其中用K表示最大的分辨率。
利用恒量C來表示所采用的小波基的密度。由于蓋博-小波-基函數(shù)的非正交性,通過公式(13)及其線性疊加不能保證達(dá)到按照下式求出的重構(gòu)誤差E的最小值E=Σi=1nΣj=1ngij||Iij-I^ij||2---(14)]]>可以通過借助反饋連接動態(tài)地優(yōu)化所述的重構(gòu)誤差E來獲得所述公式(14)的校正。
接下來為所述神經(jīng)元層205的每個神經(jīng)元206求出一個反饋的校正項rkpqlcorr。
如此來確定所述遞歸神經(jīng)元網(wǎng)絡(luò)200的動態(tài),使得根據(jù)如下公式來求出一個動態(tài)的重構(gòu)誤差E=Σi=1nΣj=1ngij||Iij-cΣk=0KΣp=0PΣq=0QΣl=0L-1{rkpql+rkpqlcorr}Gkpql(i,j)||2.(15)]]>所述遞歸的神經(jīng)元網(wǎng)絡(luò)200的動態(tài)重構(gòu)誤差被最小化。這通過按照如下公式動態(tài)地匹配校正項rkpqlcorr來實現(xiàn)∂rkpqlcorr∂t=-η2∂E∂rkpqlcorr=ηΣi=1nΣj=1ngijEijGkpql(i,j)=η<Gkpql,E>,(16)]]>其中Eij=(Iij-cΣk=0KΣp=0PΣq=0QΣl=0L-1{rkpql+rkpqlcorr}Gkpql(i,j))---(17)]]>用η表示變化系數(shù)(按照該實施例η=0.1)。按照以下公式求出所述的恒量Cmax(Iij)=max(I^ij),]]>
其中用max()表示各個值的最大值。
可以用以下方法明顯地解釋上述的動態(tài)。
如果反饋所述的重構(gòu)誤差信號E并用相同的蓋博感受域(<Gkpql,E>)進(jìn)行卷積,則整個動態(tài)系統(tǒng)將收斂到一個對應(yīng)于所述重構(gòu)誤差信號214的最小值的吸引子。
借助一個差分單元210來求出所述的重構(gòu)誤差信號214。把無對比度的亮度信號211和所述被重構(gòu)的亮度信號212輸入到差分單元210中。通過求出所述無對比度的亮度信號211和相應(yīng)被重構(gòu)的亮度值212之間的差值而求出一個重構(gòu)誤差值213,把該誤差值輸入到所述的感受域、也即蓋博濾波器中。
在學(xué)習(xí)階段,針對待測定的、也即待識別的對象集中的每個待測對象,以及針對每個局部的分辨率而在上述的特征提取單元103中執(zhí)行公式(16)所示的訓(xùn)練方法。
這通過為每個對象并針對每個局部分辨率而提取相應(yīng)的2D-蓋博-小波-特征來實現(xiàn)。
所述的識別單元104在其神經(jīng)元加權(quán)中單個地存入針對每個局部分辨率而提取的特征矢量105。
由此根據(jù)每個局部分辨率和針對每個待測定的對象來訓(xùn)練不同的特征提取單元103,這在圖1中是通過不同的特征提取單元103表示的。
感受域的中心位置被離散化,并針對等級k的局部分辨率得出cx=pbak(18)和cy=qbak. (19)這明顯地意味著,在空間上靠近的小波是通過較小的步距隔開的,而且相距較遠(yuǎn)的小波是通過較大的步距隔開的。
根據(jù)該實施例,所述的感受域在每種局部分辨率情況下都是以相同的方式覆蓋整個采集區(qū)域的,也就是說它們總是以相同的方式重疊。
由此,局部分辨率為k的特征提取單元103具有L(n(bak))2---(20)]]>個蓋博神經(jīng)元。
所述的蓋博神經(jīng)元明確地借助指數(shù)kpql和激活rkpql來表示,如同上文所述,它們是通過用所述采集區(qū)域的像點的亮度值Iij卷積相應(yīng)的感受域而給出的。
通過上述的方法,由優(yōu)選使用的特征提取單元103通過前向的蓋博連接而快速地求出一個足夠好的小波基函數(shù)集,以便更好地對所述的亮度值進(jìn)行編碼,這些亮度值是通過對重構(gòu)誤差值213進(jìn)行遞歸的動態(tài)分析求出的,由此實現(xiàn)較少數(shù)量的迭代以求出所述重構(gòu)誤差值213的最小值。
根據(jù)該實施例,采用反饋的重構(gòu)誤差E來在以下意義上動態(tài)地改善所述圖像201的前向的蓋博表示,即依據(jù)蓋博小波的非正交性來動態(tài)地校正在圖像信息的描述中的以上冗余問題。
因此,通過按照圖像信息的內(nèi)部表示而改善所述的重構(gòu),蓋博特征描述的冗余被動態(tài)地大大減小。
所以通過這種結(jié)構(gòu)實現(xiàn)了蓋博濾波器的常規(guī)線性表示的非線性校正,由此實現(xiàn)了圖像信息的更有效的預(yù)測編碼。
為實現(xiàn)圖像信息的最佳預(yù)測編碼所需要的迭代數(shù)量可以通過如下方式進(jìn)一步減少,即采用冗余數(shù)量的蓋博神經(jīng)元來進(jìn)行特征編碼。
由此而冗余的基允許更多數(shù)量的基矢量作為輸入信號。按照該實施例,對于局部分辨率為K的特征提取單元103,根據(jù)所述的倍頻程至少采用等于通過局部分辨率K預(yù)給定的數(shù)值的數(shù)量來利用小波特征重構(gòu)所述蓋博神經(jīng)元的內(nèi)部表示。
根據(jù)該實施例采用六個倍頻程,也即具有8個取向(L=8)的六個特征提取單元103(N=6),其中b=1和a=2,于是在應(yīng)用所有等級的分辨率L(n(bak))2---(20)]]>的情況下使用一些實施編碼的蓋博神經(jīng)元。
由于根據(jù)該實施例在圖像中包含16.384個像點,所以采用174.080個進(jìn)行編碼的蓋博神經(jīng)元來形成所述的冗余基。
下面來詳細(xì)講述神經(jīng)元層205的神經(jīng)元(參見圖3)。
根據(jù)該實施例假定針對每個神經(jīng)元206(其中規(guī)定一個神經(jīng)元300用于蓋博變換的實部,一個神經(jīng)元301用于蓋博變換的虛部,這正如上文所述,也就是說兩個用于“邏輯”神經(jīng)元的神經(jīng)元),利用至特征提取單元103的相應(yīng)連接分別以加權(quán)信息的形式進(jìn)行存儲,所述的加權(quán)信息針對所述采集區(qū)域內(nèi)的某個局部分辨率和某個對象位置而借助對象的特征矢量進(jìn)行描述。
所述神經(jīng)元層205的神經(jīng)元206按照各列進(jìn)行組織排列,以便按形貌排列所述的神經(jīng)元。
所述的識別神經(jīng)元的感受域被如此地設(shè)置,使得只傳送神經(jīng)元輸入值在某個中心區(qū)域周圍的有限的正方形采集區(qū)域。
所述的識別神經(jīng)元的正方形感受域的大小是恒定的,并且如此地設(shè)置所述的識別神經(jīng)元,使得只考慮位于各識別神經(jīng)元301、302的采集區(qū)域之內(nèi)的神經(jīng)元層205的神經(jīng)元206的信號。
在訓(xùn)練階段內(nèi),感受域的中心處于各對象的亮度中心內(nèi)。
針對每個需要學(xué)習(xí)的、也即在應(yīng)用階段需要識別的對象,把相同的識別神經(jīng)元-也即以相同的加權(quán)進(jìn)行劃分但具有不同中心的神經(jīng)元-分布在整個測定區(qū)域上,由此來獲得平移不變性。
通過如下方式來獲得旋轉(zhuǎn)不變性,即在每個位置沿著不同的取向存儲所述小波系數(shù)的總和。
總之,根據(jù)該實施例,在學(xué)習(xí)階段為每個需要進(jìn)行新的學(xué)習(xí)的對象設(shè)定一個自己的識別神經(jīng)元數(shù)量,這些識別神經(jīng)元在其加權(quán)中存儲了相應(yīng)基于小波的、各個對象的內(nèi)部描述,也即描述所述對象的特征矢量。
針對每個局部分辨率產(chǎn)生一個識別神經(jīng)元,該識別神經(jīng)元對應(yīng)于按照相應(yīng)的倍頻程的各個內(nèi)部描述,也即對應(yīng)于相應(yīng)的局部分辨率,而且在整個采集區(qū)域內(nèi)針對所有的中心位置而分布式地布置各個識別神經(jīng)元。
所述的識別神經(jīng)元是線性的神經(jīng)元,它以輸出值的形式在其輸入加權(quán)和輸入信號之間加入一個線性相關(guān)系數(shù),其中所述的輸入加權(quán)是由所述神經(jīng)元層的位于特征提取單元103內(nèi)的神經(jīng)元形成的。
圖3針對不同的對象303、304示出了各個識別神經(jīng)元305、306、307、308、309、310、311、312。顯然,在訓(xùn)練階段期間,在一個時間點上在所述采集區(qū)域的一個預(yù)定的、且可自由預(yù)定的位置提供各個對象。
所述的識別神經(jīng)元在其加權(quán)中存儲所述基于小波的信息。對于一個給定的位置、也即具有像素坐標(biāo)(cx,cy)的中心,為每個需要學(xué)習(xí)的對象設(shè)立兩個識別神經(jīng)元,一個識別神經(jīng)元用于存儲小波描述的實部,另一個識別神經(jīng)元用于存儲所述內(nèi)部小波描述的虛部。
如同上文所述,在所述的遞歸動態(tài)成功地收斂之后,所述神經(jīng)元的內(nèi)部描述按照以下兩個張量進(jìn)行存儲wkpq=Re(Σl=0L-1(rk(p+cx)(q+cy)l+rk(p+cx)(q+cy)lcorr)),---(21)]]>以及w~kqp=Im(Σl=0L-1(rk(p+cx)(q+cy)l+rk(p+cx)(q+cy)lcorr)),---(22)]]>其中利用Re()來分別表示所述的實部,以及利用Im()來分別表示所述的虛部,而且對于所述的指數(shù)p和q適用p,q∈[- R,R], (23)其中利用R表示所采集的像點內(nèi)的感受域的寬度。根據(jù)該實施例選擇R=32個像點。在訓(xùn)練階段期間,通過各個對象的亮度中心求出所述的中心(cx,cy),它由下式給出cx=(Σi=1nIij·i)(Σi=1nIij),---(24)]]>以及cy=(Σi=1nIij·j)(Σi=1nIij).---(25)]]>通過求出在所有指數(shù)1上的總和,實現(xiàn)了相應(yīng)對象的旋轉(zhuǎn)不變的描述。
以相同的方式求出因激勵而在另一中心內(nèi)被激活的神經(jīng)元,其中采用相同的加權(quán)來識別位于所述采集區(qū)域內(nèi)的偏移位置處的相同對象。
識別神經(jīng)元在識別階段的輸出通過一個相關(guān)系數(shù)來確定,該相關(guān)系數(shù)描述了所述的加權(quán)和神經(jīng)元層205的神經(jīng)元206的輸出之間的相關(guān)性。
根據(jù)該實施例,在局部分辨率為k的情況下,通過參考所述神經(jīng)元層205的神經(jīng)元206在分辨率為k時的實部和所述的中心(zx,zy),所述識別單元104內(nèi)的識別神經(jīng)元的輸出由下式給出ok(zx,zy)=(Σp=-RRΣq=-RR(Wkpq-<wk>)(vkpq(zx,zy)-<vk>))σwkσvk.---(26)]]>相應(yīng)的識別神經(jīng)元針對所述虛部的輸出由下式給出o~k(zx,zy)=(Σp=-RRΣq=-RR(w~kpq-<w~k>)(v~kpq(zx,zy)-<v~k>))σw~kσv~k.---(27)]]>利用<a>表示平均值,利用σa表示變量a在所述采集區(qū)域上、也即在所有的指數(shù)p、q上的標(biāo)準(zhǔn)偏差。
需指出的是,在每種局部分辨率的情況下,所述的神經(jīng)元是根據(jù)相同對象的采集、但也根據(jù)不同的位置而被激活的,因為相應(yīng)于對象針對不同的位置存儲了相同的加權(quán)。
根據(jù)該實施例,所述識別神經(jīng)元的中心被如此地布置在采集區(qū)域上,使得它們完全覆蓋所述的采集區(qū)域,而且總是有一個神經(jīng)元與另一神經(jīng)元的采集區(qū)域互相重疊一半,也就是說對于n=128和R=64,在以下的位置上布置了9個中心((32,32)(32,64)(32,96)(64,32)(64,64)(64,96)(96,32)(96,64)(96,96))。
因此在識別階段期間,串行地通過控制單元106激活不同的識別單元104,這將在下文進(jìn)行講述。
在激活相應(yīng)的識別單元104之后,檢驗是否滿足預(yù)定的判據(jù),其中,根據(jù)大于或等于當(dāng)前倍頻程的倍頻程,也即通過在相應(yīng)的時間點上只考慮被激活的識別單元104來測定具有最大激活的識別神經(jīng)元的激活。
換句話說,在判定選擇哪個識別神經(jīng)元時,以如下方式采用一個所謂的誰勝誰占有策略,即由所述的控制單元106分析所選出的被分配給某個中心和某個對象的識別神經(jīng)元。
正如下文所述,另外還由控制單元106判斷相應(yīng)對象的識別是否足夠準(zhǔn)確,或者是否需要通過選擇一個較小的、具有較高局部分辨率的更細(xì)區(qū)域來對所述的對象進(jìn)行更準(zhǔn)確地分析。
如果是這種情況,則激活位于其它特征提取單元103或識別單元104內(nèi)的其它神經(jīng)元,以便提高所述的局部分辨率。
如圖4所示,針對所述的采集區(qū)域在最粗的局部分辨率情況下形成識別單元104的一個優(yōu)先卡,其中通過所述的優(yōu)先卡給出圖像區(qū)的各個子區(qū),并給相應(yīng)的子區(qū)分配一個概率,以該概率給出待識別的對象位于所述子區(qū)內(nèi)的可能性(參見圖4)。
在圖4中所述的優(yōu)先卡是用400表示的。子區(qū)401的特征在于該子區(qū)401的中心402。
下面來詳細(xì)講述被用來選擇各個子區(qū)和分子區(qū)并分別以較高的局部分辨率進(jìn)行檢測的各個迭代。
根據(jù)該實施例,設(shè)立一種串行的反饋機(jī)制來掩蔽所述的采集區(qū)域,因此根據(jù)每次被選定的高分辨率k來激活一系列其它的采集單元102和特征提取單元103以及識別單元104,也就是說由控制單元106調(diào)節(jié)采集區(qū)域的定位和大小,其中由系統(tǒng)在該采集區(qū)域內(nèi)拍攝可視信息并進(jìn)一步進(jìn)行處理。
在第一步中處理整個圖像201,但利用的是最粗的局部分辨率,也就是說只激活第一識別單元和k=N的特征提取單元。
在該粗的局部分辨率的情況下,實際上通常只能識別所述對象的位置,并非常粗地確定對象的整體形狀。
根據(jù)相應(yīng)的任務(wù),由控制單元把識別單元的結(jié)果存儲下來作為優(yōu)先卡,并選定所述圖像的一個子區(qū),并在該子區(qū)內(nèi)象下文還要繼續(xù)講述的那樣檢測圖像信息。
所述子區(qū)的相應(yīng)選擇通過相同的反饋連接由被激活的小波模塊進(jìn)行反饋。
子區(qū)的選擇,也即規(guī)定以更高的局部分辨率詳細(xì)地檢測哪些像點是根據(jù)如下的像點來進(jìn)行的,即該像點描述了最后被激活的局部分辨率的對象。
依據(jù)以下的像點來選出相應(yīng)的像點,即這些像點能實現(xiàn)好的重構(gòu),也就是說能以低的重構(gòu)誤差、并通過與被濾波的黑背景不相對應(yīng)的像點來實現(xiàn)重構(gòu)。
換句話說,所述的注意力機(jī)制是以如下意義而基于對象的,即僅串行地以較高的局部分辨率進(jìn)一步分析所述對象所處的區(qū)域。
這意味著,串行地激活相應(yīng)的較低的倍頻程,但只是在所選定的子區(qū)內(nèi)。
所述的注意力機(jī)制在數(shù)學(xué)上借助矩陣Gij來描述,當(dāng)應(yīng)該考慮相應(yīng)的像點時其元素值為“1”,當(dāng)不應(yīng)考慮相應(yīng)的像點時其元素值為“0”。
在對象識別中為最粗的局部分辨率的情況下(k=N),分析所有的圖像201,也即gij=1 i,j. (28)產(chǎn)生所述的優(yōu)先卡,并由控制單元106判斷在下一步驟中詳細(xì)分析哪個對象,以便在下一更高的局部分辨率的范圍內(nèi)只考慮位于所述圖像區(qū)內(nèi)、也即位于所述被選定的子區(qū)內(nèi)的像點。
根據(jù)該實施例假定另外兩個條件。
第一個條件是,被重構(gòu)的圖像具有亮度值 第二個條件是,重構(gòu)誤差不大于預(yù)定的閾值,也即gijEij<α. (29)由此,所述的控制單元106判斷出要詳細(xì)分析處于所述優(yōu)先卡中心(cx,cy)處的對象,然后根據(jù)如下公式更新由矩陣Gij所給定的掩模 對于k>N,通常只通過上述兩個條件來調(diào)節(jié)位于局部分辨率k和接下來的局部分辨率k-1(也即提高了的局部注意力)之間的注意力反饋。
因此根據(jù)該實施例按照下式定義一個新的矩陣值Gij,以激活下一個被提高的局部分辨率k-1 下面來講述針對具體的對象識別以不同的局部分辨率來檢測各個子區(qū)和分子區(qū)的不同迭代過程。
在該實施例中設(shè)定了四種對象,如圖5a所示。
第一對象501具有一個總體的H形狀,并且局部元素具有T形狀的對象組分,因此把第一對象標(biāo)示為Ht。
第二對象502具有一個總體的H形狀,并且局部元素也具有H形狀的組分,因此把第二對象502標(biāo)示為Hh。
第三對象503具有一個總體的T形狀結(jié)構(gòu),并且局部形狀也為T形,因此把第三對象503標(biāo)示為Tt。
第四對象504具有一個總體的T形狀,并且各個對象組分為局部的H形狀,因此把第四對象標(biāo)示為Th。
圖5b示出了本發(fā)明的裝置針對不同的局部分辨率而分別對第一對象501的識別結(jié)果(在第一局部分辨率510、在第二局部分辨率511、在第三局部分辨率512、和在第四局部分辨率513時的被識別對象)。
圖5b還示出了本發(fā)明的裝置針對不同的局部分辨率而分別對第二對象502的識別結(jié)果(在第一局部分辨率520、在第二局部分辨率521、在第三局部分辨率522、和在第四局部分辨率523時的被識別對象)。
圖5b還示出了本發(fā)明的裝置針對不同的局部分辨率而分別對第三對象503的識別結(jié)果(在第一局部分辨率530、在第二局部分辨率531、在第三局部分辨率532、和在第四局部分辨率533時的被識別對象)。
圖5b還示出了本發(fā)明的裝置針對不同的局部分辨率而分別對第四對象504的識別結(jié)果(在第一局部分辨率540、在第二局部分辨率541、在第三局部分辨率542、和在第四局部分辨率543時的被識別對象)。
從圖5可以看出,在最高的局部分辨率情況下,已經(jīng)利用很好的、至少足夠的精度識別出相應(yīng)的對象。
下面參考圖6再次清楚地講述所述的用于測定對象的方法。
在第一步驟(步驟601)中,對被采集的圖像的像點、也即對該像點的亮度值以第一局部分辨率j=1進(jìn)行特征值提取(步驟602)。
在下一步驟中從所述的圖像內(nèi)求出第一子區(qū)Tbi(步驟603)。
對于被求出的每個子區(qū)Tbi,求出所述待測定的對象處于相應(yīng)子區(qū)Tbi內(nèi)的概率。結(jié)果是一個優(yōu)先卡,該優(yōu)先卡包含有位于概率和子區(qū)之間的各個分配關(guān)系(步驟604)。
根據(jù)所求出的優(yōu)先卡選出i=1的第一子區(qū)Tbi,并激活所述的神經(jīng)元,以便在步驟605中將所選出的子區(qū)增加值1,然后利用提高的局部分辨率檢測所選出的子區(qū)Tbi(步驟606,607)。
在檢驗步驟608中檢驗是否能以足夠的可靠性識別所述的對象(步驟608)。
如果是這種情況,則輸出所述被識別的對象以作為識別出的對象(步驟609)。
若不是這種情況,則在下一檢驗步驟(步驟610)中檢驗是否滿足預(yù)定的中斷判據(jù),根據(jù)該實施例是檢驗是否達(dá)到預(yù)定的迭代數(shù)目。
若是這種情況,則終止所述的方法(步驟611)。
如果不是這種情況,則在下一檢驗步驟中(步驟612)檢驗是否應(yīng)選出另一個分子區(qū)。
如果應(yīng)該選出需要以提高的分辨率進(jìn)行檢測的另一個分子區(qū),則選定該相應(yīng)的分子區(qū)(步驟613),并在步驟606中通過為相應(yīng)的分子區(qū)增加所述的局部分辨率而繼續(xù)所述的方法。
但如果不是這種情況,則從所述的優(yōu)先卡中選出另一個子區(qū)Tbi+1(步驟614),并在接下來的步驟(步驟605)中繼續(xù)所述的方法。
在該文獻(xiàn)中引用了如下公開物[1]A.Treisman所著的Perceptual Grouping and Attention inVisual Search for Features and for Objects,實驗心理學(xué)學(xué)報Human Perception and Performance,卷8,頁194-214,1982[2]J.Dauman所著的Complete Discrete 2D-Gabor-Transformsby Neural Networks for Image Analysis and Compression,IEEE關(guān)于聲學(xué)、速度和信號處理的會議紀(jì)要,卷36,頁1169-1179,1988[3]D.J.Heeger所著的Nonlinear Model of Neural Responses inCat Visual Cortex,Computational Models of Visual Processing,由M.Landy和J.A.Movshon編輯,劍橋,MA,MIT出版社,頁119-133,1991[4]D.J.Heeger所著的Normalization of Cell Responses in CatStriate Cortex,Visual Neuro Science,卷9,頁181-197,199權(quán)利要求
1.用于測定圖像中的對象的方法,其中,以第一局部分辨率從所述的圖像中采集信息,其中,針對所述圖像中的信息而執(zhí)行第一次特征提取,其中,根據(jù)所述的特征提取而從所述的圖像中選出所述對象可能所在的至少一個子區(qū),其中,以第二局部分辨率從所述被選定的子區(qū)中采集信息,且所述的第二局部分辨率大于所述的第一局部分辨率,其中,針對所述選定的子區(qū)中的信息執(zhí)行第二次特征提取,其中,檢驗是否滿足預(yù)定的判據(jù),其中,如果不滿足所述預(yù)定的判據(jù),則終止所述的方法,或從所述的圖像中選出另一個子區(qū),并以第二局部分辨率從該另一個子區(qū)中采集信息,其中,分別以更高的局部分辨率迭代地從所述被選定的子區(qū)的至少一個分子區(qū)中采集信息,并檢驗所述分別以更高的局部分辨率所采集的信息是否滿足預(yù)定的判據(jù),直到滿足該預(yù)定的判據(jù)。
2.按權(quán)利要求1的方法,其中,所述的判據(jù)是所述以第二局部分辨率采集的信息是否足以用足夠的精度采集所述的信息。
3.按權(quán)利要求1的方法,其中,所述的判據(jù)是預(yù)定數(shù)量的迭代。
4.按權(quán)利要求1-3之一的方法,其中,借助一種變換分別以不同的局部分辨率來執(zhí)行所述的特征提取。
5.按權(quán)利要求4的方法,其中,采用小波變換作為變換。
6.按權(quán)利要求5的方法,其中,采用兩維的蓋博變換作為小波變換。
7.按權(quán)利要求4-6之一的方法,其中,借助神經(jīng)元網(wǎng)絡(luò)來執(zhí)行所述的變換。
8.按權(quán)利要求7的方法,其中,借助遞歸的神經(jīng)元網(wǎng)絡(luò)來執(zhí)行所述的變換。
9.按權(quán)利要求1至8之一的方法,其中,在所述的圖像內(nèi)求出大量的、分別以所求出的概率包含所述待識別的對象的子區(qū),其中,以概率下降的順序針對所述的子區(qū)執(zhí)行所述的迭代方法。
10.按權(quán)利要求1-9之一的方法,其中,所選出的子區(qū)的形狀基本對應(yīng)于所述待識別的對象的形狀。
11.用于訓(xùn)練具有學(xué)習(xí)能力的裝置的方法,所述的裝置需要被用來測定圖像中的對象,其中,采集一個包含待識別對象的圖像,預(yù)給定所述待識別的對象在所述圖像中的位置和該對象,其中,針對所述的對象分別以不同的局部分辨率執(zhí)行多次特征提取,其中,利用所述被提取的特征分別針對一個局部分辨率而訓(xùn)練所述的裝置。
12.按權(quán)利要求11的方法,其中,采用至少一個神經(jīng)元網(wǎng)絡(luò)作為裝置。
13.按權(quán)利要求12的方法,其中,按形貌布置所述神經(jīng)元網(wǎng)絡(luò)的神經(jīng)元。
14.用于測定圖像中的對象的裝置,具有一種被如此安裝的處理器,使得可以執(zhí)行如下的方法步驟以第一局部分辨率從所述的圖像中采集信息,針對所述圖像的信息執(zhí)行第一次特征提取,依據(jù)所述的特征提取而從所述的圖像中選出該對象可能所在的至少一個子區(qū),以第二局部分辨率從所述被選定的子區(qū)中采集信息,且所述的第二局部分辨率大于所述的第一局部分辨率,針對所述被選定的子區(qū)中的信息執(zhí)行第二次特征提取,檢驗是否滿足預(yù)定的判據(jù),如果不滿足所述預(yù)定的判據(jù),則終止所述的方法,或從所述的圖像中選出另一個子區(qū),并以第二局部分辨率從該另一個子區(qū)中采集信息,分別以更高的局部分辨率迭代地從所述被選定的子區(qū)的至少一個分子區(qū)中采集信息,并檢驗所述分別以更高的局部分辨率所采集的信息是否滿足預(yù)定的判據(jù),直到滿足該預(yù)定的判據(jù)。
15.用于測定圖像中的對象的裝置,具有一個采集單元,用于以多個不同的局部分辨率從所述的圖像中采集信息,一個特征提取單元,用于針對所述采集單元所采集的信息而提取特征,一個選擇單元,用于依據(jù)所述的特征提取單元所提取的特征而從所述的圖像中選出該對象可能所在的至少一個子區(qū),一個用于控制所述采集單元的控制單元,所述的控制單元被如此地設(shè)立,使得以第二局部分辨率從所述被選定的子區(qū)中采集信息,且所述的第二局部分辨率大于所述的第一局部分辨率,一個判定單元,在該判定單元內(nèi)檢驗在每次所提取的特征方面是否滿足預(yù)定的判據(jù),其中所述的控制單元被如此地進(jìn)一步設(shè)置,使得如果不滿足所述預(yù)定的判據(jù),則終止所述的方法,或從所述的圖像中選出另一個子區(qū),并以第二局部分辨率從該另一個子區(qū)中采集信息,分別以更高的局部分辨率迭代地從所述被選定的子區(qū)的至少一個分子區(qū)中采集信息,并檢驗所述分別以更高的局部分辨率所采集的信息是否滿足預(yù)定的判據(jù),直到滿足該預(yù)定的判據(jù)。
16.計算機(jī)存儲介質(zhì),其中存儲了用于測定圖像中的對象的計算機(jī)程序,當(dāng)由處理器執(zhí)行該程序時包含如下的方法步驟以第一局部分辨率從所述的圖像中采集信息,針對所述圖像中的信息而執(zhí)行第一次特征提取,根據(jù)所述的特征提取而從所述的圖像中選出所述對象可能所在的至少一個子區(qū),以第二局部分辨率從所述被選定的子區(qū)中采集信息,且所述的第二局部分辨率大于所述的第一局部分辨率,針對所述選定的子區(qū)中的信息執(zhí)行第二次特征提取,檢驗是否滿足預(yù)定的判據(jù),如果不滿足所述預(yù)定的判據(jù),則終止所述的方法,或從所述的圖像中選出另一個子區(qū),并以第二局部分辨率從該另一個子區(qū)中采集信息,分別以更高的局部分辨率迭代地從所述被選定的子區(qū)的至少一個分子區(qū)中采集信息,并檢驗所述分別以更高的局部分辨率所采集的信息是否滿足預(yù)定的判據(jù),直到滿足該預(yù)定的判據(jù)。
17.用于測定圖像中的對象的計算機(jī)程序單元,當(dāng)由處理器執(zhí)行該程序時該程序單元包括如下方法步驟以第一局部分辨率從所述的圖像中采集信息,針對所述圖像中的信息而執(zhí)行第一次特征提取,根據(jù)所述的特征提取而從所述的圖像中選出所述對象可能所在的至少一個子區(qū),以第二局部分辨率從所述被選定的子區(qū)中采集信息,且所述的第二局部分辨率大于所述的第一局部分辨率,針對所述選定的子區(qū)中的信息執(zhí)行第二次特征提取,檢驗是否滿足預(yù)定的判據(jù),如果不滿足所述預(yù)定的判據(jù),則終止所述的方法,或從所述的圖像中選出另一個子區(qū),并以第二局部分辨率從該另一個子區(qū)中采集信息,分別以更高的局部分辨率迭代地從所述被選定的子區(qū)的至少一個分子區(qū)中采集信息,并檢驗所述分別以更高的局部分辨率所采集的信息是否滿足預(yù)定的判據(jù),直到滿足該預(yù)定的判據(jù)。
全文摘要
為測定圖像中的對象,分級地選出子區(qū)或分子區(qū),這些子區(qū)或分子區(qū)以不同的分辨率被拍攝在各個分級的層上,并與待識別的對象進(jìn)行比較。如果能以足夠的可靠性識別所述的對象,則輸出所述待識別的對象以作為被識別出的對象。如果不是這種情況,則選出當(dāng)前的子區(qū)中的另一個分子區(qū),并以提高的局部分辨率從該分子區(qū)中采集信息。
文檔編號G06K9/68GK1440538SQ01812200
公開日2003年9月3日 申請日期2001年5月7日 優(yōu)先權(quán)日2000年5月9日
發(fā)明者G·德科, B·許曼 申請人:西門子公司