專利名稱:一種針對多視頻序列的運動推斷結(jié)構(gòu)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及運動推斷結(jié)構(gòu),尤其涉及一種針對多視頻序列的運動推斷結(jié)構(gòu)方法。
背景技術(shù):
運動推斷結(jié)構(gòu)技術(shù),指的是由圖像集合或視頻序列中,自動估計場景中特征點的三維位置及每張圖像對應(yīng)的相機運動參數(shù)。找到特征點在圖像中的對應(yīng)位置,對于運動推斷結(jié)構(gòu)的求解質(zhì)量來說至關(guān)重要。相比圖像集合,視頻序列包含了更豐富的幾何信息和場景的結(jié)構(gòu)信息。針對視頻序列,常用的方法是在每相鄰兩幀之間使用特征點跟蹤算法,如 Lucas, B. D. , Kanade, T. An iterative image registration technique withan application to stereo vision. In IJCAI, pp.674-679(1981) ;Shi, J. , Tomasi,C. Good features to track. In CVPR, pp.593-600(1994) ;Georgescu, B. , Meer, P.Point matching under large image deformations and illumination changes. IEEETrans. Pattern Anal. Mach. Intell. 26,674-688 (2004) ;Lowe, D. G. !Distinctive image features from scale-invariant keypoints.International Journal of ComputerVision 60,91-110(2004)等。然而,這些連續(xù)的特征跟蹤不能處理特征點分布在非連續(xù)幀中的情況。比如,隨著相機運動,某物體離開畫面若干幀后又重新進入畫面,那么該物體將包含在兩段不相連的子序列中。即使該物體上的每個特征點在這兩個子序列中均能被穩(wěn)定跟蹤上,連續(xù)的特征跟蹤將導(dǎo)致特征點在兩個子序列中分別產(chǎn)生一條特征軌跡。將這樣的兩條特征軌跡匹配上,可以緩解運動推斷結(jié)構(gòu)中的漂移現(xiàn)象,從而提高三維重建的質(zhì)量。另夕卜,在針對多視頻序列的運動推斷結(jié)構(gòu)中,必須將分布在不同視頻序列中對應(yīng)于相同場景的特征軌跡匹配起來,才能將多個視頻序列注冊到同一場景中。為將非相鄰幀中的特征軌跡匹配起來,一個簡單的方法是對每對非相鄰的兩幀都匹配一次。通常,大部分非相鄰幀對之間不存在相同的特征點,無需匹配。此外,同一對特征軌跡將被反復(fù)地匹配多次。因此,這樣的策略中絕大多數(shù)匹配所消耗的時間是毫無意義的,對于長序列的情況,更是不可行的。本發(fā)明針對這一問題,提出了一種高效的非連續(xù)幀的特征匹配算法。除特征匹配外,運動推斷結(jié)構(gòu)面臨的另一個難題是如何為大規(guī)模的視頻序列進行精確的運動和結(jié)構(gòu)估計。Zhang G, Dong Z, Jia J, Wong TT, Bao H(2010)Efficientnon-consecutive feature tracking for structure-from-motion. In ECCV (5), pp422-435提出針對小規(guī)模的視頻序列的運動推斷結(jié)構(gòu)方法,使用集束調(diào)整(Triggs B,McLauchlan PF, Hartley RI, Fitzgibbon Aff(1999)Bundle adjustment-a modernsynthesis. In fforkshop on Vision Algorithms, pp 298-372),同時優(yōu)化每巾貞的運動參數(shù)及特征點的三維坐標。對于大規(guī)模視頻序列,Ni K, Steedly D, Dellaert F(2007)0ut-of-core bundle adjustment for large-scale 3d reconstruction. In ICCV,pp 1-8將場景分為若干子圖,對每一子圖分別進行局部集束調(diào)整,并使用核外集束調(diào)整進行全局優(yōu)化。Snavely N, Seitz SM, Szeliski R(2008) Skeletal sets for efficient structurefrom motion. In Computer Vision and Pattern Recognition(CVPR)從所有圖像集合中提取一個骨架集合,僅優(yōu)化骨架集合中相應(yīng)的相機參數(shù),并用位置估計算法求解其他相機。Crandall DJ, Owens A, Snavely N, Huttenlocher D(2011)Discrete-continuousoptimization for large-scale structure from motion. In CVPR, pp 3001-3008 結(jié)合GPS信息,使用離散置信度傳播法對變量進行離散優(yōu)化,并以此為初值進行連續(xù)的迭代優(yōu)化。然而,由于存在大量的大量優(yōu)化變量,優(yōu)化效率和內(nèi)存需求仍是運動推斷結(jié)構(gòu)的兩大瓶頸。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對現(xiàn)有技術(shù)的不足,提供一種針對多視頻序列的運動推斷結(jié)構(gòu)方法。 針對多視頻序列的運動推斷結(jié)構(gòu)方法的步驟如下I)基于SIFT特征描述量,使用連續(xù)特征跟蹤算法和非連續(xù)特征匹配算法,匹配分布于不同圖像上對應(yīng)于相同場景點的SIFT特征點;2)基于匹配分布于不同圖像上對應(yīng)于相同場景點的SIFT特征點,使用運動推斷結(jié)構(gòu)算法,恢復(fù)各視頻序列相應(yīng)的子圖,并將各視頻序列相應(yīng)的子圖注冊到統(tǒng)一的坐標系下;3)使用基于分段的漸進式優(yōu)化算法,迭代地將各視頻序列相應(yīng)的子圖中存在的誤差擴散并消除。所述的步驟I)為(I)使用 Lowe, D. G. !Distinctive image features from scale-invariantkeypoints. International Journal of Computer Vision 60,91-110 (2004)中提出的SIFT算法,為每個視頻序列的每幀圖像提取SIFT特征點,并為每個SIFT特征點x計算一個SIFT描述量,標記為p(x);(2)使用 Zhang G, Dong Z, Jia J, Wong TT, Bao H (2010) Efficientnon-consecutive feature tracking for structure-from-motion. In ECCV (5), pp422-435中提出的連續(xù)幀特征跟蹤算法為每個視頻序列分別進行特征跟蹤得到一系列特征跟蹤軌跡,每條特征跟蹤軌跡X定義為對應(yīng)某場景點的SIFT特征點的集合,X ={xt|t G f(x)}其中xt為第t幀圖像中對應(yīng)于該場景點的SIFT特征點位置,f (X)為X跨越的連續(xù)幀集合;(3)使用基于匹配矩陣的特征軌跡匹配算法為每個視頻序列匹配分布于非相鄰子序列上的特征跟蹤軌跡,并將所有視頻序列首尾相鄰形成一段虛擬序列,再次使用基于匹配矩陣的特征軌跡匹配算法為虛擬序列匹配分布于非相鄰子序列上的特征跟蹤軌跡。步驟(3)中所述的基于匹配矩陣的特征軌跡匹配算法為①使用Zhang G, Dong Z, Jia J, Wong TT, Bao H (2010) Efficientnon-consecutive feature tracking for structure-from-motion. In ECCV(5), pp422-435中提出的匹配矩陣估計算法為輸入序列估計一個匹配矩陣,標記為M,將M中最大元素值記為Mniax ;②令k = 0,選擇具有最大MU1, t2)的幀對,標記為WVf1),將M中以O(shè)為中心 3 為半徑的區(qū)域置 0,使用 Lowe, D. G. !Distinctive image features fromscaIe-invariant keypoints.International Journal of Computer Vision 60,91-110(2004)中提出的SIFT匹配算法匹配
權(quán)利要求
1.一種針對多視頻序列的運動推斷結(jié)構(gòu)方法,其特征在于它的步驟如下 1)基于SIFT特征描述量,使用連續(xù)特征跟蹤算法和非連續(xù)特征匹配算法,匹配分布于不同圖像上對應(yīng)于相同場景點的SIFT特征點; 2)基于匹配分布于不同圖像上對應(yīng)于相同場景點的SIFT特征點,使用運動推斷結(jié)構(gòu)算法,恢復(fù)各視頻序列相應(yīng)的子圖,并將各視頻序列相應(yīng)的子圖注冊到統(tǒng)一的坐標系下; 3)使用基于分段的漸進式優(yōu)化算法,迭代地將各視頻序列相應(yīng)的子圖中存在的誤差擴散并消除。
2.根據(jù)權(quán)利要求I所述的一種針對多視頻序列的運動推斷結(jié)構(gòu)方法,其特征在于所述的步驟I)為 (1)使用 Lowe, D. G. !Distinctive image features from scale-invariantkeypoints. International Journal of Computer Vision 60,91-110 (2004)中提出的SIFT算法,為每個視頻序列的每幀圖像提取SIFT特征點,并為每個SIFT特征點x計算一個SIFT描述量,標記為p(x);(2)使用Zhang G, Dong Z, Jia J, Wong TT, Bao H (2010) Efficient non-consecutivefeature tracking for structure-from-motion. In ECCV (5), pp 422-435 中提出的連續(xù)幀特征跟蹤算法為每個視頻序列分別進行特征跟蹤得到一系列特征跟蹤軌跡,每條特征跟蹤軌跡X定義為對應(yīng)某場景點的SIFT特征點的集合,X = {xjt e f(x)}其中xt為第t幀圖像中對應(yīng)于該場景點的SIFT特征點位置,f ( X )為X跨越的連續(xù)幀集合; (3)使用基于匹配矩陣的特征軌跡匹配算法為每個視頻序列匹配分布于非相鄰子序列上的特征跟蹤軌跡,并將所有視頻序列首尾相鄰形成一段虛擬序列,再次使用基于匹配矩陣的特征軌跡匹配算法為虛擬序列匹配分布于非相鄰子序列上的特征跟蹤軌跡。
3.根據(jù)權(quán)利要求2所述的一種針對多視頻序列的運動推斷結(jié)構(gòu)方法,其特征在于步驟(3)中所述的基于匹配矩陣的特征軌跡匹配算法為①使用Zhang G, Dong Z, Jia J, Wong TT, Bao H(2010) Efficient non-consecutivefeature tracking for structure-from-motion. In ECCV(5), pp 422-435 中提出的匹配矩陣估計算法為輸入序列估計一個匹配矩陣,標記為MJf M中最大元素值記為Mmax ; ②令k= 0,選擇具有最大M(t1;t2)的幀對,標記為(Xw,O,將M中以(f, O為中心3為半徑的區(qū)域置O,使用 Lowe, D. G. !Distinctive image features from scale-invariantkeypoints. International Journal of Computer Vision 60,91-110 (2004)中提出的SIFT匹配算法匹配(f,if1),得到(fVf1澗的特征點匹配集合,標記為Cf1,由Cf1構(gòu)造特征軌跡匹配集合Cx Cx {( X I,X 2) I (Χι,X2) E Csj Xi E X 1,X2 E X 2} 及幀對集合Cf Cf = {(t1; t2) M(t1; t2) ^ 0, e f ( X ^ , t2 e f ( x 2), ( x 1; x 2) e Cx}使用 Richard I. Hartley In Defense of the Eight-Point Algorithm. IEEE Trans.Pattern Anal. Mach. Intell. 19(6) :580-593 (1997)提出的基礎(chǔ)矩陣估計算法由集合Cf〕為g'f)估計3x3的基礎(chǔ)矩陣,標記為々V,為Cx中的每個特征軌跡匹配U1, x2)設(shè)置一個^差星^,z2)和計數(shù)·
4.根據(jù)權(quán)利要求I所述的一種針對多視頻序列的運動推斷結(jié)構(gòu)方法,其特征在于所述的步驟2)為 (1)將所有輸入視頻序列標記為V1,A,VNr,其中Nv為輸入視頻序列總數(shù),使用GuofengZhang, Xueying Qin, Wei Hua, Tien-Tsin Wong, Pheng-Ann Heng, Hujun Bao RobustMetric Reconstruction from Challenging Video Sequences. CVPR 2007提出的運動推斷結(jié)構(gòu)算法分別為V1, Λ ,Fav恢復(fù)每幀對應(yīng)的相機運動參數(shù)和每條特征軌跡對應(yīng)的三維點位置,形成Nv個局部坐標系下的子圖,將第j個序列的第k幀在 ' 的局部坐標系下的相機運動參數(shù)標記為( , k,h,k),其中R^t為一個3x3的旋轉(zhuǎn)矩陣,為一個3維平移向量,若第i個場景點在 ' 中可見,則將第i個場景在 ' 的局部坐標系下的坐標標記為Xij ; (2)利用序列間匹配點構(gòu)造匹配圖,每個節(jié)點表示一個序列,若K1、vJ2間存在公共點,則在Vh、Vh間添加一條邊,用集合Shh表示Vh、Vh間的公共點,^ ={('λ, ('λ, Λ},則連接^、&的邊的權(quán)值為匕;2|,令ν = 0,選擇具有最多公共點的序列^,即V。= a'max I ’為每個序列設(shè)置一個狀態(tài)變量Fj,表示Vj是否注冊到全局坐標系,令
5.根據(jù)權(quán)利要求I所述的一種針對多視頻序列的運動推斷結(jié)構(gòu)方法,其特征在于所述的步驟3)為 (1)為每個序列' 的每相鄰的k、k+1兩幀計算重投影誤差
全文摘要
本發(fā)明公開了一種針對多視頻序列的運動推斷結(jié)構(gòu)方法。它的步驟如下1)基于SIFT特征描述量,使用連續(xù)特征跟蹤算法和非連續(xù)特征匹配算法,匹配分布于不同圖像上對應(yīng)于相同場景點的SIFT特征點;2)基于匹配分布于不同圖像上對應(yīng)于相同場景點的SIFT特征點,使用運動推斷結(jié)構(gòu)算法,恢復(fù)各視頻序列相應(yīng)的子圖,并將各視頻序列相應(yīng)的子圖注冊到統(tǒng)一的坐標系下;3)使用基于分段的漸進式優(yōu)化算法,迭代地將各視頻序列相應(yīng)的子圖中存在的誤差擴散并消除。本發(fā)明能夠高效匹配分布于非相鄰子序列中的特征軌跡,改善各子圖的求解質(zhì)量;針對大尺度場景,突破傳統(tǒng)求解方法的內(nèi)存和效率瓶頸,在有限內(nèi)存環(huán)境下對整個場景三維結(jié)構(gòu)和攝像機變量進行全局高效的優(yōu)化。
文檔編號G06T7/20GK102663772SQ201210069008
公開日2012年9月12日 申請日期2012年3月15日 優(yōu)先權(quán)日2012年3月15日
發(fā)明者劉浩敏, 章國鋒, 鮑虎軍 申請人:浙江大學