專利名稱:高質量合成全景圖像的相機內生成的制作方法
技術領域:
本發(fā)明一般地涉及相機設備,并且更具體地涉及全景圖像的自動生成。
背景技術:
全景攝影提供了具有伸長視場的圖像捕捉,并且有時候被稱作寬格式。在一個場 景中,呈現(xiàn)接近或大于人眼視場(即大約160° 士75° )的視場的圖像可被稱作全景。雖然 術語“全景”一般地可被用于各種形式的寬(或長)格式圖像,包括被剪裁成寬或長格式的 那些圖像,但是這里的討論用該術語來表示在一個或多個方向上(例如,水平地或垂直地) 被延展出由圖像傳感器捕捉到的場景之外的相片。雖然已經(jīng)可獲得使用多個鏡頭和快門的相機,但是應理解,這些相機昂貴、體積大 并且甚至是專業(yè)攝影師都不易得到(一般攝影師當然更不易得到)。目前,利用傳統(tǒng)相機創(chuàng)建全景圖像涉及這樣的過程捕捉具有固定曝光和適當交 疊(overlap)/對齊(alignment)的多個對象圖像,然后剪切多幅物理圖像以一起擬合成全 景或者在相片編輯器中完成同樣的操作。在任一種情況下,要實現(xiàn)有質量的結果都很難或 者費力。當站在垂直地或水平地延展的拉伸全景(其不可能通過單個圖像而被捕捉)前 時,人們往往考慮使用全景成像。如注意到的,產生全景的傳統(tǒng)方法需要大量的用戶努力并 且不能確保良好的全景圖片。另一問題是攝影者在捕捉圖像的過程期間,不能肯定這樣捕 捉到的圖像在組配時是否會提供希望的全景。用戶可能捕捉到不適合產生全景的圖像,例 如忘記固定焦距,未停留在全景的固定平面中,未能充分地使鏡頭交疊,傾斜相機從而離開 全景平面等等。當用戶最后坐下來處理這些圖像時,通過獲取更多圖像來校正這些問題已 為時過晚。因此,需要自動生成高質量全景圖像而不需要用戶努力的系統(tǒng)和方法。這些需要 以及其他需要在本發(fā)明中得到滿足,本發(fā)明克服了之前開發(fā)的全景技術中的不足。
發(fā)明內容
本發(fā)明是在相機內響應于對多個圖像的捕捉來自動生成全景圖像的相機和方法。 本發(fā)明的關鍵之一是由相機進行的圖像獲取致力于全景對象和/或耦合到全景處理。相 機本身不僅自動將對象圖像處理成全景而且確保在所捕捉到的連續(xù)圖像間獲得充分的交疊。在本發(fā)明的一個實施例中,一旦 全景模式被選擇,攝影者就只需在他們在對象范 圍內進行搖攝(pan)(例如,垂直地或水平地)期間保持快門按下。相機自動確保在整個鏡 頭內維持適當?shù)墓潭ń咕?,以及充分的交疊,并且確保足夠的幀。用戶需要對相機做的所有 事情就是在拍“快照(snapshot),,的同時對圖像進行搖攝。本發(fā)明為任何用戶(從初學者到專家)提供了方案,從而允許他們響應于使用當 前水平的CMOS傳感器和數(shù)字圖像處理技術來直接生成全景圖像的方法,來創(chuàng)建高質量全 景圖片而付出較少努力或者不用付出任何額外的努力。聯(lián)系說明書一般地描述了以下術語,然而以下術語不應被解釋為約束了說明書中 的具體敘述。這里記載的術語“搖動/搖攝”應用于在要捕捉的希望圖像的空間范圍內移動相 機的過程,不論該過程是響應于水平運動(傳統(tǒng)搖攝)、垂直運動(傳統(tǒng)傾斜)還是垂直和 水平運動的組合而發(fā)生的。術語“配準(register) ”具有多種定義,并且如這里記載的,將相機運動的檢測或 估計描述為“對相機運動進行配準”,并且它也用來描述創(chuàng)建全景時對相鄰圖像的對齊。應 理解,在圖像處理技術中,術語“配準”通常被更限制性地用于僅表示圖像配準過程。本發(fā)明是可修改的以通過多種方式來實現(xiàn),包括但不限于以下描述。本發(fā)明的一個實施例是一種用于捕捉全景圖像的裝置,包括(a)用于在在任一 希望方向上或組合方向上搖動相機的同時捕捉數(shù)字圖像(靜止、視頻或者靜止和視頻的組 合)的序列的設備(例如,至少一個成像器和焦距控制器);(b)計算機,該計算機與存儲器 耦合;以及(b) (i)適合在所述計算機上執(zhí)行來實現(xiàn)以下步驟的程序,(b) (ii)當在全景圖 像中要捕捉的所希望全景景象范圍內搖動相機時,捕捉成對地交疊的圖像幀序列中的圖像 幀,(b) (iii)配準(檢測/估計)搖動運動;(b) (iv)響應于所檢測到的搖動運動,來控制 對所述成對地交疊的圖像幀序列中的各連續(xù)幀的捕捉,以在所述圖像幀之間不出現(xiàn)間隙的 情況下確保適當?shù)某蓪化B,并且可選地按需選擇交疊圖像幀的子集,以及(b) (ν)組合所 述成對地交疊的圖像幀序列以創(chuàng)建全景靜止相片以供由所述相機輸出。應注意,全景圖像與由所述裝置捕捉的傳統(tǒng)的、非全景圖像相比,在至少一個維度 (例如,水平的、垂直的、對角的、任意的、2D(垂直和水平區(qū)域)等等)上進一步延展。因此, 全景圖像能夠跨越(span)對象的任何希望的空間區(qū)域。全景圖像能夠被創(chuàng)建而不需要用戶忙于得到適當?shù)膱D像或者執(zhí)行手動接合和調 和(blend)操作,因為所述裝置能夠自動執(zhí)行所有這些步驟。全景輸出能夠以任何希望的 格式生成以供將數(shù)據(jù)傳送到被配置為打印、存儲和/或傳送所述數(shù)據(jù)的外部電子設備。根據(jù)本發(fā)明的裝置能夠支持任何希望的用戶界面,其適用于允許用戶選擇全景圖 像捕捉,并且可選地選擇用于變更捕捉和圖像組合過程的特性。裝置內的搖動運動配準可以響應于光傳感、物理運動傳感或其組合而被執(zhí)行。當組合圖像時,程序校正在相鄰圖像間的交界處的像素,從而調和圖像以減輕任 何出現(xiàn)的“接縫”。在創(chuàng)建一個或多個全景圖像之前或之后,可以對圖像幀使用超分辨率處理技術來 增強結果的分辨率。
本發(fā)明的一個實施例是一種被配置為響應于對所希望對象的搖攝來自動創(chuàng)建全 景靜止圖像的相機,包括(a)相機內的適用于捕捉數(shù)字圖像序列的電子成像元件;(b)計 算機,與存儲器耦合,所述計算機被配置為控制所述相機的所述電子成像元件;以及(c)適 合在所述計算機上執(zhí)行來實現(xiàn)以下步驟的程序,(c) (i)當在全景圖像中要捕捉的所希望全 景景象范圍內搖動所述相機時,在所述電子成像元件內捕捉成對地交疊的圖像幀序列,(C) ( )響應于對搖動運動的檢測,控制在捕捉期間的圖像幀交疊,或者選擇連續(xù)交疊圖像幀 的集合,以在所述圖像幀之間不出現(xiàn)間隙的情況下確保適當?shù)某蓪化B,以及(c) (iii)組 合連續(xù)交疊圖像幀的集合以創(chuàng)建全景靜止相片以供由所述相機輸出。 本發(fā)明的一個實施例是一種在相機內自動捕捉全景靜止相片的方法,包括以下步 驟(a)捕捉跨越正在搖攝的所希望對象區(qū)域的圖像序列;(b)響應于當所希望對象區(qū)域正 在被搖攝時基于相機運動捕捉到足夠的圖像,來確保序列中的相鄰圖像的邊緣彼此交疊; 以及(c)組合圖像序列以創(chuàng)建至少一個全景靜止相片圖像。本發(fā)明提供了多個有益方面,這些有益方面可以分別被實現(xiàn)或者以任何希望的組 合被實現(xiàn),而不會背離本教導。本發(fā)明的一方面是用于響應于在全景模式中組合在搖攝期間捕捉到的多個圖像 來自動創(chuàng)建全景圖像的方法和裝置。本發(fā)明的另一方面是它允許全景圖像響應于對跨越了所希望對象區(qū)域的足夠數(shù) 目的圖像幀的采集而被自動創(chuàng)建。本發(fā)明的另一方面是允許一般水平的“對準即拍”攝影者創(chuàng)建希望的全景效果。本發(fā)明的另一方面是允許攝影者創(chuàng)建全景圖像結果而無需額外的設備或過程步
馬聚ο本發(fā)明的另一方面是創(chuàng)建全景圖像而無需高精度的相機設備和控制機制的能力。本發(fā)明的另一方面是它允許攝影者在相機確保相鄰圖像的適當交疊的情況下創(chuàng) 建全景圖像。本發(fā)明的另一方面是能夠集成到數(shù)字靜止和/或視頻相機設備中的方法。本發(fā)明的又一方面是它能夠應用于各種形式的圖像采集和處理設備。在說明書的以下部分中將給出本發(fā)明的更多方面,其中詳細描述是為了充分公開 本發(fā)明的優(yōu)選實施例而非對其進行限制。
通過參考以下用于例示目的的附圖,將更完整地理解本發(fā)明圖1是根據(jù)本發(fā)明實施例的用于自動生成全景圖像的一般步驟的流程圖。圖2是根據(jù)本發(fā)明實施例的用于響應于靜止和視頻圖像捕捉來自動生成全景圖 像的步驟的流程圖。圖3是根據(jù)本發(fā)明實施例的用于響應于視頻圖像捕捉和超分辨率技術來自動生 成全景圖像的步驟的流程圖。圖4是根據(jù)本發(fā)明實施例的用于響應于靜止和視頻圖像捕捉以及超分辨率上轉 換(up-scaling)技術來自動生成全景圖像的步驟的流程圖。圖5是根據(jù)本發(fā)明一方面的被配置為生成全景圖像的相機設備的框圖。
圖6-8是示出根據(jù)本發(fā)明一方面的捕捉圖像并將其組合成全景圖像的圖像。圖9-10是將圖9中的自然圖像捕捉與圖10中的根據(jù)本發(fā)明而生成的全景圖像 (示出為被壓縮以符合頁面寬度)進行比較的舊金山海灣區(qū)域的圖像。圖11-12是將圖11中的自然圖像捕捉與圖12中的根據(jù)本發(fā)明而生成的垂直全景 圖像(示出為被壓縮以符合頁面區(qū)域)進行比較的舊金山的柯伊特塔(Coit Tower)的圖 像。
具體實施方式
現(xiàn)更具體地參考附圖,出于說明的目的,在圖1到圖12中一般地示出的裝置中實 現(xiàn)本發(fā)明。應理解,裝置可以在配置方面以及在部件細節(jié)方面變化,并且方法可以在具體步 驟和順序方面變化,而不會背離這里公開的基本概念。1.介紹根據(jù)本發(fā)明的相機裝置使用高級數(shù)字圖像傳感(例如,CMOS圖像傳感器),以及相 機內高級計算芯片,這些高級計算芯片提供用于執(zhí)行生成全景圖像的高級圖像處理的充分 處理能力。相機允許甚至是初學攝影者創(chuàng)建跨越對象的任何希望區(qū)域的全景攝影圖像。創(chuàng) 建全景的方法應用多幀處理來超越現(xiàn)有數(shù)字相機的限制,從而提供自動的捕捉和處理以使 得全景圖像能夠被輸出。圖1例示出從相機裝置自動生成全景圖像的示例實施例。當相機在全景的所希望 對象范圍內被搖動時,在塊10中,一系列圖像被捕捉到。按照塊12,相機的運動被配準/確 定。在優(yōu)選實施例中,塊10中的圖像序列是響應于對相機運動的配準/確定而被捕捉到的, 以確保相鄰鏡頭具有足夠的交疊以供用作生成全景圖像的輸入??商娲兀谝云渌绞?確保足夠的交疊的情況下,例如高的成幀率,相機運動可以被配準/確定以用于確定要在 全景中使用的圖像的子集,和/或在其它情況下用于控制圖像被組合成全景圖像輸出的方 式。應理解,圖像的最佳交疊量取決于在將圖像接合在一起時所使用的方法,以及對捕捉的 可選方面(比如超分辨率)的使用,其中交疊圖像可以被用來增強結果圖像的分辨率。如塊 14中示出的,所捕捉的圖像序列被組合以生成超出任一獨立捕捉圖像而延展的全景靜止圖 像。在組合過程期間,圖像間的接縫被調和以使得接縫的能見度最小化。在組合輸入圖像序列的圖像之前,在某些情況下優(yōu)選的是,本發(fā)明的程序在將連 續(xù)圖像的集合組合成所述全景圖像之前補償非搖動運動和/或傾斜。例如,可以執(zhí)行算法 來減輕將相機抖動引入到全景中,例如通過校正圖像或者在存在足夠多的根據(jù)其來生成全 景的其他圖像的情況下去除所選捕捉。如果要產生矩形全景,那么在組合圖像之前,輸入圖 像的部分可以被剪裁。該圖像剪裁可以根據(jù)任何希望的形狀,例如根據(jù)鏡頭的幾何形狀等 等。應理解,任何形式的預處理及其組合可以被附加地執(zhí)行而不背離本發(fā)明的教導。作為示例而非限制,用于將交疊圖像幀“接合到一起”或者進行組合的方法之一是 通過具有以下一般步驟的匹配和調和過程實現(xiàn)的。(1)將第一幀的交疊部分與第二幀進行 匹配,以使得在交疊區(qū)域中某種匹配標準最佳(例如使得像素誤差最小)。某些示例包括 以下情形使得均方誤差或者絕對平均誤差最小;使得互相關、歸一互相關或者相位相關 最大;估計圖像間的光流;根據(jù)前述標準,使得參數(shù)化全局模型擬合匹配結果;或者應用受 所希望的全局模型約束的光流等式。應理解,一個或多個幀可以在尺寸或采光等等方面被調節(jié)以確保適當?shù)钠ヅ?。將會注意到,交疊的定位考慮離軸位移(例如在水平全景搖攝中的垂直位移或旋轉)以確保匹配。(2)調和“接縫”一側或兩側的像素區(qū)域以確保無可見中 斷。優(yōu)選地,調和過程包括隨機誤差擴散以進一步模糊接縫區(qū)域??商娲?,調和過程可以 使得接縫附近的各種圖像標準最佳,例如輸入圖像的梯度方面的平滑和相似。本領域中普 通技術人員將會理解,多種技術可用來調和像素而不會背離本發(fā)明的教導??梢砸远喾N不同方式來配準相機的運動而不會背離本發(fā)明,比如檢測運動以及該 運動的速率。在至少一種實現(xiàn)方式中,連續(xù)圖像幀被比較以為全景確定交疊量并因此確定 相對的相機運動。在一個變體中,低分辨率圖像傳感器或者正常圖像傳感器的低分辨率模 式被用來快速獲得用以(比如通過確定存在多大程度的匹配)確定幀之間的搖攝距離的 足夠細節(jié),并因此確定幀之間的交疊。在至少一個其他實施例中,相機的運動被物理地配 準,例如響應于臨時地被處理以估計在任一希望運動軸上的相機運動的加速度傳感器而被 配準。可替代地,重力計、慣性傳感等等例如可以結合運動分析軟件使用,以使得基于相機 的搖攝速度來為全景捕捉圖像。使用物理傳感允許針對給定搖攝速率使得圖像采集速率最 佳。在其他實施例中,物理運動傳感和光傳感的組合被用于確定相機運動。在本發(fā)明的一個模式中,裝置為用戶提供用以控制組合和/或剪裁圖像的方式的 選項。在一個模式中,用戶可以選擇矩形格式(或者否則將搖攝限制設定為水平的和/或 垂直的),其中程序在水平或垂直方向上組合圖像并且自動裁去將落在結果矩形查看區(qū)域 外的圖像部分(例如,產生形狀如圖10中那樣的圖像)。裝置的一個模式支持搖攝的自由 形式集合,其中遵照用戶在搖攝期間所遍歷的任何希望路徑來組合圖像。將會理解,本發(fā)明 的簡單實施例可能限制給用戶的選項數(shù)目以使全景圖像捕捉處理簡單。然而,應理解,可以 多種不同方式來擴展本發(fā)明而不會背離本發(fā)明的教導。如果在一系列圖像中提供了足夠的圖像交疊,那么程序可以選擇從圖像序列中去 除一個或多個已捕捉到的圖像,比如存在一個或多個圖像“問題”的那些圖像。這些問題例 如可以包括攝影者的手抖,因此一個或多個圖像呈現(xiàn)出比其他圖像更多的模糊。在圖像集 合中可能出現(xiàn)其他的假象,比如視場內的相機閃光,掠過圖像傳感器的缺陷,以及可能不利 地影響結果全景質量的其他異常。還應理解,本發(fā)明的教導可以為生成全景圖像提供任何任意方向或路徑的搖攝。 例如,本發(fā)明的實施例可以被配置為響應于用戶在劃出蛇形圖案(例如,S形)界限的同 時保持按下快門來生成全景圖像。在本發(fā)明的一個模式中,相機甚至可以允許用戶在圖像 搖攝期間有意地傾斜相機以提供在某些場合中很流行的馬賽克拼接效果(mosaic tiling effect)ο在高級實施例中,這里的技術允許用戶甚至捕捉垂直和水平全景二者,從而有效 地增大相機分辨率。例如,想要檢查一地點處的地層的地質學家可以選擇全景模式,然后以 任何有效的方式從左向右、然后向下、并且從右向左、并且向下、然后返回從左向右等等地 進行搖攝,以覆蓋給定區(qū)域。根據(jù)本發(fā)明的相機可以提供十分大(高分辨率)的靜止圖像, 該靜止圖像跨越對象并且允許用戶按需放大這些對象以查看小細節(jié)。在一個實施例中,提供了一種模式,其允許用戶選擇經(jīng)拼接的全景輸出。例如,在 上述情況下,所創(chuàng)建的巨大面積的全景可能非常笨重(例如,> 20-1000MB)而難以傳送、查 看等。因此,拼接模式允許用戶選擇經(jīng)拼接的模式,其中圖像被劃分為彼此良好擬合的所選尺寸的多個圖像,因為它們在全景生成之后被拼接。一個或多個實施例中的程序允許用戶 輸出按比例縮小的全景(例如,適合一個正常的圖像空間),例如用于預覽全景或者進行分 類的目的。在一個方面中,按比例縮小的全景被輸出為具有覆蓋柵格,其中用或者不用標記 (例如,文件名)來示出各下層圖像的位置。2.用戶界面 本發(fā)明的實施例可以被配置為響應于對許多不同的用戶界面配置的使用,來生成 全景圖像。在一個很基礎的配置中,用戶例如通過按下一按鈕或者移動一選擇器來簡單地 選擇全景模式,然后在他們搖攝所希望區(qū)域(將根據(jù)該所希望區(qū)域來產生全景圖像)時保 持按下快門。更復雜的用戶界面允許用戶選擇如下的方面要執(zhí)行捕捉的方式,圖像分辨率 和捕捉頻率間的折衷、要執(zhí)行的接合量(例如,鏡頭交疊的比率),用于將圖像無縫地調和 在一起的調和方法和參數(shù)(或者根據(jù)需要,進行選擇以允許接縫被看到),是否要執(zhí)行傾斜 校正(例如,從圖6的輸入到圖8的結果可見的),超分辨率的使用,全景的最大輸出尺寸, 以及它們的變體和組合。本領域中的普通技術人員將會理解,這些特性可以改變并且也可 以與其他的相機控制方面相結合,而不會背離本發(fā)明的教導。本發(fā)明的實施例還可以向用戶提供對全景圖像輸出的選擇。在一個模式中,向用 戶示出從同一輸入圖像序列創(chuàng)建的一系列全景圖像。在另一模式中,向用戶示出一個全景 圖像,并且用戶可以選擇相機向其示出全景的附加構造。因為存在不同的剪裁、調和以及變 更分辨率的方式,所以這些機制給予用戶一組自動選擇。用戶可以選擇保存從同一圖像序 列生成的這些結果中的一個或多個。在至少一種實現(xiàn)方式中,高級控制允許用戶指定關于 如何呈現(xiàn)不同全景形式以供其選擇的優(yōu)先順序,或者他們到底是否希望該特征被激活。3.附加的全景實施例圖2例示出致力于響應于靜止和視頻圖像捕捉來自動生成全景圖像的示例實施 例。在該實施例中,視頻與靜止圖像一起被捕捉以供用在全景中。優(yōu)選地,雖然可以使用同 一圖像傳感器,但是例如在較高分辨率的模式中,以比視頻捕捉32更高的分辨率來執(zhí)行靜 止圖像捕捉30。該實施例中的視頻捕捉被用來輔助捕捉和/或組合靜止圖像以創(chuàng)建高質量 的全景圖片。響應于對相機運動的配準,來在塊34中確定對靜止圖像幀的捕捉間的延遲。 可替代地,可以響應于配準的(檢測到的)搖攝運動來從捕捉到的幀的整個集合中選出交 疊幀的子集,從而確保準確的成對交疊而不會在該子集的連續(xù)圖像幀之間出現(xiàn)間隙。應理 解,流程圖也可以被修正地繪制為使得相機運動配準34往回耦合到塊30以表示運動對捕 捉的關系。將會理解,可以通過使用物理傳感器、通過光傳感或者其組合來配準搖攝運動。應 理解,在該實施例中,可以對視頻幀進行分析來確定自前一視頻幀起的搖攝運動,并因此確 定搖攝速度以及將捕捉下一靜止圖像幀的定時。在步驟36,使用視頻圖像幀來組合靜止圖 像幀以輔助將靜止圖像幀接合在一起。當使用具有較大程度交疊的視頻幀時,對齊(配準) 視頻幀相對容易??梢葬槍υ趦蓚€靜止圖像之間的時段所捕捉到的視頻幀而累積該配準信 息,直到兩個圖像的配準變得容易實現(xiàn)為止。近似值提供了兩個靜止圖像的精確配準的初 始條件,從而減小配準搜索空間并因此降低復雜度。圖3示出致力于響應于視頻圖像捕捉和超分辨率技術來自動生成全景圖像的示 例實施例。視頻幀50被捕捉并且相機運動被配準52。因為視頻幀通常具有比靜止圖像幀更低的分辨率,所以優(yōu)選地,將超分辨率技術54用于創(chuàng)建分辨率比原始視頻幀的分辨率更 高的交疊幀的子集。廣為人知的,超分辨率技術允許經(jīng)受小的時間或空間位移的第一分辨 率的多個幀被組合到更高的第二分辨率的單個幀中。超分辨率生成的靜止幀然后被組合56 到將由相機輸出的全景圖像中。將會注意到,與圖2所示方法類似的,原始視頻可被用作接 合引導。本發(fā)明的替代實施例還允許多個圖像集合被組合到多個全景圖像中,然后通過使 用超分辨率技術將這多個全景圖像組合到最終的全景圖像中。例如,考慮在單次搖攝期間 采集的幀nl到n8。交疊幀nl、n3、n5和η7然后被選作第一幀集合部分,同時幀η2、η4、η6 和η8被選作第二幀集合部分。第一集合被組合到第一全景靜止圖像中,并且此外,第二集 合被組合到第二全景靜止圖像中。然后通過使用超分辨率來將基本上覆蓋同一區(qū)域的兩個 全景組合到單個更高分辨率的全景輸出中。該顛倒順序的方法的一個益處在于超分辨率過 程本身使得獨立全景圖像中的接縫模糊。應理解,此一方面可以與這里教導的任一種實現(xiàn) 方式及其變體相結合。圖4是用于響應于與超分辨率上轉換技術相結合的靜止和視頻圖像捕捉來自動 生成高清全景視頻的步驟的流程圖。應理解,高清視頻不僅提供更高的分辨率,而且延展水 平幀,因此是逐幀全景的形式。本發(fā)明的該實施例尤其適用于所使用的視頻相機不具有具 備所希望的縱橫比(例如,足夠的寬度)的成像器件的時候。應注意,術語“縱橫比”指代圖片(畫面)的寬度相比于其高度。比率通常用“寬 度X高度”的形式來表示。例如,4Χ3(更常見地表示為4 3)的比率表示圖片是4個 單位的寬度乘以3個單位的高度。圖片的實際物理尺寸(像素數(shù)目)與縱橫比的計算無 關,因為縱橫比僅指代寬度和高度間的關系。4 3的比率通常被稱作標準清晰度捕捉,而 16 9的比率現(xiàn)今通常被稱作所謂的“高清”格式。還存在其他的“全景”視頻格式,例如 “Cinemascope” ,其具有21 9的格式。將會理解,通過本發(fā)明在任何希望方向上延展 幀的能力可以用來從任一較小格式上轉換到任一較大格式,比如從4 3—16 9或者從 16 9 — 21 9等等而不受限制。在此方法中,視頻被捕捉70作為視頻全景的基礎。優(yōu)選的,在捕捉視頻的同時,捕 捉72(例如,周期性地和/或通過相機或對象運動來觸發(fā))高分辨率的全景靜止圖片。優(yōu)選 的,至少兩個靜止圖像在視頻片段期間被捕捉。相機運動優(yōu)選地再次被配準74以輔助確定 何時捕捉靜止圖像。然后通過使用超分辨率上轉換(或數(shù)字縮放)技術來組合相鄰的視頻 幀76以擴展視頻幀的分辨率。按照塊78,所生成的高分辨率視頻幀然后被組合成比原始視 頻幀更寬的(或者更高的,如可能在所選應用中所希望的那樣)全景視頻幀。在此方法中, 靜止圖像既可以用在上轉換過程期間,又可以用于在組合響應于超分辨率技術而生成的視 頻幀期間引導接合過程。雖然該實施例可以在相機自身內被實現(xiàn),但是視頻序列所需的高 處理開銷致使其自身更適合于通過所采集的視頻和靜止幀以及可選運動信息來引導的離 線處理。4.相機硬件 圖5示出根據(jù)本發(fā)明被配置用于生成全景圖像的裝置的示例實施例90。圖中,示 出了被配置為根據(jù)本發(fā)明自動生成全景圖像的圖像捕捉設備(相機)。焦距/縮放控制器 94被示出為耦合到受計算機(CPU) 96控制的成像光學器件92。計算機96控制相機并響應于從存儲器98和/或輔助存儲器100執(zhí)行的指令來執(zhí)行全景生成方法。針對相機設備(例 如,視頻和/或靜止的)作為示例示出的是可選的圖像顯示器102、可選的觸摸屏104、以及 可選的非觸摸屏106。圖中未示出的是有線和/或無線通信端口、存儲器卡槽等等,任意數(shù) 目的這些組件可以得到支持。此外,可選的運動傳感器108被示出,憑借該運動傳感器108,搖攝運動可被配準 (檢測到)。盡管可以使用用于采集視頻和/或靜止圖像的圖像傳感器,但是運動傳感器 108可以包括光傳感器或者物理傳感器(例如,慣性傳感器、加速度傳感器等)。作為示例示出包括成像器110和變焦/縮放112的可選第二成像系統(tǒng),從而允許 某些應用利用不同的成像設備來采集視頻和靜止幀。這具有使得視頻和靜止圖像捕捉的成 幀速率最大化的益處,因為這些功能不必共用單個捕捉元件。然而,應理解,可以例如響應 于對不同操作模式(其允許選擇視頻或者靜止幀)的使用,從同一成像器采集視頻和靜止 圖像輸出。在至少一種實現(xiàn)方式中,盡管縱橫比以及其他特性可 能不同,但是視頻幀和靜止 幀間的差異是分辨率。作為示例而非限制示出以上示圖。應理解,根據(jù)本發(fā)明的方法可以在被配置為捕 捉/接收圖像序列并且生成全景輸出的各種圖像捕捉和處理設備上被實現(xiàn)。本發(fā)明不是致 力于MPEG視頻的處理及其相關聯(lián)的運動向量處理。本方法優(yōu)選地在成像設備自身上實現(xiàn), 雖然它可以在后置處理中被實現(xiàn)(例如在生成全景視頻輸出時)。本發(fā)明可以以硬件或軟 件的方式來實現(xiàn),這取決于目標系統(tǒng)。應理解,在提供了必要的光學器件以及充分的處理能 力的任何相機或系統(tǒng)上,可以將本發(fā)明實現(xiàn)為軟件。全景圖像可以任何所希望的格式被顯示在裝置的圖像顯示器上(或者被打印) 和/或被從裝置中輸出,這些格式包括靜止圖像文件格式、視頻格式、數(shù)據(jù)格式、固化存儲 (native storage)格式等。5.全景圖像輸出的示例圖6到圖8例示出自動捕捉、調節(jié)并組合搖攝期間捕捉到的一系列圖像的過程。雖 然出于說明的目的這些圖像是以傳統(tǒng)方式采集的,但是它們模擬了該過程。在圖6中,示出 捕捉亞利桑那州大峽谷的三幅圖像的表示。應理解,這些圖像被有意示出為明顯地未對齊, 這是通過本發(fā)明自動克服的一個方面。還應注意到,本發(fā)明的程序建立圖像捕捉定時以確 保例如在圖6中示出的所捕捉圖像被適當?shù)亟化B。將會注意到,傾斜的(偏離搖攝軸)圖 像比在更接近的軸(比如水平軸)上捕捉到的圖像需要更多的圖像交疊。在圖7中,圖像 已被剪裁成了一圖案以在組合中將它們簡單地接合在一起。在圖8中,圖像已經(jīng)被組合,同 時相鄰圖像間的像素交界已被自動調和,因此幀之間的接縫并不明顯。圖9和圖10示出舊金山海灣的視頻或靜止圖像。圖9中示出由成像設備捕捉到 的單個圖像。在搖攝期間通過本發(fā)明自動捕捉到的一系列這樣的圖像被組合以形成圖10 的全景圖像。由于鏡頭和成像器的限制,捕捉了圖9的圖像的相機需要捕捉若干圖像來覆 蓋整個景象。根據(jù)本發(fā)明,用戶只需水平地搖動相機,其中相機裝置自動地生成全景圖片。圖11和圖12示出柯伊特塔(舊金山的電報山)的單個視頻或靜止圖像與根據(jù)本 發(fā)明而生成的全景圖像之間的比較。在所示出的場景中,示出了 1440X1080個像素的原始 視頻幀(在這里為了容易顯示而調整了大小)為了適當?shù)夭蹲皆搱D像,在采集視頻幀的同 時,相機被垂直地搖動以覆蓋塔的跨度范圍。根據(jù)本發(fā)明的處理提供捕捉并且將這些所捕捉到的幀組合成圖12所示的垂直全景。將會理解,本發(fā)明允許根據(jù)本發(fā)明的相機響應于簡 單地在垂直方向上搖動相機,來容易地捕捉垂直全景,例如覆蓋此較高建筑的跨度范圍,并 允許相機自動地完成所有工作。6.利用其他圖像技術來組合全景圖像這里教導的全景圖像技術可以與其他的圖像處理技術結合使用。在一個變體中,這里教導的全景圖像技術可以與由申請人在其他地方教導的模擬 長曝光方法結合使用。在結合這些技術時,全景圖像可以在相機內被生成,或者響應于自動 后置處理而被生成,其還模擬長曝光,以產生靜止圖像或視頻幀作為輸出。將會理解,響應 于在搖動相機的同時獲得足夠數(shù)目的圖像,或者通過使用雙重(靜止_視頻)圖像捕捉技 術,全景處理和長曝光模擬二者都可以得到促進。7.結論 本發(fā)明提供了一種響應于在搖攝期間捕捉到的交疊圖像序列的輸入來自動生成 全景圖像的方法和裝置。發(fā)明性的教導可被應用于各種裝置和應用,包括相機(靜止和/ 或視頻)、視頻處理設備和軟件、視頻回放設備等等。由此可見,因此,本發(fā)明例如包括如下的發(fā)明性實施例1. 一種用于捕捉全景圖像的裝置,包括(d)用于捕捉數(shù)字圖像序列的設備;(e)計算機,該計算機與存儲器耦合;以及(f)適合在所述計算機上執(zhí)行來實現(xiàn)以下步驟的程序,(i)當在全景圖像中要捕捉的所希望全景景象范圍內搖動相機時,捕捉成對地交 疊的圖像幀序列中的圖像幀,(ii)配準搖動運動;(iii)響應于所配準的搖動運動,來控制對所述成對地交疊的圖像幀序列中的連 續(xù)幀的捕捉,以在所述圖像幀之間不出現(xiàn)間隙的情況下確保適當?shù)某蓪化B,以及(iv)組合所述成對地交疊的圖像幀序列以創(chuàng)建全景靜止相片以供由所述相機輸
出ο2.根據(jù)實施例1所述的裝置,其中,所述全景圖像與由所述裝置捕捉的傳統(tǒng)的、非 全景圖像相比,在至少一個維度上進一步延展。3.根據(jù)實施例1所述的裝置,其中,所述全景圖像能夠跨越對象的任何希望的空 間區(qū)域。4.根據(jù)實施例1所述的裝置,其中,全景圖像是由所述裝置創(chuàng)建的,而不需要外部 地處理由所述裝置捕捉到的圖像的集合。5.根據(jù)實施例1所述的裝置,其中,所述設備包括成像器,被配置為電子地捕捉圖像;以及焦距控制器,適用于控制由所述成像器捕捉的圖像的焦距。6.根據(jù)實施例1所述的裝置,還包括用于從所述成對地交疊的圖像幀序列中選出 連續(xù)的交疊圖像幀的集合以供進行組合的程序。7.根據(jù)實施例1所述的裝置,還包括適用于允許用戶選擇全景圖像捕捉模式的用 戶界面。
8.根據(jù)實施例1所述的裝置,其中,所述搖動運動響應于光傳感而被配準。9.根據(jù)實施例1所述的裝置,還包括運動傳感器,該運動傳感器的輸出被所述程 序用來配準搖動運動。10.根據(jù)實施例1所述的裝置,還包括用于在將所述成對地交疊的圖像幀序列組 合成所述全景圖像之前對非搖動運動和/或傾斜進行補償?shù)某绦颉?1.根據(jù)實施例1所述的裝置,其中,所述成對地 交疊的圖像幀序列包括視頻序列 的幀。12.根據(jù)實施例1所述的裝置,其中,所述裝置的全景輸出包括全景數(shù)字相片。13.根據(jù)實施例1所述的裝置,其中,所述裝置的全景輸出包括全景數(shù)字相片;并且其中,所述裝置被配置為將所述全景數(shù)字相片的數(shù)據(jù)傳送到被配置為打印、存儲 和/或傳送所述數(shù)據(jù)的外部電子設備。14.根據(jù)實施例1所述的裝置,還包括用于在組合所述成對地交疊的圖像幀序列 之后校正成對交疊的圖像幀之間的像素交界的程序。15.根據(jù)實施例1所述的裝置,還包括用于對圖像幀執(zhí)行超分辨率技術以增強分 辨率的程序。16. 一種被配置為響應于對所希望對象的搖攝來自動創(chuàng)建全景靜止圖像的相機, 包括(a)相機內的適用于捕捉數(shù)字圖像的電子成像元件;(b)計算機,該計算機與存儲器耦合,所述計算機被配置為控制所述相機的所述電 子成像元件;以及(c)適合在所述計算機上執(zhí)行來實現(xiàn)以下步驟的程序,(i)當在全景圖像中要捕捉的所希望全景景象范圍內搖動所述相機時,在所述電 子成像元件內捕捉成對地交疊的圖像幀序列,(ii)響應于對搖動運動的配準,控制在捕捉期間的圖像幀交疊,或者從成對地交 疊的圖像幀中選出子集,以在所述圖像幀之間不出現(xiàn)間隙的情況下確保適當?shù)某蓪化B, 以及(iii)組合連續(xù)的成對交疊的圖像幀的集合以創(chuàng)建全景靜止相片以供由所述相機 輸出。17.根據(jù)實施例16所述的裝置,還包括用于在組合所述圖像序列之后校正像素交 界以創(chuàng)建成對地交疊的圖像幀序列的平滑無縫調和的程序。18.根據(jù)實施例16所述的裝置,還包括用于對圖像幀執(zhí)行超分辨率技術以增強分 辨率的程序。19. 一種在相機內自動捕捉全景靜止相片的方法,包括以下步驟捕捉跨越正在搖攝的所希望對象區(qū)域的圖像序列;響應于當所希望對象區(qū)域正在被搖攝時基于相機運動捕捉到足夠的圖像,來確保 圖像序列中的相鄰圖像的邊緣彼此交疊;以及組合圖像序列以創(chuàng)建至少一個全景靜止相片圖像。20.根據(jù)實施例19所述的方法,還包括對圖像幀執(zhí)行一種或多種超分辨率技術以增強分辨率。
雖然上述描述包含許多細節(jié),但是這些細節(jié)不應被解釋為限制本發(fā)明的范圍,而 應被解釋為僅提供對本發(fā)明的某些目前優(yōu)選的實施例的說明。因此,將會理解,本發(fā)明的范 圍完全包含可能對本領域中的普通技術人員而言顯而易見的其他實施例,并且因此,本發(fā) 明的范圍不受除了隨附權利要求之外的任何事物限制,在隨附的權利要求中,提到的單數(shù) 元件并非意欲表示“一個且僅一個”(除非明確地進行了這樣的表述),而是更確切地表示 “一個或多個”。本領域中的普通技術人員已知的、上述優(yōu)選實施例中的元件的所有結構和 功能等同物通過引用被清楚地結合于此,并且意欲被本權利要求書包含。此外,設備或方法 不必解決要由本發(fā)明解決的各個及每個問題,因為這將被本權利要求書包含。此外,本公開 中的任何元件、組件或方法步驟,無論它們是否被清楚地記載在權利要求中,對于公眾而言 都并非意欲是專用的。這里任何的權利要求要素都不應根據(jù)35U. S. C. 112第六款的規(guī)定來 解釋,除非使用詞組“用于...的手段”明確地記載了該要素。
權利要求
一種用于捕捉全景圖像的裝置,包括(a)用于捕捉數(shù)字圖像序列的設備;(b)計算機,該計算機與存儲器耦合;以及(c)適合在所述計算機上執(zhí)行來實現(xiàn)以下步驟的程序,(i)當在全景圖像中要捕捉的所希望全景景象范圍內搖動相機時,捕捉成對地交疊的圖像幀序列中的圖像幀,(ii)配準搖動運動;(iii)響應于所配準的搖動運動,來控制對所述成對地交疊的圖像幀序列中的連續(xù)幀的捕捉,以在所述圖像幀之間不出現(xiàn)間隙的情況下確保適當?shù)某蓪化B,以及(iv)組合所述成對地交疊的圖像幀序列以創(chuàng)建全景靜止相片以供由所述相機輸出。
2.根據(jù)權利要求1所述的裝置,其中,所述全景圖像與由所述裝置捕捉的傳統(tǒng)的、非全 景圖像相比,在至少一個維度上進一步延展。
3.根據(jù)權利要求1所述的裝置,其中,所述全景圖像能夠跨越對象的任何希望的空間 區(qū)域。
4.根據(jù)權利要求1所述的裝置,其中,全景圖像是由所述裝置創(chuàng)建的,而不需要外部地 處理由所述裝置捕捉到的圖像的集合。
5.根據(jù)權利要求1所述的裝置,其中,所述設備包括成像器,被配置為電子地捕捉圖像;以及焦距控制器,適用于控制由所述成像器捕捉的圖像的焦距。
6.根據(jù)權利要求1所述的裝置,還包括用于從所述成對地交疊的圖像幀序列中選出連 續(xù)的交疊圖像幀的集合以供進行組合的程序。
7.根據(jù)權利要求1所述的裝置,還包括適用于允許用戶選擇全景圖像捕捉模式的用戶 界面。
8.根據(jù)權利要求1所述的裝置,其中,所述搖動運動響應于光傳感而被配準。
9.根據(jù)權利要求1所述的裝置,還包括運動傳感器,該運動傳感器的輸出被所述程序 用來配準搖動運動。
10.根據(jù)權利要求1所述的裝置,還包括用于在將所述成對地交疊的圖像幀序列組合 成所述全景圖像之前對非搖動運動和/或傾斜進行補償?shù)某绦颉?br>
11.根據(jù)權利要求1所述的裝置,其中,所述成對地交疊的圖像幀序列包括視頻序列的幀。
12.根據(jù)權利要求1所述的裝置,其中,所述裝置的全景輸出包括全景數(shù)字相片。
13.根據(jù)權利要求1所述的裝置,其中,所述裝置的全景輸出包括全景數(shù)字相片;并且其中,所述裝置被配置為將所述全景數(shù)字相片的數(shù)據(jù)傳送到被配置為打印、存儲和/ 或傳送所述數(shù)據(jù)的外部電子設備。
14.根據(jù)權利要求1所述的裝置,還包括用于在組合所述成對地交疊的圖像幀序列之 后校正成對交疊的圖像幀之間的像素交界的程序。
15.根據(jù)權利要求1所述的裝置,還包括用于對圖像幀執(zhí)行超分辨率技術以增強分辨 率的程序。
16.一種被配置為響應于對所希望對象的搖攝來自動創(chuàng)建全景靜止圖像的相機,包括相機內的適用于捕捉數(shù)字圖像的電子成像元件;計算機,該計算機與存儲器耦合,所述計算機被配置為控制所述相機的所述電子成像 元件;以及適合在所述計算機上執(zhí)行來實現(xiàn)以下步驟的程序,當在全景圖像中要捕捉的所希望全景景象范圍內搖動所述相機時,在所述電子成像元 件內捕捉成對地交疊的圖像幀序列,響應于對搖動運動的配準,控制在捕捉期間的圖像幀交疊,或者從成對地交疊的圖像 幀中選出子集,以在所述圖像幀之間不出現(xiàn)間隙的情況下確保適當?shù)某蓪化B,以及 組合連續(xù)的成對交疊的圖像幀的集合以創(chuàng)建全景靜止相片以供由所述相機輸出。
17.根據(jù)權利要求16所述的裝置,還包括用于在組合所述圖像序列之后校正像素交界 以創(chuàng)建成對地交疊的圖像幀序列的平滑無縫調和的程序。
18.根據(jù)權利要求16所述的裝置,還包括用于對圖像幀執(zhí)行超分辨率技術以增強分辨 率的程序。
19.一種在相機內自動捕捉全景靜止相片的方法,包括以下步驟 捕捉跨越正在搖攝的所希望對象區(qū)域的圖像序列;響應于當所希望對象區(qū)域正在被搖攝時基于相機運動捕捉到足夠的圖像,來確保圖像 序列中的相鄰圖像的邊緣彼此交疊;以及組合圖像序列以創(chuàng)建至少一個全景靜止相片圖像。
20.根據(jù)權利要求19所述的方法,還包括對圖像幀執(zhí)行一種或多種超分辨率技術以增強分辨率。
全文摘要
公開了高質量合成全景圖像的相機內生成。裝置和方法用于從在搖攝期間采集的圖像序列自動生成全景靜止相片。相機內的程序允許從多個捕捉到的靜止和/或視頻幀創(chuàng)建全景圖像輸出而無需費力的用戶“接合”。圖像序列在相機的控制下被捕捉,該圖像序列跨越了正在被用戶(在任意方向上)搖攝的所希望對象區(qū)域。當圖像正在被捕捉時,程序確保在所希望對象區(qū)域正在被搖攝時序列中的相鄰圖像的邊緣充分地彼此交疊,并且控制其他必要的相機調節(jié)(例如,維持固定的焦距)。連續(xù)交疊圖像幀的集合被采集并組合以創(chuàng)建至少一個全景靜止相片。用戶可以優(yōu)選地改變設置來控制圖像被一起放入全景圖像輸出中的方式。
文檔編號G03B37/00GK101867720SQ20101015196
公開日2010年10月20日 申請日期2010年4月19日 優(yōu)先權日2009年4月17日
發(fā)明者劉明昌, 馬克·羅伯遜 申請人:索尼公司;索尼電子有限公司