專利名稱:一種視頻去抖動方法和視頻去抖動裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及視頻處理技術(shù)領(lǐng)域,更具體而言,涉及一種視頻去抖動方法和視頻去抖動裝置。
背景技術(shù):
近年來,在消費市場中,用于消除不期望的相機運動(即,無意運動)的視頻去抖動系統(tǒng)越來越流行。圖1示出了去除一維方向上的抖動的方法的示意圖。如圖1所示,由圓圈連成的線表示攝像機的實際運動,由三角形連成的線表示攝像者期望的攝像機運動, 即有意運動。有意運動是人的意圖所引起的運動,例如,人為的攝像機移動。實際運動中包含攝像者的有意運動和無意運動。視頻去抖動就是要從攝像機的實際運動中去除不期望的無意運動,得到期望的有意運動,如圖1中的箭頭所示。這樣,處理后的視頻在視覺上將變得平滑,減輕了由于無意運動引起的畫面之間的跳動感。視頻去抖動系統(tǒng)通常包括三個部分全局運動估計、有意運動估計和圖像合成。通過全局運動估計和有意運動估計,確定用于每個視頻幀的變換矩陣。所述變換矩陣用于將視頻中的每個幀變換成去除了無意運動的幀,即去除了抖動的幀。通常,變換矩陣中可以包括一個或更多個參數(shù)(也稱為變換參數(shù)),以在一個或更多個方向上對視頻進行去抖動。圖像合成通常涉及利用變換矩陣對視頻幀的變換、以一定裁剪尺寸對視頻幀進行裁剪、以及對裁剪后的視頻幀進行擴展以得到原始高寬比的視頻幀等處理。由于對視頻幀進行變換將留下未定義的區(qū)域(也稱為黑區(qū)),并因而導(dǎo)致視覺上的降級,因此必須消除黑區(qū)。通常通過裁剪和擴展剩余的圖像部分、或者使用來自相鄰幀的信息來構(gòu)造圖像拼接來消除黑區(qū),如圖2所示。在傳統(tǒng)視頻去抖動技術(shù)中,在同一輪中處理運動估計和圖像合成,如圖3中的虛線框所示。也就是說,對于視頻中的每個幀,在一輪中相繼對該幀進行全局運動估計、有意運動估計和圖像合成。作為一種實際應(yīng)用示例,使用解碼器對視頻解碼一次,邊解碼邊對已解碼出的幀進行運動估計和圖像合成。然而,在這種情況下,在未定義區(qū)域的量與運動平滑程度之間存在折衷。平滑程度越大,視頻幀中產(chǎn)生的黑區(qū)也會越大。處理這個問題的通用方法是犧牲平滑程度,以保證未定義的區(qū)域小于預(yù)定閾值。例如,當去除了抖動的幀具有比預(yù)定閾值大的黑區(qū)時,減小變換矩陣中的平滑參數(shù),直到黑區(qū)低于預(yù)定閾值。
發(fā)明內(nèi)容
在下文中給出了關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當理解,這個概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。本發(fā)明旨在至少解決現(xiàn)有技術(shù)中的上述技術(shù)問題,提供一種視頻去抖動方法和視頻去抖動裝置。根據(jù)本發(fā)明的一個方面,提供了一種視頻去抖動方法,包括為原始視頻中的每個幀生成用于將該幀變換成去除了抖動的幀的變換矩陣;確定所述原始視頻的裁剪尺寸;以及利用所述原始視頻中的每個幀的變換矩陣、所述裁剪尺寸以及所述原始視頻的分辨率對所述原始視頻中的每個幀進行包括變換、裁剪和擴展的圖像合成。根據(jù)本發(fā)明的另一方面,提供了一種視頻去抖動裝置,包括變換矩陣確定單元, 配置用于為原始視頻中的每個幀生成用于將該幀變換成去除了抖動的幀的變換矩陣;裁剪尺寸確定單元,配置用于確定所述原始視頻的裁剪尺寸;以及圖像合成單元,配置用于利用所述原始視頻中的每個幀的變換矩陣、所述裁剪尺寸以及所述原始視頻的分辨率對所述原始視頻中的每個幀進行包括變換、裁剪和擴展的圖像合成。根據(jù)本發(fā)明的又一方面,提供了一種視頻去抖動方法,包括為原始視頻中的每個幀生成用于將該幀變換成去除了抖動的幀的變換矩陣并利用該變換矩陣來對該幀進行變換;確定所述原始視頻的裁剪尺寸;以及利用所述裁剪尺寸以及所述原始視頻的分辨率對所述原始視頻中的每個幀進行包括裁剪和擴展的圖像合成。在根據(jù)本發(fā)明的上述方方面的視頻去抖動方法和裝置中,對于視頻中的每個幀, 分兩輪分別進行運動估計和圖像合成。在第一輪中,返回用于對每個幀進行去抖動的變換矩陣。在開始第二輪之前,確定視頻的裁剪尺寸。在第二輪中,在視頻中的每個幀變成去除了抖動的幀之后,根據(jù)修剪尺寸來裁剪所述幀,然后將裁剪后的剩余部分擴展到原始視頻的分辨率。由于變換矩陣的確定和視頻的裁剪是在兩輪中進行的,并且根據(jù)確定了的變換矩陣進行變換,然后根據(jù)確定的裁剪尺寸進行裁剪,因此避免了平滑程度的犧牲,并能夠保證最優(yōu)的裁剪尺寸,使得在裁剪過程中盡可能多地保留視頻幀的原始圖像信息,并在裁剪之后使盡可能少的視頻幀中產(chǎn)生黑區(qū)。通過以下結(jié)合附圖對本發(fā)明的最佳實施例的詳細說明,本發(fā)明的這些以及其他優(yōu)點將更加明顯。
參照下面結(jié)合附圖對本發(fā)明實施例的說明,會更加容易地理解本發(fā)明的以上和其它目的、特點和優(yōu)點。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類似的技術(shù)特征或部件將采用相同或類似的附圖標記來表示。圖1示出了現(xiàn)有技術(shù)中的去除一維方向上的抖動的方法的示意圖。圖2示出了現(xiàn)有技術(shù)中對視頻幀進行裁剪以去除黑區(qū)的示例。圖3示出了現(xiàn)有技術(shù)中的視頻去抖方法的示意性流程圖。圖4示出了根據(jù)本發(fā)明的一個實施例的視頻去抖動方法的示意性流程圖。圖5A示出了根據(jù)本發(fā)明的一個實施例的生成變換矩陣的示意性流程圖。圖5B示出了根據(jù)本發(fā)明的一個實施例的確定裁剪尺寸的示意性流程圖。圖5C示出了根據(jù)本發(fā)明的一個實施例的進行圖像合成的示意性流程圖。圖6示出了根據(jù)本發(fā)明的一個實施例的全局運動估計的示意性流程。圖7示出了根據(jù)本發(fā)明的一個實施例的利用直方圖確定裁剪尺寸的示例圖。圖8示出了根據(jù)本發(fā)明的一個實施例的視頻去抖動裝置的示意性框圖。
5
圖9示出了可用于實施根據(jù)本發(fā)明實施例的方法和裝置的計算機的示意性框圖。
具體實施例方式下面參照附圖來說明本發(fā)明的實施例。在本發(fā)明的一個附圖或一種實施方式中描述的元素和特征可與一個或更多個其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。應(yīng)當注意,為了清楚起見,附圖和說明中省略了與本發(fā)明無關(guān)的、本領(lǐng)域普通技術(shù)人員已知的部件和處理的表示和描述。圖4示出了根據(jù)本發(fā)明的一個實施例的視頻去抖動方法的示意性流程圖。如圖4 所示,在該實施例中,分兩輪進行運動估計和圖像合成。在步驟S410中,作為第一輪處理, 為原始視頻中的每個幀生成用于將該幀變換成去除了抖動的幀的變換矩陣。在步驟S420 中,確定原始視頻的裁剪尺寸。在步驟S430中,作為第二輪處理,對原始視頻中的每個幀進行圖像合成。具體而言,對于原始視頻中的每個幀,利用該幀的變換矩陣對該幀進行變換, 利用所確定的裁剪尺寸對該幀進行裁剪,以及利用原始視頻的分辨率對該幀進行擴展。圖5A示出了根據(jù)本發(fā)明的一個實施例的生成變換矩陣的示意性流程圖。如圖所示,對視頻中的每個幀,在步驟S510中,對該幀進行全局運動估計。在步驟S520中,對該幀進行有意運動估計。在步驟S530中,基于全局運動估計和有意運動估計的結(jié)果來生成該幀的變換矩陣。變換矩陣中包含每個幀的變換參數(shù)。為了方便說明,假定使用Xn表示原始視頻中幀η的像素位置,其中X = (x,y, 1)τ。 Hn是從幀η-1到幀η的3 X 3變換矩陣,即,Xn = HnXn-I Hinn表示從幀η_1到幀η的有意運動。將累積的全局運動和累積的有意運動分別表示為CHn和CHirv其中,
權(quán)利要求
1.一種視頻去抖動方法,包括為原始視頻中的每個幀生成用于將該幀變換成去除了抖動的幀的變換矩陣; 確定所述原始視頻的裁剪尺寸;以及利用所述原始視頻中的每個幀的變換矩陣、所述裁剪尺寸以及所述原始視頻的分辨率對所述原始視頻中的每個幀進行包括變換、裁剪和擴展的圖像合成。
2.如權(quán)利要求1的視頻去抖動方法,其中,生成變換矩陣的步驟包括 對該幀進行全局運動估計和有意運動估計;以及基于所述全局運動估計和所述有意運動估計的結(jié)果來生成該幀的變換矩陣。
3.如權(quán)利要求2的視頻去抖動方法,其中,對該幀進行全局運動估計的步驟包括 為該幀的每個選定局部運動矢量分配權(quán)重;通過該幀的所有選定局部運動矢量的加權(quán)平均來估計該幀的全局運動矢量;以及重復(fù)執(zhí)行所述分配權(quán)重和估計全局運動矢量的步驟達預(yù)定次數(shù)。
4.如權(quán)利要求3的視頻去抖動方法,其中,為該幀的每個選定局部運動矢量分配權(quán)重的步驟包括通過以下高斯函數(shù)來計算該選定局部運動矢量的權(quán)重
5.如權(quán)利要求3的視頻去抖動方法,其中,對該幀進行全局運動估計的步驟還包括 計算該幀的所有選定局部運動矢量的平均值作為該幀的全局運動矢量的初始估計值。
6.如權(quán)利要求2的視頻去抖動方法,其中,對該幀進行有意運動估計包括通過對以該幀為中心的窗口內(nèi)的所述原始視頻的各個幀的全局運動估計的結(jié)果進行平滑來估計該幀的有意運動,其中,所述窗口的尺寸利用所述窗口內(nèi)的幀間運動的方向改變的數(shù)目而被自動調(diào)節(jié)。
7.如權(quán)利要求1的視頻去抖動方法,其中,確定所述原始視頻的裁剪尺寸的步驟包括 在所述原始視頻的幀的變換矩陣中的變換參數(shù)的值中,選擇使得所述原始視頻的幀被裁剪后至少有預(yù)定比例的幀不具有黑區(qū)的值作為所述原始視頻的裁剪尺寸。
8.如權(quán)利要求7的視頻去抖動方法,其中,當所述變換矩陣中包括所述原始視頻的幀的長度和寬度方向上的兩個變換參數(shù)時,確定所述原始視頻的裁剪尺寸的步驟包括對這兩個方向中每個方向上的變換參數(shù)執(zhí)行以下步驟對所述原始視頻的所有幀的變換矩陣中的該變換參數(shù)的絕對值或絕對值的區(qū)間進行計數(shù);以及選擇所述絕對值中的一個絕對值或所述絕對值區(qū)間中的一個絕對值區(qū)間中的最大絕對值作為所述裁剪尺寸在該方向上的分量,其中所述原始視頻中至少預(yù)定比例的幀的變換矩陣中的該變換參數(shù)的絕對值在所選擇的絕對值或絕對值區(qū)間中的最大絕對值以下。
9.一種視頻去抖動裝置,包括變換矩陣確定單元,配置用于為原始視頻中的每個幀生成用于將該幀變換成去除了抖裁剪尺寸確定單元,配置用于確定所述原始視頻的裁剪尺寸;以及圖像合成單元,配置用于利用所述原始視頻中的每個幀的變換矩陣、所述裁剪尺寸以及所述原始視頻的分辨率對所述原始視頻中的每個幀進行包括變換、裁剪和擴展的圖像合成。
10. 一種視頻去抖動方法,包括為原始視頻中的每個幀生成用于將該幀變換成去除了抖動的幀的變換矩陣并利用該變換矩陣來對該幀進行變換;確定所述原始視頻的裁剪尺寸;以及利用所述裁剪尺寸以及所述原始視頻的分辨率對所述原始視頻中的每個幀進行包括裁剪和擴展的圖像合成。
全文摘要
本發(fā)明公開了一種視頻去抖動方法和裝置。所述視頻去抖動方法包括為原始視頻中的每個幀生成用于將該幀變換成去除了抖動的幀的變換矩陣;確定所述原始視頻的裁剪尺寸;以及利用所述原始視頻中的每個幀的變換矩陣、所述裁剪尺寸以及所述原始視頻的分辨率對所述原始視頻中的每個幀進行包括變換、裁剪和擴展的圖像合成。
文檔編號H04N5/14GK102348046SQ20101024437
公開日2012年2月8日 申請日期2010年7月30日 優(yōu)先權(quán)日2010年7月30日
發(fā)明者堀田悅伸, 孫俊, 潘攀, 皆川明洋, 直井聰 申請人:富士通株式會社