国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于單個視頻攝像機的實時人臉動畫方法

      文檔序號:6399240閱讀:344來源:國知局
      專利名稱:基于單個視頻攝像機的實時人臉動畫方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及人臉動作實時捕獲和實時動畫技術(shù),尤其涉及一種基于單個視頻攝像機的實時人臉動畫方法。
      背景技術(shù)
      本發(fā)明相關(guān)的研究背景簡述如下:1.人臉動作捕獲人臉表情捕獲是真實感圖形學的重要組成部分,其被廣泛的應(yīng)用到電影、動畫、游戲、網(wǎng)絡(luò)聊天和教育等領(lǐng)域中?;谌四槃幼鞑东@的人臉動畫系統(tǒng)用于估計用戶的表情和動作,并將它們映射到另外一個目標模型上。為實現(xiàn)這一目標,目前已經(jīng)有很多的相關(guān)技術(shù)。其中為了直接與用戶進行交互,通常使用主動傳感方法,包括在人的臉部放置一些信號發(fā)送點(Williams, L.1990.Performance driven facial animation.1n Proceedingsof SIGGRAPH, 234-242 ; Huang, H.,Chai, J.,Tong, X.,and ffu, H., T., 2011.Leveragingmotion capture and 3d scanning for high-field facial performance acquisition.ACM Trans.Graph.30,4,74:1-74:10.),或者使用投影結(jié)構(gòu)光圖譜(Zhang,L,Snavelyj N.,Curlessj B., and Seitz, S.M.2004.Space time faces:high resolution capture formodeling and animation.ACM Trans.Graph.23,3,548-558; Weisej T.,Li,H.,Goolj LV., and Pauly, M.2009.Face/off: Live facial puppetry.1n Eurographics/SiggraphSymposium on Computer Animation.),這些方法可以精確的跟蹤人臉表面位置,并獲取高分辨率、高精度的人臉估計,但是這些主動傳感方法往往需要昂貴的硬件設(shè)備支持,同時由于信號發(fā)送點或者結(jié)構(gòu)光的干擾,對用戶并不具有友好型,因此并不能廣泛用于普通用戶。另一種系統(tǒng)是被動系統(tǒng),它們并不主動向所在環(huán)境里發(fā)送信號或在人臉放置信號發(fā)送點,而只根據(jù)接收到的顏色信息等來分析、捕獲人臉動作。其中有一些方法只用單個攝像機來捕獲人臉動作,包括 Essa,1.,Basuj S.,Darrell, T.,and Pent land,A.1996.Modeling,tracking and interactive animation of faces and heads: Usinginput from vide0.1n Computer Animation, 68—79;Pighin,F(xiàn).,SzeliskijR.,andSalesinj D.1999.Resynthesizing facial animation through3d model-based tracking.1n International Conference on Computer Vision, 143-150;In Eurographics/Siggraph Symposium on Computer Animation, 193-206;Vlasicj D., Brand, M., Pfisterj H.and Popovicj J.2005.Face transfer with multilinear models.等工作。這些方法的缺點在于得到的結(jié)果精度較低,無法處理人臉大幅度的旋轉(zhuǎn)和夸張表情,此外對使用的環(huán)境也有一定的要求,如只能在光照均勻、沒有陰影、高光干擾的室內(nèi)環(huán)境下使用。某些方法中則使用了照相機陣列,這樣可以從多個視角獲取人臉數(shù)據(jù),并將其轉(zhuǎn)化成立體數(shù)據(jù)用于三維重建,這些工作包括BEELER,T.,BICKEL, B.,BEARDSLEY,P.,SUMNER,R.,AND GROSS, Μ.2010.High-quality single-shot capture of facialgeometry.ACM Trans.Graph.29,4, 40:1 - 40:9.; BRADLEY, D.,HEIDRICH,W.,POPAj T.,ANDSHEFFER, A.2010.High resolution passive facial performance capture.ACM Trans.Graph.29,4,41:1 - 41:10.; BEELER, T.,HAHN, F.,BRADLEY, D.,BICKEL, B.,BEARDSLEY, P.,GOTSMAN, C.,SUMNER, R.ff.,AND GROSS, M.2011.High-quality passive facial performancecapture using anchor frames.ACM Trans.Graph.30, 4, 75:1 - 75:10.等,這些方法可以比較精確的得到三維人臉表情,但依然存在設(shè)備昂貴、對環(huán)境要求較高等缺點。2.基于視覺的人臉特征點跟蹤人臉表情的捕獲往往需要跟蹤輸入圖像中人臉的特征點,如眼角、鼻子邊緣或者嘴巴邊界等位置。對于一般的輸入視頻,光流法(Optical Flow)被普遍使用。但是由于輸入數(shù)據(jù)的噪聲影響,對那些不是很明顯的人臉特征點(如臉頰上的點),光流定位并不是那么可靠,往往會因為幀與幀之間的誤差累積造成一種偏移(Drift)的錯誤。此外,光流法在處理快速運動、光照變化等方面也存在較大的誤差。為了更精確的特征點跟蹤,一些工作使用特征點之間的幾何約束。這樣,每個特征點不僅和其自身局部信息計算有關(guān),還受到其他特征點的影響。不同類型的幾何約束被廣泛使用,包括對表情變化時特征點偏移的限制(CHAI,J.-X.,XIAO, J.,ANDH0DGINS, J.2003.Vision-based control of3d facial animation.1n Eurographics/SIGGRAPH Symposium on Computer Animation, 193 - 206.),滿足基于物理的可變形網(wǎng)格模型需求(ESSA, 1.,BASU, S.,DARRELL, T.,AND PENTLAND, A.1996.Modeling, trackingand interactive animation of faces and heads: Using input from vide0.1n Computer Animation, 68 - 79.;DECARLO, D., AND METAXAS,D.2000.0ptical flowconstraints on deformable models with applications to face tracking.1nt.Journal of Computer Vision38, 2,99 - 127.),以及一些從大量樣本空間中建立的人臉模型的對應(yīng)關(guān)系(PIGHIN, F.,SZELISKI, R.,AND SALESIN, D.1999.Resynthesizingfacial animation through3d model-based tracking.1n International Conferenceon Computer Vision, 143 - 150.;BLANZ, V., AND VETTER, T.1999.A morphable model forthe synthesis of3d faces.1n Proceedings of SIGGRAPH, 187 - 194.;VLASIC, D., BRAND,M., PFISTER, H., AND P0P0VIC766, J.2005.Face transfer with multilinear models.ACMTrans.Graph.24,3 (July),426 - 433.)。這些方法都能在一定程度上跟蹤圖像、視頻中人臉特征點,但由于它們得到的都是圖像上的二維特征點,因此在處理旋轉(zhuǎn)上有一定的局限性。3.三維人臉模型我們的工作中在預處理過程中借助了三維人臉模型,以從二維圖像中獲取得到三
      維信息。在現(xiàn)有的圖形學和視覺應(yīng)用中,各種三維人臉模型被廣泛應(yīng)用。在人臉動畫應(yīng)用中,一種表情融合模型(Blendshapes)被廣泛應(yīng)用。這是一種表示人臉動作的子空間表達,其包括一系列的基本人臉表情,由此組成了人臉表情的線性空間。利用融合模型,可以對其中的基本人臉動作通過變形(Morphing) (PIGHIN, F., HECKER, J., LISCHINSKI, D.,SZELISKI, R., AND SALESIN, D.H.1998.Synthesizing realistic facial expressionsfrom photographs.1n Proceedings of SIGGRAPH, 75 - 84.)或者線性組合(Linearcombinations)(LEWIS, J.P., AND ANJY0, K.2010.Direct manipulation blendshapes.1EEECG&A30, 4,42 - 50.; SE0, J.,IRVING, G.,LEWIS, J.P.,AND Ν0Η, J.2011.Compression anddirect manipulation of complex blendshape models.ACM Trans.Graph.30, 6.)等計算得到各種人臉動畫效果。多線性模型(Multilinear Models)表示一個擁有多種控制屬性(如個體,表情,發(fā)音嘴型)的融合模型分解。表情融合模型的一個重要的特點在于,不同個體的表情對應(yīng)于融合模型中相似的基本動作系數(shù)。利用這一性質(zhì),很多人臉動畫應(yīng)用使用了表情融合模型,通過傳遞基本動作系數(shù),將用戶的人臉動作轉(zhuǎn)移到虛擬替身中。

      發(fā)明內(nèi)容
      本發(fā)明的目的在于針對現(xiàn)有技術(shù)的不足,提供一種基于單個視頻攝像機的實時人臉動畫方法,本發(fā)明可以在普通桌面電腦上供普通用戶使用,在不同環(huán)境下實時,準確的捕獲用戶表情并驅(qū)動虛擬替身。具有易使用,魯棒,快速等特點,可以運用于在線游戲、網(wǎng)絡(luò)聊天和教育等應(yīng)用中,具有很高的實用價值。本發(fā)明的目的是通過以下技術(shù)方案來實現(xiàn)的:一種基于單個視頻攝像機的實時人臉動畫方法,包括以下步驟:(I)圖像采集和標定:利用視頻攝像機拍攝用戶的多幅具有不同姿勢和表情的二維圖像,對每個圖像利用二維圖像回歸器得到對應(yīng)的二維人臉特征點,對自動檢測得到的不準確特征點進行手動調(diào)整;(2)數(shù)據(jù)預處理:利用標定好二維人臉特征點的圖像,進行用戶表情融合模型生成和攝像機內(nèi)部參數(shù)標定,并由此得到圖像的三維特征點;利用三維特征點和步驟I采集的二維圖像,訓練獲得從二維圖像到三維特征點的回歸器;(3)三維特征點跟蹤:用戶使用視頻攝像機實時輸入圖像,對于輸入的圖像,結(jié)合上一幀的三維人臉特征點,利用步驟2中得到回歸器,實時定位當前幀中三維人臉特征點;(4)姿勢表情參數(shù)化:利用三維人臉特征點位置,結(jié)合步驟2中得到的用戶表情融合模型,迭代優(yōu)化以得到人臉姿勢和表情的參數(shù)化表達;(5)替身驅(qū)動:將人臉姿勢和表情參數(shù)映射到虛擬替身上,用以驅(qū)動動畫角色進行人臉動畫。本發(fā)明的有益效果是,本發(fā)明容易使用,使用者不需要信號發(fā)送點或者投影結(jié)構(gòu)光譜等昂貴的物理設(shè)備,只使用單個攝像機,在普通的桌面電腦上,通過一次性數(shù)據(jù)采集和預處理,就可以供用戶完成人臉姿勢、表情的捕獲和參數(shù)化,并將參數(shù)化結(jié)果映射到虛擬替身上以驅(qū)動動畫角色的人臉動畫,方便普通用戶的使用。本發(fā)明相比于之前的方法,可以有效的處理視頻中的快速運動,大幅度頭部姿勢旋轉(zhuǎn)和夸張表情,并且可以處理一定的光照條件變化,可以在不同的環(huán)境下使用(包括室內(nèi)、有陽光直射的室外環(huán)境等)。此外,本發(fā)明的方法非常高效,在具體實施實例中,普通電腦使用少于15毫秒即可以完成一幀的特征點跟蹤、姿勢表情參數(shù)化和替身映射,擁有非常好的用戶體驗。


      圖1是本發(fā)明圖像采集和標定步驟中采集的一幅二維圖像和標定的二維圖像特征點圖;圖2是本發(fā)明數(shù)據(jù)預處理步驟中生成的三維人臉特征點圖3是本發(fā)明三維特征點跟蹤步驟中實時輸入的圖像和定位的三維特征點圖;圖4是本發(fā)明姿勢表情參數(shù)化步驟中生成的三維人臉形狀圖;圖5是本發(fā)明替身驅(qū)動步驟中將圖4中的參數(shù)映射到替身上,驅(qū)動動畫角色人臉動畫截圖。
      具體實施例方式本發(fā)明核心是從二維圖像中得到人臉的三維特征點,由此參數(shù)化用戶的人臉姿勢和表情,并將其映射到虛擬替身。該方法主要分為以下五個步驟:圖像采集和標定、數(shù)據(jù)預處理、三維特征點跟蹤、姿勢表情參數(shù)化、替身驅(qū)動。具體來說,包括以下步驟:1.圖像采集和標定:用戶模仿做出各種姿勢和表情,并利用視頻攝像機拍攝相應(yīng)圖像。對每個圖像利用通用的二維圖像回歸器,得到對應(yīng)的二維人臉特征點,對自動檢測得到的不準確的特征點,允許用戶進行手動調(diào)整。本發(fā)明首先采集用戶的一組不同人臉姿勢和表情的圖像。這組圖像分為兩個部分:剛性動作和非剛性動作。剛性動作指用戶保持自然表情,同時做15個不同角度的人臉姿勢。我們用歐拉角(yaw, pitch, roll)來表示這些角度:yaw以30°為間隔從-90°到90。采樣,同時保持pitch和roll為0° ;pitch以15°為間隔從-30°到30。采樣并去除0°,同時保持yaw和roll為0° ;roll以15°為間隔從-30°到30°采樣并去除0°,同時保持yaw和pitch為0°。注意到我們并不要求用戶做到的姿勢角度與要求的角度配置完全精確,只需要一個大概的估計即可。非剛性動作包括三個yaw角度下的15個不同表情。這些表情是一個相對比較大的表情,在不同個體之間差異較大。這些表情是:張嘴,微笑,抬眉毛,厭惡,擠左眼,擠右眼,憤怒,向左歪嘴,向右歪嘴,露齒笑,嘟嘴,撅嘴,翻嘴唇,鼓嘴和閉眼。對每個用戶,總共采集了 60張圖像。對每張圖像,我們使用二通用的二維圖像回歸器來自動定位75個特征點位置(如附圖1所示),這些特征點主要分為兩類:60個內(nèi)部特征點(如眼睛、眉毛,鼻子和嘴巴部分的特征),和15個外部輪廓點。本發(fā)明中使用(CAO, X.,WEI, Y.,WEN, F.,AND SUN, J.2012.Face alignment by explicit shaperegression.1n Computer Vision and Pattern Recognition (CVPR),2887 - 2894.)所描述的回歸器來自動定位這些特征點。自動定位的二維特征點會存在一些偏差,針對定位不精確的特征點,用戶可以在屏幕上通過簡單的鼠標拖拽操作來修正,具體來說,即通過鼠標點擊選中特征點,然后按住鼠標將其拖到圖像上正確的位置。2.數(shù)據(jù)預處理:利用標定好二維特征點的圖像,進行用戶表情融合模型生成和攝像機內(nèi)部參數(shù)標定,并由此得到圖像的三維特征點。利用二維圖像和三維特征點,訓練從二維圖像得到三維特征點的回歸器。2.1用戶表情融合模型的生成用戶表情融合模型包含用戶的自然表情形狀Btl和46個FACS表情形狀I(lǐng)B1, B2,, B46I。這些表情形狀構(gòu)成了該用戶表情的線性空間,用戶任意表情B可以用融合模型中的基本表情通過線性插值得到:
      權(quán)利要求
      1.一種基于單個視頻攝像機的實時人臉動畫方法,其特征在于,包括以下步驟: (1)圖像采集和標定:利用視頻攝像機拍攝用戶的多幅具有不同姿勢和表情的二維圖像,對每個圖像利用二維圖像回歸器得到對應(yīng)的二維人臉特征點,對自動檢測得到的不準確特征點進行手動調(diào)整; (2)數(shù)據(jù)預處理:利用標定好二維人臉特征點的圖像,進行用戶表情融合模型生成和攝像機內(nèi)部參數(shù)標定,并由此得到圖像的三維特征點;利用三維特征點和步驟I采集的二維圖像,訓練獲得從二維圖像到三維特征點的回歸器; (3)三維特征點跟蹤:用戶使用視頻攝像機實時輸入圖像,對于輸入的圖像,結(jié)合上一幀的三維人臉特征點,利 用步驟2中得到回歸器,實時定位當前幀中三維人臉特征點; (4)姿勢表情參數(shù)化:利用三維人臉特征點位置,結(jié)合步驟2中得到的用戶表情融合模型,迭代優(yōu)化以得到人臉姿勢和表情的參數(shù)化表達; (5)替身驅(qū)動:將人臉姿勢和表情參數(shù)映射到虛擬替身上,用以驅(qū)動動畫角色進行人臉動畫。
      2.根據(jù)權(quán)利要求1所述的實時人臉動畫方法,其特征在于,所述步驟I主要包括以下子步驟: (1.1)用戶模仿做出相應(yīng)表情和姿勢,包括15種自然表情下的不同人頭姿勢,和3個姿勢下的15種不同表情,共60組不同的姿勢表情數(shù)據(jù),利用視頻攝像機拍攝相應(yīng)的二維圖像; (1.2)利用二維圖像回歸器對每一個二維圖像分別進行自動的二維人臉特征點標定; (1.3)用戶對自動標定的人臉特征點中不滿意的部分,對其進行簡單的拖拽操作,進行人工修復。
      3.根據(jù)權(quán)利要求1所述的實時人臉動畫方法,其特征在于,所述步驟2主要包括以下子步驟: (2.1)利用已有的三維人臉表情數(shù)據(jù)庫,對于每一個標定了二維人臉特征點的二維圖像進行擬合,使用最小二乘方法計算相應(yīng)的剛性參數(shù)、個體系數(shù)和表情系數(shù);之后對所有二維圖像進行統(tǒng)一優(yōu)化,得到統(tǒng)一的個體系數(shù),計算得到用戶的表情融合模型; (2.2)對針孔照相機模型進行簡化假設(shè),將其簡化到只包括一個未知參數(shù),使用二分法來確定最合適的照相機參數(shù); (2.3)基于上述步驟得到的用戶表情融合模型和照相機參數(shù),擬合每個圖像中人臉剛性參數(shù)和表情系數(shù),得到三維人臉特征點位置;其后對二維圖像和其對應(yīng)的三維特征點進行數(shù)據(jù)增強操作; (2.4)利用步驟2.3中生成的二維圖像和三維人臉特征點,訓練獲得一個利用二維圖像信息生成三維人臉特征點的回歸器。
      4.根據(jù)權(quán)利要求1所述的實時人臉動畫方法,其特征在于,所述步驟3主要包括以下子步驟: (3.1)運行時,先使用上一幀的三維特征點,通過一個剛性變換,將其轉(zhuǎn)換到原訓練數(shù)據(jù)中與其最接近的特征點位置,然后在原訓練數(shù)據(jù)中的三維特征點中找到一組與轉(zhuǎn)換后特征點最接近的一組特征點作為初始特征點; (3.2)對每個當前特征點,根據(jù)特征點位置,在當前幀圖像上采樣得到外觀向量;(3.3)在每個原子分類器中,根據(jù)序列對在步驟3.2中外觀向量計算對應(yīng)的特征值,并根據(jù)特征值定位相應(yīng)的分類,并使用分類中對應(yīng)的輸出更新當前特征點位置;依次通過所有的原子分類器,得到了回歸器給出的輸出結(jié)果; (3.4)對每個初始特征點,用步驟3.2和步驟3.3得到定位的結(jié)果,然后對這些結(jié)果取中值操作,得到最終的結(jié)果。
      5.根據(jù)權(quán)利要求4所述的實時人臉動畫方法,其特征在于,所述步驟4主要包括以下子步驟: (4.1)保持表情系數(shù)不變,利用奇異值分解算法計算當前人臉形狀的剛性姿勢,使得形狀上對應(yīng)的特征點與權(quán)利要求4中描述的三維人臉特征點之間的誤差最??; (4.2)保持姿勢不變,利用梯度下降算法,擬合當前表情系數(shù),使得形狀上對應(yīng)的特征點與權(quán)利要求4中描述的三維人臉特征點之間的誤差最?。? (4.3)迭代執(zhí)行步驟4.1和4.2直到收斂,最終得到參數(shù)化的人臉姿勢系數(shù)和表情系數(shù)。
      6.根據(jù)權(quán)利要求1所述的實時人臉動畫方法,其特征在于,所述步驟5主要包括以下子步驟: (5.1)將參數(shù)化的表情系數(shù)映射到替身的表情融合模型上,生成對應(yīng)的人臉表情形狀; (5.2)為生成的人臉表 情形狀賦予參數(shù)化的姿勢,得到與用戶輸入圖像匹配的人臉動作。
      全文摘要
      本發(fā)明公開了一種基于單個視頻攝像機的實時人臉動畫方法,該方法利用單個視頻攝像機,實時跟蹤人臉特征點的三維位置,并以此參數(shù)化人臉的姿勢和表情,最終可以將這些參數(shù)映射到替身上以驅(qū)動動畫角色的臉部動畫。本發(fā)明不需要高級的采集設(shè)備,只需要用戶的普通視頻攝像機上就可以達到實時的速度;本發(fā)明可以準確處理人臉各種大角度旋轉(zhuǎn)、平移,和人臉的各種夸張表情;本發(fā)明還可以在不同光照和背景環(huán)境下工作,包括室內(nèi)和有陽光的室外。
      文檔編號G06T13/40GK103093490SQ201310047850
      公開日2013年5月8日 申請日期2013年2月2日 優(yōu)先權(quán)日2013年2月2日
      發(fā)明者周昆, 翁彥琳, 曹晨 申請人:浙江大學
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1