一種面向數字電視的視頻虛擬人手語系統(tǒng)的制作方法

文檔序號：7986675閱讀：605來源：國知局

專利名稱：一種面向數字電視的視頻虛擬人手語系統(tǒng)的制作方法
技術領域：
本發(fā)明涉及數字電視技術領域，具體涉及一種面向數字電視的視頻虛擬人手語系統(tǒng)。
背景技術：
中國有著近3000萬的聾啞人，解決聾啞人看電視難問題是一項重大的民心工程。而當前大多數電視臺都沒有配有適合聾啞人觀看的頻道，有些新聞欄目采用人工錄制的形式完成手語的轉換，不僅耗費大量人力物力，而且時效性和準確性以及手語的規(guī)范程度都十分不足。
近年來對手語識別和手語合成研究都有著很大的進步，基于虛擬人的手語系統(tǒng)也有了初步的應用，在很多公共場合已經開始試用。比如Vcom3D公司開發(fā)了的可以讓人通過手語和臉部表情在互聯(lián)網上和其他人交流的軟件；歐洲的ViSiCAST系統(tǒng)使用了運動捕捉技術來實現從語音到英國手語的轉換，該系統(tǒng)已經在郵局、網絡等公眾場合已經應用。而在國內，2009年，中國科學院已經研發(fā)了 “視頻虛擬人手語編輯系統(tǒng)”并將其應用到廣播電視系統(tǒng)中；哈工大也提出了自己的基于虛擬人的手語新聞播報方法；還有康佳公司研制的和硬件密切相關的一種具有手語解說功能的電視機。
目前現有技術中中科院的“視頻虛擬人手語編輯系統(tǒng)”包括節(jié)目源輸入、計算機系統(tǒng)和輸出模塊。其中計算機系統(tǒng)是核心，可以是工控機系統(tǒng)，主要包括5個模塊(1)手語合成模塊，將輸入的節(jié)目文本翻譯成手語數據；( 虛擬人合成模塊，將所述的手語數據通過虛擬人表達出來；C3)支持圖像疊加功能的非線性編輯板卡；語音時長同步信息獲取模塊，記錄每一句文本對應的起始和終止時間；( 主模塊，負責上述各個模塊之間的協(xié)同通信。主模塊，根據所獲取的語音時長信息同步調用對應的文本句子，由手語合成模塊翻譯成手語數據，再由虛擬人合成模塊生成的虛擬人表達出來，通過非線性編輯板卡將手語幀疊加到節(jié)目圖像中。
現有技術的缺點是上述的視頻虛擬人手語編輯系統(tǒng)中的語音和手語字幕的同步信息獲取是通過人工“拍唱詞”的方式，獲取視頻所有文本句子所對應的時間長度信息，該方法是通過工作人員通過一邊觀看節(jié)目，一邊在需要的地方拍打一下鍵盤，使得軟件記錄下來每一句文本所對應的起始時間和終止時間。這種方法不僅耗費人力，而且?guī)в兄饔^性強，不精確等弊端。其次，在該系統(tǒng)中對虛擬人的生成并沒有做出平滑處理，只是根據文本詞條和手勢數據的映射關系進行一對一的調用繪制，因為不同手勢之間的位置和方向可能存在比較大的差異，所以應該在不同手勢間進行適當的平滑處理。此外，該系統(tǒng)集中關注的是手勢的生成，忽略了在手語中人物的人臉表情也是非常重要的一個因素。發(fā)明內容
為了克服現有技術所存在的缺陷，本發(fā)明提供了一種面向數字電視的視頻虛擬人手語系統(tǒng)，通過該系統(tǒng)可以節(jié)省了人力物力而且準備規(guī)范，同時采用基于內容的平滑處理，使得手勢之間動作自然，并且引入人臉表情與手勢的協(xié)同配合，使得手語表達更為準確和符合現實。
—種面向數字電視的視頻虛擬人手語系統(tǒng)，首先對節(jié)目源碼流進行解復用，解碼出語音、視頻以及其他數據信息，其中其他數據信息中包含字幕文本信息；將字幕文本輸入到虛擬人手語生成模塊，該模塊根據文本詞條從手語庫中調出對應的手語數據，然后進行圖形繪制生成手語幀，在不同手勢之間要進行適當的平滑處理；將手語幀和節(jié)目的語音信息進行同步疊加然后輸出。
手語生成模塊是該系統(tǒng)的核心模塊，它包括文本解析模塊，手勢生成模塊，表情生成模塊，手勢和表情合成模塊，幀序列平滑及簡化處理模塊和同步處理模塊；文本解析模塊輸入的是字幕的文本序列，文本解析對字幕語句進行分詞，所得的分詞通過對手語庫的檢索，得到相應的手勢數據和表情數據；文本解析模塊的功能包括，文本編輯輸入，文本切分以及漢語詞至手語碼的轉換；文本編輯輸入將輸入的漢語句子進行編輯預處理使得符合下一步的文本切分；文本切分將句子分成詞，標點符號單獨成詞；系統(tǒng)的分詞過程首先采用最大匹配法切分，然后利用第一步分詞結果通過查找詞條的歧義標志位調用詞規(guī)則，進而進行歧義校正；基本詞庫中所包含的內容為合成系統(tǒng)所能合成的手語詞所對應的漢語詞；手勢庫中所包含的內容為合成系統(tǒng)所能合成的手語詞的手形數據，而人臉表情的數據和手語詞之間的影射關系則保存在人臉表情庫中。
手語幀的生成流程具體步驟如下
Stepl 文本解析模塊從字幕文本通道中獲取到字幕文本序列，對當前字幕文本進行解析處理，直接可以得到用于同步的該字幕起始時間和終止時間；通過對手語庫中的匹配生成手勢數據和表情數據，轉step2 ；
乂印2:根據手勢數據和表情數據利用OpenGL進行繪制，生成手語幀序列，轉 step3 ；
St印3 根據幀間手勢的差異大小進行插入相應數量的平滑幀，即進行平滑處理，同時利用手勢之間的信息冗余進行簡化處理，轉Mep4 ；
乂印4 由時間信息對手語幀和節(jié)目信息進行同步，調整手語幀的幀率，同時也將該時間信息作為反饋，對平滑處理和簡化處理進行調整；
St印5 輸出手語幀序列，作為視頻疊加的輸入，結束。
手語幀與節(jié)目信息的同步處理時采用一種基于上下文內容的幀刷選策略，幀之間的時間間隔依照手勢的變化程度而決定的；當兩幀之間變化大時，那么期間的時間間隔也大，反之若兩幀之間的動作變化不大，那么這兩幀之間的時間小；此外，在變化大的幀間進行平滑處理，插入適量的平滑幀，以使得動作連貫。
虛擬人手勢運動的平滑程度解決方法就是根據兩個動作之間的差異大小而插入一些幀進行平滑；實現插入的幀的生成可以采用Hermite插值算法對關節(jié)角向量進行插值計算；插入幀的數量取決于兩個手勢之間的差距大小，差距越大，則易插入更多的幀數；相反，差距越小，則插入的幀數則可適當減少。
人臉表情的生成涉及到人臉定義參數FDP的設定，利用Xface工具對三維人臉模型進行FDP的設定；在定義了影響區(qū)域和變形函數后，對于一組輸入的FAP參數流，根據 MPEG-4的動畫驅動方法就計算得到某一時刻三維人臉模型上每一個頂點的位移量，并最終繪制渲染出人臉動畫；同時人臉表情的生成還包括對人臉動畫參數FAP的提?。粸榱蓑寗尤S虛擬人伴隨自然的表情，需要獲取基本表情的FAP參數，高興、悲傷、憤怒、恐懼、厭惡、驚訝；理論上所有的面部表情都可以由這些基本的表情合成出來；通過人臉定義參數以及人臉運動參數的設定，結合手語數據，選擇適合當前手勢的表情，這樣進一步增強表意的準確性。
視頻疊加采用根據像素的RGB值實現視頻的疊加算法；視頻疊加的過程可以描述為掃描主視頻圖像，將指針定位到需要疊加的位置；逐一掃描疊加圖像的像素值，如果底色像素是黑色則跳過，如果不是則用該像素值替換主視頻中對應預設位置的像素值；知道整幅圖像掃描完畢；將視頻中的每一幅圖像重復上述的疊加過程即可實現視頻的實時疊加。
將手語系統(tǒng)進行模塊化，做成中間件的形式方便移植，適合在不同的系統(tǒng)平臺中運行；并且考慮到不同硬件平臺的繪制性能，根據硬件的性能進行相應的調整當硬件性能低時，適當的減少表示虛擬人的三角面片，犧牲圖像質量換取速度；相反當所用平臺硬件允許時，可以增加三角面片的數量，以獲得較高的成像質量。
該系統(tǒng)在人臉表情的生成中采用的是基于MPEG-4的人臉動畫方法，除此之外還有諸如插值法、參數化法、自由變形法、肌肉模型法、彈性網格法、有限元法。
在實現視頻疊加的方法除了可以用RGB值進行疊加外還可以采用基于亮度值、 Alpha值、色調等的視頻疊加。
上述技術方案可以看出，由于本發(fā)明具有以下有益效果
1)利用虛擬人手語系統(tǒng)，和使用人工的錄制具有節(jié)省人力物力而且準確規(guī)范等優(yōu)占.^ \\\
2)采用了基于內容的平滑處理，使得手勢之間動作自然，并且引入了人臉表情與手勢的協(xié)同配合，使得手語表達更為準確和符合現實；
3)根據平臺性能對虛擬人的三角面片的數量進行智能調整，在成像質量和運行效率上進行平衡；
4)模塊化設計以及中間件化，方便整個系統(tǒng)的移植。

為了更清楚地說明本發(fā)明實施例或現有技術中的技術方案，下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實施例，對于本領域普通技術人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據這些附圖獲得其它的附圖。
圖1是本發(fā)明中基于虛擬人手語系統(tǒng)的系統(tǒng)圖2是本發(fā)明中手及手臂抽象結構示意圖3是本發(fā)明中手語幀的生成流程圖4是本發(fā)明中漢語詞到手語之間的映射關系圖。
具體實施方式
下面將結合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發(fā)明一部分實施例，而不是全部的實施例?；诒景l(fā)明中的實施例，本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其它實施例，都屬于本發(fā)明保護的范圍。
本發(fā)明實施例提供了一種面向數字電視的視頻虛擬人手語系統(tǒng)，能夠節(jié)省人力物力而且準確規(guī)范等優(yōu)點，以下分別進行詳細說明。
本發(fā)明的目的是解決上述現有技術中存在的缺陷，提供一種效果更為好的基于虛擬人的手語系統(tǒng)。主要解決的問題有(1)手語幀與節(jié)目信息的同步處理；(2)手勢運動的平滑處理；C3)人臉表情協(xié)同手勢的繪制；(4)系統(tǒng)集成及模塊化。
本發(fā)明所采用的技術方案是首先對節(jié)目源碼流進行解復用，解碼出語音、視頻以及其他數據信息，其中其他數據信息中包含字幕文本信息；將字幕文本輸入到虛擬人手語生成模塊，該模塊根據文本詞條從手語庫中調出對應的手語數據，然后進行圖形繪制生成手語幀，在不同手勢之間要進行適當的平滑處理；將手語幀和節(jié)目的語音信息進行同步疊加然后輸出。具體系統(tǒng)圖參見圖1。
手語生成模塊是本系統(tǒng)的核心模塊，它包括文本解析模塊，手勢生成模塊，表情生成模塊，手勢和表情合成模塊，幀序列平滑及簡化處理模塊和同步處理模塊。文本解析模塊輸入的是字幕的文本序列，文本解析對字幕語句進行分詞，所得的分詞通過對手語庫的檢索，得到相應的手勢數據和表情數據。本發(fā)明采用H-Anim(HumanoidAnimation)標準對虛擬人進行建模，一個手勢可以用一個56元向量表示，手和手臂的抽象示意圖如圖2所示；一個手語運動則可以用一個從時間到手勢集合的向量函數表示。人臉對象可以用三維的網格模型表示，主要通過人臉定義參數(facial definition parameter, FDP)和人臉動畫參數 (facial animation parameter, FAP)來分別描述人臉的形狀、紋理等特性和人臉的運動狀態(tài)。手勢的繪制和人臉表情的繪制都是基于OpenGL庫的，具有實施方便，算法成熟，可移植性好等特點。繪制后形成的手語幀序列并不是最終結果，因為不同手勢之間存在著位置和方向上的差異，有些手勢甚至相差非常大，如果直接輸出則會出現明顯的動作不流暢，表意錯誤，所以應該進行幀間的平滑處理。而定義手勢的56維的向量，考慮這56個因子之間存在著相關性，可以進一步簡化維數，動態(tài)的適應，這樣有利于數據量的減少以及繪制的速度的提高。手語幀序列是要和節(jié)目視頻幀進行疊加融合的，那么它們之間的速度匹配，同步就顯得十分必要；從文本解析模塊解析出的時間信息可以標志出該字幕的起始時間和終止時間，可以跟據這兩個時間對手語幀進行調整、同步。同時，節(jié)目視頻幀序列和手語幀之間的同步也作為一種反饋信息影響到手語幀序列的平滑和簡化處理。
手語幀的生成的流程參見圖3，具體步驟如下
Stepl 文本解析模塊從字幕文本通道中獲取到字幕文本序列，對當前字幕文本進行解析處理，直接可以得到用于同步的該字幕起始時間和終止時間；通過對手語庫中的匹配生成手勢數據和表情數據，轉step2 ；
St印2 根據手勢數據和表情數據利用OpenGL進行繪制，生成手語幀序列，轉 step3 ；
St印3 根據幀間手勢的差異大小進行插入相應數量的平滑幀，即進行平滑處理，同時利用手勢之間的信息冗余進行簡化處理，轉Mep4 ；
乂印4 由時間信息對手語幀和節(jié)目信息進行同步，調整手語幀的幀率，同時也將該時間信息作為反饋，對平滑處理和簡化處理進行調整；
St印5 輸出手語幀序列，作為視頻疊加的輸入，結束。
文本解析模塊的功能包括，文本編輯輸入，文本切分以及漢語詞至手語碼的轉換。文本編輯輸入將輸入的漢語句子進行編輯預處理使得符合下一步的文本切分。文本切分將句子分成詞，標點符號單獨成詞；系統(tǒng)的分詞過程首先采用最大匹配法切分，然后利用第一步分詞結果通過查找詞條的歧義標志位調用詞規(guī)則，進而進行歧義校正?；驹~庫中所包含的內容為合成系統(tǒng)所能合成的手語詞所對應的漢語詞。手勢庫中所包含的內容為合成系統(tǒng)所能合成的手語詞的手形數據，而人臉表情的數據和手語詞之間的影射關系則保存在人臉表情庫中；一般而言，我們將手勢庫和人臉表情庫統(tǒng)稱為手勢庫，除非要單獨指出時。漢語詞和手語詞以及到手勢、表情的映射關系如圖4所示。
本發(fā)明需要解決的一個問題是手語幀與節(jié)目信息的同步。本發(fā)明在字幕序列中插入字幕的起始時間和終止時間是一個方便可行的方法，相對于“拍唱詞”的方法更為省時和節(jié)省人力，同時也更為精確。而事實上字幕的制作在很多節(jié)目錄制過程中就已經存在，而且也包含了各個序列的起始時間和終止時間，所以這一點是比較容易解決的問題。而另一個同步是因為手語本身的特點所決定的，手語是一種通過手及手臂的運動和表情的變化來表達意思的肢體語言，與自然語言相比其表意速度比較慢，速度存在著較大的差異，所以機械地將手語幀序列和節(jié)目視頻序列疊加必然導致表意不協(xié)調。一種基于上下文內容的幀刷選策略，幀之間的時間間隔依照手勢的變化程度而決定的。當兩幀之間變化大時，那么期間的時間間隔也大，反之若兩幀之間的動作變化不大，那么這兩幀之間的時間應該小。此外，在變化大的幀間進行平滑處理，插入適量的平滑幀，以使得動作連貫。
虛擬人手勢運動的平滑程度直接影響到手勢運動的可懂性。虛擬人手勢運動的特殊性在于它是由一些元動畫數據拼接而成的動畫序列，在相鄰兩個手語詞以及同一個手語詞不同詞根之間存在很大的手勢動作差異。如果不做平滑處理，那么有些動作之間跨度太大，那么速度過快會導致看不清楚。解決方法就是根據兩個動作之間的差異大小而插入一些幀進行平滑。實現插入的幀的生成可以采用Hermite插值算法對關節(jié)角向量進行插值計算。插入幀的數量取決于兩個手勢之間的差距大小，差距越大，那么易插入更多的幀數；相反，差距越小，那么插入的幀數則可適當減少。
手語是由手勢輔之以表情姿勢為符號構成的比較穩(wěn)定的表達系統(tǒng)，所以僅有手勢勢必造成表意不夠完整。本發(fā)明不僅提供手語中手勢動作的生成，同時還生成人臉表情，本發(fā)明采用基于MPEG-4的人臉動畫方法來生成人臉動畫。MPEG-4是基于對象的多媒體壓縮標準，由于人自身在多媒體中占據著十分重要的位置，所以MPEG-4對三維人臉動畫格式定義了一個國際標準。MPEG-4定義了人臉定義參數(facial definition parameter, FDP) 和人臉動畫參數(facial animation parameter，FAP)。其中FDP定義人臉的形狀、紋理等特征，而FAP則描述人臉的運動。在FDP參數定義中，需要確定84個人臉特征點(feature point，FP)，它們描述了包括眼、眉、口、舌齒等人臉主要部分的位置和形狀。MPEG-4還包括 68個FAP，其中包含兩個高級FAP，即唇形(viseme) FAP和表情(expression) FAP。對于唇形FAP來說，可以預先定義好一些基本的、不同的唇形，其他的唇形可以由這些基本的唇形線性組合而成。表情FAP也是一樣的原理，可以由幾種基本的表情線性組合出各種豐富的表情。除高級FAP外，其他普通的FAP分別定義了人臉某一小區(qū)域的運動。FAP的值是以人8臉動畫參數單元(facial animation parameter unit, FAPU)為單位的，以FAPU為單位的目的是使同樣的FAP參數應用到不同的模型上，產生的是同樣的唇動和表情，而不會因為模型的不同而使唇動和表情走樣。
人臉表情的生成涉及到人臉定義參數(FDP)的設定，本發(fā)明利用Xface工具對三維人臉模型進行FDP的設定。在定義了影響區(qū)域和變形函數后，對于一組輸入的FAP參數流，根據MPEG-4的動畫驅動方法就可以計算得到某一時刻三維人臉模型上每一個頂點的位移量，并最終繪制渲染出人臉動畫。
人臉表情的生成還包括對人臉動畫參數(FAP)的提取。為了驅動三維虛擬人伴隨自然的表情，需要獲取基本表情的FAP參數，高興、悲傷、憤怒、恐懼、厭惡、驚訝。理論上所有的面部表情都可以由這些基本的表情合成出來。
通過人臉定義參數以及人臉運動參數的設定，結合手語數據，可以選擇適合當前手勢的表情，這樣進一步增強表意的準確性。
此外，視頻疊加部分，采用根據像素的RGB值實現視頻的疊加算法。視頻疊加的過程可以描述為掃描主視頻圖像，將指針定位到需要疊加的位置；逐一掃描疊加圖像的像素值，如果是底色像素(用黑色作為底色)則跳過，如果不是則用該像素值替換主視頻中對應預設位置的像素值；知道整幅圖像掃描完畢。將視頻中的每一幅圖像重復上述的疊加過程即可實現視頻的實時疊加。
本發(fā)明將手語系統(tǒng)進行模塊化，做成中間件的形式方便移植，適合在不同的系統(tǒng)平臺中運行；并且考慮到不同硬件平臺的繪制性能，本發(fā)明根據硬件的性能進行相應的調整當硬件性能低時，適當的減少表示虛擬人的三角面片，犧牲圖像質量換取速度；相反當所用平臺硬件允許時，可以增加三角面片的數量，以獲得較高的成像質量。
總之，本發(fā)明通過對字幕文本生成手語幀序列和節(jié)目視頻序列進行疊加；手語幀序列的生成不僅考慮到手勢的生成而且加入了人臉表情的生成，使得手語表達更為準確、豐富；在手語幀序列中做了適當的平滑處理，使得動作差異較大幀之間可以平滑過渡，同時也利用手勢向量中的相關性進行簡化，對面片數量的只能調整，以提高運行的效率，最后本發(fā)明模塊化的設計以及將系統(tǒng)中間件化，方便系統(tǒng)移植。
本發(fā)明技術方案帶來的有益效果
1)利用虛擬人手語系統(tǒng)，和使用人工的錄制具有節(jié)省人力物力而且準確規(guī)范等優(yōu)占.^ \\\
2)采用了基于內容的平滑處理，使得手勢之間動作自然，并且引入了人臉表情與手勢的協(xié)同配合，使得手語表達更為準確和符合現實；
3)根據平臺性能對虛擬人的三角面片的數量進行智能調整，在成像質量和運行效率上進行平衡；
4)模塊化設計以及中間件化，方便整個系統(tǒng)的移植。
本發(fā)明在人臉表情的生成中采用的是基于MPEG-4的人臉動畫方法，除此之外還有諸如插值法、參數化法、自由變形法、肌肉模型法、彈性網格法、有限元法等方法都是可以一試的，這些方法各優(yōu)點。
此外，在實現視頻疊加的方法也有多種，除了可以用RGB值進行疊加外還可以采用基于亮度值、Alpha值、色調等的視頻疊加。
需要說明的是，上述裝置和系統(tǒng)內的各單元之間的信息交互、執(zhí)行過程等內容，由于與本發(fā)明方法實施例基于同一構思，具體內容可參見本發(fā)明方法實施例中的敘述，此處不再贅述。
本領域普通技術人員可以理解上述實施例的各種方法中的全部或部分步驟是可以通過程序來指令相關的硬件來完成，該程序可以存儲于一計算機可讀存儲介質中，存儲介質可以包括只讀存儲器(ROM，Read Only Memory)、隨機存取存儲器(RAM，Random Access Memory)、磁盤或光盤等。
以上對本發(fā)明實施例所提供的一種面向數字電視的視頻虛擬人手語系統(tǒng)，進行了詳細介紹，本文中應用了具體個例對本發(fā)明的原理及實施方式進行了闡述，以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想；同時，對于本領域的一般技術人員，依據本發(fā)明的思想，在具體實施方式
及應用范圍上均會有改變之處，綜上所述，本說明書內容不應理解為對本發(fā)明的限制。
權利要求
1.一種面向數字電視的視頻虛擬人手語系統(tǒng)，其特征在于，該系統(tǒng)首先對節(jié)目源碼流進行解復用，解碼出語音、視頻以及其他數據信息，其中其他數據信息中包含字幕文本信息；將字幕文本輸入到虛擬人手語生成模塊，該模塊根據文本詞條從手語庫中調出對應的手語數據，然后進行圖形繪制生成手語幀，在不同手勢之間要進行適當的平滑處理；將手語幀和節(jié)目的語音信息進行同步疊加然后輸出。
2.根據權利要求1所述的系統(tǒng)，其特征在于，手語生成模塊是該系統(tǒng)的核心模塊，它包括文本解析模塊，手勢生成模塊，表情生成模塊，手勢和表情合成模塊，幀序列平滑及簡化處理模塊和同步處理模塊；文本解析模塊輸入的是字幕的文本序列，文本解析對字幕語句進行分詞，所得的分詞通過對手語庫的檢索，得到相應的手勢數據和表情數據；文本解析模塊的功能包括，文本編輯輸入，文本切分以及漢語詞至手語碼的轉換；文本編輯輸入將輸入的漢語句子進行編輯預處理使得符合下一步的文本切分；文本切分將句子分成詞，標點符號單獨成詞；系統(tǒng)的分詞過程首先采用最大匹配法切分，然后利用第一步分詞結果通過查找詞條的歧義標志位調用詞規(guī)則，進而進行歧義校正；基本詞庫中所包含的內容為合成系統(tǒng)所能合成的手語詞所對應的漢語詞；手勢庫中所包含的內容為合成系統(tǒng)所能合成的手語詞的手形數據，而人臉表情的數據和手語詞之間的影射關系則保存在人臉表情庫中。
3.根據權利要求1或2所述的系統(tǒng)，其特征在于，手語幀的生成流程具體步驟如下 Stepl 文本解析模塊從字幕文本通道中獲取到字幕文本序列，對當前字幕文本進行解析處理，直接可以得到用于同步的該字幕起始時間和終止時間；通過對手語庫中的匹配生成手勢數據和表情數據，轉step2 ；St印2 根據手勢數據和表情數據利用OpenGL進行繪制，生成手語幀序列，轉st印3 ； St印3 根據幀間手勢的差異大小進行插入相應數量的平滑幀，即進行平滑處理，同時利用手勢之間的信息冗余進行簡化處理，轉Mep4 ；Mep4:由時間信息對手語幀和節(jié)目信息進行同步，調整手語幀的幀率，同時也將該時間信息作為反饋，對平滑處理和簡化處理進行調整；Mep5 輸出手語幀序列，作為視頻疊加的輸入，結束。
4.根據權利要求1或3所述的系統(tǒng)，其特征在于，手語幀與節(jié)目信息的同步處理時采用一種基于上下文內容的幀刷選策略，幀之間的時間間隔依照手勢的變化程度而決定的；當兩幀之間變化大時，那么期間的時間間隔也大，反之若兩幀之間的動作變化不大，那么這兩幀之間的時間?。淮送?，在變化大的幀間進行平滑處理，插入適量的平滑幀，以使得動作連-m-貝ο
5.根據權利要求4所述的系統(tǒng)，其特征在于，虛擬人手勢運動的平滑程度解決方法就是根據兩個動作之間的差異大小而插入一些幀進行平滑；實現插入的幀的生成可以采用 Hermite插值算法對關節(jié)角向量進行插值計算；插入幀的數量取決于兩個手勢之間的差距大小，差距越大，則易插入更多的幀數；相反，差距越小，則插入的幀數則可適當減少。
6.根據權利要求2所述的系統(tǒng)，其特征在于，人臉表情的生成涉及到人臉定義參數FDP 的設定，利用Xface工具對三維人臉模型進行FDP的設定；在定義了影響區(qū)域和變形函數后，對于一組輸入的FAP參數流，根據MPEG-4的動畫驅動方法就計算得到某一時刻三維人臉模型上每一個頂點的位移量，并最終繪制渲染出人臉動畫；同時人臉表情的生成還包括對人臉動畫參數FAP的提??；為了驅動三維虛擬人伴隨自然的表情，需要獲取基本表情的FAP參數，高興、悲傷、憤怒、恐懼、厭惡、驚訝；理論上所有的面部表情都可以由這些基本的表情合成出來；通過人臉定義參數以及人臉運動參數的設定，結合手語數據，選擇適合當前手勢的表情，這樣進一步增強表意的準確性。
7.根據權利要求3所述的系統(tǒng)，其特征在于，視頻疊加采用根據像素的RGB值實現視頻的疊加算法；視頻疊加的過程可以描述為掃描主視頻圖像，將指針定位到需要疊加的位置；逐一掃描疊加圖像的像素值，如果底色像素是黑色則跳過，如果不是則用該像素值替換主視頻中對應預設位置的像素值；知道整幅圖像掃描完畢；將視頻中的每一幅圖像重復上述的疊加過程即可實現視頻的實時疊加。
8.根據權利要求1所述的系統(tǒng)，其特征在于，將手語系統(tǒng)進行模塊化，做成中間件的形式方便移植，適合在不同的系統(tǒng)平臺中運行；并且考慮到不同硬件平臺的繪制性能，根據硬件的性能進行相應的調整當硬件性能低時，適當的減少表示虛擬人的三角面片，犧牲圖像質量換取速度；相反當所用平臺硬件允許時，可以增加三角面片的數量，以獲得較高的成像質量。
9.根據權利要求1或6所述的系統(tǒng)，其特征在于，該系統(tǒng)在人臉表情的生成中采用的是基于MPEG-4的人臉動畫方法，除此之外還有諸如插值法、參數化法、自由變形法、肌肉模型法、彈性網格法、有限元法。
10.根據權利要求7所述的系統(tǒng)，其特征在于，在實現視頻疊加的方法除了可以用RGB 值進行疊加外還可以采用基于亮度值、Alpha值、色調等的視頻疊加。
全文摘要
本發(fā)明公開了一種面向數字電視的視頻虛擬人手語系統(tǒng)，該系統(tǒng)首先對節(jié)目源碼流進行解復用，解碼出語音、視頻以及其他數據信息，其中其他數據信息中包含字幕文本信息；將字幕文本輸入到虛擬人手語生成模塊，該模塊根據文本詞條從手語庫中調出對應的手語數據，然后進行圖形繪制生成手語幀，在不同手勢之間要進行適當的平滑處理；將手語幀和節(jié)目的語音信息進行同步疊加然后輸出。通過本發(fā)明節(jié)省了人力物力而且準備規(guī)范，同時采用基于內容的平滑處理，使得手勢之間動作自然，并且引入人臉表情與手勢的協(xié)同配合，使得手語表達更為準確和符合現實。
文檔編號H04N5/262GK102497513SQ201110380408
公開日2012年6月13日申請日期2011年11月25日優(yōu)先權日2011年11月25日
發(fā)明者曾金龍, 林謀廣, 羅笑南申請人:中山大學

完整全部詳細技術資料下載