專利名稱:用于校正視頻電話圖像中頭部姿態(tài)的方法和裝置的制作方法
技術領域:
本發(fā)明涉及視頻電話系統(tǒng),并且尤其涉及一種用于校正視頻電話圖像中頭部姿態(tài)的方法和裝置。
消費市場提供了很多種通信和媒體選項。例如,已經(jīng)知道有各種使得能夠在相互連接的用戶之間通過電話線進行音頻和視頻通信的視頻電話。典型地,一個視頻電話系統(tǒng)包括使得能夠進行雙向音頻通信的麥克風和揚聲器以及使得能夠進行雙向視頻通信的攝像機和顯示器。
視頻電話應用的技術現(xiàn)在已經(jīng)發(fā)展到由許多的無線電話服務供應商來提供視頻電話選項。無線視頻電話因此使能在相互連接的用戶之間通過無線鏈路進行音頻和視頻通信。對視頻電話通信,尤其對移動用戶成問題的一個普遍問題是視頻電話呼叫中的一方或雙方參與者不能在所有的時間都呈現(xiàn)正面面部圖像給攝像機。例如,如果一個用戶正在散步并且看著人行道,同時在他或她的手中握著視頻電話的攝像機部分,則典型地遠程參與者將會看到用戶面部的“下顎視圖”。類似的,如果用戶坐在辦公桌旁,并將他或她的頭轉(zhuǎn)向去看計算機顯示器,而此時視頻電話的攝像機部分被放置在用戶的辦公桌上,那么遠程參與者可能會看到用戶面部的“側(cè)面視圖”。
因此這就需要有一種用于校正視頻電話圖像的頭部姿態(tài)的方法和裝置,以便于遠程參與者可以看到其他參與者的恰當?shù)恼嬉晥D。再就是需要有一種適合在無線電話中實現(xiàn)估計和校正頭部姿態(tài)的改進技術。
通常,公開了一種用于校正視頻電話圖像中頭部姿態(tài)的圖像處理系統(tǒng)和方法,以便于在顯示器上呈現(xiàn)正面視圖。所公開的頭部姿態(tài)校正器估計頭部姿態(tài)的方位,進而如果需要的話,調(diào)整頭部姿態(tài)的方位來呈現(xiàn)正面視圖。頭部姿態(tài)的方位通過生成面部表面的三維模型并調(diào)整該三維面部模型的方位來調(diào)整以提供期望的正面視圖。該公開的頭部姿態(tài)校正器可以被包括在用戶的視頻電話中,用于校正所發(fā)送的或接收的圖像(或兩者)的頭部姿態(tài),或者可以被包括在網(wǎng)絡服務器中用于自動地調(diào)整視頻電話通信中一個或多個參與者的頭像。頭部姿態(tài)校正器的計算要求適合于在無線視頻電話中實現(xiàn)。
對于本發(fā)明更完善的理解以及本發(fā)明進一步的特征和優(yōu)點將參考下面詳細的說明和附圖來獲得。
圖1描述了一個常規(guī)的視頻電話系統(tǒng);圖2描述了其中本發(fā)明可以運行的網(wǎng)絡環(huán)境;和圖3是用于描述圖2中圖像校正處理的示范實現(xiàn)的流程圖。
圖1描述了常規(guī)的視頻電話系統(tǒng)100。如圖1所示,該示范常規(guī)視頻電話系統(tǒng)100包括用于使能在兩個或更多用戶之間進行音頻和視頻通信的麥克風110、揚聲器120、攝像機130和顯示器140。該常規(guī)的視頻電話系統(tǒng)100可以被具體化為任何可用的視頻電話系統(tǒng),例如索尼愛立信移動通信公司的市場上可買到的那些視頻電話系統(tǒng)。應當指出,麥克風110,揚聲器120,攝像機130和顯示器140可以被集成在一個單獨的單元里,例如臺式電話,或可以被具體化為兩個或更多模塊化單元,這對于本領域的普通技術人員來說是很明顯的。例如,攝像機130和顯示器140可以被具體化為具有麥克風110和揚聲器120的常規(guī)電話的模塊化附件。在一個特定的實現(xiàn)中,常規(guī)的視頻電話系統(tǒng)100可被具體化為索尼愛立信移動通信公司的市場上可買到的具有攝像機附件的T68i視頻電話系統(tǒng)。
圖2描述了其中本發(fā)明可以運行的網(wǎng)絡環(huán)境200。如圖2所示,包含有本發(fā)明特征的第一視頻電話系統(tǒng)210通過網(wǎng)絡220與一個或多個另外的視頻電話系統(tǒng)通信,例如視頻電話系統(tǒng)270。網(wǎng)絡220可以被具體化為一個或多個有線或無線網(wǎng)絡,或兩者的結合。第一視頻電話系統(tǒng)210可以被具體化為一個常規(guī)的視頻電話系統(tǒng),例如示于圖1中的視頻電話系統(tǒng)100,并在此進行修改以提供本發(fā)明的特征和功能。另外的視頻電話系統(tǒng)270可以是一個常規(guī)的視頻電話系統(tǒng)或一個包含有本發(fā)明特征的視頻電話系統(tǒng)。
根據(jù)本發(fā)明的一方面,視頻電話系統(tǒng)210包括一個頭部姿態(tài)校正器250,該校正器使用頭部姿態(tài)估計和校正處理300,這將在后面結合圖3作進一步描述。頭部姿態(tài)校正器250可以與一個常規(guī)的視頻電話系統(tǒng)100集成在一個單獨的單元上,例如臺式電話,或可以被具體化為常規(guī)的視頻電話系統(tǒng)100的模塊化附件,這對于本領域的普通技術人員來說是很明顯的。
在一個示范實施例中,當在第一用戶的視頻電話210中實現(xiàn)頭部姿態(tài)校正器250來處理正被發(fā)送的本地用戶的圖像以顯示給第二用戶時,頭部姿態(tài)校正器250能夠可選地處理從一個或多個另外的視頻電話系統(tǒng)270接收到的遠程用戶的圖像,該圖像用于呈現(xiàn)給第一視頻電話210的用戶。在進一步的變化中,頭部姿態(tài)校正器250能夠由服務供應商在網(wǎng)絡220的服務器中實現(xiàn),用于根據(jù)本發(fā)明的教導自動調(diào)整視頻電話通信中所有參與者的頭像。
圖3為用于描述頭部姿態(tài)估計和校正處理300的示范實現(xiàn)的流程圖。一般說來,頭部姿態(tài)估計和校正處理300確保視頻電話圖像為用戶的恰當?shù)恼嬉晥D。頭部姿態(tài)估計和校正處理300的計算要求適合于在無線電話中實現(xiàn)。
如圖3所示,初始地,頭部姿態(tài)估計和校正處理300在步驟310中從視頻電話系統(tǒng)210的攝像機獲得圖像序列。然后,頭部姿態(tài)估計和校正處理300在步驟320中采用模式識別技術,例如在關于AutomaticFace and Gesture Recognition2000(自動面部和手勢識別2000)的IEEE會議中,在例如Y.Li,S.Gong,和H.Liddell的“Support VectorRegression and Classification Based Multi-View Face Detectionand Recognition(基于支持向量回歸和分類的多視圖面部檢測與識別)”中描述過的分類技術,來估計頭部姿態(tài),該文檔在此引作參考。
一般說來,在步驟320中采用的分類技術將提供頭部姿態(tài)的特性,例如正面視圖、下顎視圖或側(cè)面視圖。在一種變化中,分類技術還可提供下顎視圖或側(cè)面視圖偏離真正的正面視圖的程度。盡管許多用于估計頭部姿態(tài)的方法的計算強度大,并很容易受到噪聲的影響,本發(fā)明也認識到在大多數(shù)情況下預期一個面部圖像的視頻電話環(huán)境中獲得了一種有效的解決方案。
然后在步驟330執(zhí)行一個測試,用于確定頭部姿態(tài)是否為正面視圖。如果在步驟330中確定頭部姿態(tài)為正面視圖,那么就不需要本發(fā)明的頭部姿態(tài)校正技術并在步驟340中發(fā)送該未經(jīng)修改的圖像。
然而,如果在步驟330中確定頭部姿態(tài)不是正面視圖,那么在步驟350中采用計算機視覺技術,例如“從運動恢復結構”技術從面部圖像序列中計算出面部表面的三維模型。對從面部圖像序列中計算出面部表面的三維模型所適用技術的詳細描述參見以下文檔,例如計算機視覺和模式識別(CVPR)(2001)中的M.Brand的“Mor phable 3D Models fromVideo(來自視頻的可形變3D模型)”或計算機視覺和模式識別CVPR(2001)中的M.Brand的“Flexible Flow for 3D Nonrigid Trackingand Shape Recovery(3D非剛性跟蹤和形狀恢復的彈性流程)”,每一個都在此引作參考。盡管許多用于估計普通表面的方法的計算強度大,并很容易受到噪聲的影響,本發(fā)明也認識到在大多數(shù)情況下預期一個面部表面的視頻電話環(huán)境中獲得了一種有效的解決方案。
然后在步驟360中執(zhí)行一個測試,用于確定頭部姿態(tài)是否為側(cè)面視圖。如果在步驟360中確定頭部姿態(tài)為側(cè)面視圖,那么在步驟370中采用對稱面部假設來估計不存在于側(cè)面視圖中的頭部的剩余部分。然后程序控制進入到步驟380。
如果在步驟370中確定頭部姿態(tài)不是側(cè)面視圖,則該圖像必然是下顎視圖或前額視圖,并且程序控制直接進入步驟380。在步驟380中,三維面部表面的方位被調(diào)整以提供正面視圖。
特別地,三維面部表面的原點從取得輸入圖像處移動到面部表面鼻子這點之前的一點上。例如,下顎視像從所期望原點之下的一點取得,并且因此通過將三維坐標上移而獲得原點校正。類似的,前額視像通過將三維坐標下移而被校正。側(cè)面視像通過將面部表面的三維坐標沿表面的縱軸旋轉(zhuǎn)90度而被校正。這樣就能通過應用標準透視投影而獲得正面視圖。在步驟390中修改后的圖像然后被發(fā)送到遠程用戶。此后程序控制終止。
應該理解在此示出和描述的實施例和變化僅用于對本發(fā)明原理起說明作用,并且對于本領域的技術人員來說在不偏離本發(fā)明的范圍和精神的情況下,可以對本發(fā)明實施任意的修改。
權利要求
1.一種在視頻電話系統(tǒng)中用于處理包含有人頭部的至少一部分的圖像的方法,包括采用模式識別技術估計所述圖像中所述頭部的方位;采用計算機視覺技術計算所述人的面部表面的三維模型;和調(diào)整所述三維面部表面模型的方位來提供正面視圖。
2.如權利要求1所述的方法,其中所述的計算步驟進一步包括采用對稱面部假設來獲得用于側(cè)面視圖的完整的三維面部表面模型的步驟。
3.如權利要求1所述的方法,其中所述的計算步驟進一步包括采用從運動恢復結構技術來獲得所述三維面部表面模型的步驟。
4.如權利要求1所述的方法,其中所述的估計步驟應用了分類技術。
5.如權利要求1所述的方法,其中所述的計算步驟生成可形變?nèi)S模型。
6.如權利要求1所述的方法,進一步包括將所述的具有調(diào)整的方位的三維面部表面模型映射到二維空間的步驟。
7.如權利要求1所述的方法,進一步包括發(fā)送所述調(diào)整的圖像到遠程用戶的步驟。
8.如權利要求1所述的方法,進一步包括呈現(xiàn)所述調(diào)整的圖像給本地用戶的步驟。
9.一種用在視頻電話系統(tǒng)中的圖像處理器,包括用于存儲包含有人頭部的至少一部分的圖像的存儲器;和頭部姿態(tài)校正器,該校正器(I)采用模式識別技術估計所述圖像中所述頭部的方位;(II)采用計算機視覺技術計算所述人的面部表面的三維模型;和(III)調(diào)整所述三維面部表面模型的方位來提供正面視圖。
10.如權利要求9所述的圖像處理器,其中所述的頭部姿態(tài)校正器進一步被配置為采用對稱面部假設來獲得用于側(cè)面視圖的完整的三維面部表面模型。
11.如權利要求9所述的圖像處理器,其中所述的頭部姿態(tài)校正器進一步被配置成采用從運動恢復結構技術來獲得所述三維面部表面模型。
12.如權利要求9所述的圖像處理器,其中所述的頭部姿態(tài)校正器進一步被配置成應用分類技術來獲得所述頭部方位。
13.如權利要求9所述的圖像處理器,其中所述的三維面部表面模型為可形變?nèi)S模型。
14.如權利要求9所述的圖像處理器,其中所述的頭部姿態(tài)校正器進一步被配置成將所述的具有調(diào)整的方位的三維面部表面模型映射成二維修正圖像。
15.如權利要求14所述的圖像處理器,其中所述的二維修正圖像被發(fā)送到遠程用戶。
16.如權利要求14所述的圖像處理器,其中所述的二維修正圖像被呈現(xiàn)給本地用戶。
17.一種視頻電話系統(tǒng),包括用于存儲包含人頭部的至少一部分的圖像的存儲器;和頭部姿態(tài)校正器,它(I)采用模式識別技術估計所述圖像中所述頭部的方位;(II)采用計算機視覺技術計算所述人的面部表面的三維模型;和(III)調(diào)整所述三維面部表面模型的方位來提供正面視圖。
18.如權利要求17所述的視頻電話系統(tǒng),其中所述的頭部姿態(tài)校正器進一步被配置為采用對稱面部假設來獲得用于側(cè)面視圖的完整的三維面部表面模型。
19.如權利要求17所述的視頻電話系統(tǒng),其中所述的頭部姿態(tài)校正器進一步被配置成采用從運動恢復結構技術來獲得所述三維面部表面模型。
20.如權利要求17所述的視頻電話系統(tǒng),其中所述的頭部姿態(tài)校正器進一步被配置成應用分類技術來獲得所述頭部方位。
21.如權利要求17所述的視頻電話系統(tǒng),其中所述的頭部姿態(tài)校正器進一步被配置成將所述的具有調(diào)整的方位的三維面部表面模型映射成二維修正圖像。
22.如權利要求21所述的視頻電話系統(tǒng),其中所述的二維修正圖像被發(fā)送到遠程用戶。
23.如權利要求21所述的視頻電話系統(tǒng),其中所述的二維修正圖像被呈現(xiàn)給本地用戶。
全文摘要
公開了一種用于校正視頻電話圖像中頭部姿態(tài)的圖像處理系統(tǒng)(250)和方法(300),以便于在顯示器上呈現(xiàn)正面視圖。所公開的頭部姿態(tài)校正器(250)估計頭部姿態(tài)的方位并在需要時調(diào)整頭部姿態(tài)的方位,以呈現(xiàn)正面視圖。頭部姿態(tài)的方位通過生成面部表面的三維模型并調(diào)整該三維面部模型的方位來調(diào)整以提供期望的正面視圖。頭部姿態(tài)校正器(250)可以被包括在視頻電話(100)中用于校正所發(fā)送或接收的圖像(或兩者)的頭部姿態(tài),或者可以被包括在網(wǎng)絡服務器中用于自動地調(diào)整視頻電話通信中的一個或更多參與者的頭像。
文檔編號H04N7/14GK1774726SQ200380105663
公開日2006年5月17日 申請日期2003年12月8日 優(yōu)先權日2002年12月11日
發(fā)明者M·-S·李, Y·-T·林, M·特拉科維克, V·菲洛明 申請人:皇家飛利浦電子股份有限公司