專利名稱:用于遠(yuǎn)程會(huì)議的多視頻相機(jī)處理的制作方法
技術(shù)領(lǐng)域:
本公開一般涉及視頻會(huì)議系統(tǒng)。
背景技術(shù):
當(dāng)今的視頻會(huì)議系統(tǒng)已提高了質(zhì)量以提供遠(yuǎn)程的會(huì)議參與者在場的感覺。因此, 它們通常被稱為“遙現(xiàn)系統(tǒng)(tel印resence system)”。一個(gè)示例是思科系統(tǒng)公司的CISCO CTS3000遙現(xiàn)系統(tǒng)。在被設(shè)置用于這樣的視頻會(huì)議系統(tǒng)的視頻會(huì)議室中,座位是固定的。相機(jī)具有固定的焦點(diǎn)、變焦和角度,以在相匹配的視頻顯示器上以實(shí)物大小的“特寫”再現(xiàn)每個(gè)成員。客戶具有他們想要用于遙現(xiàn)會(huì)議的其它會(huì)議室。在這些房間中,座位可能對(duì)于每個(gè)會(huì)議顯著不同。一些現(xiàn)有的遙現(xiàn)系統(tǒng)使用實(shí)際云臺(tái)(pan-tilt-zoom,PTZ)和/或電子PTZ(EPTZ) 相機(jī)。無論是實(shí)際云臺(tái)還是電子的,相機(jī)都必須由人來手動(dòng)操控以獲得良好的視圖。當(dāng)這對(duì)于一個(gè)相機(jī)較麻煩時(shí),在多相機(jī)情形中就變得難以應(yīng)付了。因此,希望使用自動(dòng)地找出每個(gè)參與者的良好特寫人視圖的多個(gè)相機(jī)。
圖IA示出了根據(jù)本發(fā)明實(shí)施例的將三個(gè)相機(jī)用于視頻會(huì)議的會(huì)議室的第一示例布置的俯視圖。圖IB示出了根據(jù)本發(fā)明實(shí)施例的將兩個(gè)相機(jī)用于視頻會(huì)議的會(huì)議室的第二示例布置的俯視圖。圖IC示出了根據(jù)本發(fā)明實(shí)施例的將三個(gè)相機(jī)121、123和125用于視頻會(huì)議的第三示例的俯視圖。圖2示出了例如可應(yīng)用于圖IA所示的參與者的布置的本發(fā)明一個(gè)實(shí)施例的簡化功能框圖。圖3示出了例如可應(yīng)用于圖IB和圖IC所示的參與者的布置的本發(fā)明一個(gè)實(shí)施例的簡化功能框圖。圖4示出了根據(jù)本發(fā)明實(shí)施例的用于操作處理系統(tǒng)的方法實(shí)施例的流程圖。圖5示出了根據(jù)本發(fā)明實(shí)施例的用于操作處理系統(tǒng)的另一方法實(shí)施例的流程圖。圖6示出了根據(jù)用于視頻遠(yuǎn)程會(huì)議的典型會(huì)議室中的廣角相機(jī)視圖的示例的照片的素描圖。圖7示出了根據(jù)本發(fā)明實(shí)施例的根據(jù)來自顯示屏一側(cè)上的相機(jī)的示例廣角相機(jī)視圖的照片的素描圖。
圖8示出了根據(jù)本發(fā)明實(shí)施例的根據(jù)來自與圖7所示的相對(duì)的顯示屏一側(cè)上的相機(jī)的示例廣角相機(jī)視圖的照片的素描圖。圖9示出了根據(jù)本發(fā)明實(shí)施例的在圖6和圖7所示的示例中根據(jù)將被發(fā)送給遠(yuǎn)程端點(diǎn)的人視圖的照片的素描圖。圖10示出了包括遠(yuǎn)程會(huì)議終端的遠(yuǎn)程會(huì)議系統(tǒng)的簡化框圖,該遠(yuǎn)程會(huì)議終端包括本發(fā)明的實(shí)施例并被耦合到還與至少一個(gè)端點(diǎn)相耦合的網(wǎng)絡(luò)。
具體實(shí)施例方式概述用在標(biāo)準(zhǔn)會(huì)議室中的傳統(tǒng)遠(yuǎn)程會(huì)議系統(tǒng)通常示出廣角群組人視圖。這里描述了具有適應(yīng)于房間中多個(gè)人的座位的視頻相機(jī)的遠(yuǎn)程會(huì)議系統(tǒng)。一個(gè)或多個(gè)廣角相機(jī)捕獲例如桌子周圍的參與者的廣角相機(jī)視圖。在一個(gè)實(shí)施例中,每個(gè)臉部通過音頻和視頻信息的組合被定位。人的鏡頭被構(gòu)成或被選擇,就好像存在每個(gè)都產(chǎn)生人視圖的一組“虛擬”特寫相機(jī)一樣。由虛擬相機(jī)生成的人視圖然后被用在遠(yuǎn)程會(huì)議中,例如使用多個(gè)顯示屏的遠(yuǎn)程會(huì)議中。該系統(tǒng)不要求固定的座位布置,因?yàn)槠渥詣?dòng)地分析場景以及虛擬電子云臺(tái)相機(jī)捕獲正確的“頭部和肩部”人視圖的位置。該系統(tǒng)的實(shí)施例可以產(chǎn)生一個(gè)或多個(gè)視頻輸出流,每個(gè)視頻輸出流包含一個(gè)或多個(gè)人而不要求固定的座位布置。一些實(shí)施例的特征是該系統(tǒng)可以被動(dòng)態(tài)地部署。即,不需要將其永久地安裝在特定位置中,而是可被移動(dòng)到任何方便的房間。因此,本發(fā)明的實(shí)施例包括可以將電子云臺(tái)功能和多種視圖能力添加到簡單遙現(xiàn)系統(tǒng)中的裝置和方法。特定實(shí)施例包括一種裝置,該裝置包括多個(gè)視頻相機(jī),每個(gè)視頻相機(jī)被配置為捕獲會(huì)議中的至少一些參與者的各個(gè)相機(jī)視圖。這些相機(jī)視圖一起包括每個(gè)參與者的至少一個(gè)視圖。該裝置還包括多個(gè)麥克風(fēng)以及音頻處理模塊,該音頻處理模塊被耦合到多個(gè)麥克風(fēng)并被配置為生成音頻數(shù)據(jù)和指示在麥克風(fēng)處接收的聲音的方向的方向信息。該裝置還包括構(gòu)圖(composition)元件,被耦合到視頻相機(jī)并被配置為生成一個(gè)或多個(gè)候選人視圖,每個(gè)人視圖是包含至少一個(gè)參與者的頭部和肩部視圖的區(qū)域。該裝置還具有視頻指導(dǎo)器(director)元件,被耦合到構(gòu)圖模塊和音頻處理模塊,并被配置為根據(jù)方向信息選擇候選人視圖中將被發(fā)送給一個(gè)或多個(gè)遠(yuǎn)程端點(diǎn)的至少一個(gè)人視圖。在該裝置的一個(gè)版本中,相機(jī)被設(shè)置為各自生成候選人視圖。構(gòu)圖元件被配置為根據(jù)方向信息選擇將被發(fā)送給一個(gè)或多個(gè)遠(yuǎn)程端點(diǎn)的至少一個(gè)相機(jī)視圖。此版本中的該裝置還包括視頻選擇器元件,被耦合到視頻指導(dǎo)器和視頻相機(jī),并被配置為根據(jù)視頻指導(dǎo)器的選擇來切換到相機(jī)視圖中用于壓縮和發(fā)送到一個(gè)或多個(gè)遠(yuǎn)程端點(diǎn)的至少一個(gè)相機(jī)視圖。該裝置的其它版本還包括臉部檢測元件,被耦合到相機(jī)并且被配置為確定每個(gè)相機(jī)視圖中每個(gè)參與者臉部的位置并且將所確定的(一個(gè)或多個(gè))位置輸出給構(gòu)圖元件。這些版本中的不必是人視圖。構(gòu)圖模塊經(jīng)由臉部檢測元件被耦合到相機(jī),并且還被配置為根據(jù)所確定的臉部位置來生成一個(gè)或多個(gè)候選人視圖并且向視頻指導(dǎo)器輸出候選視圖信息, 每個(gè)候選人視圖是包含至少一個(gè)參與者的頭部和肩部視圖的區(qū)域。在這些版本中,視頻指導(dǎo)器還被配置為根據(jù)視頻指導(dǎo)器的選擇來輸出所選視圖信息,并且該裝置還包括電子云
6臺(tái)元件,被耦合到視頻指導(dǎo)器和視頻相機(jī),并被配置為根據(jù)所選視圖信息來生成與候選視圖中用于壓縮和發(fā)送給一個(gè)或多個(gè)遠(yuǎn)程端點(diǎn)的至少一個(gè)候選視圖相對(duì)應(yīng)的視頻。每個(gè)參與者出現(xiàn)在僅一個(gè)人視圖中,或者每個(gè)參與者可能出現(xiàn)在多于一個(gè)人視圖中,在此情況中,構(gòu)圖元件包括被配置為構(gòu)成人視圖的第一構(gòu)圖元件以及被配置為從所構(gòu)成人視圖中選擇候選人視圖的第二構(gòu)圖元件,以使得每個(gè)參與者出現(xiàn)在僅一個(gè)候選人視圖中。特定實(shí)施例包括用于操作處理系統(tǒng)的方法。該方法包括接受會(huì)議中的至少一些參與者的多個(gè)相機(jī)視圖。每個(gè)相機(jī)視圖來自對(duì)應(yīng)的視頻相機(jī),這些相機(jī)視圖一起包括每個(gè)參與者的至少一個(gè)視圖。該方法包括接受來自多個(gè)麥克風(fēng)的音頻,并且處理來自多個(gè)麥克風(fēng)的音頻以生成音頻數(shù)據(jù)和指示在麥克風(fēng)處接收的聲音的方向的方向信息。該方法還包括生成一個(gè)或多個(gè)候選人視圖,每個(gè)人視圖是包含至少一個(gè)參與者的頭部和肩部視圖的區(qū)域。 該方法還包括根據(jù)方向信息選擇候選人視圖中將被發(fā)送給一個(gè)或多個(gè)遠(yuǎn)程端點(diǎn)的至少一個(gè)人視圖。在一個(gè)版本中,所接受的相機(jī)視圖各自是候選人視圖,并且該方法還包括響應(yīng)于所作的選擇,切換到所接受的相機(jī)視圖中用于壓縮和發(fā)送到一個(gè)或多個(gè)遠(yuǎn)程端點(diǎn)的至少一個(gè)相機(jī)視圖。其它版本包括檢測相機(jī)視圖中的任何臉部并且確定每個(gè)相機(jī)視圖中每個(gè)所檢測臉部的位置。在這些版本中,相機(jī)視圖不必是人視圖,并且一個(gè)或多個(gè)候選人視圖的生成是根據(jù)所確定的臉部位置來進(jìn)行的,以使得每個(gè)候選人視圖是包含至少一個(gè)參與者的頭部和肩部視圖的區(qū)域,該生成確定了候選視圖信息。此外,根據(jù)方向信息作出選擇包括根據(jù)所作的選擇來提供所選視圖信息。這些版本包括根據(jù)所選視圖信息來生成與候選視圖中用于壓縮和發(fā)送給一個(gè)或多個(gè)遠(yuǎn)程端點(diǎn)的至少一個(gè)候選視圖相對(duì)應(yīng)的視頻。在一種情況中,每個(gè)參與者出現(xiàn)在僅一個(gè)人視圖中。在其它情況中,每個(gè)參與者可能出現(xiàn)在多于一個(gè)人視圖中,并且用于這些版本的方法還包括構(gòu)成可能的人視圖,并且從所構(gòu)成的可能人視圖中選擇候選人視圖,以使得每個(gè)參與者出現(xiàn)在僅一個(gè)候選人視圖中。特定實(shí)施例包括用于操作處理系統(tǒng)的方法。該方法包括對(duì)于來自房間中的對(duì)應(yīng)視頻相機(jī)的多個(gè)相機(jī)視圖,檢測相機(jī)視圖中的任何臉部;確定該房間中參與者的位置;確定哪個(gè)臉部或哪些臉部在多于一個(gè)相機(jī)視圖中;對(duì)于一個(gè)或多個(gè)相鄰臉部的每個(gè)子群組, 構(gòu)成人視圖;為每個(gè)單獨(dú)參與者選擇各自的人視圖;將每個(gè)人視圖映射到所確定的語言方向,這樣的每個(gè)所確定語言方向被與人視圖之一相關(guān)聯(lián);以及選擇用于發(fā)送給遠(yuǎn)程端點(diǎn)的一個(gè)或多個(gè)人視圖,以使得被選擇用于發(fā)送的人視圖的視頻能被形成。在某個(gè)這樣的方法中,當(dāng)語音方向改變時(shí),該方法包括根據(jù)聲音方向在人視圖之間進(jìn)行切換。特定實(shí)施例包括一種在其上編碼有可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì),當(dāng)可執(zhí)行指令被處理系統(tǒng)的至少一個(gè)處理器運(yùn)行時(shí),使得執(zhí)行方法。該方法包括對(duì)于來自房間中的對(duì)應(yīng)視頻相機(jī)的多個(gè)相機(jī)視圖,檢測相機(jī)視圖中的任何臉部;確定該房間中參與者的位置;確定哪個(gè)臉部或哪些臉部在多于一個(gè)相機(jī)視圖中;對(duì)于一個(gè)或多個(gè)相鄰臉部的每個(gè)子群組, 構(gòu)成人視圖;為每個(gè)單獨(dú)參與者選擇各自的人視圖;將每個(gè)人視圖映射到所確定的語言方向,這樣的每個(gè)所確定語言方向被與人視圖之一相關(guān)聯(lián);以及選擇用于發(fā)送給遠(yuǎn)程端點(diǎn)的一個(gè)或多個(gè)人視圖,以使得被選擇用于發(fā)送的人視圖的視頻能被形成。特定實(shí)施例可以提供這些方面、特征或優(yōu)點(diǎn)中的所有、一些,或者不提供。特定實(shí)施例可以提供一個(gè)或多個(gè)其它方面、特征或優(yōu)點(diǎn),本領(lǐng)域技術(shù)人員可以從這里的附圖、描述和權(quán)利要求容易地清楚其中的一個(gè)或多個(gè)。實(shí)施例本發(fā)明的實(shí)施例使用兩個(gè)或更多個(gè)廣角相機(jī),例如,高清晰視頻相機(jī)。一些實(shí)施例和電子云臺(tái)適用于具有臉部檢測的相機(jī)視圖中的一種或多種,以確定一個(gè)或多個(gè)特寫視圖,參與者中的一個(gè)或多個(gè)(例如,兩個(gè)或三個(gè))中的每個(gè)的特寫視圖。圖IA示出了根據(jù)本發(fā)明第一實(shí)施例的其中三臺(tái)相機(jī)121、123和125被用于視頻會(huì)議的會(huì)議室的第一示例布置的俯視圖。至少一個(gè)顯示屏127位于會(huì)議室的一端處,在該會(huì)議室中放置有桌子111。圖IB示出了根據(jù)本發(fā)明實(shí)施例的其中兩臺(tái)相機(jī)121、123被用于視頻會(huì)議的會(huì)議室的第二示例布置的俯視圖,而圖IC示出了三臺(tái)視頻相機(jī)121、123和125 被使用的第三示例的俯視圖。顯示器通常在橫向上示出并排的實(shí)物大小的垂直放置的一個(gè)或兩個(gè)人,以使得他們眼睛的圖像與房間中的人在相同高度上。該桌子是典型的會(huì)議室桌子,其可以是細(xì)長形桌子,例如,如圖IA所示的矩形桌子或者如圖IB和圖IC所示的橢圓形桌子。圖IA中的參與者101、102、103、104、105、106和107以及圖IB和圖IC的每個(gè)中的參與者101、102、103、104、105、106、107、108和109圍著桌子。多個(gè)相機(jī)被用在交叉射擊 (cross-fire)布置中以提供廣角相機(jī)視圖,在一些布置中,例如,在圖IB和圖IC的布置中, 這些廣角相機(jī)視圖相重疊以使得每個(gè)參與者在至少一個(gè)視圖中。在圖IA中,每個(gè)參與者恰好位于一個(gè)相機(jī)視圖中,而在圖IB或圖IC的布置中,可能有位于多于一個(gè)視圖中的至少一個(gè)參與者。此外,相機(jī)被調(diào)整角度以使得每個(gè)參與者的臉部在至少一個(gè)廣角視圖中。因此, 例如,如果有位于桌子相對(duì)側(cè)的參與者,則通過調(diào)整相機(jī)的角度,每個(gè)這樣的參與者的臉部都在至少一個(gè)視圖中。使用尤其是配置有高清晰視頻相機(jī)的房間的現(xiàn)代視頻會(huì)議系統(tǒng)通常被稱為遙現(xiàn)系統(tǒng),因?yàn)樗鼈冊谥辽僖粋€(gè)顯示屏上為桌子周圍的參與者提供遠(yuǎn)程參與者的實(shí)物大小圖像,就好像遠(yuǎn)程參與者在場一樣。顯示器通常在橫向上示出并排的實(shí)物大小的垂直放置的一個(gè)或兩個(gè)人,以使得他們眼睛的圖像與房間中的人在相同高度上。一種機(jī)制是設(shè)置以放射狀方式位于房間中的各處并被固定的或者相隔一定距離并且彼此平行地定向并且與 (一個(gè)或多個(gè))顯示器垂直的多個(gè)相機(jī)的視頻會(huì)議室,使得當(dāng)參與者坐在會(huì)議桌周圍時(shí),適合于顯示在遠(yuǎn)程屏幕上的每個(gè)參與者的頭部和肩部的人視圖被獲得以產(chǎn)生一個(gè)或多個(gè)參與者出現(xiàn)在遠(yuǎn)程位置處的印象。本發(fā)明實(shí)施例的一個(gè)特征是提供與按照被布置來捕獲廣角視圖的角度設(shè)置在 (一個(gè)或多個(gè))顯示屏附近的多個(gè)相機(jī)的便宜布置(如圖1A-1C的示例布置所示)相同的效果。在一個(gè)示例中,相機(jī)在顯示器附近,其中兩個(gè)相機(jī)接近顯示器的兩側(cè),并且如果有第三個(gè)相機(jī)(或僅一個(gè)相機(jī)),則使其直接位于相對(duì)于顯示器的中心。這些相機(jī)近似地位于參與者眼睛的水平面上,并且在一個(gè)示例中,可以離顯示器的任一側(cè)18英寸。圖2示出了例如可應(yīng)用于圖IA所示的參與者的布置的本發(fā)明一個(gè)實(shí)施例的簡化功能框圖。多個(gè)相機(jī)203被布置為使得每個(gè)相機(jī)視圖示出并排的實(shí)物大小的兩個(gè)或最多三個(gè)人,其中多個(gè)相機(jī)203例如是高清晰視頻相機(jī),其每個(gè)提供至少600行的視頻的分辨率,例如,每秒60幀的的1920X1080。在一個(gè)實(shí)施例中,每個(gè)相機(jī)具有固定的廣角視圖。針對(duì)坐在桌子111旁邊的參與者來布置景深(depth of field),以使得對(duì)于每個(gè)參與者,至少有一個(gè)相機(jī)具有對(duì)準(zhǔn)焦點(diǎn)的參與者的臉部視圖。在第一版本中,逐個(gè)相機(jī)地調(diào)節(jié)分幅(framing)以使得每一幅適合于參與者的頭部和肩部的人視圖,該人視圖適合于顯示在遠(yuǎn)程屏幕上以產(chǎn)生一個(gè)或多個(gè)參與者出現(xiàn)在遠(yuǎn)程位置處的印象。每個(gè)相機(jī)視圖具有一個(gè)、兩個(gè)或者可能的三個(gè)參與者。在這樣的實(shí)施例中,每個(gè)參與者出現(xiàn)在一個(gè)且僅一個(gè)相機(jī)視圖中。相機(jī)被布置為使得出現(xiàn)在相機(jī)的人視圖中的兩個(gè)或三個(gè)參與者不會(huì)明顯地彼此遮擋。特定參與者通過這樣的相機(jī)位置來捕獲,該相機(jī)位置離該參與者最遠(yuǎn),也是最靠近該參與者的“正面”人視圖的位置。在第一版本中, 逐個(gè)相機(jī)地調(diào)節(jié)分幅以使得相機(jī)視圖具有已經(jīng)被分幅成適合于人視圖的一個(gè)、兩個(gè)或者可能的三個(gè)參與者。在第二版本中,不必逐個(gè)相機(jī)地調(diào)節(jié)分幅以使得相機(jī)視圖是人視圖??赡苄枰恍╊~外的構(gòu)圖。相機(jī)再次被布置為使得出現(xiàn)在相機(jī)視圖的(一個(gè)或多個(gè))人視圖中的兩個(gè)或三個(gè)參與者不會(huì)明顯地彼此遮擋。這些人視圖使得每個(gè)人出現(xiàn)在僅一個(gè)人視圖中。特定參與者通過這樣的相機(jī)位置來捕獲,該相機(jī)位置離該參與者最遠(yuǎn),也是最靠近該參與者的 “正面,,人視圖的位置。由于在此第二版本中,分幅可能不一定是適合于顯示在遠(yuǎn)程屏幕上以產(chǎn)生一個(gè)或多個(gè)參與者出現(xiàn)在遠(yuǎn)程位置處的印象的、參與者的頭部和肩部的人視圖,因此電子構(gòu)圖被執(zhí)行來實(shí)現(xiàn)這樣的功能。在這兩個(gè)版本中,定向麥克風(fēng)子系統(tǒng)包括例如被布置為麥克風(fēng)陣列的兩個(gè)或更多個(gè)麥克風(fēng)113,以及音頻處理模塊209,該音頻處理模塊209被耦合到麥克風(fēng)并且被配置為生成音頻數(shù)據(jù)和指示在麥克風(fēng)處接收的聲音的方向的方向信息。在一個(gè)示例實(shí)施例中,方向信息為聲音的角度的形式。因此,麥克風(fēng)被用來清晰地捕獲每個(gè)參與者的音頻,并且音頻處理被用來確定參與者正在人視圖中的哪個(gè)人視圖中講話。在麥克風(fēng)與人之間的這樣的布置中,不必存在對(duì)應(yīng)關(guān)系,如每個(gè)參與者曾被提供單獨(dú)的麥克風(fēng)那樣的布置。本發(fā)明的一個(gè)方面可應(yīng)用于這些布置,并且包括用于在在麥克風(fēng)與相機(jī)視圖之間不存在一對(duì)一的對(duì)應(yīng)關(guān)系的情況中確定哪個(gè)相機(jī)視圖示出了當(dāng)前講話者的方法。在針對(duì)人視圖預(yù)先設(shè)置了分幅并且每個(gè)參與者出現(xiàn)在一個(gè)且僅一個(gè)相機(jī)視圖中的第一布置中,每個(gè)相機(jī)的朝向、分幅和縮放,例如,每個(gè)人相對(duì)于該相機(jī)的位置,被布置為使得對(duì)于該相機(jī)參與者眼睛的水平面和人視圖在頭部和肩部視圖中示出了兩個(gè)或最多三個(gè)人,該頭部和肩部視圖在典型遠(yuǎn)程會(huì)議室顯示屏中將被縮放為實(shí)物大小。在這樣的布置中,構(gòu)圖模塊223生成關(guān)于哪個(gè)方向與哪個(gè)相機(jī)視圖(在此情況中為人視圖)相關(guān)聯(lián)的信肩、ο視頻指導(dǎo)器元件225被耦合到構(gòu)圖模塊223和音頻處理模塊,并被配置為根據(jù)方向信息來選擇將被發(fā)送給一個(gè)或多個(gè)遠(yuǎn)程端點(diǎn)的候選人視圖中的至少一個(gè)。該視頻指導(dǎo)器向視頻選擇器元件227輸出信息,以根據(jù)視頻指導(dǎo)器的選擇來選擇相機(jī)視圖中用于與經(jīng)處理版本的音頻數(shù)據(jù)一起被壓縮并被發(fā)送給一個(gè)或多個(gè)遠(yuǎn)程端點(diǎn)的至少一個(gè)相機(jī)視圖。所選擇的(一個(gè)或多個(gè))相機(jī)視圖對(duì)應(yīng)于所選擇的(一個(gè)或多個(gè))候選人視圖,并且變成被發(fā)送給遠(yuǎn)程會(huì)議中的遠(yuǎn)程端點(diǎn)的(一個(gè)或多個(gè))活動(dòng)人視圖。在包括電子構(gòu)圖的第二布置中,S卩,當(dāng)每個(gè)相機(jī)視圖不必被直接分幅成人視圖時(shí),臉部檢測元件221接受相機(jī)視圖并且定位每個(gè)相機(jī)視圖中的臉部。構(gòu)圖模塊223被耦合到臉部檢測元件221并被配置為生成候選人視圖,其中,一個(gè)人在僅一個(gè)候選人視圖中,并且通常每個(gè)相機(jī)一個(gè),每個(gè)人視圖是包含至少一個(gè)參與者,通常為兩個(gè)或三個(gè)參與者的頭部和肩部視圖的區(qū)域。在一個(gè)實(shí)施例中,構(gòu)圖模塊被布置為使得每個(gè)人視圖提供如下這樣的大小和布局的圖像,該大小和布局的圖像使得當(dāng)被遠(yuǎn)程地顯示在遠(yuǎn)程顯示屏上時(shí),每個(gè)參與者被顯示為實(shí)物大小并且面對(duì)著該遠(yuǎn)程顯示屏所在的遠(yuǎn)程位置中的所期望觀眾。構(gòu)圖元件利用與幅邊界位置以及頭部的位置和大小有關(guān)的信息來構(gòu)成候選的人視圖,并且例如以相對(duì)于對(duì)應(yīng)相機(jī)視圖幅的人視圖大小和位置的形式輸出候選視圖信息。這些是可能的候選人視圖。視頻指導(dǎo)器元件225被耦合到構(gòu)圖模塊223以及音頻處理模塊,并且被配置為根據(jù)方向信息來選擇將被發(fā)送給一個(gè)或多個(gè)遠(yuǎn)程端點(diǎn)的候選人視圖中的至少一個(gè)。當(dāng)一參與者講話時(shí),方向信息的任何改變將使得視頻指導(dǎo)器將其選擇切換為包括包含有正在講話的該參與者的人視圖。一種方法使用房間中的參與者的位置的二維頭上映射(overhead mapping)來作出選擇。視頻指導(dǎo)器元件225例如以相對(duì)于對(duì)應(yīng)相機(jī)視圖的所選(一個(gè)或多個(gè))人視圖大小和位置的形式來輸出所選擇的候選視圖信息,以使得電子的實(shí)時(shí)的電子云臺(tái)(EPTZ)元件227可以根據(jù)視頻指導(dǎo)器元件的選擇來從(一個(gè)或多個(gè))對(duì)應(yīng)相機(jī)視圖形成(一個(gè)或多個(gè))高清晰視頻幀。實(shí)時(shí)的電子云臺(tái)元件227被配置為例如利用視頻速率插值來形成用于每個(gè)所選人視圖的高清晰視頻幀,該每個(gè)所選人視圖將成為被發(fā)送給遠(yuǎn)程會(huì)議中的遠(yuǎn)程端點(diǎn)的(一個(gè)或多個(gè))活動(dòng)人視圖。視頻編解碼器和音頻編解碼器子系統(tǒng)231被配置為接受音頻和所選擇的一個(gè)或多個(gè)活動(dòng)的人視頻視圖,并且在某個(gè)實(shí)施例中,接受任何其它視圖,并且壓縮視頻和音頻以發(fā)送給視頻遠(yuǎn)程會(huì)議中的其它端點(diǎn)。本發(fā)明不限于編解碼器的任何特定體系結(jié)構(gòu)。在一個(gè)實(shí)施例中,編解碼器子系統(tǒng) 231以每秒60幀的高清晰形式來對(duì)視頻編碼。第二組實(shí)施例可應(yīng)用于這樣的情況,其中,每個(gè)相機(jī)視圖是廣角視圖,其不必被限制為人視圖或者不必被限制為使得每個(gè)參與者可以出現(xiàn)在一個(gè)且僅一個(gè)相機(jī)視圖中。圖IB 和圖IC所示的布置具有可能在多于一個(gè)相機(jī)視圖中具有同一參與者的重疊相機(jī)視圖。電子云臺(tái)(EPTZ)通過實(shí)時(shí)地處理視頻信號(hào)來創(chuàng)建人視圖,其中,每個(gè)人視圖顯示一個(gè)或多個(gè)參與者,通常為兩個(gè)或三個(gè)參與者,例如適合于發(fā)送給遠(yuǎn)程端點(diǎn)的不多于三個(gè)參與者。臉部檢測被用來檢測每個(gè)相機(jī)視圖中的參與者。在這些布置中,再次地,多個(gè)麥克風(fēng)被使用,以便清晰地捕獲每個(gè)參與者的音頻并且能夠確定哪個(gè)參與者正在講話。在一個(gè)實(shí)施例中,多個(gè)麥克風(fēng)被布置為麥克風(fēng)陣列113,與音頻處理模塊一起被配置來將特定人視圖與感測到的聲音相關(guān)聯(lián),以使得當(dāng)特定參與者講話時(shí),包括該參與者的最好視圖的所構(gòu)建人視圖成為被發(fā)送給遠(yuǎn)程會(huì)議中的其它端點(diǎn)的至少一個(gè)人視圖中的被選人視圖。圖3示出了例如可應(yīng)用于圖IB和圖IC所示的參與者的布置的本發(fā)明一個(gè)實(shí)施例的簡化功能框圖。多個(gè)相機(jī)303,例如高清晰視頻相機(jī),被布置為使得每個(gè)相機(jī)視圖重疊在一起,這些相機(jī)視圖示出了所有參與者。這些相機(jī)視圖是廣角的,并且一個(gè)或多個(gè)參與者能夠并且可能出現(xiàn)在多于一個(gè)相機(jī)視圖中。視圖選擇/構(gòu)圖元件305包括臉部檢測元件321,用于定位每個(gè)相機(jī)視圖內(nèi)的人臉;第一構(gòu)圖元件323(“構(gòu)圖1”),其被耦合到臉部檢測元件321并被配置為接受相機(jī)視圖的位置和臉部大小,并且從相機(jī)視圖中構(gòu)成一個(gè)、兩個(gè)或三個(gè)臉部的人視圖。構(gòu)圖模塊323 被布置為使得每個(gè)人視圖提供如下這樣的大小和布局的圖像,該大小和布局的圖像使得當(dāng)被遠(yuǎn)程地顯示在遠(yuǎn)程顯示屏上時(shí),每個(gè)參與者被顯示為實(shí)物大小并且面對(duì)著該遠(yuǎn)程顯示屏所在的遠(yuǎn)程位置中的所期望觀眾。在一個(gè)實(shí)施例中,構(gòu)圖元件323的輸出包括人視圖信息, 例如,該人視圖信息具有相對(duì)于(一個(gè)或多個(gè))對(duì)應(yīng)相機(jī)視圖的分幅的(一個(gè)或多個(gè))人視圖的大小和位置的形式。視圖選擇/構(gòu)圖元件305還包括作為人視圖選擇元件325的第二構(gòu)圖元件 325( “構(gòu)圖2”),被配置為接受來自構(gòu)圖元件323的人視圖信息,例如,相對(duì)于(一個(gè)或多個(gè))對(duì)應(yīng)相機(jī)視圖的分幅的(一個(gè)或多個(gè))人視圖大小和位置,并且為每個(gè)參與者選擇人視圖以形成候選人視圖。人視圖選擇元件325的輸出具有針對(duì)每個(gè)候選人視圖的候選人視圖信息的形式,例如,相對(duì)于(一個(gè)或多個(gè))對(duì)應(yīng)相機(jī)視圖的分幅的(一個(gè)或多個(gè))候選人視圖大小和位置的形式。因此,第一和第二構(gòu)圖元件325和327 —起形成了被配置為生成候選人視圖的構(gòu)圖元件。定向麥克風(fēng)子系統(tǒng)包括例如被布置為麥克風(fēng)陣列的兩個(gè)或更多個(gè)麥克風(fēng)113, 以及被耦合到麥克風(fēng)并被配置為生成音頻數(shù)據(jù)以及指示在麥克風(fēng)處接收的聲音的方向的方向信息的音頻處理模塊209。在一個(gè)示例實(shí)施例中,方向信息為聲音的角度的形式。因此, 麥克風(fēng)被用來清晰地捕獲每個(gè)參與者的音頻,并且音頻處理被用來確定參與者正在人視圖中的哪個(gè)人視圖中講話。本領(lǐng)域已知了利用多個(gè)麥克風(fēng)來確定聲音的方向的許多方法,并且本發(fā)明不限于任何特定方法。本發(fā)明的一個(gè)方面可應(yīng)用于這樣的布置,并且包括這樣的映射方法,例如在人視圖選擇元件325中,所選人視圖中的哪個(gè)人視圖將映射用于哪個(gè)聲音方向。視頻指導(dǎo)器元件327被耦合到第二構(gòu)圖元件(人視圖選擇元件)325以及音頻處理模塊,并被配置為根據(jù)方向信息來選擇將被發(fā)送的候選人視圖中的至少一個(gè),該選擇具有用于電子云臺(tái)(EPTZ)元件329中的實(shí)時(shí)視頻構(gòu)圖的和用于與經(jīng)處理版本的音頻數(shù)據(jù)一起被壓縮并被發(fā)送給一個(gè)或多個(gè)遠(yuǎn)程端點(diǎn)的信息的形式。當(dāng)一參與者講話時(shí),方向信息的任何改變將使得視頻指導(dǎo)器327將其選擇切換為包括包含有正在講話的該參與者的人視圖。一種方法將房間中的參與者位置的二維頭上映射用于進(jìn)行選擇。視頻指導(dǎo)器的輸出具有用于將被發(fā)送的一個(gè)或多個(gè)人視圖,通常為一個(gè)人視圖的人視圖信息的形式,例如,為相對(duì)于(一個(gè)或多個(gè))對(duì)應(yīng)相機(jī)視圖的分幅的(一個(gè)或多個(gè))人視圖大小和位置。電子云臺(tái)(EPTZ)元件3 被耦合到視圖選擇/構(gòu)圖模塊305(具體地,視頻指導(dǎo)器327)并被耦合到視頻相機(jī)303的視頻輸出,并且根據(jù)人視圖信息以視頻速率來形成人視圖的視頻幀。這形成了針對(duì)(一個(gè)或多個(gè))活動(dòng)視頻視圖的(一個(gè)或多個(gè))視頻信號(hào)。視頻編解碼器和音頻編解碼器子系統(tǒng)231被配置為接受音頻以及(一個(gè)或多個(gè)) 活動(dòng)視頻視圖的(一個(gè)或多個(gè))視頻信號(hào),并且在某個(gè)實(shí)施例中,接受任何其它視圖,并且壓縮視頻和音頻以發(fā)送給視頻遠(yuǎn)程會(huì)議中的其它端點(diǎn)。本發(fā)明不限于編解碼器的任何特定體系結(jié)構(gòu)。在一個(gè)實(shí)施例中,編解碼器子系統(tǒng)231以每秒60幀的高清晰形式來對(duì)視頻編碼。
注意,一些現(xiàn)有的遙現(xiàn)系統(tǒng)還使用臉部檢測機(jī)制。在這樣的系統(tǒng)中,如果臉部被檢測到,則確定了相機(jī)的視圖內(nèi)的所檢測臉部的大小和位置的臉部檢測系統(tǒng)被用來操控該相機(jī)。較老的系統(tǒng)可能使用單獨(dú)的廣角相機(jī)和特寫云臺(tái)(PTZ)相機(jī)。一些系統(tǒng)可能利用電子云臺(tái)來對(duì)此進(jìn)行模擬,該電子云臺(tái)被用來跟蹤講話者的位置并將云臺(tái)視圖指向該人。這樣的跟蹤方法至少在如下差別方面與本發(fā)明的方法不同在本發(fā)明的實(shí)施例中,就“遙現(xiàn)”體驗(yàn)來說,人視圖被約束并在遠(yuǎn)程會(huì)議會(huì)話的持續(xù)時(shí)間期間保持固定。即,每當(dāng)特定參與者出現(xiàn)時(shí),該參與者都位于同一地點(diǎn),以模擬所使用的固定相機(jī)。因此,在本發(fā)明的實(shí)施例中,聲音的方向并不操控實(shí)際的或虛擬的相機(jī),而是在由構(gòu)圖模塊獲得并由人視圖選擇模塊選擇的數(shù)個(gè)固定的虛擬(ΕΡ 7)相機(jī)視圖之間進(jìn)行選擇,以使得每個(gè)人出現(xiàn)在一個(gè)且僅一個(gè)所選擇的所構(gòu)成人視圖中。臉部檢測不直接操控 PTZ,其僅在圖片的中心處產(chǎn)生臉部的簡單特寫。每個(gè)臉部最終是由音頻和視頻信息的組合來定位的。該系統(tǒng)能夠產(chǎn)生包含多個(gè)人的多個(gè)視頻輸出流,然而其不要求固定的座位布置。高清晰視頻相機(jī)至少具有每秒60幀的1280X620,并且在一些實(shí)施例中,具有每秒60幀的1920X1080。相機(jī)被布置來提供固定的廣角視圖,以使得即使在圖像的僅一部分被選擇時(shí)也維持合理的圖像質(zhì)量。在一個(gè)實(shí)施例中,相機(jī)具有相對(duì)大的景深以使得其相機(jī)視圖中的所有參與者保持被聚焦。相機(jī)被放置得稍微高于眼睛水平面。因此,本發(fā)明的系統(tǒng)自動(dòng)地構(gòu)成人視圖并且在它們之間進(jìn)行選擇,以產(chǎn)生多相機(jī)遙現(xiàn)系統(tǒng)中的實(shí)物大小的特寫體驗(yàn)。該處理允許相對(duì)少量的相機(jī)-即使只有一個(gè)相機(jī),也表現(xiàn)得好像有多得多的虛擬相機(jī)存在一樣。圖4示出了用于操作處理系統(tǒng)的一個(gè)方法實(shí)施例的流程圖。該方法包括在401中接受會(huì)議的至少一些參與者的多個(gè)相機(jī)視圖。每個(gè)相機(jī)視圖來自對(duì)應(yīng)的視頻相機(jī),其中這些相機(jī)視圖一起包括每個(gè)參與者的至少一個(gè)視圖。該方法還包括在403中接受來自多個(gè)麥克風(fēng)的音頻,并且在405中處理來自多個(gè)麥克風(fēng)的音頻以生成音頻數(shù)據(jù)和指示在麥克風(fēng)處接收的聲音的方向的方向信息。該方法包括在407中生成一個(gè)或多個(gè)候選人視圖,每個(gè)人視圖是包含至少一個(gè)參與者的頭部和肩部視圖的區(qū)域。在一個(gè)版本中,所接受的相機(jī)視圖的每個(gè)是候選人視圖。 即,相機(jī)被預(yù)先分幅以提供人視圖。407在這樣的情況中不是重要步驟。在其它版本中,相機(jī)視圖不必被預(yù)先設(shè)置為人視圖,在此情況中,該方法還包括在 407中檢測相機(jī)視圖中的任何臉部并且確定每個(gè)相機(jī)視圖中每個(gè)所檢測臉部的位置。在 407中生成一個(gè)或多個(gè)候選人視圖是根據(jù)所確定的臉部位置進(jìn)行的,以使得每個(gè)候選人視圖是包含至少一個(gè)參與者的頭部和肩部視圖的區(qū)域,該生成確定了候選視圖信息。該方法包括在409中根據(jù)方向信息選擇將被發(fā)送給一個(gè)或多個(gè)遠(yuǎn)程端點(diǎn)的候選人視圖中的至少一個(gè)。在相機(jī)視圖不必均是人視圖的情況中,根據(jù)方向信息作出該選擇包括根據(jù)所作的選擇來提供所選視圖信息。該方法還包括在411中響應(yīng)于所作的選擇來切換所接受相機(jī)視圖中用于壓縮和發(fā)送給一個(gè)或多個(gè)遠(yuǎn)程端點(diǎn)的至少一個(gè)相機(jī)視圖。在相機(jī)視圖不必均是人視圖的情況中, 該方法包括根據(jù)所選視圖信息生成與候選視圖中被選擇用于壓縮和發(fā)送給一個(gè)或多個(gè)遠(yuǎn)程端點(diǎn)的至少一個(gè)候選視圖相對(duì)應(yīng)的視頻。該生成使用EPTZ。
該方法還包括在步驟413中對(duì)切換到的視頻以及音頻數(shù)據(jù)進(jìn)行壓縮,并且將經(jīng)壓縮數(shù)據(jù)發(fā)送給一個(gè)或多個(gè)端點(diǎn)。在相機(jī)視圖不必均是人視圖的一個(gè)版本中,每個(gè)參與者出現(xiàn)在僅一個(gè)人視圖中。 在另一版本中,每個(gè)參與者可以出現(xiàn)在多于一個(gè)人視圖中。在這樣的情況中,407還包括構(gòu)成可能的人視圖,并且從所構(gòu)成的可能人視圖中選擇候選人視圖,以使得每個(gè)參與者出現(xiàn)在僅一個(gè)候選人視圖中。圖5示出了示出了用于操作處理系統(tǒng)的另一方法實(shí)施例的流程圖。該方法包括在臉部檢測步驟501中,對(duì)于來自房間中的對(duì)應(yīng)視頻相機(jī)的每個(gè)相機(jī)視圖,檢測相機(jī)視圖中的任何臉部。該方法還包括在步驟503中確定房間中的參與者的位置,例如,創(chuàng)建房間中的臉部的位置的地圖來定位每個(gè)參與者。該方法還包括在步驟505中確定哪一個(gè)臉部或哪些臉部位于多于一個(gè)相機(jī)視圖中以用于構(gòu)圖。即,檢測在多于一個(gè)相機(jī)視圖中的每個(gè)參與者的圖像。該方法包括在步驟 507中基于臉部大小和/或離相機(jī)的距離確定例如針對(duì)每個(gè)臉部的縮放因子,再次地以用于構(gòu)圖。在步驟509中,該方法還包括對(duì)于一個(gè)或多個(gè)相鄰臉部的每個(gè)子群組,例如對(duì)于每對(duì)臉部,或者三個(gè)臉部的子群組,構(gòu)成人視圖。在一個(gè)實(shí)施例中,對(duì)于每個(gè)人視圖中兩個(gè)參與者的情況,用于該人視圖的縮放是用于兩個(gè)個(gè)體臉部的縮放因子的平均值。該人視圖的構(gòu)圖包括該人視圖內(nèi)部的臉的子群組,例如,不接觸周界帶。在步驟511中,該方法包括通過選擇所構(gòu)成人視圖的子集以使得每個(gè)臉部出現(xiàn)在該子集的所構(gòu)成人視圖中的僅一個(gè)人視圖中并且使得該子集包括每個(gè)參與者的臉部,從而為每個(gè)分部的參與者選擇各自的人視圖。這些候選視圖可被認(rèn)為是“虛擬相機(jī)”視圖,就好像每對(duì)參與者具有其自己的固定“虛擬”相機(jī)一樣。步驟513包括將每個(gè)人視圖映射到一個(gè)或多個(gè)語音方向,通過在音頻處理元件 209中執(zhí)行的音頻處理確定的每個(gè)語言方向被耦合到兩個(gè)或更多個(gè)麥克風(fēng),并且這確定了語言來自哪個(gè)方向,以使得每個(gè)所確定語音方向被與人視圖的子集中的人視圖之一相關(guān)聯(lián)。步驟515包括選擇一個(gè)或多個(gè)人視圖用于發(fā)送給遠(yuǎn)程端點(diǎn),包括當(dāng)聲音改變時(shí), 例如當(dāng)語音方向改變時(shí),根據(jù)聲音方向在人視圖之間切換。步驟517包括為選擇用于發(fā)送的人視圖形成視頻。在一個(gè)實(shí)施例中,視頻輸出由候選視圖-虛擬相機(jī)視圖之間的可能的疊像漸變(cross fade)或切割(cut)組成。在一個(gè)實(shí)施例中,這樣的虛擬相機(jī)視圖-活動(dòng)人視圖的多個(gè)流被形成用于同時(shí)發(fā)送并在端點(diǎn)處的多個(gè)顯示屏上觀看。在一個(gè)實(shí)施例中,該方法包括在示出了會(huì)議的大多數(shù)或所有本地參與者的全景 (group shot)與示出了僅一個(gè)或兩個(gè)參與者的人視圖之間自動(dòng)切換。步驟519包括對(duì)在515中選擇并在步驟517中形成用于發(fā)送給遠(yuǎn)程會(huì)議的端點(diǎn)的一個(gè)或多個(gè)人視圖以及音頻進(jìn)行編碼或發(fā)送。在一個(gè)實(shí)施例中,圖5的方法的步驟503至513的人視圖構(gòu)圖在遠(yuǎn)程會(huì)議會(huì)話開始時(shí)發(fā)生。現(xiàn)在更詳細(xì)地描述該方法的一個(gè)實(shí)施例。該方法利用相機(jī)視圖并構(gòu)造人視圖,每個(gè)人視圖是相機(jī)視圖之一內(nèi)的感興趣的矩形區(qū)域。人視圖實(shí)質(zhì)上是參與者的子集,例如參與者中的兩個(gè)的特寫。視圖構(gòu)造在會(huì)話開始時(shí)發(fā)生。臉部檢測步驟501包括臉部檢測方法對(duì)于每個(gè)視圖報(bào)告作為相機(jī)視圖內(nèi)的每個(gè)臉部的X,y坐標(biāo)的位置以及臉部的尺寸大小。如本領(lǐng)域技術(shù)人員將清楚的,許多臉部檢測方法是已知的。本發(fā)明不依賴于所使用的任何特定類型的臉部檢測方法。臉部檢測的一個(gè)實(shí)施例包括眼睛檢測,并且包括根據(jù)臉上的眼睛之間的距離來確定臉部大小尺寸。另一方法包括將將橢圓形狀,例如半個(gè)橢圓擬合到在相機(jī)視圖中檢測到的邊緣,以檢測該臉部。具體地,一種方法如在2008年1月觀日提交的、發(fā)明人為Tian等人、題為REAL-TIME FACE DETECTION的共同轉(zhuǎn)讓美國專利申請(qǐng)No. 12/021,198中所描述的。另一方法如在2008年 2 月 14 日提交的、申請(qǐng)人為 Tian 等人、題為 REAL-TIME FACE DETECTION USING TEMPORAL DIFFERENCES.的共同轉(zhuǎn)讓美國專利申請(qǐng)No. 12/031,590中所描述的。因此,在一些實(shí)施例中,臉部檢測包括如下中的至少一種臉部檢測和/或?qū)E圓形狀擬合到在與臉部相對(duì)應(yīng)的相機(jī)視圖中檢測到的邊緣。在僅眼睛檢測被使用的情況中,臉部大小的尺寸是通過臉部中檢測到的眼睛之間的距離來確定的。在僅橢圓形狀擬合被使用的情況中,臉部的尺寸是根據(jù)橢圓形狀被擬合到臉部邊緣的性質(zhì)來確定的。參與者映射步驟503包括在給定每個(gè)相機(jī)視圖的相機(jī)的已知位置和角度的情況下,利用每個(gè)臉部的(X,y)位置和多個(gè)視圖來創(chuàng)建房間中的臉部的位置的地圖。該方法包括利用已知為先驗(yàn)的相機(jī)的縮放因子來將所確定臉部大小轉(zhuǎn)換為深度,即,離相機(jī)的距離。 因此,每個(gè)臉部離已知相機(jī)位置的近似距離被確定。由于兩個(gè)或更多個(gè)相機(jī)被使用,因此臉部被匹配并且三角測量被用來確定他們在房間中的物理位置。該方法因此定位房間中每個(gè)參與者的臉部。該方法包括唯一臉部視圖選擇。步驟505包括標(biāo)識(shí)冗余視圖,包括確定哪個(gè)臉部或哪些臉部出現(xiàn)在多于一個(gè)相機(jī)視圖中但共同位于該地圖上。一個(gè)實(shí)施例包括驗(yàn)證,其包括近似圖像比較。對(duì)于唯一臉部視圖選擇,該方法包括從任何參與者的冗余相機(jī)視圖中選擇每個(gè)參與者的一個(gè)優(yōu)選相機(jī)視圖。對(duì)于特定參與者,如果僅存在該參與者的一個(gè)相機(jī)視圖,則最好的相機(jī)視圖是該僅有的一個(gè)相機(jī)視圖,或者如果存在多于一個(gè)相機(jī)視圖,則最好的相機(jī)視圖是與輪廓視圖相對(duì)的臉部更超前面的視圖或者正面視圖。來自臉部檢測階段的信息被用于此。例如,對(duì)于將橢圓或半橢圓擬合到每個(gè)臉部的方法,對(duì)針對(duì)同一參與者的兩個(gè)半橢圓寬度進(jìn)行比較。在另一實(shí)施例中,503的位置地圖被使用并且正對(duì)著參與者臉部的相機(jī)的相機(jī)視圖被選擇。所希望的構(gòu)圖預(yù)先被確定。例如,一個(gè)實(shí)施例選擇包含并排的兩個(gè)參與者的 16 9畫面,其中兩個(gè)臉部以某些位置為中心,例如,眼睛最接近預(yù)先定義的位置并且臉部具有預(yù)先選擇的大小。確定候選人視圖的構(gòu)圖要素包括步驟507和509。在某個(gè)相機(jī)視圖中相鄰的兩個(gè) (或更多個(gè))臉部是用于人視圖的候選。針對(duì)該群組選擇/確定比例因子(放大或縮放), 其優(yōu)化所有的臉部大小。臉部被分幅在預(yù)定的所希望構(gòu)圖的矩形內(nèi)。因此,候選人視圖是針對(duì)相機(jī)視圖中的每對(duì)(或更多)參與者構(gòu)成的。一種方法包括評(píng)估候選群組視圖。一種方法包括根據(jù)預(yù)定的所希望構(gòu)圖基于臉部離最優(yōu)臉部位置的距離來計(jì)算優(yōu)劣評(píng)分(merit score) 0所希望構(gòu)圖的矩形被移動(dòng)以優(yōu)化該視圖,相當(dāng)于執(zhí)行電子搖鏡頭。步驟511包括選擇每個(gè)參與者的所構(gòu)成人視圖,以使得所選構(gòu)成人視圖包括所有參與者僅一次并且具有最高的總分。在操作期間,群組視圖的集合保持固定。視圖不會(huì)主動(dòng)地?fù)u鏡頭或傾斜或縮放以跟隨移動(dòng)。然而,如果場景更徹底地改變,則該視圖選擇方法重新計(jì)算一組新的視圖。在一個(gè)實(shí)施例中,對(duì)該組人視圖的計(jì)算,即,步驟501-513包括在人視圖之一中的臉部數(shù)目改變時(shí)重新進(jìn)行計(jì)算?,F(xiàn)在呈現(xiàn)操作的示例?,F(xiàn)在呈現(xiàn)一些要素的更多細(xì)節(jié)。圖6-9示出了從實(shí)際照片產(chǎn)生的素描圖。圖6示出了在用于視頻遠(yuǎn)程會(huì)議的典型會(huì)議室中來自近似位于房間的顯示屏中心處的相機(jī)的廣角相機(jī)視圖的示例。這是通過傳統(tǒng)現(xiàn)有技術(shù)視頻遠(yuǎn)程會(huì)議系統(tǒng)時(shí)通常所看到的。該相機(jī)視圖還對(duì)應(yīng)于在類似于圖IC的布置中來自相機(jī)125的相機(jī)視圖可能的樣子。圖7示出了來自顯示屏一側(cè)上的相機(jī)的廣角相機(jī)視圖,并且對(duì)應(yīng)于在類似于圖IB 和圖IC的布置中來自相機(jī)121的相機(jī)視圖可能的樣子。圖7還示出了所構(gòu)成的兩個(gè)人視圖的位置,每個(gè)人視圖有兩個(gè)參與者。圖7的左邊最靠近相機(jī)的參與者遮擋了他后面的參與者。圖8示出了來自顯示屏另一側(cè)上的相機(jī)的廣角相機(jī)視圖,并且對(duì)應(yīng)于在類似于圖 IB和圖IC的布置中來自相機(jī)123的相機(jī)視圖可能的樣子。圖8還示出了所構(gòu)成的兩個(gè)人視圖的位置,每個(gè)人視圖有兩個(gè)參與者。注意,一些參與者出現(xiàn)在多于一個(gè)人視圖中。此外,在圖7的相機(jī)視圖中被隱藏的參與者現(xiàn)在在圖8傾斜地出現(xiàn)了正臉。針對(duì)每個(gè)參與者,例如,針對(duì)每個(gè)麥克風(fēng)方向或角度的后續(xù)人視圖是根據(jù)哪個(gè)更接近正面視圖來選擇的。圖9示出了對(duì)于離圖7的相機(jī)視圖的相機(jī)最遠(yuǎn)的兩個(gè)參與者,即, 圖6所示的最右邊的兩個(gè)參與者的每個(gè),將被發(fā)送給遠(yuǎn)程端點(diǎn)的視頻人視圖。結(jié)果是一組虛擬特寫相機(jī)。這些虛擬相機(jī)然后被用在多屏幕遠(yuǎn)程會(huì)議中。有效的 “實(shí)物大小”圖像非常類似于由現(xiàn)有的“遙現(xiàn)”遠(yuǎn)程會(huì)議系統(tǒng)提供的圖像,現(xiàn)有的“遙現(xiàn)”遠(yuǎn)程會(huì)議系統(tǒng)例如是由與本發(fā)明的受讓人有關(guān)的思科系統(tǒng)制造的CISCO CTS3000遙現(xiàn)系統(tǒng)。 然而,使用本發(fā)明的實(shí)施例不要求固定的座位布置,因?yàn)槠渥詣?dòng)地分析場景以及虛擬相機(jī)捕獲正確的“頭部和肩部”人視圖的位置。因此,這里描述的是適應(yīng)于房間中多個(gè)參與者的座位位置的遠(yuǎn)程會(huì)議相機(jī)系統(tǒng)。 一個(gè)或多個(gè),通常為兩個(gè)或更多個(gè)廣角相機(jī)捕獲例如桌子周圍的人的全景,并且使用所捕獲的視頻以及音頻信息,并且自動(dòng)地構(gòu)成“虛擬相機(jī)”的人視圖,并且在它們之間進(jìn)行選擇以生成具有較少相機(jī)且相機(jī)位于房間一側(cè)的多相機(jī)“遙現(xiàn)”系統(tǒng)中的實(shí)物大小特寫體驗(yàn)。本發(fā)明的實(shí)施例因此提供了來自先前未被特別地設(shè)計(jì)用于遙現(xiàn)的會(huì)議室的當(dāng)前遙現(xiàn)系統(tǒng),例如,特寫實(shí)物大小圖像的益處。不是使用固定相機(jī)和固定座位位置,本發(fā)明的實(shí)施例使用位于屏幕近前方的兩個(gè)或更多個(gè)相機(jī),并且這可以是便攜式的,以生成適應(yīng)于座位布置的多個(gè)虛擬相機(jī)的位置。因此,諸如這里描述的系統(tǒng)可以動(dòng)態(tài)地來部署;不需要永久地將該系統(tǒng)安裝在特定位置,而是可以移動(dòng)到任何方便的房間。在一些實(shí)施例中選擇人視圖的處理相對(duì)簡單,而在另一實(shí)施例中,例如在EPTZ元件和構(gòu)圖元件中執(zhí)行處理以校正可能因相機(jī)303位于與所模擬的“虛擬相機(jī)”位置不同的位置處所導(dǎo)致的失真中的至少一些。即,電子云臺(tái)元件聯(lián)合構(gòu)圖元件還被配置來構(gòu)造正面視圖,并且校正由于相機(jī)303未攝取參與者的正面視圖而產(chǎn)生的失真中的至少一些。一個(gè)實(shí)施例采用透視校正(perspective correction)。這樣的實(shí)施例使用在遠(yuǎn)距離點(diǎn)處會(huì)聚的直線的透視模型并且假設(shè)每個(gè)臉部是平面的。利用所擬合的每個(gè)臉部的距離,例如,眼睛之間的距離,或者所擬合半橢圓的寬度,以及相機(jī)的已知位置,來向相機(jī)施加幾何變換以校正失真。校正因廣角相機(jī)鏡頭引起的任何鏡頭失真的更復(fù)雜方法也是可以的。例如參見 Steve Mann禾口Rosalind Picard的“Virtual bellows !constructing high quality still from Video,"Proceedings,First IEEE International Conference on Image Processing ICIP-94, Volume 1,13-16 Nov. 1994, Page (s) :363-367, Austin Texas, November 1994。包括失真校正的本發(fā)明的這些方法不限于執(zhí)行失真校正的任何特定方法,并且還知道許多這樣的方法。例如,參見 H.-Y. ^PSing,Bing Kang 的“A review of image-based rendering techniques,,in SPIE Proceedings Vol. 5067 (3) , pp. 2-13, Proceedings of the Conference on Visual communications and image processing 2000, Perth, AUSTRALIA, 20-23June 2000中對(duì)一些這樣的方法的調(diào)查。自寫該論文起已開發(fā)了更多方法。這里描述的方法和裝置可以用許多不同方式來實(shí)現(xiàn)。圖10示出了耦合到網(wǎng)絡(luò)1007的遠(yuǎn)程會(huì)議終端1001的遠(yuǎn)程會(huì)議系統(tǒng)的簡化框圖, 至少一個(gè)端點(diǎn)1009也耦合到網(wǎng)絡(luò)1007以使得可以在終端1001與至少一個(gè)端點(diǎn)1009之間進(jìn)行視頻遠(yuǎn)程會(huì)議。終端1001包括本發(fā)明的實(shí)施例,例如,圖3的實(shí)施例。終端1001包括多個(gè)視頻相機(jī)303以及多個(gè)麥克風(fēng)113。不同版本實(shí)現(xiàn)圖2所示的裝置,在該情況中的相機(jī)是相機(jī)203。還包括一組的一個(gè)或多個(gè)顯示屏921。處理系統(tǒng)1003包括至少一個(gè)可編程處理器1011和存儲(chǔ)子系統(tǒng)1013。存儲(chǔ)子系統(tǒng)至少包括存儲(chǔ)器,并被編碼有被示為程序1015的軟件。程序1015的不同版本在被至少一個(gè)處理器1011執(zhí)行時(shí)使得處理系統(tǒng)1003執(zhí)行本說明書中描述的方法實(shí)施例。該處理系統(tǒng)包括編碼器/解碼器子系統(tǒng)1017,在一個(gè)實(shí)施例中,編碼器/解碼器子系統(tǒng)1017包括用于視頻編碼/解碼的多個(gè)處理器以及存儲(chǔ)器,該存儲(chǔ)器包括使得處理器執(zhí)行方法的程序代碼,該方法使得該編碼器/解碼器子系統(tǒng)編碼高清晰視頻和/或解碼高清晰視頻。該處理系統(tǒng)還包括通信子系統(tǒng)1019,該通信子系統(tǒng)1019與至少一個(gè)可編程處理器1011 —起掌管終端的操作的通信方面,并且該通信子系統(tǒng)1019包括到網(wǎng)絡(luò)1007的接口。當(dāng)然,本領(lǐng)域技術(shù)人員將明白,處理系統(tǒng)1003僅是以簡化方式被示出的,而未示出許多內(nèi)部工作,以便不模糊本發(fā)明的創(chuàng)造性方面。因此,在一個(gè)實(shí)施例中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)被編碼有指令,當(dāng)指令由例如遠(yuǎn)程會(huì)議終端的虛擬相機(jī)人視圖構(gòu)圖裝置中的處理系統(tǒng)的一個(gè)或多個(gè)處理器運(yùn)行時(shí),使得執(zhí)行這里描述的任何方法。除非特別指明,如從下面的討論將清楚的,將理解,在整個(gè)說明書中,使用諸如“處理”、“運(yùn)算”、“計(jì)算”、“確定”等術(shù)語的討論涉及將表示為諸如電量之類的物理量的數(shù)據(jù)操縱和/或變換為類似地表示為物理量的其它數(shù)據(jù)的計(jì)算機(jī)或計(jì)算系統(tǒng)或類似電子計(jì)算設(shè)備的動(dòng)作和/或處理。以類似方法,術(shù)語“處理器”或“機(jī)器”可以指用于處理例如來自寄存器和/或存儲(chǔ)器的電子數(shù)據(jù)以將該電子數(shù)據(jù)變換為例如可被存儲(chǔ)在寄存器和/或存儲(chǔ)器中的電子數(shù)據(jù)的任何設(shè)備或設(shè)備的任何部分?!坝?jì)算機(jī)”或“計(jì)算機(jī)器”或“計(jì)算平臺(tái)”可以包括一個(gè)或多個(gè)處理器。注意,當(dāng)描述包括數(shù)個(gè)要素,例如數(shù)個(gè)步驟的方法時(shí),除非特別指明,否則不暗示這樣的要素(例如,步驟)的順序。在一個(gè)實(shí)施例中,這里描述的方法可由一個(gè)或多個(gè)處理器執(zhí)行,其接受編碼在一個(gè)或多個(gè)計(jì)算機(jī)可讀有形介質(zhì)上的計(jì)算機(jī)可讀(也稱為機(jī)器可讀)邏輯,在計(jì)算機(jī)可讀有形介質(zhì)中編碼有指令集,當(dāng)該指令集被處理器中的一個(gè)或多個(gè)運(yùn)行時(shí)執(zhí)行這里描述的方法中的至少一個(gè)。能夠執(zhí)行用于指定將要采取的動(dòng)作的指令集(順序的或以其它方式)的任何處理器被包括。因此,一個(gè)示例是包括一個(gè)或多個(gè)處理器的典型處理系統(tǒng)。每個(gè)處理器可以包括CPU、圖形處理單元和可編程DSP單元中的一個(gè)或多個(gè)。處理系統(tǒng)還可以包括存儲(chǔ)器子系統(tǒng),包括主RAM和/或靜態(tài)RAM和/或ROM??偩€子系統(tǒng)可被包括用于在組件之間進(jìn)行通信。處理系統(tǒng)還可以是分布式處理系統(tǒng),其中處理器通過網(wǎng)絡(luò)被耦合起來。如果處理系統(tǒng)需要顯示器,則諸如液晶顯示器(LCD)或陰極射線管(CRT)顯示器之類的顯示器可以被包括。如果需要手動(dòng)數(shù)據(jù)輸入,則處理系統(tǒng)還包括輸入設(shè)備,例如,諸如鍵盤之類的字母數(shù)字輸入單元、諸如鼠標(biāo)之類的點(diǎn)選可正式版等等中的一個(gè)或多個(gè)。如這里使用的術(shù)語存儲(chǔ)器,如果可從上下文清楚并且除非以其它方式明確指定,否則還包括諸如盤驅(qū)動(dòng)單元之類的存儲(chǔ)系統(tǒng)。在一些配置中處理系統(tǒng)可以包括聲音輸出設(shè)備和網(wǎng)絡(luò)接口設(shè)備。存儲(chǔ)器子系統(tǒng)因此包括承載邏輯(例如,軟件)的計(jì)算機(jī)可讀介質(zhì),該邏輯包括指令集以使得當(dāng)指令集被一個(gè)或多個(gè)處理器運(yùn)行時(shí)使得執(zhí)行這里描述的方法中的一個(gè)或多個(gè)。軟件可以駐留在硬盤中,或者在由計(jì)算機(jī)系統(tǒng)運(yùn)行時(shí),也可以完全地或至少部分地駐留在RAM和/或處理器內(nèi)。因此,存儲(chǔ)器和處理器還構(gòu)成其上編碼有例如指令形式的邏輯的計(jì)算機(jī)可讀介質(zhì)。此外,計(jì)算機(jī)可讀介質(zhì)可以形成或者被包括在計(jì)算機(jī)程序產(chǎn)品中。在替代實(shí)施例中,一個(gè)或多個(gè)處理器作為獨(dú)立的設(shè)備操作或者可被連接,例如,聯(lián)網(wǎng)到其他(一個(gè)或多個(gè))處理器,在聯(lián)網(wǎng)部署中,一個(gè)或多個(gè)處理器可以在服務(wù)器-客戶端網(wǎng)絡(luò)環(huán)境中以服務(wù)器或客戶端機(jī)器的能力來操作,或者作為端對(duì)端或分布式網(wǎng)絡(luò)環(huán)境中的對(duì)等機(jī)器來操作。一個(gè)或多個(gè)處理器可以形成個(gè)人計(jì)算機(jī)(PC)、蜂窩電話、web裝置、網(wǎng)絡(luò)路由器、交換機(jī)或橋接器,或者能夠運(yùn)行用于指定將由機(jī)器采取的動(dòng)作的指令集(順序的或以其它方式)的任何機(jī)器。注意,盡管某個(gè)或一些示圖僅示出了單個(gè)處理器以及承載包括指令的邏輯的單個(gè)存儲(chǔ)器,然而本領(lǐng)域技術(shù)人員將明白,上述組件中的許多組件也被包括,但是未明確示出或描述以不模糊創(chuàng)造性方面。例如,盡管僅單個(gè)機(jī)器被圖示出,然而術(shù)語“機(jī)器”還被認(rèn)為包括單獨(dú)地或聯(lián)合地運(yùn)行一個(gè)(或多個(gè))指令集以執(zhí)行這里討論的任一個(gè)或多個(gè)方法中的機(jī)器的任何集合。因此,這里描述的每個(gè)方法的一個(gè)實(shí)施例是其中編碼有一個(gè)指令集(例如,計(jì)算機(jī)程序)的介質(zhì)的形式,該指令集用于在一個(gè)或多個(gè)處理器上運(yùn)行,例如,在作為編碼系統(tǒng)一部分的一個(gè)或多個(gè)處理器上運(yùn)行。因此,如本領(lǐng)域技術(shù)人員將理解的,本發(fā)明的實(shí)施例可被實(shí)施為方法、諸如專用裝置之類的裝置、諸如數(shù)據(jù)處理系統(tǒng)之類的裝置,或者介質(zhì),例如計(jì)算機(jī)程序產(chǎn)品。計(jì)算機(jī)可讀介質(zhì)承載包括一個(gè)指令集的邏輯,當(dāng)其在一個(gè)或多個(gè)處理器上運(yùn)行時(shí)使得包括這一個(gè)或多個(gè)處理器的裝置實(shí)現(xiàn)方法。因此,本發(fā)明的各方面可以采取方法的形式、全為硬件的實(shí)施例、全為軟件的實(shí)施例或者組合了軟件和硬件方面的實(shí)施例的形式。此外,本發(fā)明可以采取介質(zhì)的形式(例如,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上的計(jì)算機(jī)程序產(chǎn)品),在該介質(zhì)中包含有計(jì)算機(jī)可讀程序代碼。盡管在示例實(shí)施例中介質(zhì)被示為單個(gè)介質(zhì),然而術(shù)語“介質(zhì)”應(yīng)當(dāng)被認(rèn)為包括存儲(chǔ)一個(gè)或多個(gè)指令集的單個(gè)介質(zhì)或多個(gè)介質(zhì)(例如,集中式或分布式數(shù)據(jù)庫和/或相關(guān)聯(lián)的緩存和服務(wù)器)。術(shù)語“介質(zhì)”還將被認(rèn)為包括能夠存儲(chǔ)、編碼供一個(gè)或多個(gè)處理器運(yùn)行并且使得實(shí)現(xiàn)本發(fā)明的方法中的任何一個(gè)或多個(gè)的指令集的任何介質(zhì)。介質(zhì)可以采取許多形式,包括有形存儲(chǔ)介質(zhì)。非易失性介質(zhì)例如包括光盤、磁盤和磁光盤。易失性介質(zhì)包括動(dòng)態(tài)存儲(chǔ)器,如主存。例如,術(shù)語“介質(zhì)”因此將被認(rèn)為包括但不限于固態(tài)存儲(chǔ)器、包含在光合磁介質(zhì)中的計(jì)算機(jī)產(chǎn)品。將明白,這里討論的方法的步驟在一個(gè)實(shí)施例中由用于運(yùn)行存儲(chǔ)在存儲(chǔ)裝置中的指令的處理(即,計(jì)算機(jī))系統(tǒng)的適當(dāng)處理器(或多個(gè)處理器)來執(zhí)行。還將明白,本發(fā)明不限于任何特定的實(shí)施方式或編程技術(shù)并且本發(fā)明可以利用用于實(shí)現(xiàn)這里描述的功能的任何適當(dāng)技術(shù)來實(shí)現(xiàn)。本發(fā)明不限于任何特定的編程語言或操作系統(tǒng)。在本說明書中對(duì)“一個(gè)實(shí)施例”或“實(shí)施例”的引用是指結(jié)合該實(shí)施例描述的特定特征、結(jié)構(gòu)或特性被包括在本發(fā)明的至少一個(gè)實(shí)施例中。因此,在本說明書各個(gè)地方出現(xiàn)的短語“在一個(gè)實(shí)施例中”或“在實(shí)施例中”不一定都指同一實(shí)施例,但是可以指同一實(shí)施例。 此外,如本領(lǐng)域技術(shù)人員將從本公開清楚的,在一個(gè)或多個(gè)實(shí)施例中,特定特征、結(jié)構(gòu)或特性可以以任何合適的方式被組合。類似地,應(yīng)當(dāng)理解,在本發(fā)明的示例實(shí)施例的上面的描述中,為了精簡本公開并輔助理解各個(gè)創(chuàng)造性方面中的一個(gè)或多個(gè)方面,本發(fā)明的各個(gè)特征在單個(gè)實(shí)施例、附圖或其組合中有時(shí)被成組在一起。然而,這種公開方法不被解釋為反映了這樣的發(fā)明所要求保護(hù)的發(fā)明需要比在每個(gè)權(quán)利要求中明確記載的特征更多的特征。而是,如下面的權(quán)利要求所反映的,創(chuàng)造性方面在于比前面公開的單個(gè)實(shí)施例的所有特征更少。因此,具體實(shí)施方式
后面的權(quán)利要求在此明確地被包括進(jìn)本具體實(shí)施方式
中,其中每個(gè)權(quán)利要求作為本發(fā)明的單獨(dú)實(shí)施例依靠其自身。此外,雖然這里描述的一些實(shí)施例包括一些特征而不包括其它實(shí)施例中所包括的其它特征,然而人本領(lǐng)域技術(shù)人員將明白的,意圖使不同實(shí)施例的特征的組合落在本發(fā)明的范圍內(nèi)。例如,在下面的權(quán)利要求中,要求保護(hù)的實(shí)施例中的任何實(shí)施例可被用在任何組
A由
口 T ο此外,實(shí)施例中的一些在這里被描述為可由計(jì)算機(jī)系統(tǒng)的處理器或者由執(zhí)行功能的其它裝置實(shí)現(xiàn)的方法或者方法的要素的組合。因此,具有用于實(shí)現(xiàn)這樣的方法或方法的要素的必要指令的處理器形成了用于實(shí)現(xiàn)該方法或方法的要素的裝置。此外,這里描述的裝置實(shí)施例的元件是用于執(zhí)行由該元件執(zhí)行的功能以便實(shí)現(xiàn)本發(fā)明的裝置的示例。在這里提供的描述中,闡述了多個(gè)具體細(xì)節(jié)。然而,將明白,本發(fā)明的實(shí)施例可以在不用這些具體細(xì)節(jié)的情況下來實(shí)施。在其它實(shí)例中,公知的方法、結(jié)構(gòu)和技術(shù)未被詳細(xì)示出,以不模糊對(duì)此描述的理解。如這里使用的,除非以其它方式指定,用于描述共同對(duì)象的序數(shù)形容詞“第一”、 “第二”、“第三”等僅僅指示相似對(duì)象的不同實(shí)例被提及,并且不旨在隱含如此描述的對(duì)象必須具有時(shí)間地、空間地、排名中的或者任何其它方式的給定順序。這里引用的所有公報(bào)、專利和專利申請(qǐng)通過引用被結(jié)合于此,除非這樣的結(jié)合不被相關(guān)專利規(guī)則和/或狀態(tài)允許。在本說明書中對(duì)現(xiàn)有技術(shù)的任何討論絕不應(yīng)當(dāng)被認(rèn)為是對(duì)這樣的現(xiàn)有技術(shù)是廣泛知道的、公知的或形成了本領(lǐng)域一般知識(shí)的一部分的承認(rèn)。在下面的權(quán)利要求和這里的描述中,術(shù)語包含、由...組成或者其包含中的任一種是開放式術(shù)語,其意味著至少包括跟隨著的要素/特征,但不排除其它的。因此,當(dāng)術(shù)語包含被用在權(quán)利要求中時(shí),不應(yīng)被解釋為局限于此后列出的裝置或元件或步驟。例如,表述 “包含A和B的設(shè)備”的范圍不應(yīng)被限制為僅由元件A和B構(gòu)成的設(shè)備。如這里使用的術(shù)語包括或其包括或它包括中的任一種也是開放式術(shù)語,其也意味著至少包括跟隨著該術(shù)語的要素/特征,但不排除其它的。因此,包括與包含同義并且意思是包含。類似地,將注意,術(shù)語相耦合當(dāng)被用在權(quán)利要求中時(shí),不應(yīng)被解釋為局限于僅直接連接。術(shù)語“相耦合”和“相連接”與其派生詞一起可以被使用。應(yīng)當(dāng)明白,這些術(shù)語不打算被當(dāng)做彼此同義的。因此,表述“設(shè)備A耦合到設(shè)備B”的范圍不應(yīng)被限制為設(shè)備A的輸出直接連接到設(shè)備B的輸入的設(shè)備或系統(tǒng)。其意味著存在A的輸出與B的輸入之間的路徑, 該路徑可以是包括其它設(shè)備或裝置的路徑?!跋囫詈稀笨梢灾竷蓚€(gè)或更多個(gè)元件是直接物理接觸或電氣接觸,或者兩個(gè)或更多個(gè)元件不是彼此直接接觸但仍然共同操作或彼此交互。因此,盡管已描述了被認(rèn)為是本發(fā)明的優(yōu)選實(shí)施例的內(nèi)容,然而本領(lǐng)域技術(shù)人員將認(rèn)識(shí)到,可以在不脫離本發(fā)明的精神的情況下對(duì)其作出其它的和進(jìn)一步的修改,并且當(dāng)落入本發(fā)明的范圍之內(nèi)時(shí)打算要求保護(hù)所有這樣的改變和修改。例如,上面給出的任何公式僅僅是可被使用的過程的表示??蓮目驁D中刪除或添加功能,并且可以在功能塊間互換操作。對(duì)于在本發(fā)明的范圍內(nèi)描述的方法,可以添加或刪除步驟。
權(quán)利要求
1.一種裝置,包括多個(gè)視頻相機(jī),每個(gè)視頻相機(jī)被配置為捕獲會(huì)議中的至少一些參與者的各個(gè)相機(jī)視圖,這些相機(jī)視圖一起包括每個(gè)參與者的至少一個(gè)視圖;多個(gè)麥克風(fēng);音頻處理模塊,被耦合到所述多個(gè)麥克風(fēng)并被配置為生成音頻數(shù)據(jù)和指示在麥克風(fēng)處接收的聲音的方向的方向信息;構(gòu)圖元件,被耦合到所述視頻相機(jī)并被配置為生成一個(gè)或多個(gè)候選人視圖,每個(gè)人視圖是包含至少一個(gè)參與者的頭部和肩部視圖的區(qū)域;以及視頻指導(dǎo)器元件,被耦合到所述構(gòu)圖模塊和所述音頻處理模塊,并被配置為根據(jù)所述方向信息選擇所述候選人視圖中將被發(fā)送給一個(gè)或多個(gè)遠(yuǎn)程端點(diǎn)的至少一個(gè)候選人視圖。
2.如權(quán)利要求1所述的裝置,其中,相機(jī)被設(shè)置為每個(gè)相機(jī)生成一候選人視圖,其中,所述構(gòu)圖元件被配置為根據(jù)所述方向信息選擇將被發(fā)送給所述一個(gè)或多個(gè)遠(yuǎn)程端點(diǎn)的至少一個(gè)相機(jī)視圖,并且其中,所述裝置還包括視頻選擇器元件,被耦合到所述視頻指導(dǎo)器和所述視頻相機(jī),并被配置為根據(jù)所述視頻指導(dǎo)器的選擇來切換到所述相機(jī)視圖中用于壓縮和發(fā)送到一個(gè)或多個(gè)遠(yuǎn)程端點(diǎn)的至少一個(gè)相機(jī)視圖。
3.如權(quán)利要求1所述的裝置,還包括臉部檢測元件,被耦合到相機(jī)并且被配置為確定每個(gè)相機(jī)視圖中每個(gè)參與者臉部的位置并且將所確定的一個(gè)或多個(gè)位置輸出給所述構(gòu)圖元件,其中,所述相機(jī)視圖不一定是人視圖,其中,所述構(gòu)圖模塊經(jīng)由所述臉部檢測元件被耦合到相機(jī),并且還被配置為根據(jù)所確定的臉部位置來生成一個(gè)或多個(gè)候選人視圖并且向所述視頻指導(dǎo)器輸出候選視圖信息,每個(gè)候選人視圖是包含至少一個(gè)參與者的頭部和肩部視圖的區(qū)域,其中,所述視頻指導(dǎo)器還被配置為根據(jù)所述視頻指導(dǎo)器的選擇來輸出所選視圖信息,并且其中,所述裝置還包括電子云臺(tái)元件,被耦合到所述視頻指導(dǎo)器和所述視頻相機(jī),并被配置為根據(jù)所選視圖信息來生成與所述候選視圖中用于壓縮和發(fā)送給一個(gè)或多個(gè)遠(yuǎn)程端點(diǎn)的至少一個(gè)候選視圖相對(duì)應(yīng)的視頻。
4.如權(quán)利要求3所述的裝置,其中,每個(gè)參與者出現(xiàn)在僅一個(gè)人視圖中。
5.如權(quán)利要求3所述的裝置,其中,每個(gè)參與者可能出現(xiàn)在多于一個(gè)人視圖中,并且其中,所述構(gòu)圖元件包括被配置為構(gòu)成人視圖的第一構(gòu)圖元件以及被配置為從所構(gòu)成的人視圖中選擇候選人視圖的第二構(gòu)圖元件,以使得每個(gè)參與者出現(xiàn)在僅一個(gè)候選人視圖中。
6.如權(quán)利要求3所述的裝置,其中,所述電子云臺(tái)元件聯(lián)合所述構(gòu)圖元件還被配置來構(gòu)造正面人視圖,包括校正由于與每個(gè)人視圖相對(duì)應(yīng)的相機(jī)視圖未包括該人視圖中的一個(gè)或多個(gè)參與者的一個(gè)或多個(gè)正面視圖而導(dǎo)致的失真中的至少一些。
7.如權(quán)利要求3所述的裝置,其中,所述構(gòu)圖元件還被配置來執(zhí)行透視校正。
8.一種用于操作處理系統(tǒng)的方法,該方法包括接受會(huì)議中的至少一些參與者的多個(gè)相機(jī)視圖,每個(gè)相機(jī)視圖來自對(duì)應(yīng)的視頻相機(jī), 這些相機(jī)視圖一起包括每個(gè)參與者的至少一個(gè)視圖;接受來自多個(gè)麥克風(fēng)的音頻;處理來自所述多個(gè)麥克風(fēng)的音頻以生成音頻數(shù)據(jù)和指示在麥克風(fēng)處接收的聲音的方向的方向信息;生成一個(gè)或多個(gè)候選人視圖,每個(gè)人視圖是包含至少一個(gè)參與者的頭部和肩部視圖的區(qū)域;以及根據(jù)所述方向信息選擇所述候選人視圖中將被發(fā)送給一個(gè)或多個(gè)遠(yuǎn)程端點(diǎn)的至少一個(gè)候選人視圖。
9.如權(quán)利要求8所述的方法,其中,所接受的相機(jī)視圖各自是候選人視圖,該方法還包括響應(yīng)于所作的選擇,切換到所接受的相機(jī)視圖中用于壓縮和發(fā)送到一個(gè)或多個(gè)遠(yuǎn)程端點(diǎn)的至少一個(gè)相機(jī)視圖。
10.如權(quán)利要求8所述的方法,檢測相機(jī)視圖中的任何臉部并且確定每個(gè)相機(jī)視圖中每個(gè)所檢測臉部的位置,其中,所述相機(jī)視圖不一定是人視圖,其中,所述一個(gè)或多個(gè)候選人視圖的生成是根據(jù)所確定的臉部位置來進(jìn)行的,以使得每個(gè)候選人視圖是包含至少一個(gè)參與者的頭部和肩部視圖的區(qū)域,該生成確定了候選視圖信息,并且其中,根據(jù)所述方向信息作出選擇包括根據(jù)所作的選擇來提供所選視圖信息,并且其中,該方法還包括根據(jù)所選視圖信息來生成與所述候選視圖中用于壓縮和發(fā)送給一個(gè)或多個(gè)遠(yuǎn)程端點(diǎn)的至少一個(gè)候選視圖相對(duì)應(yīng)的視頻。
11.如權(quán)利要求10所述的方法,其中,每個(gè)參與者出現(xiàn)在僅一個(gè)人視圖中。
12.如權(quán)利要求10所述的方法,其中,每個(gè)參與者可能出現(xiàn)在多于一個(gè)人視圖中,該方法還包括構(gòu)成可能的人視圖,并且從所構(gòu)成的可能人視圖中選擇候選人視圖,以使得每個(gè)參與者出現(xiàn)在僅一個(gè)候選人視圖中。
13.如權(quán)利要求10所述的方法,其中,根據(jù)所選視圖信息的生成包括校正由于與每個(gè)人視圖相對(duì)應(yīng)的相機(jī)視圖未包括該人視圖中的一個(gè)或多個(gè)參與者的一個(gè)或多個(gè)正面視圖而導(dǎo)致的失真中的至少一些。
14.如權(quán)利要求10所述的方法,根據(jù)所選視圖信息的生成包括透視校正。
15.一種用于操作處理系統(tǒng)的方法,包括對(duì)于來自房間中的對(duì)應(yīng)視頻相機(jī)的多個(gè)相機(jī)視圖,檢測相機(jī)視圖中的任何臉部;確定該房間中參與者的位置;確定哪個(gè)臉部或哪些臉部在多于一個(gè)相機(jī)視圖中;對(duì)于一個(gè)或多個(gè)相鄰臉部的每個(gè)子群組,構(gòu)成一人視圖; 為每個(gè)參與者選擇各自的人視圖;將每個(gè)人視圖映射到一個(gè)或多個(gè)所確定的語音方向,這樣的每個(gè)所確定的語音方向被與人視圖之一相關(guān)聯(lián);以及選擇用于發(fā)送給遠(yuǎn)程端點(diǎn)的一個(gè)或多個(gè)人視圖,以使得被選擇用于發(fā)送的人視圖的視頻能被形成。
16.如權(quán)利要求15所述的方法,還包括當(dāng)語音方向改變時(shí),根據(jù)聲音方向在人視圖之間進(jìn)行切換。
17.如權(quán)利要求15所述的方法,其中,臉部檢測包括確定相機(jī)視圖內(nèi)每個(gè)臉部的位置以及該臉部的大小的尺寸。
18.如權(quán)利要求17所述的方法,其中,臉部檢測包括如下中的至少一者眼睛檢測和 /或?qū)E圓形狀擬合到在與臉部相對(duì)應(yīng)的相機(jī)視圖中檢測到的邊緣,并且其中,在僅眼睛檢測被使用的情況中,臉部的大小的尺寸是由檢測到的該臉部中的眼睛之間的距離來確定的,并且其中,在僅橢圓形狀擬合被使用的情況中,該臉部的尺寸是從橢圓形狀被擬合到臉部的邊緣的性質(zhì)來確定的。
19.如權(quán)利要求17所述的方法,每個(gè)相機(jī)位置預(yù)先被確定,并且其中,該方法包括確定每個(gè)臉部離預(yù)先確定的相機(jī)位置的近似距離。
20.一種在其上編碼有可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì),當(dāng)所述可執(zhí)行指令被處理系統(tǒng)的至少一個(gè)處理器運(yùn)行時(shí),使得執(zhí)行方法,該方法包括對(duì)于來自房間中的對(duì)應(yīng)視頻相機(jī)的多個(gè)相機(jī)視圖,檢測相機(jī)視圖中的任何臉部;確定該房間中參與者的位置;確定哪個(gè)臉部或哪些臉部在多于一個(gè)相機(jī)視圖中;對(duì)于一個(gè)或多個(gè)相鄰臉部的每個(gè)子群組,構(gòu)成一人視圖;為每個(gè)參與者選擇各自的人視圖;將每個(gè)人視圖映射到一個(gè)或多個(gè)所確定的語音方向,這樣的每個(gè)所確定的語音方向被與人視圖之一相關(guān)聯(lián);以及選擇用于發(fā)送給遠(yuǎn)程端點(diǎn)的一個(gè)或多個(gè)人視圖,以使得被選擇用于發(fā)送的人視圖的視頻能被形成。
全文摘要
一種方法、裝置和存儲(chǔ)介質(zhì),該存儲(chǔ)介質(zhì)具有執(zhí)行方法的可執(zhí)行代碼,該方法包括接受遠(yuǎn)程會(huì)議中的至少一些參與者的相機(jī)視圖,每個(gè)視圖來自對(duì)應(yīng)的視頻相機(jī),這些相機(jī)視圖一起包括每個(gè)參與者的至少一個(gè)視圖。該方法包括接受來自多個(gè)麥克風(fēng)的音頻,并且處理來自所述多個(gè)麥克風(fēng)的音頻以生成音頻數(shù)據(jù)和指示在麥克風(fēng)處接收的聲音的方向的方向信息。該方法還包括生成一個(gè)或多個(gè)候選人視圖,每個(gè)人視圖是包含至少一個(gè)參與者的頭部和肩部視圖的區(qū)域。該方法還包括根據(jù)所述方向信息選擇所述候選人視圖中將被發(fā)送給一個(gè)或多個(gè)遠(yuǎn)程端點(diǎn)的至少一個(gè)人視圖。
文檔編號(hào)H04N7/15GK102282847SQ200980155006
公開日2011年12月14日 申請(qǐng)日期2009年11月11日 優(yōu)先權(quán)日2008年11月20日
發(fā)明者J·威廉·穆澈利, 約瑟夫·T·福瑞爾 申請(qǐng)人:思科技術(shù)公司