在電視會(huì)議和其它應(yīng)用中用于自適應(yīng)位置確定的方法和設(shè)備的制作方法

文檔序號(hào)：7644317閱讀：183來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

專利名稱：在電視會(huì)議和其它應(yīng)用中用于自適應(yīng)位置確定的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域：
本發(fā)明總的涉及視頻信號(hào)處理的領(lǐng)域，更具體地，涉及通過使用視頻攝像機(jī)以使得可以得到想要的視頻輸出而識(shí)別感興趣的個(gè)人或其它目標(biāo)的位置的技術(shù)。
背景技術(shù)：
跟蹤圖象中感興趣的個(gè)人或另一個(gè)目標(biāo)，是基于視頻攝像機(jī)的系統(tǒng)的一個(gè)重要的方面，諸如電視會(huì)議系統(tǒng)和視頻監(jiān)視系統(tǒng)。例如，在電視會(huì)議系統(tǒng)中，常常希望把特定的會(huì)議參加者的頭部和肩部攝進(jìn)屏幕，放置在最終的輸出信號(hào)中。
電視會(huì)議常常利用鏡頭左右掃描-俯仰掃描-變焦(PTZ)攝像機(jī)來跟蹤感興趣的物體。PTZ攝像機(jī)允許系統(tǒng)定位和光學(xué)聚焦攝像機(jī)來執(zhí)行跟蹤任務(wù)，這種方法的一個(gè)問題是，在某些情形下，跟蹤機(jī)構(gòu)不夠魯棒，不適用于感興趣目標(biāo)的位置的突然改變。這可能是由于攝像機(jī)常常調(diào)焦到太遠(yuǎn)而不能對(duì)突然的改變作出反應(yīng)。例如，在電視會(huì)議系統(tǒng)中常常會(huì)有參加者在他們的座位內(nèi)移動(dòng)，例如，前后俯仰，或左右擺動(dòng)。如果PTZ攝像機(jī)對(duì)特定的參加者推進(jìn)焦距太遠(yuǎn)，則參加者的小的運(yùn)動(dòng)都會(huì)使得PTZ攝像機(jī)會(huì)失去對(duì)該參加者的跟蹤，而必須拉出焦距，以及進(jìn)行重新跟蹤，這將使得最終輸出的視頻信號(hào)的觀看者迷惑。
開始，用于電視會(huì)議系統(tǒng)中的PTZ攝像機(jī)的控制系統(tǒng)要求操作者進(jìn)行人工調(diào)整攝像機(jī)，保持聚焦到當(dāng)前的講話人。然而逐步地，電視會(huì)議系統(tǒng)的用戶要求免提操作，其中PTZ攝像機(jī)的控制必須全自動(dòng)。提出或建議了多種技術(shù)，用于根據(jù)音頻和視頻信息自動(dòng)檢測個(gè)人。音頻定位器處理從話筒陣列得到的音頻信息，以及確定講話者的位置。具體地，當(dāng)已知相對(duì)話筒位置時(shí)，聲音源的位置可以通過使用熟知的三角方法從來自單個(gè)源的聲波的估計(jì)的傳播時(shí)間差而被確定。
同樣地，視頻定位器定位在視頻圖象中感興趣的一個(gè)或多個(gè)目標(biāo)。在電視會(huì)議系統(tǒng)方面，感興趣的物體是講話者的頭部和肩部。視頻定位器通過使用圖象中的講話者的頭部尺寸和位置的信息來組織安排講話者的頭部和肩部。多種熟知的技術(shù)可供使用來檢測圖象中個(gè)人的位置，包括皮膚色調(diào)檢測，面部檢測和背景扣除。對(duì)于用于檢測圖象中個(gè)人的位置的這些技術(shù)的更詳細(xì)的討論，可參閱“FaceRecognitionFrom Theory to Applications(面部識(shí)別從理論到應(yīng)用)”(NATO ASI Series，Springer Verlag，New York，H.Wechsler等，editors，1998)，該文章引用在此，以供參考。
所以，需要有改進(jìn)的技術(shù)，可以檢測圖象處理系統(tǒng)(諸如，電視會(huì)議系統(tǒng))中的個(gè)人。進(jìn)一步需要用于以減小的計(jì)算負(fù)荷檢測在這樣的圖象處理系統(tǒng)中的個(gè)人的方法和設(shè)備。
發(fā)明概要總的來講，本發(fā)明公開了在視頻處理系統(tǒng)中用于通過使用集結(jié)技術(shù)跟蹤感興趣的物體的方法和設(shè)備。具體地，本發(fā)明把一個(gè)區(qū)域劃分成近似的區(qū)域，被稱為一個(gè)集群，每個(gè)集群與一個(gè)感興趣的物體相聯(lián)系。每個(gè)集群與它的平均的左右掃描、俯仰掃描和變焦數(shù)值有關(guān)。在說明的電視會(huì)議實(shí)施方案中，音頻或視頻信息，或二者，被用來識(shí)別與講話者有關(guān)的集群。如果可能的話，一旦講話者的集群被識(shí)別，攝像機(jī)就聚焦在該集群上，使用記錄的左右掃描、俯仰掃描和變焦數(shù)值。
在一個(gè)實(shí)施方案中，事件累積器初始地累積音頻事件(以及任選的視頻事件)一段特定的時(shí)間，諸如大約3到5秒，允許幾個(gè)講話者講話。累積的音頻事件然后被集群生成器使用來生成與各種感興趣的物體有關(guān)的集群。說明的集群生成器采用兩級(jí)，即，未監(jiān)管的集結(jié)級(jí)，諸如相減的集結(jié)技術(shù)，以及監(jiān)管的集結(jié)級(jí)，諸如迭代的基于最佳化的集結(jié)技術(shù)(即，K平均值集結(jié))。一旦形成初始的集群，它們就被編號(hào)放置在位置歷史數(shù)據(jù)庫中，每個(gè)集群的左右掃描和俯仰掃描數(shù)值，以及變焦因子，如果可提供的話，等于相應(yīng)的集群平均左右掃描、俯仰掃描和變焦數(shù)值。
在集群初始化以后，說明的事件累積器按周期間隔，諸如每2秒，收集事件。在每個(gè)時(shí)間間隔中出現(xiàn)的左右掃描和俯仰掃描數(shù)值(和變焦數(shù)值，如果可提供的話)的平均值然后被用來根據(jù)經(jīng)驗(yàn)設(shè)置的門限值通過同一性估值器計(jì)算在數(shù)據(jù)庫中各種集群之間的距離(例如，歐拉距離(Euclidean))。如果該距離大于確定的門限值，則形成相應(yīng)于新的講話者的新的集群，以及被編號(hào)放置在數(shù)據(jù)庫中。否則，攝像機(jī)被聚焦在被識(shí)別的集群上。
在另一個(gè)變例中，當(dāng)感興趣的物體可能位于一個(gè)或多個(gè)集群時(shí)，采用模糊集結(jié)技術(shù)來使得攝像機(jī)在給定的時(shí)間內(nèi)聚焦在一個(gè)以上的集群上。通常，成員數(shù)值被分配給每個(gè)集群，表示給定的數(shù)據(jù)點(diǎn)屬于集群的或然率。如果成員數(shù)值沒有明顯地提出特定的集群，則攝像機(jī)可以同時(shí)聚焦在具有最高的成員數(shù)值的多個(gè)集群上。
參照以下的詳細(xì)說明和附圖，可以更全面地了解本發(fā)明，以及本發(fā)明的進(jìn)一步的特性和優(yōu)點(diǎn)。
附圖簡述

圖1是按照本發(fā)明的說明性實(shí)施例的視頻處理系統(tǒng)的方框圖；圖2是顯示在圖1的系統(tǒng)中實(shí)施的自適應(yīng)跟蹤視頻處理運(yùn)行的功能性方框圖；圖3是顯示圖1的自適應(yīng)位置定位器的功能性方框圖；圖4是從處理過程的觀點(diǎn)描述圖3的事件累積器的流程圖；圖5是圖3的集群生成器的方框圖；圖6是描述圖5的非監(jiān)管的集結(jié)處理過程的流程圖；圖7是描述圖5的監(jiān)管的集結(jié)處理過程的流程圖；以及圖8是從處理過程的觀點(diǎn)描述圖3的同一性估值器的流程圖。
發(fā)明詳細(xì)描述圖1顯示按照本發(fā)明的說明性實(shí)施例的視頻處理系統(tǒng)10。系統(tǒng)10包括處理器12，存儲(chǔ)器14，輸入/輸出(I/O)裝置15以及自適應(yīng)位置定位器300，下面結(jié)合圖3進(jìn)一步討論，全部被連接來通過系統(tǒng)總線17進(jìn)行通信。系統(tǒng)10還包括鏡頭左右掃描-俯仰掃描-變焦(PTZ)攝像機(jī)18，如圖所示，它被耦合到自適應(yīng)位置定位器300。
在說明性實(shí)施例中，PTZ攝像機(jī)18被用于電視會(huì)議場合，其中表格20收容多個(gè)會(huì)議參加者22-1，…，22-k，…，22-N。在運(yùn)行時(shí)，PTZ攝像機(jī)18，由自適應(yīng)位置定位器300按照從處理器12接收的指令引導(dǎo)的，跟蹤感興趣的物體，在本例的應(yīng)用中，它相應(yīng)于特定的參加者22-k。另外，如圖1所示，視頻處理系統(tǒng)10包括話筒陣列16，用于按已知的方式獲取音頻信息。
雖然本發(fā)明是結(jié)合電視會(huì)議的場合被說明的，但應(yīng)當(dāng)看到，視頻處理系統(tǒng)10可被使用于各種各樣的其它的應(yīng)用項(xiàng)。例如，系統(tǒng)10的一個(gè)部分24可被使用于視頻監(jiān)視應(yīng)用，以及其它類型的電視會(huì)議場合，例如，涉及像正式會(huì)議那樣的座位安排，圓桌或方桌安排等的應(yīng)用。更一般地，系統(tǒng)10的一個(gè)部分24可被使用于可從由這里描述的自適應(yīng)位置定位器300提供的改進(jìn)的跟蹤功能獲得益處的任何應(yīng)用項(xiàng)。所以，系統(tǒng)10的一個(gè)部分26可以用其它的電視會(huì)議裝置，視頻監(jiān)視裝置，或通過使用系統(tǒng)10的部分24跟蹤感興趣的一個(gè)或多個(gè)目標(biāo)的任何其它裝置來代替。將會(huì)看到，本發(fā)明可以結(jié)合除PTZ攝像機(jī)以外的圖象獲取設(shè)備被使用。所以，這里使用的術(shù)語“攝像機(jī)”打算包括任何類型的、可以結(jié)合這里描述的自適應(yīng)位置定位器300被使用的、圖象獲取設(shè)備。
應(yīng)當(dāng)指出，系統(tǒng)10的元件或元件組可以代表其它的傳統(tǒng)的臺(tái)式或便攜式計(jì)算機(jī)的元件，以及這些和其它處理設(shè)備的部件或組合。而且，在本發(fā)明的其它實(shí)施例中，處理器12、控制器16或系統(tǒng)10的其它元件的某些或全部功能可以被組合成單個(gè)裝置。例如，系統(tǒng)10的一個(gè)或多個(gè)元件可以用被引用于計(jì)算機(jī)、電視機(jī)、機(jī)頂盒或其它處理設(shè)備中的專用集成電路(ASIC)或其它電路卡，來實(shí)施。這里使用的術(shù)語“處理器”打算包括微處理器、中央處理機(jī)、微控制器或任何其它的、可被利用于已知的數(shù)據(jù)處理設(shè)備的數(shù)據(jù)處理元件。另外，應(yīng)當(dāng)指出，存儲(chǔ)器14可以代表電子存儲(chǔ)器、基于光盤或磁盤的存儲(chǔ)器、基于磁帶的存儲(chǔ)器、以及這些或其它類型的貯存器件的組合或部分。
自適應(yīng)位置跟蹤技術(shù)圖2是顯示由圖1的自適應(yīng)位置定位器實(shí)施的跟蹤和變焦特性的功能性方框圖。再次地，雖然是結(jié)合電視會(huì)議應(yīng)用方面顯示的，將會(huì)看到，所描述的技術(shù)可容易地應(yīng)用于任何其它的跟蹤應(yīng)用項(xiàng)中。如圖2所示，跟蹤和變焦特性包括檢測和跟蹤運(yùn)行32以及光學(xué)變焦運(yùn)行34。這些運(yùn)行將參照?qǐng)D象40，42和44被描述，這些圖象相應(yīng)于在系統(tǒng)10的部分26中對(duì)于示例性電視會(huì)議應(yīng)用項(xiàng)生成的圖象。運(yùn)行32和34在系統(tǒng)10中可以由處理器12和自適應(yīng)位置定位器300來實(shí)施，利用被存儲(chǔ)在存儲(chǔ)器14中的、或可通過I/O裝置15從本地或遠(yuǎn)端貯存裝置可接入的、一個(gè)或多個(gè)軟件程序。
在運(yùn)行時(shí)，PTZ攝像機(jī)18生成圖象，它包括感興趣的物體，即，電視會(huì)議參加者22-k，和附加目標(biāo)，即，與感興趣的物體相鄰的另一個(gè)參加者22-k+1。圖象40作為視頻輸入被提供給檢測和跟蹤運(yùn)行32，它通過使用傳統(tǒng)的檢測和跟蹤技術(shù)來檢測和跟蹤感興趣的物體22-k。
例如，在電視會(huì)議應(yīng)用項(xiàng)中，感興趣的物體22-k相應(yīng)于當(dāng)前的講話者。在這種情形下，檢測和跟蹤運(yùn)行32可以通過使用音頻定位來檢測和跟蹤感興趣的物體，諸如確定哪些會(huì)議參加者是當(dāng)前的講話者，下面結(jié)合圖3進(jìn)一步討論。在另一個(gè)變例中，當(dāng)前的講話者可以通過使用運(yùn)動(dòng)檢測、打手勢、搖頭、以特定的方式運(yùn)動(dòng)或以特定的方式講話，而被識(shí)別。
在視頻監(jiān)視應(yīng)用中，感興趣的物體可以是進(jìn)行特定的活動(dòng)的個(gè)人，例如，進(jìn)入或離開限制的區(qū)域，或從事可疑的行為，在家庭的房間內(nèi)走來走去的兒童，進(jìn)入或離開停車場的汽車等等。檢測和跟蹤運(yùn)行32的輸出包括識(shí)別感興趣的特定的目標(biāo)22-k，如在圖象42中打陰影線顯示的。
圖2的光學(xué)變焦運(yùn)行34提供足夠量的變焦，以便確保可以達(dá)到想要的圖象質(zhì)量，而同時(shí)也允許感興趣的物體的一定的運(yùn)動(dòng)量。光學(xué)變焦運(yùn)行34包括具有用于把感興趣的物體22-k組織成幀的鏡頭左右和俯仰掃描運(yùn)行的編成幀的部分，后面跟隨具有變焦運(yùn)行的變焦部分，它一直進(jìn)行，直至規(guī)定的停止準(zhǔn)則滿足為止，下面結(jié)合圖3進(jìn)一步討論。通常，有多個(gè)可被使用的不同類型的停止準(zhǔn)則。在固定的停止準(zhǔn)則方法中，光學(xué)變焦一直進(jìn)行，直至感興趣的物體占據(jù)固定的百分比的圖象為止。例如，在電視會(huì)議系統(tǒng)中，光學(xué)變焦可以一直進(jìn)行，直至當(dāng)前的講話者的頭部占據(jù)圖象的垂直尺寸的約25％與35％之間為止。當(dāng)然，使用的特定的百分?jǐn)?shù)將取決于跟蹤應(yīng)用項(xiàng)而變化。適合于特定的應(yīng)用項(xiàng)的特定的百分?jǐn)?shù)可以直接由本領(lǐng)域技術(shù)人員來確定。
如圖2所示，光學(xué)變焦運(yùn)行34的結(jié)果是光學(xué)變焦圖象44，其中感興趣的物體22-k大約在圖象的中心，以及占據(jù)圖象的想要的百分?jǐn)?shù)，正如根據(jù)上述的準(zhǔn)則被確定的。圖象44可以由系統(tǒng)10被存儲(chǔ)在存儲(chǔ)器14。
自適應(yīng)位置定位器圖3是顯示圖1的系統(tǒng)中實(shí)施的自適應(yīng)位置定位器300的功能性方框圖。如圖3所示，自適應(yīng)位置定位器300包括音頻定位器310，面部跟蹤器320，面部定位器330，事件累積器340，集群生成器350，同一性估值器360，位置歷史數(shù)據(jù)庫370，探索模塊380以及更新顯示模塊390。
正如下面進(jìn)一步討論的，本發(fā)明利用事件累積器340，它初始地累積音頻事件一段規(guī)定的時(shí)間，諸如大約3到5秒。累積的音頻事件然后被集群生成器350利用，下面結(jié)合圖5進(jìn)一步討論，生成與各個(gè)感興趣的物體有關(guān)的集群。正如下面結(jié)合圖5到7進(jìn)一步討論，說明性集群生成器350利用兩級(jí)。在第一集結(jié)級(jí)，執(zhí)行未監(jiān)管的集結(jié)，諸如相減的集結(jié)技術(shù)。一般地，相減集結(jié)是快速一次通過的算法，用于估計(jì)集群的數(shù)目，以及集群位于數(shù)據(jù)組的中心。在相減集結(jié)技術(shù)中，集群的數(shù)目通常不需要被規(guī)定，而同時(shí)必須規(guī)定每個(gè)集群的近似寬度。
集群估值然后被使用來初始化第二集結(jié)級(jí)，在其中執(zhí)行迭代的基于最佳化的集結(jié)方法，諸如K平均值集結(jié)。一旦初始的集群被形成，則它們被編號(hào)到位置歷史數(shù)據(jù)庫370，用于每個(gè)集群的鏡頭左右和俯仰數(shù)值等于相應(yīng)的集群平均鏡頭左右掃描和俯仰掃描數(shù)值。如果變焦因子是從事件累積器340可提供的，則變焦因子也成為集群記錄的一部分。因此，每個(gè)集群由它的相應(yīng)的左右掃描、俯仰掃描和變焦因子數(shù)值代表，如果可提供的話。
在集群初始化后，說明性事件累積器340被復(fù)位，每2秒收集事件。在每2秒時(shí)間間隔內(nèi)出現(xiàn)的左右和俯仰數(shù)值的平均值然后被同一性估值器360使用來根據(jù)經(jīng)驗(yàn)設(shè)置的門限值計(jì)算在數(shù)據(jù)庫370中的各個(gè)集群之間的距離(例如歐拉距離)，下面結(jié)合圖8進(jìn)一步討論。如果距離大于建立的門限值，則新的集群被形成，相應(yīng)于新的講話者，以及被編號(hào)到數(shù)據(jù)庫370。
在每2秒時(shí)間間隔內(nèi)左右掃描和俯仰掃描數(shù)值的平均值也被使用來調(diào)整攝像機(jī)18的位置，如果必要的話。另外，變焦因子也可能是從面部定位器模塊330可提供的。因此，在每2秒時(shí)間間隔內(nèi)，左右掃描、俯仰掃描、和變焦因子(如果可提供的話)根據(jù)經(jīng)驗(yàn)設(shè)置的門限值通過探查模塊380被記錄作為可變長度記錄。對(duì)于變焦因子和左右、俯仰的使用的頻率將被保持，以便確定在會(huì)議進(jìn)程中參加者22-N的位置和運(yùn)動(dòng)。
探查模塊380控制攝像機(jī)18，以及按由面部定位器330確定的的方向定位攝像機(jī)18。另外，探查模塊380被使用來決定何時(shí)在接收機(jī)處更新顯示器(未示出)。通常，探查模塊380采用技術(shù)保持?jǐn)z像機(jī)18聚焦在當(dāng)前的講話者，而不管其它的噪聲，由其它人發(fā)出的短的發(fā)聲，或講話者的運(yùn)動(dòng)。換句話說，探查模塊380試圖識(shí)別由音頻定位器310或面部定位器330生成的虛假事件。對(duì)于可能由探查模塊380實(shí)施的各種策略的詳細(xì)的討論，可參閱Ramesh Jain等的“Machine Vision(機(jī)器影像)”，McGraw-Hill，New York(1995)，該書引用在此，以供參考。
如前所述，事件累積器340累積事件某個(gè)規(guī)定的時(shí)間間隔，以及在初始化期間把這些事件傳送到集群生成器350。時(shí)間限制這樣地選擇，以使得至少足夠數(shù)目的人講話。已經(jīng)看到，約5秒的時(shí)間限制是適當(dāng)?shù)摹?yīng)當(dāng)指出，音頻事件由說明性音頻定位器310每33毫秒被產(chǎn)生。音頻事件所包含的特定的信息包括左右掃描(水平)和俯仰掃描(垂直)角度。音頻定位器310可以通過使用例如在以下專利申請(qǐng)中描述的音頻定位系統(tǒng)來實(shí)施2000年4月13日提交的、題目為“Method and Apparatus for Tracking Moving Objects UsingCombined Video and Audio Information in Video Conferencingand Other Applications(用于通過使用在電視會(huì)議和其它應(yīng)用項(xiàng)中的組合的視頻和音頻信息跟蹤運(yùn)動(dòng)物體的方法和設(shè)備)”的美國專利申請(qǐng)序列號(hào)＿(代理檔案號(hào)No.700966)和1999年11月8日提交的、題目為“Improved Signal Localization Arrangement(改進(jìn)的信號(hào)本地化裝置)”的美國專利申請(qǐng)序列號(hào)09/436,193，，每個(gè)專利申請(qǐng)都轉(zhuǎn)讓給本發(fā)明的受讓人，這兩個(gè)專利申請(qǐng)引用在此，以供參考。
被包含在視頻事件中的特定的信息是變焦因子。面部跟蹤器320和面部定位器330可以通過使用例如在以下專利申請(qǐng)中描述的音頻定位系統(tǒng)來實(shí)施1999年11月24日提交的、題目為“Method andApparatus for Detecting Moving Objects in Video Conferencingand Other Applications(用于檢測在電視會(huì)議和其它應(yīng)用項(xiàng)中的運(yùn)動(dòng)物體的方法和設(shè)備)”的美國專利申請(qǐng)序列號(hào)09/449,250和2000年4月13日提交的、題目為“Method and Apparatus for TrackingMoving Objects Using Combined Video and Audio Information inVideo Conferencing and Other Applications(用于通過使用在電視會(huì)議和其它應(yīng)用項(xiàng)中的組合的視頻和音頻信息跟蹤移動(dòng)目標(biāo)的方法和設(shè)備)”的美國專利申請(qǐng)序列號(hào)＿(代理檔案號(hào)No.700966)，每個(gè)專利申請(qǐng)都轉(zhuǎn)讓給本發(fā)明的受讓人，這兩個(gè)專利申請(qǐng)引用在此，以供參考。正如以上結(jié)合圖2討論的，視頻系統(tǒng)也試圖聚焦(變焦)在面部，以使得面部以正確的寬高比顯示。如果變焦因子是不可提供的，則變焦因子不傳送到集群生成器350。在說明性實(shí)施例中，每100毫秒產(chǎn)生一個(gè)視頻事件。
圖4是從處理過程的觀點(diǎn)描述圖3的事件累積器340的流程圖。如圖所示，事件累積器340分別從話筒陣列16和攝像機(jī)18接收語音和視頻信息。語音信息被加到音頻定位器310，以及視頻信息被加到面部跟蹤器/定位器320/330，正如以上討論的。
在步驟410期間，進(jìn)行測試來確定當(dāng)前的時(shí)間間隔是否仍舊是規(guī)定的系統(tǒng)啟動(dòng)時(shí)間的一部分。在說明性實(shí)施例中，啟動(dòng)時(shí)間是3到5秒。如果在步驟410期間，確定當(dāng)前的時(shí)間間隔仍舊是規(guī)定的系統(tǒng)啟動(dòng)時(shí)間的一部分，則在步驟420期間執(zhí)行進(jìn)一步測試，以確定定時(shí)器是否超過5秒。
如果在步驟420期間確定定時(shí)器還沒有超過5秒，則程序控制轉(zhuǎn)到開始端，繼續(xù)處理來自話筒和攝像機(jī)16，18的音頻和視頻信息。如果在步驟420期間確定定時(shí)器超過5秒，則累積的信息被加到集群生成器350，下面參照?qǐng)D5討論。
如果在步驟410期間確定當(dāng)前的時(shí)間間隔不再是規(guī)定的系統(tǒng)啟動(dòng)時(shí)間的一部分，則在步驟430期間執(zhí)行進(jìn)一步的測試，確定定時(shí)器是否超過2秒。如果在步驟430期間確定定時(shí)器還沒有超過2秒，則程序控制回到開始端，繼續(xù)處理來自話筒和攝像機(jī)16，18的音頻和視頻信息。然而，如果在步驟430期間確定定時(shí)器超過2秒，則累積的信息被加到同一性估值器360，下面參照?qǐng)D8進(jìn)一步討論。
如前所述，圖5所示的集群生成器350以未監(jiān)管模式和監(jiān)管模式工作在兩個(gè)建立的級(jí)。圖6所示的未監(jiān)管集結(jié)處理過程500采用相減的集結(jié)處理過程。未監(jiān)管集結(jié)處理過程600發(fā)現(xiàn)的集群然后被傳送到監(jiān)管集結(jié)處理過程700，如圖7所示，它采用用于細(xì)調(diào)節(jié)的k平均值集結(jié)處理過程。相減的集結(jié)在集群數(shù)目不需要規(guī)定的意義上是完全非監(jiān)管的。被規(guī)定的唯一的參量是集群的預(yù)期的擴(kuò)散。一旦找到集群，集群的數(shù)目被傳送到k平均值集結(jié)處理過程。因此，k平均值集結(jié)處理過程取一個(gè)參量，集群數(shù)目。
如前所述，集群生成器350利用如圖6所示的非監(jiān)管的集結(jié)處理過程600，識(shí)別與感興趣的目標(biāo)有關(guān)的集群。在說明性實(shí)施例中，非監(jiān)管的集結(jié)處理過程600利用相減的集結(jié)技術(shù)。對(duì)于相減的集結(jié)技術(shù)的更詳細(xì)的討論，例如，可參閱Stephen L.Chiu，“Fuzzy ModelIdentification Based on Cluster Estimation(基于集群估值的模糊模型識(shí)別)”Journal of Intelligent and Fuzzy Systems，Vol.2，267-278(1994)，該文章引用在此，以供參考。
圖6顯示描述非監(jiān)管的集結(jié)處理過程600的流程圖，它識(shí)別與感興趣的目標(biāo)有關(guān)的集群，諸如當(dāng)前的講話者?？紤]在M維空間的n時(shí)間點(diǎn)集{x1，x2，…，xn}，其中每個(gè)數(shù)據(jù)點(diǎn)是潛在的集群中心。給定的數(shù)據(jù)點(diǎn)xi的電位的度量被規(guī)定為Pi=Σj=1ne-α||xj-xj||2---(1)]]>其中α=4ra2]]>以及ra是正的常數(shù)。因此，數(shù)據(jù)點(diǎn)的電位的度量是它到所有其它點(diǎn)的距離的函數(shù)。具有許多相鄰的數(shù)據(jù)點(diǎn)的數(shù)據(jù)點(diǎn)將具有高的電位值常數(shù)ra實(shí)際上是規(guī)定相鄰者的半徑。在這個(gè)半徑以外的數(shù)據(jù)點(diǎn)對(duì)電位具有很小的影響。
如圖6所示，在步驟610期間計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的電位。此后，在步驟620期間，選擇具有高的電位的數(shù)據(jù)點(diǎn)，作為在步驟630期間的第一集群中心。令x1*是第一集群中心的位置以及P1*是相應(yīng)的電位值。每個(gè)數(shù)據(jù)點(diǎn)xi的電位然后在步驟640期間如下地被修訂Pi&DoubleLeftArrow;Pi-P1*eβ||xi-x1*||2---(2)]]>其中β=4rb2]]>以及rb是正的常數(shù)。因此，在公式(2)中電位量從每個(gè)數(shù)據(jù)點(diǎn)被減去，作為從第一集群中心到它的距離的函數(shù)?？拷谝患褐行牡臄?shù)據(jù)點(diǎn)將具有大大地減小的電位，所以，它未必被選擇為下一個(gè)集群中心。為了避免得出位置靠近的集群中心，rb被設(shè)置為大于ra的某個(gè)數(shù)值。已發(fā)現(xiàn)良好的選擇是rb＝1.5ra。
當(dāng)所有的數(shù)據(jù)點(diǎn)的電位按照公式(2)被修訂時(shí)，具有最高的剩余的電位的數(shù)據(jù)點(diǎn)被選擇作為第而集群中心。某個(gè)數(shù)據(jù)點(diǎn)的電位然后按照它們到第二集群中心的距離被進(jìn)一步減小。通常，在得到第k個(gè)集群中心后，每個(gè)數(shù)據(jù)點(diǎn)的電位由下式被修訂Pi&DoubleLeftArrow;Pi-Pk*e-β||xi-xk*||2]]>其中xk*是第k個(gè)集群中心的位置，以及pk*是它的電位值。
得出新的集群中心和修訂電位的處理過程重復(fù)進(jìn)行，直至在步驟650期間以下的準(zhǔn)則被滿足為止。如果，則xk*被接受為集群中心，以及繼續(xù)進(jìn)行步驟660。否則，如果，則xk*為被拒絕，以及在步驟670期間集結(jié)處理過程600結(jié)束。
在步驟660期間，進(jìn)行距離測試，其中dmin等于在xk*與所有先前找到的集群中心之間距離中的最短的距離。如果(dmin/ra)+(P*k/P*1)≥1，則xk*被接受為集群中心，以及繼續(xù)處理過程。否則，xk*為被拒絕，以及在步驟640期間電位在xk*處被設(shè)置為0。具有下一個(gè)最高的電位的數(shù)據(jù)點(diǎn)被新的xk*，以及在步驟650期間進(jìn)行重新測試。
圖7顯示描述說明性監(jiān)管的集結(jié)處理過程700的流程圖，它利用k平均值集結(jié)處理過程，來細(xì)調(diào)節(jié)由分監(jiān)管的集結(jié)子程序600建立的集群。對(duì)于k平均值集結(jié)技術(shù)的更詳細(xì)的討論，例如，可參閱P.A.Devijver和J.Kittler，“Pattern Recognition - Astatistical Approach(圖案識(shí)別-統(tǒng)計(jì)方法)”Prentice HallInternational，409(1982)，該書引用在此，以供參考。
如圖7所示，監(jiān)管的集結(jié)處理過程700接收由非監(jiān)管的集結(jié)處理過程識(shí)別的集群的數(shù)目。此后，在步驟710期間，監(jiān)管的集結(jié)處理過程700生成數(shù)據(jù)組Y到k個(gè)集群的隨機(jī)劃分。因此，如果rj，j＝1，2，…，k，則在步驟720期間，計(jì)算平均矢量mj，j＝1，2，…，k。
在步驟730期間，在Y中選擇點(diǎn)y，以及點(diǎn)y被分配給其平均值最接近于y的集群。換句話說，如果dist(y，mj)＝minkdist(y，mk)，則y被分配給rj。在步驟750期間進(jìn)行測試，確定Y中的數(shù)據(jù)樣本的完全掃描是否導(dǎo)致從一個(gè)迭代到另一個(gè)迭代的集群平均值的改變。如果有改變，則在步驟740期間，平均矢量如下地被更新，mj，j＝1，2，…，k，以及程序控制返回到步驟730。
如果沒有改變，則在步驟760期間程序控制終結(jié)，以及建立的集群值被記錄在集群數(shù)據(jù)庫370中。
如前所述，同一性估值器360找到在2秒間隔中的事件平均值之間的同一性，集群由集群生成器350在起始5秒間隔內(nèi)被找到，以及被編號(hào)放置在集群數(shù)據(jù)庫360。同一性是通過使用熟知的歐拉距離度量被找到的。在數(shù)據(jù)庫360中、最接近于當(dāng)前的集群的集群中心被探索模塊380使用來發(fā)送信息到攝像機(jī)18，以便正確地聚焦。
圖8是從處理過程的觀點(diǎn)描述同一性估值器360的流程圖。如圖8所示，同一性估值器360接收來自事件累積器340的事件數(shù)據(jù)(當(dāng)前的數(shù)據(jù)點(diǎn)被處理)，和來自歷史數(shù)據(jù)庫370的集群數(shù)據(jù)。初始地，在步驟810期間，同一性估值器360計(jì)算在當(dāng)前的數(shù)據(jù)點(diǎn)與所有的以前識(shí)別的集群之間的距離。如果在步驟810期間計(jì)算的距離值不是在任何的集群的預(yù)定的門限值內(nèi)，則同一性估值器360可以建立新的集群。此后，同一性估值器360在步驟820期間為每個(gè)集群分配有關(guān)成員數(shù)值，表示數(shù)據(jù)點(diǎn)屬于相應(yīng)的集群的概率。成員數(shù)值，ui(x)，可以在步驟820期間被計(jì)算為如下ui(x)=1/||x-Zi||2/(m-1)Σj=1c(1/||x-Zj||2/(m-1))]]>其中變量m確定當(dāng)計(jì)算每個(gè)集群對(duì)成員數(shù)值的貢獻(xiàn)時(shí)距離被加權(quán)得多重。如果m是2，則每個(gè)相鄰的集群的貢獻(xiàn)通過它離被分類的點(diǎn)的距離的倒數(shù)進(jìn)行加權(quán)。當(dāng)m增加時(shí)，集群被更平等地加權(quán)，以及它們離被分類的點(diǎn)的相對(duì)距離具有較小的影響。當(dāng)m接近于1時(shí)，更靠近的集群比離得遠(yuǎn)的集群更重地被加權(quán)，這具有減小貢獻(xiàn)到被分類的點(diǎn)的成員數(shù)值的集群數(shù)目的效果。而且，x是包含鏡頭左右掃描-俯仰掃描-變焦的數(shù)值的數(shù)據(jù)矢量以及Z是集群。
在步驟830期間，同一性估值器360識(shí)別帶有最高的成員數(shù)值(概率)的單個(gè)集群，或帶有在互相的預(yù)定的公差范圍內(nèi)的成員數(shù)值的兩個(gè)集群(太靠近而不能分開)。最后，在步驟840期間，同一性估值器360發(fā)送與選擇的集群有關(guān)的、平均的鏡頭左右掃描-俯仰掃描-變焦數(shù)值到攝像機(jī)18。在這種情形下，如果在步驟830期間識(shí)別一個(gè)以上的集群，則攝像機(jī)將聚焦一個(gè)以上的集群，而不是試圖識(shí)別實(shí)際的揚(yáng)聲器。
本發(fā)明的上述的實(shí)施例僅僅是說明性的。例如，本發(fā)明可被使用來實(shí)施實(shí)時(shí)跟蹤任何想要的感興趣的物體，以及在各種各樣的應(yīng)用項(xiàng)中，包括電視會(huì)議系統(tǒng)，視頻監(jiān)視系統(tǒng)，和其它基于照相機(jī)的系統(tǒng)。另外，雖然是通過具有單個(gè)PTZ攝像機(jī)的系統(tǒng)來說明的，但本發(fā)明也可以應(yīng)用于具有多個(gè)PTZ攝像機(jī)的系統(tǒng)以及應(yīng)用于具有其它類型和安排的圖象獲取裝置的系統(tǒng)。而且，本發(fā)明可以利用許多不同類型的技術(shù)來檢測和跟蹤感興趣的物體，以及提取和插入感興趣的區(qū)域。本發(fā)明也可以至少部分地以被存儲(chǔ)在電子、磁的、或光的貯存媒體的、以及由處理設(shè)備，例如，系統(tǒng)10的處理器12執(zhí)行的、一個(gè)或多個(gè)軟件程序的形式被實(shí)施。在以下權(quán)利要求的范圍內(nèi)的這些和許多其它實(shí)施例對(duì)于本領(lǐng)域技術(shù)人員是顯而易見的。
權(quán)利要求
1.一種在視頻處理系統(tǒng)(10)中，用于跟蹤圖象空間中感興趣的物體(22)的方法，所述視頻處理系統(tǒng)(10)包括攝像機(jī)(18)和處理至少一個(gè)音頻和視頻信息，方法包括以下步驟把所述圖象空間劃分成近似的區(qū)域，每個(gè)區(qū)域與一個(gè)所述感興趣的物體(22)相聯(lián)系；處理至少一個(gè)所述音頻和視頻信息，來識(shí)別與當(dāng)前的一個(gè)所述感興趣的物體(22)有關(guān)的、一個(gè)所述近似的區(qū)域；以及把所述攝像機(jī)(18)聚焦在所述識(shí)別的至少一個(gè)所述的近似區(qū)域。
2.權(quán)利要求1的方法，其中所述劃分步驟還包括集結(jié)由音頻定位器(310)在固定的時(shí)間間隔內(nèi)產(chǎn)生的左右和俯仰掃描數(shù)值的步驟。
3.權(quán)利要求2的方法，其中所述劃分步驟還包括集結(jié)由視頻定位器(320，330)在固定的時(shí)間間隔內(nèi)產(chǎn)生的變焦數(shù)值的步驟。
4.權(quán)利要求3的方法，其中所述集結(jié)步驟還包括在初始化期間執(zhí)行非監(jiān)管的集結(jié)處理過程(600)的步驟。
5.權(quán)利要求3的方法，其中所述集結(jié)步驟還包括執(zhí)行監(jiān)管的集結(jié)處理過程(700)的步驟。
6.權(quán)利要求3的方法，其中所述左右掃描、俯仰掃描和變焦數(shù)值包括一個(gè)數(shù)據(jù)點(diǎn)以及所述集結(jié)步驟包括以下步驟計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的電位作為所述數(shù)據(jù)點(diǎn)離所有其它數(shù)據(jù)點(diǎn)的距離的函數(shù)；選擇具有最高的電位的數(shù)據(jù)點(diǎn)作為集群中心；調(diào)節(jié)所述電位值作為從所述選擇的集群中心的距離的函數(shù)；重復(fù)進(jìn)行所述步驟，直至預(yù)定的門限值滿足為止。
7.權(quán)利要求1的方法，其中所述處理和聚焦步驟是以特定的間隔被執(zhí)行的。
8.一種在視頻處理系統(tǒng)(10)中，用于跟蹤圖象空間中感興趣的物體(22)的方法，所述視頻處理系統(tǒng)(10)包括攝像機(jī)(18)和處理至少一個(gè)音頻和視頻信息，方法包括以下步驟把所述圖象空間劃分成近似的區(qū)域，每個(gè)區(qū)域與一個(gè)所述感興趣的物體(22)相聯(lián)系；處理至少一個(gè)所述音頻和視頻信息，來識(shí)別當(dāng)前的感興趣的物體(22)；計(jì)算所述當(dāng)前感興趣的物體屬于每個(gè)所述近似的區(qū)域的概率；以及根據(jù)所述概率計(jì)算，把所述攝像機(jī)(18)聚焦在所述一個(gè)或多個(gè)所述識(shí)別的近似區(qū)域。
9.權(quán)利要求8的方法，其中所述劃分步驟還包括集結(jié)由音頻定位器(310)在固定的時(shí)間間隔內(nèi)產(chǎn)生的左右和俯仰掃描數(shù)值的步驟。
10.權(quán)利要求9的方法，其中所述劃分步驟還包括集結(jié)由視頻定位器(320，330)在固定的時(shí)間間隔內(nèi)產(chǎn)生的變焦數(shù)值的步驟。
11.權(quán)利要求10的方法，其中所述集結(jié)步驟還包括在初始化期間執(zhí)行非監(jiān)管的集結(jié)處理過程(600)的步驟。
12.權(quán)利要求10的方法，其中所述集結(jié)步驟還包括執(zhí)行監(jiān)管的集結(jié)處理過程(700)的步驟。
13.權(quán)利要求10的方法，其中所述左右掃描、俯仰掃描和變焦數(shù)值包括一個(gè)數(shù)據(jù)點(diǎn)以及所述集結(jié)步驟包括以下步驟計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的電位作為所述數(shù)據(jù)點(diǎn)離所有其它數(shù)據(jù)點(diǎn)的距離的函數(shù)；選擇具有最高的電位的數(shù)據(jù)點(diǎn)作為集群中心；調(diào)節(jié)所述電位值作為從所述選擇的集群中心的距離的函數(shù)；重復(fù)進(jìn)行所述步驟，直至預(yù)定的門限值滿足為止。
14.權(quán)利要求8的方法，其中所述處理和聚焦步驟是以特定的間隔被執(zhí)行的。
15.權(quán)利要求8的方法，其中如果對(duì)于所述多個(gè)近似區(qū)域的所述概率計(jì)算處在互相的預(yù)定的門限值內(nèi)，則所述聚焦步驟把所述攝像機(jī)(18)聚焦在多個(gè)所述識(shí)別的近似區(qū)域。
16.權(quán)利要求8的方法，其中如果對(duì)于所述的一個(gè)近似區(qū)域的所述概率計(jì)算不是在對(duì)于其它近似區(qū)域的任何的所述概率計(jì)算的預(yù)定的門限值內(nèi)，則所述聚焦步驟把所述攝像機(jī)(18)聚焦在一個(gè)所述近似區(qū)域。
17.一種在視頻處理系統(tǒng)(10)中，用于跟蹤圖象空間中感興趣的物體(22)的系統(tǒng)，所述視頻處理系統(tǒng)(10)包括攝像機(jī)(18)和處理至少一個(gè)音頻和視頻信息，包括存儲(chǔ)器，用于存儲(chǔ)計(jì)算機(jī)可讀的代碼；以及處理器，運(yùn)行時(shí)被耦合到所述存儲(chǔ)器，所述處理器用來把所述圖象空間劃分成近似的區(qū)域，每個(gè)區(qū)域與一個(gè)所述感興趣的物體(22)相聯(lián)系；處理至少一個(gè)所述音頻和視頻信息，來識(shí)別與當(dāng)前的一個(gè)所述感興趣的物體(22)有關(guān)的、一個(gè)所述近似的區(qū)域；以及把所述攝像機(jī)(18)聚焦在所述識(shí)別的至少一個(gè)所述的近似區(qū)域。
18.一種在視頻處理系統(tǒng)(10)中，用于跟蹤圖象空間中感興趣的物體(22)的系統(tǒng)，所述視頻處理系統(tǒng)(10)包括攝像機(jī)(18)和處理至少一個(gè)音頻和視頻信息，包括存儲(chǔ)器，用于存儲(chǔ)計(jì)算機(jī)可讀的代碼；以及處理器，運(yùn)行時(shí)被耦合到所述存儲(chǔ)器，所述處理器用來把所述圖象空間劃分成近似的區(qū)域，每個(gè)區(qū)域與一個(gè)所述感興趣的物體(22)相聯(lián)系；處理至少一個(gè)所述音頻和視頻信息，來識(shí)別當(dāng)前的感興趣的物體(22)；計(jì)算所述當(dāng)前感興趣的物體屬于每個(gè)所述近似的區(qū)域的概率；以及根據(jù)所述概率計(jì)算，把所述攝像機(jī)(18)聚焦在所述一個(gè)或多個(gè)所述識(shí)別的近似區(qū)域。
19.一種在視頻處理系統(tǒng)(10)中，用于跟蹤圖象空間中感興趣的物體(22)的制造的產(chǎn)品，所述視頻處理系統(tǒng)(10)包括攝像機(jī)(18)和處理至少一個(gè)音頻和視頻信息，包括計(jì)算機(jī)可讀媒體，具有在其上實(shí)施的計(jì)算機(jī)可讀代碼裝置，所述計(jì)算機(jī)可讀程序代碼裝置包括把所述圖象空間劃分成近似的區(qū)域的步驟，每個(gè)區(qū)域與一個(gè)所述感興趣的物體(22)相聯(lián)系；處理至少一個(gè)所述音頻和視頻信息，來識(shí)別與當(dāng)前的一個(gè)所述感興趣的物體(22)有關(guān)的、一個(gè)所述近似的區(qū)域的步驟；以及把所述攝像機(jī)(18)聚焦在所述識(shí)別的至少一個(gè)所述的近似區(qū)域的步驟。
20.一種在視頻處理系統(tǒng)(10)中，用于跟蹤圖象空間中感興趣的物體(22)的制造的產(chǎn)品，所述視頻處理系統(tǒng)(10)包括攝像機(jī)(18)和處理至少一個(gè)音頻和視頻信息，包括計(jì)算機(jī)可讀媒體，具有在其上實(shí)施的計(jì)算機(jī)可讀代碼裝置，所述計(jì)算機(jī)可讀程序代碼裝置包括把所述圖象空間劃分成近似的區(qū)域的步驟，每個(gè)區(qū)域與一個(gè)所述感興趣的物體(22)相聯(lián)系；處理至少一個(gè)所述音頻和視頻信息，來識(shí)別當(dāng)前的感興趣的物體(22)的步驟；計(jì)算所述當(dāng)前感興趣的物體屬于每個(gè)所述近似的區(qū)域的概率的步驟；以及根據(jù)所述概率計(jì)算，把所述攝像機(jī)(18)聚焦在所述一個(gè)或多個(gè)所述識(shí)別的近似區(qū)域的步驟。
全文摘要
公開了在視頻處理系統(tǒng)中用于通過使用集結(jié)技術(shù)跟蹤感興趣的物體的方法和設(shè)備。一個(gè)區(qū)域被劃分成近似的區(qū)域,被稱為集群,每個(gè)集群與一個(gè)感興趣的物體相聯(lián)系。每個(gè)集群具有相關(guān)的平均的左右、俯仰和變焦數(shù)值。音頻或視頻信息,或二者,被使用來識(shí)別與講話者(或另外的感興趣的物體)有關(guān)的集群。一旦感興趣的集群被識(shí)別,攝像機(jī)就通過使用記錄的鏡頭左右掃描、俯仰掃描和變焦數(shù)值(如果可提供的話)而聚焦在該集群上。事件累積器初始地在一段特定的時(shí)間內(nèi)累積音頻(任選地,視頻)事件,允許幾個(gè)講話者講話。積累的音頻事件然后被集群生成器生成與各個(gè)感興趣的物體有關(guān)的集群。在集群初始化后,顯示的事件累積器以周期的時(shí)間間隔收集事件。
文檔編號(hào)H04N7/15GK1383682SQ01801876
公開日2002年12月4日申請(qǐng)日期2001年4月17日優(yōu)先權(quán)日2000年5月3日
發(fā)明者S·古塔申請(qǐng)人:皇家菲利浦電子有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：S.古塔
技術(shù)所有人：皇家菲利浦電子有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測試系統(tǒng)設(shè)計(jì) 2.汽車檢測系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

div位置自適應(yīng)相關(guān)技術(shù)

會(huì)議紀(jì)要適用于相關(guān)技術(shù)

css圖片自適應(yīng)相關(guān)技術(shù)

自適應(yīng)巡航相關(guān)技術(shù)

自適應(yīng)相關(guān)技術(shù)

div高度自適應(yīng)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

在電視會(huì)議和其它應(yīng)用中用于自適應(yīng)位置確定的方法和設(shè)備的制作方法