語音-身體身份相關(guān)的制作方法

文檔序號：2824983閱讀：255來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：語音-身體身份相關(guān)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種用于在多用戶應(yīng)用程序中將語音與用戶相關(guān)聯(lián)的系統(tǒng)和方法。
背景技術(shù)：
諸如計(jì)算機(jī)游戲和多媒體應(yīng)用之類的系統(tǒng)已經(jīng)演變到系統(tǒng)能夠利用用戶移動(dòng)和口頭通信作為對系統(tǒng)的輸入的地步。此類自然系統(tǒng)可能連向多個(gè)用戶，在此情況下迫使在個(gè)體之間作出區(qū)分?，F(xiàn)有技術(shù)允許游戲或應(yīng)用通過各種機(jī)制來標(biāo)識視場內(nèi)的用戶，這些機(jī) 制包括能夠感測諸如大小、面部特征、衣著顏色等用戶特征的三維深度相機(jī)。還存在語音識別技術(shù)以通過包括話筒陣列在內(nèi)的各種機(jī)制來標(biāo)識感知用戶語音。傳統(tǒng)上，這兩種技術(shù)還未曾合作地使用過。在不用涉及用戶方的特意裝置的情況下自動(dòng)將用戶語音與身體相匹配將是令人信服的。例如，可能會(huì)有單獨(dú)使用成像技術(shù)或單獨(dú)使用音頻技術(shù)，人的身份不明確的情況發(fā)生。在低成本的消費(fèi)者系統(tǒng)中尤其如此。除了幫助明確用戶外，音頻與視覺身份的此類關(guān)聯(lián)可被用于支持游戲或應(yīng)用內(nèi)的用戶體驗(yàn)。

發(fā)明內(nèi)容
本文描述了一種用于在多用戶應(yīng)用程序中將語音與用戶相關(guān)聯(lián)的系統(tǒng)和方法。該系統(tǒng)包括能夠提供所述圖像相機(jī)組件的視場中的一個(gè)或多個(gè)用戶的深度圖像的圖像相機(jī) 組件。該系統(tǒng)還包括話筒陣列，其能夠接收該話筒陣列的范圍內(nèi)的音頻。話筒陣列還能夠?qū)?語音的源定位在第一容限內(nèi)。實(shí)施例還包括與圖像捕捉組件和話筒陣列兩者通信且能夠區(qū) 別視場中的不同用戶達(dá)到第二容限的計(jì)算環(huán)境。在實(shí)施例中，第一和第二容限有時(shí)可能妨礙在對來自圖像相機(jī)的數(shù)據(jù)和來自話筒陣列的數(shù)據(jù)進(jìn)行初始采樣后將語音與用戶相關(guān)聯(lián)。然而，計(jì)算環(huán)境還執(zhí)行對來自圖像相機(jī)的數(shù)據(jù)和來自話筒陣列的數(shù)據(jù)的附加采樣。這些附加采樣允許將語音與用戶相關(guān)聯(lián)或者該些附加采樣降低了語音與用戶相關(guān)聯(lián)的似然性。

圖1A-1B示出伴隨用戶玩游戲的目標(biāo)識別、分析和跟蹤系統(tǒng)的示例實(shí)施例。圖2示出了可在目標(biāo)識別、分析和跟蹤系統(tǒng)中使用的捕捉設(shè)備的示例實(shí)施例。圖3A示出了可用于在目標(biāo)識別、分析和跟蹤系統(tǒng)中解釋一個(gè)或多個(gè)姿勢的計(jì)算環(huán)境的示例實(shí)施例。圖IBB示出了可用于在目標(biāo)識別、分析和跟蹤系統(tǒng)中解釋一個(gè)或多個(gè)姿勢的計(jì)算環(huán)境的另一示例實(shí)施例。圖4描繪用于將語音與身體相關(guān)聯(lián)的示例方法的高層流程圖。圖5描繪用于標(biāo)識視場內(nèi)的一個(gè)或多個(gè)身體的流程圖。圖6描繪用于標(biāo)識由本系統(tǒng)的話筒陣列所拾取的語音的流程圖。圖7描繪用于將語音與身體毫無疑義地相關(guān)聯(lián)的實(shí)施例的流程圖。圖8A和8B—起描繪用于經(jīng)由對語音和身體位置標(biāo)識的多次采樣將語音與身體相關(guān)聯(lián)的實(shí)施例的流程圖。
具體實(shí)施例方式現(xiàn)在將參照圖IA到8B來描述本技術(shù)的實(shí)施例，其一般涉及一種用于隨時(shí)間推移跟蹤圖像和音頻數(shù)據(jù)以基于人體在多用戶游戲或多媒體設(shè)置中的語音與身體的相關(guān)性來自動(dòng)地標(biāo)識人體的系統(tǒng)。一般而言，該系統(tǒng)包括捕捉設(shè)備，包括用于感測視場中諸如人之類的對象的一個(gè)或多個(gè)相機(jī)，以及用于感測諸如人的語音之類的音頻的話筒陣列。相機(jī)能夠確定視場中的對象是否是人，并且還能確定所辨識的人的物理特征，諸如骨關(guān)節(jié)位置。相機(jī) 還能夠確定視場中的人們彼此之間以及與捕捉設(shè)備的相對位置。話筒陣列能夠確定所聽到聲音是否是語音，并且可不時(shí)地區(qū)別不同的語音。話筒也可以能夠確定一檢出語音與其他檢出語音以及與話筒的相對位置。在圖像和音頻系統(tǒng)能夠毫無疑義地確定給定語音屬于視場中的給定用戶身體的情況下，存儲(chǔ)該語音-身體關(guān)聯(lián)性。然而，可能發(fā)生在圖像和音頻采樣之后系統(tǒng)不能建立單個(gè)毫無疑義關(guān)聯(lián)性的情況。作為替代，系統(tǒng)標(biāo)識所采樣語音可能屬于的一個(gè)或多個(gè)候選用戶。在此實(shí)例中，本系統(tǒng)可采用各種因素來確定語音與身體是否高于預(yù)定閾值置信度 (“TCL”)地相關(guān)聯(lián)。若是，則盡管并非毫無疑義，仍可返回并存儲(chǔ)該語音-身體關(guān)聯(lián)性以供未來采樣使用。未來采樣將或者強(qiáng)化該關(guān)聯(lián)性，或者顯示該關(guān)聯(lián)性仍有疑意，在后一情形下可移除該關(guān)聯(lián)性。最初參考圖1A-2，用于實(shí)現(xiàn)本發(fā)明的技術(shù)的硬件包括目標(biāo)識別、分析和跟蹤系統(tǒng) 10，該系統(tǒng)可用于識別、分析和/或跟蹤諸如用戶A到D等一個(gè)或多個(gè)人類目標(biāo)。目標(biāo)識別、分析和跟蹤系統(tǒng)10的各實(shí)施例包括用于執(zhí)行游戲或其他應(yīng)用程序的計(jì)算環(huán)境12，以及用于從游戲或其他應(yīng)用程序提供音頻和視覺表示的視聽設(shè)備16。系統(tǒng)10還包括捕捉設(shè)備 20，包括一個(gè)或多個(gè)深度感知相機(jī)以及包括兩個(gè)或更多個(gè)話筒的話筒陣列。捕捉設(shè)備20與計(jì)算環(huán)境12通信，以使得計(jì)算環(huán)境12可以部分地基于從捕捉設(shè)備20收到的信息來控制至視聽設(shè)備16的輸出。這些組件中的每一各都會(huì)在以下詳細(xì)描述。如圖IA和IB所示，在一示例實(shí)施例中，在計(jì)算環(huán)境12上執(zhí)行的應(yīng)用程序可以是多玩家游戲?；诮邮兆圆蹲皆O(shè)備20的信息，計(jì)算環(huán)境12可使用視聽設(shè)備16將每個(gè)用戶 A-D的視覺表示提供作為玩家化身A' -D'。用戶可以移進(jìn)和移出視場。例如，圖IA顯示用戶A-D，而圖IB顯示用戶A-C。每個(gè)化身k’ -D'可以反映相應(yīng)用戶A-D的移動(dòng)的方式在屏幕上移動(dòng)。因此，用戶在圖IB中已經(jīng)相對于他們在圖IA中的位置進(jìn)行了移動(dòng)，以及用戶D'的化身在圖IB中不可見，因?yàn)橛脩鬌已經(jīng)離開了視場。盡管對于本發(fā)明技術(shù)而言并不是關(guān)鍵點(diǎn)，用戶A-D可以執(zhí)行被在計(jì)算環(huán)境12上運(yùn) 行的軟件引擎所識別的姿勢，以使得在識別出該用戶的姿勢之際，用戶的化身執(zhí)行某個(gè)動(dòng) 作。盡管在圖IA和IB的示例中示出了 4個(gè)用戶，但應(yīng)理解本發(fā)明技術(shù)可在諸實(shí)施例中在多于或少于4個(gè)用戶的情況下工作。此外，本發(fā)明技術(shù)并不限于在游戲上下文中將語音與說話者相關(guān)聯(lián)，而且也可用在希望基于人的語音與身體的關(guān)聯(lián)性來標(biāo)識此人的各種其他實(shí) 例中。圖2示出可在目標(biāo)識別、分析和跟蹤系統(tǒng)10中使用的捕捉設(shè)備20的示例實(shí)施例。在一示例實(shí)施例中，捕捉設(shè)備20可包括圖像相機(jī)組件22。組件22被配置成經(jīng)由包括例如飛行時(shí)間、結(jié)構(gòu)化光、立體圖像等任何合適的技術(shù)來捕捉視場中的三維視頻圖象。根據(jù)一實(shí) 施例，圖像相機(jī)組件22可將所計(jì)算的深度信息組織為“Z層”，即可與從深度照相機(jī)沿其視線延伸的Z軸垂直的層。關(guān)于可組成捕捉設(shè)備20的部分的相機(jī)的另外細(xì)節(jié)在共同待審的題為“GESTURE
TOOL(姿勢工具)”的專利申請第_號和共同待審的題為“STANDARD GESTURES (標(biāo)準(zhǔn)
姿勢)”的專利申請第_號中闡述，這些申請的每一個(gè)都通過整體引用結(jié)合于此。然
而，一般而言，如圖2所示，圖像相機(jī)組件22可捕捉深度圖像，深度圖像具有所捕捉的場景的二維0-D)像素區(qū)域，其中2-D像素區(qū)域中的每一像素可表示來自照相機(jī)的所捕捉的場景中的對象的長度，該長度可采用例如厘米、毫米等單位。圖像相機(jī)組件22能夠?qū)υ趫DIA 和IB中由射線Rl和R2表示的視場內(nèi)的對象進(jìn)行成像。如圖2所示，根據(jù)一示例實(shí)施例，圖像相機(jī)組件22可包括可用于捕捉場景的深度圖像的頂光組件對、三維(3-D)照相機(jī)沈、和RGB照相機(jī)觀。例如，在飛行時(shí)間分析中，捕捉設(shè)備20的頂光組件M可將紅外光發(fā)射到場景上，然后可使用傳感器(未示出)，使用例如3-D照相機(jī)沈和/或RGB照相機(jī)觀，來檢測來自場景中的一個(gè)或多個(gè)目標(biāo)和物體的表面的反向散射光。根據(jù)另一實(shí)施例，捕捉設(shè)備20可包括兩個(gè)或更多物理上分開的照相機(jī)，這些照相機(jī)可從不同角度查看場景以獲得視覺立體數(shù)據(jù)，該視覺立體數(shù)據(jù)可被解析以生成深度信息。在任一實(shí)施例中，圖像相機(jī)組件22能夠確定視場內(nèi)的人相對于彼此的方位，并能夠計(jì) 算視場中的每個(gè)人相對于捕捉設(shè)備20的角度。捕捉設(shè)備20可經(jīng)由通信鏈路36向計(jì)算環(huán)境12提供由例如3-D照相機(jī)沈和/或 RGB照相機(jī)觀捕捉的深度信息和圖像，以及可由捕捉設(shè)備20生成的骨架模型。存在各種用于確定捕捉設(shè)備20所檢測的目標(biāo)或?qū)ο笫欠駥?yīng)于人類目標(biāo)的已知技術(shù)。例如，捕捉設(shè) 備20可捕捉可包括人類目標(biāo)的捕捉區(qū)域的深度信息。該深度圖像然后可被分析來確定該深度圖像是否包括人類目標(biāo)和/或非人類目標(biāo)。該深度圖像的各部分可被泛色填充并與一模式進(jìn)行比較來確定該目標(biāo)是否可能是人類目標(biāo)。如果該深度圖像中的一個(gè)或多個(gè)目標(biāo)包括人類目標(biāo)，則可掃描該人類目標(biāo)。骨架映射技術(shù)因而可用于確定該用戶的骨架上的各個(gè)點(diǎn)，手、腕、肘、膝、鼻、踝、肩的關(guān)節(jié)，以及骨盆與脊椎相交之處。其他技術(shù)包括將圖像變換成該人體的身體模型表示以及將圖像變換成該人體的網(wǎng)格模型表示。骨架模型然后可被提供給計(jì)算環(huán)境12，使得計(jì)算環(huán)境可跟蹤骨架模型并呈現(xiàn)與該骨架模型相關(guān)聯(lián)的化身。捕捉設(shè)備20還可包括話筒陣列32，其包括兩個(gè)或更多個(gè)話筒30。話筒陣列執(zhí)行至少兩項(xiàng)功能。話筒30接收也可由用戶A-D中的一個(gè)或多個(gè)所提供的音頻信號，以控制其化身A' -D'，影響其他游戲或系統(tǒng)度量，或者控制可由計(jì)算環(huán)境12執(zhí)行的其他應(yīng)用程序。話筒陣列32的第二項(xiàng)功能是便于標(biāo)識用戶，如下文所解釋的。在所示實(shí)施例中，有兩個(gè)話筒30，但應(yīng)理解在其他實(shí)施例中話筒陣列可具有兩個(gè) 以上的話筒。在解析沿縱軸的相對位置并不是關(guān)鍵的實(shí)施例中，可以在共同的垂直面中 (即，在相同高度上)對準(zhǔn)各話筒。然而，還應(yīng)理解本發(fā)明技術(shù)可采用沿不同垂直線和水平線布置的兩個(gè)到四個(gè)或者更多的相機(jī)。在此類實(shí)施例中，話筒陣列將能夠采用沿垂直面和水平面兩者的聲學(xué)定位技術(shù)來定位一個(gè)或多個(gè)語音在三維空間中的位置。
陣列中的話筒30可以如圖中所示地彼此靠近(諸如相隔一英尺)地定位。應(yīng)理解，在其他實(shí)施例中，例如在鄰近捕捉設(shè)備20的墻角處，話筒可以相距更緊，或者相隔更開。陣列中的話筒30可以彼此同步，且每個(gè)話筒可包括可以接收聲音并將其轉(zhuǎn)換成電信號的換能器或傳感器。用于區(qū)分話筒所拾取的聲音以確定這些聲音中是否有一種或多種聲音是人類語音的技術(shù)是已知的。話筒30可包括各種已知的濾波器，諸如高通濾波器，以衰減話筒30可能檢出的低頻噪聲。在給定容限內(nèi)，使用聲學(xué)定位技術(shù)，陣列32還能夠確定所感知語音相對于彼此的方位，并且能夠演算每個(gè)語音源相對于話筒的角度。各種聲學(xué)定位技術(shù)是已知的。一種實(shí) 施例可采用抵達(dá)時(shí)間差(TDOA)技術(shù)，其第一步驟是確定不同話筒對之間的TDOA集合。艮口，對于話筒對集合中的每一對，確定聲源信號在該對中的每個(gè)話筒處的抵達(dá)之間的相對時(shí)間差。例如，對應(yīng)測量聲源位置s的兩個(gè)話筒i和j的TDOA可被確定為TDOAi, j = (I S-Hii | -1 Sij |) /c其中Hli是第i個(gè)話筒的位置，Hij是第j個(gè)話筒的位置，以及c是光速。TDOA技術(shù)還包括使用所確定的TDOA數(shù)據(jù)和話筒陣列幾何來估計(jì)聲源位置的第二步驟。此第二步驟可以通過各種已知方法來執(zhí)行，這些已知方法包括例如最大似然方法、三角測量方法、球面交集方法、以及球面內(nèi)插方法。TDOA方法是數(shù)種已知的可被用來定位感知語音的源的方法中的一種。其他方法包括基于受控波束成形器的技術(shù)以及基于高分辨率頻譜估計(jì)的技術(shù)。關(guān)于用于聲學(xué)定位的話筒系統(tǒng)的進(jìn)一步細(xì)節(jié)可在例如題為“Methodand Apparatus for Passive Acoustic Source Localization for Video CameraSteering Applications (用于視頻相機(jī)操控應(yīng)用的無源聲源定位的方法和裝置)”的美國專利No. 6，826，284中，以及在由H. Wang和P. Chu在IEEE 國際會(huì)議聲學(xué)、語音和信號處理(ICASSP)會(huì)刊(德國慕尼黑，1997年4月，第187-190頁) 中發(fā)表的論文"Voice Source Localization for AutomaticCamera Pointing System In Videoconferencing (用于視頻會(huì)議中的自動(dòng)相機(jī)定位系統(tǒng)的聲源定位)，，中找到。以上專利和論文通過引用全文包括于此。在技術(shù)允許使用單個(gè)話筒的聲源定位達(dá)到給定容限的情況下，話筒陣列32可包括一個(gè)或多個(gè)話筒。在一示例實(shí)施例中，捕捉設(shè)備20還可包括可與圖像相機(jī)組件22和話筒陣列32操作性地通信的處理器33。處理器33可包括可執(zhí)行指令的標(biāo)準(zhǔn)化處理器、專用處理器、微處理器、或類似物，這些指令可包括用于接收深度圖像、確定該深度圖像中是否可能包括合適的目標(biāo)、將該合適目標(biāo)轉(zhuǎn)換成該目標(biāo)的骨骼表示或模型的指令、或任何其他合適指令。處理器33還可執(zhí)行上述與聲學(xué)定位有關(guān)的操作。捕捉設(shè)備20還可包括存儲(chǔ)器組件34，其可存儲(chǔ)可由處理器33執(zhí)行的指令、3D相機(jī)或RGB相機(jī)所捕捉的圖像或圖像幀、來自話筒30的音頻數(shù)據(jù)或任何其他合適的信息等。根據(jù)示例實(shí)施例，存儲(chǔ)器組件；34可包括隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、高速緩存、閃存、硬盤、或任何其他合適的存儲(chǔ)組件。如圖2中所示，在一個(gè)實(shí)施例中，存儲(chǔ)器組件 34可以是與圖像捕捉組件22、話筒陣列32以及處理器33通信的分開的組件。根據(jù)另一實(shí) 施例，存儲(chǔ)器組件34可被整合到處理器33、圖像捕捉組件22和/或話筒陣列32中。如圖2中所示，捕捉設(shè)備20可以經(jīng)由通信鏈路36與計(jì)算環(huán)境12通信。通信鏈路36可以是包括例如USB連接、火線連接、以太網(wǎng)電纜連接等的有線連接和/或諸如無線 802. lib,802. llg、802. Ila或802. Iln連接等無線連接。根據(jù)一實(shí)施例，計(jì)算環(huán)境12可經(jīng) 由通信鏈路36向捕捉設(shè)備20提供可用于確定例如何時(shí)捕捉場景的時(shí)鐘。來自捕捉設(shè)備20 的圖像和音頻數(shù)據(jù)也可以經(jīng)由通信鏈路36被傳達(dá)給計(jì)算環(huán)境12。圖3A示出了可用于在目標(biāo)識別、分析和跟蹤系統(tǒng)中解釋一個(gè)或多個(gè)姿勢的計(jì)算環(huán)境的示例實(shí)施例。諸如以上參考圖1A-2描述的計(jì)算環(huán)境12等計(jì)算環(huán)境可以是諸如游戲控制臺(tái)等多媒體控制臺(tái)100。如圖3A所示，多媒體控制臺(tái)100包括具有1級高速緩存102、 2級高速緩存104和閃存ROM 106的中央處理單元(CPU) 101。1級高速緩存102和2級高速緩存104臨時(shí)存儲(chǔ)數(shù)據(jù)并因此減少了存儲(chǔ)器訪問周期數(shù)，從而提高了處理速度和吞吐量。CPU 101可以設(shè)置成具有一個(gè)以上的核，以及由此的附加的1級和2級高速緩存102和 104。閃存ROM 106可存儲(chǔ)在多媒體控制臺(tái)100通電時(shí)在引導(dǎo)進(jìn)程的初始化階段加載的可執(zhí)行代碼。圖形處理單元(GPU) 108和視頻編碼器/視頻編解碼器(編碼器/解碼器)114形成用于高速、高分辨率圖形處理的視頻處理流水線。數(shù)據(jù)經(jīng)由總線從GPU 108輸送到視頻編碼器/視頻編解碼器114。視頻處理流水線將數(shù)據(jù)輸出到A/V(音頻/視頻)端口 140以傳輸?shù)诫娨暀C(jī)或其它顯示器。存儲(chǔ)器控制器110連接到GPU 108以方便處理器訪問各種類型的存儲(chǔ)器112，諸如但不局限于RAM。多媒體控制臺(tái)100包括較佳地在模塊118上實(shí)現(xiàn)的I/O控制器120、系統(tǒng)管理控制器122、音頻處理單元123、網(wǎng)絡(luò)接口控制器124、第一 USB主控制器126、第二 USB主控制器 1 和前面板I/O子部件130。USB控制器126和1 用作外圍控制器142 (1)-142 (2)、無線適配器148、和外置存儲(chǔ)器設(shè)備146 (例如閃存、外置⑶/DVD ROM驅(qū)動(dòng)器、可移動(dòng)介質(zhì)等) 的主機(jī)。網(wǎng)絡(luò)接口 1 和/或無線適配器148提供對網(wǎng)絡(luò)(例如，因特網(wǎng)、家庭網(wǎng)絡(luò)等)的訪問并且可以是包括以太網(wǎng)卡、調(diào)制解調(diào)器、藍(lán)牙模塊、電纜調(diào)制解調(diào)器等的各種不同的有線和無線適配器組件中任何一種。提供系統(tǒng)存儲(chǔ)器143來存儲(chǔ)在引導(dǎo)進(jìn)程期間加載的應(yīng)用程序數(shù)據(jù)。提供媒體驅(qū)動(dòng) 器144且其可包括DVD/CD驅(qū)動(dòng)器、硬盤驅(qū)動(dòng)器、或其它可移動(dòng)媒體驅(qū)動(dòng)器等。媒體驅(qū)動(dòng)器 144對于多媒體控制臺(tái)100可以內(nèi)置或外置。應(yīng)用程序數(shù)據(jù)可經(jīng)由媒體驅(qū)動(dòng)器144訪問，以由多媒體控制臺(tái)100執(zhí)行、回放等。媒體驅(qū)動(dòng)器144經(jīng)由諸如串行ATA總線或其他高速連接(例如IEEE 1394)等總線連接到I/O控制器120。系統(tǒng)管理控制器122提供涉及確保多媒體控制臺(tái)100的可用性的各種服務(wù)功能。音頻處理單元123和音頻編解碼器132形成具有高保真度和立體聲處理的對應(yīng)的音頻處理流水線。音頻數(shù)據(jù)經(jīng)由通信鏈路在音頻處理單元123與音頻編解碼器132之間傳輸。音頻處理流水線將數(shù)據(jù)輸出到A/V端口 140以供外置音頻播放器或具有音頻能力的設(shè)備再現(xiàn)。前面板I/O子部件130支持暴露在多媒體控制臺(tái)100的外表面上的電源按鈕150 和彈出按鈕152以及任何LED(發(fā)光二極管)或其它指示器的功能。系統(tǒng)供電模塊136向多媒體控制臺(tái)100的組件供電。風(fēng)扇138冷卻多媒體控制臺(tái)100內(nèi)的電路。CPU 101、GPU 108、存儲(chǔ)器控制器110、和多媒體控制臺(tái)100內(nèi)的各個(gè)其它組件經(jīng) 由一條或多條總線互連，包括串行和并行總線、存儲(chǔ)器總線、外圍總線、和使用各種總線架構(gòu)中任一種的處理器或局部總線。作為示例，這種架構(gòu)可以包括外圍部件互連(PCI)總線、PCI-快速總線等。當(dāng)多媒體控制臺(tái)100通電時(shí)，應(yīng)用程序數(shù)據(jù)可從系統(tǒng)存儲(chǔ)器143加載到存儲(chǔ)器112 和/或高速緩存102、104中并在CPU 101上執(zhí)行。應(yīng)用可呈現(xiàn)在導(dǎo)航到多媒體控制臺(tái)100 上可用的不同媒體類型時(shí)提供一致的用戶體驗(yàn)的圖形用戶界面。在操作中，媒體驅(qū)動(dòng)器144 中包含的應(yīng)用和/或其它媒體可從媒體驅(qū)動(dòng)器144啟動(dòng)或播放，以向多媒體控制臺(tái)100提供附加功能。多媒體控制臺(tái)100可通過將該系統(tǒng)簡單地連接到電視機(jī)或其它顯示器而作為獨(dú) 立系統(tǒng)來操作。在該獨(dú)立模式中，多媒體控制臺(tái)100允許一個(gè)或多個(gè)用戶與該系統(tǒng)交互、看電影、或聽音樂。然而，隨著通過網(wǎng)絡(luò)接口 1 或無線適配器148可用的寬帶連接的集成，多媒體控制臺(tái)100還可作為較大網(wǎng)絡(luò)社區(qū)中的參與者來操作。當(dāng)多媒體控制臺(tái)100通電時(shí)，可以保留設(shè)定量的硬件資源以供多媒體控制臺(tái)操作系統(tǒng)作系統(tǒng)使用。這些資源可以包括存儲(chǔ)器保留(例如，16MB)、CPU和GPU周期(例如， 5%)、網(wǎng)絡(luò)帶寬(例如，SlAs)等。因?yàn)檫@些資源是在系統(tǒng)引導(dǎo)時(shí)保留的，所以所保留的資源對應(yīng)用而言是不存在的。具體地，存儲(chǔ)器保留較佳地足夠大，以包含啟動(dòng)內(nèi)核、并發(fā)系統(tǒng)應(yīng)用和驅(qū)動(dòng)程序。 CPU保留較佳地為恒定，使得若所保留的CPU用量不被系統(tǒng)應(yīng)用使用，則空閑線程將消耗任何未使用的周期。對于GPU保留，通過使用GPU中斷來顯示由系統(tǒng)應(yīng)用生成的輕量消息(例如，彈出窗口)，以調(diào)度代碼來將彈出窗口呈現(xiàn)為覆蓋圖。覆蓋圖所需的存儲(chǔ)器量取決于覆蓋區(qū)域大小，并且覆蓋圖較佳地與屏幕分辨率成比例縮放。在并發(fā)系統(tǒng)應(yīng)用程序使用完整用戶界面的情況下，優(yōu)選使用獨(dú)立于應(yīng)用程序分辨率的分辨率。定標(biāo)器可用于設(shè)置該分辨率，從而無需改變頻率，也就不會(huì)引起TV重新同步。在多媒體控制臺(tái)100引導(dǎo)且系統(tǒng)資源被保留之后，就執(zhí)行并發(fā)系統(tǒng)應(yīng)用來提供系統(tǒng)功能。系統(tǒng)功能被封裝在一組在上述所保留的系統(tǒng)資源中執(zhí)行的系統(tǒng)應(yīng)用中。操作系統(tǒng) 內(nèi)核標(biāo)識是系統(tǒng)應(yīng)用線程而非游戲應(yīng)用線程的線程。系統(tǒng)應(yīng)用優(yōu)選地被調(diào)度為在預(yù)定時(shí)間并以預(yù)定時(shí)間間隔在CPU 101上運(yùn)行，以便為應(yīng)用提供一致的系統(tǒng)資源視圖。進(jìn)行調(diào)度是為了把由在控制臺(tái)上運(yùn)行的游戲應(yīng)用所引起的高速緩存分裂最小化。當(dāng)并發(fā)系統(tǒng)應(yīng)用需要音頻時(shí)，則由于時(shí)間敏感性而異步調(diào)度音頻處理給游戲應(yīng) 用。多媒體控制臺(tái)應(yīng)用管理器(如下所述)在系統(tǒng)應(yīng)用活動(dòng)時(shí)控制游戲應(yīng)用的音頻水平 (例如，靜音、衰減)。輸入設(shè)備(例如，控制器142(1)和142( )由游戲應(yīng)用和系統(tǒng)應(yīng)用共享。輸入設(shè) 備不是所保留的資源，但卻在系統(tǒng)應(yīng)用和游戲應(yīng)用之間切換以使其各自具有設(shè)備的焦點(diǎn)。應(yīng)用程序管理器較佳地控制輸入流的切換，而無需知曉游戲應(yīng)用程序的知識，并且驅(qū)動(dòng)程序維護(hù)有關(guān)焦點(diǎn)切換的狀態(tài)信息。相機(jī)26 J8和捕捉設(shè)備20可定義控制臺(tái)100的附加輸入設(shè)備。圖:3B示出了可用于在目標(biāo)識別、分析和跟蹤系統(tǒng)中解釋一個(gè)或多個(gè)姿勢的計(jì)算環(huán)境220的另一示例實(shí)施例，該計(jì)算環(huán)境可以是圖1A-2所示的計(jì)算環(huán)境12。計(jì)算系統(tǒng)環(huán) 境220只是合適的操作環(huán)境的一個(gè)示例，并且不旨在對所公開的主題的使用范圍或功能提出任何限制。也不應(yīng)該將計(jì)算環(huán)境220解釋為對示例性操作環(huán)境220中示出的任一組件或其組合有任何依賴性或要求。在某些實(shí)施例中，所描繪的各種計(jì)算元件可包括被配置成實(shí) 例化本發(fā)明的具體方面的電路。例如，本公開中使用的術(shù)語電路可包括被配置成執(zhí)行固件或開關(guān)的功能的專用硬件組件。在其他示例實(shí)施例中，術(shù)語“電路”可包括由具體化可操作來執(zhí)行功能的邏輯的軟件指令來配置的通用處理單元等。在電路包括硬件與軟件組合的示例實(shí)施例中，實(shí)現(xiàn)者可編寫實(shí)施邏輯的源代碼且該源代碼可被編譯成可由通用處理單元處理的機(jī)器可讀代碼。因?yàn)楸绢I(lǐng)域技術(shù)人員可以明白現(xiàn)有技術(shù)已經(jīng)進(jìn)化到硬件、軟件或硬件/ 軟件組合之間幾乎沒有差別的地步，因而選擇硬件或是軟件來實(shí)現(xiàn)具體功能是留給實(shí)現(xiàn)者的設(shè)計(jì)選擇。更具體地，本領(lǐng)域技術(shù)人員可以明白軟件進(jìn)程可被變換成等價(jià)的硬件結(jié)構(gòu)，而硬件結(jié)構(gòu)本身可被變換成等價(jià)的軟件進(jìn)程。因此，對于硬件實(shí)現(xiàn)還是軟件實(shí)現(xiàn)的選擇是設(shè) 計(jì)選擇之一并留給實(shí)現(xiàn)者。在圖;3B中，計(jì)算環(huán)境220包括計(jì)算機(jī)Ml，其通常包括各種計(jì)算機(jī)可讀介質(zhì)。計(jì) 算機(jī)可讀介質(zhì)可以是能由計(jì)算機(jī)241訪問的任何可用介質(zhì)，而且包含易失性和非易失性介質(zhì)、可移動(dòng)和不可移動(dòng)介質(zhì)。系統(tǒng)存儲(chǔ)器222包括諸如ROM 223和RAM 260等易失性和/或非易失性存儲(chǔ)器形式的計(jì)算機(jī)存儲(chǔ)介質(zhì)?；据斎?輸出系統(tǒng)224 ￠10 包括如在啟動(dòng)時(shí) 幫助在計(jì)算機(jī)Ml內(nèi)的元件之間傳輸信息的基本例程，它通常儲(chǔ)存在ROM 223中。RAM260 通常包含處理單元259可以立即訪問和/或目前正在操作的數(shù)據(jù)和/或程序模塊。作為示例而非局限，圖3B示出了操作系統(tǒng)225、應(yīng)用程序226、其它程序模塊227和程序數(shù)據(jù)228。計(jì)算機(jī)241還可以包括其他可移動(dòng)/不可移動(dòng)、易失性/非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)。僅作為示例，圖3B示出了對不可移動(dòng)、非易失性磁介質(zhì)進(jìn)行讀寫的硬盤驅(qū)動(dòng)器238，對可移動(dòng)、非易失性磁盤邪4進(jìn)行讀寫的磁盤驅(qū)動(dòng)器239，以及對諸如CD ROM或其它光學(xué)介質(zhì) 等可移動(dòng)、非易失性光盤253進(jìn)行讀寫的光盤驅(qū)動(dòng)器M0?？梢栽谑纠圆僮鳝h(huán)境中使用的其他可移動(dòng)/不可移動(dòng)、易失性/非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)包括但不限于，磁帶盒、閃存卡、數(shù)字多功能盤、數(shù)字錄像帶、固態(tài)RAM、固態(tài)ROM等等。硬盤驅(qū)動(dòng)器238通常由不可移動(dòng) 存儲(chǔ)器接口，諸如接口 234連接至系統(tǒng)總線221，磁盤驅(qū)動(dòng)器239和光盤驅(qū)動(dòng)器240通常由可移動(dòng)存儲(chǔ)器接口，諸如接口 235連接至系統(tǒng)總線221。以上討論并在圖;3B中示出的驅(qū)動(dòng)器及其相關(guān)聯(lián)的計(jì)算機(jī)存儲(chǔ)介質(zhì)為計(jì)算機(jī)241 提供了對計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其他數(shù)據(jù)的存儲(chǔ)。在圖3B中，例如，硬盤驅(qū)動(dòng)器238被示為存儲(chǔ)操作系統(tǒng)258、應(yīng)用程序257、其他程序模塊256和程序數(shù)據(jù)255。注意，這些組件可以與操作系統(tǒng)225、應(yīng)用程序226、其他程序模塊227和程序數(shù)據(jù)2 相同，也可以與它們不同。操作系統(tǒng)258、應(yīng)用程序257、其他程序模塊256和程序數(shù)據(jù)255在這里被標(biāo)注了不同的標(biāo)號是為了說明至少它們是不同的副本。用戶可以通過輸入設(shè)備，如鍵盤251和定點(diǎn)設(shè)備252(通常稱為鼠標(biāo)、跟蹤球或觸摸墊)向計(jì)算機(jī)241輸入命令和信息。其他輸入設(shè)備(未示出)可以包括麥克風(fēng)、游戲桿、游戲手柄、碟形衛(wèi)星天線、掃描儀等等。這些和其他輸入設(shè)備通常由耦合至系統(tǒng)總線的用戶輸入接口 236連接至處理單元259，但也可以由其他接口和總線結(jié)構(gòu)，諸如并行端口、游戲端口或通用串行總線(USB)連接。相機(jī) 26,28和捕捉設(shè)備20可定義控制臺(tái)100的附加輸入設(shè)備。監(jiān)視器242或其他類型的顯示設(shè) 備也經(jīng)由接口，諸如視頻接口 232連接至系統(tǒng)總線221。除監(jiān)視器以外，計(jì)算機(jī)還可以包括其他外圍輸出設(shè)備，諸如揚(yáng)聲器244和打印機(jī)對3，它們可以通過輸出外圍接口 233連接。計(jì)算機(jī)241可使用至一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī)，如遠(yuǎn)程計(jì)算機(jī)M6的邏輯連接在網(wǎng)絡(luò)化環(huán)境中操作。遠(yuǎn)程計(jì)算機(jī)246可以是個(gè)人計(jì)算機(jī)、服務(wù)器、路由器、網(wǎng)絡(luò)PC、對等設(shè)備或其他常見的網(wǎng)絡(luò)節(jié)點(diǎn)，且通常包括許多或所有以上相對于計(jì)算機(jī)241描述的元件，盡管在圖3B中僅示出了存儲(chǔ)器存儲(chǔ)設(shè)備M7。圖:3B中所示的邏輯連接包括局域網(wǎng)(LAN) 245和廣域網(wǎng)(WAN049，但也可以包括其他網(wǎng)絡(luò)。這樣的聯(lián)網(wǎng)環(huán)境在辦公室、企業(yè)范圍計(jì)算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中是常見的。當(dāng)在LAN聯(lián)網(wǎng)環(huán)境中使用時(shí)，計(jì)算機(jī)241通過網(wǎng)絡(luò)接口或適配器237連接至LAN 2450當(dāng)在WAN聯(lián)網(wǎng)環(huán)境中使用時(shí)，計(jì)算機(jī)241通常包括調(diào)制解調(diào)器250或用于通過諸如因特網(wǎng)等WAN 249建立通信的其他裝置。調(diào)制解調(diào)器250可以是內(nèi)置或外置的，它可以經(jīng)由用戶輸入接口 236或其他適當(dāng)?shù)臋C(jī)制連接至系統(tǒng)總線221。在網(wǎng)絡(luò)化環(huán)境中，關(guān)于計(jì)算機(jī) 241所描述的程序模塊或其部分可被儲(chǔ)存在遠(yuǎn)程存儲(chǔ)器存儲(chǔ)設(shè)備中。作為示例而非限制，圖 3B示出了遠(yuǎn)程應(yīng)用程序248駐留在存儲(chǔ)器設(shè)備247上。可以理解，所示的網(wǎng)絡(luò)連接是示例性的，且可以使用在計(jì)算機(jī)之間建立通信鏈路的其他手段?，F(xiàn)在將參照圖4-8B的流程圖描述用于基于與用戶有關(guān)的感知圖像數(shù)據(jù)與感知語音數(shù)據(jù)之間的關(guān)聯(lián)性來標(biāo)識用戶的方法。圖4是本發(fā)明技術(shù)的整體操作的高層流程圖。應(yīng) 理解，本發(fā)明技術(shù)的操作可以由捕捉設(shè)備20內(nèi)的處理器33、計(jì)算環(huán)境12內(nèi)的處理器101、 259、或者這兩個(gè)一起行動(dòng)的組合來實(shí)施。在步驟300，本系統(tǒng)標(biāo)識或者登記圖像相機(jī)組件 22的視場內(nèi)的身體(諸如舉例而言用戶A-D中的一個(gè)或多個(gè))。此操作是在逐幀的基礎(chǔ)上執(zhí)行的，但是來自先前幀的信息，諸如背景信息，可以被高速緩存以加速處理。關(guān)于步驟300 的身體登記的進(jìn)一步細(xì)節(jié)在下文參照圖5的流程圖來解釋。在步驟302，本系統(tǒng)登記在話筒陣列32的范圍內(nèi)檢出的語音。將存在其中本系統(tǒng) 能夠?qū)⒄Z音毫無疑義地與特定身體相關(guān)聯(lián)的實(shí)例。例如，話筒陣列32能夠定位語音的源達(dá) 到包括相對于圖像捕捉設(shè)備20的特定角度或角度范圍的容限，且圖像相機(jī)組件22確定在該角度或角度范圍處只有一個(gè)用戶。在此類實(shí)例中，本系統(tǒng)能夠?qū)z出的人與檢出的語音毫無疑義地相關(guān)聯(lián)。關(guān)于步驟302和306的進(jìn)一步細(xì)節(jié)在下文參照圖6的流程圖來闡述。另一方面，可能發(fā)生在圖像和音頻采樣之后系統(tǒng)不能建立單個(gè)毫無疑義的關(guān)聯(lián)性而是標(biāo)識該語音可能所屬的一個(gè)或多個(gè)候選用戶的情況。例如，可能存在這樣的兩個(gè)用戶這兩個(gè)用戶具有過于相近以致使用本系統(tǒng)的圖像識別技術(shù)不能進(jìn)行區(qū)分的的物理外貌。替換地或者補(bǔ)充地，話筒陣列可能只能確定語音來自視場中具有一個(gè)以上的人的區(qū)域。例如在其中使用消費(fèi)者級別的硬件來捕捉圖像和音頻數(shù)據(jù)的情況下可能就是這樣。在這種情形下，本系統(tǒng)可采用各種因素來構(gòu)建指示該語音與給定用戶相關(guān)聯(lián)的置信度的置信度分?jǐn)?shù)。盡管不是毫無疑義，但是這些因素可能導(dǎo)致高于閾值置信度的分?jǐn)?shù)。若是如此，則高于閾值置信度的語音-身體關(guān)聯(lián)被存儲(chǔ)以用于未來采樣。未來采樣可以例如在未來采樣排除了該語音可能屬于的其他用戶的情況下強(qiáng)化該關(guān)聯(lián)?；蛘?，未來采樣可能顯示該關(guān)聯(lián)仍有疑意，在這種情形下可移除該關(guān)聯(lián)。即使在語音被關(guān)聯(lián)到身體之后，本發(fā)明技術(shù)的實(shí)施例可反復(fù)地再評估和再證實(shí)該語音-身體關(guān)聯(lián)性的置信度(步驟31幻。評估、明確以及再證實(shí)置信度的過程在下文參照圖8A-8B的流程圖來描述。圖5的流程圖示出用于基于獲得可允許系統(tǒng)將用戶與其他用戶區(qū)別開來的圖像數(shù)據(jù)來登記用戶的步驟。本系統(tǒng)可使用用于登記用戶的各種準(zhǔn)則，包括分析不同用戶的多個(gè)骨骼參考點(diǎn)。一旦用戶被標(biāo)識，該信息就可被存儲(chǔ)在例如存儲(chǔ)器34內(nèi)、和/或計(jì)算環(huán)境 12中的存儲(chǔ)器中。然而，可能發(fā)生兩個(gè)或兩個(gè)以上的用戶具有彼此相近到使得系統(tǒng)單獨(dú)使用圖像數(shù)據(jù)不能在他們之間進(jìn)行區(qū)分的物理外貌的情況。如下文所解釋的，此類用戶可使用一時(shí)間段上的圖像和語音數(shù)據(jù)的采樣來消除歧義。相應(yīng)地，在步驟320，本系統(tǒng)掃描視場內(nèi)的人類用戶(諸如舉例而言一個(gè)或多個(gè)用戶A-D)的視頻幀。如上所指示的，當(dāng)前技術(shù)允許將人類身體從可能處在視場內(nèi)的其他對象中辨識出來。在步驟322，本系統(tǒng)確定是否已在視場內(nèi)找到身體。若沒有，則在步驟326中系統(tǒng)看視場內(nèi)是否還有更多對象要掃描。假設(shè)有，則系統(tǒng)返回步驟320以掃描更多身體。另一方面，若在步驟322中找到身體，則本系統(tǒng)在步驟330中檢查該身體是否存在于先前幀中。系統(tǒng)可考慮各種因素來作出此確定，包括當(dāng)前幀和先前幀中身體之間的骨骼參考點(diǎn)或其他物理特性的匹配、以及在給定幀率的情況下當(dāng)前幀中的身體位置是否已經(jīng)從先前幀中檢出的位置進(jìn)行了移動(dòng)。一旦在步驟330中確定所找到的身體存在于先前幀中，系統(tǒng)就返回步驟320以掃描更多身體。另一方面，若步驟330確定所找到的身體沒有在先前幀中找到，則系統(tǒng)在步驟334 中檢查所找到的身體是否匹配已經(jīng)登記的身體。具體而言，系統(tǒng)可將描述當(dāng)前幀中的身體的信息與來自存儲(chǔ)器的關(guān)于先前已經(jīng)被標(biāo)識和登記的身體的信息相比較。若來自當(dāng)前幀的身體先前沒有被登記過，則在步驟338中系統(tǒng)將身體特征(即，骨骼特征和/或其他物理特性)存儲(chǔ)在存儲(chǔ)器中。在存儲(chǔ)身體特征之后，在步驟344中系統(tǒng)將該匹配身體標(biāo)記為被標(biāo) 識，并隨后返回步驟320以掃描更多身體。另一方面，若在步驟334確定所找到的身體確實(shí)匹配已知的身體，則在步驟340中系統(tǒng)檢查所找到的身體是否僅匹配一個(gè)已知身體。具體而言，所找到的身體可能具有與先前所標(biāo)識和存儲(chǔ)的身體的骨骼特征充分相近的骨骼特征。若在步驟340中系統(tǒng)確定所找到的身體僅匹配一個(gè)已知身體，則在步驟344中該找到的身體被標(biāo)記為匹配該已知身體，且系統(tǒng)返回步驟320以掃描更多身體。替換地，若在步驟340中確定所找到的身體匹配一個(gè) 以上的已知身體，則在步驟346中所找到的身體被標(biāo)記為與模糊性相關(guān)聯(lián)，且系統(tǒng)返回步驟320以掃描更多身體的幀。在步驟326中系統(tǒng)已經(jīng)確定該幀中沒有其他對象要掃描之后，系統(tǒng)在步驟350中更新當(dāng)前幀的身體位置，并在步驟354中登記和存儲(chǔ)所有的身體匹配。步驟3M還存儲(chǔ)所發(fā)現(xiàn)的身體身份中的模糊性。如上所指示的，聲學(xué)技術(shù)能夠從可由話筒陣列所拾取的各種聲音和背景噪聲中過濾和辨識人類語音。與如上參照圖5的流程圖所描述的搜索及登記身體相并發(fā)地，系統(tǒng)還搜索和登記語音，如現(xiàn)在將參照圖6所描述的。為了登記語音，系統(tǒng)采集包含足以與其他語音相區(qū)別地標(biāo)識一語音的各種語素的語音豐富的數(shù)據(jù)。登記語音的過程始于確定所辨識出的語音是否能與可見身體相關(guān)聯(lián)的步驟360。步驟360在下文參照圖7的流程圖進(jìn)行更詳細(xì)地描述。在步驟362，系統(tǒng)估計(jì)要登記的語音的源位置。如上所描述的，出于此目的可使用各種聲源定位技術(shù)中的任何一種。實(shí)施例可在低成本的、面向消費(fèi)者的系統(tǒng)中采用返回源位置加上或減去某個(gè)容限水平的聲學(xué)定位技術(shù)。在步驟363中，系統(tǒng)確定該語音是否必定來自圖像相機(jī)組件22的視場(即，圖IA和 IB中所示的射線A和B之間)內(nèi)的源。若不是，則系統(tǒng)在步驟364中確定該語音不與可見身體相關(guān)聯(lián)。另一方面，若語音確實(shí)來自視場內(nèi)，則系統(tǒng)在366中確定在該語音的所估計(jì)源處是否存在一身體。若沒有，則系統(tǒng)在步驟364中確定該語音不與可見身體相關(guān)聯(lián)。另一方面，若在該語音的所估計(jì)源處檢測到一身體，則系統(tǒng)接著在步驟368中檢查在該語音的可能源的范圍內(nèi)是否存在一個(gè)以上的身體。若是，則系統(tǒng)在步驟364中不能將該語音與可見身體相關(guān)聯(lián)。另一方面，若系統(tǒng)通過步驟363、366和368中的所有檢查，則系統(tǒng)能夠在步驟 370中將語音毫無疑義地與一個(gè)可見身體相關(guān)聯(lián)。返回到圖6的流程圖，若系統(tǒng)在360中不能將語音與可見身體相關(guān)聯(lián)，則在步驟 372中該話語沒有資格進(jìn)行登記，并且在一些實(shí)施例中，系統(tǒng)將不使用該話語進(jìn)行登記且不會(huì)將其與特定的人相關(guān)聯(lián)。在實(shí)施例中，該話語仍可被系統(tǒng)用于口頭指令或命令的語音識別。在步驟372中話語沒有資格進(jìn)行登記的實(shí)施例中，本系統(tǒng)可在步驟373中提示視場中的一個(gè)或多個(gè)用戶講話并執(zhí)行一些物理動(dòng)作。該物理動(dòng)作例如可以是站在視場中但與其他用戶分開。這樣，除了接收語音數(shù)據(jù)外，系統(tǒng)還能夠肯定地標(biāo)識和登記該說話者，因?yàn)?他正執(zhí)行所請求的動(dòng)作。這些物理動(dòng)作可以是游戲或應(yīng)用程序度量的部分，或者在游戲或應(yīng)用程序度量之外。在其他實(shí)施例中可以省略步驟373。在被省略的情況下，由于登記的原因用戶將體驗(yàn)到較少的侵?jǐn)_，但登記的完成可能受支配于用戶的偶然動(dòng)作。另一方面，若在步驟360中確定該語音與可見身體相關(guān)聯(lián)，則系統(tǒng)接下來在步驟 374中檢查所標(biāo)識的可見身體是否延續(xù)自先前登記話語。換言之，若系統(tǒng)在步驟360中將語音與一可見身體相關(guān)聯(lián)，則系統(tǒng)在步驟374中檢查來自先前幀的該身體是否是連續(xù)地移動(dòng) 到當(dāng)前幀中在步驟360中所標(biāo)識的身體的位置的。若在步驟374中確定語音在先前幀中所相關(guān)聯(lián)的身體不是語音在當(dāng)前幀中所相關(guān)聯(lián)的身體，則系統(tǒng)可將先前相關(guān)性作為錯(cuò)誤來處理。在此類事件中，系統(tǒng)在步驟376中關(guān)于步驟360中所標(biāo)識的身體開始一新的語音登記過程。在步驟378中，話語隨后被添加到該登記。在步驟380，系統(tǒng)檢查登記是否完成。即，系統(tǒng)檢查是否已經(jīng)采集了足夠的語音數(shù) 據(jù)以允許系統(tǒng)毫無疑義地標(biāo)識與其他語音區(qū)別開的給定語音。若沒有，則話語不足以進(jìn)行登記，但在實(shí)施例中，在步驟381中可被存儲(chǔ)以供與未來話語一起使用從而一旦已采集了必要差異性的語音數(shù)據(jù)就建立登記。另一方面，若系統(tǒng)在步驟380確定登記完成，則系統(tǒng)在步驟382保存所登記的語音并在步驟384將所登記的語音與已知身體相關(guān)聯(lián)并進(jìn)行存儲(chǔ)。系統(tǒng)隨后返回關(guān)聯(lián)到已知身體的已知語音。在其中登記在步驟380中未完成的實(shí)施例中，本系統(tǒng)可在步驟383中提示視場中的一個(gè)或多個(gè)用戶講話。系統(tǒng)的此動(dòng)作可被掩蓋作為游戲或應(yīng)用程序度量的部分，或者可以在游戲或應(yīng)用程序度量之外。在執(zhí)行步驟383的情況下，可提示特定的被登記用戶說出某些語音豐富的詞或聲音，以使得一旦說出，系統(tǒng)就能夠關(guān)于該用戶的已知身體來登記該用戶的語音以用于稍后的話語。步驟383可被省略，在這種情況下，步驟380中的登記失敗可導(dǎo)致如上所述地返回未知語音。如上關(guān)于圖6所描述的本發(fā)明技術(shù)的操作登記并存儲(chǔ)新的語音，并進(jìn)一步確定該語音可與已知身體毫無疑義地相關(guān)聯(lián)。如上所述，經(jīng)?？赡艿那樾问窍到y(tǒng)聽到語音但不能將該語音毫無疑義地與單個(gè)身體相關(guān)聯(lián)。相應(yīng)地，本發(fā)明技術(shù)包括評估、明確、以及再證實(shí)語音-身體相關(guān)性的步驟?，F(xiàn)在將參照圖8A和8B的流程圖來描述此過程的更詳細(xì)的描述。一般而言，話筒陣列32聽到發(fā)出聲的語音，并且在檢測到語音話語之時(shí)，執(zhí)行以下關(guān)于圖8A和8B所描述的步驟386-432?？赡茉谙嗤臅r(shí)間段內(nèi)檢測到一個(gè)以上的語音。本系統(tǒng)可對話筒陣列32能夠分開和不同地感知的每個(gè)發(fā)出聲的語音執(zhí)行圖8A和8B的步驟。該系統(tǒng)可每幀一次、或者每預(yù)定數(shù)目個(gè)幀一次地運(yùn)行圖8A和8B的步驟，以隨時(shí)間不斷地評估、明確和再證實(shí)語音-身體相關(guān)性。在步驟386，系統(tǒng)檢查話語是否是所登記的語音。若不是，系統(tǒng)轉(zhuǎn)到如上關(guān)于圖6 所述的步驟360以登記該語音并看其是否與視場內(nèi)的身體毫無疑義地相關(guān)聯(lián)。在步驟386，若確定該語音是被登記的，則系統(tǒng)在步驟388中檢查該語音是否具有與已知身體的在先匹配。若沒有，則系統(tǒng)如下文關(guān)于圖8B中的步驟416所述地確定在該語音與視場內(nèi)的身體之間是否具有空間匹配。然而，若步驟388確定存在該語音與已知身體的在先匹配，則系統(tǒng)在步驟390中檢查該已知身體是否在視場內(nèi)可見。如否，則本系統(tǒng)在步驟394中檢查在該發(fā)聲的語音與視場內(nèi)可見的身體之間是否有空間匹配。系統(tǒng)執(zhí)行步驟 394以檢查步驟388中檢索到的該語音-身體關(guān)聯(lián)是否正確。具體而言，在步驟394中若在該語音與可見身體之間存在匹配，但在步驟390中確定先前所標(biāo)識的身體不可見，則系統(tǒng) 確定在先語音-身體相關(guān)性可能不正確，且可能存在模糊性。系統(tǒng)注意到此模糊性并行進(jìn) 至下文描述的步驟404。步驟394例如可以如上文在圖7中所描述地通過確定語音的相近源并看看在該相近源處是否存在身體來執(zhí)行。若在步驟390中確定先前與該語音相匹配的身體并不可見且步驟394確認(rèn)該語音與那時(shí)可見的身體并不匹配，則在步驟398中維持該在先關(guān)聯(lián)并且系統(tǒng)返回伴隨已知身體的已知語音。另一方面，若步驟390確定先前與該語音匹配的身體可見，則系統(tǒng)接著在步驟 400中檢查在該語音與該已知身體之間的空間匹配是否是良好匹配，即空間匹配是否是毫無疑義的。步驟400例如可以如上文在圖7中所描述地來執(zhí)行。本系統(tǒng)保持對給定的語音-身體關(guān)聯(lián)是否在數(shù)個(gè)不同的采樣中保持有歧義的跟蹤。若在數(shù)次不同的采樣中檢查語音-身體關(guān)聯(lián)之后，系統(tǒng)不能通過該排除過程毫無疑義地確定該語音與該身體事實(shí)上相關(guān)聯(lián)，則系統(tǒng)可認(rèn)為該關(guān)系過于模糊而無需維持，并移除該關(guān)聯(lián)。相應(yīng)地，在步驟404，本系統(tǒng)計(jì)數(shù)給定的語音-身體關(guān)聯(lián)多少次被發(fā)現(xiàn)有歧義。在步驟406，系統(tǒng)確定步驟404中的計(jì)數(shù)是否超過某一個(gè)歧義閾值。若是，則在步驟410中移除先前標(biāo)識的關(guān)聯(lián)，且系統(tǒng)返回已知語音但沒有與一已知身體相關(guān)聯(lián)。若步驟406中的計(jì) 數(shù)未超過該歧義閾值，則系統(tǒng)在步驟408中維持該關(guān)聯(lián)，并返回已知語音-身體關(guān)聯(lián)。在實(shí) 施例中，歧義閾值例如可以介于3和6之間。因此，若閾值被設(shè)為例如5，則如果系統(tǒng)不能在5次采樣之后排除掉給定語音與身體間的關(guān)聯(lián)的歧義，那么系統(tǒng)將移除該關(guān)聯(lián)。在其他實(shí)施例中，歧義閾值可以小于3和高于6。以上描述了若步驟400中的空間匹配有歧義則系統(tǒng)怎么做。然而，若在步驟400 中確定空間匹配毫無疑義，則系統(tǒng)接著在步驟414中確定與該語音相匹配的身體先前是否被認(rèn)為有歧義。若是，則系統(tǒng)更新該關(guān)聯(lián)以移除該歧義，如下文參照圖8B中的步驟430所解釋的。另一方面，若在步驟414中確定所存儲(chǔ)的語音-身體關(guān)聯(lián)沒有歧義，則系統(tǒng)在步驟 408中保持該關(guān)聯(lián)，且系統(tǒng)返回伴隨已知身體的已知語音。如上所述，步驟390及之后的步驟是在步驟388中確定語音具有與已知身體的在前關(guān)聯(lián)的情況下執(zhí)行的。然而，若在步驟388中確定該登記的語音沒有與已知身體的在前匹配，則本系統(tǒng)執(zhí)行圖8B中的步驟416。步驟416嘗試確定在該語音與視場內(nèi)的一個(gè)或多個(gè)用戶之間是否存在關(guān)聯(lián)?？赡馨l(fā)生步驟416能夠毫無疑義地標(biāo)識該語音必定屬于的單個(gè) 用戶的情況。例如，系統(tǒng)可確定該語音來自視場內(nèi)且在視場內(nèi)只有單個(gè)人，如上文參照圖7 所描述的?；蛘?，盡管不是毫無疑義，但步驟416可標(biāo)識可能與該語音相關(guān)聯(lián)的一個(gè)或多個(gè) 用戶。為了作出此確定，本系統(tǒng)可采用各種因素，這些因素可被應(yīng)用于達(dá)到得分置信度。一般而言，在考慮了這些因素時(shí)，如果語音可與身體高于閾值置信度地相關(guān)聯(lián)，則存儲(chǔ)并返回該語音-身體關(guān)聯(lián)。在實(shí)施例中，可對得分作出貢獻(xiàn)的因素可包括以下一個(gè)或多個(gè)。一種因素可以是所估計(jì)的語音源的位置與已知身體有多近。在身體就處在聲學(xué)定位技術(shù)所估計(jì)的確切位置時(shí)，此因素將得到比在身體與語音的所估計(jì)位置有間距的實(shí)例下更高的分?jǐn)?shù)。形成得分的部分的另一因素可以是在視場中有多少個(gè)身體。身體越多，語音與這些身體中的任何一個(gè)的相關(guān)性中將具有越少的置信度。相反，若視場中的僅有的一個(gè) 人就是該語音先前所關(guān)聯(lián)的人，則這將導(dǎo)致往往指示相關(guān)聯(lián)的語音與身體之間優(yōu)質(zhì)的空間匹配的分?jǐn)?shù)。對得分作出貢獻(xiàn)的另一因素是所聽到的語音的數(shù)目。此因素可降低或增加分?jǐn)?shù)。例如，若存在許多聲音，以使得有太多的噪聲以致不能準(zhǔn)確地確定正在考慮的語音的源，則這將趨向于降低該語音與所標(biāo)識的身體的關(guān)聯(lián)性的分?jǐn)?shù)。另一方面，若除了所考慮的語音之外所聽到的語音先前已經(jīng)與其他用戶相關(guān)聯(lián)且這些用戶在視場內(nèi)，則此因素可增加衡量所考慮的語音與先前所標(biāo)識的身體之間的關(guān)聯(lián)性的分?jǐn)?shù)。除了視場內(nèi)的人數(shù)之外，人與所估計(jì)的該語音的源之間的接近度是影響得分的另一因素。若兩個(gè)人或更多的人在所估計(jì)的源的附近，則這往往將降低分?jǐn)?shù)，而在視場中有多個(gè)人但只是先前匹配的人在所估計(jì)的源的附近的情況下，這往往將促進(jìn)得分。對得分作出貢獻(xiàn)的另一因素是語音的源是否被估計(jì)成以視場為中心而不是靠近邊緣。當(dāng)估計(jì)一語音在視場邊緣的附近時(shí)，該語音可能來自視場內(nèi)先前匹配的人，或者來自視場之外的人。因此，人與被估計(jì)成位于視場中心的語音之間的空間匹配將導(dǎo)致比處在視場邊緣的附近的情況更高的分?jǐn)?shù)。本領(lǐng)域技術(shù)人員將領(lǐng)會(huì)可使用其他因素來得到指示在語音與身體之間是否具有關(guān)聯(lián)性的分?jǐn)?shù)。不同實(shí)施例可使用上述因素中的一個(gè)或多個(gè)來達(dá)到得分置信度。在上述因素中的一個(gè)或多個(gè)之外或者作為其替代，可使用其他因素。在實(shí)施例中，所使用的因素可被加權(quán)和量化，以使得在考慮了針對特定的語音-身體對所使用的因素時(shí)，可以獲得數(shù)字分?jǐn)?shù)?？梢?任意地選擇閾值置信度，高于該閾值置信度的分?jǐn)?shù)被認(rèn)為是有意義的且足以存儲(chǔ)該語音與身體之間的關(guān)聯(lián)性。在于步驟416中得到毫無疑義的標(biāo)識或得分置信度之后，系統(tǒng)在步驟420更新所作的任何關(guān)聯(lián)性的證據(jù)(分?jǐn)?shù))。在步驟424，系統(tǒng)檢查是否找到毫無疑義或者以其它方式獲得了超過閾值置信度的分?jǐn)?shù)的匹配。若沒有，則系統(tǒng)返回沒有找到匹配該已知語音的已知身體。另一方面，若在步驟4M確定找到一個(gè)或多個(gè)與該語音高于閾值置信度地相關(guān)聯(lián)，則在步驟428中記錄這些關(guān)聯(lián)，且系統(tǒng)返回已知語音與至少一個(gè)已知身體相關(guān)聯(lián)。如所指示的，步驟8A和8B的步驟隨后可在多次采樣中重復(fù)以使得通過排除過程關(guān)聯(lián)性可就語音可能屬于哪些身體而言變得毫無疑義，或者若在多次采樣之后仍有歧義則可以移除關(guān)聯(lián)。如上關(guān)于圖8A所述的，若在步驟414確定所存儲(chǔ)的身體身份沒有歧義則在步驟 414之后執(zhí)行步驟408。然而，若在步驟414確定所存儲(chǔ)的身體身份是有歧義的，則本系統(tǒng) 執(zhí)行如圖8B中所示的步驟430。具體而言，在步驟388、390和400中，確定語音與一個(gè)或多個(gè)已知身體具有關(guān)聯(lián)性，這些已知身體之一是可見的，且與該已知身體的空間匹配是毫無疑義的。步驟414隨后查看存儲(chǔ)器以確定在存儲(chǔ)中是否有一個(gè)以上與該語音相關(guān)聯(lián)的身體。若是，則當(dāng)前采樣在步驟430中通過更新證據(jù)以顯示語音與身體之間的毫無疑義的關(guān) 聯(lián)性來明確該關(guān)聯(lián)性。即使在系統(tǒng)已經(jīng)確定語音與用戶毫無疑義地相關(guān)聯(lián)之后，本系統(tǒng)仍允許在該關(guān)聯(lián) 中有可能的誤差。具體而言，相同的語音與存儲(chǔ)器中的另一用戶毫無疑義地相關(guān)聯(lián)、或者該用戶與存儲(chǔ)器中的另一語音毫無疑義地相關(guān)聯(lián)是可能的由此，步驟432確定該歧義是否被解決。若是，系統(tǒng)返回伴隨已知身體的已知語音。若沒有，則系統(tǒng)返回已知語音，但沒有相關(guān)聯(lián)的已知身體。步驟8A和8B的步驟隨后可在多次采樣中重復(fù)以使得通過排除過程關(guān)聯(lián) 性可就語音可能屬于哪些身體而言再次變得毫無疑義，或者若在多次采樣之后仍有歧義則可以移除關(guān)聯(lián)。使用上述系統(tǒng)，可在游戲、多媒體或其他多用戶應(yīng)用中將語音與身體相關(guān)聯(lián)。盡管可能存在能夠在單次采樣中將語音與身體毫無疑義地相關(guān)聯(lián)的系統(tǒng)，這些系統(tǒng)要求在大多數(shù)游戲、多媒體或其他基于消費(fèi)者的應(yīng)用不切實(shí)際的高成本精密系統(tǒng)。然而，不同于常規(guī)系統(tǒng)，本系統(tǒng)能夠在所用裝置無法在單次采樣中確定此類關(guān)聯(lián)的情況下作出可靠語音-身體關(guān)聯(lián)。此外，已知的是系統(tǒng)始于被登記的用戶。即，該組用戶具有已知的被登記的身體特征和/或已知的被登記的語音。常規(guī)系統(tǒng)并不是在始于具有未知的身體特征和未知語音的用戶的情況下來作出語音-身體關(guān)聯(lián)的。本發(fā)明技術(shù)允許進(jìn)行此類關(guān)聯(lián)。盡管已經(jīng)結(jié)合較佳方面按各附圖所示描述了本發(fā)明，但要理解，可使用其它相似方面或者可對所述方面進(jìn)行修改或添加來執(zhí)行本發(fā)明的相同功能而不脫離本發(fā)明。因此，本發(fā)明應(yīng)當(dāng)不限于任何單一方面，而應(yīng)按照所附權(quán)利要求書的寬度與范圍來解釋。例如，本文描述的各種過程可用硬件或軟件、或兩者的組合來實(shí)現(xiàn)。因此，所公開的各實(shí)施例的方法和裝置或其某些方面或部分可采用在諸如軟盤、CD-ROM、硬盤驅(qū)動(dòng)器或任何其他機(jī)器可讀存儲(chǔ)介質(zhì)等有形介質(zhì)中具體化的程序代碼(即，指令)的形式。當(dāng)程序代碼被加載到諸如計(jì)算機(jī)等機(jī)器并由其執(zhí)行時(shí)，該機(jī)器變?yōu)楸慌渲贸蓪?shí)施所公開的各實(shí)施例的裝置。除了此處明確闡述的具體實(shí)現(xiàn)之外，考慮此處所公開的說明書，其它方面和實(shí)現(xiàn)將對本領(lǐng)域的技術(shù)人員是顯而易見的。說明書和所示實(shí)現(xiàn)旨在僅被認(rèn)為是示例。
權(quán)利要求
1.在始于未知用戶集合(A-D)的多用戶應(yīng)用程序中，一種標(biāo)識用戶與用戶語音之間的相關(guān)性的方法，所述方法包括以下步驟(a)接收在多個(gè)時(shí)段上拍攝的視頻捕捉組件的視場內(nèi)的對象(A'-D')的多幅圖像；(b)確定在所述步驟(a)中接收到的所述圖像包括一個(gè)還是多個(gè)用戶；(c)接收多個(gè)時(shí)段內(nèi)話筒陣列的范圍內(nèi)的音頻；(d)確定在所述步驟(c)中接收到的所述音頻包括一個(gè)還是多個(gè)人類語音；以及(e)基于所述用戶在不同圖像中的所確定位置以及所述語音在不同時(shí)間的所確定源位置的多次采樣來將所述步驟(d)中所標(biāo)識的語音與所述視場內(nèi)的所述一個(gè)或多個(gè)用戶 (A-D)中的用戶相關(guān)聯(lián)。
2.如權(quán)利要求1所述的方法，其特征在于，所述步驟(e)包括通過從對所述多幅圖像中的圖像的檢查確定所述一個(gè)或多個(gè)用戶的位置來形成以及通過使用聲源定位技術(shù)確定所述語音的位置來形成所述多次采樣中的采樣的步驟。
3.如權(quán)利要求1所述的方法，其特征在于，所述步驟(e)包括執(zhí)行所述多次采樣中的第一次采樣以獲得所述語音與所述用戶之間的關(guān)聯(lián)性的置信度，高于預(yù)定義閾值的置信度導(dǎo) 致所述語音和所述用戶在存儲(chǔ)器中被關(guān)聯(lián)在一起。
4.如權(quán)利要求3所述的方法，其特征在于，所述步驟(e)包括若所述多次采樣中的后續(xù) 采樣減少了所述語音可能屬于的可能用戶的人數(shù)則所述置信度在所述后續(xù)采樣中升高的步驟。
5.如權(quán)利要求4所述的方法，其特征在于，還包括在所述多次采樣中排除了所述語音可能屬于的所有其他用戶之際將所述語音毫無疑義地與所述用戶相關(guān)聯(lián)的步驟。
6.如權(quán)利要求5所述的方法，其特征在于，還包括在所述語音與用戶之間的所述關(guān)聯(lián) 性已經(jīng)是毫無疑義地被關(guān)聯(lián)在一起之后在所述多次采樣中執(zhí)行附加采樣的步驟。
7.如權(quán)利要求3所述的方法，其特征在于，還包括若附加采樣不能就所述語音屬于哪個(gè)用戶消除歧義或者若附加采樣顯示所述語音屬于所述一個(gè)或多個(gè)用戶中的第二用戶則移除所述相關(guān)性的步驟。
8.如權(quán)利要求1所述的方法，其特征在于，所述步驟(e)包括執(zhí)行所述多次采樣中的第一次采樣以導(dǎo)出所述語音和用戶之間的關(guān)聯(lián)的得分置信度，所述得分置信度是通過檢查以下因素中的一個(gè)或多個(gè)來獲得的i.語音源的所估計(jì)位置與所述一個(gè)或多個(gè)用戶有多近； .所聽到的語音的數(shù)目；iii.所述一個(gè)或多個(gè)用戶與所述語音的所估計(jì)源的接近度；iv.所述語音的源是被估計(jì)以所述圖像的視場為中心還是靠近所述視場的邊緣。
9.如權(quán)利要求1所述的方法，其特征在于，所述確定在所述步驟(a)中接收到的所述圖像包括一個(gè)還是多個(gè)用戶的步驟(b)包括測量用戶骨關(guān)節(jié)的至少部分的位置的步驟。
10.如權(quán)利要求9所述的方法，其特征在于，所述部分地基于所述語音的所確定源位置將在所述步驟(d)中標(biāo)識的語音與用戶相關(guān)聯(lián)的步驟(e)包括通過抵達(dá)時(shí)間差來確定語音的源位置的步驟。
11.如權(quán)利要求1所述的方法，其特征在于，還包括檢查所述用戶的物理特征以將所述用戶與其他用戶區(qū)別開來以及檢查所述語音的聲學(xué)特質(zhì)以將所述語音與其他語音區(qū)別開來的步驟。
12.一種用于在多用戶應(yīng)用程序中將語音與用戶(A-D)相關(guān)聯(lián)的系統(tǒng)，所述系統(tǒng)包括圖像相機(jī)組件，其能夠提供所述圖像相機(jī)組件的視場中的一個(gè)或多個(gè)用戶(A-D)的深度圖像；話筒陣列，其能夠接收所述話筒陣列的范圍內(nèi)的音頻，所述話筒陣列能夠?qū)⒄Z音的源定位在第一容限內(nèi)；以及與所述圖像捕捉組件和話筒陣列兩者通信的計(jì)算環(huán)境，所述計(jì)算環(huán)境能夠區(qū)別所述視場中的不同用戶達(dá)到第二容限，所述第一和第二容限有時(shí)妨礙在對來自所述圖像相機(jī)的數(shù) 據(jù)和來自所述話筒陣列的數(shù)據(jù)進(jìn)行初始采樣后將所述語音與所述一個(gè)或多個(gè)用戶中的用戶相關(guān)聯(lián)，所述計(jì)算環(huán)境還執(zhí)行對來自所述圖像相機(jī)的數(shù)據(jù)和來自所述話筒陣列的數(shù)據(jù)的附加采樣，所述附加采樣允許將所述語音與所述用戶相關(guān)聯(lián)或者所述附加采樣降低了所述語音與所述用戶相關(guān)聯(lián)的似然性。
13.如權(quán)利要求12所述的系統(tǒng)，其特征在于，在執(zhí)行所述初始和附加采樣的同時(shí)所述計(jì)算環(huán)境執(zhí)行涉及所述一個(gè)或多個(gè)用戶的游戲應(yīng)用程序。
14.如權(quán)利要求12所述的系統(tǒng)，其特征在于，所述計(jì)算環(huán)境通過檢測所述一個(gè)或多個(gè) 用戶的關(guān)節(jié)位置來區(qū)別所述視場中的不同用戶。
15.如權(quán)利要求14所述的系統(tǒng)，其特征在于，所述話筒陣列使用兩個(gè)話筒通過所述語音抵達(dá)所述兩個(gè)話筒的時(shí)間差來定位所述語音的源。
全文摘要
本文描述了一種語音-身體身份相關(guān)。公開了一種用于隨時(shí)間推移跟蹤圖像和音頻數(shù)據(jù)以基于人在多用戶游戲或多媒體設(shè)置中的語音與身體的相關(guān)性來自動(dòng)地標(biāo)識人的系統(tǒng)和方法。
文檔編號G10L15/00GK102135882SQ20111003324
公開日2011年7月27日申請日期2011年1月24日優(yōu)先權(quán)日2010年1月25日
發(fā)明者C·克萊恩, M·德尼斯, T·萊瓦德, 李勁宇申請人:微軟公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：M·德尼斯;T·萊瓦德;C·克萊恩;李勁宇
技術(shù)所有人：微軟公司
我是此專利的發(fā)明人

上一篇：基于可變時(shí)長的音頻特征分類方法
上一篇：旋律辨識方法與其裝置的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語音身份識別相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

語音-身體身份相關(guān)的制作方法