在點(diǎn)對點(diǎn)和多點(diǎn)音頻/視頻會議期間顯示動態(tài)呼叫者身份的制作方法

文檔序號：6580759閱讀：229來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：在點(diǎn)對點(diǎn)和多點(diǎn)音頻/視頻會議期間顯示動態(tài)呼叫者身份的制作方法
技術(shù)領(lǐng)域：
本申請一般涉及視頻會議領(lǐng)域。更具體而非限制性地，本申請涉及在視頻會議環(huán)
境中識別當(dāng)前發(fā)言者以及在信息框中呈現(xiàn)關(guān)于當(dāng)前發(fā)言者的信息的方法。
背景技術(shù)：
在現(xiàn)代商業(yè)組織中，具有地理上分散的個人的團(tuán)體參加視頻會議而不是面對面開會并不少見。公司和組織越來越多地使用視頻會議來減少差旅費(fèi)并且節(jié)省時間。但是，視頻會議系統(tǒng)不能完美地模擬與會者在典型的與其它與會者面對面開會期間可能期待的那樣，這可能會抵消掉財務(wù)和時間上的節(jié)省。在視頻會議期間會顯著缺少面對面會議的與會者自身低估了其價值(take for granted)的重要的感覺信息，而這阻礙了有效且高效的交流。
由于視頻會議系統(tǒng)的性質(zhì)，經(jīng)由視頻會議鏈接的不同的會議地點(diǎn)通常包含多個與會者。在這樣的情況下，可能有利的是傾聽的與會者識別發(fā)言的與會者，因此他能將他正在接收的聽覺信息放到背景(context)中。發(fā)言的對話根據(jù)發(fā)言者可以具有不同的意義或重要性。不幸的是，常常是這樣的情況由于使用的視頻會議技術(shù)的限制，與會者對發(fā)言者的識別被推遲或變得不可能。例如，視頻屏幕可能太小或質(zhì)量很差，因而與會者可能不能感知遠(yuǎn)程與會者的嘴唇的運(yùn)動或他的身體語言。此外，聲音的方向性可能會丟失，因?yàn)樗窃谶h(yuǎn)程位置被再現(xiàn)的。

發(fā)明內(nèi)容
在一個實(shí)施例中，本申請?zhí)峁┝艘环N在多方多地點(diǎn)視頻會議或僅有音頻和視頻的混合的會議中確定并顯示個人信息以幫助其它與會者的方法。在會議期間，不同的人將在不同的時間發(fā)言，并且可以通過檢測在視頻會議的終端處的音頻輸入并使用它識別當(dāng)前誰正在發(fā)言，來識別當(dāng)前發(fā)言的與會者。一被識別出來，就可以將與被識別的人相關(guān)聯(lián)的個人信息提供給會議的其它終端，作為對在這些其它終端處的與會者的幫助。例如，如果他們不具有對那人的識別特征的個人認(rèn)識，則將為他們呈現(xiàn)當(dāng)前發(fā)言的與會者的姓名和頭銜。
在另一個實(shí)施例中，存儲多種識別信息，以努力增大自動識別當(dāng)前發(fā)言的與會者的準(zhǔn)確度。在此實(shí)施例中，獨(dú)立地處理不同類型識別信息中的每一個，并且比較獨(dú)立處理的結(jié)果以在提供個人信息之前確定是否已經(jīng)找到一致的結(jié)果。另外，如果沒有獲得一致的結(jié)果，則可能讓呼叫主持人(call moderator)輸入識別信息，并且此更新的識別信息隨后可以用于提高未來自動識別的準(zhǔn)確度。

圖1示出了具有多個地點(diǎn)和可能正在視頻會議中的多個與會者的示例公司。
圖2以示例形式示出了在多方、多地點(diǎn)視頻會議的一個或多個地點(diǎn)定義會議與會者的過程。圖3以示例形式示出了識別視頻會議的當(dāng)前發(fā)言的與會者的過程。
5
圖4示出了識別視頻會議的當(dāng)前發(fā)言的與會者的可替換實(shí)施例。
圖5示出了視頻會議系統(tǒng)的一個實(shí)施例的框圖。
具體實(shí)施例方式
在典型的面對面會議中，傾聽的與會者確定哪一個與會者當(dāng)前正在發(fā)言通常是直
接且容易的。需要一種在視頻會議的背景下模擬此常規(guī)識別任務(wù)的視頻會議系統(tǒng)。但是，即使傾聽的與會者能夠辨別哪個人正在發(fā)言，他也可能不知道發(fā)言者的姓名和頭銜。還需要一種在視頻會議環(huán)境中呈現(xiàn)當(dāng)前發(fā)言者的個人識別信息的系統(tǒng)。本申請公開了滿足這些需要并且包括其它有利特征的方法和系統(tǒng)。在特定的實(shí)施例中，將視頻會議設(shè)備描述為基于用戶定義的輸入?yún)?shù)結(jié)合計(jì)算的識別參數(shù)來呈現(xiàn)當(dāng)前發(fā)言者的個人信息。計(jì)算的識別參數(shù)包括但不限于，通過語音識別和/或人臉識別軟件、定向傳聲器及其它環(huán)境感測技術(shù)獲得的參數(shù)。以下本申請還描述了用于在視頻會議系統(tǒng)的背景下識別并呈現(xiàn)關(guān)于當(dāng)前發(fā)言者的個人信息的方法和系統(tǒng)。本領(lǐng)域技術(shù)人員將理解，可以將本申請的發(fā)明性質(zhì)延伸到其它類型的在社區(qū)或商業(yè)組織(諸如，共享的工作空間、虛擬會議室和在線社區(qū))之間共享的多用戶通信技術(shù)。請注意，盡管用視頻會議來描述本申請的發(fā)明性質(zhì)，但是它也可以應(yīng)用于僅有音頻的會議、遙現(xiàn)、即時消息等。在現(xiàn)代商業(yè)組織中，具有地理上分散的個人的團(tuán)體參加同時發(fā)生的音頻會議、視
頻會議或兩者的結(jié)合并不少見。例如，參考圖l，在配置100中示出了企業(yè)A，其具有位于紐
約(105)、休斯頓(110)和特拉華(115)的辦公室。企業(yè)A經(jīng)由通過網(wǎng)絡(luò)170連接的視頻會
議來舉行每月的、企業(yè)范圍的狀態(tài)會議。每個地點(diǎn)安裝有揚(yáng)聲器電話(185)、攝像機(jī)(181)
和顯示設(shè)備(180、180a)。在這樣的會議期間，當(dāng)前視頻會議系統(tǒng)允許地理上分散的與會者
看見并聽見他們的遠(yuǎn)程的同事，但是若干限制可能妨礙體驗(yàn)的有效性。第一，與會者確定誰正在遠(yuǎn)程地點(diǎn)發(fā)言可能是困難的。當(dāng)前系統(tǒng)常常自動顯示發(fā)
言者所在的地點(diǎn)的名稱，并且放大從該地點(diǎn)供給的視頻，但是由于視頻和音頻再現(xiàn)方面的
限制，遠(yuǎn)程與會者仍然可能不能辨別發(fā)言者的身份。因而，可以提醒(alert)休斯頓的會
計(jì)(150)他正聽到的聲音來自于在紐約的企業(yè)總部中的人，但是它屬于誰可能是未知的。
沒有此信息的話，遠(yuǎn)程與會者可能無法區(qū)別CE0(120)的發(fā)言與會計(jì)(130)的發(fā)言，因?yàn)?br> CE0(120)和會計(jì)(130) 二者處于相同的地點(diǎn)。這樣的方案明顯不是最佳的。第二，在較大的公司中，即使與會者可以識別出發(fā)言者，他也可能不知道他的姓名
和頭銜。此外，為了最佳地參與會議，每個與會者知道在紐約發(fā)言的未知面孔的人屬于同級
還是上級(例如，副總裁125)會是有利的。通過自動顯示發(fā)言的與會者的"個人信息"，可
以消除上述缺陷，并且視頻會議可以更有效地模擬面對面會議并且或許甚至提供一些不用
科技幫助就不可用的附加信息。所顯示的"個人信息"可以包括但不限于姓名、頭銜、位置
及其它與會議有關(guān)的信息。可以用各種方式來實(shí)現(xiàn)點(diǎn)對點(diǎn)和多點(diǎn)視頻會議期間的發(fā)言者身份的顯示。在一個實(shí)施例中，大量的設(shè)備和技術(shù)一齊工作以實(shí)現(xiàn)及時的發(fā)言者識別。例如，視頻捕獲設(shè)備和定向傳聲器向處理系統(tǒng)發(fā)送環(huán)境數(shù)據(jù)，該處理系統(tǒng)依靠與會者信息的儲存庫而運(yùn)行語音識別和人臉識別軟件。此外，一個或多個地點(diǎn)處的主持人可以監(jiān)視所顯示的個人信息的準(zhǔn)確度，
6并且在錯誤的情況下，對在處理系統(tǒng)中獲得的結(jié)果進(jìn)行校正。此外，學(xué)習(xí)算法可以分析這些校正，從而增大未來的準(zhǔn)確度。這里所用的"視頻會議"可以是被配置為便于一群人之間同時通信的一個或多個終端的任意組合。這包括其中一些與會者地點(diǎn)僅僅通過音頻連接來連接而其它與會者地點(diǎn) 通過音頻與視頻連接來連接的會議。在這樣的情況下，可以預(yù)見，在發(fā)言之后，將向配備有視頻能力的地點(diǎn)顯示僅有音頻的與會者的個人信息。在一個實(shí)施例中，語音識別軟件將確定僅有音頻的與會者的身份。現(xiàn)在參考圖2，過程200描述可以如何將具有顯示當(dāng)前發(fā)言者的個人識別信息的能力的視頻會議系統(tǒng)配置用于多地點(diǎn)、多個與會者的會議。應(yīng)當(dāng)注意，圖2描述在許多會議地點(diǎn)中的僅僅一個地點(diǎn)處的設(shè)置過程，并且所描述的步驟可以在視頻會議之前在許多或全部會議地點(diǎn)處發(fā)生。當(dāng)與會者在會議開始之前到達(dá)會議地點(diǎn)時，可以給主持人(145)分派將每個與會者輸入到視頻會議系統(tǒng)中的任務(wù)。在可替換實(shí)施例中，單個主持人從單個地點(diǎn)管理所有會議地點(diǎn)，并且由與會者自己執(zhí)行視頻會議設(shè)置。一個或多個地點(diǎn)處的主持人 (145)也可以是視頻會議的與會者。從塊210開始，一旦與會者就座，主持人(145)就可以將攝像機(jī)調(diào)焦(zoom)到與會者并且創(chuàng)建和與會者及他的位置相關(guān)聯(lián)的攝像機(jī)預(yù)置內(nèi)容(preset)。同樣在塊210處，攝像機(jī)還可以捕獲與會者的隨后的人臉識別所需的視覺信息。移動到塊220，與會者然后可以口頭上確定自己的身份，并且向主持人提供適合于會議的有關(guān)的個人信息。在一個實(shí)施例中，口述的個人信息可以用傳聲器來記錄，并且由視頻會議系統(tǒng)上的語音到文本軟件來轉(zhuǎn)換成文本。也可以稍后由語音識別軟件使用所記錄的音頻信息來識別會議期間的與會者。在另一個實(shí)施例中，與會者的個人信息可以由主持人 145或與會者利用諸如鍵盤或觸摸屏的輸入設(shè)備手動輸入。主持人145然后可以將與會者提供的個人信息和與會者及他的位置相關(guān)聯(lián)，如塊230所述。此任務(wù)還可以包括將與會者的個人信息與所捕獲的用于人臉識別的視覺信息和所捕獲的用于語音識別的音頻信息相關(guān)聯(lián)。在塊240處，確定是否需要將此會議地點(diǎn)處的另外的與會者輸入該視頻會議系統(tǒng) 中。如果是(塊240的"是"分支)，則流程返回到塊210，并且主持人145將攝像機(jī)調(diào)焦到下一與會者并且再次開始該過程。如果會議地點(diǎn)中的所有與會者都已被輸入到該視頻會議系統(tǒng)中(塊240的"否"分支)，則當(dāng)已經(jīng)與遠(yuǎn)程地點(diǎn)建立視頻會議通信時開始會議，如塊 250所述。可以將在過程200中收集的每個與會者的個人信息存儲在位于每個會議地點(diǎn)處的視頻會議系統(tǒng)終端中，或者可以將它存儲在控制該視頻會議的會議橋中。在一個實(shí)施例中，會議橋是多點(diǎn)控制單元(MCU)。此外，可以使用任意數(shù)目的協(xié)議(諸如但不限于，SIPID、 H323 ID、終端ID和遠(yuǎn)端攝像機(jī)控制(FECC)ID)將所收集的個人信息傳遞到其它的會議地點(diǎn)終端或MCU。在可替換的實(shí)施例中，會議室的呼叫設(shè)置過程可以包括第一與會者提供會議標(biāo)識 (例如，鍵入、口述、從菜單中選擇)。接著，此第一與會者和相同地點(diǎn)處的任何另外的與會者可選地經(jīng)由輸入裝置提供個人信息。該橋/MCU管理員(admin)可以配置將要從每個與會者那獲得什么信息，并且可以為相同房間中的多個與會者提供輸入非多余信息的選項(xiàng)。
7或者，每個與會者可以在證件(badge)讀取設(shè)備上刷他的企業(yè)證件，并且可以從公司服務(wù) 器自動獲得與會者的個人信息。當(dāng)每個與會者刷他的證件時，可以將信號發(fā)送給該系統(tǒng)，并且將與會者的位置自動地記錄為攝像機(jī)預(yù)置內(nèi)容。此外，數(shù)據(jù)收集過程可以包括上述的組合，其中與會者說出他的姓名，橋/MCU從該公司服務(wù)器獲得個人信息并且可選地向與會者確認(rèn)該信息。現(xiàn)在參考圖3，過程300描述視頻會議系統(tǒng)可以進(jìn)行的用來識別當(dāng)前發(fā)言的與會者并且顯示關(guān)于該與會者的個人信息的過程。過程300中描述的實(shí)施例涉及這樣的情形正在發(fā)言的與會者在與圖2中的塊220處的與會者相關(guān)聯(lián)的預(yù)置位置處發(fā)言(即，該與會者沒有四處走動)。過程300起始于塊305，此時與會者在他的預(yù)置位置處發(fā)言。在塊310 處，傳聲器檢測在與會者的預(yù)置位置處的話語。在一個實(shí)施例中，傳聲器可以是中央位置中的定向傳聲器，而在另一個實(shí)施例中，該傳聲器可以專用于各個與會者的位置。響應(yīng)于檢測到話語，攝像機(jī)調(diào)焦到預(yù)置的發(fā)言者位置，如塊315所述。這可以通過Steven L. Potts等人的于2003年7月15日授權(quán)的題為"Locating anAudio Source"的美國專利6， 593， 956 描述的主題來實(shí)現(xiàn)，通過參考將該專利合并于此。流程然后繼續(xù)到塊320和325，其中可以通過兩種不同的方法來計(jì)算發(fā)言者身份。第一，可以基于與發(fā)出該話語的預(yù)置位置相關(guān)聯(lián)的身份來解析發(fā)言者身份。第二，可以由運(yùn) 行在視頻會議系統(tǒng)的處理器或可通信地耦接到視頻會議系統(tǒng)的單獨(dú)的處理器上的語音識別軟件來解析發(fā)言者身份?？梢詫⑺鶛z測的話語與圖2中的塊220處獲得的語音樣本相比較。然后可以在塊330中比較兩個發(fā)言者身份結(jié)果。如果兩個結(jié)果都匹配于相同的與會者 (塊330的"是"分支)，則在供給到可適用的會議地點(diǎn)的視頻會議視頻上顯示與該與會者相關(guān)聯(lián)的個人信息，如塊360所述。在一個實(shí)施例中，該信息被包含在信息框中，該信息框被配置為不遮蓋當(dāng)前發(fā)言者的圖像。但是，如果由預(yù)置位置關(guān)聯(lián)獲得的身份結(jié)果和由語音識別軟件獲得的身份結(jié)果不匹配(塊330的"否"分支)，則流程繼續(xù)到塊335，其中人臉識別軟件嘗試計(jì)算發(fā)言者的身份。可以將當(dāng)前發(fā)言者的圖像與在圖2中的塊210處的會前設(shè)置期間捕獲的與會者的視頻相比較。系統(tǒng)然后可以將由人臉識別軟件得到的發(fā)言者身份與由預(yù)置位置關(guān)聯(lián)獲得的身份結(jié)果和由語音識別軟件獲得的身份結(jié)果二者相比較(塊340)。如果人臉識別結(jié)果匹配于預(yù) 置位置結(jié)果或語音識別結(jié)果(塊340的"是"分支)，則系統(tǒng)可以更新與會者身份信息以提高未來的發(fā)言者識別準(zhǔn)確度，如塊355中所述。在一個實(shí)施例中，運(yùn)行在視頻會議系統(tǒng)上的學(xué)習(xí)算法執(zhí)行動作以提高產(chǎn)生不一致的發(fā)言者身份結(jié)果的特定身份檢測元件的準(zhǔn)確度。但是，如果由人臉識別軟件計(jì)算的發(fā)言者身份結(jié)果與先前的兩個結(jié)果都不匹配(塊340的"否"分支)，則流程繼續(xù)到塊345，其中可以提醒會議主持人145身份結(jié)果不一致。主持人145然后可以選擇正確的發(fā)言者身份，如塊350中所述。在主持人145已經(jīng)做出他的選擇之后，更新該系統(tǒng)以反映如上所述的當(dāng) 前發(fā)言者和與會者身份信息之間的正確的關(guān)聯(lián)。最后，可以在所供給的視頻會議視頻上顯示與發(fā)言的與會者相關(guān)聯(lián)的正確的個人信息，如塊360所述。現(xiàn)在參考圖4，過程400描述視頻會議系統(tǒng)可以進(jìn)行的用來識別當(dāng)前發(fā)言的與會者并且顯示關(guān)于該與會者的個人信息的過程的可替換實(shí)施例。此實(shí)施例針對這樣的情形發(fā)言的與會者不在與圖2中的塊220處的與會者相關(guān)聯(lián)的預(yù)置位置處。例如，當(dāng)與會者已經(jīng)離開他的座位并且在白板上展示材料時可以采用此可替換識別過程。過程400起始于塊405，此時與會者從除了會前設(shè)置期間和與會者相關(guān)聯(lián)的位置
之外的其它位置發(fā)言。在塊410處，傳聲器檢測與會者的話語。在一個實(shí)施例中，傳聲器具
有檢測話語來自于哪個方向的能力。響應(yīng)于檢測到話語，攝像機(jī)瞄準(zhǔn)并且調(diào)焦到當(dāng)前發(fā)言
者的方向，如塊415所述。流程繼續(xù)到塊335和325，其中可以通過兩種不同的方法來計(jì)算
發(fā)言者身份。第一，可以由運(yùn)行在視頻會議系統(tǒng)上的人臉識別軟件來解析發(fā)言者身份?？梢詫?當(dāng)前發(fā)言者的圖像與在圖2中的塊210處的會前設(shè)置期間捕獲的與會者的視頻相比較和匹配。第二，可以由運(yùn)行在視頻會議系統(tǒng)上的語音識別軟件來解析發(fā)言者身份?？梢詫⑺鶛z測的話語與圖2中的塊220處獲得的語音樣本相比較。然后可以在塊420處比較兩個發(fā)言者身份結(jié)果。如果兩個結(jié)果都匹配于相同的與會者(塊420的"是"分支)，則可以在所供給的視頻會議視頻上顯示與該與會者相關(guān)聯(lián)的個人信息，如塊360所述。但是，如果由人臉識別軟件獲得的身份結(jié)果與由語音識別軟件獲得的身份結(jié)果不匹配(塊420的"否"分支)，則流程繼續(xù)到塊345，其中提醒主持人145身份結(jié)果不一致。主持人145然后可以選擇正確的發(fā)言者身份，如塊350中所述。在主持人已經(jīng)做出他的選擇之后，更新該系統(tǒng)以反映如上所述的當(dāng)前發(fā)言者和與會者身份信息之間的正確的關(guān)聯(lián)。最后，可以在所供給的視頻會議視頻上顯示與發(fā)言的與會者相關(guān)聯(lián)的正確的個人信息，如塊360所述。
圖5示出了視頻會議系統(tǒng)500的一個實(shí)施例的框圖。視頻會議單元(510)包含可以被編程來執(zhí)行各種數(shù)據(jù)操作和收集功能的處理器(520)。視頻會議單元(510)還包含網(wǎng) 絡(luò)接口 (530)，其能夠使用異步傳輸模式(ATM)、以太網(wǎng)、令牌環(huán)或本領(lǐng)域技術(shù)人員公知的任何其它網(wǎng)絡(luò)接口或視頻會議協(xié)議來與其它網(wǎng)絡(luò)設(shè)備通信。示例輸入設(shè)備(鍵盤540和鼠標(biāo)550)連接到視頻會議單元并且提供與視頻會議系統(tǒng)的用戶交互。顯示器560是示例輸出設(shè)備，其還可以包括觸摸屏輸入能力，用于以用戶菜單或輸入屏幕的形式顯示圖像和文本信息二者，如本申請始終說明的。各種顯示設(shè)備是本領(lǐng)域技術(shù)人員所公知的，并且包括但不限于，HD監(jiān)視器、計(jì)算機(jī)屏幕、蜂窩電話和電視監(jiān)視器。在可替換的實(shí)施例中，當(dāng)與會者參加會議時，可以向所有其他會議與會者通知該新與會者的詳情和個人信息。每個終端(音頻或視頻)可以基于用戶喜好確定在進(jìn)行中的會議期間如何或者是否它應(yīng)該顯示此信息。類似地，當(dāng)與會者發(fā)言并且被識別時，可以將發(fā) 言的與會者的詳情傳送到所有終端，并且每個終端可以配置在會議期間如何或是否它應(yīng)該顯示此信息。在不脫離以下權(quán)利要求的范圍的情況下，可以對所示出的操作方法的圖示以及細(xì) 節(jié)進(jìn)行各種改變。例如，示例性的過程方法200、300和400可以按照不同于這里所公開的順序來執(zhí)行識別步驟。或者，一些實(shí)施例可以將在這里描述的活動結(jié)合為單獨(dú)的步驟。類似地，可以根據(jù)正在實(shí)施該方法的特定操作環(huán)境而省略所描述的步驟中的一個或多個步驟。此外，可以由執(zhí)行被組織成一個或多個程序模塊的指令的可編程控制設(shè)備來執(zhí)行根據(jù) 本申請的方法的動作?？删幊炭刂圃O(shè)備可以是單個計(jì)算機(jī)處理器、專用處理器(例如，數(shù)字信號處理器"DSP")、通過通信鏈路耦接的多個處理器或用戶設(shè)計(jì)的狀態(tài)機(jī)。用戶設(shè)計(jì)的狀態(tài)機(jī)可以被具體實(shí)現(xiàn)為諸如集成電路的硬件設(shè)備，該集成電路包括但不限于專用集成電路 ("ASIC")或現(xiàn)場可編程門陣列("FPGA")。適合于有形地具體實(shí)現(xiàn)程序指令的存儲設(shè)備包括但不限于磁盤(固定磁盤、軟盤和可移動磁盤)和磁帶；光學(xué)介質(zhì)，諸如CD-ROM和數(shù) 字視頻盤("DVD");以及半導(dǎo)體存儲設(shè)備，諸如電可編程只讀存儲器("EPROM")、電可擦除可編程只讀存儲器("EEPROM")、可編程門陣列和閃速存儲器。
權(quán)利要求
一種確定并顯示關(guān)于音頻/視頻會議的當(dāng)前發(fā)言的與會者的個人信息的方法，包括檢測來自當(dāng)前發(fā)言的與會者的音頻輸入；識別該當(dāng)前發(fā)言的與會者；以及提供與所確定的身份相關(guān)聯(lián)的個人信息，用于在該音頻/視頻會議的一個或多個終端處顯示。
2. 如權(quán)利要求1所述的方法，還包括將攝像機(jī)定位朝向該當(dāng)前發(fā)言的與會者。
3. 如權(quán)利要求2所述的方法，其中識別該當(dāng)前發(fā)言的與會者的步驟包括使用人臉識別軟件。
4. 如權(quán)利要求2所述的方法，其中將攝像機(jī)定位朝向所檢測的音頻輸入的步驟包括使用定向傳聲器來將攝像機(jī)定位朝向該當(dāng)前發(fā)言的與會者。
5. 如權(quán)利要求1所述的方法，其中識別該當(dāng)前發(fā)言的與會者的步驟包括使用語音識別軟件。
6. 如權(quán)利要求1所述的方法，其中識別該當(dāng)前發(fā)言的與會者的步驟包括手動校正不正確的自動確定的身份并且將該手動校正后的信息用于未來的發(fā)言的與會者的身份的自動確定，其中改善自動確定以用于隨后的發(fā)言的與會者的識別。
7. 如權(quán)利要求1所述的方法，其中顯示與所確定的身份相關(guān)聯(lián)的個人信息的步驟包括顯示選自由正式姓名、頭銜和位置組成的組中的信息。
8. —種在視頻會議呼叫中識別與會者的方法，包括存儲對與會者唯一的一個或多個標(biāo)識數(shù)據(jù)項(xiàng)，以便在以后用于將與會者自動識別為當(dāng) 前發(fā)言的與會者；獲得該與會者的個人信息，其中該個人信息用來向其他與會者表示當(dāng)前發(fā)言的與會者的身份；使用所存儲的該一個或多個標(biāo)識數(shù)據(jù)項(xiàng)中的一個或多個來識別當(dāng)前發(fā)言的與會者；以及在該視頻會議呼叫期間，每當(dāng)識別出當(dāng)前發(fā)言的與會者時，就提供相應(yīng)的所獲得的該與會者的個人信息。
9. 如權(quán)利要求8所述的方法，其中對與會者唯一的所述一個或多個數(shù)據(jù)項(xiàng)選自由先前存儲的會議室內(nèi)的與會者的物理位置、用于語音識別的語音樣本和用于人臉識別的圖像組成的組中。
10. 如權(quán)利要求8所述的方法，其中使用所存儲的該一個或多個數(shù)據(jù)項(xiàng)中的一個或多個的步驟包括獨(dú)立地處理來自于所存儲的該一個或多個標(biāo)識數(shù)據(jù)項(xiàng)中的多于一個數(shù)據(jù)項(xiàng)，并且在提供該與會者的個人信息之前，驗(yàn)證該多于一個數(shù)據(jù)項(xiàng)中的每一個的處理一致地識別出當(dāng)前發(fā)言的與會者。
11. 如權(quán)利要求8所述的方法，其中獲得該與會者的個人信息的步驟包括使用語音到文本能力，憑借該語音到文本能力，一個或多個與會者說出他們需要的個人信息。
12. 如權(quán)利要求8所述的方法，其中獲得該與會者的個人信息的步驟包括將從外部源檢索的預(yù)定義的個人信息與該與會者相關(guān)聯(lián)。
13. 如權(quán)利要求8所述的方法，其中存儲對與會者唯一的一個或多個數(shù)據(jù)項(xiàng)的步驟包括使用智能卡閱讀器來識別該與會者的位置和個人信息。
14. 如權(quán)利要求12所述的方法，其中該外部源是智能卡閱讀器。
15. 如權(quán)利要求12所述的方法，其中該外部源是計(jì)算機(jī)服務(wù)器。
16. —種視頻會議系統(tǒng)，包括可編程的處理單元；一個或多個攝像機(jī)，其耦接到該可編程的處理單元；網(wǎng)絡(luò)通信設(shè)備，其可通信地耦接到該可編程的處理單元；禾口用戶輸入端，其耦接到該可編程的處理單元；其中該可編程的處理單元被配置為檢測音頻輸入；將該一個或多個攝像機(jī)定位朝向所檢測的音頻輸入；確定發(fā)言的與會者的身份；以及向遠(yuǎn)程視頻會議設(shè)備提供所確定的身份，以便用于在該遠(yuǎn)程視頻會議設(shè)備處顯示與該發(fā)言的與會者對應(yīng)的個人信息。
17. 如權(quán)利要求16所述的視頻會議系統(tǒng)，其中該可編程的處理單元還被配置為處理所檢測的音頻輸入并且使用語音識別軟件將該音頻輸入與一個或多個語音樣本相比較，以確定發(fā)言的與會者的身份。
18. 如權(quán)利要求16所述的視頻會議系統(tǒng)，其中該可編程的處理單元還被配置為處理來自于朝向所檢測的音頻輸入定位的該一個或多個攝像機(jī)的視頻輸入并且使用人臉識別軟件將該視頻輸入與一個或多個圖像樣本相比較，以確定發(fā)言的與會者的身份。
19. 如權(quán)利要求16所述的視頻會議系統(tǒng)，還包括使用耦接到該可編程的處理單元的一個或多個傳聲器來幫助將攝像機(jī)定位朝向所檢測的音頻輸入。
20. 如權(quán)利要求16所述的視頻會議系統(tǒng)，其中該用戶輸入端選自由鍵盤、鼠標(biāo)、智能卡閱讀器、磁條閱讀器或RFID收發(fā)器組成的組中。
21. —種視頻會議系統(tǒng)，包括可編程的處理單元；連接到該可編程的處理單元的一個或多個攝像機(jī)和顯示設(shè)備；網(wǎng)絡(luò)通信設(shè)備，其可通信地耦接到該可編程的處理單元；禾口用戶輸入端，其耦接到該可編程的處理單元；其中該可編程的處理單元被配置為存儲視頻會議的一個或多個與會者的識別信息的一個或多個數(shù)據(jù)項(xiàng)；獲得該一個或多個與會者的個人信息；使用所存儲的識別信息的數(shù)據(jù)項(xiàng)中的一個或多個來確定當(dāng)前發(fā)言的與會者的身份；以及向一個或多個遠(yuǎn)程視頻會議設(shè)備提供關(guān)于該當(dāng)前發(fā)言的與會者的相應(yīng)的個人信息。
22. 如權(quán)利要求21所述的視頻會議系統(tǒng)，其中該識別信息的一個或多個數(shù)據(jù)項(xiàng)選自由會議室內(nèi)與會者的物理位置、語音樣本和圖像樣本組成的組中。
23. 如權(quán)利要求21所述的視頻會議系統(tǒng)，其中該可編程的處理單元還被配置為處理所檢測的音頻輸入并且使用語音識別軟件將該音頻輸入與一個或多個語音樣本相比較，以確定發(fā)言的與會者的身份。
24. 如權(quán)利要求21所述的視頻會議系統(tǒng)，其中該可編程的處理單元還被配置為處理來自于朝向所檢測的音頻輸入定位的一個或多個攝像機(jī)的視頻輸入并且使用人臉識別軟件將該視頻輸入與一個或多個圖像樣本相比較，以確定發(fā)言的與會者的身份。
25. 如權(quán)利要求21所述的視頻會議系統(tǒng)，還包括使用耦接到該可編程的處理單元的一個或多個傳聲器來幫助將攝像機(jī)定位朝向所檢測的音頻輸入。
全文摘要
本申請涉及在點(diǎn)對點(diǎn)和多點(diǎn)音頻/視頻會議期間顯示動態(tài)呼叫者身份。本申請?zhí)岢隽艘环N用于有效確定并顯示通過多個輸入和計(jì)算的參數(shù)而確定的與視頻會議呼叫相關(guān)聯(lián)的有關(guān)信息的方法。使用在整個視頻會議期間來自于終端處的用戶輸入以及計(jì)算的信息來向所有與會者呈現(xiàn)關(guān)于當(dāng)前發(fā)言的人的個人信息，從而執(zhí)行該用于有效確定并顯示此個人信息的方法。視頻會議系統(tǒng)一般由多個地點(diǎn)處的多個人使用。本申請的方法允許更多的用戶交互以及在與會者中間的知識傳輸。通過在不同的地點(diǎn)之間共享信息，與會者更多地知道在任何給定時間誰正在發(fā)言并且知道該特定的人所說的話的重要性。
文檔編號G06K9/00GK101715102SQ200910177629
公開日2010年5月26日申請日期2009年9月27日優(yōu)先權(quán)日2008年10月2日
發(fā)明者M·雷曼申請人:寶利通公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：Ｍ.雷曼
技術(shù)所有人：寶利通公司
我是此專利的發(fā)明人

上一篇：基于距相鄰mos晶體管的柵極間距的電路仿真的制作方法
上一篇：基本輸入輸出系統(tǒng)支持多種觸控屏幕的方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

點(diǎn)對點(diǎn)視頻會議系統(tǒng)相關(guān)技術(shù)

視頻會議顯示系統(tǒng)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

在點(diǎn)對點(diǎn)和多點(diǎn)音頻/視頻會議期間顯示動態(tài)呼叫者身份的制作方法