改進(jìn)的音頻或視頻會議的制作方法
【專利摘要】描述了用于音頻或視頻會議的客戶端設(shè)備和方法的實施例。一個實施例包含終止檢測單元、配置單元、估計器和輸出單元。終止檢測單元檢測客戶端設(shè)備的語音輸入的終止。配置單元確定從客戶端設(shè)備到每個遠(yuǎn)端的語音時延。估計器基于語音時延估計遠(yuǎn)端的用戶感知到終止的時間。輸出單元基于針對遠(yuǎn)端估計的時間輸出指示遠(yuǎn)端的用戶感知到終止的可感知信號。可感知信號有助于避免參加方之間的沖突。
【專利說明】改進(jìn)的音頻或視頻會議
【技術(shù)領(lǐng)域】
[0001]本發(fā)明一般涉及音頻或視頻會議。更具體地,本發(fā)明的實施例涉及用于音頻或視頻會議系統(tǒng)的客戶端設(shè)備和用于客戶端設(shè)備的音頻或視頻會議方法。
【背景技術(shù)】
[0002]音頻或視頻會議系統(tǒng)能夠把位于不同位置的人們聚到一起來開會。通過這種技術(shù),可以為各方帶來虛擬面對面交談情景。
[0003]各方可以經(jīng)由其客戶端設(shè)備來加入會議??蛻舳嗽O(shè)備通常配有用于音頻輸入的話筒和用于音頻輸出的揚(yáng)聲器??蛻舳嗽O(shè)備可以經(jīng)由例如網(wǎng)絡(luò)連接或電信連接的通信連接來接入會議系統(tǒng)。
[0004]某些客戶端設(shè)備可以呈現(xiàn)例如其他方的標(biāo)識的信息和例如音量控制的某些控制,以改進(jìn)用戶會議體驗。在例如美國專利5,539,741號中可以發(fā)現(xiàn)這些客戶端設(shè)備的一個例子。然而,由于音頻/視頻傳輸中必然的延遲,這些客戶端設(shè)備的用戶通常會在音頻或視頻會議中遇到擾亂通信(也稱作沖突)的問題。因此,需要一種至少減輕由這種擾亂通信帶來的問題的解決方案。
【發(fā)明內(nèi)容】
[0005]根據(jù)本發(fā)明一個實施例,用于音頻或視頻會議系統(tǒng)的客戶端設(shè)備包含終止檢測單元、配置單元、估計器和輸出單元。終止檢測單元檢測輸入到客戶端設(shè)備的話音的終止。針對至少一個遠(yuǎn)端中的每一個,配置單元確定從客戶端設(shè)備到遠(yuǎn)端的語音時延。針對至少一個遠(yuǎn)端中的每一個,估計器基于語音時延估計遠(yuǎn)端的用戶感知到終止的時間。針對至少一個遠(yuǎn)端中的每一個,輸出單元基于針對遠(yuǎn)端估計的時間輸出指示遠(yuǎn)端的用戶感知到終止的可感知信號。
[0006]根據(jù)本發(fā)明一個實施例,用于音頻或視頻會議系統(tǒng)的客戶端設(shè)備包含接收單元、語音活動檢測器和輸出單元。接收單元接收數(shù)據(jù)幀。語音活動檢測器檢測從接收單元直接輸出的數(shù)據(jù)幀中的語音活動。輸出單元輸出指示存在來自遠(yuǎn)端的傳入話音的可感知信號。
[0007]根據(jù)本發(fā)明一個實施例,提供用于客戶端設(shè)備的音頻或視頻會議方法。根據(jù)該方法,針對至少一個遠(yuǎn)端中的每一個,確定從客戶端設(shè)備到遠(yuǎn)端的語音時延。檢測輸入客戶端設(shè)備的話音的終止。針對至少一個遠(yuǎn)端中的每一個,基于語音時延估計遠(yuǎn)端的用戶感知到終止的時間。針對至少一個遠(yuǎn)端中的每一個,基于針對遠(yuǎn)端估計的時間輸出指示遠(yuǎn)端的用戶感知到終止的可感知信號。
[0008]根據(jù)本發(fā)明一個實施例,提供用于客戶端設(shè)備的音頻或視頻會議方法。根據(jù)該方法,接收數(shù)據(jù)幀。在接收的數(shù)據(jù)幀中檢測語音活動。輸出指示存在來自遠(yuǎn)端的傳入話音的可感知信號。
[0009]以下,參考附圖來描述本發(fā)明的進(jìn)一步的特征和優(yōu)點(diǎn),以及本發(fā)明的各種實施方式的結(jié)構(gòu)與操作。需要注意的是本發(fā)明不限于本文中所描述的【具體實施方式】。本文中所提出的這些實施方式僅用于示例性目的。基于這里所包含的教示,另外的實施方式對相關(guān)領(lǐng)域的普通技術(shù)人員也是明顯的。
【專利附圖】
【附圖說明】
[0010]在附圖的各圖中,以示例性和非限制性的方式對本發(fā)明進(jìn)行闡釋,在附圖中,類似的附圖標(biāo)記指代類似的元件,其中:
[0011]圖1是說明根據(jù)本發(fā)明至少一個實施例的用于音頻或視頻會議系統(tǒng)的示例性客戶端設(shè)備的方框圖;
[0012]圖2A是說明根據(jù)本發(fā)明至少一個實施例、以漸變方式呈現(xiàn)的視覺可感知信號的例子的不意圖;
[0013]圖2B是說明根據(jù)本發(fā)明至少一個實施例、以瞬變方式呈現(xiàn)的視覺可感知信號的例子的不意圖;
[0014]圖2C是說明根據(jù)本發(fā)明至少一個實施例、以組合方式呈現(xiàn)的視覺可感知信號的例子的不意圖;
[0015]圖2D是說明根據(jù)本發(fā)明至少一個實施例、以組合方式呈現(xiàn)的視覺可感知信號的另一個例子的不意圖;
[0016]圖3是說明根據(jù)本發(fā)明至少一個實施例、用于客戶端設(shè)備的音頻或視頻會議方法的例子的流程圖;
[0017]圖4是說明根據(jù)本發(fā)明至少一個實施例的用于音頻或視頻會議系統(tǒng)的示例性客戶端設(shè)備的方框圖;
[0018]圖5是說明根據(jù)本發(fā)明至少一個實施例的用于音頻或視頻會議系統(tǒng)的示例性客戶端設(shè)備的方框圖;
[0019]圖6是說明根據(jù)本發(fā)明至少一個實施例的用于音頻或視頻會議系統(tǒng)的示例性客戶端設(shè)備的方框圖;
[0020]圖7是說明根據(jù)本發(fā)明至少一個實施例、用于客戶端設(shè)備的音頻或視頻會議方法的例子的流程圖;
[0021]圖8是示出了用于實現(xiàn)本發(fā)明實施方式的示例性系統(tǒng)的框圖。
【具體實施方式】
[0022]下面參考附圖描述本發(fā)明實施方式。應(yīng)注意,為清楚起見,在附圖和描述中省略了關(guān)于本領(lǐng)域技術(shù)人員已知但是與本發(fā)明無關(guān)的組件和過程的陳述和描述。
[0023]本領(lǐng)域的技術(shù)人員可以理解,本發(fā)明的各方面可以被實施為系統(tǒng)、裝置(例如蜂窩電話、便攜媒體播放器、個人計算機(jī)、電視機(jī)頂盒、或數(shù)字錄像機(jī)、或任意其它媒體播放器)、方法或計算機(jī)程序產(chǎn)品。因此,本發(fā)明的各方面可以采取以下形式:完全硬件實施方式、完全軟件實施方式(包括固件、駐留軟件、微代碼等)或組合軟件部分與硬件部分的實施方式,本文可以一般地稱之為“電路”、“模塊”或“系統(tǒng)”。此外,本發(fā)明的各方面可以采取體現(xiàn)為一個或更多個計算機(jī)可讀介質(zhì)的計算機(jī)程序產(chǎn)品的形式,該計算機(jī)可讀介質(zhì)上體現(xiàn)有計算機(jī)可讀程序代碼。
[0024]可以使用一個或多個計算機(jī)可讀介質(zhì)的任何組合。計算機(jī)可讀介質(zhì)可以是計算機(jī)可讀信號介質(zhì)或計算機(jī)可讀存儲介質(zhì)。計算機(jī)可讀存儲介質(zhì)例如可以是(但不限于)電的、磁的、光的、電磁的、紅外線的、或半導(dǎo)體的系統(tǒng)、設(shè)備或裝置、或前述各項的任何適當(dāng)?shù)慕M合。計算機(jī)可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括以下:有一個或多個導(dǎo)線的電連接、便攜式計算機(jī)磁盤、硬盤、隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器(EPR0M或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(CD-ROM)、光存儲裝置、磁存儲裝置、或前述各項的任何適當(dāng)?shù)慕M合。在本文語境中,計算機(jī)可讀存儲介質(zhì)可以是任何含有或存儲供指令執(zhí)行系統(tǒng)、設(shè)備或裝置使用的或與指令執(zhí)行系統(tǒng)、設(shè)備或裝置相聯(lián)系的程序的有形介質(zhì)。
[0025]計算機(jī)可讀信號介質(zhì)可以包括例如在基帶中或作為載波的一部分傳播的、其中帶有計算機(jī)可讀程序代碼的數(shù)據(jù)信號。這樣的傳播信號可以采取任何適當(dāng)?shù)男问?,包括但不限于電磁的、光的或其任何適當(dāng)?shù)慕M合。
[0026]計算機(jī)可讀信號介質(zhì)可以是不同于計算機(jī)可讀存儲介質(zhì)的、能夠傳達(dá)、傳播或傳輸供指令執(zhí)行系統(tǒng)、設(shè)備或裝置使用的或與指令執(zhí)行系統(tǒng)、設(shè)備或裝置相聯(lián)系的程序的任何一種計算機(jī)可讀介質(zhì)。
[0027]體現(xiàn)在計算機(jī)可讀介質(zhì)中的程序代碼可以采用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括但不限于無線、有線、光纜、射頻等等、或上述各項的任何適當(dāng)?shù)慕M合。
[0028]用于執(zhí)行本發(fā)明各方面的操作的計算機(jī)程序代碼可以以一種或多種程序設(shè)計語言的任何組合來編寫,所述程序設(shè)計語言包括面向?qū)ο蟮某绦蛟O(shè)計語言,諸如Java、SmalltalKC++之類,還包括常規(guī)的過程式程序設(shè)計語言,諸如“C”程序設(shè)計語言或類似的程序設(shè)計語言。程序代碼可以完全地在用戶的計算機(jī)上執(zhí)行、部分地在用戶的計算機(jī)上執(zhí)行、作為一個獨(dú)立的軟件包執(zhí)行、部分在用戶的計算機(jī)上并且部分在遠(yuǎn)程計算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計算機(jī)或服務(wù)器上執(zhí)行。在后一種情形中,遠(yuǎn)程計算機(jī)可以通過任何種類的網(wǎng)絡(luò),包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN),連接到用戶的計算機(jī),或者,可以(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng))連接到外部計算機(jī)。
[0029]以下參照按照本發(fā)明實施方式的方法、設(shè)備(系統(tǒng))和計算機(jī)程序產(chǎn)品的流程圖和/或框圖來描述本發(fā)明的各個方面。應(yīng)當(dāng)理解,流程圖和/或框圖的每個方框以及流程圖和/或框圖中各方框的組合都可以由計算機(jī)程序指令實現(xiàn)。這些計算機(jī)程序指令可以提供給通用計算機(jī)、專用計算機(jī)或其它可編程數(shù)據(jù)處理設(shè)備的處理器以生產(chǎn)出一種機(jī)器,使得通過計算機(jī)或其它可編程數(shù)據(jù)處理裝置執(zhí)行的這些指令產(chǎn)生用于實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的裝置。
[0030]也可以把這些計算機(jī)程序指令存儲在能夠指引計算機(jī)或其它可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機(jī)可讀介質(zhì)中,使得存儲在計算機(jī)可讀介質(zhì)中的指令產(chǎn)生一個包括實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的指令的制造品。
[0031]也可以把計算機(jī)程序指令加載到計算機(jī)、其它可編程數(shù)據(jù)處理設(shè)備或其它裝置上,導(dǎo)致在計算機(jī)、其它可編程處理設(shè)備或其它裝置上執(zhí)行一系列操作步驟以產(chǎn)生計算機(jī)實現(xiàn)的過程,使得在計算機(jī)或其它可編程設(shè)備上執(zhí)行的指令提供實現(xiàn)流程圖和/或框圖的方框中規(guī)定的功能/動作的過程。
[0032]為開始一個會議,會議的參加方(或用戶)可以把其客戶端設(shè)備連接到音頻或視頻會議系統(tǒng)。在會議期間,參加方可以對其客戶端設(shè)備講話??蛻舳嗽O(shè)備可以把話音采樣并且通過音頻或視頻會議系統(tǒng)把話音發(fā)送到其他參加方。來自參加方的話音可以被音頻或視頻會議系統(tǒng)或接收方客戶端設(shè)備混合,于是被接收設(shè)備呈現(xiàn)。對于一方使用的客戶端設(shè)備,其他方使用的客戶端設(shè)備也被稱作遠(yuǎn)端。
[0033]圖1是說明根據(jù)本發(fā)明至少一個實施例、用于音頻或視頻會議系統(tǒng)(圖中未圖解)的示例性客戶端設(shè)備100的方框圖。
[0034]如圖1所示,客戶端設(shè)備100包含終止檢測單元101、配置單元102、估計器103和輸出單元104。
[0035]終止檢測單元101被配置成檢測輸入到客戶端設(shè)備100的話音的終止。話音的起始是指話音的開始。話音的終止是指話音的結(jié)束。通常,通過語音活動檢測(VAD)技術(shù)可以從輸入到客戶端設(shè)備100的音頻中檢測出話音的起始、話音的延續(xù)和話音的終止。
[0036]終止代表話音的停止或暫停。如果會議以禮貌的方式進(jìn)行,終止可以為其他各方提供講話的機(jī)會。通常,由于語音時延的存在,在檢測到終止的時間和其他方感知到(例如,聽到)終止的時間之間存在延遲。由于此延遲,當(dāng)講話方停止或暫停交談時,講話方不確定其他方何時能夠感知到此停止或暫停;如果其他方在感知到此停止或暫停之后開始講話,講話方何時可能聽到其他方的話音;以及講話方何時可以重新開始講話并且與其他方?jīng)_突的可能性較低。向講話方直觀呈現(xiàn)此延遲能夠有助于講話方判斷這些時刻。
[0037]對于不同的參加方,語音時延可能是不同的。因此,在本實施例中,對于遠(yuǎn)端C1-Cn,n>0中的每個遠(yuǎn)端Ci,配置單元102被配置成確定從客戶端設(shè)備100到遠(yuǎn)端Ci的語音時延
L-^ ο
[0038]語音時延是由音頻或視頻會議系統(tǒng)在話音中導(dǎo)致的、從講話人說出一個字的時刻到收聽人實際聽到該字的時刻的時間延遲。這被稱作嘴到耳(MTE)延遲或單向延遲。例如,語音時延可以包括以下分量延遲:
[0039].預(yù)處理延遲:發(fā)送側(cè)的打包延遲、串行化延遲、和音頻信號增強(qiáng)算法延遲;接收側(cè)的音頻信號增強(qiáng)算法延遲;
[0040].編碼延遲:發(fā)送側(cè)的話音編碼延遲;
[0041 ].解碼延遲:接收端側(cè)的話音解碼延遲;
[0042].傳輸延遲:
[0043]-網(wǎng)絡(luò)延遲:主干網(wǎng)傳輸延遲、網(wǎng)關(guān)延遲、排隊延遲、例如xDSL傳輸/處理延遲或無線鏈路延遲的終端連接延遲;
[0044]-接收側(cè)的抖動緩沖器延遲。
[0045]由于預(yù)處理延遲、編碼延遲和解碼延遲相對固定,因此這些延遲可以預(yù)先測量或估計為配置參數(shù)。這些配置參數(shù)可以被存儲或注冊在這樣的位置:該位置使得配置單元102能夠訪問配置參數(shù)。配置單元102也可以提供對于輸入配置參數(shù)中的一或多個的用戶接口。如果用于管理或監(jiān)視預(yù)處理過程、編碼過程或解碼過程的模塊能夠測量或收集配置參數(shù),配置單元102也可以與這些模塊通信以查詢這些配置參數(shù)。配置參數(shù)中的一或多個可以特定于不同遠(yuǎn)端或不同類型的遠(yuǎn)端,或者可以適用于所有遠(yuǎn)端。
[0046]傳輸延遲通常是動態(tài)的。配置單元102可以在線測量或收集傳輸延遲。例如,通過使用由例如Ping的網(wǎng)絡(luò)實用程序或例如RTP控制協(xié)議(RTCP)的通信協(xié)議提供的功能,可以測量網(wǎng)絡(luò)延遲,其中RTP表示實時傳送協(xié)議。抖動緩沖器可以是靜態(tài)或動態(tài)的。在靜態(tài)抖動緩沖器的情況下,可以將其抖動緩沖器延遲管理為某個位置上的參數(shù),該位置使得配置單元102能夠訪問該參數(shù)。配置單元102也可以提供用于輸入配置參數(shù)中的一或多個的用戶接口。在動態(tài)抖動緩沖器的情況下,相應(yīng)抖動緩沖器管理模塊可以在某個位置維護(hù)平均抖動緩沖器延遲參數(shù),或保持更新抖動緩沖器延遲參數(shù),其中該位置使得配置單元102能夠訪問此參數(shù)。配置單元102也可以與該管理模塊通信以查詢參數(shù)。
[0047]配置單元102不必為確定語音時延而獲得所有分量延遲。事實上,分量延遲可以是主要的,也可以是次要的??紤]更多的分量延遲意味著更多的開銷和更加準(zhǔn)確的語音時延。在開銷和準(zhǔn)確性之間存在折衷。例如,配置單元102可以主要或僅基于一或多個最主要的分量延遲來確定語音時延。
[0048]據(jù)觀察,在分量延遲中,傳輸延遲通常是主要的。在一個例子中,配置單元102可以主要或僅基于傳輸延遲來確定語音時延。在這個例子中,能夠以較低的開銷來獲得準(zhǔn)確的語音時延。此外,也可以考慮預(yù)處理延遲、編碼延遲和解碼延遲中的一或多個。
[0049]也觀察到,在傳輸延遲中,網(wǎng)絡(luò)延遲通常比抖動緩沖器延遲更主要。在一個例子中,配置單元102可以獲得網(wǎng)絡(luò)延遲以作為傳輸延遲。在這個例子中,能夠以更低的開銷來獲得準(zhǔn)確的語音時延。
[0050]配置單元102可以任意次地確定語音時延。另外,配置單元102可以定期更新語音時延,或者響應(yīng)于指示從客戶端設(shè)備到遠(yuǎn)端的路徑配置改變的信號而更新語音時延。例如,配置改變包括但不局限于抖動緩沖器的改變,以及網(wǎng)絡(luò)路徑的改變。配置單元102可以響應(yīng)于有關(guān)方之間沖突的增加而更新語音時延。
[0051]在本實施例中,對于每個遠(yuǎn)端Ci,估計器103被配置成基于語音時延Li估計遠(yuǎn)端Ci的會議參加方感知到終止的時間t1;i。例如,假定在時間檢測到終止,則
[0052]對于每個遠(yuǎn)端Ci,輸出單元104被配置成基于時間t1;i輸出指示遠(yuǎn)端Ci的會議參加方感知到終止的可感知信號。可感知信號可以被實現(xiàn)成音頻的、視覺的或其組合。可以通過漸變方式或瞬變方式來實現(xiàn)可感知信號。
[0053]在漸變方式下,隨著當(dāng)前時間接近時間t1;i,可感知信號沿一致方向表現(xiàn)出從一個狀態(tài)到另一個狀態(tài)的可感知改變,從而向用戶指示終止正接近遠(yuǎn)端C”如果當(dāng)前時間到達(dá)時間時可感知信號改變到可感知最終狀態(tài),則用戶能夠得知終止已經(jīng)到達(dá)遠(yuǎn)端Ci并且能夠被用戶感知到。由于可以感知到接近過程和當(dāng)前狀態(tài)與最終狀態(tài)之間的距離,客戶端設(shè)備100的用戶可以獲得有關(guān)何時終止會在遠(yuǎn)端被感知到的預(yù)期。這有助于改進(jìn)用戶的體驗。
[0054]圖2A是說明以漸變方式呈現(xiàn)的視覺可感知信號的例子的示意圖。如圖2A所示,顯示包含2個條201和202的可視對象200。條201表示從客戶端設(shè)備到遠(yuǎn)端的語音時延,條202表示當(dāng)前時間。條202在條201上的一個位置表示可感知信號的一個狀態(tài)。條202位于條201的一端的初始狀態(tài)表示終止的傳輸?shù)钠鹗?。條202位于條201的另一端的另一狀態(tài)表不最終狀態(tài)。隨著時間的經(jīng)過,條202從一端移動到另一端,狀態(tài)從初始狀態(tài)改變到最終狀態(tài)。另一個例子是用于對語音時延進(jìn)行倒計數(shù)的倒計數(shù)定時器。
[0055]在瞬變方式下,響應(yīng)于當(dāng)前時間到達(dá)時間t1;i而輸出可感知信號。這種方式簡單和直接,因此用戶可以在可感知信號出現(xiàn)之前給予較少的關(guān)注。
[0056]圖2B是說明以瞬變方式呈現(xiàn)的視覺可感知信號的例子的示意圖。如圖2B所示,可視對象211是實心圓,表示處于終止尚未到達(dá)的狀態(tài)的遠(yuǎn)端。如果已經(jīng)經(jīng)過估計器所估計的時間并且輸出單元響應(yīng)于此而呈現(xiàn)可感知信號,則輸出單元使可視對象211改變到另一個可視對象212??梢晫ο?12被顯示為圍繞有一個環(huán)的實心圓,該環(huán)被呈現(xiàn)為具有與實心圓不同的顏色。在這個例子中,可感知信號被實現(xiàn)成可視對象212。
[0057]也可以通過漸變方式和瞬變方式的組合方式來呈現(xiàn)可感知信號。
[0058]圖2C是說明以組合方式呈現(xiàn)的視覺可感知信號的例子的示意圖。如圖2C所示,在終止尚未到達(dá)的狀態(tài)下,顯示可視對象221和可視對象231。在這個狀態(tài)下,以和可視對象211相同的方式呈現(xiàn)可視對象221,以和可視對象200相同的方式呈現(xiàn)可視對象231。如果已經(jīng)經(jīng)過由估計器估計的時間并且輸出單元響應(yīng)于此而呈現(xiàn)可感知信號,則輸出單元使可視對象221改變到另一個可視對象222,并且使可視對象231改變到另一個可視對象232。在這個例子中,可感知信號被實現(xiàn)成可視對象222和232的組合。
[0059]圖2D是說明以組合方式呈現(xiàn)的視覺可感知信號的另一個例子的示意圖。如圖2D所示,表示當(dāng)前講話人的可視對象被顯示為空心圓,3個遠(yuǎn)端被表示成可視對象A,B和C,其中以和圖2B說明的可視對象相同的方式顯示可視對象A,B和C。在可視對象S和可視對象A,B和C之間分別顯示帶箭頭的線。這些線分別表示可視對象S和可視對象A,B和C之間終止的傳輸進(jìn)展。隨著終止接近遠(yuǎn)端,可視對象S和表示該遠(yuǎn)端的可視對象X之間的線延長,其中箭頭接近可視對象X (例如,可視對象B或C)。如果已經(jīng)經(jīng)過估計器針對該遠(yuǎn)端估計的時間并且輸出單元響應(yīng)于此而呈現(xiàn)可感知信號,則輸出單元使可視對象S和可視對象X (例如,可視對象A)之間的線延長,其中箭頭接觸到可視對象X,并且使可視對象X改變到與可視對象212相同的狀態(tài)。
[0060]在瞬變方式下,可以存在3個狀態(tài):存在話音活動的初始狀態(tài),已經(jīng)檢測到終止并且正在傳輸該終止的傳輸狀態(tài),和終止已經(jīng)到達(dá)的最終狀態(tài)。例如,可感知信號可以分別被顯示為可視對象211和212以表示傳輸狀態(tài)和最終狀態(tài),并且可以被顯示為不同對象(例如,空心圓)來表示初始狀態(tài)。
[0061]顏色、形狀、尺寸或例如運(yùn)動、閃爍或漸變的動態(tài)視覺效果方面的任何可感知差別都可以表示狀態(tài)改變。
[0062]在圖1說明的實施例中,客戶端設(shè)備100針對加入會議的所有遠(yuǎn)端呈現(xiàn)可感知信號。在某些情況下,不必針對加入會議的所有遠(yuǎn)端呈現(xiàn)可感知信號。例如,如果已知某些遠(yuǎn)端的參加方不講話,則這些遠(yuǎn)端可以被排除。在一個可選實施例中,客戶端設(shè)備100可以僅針對在所有遠(yuǎn)端中具有最大語音時延的一個遠(yuǎn)端呈現(xiàn)可感知信號。這能夠幫助客戶端設(shè)備100的用戶確定所有其他方已經(jīng)感知到終止。此外,由于只呈現(xiàn)一個可感知信號,用戶不太可能受到干擾。
[0063]圖3是說明根據(jù)本發(fā)明至少一個實施例、用于客戶端設(shè)備的示例性音頻或視頻會議方法300的流程圖。
[0064]如圖3所示,方法300從步驟301開始。在步驟303,對于遠(yuǎn)端C1-Cn, n>0的每個遠(yuǎn)端Ci,確定從客戶端設(shè)備到遠(yuǎn)端Ci的語音時延Li。在步驟305,從輸入到客戶端設(shè)備的話音中檢測終止。在步驟307,對于每個遠(yuǎn)端Ci,基于語音時延Li估計遠(yuǎn)端Ci的參加方感知到終止的時間在步驟309,對于每個遠(yuǎn)端Ci,基于時間輸出指示遠(yuǎn)端Ci的參加方感知到終止的可感知信號。方法300在步驟311結(jié)束。雖然在圖3中方法300執(zhí)行了一次,然而能夠根據(jù)需要重復(fù)執(zhí)行方法300。
[0065]在方法300的一個可選實施例中,在步驟303,可以主要或僅基于傳輸延遲來確定語音時延。此外,也可以考慮預(yù)處理延遲、編碼延遲和解碼延遲中的一或多個。
[0066]在方法300的一個可選實施例中,在步驟303,可以獲得網(wǎng)絡(luò)延遲以作為傳輸延遲。
[0067]在方法300的進(jìn)一步的實施例中,可以任意次地執(zhí)行步驟303。另外,可以定期更新語音時延,或者響應(yīng)于指示從客戶端設(shè)備到遠(yuǎn)端的路徑配置改變的信號而更新語音時延。也可以響應(yīng)于有關(guān)方之間沖突的增加而更新語音時延。
[0068]在圖3說明的實施例中,在步驟309,針對加入會議的遠(yuǎn)端中的每一個呈現(xiàn)可感知信號。在某些情況下,不必針對加入會議的所有遠(yuǎn)端呈現(xiàn)可感知信號。在一個可選實施例中,可以僅針對在所有遠(yuǎn)端中具有最大語音時延的一個遠(yuǎn)端呈現(xiàn)可感知信號。
[0069]圖4是說明根據(jù)本發(fā)明至少一個實施例的用于音頻或視頻會議系統(tǒng)400的示例性客戶端設(shè)備的方框圖。
[0070]如圖4所示,客戶端設(shè)備400包含終止檢測單元401、配置單元402、估計器403、輸出單元404和抖動監(jiān)視器405。終止檢測單元401和估計器403分別與終止檢測單元101和估計器103具有相同功能,這里不再詳細(xì)描述。
[0071]配置單元402具有與配置單元102相同的功能。尤其是,配置單元402被配置成確定從客戶端設(shè)備400到每個遠(yuǎn)端的路徑的網(wǎng)絡(luò)延遲。抖動監(jiān)視器405被配置成獲得網(wǎng)絡(luò)延遲的抖動范圍。輸出單元404具有與輸出單元104相同的功能。另外,輸出單元進(jìn)一步被配置成呈現(xiàn)路徑的網(wǎng)絡(luò)延遲和抖動范圍。在網(wǎng)絡(luò)延遲的抖動較大的情況下,配置單元402基于網(wǎng)絡(luò)延遲確定的語音時延有時可能偏離實際語音時延。本實施例有助于用戶了解可能的最大網(wǎng)絡(luò)延遲,因而增加避免沖突的可能性。
[0072]在圖3所示的方法300的進(jìn)一步的實施例中,方法300還包括確定從客戶端設(shè)備到至少一個遠(yuǎn)端的路徑的網(wǎng)絡(luò)延遲的步驟,獲得網(wǎng)絡(luò)延遲的抖動范圍的步驟,和呈現(xiàn)路徑的網(wǎng)絡(luò)延遲和抖動范圍的步驟。
[0073]在如前面描述的客戶端設(shè)備的進(jìn)一步的實施例中,客戶端設(shè)備還包括抖動緩沖器調(diào)節(jié)器,該抖動緩沖器調(diào)節(jié)器被配置成響應(yīng)于用戶輸入來調(diào)節(jié)從客戶端設(shè)備到遠(yuǎn)端的路徑上的抖動緩沖器的抖動緩沖器延遲。抖動緩沖器調(diào)節(jié)器可以根據(jù)用戶輸入來選擇從客戶端設(shè)備到所有遠(yuǎn)端的路徑之一或路徑上的抖動緩沖器之一。不同遠(yuǎn)端可以具有不同的語音時延??梢哉{(diào)節(jié)抖動緩沖器延遲以降低不同遠(yuǎn)端的語音時延之間的差別。此外,客戶端設(shè)備可以包括發(fā)送單元,該發(fā)送單元被配置成響應(yīng)于調(diào)節(jié)而向相應(yīng)路徑的遠(yuǎn)端發(fā)送有關(guān)抖動緩沖器的抖動緩沖器延遲已經(jīng)改變的指示。這個指示充當(dāng)通知路徑配置改變的信號。響應(yīng)于這個信號,根據(jù)本發(fā)明實施例的客戶端設(shè)備可以更新相關(guān)語音時延。此外,該指示可以包括抖動緩沖器的經(jīng)調(diào)節(jié)的抖動緩沖器延遲。在這種情況下,接收方客戶端設(shè)備可以基于經(jīng)調(diào)節(jié)的抖動緩沖器延遲直接更新相關(guān)語音時延。
[0074]在如前面描述的方法的進(jìn)一步的實施例中,方法可以還包括響應(yīng)于用戶輸入來調(diào)節(jié)從客戶端設(shè)備到遠(yuǎn)端的路徑上的抖動緩沖器的抖動緩沖器延遲??梢愿鶕?jù)用戶輸入來選擇從客戶端設(shè)備到所有遠(yuǎn)端的路徑之一或路徑上的抖動緩沖器之一。此外,方法可以包括響應(yīng)于調(diào)節(jié)而向相應(yīng)路徑的遠(yuǎn)端發(fā)送有關(guān)抖動緩沖器的抖動緩沖器延遲已經(jīng)改變的指示。此外,該指示可以包括抖動緩沖器的經(jīng)調(diào)節(jié)的抖動緩沖器延遲。
[0075]在如前面描述的客戶端設(shè)備的進(jìn)一步的實施例中,輸出單元可以進(jìn)一步被配置成針對每個其他參加方,響應(yīng)于在輸出指示已經(jīng)感知到終止的可感知信號之后經(jīng)過一個時間區(qū)間而輸出另一個可感知信號。這另一個可感知信號可以被實現(xiàn)成音頻的、視覺的或其組合。配置單元可以進(jìn)一步被配置成把該時間區(qū)間確定為不小于從遠(yuǎn)端到客戶端設(shè)備的語音時延。配置單元可以簡單地把從客戶端設(shè)備到遠(yuǎn)端的語音時延作為從遠(yuǎn)端到客戶端設(shè)備的語音時延,或者依賴遠(yuǎn)端來確定從遠(yuǎn)端到客戶端設(shè)備的語音時延。如果遠(yuǎn)端的用戶在感知到終止之后講話,這另一個可感知信號有助于用戶判斷來自遠(yuǎn)端的話音何時有望到達(dá)。
[0076]在如前面描述的方法的進(jìn)一步的實施例中,方法可以進(jìn)一步包括針對每個其他參加方,響應(yīng)于在輸出指示已經(jīng)感知到終止的可感知信號之后經(jīng)過一個時間區(qū)間而輸出另一個可感知信號。這另一個可感知信號可以被實現(xiàn)成音頻的、視覺的或其組合。該時間區(qū)間被設(shè)置成不小于從遠(yuǎn)端到客戶端設(shè)備的語音時延。
[0077]在如前面描述的客戶端設(shè)備的進(jìn)一步的實施例中,輸出單元可以進(jìn)一步被配置成在檢測到終止之后以及輸出指示在遠(yuǎn)端已經(jīng)感知到終止的可感知信號之前的時間段期間,輸出細(xì)微混響和可察覺但其他參加方聽不到的噪聲場之一。這種輸出有助于用戶得知終止尚未被感知到。該遠(yuǎn)端可以是任意遠(yuǎn)端,如果存在不止一個遠(yuǎn)端的話。這種輸出可以被任何來自本地或來自遠(yuǎn)端的話音輸入中斷。
[0078]在如前面描述的方法的進(jìn)一步的實施例中,方法可以進(jìn)一步包括在檢測到終止之后以及輸出指示在遠(yuǎn)端已經(jīng)感知到終止的可感知信號之前的時間段期間,輸出細(xì)微混響和可察覺但其他參加方聽不到的噪聲場之一。該遠(yuǎn)端可以是任意遠(yuǎn)端,如果存在不止一個遠(yuǎn)端的話。這種輸出可以被任何來自本地或來自遠(yuǎn)端的話音輸入中斷。
[0079]圖5是說明根據(jù)本發(fā)明至少一個實施例的用于音頻或視頻會議系統(tǒng)的示例性客戶端設(shè)備500的方框圖。
[0080]如圖5所示,客戶端設(shè)備500包含接收單元511、語音活動檢測器512和輸出單元513。
[0081]接收單元511被配置成接收數(shù)據(jù)幀。直接從接收單元511向語音活動檢測器512提供數(shù)據(jù)幀。語音活動檢測器512被配置成檢測數(shù)據(jù)幀中的語音活動。如果在數(shù)據(jù)幀中檢測到語音活動,這意味著存在來自遠(yuǎn)端的傳入話音。輸出單元513被配置成輸出指示存在來自遠(yuǎn)端的傳入話音的可感知信號。可感知信號可以被實現(xiàn)成音頻的、視覺的或其組合。通過這種方式,如果存在傳入話音,則客戶端設(shè)備500的用戶能夠更早地得知此情況,而不用經(jīng)歷例如抖動緩沖器延遲和播放延遲的延遲。這種更早的獲知有助于用戶避免沖突。
[0082]可以通過瞬變方式呈現(xiàn)可感知信號,其中可感知信號可以呈現(xiàn)2個狀態(tài):沒有話音活動的狀態(tài)和存在話音活動的狀態(tài)。
[0083]在如前面所描述的輸出指示已經(jīng)感知到終止的可感知信號的任何實施例中,可以結(jié)合這種更早獲知的特性。
[0084]作為這種結(jié)合的一個例子,圖6是說明根據(jù)本發(fā)明至少一個實施例、用于音頻或視頻會議系統(tǒng)的示例性客戶端設(shè)備600的方框圖。
[0085]如圖6所示,客戶端設(shè)備600包含終止檢測單元601、配置單元602、估計器603、輸出單元604、接收單元611和語音活動檢測器612。
[0086]終止檢測單元601、配置單元602、估計器603、接收單元611和語音活動檢測器612分別與終止檢測單元101、配置單元102、估計器103、接收單元511和語音活動檢測器512具有相同功能,這里不再對其進(jìn)行詳細(xì)描述。輸出單元604具有與輸出單元104相同的功能。另外,輸出單元604進(jìn)一步被配置成輸出指示存在來自遠(yuǎn)端的傳入話音的可感知信號。
[0087]在如前面描述的客戶端設(shè)備的進(jìn)一步的實施例中,語音活動檢測器可以進(jìn)一步被配置成從例如經(jīng)由話筒輸入的音頻的本地音頻輸入中檢測語音活動。輸出單元可以進(jìn)一步被配置成如果同時從數(shù)據(jù)幀和本地音頻輸入中檢測到語音活動,則輸出指示存在沖突的可感知信號。
[0088]在如前面描述的客戶端設(shè)備的進(jìn)一步的實施例中,輸出單元可以進(jìn)一步被配置成如果在預(yù)定時間段上沒有從來自遠(yuǎn)端的數(shù)據(jù)幀中檢測到語音活動,或者響應(yīng)于狀態(tài)通知,輸出指示遠(yuǎn)端被靜音的可感知信號。
[0089]圖7是說明根據(jù)本發(fā)明至少一個實施例、用于客戶端設(shè)備的示例性音頻或視頻會議方法700的流程圖。
[0090]如圖7所示,方法700從步驟701開始。在步驟703,接收數(shù)據(jù)幀。數(shù)據(jù)幀被直接提供給步驟705的處理。在步驟705,從數(shù)據(jù)幀中檢測語音活動。如果在數(shù)據(jù)幀中檢測到語音活動,這意味著存在來自遠(yuǎn)端的傳入話音。在步驟707,輸出指示存在來自遠(yuǎn)端的傳入話音的可感知信號。方法700在步驟709結(jié)束。雖然在圖7中方法700執(zhí)行了一次,然而能夠根據(jù)需要重復(fù)執(zhí)行方法700。
[0091]在前面描述的輸出指示已經(jīng)感知到終止的可感知信號的任何實施例中,可以結(jié)合方法700。
[0092]作為這種結(jié)合的一個例子,在方法300的進(jìn)一步的實施例中,方法300可以進(jìn)一步包括接收數(shù)據(jù)幀的接收步驟,和在通過接收步驟接收的數(shù)據(jù)幀中檢測語音活動的語音活動檢測步驟。輸出步驟可以進(jìn)一步包括輸出指示存在來自遠(yuǎn)端的傳入話音的可感知信號。
[0093]在如前面描述的方法的進(jìn)一步的實施例中,方法可以進(jìn)一步包括從例如經(jīng)由話筒輸入的音頻的本地音頻輸入中檢測語音活動的步驟。如果同時從數(shù)據(jù)幀和本地音頻輸入中檢測到語音活動,則可以輸出指示存在沖突的可感知信號。
[0094]在如前面描述的方法的進(jìn)一步的實施例中,如果在預(yù)定時間段上沒有從來自遠(yuǎn)端的數(shù)據(jù)幀中檢測到語音活動,或者響應(yīng)于狀態(tài)通知,可以輸出指示遠(yuǎn)端被靜音的可感知信號。
[0095]圖8是示出了用于實現(xiàn)本發(fā)明實施方式的示例性系統(tǒng)800的方框圖。
[0096]在圖8中,中央處理單元(CPU)801根據(jù)只讀存儲器(ROM)802中存儲的程序或從存儲部分808加載到隨機(jī)訪問存儲器(RAM)803的程序執(zhí)行各種處理。在RAM803中,也根據(jù)需要存儲當(dāng)CPU801執(zhí)行各種處理等等時所需的數(shù)據(jù)。
[0097]CPU801、R0M802和RAM803經(jīng)由總線804彼此連接。輸入/輸出接口 805也連接到總線804。
[0098]下列部件連接到輸入/輸出接口 805:包括鍵盤、鼠標(biāo)等等的輸入部分806 ;包括例如陰極射線管(CRT)、液晶顯示器(LCD)等等的顯示器和揚(yáng)聲器等等的輸出部分807;包括硬盤等等的存儲部分808 ;和包括例如LAN卡、調(diào)制解調(diào)器等等的網(wǎng)絡(luò)接口卡的通信部分809。通信部分809經(jīng)由例如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。
[0099]根據(jù)需要,驅(qū)動器810也連接到輸入/輸出接口 805。例如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等的可移除介質(zhì)811根據(jù)需要被安裝在驅(qū)動器810上,使得從中讀出的計算機(jī)程序根據(jù)需要被安裝到存儲部分808。
[0100]在通過軟件實現(xiàn)上述步驟和處理的情況下,從例如因特網(wǎng)的網(wǎng)絡(luò)或例如可移除介質(zhì)811的存儲介質(zhì)安裝構(gòu)成軟件的程序。
[0101]本文中所用的術(shù)語僅僅是為了描述特定實施方式的目的,而非意圖限定本發(fā)明。本文中所用的單數(shù)形式的“一”和“該”旨在也包括復(fù)數(shù)形式,除非上下文中明確地另行指出。還應(yīng)理解,“包括”一詞當(dāng)在本說明書中使用時,說明存在所指出的特征、整體、步驟、操作、單元和/或組件,但是并不排除存在或增加一個或多個其它特征、整體、步驟、操作、單元和/或組件,以及/或者它們的組合。
[0102]以下權(quán)利要求中的對應(yīng)結(jié)構(gòu)、材料、操作以及所有功能性限定的裝置或步驟的等同替換,旨在包括任何用于與在權(quán)利要求中具體指出的其它單元相組合地執(zhí)行該功能的結(jié)構(gòu)、材料或操作。對本發(fā)明進(jìn)行的描述只是出于圖解和描述的目的,而非用來對具有公開形式的本發(fā)明進(jìn)行詳細(xì)定義和限制。對于所屬【技術(shù)領(lǐng)域】的普通技術(shù)人員而言,在不偏離本發(fā)明范圍和精神的情況下,顯然可以作出許多修改和變型。對實施方式的選擇和說明,是為了最好地解釋本發(fā)明的原理和實際應(yīng)用,使所屬【技術(shù)領(lǐng)域】的普通技術(shù)人員能夠明了,本發(fā)明可以有適合所要的特定用途的具有各種改變的各種實施方式。
[0103]這里描述了下面的示例性實施方式(均用〃EE〃表示)。
[0104]EEl.一種用于音頻或視頻會議系統(tǒng)的客戶端設(shè)備,包括:
[0105]終止檢測單元,配置為檢測輸入到所述客戶端設(shè)備的話音的終止;
[0106]配置單元,配置為針對至少一個遠(yuǎn)端的每一個,確定從所述客戶端設(shè)備到所述遠(yuǎn)端的第一語音時延;
[0107]估計器,配置為針對所述至少一個遠(yuǎn)端的每一個,基于所述第一語音時延估計所述遠(yuǎn)端的用戶感知到所述終止的時間;和
[0108]輸出單元,配置為針對所述至少一個遠(yuǎn)端的每一個,基于針對所述遠(yuǎn)端估計的時間輸出指示所述遠(yuǎn)端的用戶感知到所述終止的第一可感知信號。
[0109]EE2.如EEl所述的客戶端設(shè)備,其中所述至少一個遠(yuǎn)端包括唯一遠(yuǎn)端,所述唯一遠(yuǎn)端在與所述客戶端設(shè)備參與會議的所有遠(yuǎn)端中具有最大第一語音時延。
[0110]EE3.如EEl或2所述的客戶端設(shè)備,其中所述配置單元進(jìn)一步配置為至少基于從所述客戶端設(shè)備到所述遠(yuǎn)端的傳輸延遲來確定所述第一語音時延。
[0111]EE4.如EE3所述的客戶端設(shè)備,其中所述配置單元進(jìn)一步配置為定期或響應(yīng)于指示從所述客戶端設(shè)備到所述遠(yuǎn)端的路徑配置改變的信號而確定所述第一語音時延。
[0112]EE5.如EE3所述的客戶端設(shè)備,其中所述配置單元進(jìn)一步配置為獲得從所述客戶端設(shè)備到所述遠(yuǎn)端的網(wǎng)絡(luò)延遲以作為所述傳輸延遲。
[0113]EE6.如EE3所述的客戶端設(shè)備,其中所述配置單元進(jìn)一步配置為
[0114]獲得從所述客戶端設(shè)備到所述遠(yuǎn)端的路徑上的預(yù)處理延遲、編碼延遲和解碼延遲中至少之一;以及
[0115]至少基于所述傳輸延遲和所述至少一個獲得的延遲來確定所述第一語音時延。
[0116]EE7.如EEl或2所述的客戶端設(shè)備,其中所述配置單元進(jìn)一步配置為確定從所述客戶端設(shè)備到所述至少一個遠(yuǎn)端的路徑的網(wǎng)絡(luò)延遲,
[0117]所述客戶端設(shè)備還包括配置為獲得所述網(wǎng)絡(luò)延遲的抖動范圍的抖動監(jiān)視器,并且
[0118]所述輸出單元進(jìn)一步配置為呈現(xiàn)所述路徑的所述網(wǎng)絡(luò)延遲和所述抖動范圍。
[0119]EE8.如EEl或2所述的客戶端設(shè)備,還包括抖動緩沖區(qū)調(diào)節(jié)器,配置為響應(yīng)于用戶輸入調(diào)節(jié)從所述客戶端設(shè)備到所述至少一個遠(yuǎn)端的路徑上的抖動緩沖區(qū)的抖動緩沖區(qū)延遲。
[0120]EE9.如EE8所述的客戶端設(shè)備,還包括發(fā)送單元,配置為響應(yīng)于所述調(diào)節(jié)向相應(yīng)路徑的遠(yuǎn)端發(fā)送有關(guān)所述抖動緩沖區(qū)的抖動緩沖區(qū)延遲已經(jīng)改變的指示。
[0121]EE10.如EE9所述的客戶端設(shè)備,其中所述指示進(jìn)一步包括所述抖動緩沖區(qū)的所述經(jīng)調(diào)節(jié)的抖動緩沖區(qū)延遲。
[0122]EE11.如EE3所述的客戶端設(shè)備,其中所述輸出單元進(jìn)一步配置為針對所述至少一個遠(yuǎn)端的每一個,響應(yīng)于在輸出所述第一可感知信號之后經(jīng)過一個時間區(qū)間而輸出第二可感知信號,并且
[0123]其中所述配置單元進(jìn)一步配置為把所述時間區(qū)間確定為不小于從所述遠(yuǎn)端到所述客戶端設(shè)備的第二語音時延。
[0124]EE12.如EEl所述的客戶端設(shè)備,其中所述第一可感知信號包括音頻的、視覺的或其組合。
[0125]EE13.如EEll所述的客戶端設(shè)備,其中所述第二可感知信號包括音頻的、視覺的或其組合。
[0126]EE14.如EEl所述的客戶端設(shè)備,其中所述輸出單元進(jìn)一步配置為在檢測到所述終止之后以及輸出所述第一可感知信號之前的時間段期間,輸出細(xì)微混響和可察覺但其他參加方聽不到的噪聲場之一。
[0127]EE15.如EEl或2所述的客戶端設(shè)備,還包括:
[0128]接收單元,配置為接收數(shù)據(jù)幀;和
[0129]語音活動檢測器,配置為檢測從所述接收單元直接輸出的數(shù)據(jù)幀中的語音活動,
[0130]其中所述輸出單元進(jìn)一步配置為輸出指示存在來自遠(yuǎn)端的傳入話音的第三可感知信號。
[0131]EE16.如EE5所述的客戶端設(shè)備,其中所述語音活動檢測器進(jìn)一步配置為從本地音頻輸入中檢測語音活動,并且
[0132]所述輸出單元進(jìn)一步配置為在同時從所述數(shù)據(jù)幀和所述本地音頻輸入中檢測到語音活動的情況下,輸出指示存在沖突的第四可感知信號。
[0133]EE17.如EE15所述的客戶端設(shè)備,其中所述輸出單元進(jìn)一步配置為如果在預(yù)定時間段上沒有從來自遠(yuǎn)端的數(shù)據(jù)幀中檢測到語音活動,或者響應(yīng)于狀態(tài)通知,輸出指示所述遠(yuǎn)端被靜音的第五可感知信號。
[0134]EE18.如EE15所述的客戶端設(shè)備,其中所述可感知信號包括音頻的、視覺的或其組合。
[0135]EE19.一種用于音頻或視頻會議系統(tǒng)的客戶端設(shè)備,包括:
[0136]接收單元,配置為接收數(shù)據(jù)幀;
[0137]語音活動檢測器,配置為檢測從所述接收單元直接輸出的數(shù)據(jù)幀中的語音活動;和
[0138]輸出單元,配置為輸出指示存在來自遠(yuǎn)端的傳入話音的可感知信號。
[0139]EE20.如EE19所述的客戶端設(shè)備,其中所述語音活動檢測器進(jìn)一步配置為從本地音頻輸入中檢測語音活動,并且
[0140]所述輸出單元進(jìn)一步配置為在同時從所述數(shù)據(jù)幀和所述本地音頻輸入中檢測到語音活動的情況下,輸出指示存在沖突的另一個可感知信號。
[0141]EE21.如EE19所述的客戶端設(shè)備,其中所述輸出單元進(jìn)一步配置為如果在預(yù)定時間段上沒有從來自遠(yuǎn)端的數(shù)據(jù)幀中檢測到語音活動,或者響應(yīng)于狀態(tài)通知,輸出指示所述遠(yuǎn)端被靜音的另一個可感知信號。
[0142]EE22.如EE19所述的客戶端設(shè)備,其中所述可感知信號包括音頻的、視覺的或其組合。
[0143]EE23.一種用于客戶端設(shè)備的音頻或視頻會議方法,包括:
[0144]配置步驟,針對至少一個遠(yuǎn)端的每一個,確定從所述客戶端設(shè)備到所述遠(yuǎn)端的第一語音時延;
[0145]檢測步驟,檢測輸入到所述客戶端設(shè)備的話音的終止;
[0146]估計步驟,針對所述至少一個遠(yuǎn)端的每一個,基于所述第一語音時延估計所述遠(yuǎn)端的用戶感知到所述終止的時間;以及
[0147]輸出步驟,針對所述至少一個遠(yuǎn)端的每一個,基于針對所述遠(yuǎn)端估計的時間輸出指示所述遠(yuǎn)端的用戶感知到所述終止的第一可感知信號。
[0148]EE24.如EE23所述的方法,其中所述至少一個遠(yuǎn)端包括唯一遠(yuǎn)端,所述唯一遠(yuǎn)端在參與會議的所有遠(yuǎn)端中具有最大第一語音時延。
[0149]EE25.如EE23或24所述的方法,其中所述配置步驟還包括至少基于從所述客戶端設(shè)備到所述遠(yuǎn)端的傳輸延遲來確定所述第一語音時延。
[0150]EE26.如EE25所述的方法,其中所述配置步驟還包括定期或響應(yīng)于指示從所述客戶端設(shè)備到所述遠(yuǎn)端的路徑配置改變的信號而確定所述第一語音時延。
[0151]EE27.如EE25所述的方法,其中所述配置步驟還包括獲得從所述客戶端設(shè)備到所述遠(yuǎn)端的網(wǎng)絡(luò)延遲以作為所述傳輸延遲。
[0152]EE28.如EE25所述的方法,其中所述配置步驟還包括:
[0153]獲得從所述客戶端設(shè)備到所述遠(yuǎn)端的路徑上的預(yù)處理延遲、編碼延遲和解碼延遲中至少之一;以及
[0154]至少基于所述傳輸延遲和所述至少一個獲得的延遲來確定所述第一語音時延。
[0155]EE29.如EE23或24所述的方法,還包括:
[0156]確定從所述客戶端設(shè)備到所述至少一個遠(yuǎn)端的路徑的網(wǎng)絡(luò)延遲,
[0157]獲得所述網(wǎng)絡(luò)延遲的抖動范圍,以及
[0158]呈現(xiàn)所述路徑的所述網(wǎng)絡(luò)延遲和所述抖動范圍。
[0159]EE30.如EE23或24所述的方法,還包括響應(yīng)于用戶輸入調(diào)節(jié)從所述客戶端設(shè)備到所述至少一個遠(yuǎn)端的路徑上的抖動緩沖區(qū)的抖動緩沖區(qū)延遲。
[0160]EE31.如EE30所述的方法,還包括響應(yīng)于所述調(diào)節(jié)向相應(yīng)路徑的遠(yuǎn)端發(fā)送有關(guān)所述抖動緩沖區(qū)的抖動緩沖區(qū)延遲已經(jīng)改變的指示。
[0161]EE32.如EE31所述的方法,其中所述指示進(jìn)一步包括所述抖動緩沖區(qū)的所述經(jīng)調(diào)節(jié)的抖動緩沖區(qū)延遲。
[0162]EE33.如EE25所述的方法,還包括:針對所述至少一個遠(yuǎn)端的每一個,響應(yīng)于在輸出所述第一可感知信號之后經(jīng)過一個時間區(qū)間而輸出第二可感知信號,并且
[0163]其中所述時間區(qū)間被設(shè)置成不小于從所述遠(yuǎn)端到所述客戶端設(shè)備的第二語音時延。
[0164]EE34.如EE23所述的方法,其中所述第一可感知信號包括音頻的、視覺的或其組入口 ο
[0165]EE35.如EE33所述的方法,其中所述第二可感知信號包括音頻的、視覺的或其組口 ο
[0166]EE36.如EE23所述的方法,還包括在檢測到所述終止之后以及輸出所述第一可感知信號之前的時間段期間,輸出細(xì)微混響和可察覺但其他參加方聽不到的噪聲場之一。
[0167]EE37.如EE23或24所述的方法,還包括:
[0168]接收步驟,接收數(shù)據(jù)幀;和
[0169]語音活動檢測步驟,檢測通過所述接收步驟接收的數(shù)據(jù)幀中的語音活動,
[0170]其中所述輸出步驟還包括輸出指示存在來自遠(yuǎn)端的傳入話音的第三可感知信號。
[0171]EE38.如EE37所述的方法,還包括:
[0172]從本地音頻輸入中檢測語音活動,以及
[0173]在同時從所述數(shù)據(jù)幀和所述本地音頻輸入中檢測到語音活動的情況下,輸出指示存在沖突的第四可感知信號。
[0174]EE39.如EE37所述的方法,還包括:
[0175]如果在預(yù)定時間段上沒有從來自遠(yuǎn)端的數(shù)據(jù)幀中檢測到語音活動,或者響應(yīng)于狀態(tài)通知,輸出指示所述遠(yuǎn)端被靜音的第五可感知信號。
[0176]EE40.如EE37所述的方法,其中所述可感知信號包括音頻的、視覺的或其組合。
[0177]EE41.一種用于客戶端設(shè)備的音頻或視頻會議方法,包括:
[0178]接收步驟,接收數(shù)據(jù)幀;
[0179]語音活動檢測步驟,檢測通過所述接收步驟接收的數(shù)據(jù)幀中的語音活動;以及
[0180]輸出步驟,輸出指示存在來自遠(yuǎn)端的傳入話音的可感知信號。
[0181]EE42.如EE41所述的方法,還包括:
[0182]從本地音頻輸入中檢測語音活動,以及
[0183]在同時從所述數(shù)據(jù)幀和所述本地音頻輸入中檢測到語音活動的情況下,輸出指示存在沖突的另一個可感知信號。
[0184]EE43.如EE41所述的方法,還包括:如果在預(yù)定時間段上沒有從來自遠(yuǎn)端的數(shù)據(jù)幀中檢測到語音活動,或者響應(yīng)于狀態(tài)通知,輸出指示所述遠(yuǎn)端被靜音的另一個可感知信號。
[0185]EE44.如EE41所述的方法,其中:所述可感知信號包括音頻的、視覺的或其組合。
【權(quán)利要求】
1.一種用于音頻或視頻會議系統(tǒng)的客戶端設(shè)備,包括: 終止檢測單元,配置為檢測輸入到所述客戶端設(shè)備的話音的終止; 配置單元,配置為針對至少一個遠(yuǎn)端的每一個,確定從所述客戶端設(shè)備到所述遠(yuǎn)端的第一語音時延; 估計器,配置為針對所述至少一個遠(yuǎn)端的每一個,基于所述第一語音時延估計所述遠(yuǎn)端的用戶感知到所述終止的時間;和 輸出單元,配置為針對所述至少一個遠(yuǎn)端的每一個,基于針對所述遠(yuǎn)端估計的時間輸出指示所述遠(yuǎn)端的用戶感知到所述終止的第一可感知信號。
2.如權(quán)利要求1所述的客戶端設(shè)備,其中所述至少一個遠(yuǎn)端包括唯一遠(yuǎn)端,所述唯一遠(yuǎn)端在與所述客戶端設(shè)備參與會議的所有遠(yuǎn)端中具有最大第一語音時延。
3.如權(quán)利要求1或2所述的客戶端設(shè)備,其中所述配置單元進(jìn)一步配置為至少基于從所述客戶端設(shè)備到所述遠(yuǎn)端的傳輸延遲來確定所述第一語音時延。
4.如權(quán)利要求3所述的客戶端設(shè)備,其中所述配置單元進(jìn)一步配置為獲得從所述客戶端設(shè)備到所述遠(yuǎn)端的網(wǎng)絡(luò)延遲以作為所述傳輸延遲。
5.如權(quán)利要求1或2所述的客戶端設(shè)備,其中所述配置單元進(jìn)一步配置為確定從所述客戶端設(shè)備到所述至少一個遠(yuǎn)端的路徑的網(wǎng)絡(luò)延遲, 所述客戶端設(shè)備還包括配置為獲得所述網(wǎng)絡(luò)延遲的抖動范圍的抖動監(jiān)視器,并且 所述輸出單元進(jìn)一步配置為呈現(xiàn)所述路徑的所述網(wǎng)絡(luò)延遲和所述抖動范圍。
6.如權(quán)利要求1或2所述的客戶端設(shè)備,還包括抖動緩沖區(qū)調(diào)節(jié)器,配置為響應(yīng)于用戶輸入調(diào)節(jié)從所述客戶端設(shè)備到所述至少一個遠(yuǎn)端的路徑上的抖動緩沖區(qū)的抖動緩沖區(qū)延遲。
7.如權(quán)利要求6所述的客戶端設(shè)備,還包括發(fā)送單元,配置為響應(yīng)于所述調(diào)節(jié)向相應(yīng)路徑的遠(yuǎn)端發(fā)送有關(guān)所述抖動緩沖區(qū)的抖動緩沖區(qū)延遲已經(jīng)改變的指示。
8.如權(quán)利要求7所述的客戶端設(shè)備,其中所述指示進(jìn)一步包括所述抖動緩沖區(qū)的所述經(jīng)調(diào)節(jié)的抖動緩沖區(qū)延遲。
9.如權(quán)利要求3所述的客戶端設(shè)備,其中所述輸出單元進(jìn)一步配置為針對所述至少一個遠(yuǎn)端的每一個,響應(yīng)于在輸出所述第一可感知信號之后經(jīng)過一個時間區(qū)間而輸出第二可感知信號,并且 其中所述配置單元進(jìn)一步配置為把所述時間區(qū)間確定為不小于從所述遠(yuǎn)端到所述客戶端設(shè)備的第二語音時延。
10.如權(quán)利要求1所述的客戶端設(shè)備,其中所述輸出單元進(jìn)一步配置為在檢測到所述終止之后以及輸出所述第一可感知信號之前的時間段期間,輸出細(xì)微混響和可察覺但其他參加方聽不到的噪聲場之一。
11.如權(quán)利要求1或2所述的客戶端設(shè)備,還包括: 接收單元,配置為接收數(shù)據(jù)幀;和 語音活動檢測器,配置為檢測從所述接收單元直接輸出的數(shù)據(jù)幀中的語音活動, 其中所述輸出單元進(jìn)一步配置為輸出指示存在來自遠(yuǎn)端的傳入話音的第三可感知信號。
12.如權(quán)利要求5所述的客戶端設(shè)備,其中所述語音活動檢測器進(jìn)一步配置為從本地音頻輸入中檢測語音活動,并且 所述輸出單元進(jìn)一步配置為在同時從所述數(shù)據(jù)幀和所述本地音頻輸入中檢測到語音活動的情況下,輸出指示存在沖突的第四可感知信號。
13.一種用于音頻或視頻會議系統(tǒng)的客戶端設(shè)備,包括: 接收單元,配置為接收數(shù)據(jù)幀; 語音活動檢測器,配置為檢測從所述接收單元直接輸出的數(shù)據(jù)幀中的語音活動;和 輸出單元,配置為輸出指示存在來自遠(yuǎn)端的傳入話音的可感知信號。
14.如權(quán)利要求13所述的客戶端設(shè)備,其中所述語音活動檢測器進(jìn)一步配置為從本地音頻輸入中檢測語音活動,并且 所述輸出單元進(jìn)一步配置為在同時從所述數(shù)據(jù)幀和所述本地音頻輸入中檢測到語音活動的情況下,輸出指示存在沖突的另一個可感知信號。
15.一種用于客戶端設(shè)備的音頻或視頻會議方法,包括: 配置步驟,針對至少一個遠(yuǎn)端的每一個,確定從所述客戶端設(shè)備到所述遠(yuǎn)端的第一語音時延; 檢測步驟,檢測輸入到所述客戶端設(shè)備的話音的終止; 估計步驟,針對所述至少一個遠(yuǎn)端的每一個,基于所述第一語音時延估計所述遠(yuǎn)端的用戶感知到所述終止的時間;以及 輸出步驟,針對所述至少一個遠(yuǎn)端的每一個,基于針對所述遠(yuǎn)端估計的時間輸出指示所述遠(yuǎn)端的用戶感知到所述終止的第一可感知信號。
16.如權(quán)利要求15所述的方法,其中所述至少一個遠(yuǎn)端包括唯一遠(yuǎn)端,所述唯一遠(yuǎn)端在參與會議的所有遠(yuǎn)端中具有最大第一語音時延。
17.如權(quán)利要求15或16所述的方法,其中所述配置步驟還包括至少基于從所述客戶端設(shè)備到所述遠(yuǎn)端的傳輸延遲來確定所述第一語音時延。
18.如權(quán)利要求17所述的方法,其中所述配置步驟還包括獲得從所述客戶端設(shè)備到所述遠(yuǎn)端的網(wǎng)絡(luò)延遲以作為所述傳輸延遲。
19.如權(quán)利要求15或16所述的方法,還包括: 確定從所述客戶端設(shè)備到所述至少一個遠(yuǎn)端的路徑的網(wǎng)絡(luò)延遲, 獲得所述網(wǎng)絡(luò)延遲的抖動范圍,以及 呈現(xiàn)所述路徑的所述網(wǎng)絡(luò)延遲和所述抖動范圍。
20.如權(quán)利要求15或16所述的方法,還包括響應(yīng)于用戶輸入調(diào)節(jié)從所述客戶端設(shè)備到所述至少一個遠(yuǎn)端的路徑上的抖動緩沖區(qū)的抖動緩沖區(qū)延遲。
21.如權(quán)利要求20所述的方法,還包括響應(yīng)于所述調(diào)節(jié)向相應(yīng)路徑的遠(yuǎn)端發(fā)送有關(guān)所述抖動緩沖區(qū)的抖動緩沖區(qū)延遲已經(jīng)改變的指示。
22.如權(quán)利要求21所述的方法,其中所述指示進(jìn)一步包括所述抖動緩沖區(qū)的所述經(jīng)調(diào)節(jié)的抖動緩沖區(qū)延遲。
23.如權(quán)利要求17所述的方法,還包括:針對所述至少一個遠(yuǎn)端的每一個,響應(yīng)于在輸出所述第一可感知信號之后經(jīng)過一個時間區(qū)間而輸出第二可感知信號,并且 其中所述時間區(qū)間被設(shè)置成不小于從所述遠(yuǎn)端到所述客戶端設(shè)備的第二語音時延。
24.如權(quán)利要求15所述的方法,還包括在檢測到所述終止之后以及輸出所述第一可感知信號之前的時間段期間,輸出細(xì)微混響和可察覺但其他參加方聽不到的噪聲場之一。
25.如權(quán)利要求15或16所述的方法,還包括: 接收步驟,接收數(shù)據(jù)幀;和 語音活動檢測步驟,檢測通過所述接收步驟接收的數(shù)據(jù)幀中的語音活動,其中所述輸出步驟還包括輸出指示存在來自遠(yuǎn)端的傳入話音的第三可感知信號。
26.如權(quán)利要求25所述的方法,還包括: 從本地音頻輸入中檢測語音活動,以及 在同時從所述數(shù)據(jù)幀和所述本地音頻輸入中檢測到語音活動的情況下,輸出指示存在沖突的第四可感知信號。
27.一種用于客戶端設(shè)備的音頻或視頻會議方法,包括: 接收步驟,接收數(shù)據(jù)幀; 語音活動檢測步驟,檢測通過所述接收步驟接收的數(shù)據(jù)幀中的語音活動;以及 輸出步驟,輸出指示存在來自遠(yuǎn)端的傳入話音的可感知信號。
28.如權(quán)利要求27所述的方法,還包括: 從本地音頻輸入中檢測語音活動,以及 在同時從所述數(shù)據(jù)幀和所述本地音頻輸入中檢測到語音活動的情況下,輸出指示存在沖突的另一個可感知信號。
【文檔編號】G10L25/78GK104469255SQ201310422060
【公開日】2015年3月25日 申請日期:2013年9月16日 優(yōu)先權(quán)日:2013年9月16日
【發(fā)明者】施棟, 孫學(xué)京, 李凱, 黃申, 哈拉爾德·蒙特, ??啤て諣柟? 格倫·迪金斯 申請人:杜比實驗室特許公司, 杜比國際公司