會議中使用改變視盲的感知連續(xù)性的制作方法
【專利摘要】如下類型的音頻會議混合系統(tǒng)中的方法,該類型的音頻會議混合系統(tǒng)取得包括混合轉(zhuǎn)換事件的會議參加者的輸入音頻信息的多個音頻輸入流,并輸出包括輸出音頻信息的多個音頻輸出流,該方法混合音頻輸出流以降低混合轉(zhuǎn)換事件的可檢測性的方法,該方法包括以下步驟:(a)確定轉(zhuǎn)換事件將發(fā)生;(b)確定掩蔽觸發(fā)將發(fā)生;(c)安排轉(zhuǎn)換事件基本上在掩蔽事件發(fā)生時發(fā)生。
【專利說明】
會議中使用改變視盲的感知連續(xù)性[0001]對相關(guān)申請的交叉引用[0002]本申請要求于2014年2月28日提交的美國臨時專利申請N0.61/946,030的優(yōu)先權(quán) 的權(quán)益;該申請通過引用被整體結(jié)合于此。
技術(shù)領(lǐng)域
[0003]本發(fā)明涉及音頻電話會議領(lǐng)域,并且特別地,公開了利用改變視盲(change b 1 indness)機制來掩蔽電話會議中的改變?!颈尘凹夹g(shù)】
[0004]在整個說明書中對【背景技術(shù)】的任何討論絕不應該被視作承認這種技術(shù)廣為人知或形成本領(lǐng)域公知常識的一部分。
[0005]多個參加者遠程互動以實施會議的視頻和音頻電話會議系統(tǒng)是重要的資源。
[0006]許多系統(tǒng)是已知的。大多數(shù)系統(tǒng)依靠中央或分布式服務器資源來確保使用例如專用電話會議設備、帶有音頻輸入/輸出設施的標準計算機資源或智能手機類型的設備,每個參加者都能夠聽到和/或看到其他參加者。該分布式服務器資源負責將來自每個會議參加者的上行鏈路音頻信號合適地混合在一起并將音頻信號下行傳輸以供由每個音頻輸出設備回放。
[0007]作為背景,在典型的(已知的)電話會議系統(tǒng)中,混合器接收來自電話終端中的每個電話終端的相應的‘上行鏈路流’,該‘上行鏈路流’承載由該電話終端捕獲的音頻信號, 并發(fā)送相應的‘下行鏈路流’到電話終端中的每個電話終端。因而,每個電話終端接收下行鏈路流,該下行鏈路流能夠承載由其他電話終端捕獲的相應音頻信號的混合。從而,當電話會議中兩個或多個參加者同時說話時,其他一個(或多個)參加者可以聽到參加者兩方說話。
[0008]已知(且通常期望)混合器應用自適應手段,由此響應于在音頻信號中的一個或多個中感知到某些變化而改變混合。例如,響應于確定音頻信號不含有語音(即只有背景噪聲),該音頻信號可被從混合中省略。但是在錯誤的時間改變混合可能引起令人不安的偽影 (artefact)被參加者聽到。
【發(fā)明內(nèi)容】
[0009]本文中公開的各種方法、設備、裝置和系統(tǒng)可以提供改進形式的音頻會議混合。
[0010]根據(jù)本公開的第一方面,提供了一種在如下類型的音頻會議混合系統(tǒng)中的方法, 該類型的音頻會議混合系統(tǒng)取得包括混合轉(zhuǎn)換事件的會議參加者的輸入音頻信息的多個音頻輸入流,并輸出包括輸出音頻信息的多個音頻輸出流,該方法混合音頻輸出流以降低混合轉(zhuǎn)換事件的可檢測性的方法,該方法包括以下步驟:(a)確定轉(zhuǎn)換事件將發(fā)生;(b)確定掩蔽觸發(fā)將發(fā)生;(c)安排轉(zhuǎn)換事件基本上在掩蔽事件發(fā)生時發(fā)生。
[0011]混合轉(zhuǎn)換事件可以包括音頻輸入流編碼中的改變,該改變在孤立收聽時可被收聽參加者注意到。
[0012]優(yōu)選地,掩蔽觸發(fā)可以包括以下至少一個:語音的起始或終止;語音特性的預定改變,或預定數(shù)目的參加者的同時語音的起始。安排可以包括延遲轉(zhuǎn)換事件的發(fā)生直到掩蔽觸發(fā)發(fā)生。
[0013]在一些實施例中,掩蔽觸發(fā)可以包含會議參加者中的至少一個會議參加者對于預定文本的發(fā)言。在一些實施例中,在音頻輸入流中的一個音頻輸入流的音量和/或預定譜流量的增加的存在可以指示在音頻輸入流中的該一個音頻輸入流中的掩蔽觸發(fā)。語音的起始或終止可以由音頻輸入流中的一個音頻輸入流中的聲音活動標志的值的改變來表示。在一些實施例中,掩蔽事件可以由一系列音頻輸入流的聽覺場景分析確定。
[0014]音頻輸入流可以包括至少一個CTX(連續(xù)傳輸)音頻輸入流和至少一個DTX(離散傳輸)音頻輸入流。
[0015]根據(jù)本公開的另外方面,提供了一種音頻混合系統(tǒng),該音頻混合系統(tǒng)包括:多個音頻流輸入單元,該多個音頻流輸入單元接收來自多個音頻輸入/輸出設備的音頻輸入上行鏈路流,音頻輸入上行鏈路信號包括在孤立收聽時可被收聽參加者注意到的音頻上行鏈路流中的改變的轉(zhuǎn)換事件信號,和表示音頻輸入上行鏈路流中的預定音頻事件的掩蔽觸發(fā)信號;以及一系列音頻子混音單元,其中每個音頻子混音單元形成用于返回到所述多個音頻輸入/輸出設備中相應的一個的下行鏈路輸出,音頻子混音單元中的每個與音頻流輸入單元中的預定數(shù)個互連以混合與該數(shù)個音頻流輸入單元相關(guān)的音頻輸入上行鏈路流,音頻子混音單元進一步包含:用于控制輸入的音頻流的混合的形式并且響應于轉(zhuǎn)換事件信號而更改混合的形式的第一控制單元;用于延遲混合的形式的更改直到掩蔽觸發(fā)信號存在于音頻輸入上行鏈路流中至少一個中時的第二控制單元。
[0016]本文中公開的各種實施例可以具有特定的應用,其中系統(tǒng)和服務器能夠?qū)⒖臻g和/或較連續(xù)的音頻信號集成到混合器和呈現(xiàn)的場景中。具體地,實施例可以對于期望可擴展性、因此期望較低計算復雜度和/或帶寬占用的情況是有用的。實施例也可以在不存在系統(tǒng)約束時是有價值的,在這種情況下其用途主要是實現(xiàn)一定程度的感知場景復雜度降低, 這必須還通過改變不同參加者音頻信號在混合中的存在和貢獻而發(fā)生。此外,存在使用這樣的系統(tǒng)的情況,其中對于呈現(xiàn)的場景的行為和改變是由于來自用戶控制輸入或其他因素的傳入的控制信號導致的。在這種情況下,本實施例的使用可以減小諸如聲音流或?qū)ο蠼Y(jié)束、電平調(diào)整、空間渲染屬性的改變、處理的改變,或任何其他改變的活動的影響,這樣的活動通常將引發(fā)音頻流的感知屬性的突然改變,這樣的突然改變是不希望的并因此對于實現(xiàn)感知連續(xù)性的目標構(gòu)成問題?!靖綀D說明】
[0017]現(xiàn)在將只以舉例的方式參考附圖描述示例實施例,其中
[0018]圖1概略地示出了優(yōu)選實施例的自適應混合布置的一種形式;
[0019]圖2示出了優(yōu)選實施例的電話會議混合器;及
[0020]圖3示出了優(yōu)選實施例的電話會議混合器的示例操作序列的時間線。
[0021]圖4A是示出用于從音頻波形確定事件的系統(tǒng)的單元的示例的框圖;[〇〇22]圖4B示出輸入波形和可以由例如如圖4A中顯示的系統(tǒng)產(chǎn)生的、對應的特征和事件的示例;
[0023]圖5A是示出用于從音頻波形確定事件的可替代性系統(tǒng)的單元的示例的框圖;[〇〇24]圖5B示出可以被提取的特征的示例和可以由例如如圖5A中顯示的系統(tǒng)檢測到的事件的示例;
[0025]圖6A-6C示出用于實現(xiàn)特征提取器和事件檢測器的不同的系統(tǒng)拓撲?!揪唧w實施方式】
[0026]優(yōu)選實施例在用于電話會議(帶有或不帶有相關(guān)聯(lián)的視頻流)的環(huán)境中操作。
[0027]示例性音頻電話會議系統(tǒng)在圖1中被示出為1。在這個布置中,一系列的會議參加者共同提供音頻輸入和輸出。例如,在布置1中,第一參加者2使用與計算機6互連的一對頭戴式耳機5和輸入麥克風3以參加會議。計算機6提供通過網(wǎng)絡9與混合器11的上行鏈路8和下行鏈路7連接。[〇〇28]第二組參加者例如20使用音頻設備21,該音頻設備21提供包括空間化信息的音頻輸出。該音頻設備21也提供內(nèi)部計算和通信能力,并包括上行鏈路23和下行鏈路24通道,該上行鏈路23和下行鏈路24通道經(jīng)由網(wǎng)絡25,26與混合器11互連。附加的參加者也可以經(jīng)由其他手段與混合器互連。
[0029]圖1的布置包括多個會議參加者2,該多個會議參加者2利用由雙耳耳機5連同懸掛式麥克風3例示的DTX終端。所述的多個DTX終端中的每個通常經(jīng)由網(wǎng)絡9斷言(assert) 10DTX上行鏈路流8到電話會議混合器11?;旌掀鳟a(chǎn)生用于每個DTX終端的下行鏈路流7,該下行鏈路流7通過網(wǎng)絡9被傳輸回到終端2而被參加者2聽到。
[0030]由非手持電話設備21示例的多個CTX終端中的每個捕獲另外多個會議參加者20的語音27。顯著背景噪聲也可以由這種設備捕獲。所述的多個CTX終端中的每個通常經(jīng)由網(wǎng)絡 25斷言CTX上行鏈路流26到混合器11。不失一般性,網(wǎng)絡25可以是與由DTX終端使用的網(wǎng)絡相同的網(wǎng)絡?;旌掀?1產(chǎn)生用于每個CTX終端的下行鏈路流23,該下行鏈路流23被通過網(wǎng)絡 25傳輸回到終端21用于回放給多個參加者20。[0031 ]在電話會議系統(tǒng)中,參加者終端中的每個發(fā)送上行鏈路音頻流到電話會議混合器并從電話會議混合器接收下行鏈路流。在這種系統(tǒng)中,上行鏈路和下行鏈路可以被數(shù)字編碼并經(jīng)由合適的分組交換網(wǎng)絡(例如互聯(lián)網(wǎng)協(xié)議語音(VoIP)網(wǎng)絡)被傳輸,或它們可以通過電路交換網(wǎng)絡(例如公共交換電話網(wǎng)絡(PSTN))被輸送。無論哪種方式,混合器11負責產(chǎn)生下行鏈路音頻流以發(fā)送回每個終端,使得大體上,每個參加者聽到除了他自己之外的每個其他參加者。
[0032]這種系統(tǒng)中的一類終端在上行鏈路上應用不連續(xù)傳輸(DTX)。這種終端嘗試通過以下中的一項或多項最大化可理解性同時最小化網(wǎng)絡資源的使用:應用接近說話者的嘴的麥克風放置;去除背景噪聲的噪聲抑制信號處理;在人語音存在時僅發(fā)送上行鏈路流。
[0033]這種策略可以導致收聽者聽到較少的異常噪聲,但是它也可以導致較不自然的聲音體驗,首先是因為噪聲抑制信號處理通常在背景噪聲非平穩(wěn)時導致引入干擾性動態(tài)偽影,其次是因為噪聲抑制影響語音的均衡化,并且第三是因為基于來自相關(guān)聯(lián)的聲音活動檢測器(VAD)的不完美信息的二值(binary)傳輸/不傳輸決定有時將導致語音被切斷而在其它時候?qū)е職埩粼肼暠蛔鳛檎Z音傳輸。
[0034]第二類終端在上行鏈路上應用連續(xù)傳輸(CTX)。即,不管VAD(如果存在)確定語音存在與否,它們都發(fā)送音頻流。此處目的常常是最大化收聽體驗的自然性并允許遠程收聽者進行語音本地化或空間化的方面,就像他或她親自出席一樣。從而,CTX設備可以應用多個麥克風來保留空間多樣性以允許雙耳從掩蔽中釋放。CTX設備的設計者也可以試圖限制設備進行的噪聲抑制處理的量,以便最小化干擾動態(tài)偽影和譜顯色的可能。
[0035]—般地,DTX設備試圖去除、抑制或以其他方式避免傳輸一切它認為不構(gòu)成人類語音的事物,但是CTX設備試圖是透明的,使用可能的最感知連續(xù)和相關(guān)的方式傳輸一切事物。[〇〇36]在設計電話會議混合器時牢記這些目的是重要的。因為DTX終端的上行鏈路在沒有語音被檢測到時是基本上靜默的,當語音未被檢測到、沒有收聽者的感知結(jié)果時,混合器 11可以能夠自由地丟棄它的上行鏈路流。但是,當形成含有CTX流的下行鏈路混合時,混合器必須當心它怎樣將混合轉(zhuǎn)換應用到流。例如,在說話未被檢測到時丟棄CTX流可以容易地由收聽者注意到,這是因為與那個流相關(guān)聯(lián)的背景噪聲可以被聽到關(guān)掉,特別是如果沒有其他CTX流存在以掩蔽該轉(zhuǎn)換。收聽者可能想知道系統(tǒng)是否發(fā)生故障,或CTX終端是否與會議斷開了。在這種情況下將不能實現(xiàn)提供自然收聽體驗的目標。
[0037]—般地,電話會議混合器11的目標是允許每個參加者聽到來自每個其他參加者的語音,但聽不到來自他自己的語音。但是,對于這一目標有一些細微差別。例如,如果許多 CTX流(每個都含有背景噪聲)由收聽者同時聽到,聽到的總的背景噪聲功率可能增加到一點,在該點處它是令人分心的或不利于理解的??紤]另外的示例,其中多個上行鏈路流全部相同講話。結(jié)果可能太嘈雜以致于無法促成有用的通信。在這種情況下僅讓兩個或三個最感知相關(guān)的流穿過可能會較好。許多作者,包括本文的作者,提出了用于實現(xiàn)這一點的方法。例如,Enbom等的歐洲專利公布N0.EP 1 855 455公開了一種這樣的方法,2013年9月25 日提交的國際專利申請N0.PCT/US2013/061658也公開了實現(xiàn)這一點的第二種方式。
[0038]此外,通過簡單地動態(tài)允許或減弱在下行鏈路混合中的上行鏈路的能力,電話會議混合器11此外可能能夠?qū)崿F(xiàn)其他種類的混合轉(zhuǎn)換。例如,它可能能夠在下行鏈路混合中降低上行鏈路的編碼比特率或音頻保真度,或(當上行鏈路含有來自多個麥克風的空間多樣性時)它可能能夠調(diào)節(jié)空間保真度,上行鏈路流以該空間保真度在下行鏈路混合中被聽至IJ。如果下行鏈路被使用空間音頻系統(tǒng)呈現(xiàn)給收聽者,該空間音頻系統(tǒng)例如是通過揚聲器陣列進行渲染或通過頭戴式耳機使用頭部相關(guān)傳遞函數(shù)(HRTF)等進行虛擬化的空間音頻系統(tǒng),那么混合器可能另外能夠影響空間中感知的位置或區(qū)域,對于收聽者,流看起來從該位置或區(qū)域發(fā)出。
[0039]在特定的電話會議系統(tǒng)中,不管究竟哪個混合轉(zhuǎn)換對于混合器是可用的,混合器都可以基于會議中的終端和參加者的行為動態(tài)地做這種轉(zhuǎn)換,且一些類型的轉(zhuǎn)換當被不小心應用時可以被收聽者注意到或令收聽者不安。優(yōu)選的實施例包括用于在電話會議服務器處以如下方式處理混合轉(zhuǎn)換的新一類的方法:該方式使得轉(zhuǎn)換并不容易被收聽者注意到, 因此保持了收聽體驗中的感知連續(xù)性和自然性。為了做到這樣,利用了人類聽覺場景分析中的選擇性注意的現(xiàn)象。
[0040]選擇性注意的現(xiàn)象的示例也許可以通過與視覺感知研究中的改變視盲或無意視盲的概念類比而立即得到理解。例如,無意視盲由Simons和Chabl is的著名的“invisiblegori 1 la”實驗很好地不出(Most,SB; Simons,DJ; Schol 1,BJ; Jimenez,R;Clifford,E; Chabris,CF(January 2001)〇〃How not to be seen: the contribut1n of similarity and selective ignoring to sustained inattent1nal blindness^.Psychol Sci 12 (l):9-17.do1:10.1111/1467-9280.00303.PMID11294235.(也請見 www.1nvisiblegorilla.com),在該實驗中,當籃球比賽視頻的觀看者被要求對傳球次數(shù)計數(shù)時,他們不能注意到穿著大猩猩服裝的人走進屏幕中心并揮手。這個自充的大猩猩高度可見且在其他情況下會被立即注意到,卻經(jīng)常完全逃過了觀看者的注意,這是因為觀看者的注意被轉(zhuǎn)移到別處。[〇〇41]在優(yōu)選的實施例中,提供了在電話會議混合器中做出混合轉(zhuǎn)換的方法,否則混合轉(zhuǎn)換將被立即注意到,但該混合轉(zhuǎn)換因為它們被同步以與獲取收聽者注意的一些其他事件一致(例如,新參加者加入到會議或已經(jīng)有一些時間沒有說話的參加者開始發(fā)言)而不被注意到。
[0042]優(yōu)選的實施例因此提供了用于利用選擇性注意和改變視盲的概念來改善下行鏈路音頻流中感知連續(xù)性的一類方法。該類的每個方法可以在電話會議混合器中被實現(xiàn)。在一些實施例中,電話會議混合器可以位于一個或多個中央服務器中。在其他實施例中,電話會議混合器可以位于一個或多個終端中。[〇〇43] 正如在電話會議設施領(lǐng)域已知的,對于通過混合器11主持的每個會議,上行鏈路流被接收自每個終端?;旌掀鲗τ诿總€終端產(chǎn)生下行鏈路流。不失一般性,可被混合器應用以從多個上行鏈路流形成下行鏈路流的混合技術(shù)的示例包括:
[0044]混合:解碼或部分地解碼上行鏈路流,將解碼的或部分解碼的音頻信號加在一起并重新編碼下行鏈路流。
[0045]轉(zhuǎn)碼:解碼上行鏈路并重新編碼以形成下行鏈路成分。
[0046]轉(zhuǎn)發(fā):復制上行鏈路流中的編碼信息中的全部或部分到下行鏈路流中。
[0047]元數(shù)據(jù)調(diào)節(jié):添加、去除或修改與上行鏈路流相關(guān)聯(lián)的元數(shù)據(jù)以更改它將被渲染給在下行鏈路終端處收聽的參加者的方式。
[0048]有時,混合器在混合特定下行鏈路流時進行轉(zhuǎn)換。轉(zhuǎn)換是在被孤立地實現(xiàn)(S卩,沒有任何掩蔽事件)的情況下可被位于下行鏈路終端處的收聽參加者聽得見并且注意到的下行鏈路音頻流的任何改變。不失一般性,混合轉(zhuǎn)換的示例包括:開啟或關(guān)閉或淡入或淡出混合的下行鏈路流中的上行鏈路流;開始或停止作為下行鏈路流的成分的上行鏈路流的轉(zhuǎn)發(fā);改變下行鏈路流中的上行鏈路流的空間保真度或表示;改變作為下行鏈路流的成分的上行鏈路流的音頻質(zhì)量(例如,通過調(diào)節(jié)編碼比特率);當下行鏈路流能夠進行空間或位置音頻渲染時,改變下行鏈路流的空間場景中的上行鏈路流的感知位置;按步長改變來降低或升高下行鏈路混合中的特定上行鏈路流的增益;從實際的上行鏈路音頻流切換或交叉漸變到合成地產(chǎn)生的噪聲場,該噪聲場被設計成在譜和(在可適用的地方)空間上類似于上行鏈路流中存在的噪聲。
[0049]混合器響應于觸發(fā)進行一個或多個轉(zhuǎn)換。觸發(fā)是從會議的狀態(tài)得出的事件。不失一般性,觸發(fā)的示例包括:1)在上行鏈路流上的標記在該上行鏈路上的語音的起始或終止的VAD標志。該VAD可以在發(fā)送客戶端中實現(xiàn),結(jié)果是包括在上行鏈路流中的元數(shù)據(jù)中??商娲?,該VAD可以在混合器中被實現(xiàn),并基于包括在上行鏈路流中的編碼的或解碼的音頻做出它的語音存在決定;2)從VAD信息得出的啟發(fā)式算法。例如,如果冗長度量被混合器應用并對于某個上行鏈路終端低于閾值,則淡出轉(zhuǎn)換可以在下行鏈路上被觸發(fā);3)來自帶有DTX 上行鏈路的終端的通話突發(fā)(talkburst)轉(zhuǎn)換的起始或終止;4)同時說話者的最大值被超過。
[0050]冗余度量或啟發(fā)式算法的不同形式的特征化可以被使用,包括諸如每個通道的功率譜分析的簡單測量。冗余的一個較復雜的測量在2013年9月25日提交的國際專利申請 N0.PCT/US2013/061658中被獲取,該申請的內(nèi)容通過交叉引用被結(jié)合于此。[〇〇51]在觸發(fā)斷言時,優(yōu)選的實施例的一個關(guān)鍵方面是混合器在應用由那個觸發(fā)引發(fā)的任何轉(zhuǎn)換前等待,直到合適的掩蔽事件發(fā)生。掩蔽事件是可以獲取收聽者的注意或以其他方式掩蔽轉(zhuǎn)換的任何事件。不失一般性,掩蔽事件的示例包括:1)上行鏈路流上的、標記該上行鏈路上的語音的起始或終止的VAD。如果在特定上行鏈路上已經(jīng)有一些時間沒有存在語音,在該上行鏈路上的語音的起始作為掩蔽事件可以是尤其有價值的。因此,起始事件可以基于自上一次語音在上行鏈路上被檢測到以來的時間長度被分級或選用。2)由在上行鏈路終端上(結(jié)果嵌入在上行鏈路流中)或在混合器上實現(xiàn)的語音識別或其他分類算法確定的語音的特定音節(jié)、單詞或類的存在。3)在音量水平、譜流量中的跳變、或基于上行鏈路流中可用的音頻或基于音頻從其中被得出的麥克風信號的其他這樣的啟發(fā)。4)使用基于現(xiàn)存的聽覺場景分析的技術(shù)被標記的事件,例如在諸如Dolby Volume的產(chǎn)品中應用的那些和在美國專利8,396,574和美國專利8,428,270中概述的那些技術(shù)。
[0052]在一類實施例中,掩蔽事件是二值的。即,事件或者存在或者不存在。在斷言掩蔽事件時將簡單地做出未決的轉(zhuǎn)換。在第二類實施例中,事件可以根據(jù)事件幅度被分級,該事件幅度是對該事件將多有效地獲取收聽者的注意的估計。這個幅度被用于控制怎樣做轉(zhuǎn)換。例如,大幅度事件可能導致漸變轉(zhuǎn)換(fade transit1n)在短時間段上發(fā)生,而小幅度事件可能導致漸變轉(zhuǎn)換在長時間段上發(fā)生。作為另外的示例,考慮想要在作為觸發(fā)的結(jié)果的一系列步長增益改變轉(zhuǎn)換中衰減下行鏈路混合中的上行鏈路的混合器。在這種情況下, 應用在每個轉(zhuǎn)換中的衰減量可以是對應的事件幅度的函數(shù)。
[0053]不失一般性,事件幅度可以基于的屬性的示例包括:上行鏈路中語音的音量水平; 通話突發(fā)中語音的起始處的音量水平;在Dolby Volume型事件檢測器中的事件的幅度;特定單詞,音節(jié)或短語在上行鏈路流中被檢測到的置信度;和自從上行鏈路上的前一個通話突發(fā)結(jié)束以來在通話突發(fā)開始時經(jīng)過的時間。
[0054]雖然混合器按需控制電話會議通話,圖2概略地示出了電話會議混合器11的一種形式。多個上行鏈路流,一些DTX(31,32),一些CTX(33)被斷言到混合器11。該上行鏈路流中的每個通過拆包單元35,36,37。取決于上行鏈路編碼信息,拆包單元對上行鏈路流拆包并提取VAD 38,從上行鏈路流獲得事件信息和音頻信息40,以識別如下面所述的掩蔽事件39。 混合器產(chǎn)生多個下行鏈路流42,43,44。圖中顯示的是與下行鏈路43相關(guān)聯(lián)的混合裝置46。 未顯示的是對于其他下行鏈路42,44中的每個而存在的類似裝置。用于這個下混鏈路的混合控制單元11操作VAD和由與其他下行鏈路相關(guān)聯(lián)的拆包單元35,37產(chǎn)生的掩蔽事件信號, 并產(chǎn)生用于上行鏈路36以外的上行鏈路中的每個的增益,因為下行鏈路43將被產(chǎn)生上行鏈路32的相同的終端Y聽到。這些增益被用于縮放(scale)48,49和混合50來自上行鏈路的音頻,以產(chǎn)生適合重新打包和編碼51的最終音頻流,其通過下行鏈路43返回。
[0055]在這個優(yōu)選的實施例中,當對應的VAD信號在超過閾值A(chǔ) T_nt的一段時間為低之后從低(沒有語音被檢測到)到高(語音被檢測到)轉(zhuǎn)換時,對應的拆包單元的掩蔽事件輸出例如39例如被斷言短時間段(例如20ms ),該閾值可以被設為例如10秒。[0〇56]控制單兀47關(guān)于DTX上彳丁鏈路(例如31)的彳丁為是每當相關(guān)聯(lián)的VAD彳目號為尚,設置對應的增益為1。即,每當DTX終端發(fā)送語音,它們被混合到下行鏈路內(nèi)??刂茊卧P(guān)于CTX終端33的行為是每當自從對應的上行鏈路的VAD標志為高以來經(jīng)過的時間量超過閾值A(chǔ) Ttrigger,對內(nèi)部觸發(fā)信號解除斷言,該閾值A(chǔ) Ttrigger可以被設置為例如60秒。每當對應的VAD 標志為高時,觸發(fā)信號被斷言。當觸發(fā)信號被解除斷言時,控制單元在應用轉(zhuǎn)換前等待,直到對應于其他終端中任一終端的掩蔽事件信號被斷言,在此優(yōu)選的實施例的情況中該轉(zhuǎn)換涉及在時間量A Ttransiticm中將CTX終端的增益從1下降到0,該時間量A Ttransiticm可以被設置為例如3秒。[〇〇57] 示例和說明[〇〇58]圖3示出了用于上述實施例的操作的時間線60的示例。序列從終結(jié)通話突發(fā)61的 CTX終端Z開始。這之后,兩個通話突發(fā)62,63從終端X被檢測到。Y現(xiàn)在說話一段時間,并且三個通話突發(fā)64,65和66被檢測到,此后X再次說話67。在時間ttrigger處觸發(fā)事件63發(fā)生,因為對于超過△ 1\_^的時間段沒有從CTX終端Z檢測到語音??刂茊卧F(xiàn)在處于如下的狀態(tài), 在該狀態(tài)中,它將在掩蔽事件的下一個實例開始轉(zhuǎn)換,而不是立即淡出71。當Y開始說話64 時掩蔽事件68發(fā)生,但是這對于控制單元沒有意義,因為它發(fā)生在觸發(fā)之前且因為混合器當前正服務于討論中的終端Y的下行鏈路。當X在長于A Tevent的靜默時段70后重新開始說話 67時,第二事件被信令69,一旦接收到該事件,控制單元開始轉(zhuǎn)換,經(jīng)過數(shù)秒使下行鏈路Y中上行鏈路Z淡出72。[〇〇59]圖4A是示出用于從音頻波形確定事件的系統(tǒng)的單元的示例的框圖。圖4A中示出的部件的種類和數(shù)目只是以示例的方式顯示??商娲膶崿F(xiàn)可以包括更多,更少和/或不同的部件。系統(tǒng)400可以例如是諸如圖2中所示的和上面描述的電話會議混合器11的電話會議混合器的實例或部件。在一些實現(xiàn)中,系統(tǒng)400可以是電話會議服務器的部件,例如線路卡。但是,正如下面參考圖6A-6C較詳細地描述的,在一些實現(xiàn)中,系統(tǒng)400的功能特性可以至少部分地由一個或多個電話終端實現(xiàn)。系統(tǒng)400可以至少部分地由控制系統(tǒng)實現(xiàn),該控制系統(tǒng)可以包括通用單芯片或多芯片處理器,數(shù)字信號處理器(DSP),專用集成電路(ASIC),現(xiàn)場可編程門陣列(FPGA)或其他可編程邏輯器件,離散門或晶體管邏輯和/或離散硬件部件。在一些實現(xiàn)中,系統(tǒng)400可以根據(jù)存儲在一個或多個非暫態(tài)介質(zhì)上的指令(例如軟件)被實現(xiàn)。這種非暫態(tài)介質(zhì)可以包括如本文中描述的那些存儲設備,包括但不限于隨機存取存儲(RAM) 設備,只讀存儲(ROM)設備等。
[0060] 在圖4A中顯示的示例中,系統(tǒng)400包括特征提取器401和事件檢測器402。這里,特征提取器401被示出接收輸入波形403。在一些示例中,波形403可以對應于語音和/或背景噪聲。波形403可以根據(jù)特定實現(xiàn)而改變。例如,如果特征提取器401在電話會議混合器、電話會議服務器或類似的設備中被實現(xiàn),波形403可以是來自上行鏈路流的被拆包和解碼的波形。但是,如果特征提取器401在電話終端中被實現(xiàn),波形403可以是原始麥克風信號或預處理的麥克風信號。[0061 ] 在這個實現(xiàn)中,特征提取器401能夠分析輸入波形403和產(chǎn)生對應于一個或多個類型的特征404的輸出。一些示例在圖4B中被示出且在下面被描述。[〇〇62]在這個示例中,事件檢測器402能夠分析特征404和產(chǎn)生對應于一個或多個類型的事件405的輸出。在一些實現(xiàn)中,事件405可以是如本文其他地方公開的掩蔽事件。從而,在一些示例中,事件405可以與語音的起始,語音的終止,語音的特定音節(jié)、單詞或類的存在, 音量水平、譜流量中的改變或其他這種啟發(fā),和/或根據(jù)聽覺場景分析確定的準則相對應。 在一些實現(xiàn)中,事件檢測器402的輸出可以是“二值”的,該輸出僅指示事件存在或不存在。 但是,在一些示例中,事件檢測器402的輸出也可以指示事件幅度,例如在上面描述的。 [〇〇63]圖4B示出輸入波形和可以由諸如圖4A中示出的系統(tǒng)產(chǎn)生的對應特征和事件的示例。在這個例子中,特征提取器401能夠分析輸入波形403和產(chǎn)生對應于水平中的改變和音高(pi tch)中的改變的輸出。從而,在圖4B中所示的示例中,特征404a與波形403的水平中的改變對應,但是特征404b與波形403的音高中的改變對應。[〇〇64] 在這個示例中,事件檢測器402在時間tl-t4檢測到了事件405a-405d,該事件 405a-405d分別與波形部分403a-403d對應。根據(jù)這個示例,事件檢測器402的輸出指示事件幅度,該事件幅度由對應于事件405a-405d的在圖4B中所示的線的長度指示。例如,事件 405a具有小于事件405b的幅度。在這個示例中,事件檢測器402在與波形403的水平和音高兩者中的顯著改變(例如處于預定閾值或高于預定閾值的改變)相對應的時間處檢測到了事件405a_405d。
[0065]圖5A是示出用于從音頻波形確定事件的可替代系統(tǒng)的元件的示例的框圖。在圖5A 中所示的部件的種類和數(shù)目僅以示例的方式顯示。可替代實現(xiàn)包括更多、更少和/或不同的部件。系統(tǒng)500可以例如是諸如圖2中所示的和上面描述的電話會議混合器11的電話會議混合器的實例或部件。在一些實現(xiàn)中,系統(tǒng)500可以是電話會議服務器的部件,例如線路卡。但是,正如參考圖6A-6C在下面較詳細地描述的,在一些實現(xiàn)中,系統(tǒng)500的功能特性可以至少部分地由一個或多個電話終端實現(xiàn)。系統(tǒng)500可以至少部分地由控制系統(tǒng)實現(xiàn),該控制系統(tǒng)可以包括通用單芯片或多芯片處理器,數(shù)字信號處理器(DSP),專用集成電路(ASIC),現(xiàn)場可編程門陣列(FPGA)或其他可編程邏輯器件,離散門或晶體管邏輯和/或離散硬件部件。在一些實現(xiàn)中,系統(tǒng)500可以根據(jù)存儲在一個或多個非暫態(tài)介質(zhì)上的指令(例如軟件)被實現(xiàn)。 這種非暫態(tài)介質(zhì)可以包括如本文中描述的那些存儲設備,包括但不限于隨機存取存儲 (RAM)設備,只讀存儲(ROM)設備等。[〇〇66]在圖5A中所示的示例中,系統(tǒng)500包括特征提取器401和事件檢測器402。在這個實現(xiàn)中,特征提取器401能夠用作聲音活動檢測器(VAD)。從而,在這個示例中,由特征提取器 401輸出的特征包括VAD結(jié)果504。正如參考圖5B在下面描述的,在這個示例中,事件檢測器 402能夠根據(jù)與參考圖4A和4B在上面描述的方法不同的方法檢測事件505。[〇〇67]圖5B示出了可以被諸如圖5A中所示的系統(tǒng)提取的特征和檢測的特征的示例。在圖 5B中所示的示例中,圖4B中所示的相同的輸入波形403被輸入到特征提取器401。在這個實現(xiàn)中,特征提取器401確定波形部分403a不對應于語音,而是對應于背景噪聲。因此,負的 VAD結(jié)果在時間。處被輸出。這里,特征提取器401輸出對應于波形部分403b和403c的VAD結(jié)果504a,該VAD結(jié)果504a在時間t2處開始并延伸到時間t3。根據(jù)這個示例,特征提取器401輸出VAD結(jié)果504b,該VAD結(jié)果504b在時間t4處開始,對應于波形部分403d。
[0068]在這個示例中,事件檢測器402能夠確定與在預定的非語音的時間間隔后的語音的起始對應的事件。該預定的非語音的時間間隔可以根據(jù)實現(xiàn)而改變。例如,在一些實現(xiàn)中,預定的非語音的時間間隔可以是2秒,3秒,5秒,10秒,15秒,20秒,30秒,60秒等。根據(jù)一些實現(xiàn),預定的非語音的時間間隔可以與△ Ttrigger對應,該A Ttrigger參考圖2在上面被描述。 [〇〇69]在這個示例中,事件檢測器402只檢測單一事件505。在這個例子中,事件檢測器 402輸出二值事件。根據(jù)這個示例,事件檢測器402沒有在時間t檢測到事件,因為特征提取器401已經(jīng)確定波形部分403a不對應于語音且因此沒有VAD結(jié)果在時間t被輸出。在這個實現(xiàn)中,事件檢測器402在時間t2檢測到事件505,該時間t2對應于VAD結(jié)果504a的開始,因為這個特征對應于預定的非語音的時間間隔后的語音的起始。在這個示例中,預定的非語音的時間間隔大于在時間t3和時間t4之間的時間間隔。因此,事件檢測器402沒有在時間t4檢測到事件,該時間t4對應于VAD結(jié)果504b的開始,因為這個特征對應于比預定的非語音的時間間隔短的非語音的時間間隔后的語音的起始。
[0070]圖6A-6C顯示了用于實現(xiàn)特征提取器和事件檢測器的不同的系統(tǒng)拓撲。在圖6A-6C 中顯示的部件的種類和數(shù)目僅以示例的方式顯示。可替代實現(xiàn)可以包括更多,更少和/或不同的部件。系統(tǒng)600A-600B可以至少部分地由控制系統(tǒng)實現(xiàn),該控制系統(tǒng)可以包括一個或多個通用單芯片或多芯片處理器,數(shù)字信號處理器(DSP),專用集成電路(ASIC),現(xiàn)場可編程門陣列(FPGA)或其他可編程邏輯器件,離散門或晶體管邏輯和/或離散硬件部件。在一些實現(xiàn)中,系統(tǒng)600A-600B可以根據(jù)存儲在一個或多個非暫態(tài)介質(zhì)上的指令(例如軟件)被實現(xiàn)。 這種非暫態(tài)介質(zhì)可以包括如本文中描述的那些存儲設備,包括但不限于隨機存取存儲 (RAM)設備,只讀存儲(ROM)設備等。
[0071]在圖6A-6C中顯示的示例中,系統(tǒng)600A-600C包括電話終端601A-601C和拆包單元 603A-603C。在一些實現(xiàn)中,拆包單元603A-603C中的每個可以具有類似于參考圖2在上面描述的拆包單元35-37中的一個的功能特性。拆包單元603A-603C可以是諸如本文其他位置中公開的那些的電話會議混合器的一部分。電話終端601A-601C可以包括用于將聲音轉(zhuǎn)換成輸入波形的一個或多個麥克風(未顯不)。[〇〇72] 根據(jù)圖6A中所示的實現(xiàn),電話終端601A包括特征提取器401A,拆包單元603A包括事件檢測器402A。在這個示例中,特征提取器401A能夠接收輸入波形610A并將VAD結(jié)果504A 輸出到復用器606A。在這個實現(xiàn)中,音頻編碼器604A能夠編碼輸入波形610A并將編碼的音頻數(shù)據(jù)607A輸出到復用器606A。這里,復用器606A能夠?qū)AD結(jié)果504A與編碼的音頻數(shù)據(jù) 607A組合。電話終端610A能夠?qū)⑸闲墟溌妨?05A輸出到網(wǎng)絡602。[〇〇73] 在圖6A中所示的示例中,拆包單元603A包括解復用器609A,該解復用器609A能夠接收上行鏈路流605A,并能夠?qū)AD結(jié)果504A與編碼的音頻數(shù)據(jù)607A分開。在這個實現(xiàn)中, 解復用器609A能夠?qū)AD結(jié)果504A輸出到事件檢測器402A,該事件檢測器402A能夠檢測并輸出事件405A。這里,解復用器609A能夠?qū)⒕幋a的音頻數(shù)據(jù)607A輸出到解碼器608A,該解碼器608A能夠解碼音頻數(shù)據(jù)607A并輸出解碼的音頻數(shù)據(jù)613A。[〇〇74] 在圖6B中所示的示例中,系統(tǒng)600B包括電話終端601B和拆包單元603B。根據(jù)這個實現(xiàn),電話終端601B包括音頻編碼器604B,該音頻編碼器604B能夠編碼輸入波形610B并輸出編碼的音頻數(shù)據(jù)607B,該編碼的音頻數(shù)據(jù)607B在上行鏈路流605B中被提供給網(wǎng)絡602。 [〇〇75] 在圖6B中所示的示例中,拆包單元603B包括解碼器608B,該解碼器608B能夠解碼上行鏈路流605B并輸出解碼的音頻數(shù)據(jù)613B。在這個實現(xiàn)中,拆包單元603B包括特征提取器401B,該特征提取器401B能夠接收解碼的音頻數(shù)據(jù)613B并提取特征404。在這個示例中, 特征提取器401B能夠?qū)⑻卣?04輸出到事件檢測器402B,該事件檢測器402B能夠檢測并輸出事件405B。[〇〇76] 根據(jù)圖6C中所示的實現(xiàn),電話終端601C包括特征提取器401C和事件檢測器402C。 在這個示例中,特征提取器401C能夠具有VAD功能特性。從而,特征提取器401C能夠接收輸入波形610C并將VAD結(jié)果504C輸出到復用器606C并輸出到事件檢測器402C。在這個實現(xiàn)中, 音頻編碼器604C能夠編碼輸入波形610C并將編碼的音頻數(shù)據(jù)607C輸出到復用器606C。在這個示例中,事件檢測器402C能夠基于VAD結(jié)果504C檢測事件405C,并能夠?qū)⑹录?05C輸出到復用器606C。這里,復用器606C能夠?qū)AD結(jié)果504C,事件405C與編碼的音頻數(shù)據(jù)607C組合, 該VAD結(jié)果504C,事件405C與編碼的音頻數(shù)據(jù)607C都在上行鏈路流605C中被提供給網(wǎng)絡 602〇[〇〇77] 在圖6C中所示的示例中,拆包單元603C包括解復用器609C,該解復用器609C能夠接收上行鏈路流605C并能夠?qū)AD結(jié)果504C和事件405C與編碼的音頻數(shù)據(jù)607C分開。在這個實現(xiàn)中,解復用器609C能夠?qū)⒕幋a的音頻數(shù)據(jù)607C輸出到解碼器608C,該解碼器608C能夠?qū)幋a的音頻數(shù)據(jù)607C解碼并輸出解碼的音頻數(shù)據(jù)613C。
[0078]
[0079]因此,很明顯,優(yōu)選的實施例提供了用于通過監(jiān)控音頻環(huán)境中的合適的觸發(fā)和延遲轉(zhuǎn)換直到觸發(fā)發(fā)生的時刻來掩蔽音頻會議轉(zhuǎn)換的方法和系統(tǒng)。
[0080]SW
[0081]在本說明書各處的對于“一個實施例”,“一些實施例”或“實施例”的引述意味著結(jié)合該實施例描述的特定的特征,結(jié)構(gòu)或特點被包括在本發(fā)明的至少一個實施例中。因而,短語“在一個實施例中”,“在一些實施例中”或“在實施例中”在本說明書各種位置的出現(xiàn)并不一定都指的是同一實施例,但是可能指的是同一實施例。此外,如本領(lǐng)域的技術(shù)人員從本公開一個或多個實施例中將顯見的,特定的特征,結(jié)構(gòu)或特點可以以任何合適的方式組合。
[0082]在下面的權(quán)利要求和本文的描述中,術(shù)語“包含”或“其包含”中的任一個是開放性術(shù)語,該開放性術(shù)語意味著包括至少一個隨后的單元/特征,但不排除其他的。因而,當用于權(quán)利要求書中時,術(shù)語“包含”不應該被解釋為局限于此后列出的裝置,單元或步驟。例如, 設備包含A和B的表達的范圍不應該限于設備僅由A和B組成。在本文中使用的術(shù)語“包括”或 “其包括”中任何一個也是開放性術(shù)語,該開放性術(shù)語也意味著包括該術(shù)語后面的至少一個的單元/特征,但不排除其他的。因而,包括與包含意義相同,且包括意味著包含。
[0083]正如在本文中使用的,術(shù)語“示例性”在提供示例的意義上被使用,而不是指示質(zhì)量。即,“示例性實施例”是作為示例被提供的實施例,而不一定是具有示例質(zhì)量的實施例。
[0084]應該注意到,在本發(fā)明的示例實施例的以上描述中,本發(fā)明的各種特征在單一實施例,圖或其描述中有時被分組在一起,以理順本公開并有助于對各種發(fā)明方面中的一個或多個方面的理解。但是,公開的此方法不應被解釋為反映由權(quán)利要求保護的本發(fā)明需要比在每個權(quán)利要求中明確地陳述的特征多的特征的意圖。相反,如下面的權(quán)利要求反映的, 發(fā)明性的各方面在于比單個先前公開的實施例的所有特征少的特征。因而,【具體實施方式】后面的權(quán)利要求特此被明確地引入本【具體實施方式】,其中每項權(quán)利要求獨立地作為本發(fā)明的單獨的實施例。
[0085]此外,盡管本文中描述的一些實施例包括在其他實施例中包括的一些特征但不包括其他特征,但是如本領(lǐng)域的技術(shù)人員可理解的,不同實施例的特征的組合意在在本發(fā)明的范圍之內(nèi),并形成不同的實施例。例如,在下面的權(quán)利要求中,權(quán)利要求保護的實施例中的任何一個可被以任何組合使用。
[0086]此外,實施例中的一些在本文中被描述為方法或方法的元素的組合,該方法或方法的元素的組合可以由計算機系統(tǒng)的處理器實現(xiàn)或通過實施該功能的其他手段實現(xiàn)。因而,具有用于實施這種方法或方法的元素的必要的指令的處理器形成實施該方法或方法的元素的手段。此外,在本文中描述的、裝置實施例的元件是實施由該元件進行的用以實施本發(fā)明的功能的手段的示例。
[0087]可以利用一個或多個計算機可讀介質(zhì)的組合。計算機可讀介質(zhì)可以是計算機可讀信號介質(zhì)或計算機可讀存儲介質(zhì)。計算機可讀存儲介質(zhì)可以是例如但不限于電子,磁性,光學,電磁,紅外或半導體系統(tǒng),裝置或設備,或前面的任何合適的組合。計算機可讀存儲介質(zhì)的更具體的示例(非窮盡列表)將包括下面各項:具有一個或多個線的電連接,便攜式計算機軟盤,硬盤,隨機存取存儲器(RAM),只讀存儲器(R0M),可擦除可編程只讀存儲器(EPR0M或閃存),光纖,便攜式光盤只讀存儲器(CD-ROM),光存儲設備,磁性存儲設備或前面的任何合適的組合。在本文檔的語境中,計算機可讀存儲介質(zhì)可以是可含有或存儲程序的任何實體介質(zhì),該程序由指令執(zhí)行系統(tǒng),裝置或設備使用或與其有關(guān)。
[0088]計算機可讀信號介質(zhì)可以包括其中體現(xiàn)有計算機可讀程序代碼的傳播的數(shù)據(jù)信號,例如,在基帶中或作為載波的一部分。這種傳播的信號可以為各種形式中的任何一種,包括但不限于電磁或光學信號,或它們的任何合適的組合。
[0089]計算機可讀信號介質(zhì)可以是任何如下的計算機可讀介質(zhì),該計算機可讀介質(zhì)不是計算機可讀存儲介質(zhì),并且可以傳達,傳播或輸送由指令執(zhí)行系統(tǒng),裝置或設備使用或與其有關(guān)的程序。
[0090]在計算機可讀介質(zhì)上體現(xiàn)的程序代碼可以使用任何合適的介質(zhì)被傳輸,包括但不限于無線,有線,光線電纜,RF等或前面的任何合適的組合。
[0091]用于實施本申請的各方面的操作的計算機程序代碼可以以一個或多個編程語言的任意組合被書寫,包括諸如Java,Sma11 taIk,C++等的面向?qū)ο蟮木幊陶Z言,和例如“C”編程語言或類似的編程語言的傳統(tǒng)過程編程語言。程序代碼可以作為獨立的軟件包完全在用戶的電腦上執(zhí)行,或部分地在用戶的電腦上部分地在遠程計算機上執(zhí)行,或完全在遠程計算機或服務器上執(zhí)行。在后者的情況下,遠程計算機可以通過任何種類的網(wǎng)絡連接到用戶的計算機,該網(wǎng)絡包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN),或可以連接到外部計算機(例如,通過使用互聯(lián)網(wǎng)服務提供商的互聯(lián)網(wǎng))。
[0092]在本文中提供的描述中,闡述了大量的具體細節(jié)。但是,可以理解,本發(fā)明的實施例可以在沒有這些具體細節(jié)的情況下被實踐。在其他例子中,為了使描述容易理解,廣為人知的方法,結(jié)構(gòu)和技術(shù)沒有被詳細示出。
[0093]盡管已經(jīng)描述了被認為是本發(fā)明的優(yōu)選實施例的東西,但是本領(lǐng)域的技術(shù)人員將認識到,可以對其做其他和進一步的修改而不會背離本發(fā)明的精神,且其意圖是要求保護所有這些改變和修改落入本發(fā)明的范圍內(nèi)。例如,上面給出的任何方案僅是可以使用的過程的代表??梢韵蚩驁D中添加或從框圖中移除功能特性,且操作可以在功能框中被交換??梢栽诒景l(fā)明的范圍內(nèi)描述的方法中添加或刪除步驟。
【主權(quán)項】
1.一種在如下類型的音頻會議混合系統(tǒng)中的方法,該類型的音頻會議混合系統(tǒng)取得包 括混合轉(zhuǎn)換事件的會議參加者的輸入音頻信息的多個音頻輸入流,并輸出包括輸出音頻信 息的多個音頻輸出流,該方法混合音頻輸出流以降低混合轉(zhuǎn)換事件的可檢測性,該方法包 括以下步驟:(a)確定轉(zhuǎn)換事件將發(fā)生;(b)確定掩蔽觸發(fā)將發(fā)生;(c)安排轉(zhuǎn)換事件基本上在掩蔽事件發(fā)生時發(fā)生。2.如權(quán)利要求1所述的方法,其中所述混合轉(zhuǎn)換事件包括當孤立地收聽時能被收聽參 加者注意到的音頻輸入流編碼中的改變。3.如前面任一權(quán)利要求所述的方法,其中所述掩蔽觸發(fā)包括以下中的至少一個:語音的起始或終止;語音特性的預定的改變,或預定數(shù)目的參加者的同時語音的起始。4.如前面任一權(quán)利要求所述的混合音頻輸出流的方法,其中所述安排包含延遲轉(zhuǎn)換事 件的發(fā)生直到掩蔽觸發(fā)發(fā)生。5.如前面任一權(quán)利要求所述的混合音頻輸出流的方法,其中所述掩蔽觸發(fā)包括所述音 頻輸入流中的一個音頻輸入流的語音的起始或終止。6.如前面任一權(quán)利要求所述的方法,其中掩蔽觸發(fā)包含由會議參加者中的至少一個對 于預定文本的發(fā)言。7.如前面任一權(quán)利要求所述的方法,其中在音頻輸入流中的一個音頻輸入流中的音量 和/或預定譜流量的增加的存在指示在音頻輸入流中的所述一個音頻輸入流中的掩蔽觸發(fā)。8.如權(quán)利要求3或前面任一從屬于權(quán)利要求3的權(quán)利要求所述的混合音頻輸出流的方 法,其中語音的所述起始或終止由所述音頻輸入流中的一個音頻輸入流中的聲音活動標志 值的改變來表示。9.如前面任一權(quán)利要求所述的方法,其中掩蔽事件由一系列音頻輸入流的聽覺場景分 析確定。10.如前面任一權(quán)利要求所述的方法,其中音頻輸入流包括至少一個CTX(連續(xù)傳輸)音 頻輸入流和至少一個DTX(離散傳輸)音頻輸入流。11.一種首頻混合系統(tǒng),包括:多個音頻流輸入單元,該多個音頻流輸入單元接收來自多個音頻輸入/輸出設備的音 頻輸入上行鏈路流,音頻輸入上行鏈路信號包括在孤立收聽時能被收聽參加者注意到的音 頻上行鏈路流中的改變的轉(zhuǎn)換事件信號、和表示音頻輸入上行鏈路流中的預定音頻事件的 掩蔽觸發(fā)信號;以及一系列音頻子混合單元,每個音頻子混合單元形成用于返回到所述多個音頻輸入/輸 出設備中相應的一個的下行鏈路輸出,所述音頻子混合單元中的每個與所述音頻流輸入單 元中的預定數(shù)個互連以混合與該數(shù)個音頻流輸入單元相關(guān)的音頻輸入上行鏈路流,所述音 頻子混和單元進一步包含:第一控制單元,用于控制輸入的音頻流的混合的形式,并且響應于所述轉(zhuǎn)換事件信號而更改混合的形式;第二控制單元,用于延遲混合的形式的更改直到掩蔽觸發(fā)信號存在于音頻輸入上行鏈 路流中的至少一個中時。12.—種承載計算機可譯解指令的計算機可讀介質(zhì),該計算機可譯解指令在由用于電 話會議混合系統(tǒng)的裝置的處理器執(zhí)行時導致裝置實施如權(quán)利要求1到10中任一權(quán)利要求所 述的方法,該裝置被配置成接收多個音頻輸入流并且基于音頻輸入流產(chǎn)生至少一個音頻輸 出流。
【文檔編號】H04M3/56GK106031141SQ201580010641
【公開日】2016年10月12日
【申請日】2015年2月17日
【發(fā)明人】R·J·卡特萊特, G·N·迪金斯
【申請人】杜比實驗室特許公司