會議電話語音選擇合成的方法

文檔序號：7596780閱讀：251來源：國知局

專利名稱：會議電話語音選擇合成的方法
技術領域：
本發(fā)明屬于通訊技術領域，涉及一種會議電話業(yè)務，特別涉及一種會議電話語音選擇合成的方法。
背景技術：
會議電話，顧名思義就是通過電話召開會議，其原理簡言之，即將同一個會議的參加者的話路輸出信號合成后，作為該會議電話所有參加者的話路輸入信號，使每一個參加者聽到其他參加者的聲音。
傳統(tǒng)的會議電話語音合成的方法是將一個會議的所有參加者直接合成，即將所有參加者的話路信號衰減后疊加輸出，如圖1所示。之所以要衰減，是為了防止多路信號疊加導致溢出，且衰減因子必須和參加者人數(shù)成正比。顯然這種衰減導致的問題是當參加者很多時，衰減因子很大，處理后輸出的語音幅度很小甚至聽不清；而且由于參加者很多，會出現(xiàn)語音混雜現(xiàn)象，聽覺效果差。產生這個問題的根本原因是對所有參加者都進行了統(tǒng)一處理，沒有判別當前哪些參加者正在說話，哪些沒有說話。由于存在上述缺點，傳統(tǒng)會議電話為了保證聽覺效果，一般將參加人數(shù)限制在一定的范圍內。
專利號為99105937.9的中國專利提出了一種會議電話的控制方法，該方法涉及改進的會議電話選擇方法，在會議的所有參加者中選擇一個輸出，這種選擇方法雖然避免了傳統(tǒng)會議電話語音合成方法中的語音幅度減小問題，但是輸出的信息量太少，降低了會議電話的工作效率。

發(fā)明內容
本發(fā)明的目的在于克服上述已有技術存在的聽覺效果差、工作效率低的問題，提供一種會議電話語音選擇合成的方法，在會議電話的參與者中進行適當?shù)倪x取后，再進行語音合成并輸出，以實現(xiàn)高清晰度、高信息量的會議電話業(yè)務。
本發(fā)明的技術方案是這樣實現(xiàn)的設定時間窗Tw和時間單元ΔT，其中Tw大于ΔT，時間窗Tw以一個時間單元ΔT為單位向前推進。在時間窗Tw內，計算每個會議電話成員的語音信號平均能量，作為每個會議電話成員在時間窗Tw內的最后一個時間單元ΔT內的語音信號累積平均能量；
根據會議電話的各個成員在當前時間單元ΔT內的語音信號累積平均能量進行比較和選擇淘汰，動態(tài)更新當前發(fā)言成員的名單，并認為其他成員在當前時間單元內保持沉默；然后將發(fā)言的成員對應的語音信號衰減疊加后輸出，作為會議電話當前時間單元內的語音輸出。
假設會議電話共有N個成員參加，其中主發(fā)言者有N1個人，N≥N1≥1；次發(fā)言者有N2個人，N≥N2≥0；未發(fā)言者有N3個人，N≥N3≥0。
N1+N2+N3＝N，且 N1+N2＞1，即有多個發(fā)言者輸出。則按如下過程對會議電話語音進行選擇合成(1)根據設定的時間窗Tw和時間單元ΔT，計算每個時間單元內每個會議電話成員的語音信號累積平均能量；(2)在會議電話開始的第一個時間單元ΔT內，對會議電話各個成員在該時間單元的語音信號累積平均能量進行比較，選擇N1個能量最大的成員作為當前的主發(fā)言者，其他成員為未發(fā)言者，次發(fā)言者初始數(shù)目為0；(3)在第二個時間單元，根據會議電話每個成員在該時間單元的語音信號累積平均能量的大小，通過淘汰環(huán)節(jié)對主發(fā)言者與次發(fā)言者進行淘汰更新；(4)淘汰環(huán)節(jié)結束后，檢查次發(fā)言者集合中的所有成員，控制次發(fā)言者集合中的成員數(shù)目；(5)次發(fā)言者集合中的成員數(shù)目被控制之后，捋當前主發(fā)言者集合和次發(fā)言者集合中的成員的語音信號作適當?shù)厮p，疊加后合成的語音信號作為會議電話在第二個時間單元內的輸出；(6)重復(3～5)，處理以后每個時間單元ΔT內的語音數(shù)據。
上述(3)中的淘汰環(huán)節(jié)包括次發(fā)言者和未發(fā)言者對主發(fā)言者進行的他人淘汰環(huán)節(jié)，以及主發(fā)言者和次發(fā)言者的自我淘汰環(huán)節(jié)。其中他人淘汰環(huán)節(jié)，首先比較所有主發(fā)言者在當前時間單元的語音信號累積能量，得到主發(fā)言者中語音信號累積平均能量最小的成員A，并在次發(fā)言者的和未發(fā)言者的集合中選取語音信號累積平均能量最大的成員B；然后比較成員A和成員B，如果發(fā)現(xiàn)成員B的語音信號累積平均能量大于成員A的語音信號累積平均能量，則記錄A和B這一對會議電話成員處于他人淘汰的預備狀態(tài)；其中A處于被淘汰的預備狀態(tài)，B處于淘汰他人的預備狀態(tài)。如果該對成員在連續(xù)的若干個時間單元內一直處于他人淘汰的預備狀態(tài)，即該對成員連續(xù)處于他人淘汰的預備狀態(tài)的時間超過他人淘汰時間門限T1，則更新成員B為主發(fā)言者，成員A為次發(fā)言者，即實現(xiàn)主發(fā)言者的他人淘汰更新。
自我淘汰環(huán)節(jié)，是針對在上一個時間單元內已經被認定是發(fā)言的成員，如果在當前的時間單元內，主發(fā)言者集合或次發(fā)言者集合中的某個成員C的語音信號累積平均能量值小于特定的語音信號能量門限G1，則記錄成員C處于自我淘汰的預備狀態(tài)；如果成員C在連續(xù)的若干個時間單元內一直處于自我淘汰的預備狀態(tài)，即成員C連續(xù)處于自我淘汰的預備狀態(tài)的時間超過自我淘汰的時間門限T2，則認為成員C發(fā)言結束，將成員C更新為未發(fā)言者，即該成員被自我淘汰。
所述的自我淘汰環(huán)節(jié)中語音信號能量門限G1按如下動態(tài)更新的方法選取首先，在成員C未進入自我淘汰的預備狀態(tài)時，如果成員C當前的語音信號累積平均能量小于上一次該成員的語音信號累積平均能量GX的1/2，則記錄成員C處于自我淘汰的預備狀態(tài)，同時暫時固定成員C的自我淘汰語音信號能量門限G1＝GX/2；隨后，成員C的本次自我淘汰都以語音信號能量G1為標準，如果成員C的本次自我淘汰過程中，有一次語音信號累積平均能量大于G1，則成員C的本次自我淘汰失敗，即成員C脫離自我淘汰的預備狀態(tài)，然后在下一輪，按照前面敘述的方法，重新開始判斷成員C是否可以再進入自我淘汰的預備狀態(tài)。
上述(4)中的控制次發(fā)言者集合中成員數(shù)目，是根據延時門限或預定成員的數(shù)目來進行，即如果次發(fā)言者集合中的某個成員D在次發(fā)言者集合中停留的時間超過延時門限T3，可強行將成員D淘汰為未發(fā)言者；或者當次發(fā)言者集合中的成員數(shù)超過預定的數(shù)目N2時，再強行將次發(fā)言者集合中當前累積平均能量最小的成員E淘汰為未發(fā)言者。
本發(fā)明與現(xiàn)有技術相比具有如下優(yōu)點通過比較會議電話的所有成員在一定時間內的語音能量值，選擇一定數(shù)目的當前發(fā)言的成員，將其相應的語音衰減合成后輸出，避免了會議電話成員過多時，衰減因子過大導致的語音過小而無法分辨。僅合成發(fā)言成員的語音，避免了會議電話成員過多時，語音和噪聲混雜的情況。選擇合成后的語音清晰，易分辨。
選擇會議電話的多個成員作為當前發(fā)言的成員，在比較選擇發(fā)言成員時，綜合采用自我淘汰和他人淘汰，及時更新發(fā)言成員，保證了會議電話的信息量和效率。
在比較選擇發(fā)言成員時，充分考慮到語音本身的特點，使用適當?shù)谋容^方法，并設計適當?shù)难訒r，即他人淘汰時的延時門限與自我淘汰時的延時門限，并進行延時處理，即他人淘汰后，由主發(fā)言者降為次發(fā)言者，語音繼續(xù)輸出，避免發(fā)生語音截斷，合成后的語音聽覺效果好。

圖1為傳統(tǒng)會議電話語音合成方法框圖，在所有時刻將所有的會議電話成員的語音衰減合成后輸出；圖2為本發(fā)明的會議電話語音合成方法示意圖，在每個時間段內，通過選擇合成方法，選擇若干個正在發(fā)言的會議電話成員的語音，作適當?shù)乃p和合成輸出；圖3為本發(fā)明會議電話語音選擇方法中他人淘汰的流程示意圖；圖4為本發(fā)明會議電話語音選擇方法中針對單個成員的自我淘汰的流程示意圖。
具體實施例方式
下面將結合具體完成的實施例，對本發(fā)明作進一步詳述。
本實施例中采用8000Hz的采樣速率對語音信號進行采樣，設時間單元為ΔT＝5ms，時間窗Tw＝ΔT×n，n的最佳取值在5-50之間。設計允許參加會議的成員數(shù)為M最大值為128，主發(fā)言者數(shù)目N1＝1，次發(fā)言者數(shù)目N2＝5。
下面詳細描述本實施例中使用的語音合成選擇的處理過程第一步緩存ΔT內所有的會議電話成員輸出的語音信號，利用信號的幅值計算信號能量。因為能量計算的目的只是提供一個比較的依據，并非真的需要知道該語音信號具體的能量值，所以本發(fā)明計算能量采用的方法是對每個參加者的語音樣本值取絕對平均值，作為該參加者在當前ΔT內的語音信號能量。
第二步計算每個成員最近n次ΔT時間內的語音信號平均能量值，得到(ΔT×n)ms內每個成員的語音信號平均能量，作為該成員在當前時間單元的語音信號累積平均能量。計算和使用累積平均能量，可以更好的保持下一步比較后輸出語音的連貫性。
在做好上面的兩步準備工作以后，下面就可以根據每個成員在當前時間單元的語音信號累積平均能量，進行發(fā)言者選擇和比較淘汰。選擇與比較淘汰方法中涉及了這樣幾個集合和記錄表集合1主發(fā)言者集合，包括所有的主發(fā)言者；集合2次發(fā)言者集合，包括所有的次發(fā)言者；集合3未發(fā)言者集合，包括所有的未發(fā)言者；在一輪比較淘汰開始之前集合1+集合2+集合3＝全體會議電話參加人員；
集合1、集合2和集合3兩兩互不相交。
記錄表1他人淘汰記錄表，該記錄表中記錄處于替代他人和被替代的預備狀態(tài)的一對成員，即淘汰他人者和被淘汰者，以及該對成員處于替代他人和被替代的預備狀態(tài)的時間長度，即該對成員在記錄表1中的停留時間。
記錄表2自我淘汰記錄表，該記錄表中記錄處于自我淘汰的預備狀態(tài)的成員，和每個成員處于自我淘汰的預備狀態(tài)的時間長度，即該成員在記錄表2中的停留時間，以及該成員的自我淘汰門限。
為了完成發(fā)言成員選擇，以及稍后的比較淘汰，設計這樣2個排序排序1主發(fā)言者語音能量排序，即根據當前時間單元的累積平均能量對集合1中的所有成員排序。
排序2非主發(fā)言者語音能量排序，即根據當前時間單元的累積平均能量對集合2和集合3的和集中所有成員排序。
對集合1、集合2和集合3進行初始化。從會議電話的所有成員當中選取N1個語音累積平均能量最大的成員，將這些成員歸入集合1；其它成員歸入集合3；集合2初始狀態(tài)為空。
對記錄表1和記錄表2進行初始化，將其設置為空。
做好前面的準備工作后，開始正式進入發(fā)言者的選擇和淘汰過程。
第三步他人淘汰。下面結合圖3，詳細敘述他人淘汰的流程。
Step 3-1檢查記錄表1中是否為空。
Step 3-2如果記錄表1為空，則將排序1中的最小成員，即主發(fā)言者中當前語音累積平均能量最小的成員A，和排序2中的最大成員，即非主發(fā)言者中當前語音累積平均能量最大的成員B作為一對記入記錄表1；將這一對成員在記錄表1中的停留時間計時器Timer1初始化為0；然后給出記錄表1非空標志。
如果記錄表1非空，則不需要上面的操作。
Step 3-3比較記錄表1中成員A當前時間單元的語音累積平均能量Energy_A和成員B在當前時間單元的語音累積平均能量Energy_B。
Step 3-4如果Energy_B≤Energy_A，則清空記錄表1，本時間單元的他人淘汰結束。
Step 3-5如果Energy_B＞Energy_A，則這對成員在記錄表1中的停留時間計時器Timer1＝Timer1+ΔT。其中ΔT＝5ms，即為前面說明的方法的時間處理最小單元。
Step 3-6比較記錄表1中一對成員在記錄表1中的停留時間Timer1和他人淘汰時間門限T1。
Step 3-7如果Timer1＞T1，則將成員B更新為主發(fā)言者，列入集合1；將成員A更新為次發(fā)言者，列入集合2；即成員B成功淘汰成員A。將記錄表1清空，本時間單元的他人淘汰結束。
Step 3-8如果Timer1≤T1，則保留當前他人淘汰的狀態(tài)記錄。本時間單元的他人淘汰結束。根據語音信號的特點，他人淘汰時間門限T1的取值范圍設定在250-3000之間。
第四步自我淘汰。本具體實施例中的自我淘汰環(huán)節(jié)僅針對次發(fā)言者集和，即對集合2內的所有成員逐個進行自我淘汰處理。下面結合圖4，詳細描述在一個時間單元內對單個成員進行自我淘汰的過程。
Step 4-1考察集合2中的一個成員C，是否在記錄表2中。
Step 4-2如果成員C不在記錄表2中，則比較成員C在當前時間單元內的語音累積平均能量Energy_C和成員C在上一個時間單元內的語音累積平均能量Last_energy_C。如果成員C在記錄表2中，轉到Step 4-4。
Step 4-3如果Energy_C＜(Last_energy_C/2)，則在記錄表2記錄成員C處于自我淘汰的預備狀態(tài)；設置成員C在記錄表2中的停留時間計時器Timer2＝ΔT；并在記錄表2中記錄成員C的本次自我淘汰門限G1＝Last_energy_C/2。在本時間單元針對成員C的自我淘汰過程結束。成員C的自我淘汰將在下一個采樣時間處理單元繼續(xù)進行，如果Energy_C≥(Last_energy_C/2)，則直接結束在本時間單元針對成員C的自我淘汰過程。
Step 4-4如果成員C在記錄表2中，則比較成員C在當前時間單元內的語音累積平均能量Energy_C和記錄表2中記錄的成員C的本次自我淘汰語音信號門限G1。
Step 4-5如果Energy_C＜G1，則成員C在記錄表2中的停留時間計時器Timer2＝Timer2+ΔT。否則，轉到Step 4-9。
Step 4-6比較成員C在記錄表2中的停留時間Timer2和自我淘汰時間門限T2。
Step 4-7如果Timer2＞T2，則更新成員C為未發(fā)言者，列入集合3，即成員C自我淘汰成功。將記錄表2中關于成員C的記錄清空，本時間單元針對成員C的自我淘汰過程結束。
Step 4-8如果Timer2≤T2，則保留當前成員C在記錄表2中的自我淘汰的狀態(tài)記錄。本時間單元的針對成員C的自我淘汰過程結束。
Step 4-9如果Energy_C≥G1，則成員C的自我淘汰失敗，清空記錄表2中關于成員C的記錄，成員C不再處于自我淘汰的預備狀態(tài)。本時間單元的針對成員C的自我淘汰過程結束。
根據語音信號的特點，自我淘汰時間門限T2的取值范圍設定在250-3000ms之間。
第五步控制集合2中的成員數(shù)目?？刂萍?中的成員數(shù)目的方法有以下兩種(1)查看集合2中成員的數(shù)目，如果超過預定的數(shù)目N2，則將集合2中當前語音累積平均能量最小的成員E強行淘汰出集合2，歸入集合3。
(2)為集合2中的每個成員設計一個停留時間計時器，并實時更新。在一個時間單元的自我淘汰過程完成后，查看集合2中的每個成員在集合2中的停留時間。如果某個成員D在集合2中的停留時間超過延時門限T3，則將成員D強行淘汰出集合2，歸入集合3。
根據語音信號的特點，延時門限T3的取值范圍設定在2-15s之間。
第六步經過上述他人淘汰和自我淘汰以及對集合2的成員控制過程以后，得到更新后的集合1、集合2和集合3。將集合1和集合2中的所有成員，即所有的主發(fā)言者和次發(fā)言者的語音信號作適當?shù)乃p后累加，得到會議電話的合成語音，然后輸出到會議電話的所有參加者。本實施例中，根據設計的輸出成員數(shù)，衰減因子取4。
第七步重復到第一步，處理下一個ΔT時間內的語音數(shù)據。
按照前面描述的過程，會議電話語音選擇合成的處理延時小于2倍ΔT，即10ms。使用本發(fā)明的方法，可做到不必限制會議電話的參加人數(shù)，而是通過語音選擇合成，自動控制當前的發(fā)言人數(shù)，自動更新當前的發(fā)言成員名單，輸出的語音清晰，連貫，聽覺效果良好，且有足夠的會議電話信息量。
對于本領域的專業(yè)人員來說，在了解了本發(fā)明內容和原理后，能夠在不背離本發(fā)明的原理和范圍的情況下，根據本發(fā)明的方法進行形式和細節(jié)上的各種修正和改變，但是這些基于本發(fā)明的修正和改變仍在本發(fā)明的權利要求保護范圍之內。
權利要求
1.一種會議電話語音選擇合成方法，按如下過程進行(1)設定時間窗Tw和時間單元ΔT，其中Tw大于ΔT，時間窗Tw以一個時間單元ΔT為單位向前推進，在時間窗Tw內，計算每個會議電話成員的語音信號平均能量，作為每個會議電話成員在時間窗Tw內的最后一個時間單元ΔT內的語音信號累積平均能量；(2)在會議電話開始的第一個時間單元，對會議電話各個成員在該時間單元的語音信號累積平均能量進行比較，選擇能量最大的成員作為在該時間單元的主發(fā)言者，其他成員為未發(fā)言者，次發(fā)言者初始數(shù)目為0；(3)在第二個時間單元，根據會議電話每個成員在該時間單元的語音信號累積平均能量的大小，通過淘汰環(huán)節(jié)對主發(fā)言者與次發(fā)言者進行淘汰更新；(4)淘汰環(huán)節(jié)結束后，檢查次發(fā)言者集合中的所有成員，控制次發(fā)言者集合中的成員數(shù)目；(5)次發(fā)言者集合中的成員數(shù)目被控制之后，將當前主發(fā)言者集合和次發(fā)言者集合中的成員的語音信號作適當?shù)厮p，疊加后合成的語音信號作為會議電話在第二個時間單元內的輸出；(6)重復(3～5)，處理以后每個時間單元ΔT內的語音數(shù)據。
2.根據權利要求1所述的會議電話語音選擇合成方法，其中淘汰環(huán)節(jié)包括次發(fā)言者和未發(fā)言者對主發(fā)言者進行的他人淘汰環(huán)節(jié)，以及主發(fā)言者和次發(fā)言者的自我淘汰環(huán)節(jié)。
3.根據權利要求2所述的會議電話語音選擇合成方法，其中他人淘汰環(huán)節(jié)按如下過程進行首先，在當前時間單元內，比較所有主發(fā)言者的語音信號累積平均能量，得到主發(fā)言者中語音信號累積平均能量最小的成員A，并在次發(fā)言者的和未發(fā)言者的合集中選取語音信號累積平均能量最大的成員B；然后，比較成員A和成員B，如果成員B的語音信號累積平均能量大于成員A的語音信號累積平均能量，則A處于被淘汰的預備狀態(tài)，B處于淘汰他人的預備狀態(tài)；如果A和B這對成員在連續(xù)的若干個時間單元內一直處于他人淘汰的預備狀態(tài)，即該對成員連續(xù)處于他人淘汰的預備狀態(tài)的時間超過他人淘汰時間門限T1，則更新成員B為主發(fā)言者，成員A為次發(fā)言者。
4.根據權利要求2所述的會議電話語音選擇合成方法，其中自我淘汰環(huán)節(jié)是針對在上一個時間單元內已經被認定是發(fā)言的成員，如果在當前的時間單元內，主發(fā)言者集合或次發(fā)言者集合中的某個成員C的語音信號累積平均能量值小于特定的語音信號能量門限G1，則記錄成員C處于自我淘汰的預備狀態(tài)；如果成員C在連續(xù)的若干個時間單元內一直處于自我淘汰的預備狀態(tài)，即成員C連續(xù)處于自我淘汰的預備狀態(tài)的時間超過自我淘汰的時間門限T2，則認為成員C發(fā)言結束，將成員C更新為未發(fā)言者，即該成員被自我淘汰。
5.根據權利要求4所述的會議電話語音選擇合成方法，其中語音信號能量門限G1的選取按如下動態(tài)更新過程進行(1)在成員C未進入自我淘汰的預備狀態(tài)時，如果成員C當前的語音信號累積平均能量小于上一次該成員的語音信號累積平均能量GX的1/2，則記錄成員C處于自我淘汰的預備狀態(tài)，并暫時固定成員C的自我淘汰語音信號能量門限G1＝GX/2；(2)將成員C的本次自我淘汰以語音信號能量門限G1作為標準，如果成員C的本次自我淘汰過程中，有一次語音信號累積平均能量大于G1，則成員C的本次自我淘汰失敗，即成員C脫離自我淘汰的預備狀態(tài)；(3)在下一個時間單元，按照本條第(1)、(2)步，重新開始判斷成員C是否可以再進入自我淘汰的預備狀態(tài)。
6.根據權利要求1所述的會議電話語音選擇合成方法，其中控制次發(fā)言者集合中的成員數(shù)目，是根據延時門限或預定成員的數(shù)目來進行，即如果次發(fā)言者集合中的某個成員D在次發(fā)言者集合中停留的時間超過延時門限T3，可強行將成員D淘汰為未發(fā)言者；或者當次發(fā)言者集合中的成員數(shù)超過預定的數(shù)目N2時，再強行將次發(fā)言者集合中當前語音信號累積平均能量最小的成員E淘汰為未發(fā)言者。
7.根據權利要求3或4或6所述的會議電話語音選擇合成方法，其中他人淘汰時間門限T1的取值范圍設定在250-3000ms之間；自我淘汰時間門限T2的取值范圍設定在250-3000ms之間；延時門限T3的取值范圍設定在2-15s之間；時間窗Tw的取值范圍設定在200-2500ms之間。
全文摘要
本發(fā)明涉及一種會議電話語音選擇合成方法。主要解決傳統(tǒng)會議電話語音合成方法聽覺效果差、工作效率低的問題。該方法對ΔT內所有會議電話成員輸出的話音信號樣本值取絕對平均值，作為該參加者在當前ΔT內的信號能量，再取n次ΔT時間內的能量平均值，作為該成員在當前時間單元ΔT的話音信號累積平均能量；比較各個主發(fā)言成員和次發(fā)言成員的語音輸出的話音信號累積平均能量，通過淘汰環(huán)節(jié)對主發(fā)言者與次發(fā)言者進行淘汰替換，更新當前發(fā)言成員的名單；最后，將當前主發(fā)言者和次發(fā)言者集合中的成員話音信號衰減、疊加后作為會議電話的語音輸出。本方法具有允許參加會議電話成員數(shù)多，話音清晰，易于分辨之優(yōu)點，可用于各種會議電話業(yè)務。
文檔編號H04M3/56GK1620090SQ20041007339
公開日2005年5月25日申請日期2004年12月9日優(yōu)先權日2004年12月9日
發(fā)明者李衛(wèi)華, 廖延娜, 戴明, 趙占富申請人:西安大唐電信有限公司

完整全部詳細技術資料下載