專利名稱:為音樂關(guān)閉dtx的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于控制語音編碼器的不連續(xù)傳輸模式DTX的方法,并且涉及一種用于控制對呼叫輸入信號進行編碼并輸出已編碼的呼叫輸出信號的語音編碼器的不連續(xù)傳輸模式的方法
背景技術(shù):
在大部分移動通信應用中,語音仍然是最重要的媒體組件。針對語音優(yōu)化所有語音編碼器以及圍繞語音編碼器的機制。在移動通信組件的設(shè)計中,音樂被認為是不重要的。最近,音樂在應用中(例如在“通話保持音樂”或“回鈴音音樂”中)已經(jīng)變得越 來越重要。為了節(jié)省無線電和網(wǎng)絡(luò)鏈路容量,開發(fā)語音活動檢測器(VAD)用來辨別語音和間歇。如果檢測到間歇,則不從無聲部分向另一方傳輸信號。稍后,出現(xiàn)這種情況當在其他伙伴斷斷續(xù)續(xù)的話語之間揚聲器完全無聲,用戶會很不高興。因此,創(chuàng)造出了舒適噪音,那是接收語音信號的終端基于不時傳輸?shù)囊恍o聲描述符,自己創(chuàng)造出舒適噪音。該操作被稱為不連續(xù)傳輸(DTX),由語音編解碼器內(nèi)的語音活動檢測器控制。然而,VAD對于音樂信號效果不好。通常,音樂信號被錯誤地歸類為噪音,并被舒適噪音所取代。一個解決方案是在呼叫的整個持續(xù)時間或僅在提示階段期間,在下行鏈路方向上打開或關(guān)閉VAD/DTX。然而,針對網(wǎng)絡(luò)中的所有呼叫禁用VAD/DTX將導致無線電干擾增加。啟用下行鏈路VAD/DTX使操作者可以優(yōu)化無線電規(guī)劃(例如,可能需要更少的無線電基站),并因此可以有利地在下行鏈路方向上使用DTX。為了優(yōu)化的無線電容量以及為了在呼叫中正確識別音樂信號,最優(yōu)解決方案是僅在向移動終端播放音樂時禁用VAD/DTX。
發(fā)明內(nèi)容
因此,需要提供一種解決方案,使得能夠在避免音樂信號被錯誤地當做背景噪音的同時優(yōu)化無線電容量。獨立權(quán)利要求的特征滿足該需求。在從屬權(quán)利要求中,描述了本發(fā)明的優(yōu)選實施例。根據(jù)本發(fā)明的第一方面,提供了一種用于控制語音編碼器的DTX模式的系統(tǒng),該系統(tǒng)包括語音編碼器,對呼叫輸入信號進行編碼,并輸出已編碼的呼叫輸出信號。此外,提供了活動檢測器,用于相對于呼叫輸入信號中的無聲信號周期的存在,確定呼叫輸入信號中的聲音信號周期的存在。不連續(xù)傳輸啟用和禁用單元基于呼叫輸入信號中的聲音信號周期和無聲信號周期來確定活動因子,并啟用和禁用已編碼的呼叫輸出信號的不連續(xù)傳輸模式。如果所確定的活動因子比指定的活動因子AFs高,則不連續(xù)傳輸啟用和禁用單元禁用不連續(xù)傳輸模式。利用當前要求保護的系統(tǒng),可以只在向移動終端播放音樂時才禁用DTX。當語音幀和無聲幀或音樂幀和無聲幀之間的關(guān)系如下所示時可以區(qū)分音樂和語音在音樂的情況中,針對音樂的無聲幀的百分比遠小于針對語音的無聲幀的百分比。表示聲音信號周期和無聲信號周期的量的活動因子反映音樂在呼叫中的存在,并因此可以用于區(qū)分音樂和無聲信號周期。優(yōu)選地,不連續(xù)傳輸啟用和禁用單元被配置用于通過確定呼叫輸入信號中語音和音樂信號采樣與無聲信號采樣的關(guān)系來確定活動因子。作為示例,如果通過不連續(xù)傳輸啟用和禁用單元所確定的活動因子高于大約75-85%或高于78-82%或高于80%,則可以禁用不連續(xù)傳輸模式DTX,這是因為呼叫輸入信號包含音樂的可能性非常高。經(jīng)發(fā)現(xiàn),音樂典型地導致活動因子至少是90%,而語音的活動因子通常低于60%。將指定的活動因子AFs設(shè)置在70%到大約85%之間有助于區(qū)分語音和音樂。因此,如果所確定的活動因子高于指定的活動因子(例如,大約80% )高,則可以禁用DTX。在本發(fā)明的一個實施例中,不連續(xù)傳輸啟用和禁用單元使用語音活動檢測器的信息來確定活動因子,該語音活動檢測器配置用于區(qū)分語音和語音間歇。
在另一實施例中,活動檢測器確定語音活動標記的值,如果將呼叫輸入信號的時間間隔視為聲音信號周期,則該語音活動標記具有第一值。如果將呼叫輸入的時間間隔視為無聲信號周期,則該語音活動標記具有第二值。不連續(xù)傳輸啟用和禁用單元確定語音活動標記為第一值的時間間隔在包含呼叫輸入信號的多個時間間隔的滑動時間窗內(nèi)的百分比作為所述活動因子。因此,對于滑動時間窗(例如,100-200個采樣的時間間隔)中的時間間隔,不連續(xù)傳輸啟用和禁用單元確定活動因子為具有第一值或第二值。如果時間窗中超過大約80%的最近間隔的采樣具有第一值,則可以將該信號視為音樂信號。如果滑動時間窗中只有40-50%或60%的最近采樣具有第一值,則可以將該呼叫輸入信號視為語音信號。優(yōu)選地,如果檢測到的活動因子低于指定的活動因子,則不連續(xù)傳輸啟用和禁用單元再次啟用DTX模式。如果活動因子低于上述討論的閾值,則可以推斷出在呼叫中再沒有出現(xiàn)音樂信號,因此應該再次啟用DTX模式。語音活動標記的值可以通過在呼叫輸入信號的時間間隔上確定信號功率采樣來確定?;顒訖z測器將所確定的信號功率和功率閾值Pth進行比較,當信號功率高于閾值Pth時,活動檢測器向所述時間間隔分配第一值,并將該呼叫輸入信號的所述時間間隔視為聲
音信號周期。此外,本發(fā)明涉及一種用于控制語音編碼器的不連續(xù)傳輸模式DTX的方法,該方法包括相對于呼叫輸入信號中的無聲信號分量的存在,確定呼叫輸入信號中的聲音信號分量的存在的步驟。另外依賴于呼叫輸入信號中的聲音信號分量和無聲信號分量的量來確定活動因子。接著,依賴于所確定的活動因子啟用或禁用已編碼的呼叫輸出信號的不連續(xù)傳輸模式,其中,如果所確定的活動因子高于指定的活動因子AFs,則禁用不連續(xù)傳輸模式DTX。如上所述,活動因子的確定優(yōu)選地包括確定呼叫輸入信號中語音和音樂信號采樣與無聲信號采樣的關(guān)系的步驟。在本發(fā)明的一個實施例中,確定活動因子的步驟包括監(jiān)控語音活動檢測器的步驟,所述語音活動檢測器配置用于區(qū)別語音和語音間歇。當語音活動檢測器所確定的語音間歇低于閾值時,禁用不連續(xù)傳輸模式DTX。在另一實施例中,通過確定以上提到的語音活動標記的值,確定活動因子。如果時間間隔的信號功率高于功率閾值Pth,則為所述時間間隔分配第一值,并且將該時間間隔視為聲音信號周期。然而,如果時間間隔的信號功率低于功率閾值Pth,則為所述時間間隔分配第二值,并且將該時間間隔視為無聲信號周期。接著,滑動時間窗內(nèi)的聲音和無聲信號周期的量確定活動因子。優(yōu)選地,指定的活動因子AFs是具有上閾值和下閾值的活動因子范圍。如果活動因子高于上閾值,則可以禁用不連續(xù)傳輸模式DTX,并且如果活動因子低于下閾值,則可以啟用不連續(xù)傳輸模式DTX。優(yōu)選地,能夠?qū)⑸祥撝岛拖麻撝蹬渲脼樽赃m應閾值。在本實施例中,當活動因子低于下閾值低,增大上閾值和下閾值,以及當活動因子高于上閾值高,減小上閾值和下閾值。這有助于避免頻繁禁用或再次啟用DTX。
將參考附圖進一步詳細描述本發(fā)明,在附圖中, 圖I示出了使得能夠在音樂信號的情況下禁用DTX模式的系統(tǒng),圖2示出了針對不同音樂輸入的活動因子,圖3示出了包括啟用或禁用DTX步驟的流程圖,以及圖4示出了依賴于自適應活動因子激活及去激活DTX。
具體實施例方式在圖I中,示出了一種使得能夠?qū)⒁魳放c呼叫中的其他語音信號區(qū)分開的系統(tǒng)。將呼叫輸入信號10傳送至活動檢測器。該呼叫輸入信號可以包含同樣用作語音編碼器30的輸入的相同線性16比特PCM采樣。將呼叫輸入信號10傳送至活動檢測器20,該活動檢測器20確定輸入采樣的幀是聲音信號周期還是無聲信號周期。該語音活動檢測器確定Boolean語音活動標記VAF,針對考慮作為有效語音(語音或音樂)的部分的巾貞,該標記可以有第一值或為真,或者如果考慮幀為無聲周期的部分,則標記可以為假(第二值)。該語音活動檢測器20可以是標準語音活動檢測器或者該語音活動檢測器可以是PCM高語音檢測器,該PCM高語音檢測器在時間周期(例如20毫秒)期間分析信號功率,并且接著確定該周期的信號功率代表高語音(VAF = I)還是低語音(VAF = 0)。因此,語音活動檢測器20通過比較信號功率和閾值來確定語音活動標記的值。在另一實施例中,活動檢測器是AMR語音活動檢測器。AMR語音活動檢測器可以從AMR NB語音編碼器中提取,并且可以作為獨立功能單元20或在DTX啟用或禁用單元25內(nèi)執(zhí)行。DTX啟用或禁用單元25在語音編碼器30中禁用或啟用DTX模式,該語音編碼器30輸出已編碼語音信號40。能夠從圖2中看到,如果在呼叫輸入信號中出現(xiàn)音樂信號,則針對不同類型的音樂,所確定的語音活動因子高于85%。DTX啟用/禁用單元25實際決定針對語音編碼器是啟用還是禁用DTX。這是在DTX啟用或禁用單元中通過在幾秒(例如兩、三或四秒)的較長滑動時間窗上監(jiān)控VAF采樣的行為來進行的。在VAF采樣周期為大約20毫秒的情況下,DTX啟用或禁用單元25確定活動因子為在最近100、150或200VAF采樣期間具有第一值(I)的VAF采樣的百分比。為了使得音樂在呼叫的提示(alert)階段期間不失真,可以默認關(guān)閉DTX。如果在呼叫的例如前三秒期間在活動檢測器20中的活動測量導致通過DTX啟用或禁用單元25所確定的活動因子小于大約80%,則可以開啟DTX以最小化剩余提示階段的無線電干擾。在呼叫有效階段期間,默認開啟DTX。然而,DTX啟用或禁用單元連續(xù)確定活動因子,并且如果在滑動時間窗期間活動因子高于例如80%,則將關(guān)閉DTX。將繼續(xù)活動因子的確定,并且如果結(jié)果比指定閾值低,則將再次開啟DTX。可以如以上所提到的基于滑動時間窗中的VAD結(jié)果確定活動因子,或者可以通過使用在下行鏈路方向上向用戶終端已發(fā)送的語音/音樂和無聲幀的數(shù)目的計算來確定該活動因子。作為示例,在每20毫秒發(fā)送AMR編解碼語音/音樂幀的情況中,每160毫秒發(fā)送無聲幀。如果所確定的活動因子高于約80%,這明確指示了當前播放的輸入信號是音樂類型的。即使不是音樂輸入信號,關(guān)閉DTX并無壞處,因為從已發(fā)送的語音幀的角度看并沒有大的差別。從圖I的實施例可以看出,所提出的解決方案獨立于使用的語音編碼器,并且不 一定要嵌入到語音編碼器中。在圖3中,概述了確定應該禁用還是啟用DTX的步驟。在步驟50中,活動檢測器可以確定時間間隔(例如PCM采樣)的信號功率??梢詫?例如20毫秒)上的信號功率估計為采樣的平方和,或備選地為采樣的絕對值和。在步驟51中,分析每一個幀的信號功率,并將其與信號功率閾值Pth進行比較,以確定該幀是代表聲音信號周期的部分還是代表無聲信號周期的部分。如果信號功率比閾值Pth高,則在步驟52中,將信號視為聲音信號周期。然而,如果信號功率比功率閾值低,則在步驟53中將該信號視為無聲信號周期。在步驟54中,將在滑動時間窗中的聲音信號周期量和無聲信號周期量相加。作為示例,滑動時間窗可以包含2-4秒或100-200個采樣。接著,活動因子對應于語音活動標記為高的信號采樣的百分比。因此,在步驟54中,通過滑動時間窗的信號采樣的相加來確定語音活動因子。在步驟55中,探尋活動因子是否高于所指定的活動因子AFS,例如高于大約75-85%。如果活動因子高于所指定的活動因子AFS,則可以推斷呼叫中出現(xiàn)了音樂信號,并且在步驟56b中禁用DTX模式。然而,如果活動因子低于所指定的活動因子,則在步驟56a中啟用DTX模式。從圖4中可以看出,步驟55中的閾值A(chǔ)Fs可以是包括上閾值和下閾值在內(nèi)的活動因子閾值范圍。另外,上閾值和下閾值可以是自適應閾值,它們依賴于所確定的活動因子而增大或減小。在圖4中,在時間上示出了所確定的活動因子60。另外,指示了上閾值61和下閾值62。在第一時間周期期間,活動因子比上閾值和下閾值高。因此,關(guān)閉DTX。接著在時間tl,活動因子越過下活動閾值。因此,可以推斷呼叫中不會再出現(xiàn)音樂信號并且在時間tl打開DTX。接著,活動因子開始再次上升,在時間t2越過下閾值。然而,僅在活動因子再次高于上閾值61之后,在時間t3再次禁用DTX。從圖4中可以看出,如果活動因子足夠低(例如,在圖4中低于下閾值(在tl和t2之間)),則閾值增大,并且如果活動因子足夠高(例如圖4中的100% ),則閾值可以在t4和t5之間的特定范圍內(nèi)減小。這有助于避免在DTX開啟和關(guān)閉之間頻繁改變。因此,DTX啟用或禁用單元啟用或禁用DTX越長,則狀態(tài)改變越難。重新參考圖3,并且如結(jié)合圖4所討論的,可以在步驟57適配上閾值和下閾值。在圖4示出的實施例中,使用上閾值和下閾值。然而,也可以將下閾值設(shè)置為上閾值,并且僅使用單個閾值。
在步驟58中,探尋呼叫是否已經(jīng)結(jié)束。如果不是,則連續(xù)確定呼叫中是否存在音樂信號,并且如果在步驟58中檢測到呼叫結(jié)束,則該方法在步驟59結(jié)束。
總而言之,本發(fā)明使得能夠僅針對音樂關(guān)閉DTX。本發(fā)明適用于任意音樂播放場景(音樂回鈴音、音樂等待音或音樂通話保持服務)。本發(fā)明是用戶面節(jié)點中的自主解決方案,并且可以在不影響呼叫控制服務器節(jié)點的情況下在媒體網(wǎng)關(guān)中實施。另外,因為不需要在呼叫控制層上的配置努力,所以本發(fā)明容易部署。本發(fā)明可以在使用語音編碼器的任何地方使用。
權(quán)利要求
1.一個用于控制語音編碼器的不連續(xù)傳輸模式DTX的系統(tǒng),該系統(tǒng)包括 語音編碼器(30),對呼叫輸入信號進行編碼,并輸出已編碼的呼叫輸出信號, 活動檢測器(20),相對于呼叫輸入信號中的無聲信號周期的存在,確定呼叫輸入信號中的聲音信號周期的存在, 不連續(xù)傳輸啟用和禁用單元(25),基于呼叫輸入信號中的聲音信號周期和無聲信號周期來確定活動因子,并啟用和禁用已編碼的呼叫輸出信號的不連續(xù)傳輸模式,其中,如果所確定的活動因子比指定的活動因子高,則所述不連續(xù)傳輸啟用和禁用單元(25)禁用不連續(xù)傳輸模式。
2.根據(jù)權(quán)利要求I所述的系統(tǒng),其中,所述不連續(xù)傳輸啟用和禁用單元(25)被配置用于通過確定呼叫輸入信號中語音和音樂信號米樣與無聲信號米樣的關(guān)系來確定活動因子。
3.根據(jù)權(quán)利要求I或2所述的系統(tǒng),其中,所述不連續(xù)傳輸啟用和禁用單元(25)被配置用于使用語音活動檢測器的信息來確定活動因子,所述語音活動檢測器被配置用于區(qū)分語首和語首間歇。
4.根據(jù)前述權(quán)利要求中任意一個所述的系統(tǒng),其中,如果活動因子高于75-85%,優(yōu)選地高于78-82%,更優(yōu)選地高于80%,則所述不連續(xù)傳輸啟用和禁用單元(25)禁用不連續(xù) 傳輸模式。
5.根據(jù)前述權(quán)利要求中任意一個所述的系統(tǒng),其中,如果檢測到的活動因子低于指定的活動因子,則所述不連續(xù)傳輸啟用和禁用單元(25)再次啟用不連續(xù)傳輸模式。
6.根據(jù)前述權(quán)利要求中任意一個所述的系統(tǒng),其中,所述活動檢測器(20)確定語音活動標記的值,如果將呼叫輸入信號的時間間隔視為聲音信號周期,則所述語音活動標記具有第一值,如果將呼叫輸入信號的時間間隔視為無聲信號周期,則所述語音活動標記具有第二值,其中所述不連續(xù)傳輸啟用和禁用單元(25)確定語音活動標記為第一值的時間間隔在包含呼叫輸入信號的多個時間間隔的滑動時間窗內(nèi)的百分比作為所述活動因子。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其中,活動檢測器(20)通過確定呼叫輸入信號的時間間隔的信號功率來確定語音活動標記的值,其中活動檢測器將所確定的信號功率和功率閾值Pth進行比較,當信號功率高于所述閾值時,活動檢測器向所述時間間隔分配第一值,并將呼叫輸入信號的所述時間間隔視為聲音信號周期。
8.一種用于控制語音編碼器的不連續(xù)傳輸模式DTX的方法,所述語音編碼器對呼叫輸入信號進行編碼,并輸出已編碼的呼叫輸出信號,所述方法包括步驟 相對于呼叫輸入信號中的無聲信號分量的存在,確定呼叫輸入信號中的聲音信號分量的存在, 依賴于呼叫輸入信號中的聲音信號分量和無聲信號分量的量,確定活動因子, 依賴于所確定的活動因子,啟用或禁用已編碼的呼叫輸出信號的不連續(xù)傳輸模式,其中,如果所確定的活動因子高于指定的活動因子,則禁用不連續(xù)傳輸模式DTX。
9.根據(jù)權(quán)利要求8所述的方法,其中確定活動因子的步驟包括確定呼叫輸入信號中語音和音樂信號采樣與無聲信號采樣的關(guān)系的步驟。
10.根據(jù)權(quán)利要求8或9所述的方法,其中確定活動因子的步驟包括監(jiān)控語音活動檢測器的步驟,所述語音活動檢測器被配置用于區(qū)別語音和語音間歇,其中當語音活動檢測器所確定的語音間歇低于閾值時,禁用不連續(xù)傳輸模式DTX。
11.根據(jù)權(quán)利要求8到10中任意一個所述的方法,其中如果檢測到的活動因子高于75-85%,優(yōu)選地高于78-82%,更優(yōu)選地高于80%,則禁用不連續(xù)傳輸模式DTX。
12.根據(jù)權(quán)利要求8到11中任意一個所述的方法,其中在呼叫的提示階段中禁用不連續(xù)傳輸模式,如果在呼叫的提示階段期間確定的活動因子低于指定的活動因子,則再次啟用不連續(xù)傳輸模式。
13.根據(jù)權(quán)利要求8到12中任意一個所述的方法,其中指定的活動因子是具有上閾值和下閾值的活動因子范圍,其中如果活動因子高于上閾值,則禁用不連續(xù)傳輸模式DTXjn果活動因子低于下閾值,則啟用不連續(xù)傳輸模式DTX。
14.根據(jù)權(quán)利要求8到13中任意一個所述的方法,其中,活動因子是通過確定語音活動標記的值來確定的,如果將呼叫輸入信號的時間間隔視為聲音信號周期,則該語音活動標記具有第一值,如果將呼叫輸入的時間間隔視為無聲信號周期,則該語音活動標記具有第二值,其中活動因子是具有所述第一值的時間間隔在包含呼叫輸入信號的多個時間間隔的滑動時間窗內(nèi)的百分比。
15.根據(jù)權(quán)利要求14所述的方法,其中,語音活動標記的值是通過確定呼叫輸入信號的時間間隔的信號功率來確定的,其中將所確定信號功率和閾值進行比較,當信號功率高于所述閾值時,向所述時間間隔分配第一值,并將呼叫輸入信號的時間間隔視為聲音信號周期。
16.根據(jù)權(quán)利要求13到15中任意一個所述的方法,其中,上閾值和下閾值分別是自適應閾值,當活動因子低于下閾值時,增大上閾值和下閾值,如果活動因子高于上閾值,則減小上閾值和下閾值。
全文摘要
本發(fā)明涉及一種用于如果在呼叫輸入信號中檢測到音樂信號則禁用語音編碼器的不連續(xù)傳輸節(jié)點DTX的方法。通過確定與聲音信號周期相對于無聲信號周期的關(guān)系相對應的活動因子,檢測音樂信號。如果活動因子高于指定的活動因子,則禁用DTX。
文檔編號H04W76/04GK102792760SQ201080064748
公開日2012年11月21日 申請日期2010年2月25日 優(yōu)先權(quán)日2010年2月25日
發(fā)明者約翰·貢納·蘭德斯特羅姆, 蒂莫·修科, 阿托·馬孔恩 申請人:瑞典愛立信有限公司