專利名稱:有效的用來檢測固定功率信號的語音活動檢測器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明大體涉及信號處理,尤其涉及區(qū)別話音信號和非話音信號。
背景技術(shù):
通過將模擬信號轉(zhuǎn)換成數(shù)字信號,語音被承載在數(shù)字電話網(wǎng)絡(luò) 上,無論是電路交換還是分組交換的數(shù)字電話網(wǎng)絡(luò)。在分組交換的網(wǎng) 絡(luò)的情形下,代表數(shù)字信號的音頻采樣被組包,并且組包的采樣通過 網(wǎng)絡(luò)被電子發(fā)送。組包的采樣在目的地節(jié)點被接收,該采樣被拆包, 模擬信號被重建并提供給另一方。
在與其他方通話時,存在雙方都不說話的時間段。在這種時間段
中,背景噪聲(可包括背景語音)可由該電話的傳聲器(microphone) 接收到。當呼叫的任何一方都不在講話和沒有可聽見的呼叫信令傳送
(signaling)時所接收到的比如背景噪聲的音頻信息,比如音(tone), 在此被稱作"靜音(silence)"。
靜音抑制是在參與電話呼叫的一方?jīng)]有講話時在網(wǎng)絡(luò)上不傳輸 音頻信息,以此顯著減少帶寬使用率并協(xié)助對抖動緩沖器調(diào)整點的識 別的過程。在因特網(wǎng)上語音協(xié)議("VoIP")系統(tǒng)中,語音活動檢測
("VAD")或話音活動檢測("SAD")被用來動態(tài)監(jiān)視背景噪聲、設(shè) 定合適的話音檢測閾值以及識別抖動緩沖器調(diào)整點。VAD檢測音頻信 號或其采樣中人的話音的存在與否,并使用該信息識別靜音期。當靜 音抑制生效時,在這種靜音期接收到的音頻信息不在網(wǎng)絡(luò)上傳輸給其 它(目的地)端點。在給定了在任何一個時間通常是通話中的一方在 講話的條件下,靜音抑制可以在典型電話呼叫的持續(xù)過程中實現(xiàn)整體 帶寬50°/。的節(jié)省。
在語聲的話音和背景噪聲之間進行區(qū)別是困難的。而且,VAD 或SAD必須很快進行以避免削波(clip )。為了解決這些問題,已經(jīng) 使用了一些區(qū)別復(fù)雜度的算法。例子包括基于能量閾值(例如,使用 信噪比或SNR)、音調(diào)檢測、頻嫌(spectrum)或光鐠(spectral) 形狀分析、零交叉速率(例如,確定信號幅度從正改變到負有多頻繁)、 周期測量、線性預(yù)測碼或LPC剩余(residual)域中的高階統(tǒng)計(例 如,當背景和輸入信號的形狀之間失配時,預(yù)測編碼錯誤或剩余的能 量增加)、以及它們的組合的算法。
在一個公共靜音抑制方案中,信號的功率被用作一致的判斷以將 信號分類到語音和靜音段。假設(shè)在出現(xiàn)話音時總信號的功率足夠大于 背景噪聲的功率。閾值用來標注用于將被分類為語音活動 (voice-active)的段的最小SNR。該閾值被熟知為噪聲底限(floor) 并被使用信號功率動態(tài)地重新計算。如果該信號的SNR落在該閾值 中,那么其被認為是語音活動的。否則,其被認為是背景噪聲。這種 行為可以從圖2中看出,圖2中描述了接收的音頻信號的幅度波形 200、接收的音頻信號的功率波形204和噪聲底限功率波形208。噪聲 底限的數(shù)值為信號波形200的平滑表示。該圖進一步分別顯示了檢測 到的語音活動以及靜音段212和216。從圖2中可以看出,當該信號 包括話音段220和224時,由于信號功率的較大增長,噪聲底限波形 208趨于向上,并由于信號功率的較大下降而在所述段之后立即向下。 在這個算法的核心是其通過其時變噪聲底限的實施適用于改變背景 噪聲的能力。
上面的VAD方案在檢測比如進程音(例如,攔截(intercept) 音、回鈴音、忙音、撥號音、重新排序(re order)音等)的具有實 質(zhì)上恒定的功率的信號時存在困難。這些方案經(jīng)常將這些音識別為背 景噪聲,所述背景噪聲并不被傳輸?shù)搅硪欢它c。檢測進程音的問題被 圖3A和3B所顯示。圖3A將該進程音顯示為正弦波形300。圖3B 顯示的音被表示為具有實質(zhì)上恒定的功率級別的波形304。因為噪聲 底限基于該信號的功率,所以當該信號具有實質(zhì)上恒定的功率時,該
噪聲底限波形308將接近波形304。使用上述的VAD方案,間隔312 將被正確地診斷為是語音活動的并因此被傳輸?shù)搅?一 端點,而間隔 316將被誤診為靜音并因此不被傳輸?shù)搅硪欢它c。最好也只不過是另 一方只會聽到一部分音,這將使他或她認為是電話出現(xiàn)了故障。這種 誤診還會進一步引起抖動緩沖器的誤調(diào)整(這將使另 一個人聽到^噠 聲或砰砰聲)。
固定功率信號可以被更精細的方法可靠地檢測到,比如通過使用 像快速傅立葉變換(FFT)和倒鐠(Cepstral)分析這樣的復(fù)雜技術(shù) 分析所述信號的頻鐠。然而,將信號轉(zhuǎn)換到頻域所需的處理和存儲成 本太高并且用于這些算法的處理時間太長以至于在實時應(yīng)用中是不 實際的。 一些技術(shù),比如FFT,引入了延遲,這是因為需要構(gòu)建輸入 采樣的緩沖器(組塊(blocking ))和/或使用大量隨機存儲器(RAM ) 用于存儲。 一種切實可行的解決方案一定是要基于時間的。
閾值VAD是最普遍使用的解決方案。在能量閾值方法下,出現(xiàn) 話音(包括進程音)時的總信號的能量被認為大于預(yù)設(shè)閾值。幅度大 于該閾值的信號被認為是語音活動的而不管VAD的結(jié)論。雖然保留 了很多進程音信息,但這種方法做出的假設(shè)在一些應(yīng)用中是不能成立 (hold)的,結(jié)果導(dǎo)致準確率很低。信號的統(tǒng)計分析也已經(jīng)被使用, 其例如使用幅度概率分布作為確定噪聲級別的手段。但是,這些方法 還是在計算上昂貴的并且不適于VoIP網(wǎng)關(guān)設(shè)定。
已經(jīng)部分成功的一種算法已經(jīng)被4吏用在Acaya Inc.的 Crossfire 網(wǎng)關(guān)中。該網(wǎng)關(guān)使用零交叉速率方法并利用固定功率信號 的基于時間的周期。噪聲信號被認為是在本性上隨機的。用于每一幀 的零交叉速率被監(jiān)測。常量零交叉速率意味著周期以及從而意味著語 音活動段。換句話說,各種零交叉點的周期被確定并且樣式匹配技術(shù) 被用來識別固定功率信號的零交叉行為特性。
類似的零交叉算法被使用在用于ITU-T標準化的G.729話音編 碼器的G.729B擴展中。在該擴展下,每10亳秒對包括80個音頻采 樣的語音幀做出選擇。從這些話音幀中提取出來的參數(shù)包括全帶能
量、低帶能量、線光鐠頻率("LSF")系數(shù)和零交叉速率。從當前幀 提取出來的這四個系數(shù)之間的差值和噪聲游動平均數(shù)被為每一幀計
算。這些差值代表噪聲特性。大的差值意味著當前幀是語音,而相反 則意味著不存在語音。VAD做出的決定是基于復(fù)雜的多邊算法的。
關(guān)于這些方法的問題是恒定零交叉速率不總是對應(yīng)于周期信號。 噪聲信號可能偶爾越過恒定速率的固定線。因為每段僅包括80個音 頻采樣,所以該方法的準確率受較小的釆樣空間限制。識別零交叉點 時的錯誤可能使得恒定功率信號被誤診為背景噪聲。為了解決該問 題,這些方案可通過使用額外的固定閾值被增強以確保高幅度信號總 是被確定為活動信號。然而,對這種閾值的使用會引起低幅度、固定 功率的信號現(xiàn)在錯誤地被檢測為靜音。
還有一種VAD方案由Tucker R.在1992年8月乂〉開的他的論文 "Voice Activity Detection Using a Periodicity Measure,,中提出。他描 述了一種VAD,其能夠以低到0db的SNR可靠地操作并能夠以-5db 檢測到大部分語音。當找到非常大量的周期時,該檢測器對輸入信號 和觸發(fā)器應(yīng)用最小平方周期估計器。然而,其目的不是找出準確的講 話爆發(fā)(talkspurt)邊界,因此,其最適于話音登記應(yīng)用,在那里很 容易包括較小的容限以允許任何錯過的話音。就像所理解的那樣,"講 話爆發(fā)"邊緣指話音和非話音音頻信息之間的邊界(例如,"靜音"期 和語聲話音期之間的邊界)。該解決方案適用于VoIP系統(tǒng),其中對 準確講話爆發(fā)邊界的檢測是關(guān)鍵的。
發(fā)明內(nèi)容
這些和其他需求由本發(fā)明的各個實施例和配置所解決。本發(fā)明總 體上涉及使用基于幅度的周期以檢測轉(zhuǎn)向點(例如峰值和最低點)和 所識別的轉(zhuǎn)向點的樣式匹配以確定所采樣的音頻信號段是否是周期 信號或?qū)嵸|(zhì)上固定的功率級別的信號(此后稱為"實質(zhì)上固定的功率 信號")。實質(zhì)上固定的功率信號的例子包括進程音。
在本發(fā)明的第一實施例中,提供了一種方法,包括步驟(a) 接收多個音頻釆樣,這些音頻采樣定義了采樣的信號段;
(b) 在這些音頻采樣定義的信號幅度波形中識別轉(zhuǎn)向點;
(c) 確定所識別的轉(zhuǎn)向點是否代表實質(zhì)上固定的功率級別的信 號;以及
(d) 當所識別的轉(zhuǎn)向點代表實質(zhì)上固定的功率級別的信號時, 認為所釆樣的信號段包括活動信號。
在第二個實施例中,提供了一種方法,包括步驟
(a) 在語音通話過程中,接收模擬音頻信號;
(b) 將該模擬音頻信號轉(zhuǎn)換為其數(shù)字表示,該數(shù)字表示包括多 個話音幀,每個話音幀包括多個音頻采樣,每個音頻采樣包括信號幅 度并具有固定的持續(xù)時間;
(c) 在這些音頻采樣中識別信號幅度轉(zhuǎn)向點;
(d) 確定所識別的轉(zhuǎn)向點是否代表非周期的信號;以及
(e) 當所識別的轉(zhuǎn)向點代表非周期信號時,將所選擇的話音幀 傳輸給目的地端點。
本發(fā)明不需要依賴于噪聲底限波形,而可使用 一套其他基于時間 和幅度的技術(shù),以識別固定功率信號。使用基于幅度和時間的周期相 對于單獨依賴于基于時間的周期或基于時間的周期和零交叉的組合
而言,對信號波形的定義要精確得多。因此其能夠準確地并有效地檢 測固定功率信號的存在。
該發(fā)明能夠改善僅依賴于基于時間的周期的方案。這種方法具有 80個采樣中的l個的范圍內(nèi)的精確度。通過依賴于基于幅度的周期, 精確度可被提高到65536幅度級別中的1個。周期性的幅度是16比 特范圍(即+32767至-32768 )。
該發(fā)明比用于執(zhí)行話音抑制的其他解決方案需要更少的處理資 源,因此允許使用本發(fā)明的網(wǎng)關(guān)中具有高信道計數(shù)。例如,當所估計 的歷史緩沖器的大小被定為100峰值/最低點數(shù)值時,其表示200字節(jié) 的RAM使用率,因為每個采樣包括16比特。通常, 一個樣式具有少 于40個轉(zhuǎn)向點。由于相對較低的處理開銷,話音活動檢測能夠快速發(fā)生,而避免削波。
本發(fā)明能夠可靠地識別講話爆發(fā)邊界。
這些和其他優(yōu)勢將從這里包含的本發(fā)明的公開內(nèi)容中變得明顯。 如在此所使用的,"至少一個"、"一個或多個,,以及"和/或"是開放式的表述,其在操作中既是連接的又是分離的。例如,表述"A、 B 和C中的至少一個"、"A、 B或C中的至少一個"、"A、 B和C中的 一個或多個"、"A、 B或C中的一個或多個,,以及"A、 B和/或C,,中的 每一個表示單獨A、單獨B、單獨C、 A和B—起、A和C一起、B 和C一起、或A、 B和C一起。
上面描述的實施例和配置不是完全的也不是窮盡的。就像將被理 解的那樣,本發(fā)明的其他實施例可以單獨或組合地利用上面陳述的或 在下面詳述的一個或多個特征實現(xiàn)。
圖l根據(jù)本發(fā)明第一實施例描述了語音通信架構(gòu); 圖2描述了噪聲底限功率波形對接收信號的功率中話音的變化 的響應(yīng);
圖3A和3B描述了周期性信號波形和噪聲底限功率波形對實質(zhì) 上恒定的信號功率的響應(yīng);
圖4A和4B描述了周期性信號波形以圖示本發(fā)明的概念; 圖5是根據(jù)本發(fā)明一個實施例的一組數(shù)據(jù)結(jié)構(gòu);以及 圖6是根據(jù)本發(fā)明一個實施例的流程圖。
具體實施例方式
圖1中描述了根據(jù)第一實施例的架構(gòu)100。該架構(gòu)100包括由廣 域網(wǎng)或WAN 112互聯(lián)的語音通信設(shè)備104和企業(yè)網(wǎng)絡(luò)108。企業(yè)網(wǎng) 絡(luò)108包括服務(wù)于服務(wù)器120的網(wǎng)關(guān)116、局域網(wǎng)124和通信i殳備128。
網(wǎng)關(guān)116可以是控制進入或離開相應(yīng)LAN的任何合適設(shè)備。該 網(wǎng)關(guān)邏輯上位于相應(yīng)的企業(yè)基地(premise) 108中的其他組件和網(wǎng)絡(luò)
112之間以 一邊處理服務(wù)器120和內(nèi)部通信設(shè)備128之間的通信傳送, 另一邊處理服務(wù)器120和網(wǎng)絡(luò)112之間的通信。網(wǎng)關(guān)116通常包括電 子中繼器功能,其從網(wǎng)絡(luò)112攔截電信號并將電信號引入相應(yīng)的LAN 124,反之亦然,并且提供代碼和協(xié)議轉(zhuǎn)換。當處理語音通信時,網(wǎng) 關(guān)116進一步執(zhí)行多個VoIP功能,特別是靜音抑制和抖動緩沖器處 理。因此網(wǎng)關(guān)116包括語音活動檢測器132來執(zhí)行VAD和SAD以及 舒適噪聲發(fā)生器(未示出)來在靜音期產(chǎn)生舒適的噪聲。舒適噪聲是 合成的背景噪聲,其防止了收聽者在靜音抑制所導(dǎo)致的絕對靜音期間 覺察到通信信道已經(jīng)斷開。合適的網(wǎng)關(guān)的例子包括Avaya Inc.的 G700、 G650、 G350、 Crossfire (串擾)、MCC/SCC媒體網(wǎng)關(guān)的修 改版本以及Acme Packet的Net-Net 4000會話邊界控制器。
服務(wù)器200處理呼叫控制信令,比如進入的IP上語音或VoIP 和電話呼叫建立以及拆除消息。如在這里使用的術(shù)語"服務(wù)器,,應(yīng)被理 解為包括ACD、專用分支交換機PBX (或?qū)S米詣咏粨Q機PAX)、 企業(yè)交換機、企業(yè)服務(wù)器、或其他類型的電信系統(tǒng)交換機或服務(wù)器、 以及其他類型的基于處理器的通信控制設(shè)備,比如媒體服務(wù)器、計算 機、附件等等。作為示例,圖1的服務(wù)器可以是Avaya Inc.的DefinityTM 基于專用分支交換機(PBX)的ACD系統(tǒng)或運行修改的Advocate 軟件的MultiVantageTM PBX 、 CRM Central 2000 ServerTM 、 communication Manager , S8300TM媒體服務(wù)器、SIP Enabled ServicesTM、和/或Avaya Interaction Center 。
內(nèi)部和外部通信設(shè)備104和128優(yōu)選為分組交換站或通信設(shè)備、 比如IP硬電話(hardphone)(例如Avaya Inc.的4600 Series IP Phone )、IP軟電話(softphone X例如Avaya Inc.的IP Softphone )、 個人數(shù)字助理或PDA、個人電腦或PC 、筆記本電腦、基于分組的H.320 視頻電話和會議單元、基于分組的語音消息和響應(yīng)單元、基于對等的 通信設(shè)備、以及基于分組的傳統(tǒng)計算機電話附件。合適的設(shè)備的例子 是Avaya Inc.的4610TM、 4621SWTM、和9620TMIP電話。
如從圖1中看到的語音活動檢測器116可依據(jù)該架構(gòu)位于許多組件中。
該檢測器132通過檢測峰值和最低點(即轉(zhuǎn)向點)來利用固定信 號的周期。除了基于時間的周期外,該檢測器132還使用基于幅度的 周期。其依賴于對信號內(nèi)部的規(guī)則樣式的檢測。該檢測器132是有效 率的,因為其不需要大量的信號處理資源來檢測固定功率信號。
緩沖器136存儲n個音頻采樣。采樣的數(shù)目通常與包含在將被傳 輸?shù)侥康牡赝ㄐ旁O(shè)備的分組(或幀)中的音頻采樣數(shù)目相同。N經(jīng)常 為80,這表示以8KHz采樣的10毫秒語音。檢測器132在該緩沖器 136進行迭代,每次一個采樣,并記錄信號的采樣部分的所選擇的特 性。特別地,信號的高和低點(例如峰值和最低點)被記錄。該信息 當與之前記錄的信號特征歷史相結(jié)合時能夠提供該樣式應(yīng)該是什么 樣的精簡歷史跨覽(span)。
此后,還有后處理步驟來檢索所收集的用于樣式(或模板)的信 息。這通常通過搜索重復(fù)來完成。例如對于雙頻率信號,檢測器132 搜索具有兩個明顯峰值和兩個明顯最低點的信號樣式,而對于單頻率 信號,搜索僅具有一個峰值并僅具有一個最低點的信號樣式。當數(shù)值 與所選擇的樣式不符時,所采樣的信號被認為是更隨機的信號并被算 法所拒絕??梢酝ㄟ^建立 一個范圍來考慮噪聲底限波形和任何可能的 干擾,在該范圍內(nèi)兩個數(shù)值被認為是相似的。這允許算法在存在背景 噪聲時執(zhí)行。
圖5中顯示了在處理緩沖器136中的采樣的過程中所產(chǎn)生的記錄 的數(shù)據(jù)結(jié)構(gòu)的、例子。如圖5所示,每個音頻釆樣具有相應(yīng)的采樣標識 符500,為了筒便起見,其被顯示為連續(xù)編號。每個采樣被分析,以 確定其相對于前一采樣在幅度上是趨于向上(正)或向下(負)。當 趨勢504在相鄰釆樣之間改變時,轉(zhuǎn)向點、或峰值或谷底被識別。參 考圖5,轉(zhuǎn)向點在采樣2和3 (峰值)、7和8 (谷底)、12和13 (峰 值)、和17和18(谷底)中的一個中或它們之間被識別。轉(zhuǎn)向點的 每個實例通過合適的指示符508來標注(例如,"Y"意味著存在轉(zhuǎn)向 點而"N"意味著不存在轉(zhuǎn)向點)。到前一轉(zhuǎn)向點512的時間距離通過
計數(shù)到前一轉(zhuǎn)向點的實例的采樣數(shù)來跟蹤,因為采樣大小關(guān)聯(lián)于固定
的時間段(例如10毫秒)。例如,在采樣3與轉(zhuǎn)向點相關(guān)聯(lián)的時間 距離為0 (因為在采樣l之前沒有釆樣數(shù)據(jù)),在采樣8為5 (或50 毫秒),在采樣13為5 (或50毫秒),以及在采樣18為5 (或50 毫秒)。最后,每個轉(zhuǎn)向點的幅度516被記錄。例如,在釆樣3轉(zhuǎn)向 點的幅度為+11000單位,在采樣8為-10500單位,在采樣13為+10700 單位,以及在釆樣18為-11500單位。如將被理解的,周期性幅度是 16比特范圍(即+32767至-32768 )。如還將被理解的,為了節(jié)省存儲 器空間,數(shù)據(jù)結(jié)構(gòu)可被簡化為僅包括與轉(zhuǎn)向點相關(guān)聯(lián)的那些采樣(例 如僅包括采樣3、 8、 13、和18)。
然后基于轉(zhuǎn)向點的周期和那些點的幅度,所得的記錄數(shù)據(jù)被檢 查,以查找在信號本身內(nèi)部是否出現(xiàn)固定樣式。信號內(nèi)的固定樣式可 通過將該數(shù)據(jù)與一個或多個通常為不同類型的進程音的模板進行比 較而被識別,這些進程音比如是攔截音、回鈴音、忙音、撥號音、重 排序序者等,以確定所分析的采樣信號段是否為固定信號。如所指出 的,在雙頻信號中搜索的樣式具有以交替方式設(shè)置的第一和第二組明 顯的峰值以及第一和第二組明顯的最低點。在單頻信號中搜索的樣式 具有以交替方式設(shè)置的一組峰值和一組最低點。大部分進程音是單頻 信號。樣式不僅使用轉(zhuǎn)向點的時間周期、還使用轉(zhuǎn)向點處的信號幅度 來定義??梢允褂酶怕蕘泶_定該段與該樣式符合得多好。低于指定閾 值的概率不被認為是固定信號,而位于或高于該指定閾值的概率被認 為是固定信號。如從圖5的數(shù)據(jù)結(jié)構(gòu)中所看出的那樣,采樣的信號段 可被認為是固定信號。
如將被理解的,任何合適的樣式匹配算法可被用于后處理。這種 算法一般檢查給定樣式的要素的存在。
相對簡單的算法的一個例子是構(gòu)建描述采樣音頻信號段的第一 和第二陣列。第一陣列包括在轉(zhuǎn)向點之間所選擇的時間距離的實例數(shù) 目。例如,該陣列可包含用于所選擇的時間距離1、 2、 3、 4......的每
一個的多個實例。第二陣列包括轉(zhuǎn)向點處的多個所選擇的幅度范圍的
實例數(shù)目。例如,該陣列可包含用于幅度范圍A-B、 B-C、 C-D......的
每一個的多個實例,其中A、 B、 C、 D是幅度數(shù)值。然后在每個陣列 欄中所得到的實例將與指定模板在時間和幅度周期方面進行比較以
確定該信號段是否很可能是固定信號段。例如,該模板可以是不同陣 列欄中實例的最大允許分布。如果這些實例分布得太廣,那么該比較 將指示該信號段是可變的,而更緊縮的分布指示該信號段是固定的。 然后與第一和第二陣列的比較所得的模板匹配概率被加權(quán)以達到該 信號段具有固定或可變信號的特性的組合概率。
分析方法被進一步顯示在圖4A和4B中。圖4A和4B顯示了固 定或恒定信號,比如音調(diào),以及為了方便比較,還顯示了基于噪聲底 限波形的可允許范圍。各種采樣點被進一步顯示在每個信號段中。圖 4B中的虛線顯示了周期性信號樣式。如從圖4A和4B中看到的,釆 樣點會顯示與圖5中類似的行為。如虛線所示意的,圖4B的信號樣 式在下一個信號段被重復(fù),不過轉(zhuǎn)向點的幅度可能輕微偏移。本發(fā)明 的算法可被寫成這種方式,即該方法能夠在較小波形不完整存在的情 況下檢測樣式。換句話說,樣式不需要完全匹配。這是特別重要的, 因為信號會由于背景噪聲變失真。這種不完整至少部分地被考慮,因 為在模板和所分析的采樣信號段之間的信號幅度的基本類似或不類 似與轉(zhuǎn)向點之間時間間隔的基本類似或不類似相比,通常被更重地正 常加權(quán)。
現(xiàn)在將參考附圖6描述檢測器132的操作。
在步驟600,接收包括n個音頻信號采樣的幀。該幀中的采樣在 所接收的模擬音頻信號被轉(zhuǎn)換為數(shù)字形式時被產(chǎn)生。以下步驟被一個 采樣一個采樣地以及一幀一幀地執(zhí)行。如所指出的, 一個分組將通常 包含80個采樣的一個幀。
在步驟604,下一個采樣被選擇用于分析。
在步驟608,由所選擇的采樣所指示的趨勢被確定。如所指出的, 該趨勢通常通過將所選擇的采樣的幅度與前一采樣的幅度相比較而 確定。如果該幅度正在增長,那么該趨勢為正,而如果該幅度正在下
降,那么該趨勢為負。
在決定菱形框612,確定該采樣是否包括轉(zhuǎn)向點。當趨勢從前一 個采樣中的正改變?yōu)樗x擇采樣中的負或是從前一個采樣中的負改 變?yōu)樗x擇采樣中的正時,所選擇的采樣被認為包括轉(zhuǎn)向點。
當所選擇的采樣包括轉(zhuǎn)向點時,到前一轉(zhuǎn)向點的時間距離在步驟 616被確定。這是通過計數(shù)在所選擇的采樣和包含轉(zhuǎn)向點的最新近(前 一個)采樣之間的采樣數(shù)量來完成的。
在步驟620,采樣標識符、轉(zhuǎn)向點指示符、從所選擇的釆樣中的 轉(zhuǎn)向點到前 一 個轉(zhuǎn)向點之間的時間距離、以及當前轉(zhuǎn)向點的幅度都被 保存。
當所選擇的釆樣不包括轉(zhuǎn)向點時或在步驟616之后,在決定菱形 框624中確定是否有下一個采樣。如果有,那么檢測器返回到步驟604。 如果沒有,那么在決定菱形框628中,檢測器確定所記錄的數(shù)據(jù)是否 定義了樣式。當所記錄的數(shù)據(jù)很可能定義了樣式時,在步驟632,檢 測器斷定在所選擇的分組中的音頻采樣不是靜音并且不考慮由另一 個技術(shù)例如使用噪聲底限波形所作出的任何相反的決定。當所記錄的 數(shù)據(jù)很可能不定義樣式時,在步驟636,檢測器斷定在所選擇的分組 中的音頻采樣不是固定信號。因此,不對另一個技術(shù)所確定的結(jié)果作 任何改變。
依據(jù)幀的內(nèi)容,其或者被作為靜音丟棄,或者被作為活動信號被 組包并發(fā)送到目的地端點。
本發(fā)明的多個變形和修改可以被使用。有可能提供本發(fā)明的 一些 特征而不提供其它特征。
例如在一個可選實施例中,本發(fā)明被用于非VoIP應(yīng)用,比如話 音編碼和自動話音識別。
在另一個實施例中,包括但不局限于專用集成電路或ASIC、可 編程邏輯陣列、和其它硬件設(shè)備的專用硬件實施方式可同樣被構(gòu)建來 實施這里描述的方法。而且,包括但不局限于分布式處理或組件/對象 分布式處理、并行處理、或虛擬機處理的可替換軟件實施方式也可被
構(gòu)建以實施這里描述的方法。
還應(yīng)當說明,本發(fā)明的軟件實施方式被任選地存儲在有形的存儲 媒體上,比如如盤或磁帶的磁媒體、如盤的磁光或光媒體、或如存儲 卡或容納有一個或多個只讀(非易失)存儲器的其它封裝的固態(tài)媒體。 電子郵件的數(shù)字文件附件或其它自包含信息檔案或檔案組被認為是 等同于有形存儲媒體的分布媒體。因此,本發(fā)明被認為包括本發(fā)明的
可識別出的等同體和后續(xù)媒體。
盡管本發(fā)明參考特定標準和協(xié)議描述了在諸實施例中實施的組 件和功能,但是本發(fā)明并不局限于這些標準和協(xié)議。在此沒有提及的 其它類似標準和協(xié)議也存在并被認為是包括在本發(fā)明中。此外,在此 提及的標準和協(xié)議以及在此沒有提及的標準和協(xié)議周期性地被具有 實質(zhì)相同功能的更快或更有效的等同體所取代。這種具有相同功能的 替換標準和協(xié)議被認為是包括在本發(fā)明中的等同體。
在各個實施例中的本發(fā)明包括實質(zhì)上在這里描述和說明的組件、 方法、過程、系統(tǒng)和/或裝置,它們包括各種實施例、子組合及其子集。 本領(lǐng)域技術(shù)人員在理解本公開內(nèi)容后將明白如何做出并使用本發(fā)明。 在各種實施例中的本發(fā)明包括在不存在這里或在本發(fā)明各種實施例 中所描述的和/或說明的項目時(其中包括在不存在如已經(jīng)被使用在之 前的,例如用于提高性能、實現(xiàn)簡便和/或降低實施成本的設(shè)備或過程 中的項目時)提供設(shè)備和過程。
本發(fā)明的前述討論已經(jīng)被提出用于說明和描述目的。前述內(nèi)容并 不是意在將本發(fā)明限制在這里描述的一個或多個形式中。例如在前述具體實施方式
中,本發(fā)明的各種特征被一起分組在一個或多個實施例
中以使得描述流暢。本公開內(nèi)容的方法不應(yīng)解釋為反映這樣的意圖 所要求保護的發(fā)明比每個權(quán)利要求中所明確敘述的內(nèi)容需要更多特 征。而是,如后面的權(quán)利要求所反映的,本發(fā)明的方面存在于少于單 個前面描述的實施例中的所有特征。因此,后面的權(quán)利要求被結(jié)合到 該具體實施方式
中,每個權(quán)利要求本身都作為本發(fā)明單獨的優(yōu)選實施
例。
此外,雖然本發(fā)明的描述包括了對一個或多個實施例和特定變形 和修改的描述,但是其它變化和修改同樣處于本發(fā)明的范圍之內(nèi),例 如在本領(lǐng)域技術(shù)人員理解本公開內(nèi)容后,處于其技術(shù)和知識范圍內(nèi)。 其意在獲取包括可允許程度的可選實施例的權(quán)利,這些實施例包括與 要求保護的內(nèi)容可替換的、可互換的和/或等同的結(jié)構(gòu)、功能、范圍或 步驟,無論這種可替換的、可互換的和/或與等同的結(jié)構(gòu)、功能、范圍
或步驟在這里是否公開,而且并不意在公開限制說明(dedicate)任 何可專利性的主題。
權(quán)利要求
1.一種方法,包括(a)接收多個音頻采樣,這些音頻采樣定義了采樣的信號段;(b)在由這些音頻采樣定義的信號幅度波形中識別轉(zhuǎn)向點;(c)確定所識別出的轉(zhuǎn)向點是否代表實質(zhì)上固定的功率級別的信號;以及(d)當所識別出的轉(zhuǎn)向點代表實質(zhì)上固定的功率級別的信號時,認為所采樣的信號段包括活動信號。
2. 如權(quán)利要求l所述的方法,其中所采樣的信號段被作為第一 和第二方之間實況語音呼叫的一部分而接收,其中所述轉(zhuǎn)向點對應(yīng)于 信號幅度波形中的峰值和谷底,其中,當所識別出的轉(zhuǎn)向點代表實質(zhì) 上固定的功率級別的信號時,所采樣的信號段被認為包括周期性的樣 式,其中靜音抑制生效,其中,當所采樣的信號段包括活動信號時, 傳輸所述多個音頻采樣到目的地節(jié)點,并且其中當所采樣的信號段不 包括活動信號和當該段不包括第一和/或第二方的語音能量時,不將所述多個音頻釆樣傳輸?shù)侥康牡毓?jié)點。
3. 如權(quán)利要求l所述的方法,其中該方法被用于確定抖動緩沖 器調(diào)整點,并進一步包括(e) 識別在信號幅度波形中相鄰的、所識別出的轉(zhuǎn)向點之間的 時間距離;(f) 確定所述相鄰的、所識別出的轉(zhuǎn)向點之間的時間距離是否 代表實質(zhì)上固定的功率級別的信號;以及(g) 當所述時間距離代表實質(zhì)上固定的功率級別的信號和當所 識別出的轉(zhuǎn)向點代表實質(zhì)上固定的功率級別的信號時,認為所采樣的 信號段包括活動信號,其中,在確定所采樣的信號段是否包括活動信 號時,步驟(c)的結(jié)果比步驟(f)的結(jié)果更重地被加權(quán)。
4. 如權(quán)利要求l所述的方法,其中轉(zhuǎn)向點不是零交叉,并且其 中,當所識別出的轉(zhuǎn)向點代表實質(zhì)上固定的功率級別的信號時,所采樣的信號段被認為包括進程音。
5. —種計算機可讀媒體,包括用于執(zhí)行權(quán)利要求1的步驟的處 理器可執(zhí)行指令。
6. —種設(shè)備,包括(a) 輸入裝置,用于在語音通話期間接收模擬音頻信號;(b) 轉(zhuǎn)換裝置,用于將該模擬音頻信號轉(zhuǎn)換成它的數(shù)字表示, 該數(shù)字表示包括多個話音幀,每個話音幀包括多個音頻采樣,每個音 頻采樣包括信號幅度并具有固定的持續(xù)時間;(c) 識別裝置,用于在音頻采樣中識別信號幅度轉(zhuǎn)向點;(d) 確定裝置,用于確定所識別出的轉(zhuǎn)向點是否代表周期性信 號;以及(e) 傳輸裝置,用于當所識別出的轉(zhuǎn)向點代表周期性信號時, 將所選擇的話音幀傳輸?shù)侥康牡囟它c。
7. 如權(quán)利要求6所述的設(shè)備,其中當所識別出的轉(zhuǎn)向點代表周 期性信號時,不允許抖動緩沖器進行調(diào)整,并且其中當所選擇的幀不 包括語聲的話音時,傳輸裝置不將所選擇的話音幀傳輸?shù)侥康牡囟它c 并且不允許抖動緩沖器進行調(diào)整。
8. 如權(quán)利要求6所述的設(shè)備,其中該周期性信號具有實質(zhì)上固 定的功率級別,其中該識別裝置識別在相鄰的、所識別出的轉(zhuǎn)向點之 間的時間距離,其中該確定裝置確定相鄰的、所識別出的轉(zhuǎn)向點之間 的時間距離是否代表周期性信號,并且其中所述該時間距離代表周期 性信號和當所識別出的轉(zhuǎn)向點代表周期性信號時,所選擇的幀被認為 包括進程音。
9. 如權(quán)利要求6所述的設(shè)備,其中所述轉(zhuǎn)向點不是零交叉,并 且其中當所識別出的轉(zhuǎn)向點代表周期性信號時,所采樣的信號段被認 為包括進程音。
10. 如權(quán)利要求6所述的設(shè)備,其中該設(shè)備是網(wǎng)關(guān)。
11. 如權(quán)利要求6所述的設(shè)備,其中該設(shè)備是分組交換語音通信設(shè)備。
全文摘要
本發(fā)明涉及一種語音活動檢測器,該語音活動檢測器使用幅度峰值和谷底的周期來識別實質(zhì)上固定的功率或具有周期的信號。
文檔編號G10L11/00GK101202040SQ20071014131
公開日2008年6月18日 申請日期2007年8月6日 優(yōu)先權(quán)日2006年9月19日
發(fā)明者盧克·A.·塔克, 王明盛 申請人:阿瓦雅技術(shù)有限公司