專利名稱:用于增強(qiáng)型人工帶寬擴(kuò)展的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于在電再現(xiàn)語音信號中進(jìn)行質(zhì)量改進(jìn)的系統(tǒng)和方法。更特別地,本發(fā)明涉及一種用于信號質(zhì)量改進(jìn)的增強(qiáng)型人工帶寬擴(kuò)展的系統(tǒng)和方法。
背景技術(shù):
通常在電信系統(tǒng)如GSM(全球移動(dòng)通信系統(tǒng))網(wǎng)絡(luò)中利用有限的帶寬來發(fā)送語音信號。雖然語音包含高達(dá)10kHz的頻率分量,但是在這種系統(tǒng)中用于語音信號的傳統(tǒng)帶寬不足4kHz(0.3-3.4kHz)。有限的帶寬導(dǎo)致質(zhì)量和可懂度的性能都不佳。如果語音信號的頻率帶是寬帶即高達(dá)8kHz,則人們就感知到更佳的質(zhì)量和可懂度。
噪聲的特征可能變化很大。噪聲例如可以是平靜的辦公室噪聲、嘈雜的汽車噪聲、街道噪聲或者談話雜音(babble)噪聲(談話雜音的聲音、盤碟的丁當(dāng)聲等)。除不同的特征之外,噪聲還可能出現(xiàn)在近端的移動(dòng)電話用戶周圍(tx-噪聲)或者出現(xiàn)在遠(yuǎn)端的其它對話方周圍(rx-噪聲)。rx-噪聲破壞了語音信號,因此該噪聲也變得與語音一起擴(kuò)展到高頻帶。這一點(diǎn)在具有高rx-噪聲電平的情形中頗成問題,因?yàn)樵肼曢_始由于人為生成的高頻分量而聽起來令人厭煩。tx-噪聲通過掩蓋收到的語音信號而使可懂度降級。
現(xiàn)有技術(shù)中的人工帶寬擴(kuò)展(ABE)解決方案受困于有噪聲的情形下的不良表現(xiàn)。一種現(xiàn)有的ABE解決方案在美國專利申請第10/341,332號中有描述,該申請的標(biāo)題為“Method and Apparatus forArtificial Bandwidth Expansion in Speech Processing”,轉(zhuǎn)讓給與本申請相同的受讓人,而且將該申請通過參考整體引入于此。這一較早開發(fā)的ABE算法的優(yōu)點(diǎn)在于它對于有噪聲和編碼的語音而言顯著地更加魯棒。然而,此算法尚有問題,包括存在人為成分(artifact),這使得所感知的質(zhì)量的總體自然度降級。擴(kuò)展語音高頻帶的驟變可能造成聽得到的人為成分。另外,這一先前算法包括0-4kHz的頻率帶寬。
遺漏的頻率分量對于語音發(fā)聲如摩擦音(例如/s/和/z/)尤為重要,因?yàn)轭l率分量的相當(dāng)大的部分都在4kHz以上。即使這些發(fā)聲的主要信息是在較低頻率中,爆破音(/t/、/p/等)的可懂度也受困于高頻的匱乏。對于濁音,頻率的欠缺主要導(dǎo)致所感知的自然度降級。由于高頻分量的重要性在語音發(fā)聲之間有所不同,所以應(yīng)當(dāng)為每個(gè)音素組不同地執(zhí)行擴(kuò)展信號高頻帶的生成。
因此,對于不同音素組的分類就需要魯棒的計(jì)算方法。還需要一種防止誤分類以及由此防止在先前的算法中依然存在的聽得到的人為成分的改進(jìn)方法。進(jìn)而需要一種用于信號質(zhì)量改進(jìn)的增強(qiáng)型人工帶寬擴(kuò)展的改進(jìn)系統(tǒng)和方法。
發(fā)明內(nèi)容
本發(fā)明涉及一種用于通過插入沒有與語音信號一起發(fā)送的頻率分量來擴(kuò)展該語音信號的帶寬的方法、設(shè)備、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品。該系統(tǒng)將噪聲依賴性包括于人工帶寬擴(kuò)展算法。此特征考慮了噪聲條件而且自動(dòng)地調(diào)整該算法,使得在保持良好的感知質(zhì)量同時(shí)語音的可懂度變得最大化。
簡而言之,一個(gè)示例性實(shí)施例涉及一種用于將窄帶語音信號擴(kuò)展成寬帶語音信號的方法。該方法包括根據(jù)信號確定信號類型信息;使用所確定的信號類型信息來獲得用于形成上頻帶信號的特征;確定信號噪聲信息;使用所確定的信號噪聲信息來修改所獲得的用于形成上頻帶信號的特征;以及使用所修改的特征來形成上頻帶信號。
另一示例性實(shí)施例涉及一種被配置用以接收寬帶信號的終端設(shè)備。該設(shè)備包括與無線網(wǎng)絡(luò)通信的接口;以及編程的指令,存儲(chǔ)于存儲(chǔ)器中并且被配置用以通過基于噪聲條件調(diào)整人工帶寬擴(kuò)展算法將收到的窄帶信號擴(kuò)展成寬帶信號。
另一示例性實(shí)施例涉及一種在通信網(wǎng)絡(luò)中將窄帶語音信號擴(kuò)展成寬帶語音信號的網(wǎng)絡(luò)設(shè)備或者模塊。該設(shè)備包括窄帶編碼解碼器,在網(wǎng)絡(luò)中接收窄帶語音信號;寬帶編碼解碼器,將寬帶語音信號傳送到與網(wǎng)絡(luò)通信的寬帶終端;以及編程的指令,通過基于噪聲條件調(diào)整人為寬帶擴(kuò)展算法將窄帶語音信號擴(kuò)展成寬帶語音信號。
又一示例性實(shí)施例涉及一種用于將窄帶語音信號擴(kuò)展成寬帶語音信號的系統(tǒng)。該系統(tǒng)包括用于根據(jù)信號確定信號類型信息的裝置;用于使用所確定的信號類型信息來獲得用于形成上頻帶信號的特征的裝置;用于確定信號噪聲信息的裝置;用于使用所確定的信號噪聲信息來修改所獲得的用于形成上頻帶信號的特征的裝置;以及用于使用所修改的特征來形成上頻帶信號的裝置。
又一示例性實(shí)施例涉及一種將窄帶語音信號擴(kuò)展成寬帶語音信號的計(jì)算機(jī)程序產(chǎn)品。該計(jì)算機(jī)程序產(chǎn)品包括用以執(zhí)行以下操作的計(jì)算機(jī)代碼根據(jù)信號確定信號類型信息;使用所確定的信號類型信息來獲得用于形成上頻帶信號的特征;確定信號噪聲信息;使用所確定的信號噪聲信息來修改所獲得的用于形成上頻帶信號的特征;以及使用所修改的特征來形成上頻帶信號。
通過察閱所附權(quán)利要求書具體實(shí)施方式
和附圖,本發(fā)明的其它主要特征和優(yōu)點(diǎn)對于本領(lǐng)域技術(shù)人員將變得明顯。
下文將參照附圖來描述示例性實(shí)施例。
圖1是描繪了根據(jù)示例性實(shí)施例的噪聲劃分的圖。
圖2是描繪了根據(jù)示例性實(shí)施例在幀分類過程中的操作的圖。
圖3是描繪了rx-SNR估計(jì)對于控制濁音處理的濁音系數(shù)所具有的影響的圖。
圖4是描繪了在已經(jīng)考慮了rx-SNR的影響之后tx-SNR估計(jì)對于濁音系數(shù)的影響的圖。
圖5是描繪了在已經(jīng)定義了濁音系數(shù)之后齒擦音幀恒定衰減的定義的曲線圖。
圖6是描繪了根據(jù)示例性實(shí)施例在網(wǎng)絡(luò)中應(yīng)用的人工帶寬擴(kuò)展的圖。
圖7是描繪了根據(jù)示例性實(shí)施例在寬帶終端處應(yīng)用的人工帶寬擴(kuò)展的圖。
具體實(shí)施例方式
圖1圖示了根據(jù)幀分類算法將來自通信信號的幀12的噪聲示例性地劃分成談話雜音噪聲14和平穩(wěn)噪聲17。談話雜音噪聲14可以劃分成濁音幀15和閉塞輔音16。平穩(wěn)噪聲17可以劃分成濁音幀18、閉塞輔音19和齒擦音幀20。談話雜音噪聲檢測是基于對頻率分量的譜分布有所反映的特征的,因此區(qū)分了在低頻噪聲與具有更多高頻分量的談話雜音噪聲。
對噪聲條件有所考慮可以在保持感知質(zhì)量的同時(shí)改進(jìn)語音可懂度。噪聲依賴性可以劃分成rx-噪聲(遠(yuǎn)端)依賴性和tx-噪聲(近端)依賴性。rx-噪聲依賴性使得有可能通過在談話雜音噪聲和嘈雜的平穩(wěn)噪聲期間避免對高頻帶產(chǎn)生干擾噪聲來增加音頻質(zhì)量。通過基于噪聲模式和rx-噪聲電平估計(jì)對算法進(jìn)行調(diào)整來增加音頻質(zhì)量。另一方面,tx-噪聲依賴性使得有可能調(diào)節(jié)算法使得可以最大化可懂度。在嘈雜的tx-噪聲環(huán)境中,該算法可能非常激進(jìn)(aggressive),因?yàn)樵肼曆谏w了可能有的人為成分。在靜默的tx-噪聲環(huán)境中,通過最小化人為成分的量來最大化音頻質(zhì)量。
圖2描繪了在示例性的幀分類過程中的操作,該過程示出了在識別不同音素組時(shí)使用的特征。在示例性實(shí)施例中,將幀分類成不同音素組的示例性的幀分類算法包括有助于分類準(zhǔn)確性以及因此有助于增加所感知的音頻質(zhì)量的七個(gè)特征。這七個(gè)特征涉及對齒擦音的更佳檢測以及特別地涉及從齒擦音幀中更佳地排除閉塞輔音。
幀分類過程基于這一特征矢量來執(zhí)行分類判決。在示例性實(shí)施例中,為每個(gè)特征預(yù)定義有閾值,而且通過測試滿足了哪一條件來進(jìn)行判決。七個(gè)特征可以包括(1)梯度指數(shù)、(2)rx-背景噪聲電平估計(jì)、(3)rx-SNR估計(jì)、(4)梯度指數(shù)的總體水平、(4)窄帶頻譜的斜率(5)連續(xù)幀的能量比、(6)關(guān)于如何對先前幀進(jìn)行處理的信息和(7)算法運(yùn)用于其中的噪聲模式。
梯度指數(shù)是對語音信號在每次方向改變時(shí)的梯度量值之和的測量。在齒擦音檢測中使用它是因?yàn)辇X擦音的波形比周期性的濁音波形更為經(jīng)常和突然地改變方向。作為例子,對于齒擦音幀而言,梯度指數(shù)的值應(yīng)當(dāng)大于閾值。
該梯度指數(shù)可以定義為xgi=110Σκ=1Nκ-1ψ(κ)|snb(κ)-snb(κ-1)|Σκ=0Nκ-1(snb(κ))2]]>其中Ψ(κ)=1/2|Ψ(κ)-Ψ(κ-1)|和Ψ(κ)是梯度snb(κ)-snb(κ-1)·的符號。
rx-背景噪聲電平估計(jì)可以基于一種被稱作最小值統(tǒng)計(jì)的方法。最小值統(tǒng)計(jì)涉及到對信號的能量進(jìn)行濾波以及在短的子幀中搜尋它的最小值。每幀的背景噪聲電平估計(jì)被選擇為四個(gè)前子幀的多個(gè)最小值中的最小值。此估計(jì)方法規(guī)定,即使有人在說話,在僅含背景噪聲的詞語與音節(jié)之間仍然有一些短的停頓。因此通過搜索信號能量的最小值,可以找到那些停頓瞬間。將具有高背景噪聲電平的信號作為濁音來處理,因?yàn)楦哳l帶的放大也會(huì)通過使噪聲聽起來令人厭煩來影響該噪聲。
根據(jù)平均幀能量和背景噪聲電平估計(jì)來計(jì)算rx-SNR估計(jì) 需要一種表現(xiàn)梯度指數(shù)總體水平的特征以防止在靜默時(shí)段期間的錯(cuò)誤齒擦音檢測。如果梯度指數(shù)的總體水平高,例如高于75%或者先前20幀具有大于0.6的梯度指數(shù),則認(rèn)為該幀僅含高通特征的背景噪聲而沒有進(jìn)行齒擦音檢測。在這一特征之后的原因是語音不是常常含有這樣的摩擦音的。
窄帶幅度譜的斜率在齒擦音期間為正,而它對于濁音而言為負(fù)。窄帶斜率這一特征在這里被定義為在頻率0.3kHz和3.0kH處的幅度譜之差。
能量比被定義為當(dāng)前幀的能量與前一幀的能量之商。齒擦音檢測要求當(dāng)前幀和先前兩幀沒有太高的能量比。另一方面,在爆破音的情況下,能量比為高的,因?yàn)楸埔敉ǔS杉澎o階段以及隨后的猝發(fā)音和送氣音構(gòu)成。
稱為last_frame的參數(shù)包含與如何對前一幀進(jìn)行處理有關(guān)的信息。之所以需要此參數(shù)是因?yàn)橐獙σ暈辇X擦音幀的第一幀和第二幀進(jìn)行相對于其余幀而言不同的處理。從濁音到齒擦音的轉(zhuǎn)變應(yīng)當(dāng)平穩(wěn)。另一方面,對于前兩個(gè)檢測到的幀實(shí)際上就是齒擦音這一點(diǎn)并不確信,因此對它們仔細(xì)地進(jìn)行處理以避免可聽到的人為成分這一點(diǎn)可能至關(guān)重要。摩擦音的持續(xù)時(shí)間通常長于其它輔音的持續(xù)時(shí)間。為了甚至更為精確,其它摩擦音的持續(xù)時(shí)間常常短于齒擦音的持續(xù)時(shí)間。
參數(shù)noise_mode包含與算法運(yùn)用于其中的噪聲模式有關(guān)的信息。優(yōu)選地,正如參照圖1所述的,有平穩(wěn)噪聲模式和談話雜音噪聲模式這兩種噪聲模式。
濁音幀的修改函數(shù)的最大衰減量一般應(yīng)當(dāng)在相鄰幀之間被限制于僅2dB范圍。此條件確保了高頻帶中的平穩(wěn)變化,以及由此減少可聽到的人為成分。齒擦音高頻帶的變化率也受到控制。被視為齒擦音的第一幀具有15dB的額外衰減,而第二幀具有10dB的額外衰減。這些額外衰減確保了從濁音音素到齒擦音的平穩(wěn)轉(zhuǎn)變。
具體參照圖2,使用了if then語句和基于if-then判斷的判斷方塊來描繪根據(jù)本發(fā)明一個(gè)實(shí)施例的幀分類過程的示例過程。如果能量比為零,則語音信號被判斷為閉塞輔音(方塊22)。否則語音信號是濁音幀(方塊24)。一旦已經(jīng)進(jìn)行了能量比檢查,可以針對預(yù)設(shè)的限制來進(jìn)行噪聲和梯度指數(shù)的檢查。例如,如果rx_bgnoise大于預(yù)定的限制,梯度索引大于預(yù)定的限制,能量比為零,梯度計(jì)數(shù)小于預(yù)定的限制,而且nb_slope大于預(yù)定的限制,則語音信號被視為適度齒擦音(方框25)而last_frame參數(shù)被設(shè)置為零。否則last_frame被設(shè)置為一并且再次檢查能量比。
其它的if-then語句也可以用來判斷語音信號是否被視為適度齒擦音(方框26)、齒擦音(方塊27)或者齒擦音(方塊28),而last_frame參數(shù)被改變?yōu)榉从橙绾螌η耙粠M(jìn)行處理。
如前所述,噪聲可以劃分成平穩(wěn)噪聲和談話雜音噪聲。談話雜音噪聲檢測基于三個(gè)特征基于梯度指數(shù)的特征、基于能量信息的特征和背景噪聲電平估計(jì)。能量信息Ei可以被定義為E′=E[s′′nb(n)]E[snb(n)]]]>其中s(n)是時(shí)域信號,E[s”nb]是該信號二次導(dǎo)數(shù)的能量,而E[Snb]是信號的能量。對于談話雜音噪聲檢測而言,基本信息不是Ei的準(zhǔn)確值而是它的值有多么頻繁地處于相當(dāng)高的值。因而,在談話雜音噪聲檢測中使用的實(shí)際特征不是Ei而是它有多么頻繁地超過某一閾值。此外,由于長期趨勢引人關(guān)注,所以對Ei的值是否為高的這一信息進(jìn)行濾波。實(shí)施這一點(diǎn)使得如果能量信息的值大于閾值,則對IIR濾波器的輸入是一,否則是零。IIR濾波器可以表達(dá)為H(z)=1-α1-αz-1,]]>其中α是依賴于能量信息變化方向的沖擊(attack)或者釋放(release)常數(shù)。
在當(dāng)前語音聲音具有高通特征如例如/s/時(shí),能量信息也可以具有高的值。為了將這些情況從IIR濾波器輸入中排除,只有在幀未被視為可能的齒擦音時(shí)(即梯度指數(shù)小于預(yù)定義的閾值)才更新經(jīng)IIR濾波的能量信息。
梯度指數(shù)是在談話雜音噪聲檢測中使用的另一特征。在談話雜音噪聲檢測中,梯度指數(shù)可以利用與針對能量信息特征而使用的濾波器種類相同的濾波器來進(jìn)行IIR濾波。背景噪聲估計(jì)可以基于一種上文所描述的、被稱為最小值統(tǒng)計(jì)的方法。
如果所有三個(gè)特征(經(jīng)IIR濾波的能量信息、經(jīng)IIR濾波的梯度指數(shù)和背景噪聲電平估計(jì))超過某些閾值,則該幀被視為包含談話雜音噪聲。在至少一個(gè)實(shí)施例中,為了使談話雜音噪聲檢測算法更為魯棒,使用十五個(gè)連續(xù)平穩(wěn)幀來進(jìn)行對于該算法運(yùn)用于平穩(wěn)噪聲模式中的這一最后判決。另一方面,從平穩(wěn)噪聲模式到談話雜音噪聲模式的轉(zhuǎn)變只需一幀。
對于噪聲依賴性而言,可以使用三個(gè)參數(shù)。這些參數(shù)包括rX-噪聲模式判決、rx-信噪比(rx-SNR)和tx-信噪比(tx-SNR)。可以使用最小值統(tǒng)計(jì)方法來計(jì)算背景噪聲電平的估計(jì)??梢愿鶕?jù)背景噪聲電平估計(jì)和幀信號的平均能量來估計(jì)SNR 為了避免SNR估計(jì)中的驟跳,可以用如下濾波器對它們進(jìn)行IIR濾波,該濾波器與在談話雜音噪聲檢測中使用的濾波器相似但是具有不同的沖擊常數(shù)和釋放常數(shù)。
針對濁音幀可以定義新的參數(shù)voiced_const。該參數(shù)可以包括用于濁音幀的以分貝為單位的額外恒定增益,以及由此確定對窄帶信號的鏡像進(jìn)行修改的量。較大的負(fù)值表示較大的衰減和較保守的人工帶寬擴(kuò)展(ABE)信號。參數(shù)voiced_const的值可以依賴于rx-SNR和tx-SNR。先可以根據(jù)在圖3中描繪的曲線圖來計(jì)算voiced_const的值,此后可以向它添加tx-SNR、tx_factor的效應(yīng)(圖4)。參數(shù)tx_factor在tx噪聲出現(xiàn)時(shí)變成正值,因此減少了衰減量而且使算法更為激進(jìn)。
為了提供用于對算法進(jìn)行簡易調(diào)節(jié)的手段,可以利用三個(gè)其它的新參數(shù)來控制voiced_const的計(jì)算以及由此控制算法的整個(gè)表現(xiàn),這三個(gè)參數(shù)為abe_control、rx_control和tx_control。下面描述它們之中的每個(gè)參數(shù)所具有的效果。
參數(shù)abe_control改變了濁音const-曲線的總體水平以及由此改變了算法的總體保守度/激進(jìn)度。最大值(1)表示很激進(jìn)的表現(xiàn)。另一方面,最小值(0)表示最保守的表現(xiàn)。值范圍是
,而缺省值在兩個(gè)噪聲模式中都是0.5,如圖3中所示。
參數(shù)rx_control改變voiced_const-曲線的斜率。最大值(1)表示了rx-噪聲水平不影響算法。另一方面最小值(0)表示最強(qiáng)的依賴性。值范圍是
,而缺省值在兩個(gè)噪聲模式中都是0.5,如圖3中所示。
參數(shù)tx_control改變tx-factor的步長大小。最大值(1)表示最強(qiáng)的依賴性。另一方面,最小值(0)表示了tx-噪聲電平不影響算法。值范圍是
,并且缺省值在平穩(wěn)噪聲模式中是0.5而在談話雜音噪聲模式中是0.4,如圖4中所示。
齒擦音的處理也依賴于噪聲模式和SNR估計(jì)。在談話雜音噪聲模式中,所有幀都被作為濁音幀來處理,因此不執(zhí)行齒擦音檢測,因?yàn)樵谡勗掚s音噪聲期間該檢測可能生成錯(cuò)誤的齒擦音檢測,這是由于背景噪聲包含類似齒擦音的幀。
在平穩(wěn)噪聲模式中,具有高背景噪聲電平的信號也可以作為濁音來處理,因?yàn)楦哳l帶的放大也通過使噪聲聽起來令人厭煩來影響該噪聲。另一方面,在具有低電平平穩(wěn)噪聲的信號情況下,可以檢測齒擦音,而且通過參數(shù)const_att來控制用于齒擦音的修改函數(shù)。此參數(shù)對于齒擦音而言是額外的恒定增益,使得如果濁音幀被強(qiáng)烈地衰減,則齒擦音也具有較大的額外恒定衰減。換而言之,const_att的值依賴于voiced_const的值,就如同圖5所示那樣。
為了提供用于對算法進(jìn)行簡易調(diào)節(jié)的手段,還有用于齒擦音幀的可調(diào)參數(shù),該參數(shù)控制齒擦音的總體處理。sibilant_const參數(shù)改變恒定衰減-曲線的總體水平。最大值(1)表示很激進(jìn)的齒擦音。另一方面,最小值(0)表示最保守的表現(xiàn)。值范圍是
,而缺省值是0.5,如圖5中所示。
圖6圖示了如何在網(wǎng)絡(luò)中應(yīng)用人工帶寬擴(kuò)展(ABE)。在應(yīng)用于網(wǎng)絡(luò)中時(shí),ABE可以實(shí)施于使用窄帶編碼解碼器和寬帶編碼解碼器這二者的網(wǎng)絡(luò)中。圖7圖示了如何在終端中應(yīng)用人工帶寬擴(kuò)展(ABE)。如所應(yīng)用于終端中的,ABE設(shè)置于終端而且從網(wǎng)絡(luò)接收窄帶通信。ABE將通信擴(kuò)展成用于終端的寬帶。ABE算法在終端中可以利用數(shù)字信號處理器(DSP)來實(shí)施。
所述算法減少了由幀的誤分類所造成的人為成分的數(shù)目。另外,rx-噪聲和tx-噪聲依賴性使得有可能在不同的噪聲情形中不同地調(diào)節(jié)該算法,使得在每個(gè)情形中都將音頻質(zhì)量和可懂度最大化。所述ABE的其它優(yōu)點(diǎn)包括不需要附加的傳送信息以便改進(jìn)語音質(zhì)量的自然度。不需要存儲(chǔ)代碼簿。另外,可以用合理的計(jì)算成本實(shí)時(shí)地實(shí)施ABE。使用魯棒頻域方法來計(jì)算對混淆頻率分量的調(diào)整。這減少了由于較高頻率分量的不充分衰減而造成質(zhì)量惡化這一風(fēng)險(xiǎn)。
此具體描述概括了用于信號質(zhì)量改進(jìn)的增強(qiáng)型人工帶寬擴(kuò)展的一種方法、設(shè)備和系統(tǒng)的示例性實(shí)施例。在以上的描述中出于說明的目的而闡述了許多具體細(xì)節(jié)以便提供對本發(fā)明的透徹理解。然而對于本領(lǐng)域技術(shù)人員是明顯的,示例性實(shí)施例即使沒有這些具體細(xì)節(jié)仍然可以付諸實(shí)踐。在其它實(shí)例中,以框圖形式示出了結(jié)構(gòu)和設(shè)備以便有助于對示例性實(shí)施例的描述。
盡管在圖中圖示的和在上文中描述的示例性實(shí)施是當(dāng)前優(yōu)選的,但是應(yīng)當(dāng)理解這些實(shí)施例僅以例子的方式來提供。其它實(shí)施例例如可以包括用于執(zhí)行相同操作的不同技術(shù)。本發(fā)明不拘泥于特定實(shí)施例而是延及依然落入所附權(quán)利要求書的范圍和精神之內(nèi)的各種修改、組合和變換。
權(quán)利要求
1.一種用于將窄帶語音信號擴(kuò)展成寬帶語音信號的方法,所述方法包括根據(jù)信號確定信號類型信息;使用所述確定的信號類型信息來獲得用于形成上頻帶信號的特征;確定信號噪聲信息;使用所述確定的信號噪聲信息來修改所述獲得的用于形成所述上頻帶信號的特征;以及使用所述修改的特征來形成所述上頻帶信號。
2.根據(jù)權(quán)利要求1所述的方法,其中確定信號噪聲信息包括使用與所述信號的部分的能量有關(guān)的信息和背景噪聲電平估計(jì)來估計(jì)遠(yuǎn)端信噪比。
3.根據(jù)權(quán)利要求2所述的方法,其中確定信號噪聲信息包括估計(jì)近端信噪比。
4.根據(jù)權(quán)利要求1所述的方法,其中所述信號類型信息基于信號梯度指數(shù)、信號遠(yuǎn)端信噪比和信號近端信噪比來確定。
5.根據(jù)權(quán)利要求4所述的方法,還包括基于所述梯度指數(shù)和所述遠(yuǎn)端信噪比將所述信號分類成不同的音素組。
6.根據(jù)權(quán)利要求1所述的方法,還包括檢測所述信號中的談話雜音噪聲。
7.根據(jù)權(quán)利要求6所述的方法,其中基于所述梯度指數(shù)、能量信息和噪聲電平估計(jì)來檢測所述談話雜音噪聲。
8.根據(jù)權(quán)利要求6所述的方法,其中根據(jù)所述信號的期望值與所述信號的二次導(dǎo)數(shù)的期望值之比來獲得能量信息。
9.一種被配置用以接收寬帶信號的通信設(shè)備,所述設(shè)備包括與無線網(wǎng)絡(luò)通信的接口;以及編程的指令,存儲(chǔ)于存儲(chǔ)器中并且被配置用以通過基于噪聲條件調(diào)整人工帶寬擴(kuò)展算法將收到的窄帶信號擴(kuò)展成寬帶信號。
10.根據(jù)權(quán)利要求9所述的設(shè)備,其中所述噪聲條件包括遠(yuǎn)端信噪比和近端信噪比。
11.根據(jù)權(quán)利要求9所述的設(shè)備,其中所述編程的指令還被配置用以基于梯度指數(shù)、能量信息和噪聲電平估計(jì)來檢測談話雜音噪聲。
12.根據(jù)權(quán)利要求9所述的設(shè)備,其中所述編程的指令利用數(shù)字信號處理器(DSP)來實(shí)施。
13.一種在通信網(wǎng)絡(luò)中將窄帶語音信號擴(kuò)展成寬帶語音信號的設(shè)備,所述設(shè)備包括窄帶編碼解碼器,在網(wǎng)絡(luò)中接收窄帶語音信號;寬帶編碼解碼器,將寬帶語音信號傳送到與所述網(wǎng)絡(luò)通信的寬帶終端;以及編程的指令,通過基于噪聲條件調(diào)整人為帶寬擴(kuò)展算法將所述窄帶語音信號擴(kuò)展成寬帶語音信號。
14.根據(jù)權(quán)利要求13所述的設(shè)備,其中所述噪聲條件包括遠(yuǎn)端信噪比和近端信噪比。
15.根據(jù)權(quán)利要求13所述的設(shè)備,其中所述編程的指令還被配置用以基于梯度指數(shù)、能量信息和噪聲電平估計(jì)來檢測談話雜音噪聲。
16.一種用于將窄帶語音信號擴(kuò)展成寬帶語音信號的系統(tǒng),所述系統(tǒng)包括用于根據(jù)信號確定信號類型信息的裝置;用于使用所述確定的信號類型信息來獲得用于形成上頻帶信號的特征的裝置;用于確定信號噪聲信息的裝置;用于使用所述確定的信號噪聲信息來修改所述獲得的用于形成所述上頻帶信號的特征的裝置;以及用于使用所述修改的特征來形成所述上頻帶信號的裝置。
17.根據(jù)權(quán)利要求16所述的系統(tǒng),其中所述信號類型信息基于信號梯度指數(shù)、信號遠(yuǎn)端信噪比和信號近端信噪比來確定。
18.根據(jù)權(quán)利要求16所述的系統(tǒng),還包括檢測所述信號中的談話雜音噪聲。
19.一種將窄帶語音信號擴(kuò)展成寬帶語音信號的計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括用以執(zhí)行以下操作的計(jì)算機(jī)代碼根據(jù)信號確定信號類型信息;使用所述確定的信號類型信息來獲得用于形成上頻帶信號的特征;確定信號噪聲信息;使用所述確定的信號噪聲信息來修改所述獲得的用于形成所述上頻帶信號的特征;以及使用所述修改的特征來形成所述上頻帶信號。
20.根據(jù)權(quán)利要求19所述的計(jì)算機(jī)程序產(chǎn)品,其中所述計(jì)算機(jī)代碼還基于信號梯度指數(shù)、信號遠(yuǎn)端信噪比和信號近端信噪比將所述信號從窄帶信號擴(kuò)展成寬帶信號。
21.根據(jù)權(quán)利要求19所述的計(jì)算機(jī)程序產(chǎn)品,其中所述計(jì)算機(jī)代碼還檢測所述信號中的談話雜音噪聲。
22.根據(jù)權(quán)利要求19所述的計(jì)算機(jī)程序產(chǎn)品,其中所述計(jì)算機(jī)代碼還估計(jì)近端信噪比。
全文摘要
一種方法、設(shè)備、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品將窄帶語音信號擴(kuò)展成寬帶語音信號。該方法包括根據(jù)信號確定信號類型信息;使用所確定的信號類型信息來獲得用于形成上頻帶信號的特征;確定信號噪聲信息;使用所確定的信號噪聲信息來修改所獲得的用于形成上頻帶信號的特征;以及使用所修改的特征來形成上頻帶信號。
文檔編號G10L19/06GK1985304SQ200580023428
公開日2007年6月20日 申請日期2005年5月25日 優(yōu)先權(quán)日2004年5月25日
發(fā)明者洛拉·拉阿克索南, 佩維·瓦爾弗 申請人:諾基亞公司