多通道音頻中語音相關(guān)通道的縮放回避的方法和系統(tǒng)的制作方法
【專利說明】
[0001] 本申請是申請日為2011年2月28日、申請?zhí)枮?01180012782. 5發(fā)明名稱為"多 通道音頻中語音相關(guān)通道的縮放回避的方法和系統(tǒng)"的發(fā)明專利申請的分案申請。
[0002] 相關(guān)申請的交叉引用
[0003] 本申請要求2010年3月8日提交的美國專利臨時申請No. 61/311,437的優(yōu)先權(quán), 其整體通過引用合并于此。
技術(shù)領(lǐng)域
[0004] 本發(fā)明設(shè)及用于改善由多通道音頻信號確定的人類語音(例如對話)的可辨識度 的系統(tǒng)和方法。在一些實施例中,本發(fā)明是一種方法和系統(tǒng),其通過確定指示由語音通道確 定的語音相關(guān)內(nèi)容與由非語音通道確定的語音相關(guān)內(nèi)容之間的相似程度的至少一個衰減 控制值,并響應(yīng)于該衰減控制值對該非語音通道進行衰減,來對具有語音通道和非語音通 道的音頻信號進行濾波W改善由信號確定的語音可辨識度。
【背景技術(shù)】
[0005] 貫穿本公開,包括在權(quán)利要求書中,術(shù)語"語音"用于廣義上指示人類語音。因此, 由音頻信號確定的"語音"是指信號中在由揚聲器(或其他發(fā)聲換能器)再現(xiàn)信號時感知 為人類語音(例如對話、獨白、歌聲或其他人類語音)的音頻內(nèi)容。根據(jù)本發(fā)明的典型實施 例,由音頻信號確定的語音的可聽度相對于由信號確定的其他音頻內(nèi)容(例如樂器音樂或 非語音聲音效果)得到改善,由此改善語音的可辨識度(例如,清楚性或理解容易度)。
[0006] 貫穿本公開,包括在權(quán)利要求書中,多通道音頻信號中的一通道的"語音增強內(nèi) 容"該一表述是指增強由信號的另一通道(例如語音通道)確定的語音內(nèi)容的可辨識度或 其他感知品質(zhì)的內(nèi)容(由該通道確定)。
[0007] 本發(fā)明的典型實施例假定多通道輸入音頻信號確定的語音的大部分由信號的中 央通道確定。該假定與環(huán)繞聲音產(chǎn)品慣例一致,根據(jù)該慣例,大部分語音通常置于僅一個通 道(中央通道)中,大部分音樂、環(huán)境聲音和音效通?;旌系剿型ǖ乐校ɡ缱笸ǖ馈⒂?通道、左環(huán)繞通道和右環(huán)繞通道W及中央通道)。
[000引因此,多通道音頻信號的中央通道將有時在該里稱為"語音"通道,信號的全部其 它通道(例如左通道、右通道、左環(huán)繞通道和右環(huán)繞通道)有時在該里稱為"非語音"通道。 類似地,由立體聲信號的左和右通道之和產(chǎn)生的"中央"通道(其語音被移位到中央)有時 在該里稱為"語音"通道,通過從立體信號的左(或右)通道減去該樣的中央通道而產(chǎn)生的 "側(cè)"通道將有時在該里稱為"非語音"通道。
[0009] 貫穿本公開,包括在權(quán)利要求書中,"對"信號或數(shù)據(jù)進行操作的表述(例如對信號 或數(shù)據(jù)進行濾波、縮放或變換)用于廣義上指示直接對信號或數(shù)據(jù)進行操作,或者對信號 或數(shù)據(jù)的處理變體(例如,在對其執(zhí)行操作之前已經(jīng)經(jīng)歷了初步濾波的信號變體)執(zhí)行操 作。
[0010] 貫穿本公開,包括在權(quán)利要求書中,表述"系統(tǒng)"用于廣義上指示器件、系統(tǒng)或子系 統(tǒng)。例如,實現(xiàn)解碼器的子系統(tǒng)可w稱為解碼器系統(tǒng),包括該樣的子系統(tǒng)的系統(tǒng)(例如,響 應(yīng)于多個輸入產(chǎn)生X個輸出信號的系統(tǒng),其中該子系統(tǒng)產(chǎn)生M個輸入,其它X-M個輸入從外 部源接收)也可W稱為解碼器系統(tǒng)。
[0011] 貫穿本公開,包括在權(quán)利要求書中,第一值("A")對第二值("B")的"比"該一 表述廣義上用于表示A/B、或B/A、或A和B之一的縮放或偏移變體對A和B中的另一個的 縮放或偏移變體的比(例如(A+X) /炬+y),其中X和y表示偏移值)。
[0012] 貫穿本公開,包括在權(quán)利要求書中,信號通過發(fā)聲換能器(例如揚聲器)的"再現(xiàn)" 該一表述表示使換能器響應(yīng)于信號產(chǎn)生聲音,包括通過進行任何所需的放大和/或其它信 號處理。
[0013] 當(dāng)在存在競爭聲音的情況下聽語音時(諸如在餐館中克服人群噪聲傾聽朋友說 話),指示語音的音素內(nèi)容的部分聲學(xué)特征(語音提示(speechcue))被競爭聲音所掩蓋且 不再可用于傾聽者來解碼訊息。隨著競爭聲音的水平相對于語音水平升高,正確接收的語 音提示的數(shù)量降低且語音感知逐漸變得更難,直到在某競爭聲音水平下,語音感知過程中 斷。雖然該種關(guān)系對于所有傾聽者有效,但是對于任意語音水平而言能容忍的競爭聲音水 平對于所有傾聽者并不相同。有些傾聽者,例如由于年老而損失聽力者(老年聾)或傾聽青 春期之后學(xué)會的語言者,與具有良好聽力或運用母語的傾聽者相比,更不能容忍競爭聲音。
[0014] 存在競爭聲音時傾聽者理解語音的能力不同的事實暗示了新聞或娛樂音頻中環(huán) 境聲音和背景音樂與語音混合的水平。損失聽力或運用外語的傾聽者通常喜歡與內(nèi)容產(chǎn)生 者所提供的相比相對更低水平的非語音音頻。
[0015] 為了迎合該些特殊需要,已知對多通道音頻信號的非語音通道應(yīng)用衰減(回避), 而更小(或沒有)衰減應(yīng)用到信號的語音通道,W改善信號所確定的語音的可辨識度。
[0016] 例如,PCT國際申請公開NO.W02010/011377,發(fā)明人為HannesMuesch且轉(zhuǎn)讓給 Do化yL油oratoriesLicensingCo;rporation(2010年 1 月 28 日公開),公開了多通道音頻 信號的非語音通道(例如,左通道和右通道)可W掩蓋信號的語音通道(例如,中央通道) 中的語音到不再滿足期望水平的語音可辨識度的程度。W02010/011377描述了如何確定由 回避電路應(yīng)用到非語音通道的衰減函數(shù)W嘗試顯露語音通道中的語音,同時盡可能多地感 知內(nèi)容創(chuàng)建者的意圖。W02010/011377中描述的技術(shù)基于如下假設(shè);非語音通道中的內(nèi)容 從不增強語音通道確定的語音內(nèi)容的可辨識度(或者其它感知品質(zhì))。
[0017] 本發(fā)明部分地基于如下認識,即雖然該假設(shè)對于絕大多數(shù)多通道音頻內(nèi)容而言是 正確的,但是并非總是有效。發(fā)明人意識到,當(dāng)多通道音頻信號中的至少一個非語音通道 包括增強信號的語音通道確定的語音內(nèi)容的可辨識度(或其它感知品質(zhì))的內(nèi)容時,根據(jù) W02010/011377的方法對信號的濾波可能負面影響傾聽再現(xiàn)的濾波了的信號的聽眾的娛 樂體驗。根據(jù)本發(fā)明的典型實施例,在內(nèi)容不符合W02010/011377的方法蘊含的假設(shè)時, W02010/011377描述的方法的應(yīng)用被暫停或被修改。
[0018] 需要一種方法和系統(tǒng),用于在音頻信號的至少一個非語音通道包括增強音頻信號 的語音通道中的語音內(nèi)容的可辨識度的內(nèi)容的一般情況下,對多通道音頻信號進行濾波W 改善語音可辨識度。
【發(fā)明內(nèi)容】
[0019] 在第一類實施例中,本發(fā)明是一種方法,用于對具有語音通道和至少一個非語音 通道的多通道音頻信號進行濾波,W改善信號所確定的語音的可辨識度。該方法包括步驟: (a)確定指示多通道語音信號的語音通道確定的語音相關(guān)內(nèi)容與至少一個非語音通道確定 的語音相關(guān)內(nèi)容之間的相似程度的至少一個衰減控制值;W及化)響應(yīng)于該至少一個衰減 控制值,對該多通道音頻信號的至少一個非語音通道進行衰減。典型地,該衰減步驟包括響 應(yīng)于該至少一個衰減控制值,縮放用于該非語音通道的原始衰減控制信號(例如回避增益 控制信號)。優(yōu)選地,該非語音通道被衰減從而改善由語音通道確定的語音的可辨識度,而 沒有不期望地衰減由該非語音通道確定的語音增強內(nèi)容。在一些實施例中,步驟(a)確定 的每個衰減控制值指示由音頻信號的語音通道確定的語音相關(guān)內(nèi)容與一個非語音通道確 定的語音相關(guān)內(nèi)容之間的相似程度,步驟化)包括響應(yīng)于所述每個衰減控制值對該非語音 通道進行衰減的步驟。在另一些實施例中,步驟(a)包括從音頻信號的至少一個非語音通 道得到衍生非語音通道的步驟,該至少一個衰減控制值指示由該語音通道確定的語音相關(guān) 內(nèi)容與由該衍生非語音通道確定的語音相關(guān)內(nèi)容之間的相似程度。例如,該衍生非語音通 道可W通過疊加或W另外的方式混合或組合音頻信號的至少兩個非語音通道而產(chǎn)生。相對 于從不同非語音通道確定一組衰減值的不同子集的成本和復(fù)雜度而言,從單個衍生非語音 通道確定每個衰減控制值可W減小實施本發(fā)明某些實施例的成本和復(fù)雜度。在其中輸入音 頻信號具有至少兩個非語音通道的實施例中,步驟化)可W包括響應(yīng)于該至少一個衰減控 制值(例如,響應(yīng)于衰減控制值的單個序列),對非語音通道(例如,從其已經(jīng)衍生出衍生非 語音通道的每個非語音通道)的子集或者所有非語音通道進行衰減的步驟。
[0020] 在一些第一類實施例中,步驟(a)包括產(chǎn)生指示衰減控制值的序列的衰減控制信 號的步驟,每個衰減控制值指示由語音通道確定的語音相關(guān)內(nèi)容與由至少一個非語音通道 確定的語音相關(guān)內(nèi)容之間在不同時間(例如,在不同時間段中)的相似程度,步驟化)包括 如下步驟;響應(yīng)于該衰減控制信號縮放回避增益控制信號W產(chǎn)生縮放了的增益控制信號, W及應(yīng)用該縮放了的增益控制信號W對該至少一個非語音通道進行衰減(例如,將該縮放 了的增益控制信號斷言到回避電路從而通過該回避電路來控制該至少一個非語音通道的 衰減)。例如,在一些該樣的實施例中,步驟(a)包括比較第一語音相關(guān)特征序列(指示由 該語音通道確定的語音相關(guān)內(nèi)容)與第二語音相關(guān)特征序列(指示由該至少一個非語音通 道確定的語音相關(guān)內(nèi)容)W產(chǎn)生該衰減控制信號,由該衰減控制信號指示的每個衰減控制 值指示該第一語音相關(guān)特征序列和該第二語音相關(guān)特征序列之間在不同時間(例如,在不 同時間段中)的相似程度。在一些實施例中,每個衰減控制值是增益控制值。
[0021] 在一些第一類實施例中,每個衰減控制值與音頻信號的至少一個非語音通道指示 增強由語音通道確定的語音內(nèi)容的可辨識度(或者另一感知品質(zhì))的語音增強內(nèi)容的可 能性單調(diào)相關(guān)。在另一些第一類實施例中,每個衰減控制值被單調(diào)關(guān)聯(lián)到至少一個非語音 通道的預(yù)期語音增強值(例如,至少一個非語音通道指示語音增強內(nèi)容的或然率的度量, 乘W由至少一個非語音通道確定的語音增強內(nèi)容將對由多通道信號確定的語音內(nèi)容提供 的感知品質(zhì)增強的度量)。例如,當(dāng)步驟(a)包括比較指示由語音通道確定的語音相關(guān)內(nèi) 容的第一語音相關(guān)特征序列和指示由至少一個非語音通道確定的語音相關(guān)內(nèi)容的第二語 音相關(guān)特征序列的步驟時,第一語音相關(guān)特征序列可W是語音可能性值的序列,每個該語 音可能性值表明在不同時間(例如,在不同時間段中)語音通道指示語音(而不是語音之 外的音頻內(nèi)容)的可能性,第二語音相關(guān)特征序列也可w是語音可能性值的序列,每個該 語音可能性值表明在不同時間(例如,在不同時間段中)至少一個非語音通道指示語音的 可能性。從音頻信號自動生成該種語音可能性值的序列的各種方法是已知的。例如,一 種該樣的方法由Robinson和Vinton描述于"AutomatedSpeech/OtherDiscrimination forLoudnessMonitoring"(AudioEngineeringSociety,Preprintnumber6437of Conventionll8,2005年5月)中。備選地,預(yù)期語音可能性值的序列可W手工創(chuàng)建(例如, 通過內(nèi)容創(chuàng)建器)且與多通道音頻信號一起傳輸?shù)浇K端用戶。
[0022] 在其中多通道音頻信號具有語音通道W及包括第一非語音通道和第二非語音通 道的至少兩個非語音通道的第二類實施例中,本發(fā)明的方法包括步驟;(a)確定至少一個 第一衰減控制值,該至少一個第一衰減控制值指示由該語音通道確定的語音相關(guān)內(nèi)容與由 該第一非語音通道確定的第二語音相關(guān)內(nèi)容之間的相似程度(例如,包括通過比較指示由 該語音通道確定的語音相關(guān)內(nèi)容的第一語音相關(guān)特征序列和指示該第二語音相關(guān)內(nèi)容的 第二語音相關(guān)特征序列);W及化)確定至少一個第二衰減控制值,該至少一個第二衰減控 制值指示由該語音通道確定的語音相關(guān)內(nèi)容與由該第二非語音通道確定的第=語音相關(guān) 內(nèi)容之間的相似程度(例如,包括通過比較指示由該語音通道確定的語音相關(guān)內(nèi)容的第= 語音相關(guān)特征序列和指示該第=語音相關(guān)內(nèi)容的第四語音相關(guān)特征序列,其中該第=語音 相關(guān)特征序列可W與步驟(a)的第一語音相關(guān)特征序列相同)。典型地,該方法包括響應(yīng)于 該至少一個第一衰減控制值對該第一非語音通道進行衰減(例如,縮放該第一非語音通道 的衰減)和響應(yīng)于該至少一個第二衰減控制值對該第二非語音通道進行衰減(例如,縮放 該第二非語音通道的衰減)的步驟。優(yōu)選地,每個非語音通道都被衰減從而改善由語音通 道確定的語音的可辨識度,而沒有不期望地對任一非語音通道確定的語音增強內(nèi)容進行衰 減。
[0023] 在一些第二類實施例中;
[0024] 在步驟(a)中確定的該至少一個第一衰減控制值是衰減控制值的序列,每個衰減 控制值是用于縮放增益量的增益控制值,該增益量通過回避電路施加到第一非語音通道W 改善由語音通道確定的語音的可辨識度,而沒有不期望地對由第一非語音通道確定的語音 增強內(nèi)容進行衰減;且
[0025] 在步驟化)中確定的該至少一個第二衰減控制值是第二衰減控制值的序列,每個 第二衰減控制值是用于縮放增益量的增益控制值,該增益量通過回避電路施加到第二非語 音通道W改善由該語音通道確定的語音的可辨識度,而沒有不期望地對由第二非語音通道 確定的語音增