用于音頻分類和音頻處理的設(shè)備和方法
【專利摘要】本發(fā)明公開了用于音頻分類和音頻處理的設(shè)備和方法。在一個(gè)實(shí)施方式中,音頻處理設(shè)備包括:音頻分類器,用于實(shí)時(shí)地將音頻信號(hào)分類到至少一個(gè)音頻類型中;音頻改善裝置,用于改善聽眾的體驗(yàn);以及調(diào)整單元,用于基于該至少一個(gè)音頻類型的置信度值來以連續(xù)的方式調(diào)整音頻改善裝置的至少一個(gè)參數(shù)。
【專利說明】用于音頻分類和音頻處理的設(shè)備和方法
【技術(shù)領(lǐng)域】
[0001]本申請總體上涉及音頻信號(hào)處理。具體地,本申請的實(shí)施方式涉及用于音頻分類和音頻處理的設(shè)備和方法,尤其涉及對對話增強(qiáng)器、環(huán)繞聲虛擬器、音量校平器和均衡器的控制。
【背景技術(shù)】
[0002]為了提升音頻的整體質(zhì)量并且相應(yīng)地提升用戶體驗(yàn),一些音頻改善裝置用于在時(shí)域中或者譜域中修改音頻信號(hào)。已經(jīng)針對各種目的開發(fā)出了各種音頻改善裝置。音頻改善裝置的一些常見示例包括:
[0003]對話增強(qiáng)器:在電影和廣播或者電視節(jié)目中,對于理解故事來說,對話是最重要的成分。為了提高其清晰度和其可理解性,尤其是對于聽力下降的年長者,開發(fā)出了增強(qiáng)對話的方法。
[0004]環(huán)繞聲虛擬器:環(huán)繞聲虛擬器使得能夠在PC (個(gè)人電腦)的內(nèi)置揚(yáng)聲器中或者耳機(jī)中渲染出環(huán)繞(多聲道)聲音信號(hào)。也就是說,通過立體聲裝置(例如揚(yáng)聲器和耳機(jī)),環(huán)繞聲虛擬器為用戶生成虛擬的環(huán)繞聲效果,提供電影的體驗(yàn)。
[0005]音量校平器:音量校平器旨在對回放的音頻內(nèi)容的音量進(jìn)行調(diào)節(jié),并且基于目標(biāo)響度值來使音量在時(shí)間軸上幾乎保持一致。
[0006]均衡器:均衡器提供被稱為“音調(diào)”或者“音色”的譜平衡的一致性,并且使用戶能夠?yàn)榱朔糯竽承┞曇艋蛘呷コ黄谕穆曇舳诿總€(gè)單獨(dú)的頻帶上配置頻率響應(yīng)(增益)的整體模式(曲線或者形狀)。在傳統(tǒng)的均衡器中,可以針對不同的聲音例如不同的音樂風(fēng)格而提供不同的均衡器預(yù)置。一旦選擇了預(yù)置,或者設(shè)置了均衡模式,則在信號(hào)上施加相同的均衡增益,直到該均衡模式被手動(dòng)修改為止。相比之下,動(dòng)態(tài)均衡器通過連續(xù)監(jiān)測音頻的譜平衡,將其與期望的音調(diào)相比較并且動(dòng)態(tài)地調(diào)整均衡濾波器以將音頻的原始音調(diào)轉(zhuǎn)變?yōu)槠谕粽{(diào),來實(shí)現(xiàn)譜平衡一致性。
[0007]通常,音頻改善裝置具有其自身的應(yīng)用情景/上下文。也就是說,音頻改善裝置可能只適用于特定的內(nèi)容集合而不適用于所有可能的音頻信號(hào),因?yàn)椴煌膬?nèi)容可能需要以不同的方式來處理。例如,對話增強(qiáng)方法通常被應(yīng)用于電影內(nèi)容。如果將對話增強(qiáng)方法應(yīng)用于其中沒有對話的音樂,則對話增強(qiáng)方法可能錯(cuò)誤地增強(qiáng)一些頻率子帶并且引入大量的音色變化和感知上的不一致性。類似地,如果將噪聲抑制方法施加到音樂信號(hào)上,則能夠聽到強(qiáng)烈的畸變。
[0008]但是,對于通常包括一組音頻改善裝置的音頻處理系統(tǒng)來說,其輸入不可避免地可能是所有可能類型的音頻信號(hào)。例如,集成在PC中的音頻處理系統(tǒng)將接收來自各種源的音頻內(nèi)容,包括電影、音樂、VoIP和游戲。因此,為了對相應(yīng)內(nèi)容應(yīng)用較好的算法或者應(yīng)用每個(gè)算法的較好的參數(shù),重要的是識(shí)別或者區(qū)分這些被處理的內(nèi)容。
[0009]為了區(qū)分音頻內(nèi)容并且相應(yīng)地應(yīng)用較好的參數(shù)或者較好的音頻改善算法,傳統(tǒng)的系統(tǒng)通常預(yù)先設(shè)計(jì)一組預(yù)置,并且要求用戶針對要播放的內(nèi)容來選擇預(yù)置。預(yù)置通常將一組音頻改善算法和/或其要應(yīng)用的最佳參數(shù)進(jìn)行編碼,例如針對電影或者音樂回放而特別設(shè)計(jì)的“電影”預(yù)置和“音樂”預(yù)置。
[0010]但是,對于用戶來說,手動(dòng)選擇并不方便。用戶通常不會(huì)在各種預(yù)定義的預(yù)置間進(jìn)行頻繁的切換,而是對所有內(nèi)容保持使用一個(gè)預(yù)置。此外,即使在一些自動(dòng)解決方案中,在預(yù)置中的參數(shù)或者算法設(shè)置通常是離散的(例如,對針對特定內(nèi)容的特定算法進(jìn)行開啟或者關(guān)閉),其不能以基于內(nèi)容的連續(xù)的方式來調(diào)整參數(shù)。
【發(fā)明內(nèi)容】
[0011]本申請的第一方面是基于回放的音頻內(nèi)容以連續(xù)的方式來自動(dòng)地配置音頻改善裝置。通過該“自動(dòng)”模式,用戶可以不用疲于選擇不同的預(yù)置,而只是享受他們的內(nèi)容。另一方面,為了避免在轉(zhuǎn)換點(diǎn)處的可聽到的畸變,連續(xù)的調(diào)節(jié)更加重要。
[0012]根據(jù)第一方面的實(shí)施方式,一種音頻處理設(shè)備包括:音頻分類器,用于將音頻信號(hào)實(shí)時(shí)地分類到至少一個(gè)音頻類型中;音頻改善裝置,用于改善聽眾體驗(yàn);以及調(diào)整單元,用于基于該至少一個(gè)音頻類型的置信度值來以連續(xù)的方式調(diào)整音頻改善裝置的至少一個(gè)參數(shù)。
[0013]音頻改善裝置可以是對話增強(qiáng)器、環(huán)繞聲虛擬器、音量校平器和均衡器中的任何裝置。
[0014]相應(yīng)地,一種音頻處理方法包括:將音頻信號(hào)實(shí)時(shí)地分類到至少一個(gè)音頻類型中;以及基于該至少一個(gè)音頻類型的置信度值來以連續(xù)的方式調(diào)整至少一個(gè)用于音頻改善的參數(shù)。
[0015]根據(jù)第一方面的另一個(gè)實(shí)施方式,一種音量校平器控制器包括:音頻內(nèi)容分類器,用于實(shí)時(shí)地識(shí)別音頻信號(hào)的內(nèi)容類型;以及調(diào)整單元,用于基于所識(shí)別的內(nèi)容類型來以連續(xù)的方式調(diào)整音量校平器。調(diào)整單元可以配置為使音量校平器的動(dòng)態(tài)增益與音頻信號(hào)的信息性內(nèi)容類型正相關(guān),且使音量校平器的動(dòng)態(tài)增益與音頻信號(hào)的干擾性內(nèi)容類型負(fù)相關(guān)。
[0016]還公開了一種包括上述音量校平器控制器的音頻處理設(shè)備。
[0017]相應(yīng)地,一種音量校平器控制方法包括:實(shí)時(shí)地識(shí)別音頻信號(hào)的內(nèi)容類型;通過使音量校平器的動(dòng)態(tài)增益與音頻信號(hào)的信息性內(nèi)容類型正相關(guān),并且使音量校平器的動(dòng)態(tài)增益與音頻信號(hào)的干擾性內(nèi)容類型負(fù)相關(guān),而基于所識(shí)別的內(nèi)容類型來以連續(xù)的方式調(diào)整音量校平器。
[0018]根據(jù)第一方面的又一個(gè)實(shí)施方式,一種均衡器控制器包括:音頻分類器,用于實(shí)時(shí)地識(shí)別音頻信號(hào)的音頻類型;以及調(diào)整單元,用于基于所識(shí)別的音頻類型來以連續(xù)的方式調(diào)整均衡器。
[0019]還公開了一種包括上述均衡器控制器的音頻處理設(shè)備。
[0020]相應(yīng)地,一種均衡器控制方法包括:實(shí)時(shí)地識(shí)別音頻信號(hào)的音頻類型;以及基于所識(shí)別的音頻類型來以連續(xù)的方式調(diào)整均衡器。
[0021 ] 本申請還提供了在其上記錄有計(jì)算機(jī)程序指令的計(jì)算機(jī)可讀介質(zhì),當(dāng)由處理器來執(zhí)行該指令時(shí),該指令使處理器能夠執(zhí)行上述的音頻處理方法、或者音量校平器控制方法、或者均衡器控制方法。
[0022]根據(jù)第一方面的各個(gè)實(shí)施方式,可以根據(jù)音頻信號(hào)的類型和/或該類型的置信度值來連續(xù)地調(diào)整音頻改善裝置,該音頻改善裝置可以是對話增強(qiáng)器、環(huán)繞聲虛擬器、音量校平器和均衡器中之一。
[0023]本申請的第二方面是開發(fā)內(nèi)容識(shí)別組件來識(shí)別多個(gè)音頻類型,并且可以使用檢測結(jié)果通過以連續(xù)的方式找到較好的參數(shù)來操縱/指導(dǎo)各種音頻改善裝置的工作方式。
[0024]根據(jù)第二方面的實(shí)施方式,音頻分類器包括:短期特征提取器,用于從各自包括音頻幀序列的短期音頻片段中提取短期特征;短期分類器,用于使用相應(yīng)的短期特征來將長期音頻片段中的短期音頻片段序列分類到短期音頻類型中;統(tǒng)計(jì)數(shù)據(jù)提取器,用于計(jì)算短期分類器針對該長期音頻片段中的短期音頻片段序列的結(jié)果的統(tǒng)計(jì)數(shù)據(jù),作為長期特征;以及長期分類器,用于使用長期特征來將長期音頻片段分類到長期音頻類型中。
[0025]還公開了一種包括上述音頻分類器的音頻處理設(shè)備。
[0026]相應(yīng)地,一種音頻分類方法包括:從各自包括音頻幀序列的短期音頻片段中提取短期特征;使用相應(yīng)的短期特征來將長期音頻片段中的短期音頻片段序列分類到短期音頻類型中;計(jì)算短期分類器針對該長期音頻片段中的短期音頻片段序列的結(jié)果的統(tǒng)計(jì)數(shù)據(jù),作為長期特征;以及使用長期特征來將長期音頻片段分類到長期音頻類型中。
[0027]根據(jù)第二方面的另一個(gè)實(shí)施方式,一種音頻分類器包括:音頻內(nèi)容分類器,用于識(shí)別音頻信號(hào)的短期片段的內(nèi)容類型;以及音頻上下文分類器,用于至少部分地基于由音頻內(nèi)容分類器所識(shí)別的內(nèi)容類型來識(shí)別該短期片段的上下文類型。
[0028]還公開了包括上述音頻分類器的音頻處理設(shè)備。
[0029]相應(yīng)地,一種音頻分類方法包括:識(shí)別音頻信號(hào)的短期片段的內(nèi)容類型;以及至少部分地基于所識(shí)別的內(nèi)容類型來識(shí)別該短期片段的上下文類型。
[0030]本公開內(nèi)容還提供了其上記錄有計(jì)算機(jī)程序指令的計(jì)算機(jī)可讀介質(zhì),當(dāng)由處理器來執(zhí)行該指令時(shí),該指令使處理器能夠執(zhí)行上述的音頻分類方法。
[0031]根據(jù)第二方面的各個(gè)實(shí)施方式,音頻信號(hào)可以被分類到不同的長期類型或者上下文類型中,該長期類型或者上下文類型與短期類型或者內(nèi)容類型不同。音頻信號(hào)的類型和/或類型的置信度值還可以用于調(diào)整音頻改善裝置,例如對話增強(qiáng)器、環(huán)繞聲虛擬器、音量校平器或者均衡器。
【專利附圖】
【附圖說明】
[0032]在附圖中,以示例的方式而非限制的方式圖解了本申請,在附圖中,相同的附圖標(biāo)記表示相似的元素,在附圖中:
[0033]圖1的示意圖圖解了根據(jù)本申請的實(shí)施方式的音頻處理設(shè)備;
[0034]圖2和圖3的示意圖圖解了如圖1所示的實(shí)施方式的變型;
[0035]圖4至圖6的示意圖圖解了用于識(shí)別多個(gè)音頻類型和計(jì)算置信度值的分類器的可能架構(gòu);
[0036]圖7至圖9的示意圖圖解了本申請的音頻處理設(shè)備的更多實(shí)施方式;
[0037]圖10的示意圖圖解了不同音頻類型之間的轉(zhuǎn)換延遲;
[0038]圖11至圖14是根據(jù)本申請的實(shí)施方式的音頻處理方法的流程圖;
[0039]圖15的示意圖圖解了根據(jù)本申請的實(shí)施方式的對話增強(qiáng)控制器;
[0040]圖16和圖17是在對對話增強(qiáng)器的控制中使用根據(jù)本申請的音頻處理方法的流程圖;
[0041]圖18的示意圖圖解了根據(jù)本申請的實(shí)施方式的環(huán)繞聲虛擬器控制器;
[0042]圖19是在對環(huán)繞聲虛擬器的控制中使用根據(jù)本申請的音頻處理方法的流程圖;
[0043]圖20的示意圖圖解了根據(jù)本申請的實(shí)施方式的音量校平器控制器;
[0044]圖21的示意圖圖解了根據(jù)本申請的音量校平器控制器的效果;
[0045]圖22的示意圖圖解了根據(jù)本申請的實(shí)施方式的均衡器控制器;
[0046]圖23示出了期望的譜平衡預(yù)置的若干示例;
[0047]圖24的示意圖圖解了根據(jù)本申請的實(shí)施方式的音頻分類器;
[0048]圖25和圖26的示意圖圖解了由根據(jù)本申請的音頻分類器所使用的一些特征;
[0049]圖27至圖29的示意圖圖解了根據(jù)本申請的音頻分類器的更多實(shí)施方式;
[0050]圖30至圖33是根據(jù)本申請的實(shí)施方式的音頻分類方法的流程圖;
[0051]圖34的示意圖圖解了根據(jù)本申請的另一個(gè)實(shí)施方式的音頻分類器;
[0052]圖35的示意圖圖解了根據(jù)本申請的又一個(gè)實(shí)施方式的音頻分類器;
[0053]圖36的示意圖圖解了本申請的音頻分類器中使用的啟發(fā)式規(guī)則;
[0054]圖37和圖38的示意圖圖解了根據(jù)本申請的音頻分類器的更多實(shí)施方式;
[0055]圖39和圖40是根據(jù)本申請的實(shí)施方式的音頻分類方法的流程圖;以及
[0056]圖41是用于實(shí)現(xiàn)根據(jù)本申請的實(shí)施方式的示例性系統(tǒng)的框圖。
【具體實(shí)施方式】
[0057]以下參照附圖描述本申請的實(shí)施方式。要注意的是,為了清楚起見,在附圖和描述中省略了對本領(lǐng)域的技術(shù)人員所公知的且對于理解本申請并非必需的那些組件和處理的表不和描述。
[0058]本領(lǐng)域的技術(shù)人員要理解的是,本申請的各個(gè)方面可以被實(shí)施為系統(tǒng)、裝置(例如,蜂窩式電話、便攜式媒體播放器、個(gè)人計(jì)算機(jī)、服務(wù)器、電視機(jī)頂盒或者數(shù)字錄像機(jī),或者任何其他媒體播放器)、方法或者計(jì)算機(jī)程序產(chǎn)品。因此,本申請的各個(gè)方面可以采取硬件實(shí)施方式的形式、軟件實(shí)施方式(包括固件、駐留軟件、微碼等)的形式或者將軟件與硬件方面組合起來的實(shí)施方式的形式,這里通常可以將它們稱為“電路”、“模塊”、“系統(tǒng)”。而且,本申請的各個(gè)方面可以采取其上包括了計(jì)算機(jī)可讀程序編碼的一個(gè)或者更多個(gè)計(jì)算機(jī)可讀介質(zhì)中所包括的計(jì)算機(jī)程序產(chǎn)品的形式。
[0059]可以使用一個(gè)或者更多個(gè)計(jì)算機(jī)可讀介質(zhì)的任何組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或者計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是,但不限于,電子的、磁性的、光學(xué)的、電磁的、紅外的或者半導(dǎo)體的系統(tǒng)、設(shè)備或者裝置,或者是上述的任何適當(dāng)?shù)慕M合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的示例(非窮舉性的列舉)可以包括:具有一個(gè)或者更多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)軟盤、硬盤、隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、可擦除可編程只讀存儲(chǔ)器(EPROM或者閃存)、光纖、光盤只讀存儲(chǔ)器(⑶-ROM)、光存儲(chǔ)器裝置、磁性存儲(chǔ)裝置、或者上述的任何適當(dāng)?shù)慕M合。在本文檔的語境中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是能夠包括或者存儲(chǔ)用于由指令執(zhí)行系統(tǒng)、設(shè)備或者裝置所使用或者或者與之結(jié)合使用的程序的任何有形介質(zhì)。
[0060]計(jì)算機(jī)可讀信號(hào)介質(zhì)可以包括其中包含有計(jì)算機(jī)可讀程序編碼的傳播數(shù)據(jù)信號(hào),例如在基帶中或者作為載波的一部分。這樣的傳播信號(hào)可以采取各種形式,包括但不限于,電磁信號(hào)或者光學(xué)信號(hào),或者其任何合適的組合。
[0061]計(jì)算機(jī)可讀信號(hào)介質(zhì)可以是除計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)之外的任何計(jì)算機(jī)可讀介質(zhì),其能夠通信、傳播或者傳輸由指令執(zhí)行系統(tǒng)、設(shè)備或者裝置使用或者或者與之結(jié)合使用的程序。
[0062]計(jì)算機(jī)可讀介質(zhì)中所包括的程序編碼可以使用任何適當(dāng)?shù)慕橘|(zhì)被傳送,適當(dāng)?shù)慕橘|(zhì)包括但不限于:無線線路、有線線路、光纜、RF (射頻)等,或者上述的任何合適的組合。
[0063]用于針對本申請的各個(gè)方面而執(zhí)行操作的計(jì)算機(jī)程序編碼可以以一個(gè)或者更多個(gè)編程語目的任何組合來編寫,編程語目包括面向?qū)ο蟮木幊陶Z目例如Java、Smalltalk、C++等,以及常規(guī)程序編程語言,例如“C”編程語言或者類似的編程語言。程序編碼可以作為獨(dú)立軟件包來完全地在用戶的計(jì)算機(jī)上執(zhí)行,或者部分在用戶的計(jì)算機(jī)上執(zhí)行、部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行,或者完全在遠(yuǎn)程計(jì)算機(jī)或者服務(wù)器上執(zhí)行。在后者的場景中,遠(yuǎn)程計(jì)算機(jī)可以通過任意類型的網(wǎng)絡(luò)連接至用戶的計(jì)算機(jī),任意類型的網(wǎng)絡(luò)包括局域網(wǎng)(LAN)或者廣域網(wǎng)(WAN),或者可以連接至外部計(jì)算機(jī)(例如,使用互聯(lián)網(wǎng)服務(wù)運(yùn)營商通過互聯(lián)網(wǎng)連接)。
[0064]以下,通過根據(jù)本申請的實(shí)施方式的方法、設(shè)備(系統(tǒng))和計(jì)算機(jī)程序產(chǎn)品的流程圖圖解和/或框圖來描述本申請的各個(gè)方面。要理解的是,流程圖圖解和/或框圖的每個(gè)框,以及流程圖圖解和/或框圖的框的組合,可以由計(jì)算機(jī)程序指令來實(shí)現(xiàn)??梢詫⑦@些計(jì)算機(jī)程序指令提供給通用計(jì)算機(jī)、專用計(jì)算機(jī)或者其他可編程數(shù)據(jù)處理設(shè)備的處理器,以形成機(jī)器,使得通過計(jì)算機(jī)或者其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令形成用于實(shí)現(xiàn)流程圖和/或框圖的一個(gè)塊或者多個(gè)塊中所指定的功能/動(dòng)作的裝置。
[0065]這些計(jì)算機(jī)程序指令還可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中,其能夠指導(dǎo)計(jì)算機(jī)、其他可編程數(shù)據(jù)處理設(shè)備、或者其他裝置來以特定的方式工作,以使得在計(jì)算機(jī)可讀介質(zhì)中所存儲(chǔ)的指令生產(chǎn)出一種制造品,該制造品包括實(shí)現(xiàn)流程圖和/或框圖的一個(gè)塊或者多個(gè)塊中所指定的功能/動(dòng)作的指令。
[0066]計(jì)算機(jī)編程指令還可以加載到計(jì)算機(jī)、其他可編程數(shù)據(jù)處理設(shè)備或者其他裝置上,以引起一系列要在計(jì)算機(jī)、其他可編程數(shù)據(jù)處理設(shè)備或者其他裝置上進(jìn)行的運(yùn)算操作,從而產(chǎn)生計(jì)算機(jī)實(shí)施的處理,以使得在計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖和/或框圖的一個(gè)塊或者多個(gè)塊中所指定的功能/動(dòng)作的處理。
[0067]以下將詳細(xì)描述本申請的實(shí)施方式,為了清楚起見,按照以下架構(gòu)來組織描述:
[0068]第I部分:音頻處理設(shè)備和方法
[0069]小節(jié)1.1音頻類型
[0070]小節(jié)1.2音頻類型的置信度值和分類器的架構(gòu)
[0071]小節(jié)1.3對音頻類型的置信度值進(jìn)行平滑
[0072]小節(jié)1.4參數(shù)調(diào)整
[0073]小節(jié)1.5參數(shù)平滑
[0074]小節(jié)1.6音頻類型的轉(zhuǎn)換
[0075]小節(jié)1.7實(shí)施方式和應(yīng)用場景的組合
[0076]小節(jié)1.8音頻處理方法
[0077]第2部分:對話增強(qiáng)器控制器和控制方法
[0078]小節(jié)2.1對話增強(qiáng)的級別
[0079]小節(jié)2.2用于確定要增強(qiáng)的頻帶的閾值
[0080]小節(jié)2.3對背景聲級的調(diào)整
[0081]小節(jié)2.4實(shí)施方式和應(yīng)用場景的組合
[0082]小節(jié)2.5對話增強(qiáng)器控制方法
[0083]第3部分:環(huán)繞聲虛擬器控制器和控制方法
[0084]小節(jié)3.1環(huán)繞聲增強(qiáng)量
[0085]小節(jié)3.2起始頻率
[0086]小節(jié)3.3實(shí)施方式和應(yīng)用場景的組合
[0087]小節(jié)3.4環(huán)繞聲虛擬器控制方法
[0088]第4部分:音量校平器控制器和控制方法
[0089]小節(jié)4.1信息性內(nèi)容類型和干擾性內(nèi)容類型
[0090]小節(jié)4.2不同上下文中的內(nèi)容類型
[0091]小節(jié)4.3上下文類型
[0092]小節(jié)4.4實(shí)施方式和應(yīng)用場景的組合
[0093]小節(jié)4.5音量校平器控制方法
[0094]第5部分:均衡控制器和控制方法
[0095]小節(jié)5.1基于內(nèi)容類型的控制
[0096]小節(jié)5.2音樂中存在主導(dǎo)源的可能性
[0097]小節(jié)5.3均衡器的預(yù)置
[0098]小節(jié)5.4基于上下文類型的控制
[0099]小節(jié)5.5實(shí)施方式和應(yīng)用場景的組合
[0100]小節(jié)5.6均衡器控制方法
[0101]第6部分:音頻分類器和分類方法
[0102]小節(jié)6.1基于內(nèi)容類型分類的上下文分類器
[0103]小節(jié)6.2長期特征的提取
[0104]小節(jié)6.3短期特征的提取
[0105]小節(jié)6.4實(shí)施方式和應(yīng)用場景的組合
[0106]小節(jié)6.5音頻分類方法
[0107]第7部分=VoIP分類器和分類方法
[0108]小節(jié)7.1基于短期片段的上下文分類
[0109]小節(jié)7.2使用VoIP語音和VoIP噪聲的分類
[0110]小節(jié)7.3使波動(dòng)平滑
[0111]小節(jié)7.4實(shí)施方式和應(yīng)用場景的組合
[0112]小節(jié)7.5VoIP分類方法
[0113]第I部分:音頻處理設(shè)備和方法
[0114]圖1示出了適應(yīng)于內(nèi)容的音頻處理設(shè)備100的總體框架,該適應(yīng)于內(nèi)容的音頻處理設(shè)備100支持基于回放的音頻內(nèi)容來以改善的參數(shù)自動(dòng)地配置至少一個(gè)音頻改善裝置400。該總體框架包括三個(gè)主要部分:音頻分類器200、調(diào)整單元300和音頻改善裝置400。
[0115]音頻分類器200用于將音頻信號(hào)實(shí)時(shí)地分類到至少一個(gè)音頻類型中。音頻分類器200自動(dòng)地識(shí)別回放內(nèi)容的音頻類型。任何音頻分類技術(shù),比如通過信號(hào)處理、機(jī)器學(xué)習(xí)和模式識(shí)別實(shí)現(xiàn)的音頻分類技術(shù),可以應(yīng)用于識(shí)別音頻內(nèi)容。通??梢酝瑫r(shí)估算置信度值,置信度值代表音頻內(nèi)容針對一組預(yù)定義的目標(biāo)音頻類型的概率。
[0116]音頻改善裝置400用于通過對音頻信號(hào)進(jìn)行處理來提升聽眾體驗(yàn),稍后將會(huì)詳細(xì)描述音頻改善裝置400。
[0117]調(diào)整單元300用于基于至少一個(gè)音頻類型的置信度值來以連續(xù)的方式調(diào)整音頻改善裝置的至少一個(gè)參數(shù)。調(diào)整單元300被設(shè)計(jì)用于操縱音頻改善裝置400的工作方式。調(diào)整單元300基于從音頻分類器200獲得的結(jié)果來估算相應(yīng)音頻改善裝置的最適當(dāng)?shù)膮?shù)。
[0118]在此設(shè)備中可以應(yīng)用各種音頻改善裝置。圖2示出了包括四個(gè)音頻改善裝置的示例性系統(tǒng),該系統(tǒng)中包括對話增強(qiáng)器(Dialog Enhancer, DE) 402、環(huán)繞聲虛擬器(SurroundVirtualizer, SV) 404、音量校平器(Volume Leveler, VL) 406 和均衡器(Equalizer, EQ)408?;谠谝纛l分類器200中獲得的結(jié)果(音頻類型和/或置信度值),能夠以連續(xù)的方式自動(dòng)地調(diào)整每個(gè)音頻改善裝置。
[0119]當(dāng)然,音頻處理設(shè)備可以不必包括所有類別的音頻改善裝置,而可以只包括其中的一個(gè)或者更多個(gè)音頻改善裝置。另一方面,音頻改善裝置不限于本公開內(nèi)容中給出的那些裝置,而可以包括更多類型的音頻改善裝置,其也在本申請的范圍內(nèi)。此外,本公開內(nèi)容中討論的那些音頻改善裝置的名稱,包括對話增強(qiáng)器(DE) 402、環(huán)繞聲虛擬器(SV) 404、音量校平器(VL)406和均衡器(EQ)408,不應(yīng)構(gòu)成限制,它們中的每個(gè)應(yīng)被理解為覆蓋實(shí)現(xiàn)相同或相似功能的任何其他裝置。
[0120]1.1音頻類型
[0121]為了適當(dāng)?shù)乜刂聘鞣N類型的音頻改善裝置,本發(fā)明還提供了音頻類型的新的架構(gòu),然而現(xiàn)有技術(shù)中的那些音頻類型也可以應(yīng)用于此。
[0122]具體地,對不同語意級別的音頻類型進(jìn)行了建模,包括代表音頻信號(hào)中的基本組分的低級別音頻元素和代表實(shí)際生活中用戶的娛樂應(yīng)用中最普遍的音頻內(nèi)容的高級別音頻類型。前者也可以被命名為“內(nèi)容類型”,基本的音頻內(nèi)容類型可以包括語音(speech)、音樂(music,包括歌曲)、背景聲音(background sound,或者音效)和噪聲(noise)。
[0123]語音和音樂的含義不言而喻。在本申請中的噪聲意指物理噪聲,而不是指語意的噪聲。在本申請中,物理噪聲可以包括來自例如空調(diào)的噪聲,以及發(fā)自技術(shù)原因的噪聲例如由于信號(hào)傳輸路徑所導(dǎo)致的粉紅噪聲。相比之下,本申請中的“背景聲音”是那些可以是發(fā)生在聽者注意力的核心目標(biāo)周圍的聽覺事件的音效。例如,在電話通話中的音頻信號(hào)中,除了通話者的聲音,還可以有一些其他的非有意的聲音,例如與該電話通話無關(guān)的一些其他人的聲音、鍵盤的聲音、腳步的聲音等。這些不需要的聲音被稱為“背景聲音”,而不是噪聲。換言之,可以將“背景聲音”定義為并非目標(biāo)(或者聽者注意力的核心目標(biāo))的或者甚至是不希望的,但是仍有一些語意含義的聲音;而“噪聲”可以定義為除了目標(biāo)聲音和背景聲音之外的那些不需要的聲音。
[0124]有時(shí)背景聲音真的不是“不需要的”而是有意生成的并且承載一些有用的信息,例如電影、電視節(jié)目或者無線電廣播節(jié)目中的背景聲音。所以,有時(shí)背景聲音也可以被稱為“音效”。在本公開內(nèi)容的下文中,為了簡潔性而只使用“背景聲音”,并且也可簡稱為“背旦”
-5^ O
[0125]進(jìn)一步,音樂還可以被分為沒有主導(dǎo)源的音樂和有主導(dǎo)源的音樂。如果在音樂片段中有一個(gè)源(嗓音或樂器)遠(yuǎn)比其他源更強(qiáng),則該音樂被稱為“有主導(dǎo)源的音樂”,否則就被稱為“無主導(dǎo)源的音樂”。例如,在伴有歌唱聲和各種樂器的復(fù)調(diào)音樂中,如果其是和聲平衡的,或者若干最主要的源的能量是彼此相當(dāng)?shù)模瑒t其被視為沒有主導(dǎo)源的音樂;相比之下,如果一個(gè)源(例如,嗓音)響度高得多而其他源安靜得多,則其被視為包括了主導(dǎo)源。作為另一個(gè)示例,單個(gè)的或者是突出的樂器音調(diào)是“具有主導(dǎo)源的音樂”。
[0126]音樂還可以基于不同的標(biāo)準(zhǔn)被分為不同的類型。其可以基于音樂的風(fēng)格來分類,例如搖滾、爵士、說唱和民謠,但不限于此。其還可以基于樂器被分類,例如聲樂和器樂。器樂可以包括以不同樂器演奏的各種音樂,例如鋼琴音樂和吉他音樂。其他示例性的標(biāo)準(zhǔn)包括音樂的節(jié)奏、速度、音色和/或任何其他音樂特征,以使得音樂可以基于這些特征的相似性而被歸類。例如,根據(jù)音色,聲樂可以被分為男高音、男中音、男低音、女高音、女中音和女低音。
[0127]音頻信號(hào)的內(nèi)容類型可以針對例如包括多個(gè)幀的短期音頻片段來分類。通常,音頻幀的長度是多個(gè)毫秒,例如20ms,而要被音頻分類器分類的短期音頻片段的長度可以具有從數(shù)百個(gè)毫秒到數(shù)秒的長度,例如I秒。
[0128]為了以適應(yīng)于內(nèi)容的方式來控制音頻改善裝置,音頻信號(hào)可以被實(shí)時(shí)地分類。針對以上所陳述的內(nèi)容類型,當(dāng)前的短期音頻片段的內(nèi)容類型代表當(dāng)前的音頻信號(hào)的內(nèi)容類型。因?yàn)槎唐谝纛l片段的長度不是很長,所以音頻信號(hào)可以被相繼劃分為非重疊的短期音頻片段。但是,短期音頻片段也可以沿著音頻信號(hào)的時(shí)間軸被連續(xù)地/半連續(xù)地取樣。也就是說,短期音頻片段可以用以一個(gè)或者更多個(gè)幀的步長沿著音頻信號(hào)的時(shí)間軸移動(dòng)的預(yù)定長度(所要的短期音頻片段長度)的窗來取樣。
[0129]高級別音頻類型也可以被命名為“上下文類型”,因?yàn)槠渲甘疽纛l信號(hào)的長期類型,并且可以被當(dāng)作是可以分類到上述內(nèi)容類型的瞬時(shí)聲音事件的環(huán)境或者上下文。根據(jù)本申請,上下文類型可以包括最普遍的音頻應(yīng)用,例如電影類媒體(movie-1 ike media)、音樂(music,包括歌曲)、游戲(game)和VoIP (互聯(lián)網(wǎng)協(xié)議語音)。
[0130]音樂、游戲和VoIP的含義不言而喻。電影類媒體可以包括電影、電視節(jié)目、無線電廣播節(jié)目或者與前面提到的類似的任何其他音頻媒體。電影類媒體的主要特征是混合了可能的語音、音樂和各種類型的背景聲音(音效)。
[0131]需要注意的是,內(nèi)容類型和上下文類型都包括音樂(包括歌曲)。在本申請的下文中,使用詞匯“短期音樂(short-term music) ”和“長期音樂(long-term music)”來分別區(qū)分這兩者。
[0132]針對本申請的一些實(shí)施方式,還提出了一些其他的上下文類型架構(gòu)。
[0133]例如,音頻信號(hào)可以被分類為高質(zhì)量的音頻(例如電影類媒體和音樂CD)或者低質(zhì)量的音頻(例如VoIP、低比特率的在線流音頻和用戶生成的內(nèi)容),其可以被統(tǒng)稱為“音頻質(zhì)量類型”。
[0134]作為另一個(gè)示例,音頻信號(hào)可以被分類為VoIP或者非VoIP,其可以被視為上述的4上下文類型架構(gòu)(VoIP、電影類媒體、(長期)音樂和游戲)的變形。與VoIP或者非VoIP的上下文相關(guān)地,音頻信號(hào)可以被分為與VoIP相關(guān)的音頻內(nèi)容類型,例如VoIP語音、非VoIP語音、VoIP噪聲和非VoIP噪聲。VoIP音頻內(nèi)容類型的架構(gòu)對于區(qū)分VoIP和非VoIP上下文尤其有用,因?yàn)閂oIP上下文通常是音量校平器(一種音頻改善裝置)的最具挑戰(zhàn)性的應(yīng)用場景。
[0135]通常,音頻信號(hào)的上下文類型可以針對比短期音頻片段更長的長期音頻片段來分類。長期音頻片段包括的多個(gè)幀的數(shù)量比短期音頻片段中的幀的數(shù)量更多。長期音頻片段也可以包括多個(gè)短期音頻片段。通常,長期音頻片段可以具有秒數(shù)量級的長度,例如數(shù)秒至數(shù)十秒,如10秒。
[0136]類似地,為了以自適應(yīng)的方式來控制音頻改善裝置,音頻信號(hào)可以被實(shí)時(shí)地分類到上下文類型中。類似地,當(dāng)前的長期音頻片段的上下文類型代表當(dāng)前的音頻信號(hào)的上下文類型。因?yàn)殚L期音頻片段的長度相對地長,所以音頻信號(hào)可以沿著音頻信號(hào)的時(shí)間軸被連續(xù)地/半連續(xù)地取樣,以避免其上下文類型的急劇變化以及因此導(dǎo)致的音頻改善裝置的工作參數(shù)的急劇變化。也就是說,長期音頻片段可以使用預(yù)定長度(想要的長期音頻片段長度)的窗以一個(gè)或者更多個(gè)幀的步長,或者以一個(gè)或者更多個(gè)短期片段的步長沿著音頻信號(hào)的時(shí)間軸移動(dòng)來取樣。
[0137]以上已經(jīng)描述了內(nèi)容類型和上下文類型兩者。在本申請的實(shí)施方式中,調(diào)整單元300可以基于各種內(nèi)容類型中的至少一個(gè)內(nèi)容類型和/或各種上下文類型中的至少一個(gè)上下文類型來調(diào)整音頻改善裝置的至少一個(gè)參數(shù)。因此,如圖3所示,在圖1所示的實(shí)施方式的變形中,音頻分類器200可以包括音頻內(nèi)容分類器202或者音頻上下文分類器204,或者兩者。
[0138]以上已經(jīng)提到了基于不同標(biāo)準(zhǔn)(例如針對上下文類型)的不同音頻類型,也提到了基于不同層次級別(例如針對內(nèi)容類型)的不同音頻類型。但是,所述標(biāo)準(zhǔn)和所述層次級別都是為了這里描述的方便而顯然并非限定。換言之,在本申請中,上述的任何兩個(gè)或者更多個(gè)音頻類型可以由音頻分類器200同時(shí)識(shí)別,并且由調(diào)整單元300同時(shí)考慮,如后文所要描述的。換言之,不同層次級別中的所有音頻類型可以是并列的,或者在同一級別中。
[0139]1.2音頻類型的置信度值和分類器的架構(gòu)
[0140]音頻分類器200可以輸出硬判決結(jié)果,或者調(diào)整單元300可以將音頻分類器200的結(jié)果當(dāng)作是硬判決結(jié)果。即使是對于硬判決,也可以將多個(gè)音頻類型分配到音頻片段。例如,音頻片段可以被標(biāo)記為“語音”和“短期音樂”兩者,因?yàn)槠淇梢允钦Z音和短期音樂的混合信號(hào)。所獲得的標(biāo)簽可以被直接用于操縱音頻改善裝置400。簡單的示例是當(dāng)出現(xiàn)語音時(shí)啟用對話增強(qiáng)器402而當(dāng)不存在語音時(shí)關(guān)閉對話增強(qiáng)器402。但是,如果沒有仔細(xì)的平滑方案(將在稍后論述),該硬判決方法可能在從一個(gè)音頻類型到另一個(gè)音頻類型的轉(zhuǎn)換點(diǎn)處引入一些不自然的聲音。
[0141]為了具有更大的靈活性以及能以連續(xù)的方式來調(diào)節(jié)音頻改善裝置的參數(shù),可以估算每個(gè)目標(biāo)音頻類型的置信度值(軟判決)。置信度值代表待識(shí)別音頻內(nèi)容和目標(biāo)音頻類型之間的匹配水平,其值從O到I。
[0142]如前所述,許多分類技術(shù)可以直接輸出置信度值。也可以根據(jù)各種方法來計(jì)算置信度值,這些方法可以被視為分類器的一部分。例如,如果通過一些概率建模技術(shù)例如高斯混合模型(Gaussian Mixture Models, GMM)來訓(xùn)練音頻模型,則后驗(yàn)概率可以被用于表示置信度值,如:
【權(quán)利要求】
1.一種音頻處理設(shè)備,包括: 音頻分類器,用于實(shí)時(shí)地將音頻信號(hào)分類到至少一個(gè)音頻類型中; 音頻改善裝置,用于改善聽眾的體驗(yàn);以及 調(diào)整單元,用于基于所述至少一個(gè)音頻類型的置信度值來以連續(xù)的方式調(diào)整所述音頻改善裝置的至少一個(gè)參數(shù)。
2.根據(jù)權(quán)利要求1所述的音頻處理設(shè)備,其中,所述至少一個(gè)音頻類型包括短期音樂、語音、背景聲音和噪聲內(nèi)容類型中的至少一個(gè)內(nèi)容類型,以及/或者長期音樂、電影類媒體、游戲和VoIP上下文類型中的至少一個(gè)上下文類型。
3.根據(jù)權(quán) 利要求2所述的音頻處理設(shè)備,其中,所述音頻改善裝置包括對話增強(qiáng)器,并且其中,所述調(diào)整單元被配置成使所述對話增強(qiáng)器的對話增強(qiáng)的級別與電影類媒體和/或VoIP的置信度值正相關(guān),并且/或者使所述對話增強(qiáng)器的對話增強(qiáng)的級別與長期音樂和/或游戲的置信度值負(fù)相關(guān)。
4.根據(jù)權(quán)利要求2所述的音頻處理設(shè)備,其中,所述音頻改善裝置包括對話增強(qiáng)器,其中,所述調(diào)整單元被配置成使所述對話增強(qiáng)器的對話增強(qiáng)的級別與語音的置信度值正相關(guān)。
5.根據(jù)權(quán)利要求2所述的音頻處理設(shè)備,其中,所述音頻改善裝置包括對話增強(qiáng)器,用于對相應(yīng)閾值以上的頻帶進(jìn)行增強(qiáng),其中,所述調(diào)整單元被配置成使所述閾值與短期音樂和/或噪聲和/或背景聲音的置信度值正相關(guān),并且/或者使所述閾值與語音的置信度值負(fù)相關(guān)。
6.根據(jù)權(quán)利要求2所述的音頻處理設(shè)備,其中,所述音頻改善裝置包括最小量追蹤單元,用于估計(jì)音頻信號(hào)中的背景聲級,其中,所述調(diào)整單元被配置成對由所述最小量追蹤單元估計(jì)的背景聲級施加一個(gè)調(diào)整量,其中,所述調(diào)整單元還被配置成使所述調(diào)整量與短期音樂和/或噪聲和/或背景聲音的置信度值正相關(guān),并且/或者使所述調(diào)整與語音的置信度值負(fù)相關(guān)。
7.根據(jù)權(quán)利要求2所述的音頻處理設(shè)備,其中,所述音頻改善裝置包括環(huán)繞聲虛擬器,其中,所述調(diào)整單元被配置成使所述環(huán)繞聲虛擬器的環(huán)繞聲增強(qiáng)量與噪聲和/或背景聲音和/或語音的置信度值正相關(guān),并且/或者使所述環(huán)繞聲增強(qiáng)量與短期音樂的置信度值負(fù)相關(guān)。
8.根據(jù)權(quán)利要求2所述的音頻處理設(shè)備,其中,所述音頻改善裝置包括環(huán)繞聲虛擬器,其中所述調(diào)整單元被配置成使所述環(huán)繞聲虛擬器的起始頻率與短期音樂的置信度值正相關(guān)。
9.根據(jù)權(quán)利要求2所述的音頻處理設(shè)備,其中,所述音頻改善裝置包括環(huán)繞聲虛擬器,其中,所述調(diào)整單元被配置成使所述環(huán)繞聲虛擬器的環(huán)繞聲增強(qiáng)量與電影類媒體和/或游戲的置信度值正相關(guān),并且/或者使所述環(huán)繞聲增強(qiáng)量與長期音樂和/或VoIP的置信度值負(fù)相關(guān)。
10.根據(jù)權(quán)利要求2所述的音頻處理設(shè)備,其中,所述調(diào)整單元被配置成基于至少一個(gè)內(nèi)容類型的置信度值和至少一個(gè)上下文類型的置信度值來調(diào)整所述至少一個(gè)參數(shù)。
11.根據(jù)權(quán)利要求10所述的音頻處理設(shè)備,其中,取決于音頻信號(hào)的上下文類型,給不同上下文類型的音頻信號(hào)中的內(nèi)容類型分配不同的權(quán)重。
12.根據(jù)權(quán)利要求1至11中任一項(xiàng)所述的音頻處理設(shè)備,其中,所述調(diào)整單元被配置成:通過基于所述至少一個(gè)音頻類型的重要性對所述至少一個(gè)音頻類型的置信度值進(jìn)行加權(quán)來考慮所述至少一個(gè)音頻類型中的至少一些音頻類型。
13.根據(jù)權(quán)利要求1至11中任一項(xiàng)所述的音頻處理設(shè)備,其中,所述調(diào)整單元被配置成:通過基于所述置信度值對所述至少一個(gè)音頻類型進(jìn)行加權(quán)來考慮所述至少一個(gè)音頻類型中的至少一些音頻類型。
14.根據(jù)權(quán)利要求1至11中任一項(xiàng)所述的音頻處理設(shè)備,其中,所述調(diào)整單元被配置成:使用一個(gè)音頻類型的置信度值來修改另一個(gè)音頻類型的權(quán)重。
15.根據(jù)權(quán)利要求1至11中任一項(xiàng)所述的音頻處理設(shè)備,還包括參數(shù)平滑單元,用于針對由所述調(diào)整單元調(diào)整的所述音頻改善裝置的參數(shù),通過計(jì)算由所述調(diào)整單元當(dāng)次確定的參數(shù)值與上一次的經(jīng)平滑的參數(shù)值的加權(quán)和,來對由所述調(diào)整單元當(dāng)次確定的所述參數(shù)值進(jìn)行平滑。
16.根據(jù)權(quán)利要求15所述的音頻處理設(shè)備,其中,用于計(jì)算所述加權(quán)和的權(quán)重基于由所述調(diào)整單元確定的所述參數(shù)值的增大趨勢或減小趨勢而自適應(yīng)地變化。
17.根據(jù)權(quán)利要求1至11中任一項(xiàng)所述的音頻處理設(shè)備,還包括類型平滑單元,用于針對每個(gè)音頻類型,通過計(jì)算當(dāng)次實(shí)際置信度值與上一次的經(jīng)平滑的置信度值的加權(quán)和來對所述音頻信號(hào)的當(dāng)次置信度值進(jìn)行平滑。
18.根據(jù)權(quán)利要求17所述的音頻處理設(shè)備,其中,用于計(jì)算所述加權(quán)和的權(quán)重基于不同的從一個(gè)音頻類型到另一個(gè)音頻類型的轉(zhuǎn)換對而自適應(yīng)地變化。
19.根據(jù)權(quán)利要求1至11中任一項(xiàng)所述的音頻處理設(shè)備,還包括計(jì)時(shí)器,用于測量所述音頻分類器連續(xù)地輸出同一新的音頻類型的持續(xù)時(shí)間,其中,所述調(diào)整單元被配置成繼續(xù)使用當(dāng)前的音頻類型直到所述新的音頻類型的持續(xù)時(shí)間的長度達(dá)到閾值為止。
20.根據(jù)權(quán)利要求19所述的音頻處理設(shè)備,其中,所述閾值與所述新的音頻類型的置信度值負(fù)相關(guān)。
21.一種音頻分類器,包括: 短期特征提取器,用于從各自包括音頻幀序列的短期音頻片段提取短期特征; 短期分類器,用于使用相應(yīng)的短期特征來將長期音頻片段中的短期片段序列分類到短期首頻類型中; 統(tǒng)計(jì)數(shù)據(jù)提取器,用于計(jì)算所述短期分類器針對所述長期音頻片段中的所述短期片段序列的結(jié)果的統(tǒng)計(jì)數(shù)據(jù),作為長期特征;以及 長期分類器,用于使用所述長期特征來將所述長期音頻片段分類到長期音頻類型中。
22.根據(jù)權(quán)利要求21所述的音頻分類器,其中,所述短期分類器被配置成將所述短期片段序列中的每個(gè)短期片段分類到以下短期音頻類型中的至少一個(gè)短期音頻類型中:語音、短期音樂、背景聲音和噪聲。
23.根據(jù)權(quán)利要求21所述的音頻分類器,其中,所述統(tǒng)計(jì)數(shù)據(jù)提取器被配置成計(jì)算下列的至少之一作為所述長期特征:所述短期音頻類型的置信度值的平均值和方差;由所述短期片段的重要度加權(quán)的所述平均值和所述方差;每個(gè)所述短期音頻類型的出現(xiàn)頻率;以及在不同的所述短期音頻類型之間轉(zhuǎn)換的頻率。
24.根據(jù)權(quán)利要求21至23中任一項(xiàng)所述的音頻分類器,還包括:幀級特征提取器,用于從音頻幀提取幀級特征;以及 幀級分類器,用于使用相應(yīng)的所述幀級特征來將所述音頻幀序列中的每個(gè)音頻幀分類到幀級音頻類型中;并且 所述短期特征提取器被配置為基于所述幀級分類器針對所述音頻幀序列的結(jié)果來計(jì)算所述短期特征。
25.根據(jù)權(quán)利要求24所述的音頻分類器,其中,所述短期特征提取器被配置成基于從所述音頻幀序列提取的所述幀級特征和所述幀級分類器針對所述音頻幀序列的結(jié)果兩者來計(jì)算所述短期特征。
26.—種音頻處理方法,包括: 實(shí)時(shí)地將音頻信號(hào)分類到至少一個(gè)音頻類型中;以及 基于所述至少一個(gè)音頻類型的置信度值來連續(xù)地調(diào)整至少一個(gè)用于音頻改善的參數(shù)。
27.根據(jù)權(quán)利要求26所述的音頻處理方法,其中,所述至少一個(gè)音頻類型包括短期音樂、語音、背景聲音和噪聲內(nèi)容類型中的至少一個(gè)內(nèi)容類型,以及/或者長期音樂、電影類媒體、游戲和VoIP上下文類型中的至少一個(gè)上下文類型。
28.根據(jù)權(quán)利要求27所述的音頻處理方法,還包括對話增強(qiáng)處理,并且所述調(diào)整的操作包括使對話增強(qiáng)的級別與電影類媒體和/或VoIP的置信度值正相關(guān),并且/或者使對話增強(qiáng)的級別與長期音 樂和/或游戲的置信度值負(fù)相關(guān)。
29.根據(jù)權(quán)利要求27所述的音頻處理方法,還包括對話增強(qiáng)處理,并且所述調(diào)整的操作包括使對話增強(qiáng)的級別與語音的置信度值正相關(guān)。
30.根據(jù)權(quán)利要求27所述的音頻處理方法,還包括對話增強(qiáng)處理,用于對相應(yīng)閾值以上的頻帶進(jìn)行增強(qiáng),并且所述調(diào)整的操作包括使所述閾值與短期音樂和/或噪聲和/或背景聲音的置信度值正相關(guān),并且/或者使所述閾值與語音的置信度值負(fù)相關(guān)。
31.根據(jù)權(quán)利要求27所述的音頻處理方法,還包括估計(jì)所述音頻信號(hào)中的背景聲級,其中,所述調(diào)整的操作被配置成對所估計(jì)的背景聲級施加一個(gè)調(diào)整量,其中,所述調(diào)整的操作還被配置成使所述調(diào)整量與短期音樂和/或噪聲和/或背景聲音的置信度值正相關(guān),并且/或者使所述調(diào)整量與語音的置信度值負(fù)相關(guān)。
32.根據(jù)權(quán)利要求27所述的音頻處理方法,還包括環(huán)繞聲虛擬處理,其中,所述調(diào)整的操作被配置成使所述環(huán)繞聲虛擬處理的環(huán)繞聲增強(qiáng)量與噪聲和/或背景聲音和/或語音的置信度值正相關(guān),并且/或者使所述環(huán)繞聲增強(qiáng)量與短期音樂的置信度值負(fù)相關(guān)。
33.根據(jù)權(quán)利要求27所述的音頻處理方法,還包括環(huán)繞聲虛擬處理,其中,所述調(diào)整的操作被配置成使所述環(huán)繞聲虛擬處理的起始頻率與短期音樂的置信度值正相關(guān)。
34.根據(jù)權(quán)利要求27所述的音頻處理方法,還包括環(huán)繞聲虛擬處理,其中,所述調(diào)整的操作被配置成使所述環(huán)繞聲虛擬處理的環(huán)繞聲增強(qiáng)量與電影類媒體和/或游戲的置信度值正相關(guān),并且/或者使所述環(huán)繞聲增強(qiáng)量與長期音樂和/或VoIP的置信度值負(fù)相關(guān)。
35.根據(jù)權(quán)利要求27所述的音頻處理方法,其中,所述調(diào)整的操作被配置成基于至少一個(gè)內(nèi)容類型的置信度值和至少一個(gè)上下文類型的置信度值來調(diào)整所述至少一個(gè)參數(shù)。
36.根據(jù)權(quán)利要求35所述的音頻處理方法,其中,取決于音頻信號(hào)的上下文類型,給不同上下文類型的音頻信號(hào)中的內(nèi)容類型分配不同的權(quán)重。
37.根據(jù)權(quán)利要求26至36中任一項(xiàng)所述的音頻處理方法,其中,所述調(diào)整的操作被配置成通過基于所述至少一個(gè)音頻類型的重要性對所述至少一個(gè)音頻類型的置信度值進(jìn)行加權(quán)來考慮所述至少一個(gè)音頻類型中的至少一些音頻類型。
38.根據(jù)權(quán)利要求26至36中任一項(xiàng)所述的音頻處理方法,其中,所述調(diào)整的操作被配置成通過基于所述置信度值對所述至少一個(gè)音頻類型進(jìn)行加權(quán)來考慮所述至少一個(gè)音頻類型中的至少一些音頻類型。
39.根據(jù)權(quán)利要求26至36中任一項(xiàng)所述的音頻處理方法,其中,所述調(diào)整的操作被配置成使用一個(gè)音頻類型的置信度值來修改另一個(gè)音頻類型的權(quán)重。
40.根據(jù)權(quán)利要求26至36中任一項(xiàng)所述的音頻處理方法,還包括:針對要由所述調(diào)整的操作調(diào)整的參數(shù),通過計(jì)算由所述調(diào)整的操作當(dāng)次確定的參數(shù)值與上一次的經(jīng)平滑的參數(shù)值的加權(quán)和,來對由所述調(diào)整的操作當(dāng)次確定的參數(shù)值進(jìn)行平滑。
41.根據(jù)權(quán)利要求40所述的音頻處理方法,其中,用于計(jì)算所述加權(quán)和的權(quán)重基于由所述調(diào)整的操作確定的參數(shù)值的增大趨勢或者減小趨勢而自適應(yīng)地變化。
42.根據(jù)權(quán)利要求26至36中任一項(xiàng)所述的音頻處理方法,還包括:針對每個(gè)音頻類型,通過計(jì)算當(dāng)次實(shí)際置信度值與上一次的經(jīng)平滑的置信度值的加權(quán)和來對所述音頻信號(hào)的當(dāng)次置信度值進(jìn)行平滑。
43.根據(jù)權(quán)利要求42所述的音頻處理方法,其中,用于計(jì)算所述加權(quán)和的權(quán)重基于不同的從一個(gè)音頻類型到另一個(gè)音頻類型的轉(zhuǎn)換對而自適應(yīng)地變化。
44.根據(jù)權(quán)利要求2 6至36中任一項(xiàng)所述的音頻處理方法,還包括:測量所述分類的操作連續(xù)地輸出同一新的音頻類型的持續(xù)時(shí)間,其中,所述調(diào)整的操作被配置成繼續(xù)使用當(dāng)前的音頻類型,直到所述新的音頻類型的持續(xù)時(shí)間的長度達(dá)到閾值為止。
45.根據(jù)權(quán)利要求44所述的音頻處理方法,其中,所述閾值與所述新的音頻類型的置信度值負(fù)相關(guān)。
46.一種音頻分類方法,包括: 從各自包括音頻幀序列的短期音頻片段提取短期特征; 使用相應(yīng)的短期特征將長期音頻片段中的短期片段序列分類到短期音頻類型中; 計(jì)算上述分類操作針對所述長期音頻片段中的所述短期片段序列的結(jié)果的統(tǒng)計(jì)數(shù)據(jù),作為長期特征;以及 使用所述長期特征將所述長期音頻片段分類到長期音頻類型中。
47.根據(jù)權(quán)利要求46所述的音頻分類方法,其中,將所述短期片段序列中的每個(gè)短期片段分類到以下短期音頻類型中的至少一個(gè)短期音頻類型中:語音、短期音樂、背景聲音和噪聲。
48.根據(jù)權(quán)利要求46所述的音頻分類方法,其中,所述計(jì)算的操作被配置成計(jì)算下列的至少之一作為所述長期特征:所述短期音頻類型的置信度值的平均值和方差;由所述短期片段的重要度加權(quán)的所述平均值和所述方差;每個(gè)短期音頻類型的出現(xiàn)頻率;以及在不同的短期音頻類型之間轉(zhuǎn)換的頻率。
49.根據(jù)權(quán)利要求46至48中任一項(xiàng)所述的音頻分類方法,還包括: 從音頻幀提取幀級特征;以及 使用相應(yīng)的幀級特征將所述音頻幀序列中的每個(gè)音頻幀分類到幀級音頻類型中;以及 提取短期特征的操作包括:基于所述音頻幀序列的所述幀級音頻類型來計(jì)算所述短期特征。
50.根據(jù)權(quán)利要求49所述的音頻分類方法,其中,所述提取短期特征的操作包括:基于從所述音頻幀序列提取的所述幀級特征和所述音頻幀序列的所述幀級音頻類型兩者來計(jì)算所述短期特 征。
【文檔編號(hào)】G10L25/48GK104078050SQ201310100367
【公開日】2014年10月1日 申請日期:2013年3月26日 優(yōu)先權(quán)日:2013年3月26日
【發(fā)明者】蘆烈, 阿蘭·西費(fèi)爾特, 王珺 申請人:杜比實(shí)驗(yàn)室特許公司