音頻數(shù)據(jù)的處理方法及裝置的制造方法_2

文檔序號：8396671閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)>音頻數(shù)據(jù)的處理方法及裝置的制造方法

，本實施例對此不進(jìn)行特別限定。
[0化9] 需要說明的是，101~103的執(zhí)行主體的部分或全部可W為位于本地終端的應(yīng)用，或者還可W為位于本地終端的應(yīng)用中的插件或軟件開發(fā)工具包（SoftwareDevelopment Kit,SDK)等功能單元，或者還可W為位于網(wǎng)絡(luò)側(cè)的服務(wù)器中的處理引擎，或者還可W為位于網(wǎng)絡(luò)側(cè)的分布式系統(tǒng)，本實施例對此不進(jìn)行特別限定，本實施例對此不進(jìn)行特別限定。
[0060] 可W理解的是，所述應(yīng)用可W是安裝在終端上的本地程序（nativeApp)，或者還可 W是終端上的瀏覽器的一個網(wǎng)頁程序（webApp)，本實施例對此不進(jìn)行特別限定。
[0061] 該樣，由于將高頻段的音頻數(shù)據(jù)即擴展音頻數(shù)據(jù)增加到低頻段的音頻數(shù)據(jù)即原始音頻數(shù)據(jù)中，使得所獲得的目標(biāo)音頻數(shù)據(jù)不再只具有低頻段的音頻數(shù)據(jù)，而且還具有高頻段的音頻數(shù)據(jù)，該樣，才能夠向用戶提供真正的高音質(zhì)的音頻文件，使用戶能夠欣賞真正的高音質(zhì)的音頻文件。
[0062] 本發(fā)明中所設(shè)及的聲學(xué)特征即原始聲學(xué)特征、擴展聲學(xué)特征、第一聲學(xué)特征和第二聲學(xué)特征中的任意一個，可W包括但不限于線性預(yù)測（LinearPredictionCoding，LPC) 系數(shù)、線性預(yù)測倒譜系數(shù)（LinearPredictionCepstrumCoefficient,LPCC)、梅爾頻率倒譜系數(shù)（MelRrequen巧CepstrumCoefficient,MFCC)或感知線性預(yù)測（Perceptual LinearPredictive,PLP)系數(shù)，本實施例對此不進(jìn)行特別限定。
[0063] 可選地，在本實施例的一個可能的實現(xiàn)方式中，在101中，具體可W通過對待處理的音頻文件的數(shù)據(jù)塊進(jìn)行解碼處理，獲得所述原始音頻數(shù)據(jù)。所謂的原始音頻數(shù)據(jù)，是由對音頻信號轉(zhuǎn)換而來的數(shù)字信號，例如，對所述音頻信號進(jìn)行抽樣、量化和編碼處理，W獲得脈沖編碼調(diào)制（PulseCodeMo化lation，PCM)數(shù)據(jù)。解碼處理的詳細(xì)描述可W參見現(xiàn)有技術(shù)中的相關(guān)內(nèi)容，此處不再寶述。
[0064] 其中，所述待處理的音頻文件可W包括現(xiàn)有技術(shù)中各種編碼格式的音頻文件，例如，動態(tài)圖像專家組（MovingPic1:ureExpertsGroup,MPEG)層 3(MPEGLayer-3，MP3)格式音頻文件、WMA(WindowsMediaAudio)格式音頻文件、高級音頻編碼（AdvancedAudio Coding,AAC)格式音頻文件、無損音頻壓縮編碼（RreeLosslessAudioCodec,FLAG)或 APE格式音頻文件等，本實施例對此不進(jìn)行特別限定。
[00化]本實施例中，通過執(zhí)行101，所獲得的所述原始音頻數(shù)據(jù)，可W為一個聲道所對應(yīng) 的原始音頻數(shù)據(jù)，如果音頻文件存在多個聲道，具體可W對每個聲道所對應(yīng)的原始音頻數(shù) 據(jù)，都分別執(zhí)行后續(xù)的處理流程即102~103。
[0066] 在一個具體的實現(xiàn)過程中，具體可W確定所述音頻文件的聲道數(shù)目，W及對所述音頻文件的數(shù)據(jù)塊進(jìn)行解碼處理，W獲得原始音頻數(shù)據(jù)。然后，則可W根據(jù)所述聲道數(shù)目和所述原始音頻數(shù)據(jù)，獲得每個聲道所對應(yīng)的原始音頻數(shù)據(jù)。
[0067] 例如，具體可W對所述音頻文件的帖頭進(jìn)行解析處理，W確定所述音頻文件的聲道數(shù)目。
[0068] 或者再例如，具體可W對所述音頻文件的文件頭進(jìn)行解析處理，W確定所述音頻文件的聲道數(shù)目。
[0069] 或者再例如，具體可W對音頻文件的其他部分進(jìn)行解析處理，W確定所述音頻文件的聲道數(shù)目，本實施例對此不進(jìn)行特別限定。
[0070] 或者再例如，具體還可W從配置文件中，獲得所述音頻文件的聲道數(shù)目。
[0071] 可W理解的是，"確定所述音頻文件的聲道數(shù)目"，W及"對所述音頻文件的數(shù)據(jù)塊進(jìn)行解碼處理，W獲得原始音頻數(shù)據(jù)"的兩個步驟，沒有固定順序，所述處理裝置可W先執(zhí) 行"確定所述音頻文件的聲道數(shù)目"的步驟，再執(zhí)行"對所述音頻文件的數(shù)據(jù)塊進(jìn)行解碼處理，W獲得原始音頻數(shù)據(jù)"的步驟，或者還可W先執(zhí)行"對所述音頻文件的數(shù)據(jù)塊進(jìn)行解碼處理，W獲得原始音頻數(shù)據(jù)"的步驟，再執(zhí)行"確定所述音頻文件的聲道數(shù)目"的步驟，或者還可W同時執(zhí)行該兩個步驟，本實施例對此不進(jìn)行特別限定。
[0072] 可選地，在本實施例的一個可能的實現(xiàn)方式中，在102中，具體可W根據(jù)所述原始音頻數(shù)據(jù)，獲得所述原始音頻數(shù)據(jù)的原始聲學(xué)特征，進(jìn)而，則可W根據(jù)所述原始聲學(xué)特征，獲得所述擴展聲學(xué)特征。然后，可W根據(jù)所述擴展聲學(xué)特征，獲得所述擴展音頻數(shù)據(jù)。
[0073] 在一具體的技術(shù)方案，具體可W對所述原始音頻數(shù)據(jù)進(jìn)行分帖處理，W獲得至少一帖數(shù)據(jù)，進(jìn)而對至少一帖數(shù)據(jù)中每帖數(shù)據(jù)進(jìn)行聲學(xué)分析處理，W獲得每帖數(shù)據(jù)的原始聲學(xué)特征。
[0074] 例如，可W對所述原始音頻數(shù)據(jù)按照預(yù)設(shè)時間間隔，例如，20ms，進(jìn)行分帖處理，且相鄰帖之間有部分的數(shù)據(jù)重疊，例如50%的數(shù)據(jù)重疊，該樣，能夠獲得所述原始音頻數(shù)據(jù)的至少一帖數(shù)據(jù)。
[0075] 下面將W進(jìn)行LPC分析為例，對具體的實現(xiàn)過程進(jìn)行詳細(xì)說明。LPC分析從人的發(fā) 聲機理入手，通過對聲道的短管級聯(lián)模型的研究，認(rèn)為系統(tǒng)的傳遞函數(shù)符合全極點數(shù)字濾波器的形式，從而n(n為大于0的數(shù)）時刻的信號可W用前若干時刻的信號的線性組合來估計。通過使實際音頻信號的采樣值和線性預(yù)測采樣值之間達(dá)到最小均方差（LeastMean Square,LM巧，即可得到LPC系數(shù)。
[0076] 例如，如果利用P個采樣值來進(jìn)行預(yù)測，則成為P階線性預(yù)測。假設(shè)用前P個時刻的采樣值{s(n-l)，s(n-2)，……，s(n-P)}的加權(quán)之和，來預(yù)測音頻信號當(dāng)前的采樣值 8(。)，貝順測信號《如)為；
[0077]
【主權(quán)項】
1. 一種音頻數(shù)據(jù)的處理方法，其特征在于，包括：獲取待處理的原始音頻數(shù)據(jù)；所述原始音頻數(shù)據(jù)所對應(yīng)的音頻信號的頻段為第一信號頻段；根據(jù)所述原始音頻數(shù)據(jù)，獲得擴展音頻數(shù)據(jù)；所述擴展音頻數(shù)據(jù)所對應(yīng)的音頻信號的頻段為第二信號頻段；所述第二信號頻段高于所述第一信號頻段；根據(jù)所述原始音頻數(shù)據(jù)和所述擴展音頻數(shù)據(jù)，獲得目標(biāo)音頻數(shù)據(jù)。
2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述第一信號頻段為大于或等于0,且小于或等于第一頻段闊值；所述第二信號頻段為大于所述第一頻段闊值，且小于或等于第二頻段闊值。
3. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述原始音頻數(shù)據(jù)，獲得擴展音頻數(shù)據(jù)，包括：根據(jù)所述原始音頻數(shù)據(jù)，獲得所述原始音頻數(shù)據(jù)的原始聲學(xué)特征；根據(jù)所述原始聲學(xué)特征，獲得所述擴展聲學(xué)特征；根據(jù)所述擴展聲學(xué)特征，獲得所述擴展音頻數(shù)據(jù)。
4. 根據(jù)權(quán)利要求3所述的方法，其特征在于，所述根據(jù)所述原始聲學(xué)特征，獲得所述擴展聲學(xué)特征，包括：根據(jù)所述原始聲學(xué)特征，利用原始聲學(xué)特征與擴展聲學(xué)特征之間的轉(zhuǎn)換關(guān)系，獲得所述擴展聲學(xué)特征。
5. 根據(jù)權(quán)利要求4所述的方法，其特征在于，所述根據(jù)所述原始聲學(xué)特征，利用原始聲學(xué)特征與擴展聲學(xué)特征之間的轉(zhuǎn)換關(guān)系，獲得所述擴展聲學(xué)特征之后，還包括：獲得至少一個樣本音頻數(shù)據(jù)；根據(jù)所述至少一個樣本音頻數(shù)據(jù)中每個樣本音頻數(shù)據(jù)，獲得所述每個樣本音頻數(shù)據(jù)的第一音頻數(shù)據(jù)和所述每個樣本音頻數(shù)據(jù)的第二音頻數(shù)據(jù)；所述第一音頻數(shù)據(jù)所對應(yīng)的音頻信號的頻段為所述第一信號頻段；所述第二音頻數(shù)據(jù)所對應(yīng)的音頻信號的頻段為所述第二信號頻段；根據(jù)所述第一音頻數(shù)據(jù)，獲得所述每個樣本音頻數(shù)據(jù)的第一聲學(xué)特征；根據(jù)所述第二音頻數(shù)據(jù)，獲得所述每個樣本音頻數(shù)據(jù)的第二聲學(xué)特征；根據(jù)所述每個樣本音頻數(shù)據(jù)的第一聲學(xué)特征和所述每個樣本音頻數(shù)據(jù)的第二聲學(xué)特征，利用深度學(xué)習(xí)算法，獲得所述轉(zhuǎn)換關(guān)系。
6. 根據(jù)權(quán)利要求3~5任一權(quán)利要求所述的方法，其特征在于，所述聲學(xué)特征包括線性預(yù)測LPC系數(shù)、線性預(yù)測倒譜系數(shù)LPCC、梅爾頻率倒譜系數(shù)MFCC或感知線性預(yù)測PLP系數(shù)。
7. -種音頻數(shù)據(jù)的處理裝置，其特征在于，包括：獲取單元，用于獲取待處理的原始音頻數(shù)據(jù)；所述原始音頻數(shù)據(jù)所對應(yīng)的音頻信號的頻段為第一信號頻段；特征單元，用于根據(jù)所述原始音頻數(shù)據(jù)，獲得擴展音頻數(shù)據(jù)；所述擴展音頻數(shù)據(jù)所對應(yīng) 的音頻信號的頻段為第二信號頻段；所述第二信號頻段高于所述第一信號頻段；處理單元，用于根據(jù)所述原始音頻數(shù)據(jù)和所述擴展音頻數(shù)據(jù)，獲得目標(biāo)音頻數(shù)據(jù)。
8. 根據(jù)權(quán)利要求7所述的裝置，其特征在于，所述第一信號頻段為大于或等于0,且小于或等于第一頻段闊值；所述第二信號頻段為大于所述第一頻段闊值，且小于或等于第二頻段闊值。
9. 根據(jù)權(quán)利要求7所述的裝置，其特征在于，所述特征單元，具體用于根據(jù)所述原始音頻數(shù)據(jù)，獲得所述原始音頻數(shù)據(jù)的原始聲學(xué)特征；根據(jù)所述原始聲學(xué)特征，獲得所述擴展聲學(xué)特征；W及根據(jù)所述擴展聲學(xué)特征，獲得所述擴展音頻數(shù)據(jù)。
10. 根據(jù)權(quán)利要求9所述的裝置，其特征在于，所述特征單元，具體用于根據(jù)所述原始聲學(xué)特征，利用原始聲學(xué)特征與擴展聲學(xué)特征之間的轉(zhuǎn)換關(guān)系，獲得所述擴展聲學(xué)特征。
11. 根據(jù)權(quán)利要求10所述的裝置，其特征在于，所述特征單元，還用于獲得至少一個樣本音頻數(shù)據(jù)；根據(jù)所述至少一個樣本音頻數(shù)據(jù)中每個樣本音頻數(shù)據(jù)，獲得所述每個樣本音頻數(shù)據(jù)的第一音頻數(shù)據(jù)和所述每個樣本音頻數(shù)據(jù)的第二音頻數(shù)據(jù)；所述第一音頻數(shù)據(jù)所對應(yīng)的音頻信號的頻段為所述第一信號頻段；所述第二音頻數(shù)據(jù)所對應(yīng)的音頻信號的頻段為所述第二信號頻段；根據(jù)所述第一音頻數(shù)據(jù)，獲得所述每個樣本音頻數(shù)據(jù)的第一聲學(xué)特征；根據(jù)所述第二音頻數(shù)據(jù)，獲得所述每個樣本音頻數(shù)據(jù)的第二聲學(xué)特征；W及根據(jù)所述每個樣本音頻數(shù)據(jù)的第一聲學(xué)特征和所述每個樣本音頻數(shù)據(jù)的第二聲學(xué)特征，利用深度學(xué)習(xí)算法，獲得所述轉(zhuǎn)換關(guān)系。
12. 根據(jù)權(quán)利要求7~11任一權(quán)利要求所述的裝置，其特征在于，所述聲學(xué)特征包括線性預(yù)測LPC系數(shù)、線性預(yù)測倒譜系數(shù)LPCC、梅爾頻率倒譜系數(shù)MFCC或感知線性預(yù)測PLP系數(shù)。
【專利摘要】本發(fā)明提供一種音頻數(shù)據(jù)的處理方法及裝置。本發(fā)明實施例由于將高頻段的音頻數(shù)據(jù)即擴展音頻數(shù)據(jù)增加到原始音頻數(shù)據(jù)中，使得所獲得的目標(biāo)音頻數(shù)據(jù)不再只具有低頻段的音頻數(shù)據(jù)即原始音頻數(shù)據(jù)，而且還具有高頻段的音頻數(shù)據(jù)，這樣，才能夠向用戶提供真正的高音質(zhì)的音頻文件，使用戶能夠欣賞真正的高音質(zhì)的音頻文件。
【IPC分類】G10L21-007
【公開號】CN104715756
【申請?zhí)枴緾N201510069567
【發(fā)明人】田彪
【申請人】百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司
【公開日】2015年6月17日
【申請日】2015年2月10日

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2

相關(guān)技術(shù)