,本實施例對此不進(jìn)行特別限定。
[0化9] 需要說明的是,101~103的執(zhí)行主體的部分或全部可W為位于本地終端的應(yīng)用, 或者還可W為位于本地終端的應(yīng)用中的插件或軟件開發(fā)工具包(SoftwareDevelopment Kit,SDK)等功能單元,或者還可W為位于網(wǎng)絡(luò)側(cè)的服務(wù)器中的處理引擎,或者還可W為位 于網(wǎng)絡(luò)側(cè)的分布式系統(tǒng),本實施例對此不進(jìn)行特別限定,本實施例對此不進(jìn)行特別限定。
[0060] 可W理解的是,所述應(yīng)用可W是安裝在終端上的本地程序(nativeApp),或者還可 W是終端上的瀏覽器的一個網(wǎng)頁程序(webApp),本實施例對此不進(jìn)行特別限定。
[0061] 該樣,由于將高頻段的音頻數(shù)據(jù)即擴展音頻數(shù)據(jù)增加到低頻段的音頻數(shù)據(jù)即原始 音頻數(shù)據(jù)中,使得所獲得的目標(biāo)音頻數(shù)據(jù)不再只具有低頻段的音頻數(shù)據(jù),而且還具有高頻 段的音頻數(shù)據(jù),該樣,才能夠向用戶提供真正的高音質(zhì)的音頻文件,使用戶能夠欣賞真正的 高音質(zhì)的音頻文件。
[0062] 本發(fā)明中所設(shè)及的聲學(xué)特征即原始聲學(xué)特征、擴展聲學(xué)特征、第一聲學(xué)特征和第 二聲學(xué)特征中的任意一個,可W包括但不限于線性預(yù)測(LinearPredictionCoding,LPC) 系數(shù)、線性預(yù)測倒譜系數(shù)(LinearPredictionCepstrumCoefficient,LPCC)、梅爾頻率 倒譜系數(shù)(MelRrequen巧CepstrumCoefficient,MFCC)或感知線性預(yù)測(Perceptual LinearPredictive,PLP)系數(shù),本實施例對此不進(jìn)行特別限定。
[0063] 可選地,在本實施例的一個可能的實現(xiàn)方式中,在101中,具體可W通過對待處理 的音頻文件的數(shù)據(jù)塊進(jìn)行解碼處理,獲得所述原始音頻數(shù)據(jù)。所謂的原始音頻數(shù)據(jù),是由對 音頻信號轉(zhuǎn)換而來的數(shù)字信號,例如,對所述音頻信號進(jìn)行抽樣、量化和編碼處理,W獲得 脈沖編碼調(diào)制(PulseCodeMo化lation,PCM)數(shù)據(jù)。解碼處理的詳細(xì)描述可W參見現(xiàn)有技 術(shù)中的相關(guān)內(nèi)容,此處不再寶述。
[0064] 其中,所述待處理的音頻文件可W包括現(xiàn)有技術(shù)中各種編碼格式的音頻文件,例 如,動態(tài)圖像專家組(MovingPic1:ureExpertsGroup,MPEG)層 3(MPEGLayer-3,MP3)格 式音頻文件、WMA(WindowsMediaAudio)格式音頻文件、高級音頻編碼(AdvancedAudio Coding,AAC)格式音頻文件、無損音頻壓縮編碼(RreeLosslessAudioCodec,FLAG)或 APE格式音頻文件等,本實施例對此不進(jìn)行特別限定。
[00化]本實施例中,通過執(zhí)行101,所獲得的所述原始音頻數(shù)據(jù),可W為一個聲道所對應(yīng) 的原始音頻數(shù)據(jù),如果音頻文件存在多個聲道,具體可W對每個聲道所對應(yīng)的原始音頻數(shù) 據(jù),都分別執(zhí)行后續(xù)的處理流程即102~103。
[0066] 在一個具體的實現(xiàn)過程中,具體可W確定所述音頻文件的聲道數(shù)目,W及對所述 音頻文件的數(shù)據(jù)塊進(jìn)行解碼處理,W獲得原始音頻數(shù)據(jù)。然后,則可W根據(jù)所述聲道數(shù)目和 所述原始音頻數(shù)據(jù),獲得每個聲道所對應(yīng)的原始音頻數(shù)據(jù)。
[0067] 例如,具體可W對所述音頻文件的帖頭進(jìn)行解析處理,W確定所述音頻文件的聲 道數(shù)目。
[0068] 或者再例如,具體可W對所述音頻文件的文件頭進(jìn)行解析處理,W確定所述音頻 文件的聲道數(shù)目。
[0069] 或者再例如,具體可W對音頻文件的其他部分進(jìn)行解析處理,W確定所述音頻文 件的聲道數(shù)目,本實施例對此不進(jìn)行特別限定。
[0070] 或者再例如,具體還可W從配置文件中,獲得所述音頻文件的聲道數(shù)目。
[0071] 可W理解的是,"確定所述音頻文件的聲道數(shù)目",W及"對所述音頻文件的數(shù)據(jù)塊 進(jìn)行解碼處理,W獲得原始音頻數(shù)據(jù)"的兩個步驟,沒有固定順序,所述處理裝置可W先執(zhí) 行"確定所述音頻文件的聲道數(shù)目"的步驟,再執(zhí)行"對所述音頻文件的數(shù)據(jù)塊進(jìn)行解碼處 理,W獲得原始音頻數(shù)據(jù)"的步驟,或者還可W先執(zhí)行"對所述音頻文件的數(shù)據(jù)塊進(jìn)行解碼 處理,W獲得原始音頻數(shù)據(jù)"的步驟,再執(zhí)行"確定所述音頻文件的聲道數(shù)目"的步驟,或者 還可W同時執(zhí)行該兩個步驟,本實施例對此不進(jìn)行特別限定。
[0072] 可選地,在本實施例的一個可能的實現(xiàn)方式中,在102中,具體可W根據(jù)所述原始 音頻數(shù)據(jù),獲得所述原始音頻數(shù)據(jù)的原始聲學(xué)特征,進(jìn)而,則可W根據(jù)所述原始聲學(xué)特征, 獲得所述擴展聲學(xué)特征。然后,可W根據(jù)所述擴展聲學(xué)特征,獲得所述擴展音頻數(shù)據(jù)。
[0073] 在一具體的技術(shù)方案,具體可W對所述原始音頻數(shù)據(jù)進(jìn)行分帖處理,W獲得至少 一帖數(shù)據(jù),進(jìn)而對至少一帖數(shù)據(jù)中每帖數(shù)據(jù)進(jìn)行聲學(xué)分析處理,W獲得每帖數(shù)據(jù)的原始聲 學(xué)特征。
[0074] 例如,可W對所述原始音頻數(shù)據(jù)按照預(yù)設(shè)時間間隔,例如,20ms,進(jìn)行分帖處理,且 相鄰帖之間有部分的數(shù)據(jù)重疊,例如50%的數(shù)據(jù)重疊,該樣,能夠獲得所述原始音頻數(shù)據(jù)的 至少一帖數(shù)據(jù)。
[0075] 下面將W進(jìn)行LPC分析為例,對具體的實現(xiàn)過程進(jìn)行詳細(xì)說明。LPC分析從人的發(fā) 聲機理入手,通過對聲道的短管級聯(lián)模型的研究,認(rèn)為系統(tǒng)的傳遞函數(shù)符合全極點數(shù)字濾 波器的形式,從而n(n為大于0的數(shù))時刻的信號可W用前若干時刻的信號的線性組合來 估計。通過使實際音頻信號的采樣值和線性預(yù)測采樣值之間達(dá)到最小均方差(LeastMean Square,LM巧,即可得到LPC系數(shù)。
[0076] 例如,如果利用P個采樣值來進(jìn)行預(yù)測,則成為P階線性預(yù)測。假設(shè)用前P個時 刻的采樣值{s(n-l),s(n-2),……,s(n-P)}的加權(quán)之和,來預(yù)測音頻信號當(dāng)前的采樣值 8(。),貝順測信號《如)為;
[0077]
【主權(quán)項】
1. 一種音頻數(shù)據(jù)的處理方法,其特征在于,包括: 獲取待處理的原始音頻數(shù)據(jù);所述原始音頻數(shù)據(jù)所對應(yīng)的音頻信號的頻段為第一信號 頻段; 根據(jù)所述原始音頻數(shù)據(jù),獲得擴展音頻數(shù)據(jù);所述擴展音頻數(shù)據(jù)所對應(yīng)的音頻信號的 頻段為第二信號頻段;所述第二信號頻段高于所述第一信號頻段; 根據(jù)所述原始音頻數(shù)據(jù)和所述擴展音頻數(shù)據(jù),獲得目標(biāo)音頻數(shù)據(jù)。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第一信號頻段為大于或等于0,且小 于或等于第一頻段闊值;所述第二信號頻段為大于所述第一頻段闊值,且小于或等于第二 頻段闊值。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述原始音頻數(shù)據(jù),獲得擴展音 頻數(shù)據(jù),包括: 根據(jù)所述原始音頻數(shù)據(jù),獲得所述原始音頻數(shù)據(jù)的原始聲學(xué)特征; 根據(jù)所述原始聲學(xué)特征,獲得所述擴展聲學(xué)特征; 根據(jù)所述擴展聲學(xué)特征,獲得所述擴展音頻數(shù)據(jù)。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述原始聲學(xué)特征,獲得所述擴 展聲學(xué)特征,包括: 根據(jù)所述原始聲學(xué)特征,利用原始聲學(xué)特征與擴展聲學(xué)特征之間的轉(zhuǎn)換關(guān)系,獲得所 述擴展聲學(xué)特征。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述原始聲學(xué)特征,利用原始聲 學(xué)特征與擴展聲學(xué)特征之間的轉(zhuǎn)換關(guān)系,獲得所述擴展聲學(xué)特征之后,還包括: 獲得至少一個樣本音頻數(shù)據(jù); 根據(jù)所述至少一個樣本音頻數(shù)據(jù)中每個樣本音頻數(shù)據(jù),獲得所述每個樣本音頻數(shù)據(jù)的 第一音頻數(shù)據(jù)和所述每個樣本音頻數(shù)據(jù)的第二音頻數(shù)據(jù);所述第一音頻數(shù)據(jù)所對應(yīng)的音頻 信號的頻段為所述第一信號頻段;所述第二音頻數(shù)據(jù)所對應(yīng)的音頻信號的頻段為所述第二 信號頻段; 根據(jù)所述第一音頻數(shù)據(jù),獲得所述每個樣本音頻數(shù)據(jù)的第一聲學(xué)特征; 根據(jù)所述第二音頻數(shù)據(jù),獲得所述每個樣本音頻數(shù)據(jù)的第二聲學(xué)特征; 根據(jù)所述每個樣本音頻數(shù)據(jù)的第一聲學(xué)特征和所述每個樣本音頻數(shù)據(jù)的第二聲學(xué)特 征,利用深度學(xué)習(xí)算法,獲得所述轉(zhuǎn)換關(guān)系。
6. 根據(jù)權(quán)利要求3~5任一權(quán)利要求所述的方法,其特征在于,所述聲學(xué)特征包括線 性預(yù)測LPC系數(shù)、線性預(yù)測倒譜系數(shù)LPCC、梅爾頻率倒譜系數(shù)MFCC或感知線性預(yù)測PLP系 數(shù)。
7. -種音頻數(shù)據(jù)的處理裝置,其特征在于,包括: 獲取單元,用于獲取待處理的原始音頻數(shù)據(jù);所述原始音頻數(shù)據(jù)所對應(yīng)的音頻信號的 頻段為第一信號頻段; 特征單元,用于根據(jù)所述原始音頻數(shù)據(jù),獲得擴展音頻數(shù)據(jù);所述擴展音頻數(shù)據(jù)所對應(yīng) 的音頻信號的頻段為第二信號頻段;所述第二信號頻段高于所述第一信號頻段; 處理單元,用于根據(jù)所述原始音頻數(shù)據(jù)和所述擴展音頻數(shù)據(jù),獲得目標(biāo)音頻數(shù)據(jù)。
8. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第一信號頻段為大于或等于0,且小 于或等于第一頻段闊值;所述第二信號頻段為大于所述第一頻段闊值,且小于或等于第二 頻段闊值。
9. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述特征單元,具體用于 根據(jù)所述原始音頻數(shù)據(jù),獲得所述原始音頻數(shù)據(jù)的原始聲學(xué)特征; 根據(jù)所述原始聲學(xué)特征,獲得所述擴展聲學(xué)特征;W及 根據(jù)所述擴展聲學(xué)特征,獲得所述擴展音頻數(shù)據(jù)。
10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述特征單元,具體用于 根據(jù)所述原始聲學(xué)特征,利用原始聲學(xué)特征與擴展聲學(xué)特征之間的轉(zhuǎn)換關(guān)系,獲得所 述擴展聲學(xué)特征。
11. 根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述特征單元,還用于 獲得至少一個樣本音頻數(shù)據(jù); 根據(jù)所述至少一個樣本音頻數(shù)據(jù)中每個樣本音頻數(shù)據(jù),獲得所述每個樣本音頻數(shù)據(jù)的 第一音頻數(shù)據(jù)和所述每個樣本音頻數(shù)據(jù)的第二音頻數(shù)據(jù);所述第一音頻數(shù)據(jù)所對應(yīng)的音頻 信號的頻段為所述第一信號頻段;所述第二音頻數(shù)據(jù)所對應(yīng)的音頻信號的頻段為所述第二 信號頻段; 根據(jù)所述第一音頻數(shù)據(jù),獲得所述每個樣本音頻數(shù)據(jù)的第一聲學(xué)特征; 根據(jù)所述第二音頻數(shù)據(jù),獲得所述每個樣本音頻數(shù)據(jù)的第二聲學(xué)特征;W及 根據(jù)所述每個樣本音頻數(shù)據(jù)的第一聲學(xué)特征和所述每個樣本音頻數(shù)據(jù)的第二聲學(xué)特 征,利用深度學(xué)習(xí)算法,獲得所述轉(zhuǎn)換關(guān)系。
12. 根據(jù)權(quán)利要求7~11任一權(quán)利要求所述的裝置,其特征在于,所述聲學(xué)特征包括線 性預(yù)測LPC系數(shù)、線性預(yù)測倒譜系數(shù)LPCC、梅爾頻率倒譜系數(shù)MFCC或感知線性預(yù)測PLP系 數(shù)。
【專利摘要】本發(fā)明提供一種音頻數(shù)據(jù)的處理方法及裝置。本發(fā)明實施例由于將高頻段的音頻數(shù)據(jù)即擴展音頻數(shù)據(jù)增加到原始音頻數(shù)據(jù)中,使得所獲得的目標(biāo)音頻數(shù)據(jù)不再只具有低頻段的音頻數(shù)據(jù)即原始音頻數(shù)據(jù),而且還具有高頻段的音頻數(shù)據(jù),這樣,才能夠向用戶提供真正的高音質(zhì)的音頻文件,使用戶能夠欣賞真正的高音質(zhì)的音頻文件。
【IPC分類】G10L21-007
【公開號】CN104715756
【申請?zhí)枴緾N201510069567
【發(fā)明人】田彪
【申請人】百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
【公開日】2015年6月17日
【申請日】2015年2月10日