音頻信號分類處理方法、裝置及設(shè)備的制作方法
【專利摘要】本發(fā)明提供一種音頻信號分類處理方法、裝置及設(shè)備,其中方法包括:獲取音頻信號中待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量、所述音頻信號中待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)中的至少一項;根據(jù)所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量、所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)中的至少一項,確定所述音頻信號中待分類幀為音樂信號,或確定所述音頻信號中待分類幀為語音信號。本發(fā)明提供的技術(shù)方案,能夠提高音頻信號的分類正確率。
【專利說明】音頻信號分類處理方法、裝置及設(shè)備
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明實施例涉及信號處理【技術(shù)領(lǐng)域】,尤其涉及一種音頻信號分類處理方法、裝 置及設(shè)備。
【背景技術(shù)】
[0002] 在移動通信系統(tǒng)的語音質(zhì)量評估中,現(xiàn)有的語音質(zhì)量評估模型不適用于音樂信 號。但是,實際應(yīng)用中的待分析信號中可能會包括音樂信號,比如彩鈴等。語音質(zhì)量評估模 型會將其視為語音信號,給出錯誤的質(zhì)量評估結(jié)果。針對該問題,在將待分析信號輸入至語 音質(zhì)量評估模塊之前,應(yīng)先對其進(jìn)行信號分類。如果識別出該段信號為語音信號,將其送入 語音質(zhì)量評估模塊進(jìn)行質(zhì)量評估;如果識別出該段信號為音樂信號,則不送入語音質(zhì)量評 估模塊。
[0003] 現(xiàn)有技術(shù)提供有應(yīng)用于語音音樂聯(lián)合編碼器的音頻信號分類方法,但是該分類 方法是針對具有高采樣率的語音音樂聯(lián)合編碼器,對于語音質(zhì)量評估模型而言,其中存在 的音樂信號普遍缺少高頻信息,利用現(xiàn)有的應(yīng)用于語音音樂聯(lián)合編碼器的音頻信號分類方 法,僅能識別出少數(shù)的音樂信號,且分類正確率低,不能夠滿足語音質(zhì)量評估的要求。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明提供一種音頻信號分類處理方法、裝置及設(shè)備,用于提高音頻信號的分類 正確率。
[0005] 本發(fā)明的第一個方面是提供一種音頻信號分類處理方法,包括:
[0006] 獲取音頻信號中待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量、所述音頻信 號中待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)中的至少一 項;
[0007] 根據(jù)獲取的所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量、所述待分類 幀在低頻區(qū)域的持續(xù)幀數(shù)或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù),確定所述音頻信號中待 分類幀為音樂信號,或確定所述音頻信號中待分類幀為語音信號。
[0008] 在上述第一個方面的第一種可能中,在所述獲取音頻信號中待分類幀中滿足連續(xù) 性約束條件的音調(diào)分量的數(shù)量包括:
[0009] 獲取音頻信號中待分類幀,以及待分類幀前N1幀的音調(diào)分布參數(shù),并根據(jù)所述待 分類幀,以及待分類幀前N幀的音調(diào)分布參數(shù)獲取待分類幀中滿足連續(xù)性約束條件的音調(diào) 分量的數(shù)量,N1為正整數(shù);
[0010] 所述獲取所述音頻信號中待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和/或所述待分類幀 在高頻區(qū)域的持續(xù)幀數(shù)包括:
[0011] 獲取所述音頻信號中待分類幀,以及待分類幀前N1幀的能量分布參數(shù),并根據(jù)所 述音頻信號中待分類幀,以及待分類幀前N1幀的能量分布參數(shù)獲取所述待分類幀在低頻 區(qū)域的持續(xù)幀數(shù)和/或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù),N1為正整數(shù);
[0012] 所述根據(jù)所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量、所述待分類幀 在低頻區(qū)域的持續(xù)幀數(shù)或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù),確定所述音頻信號中待分 類幀為音樂信號,否則確定所述音頻信號中待分類幀為語音信號包括:
[0013] 在所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量大于第一閾值、所述待 分類幀在低頻區(qū)域的持續(xù)幀數(shù)大于第二閾值或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)大于 第三閾值時,確定所述音頻信號中待分類幀為音樂信號,否則確定所述音頻信號中待分類 中貞為語音信號。
[0014] 結(jié)合上述第一個方面的第一種可能的第二種可能中,上述獲取音頻信號中待分類 幀的音調(diào)分布參數(shù),以及待分類幀前N1幀的音調(diào)分布參數(shù)包括:
[0015] 對接收到的音頻信號中的待分類幀和待分類幀前N1幀進(jìn)行快速傅里葉變換,獲 取功率密度譜;
[0016] 根據(jù)所述功率密度譜獲取所述接收到的音頻信號中的待分類幀作為待分類幀的 音調(diào)分布參數(shù),以及待分類幀前N1幀的音調(diào)分量的頻域分布信息作為待分類幀前N1幀的 音調(diào)分布參數(shù);
[0017] 所述根據(jù)待分類幀的音調(diào)分布參數(shù),以及待分類幀前N1幀的音調(diào)分布參數(shù)獲取 待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量包括:
[0018] 根據(jù)接收到的音頻信號中的待分類幀和待分類幀前N1幀的音調(diào)分量的頻域分布 信息獲取待分類幀中持續(xù)幀數(shù)大于第六閾值的音調(diào)分量的數(shù)量。
[0019] 結(jié)合上述第一個方面的第一種可能的第三種可能中,上述獲取所音頻信號中待分 類中貞的能量分布參數(shù),以及待分類巾貞前N1巾貞的能量分布參數(shù)包括:
[0020] 獲取接收到的音頻信號中待分類幀的高頻能量分布比和聲壓級作為待分類幀的 能量分布參數(shù),以及待分類幀前N1幀的高頻能量分布比和聲壓級作為待分類幀前N1幀的 能量分布參數(shù);
[0021] 所述根據(jù)音頻信號中待分類幀的能量分布參數(shù),以及待分類幀前N1幀的能量分 布參數(shù)獲取所述待分類巾貞在低頻區(qū)域的持續(xù)巾貞數(shù)包括:
[0022] 根據(jù)所述接收到的音頻信號中待分類幀和待分類幀前N1幀的高頻能量分布比和 聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比小于第八閾值的持續(xù)幀數(shù);
[0023] 所述根據(jù)音頻信號中待分類幀的能量分布參數(shù),以及待分類幀前N1幀的能量分 布參數(shù)獲取所述待分類巾貞在高頻區(qū)域的持續(xù)巾貞數(shù)包括:
[0024] 根據(jù)所述接收到的音頻信號中待分類幀和待分類幀前N1幀的高頻能量分布比和 聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比大于第九閾值、聲壓級大于第十閾值 的持續(xù)幀數(shù)。
[0025] 在結(jié)合上述第一個方面或第一個方面的任一種可能的第四種可能中,在延時L1 幀獲取所述待分類幀的分類結(jié)果時,L1為正整數(shù),所述獲取音頻信號中待分類幀中滿足連 續(xù)性約束條件的音調(diào)分量的數(shù)量包括:
[0026] 獲取音頻信號中待分類幀,待分類幀前N2幀,以及待分類幀后L1幀的音調(diào)分布參 數(shù),并根據(jù)所述待分類幀,待分類幀前N2幀以及待分類幀后L1幀的音調(diào)分布參數(shù)獲取待分 類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量,N2為正整數(shù);
[0027] 所述獲取所述音頻信號中待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和/或所述待分類幀 在高頻區(qū)域的持續(xù)幀數(shù)包括:
[0028] 獲取所述音頻信號中待分類幀,以及待分類幀前N2幀以及待分類幀后L1幀的能 量分布參數(shù),并根據(jù)所述音頻信號中待分類幀,待分類幀前N2幀以及待分類幀后L1幀的能 量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和/或所述待分類幀在高頻區(qū)域的 持續(xù)幀數(shù);
[0029] 所述根據(jù)所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量、所述待分類幀 在低頻區(qū)域的持續(xù)幀數(shù)或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù),確定所述音頻信號中待分 類幀為音樂信號,否則確定所述音頻信號中待分類幀為語音信號包括:
[0030] 在所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量大于第一閾值、所述待 分類幀在低頻區(qū)域的持續(xù)幀數(shù)大于第二閾值或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)大于 第三閾值時,確定所述音頻信號中待分類幀為音樂信號,否則確定所述音頻信號中待分類 中貞為語音信號。
[0031] 在結(jié)合上述第一個方面的第四種可能的第五種可能中,所述獲取音頻信號中待分 類幀的音調(diào)分布參數(shù),待分類幀前N2幀的音調(diào)分布參數(shù),以及待分類幀后L1幀的音調(diào)分布 參數(shù)包括:
[0032] 對接收到的音頻信號中的待分類幀、待分類幀前N2幀和待分類幀幀后L1幀進(jìn)行 快速傅里葉變換,獲取功率密度譜;
[0033] 根據(jù)所述功率密度譜獲取所述接收到的音頻信號中的待分類幀的音調(diào)分量的頻 域分布信息作為待分類幀的音調(diào)分布參數(shù),待分類幀前N2幀的音調(diào)分量的頻域分布信息 作為待分類幀前N2幀的音調(diào)分布參數(shù),以及待分類幀幀后L1幀的音調(diào)分量的頻域分布信 息作為待分類幀幀后L1幀的音調(diào)分布參數(shù);
[0034] 所述根據(jù)待分類幀的音調(diào)分布參數(shù),待分類幀前N2幀的音調(diào)分布參數(shù),以及待分 類幀后L1幀的音調(diào)分布參數(shù)獲取待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量包 括:
[0035] 根據(jù)接收到的音頻信號中的待分類幀、待分類幀前N2幀和待分類幀幀后L1幀的 音調(diào)分量的頻域分布信息獲取待分類幀中持續(xù)幀數(shù)大于第六閾值的音調(diào)分量的數(shù)量。
[0036] 在結(jié)合上述第一個方面的第四種可能的第六種可能中,所述獲取所音頻信號中待 分類幀的能量分布參數(shù),待分類幀前N2幀的能量分布參數(shù)以及待分類幀后L1幀的能量分 布參數(shù)包括:
[0037] 獲取接收到的音頻信號中待分類幀的高頻能量分布比和聲壓級作為待分類幀的 能量分布參數(shù),待分類幀前N2幀的高頻能量分布比和聲壓級作為待分類幀前N2幀的能量 分布參數(shù)和待分類幀后L1幀的高頻能量分布比和聲壓級作為待分類幀后L1幀的能量分布 參數(shù);
[0038] 所述根據(jù)音頻信號中待分類幀的能量分布參數(shù),待分類幀前N2幀的能量分布參 數(shù)以及待分類幀后L1幀的能量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)包括:
[0039] 根據(jù)所述接收到的音頻信號中待分類幀、待分類幀前N2幀和待分類幀后L1幀的 高頻能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比小于第八閾值的 持續(xù)幀數(shù);
[0040] 所述根據(jù)音頻信號中待分類幀的能量分布參數(shù),待分類幀前N2幀的能量分布參 數(shù)以及待分類幀后L1幀的能量分布參數(shù)獲取所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)包括:
[0041]根據(jù)所述接收到的音頻信號中待分類幀、待分類幀前N2幀和待分類幀后L1幀的 高頻能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比大于第九閾值、聲 壓級大于第十閾值的持續(xù)幀數(shù)。
[0042] 在結(jié)合上述第一個方面、第一個方面的上述任一種可能的第七種可能中,在延時 L2+L3幀獲取所述待分類幀的分類結(jié)果時,L2和L3為正整數(shù),所述獲取音頻信號中待分類 幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量包括:
[0043] 獲取音頻信號中待分類幀,待分類幀前N3幀,以及待分類幀后L2幀的音調(diào)分布參 數(shù),并根據(jù)所述待分類幀,待分類幀前N3幀以及待分類幀后L2幀的音調(diào)分布參數(shù)獲取待分 類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量,N3為正整數(shù);
[0044] 所述獲取所述音頻信號中待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和/或所述待分類幀 在高頻區(qū)域的持續(xù)幀數(shù)包括:
[0045] 獲取所述音頻信號中待分類幀,以及待分類幀前N3幀以及待分類幀后L2幀的能 量分布參數(shù),并根據(jù)所述音頻信號中待分類幀,待分類幀前N3幀以及待分類幀后L2幀的能 量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和/或所述待分類幀在高頻區(qū)域的 持續(xù)幀數(shù);
[0046] 所述根據(jù)所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量、所述待分類幀 在低頻區(qū)域的持續(xù)幀數(shù)或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù),確定所述音頻信號中待分 類幀為音樂信號,否則確定所述音頻信號中待分類幀為語音信號包括:
[0047] 在所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量大于第一閾值、所述待 分類幀在低頻區(qū)域的持續(xù)幀數(shù)大于第二閾值或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)大于 第三閾值時,確定所述音頻信號中待分類幀為音樂信號,否則確定所述音頻信號中待分類 中貞為語音信號;
[0048] 若確定所述音頻信號中待分類幀為音樂信號,則確定所述待分類幀前Μ幀和待 分類幀后L3幀中確定為語音信號的幀數(shù)目是否大于第四閾值,若超過,則將所述音頻信號 中待分類幀修正為語音信號,Ν4為正整數(shù);
[0049] 若確定所述音頻信號中待分類幀為語音信號,則確定所述待分類幀前Μ幀和待 分類幀后L3幀中確定為音樂信號的幀數(shù)目是否大于第五閾值,若大于,則將所述音頻信號 中待分類幀修正為音樂信號。
[0050] 在結(jié)合上述第一個方面的第七中可能的第八種可能中,所述獲取音頻信號中待分 類幀的音調(diào)分布參數(shù),待分類幀前Ν3幀的音調(diào)分布參數(shù),以及待分類幀后L2幀的音調(diào)分布 參數(shù)包括:
[0051] 對接收到的音頻信號中的待分類幀、待分類幀前Ν3幀和待分類幀幀后L2幀進(jìn)行 快速傅里葉變換,獲取功率密度譜;
[0052] 根據(jù)所述功率密度譜獲取所述接收到的音頻信號中的待分類幀的音調(diào)分量的頻 域分布信息作為待分類幀的音調(diào)分布參數(shù),待分類幀前Ν3的音調(diào)分量的頻域分布信息作 為待分類幀前Ν3幀的音調(diào)分布參數(shù)幀和待分類幀幀后L2幀的音調(diào)分量的頻域分布信息作 為待分類幀幀后L2幀的音調(diào)分布參數(shù);
[0053] 所述根據(jù)待分類幀的音調(diào)分布參數(shù),待分類幀前Ν3幀的音調(diào)分布參數(shù),以及待分 類幀后L2幀的音調(diào)分布參數(shù)獲取待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量包 括:
[0054] 根據(jù)接收到的音頻信號中的待分類幀、待分類幀前N3幀和待分類幀幀后L2幀的 音調(diào)分量的頻域分布信息獲取待分類幀中持續(xù)幀數(shù)大于第六閾值的音調(diào)分量的數(shù)量。
[0055] 在結(jié)合上述第一個方面的第七中可能的第九種可能中,所述獲取所音頻信號中待 分類幀的能量分布參數(shù),待分類幀前N3幀的能量分布參數(shù)以及待分類幀后L2幀的能量分 布參數(shù)包括:
[0056] 獲取接收到的音頻信號中待分類幀的高頻能量分布比和聲壓級作為待分類幀的 能量分布參數(shù),待分類幀前N3幀的高頻能量分布比和聲壓級作為待分類幀前N3幀的能量 分布參數(shù),以及待分類幀幀后L2幀的高頻能量分布比和聲壓級作為待分類幀前N3幀的能 量分布參數(shù);
[0057] 所述根據(jù)音頻信號中待分類幀的能量分布參數(shù),待分類幀前N3幀的能量分布參 數(shù)以及待分類幀后L2幀的能量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)包括:
[0058] 根據(jù)所述接收到的音頻信號中待分類幀、待分類幀前N3幀和待分類幀后L2幀的 高頻能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比小于第八閾值的 持續(xù)幀數(shù);
[0059] 所述根據(jù)音頻信號中待分類幀的能量分布參數(shù),待分類幀前N3幀的能量分布參 數(shù)以及待分類幀后L2幀的能量分布參數(shù)獲取所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)包括:
[0060] 根據(jù)所述接收到的音頻信號中待分類幀、待分類幀前N3幀和待分類幀后L2幀的 高頻能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比大于第九閾值、聲 壓級大于第十閾值的持續(xù)幀數(shù)。
[0061] 在結(jié)合上述第一個方面的第二種可能、第五種可能或第八種可能的第十種可能 中,所述待分類幀中持續(xù)幀數(shù)大于第六閾值的音調(diào)分量的數(shù)量為在頻域上大于第七閾值的 音調(diào)分量的數(shù)量。
[0062] 本發(fā)明的第二個方面是提供一種音頻信號分類處理裝置,包括:
[0063] 第一獲取模塊,用于獲取音頻信號中待分類幀中滿足連續(xù)性約束條件的音調(diào)分量 的數(shù)量、所述音頻信號中待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和所述待分類幀在高頻區(qū)域的持 續(xù)幀數(shù)中的至少一項;
[0064] 分類確定模塊,用于根據(jù)所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù) 量、所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和所述待分類幀的高頻區(qū)域的持續(xù)幀數(shù)中的至少 一項,確定所述音頻信號中待分類幀為音樂信號,或確定所述音頻信號中待分類幀為語音 信號。
[0065] 在結(jié)合上述第二個方面的第一種可能中,所述第一獲取模塊具體用于獲取音頻信 號中待分類幀,以及待分類幀前N1幀的音調(diào)分布參數(shù),并根據(jù)所述待分類幀,以及待分類 幀前N1幀的音調(diào)分布參數(shù)獲取待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量,N1為 正整數(shù);或,
[0066] 具體用于獲取所述音頻信號中待分類幀,以及待分類幀前N1幀的能量分布參數(shù), 并根據(jù)所述音頻信號中待分類幀,以及待分類幀前N1幀的能量分布參數(shù)獲取所述待分類 幀在低頻區(qū)域的持續(xù)幀數(shù)或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù);
[0067] 所述分類確定模塊具體用于在所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量 的數(shù)量大于第一閾值、所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)大于第二閾值或所述待分類幀 在高頻區(qū)域的持續(xù)幀數(shù)大于第三閾值時,確定所述音頻信號中待分類幀為音樂信號,否則 確定所述音頻信號中待分類幀為語音信號。
[0068] 結(jié)合上述第二個方面第一種可能的第二種可能中,所述第一獲取模塊獲取音頻信 號中待分類幀的音調(diào)分布參數(shù),以及待分類幀前N1幀的音調(diào)分布參數(shù)包括:
[0069] 對接收到的音頻信號中的待分類幀和待分類幀前N1幀進(jìn)行快速傅里葉變換,獲 取功率密度譜;
[0070] 根據(jù)所述功率密度譜獲取所述接收到的音頻信號中的待分類幀的音調(diào)分量的頻 域分布信息作為待分類幀的音調(diào)分布參數(shù),以及待分類幀前N1幀的音調(diào)分量的頻域分布 信息作為待分類幀前N1幀的音調(diào)分布參數(shù);
[0071] 所述分類確定模塊根據(jù)待分類幀的音調(diào)分布參數(shù),以及待分類幀前N1幀的音調(diào) 分布參數(shù)獲取待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量包括:
[0072] 根據(jù)接收到的音頻信號中的待分類幀和待分類幀前N1幀的音調(diào)分量的頻域分布 信息獲取待分類幀中持續(xù)幀數(shù)大于第六閾值的音調(diào)分量的數(shù)量。
[0073] 結(jié)合上述第二個方面第一種可能的第三種可能中,所述第一獲取模塊獲取所音頻 信號中待分類巾貞的能量分布參數(shù),以及待分類巾貞前N1巾貞的能量分布參數(shù)包括:
[0074] 獲取接收到的音頻信號中待分類幀的高頻能量分布比和聲壓級作為待分類幀的 能量分布參數(shù),以及待分類幀前N1幀的高頻能量分布比和聲壓級作為待分類幀前N1幀的 能量分布參數(shù);
[0075] 所述分類確定模塊根據(jù)音頻信號中待分類幀的能量分布參數(shù),以及待分類幀前N1 幀的能量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)包括:
[0076] 根據(jù)所述接收到的音頻信號中待分類幀和待分類幀前N1幀的高頻能量分布比和 聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比小于第八閾值的持續(xù)幀數(shù);
[0077] 所述分類確定模塊根據(jù)音頻信號中待分類幀的能量分布參數(shù),以及待分類幀前N1 中貞的能量分布參數(shù)獲取所述待分類巾貞在高頻區(qū)域的持續(xù)巾貞數(shù)包括:
[0078] 根據(jù)所述接收到的音頻信號中待分類幀和待分類幀前N1幀的高頻能量分布比和 聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比大于第九閾值、聲壓級大于第十閾值 的持續(xù)幀數(shù)。
[0079] 結(jié)合上述第二個方面或第二個方面的任一種可能的第四種可能中,在延時L1幀 獲取所述待分類幀的分類結(jié)果時,L1為正整數(shù),所述第一獲取模塊具體用于獲取音頻信號 中待分類幀,待分類幀前N2幀,以及待分類幀后L1幀的音調(diào)分布參數(shù),并根據(jù)所述待分類 幀,待分類幀前N2幀以及待分類幀后L1幀的音調(diào)分布參數(shù)獲取待分類幀中滿足連續(xù)性約 束條件的音調(diào)分量的數(shù)量,N2為正整數(shù);或,具體用于獲取所述音頻信號中待分類幀,以及 待分類幀前N2幀以及待分類幀后L1幀的能量分布參數(shù),并根據(jù)所述音頻信號中待分類幀, 待分類幀前N2幀以及待分類幀后L1幀的能量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持 續(xù)幀數(shù)和/或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù);
[0080] 所述分類確定模塊具體用于在所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量 的數(shù)量大于第一閾值、所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)大于第二閾值或所述待分類幀 在高頻區(qū)域的持續(xù)幀數(shù)大于第三閾值時,確定所述音頻信號中待分類幀為音樂信號,否則 確定所述音頻信號中待分類幀為語音信號。
[0081] 結(jié)合上述第二個方面第四種可能的第五種可能中,所述第一獲取模塊獲取音頻信 號中待分類幀的音調(diào)分布參數(shù),待分類幀前N2幀的音調(diào)分布參數(shù),以及待分類幀后L1幀的 音調(diào)分布參數(shù)包括:
[0082] 對接收到的音頻信號中的待分類幀、待分類幀前N2幀和待分類幀幀后L1幀進(jìn)行 快速傅里葉變換,獲取功率密度譜;
[0083] 根據(jù)所述功率密度譜獲取所述接收到的音頻信號中的待分類幀的音調(diào)分量的頻 域分布信息作為待分類幀的音調(diào)分布參數(shù),待分類幀前N2幀的音調(diào)分量的頻域分布信息 作為待分類幀前N2幀的音調(diào)分布參數(shù),以及待分類幀幀后L1幀的音調(diào)分量的頻域分布信 息作為待分類幀幀后L1幀的音調(diào)分布參數(shù);
[0084] 所述分類確定模塊根據(jù)待分類幀的音調(diào)分布參數(shù),待分類幀前N2幀的音調(diào)分布 參數(shù),以及待分類幀后L1幀的音調(diào)分布參數(shù)獲取待分類幀中滿足連續(xù)性約束條件的音調(diào) 分量的數(shù)量包括:
[0085] 根據(jù)接收到的音頻信號中的待分類幀、待分類幀前N2幀和待分類幀幀后L1幀的 音調(diào)分量的頻域分布信息獲取待分類幀中持續(xù)幀數(shù)大于第六閾值的音調(diào)分量的數(shù)量。
[0086] 在結(jié)合上述第二個方面第四種可能的第六種可能中,所述第一獲取模塊獲取所音 頻信號中待分類幀的能量分布參數(shù),待分類幀前N2幀的能量分布參數(shù)以及待分類幀后L1 中貞的能量分布參數(shù)包括:
[0087] 獲取接收到的音頻信號中待分類幀的高頻能量分布比和聲壓級作為待分類幀的 能量分布參數(shù),待分類幀前N2幀的高頻能量分布比和聲壓級作為待分類幀前N2幀的能量 分布參數(shù)和待分類幀幀后L1幀的高頻能量分布比和聲壓級作為待分類幀后L1幀的能量分 布參數(shù);
[0088] 所述分類確定模塊根據(jù)音頻信號中待分類幀的能量分布參數(shù),待分類幀前N2幀 的能量分布參數(shù)以及待分類幀后L1幀的能量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持 續(xù)中貞數(shù)包括:
[0089] 根據(jù)所述接收到的音頻信號中待分類幀、待分類幀前N2幀和待分類幀后L1幀的 高頻能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比小于第八閾值的 持續(xù)幀數(shù);
[0090] 所述分類確定模塊根據(jù)音頻信號中待分類幀的能量分布參數(shù),待分類幀前N2幀 的能量分布參數(shù)以及待分類幀后L1幀的能量分布參數(shù)獲取所述待分類幀在高頻區(qū)域的持 續(xù)中貞數(shù)包括:
[0091] 根據(jù)所述接收到的音頻信號中待分類幀、待分類幀前N2幀和待分類幀后L1幀的 高頻能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比大于第九閾值、聲 壓級大于第十閾值的持續(xù)幀數(shù)。
[0092] 結(jié)合上述第二個方面和第二個方面的上述任一種可能的第七種可能中,在延時 L2+L3幀獲取所述待分類幀的分類結(jié)果時,L2和L3為正整數(shù),所述第一獲取模塊具體用于 獲取音頻信號中待分類幀,待分類幀前N3幀,以及待分類幀后L2幀的音調(diào)分布參數(shù),并根 據(jù)所述待分類幀,待分類幀前N3幀以及待分類幀后L2幀的音調(diào)分布參數(shù)獲取待分類幀中 滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量,N3為正整數(shù);或,
[0093] 具體用于獲取所述音頻信號中待分類幀,以及待分類幀前N3幀以及待分類幀后 L3幀的能量分布參數(shù),并根據(jù)所述音頻信號中待分類幀,待分類幀前N3幀以及待分類幀后 L3幀的能量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)或所述待分類幀在高頻區(qū) 域的持續(xù)幀數(shù);
[0094] 所述分類處理模塊具體用于在所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量 的數(shù)量大于第一閾值、所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)大于第二閾值或所述待分類幀 在高頻區(qū)域的持續(xù)幀數(shù)大于第三閾值時,確定所述音頻信號中待分類幀為音樂信號,否則 確定所述音頻信號中待分類幀為語音信號;若確定所述音頻信號中待分類幀為音樂信號, 則確定所述待分類幀前N4幀和待分類幀中后L3幀中確定為語音信號的幀數(shù)目是否大于第 四閾值,若超過,則將所述音頻信號中待分類幀修正為語音信號;若確定所述音頻信號中待 分類巾貞為語音信號,則確定所述待分類巾貞前N4巾貞和待分類巾貞中后L3巾貞中確定為音樂信號 的幀數(shù)目是否大于第五閾值,若大于,則將所述音頻信號中待分類幀修正為音樂信號,N4為 正整數(shù)。
[0095] 在結(jié)合上述第二個方面的第七種可能的第八種可能中,所述第一獲取模塊獲取音 頻信號中待分類幀的音調(diào)分布參數(shù),待分類幀前N3幀的音調(diào)分布參數(shù),以及待分類幀后L2 幀的音調(diào)分布參數(shù)包括:
[0096] 對接收到的音頻信號中的待分類幀、待分類幀前N3幀和待分類幀幀后L2幀進(jìn)行 快速傅里葉變換,獲取功率密度譜;
[0097] 根據(jù)所述功率密度譜獲取所述接收到的音頻信號中的待分類幀的音調(diào)分量的頻 域分布信息作為待分類幀的音調(diào)分布參數(shù),待分類幀前N3幀的音調(diào)分量的頻域分布信息 作為待分類幀前N3幀的音調(diào)分布參數(shù),以及待分類幀幀后L2幀的音調(diào)分量的頻域分布信 息作為待分類幀后L2幀的音調(diào)分布參數(shù);
[0098] 所述分類確定模塊根據(jù)待分類幀的音調(diào)分布參數(shù),待分類幀前N3幀的音調(diào)分布 參數(shù),以及待分類幀后L2幀的音調(diào)分布參數(shù)獲取待分類幀中滿足連續(xù)性約束條件的音調(diào) 分量的數(shù)量包括:
[0099] 根據(jù)接收到的音頻信號中的待分類幀、待分類幀前N3幀和待分類幀后L2幀的音 調(diào)分量的頻域分布信息獲取待分類幀中持續(xù)幀數(shù)大于第六閾值的音調(diào)分量的數(shù)量。
[0100] 在結(jié)合上述第二個方面的第七種可能的第九種可能中,所述第一獲取模塊獲取所 音頻信號中待分類幀的能量分布參數(shù),待分類幀前N3幀的能量分布參數(shù)以及待分類幀后 L2巾貞的能量分布參數(shù)包括:
[0101] 獲取接收到的音頻信號中待分類幀的高頻能量分布比和聲壓級作為待分類幀的 能量分布參數(shù),待分類幀前N3幀的高頻能量分布比和聲壓級作為待分類幀前N3幀的能量 分布參數(shù),以及待分類幀幀后L2幀的高頻能量分布比和聲壓級作為待分類幀后L2幀的能 量分布參數(shù);
[0102] 所述分類確定模塊根據(jù)音頻信號中待分類幀的能量分布參數(shù),待分類幀前N3幀 的能量分布參數(shù)以及待分類幀后L2幀的能量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持 續(xù)中貞數(shù)包括:
[0103] 根據(jù)所述接收到的音頻信號中待分類幀、待分類幀前N3幀和待分類幀后L2幀的 高頻能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比小于第八閾值的 持續(xù)幀數(shù);
[0104] 所述分類確定模塊根據(jù)音頻信號中待分類幀的能量分布參數(shù),待分類幀前N3幀 的能量分布參數(shù)以及待分類幀后L2幀的能量分布參數(shù)獲取所述待分類幀在高頻區(qū)域的持 續(xù)中貞數(shù)包括:
[0105] 根據(jù)所述接收到的音頻信號中待分類幀、待分類幀前N3幀和待分類幀后L2幀的 高頻能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比大于第九閾值、聲 壓級大于第十閾值的持續(xù)幀數(shù)。
[0106] 在結(jié)合上述第二個方面的第二種可能、第五種可能或第八種可能的第十種可能 中,所述第一獲取模塊獲取的待分類幀中持續(xù)幀數(shù)大于第六閾值的音調(diào)分量的數(shù)量為在頻 域上大于第七閾值的音調(diào)分量的數(shù)量。滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量為在頻域上 大于第七閾值的音調(diào)分量的數(shù)量。
[0107] 結(jié)合上述第二個方面的第一種可能、第二種可能或第三中可能的第六種可能中, 上述第一獲取模塊具體用于獲取接收到的音頻信號中的各幀的高頻能量分布比和聲壓級; 以及根據(jù)所述接收到的音頻信號中的各幀的高頻能量分布比和聲壓級,獲取包括所述待分 類幀在內(nèi)的高頻能量分布比小于第八閾值的持續(xù)幀數(shù),或,根據(jù)所述接收到的音頻信號中 的各幀的高頻能量分布比和聲壓級,獲取包括所述待分類幀在內(nèi)的高頻能量分布比大于第 九閾值、聲壓級大于第十閾值的持續(xù)幀數(shù)。
[0108] 本發(fā)明的第三個方面是提供一種音頻信號分類處理設(shè)備,包括:
[0109] 接收器,用于接收音頻信號;
[0110] 處理器,與所述接收器連接,用于獲取接收器接收到的音頻信號中待分類幀中滿 足連續(xù)性約束條件的音調(diào)分量的數(shù)量、所述音頻信號中待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和 所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)中的至少一項,根據(jù)所述待分類幀中滿足連續(xù)性約束 條件的音調(diào)分量的數(shù)量、所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和所述待分類幀在高頻區(qū)域 的持續(xù)幀數(shù)中的至少一項,確定所述音頻信號中待分類幀為音樂信號,或確定所述音頻信 號中待分類巾貞為語音信號。
[0111] 在第三個方面的第一種可能中,所述處理器具體用于獲取音頻信號中待分類幀, 以及待分類幀前N1幀的音調(diào)分布參數(shù),并根據(jù)所述待分類幀,以及待分類幀前N幀的音調(diào) 分布參數(shù)獲取待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量,N1為正整數(shù);獲取所述 音頻信號中待分類幀,以及待分類幀前N1幀的能量分布參數(shù),并根據(jù)所述音頻信號中待分 類幀,以及待分類幀前N1幀的能量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和/ 或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù),N1為正整數(shù);在所述待分類幀中滿足連續(xù)性約束 條件的音調(diào)分量的數(shù)量大于第一閾值、所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)大于第二閾值 或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)大于第三閾值時,確定所述音頻信號中待分類幀為 音樂信號,否則確定所述音頻信號中待分類幀為語音信號。
[0112] 結(jié)合上述第第三個方面的第一種可能的第二種可能中,所述處理器獲取音頻信號 中待分類幀的音調(diào)分布參數(shù),以及待分類幀前N1幀的音調(diào)分布參數(shù)包括:
[0113] 對接收到的音頻信號中的待分類幀和待分類幀前N1幀進(jìn)行快速傅里葉變換,獲 取功率密度譜;
[0114] 根據(jù)所述功率密度譜獲取所述接收到的音頻信號中的待分類幀的音調(diào)分量的頻 域分布信息作為待分類幀的音調(diào)分布參數(shù),以及和待分類幀前N1幀的音調(diào)分量的頻域分 布信息作為待分類幀前N1幀的音調(diào)分布參數(shù);
[0115] 所述處理器根據(jù)待分類幀的音調(diào)分布參數(shù),以及待分類幀前N1幀的音調(diào)分布參 數(shù)獲取待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量包括:
[0116] 根據(jù)接收到的音頻信號中的待分類幀和待分類幀前N1幀的音調(diào)分量的頻域分布 信息獲取待分類幀中持續(xù)幀數(shù)大于第六閾值的音調(diào)分量的數(shù)量。
[0117] 結(jié)合上述第第三個方面的第一種可能的第三種可能中,所述處理器獲取所音頻信 號中待分類巾貞的能量分布參數(shù),以及待分類巾貞前N1巾貞的能量分布參數(shù)包括:
[0118] 獲取接收到的音頻信號中待分類幀的高頻能量分布比和聲壓級作為待分類幀的 能量分布參數(shù),以及待分類幀前N1幀的高頻能量分布比和聲壓級作為待分類幀前N1幀的 能量分布參數(shù);
[0119] 所述處理器根據(jù)音頻信號中待分類幀的能量分布參數(shù),以及待分類幀前N1幀的 能量分布參數(shù)獲取所述待分類巾貞在低頻區(qū)域的持續(xù)巾貞數(shù)包括:
[0120] 根據(jù)所述接收到的音頻信號中待分類幀和待分類幀前N1幀的高頻能量分布比和 聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比小于第八閾值的持續(xù)幀數(shù);
[0121] 所述處理器根據(jù)音頻信號中待分類幀的能量分布參數(shù),以及待分類幀前N1幀的 能量分布參數(shù)獲取所述待分類巾貞在高頻區(qū)域的持續(xù)巾貞數(shù)包括:
[0122] 根據(jù)所述接收到的音頻信號中待分類幀和待分類幀前N1幀的高頻能量分布比和 聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比大于第九閾值、聲壓級大于第十閾值 的持續(xù)幀數(shù)。
[0123] 結(jié)合第三個方面或第三個方面的上述任一種可能的第四種可能中,在延時L1幀 獲取所述待分類幀的分類結(jié)果時,L1為正整數(shù),所述處理器具體用于獲取音頻信號中待分 類幀,待分類幀前N2幀,以及待分類幀后L1幀的音調(diào)分布參數(shù),并根據(jù)所述待分類幀,待分 類幀前N2幀以及待分類幀后L1幀的音調(diào)分布參數(shù)獲取待分類幀中滿足連續(xù)性約束條件的 音調(diào)分量的數(shù)量,N2為正整數(shù);獲取所述音頻信號中待分類幀,以及待分類幀前N2幀以及 待分類幀后L1幀的能量分布參數(shù),并根據(jù)所述音頻信號中待分類幀,待分類幀前N2幀以及 待分類幀后L1幀的能量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和/或所述待 分類幀在高頻區(qū)域的持續(xù)幀數(shù);在所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量 大于第一閾值、所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)大于第二閾值或所述待分類幀在高頻 區(qū)域的持續(xù)幀數(shù)大于第三閾值時,確定所述音頻信號中待分類幀為音樂信號,否則確定所 述音頻信號中待分類幀為語音信號。
[0124] 在結(jié)合第三個方面的第四種可能的第五種可能中,所述處理器獲取音頻信號中待 分類幀的音調(diào)分布參數(shù),待分類幀前N2幀的音調(diào)分布參數(shù),以及待分類幀后L1幀的音調(diào)分 布參數(shù)包括:
[0125] 對接收到的音頻信號中的待分類幀、待分類幀前N2幀和待分類幀幀后L1幀進(jìn)行 快速傅里葉變換,獲取功率密度譜;
[0126] 根據(jù)所述功率密度譜獲取所述接收到的音頻信號中的待分類幀幀的音調(diào)分量的 頻域分布信息作為待分類幀的音調(diào)分布參數(shù),待分類幀前N2幀的音調(diào)分量的頻域分布信 息作為待分類幀前N2幀的音調(diào)分布參數(shù),以及待分類幀幀后L1幀的音調(diào)分量的頻域分布 信息作為待分類巾貞巾貞后L1巾貞的音調(diào)分布參數(shù);
[0127] 所述處理器根據(jù)待分類幀的音調(diào)分布參數(shù),待分類幀前N2幀的音調(diào)分布參數(shù),以 及待分類幀后L1幀的音調(diào)分布參數(shù)獲取待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù) 量包括:
[0128] 根據(jù)接收到的音頻信號中的待分類幀、待分類幀前N2幀和待分類幀幀后L1幀的 音調(diào)分量的頻域分布信息獲取待分類幀中持續(xù)幀數(shù)大于第六閾值的音調(diào)分量的數(shù)量。
[0129] 在結(jié)合第三個方面的第四種可能的第六種可能中,所述處理器獲取所音頻信號中 待分類巾貞的能量分布參數(shù),待分類巾貞前N2巾貞的能量分布參數(shù)以及待分類巾貞后L1巾貞的能量 分布參數(shù)包括:
[0130] 獲取接收到的音頻信號中待分類幀的高頻能量分布比和聲壓級作為待分類幀的 能量分布參數(shù),待分類幀前N2幀的高頻能量分布比和聲壓級作為待分類幀前N2幀的能量 分布參數(shù)和待分類幀后L1幀的高頻能量分布比和聲壓級作為待分類幀后L1幀的能量分布 參數(shù);
[0131] 所述處理器根據(jù)音頻信號中待分類幀的能量分布參數(shù),待分類幀前N2幀的能量 分布參數(shù)以及待分類幀后L1幀的能量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù) 包括:
[0132] 根據(jù)所述接收到的音頻信號中待分類幀、待分類幀前N2幀和待分類幀后L1幀的 高頻能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比小于第八閾值的 持續(xù)幀數(shù);
[0133] 所述處理器根據(jù)音頻信號中待分類幀的能量分布參數(shù),待分類幀前N2幀的能量 分布參數(shù)以及待分類幀后L1幀的能量分布參數(shù)獲取所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù) 包括:
[0134] 根據(jù)所述接收到的音頻信號中待分類幀、待分類幀前N2幀和待分類幀后L1幀的 高頻能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比大于第九閾值、聲 壓級大于第十閾值的持續(xù)幀數(shù)。
[0135] 結(jié)合第三個方面、第三個方面的上述任一種可能的第七種可能中,在延時L2+L3 幀獲取所述待分類幀的分類結(jié)果時,L2和L3為正整數(shù),所述處理器具體用于獲取音頻信 號中待分類幀,待分類幀前N3幀,以及待分類幀后L2幀的音調(diào)分布參數(shù),并根據(jù)所述待分 類幀,待分類幀前N3幀以及待分類幀后L2幀的音調(diào)分布參數(shù)獲取待分類幀中滿足連續(xù)性 約束條件的音調(diào)分量的數(shù)量,N3為正整數(shù);獲取所述音頻信號中待分類幀,以及待分類幀 前N3幀以及待分類幀后L2幀的能量分布參數(shù),并根據(jù)所述音頻信號中待分類幀,待分類幀 前N3幀以及待分類幀后L2幀的能量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和 /或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù);在所述待分類幀中滿足連續(xù)性約束條件的音調(diào) 分量的數(shù)量大于第一閾值、所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)大于第二閾值或所述待分 類幀在高頻區(qū)域的持續(xù)幀數(shù)大于第三閾值時,確定所述音頻信號中待分類幀為音樂信號, 否則確定所述音頻信號中待分類幀為語音信號;若確定所述音頻信號中待分類幀為音樂信 號,則確定所述待分類幀前N4幀和待分類幀后L3幀中確定為語音信號的幀數(shù)目是否大于 第四閾值,若超過,則將所述音頻信號中待分類幀修正為語音信號,N4為正整數(shù);若確定所 述音頻信號中待分類幀為語音信號,則確定所述待分類幀前N4幀和待分類幀后L3幀中確 定為音樂信號的幀數(shù)目是否大于第五閾值,若大于,則將所述音頻信號中待分類幀修正為 音樂信號。
[0136] 結(jié)合上述第三個方面的第七種可能的第八種可能中,所述處理器獲取音頻信號中 待分類幀的音調(diào)分布參數(shù),待分類幀前Ν3幀的音調(diào)分布參數(shù),以及待分類幀后L2幀的音調(diào) 分布參數(shù)包括:
[0137] 對接收到的音頻信號中的待分類幀、待分類幀前Ν3幀和待分類幀幀后L2幀進(jìn)行 快速傅里葉變換,獲取功率密度譜;
[0138] 根據(jù)所述功率密度譜獲取所述接收到的音頻信號中的待分類幀的音調(diào)分量的頻 域分布信息作為待分類幀的音調(diào)分布參數(shù),待分類幀前Ν3幀的音調(diào)分量的頻域分布信息 作為待分類幀前Ν3幀的音調(diào)分布參數(shù)和待分類幀幀后L2幀的音調(diào)分量的頻域分布信息作 為待分類幀后L2幀的音調(diào)分布參數(shù);
[0139] 所述處理器根據(jù)待分類幀的音調(diào)分布參數(shù),待分類幀前Ν3幀的音調(diào)分布參數(shù),以 及待分類幀后L2幀的音調(diào)分布參數(shù)獲取待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù) 量包括:
[0140] 根據(jù)接收到的音頻信號中的待分類幀、待分類幀前Ν3幀和待分類幀幀后L2幀的 音調(diào)分量的頻域分布信息獲取待分類幀中持續(xù)幀數(shù)大于第六閾值的音調(diào)分量的數(shù)量。
[0141] 結(jié)合上述第三個方面的第七種可能的第九種可能中,所述處理器獲取所音頻信號 中待分類幀的能量分布參數(shù),待分類幀前Ν3幀的能量分布參數(shù)以及待分類幀后L2幀的能 量分布參數(shù)包括:
[0142] 獲取接收到的音頻信號中待分類幀的高頻能量分布比和聲壓級作為待分類幀的 能量分布參數(shù),待分類巾貞前Ν3巾貞作為待分類巾貞前Ν3巾貞的能量分布參數(shù),以及待分類巾貞巾貞后 L2幀的高頻能量分布比和聲壓級作為待分類幀后L2幀的能量分布參數(shù);
[0143] 所述處理器根據(jù)音頻信號中待分類幀的能量分布參數(shù),待分類幀前Ν3幀的能量 分布參數(shù)以及待分類幀后L2幀的能量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù) 包括:
[0144] 根據(jù)所述接收到的音頻信號中待分類幀、待分類幀前Ν3幀和待分類幀后L2幀的 高頻能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比小于第八閾值的 持續(xù)幀數(shù);
[0145] 所述處理器根據(jù)音頻信號中待分類幀的能量分布參數(shù),待分類幀前Ν3幀的能量 分布參數(shù)以及待分類幀后L2幀的能量分布參數(shù)獲取所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù) 包括:
[0146] 根據(jù)所述接收到的音頻信號中待分類幀、待分類幀前Ν3幀和待分類幀后L2幀的 高頻能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比大于第九閾值、聲 壓級大于第十閾值的持續(xù)幀數(shù)。
[0147] 結(jié)合上述第三個方面的第二種可能、第五種可能或第八種可能的第十種可能中, 所述處理器獲取的待分類幀中持續(xù)幀數(shù)大于第六閾值的音調(diào)分量的數(shù)量為在頻域上大于 第七閾值的音調(diào)分量的數(shù)量。滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量為在頻域上大于第七 閾值的音調(diào)分量的數(shù)量。
[0148] 本發(fā)明提供的技術(shù)方案,主要是考慮到音樂信號的特性,例如音樂信號的音調(diào)持 續(xù)時間較長,而語音信號的音調(diào)持續(xù)時間較短,音樂信號的能量可以持續(xù)分布在高頻區(qū)域 或低頻區(qū)域,而語音信號通常不能持續(xù)分布在高頻區(qū)域或低頻區(qū)域,在考慮音樂信號上述 特點的基礎(chǔ)上,本發(fā)明實施例提供的技術(shù)方案中,首先獲取音頻信號中待分類幀中滿足連 續(xù)性約束條件的音調(diào)分量的數(shù)量,以及音頻信號中待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和/或 所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù),并根據(jù)上述信息確認(rèn)待分類幀的類型是音樂信號, 還是語音信號,上述技術(shù)方案提供的音頻信號分類處理方法,能夠提高音頻信號分類的正 確率,滿足語音質(zhì)量評估的要求。
【專利附圖】
【附圖說明】
[0149] 為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使 用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本 領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他 的附圖。
[0150] 圖1為本發(fā)明實施例中音頻信號分類處理方法的流程示意圖一;
[0151] 圖2為本發(fā)明具體實施例中的流程示意圖一;
[0152] 圖3a為輸入信號"法語男聲+笙"的波形圖一;
[0153] 圖3b為與圖3a對應(yīng)的語譜圖;
[0154] 圖4a為音頻信號"京胡+法語男聲的信號"的輸入信號的波形圖;
[0155] 圖4b為與圖4a對應(yīng)的語譜圖;
[0156] 圖5a為輸入信號"韓語男聲+合奏"的波形圖;
[0157] 圖5b為與圖5a對應(yīng)的語譜圖;
[0158] 圖6a為輸入信號"法語男聲+笙"的波形圖二;
[0159] 圖6b為圖6a所不輸入信號的初始音調(diào)檢測結(jié)果;
[0160] 圖6c為圖6a所示輸入信號篩選后的音調(diào)檢測結(jié)果;
[0161] 圖7a為輸入信號"法語男聲+笙"的波形圖三;
[0162] 圖7b為圖7a對應(yīng)的音調(diào)特征num_tonal_flag的曲線圖;
[0163] 圖8a為輸入信號"京胡+法語男聲"的波形圖;
[0164] 圖8b為與圖8a對應(yīng)的高頻能量分布比值ratio_energy_hf (k)的曲線圖;
[0165] 圖9a為輸入信號"韓語男聲+合奏"的波形圖;
[0166] 圖9b為與圖9a對應(yīng)的高頻能量分布比值ratio_energy_hf (k)的曲線圖;
[0167] 圖10為本發(fā)明實施例中音頻信號分類規(guī)則流程示意圖一;
[0168] 圖11a為輸入信號"中文女聲+合奏+英語男聲+塤+德語男聲+響板"的波形 圖一;
[0169] 圖lib為圖11a對應(yīng)的分類結(jié)果示意圖;
[0170] 圖12a為輸入信號"中文女聲+合奏+英語男聲+塤+德語男聲+響板"的波形 圖二;
[0171] 圖12b為圖12a對應(yīng)的平滑后的分類結(jié)果示意圖;
[0172] 圖13為本發(fā)明實施例中音頻信號分類規(guī)則流程示意圖二;
[0173] 圖14a為輸入信號"中文女聲+合奏+英語男聲+塤+德語男聲+響板"的波形 圖三;
[0174] 圖14b為圖14a對應(yīng)的實時分類結(jié)果示意圖;
[0175] 圖15為本發(fā)明實施例中輸出延時不固定的情況下語音分類方法流程圖;
[0176] 圖16a為輸入信號"中文女聲+合奏+英語男聲+塤+德語男聲+響板"的波形 圖四;
[0177] 圖16b為圖16a對應(yīng)的三種分類方式的分類結(jié)果示意圖;
[0178] 圖17為本發(fā)明實施例中音頻信號分類處理裝置的結(jié)構(gòu)示意圖;
[0179] 圖18為本發(fā)明實施例中音頻信號分類處理設(shè)備的結(jié)構(gòu)示意圖。
【具體實施方式】
[0180] 為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例 中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例是 本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員 在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
[0181] 針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明實施例提供了一種音頻信號分類處理方法,圖1 為本發(fā)明實施例中音頻信號分類處理方法的流程示意圖一,如圖1所示,該方法包括如下 步驟:
[0182] 步驟101、獲取音頻信號中待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量、所 述音頻信號中待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)中 的至少一項;
[0183] 步驟102、根據(jù)獲取的所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量、所 述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)中的至少一項, 確定所述音頻信號中待分類幀為音樂信號,否則確定所述音頻信號中待分類幀為語音信 號。
[0184] 本發(fā)明實施例提供的音頻信號分類處理方法,在進(jìn)行音頻信號中的各幀進(jìn)行分類 時,既可以無輸出延時的輸出分類結(jié)果,即對于接收到的音頻信號幀,實時輸出分類結(jié)果, 也可以存在一定的輸出延時,即對于接收到的音頻信號幀,延遲一段時間給出分類結(jié)果。
[0185] 本發(fā)明上述實施例提供的技術(shù)方案,主要是考慮到音樂信號的特性,例如音樂信 號的音調(diào)持續(xù)時間較長,而語音信號的音調(diào)持續(xù)時間較短,音樂信號的能量可以持續(xù)分布 在高頻區(qū)域或低頻區(qū)域,而語音信號通常不能持續(xù)分布在高頻區(qū)域或低頻區(qū)域,在考慮音 樂信號上述特點的基礎(chǔ)上,本發(fā)明實施例提供的技術(shù)方案中,首先獲取音頻信號中待分類 幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量,以及音頻信號中待分類幀在低頻區(qū)域的持續(xù) 幀數(shù)和/或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù),并根據(jù)上述信息確認(rèn)待分類幀的類型是 音樂信號,還是語音信號,上述技術(shù)方案提供的音頻信號分類處理方法,能夠提高音頻信號 分類的正確率,滿足語音質(zhì)量評估的要求。
[0186] 本發(fā)明上述實施例中,其中根據(jù)輸出延時要求的不同,可以分為三種情況,一是在 實時獲取所述待分類幀的分類結(jié)果時,需要根據(jù)待分類幀,以及待分類幀之前的N幀的信 息進(jìn)行判斷,二是在允許較小的分類結(jié)果輸出延時,即輸出延時為L1幀時,L1為正整數(shù),可 以根據(jù)待分類幀,待分類幀前L1幀,以及待分類幀后L1幀進(jìn)行判斷;三是允許較大分類結(jié) 果輸出延時,即輸出延時為L2+L3幀時,L2和L3為正整數(shù),先根據(jù)待分類幀,待分類幀前L2 幀,以及待分類幀后L2幀進(jìn)行判斷,獲取初步的待分類幀的分類結(jié)果,然后再根據(jù)待分類 幀前L3幀和待分類幀中后L3幀進(jìn)行修改。其中,在無輸出延時時,對于最先接收到的音頻 信號中的幀無法進(jìn)行分類,可以將最先接收到的幀設(shè)置默認(rèn)值,默認(rèn)其為語音信號或音樂 信號。
[0187] 具體的,在無輸出延時,即實時獲取所述待分類幀的分類結(jié)果時,圖1所示實施例 中的步驟101獲取音頻信號中待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量具體包 括:
[0188] 獲取音頻信號中待分類幀,以及待分類幀前N1幀的音調(diào)分布參數(shù),并根據(jù)所述待 分類幀,以及待分類幀前N1幀的音調(diào)分布參數(shù)獲取待分類幀中滿足連續(xù)性約束條件的音 調(diào)分量的數(shù)量,N1為正整數(shù);
[0189] 圖1所示實施例的步驟102中獲取所述音頻信號中待分類幀在低頻區(qū)域的持續(xù)幀 數(shù)和/或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)包括:
[0190] 獲取所述音頻信號中待分類幀,以及待分類幀前N1幀的能量分布參數(shù),并根據(jù)所 述音頻信號中待分類幀,以及待分類幀前N1幀的能量分布參數(shù)獲取所述待分類幀在低頻 區(qū)域的持續(xù)幀數(shù)和/或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù),N1為正整數(shù);
[0191] 圖1所示實施例的步驟103中根據(jù)所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分 量的數(shù)量、所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)中 的至少一項,確定所述音頻信號中待分類幀為音樂信號,否則確定所述音頻信號中待分類 中貞為語音信號包括:
[0192] 在所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量大于第一閾值、所述待 分類幀在低頻區(qū)域的持續(xù)幀數(shù)大于第二閾值或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)大于 第三閾值時,確定所述音頻信號中待分類幀為音樂信號,否則確定所述音頻信號中待分類 中貞為語音信號。
[0193] 上述實施例中,其中獲取音頻信號中待分類幀的音調(diào)分布參數(shù),以及待分類幀前 N1幀的音調(diào)分布參數(shù)包括:
[0194] 對接收到的音頻信號中的待分類幀和待分類幀前N1幀進(jìn)行快速傅里葉變換,獲 取功率密度譜;
[0195] 根據(jù)所述功率密度譜獲取所述接收到的音頻信號中的待分類幀作為待分類幀的 音調(diào)分布參數(shù),以及待分類幀前N1幀的音調(diào)分量的頻域分布信息作為待分類幀前N1幀的 音調(diào)分布參數(shù)。
[0196] 而上述的根據(jù)待分類幀的音調(diào)分布參數(shù),以及待分類幀前N1幀的音調(diào)分布參數(shù) 獲取待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量包括:
[0197] 根據(jù)接收到的音頻信號中的待分類幀和待分類幀前N1幀的音調(diào)分量的頻域分布 信息獲取待分類幀中持續(xù)幀數(shù)大于第六閾值的音調(diào)分量的數(shù)量。
[0198] 另外,上述獲取所音頻信號中待分類幀的能量分布參數(shù),以及待分類幀前N1幀的 能量分布參數(shù)包括:
[0199] 獲取接收到的音頻信號中待分類幀的高頻能量分布比和聲壓級作為待分類幀的 能量分布參數(shù),以及待分類幀前N1幀的高頻能量分布比和聲壓級作為待分類幀前N1幀的 能量分布參數(shù)。
[0200] 而上述根據(jù)音頻信號中待分類幀的能量分布參數(shù),以及待分類幀前N1幀的能量 分布參數(shù)獲取所述待分類巾貞在低頻區(qū)域的持續(xù)巾貞數(shù)包括:
[0201] 根據(jù)所述接收到的音頻信號中待分類幀和待分類幀前N1幀的高頻能量分布比和 聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比小于第八閾值的持續(xù)幀數(shù);
[0202] 上述根據(jù)音頻信號中待分類幀的能量分布參數(shù),以及待分類幀前N1幀的能量分 布參數(shù)獲取所述待分類巾貞在高頻區(qū)域的持續(xù)巾貞數(shù)包括:
[0203] 根據(jù)所述接收到的音頻信號中待分類幀和待分類幀前N1幀的高頻能量分布比和 聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比大于第九閾值、聲壓級大于第十閾值 的持續(xù)幀數(shù)。
[0204] 在允許L1幀分類結(jié)果輸出延時,即延時L1幀獲取所述待分類幀的分類結(jié)果時,圖 1所示實施例的步驟101中獲取音頻信號中待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的 數(shù)量包括:
[0205] 獲取音頻信號中待分類幀,待分類幀前N2幀,以及待分類幀后L1幀的音調(diào)分布參 數(shù),并根據(jù)所述待分類幀,待分類幀前N2幀以及待分類幀后L1幀的音調(diào)分布參數(shù)獲取待分 類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量,N2為正整數(shù);
[0206] 圖1所示實施例的步驟102中獲取所述音頻信號中待分類幀在低頻區(qū)域的持續(xù)幀 數(shù)和/或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)包括:
[0207] 獲取所述音頻信號中待分類幀,以及待分類幀前N2幀以及待分類幀后L1幀的能 量分布參數(shù),并根據(jù)所述音頻信號中待分類幀,待分類幀前N2幀以及待分類幀后L1幀的能 量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和/或所述待分類幀在高頻區(qū)域的 持續(xù)幀數(shù);
[0208] 圖1所示實施例的步驟103中根據(jù)所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分 量的數(shù)量、所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)中 的至少一項,確定所述音頻信號中待分類幀為音樂信號,否則確定所述音頻信號中待分類 中貞為語音信號包括:
[0209] 在所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量大于第一閾值、所述待 分類幀在低頻區(qū)域的持續(xù)幀數(shù)大于第二閾值或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)大于 第三閾值時,確定所述音頻信號中待分類幀為音樂信號,否則確定所述音頻信號中待分類 中貞為語音信號。
[0210] 在上述實施例中,其中獲取音頻信號中待分類幀的音調(diào)分布參數(shù),待分類幀前N2 幀的音調(diào)分布參數(shù),以及待分類幀后L1幀的音調(diào)分布參數(shù)包括:
[0211] 對接收到的音頻信號中的待分類幀、待分類幀前N2幀和待分類幀幀后L1幀進(jìn)行 快速傅里葉變換,獲取功率密度譜;
[0212] 根據(jù)所述功率密度譜獲取所述接收到的音頻信號中的待分類幀的音調(diào)分量的頻 域分布信息作為待分類幀的音調(diào)分布參數(shù),待分類幀前N2幀的音調(diào)分量的頻域分布信息 作為待分類幀前N2幀的音調(diào)分布參數(shù),以及待分類幀幀后L1幀的音調(diào)分量的頻域分布信 息作為待分類幀幀后L1幀的音調(diào)分布參數(shù);
[0213] 所述根據(jù)待分類幀的音調(diào)分布參數(shù),待分類幀前N2幀的音調(diào)分布參數(shù),以及待分 類幀后L1幀的音調(diào)分布參數(shù)獲取待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量包 括:
[0214] 根據(jù)接收到的音頻信號中的待分類幀、待分類幀前N2幀和待分類幀幀后L1幀的 音調(diào)分量的頻域分布信息獲取待分類幀中持續(xù)幀數(shù)大于第六閾值的音調(diào)分量的數(shù)量。
[0215] 另外,上述獲取所音頻信號中待分類幀的能量分布參數(shù),待分類幀前N2幀的能量 分布參數(shù)以及待分類巾貞后L1巾貞的能量分布參數(shù)包括:
[0216] 獲取接收到的音頻信號中待分類幀的高頻能量分布比和聲壓級作為待分類幀的 能量分布參數(shù),待分類幀前N2幀的高頻能量分布比和聲壓級作為待分類幀前N2幀的能量 分布參數(shù)和待分類幀后L1幀的高頻能量分布比和聲壓級作為待分類幀后L1幀的能量分布 參數(shù);
[0217] 所述根據(jù)音頻信號中待分類幀的能量分布參數(shù),待分類幀前N2幀的能量分布參 數(shù)以及待分類幀后L1幀的能量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)包括:
[0218] 根據(jù)所述接收到的音頻信號中待分類幀、待分類幀前N2幀和待分類幀后L1幀的 高頻能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比小于第八閾值的 持續(xù)幀數(shù);
[0219] 所述根據(jù)音頻信號中待分類幀的能量分布參數(shù),待分類幀前N2幀的能量分布參 數(shù)以及待分類幀后L1幀的能量分布參數(shù)獲取所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)包括:
[0220] 根據(jù)所述接收到的音頻信號中待分類幀、待分類幀前N2幀和待分類幀后L1幀的 高頻能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比大于第九閾值、聲 壓級大于第十閾值的持續(xù)幀數(shù)。
[0221] 在允許分類結(jié)果輸出延時為L2+L3幀,即延時L2+L3幀獲取所述待分類幀的分類 結(jié)果時,圖1所示實施例的步驟101中獲取音頻信號中待分類幀中滿足連續(xù)性約束條件的 音調(diào)分量的數(shù)量包括:
[0222] 獲取音頻信號中待分類幀,待分類幀前N3幀,以及待分類幀后L2幀的音調(diào)分布參 數(shù),并根據(jù)所述待分類幀,待分類幀前N3幀以及待分類幀后L2幀的音調(diào)分布參數(shù)獲取待分 類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量,N3為正整數(shù);
[0223] 圖1所示實施例的步驟102中獲取所述音頻信號中待分類幀在低頻區(qū)域的持續(xù)幀 數(shù)和/或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)包括:
[0224] 獲取所述音頻信號中待分類幀,以及待分類幀前N3幀以及待分類幀后L2幀的能 量分布參數(shù),并根據(jù)所述音頻信號中待分類幀,待分類幀前N3幀以及待分類幀后L2幀的能 量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和/或所述待分類幀在高頻區(qū)域的 持續(xù)幀數(shù)。
[0225] 圖1所示實施例的步驟103中根據(jù)所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分 量的數(shù)量、所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)中 的至少一項,確定所述音頻信號中待分類幀為音樂信號,否則確定所述音頻信號中待分類 中貞為語音信號包括:
[0226] 在所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量大于第一閾值、所述待 分類幀在低頻區(qū)域的持續(xù)幀數(shù)大于第二閾值或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)大于 第三閾值時,確定所述音頻信號中待分類幀為音樂信號,否則確定所述音頻信號中待分類 中貞為語音信號;
[0227] 若確定所述音頻信號中待分類幀為音樂信號,則確定所述待分類幀前L3幀和待 分類幀中后L3幀中確定為語音信號的幀數(shù)目是否大于第四閾值,若超過,則將所述音頻信 號中待分類巾貞修正為語音信號;
[0228] 若確定所述音頻信號中待分類幀為語音信號,則確定所述待分類幀前L3幀和待 分類幀中后L3幀中確定為音樂信號的幀數(shù)目是否大于第五閾值,若大于,則將所述音頻信 號中待分類巾貞修正為音樂信號。
[0229] 在上述實施例中,所述獲取音頻信號中待分類幀的音調(diào)分布參數(shù),待分類幀前N3 幀的音調(diào)分布參數(shù),以及待分類幀后L2幀的音調(diào)分布參數(shù)包括:
[0230] 對接收到的音頻信號中的待分類幀、待分類幀前N3幀和待分類幀幀后L2幀進(jìn)行 快速傅里葉變換,獲取功率密度譜;
[0231] 根據(jù)所述功率密度譜獲取所述接收到的音頻信號中的待分類幀的音調(diào)分量的頻 域分布信息作為待分類幀的音調(diào)分布參數(shù),待分類幀前N3幀的音調(diào)分量的頻域分布信息 作為待分類幀前N3幀的音調(diào)分布參數(shù),以及待分類幀幀后L2幀的音調(diào)分量的頻域分布信 息作為待分類幀幀后L2幀的音調(diào)分布參數(shù);
[0232] 所述根據(jù)待分類幀的音調(diào)分布參數(shù),待分類幀前N3幀的音調(diào)分布參數(shù),以及待分 類幀后L2幀的音調(diào)分布參數(shù)獲取待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量包 括:
[0233] 根據(jù)接收到的音頻信號中的待分類幀、待分類幀前N3幀和待分類幀幀后L2幀的 音調(diào)分量的頻域分布信息獲取待分類幀中持續(xù)幀數(shù)大于第六閾值的音調(diào)分量的數(shù)量。
[0234] 另外,所述獲取所音頻信號中待分類幀的能量分布參數(shù),待分類幀前N3幀的能量 分布參數(shù)以及待分類巾貞后L2巾貞的能量分布參數(shù)包括:
[0235] 獲取接收到的音頻信號中待分類幀的高頻能量分布比和聲壓級作為待分類幀的 能量分布參數(shù),待分類巾貞前N3巾貞作為待分類巾貞前N3巾貞的能量分布參數(shù),以及待分類巾貞巾貞后 L2幀的高頻能量分布比和聲壓級作為待分類幀后L2幀的能量分布參數(shù);
[0236] 所述根據(jù)音頻信號中待分類幀的能量分布參數(shù),待分類幀前N3幀的能量分布參 數(shù)以及待分類幀后L2幀的能量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)包括:
[0237] 根據(jù)所述接收到的音頻信號中待分類幀、待分類幀前N3幀和待分類幀后L2幀的 高頻能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比小于第八閾值的 持續(xù)幀數(shù);
[0238] 所述根據(jù)音頻信號中待分類幀的能量分布參數(shù),待分類幀前N3幀的能量分布參 數(shù)以及待分類幀后L2幀的能量分布參數(shù)獲取所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)包括:
[0239] 根據(jù)所述接收到的音頻信號中待分類幀、待分類幀前N3幀和待分類幀后L2幀的 高頻能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比大于第九閾值、聲 壓級大于第十閾值的持續(xù)幀數(shù)。
[0240] 上述針對是否允許輸出延時的三種情形下,其中待分類幀中持續(xù)幀數(shù)大于第六閾 值的音調(diào)分量的數(shù)量為在頻域上大于第七閾值的音調(diào)分量的數(shù)量。
[0241] 以下分別針對上述允許分類結(jié)果輸出延時等情況進(jìn)行詳細(xì)說明。首先,以允許L1 幀的少量固定輸出延時為例,本實施例中L1取值為15。圖2為本發(fā)明具體實施例中的流程 示意圖一,如圖2所示,包括如下的步驟:
[0242] 步驟201、對當(dāng)前幀第i幀進(jìn)行FFT變換,本步驟中是針對接收到的每幀都進(jìn)行 FFT變換;
[0243] 步驟202、基于FFT變換結(jié)果,獲取第i幀的音調(diào)分布參數(shù),及其能量分布參數(shù);
[0244] 步驟203、判斷i>Ll是否成立,即當(dāng)前幀之前是否已存在L1個幀,如果是執(zhí)行步驟 204,否則結(jié)束本流程,繼續(xù)執(zhí)行針對后續(xù)的各幀執(zhí)行上述步驟201和步驟202的操作;
[0245] 步驟204、在i>Ll時,則可以獲取第i-Ll幀的音頻信號分類結(jié)果,具體的可以過去 的信息,即按照上述步驟201和步驟202獲取的第i-Ll幀之前的若干幀的音調(diào)分布參數(shù)和 能量分布參數(shù),現(xiàn)在的信息,即第i-Ll幀的音調(diào)分布參數(shù)和能量分布參數(shù),以及未來的信 息,即第i-Ll幀之后的L1幀的音調(diào)分布參數(shù)和能量分布參數(shù),獲取第i-Ll幀的音頻信號 分類結(jié)果;
[0246] 步驟205,輸出第i-Ll幀的音頻信號分類結(jié)果。
[0247] 具體的,對于音樂信號和語音信號的音調(diào)分布情況,可以參照圖3a和圖3b,圖3a 為輸入信號"法語男聲+笙"的波形圖一,圖3b為與圖3對應(yīng)的語譜圖。在圖3a的輸入信 號波形中,采樣率為8kHz,其中,橫軸為樣本點,縱軸為歸一化幅值;圖3b的語譜圖,對應(yīng)的 采樣率也為8kHz,頻率分析范圍為0?4kHz。其中,橫軸為幀,與圖3a橫軸的樣本點相對 應(yīng);縱軸為頻率(Hz)。在語譜圖中,某個頻率范圍內(nèi)的亮度越高,表示信號在該頻段的能量 越大。如果信號在某頻段持續(xù)保持較大的能量,在語譜圖上就會形成一條"亮帶",也就是音 調(diào)。通過圖3b的音調(diào)分布情況可知,在前半段的語音信號中,除了基頻處的音調(diào)持續(xù)時間 稍長一些,更高頻率處的音調(diào)持續(xù)時間都是很短的。在語音信號中,能夠檢測出音調(diào)的地方 為濁音。由于濁音的長度通常較短,與之相對應(yīng)的音調(diào)持續(xù)時間也較短;而在后半段的音樂 信號中,音調(diào)持續(xù)時間明顯較長。
[0248] 對于音樂信號和語音信號的能量分布情況,可以參照圖4a和圖4b,圖4a為音頻 信號"京胡+法語男聲的信號"的輸入信號的波形圖,圖4b為與圖4a對應(yīng)的語譜圖。在圖 4a的波形圖中,其中,橫軸為樣本點;縱軸為歸一化幅值;圖4b的語譜圖中,橫軸為幀;縱 軸為頻率(Hz)。通過圖4b的能量分布情況可知:在前半段的音樂信號中,能量基本分布在 1kHz以上,在1kHz至4kHz均有分布;在后半段的語音信號中,大部分濁音的能量主要分布 在1kHz以下;清音的能量在低頻至較高頻率范圍內(nèi)均有分布。因此,語音信號的能量不可 能持續(xù)分布在相對較高的頻率范圍內(nèi)。
[0249] 另外,部分音樂信號的能量能夠持續(xù)分布在低頻區(qū)域;相比之下,語音信號的能量 不可能持續(xù)分布在低頻區(qū)域。以圖5a和圖5b所示的"韓語男聲+合奏"的音頻信號為例 說明,圖5a為輸入信號"韓語男聲+合奏"的波形圖,其中,橫軸為樣本點;縱軸為歸一化幅 值;圖5b為與圖5a對應(yīng)的語譜圖,其中,橫軸為幀;縱軸為頻率(Hz)。通過可以看出如下 的能量分布情況:圖5b前半段的語音信號的能量分布情況與圖4b的語音信號類似。由于 濁音和清音的能量分布特性不同,造成語音信號的能量分布具有較大的波動。因此,語音信 號的能量既不可能持續(xù)分布在相對較高的頻率范圍內(nèi),也不可能持續(xù)分布在低頻范圍內(nèi); 在后半段的音樂信號中,能量主要分布在1kHz以下。
[0250] 綜上所述,音樂信號與語音信號的不同之處主要有:一是部分音樂信號的音調(diào)持 續(xù)時間較長,語音信號的音調(diào)持續(xù)時間通常較短;二是部分音樂信號的能量能夠持續(xù)分布 在相對較高的頻率范圍內(nèi);語音信號的能量不能持續(xù)分布在相對較高的頻率范圍內(nèi);三是 部分音樂信號的能量能夠持續(xù)分布在低頻區(qū)域;語音信號的能量不能持續(xù)分布在低頻區(qū) 域。本發(fā)明各實施例中的低頻和高頻的劃分,可以根據(jù)語音信號的分布區(qū)域確定,將語音信 號主要分布的區(qū)域定義為低頻區(qū)域,例如將1kHz以下定義為低頻區(qū)域,而將1kHz定義為高 頻區(qū)域,當(dāng)然其具體取值也可以根據(jù)具體的應(yīng)用場景的不同,針對的具體語音信號的不同 而有所區(qū)別。
[0251] 基于上述分類原理,需要提取的特征主要有音調(diào)特征及能量特征。
[0252] 具體的,提取音調(diào)特征可以分為三個步驟:
[0253] A、獲取初始音調(diào)檢測結(jié)果,即各幀的音調(diào)分布參數(shù);
[0254] B、通過連續(xù)性分析,對初始音調(diào)檢測結(jié)果進(jìn)行篩選,確定待分類幀中滿足連續(xù)性 約束條件的音調(diào)分量,該音調(diào)分量是指能量在頻域上的一種分布形式;
[0255] C、基于篩選后的音調(diào)檢測結(jié)果,提取音調(diào)特征,即待分類幀的滿足連續(xù)性約束條 件的音調(diào)分量的數(shù)量。
[0256] 其中,上述獲取初始音調(diào)檢測結(jié)果可以包括:首先,對各個幀的數(shù)據(jù)進(jìn)行FFT變 換,獲取功率密度譜;其次,確定功率密度譜中的局部極大點;最后,針對以局部極大點為 中心的若干功率密度譜系數(shù)進(jìn)行分析,進(jìn)一步確定局部極大點是否為真正的音調(diào)分量。
[0257] 本實施例中,設(shè)輸入信號的采樣率為8kHz,有效帶寬為4kHz,F(xiàn)FT變換大小為F,其 取值為1024,功率密度譜的局部極大點為P
【權(quán)利要求】
1. 一種音頻信號分類處理方法,其特征在于,包括: 獲取音頻信號中待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量、所述待分類幀在 低頻區(qū)域的持續(xù)幀數(shù)和所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)中的至少一項; 根據(jù)獲取的所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量、所述待分類幀在 低頻區(qū)域的持續(xù)幀數(shù)和所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)中的至少一項,確定所述音頻 信號中待分類幀為音樂信號,或確定所述音頻信號中待分類幀為語音信號。
2. 根據(jù)權(quán)利要求1所述的音頻信號分類處理方法,其特征在于,所述獲取音頻信號中 待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量包括: 獲取音頻信號中待分類幀的音調(diào)分布參數(shù),以及待分類幀前N1幀的音調(diào)分布參數(shù),并 根據(jù)所述待分類幀的音調(diào)分布參數(shù),以及待分類幀前N1幀的音調(diào)分布參數(shù)獲取待分類幀 中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量,N1為正整數(shù); 所述獲取所述音頻信號中待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和/或所述待分類幀在高 頻區(qū)域的持續(xù)巾貞數(shù)包括: 獲取所述音頻信號中待分類幀的能量分布參數(shù),以及待分類幀前N1幀的能量分布參 數(shù),并根據(jù)所述音頻信號中待分類幀的能量分布參數(shù),以及待分類幀前N1幀的能量分布參 數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和/或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù), N1為正整數(shù); 所述根據(jù)所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量、所述待分類幀在低 頻區(qū)域的持續(xù)幀數(shù)和所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)中的至少一項,確定所述音頻信 號中待分類幀為音樂信號,否則確定所述音頻信號中待分類幀為語音信號包括: 在所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量大于第一閾值、所述待分類 幀在低頻區(qū)域的持續(xù)幀數(shù)大于第二閾值或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)大于第三 閾值時,確定所述音頻信號中待分類幀為音樂信號,否則確定所述音頻信號中待分類幀為 語音信號。
3. 根據(jù)權(quán)利要求2所述的音頻信號分類處理方法,其特征在于,所述獲取音頻信號中 待分類幀的音調(diào)分布參數(shù),以及待分類幀前N1幀的音調(diào)分布參數(shù)包括: 對接收到的音頻信號中的待分類幀和待分類幀前N1幀進(jìn)行快速傅里葉變換,獲取功 率密度譜; 根據(jù)所述功率密度譜獲取所述接收到的音頻信號中的待分類幀的音調(diào)分量的頻域分 布信息作為待分類幀的音調(diào)分布參數(shù),以及待分類幀前N1幀的音調(diào)分量的頻域分布信息 作為待分類幀前N1幀的音調(diào)分布參數(shù); 所述根據(jù)待分類幀的音調(diào)分布參數(shù),以及待分類幀前N1幀的音調(diào)分布參數(shù)獲取待分 類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量包括: 根據(jù)接收到的音頻信號中的待分類幀和待分類幀前N1幀的音調(diào)分量的頻域分布信息 獲取待分類幀中持續(xù)幀數(shù)大于第六閾值的音調(diào)分量的數(shù)量。
4. 根據(jù)權(quán)利要求2所述的音頻信號分類處理方法,其特征在于,所述獲取所述音頻信 號中待分類巾貞的能量分布參數(shù),以及待分類巾貞前N1巾貞的能量分布參數(shù)包括: 獲取接收到的音頻信號中待分類幀的高頻能量分布比和聲壓級作為待分類幀的能量 分布參數(shù),以及待分類幀前N1幀的高頻能量分布比和聲壓級作為待分類幀前N1幀的能量 分布參數(shù); 所述根據(jù)音頻信號中待分類幀的能量分布參數(shù),以及待分類幀前N1幀的能量分布參 數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)包括: 根據(jù)所述接收到的音頻信號中待分類幀和待分類幀前N1幀的高頻能量分布比和聲壓 級獲取包括所述待分類幀在內(nèi)的高頻能量分布比小于第八閾值的持續(xù)幀數(shù); 所述根據(jù)音頻信號中待分類幀的能量分布參數(shù),以及待分類幀前N1幀的能量分布參 數(shù)獲取所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)包括: 根據(jù)所述接收到的音頻信號中待分類幀和待分類幀前N1幀的高頻能量分布比和聲壓 級獲取包括所述待分類幀在內(nèi)的高頻能量分布比大于第九閾值、聲壓級大于第十閾值的持 續(xù)幀數(shù)。
5. 根據(jù)權(quán)利要求1-4任一所述的音頻信號分類處理方法,其特征在于,所述獲取音頻 信號中待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量包括: 獲取音頻信號中待分類幀的音調(diào)分布參數(shù),待分類幀前N2幀的音調(diào)分布參數(shù),以及待 分類幀后L1幀的音調(diào)分布參數(shù),并根據(jù)所述待分類幀的音調(diào)分布參數(shù),待分類幀前N2幀的 音調(diào)分布參數(shù)以及待分類幀后L1幀的音調(diào)分布參數(shù)獲取待分類幀中滿足連續(xù)性約束條件 的音調(diào)分量的數(shù)量,L1為正整數(shù),N2為正整數(shù); 所述獲取所述音頻信號中待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和/或所述待分類幀在高 頻區(qū)域的持續(xù)巾貞數(shù)包括: 獲取所述音頻信號中待分類幀的能量分布參數(shù),以及待分類幀前N2幀的能量分布參 數(shù)以及待分類幀后L1幀的能量分布參數(shù),并根據(jù)所述音頻信號中待分類幀的能量分布參 數(shù),待分類幀前N2幀的能量分布參數(shù)以及待分類幀后L1幀的能量分布參數(shù)獲取所述待分 類幀在低頻區(qū)域的持續(xù)幀數(shù)和/或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù); 所述根據(jù)所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量、所述待分類幀在低 頻區(qū)域的持續(xù)幀數(shù)和所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)中的至少一項,確定所述音頻信 號中待分類幀為音樂信號,否則確定所述音頻信號中待分類幀為語音信號包括: 在所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量大于第一閾值、所述待分類 幀在低頻區(qū)域的持續(xù)幀數(shù)大于第二閾值或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)大于第三 閾值時,確定所述音頻信號中待分類幀為音樂信號,否則確定所述音頻信號中待分類幀為 語音信號。
6. 根據(jù)權(quán)利要求5所述的音頻信號分類處理方法,其特征在于,所述獲取音頻信號中 待分類幀的音調(diào)分布參數(shù),待分類幀前N2幀的音調(diào)分布參數(shù),以及待分類幀后L1幀的音調(diào) 分布參數(shù)包括: 對接收到的音頻信號中的待分類幀、待分類幀前N2幀和待分類幀幀后L1幀進(jìn)行快速 傅里葉變換,獲取功率密度譜; 根據(jù)所述功率密度譜獲取所述接收到的音頻信號中的待分類幀的音調(diào)分量的頻域分 布信息作為待分類幀的音調(diào)分布參數(shù),待分類幀前N2幀的音調(diào)分量的頻域分布信息作為 待分類幀前N2幀的音調(diào)分布參數(shù),以及待分類幀幀后L1幀的音調(diào)分量的頻域分布信息作 為待分類幀幀后L1幀的音調(diào)分布參數(shù); 所述根據(jù)待分類幀的音調(diào)分布參數(shù),待分類幀前N2幀的音調(diào)分布參數(shù),以及待分類幀 后L1幀的音調(diào)分布參數(shù)獲取待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量包括: 根據(jù)接收到的音頻信號中的待分類幀、待分類幀前N2幀和待分類幀幀后L1幀的音調(diào) 分量的頻域分布信息獲取待分類幀中持續(xù)幀數(shù)大于第六閾值的音調(diào)分量的數(shù)量。
7. 根據(jù)權(quán)利要求5所述的音頻信號分類處理方法,其特征在于,所述獲取所音頻信號 中待分類幀的能量分布參數(shù),待分類幀前N2幀的能量分布參數(shù)以及待分類幀后L1幀的能 量分布參數(shù)包括: 獲取接收到的音頻信號中待分類幀的高頻能量分布比和聲壓級作為待分類幀的能量 分布參數(shù),待分類幀前N2幀的高頻能量分布比和聲壓級作為待分類幀前N2幀的能量分布 參數(shù)和待分類幀后L1幀的高頻能量分布比和聲壓級作為待分類幀后L1幀的能量分布參 數(shù); 所述根據(jù)音頻信號中待分類幀的能量分布參數(shù),待分類幀前N2幀的能量分布參數(shù)以 及待分類幀后L1幀的能量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)包括: 根據(jù)所述接收到的音頻信號中待分類幀、待分類幀前N2幀和待分類幀后L1幀的高頻 能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比小于第八閾值的持續(xù) 幀數(shù); 所述根據(jù)音頻信號中待分類幀的能量分布參數(shù),待分類幀前N2幀的能量分布參數(shù)以 及待分類幀后L1幀的能量分布參數(shù)獲取所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)包括: 根據(jù)所述接收到的音頻信號中待分類幀、待分類幀前N2幀和待分類幀后L1幀的高頻 能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比大于第九閾值、聲壓級 大于第十閾值的持續(xù)幀數(shù)。
8. 根據(jù)權(quán)利要求1-7任一所述的音頻信號分類處理方法,其特征在于,所述獲取音頻 信號中待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量包括: 獲取音頻信號中待分類幀的音調(diào)分布參數(shù),待分類幀前N3幀的音調(diào)分布參數(shù),以及待 分類幀后L2幀的音調(diào)分布參數(shù),并根據(jù)所述待分類幀的音調(diào)分布參數(shù),待分類幀前N3幀的 音調(diào)分布參數(shù)以及待分類幀后L2幀的音調(diào)分布參數(shù)獲取待分類幀中滿足連續(xù)性約束條件 的音調(diào)分量的數(shù)量,L2為正整數(shù),L3為正整數(shù),N3為正整數(shù); 所述獲取所述音頻信號中待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和/或所述待分類幀在高 頻區(qū)域的持續(xù)巾貞數(shù)包括: 獲取所述音頻信號中待分類幀的能量分布參數(shù),以及待分類幀前N3幀的能量分布參 數(shù)以及待分類幀后L3幀的能量分布參數(shù),并根據(jù)所述音頻信號中待分類幀的能量分布參 數(shù),待分類幀前N3幀的能量分布參數(shù)以及待分類幀后L3幀的能量分布參數(shù)獲取所述待分 類幀在低頻區(qū)域的持續(xù)幀數(shù)和/或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù); 所述根據(jù)所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量、所述待分類幀在低 頻區(qū)域的持續(xù)幀數(shù)和所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)中的至少一項,確定所述音頻信 號中待分類幀為音樂信號,否則確定所述音頻信號中待分類幀為語音信號包括: 在所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量大于第一閾值、所述待分類 幀在低頻區(qū)域的持續(xù)幀數(shù)大于第二閾值或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)大于第三 閾值時,確定所述音頻信號中待分類幀為音樂信號,否則確定所述音頻信號中待分類幀為 語音信號; 若確定所述音頻信號中待分類幀為音樂信號,則確定所述待分類幀前N4幀和待分類 幀后L3幀中確定為語音信號的幀數(shù)目是否大于第四閾值,若超過,則將所述音頻信號中待 分類幀修正為語音信號,Ν4為正整數(shù); 若確定所述音頻信號中待分類幀為語音信號,則確定所述待分類幀前Ν4幀和待分類 中貞后L3巾貞中確定為音樂信號的巾貞數(shù)目是否大于第五閾值,若大于,則將所述音頻信號中待 分類巾貞修正為音樂信號。
9. 根據(jù)權(quán)利要求8所述的音頻信號分類處理方法,其特征在于,所述獲取音頻信號中 待分類幀的音調(diào)分布參數(shù),待分類幀前Ν3幀的音調(diào)分布參數(shù),以及待分類幀后L2幀的音調(diào) 分布參數(shù)包括: 對接收到的音頻信號中的待分類幀、待分類幀前Ν3幀和待分類幀幀后L2幀進(jìn)行快速 傅里葉變換,獲取功率密度譜; 根據(jù)所述功率密度譜獲取所述接收到的音頻信號中的待分類幀的音調(diào)分量的頻域分 布信息作為待分類幀的音調(diào)分布參數(shù),待分類幀前Ν3幀的音調(diào)分量的頻域分布信息作為 待分類幀前Ν3幀的音調(diào)分布參數(shù),以及待分類幀幀后L2幀的音調(diào)分量的頻域分布信息作 為待分類幀幀后L2幀的音調(diào)分布參數(shù); 所述根據(jù)待分類幀的音調(diào)分布參數(shù),待分類幀前Ν3幀的音調(diào)分布參數(shù),以及待分類幀 后L2幀的音調(diào)分布參數(shù)獲取待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量包括: 根據(jù)接收到的音頻信號中的待分類幀的音調(diào)分量的頻域分布信息、待分類幀前Ν3幀 的音調(diào)分量的頻域分布信息和待分類幀幀后L2幀的音調(diào)分量的頻域分布信息獲取待分類 幀中持續(xù)幀數(shù)大于第六閾值的音調(diào)分量的數(shù)量。
10. 根據(jù)權(quán)利要求8所述的音頻信號分類處理方法,其特征在于,所述獲取所音頻信號 中待分類幀的能量分布參數(shù),待分類幀前Ν3幀的能量分布參數(shù)以及待分類幀后L2幀的能 量分布參數(shù)包括: 獲取接收到的音頻信號中待分類幀的高頻能量分布比和聲壓級作為待分類幀的能量 分布參數(shù),待分類幀前Ν3幀的高頻能量分布比和聲壓級作為待分類幀前Ν3幀的能量分布 參數(shù),以及待分類幀幀后L2幀的高頻能量分布比和聲壓級作為待分類幀后L2幀的能量分 布參數(shù); 所述根據(jù)音頻信號中待分類幀的能量分布參數(shù),待分類幀前Ν3幀的能量分布參數(shù)以 及待分類幀后L2幀的能量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)包括: 根據(jù)所述接收到的音頻信號中待分類幀、待分類幀前Ν3幀和待分類幀后L2幀的高頻 能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比小于第八閾值的持續(xù) 幀數(shù); 所述根據(jù)音頻信號中待分類幀的能量分布參數(shù),待分類幀前Ν3幀的能量分布參數(shù)以 及待分類幀后L2幀的能量分布參數(shù)獲取所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)包括: 根據(jù)所述接收到的音頻信號中待分類幀、待分類幀前Ν3幀的能量分布參數(shù)和待分類 幀后L2幀的高頻能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比大于 第九閾值、聲壓級大于第十閾值的持續(xù)幀數(shù)。
11. 根據(jù)權(quán)利要求3、6或9所述的音頻信號分類處理方法,其特征在于,所述待分類幀 中持續(xù)幀數(shù)大于第六閾值的音調(diào)分量的數(shù)量為在頻域上大于第七閾值的音調(diào)分量的數(shù)量。
12. -種音頻信號分類處理裝置,其特征在于,包括: 第一獲取模塊,用于獲取音頻信號中待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù) 量、所述音頻信號中待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和所述待分類幀在高頻區(qū)域的持續(xù)幀 數(shù)中的至少一項; 分類確定模塊,用于根據(jù)所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量、所 述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和所述待分類幀的高頻區(qū)域的持續(xù)幀數(shù)中的至少一項, 確定所述音頻信號中待分類幀為音樂信號,或確定所述音頻信號中待分類幀為語音信號。
13. 根據(jù)權(quán)利要求12所述的音頻信號分類處理裝置,其特征在于,所述第一獲取模塊 具體用于獲取音頻信號中待分類幀,以及待分類幀前N1幀的音調(diào)分布參數(shù),并根據(jù)所述待 分類幀,以及待分類幀前N1幀的音調(diào)分布參數(shù)獲取待分類幀中滿足連續(xù)性約束條件的音 調(diào)分量的數(shù)量,N1為正整數(shù);或具體用于獲取所述音頻信號中待分類幀,以及待分類幀前 N1幀的能量分布參數(shù),并根據(jù)所述音頻信號中待分類幀,以及待分類幀前N1幀的能量分布 參數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù); 所述分類確定模塊具體用于在所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù) 量大于第一閾值、所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)大于第二閾值或所述待分類幀在高 頻區(qū)域的持續(xù)幀數(shù)大于第三閾值時,確定所述音頻信號中待分類幀為音樂信號,否則確定 所述音頻信號中待分類幀為語音信號。
14. 根據(jù)權(quán)利要求13所述的音頻信號分類處理裝置,其特征在于, 所述第一獲取模塊獲取音頻信號中待分類幀的音調(diào)分布參數(shù),以及待分類幀前N1幀 的音調(diào)分布參數(shù)包括: 對接收到的音頻信號中的待分類幀和待分類幀前N1幀進(jìn)行快速傅里葉變換,獲取功 率密度譜; 根據(jù)所述功率密度譜獲取所述接收到的音頻信號中的待分類幀的音調(diào)分量的頻域分 布信息作為待分類幀的音調(diào)分布參數(shù),以及待分類幀前N1幀的音調(diào)分量的頻域分布信息 作為待分類幀前N1幀的音調(diào)分布參數(shù); 所述分類確定模塊根據(jù)待分類幀的音調(diào)分布參數(shù),以及待分類幀前N1幀的音調(diào)分布 參數(shù)獲取待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量包括: 根據(jù)接收到的音頻信號中的待分類幀和待分類幀前N1幀的音調(diào)分量的頻域分布信息 獲取待分類幀中持續(xù)幀數(shù)大于第六閾值的音調(diào)分量的數(shù)量。
15. 根據(jù)權(quán)利要求13所述的音頻信號分類處理裝置,其特征在于, 所述第一獲取模塊獲取所音頻信號中待分類幀的能量分布參數(shù),以及待分類幀前N1 中貞的能量分布參數(shù)包括: 獲取接收到的音頻信號中待分類幀的高頻能量分布比和聲壓級作為待分類幀的能量 分布參數(shù),以及待分類幀前N1幀的高頻能量分布比和聲壓級作為待分類幀前N1幀的能量 分布參數(shù); 所述分類確定模塊根據(jù)音頻信號中待分類幀的能量分布參數(shù),以及待分類幀前N1幀 的能量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)包括: 根據(jù)所述接收到的音頻信號中待分類幀和待分類幀前N1幀的高頻能量分布比和聲壓 級獲取包括所述待分類幀在內(nèi)的高頻能量分布比小于第八閾值的持續(xù)幀數(shù); 所述分類確定模塊根據(jù)音頻信號中待分類幀的能量分布參數(shù),以及待分類幀前N1幀 的能量分布參數(shù)獲取所述待分類巾貞在高頻區(qū)域的持續(xù)巾貞數(shù)包括: 根據(jù)所述接收到的音頻信號中待分類幀和待分類幀前N1幀的高頻能量分布比和聲壓 級獲取包括所述待分類幀在內(nèi)的高頻能量分布比大于第九閾值、聲壓級大于第十閾值的持 續(xù)幀數(shù)。
16. 根據(jù)權(quán)利要求12-15任一所述的音頻信號分類處理裝置,其特征在于,在延時L1幀 獲取所述待分類幀的分類結(jié)果時,L1為正整數(shù),所述第一獲取模塊具體用于獲取音頻信號 中待分類幀,待分類幀前N2幀,以及待分類幀后L1幀的音調(diào)分布參數(shù),并根據(jù)所述待分類 幀,待分類幀前N2幀以及待分類幀后L1幀的音調(diào)分布參數(shù)獲取待分類幀中滿足連續(xù)性約 束條件的音調(diào)分量的數(shù)量,N2為正整數(shù);或,具體用于獲取所述音頻信號中待分類幀,以及 待分類幀前N2幀以及待分類幀后L1幀的能量分布參數(shù),并根據(jù)所述音頻信號中待分類幀, 待分類幀前N2幀以及待分類幀后L1幀的能量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持 續(xù)幀數(shù)或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù); 所述分類確定模塊具體用于在所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù) 量大于第一閾值、所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)大于第二閾值或所述待分類幀在高 頻區(qū)域的持續(xù)幀數(shù)大于第三閾值時,確定所述音頻信號中待分類幀為音樂信號,否則確定 所述音頻信號中待分類幀為語音信號。
17. 根據(jù)權(quán)利要求16所述的音頻信號分類處理裝置,其特征在于, 所述第一獲取模塊獲取音頻信號中待分類幀的音調(diào)分布參數(shù),待分類幀前N2幀的音 調(diào)分布參數(shù),以及待分類巾貞后L1巾貞的音調(diào)分布參數(shù)包括: 對接收到的音頻信號中的待分類幀、待分類幀前N2幀和待分類幀幀后L1幀進(jìn)行快速 傅里葉變換,獲取功率密度譜; 根據(jù)所述功率密度譜獲取所述接收到的音頻信號中的待分類幀的音調(diào)分量的頻域分 布信息作為待分類幀的音調(diào)分布參數(shù),待分類幀前N2幀的音調(diào)分量的頻域分布信息作為 待分類幀前N2幀的音調(diào)分布參數(shù),以及待分類幀幀后L1幀的音調(diào)分量的頻域分布信息作 為待分類幀幀后L1幀的音調(diào)分布參數(shù); 所述分類確定模塊根據(jù)待分類幀的音調(diào)分布參數(shù),待分類幀前N2幀的音調(diào)分布參數(shù), 以及待分類幀后L1幀的音調(diào)分布參數(shù)獲取待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的 數(shù)量包括: 根據(jù)接收到的音頻信號中的待分類幀、待分類幀前N2幀和待分類幀幀后L1幀的音調(diào) 分量的頻域分布信息獲取待分類幀中持續(xù)幀數(shù)大于第六閾值的音調(diào)分量的數(shù)量。
18. 根據(jù)權(quán)利要求16所述的音頻信號分類處理裝置,其特征在于, 所述第一獲取模塊獲取所音頻信號中待分類幀的能量分布參數(shù),待分類幀前N2幀的 能量分布參數(shù)以及待分類巾貞后L1巾貞的能量分布參數(shù)包括: 獲取接收到的音頻信號中待分類幀的高頻能量分布比和聲壓級作為待分類幀的能量 分布參數(shù),待分類幀前N2幀的高頻能量分布比和聲壓級作為待分類幀前N2幀的能量分布 參數(shù)和待分類幀幀后L1幀的高頻能量分布比和聲壓級作為待分類幀后L1幀的能量分布參 數(shù); 所述分類確定模塊根據(jù)音頻信號中待分類幀的能量分布參數(shù),待分類幀前N2幀的能 量分布參數(shù)以及待分類幀后L1幀的能量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀 數(shù)包括: 根據(jù)所述接收到的音頻信號中待分類幀、待分類幀前N2幀和待分類幀后L1幀的高頻 能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比小于第八閾值的持續(xù) 幀數(shù); 所述分類確定模塊根據(jù)音頻信號中待分類幀的能量分布參數(shù),待分類幀前N2幀的能 量分布參數(shù)以及待分類幀后L1幀的能量分布參數(shù)獲取所述待分類幀在高頻區(qū)域的持續(xù)幀 數(shù)包括: 根據(jù)所述接收到的音頻信號中待分類幀、待分類幀前N2幀和待分類幀后L1幀的高頻 能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比大于第九閾值、聲壓級 大于第十閾值的持續(xù)幀數(shù)。
19. 根據(jù)權(quán)利要求12-18任一所述的音頻信號分類處理裝置,其特征在于, 在延時L2+L3幀獲取所述待分類幀的分類結(jié)果時,L2和L3為正整數(shù),所述第一獲取模 塊具體用于獲取音頻信號中待分類幀,待分類幀前N3幀,以及待分類幀后L2幀的音調(diào)分布 參數(shù),并根據(jù)所述待分類幀,待分類幀前N3幀以及待分類幀后L2幀的音調(diào)分布參數(shù)獲取待 分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量,N3為正整數(shù);或, 具體用于獲取所述音頻信號中待分類幀,以及待分類幀前N3幀以及待分類幀后L2幀 的能量分布參數(shù),并根據(jù)所述音頻信號中待分類幀,待分類幀前N3幀以及待分類幀后L2幀 的能量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)或所述待分類幀在高頻區(qū)域的 持續(xù)幀數(shù); 所述分類處理模塊具體用于在所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù) 量大于第一閾值、所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)大于第二閾值或所述待分類幀在高 頻區(qū)域的持續(xù)幀數(shù)大于第三閾值時,確定所述音頻信號中待分類幀為音樂信號,否則確定 所述音頻信號中待分類幀為語音信號;若確定所述音頻信號中待分類幀為音樂信號,則確 定所述待分類幀前N4幀和待分類幀中后L3幀中確定為語音信號的幀數(shù)目是否大于第四閾 值,若超過,則將所述音頻信號中待分類幀修正為語音信號;若確定所述音頻信號中待分類 中貞為語音信號,則確定所述待分類巾貞前N4巾貞和待分類巾貞中后L3巾貞中確定為音樂信號的中貞 數(shù)目是否大于第五閾值,若大于,則將所述音頻信號中待分類幀修正為音樂信號,N4為正整 數(shù)。
20. 根據(jù)權(quán)利要求19所述的音頻信號分類處理裝置,其特征在于, 所述第一獲取模塊獲取音頻信號中待分類幀的音調(diào)分布參數(shù),待分類幀前N3幀的音 調(diào)分布參數(shù),以及待分類巾貞后L2巾貞的音調(diào)分布參數(shù)包括: 對接收到的音頻信號中的待分類幀、待分類幀前N3幀和待分類幀幀后L2幀進(jìn)行快速 傅里葉變換,獲取功率密度譜; 根據(jù)所述功率密度譜獲取所述接收到的音頻信號中的待分類幀的音調(diào)分量的頻域分 布信息作為待分類幀的音調(diào)分布參數(shù),待分類幀前N3幀的音調(diào)分量的頻域分布信息作為 待分類幀前N3幀的音調(diào)分布參數(shù),以及待分類幀后L2幀的音調(diào)分量的頻域分布信息作為 待分類幀后L2幀的音調(diào)分布參數(shù); 所述分類確定模塊根據(jù)待分類幀的音調(diào)分布參數(shù),待分類幀前N3幀的音調(diào)分布參數(shù), 以及待分類幀后L2幀的音調(diào)分布參數(shù)獲取待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的 數(shù)量包括: 根據(jù)接收到的音頻信號中的待分類幀、待分類幀前N3幀和待分類幀后L2幀的音調(diào)分 量的頻域分布信息獲取待分類幀中持續(xù)幀數(shù)大于第六閾值的音調(diào)分量的數(shù)量。
21. 根據(jù)權(quán)利要求19所述的音頻信號分類處理裝置,其特征在于, 所述第一獲取模塊獲取所音頻信號中待分類幀的能量分布參數(shù),待分類幀前N3幀的 能量分布參數(shù)以及待分類巾貞后L2巾貞的能量分布參數(shù)包括: 獲取接收到的音頻信號中待分類幀的高頻能量分布比和聲壓級作為待分類幀的能量 分布參數(shù),待分類幀前N3幀的高頻能量分布比和聲壓級作為待分類幀前N3幀的能量分布 參數(shù),以及待分類幀幀后L2幀的高頻能量分布比和聲壓級作為待分類幀后L2幀的能量分 布參數(shù); 所述分類確定模塊根據(jù)音頻信號中待分類幀的能量分布參數(shù),待分類幀前N3幀的能 量分布參數(shù)以及待分類幀后L2幀的能量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀 數(shù)包括: 根據(jù)所述接收到的音頻信號中待分類幀、待分類幀前N3幀和待分類幀后L2幀的高頻 能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比小于第八閾值的持續(xù) 幀數(shù); 所述分類確定模塊根據(jù)音頻信號中待分類幀、待分類幀前N3幀和待分類幀后L2幀的 能量分布參數(shù)獲取所述待分類巾貞在高頻區(qū)域的持續(xù)巾貞數(shù)包括: 根據(jù)所述接收到的音頻信號中待分類幀的能量分布參數(shù),待分類幀前N3幀的能量分 布參數(shù)以及待分類幀后L2幀的高頻能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高 頻能量分布比大于第九閾值、聲壓級大于第十閾值的持續(xù)幀數(shù)。
22. 根據(jù)權(quán)利要求14、17或20所述的音頻信號分類處理裝置,其特征在于,所述第一獲 取模塊獲取的待分類幀中持續(xù)幀數(shù)大于第六閾值的音調(diào)分量的數(shù)量為在頻域上大于第七 閾值的音調(diào)分量的數(shù)量。
23. -種音頻信號分類處理設(shè)備,其特征在于,包括: 接收器,用于接收音頻信號; 處理器,與所述接收器連接,用于獲取接收器接收到的音頻信號中待分類幀中滿足連 續(xù)性約束條件的音調(diào)分量的數(shù)量、所述音頻信號中待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和所述 待分類幀在高頻區(qū)域的持續(xù)幀數(shù)中的至少一項,根據(jù)所述待分類幀中滿足連續(xù)性約束條件 的音調(diào)分量的數(shù)量、所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和所述待分類幀在高頻區(qū)域的持 續(xù)幀數(shù)中的至少一項,確定所述音頻信號中待分類幀為音樂信號,或確定所述音頻信號中 待分類幀為語音信號。
24. 根據(jù)權(quán)利要求23所述的音頻信號分類處理設(shè)備,其特征在于,所述處理器具體用 于獲取音頻信號中待分類幀,以及待分類幀前N1幀的音調(diào)分布參數(shù),并根據(jù)所述待分類 幀,以及待分類幀前N幀的音調(diào)分布參數(shù)獲取待分類幀中滿足連續(xù)性約束條件的音調(diào)分量 的數(shù)量,N1為正整數(shù);獲取所述音頻信號中待分類幀,以及待分類幀前N1幀的能量分布參 數(shù),并根據(jù)所述音頻信號中待分類幀,以及待分類幀前N1幀的能量分布參數(shù)獲取所述待分 類幀在低頻區(qū)域的持續(xù)幀數(shù)和/或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù),N1為正整數(shù);在 所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量大于第一閾值、所述待分類幀在低 頻區(qū)域的持續(xù)幀數(shù)大于第二閾值或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)大于第三閾值時, 確定所述音頻信號中待分類幀為音樂信號,否則確定所述音頻信號中待分類幀為語音信 號。
25. 根據(jù)權(quán)利要求24所述的音頻信號分類處理設(shè)備,其特征在于, 所述處理器獲取音頻信號中待分類幀的音調(diào)分布參數(shù),以及待分類幀前N1幀的音調(diào) 分布參數(shù)包括: 對接收到的音頻信號中的待分類幀和待分類幀前N1幀進(jìn)行快速傅里葉變換,獲取功 率密度譜; 根據(jù)所述功率密度譜獲取所述接收到的音頻信號中的待分類幀的音調(diào)分量的頻域分 布信息作為待分類幀的音調(diào)分布參數(shù),以及待分類幀前N1幀的音調(diào)分量的頻域分布信息 作為待分類幀前N1幀的音調(diào)分布參數(shù); 所述處理器根據(jù)待分類幀的音調(diào)分布參數(shù),以及待分類幀前N1幀的音調(diào)分布參數(shù)獲 取待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量包括: 根據(jù)接收到的音頻信號中的待分類幀和待分類幀前N1幀的音調(diào)分量的頻域分布信息 獲取待分類幀中持續(xù)幀數(shù)大于第六閾值的音調(diào)分量的數(shù)量。
26. 根據(jù)權(quán)利要求24所述的音頻信號分類處理設(shè)備,其特征在于, 所述處理器獲取所音頻信號中待分類幀的能量分布參數(shù),以及待分類幀前N1幀的能 量分布參數(shù)包括: 獲取接收到的音頻信號中待分類幀的高頻能量分布比和聲壓級作為待分類幀的能量 分布參數(shù),以及待分類幀前N1幀的高頻能量分布比和聲壓級作為待分類幀前N1幀的能量 分布參數(shù); 所述處理器根據(jù)音頻信號中待分類幀的能量分布參數(shù),以及待分類幀前N1幀的能量 分布參數(shù)獲取所述待分類巾貞在低頻區(qū)域的持續(xù)巾貞數(shù)包括: 根據(jù)所述接收到的音頻信號中待分類幀和待分類幀前N1幀的高頻能量分布比和聲壓 級獲取包括所述待分類幀在內(nèi)的高頻能量分布比小于第八閾值的持續(xù)幀數(shù); 所述處理器根據(jù)音頻信號中待分類幀的能量分布參數(shù),以及待分類幀前N1幀的能量 分布參數(shù)獲取所述待分類巾貞在高頻區(qū)域的持續(xù)巾貞數(shù)包括: 根據(jù)所述接收到的音頻信號中待分類幀和待分類幀前N1幀的高頻能量分布比和聲壓 級獲取包括所述待分類幀在內(nèi)的高頻能量分布比大于第九閾值、聲壓級大于第十閾值的持 續(xù)幀數(shù)。
27. 根據(jù)權(quán)利要求23-26任一所述的音頻信號分類處理設(shè)備,其特征在于,在延時L1幀 獲取所述待分類幀的分類結(jié)果時,L1為正整數(shù),所述處理器具體用于獲取音頻信號中待分 類幀,待分類幀前N2幀,以及待分類幀后L1幀的音調(diào)分布參數(shù),并根據(jù)所述待分類幀,待分 類幀前N2幀以及待分類幀后L1幀的音調(diào)分布參數(shù)獲取待分類幀中滿足連續(xù)性約束條件的 音調(diào)分量的數(shù)量,N2為正整數(shù);獲取所述音頻信號中待分類幀,以及待分類幀前N2幀以及 待分類幀后L1幀的能量分布參數(shù),并根據(jù)所述音頻信號中待分類幀,待分類幀前N2幀以及 待分類幀后L1幀的能量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)和/或所述待 分類幀在高頻區(qū)域的持續(xù)幀數(shù);在所述待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量 大于第一閾值、所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)大于第二閾值或所述待分類幀在高頻 區(qū)域的持續(xù)幀數(shù)大于第三閾值時,確定所述音頻信號中待分類幀為音樂信號,否則確定所 述音頻信號中待分類幀為語音信號。
28. 根據(jù)權(quán)利要求27所述的音頻信號分類處理設(shè)備,其特征在于, 所述處理器獲取音頻信號中待分類幀的音調(diào)分布參數(shù),待分類幀前N2幀的音調(diào)分布 參數(shù),以及待分類巾貞后L1巾貞的音調(diào)分布參數(shù)包括: 對接收到的音頻信號中的待分類幀、待分類幀前N2幀和待分類幀幀后L1幀進(jìn)行快速 傅里葉變換,獲取功率密度譜; 根據(jù)所述功率密度譜獲取所述接收到的音頻信號中的待分類幀的音調(diào)分量的頻域分 布信息作為待分類幀的音調(diào)分布參數(shù),待分類幀前N2幀的音調(diào)分量的頻域分布信息作為 待分類幀前N2幀的音調(diào)分布參數(shù),以及待分類幀幀后L1幀的音調(diào)分量的頻域分布信息作 為待分類幀幀后L1幀的音調(diào)分布參數(shù); 所述處理器根據(jù)待分類幀的音調(diào)分布參數(shù),待分類幀前N2幀的音調(diào)分布參數(shù),以及待 分類幀后L1幀的音調(diào)分布參數(shù)獲取待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量包 括: 根據(jù)接收到的音頻信號中的待分類幀、待分類幀前N2幀和待分類幀幀后L1幀的音調(diào) 分量的頻域分布信息獲取待分類幀中持續(xù)幀數(shù)大于第六閾值的音調(diào)分量的數(shù)量。
29. 根據(jù)權(quán)利要求27所述的音頻信號分類處理設(shè)備,其特征在于, 所述處理器獲取所音頻信號中待分類幀的能量分布參數(shù),待分類幀前N2幀的能量分 布參數(shù)以及待分類巾貞后L1巾貞的能量分布參數(shù)包括: 獲取接收到的音頻信號中待分類幀的高頻能量分布比和聲壓級作為待分類幀的能量 分布參數(shù),待分類幀前N2幀的高頻能量分布比和聲壓級作為待分類幀前N2幀的能量分布 參數(shù)和待分類幀后L1幀的高頻能量分布比和聲壓級作為待分類幀后L1幀的能量分布參 數(shù); 所述處理器根據(jù)音頻信號中待分類幀的能量分布參數(shù),待分類幀前N2幀的能量分布 參數(shù)以及待分類幀后L1幀的能量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)包 括: 根據(jù)所述接收到的音頻信號中待分類幀、待分類幀前N2幀和待分類幀后L1幀的高頻 能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比小于第八閾值的持續(xù) 幀數(shù); 所述處理器根據(jù)音頻信號中待分類幀的能量分布參數(shù),待分類幀前N2幀的能量分布 參數(shù)以及待分類幀后L1幀的能量分布參數(shù)獲取所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)包 括: 根據(jù)所述接收到的音頻信號中待分類幀、待分類幀前N2幀和待分類幀后L1幀的高頻 能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比大于第九閾值、聲壓級 大于第十閾值的持續(xù)幀數(shù)。
30. 根據(jù)權(quán)利要求23-29任一所述的音頻信號分類處理設(shè)備,其特征在于,在延時 L2+L3幀獲取所述待分類幀的分類結(jié)果時,L2和L3為正整數(shù),所述處理器具體用于獲取音 頻信號中待分類幀,待分類幀前N3幀,以及待分類幀后L2幀的音調(diào)分布參數(shù),并根據(jù)所述 待分類幀,待分類幀前N3幀以及待分類幀后L2幀的音調(diào)分布參數(shù)獲取待分類幀中滿足連 續(xù)性約束條件的音調(diào)分量的數(shù)量,N3為正整數(shù);獲取所述音頻信號中待分類幀,以及待分 類幀前N3幀以及待分類幀后L2幀的能量分布參數(shù),并根據(jù)所述音頻信號中待分類幀,待分 類幀前N3幀以及待分類幀后L2幀的能量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀 數(shù)和/或所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù);在所述待分類幀中滿足連續(xù)性約束條件的 音調(diào)分量的數(shù)量大于第一閾值、所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)大于第二閾值或所述 待分類幀在高頻區(qū)域的持續(xù)幀數(shù)大于第三閾值時,確定所述音頻信號中待分類幀為音樂信 號,否則確定所述音頻信號中待分類幀為語音信號;若確定所述音頻信號中待分類幀為音 樂信號,則確定所述待分類幀前N4幀和待分類幀后L4幀中確定為語音信號的幀數(shù)目是否 大于第四閾值,若超過,則將所述音頻信號中待分類幀修正為語音信號,N4為正整數(shù);若確 定所述音頻信號中待分類幀為語音信號,則確定所述待分類幀前N4幀和待分類幀后L4幀 中確定為音樂信號的幀數(shù)目是否大于第五閾值,若大于,則將所述音頻信號中待分類幀修 正為音樂信號。
31. 根據(jù)權(quán)利要求30所述的音頻信號分類處理設(shè)備,其特征在于, 所述處理器獲取音頻信號中待分類幀的音調(diào)分布參數(shù),待分類幀前N3幀的音調(diào)分布 參數(shù),以及待分類巾貞后L2巾貞的音調(diào)分布參數(shù)包括: 對接收到的音頻信號中的待分類幀、待分類幀前N3幀和待分類幀幀后L2幀進(jìn)行快速 傅里葉變換,獲取功率密度譜; 根據(jù)所述功率密度譜獲取所述接收到的音頻信號中的待分類幀的音調(diào)分量的頻域分 布信息作為待分類幀的音調(diào)分布參數(shù),待分類幀前N3幀的音調(diào)分量的頻域分布信息作為 待分類幀前N3幀的音調(diào)分布參數(shù)和待分類幀幀后L2幀的音調(diào)分量的頻域分布信息作為待 分類幀后L2幀的音調(diào)分布參數(shù); 所述處理器根據(jù)待分類幀的音調(diào)分布參數(shù),待分類幀前N3幀的音調(diào)分布參數(shù),以及待 分類幀后L2幀的音調(diào)分布參數(shù)獲取待分類幀中滿足連續(xù)性約束條件的音調(diào)分量的數(shù)量包 括: 根據(jù)接收到的音頻信號中的待分類幀、待分類幀前N3幀和待分類幀幀后L2幀的音調(diào) 分量的頻域分布信息獲取待分類幀中持續(xù)幀數(shù)大于第六閾值的音調(diào)分量的數(shù)量。
32. 根據(jù)權(quán)利要求30所述的音頻信號分類處理設(shè)備,其特征在于, 所述處理器獲取所音頻信號中待分類幀的能量分布參數(shù),待分類幀前N3幀的能量分 布參數(shù)以及待分類巾貞后L2巾貞的能量分布參數(shù)包括: 獲取接收到的音頻信號中待分類幀的高頻能量分布比和聲壓級作為待分類幀的能量 分布參數(shù),待分類幀前N3幀作為待分類幀前N3幀的能量分布參數(shù),以及待分類幀幀后L2 幀的高頻能量分布比和聲壓級作為待分類幀后L2幀的能量分布參數(shù); 所述處理器根據(jù)音頻信號中待分類幀的能量分布參數(shù),待分類幀前N3幀的能量分布 參數(shù)以及待分類幀后L2幀的能量分布參數(shù)獲取所述待分類幀在低頻區(qū)域的持續(xù)幀數(shù)包 括: 根據(jù)所述接收到的音頻信號中待分類幀、待分類幀前N3幀和待分類幀后L2幀的高頻 能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比小于第八閾值的持續(xù) 幀數(shù); 所述處理器根據(jù)音頻信號中待分類幀的能量分布參數(shù),待分類幀前N3幀的能量分布 參數(shù)以及待分類幀后L2幀的能量分布參數(shù)獲取所述待分類幀在高頻區(qū)域的持續(xù)幀數(shù)包 括: 根據(jù)所述接收到的音頻信號中待分類幀、待分類幀前N3幀和待分類幀后L2幀的高頻 能量分布比和聲壓級獲取包括所述待分類幀在內(nèi)的高頻能量分布比大于第九閾值、聲壓級 大于第十閾值的持續(xù)幀數(shù)。
33.根據(jù)權(quán)利要求25、28或31所述的音頻信號分類處理設(shè)備,其特征在于,所述處理器 獲取的待分類幀中持續(xù)幀數(shù)大于第六閾值的音調(diào)分量的數(shù)量為在頻域上大于第七閾值的 音調(diào)分量的數(shù)量。
【文檔編號】G10L21/028GK104282315SQ201310274580
【公開日】2015年1月14日 申請日期:2013年7月2日 優(yōu)先權(quán)日:2013年7月2日
【發(fā)明者】許麗凈 申請人:華為技術(shù)有限公司