卡幀檢測方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種卡幀檢測方法和裝置。其中,該方法包括:對待測音頻信號(hào)進(jìn)行特征檢測,得到待測音頻信號(hào)中的各幀的特征值;從各幀中查找并標(biāo)記出特征值出現(xiàn)異常的幀段,其中,幀段的標(biāo)記信息包括以下至少之一:幀段的起始幀的時(shí)間信息以及幀段的幀長;根據(jù)幀段是否為靜音段來從幀段中選擇出現(xiàn)卡幀的幀段;輸出出現(xiàn)卡幀的幀段的標(biāo)記信息。本發(fā)明解決了現(xiàn)有技術(shù)中音頻卡頓檢測的準(zhǔn)確性較低的技術(shù)問題,達(dá)到了消除在檢測卡頓幀段時(shí)的誤判,實(shí)現(xiàn)準(zhǔn)確而高效地檢測出音頻通信系統(tǒng)中音頻卡頓的幀段的技術(shù)效果。
【專利說明】卡幀檢測方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及通信領(lǐng)域,具體而言,涉及一種卡幀檢測方法和裝置。
【背景技術(shù)】
[0002] 隨著計(jì)算機(jī)及多媒體通信技術(shù)的發(fā)展,音頻實(shí)時(shí)通信在網(wǎng)絡(luò)電話、流媒體、游戲 V0IP、娛樂音/視頻直播中的應(yīng)用越來越廣?;ヂ?lián)網(wǎng)網(wǎng)絡(luò)狀況的復(fù)雜性,不可避免的存在 延時(shí)/抖動(dòng)/丟包等因素影響,這些因素的存在會(huì)導(dǎo)致音頻服務(wù)不流暢,也即出現(xiàn)音頻卡 幀,然而,目前業(yè)界對于音頻流不流暢性的評估反應(yīng)在音頻質(zhì)量上是由ITU-TP.862PESQ及 ITU-RBS. 1387PEAQ等客觀評估標(biāo)準(zhǔn)進(jìn)行,其將音頻等卡幀/不流暢體現(xiàn)在整體音質(zhì)評估的 評分中,這樣,概念不突出也比較模糊。對于音頻不流暢性的專項(xiàng)評估中,很少有針對對于 音頻流暢性的評估。
[0003] 對延時(shí)/抖動(dòng)因素的影響,目前業(yè)界有基于抖動(dòng)緩存(JitterBuffer)的比較成熟 解決方案來緩解和吸收延時(shí),但是,這只可部分解決音頻卡的問題,音頻卡的評估也可以基 于這一層對存入抖動(dòng)緩存中的數(shù)據(jù)包的時(shí)間間隔或根據(jù)抖動(dòng)緩存中當(dāng)前數(shù)據(jù)包的有無來 評估音頻的卡頓程度,然而音頻經(jīng)抖動(dòng)緩存處理再到最終音頻播放出來,中間的環(huán)節(jié)可能 不可避免的對音頻進(jìn)行處理,如清空/重置抖動(dòng)緩存(JitterBuffer)數(shù)據(jù)、置零相關(guān)數(shù)據(jù) 包、或丟棄高能量音頻包等操作,這些中間處理流程導(dǎo)致的音頻幀丟失,嚴(yán)重影響了卡幀評 估的準(zhǔn)確性。對于丟包可能引發(fā)的卡頓,目前業(yè)界比較成熟的處理方法有基于前向/后向 復(fù)制或幀間插值重疊的方法彌補(bǔ)音頻幀丟失引起的卡頓,而補(bǔ)包方法所修補(bǔ)的音頻幀本身 或前后的不連貫性也有可能會(huì)導(dǎo)致音頻卡,對于補(bǔ)包這一類卡幀對音頻質(zhì)量的評估若基于 PESQ/PEAQ的評估也只是將音頻卡幀整體歸入音頻質(zhì)量部分。
[0004] 音頻的不流暢性即卡頓,是音頻服務(wù)中的一項(xiàng)極重要的指標(biāo),卡頓的嚴(yán)重程度將 會(huì)影響用戶體驗(yàn),因此有必要將音頻流暢性(卡頓)的評估作為專項(xiàng)指標(biāo)量化出來,對第三 方提供的音頻整體解決方案或與競爭產(chǎn)品之間的流暢性比較以評估音頻產(chǎn)品的流暢度好 與壞,推動(dòng)音頻產(chǎn)品流暢性體驗(yàn)的改進(jìn)與提升。
[0005] 現(xiàn)有音頻流暢性評估方法分主觀評估和客觀評估方法。
[0006] 對音頻流暢性的評估方法中,開發(fā)人員可以有自己的一套基于代碼評判的標(biāo)準(zhǔn), 比如在抖動(dòng)緩沖區(qū)處理層來檢測相鄰音頻數(shù)據(jù)包的到達(dá)時(shí)間間隔級(jí)別是否超出預(yù)定的閥 值(比如 200ms, 200ms*2, 200ms*3, 200ms*4,. . . 200ms*10)來判定是否引發(fā)了一次卡頓。但 對于評估人員來講,音頻被測系統(tǒng)可能是黑盒的,很容易在檢測卡頓的時(shí)候統(tǒng)計(jì)到非卡頓 的幀,從而使得上述檢測卡頓的方式的準(zhǔn)確性較低。
[0007] 目前對于流暢性評估更多的方法是基于主觀聽覺來評判。主觀評估需要請受眾 群體來主觀感受比較,一方面人力成本高;另一方面對于音頻卡頓,很容易讓受眾產(chǎn)生不良 情緒或厭煩心理,不但易引起誤判而且會(huì)使評估人員的效率大打折扣?,F(xiàn)有的客觀評估技 術(shù)對于音頻流暢性一卡頓嚴(yán)重性的評估指標(biāo)并沒有單獨(dú)量化出來,只是作為音頻整體質(zhì) 量評估的一部分,因此并不能具體反應(yīng)音頻通信系統(tǒng)單位時(shí)間內(nèi)的音頻卡幀次數(shù)及卡幀時(shí) 長,這對于音頻產(chǎn)品流暢性的評估是粗糙和低效的方法,難以反應(yīng)音頻不流暢的嚴(yán)重程度, 不利于及時(shí)推進(jìn)音頻產(chǎn)品流暢性體驗(yàn)的驗(yàn)證和改進(jìn)。
[0008] 針對上述的問題,目前尚未提出有效的解決方案。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明實(shí)施例提供了一種卡幀檢測方法和裝置,以至少解決現(xiàn)有技術(shù)中音頻卡頓 檢測的準(zhǔn)確性較低的技術(shù)問題。
[0010] 根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種卡幀檢測方法,包括:對待測音頻信號(hào) 進(jìn)行特征檢測,得到待測音頻信號(hào)中的各幀的特征值;從各幀中查找并標(biāo)記出特征值出現(xiàn) 異常的幀段,其中,幀段的標(biāo)記信息包括以下至少之一:幀段的起始幀的時(shí)間信息以及幀段 的幀長;根據(jù)幀段是否為靜音段來從幀段中選擇出現(xiàn)卡幀的幀段;輸出出現(xiàn)卡幀的幀段的 標(biāo)記信息。
[0011] 可選地,根據(jù)幀段是否為靜音段來從幀段中選擇出現(xiàn)卡幀的幀段包括:若幀段為 靜音段,則判斷屬于靜音段的幀段是否滿足第一卡幀條件;若屬于靜音段的幀段不滿足第 一卡幀條件,則判斷出屬于靜音段的幀段不為出現(xiàn)卡幀的幀段;若屬于靜音段的幀段滿足 第一卡幀條件,則判斷出屬于靜音段的幀段為出現(xiàn)卡幀的幀段。
[0012] 可選地,判斷屬于靜音段的幀段是否滿足第一卡幀條件包括:判斷屬于靜音段的 幀段的幀數(shù)是否大于第一預(yù)定閾值;若幀數(shù)大于第一預(yù)定閾值,則判斷出屬于靜音段的幀 段滿足第一卡幀條件;若幀數(shù)小于等于第一預(yù)定閾值,則判斷出屬于靜音段的幀段不滿足 第一^^巾貞條件。
[0013] 可選地,判斷出屬于靜音段的幀段不為出現(xiàn)卡幀的幀段包括:對屬于靜音段的幀 段的特征參數(shù)進(jìn)行檢測;根據(jù)檢測結(jié)果判斷屬于靜音段的幀段是否滿足第一卡幀條件中的 自然靜音條件;若屬于靜音段的幀段滿足自然靜音條件,則判斷出幀段不滿足第一卡幀條 件。
[0014] 可選地,在根據(jù)檢測結(jié)果判斷屬于靜音段的幀段是否滿足第一卡幀條件中的自然 靜音條件之后,還包括:若屬于靜音段的幀段不滿足自然靜音條件,則判斷屬于靜音段的幀 段是否滿足第一卡幀條件中的音頻瞬斷條件;若屬于靜音段的幀段滿足音頻瞬斷條件,則 判斷滿足音頻瞬斷條件的幀段的幀數(shù)是否大于第二預(yù)定閾值;若幀數(shù)大于第二預(yù)定閾值, 則判斷出滿足音頻瞬斷條件的幀段滿足第一卡幀條件;若幀數(shù)小于等于第二預(yù)定閾值,則 判斷出滿足音頻瞬斷條件的幀段不滿足第一卡幀條件。
[0015] 可選地,在判斷屬于靜音段的幀段是否滿足第一卡幀條件中的音頻瞬斷條件之 后,還包括:若屬于靜音段的幀段不滿足音頻瞬斷條件,則判斷屬于靜音段的幀段是否滿足 第一卡幀條件中的尖銳下滑/時(shí)域截?cái)鄺l件;若屬于靜音段的幀段不滿足尖銳下滑/時(shí)域 截?cái)鄺l件,則判斷出不滿足尖銳下滑/時(shí)域截?cái)鄺l件的幀段滿足第一卡幀條件;若屬于靜 音段的幀段滿足尖銳下滑/時(shí)域截?cái)鄺l件,則判斷滿足尖銳下滑/時(shí)域截?cái)鄺l件的幀段的 幀數(shù)是否大于第三預(yù)定閾值;若幀數(shù)大于第三預(yù)定閾值,則判斷出滿足尖銳下滑/時(shí)域截 斷條件的幀段滿足第一卡幀條件;若幀數(shù)小于等于第三預(yù)定閾值,則判斷出滿足尖銳下滑 /時(shí)域截?cái)鄺l件的幀段不滿足第一卡幀條件。
[0016] 可選地,根據(jù)幀段是否為靜音段來從幀段中選擇出現(xiàn)卡幀的幀段包括:若幀段不 為靜音段,則判斷幀段是否滿足第二卡幀條件;若幀段不滿足第二卡幀條件,則判斷出幀段 不為出現(xiàn)卡幀的幀段;若幀段滿足第二卡幀條件,則判斷出幀段為出現(xiàn)卡幀的幀段。
[0017] 可選地,判斷幀段是否滿足第二卡幀條件包括:判斷幀段是否滿足第二卡幀條件 中的重音條件;若幀段不滿足重音條件,則判斷幀段是否滿足第二卡幀條件中的磁化/機(jī) 械音條件;若幀段不滿足第二卡幀條件中的磁化/機(jī)械音條件,則判斷出幀段不滿足第二 卡中貞條件。
[0018] 可選地,若幀段滿足重音條件或者滿足磁化/機(jī)械音條件,方法還包括:判斷屬于 幀段的幀數(shù)是否大于第四預(yù)定閾值;若幀數(shù)大于第四預(yù)定閾值,則判斷出屬于幀段滿足第 二卡幀條件;若幀數(shù)小于等于第四預(yù)定閾值,則判斷出屬于幀段不滿足第二卡幀條件。
[0019] 可選地,從各幀中查找并標(biāo)記出特征值出現(xiàn)異常的幀段包括:各幀中的連讀多個(gè) 幀中的每一個(gè)的至少一個(gè)特征值均不在對應(yīng)的閾值范圍之內(nèi),則將連續(xù)多個(gè)幀組成的幀段 標(biāo)記為特征值出現(xiàn)異常的幀段,其中,特征值中的每一個(gè)對應(yīng)的閾值范圍相同或不同。
[0020] 可選地,特征值包括以下至少之一:能量包絡(luò)值、頻譜流量、頻譜平滑度、譜偏斜、 譜峰態(tài)。
[0021] 根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種卡幀檢測裝置,包括:檢測單元,用 于對待測音頻信號(hào)進(jìn)行特征檢測,得到待測音頻信號(hào)中的各幀的特征值;查找標(biāo)記單元,用 于從各幀中查找并標(biāo)記出特征值出現(xiàn)異常的幀段,其中,幀段的標(biāo)記信息包括以下至少之 一:幀段的起始幀的時(shí)間信息以及幀段的幀長;選擇單元,用于根據(jù)幀段是否為靜音段來 從幀段中選擇出現(xiàn)卡幀的幀段;輸出單元,用于輸出出現(xiàn)卡幀的幀段的標(biāo)記信息。
[0022] 可選地,選擇單元包括:第一判斷模塊,用于在幀段為靜音段時(shí),判斷屬于靜音段 的幀段是否滿足第一卡幀條件;在判斷出屬于靜音段的幀段不滿足第一卡幀條件時(shí),判斷 出屬于靜音段的幀段不為出現(xiàn)卡幀的幀段;在判斷出屬于靜音段的幀段滿足第一卡幀條 件,判斷出屬于靜音段的幀段為出現(xiàn)卡幀的幀段。
[0023] 可選地,第一判斷模塊包括:第一判斷子模塊,用于判斷屬于靜音段的幀段的幀數(shù) 是否大于第一預(yù)定閾值;在幀數(shù)大于第一預(yù)定閾值時(shí),判斷出屬于靜音段的幀段滿足第一 卡幀條件;在幀數(shù)小于等于第一預(yù)定閾值時(shí),判斷出屬于靜音段的幀段不滿足第一卡幀條 件。
[0024] 可選地,第一判斷模塊包括:檢測子模塊,用于對屬于靜音段的幀段的特征參數(shù)進(jìn) 行檢測;第二判斷子模塊,用于根據(jù)檢測模塊的檢測結(jié)果判斷屬于靜音段的幀段是否滿足 第一卡幀條件中的自然靜音條件;在屬于靜音段的幀段滿足自然靜音條件時(shí),判斷出幀段 不滿足第一卡幀條件。
[0025] 可選地,第一判斷模塊包括:第三判斷子模塊,用于在屬于靜音段的幀段不滿足自 然靜音條件時(shí),判斷屬于靜音段的幀段是否滿足第一卡幀條件中的音頻瞬斷條件;第四判 斷子模塊,用于在屬于靜音段的幀段滿足音頻瞬斷條件時(shí),判斷滿足音頻瞬斷條件的幀段 的幀數(shù)是否大于第二預(yù)定閾值;在幀數(shù)大于第二預(yù)定閾值時(shí),判斷出滿足音頻瞬斷條件的 幀段滿足第一卡幀條件;在幀數(shù)小于等于第二預(yù)定閾值時(shí),判斷出滿足音頻瞬斷條件的幀 段不滿足第一卡幀條件。
[0026] 可選地,第一判斷模塊包括:第五判斷子模塊,用于在屬于靜音段的幀段不滿足音 頻瞬斷條件時(shí),判斷屬于靜音段的幀段是否滿足第一卡幀條件中的尖銳下滑/時(shí)域截?cái)鄺l 件;在屬于靜音段的幀段不滿足尖銳下滑/時(shí)域截?cái)鄺l件時(shí),判斷出不滿足尖銳下滑/時(shí)域 截?cái)鄺l件的幀段滿足第一卡幀條件;第六判斷子模塊,用于在屬于靜音段的幀段滿足尖銳 下滑/時(shí)域截?cái)鄺l件時(shí),判斷滿足尖銳下滑/時(shí)域截?cái)鄺l件的幀段的幀數(shù)是否大于第三預(yù) 定閾值;在幀數(shù)大于第三預(yù)定閾值時(shí),判斷出滿足尖銳下滑/時(shí)域截?cái)鄺l件的幀段滿足第 一卡幀條件;在幀數(shù)小于等于第三預(yù)定閾值時(shí),判斷出滿足尖銳下滑/時(shí)域截?cái)鄺l件的幀 段不滿足第一卡幀條件。
[0027] 可選地,選擇單元包括:第二判斷模塊,用于在幀段不為靜音段時(shí),判斷幀段是否 滿足第二卡幀條件;在幀段不滿足第二卡幀條件時(shí),判斷出幀段不為出現(xiàn)卡幀的幀段;在 幀段滿足第二卡幀條件時(shí),則判斷出幀段為出現(xiàn)卡幀的幀段。
[0028] 可選地,第二判斷模塊包括:第七判斷子模塊,用于判斷幀段是否滿足第二卡幀條 件中的重音條件;第八判斷子模塊,用于在幀段不滿足重音條件時(shí),判斷幀段是否滿足第二 卡幀條件中的磁化/機(jī)械音條件;在幀段不滿足第二卡幀條件中的磁化/機(jī)械音條件時(shí),判 斷出幀段不滿足第二卡幀條件。
[0029] 可選地,第二判斷模塊包括:第九判斷子模塊,用于在幀段滿足重音條件或者滿足 磁化/機(jī)械音條件時(shí),判斷屬于幀段的幀數(shù)是否大于第四預(yù)定閾值;在幀數(shù)大于第四預(yù)定 閾值時(shí),判斷出屬于幀段滿足第二卡幀條件;在幀數(shù)小于等于第四預(yù)定閾值時(shí),判斷出屬于 幀段不滿足第二卡幀條件。
[0030] 可選地于,查找標(biāo)記單元包括:標(biāo)記模塊,用于在各幀中的連讀多個(gè)幀中的每一個(gè) 的至少一個(gè)特征值均不在對應(yīng)的閾值范圍之內(nèi),將連續(xù)多個(gè)幀組成的幀段標(biāo)記為特征值出 現(xiàn)異常的幀段,其中,特征值中的每一個(gè)對應(yīng)的閾值范圍相同或不同。
[0031] 可選地,特征值包括以下至少之一:能量包絡(luò)值、頻譜流量、頻譜平滑度、譜偏斜、 譜峰態(tài)。
[0032] 在本發(fā)明實(shí)施例中,從出現(xiàn)異常的幀段中提取出出現(xiàn)卡頓的幀段,而忽略其他的 幀段,從而消除了在檢測卡頓幀段時(shí)的誤判,解決了現(xiàn)有技術(shù)中音頻卡頓檢測的準(zhǔn)確性較 低的技術(shù)問題,實(shí)現(xiàn)了準(zhǔn)確而高效地檢測出音頻通信系統(tǒng)中音頻卡頓的幀段的技術(shù)效果。
【專利附圖】
【附圖說明】
[0033] 此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本申請的一部分,本發(fā) 明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中: [0034] 圖1是根據(jù)本發(fā)明實(shí)施例的一種可選的卡幀檢測方法的流程圖;
[0035] 圖2是根據(jù)本發(fā)明實(shí)施例的另一種可選的卡幀檢測方法的流程圖;
[0036] 圖3是根據(jù)本發(fā)明實(shí)施例的又一種可選的卡幀檢測方法的流程圖;
[0037] 圖4是根據(jù)本發(fā)明實(shí)施例的又一種可選的卡幀檢測方法的流程圖;
[0038] 圖5是根據(jù)本發(fā)明實(shí)施例的又一種可選的卡幀檢測方法的流程圖;
[0039] 圖6是根據(jù)本發(fā)明實(shí)施例的又一種可選的卡幀檢測方法的流程圖;
[0040] 圖7是根據(jù)本發(fā)明實(shí)施例的一種可選的卡幀檢測方法中靜音條件的判決算法流 程圖;
[0041] 圖8是根據(jù)本發(fā)明實(shí)施例的一種可選的卡幀檢測方法中音頻瞬斷條件的判決算 法流程圖;
[0042] 圖9是根據(jù)本發(fā)明實(shí)施例的一種可選的卡幀檢測方法中尖銳下滑/時(shí)域截?cái)鄺l件 的判決算法流程圖;
[0043] 圖10是根據(jù)本發(fā)明實(shí)施例的一種可選的卡幀檢測方法中重音條件的判決算法流 程圖;
[0044] 圖11是根據(jù)本發(fā)明實(shí)施例的一種可選的卡幀檢測方法中磁化/機(jī)械音條件的判 決算法流程圖;
[0045] 圖12是根據(jù)本發(fā)明實(shí)施例的一種可選的卡幀檢測裝置的示意圖;
[0046] 圖13是根據(jù)本發(fā)明實(shí)施例的另一種可選的卡幀檢測裝置的示意圖;
[0047] 圖14是根據(jù)本發(fā)明實(shí)施例的又一種可選的卡幀檢測裝置的示意圖;以及
[0048] 圖15是根據(jù)本發(fā)明實(shí)施例的一種可選的卡幀檢測輸出結(jié)果的示意圖。
【具體實(shí)施方式】
[0049] 首先,在對本發(fā)明實(shí)施例進(jìn)行描述的過程中出現(xiàn)的部分名詞或術(shù)語適用于如下解 釋:
[0050] 為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的 附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是 本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù) 人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范 圍。
[0051] 需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語"第一"、"第 二"等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用 的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例能夠以除了在這里圖示或 描述的那些以外的順序?qū)嵤?。此外,術(shù)語"包括"和"具有"以及他們的任何變形,意圖在于 覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限 于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn) 品或設(shè)備固有的其它步驟或單元。
[0052] 實(shí)施例1
[0053] 根據(jù)本發(fā)明實(shí)施例,提供了一種卡幀檢測方法,如圖1所示,該方法包括:
[0054] S102,對待測音頻信號(hào)進(jìn)行特征檢測,得到待測音頻信號(hào)中的各幀的特征值;
[0055] 可選地,在本實(shí)施例中提供的卡幀檢測方法可以但不限于應(yīng)用于音頻系統(tǒng),如圖 2所示,該被測音頻系統(tǒng)包括本地測試發(fā)起端202,遠(yuǎn)端測試接收端204,測試邏輯服務(wù)器 (TestLogic Server) 206。對待測音頻系統(tǒng)的輸出進(jìn)行音頻錄音,并基于該音頻內(nèi)容進(jìn)行 特征分析檢測,得到各幀的特征值。可選的,在本實(shí)施例中音頻文件可以為帶有頭格式(例 如,包括采樣率,聲道數(shù),樣本位比特?cái)?shù)等信息)的音頻文件,音頻文件的格式可以包括但 不限于以下至少之一 :wav、wma、mp3。
[0056] 可選地,在本實(shí)施例中對音頻信號(hào)段進(jìn)行時(shí)域/時(shí)頻變換/頻域特征分析得到各 幀對應(yīng)域的特征值,其中,各幀的特征值包括但不限于以下至少之一:能量包絡(luò)值、頻譜流 量、頻譜平滑度、譜偏斜、譜峰態(tài)。
[0057] 可選地,若待檢測的當(dāng)前幀的上述特征值中的至少一個(gè)出現(xiàn)異常,則判斷出該待 檢測的當(dāng)前幀為特征值出現(xiàn)異常的幀。
[0058] 例如,如圖2所示,該被測音頻的錄音檢測流程包括:
[0059] 1)本地端卡幀測試App及遠(yuǎn)端的卡幀測試App分別都要登錄到測試邏輯服務(wù)器 (TestLogic Server) 206,并保持在線;
[0060] 2)本地測試發(fā)起端202配置本地模擬的網(wǎng)絡(luò)延時(shí)/抖動(dòng)丟包,并開啟相應(yīng)延時(shí)/ 丟包率模擬,并通知對端遠(yuǎn)端測試接收端204當(dāng)前的延時(shí)/丟包模型;
[0061] 3)本地測試發(fā)起端202開始播放音頻碼本,并設(shè)置循環(huán)播放,輸出的碼本信號(hào)經(jīng) 被測音頻系統(tǒng)采集并經(jīng)其處理流程傳輸?shù)奖粶y音頻系統(tǒng)的遠(yuǎn)端播放輸出后,經(jīng)遠(yuǎn)端測試 App采集,并以帶音頻頭格式的音頻wav/wma/mp3等格式保存起來;
[0062] 4)遠(yuǎn)端測試接收端204在設(shè)定的時(shí)間內(nèi),采集完經(jīng)網(wǎng)絡(luò)延時(shí)/丟包環(huán)境模擬發(fā)出 的音頻后,對錄音文件中音頻的各幀的特征值進(jìn)行卡幀的自動(dòng)化分析。
[0063] S104,從各幀中查找并標(biāo)記出特征值出現(xiàn)異常的幀段;
[0064] 可選地,幀段的標(biāo)記信息包括以下至少之一:幀段的起始幀的時(shí)間信息以及幀段 的中貞長。
[0065] 可選地,在本實(shí)施例中對上述待測音頻的各幀的特征值進(jìn)行檢測后,對特征值出 現(xiàn)異常的幀段進(jìn)行標(biāo)記,并將上述特征值出現(xiàn)異常的幀段標(biāo)記為第一卡幀段。
[0066] 可選地,在本實(shí)施例中的幀段為連續(xù)多個(gè)特征值出現(xiàn)異常的幀組成的幀段。
[0067] 例如,音頻信號(hào)中包括A、B、C、D、E、F、G、Η八個(gè)幀段,檢測各幀的特征值后得到出 現(xiàn)異常的幀段為A、B、C、D、E,則對各幀的起始幀的時(shí)間信息(例如,時(shí)間為t)以及所述幀段 的中貞長(例如,巾貞長為N)做標(biāo)記。
[0068] S106,根據(jù)幀段是否為靜音段來從幀段中選擇出現(xiàn)卡幀的幀段;
[0069] 可選地,在本實(shí)施例中判斷音頻的信號(hào)段中的幀段是否為靜音段的方式包括但不 限于:進(jìn)行音頻活動(dòng)檢測(VAD檢測,Voice Activity Detection)。
[0070] 可選地,對出現(xiàn)異常的幀段進(jìn)行進(jìn)一步判斷,判斷是否靜音段,進(jìn)而從中選擇出現(xiàn) 卡幀的幀段。
[0071] 可選地,在本實(shí)施例中,可以從記為第一卡幀段的幀段中選擇出出現(xiàn)卡幀的幀段, 并將選擇出的幀段標(biāo)記為第二卡幀段。
[0072] S108,輸出出現(xiàn)卡幀的幀段的標(biāo)記信息。
[0073] 可選地,將出現(xiàn)卡幀的幀段的標(biāo)記信息輸出,例如,音頻信號(hào)中包括A、B、C、D、E、F、 G、H八個(gè)幀段,檢測各幀的特征值后得到出現(xiàn)異常的幀段(例如,能量包絡(luò)值異常的幀段)為 A、B、C、D、E,再經(jīng)進(jìn)一步分析判斷得到,幀段C、D、E為真正有效的卡幀,幀段A、B為誤判幀 段,則將有效卡幀的幀段C、D、E的起始幀的時(shí)間信息(例如,時(shí)間為t)以及上述幀段的幀長 (例如,巾貞長為N)信息輸出。
[0074] 如圖15,圖中顯示了出現(xiàn)卡幀的幀段的標(biāo)記信息,其中,文件"Summery_ KaDuninfo"中示出了 6個(gè)音頻文件(WavFile),5分鐘內(nèi)各個(gè)音頻文件中出現(xiàn)卡 中貞的巾貞段的個(gè)數(shù)(5Min_KaDunTImes),及各個(gè)音頻文件出現(xiàn)卡巾貞現(xiàn)象的總時(shí)長 (5MinContinousKaSeconds)。以音頻文件"6. wav"為例,5分鐘內(nèi)存在7個(gè)出現(xiàn)卡巾貞的中貞 段,占用的總時(shí)長為〇.76s。
[0075] 此外,圖15中文件"6_KaDuninfo"中示出了音頻文件"6. wav"具體的卡巾貞信 息,例如,出現(xiàn)卡幀的幀段的序號(hào)(KaDunNo),每個(gè)出現(xiàn)卡幀的幀段中起始幀的時(shí)間戳 (1(已卩08[]\1;[11:36(3011(18]),出現(xiàn)卡巾貞的巾貞段中的總巾貞數(shù)(〇0111:;[1101181(&卩四11168(卩四11168/201118)) (其中,每巾貞的時(shí)長為20ms),以及每個(gè)出現(xiàn)卡巾貞的巾貞段的時(shí)長(ContinousKaSeconds),以序 號(hào)為1的出現(xiàn)卡幀的幀段為例,起始幀的時(shí)間戳為第53. 439999s,該幀段有10個(gè)幀,10幀 的總時(shí)長為0. 200000s。圖15中還示出了音頻文件"5.wav","4. wav"具體的卡幀信息,本 申請對此不再贅述。
[0076] 通過本申請?zhí)峁┑膶?shí)施例,提取檢測音頻信號(hào)的特征值,并將出現(xiàn)異常的幀段標(biāo) 記出來,經(jīng)進(jìn)一步判斷后選擇出出現(xiàn)卡幀的幀段,然后輸出出現(xiàn)卡幀的幀段的標(biāo)記信息,進(jìn) 而實(shí)現(xiàn)準(zhǔn)確而高效地檢測出音頻通信系統(tǒng)中音頻卡頓的幀段。
[0077] 作為一種可選的方案,如圖3所示,根據(jù)幀段是否為靜音段來從幀段中選擇出現(xiàn) 卡幀的幀段包括:
[0078] S302,若幀段為靜音段,則判斷屬于靜音段的幀段是否滿足第一卡幀條件;
[0079] 可選地,在本實(shí)施例中的第一卡幀條件包括但不限于以下至少之一:卡幀幀數(shù)、自 然靜音條件、音頻瞬斷條件、尖銳下滑/時(shí)域截?cái)鄺l件。
[0080] 例如,音頻信號(hào)中包括A、B、C、D、E、F、G、Η八個(gè)幀段,判斷得出屬于靜音段的幀段 為A、B、C、D、Ε,則判斷幀段A、B、C、D、Ε的卡幀幀數(shù)是否滿足預(yù)定閾值條件(例如,幀數(shù)大于 Μ)。
[0081] S304,若屬于靜音段的幀段不滿足第一卡幀條件,則判斷出屬于靜音段的幀段不 為出現(xiàn)卡幀的幀段;
[0082] 例如,屬于靜音段的幀段A、B、C、D、Ε中幀段D、Ε的卡幀幀數(shù)不滿足第一卡幀條 件,例如,幀數(shù)小于或等于Μ,則判斷得出幀段D、E不為出現(xiàn)卡幀的幀段,不將幀段D、E標(biāo)記 為第二卡巾貞段。
[0083] S306,若屬于靜音段的巾貞段滿足第 ^巾貞條件,貝 1J判斷出屬于靜音段的巾貞段為出 現(xiàn)卡幀的幀段。
[0084] 例如,屬于靜音段的幀段A、B、C、D、E中幀段A、B、C的卡幀幀數(shù)滿足第一卡幀條 件,例如,幀數(shù)大于M,則判斷得出幀段A、B、C為出現(xiàn)卡幀的幀段,并將幀段A、B、C標(biāo)記為第 二卡幀段。
[0085] 需要說明的是,因人耳的區(qū)辨能力有限,每一幀加窗的窗口在毫秒級(jí)別,連續(xù)卡幀 的幀數(shù)太小時(shí),基于人耳主觀很難感受到極短的音頻區(qū)域,因此,這樣的卡幀可以被忽略不 計(jì)。
[0086] 通過本申請?zhí)峁┑膶?shí)施例,對屬于靜音段的幀段進(jìn)行細(xì)化的判斷,判斷是否滿足 第一卡幀條件,進(jìn)而可以準(zhǔn)確得出音頻通信系統(tǒng)中可以被識(shí)別的卡幀幀段。
[0087] 作為一種可選的方案,如圖4所示,判斷屬于靜音段的幀段是否滿足第一卡幀條 件包括:
[0088] S402,判斷屬于靜音段的幀段的幀數(shù)是否大于第一預(yù)定閾值;
[0089] 可選地,在本實(shí)施例中第一預(yù)定閾值的設(shè)置與人耳對音頻的卡頓現(xiàn)象的識(shí)別能力 有關(guān),該第一預(yù)定閾值在實(shí)際評估中可以通過訓(xùn)練得到或者根據(jù)產(chǎn)品質(zhì)量嚴(yán)格等級(jí)程度來 確定。
[0090] 例如,音頻信號(hào)中包括A、B、C、D、E、F、G、Η八個(gè)幀段,判斷屬于靜音段的幀段為A、 B、C、D、E,則判斷幀段A、B、C、D、E的卡幀幀數(shù)是否大于第一預(yù)定閾值,例如,幀數(shù)大于Μ。
[0091] S404,若幀數(shù)大于第一預(yù)定閾值,則判斷出屬于靜音段的幀段滿足第一卡幀條 件;
[0092] 例如,屬于靜音段的幀段A、B、C、D、Ε中幀段A、B、C的卡幀幀數(shù)大于第一預(yù)定閾 值,例如,幀數(shù)大于Μ,則判斷得出屬于靜音段的幀段A、B、C滿足第一卡幀條件。
[0093] S406,若幀數(shù)小于等于第一預(yù)定閾值,則判斷出屬于靜音段的幀段不滿足第一卡 幀條件。
[0094] 例如,屬于靜音段的幀段A、B、C、D、E中幀段D、E的卡幀幀數(shù)小于等于第一預(yù)定閾 值,例如,幀數(shù)小于等于M,則判斷得出屬于靜音段的幀段D、E不滿足第一卡幀條件。
[0095] 通過本申請?zhí)峁┑膶?shí)施例,對卡幀幀段的幀數(shù)設(shè)置門限閾值,可以用來更準(zhǔn)確地 選擇出人耳可以識(shí)別的音頻系統(tǒng)中的卡幀幀段。
[0096] 作為一種可選的方案,判斷出屬于靜音段的幀段不為出現(xiàn)卡幀的幀段包括:
[0097] S1,對屬于靜音段的幀段的特征參數(shù)進(jìn)行檢測;
[0098] 可選地,在本實(shí)施例中的特征參數(shù)包括但不限于以下至少之一:當(dāng)前靜音段的長 度、能量、均值。
[0099] 例如,結(jié)合圖5所示,對待測音頻信號(hào)中經(jīng)判斷后屬于靜音段的當(dāng)前幀段的長度、 能量及均值進(jìn)行特征參數(shù)檢測。
[0100] 又例如,音頻信號(hào)中包括A、B、C、D、E、F、G、Η八個(gè)幀段,判斷屬于靜音段的幀段為 A、B、C、D、Ε,則對屬于靜音段的幀段A、B、C、D、Ε進(jìn)行特征參數(shù)(例如,特征參數(shù)為當(dāng)前幀段 的長度、能量及均值)的檢測。
[0101] S2,根據(jù)檢測結(jié)果判斷屬于靜音段的幀段是否滿足第一卡幀條件中的自然靜音條 件;
[0102] 可選地,在本實(shí)施例中的第一^^幀條件包括但不限于:自然靜音。例如,如圖7所 示為判斷音頻的信號(hào)段中的幀段是否為自然靜音條件的判決算法流程圖,該圖僅作為一個(gè) 示例來說明自然靜音條件的判決算法流程,本申請對此不做限定。
[0103] 可選地,根據(jù)上述檢測結(jié)果判斷屬于靜音段的幀段是否滿足自然靜音條件。
[0104] 需要說明的是,并不是所有的靜音段都是卡幀,音頻通話中有些交流間的靜音是 自然的停頓,這樣的自然靜音并不是出現(xiàn)了音頻卡頓,因而并不作為有效的卡幀(例如,第 二卡幀段)。
[0105] S3,若屬于靜音段的幀段滿足自然靜音條件,則判斷出幀段不滿足第一卡幀條件。
[0106] 例如,結(jié)合圖5所不,屬于靜音段的巾貞段為A、B、C、D、Ε中巾貞段Ε滿足第 ^巾貞條 件中的自然靜音條件,也就是說,幀段Ε的靜音為正常靜音,則不將幀段Ε標(biāo)記為第二卡幀 段。
[0107] 通過本申請?zhí)峁┑膶?shí)施例,通過對音頻信號(hào)中對屬于靜音段的幀段判斷是否滿足 自然靜音條件,排除了因自然靜音導(dǎo)致的誤判為卡幀的情況,從而更有效準(zhǔn)確地得到音頻 信號(hào)中的卡幀。
[0108] 作為一種可選的方案,在根據(jù)檢測結(jié)果判斷屬于靜音段的幀段是否滿足第一卡幀 條件中的自然靜音條件之后,還包括:
[0109] S1,若屬于靜音段的幀段不滿足自然靜音條件,則判斷屬于靜音段的幀段是否滿 足第一^^巾貞條件中的音頻瞬斷條件;
[0110] 可選地,在本實(shí)施例中的第一卡幀條件包括但不限于:音頻瞬斷條件。例如,如圖 8所示為判斷音頻的信號(hào)段中的幀段是否滿足音頻瞬斷條件的判決算法流程圖,該圖僅作 為一個(gè)示例來說明音頻瞬斷的判決算法流程,本申請對此不做限定。
[0111] 例如,結(jié)合圖5所示,屬于靜音段的幀段A、B、C、D、E中不滿足自然靜音條件的幀 段為幀段A、B、C、D,判斷上述幀段A、B、C、D是否滿足第一卡幀條件的音頻瞬斷條件。
[0112] 需要說明的是,音頻瞬斷為聲音瞬斷導(dǎo)致,若上述聲音沒有瞬斷現(xiàn)象,則有可能并 非音頻系統(tǒng)的有效卡幀幀段(例如,第二卡幀段),因而有必要對待測音頻進(jìn)行音頻瞬斷條 件的判斷。
[0113] S2,若屬于靜音段的幀段滿足音頻瞬斷條件,則判斷滿足音頻瞬斷條件的幀段的 幀數(shù)是否大于第二預(yù)定閾值;
[0114] 可選地,在本實(shí)施例中的第二預(yù)定閾值的設(shè)置也與人耳對音頻的卡頓現(xiàn)象的識(shí)別 能力有關(guān),該第二預(yù)定閾值在實(shí)際評估中可以通過訓(xùn)練得到或者根據(jù)產(chǎn)品質(zhì)量嚴(yán)格等級(jí)程 度來確定。
[0115] 例如,結(jié)合圖5所示,當(dāng)音頻信號(hào)中包括A、B、C、D、E、F、G、Η八個(gè)幀段,屬于靜音 段的幀段A、B、C、D、E中不滿足自然靜音條件的幀段為幀段A、B、C、D,又判斷得出其中滿足 音頻瞬斷條件的幀段為A、B,則判斷幀段A、B的卡幀幀數(shù)是否大于第二預(yù)定閾值(例如,幀 數(shù)為P)。
[0116] S3,若幀數(shù)大于第二預(yù)定閾值,則判斷出滿足音頻瞬斷條件的幀段滿足第一卡幀 條件;若幀數(shù)小于等于第二預(yù)定閾值,則判斷出滿足音頻瞬斷條件的幀段不滿足第一卡幀 條件。
[0117] 例如,判斷屬于靜音段的幀段A、B、C、D、E中不滿足自然靜音條件的幀段為幀段A、 B、C、D,又判斷得出其中滿足音頻瞬斷條件的幀段為A、B,若經(jīng)判斷得知幀段B的幀數(shù)大于 第二預(yù)定閾值,例如,幀數(shù)大于P,則判斷得出滿足音頻瞬斷條件的幀段B滿足第一卡幀條 件,并將幀段B記入第二卡幀段。若經(jīng)判斷得知幀段A的幀數(shù)小于等于第二預(yù)定閾值,例如, 幀數(shù)小于等于P,則判斷得出滿足音頻瞬斷條件的幀段A不滿足第一卡幀條件,不將幀段A 標(biāo)記為第二卡幀段。
[0118] 通過本申請?zhí)峁┑膶?shí)施例,通過對音頻信號(hào)中屬于靜音段的幀段判斷是否為音頻 瞬斷,進(jìn)一步判斷幀數(shù)是否滿足門限設(shè)置,從而更有效準(zhǔn)確地得到音頻信號(hào)中的卡幀。
[0119] 作為一種可選的方案,在判斷屬于靜音段的幀段是否滿足第一卡幀條件中的音頻 瞬斷條件之后,還包括:
[0120] S1,若屬于靜音段的幀段不滿足音頻瞬斷條件,則判斷屬于靜音段的幀段是否滿 足第一卡幀條件中的尖銳下滑/時(shí)域截?cái)鄺l件;
[0121] 可選地,在本實(shí)施例中的第一卡幀條件包括但不限于:尖銳下滑/時(shí)域截?cái)鄺l件。 例如,如圖9所示為判斷音頻的信號(hào)段中的幀段是否滿足尖銳下滑/時(shí)域截?cái)鄺l件的判決 算法流程圖,該圖僅作為一個(gè)示例來說明音頻信號(hào)尖銳下滑/時(shí)域截?cái)嗟呐袥Q算法流程, 本申請對此不做限定。
[0122] 例如,結(jié)合圖5所示,屬于靜音段的幀段A、B、C、D、E中不滿足自然靜音條件的幀 段為幀段A、B、C、D,判斷上述幀段A、B、C、D不滿足第一卡幀條件的音頻瞬斷條件的幀段為 c、D,再對幀段C、D進(jìn)行判斷是否滿足尖銳下滑/時(shí)域截?cái)鄺l件。
[0123] 需要說明的是,尖銳下滑/時(shí)域截?cái)酁闀r(shí)域突然截?cái)鄬?dǎo)致,若上述幀段既不是音 頻瞬斷也不是尖銳下滑/時(shí)域截?cái)鄬?dǎo)致的突然靜音,則有可能并非音頻系統(tǒng)的有效卡幀幀 段(例如,第二卡幀段),因而有必要對待測音頻進(jìn)行尖銳下滑/時(shí)域截?cái)鄺l件的判斷。
[0124] S2,若屬于靜音段的幀段不滿足尖銳下滑/時(shí)域截?cái)鄺l件,則判斷出不滿足尖銳 下滑/時(shí)域截?cái)鄺l件的幀段滿足第一卡幀條件;
[0125] 例如,結(jié)合圖5所示,對不滿足第一卡幀條件中的音頻瞬斷條件的幀段C、D進(jìn)行尖 銳下滑/時(shí)域截?cái)鄺l件的判斷,得出幀段D不滿足尖銳下滑/時(shí)域截?cái)鄺l件,則不將幀段D 標(biāo)記為第二卡幀段。
[0126] S3,若屬于靜音段的幀段滿足尖銳下滑/時(shí)域截?cái)鄺l件,則判斷滿足尖銳下滑/時(shí) 域截?cái)鄺l件的幀段的幀數(shù)是否大于第三預(yù)定閾值;
[0127] 可選地,在本實(shí)施例中的第三預(yù)定閾值的設(shè)置也與人耳對音頻的卡頓現(xiàn)象的識(shí)別 能力有關(guān),該第三預(yù)定閾值在實(shí)際評估中可以通過訓(xùn)練得到或者根據(jù)產(chǎn)品質(zhì)量嚴(yán)格等級(jí)程 度來確定。
[0128] 例如,結(jié)合圖5所示,對不滿足第一卡幀條件中的音頻瞬斷條件的幀段C、D進(jìn)行尖 銳下滑/時(shí)域截?cái)鄺l件的判斷,得出幀段C滿足尖銳下滑/時(shí)域截?cái)鄺l件,則判斷幀段C的 卡幀幀數(shù)是否大于第三預(yù)定閾值(例如,幀數(shù)為Q)。
[0129] S4,若幀數(shù)大于第三預(yù)定閾值,則判斷出滿足尖銳下滑/時(shí)域截?cái)鄺l件的幀段滿 足第一卡幀條件;若幀數(shù)小于等于第三預(yù)定閾值,則判斷出滿足尖銳下滑/時(shí)域截?cái)鄺l件 的幀段不滿足第一卡幀條件。
[0130] 例如,結(jié)合圖5所示,對滿足尖銳下滑/時(shí)域截?cái)鄺l件的幀段C的卡幀幀數(shù)進(jìn)行判 斷,若經(jīng)判斷得知幀段C的幀數(shù)大于第三預(yù)定閾值,例如,幀數(shù)大于Q,則判斷得出滿足尖銳 下滑/時(shí)域截?cái)鄺l件的幀段C滿足第一卡幀條件,則將幀段C標(biāo)記為第二卡幀段;若經(jīng)判斷 得知幀段C的幀數(shù)是小于等于第三預(yù)定閾值,例如,幀數(shù)小于等于Q,則判斷得出滿足尖銳 下滑/時(shí)域截?cái)鄺l件的幀段C不滿足第一卡幀條件,則不將幀段C標(biāo)記為第二卡幀段。
[0131] 通過本申請?zhí)峁┑膶?shí)施例,通過對音頻信號(hào)中屬于靜音段的幀段判斷是否為尖銳 下滑/時(shí)域截?cái)?,進(jìn)一步判斷幀數(shù)是否滿足門限設(shè)置,從而更有效準(zhǔn)確地得到音頻信號(hào)中 的卡中貞。
[0132] 作為一種可選的方案,根據(jù)幀段是否為靜音段來從幀段中選擇出現(xiàn)卡幀的幀段包 括:
[0133] S1,若幀段不為靜音段,則判斷幀段是否滿足第二卡幀條件;
[0134] 可選地,結(jié)合圖5所示,在本實(shí)施例中的第二卡幀條件包括但不限于:音頻特征的 相關(guān)性、周期性判斷。例如,重音條件,磁化/機(jī)械音條件。
[0135] 例如,音頻信號(hào)中包括A、B、C、D、E、F、G、Η八個(gè)幀段,判斷不屬于靜音段的幀段為 F、G、Η,則判斷幀段為F、G、Η是否為重音。
[0136] S2,若幀段不滿足第二卡幀條件,則判斷出幀段不為出現(xiàn)卡幀的幀段;
[0137] 例如,結(jié)合圖5所示,若不屬于靜音段的幀段F、G、Η中幀段G、Η不滿足第二卡幀 條件,例如,判斷得出幀段G、H不為重音,且磁化/機(jī)械音頻率成分沒有超出預(yù)設(shè)比例,則判 斷得出幀段G、Η不為出現(xiàn)卡幀的幀段,則不將幀段G、Η標(biāo)記為第二卡幀段。
[0138] S3,若幀段滿足第二卡幀條件,則判斷出幀段為出現(xiàn)卡幀的幀段。
[0139] 例如,結(jié)合圖5所示,若不屬于靜音段的幀段F、G、Η中幀段F滿足第二卡幀條件, 例如,判斷得出幀段F為重音,且卡幀幀數(shù)滿足人耳可識(shí)別的條件,則判斷得出幀段F為出 現(xiàn)卡幀的幀段,則將幀段F標(biāo)記為第二卡幀段。
[0140] 通過本申請?zhí)峁┑膶?shí)施例,通過對不屬于靜音段的幀段進(jìn)行判斷,判斷是否滿足 第二卡幀條件,進(jìn)而對非靜音段的幀段做出判別,準(zhǔn)確得出音頻通信系統(tǒng)中可以被識(shí)別的 卡幀幀段。
[0141] 作為一種可選的方案,判斷幀段是否滿足第二卡幀條件包括:
[0142] S1,判斷幀段是否滿足第二卡幀條件中的重音條件;
[0143] 可選地,在本實(shí)施例中第二卡幀條件包括但不限于:重音條件、磁化/機(jī)械音條 件。
[0144] 例如,結(jié)合圖5所示,判斷得出不屬于靜音段的幀段F、G、Η后,再判斷上述幀段是 否滿足第二卡幀條件中的重音條件。例如,如圖10所示為判斷音頻的信號(hào)段中的幀段是否 滿足重音條件的判決算法流程圖,該圖僅作為一個(gè)示例來說明音頻信號(hào)重音的判決算法流 程,本申請對此不做限定。
[0145] S2,若幀段不滿足重音條件,則判斷幀段是否滿足第二卡幀條件中的磁化/機(jī)械 音條件;
[0146] 例如,結(jié)合圖5所示,若判斷得出幀段G、Η不滿足重音條件,則判斷幀段G、Η是否 滿足第二卡幀條件中的磁化/機(jī)械音條件,也就是說,判斷幀段G、H的磁化/機(jī)械音頻率成 分是否超出預(yù)設(shè)比例。例如,如圖11所示為判斷音頻的信號(hào)段中的幀段是否滿足磁化/機(jī) 械音條件的判決算法流程圖,該圖僅作為一個(gè)示例來說明磁化/機(jī)械音的判決算法流程, 本申請對此不做限定。
[0147] S3,若幀段不滿足第二卡幀條件中的磁化/機(jī)械音條件,則判斷出幀段不滿足第 二卡巾貞條件。
[0148] 需要說明的是,結(jié)合圖5所示,不屬于靜音段的幀段不滿足重音條件,又判斷出不 滿足磁化/機(jī)械音條件,則這樣的幀段并不是真正有效地卡幀幀段,而是誤判的幀段,因而 并不作為有效的卡幀(例如,第二卡幀段)。
[0149] 例如,結(jié)合圖5所示,若判斷得出不滿足第二卡幀條件中的重音條件幀段G、H中的 幀段H,也不滿足第二卡幀條件中的磁化/機(jī)械音條件,也就是說,判斷幀段Η的磁化/機(jī)械 音頻率成分沒有超出預(yù)設(shè)比例,則判斷出幀段Η不滿足第二卡幀條件,則不將幀段Η標(biāo)記為 第二卡巾貞段。
[0150] 通過本申請?zhí)峁┑膶?shí)施例,通過對不屬于靜音段的幀段進(jìn)行細(xì)化的辨別,判斷是 否滿足第二卡幀條件中的重音條件及磁化/機(jī)械音條件,進(jìn)而對非靜音段的幀段做出判 另IJ,準(zhǔn)確得出音頻通信系統(tǒng)中可以被識(shí)別的卡幀幀段。
[0151] 作為一種可選的方案,若幀段滿足重音條件或者滿足磁化/機(jī)械音條件,方法還 包括:
[0152] S1,判斷屬于幀段的幀數(shù)是否大于第四預(yù)定閾值;
[0153] 可選地,在本實(shí)施例中的第四預(yù)定閾值的設(shè)置也與人耳對音頻的卡頓現(xiàn)象的識(shí)別 能力有關(guān),該第四預(yù)定閾值在實(shí)際評估中可以通過訓(xùn)練得到或者根據(jù)產(chǎn)品質(zhì)量嚴(yán)格等級(jí)程 度來確定。
[0154] 例如,音頻信號(hào)中包括A、B、C、D、E、F、G、Η八個(gè)幀段,判斷幀段滿足重音條件或者 滿足磁化/機(jī)械音條件的幀段為G,則判斷幀段G的卡幀幀數(shù)是否大于第四預(yù)定閾值(例如, 第四預(yù)定閾值為S)。
[0155] S2,若幀數(shù)大于第四預(yù)定閾值,則判斷出屬于幀段滿足第二卡幀條件;若幀數(shù)小于 等于第四預(yù)定閾值,則判斷出屬于幀段不滿足第二卡幀條件。
[0156] 例如,若幀段G的卡幀幀數(shù)大于第四預(yù)定閾值,例如,幀數(shù)大于S,則判斷出屬于幀 段G滿足第二卡幀條件,則將幀段G記入第二卡幀斷;若幀段G的卡幀幀數(shù)小于等于第四預(yù) 定閾值,例如,幀數(shù)小于等于S,則判斷出屬于幀段G不滿足第二卡幀條件,則不將幀段G標(biāo) 記為第二卡巾貞段。
[0157] 通過本申請?zhí)峁┑膶?shí)施例,通過對音頻信號(hào)中不屬于靜音段且滿足重音條件或者 滿足磁化/機(jī)械音條件的幀段,進(jìn)一步判斷幀數(shù)是否滿足門限設(shè)置,從而更有效準(zhǔn)確地得 到音頻信號(hào)中的卡幀。
[0158] 作為一種可選的方案,從各幀中查找并標(biāo)記出特征值出現(xiàn)異常的幀段包括:
[0159] S602,若各幀中的連讀多個(gè)幀中的每一個(gè)的至少一個(gè)特征值均不在對應(yīng)的閾值范 圍之內(nèi),則將連續(xù)多個(gè)幀組成的幀段標(biāo)記為特征值出現(xiàn)異常的幀段;
[0160] 可選地,在本實(shí)施例中的特征值中的每一個(gè)對應(yīng)的閾值范圍相同或不同。
[0161] 例如,從各幀中查找并標(biāo)記出特征值出現(xiàn)異常的幀段時(shí),是從連讀多個(gè)幀中查找 每一個(gè)幀的至少一個(gè)特征值均不在對應(yīng)的閾值范圍之內(nèi),并標(biāo)記上述連續(xù)多個(gè)幀組成的幀 段為特征值出現(xiàn)異常的幀段。
[0162] 作為一種可選的方案,本實(shí)施例中的特征值包括以下至少之一:能量包絡(luò)值、頻譜 流量、頻譜平滑度、譜偏斜、譜峰態(tài)。
[0163] 可選地,在本實(shí)施例中上述特征值的相關(guān)計(jì)算方法可以表示如下:
[0164] 1)能量包絡(luò)值,用于表示音頻短時(shí)能量的變化,其中,所加的窗函數(shù)包括以下至少 之一:矩形窗、漢明窗,漢寧窗,三角窗,巴多萊窗。其中,矩形窗的窗函數(shù)的表達(dá)公式如下 :
[0165]
【權(quán)利要求】
1. 一種卡幀檢測方法,其特征在于,包括: 對待測音頻信號(hào)進(jìn)行特征檢測,得到所述待測音頻信號(hào)中的各幀的特征值; 從所述各幀中查找并標(biāo)記出所述特征值出現(xiàn)異常的幀段,其中,所述幀段的標(biāo)記信息 包括以下至少之一:所述幀段的起始幀的時(shí)間信息以及所述幀段的幀長; 根據(jù)所述幀段是否為靜音段來從所述幀段中選擇出現(xiàn)卡幀的幀段; 輸出所述出現(xiàn)卡幀的幀段的標(biāo)記信息。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述幀段是否為靜音段來從所 述幀段中選擇出現(xiàn)卡幀的幀段包括: 若所述幀段為所述靜音段,則判斷屬于所述靜音段的所述幀段是否滿足第一卡幀條 件; 若屬于所述靜音段的所述幀段不滿足所述第一卡幀條件,則判斷出屬于所述靜音段的 所述幀段不為所述出現(xiàn)卡幀的幀段; 若屬于所述靜音段的所述幀段滿足所述第一卡幀條件,則判斷出屬于所述靜音段的所 述幀段為所述出現(xiàn)卡幀的幀段。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述判斷屬于所述靜音段的所述幀段是 否滿足第一卡幀條件包括: 判斷屬于所述靜音段的所述幀段的幀數(shù)是否大于第一預(yù)定閾值; 若所述幀數(shù)大于所述第一預(yù)定閾值,則判斷出屬于所述靜音段的所述幀段滿足所述第 一卡幀條件;若所述幀數(shù)小于等于所述第一預(yù)定閾值,則判斷出屬于所述靜音段的所述幀 段不滿足所述第一卡幀條件。
4. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述判斷出屬于所述靜音段的所述幀段 不為所述出現(xiàn)卡幀的幀段包括: 對屬于所述靜音段的所述幀段的特征參數(shù)進(jìn)行檢測; 根據(jù)所述檢測結(jié)果判斷所述屬于所述靜音段的所述幀段是否滿足所述第一卡幀條件 中的自然靜音條件; 若所述屬于所述靜音段的所述幀段滿足所述自然靜音條件,則判斷出所述幀段不滿足 所述第一^^幀條件。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,在根據(jù)所述檢測結(jié)果判斷所述屬于所述 靜音段的所述幀段是否滿足所述第一卡幀條件中的自然靜音條件之后,還包括: 若所述屬于所述靜音段的所述幀段不滿足所述自然靜音條件,則判斷屬于所述靜音段 的所述幀段是否滿足所述第一卡幀條件中的音頻瞬斷條件; 若所述屬于所述靜音段的所述幀段滿足所述音頻瞬斷條件,則判斷滿足所述音頻瞬斷 條件的所述幀段的幀數(shù)是否大于第二預(yù)定閾值; 若所述幀數(shù)大于所述第二預(yù)定閾值,則判斷出滿足所述音頻瞬斷條件的所述幀段滿足 所述第一卡幀條件;若所述幀數(shù)小于等于所述第二預(yù)定閾值,則判斷出滿足所述音頻瞬斷 條件的所述幀段不滿足所述第一卡幀條件。
6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,在判斷屬于所述靜音段的所述幀段是否 滿足所述第一卡幀條件中的音頻瞬斷條件之后,還包括: 若所述屬于所述靜音段的所述幀段不滿足所述音頻瞬斷條件,則判斷所述屬于所述靜 音段的所述幀段是否滿足所述第一卡幀條件中的尖銳下滑/時(shí)域截?cái)鄺l件; 若所述屬于所述靜音段的所述幀段不滿足所述尖銳下滑/時(shí)域截?cái)鄺l件,則判斷出不 滿足所述尖銳下滑/時(shí)域截?cái)鄺l件的所述幀段滿足所述第一卡幀條件; 若所述屬于所述靜音段的所述幀段滿足所述尖銳下滑/時(shí)域截?cái)鄺l件,則判斷滿足所 述尖銳下滑/時(shí)域截?cái)鄺l件的所述幀段的幀數(shù)是否大于第三預(yù)定閾值; 若所述幀數(shù)大于所述第三預(yù)定閾值,則判斷出滿足所述尖銳下滑/時(shí)域截?cái)鄺l件的所 述幀段滿足所述第一卡幀條件;若所述幀數(shù)小于等于所述第三預(yù)定閾值,則判斷出滿足所 述尖銳下滑/時(shí)域截?cái)鄺l件的所述幀段不滿足所述第一卡幀條件。
7. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述幀段是否為靜音段來從所 述幀段中選擇出現(xiàn)卡幀的幀段包括: 若所述幀段不為所述靜音段,則判斷所述幀段是否滿足第二卡幀條件; 若所述幀段不滿足所述第二卡幀條件,則判斷出所述幀段不為所述出現(xiàn)卡幀的幀段; 若所述幀段滿足所述第二卡幀條件,則判斷出所述幀段為所述出現(xiàn)卡幀的幀段。
8. 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述判斷所述幀段是否滿足所述第二卡 中貞條件包括: 判斷所述幀段是否滿足所述第二卡幀條件中的重音條件; 若所述幀段不滿足所述重音條件,則判斷所述幀段是否滿足所述第二卡幀條件中的磁 化/機(jī)械音條件; 若所述幀段不滿足所述第二卡幀條件中的磁化/機(jī)械音條件,則判斷出所述幀段不滿 足所述第二卡幀條件。
9. 根據(jù)權(quán)利要求8所述的方法,其特征在于,若所述幀段滿足所述重音條件或者滿足 所述磁化/機(jī)械音條件,所述方法還包括: 判斷屬于所述幀段的幀數(shù)是否大于第四預(yù)定閾值; 若所述幀數(shù)大于所述第四預(yù)定閾值,則判斷出屬于所述幀段滿足所述第二卡幀條件; 若所述幀數(shù)小于等于所述第四預(yù)定閾值,則判斷出屬于所述幀段不滿足所述第二卡幀條 件。
10. 根據(jù)權(quán)利要求1至9中任一項(xiàng)所述的方法,其特征在于,從所述各幀中查找并標(biāo)記 出所述特征值出現(xiàn)異常的幀段包括:若所述各幀中的連讀多個(gè)幀中的每一個(gè)的至少一個(gè)所 述特征值均不在對應(yīng)的閾值范圍之內(nèi),則將所述連續(xù)多個(gè)幀組成的幀段標(biāo)記為所述特征值 出現(xiàn)異常的幀段,其中,所述特征值中的每一個(gè)對應(yīng)的所述閾值范圍相同或不同。
11. 根據(jù)權(quán)利要求10所述的方法,其特征在于,所述特征值包括以下至少之一:能量包 絡(luò)值、頻譜流量、頻譜平滑度、譜偏斜、譜峰態(tài)。
12. -種卡幀檢測裝置,其特征在于,包括: 檢測單元,用于對待測音頻信號(hào)進(jìn)行特征檢測,得到所述待測音頻信號(hào)中的各幀的特 征值; 查找標(biāo)記單元,用于從所述各幀中查找并標(biāo)記出所述特征值出現(xiàn)異常的幀段,其中,所 述幀段的標(biāo)記信息包括以下至少之一:所述幀段的起始幀的時(shí)間信息以及所述幀段的幀 長; 選擇單元,用于根據(jù)所述幀段是否為靜音段來從所述幀段中選擇出現(xiàn)卡幀的幀段; 輸出單元,用于輸出所述出現(xiàn)卡幀的幀段的標(biāo)記信息。
13. 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述選擇單元包括: 第一判斷模塊,用于在所述幀段為所述靜音段時(shí),判斷屬于所述靜音段的所述幀段是 否滿足第一卡幀條件;在判斷出屬于所述靜音段的所述幀段不滿足所述第一卡幀條件時(shí), 判斷出屬于所述靜音段的所述幀段不為所述出現(xiàn)卡幀的幀段;在判斷出屬于所述靜音段的 所述幀段滿足所述第一卡幀條件,判斷出屬于所述靜音段的所述幀段為所述出現(xiàn)卡幀的幀 段。
14. 根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述第一判斷模塊包括: 第一判斷子模塊,用于判斷屬于所述靜音段的所述幀段的幀數(shù)是否大于第一預(yù)定閾 值;在所述幀數(shù)大于所述第一預(yù)定閾值時(shí),判斷出屬于所述靜音段的所述幀段滿足所述第 一卡幀條件;在所述幀數(shù)小于等于所述第一預(yù)定閾值時(shí),判斷出屬于所述靜音段的所述幀 段不滿足所述第一卡幀條件。
15. 根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述第一判斷模塊包括: 檢測子模塊,用于對屬于所述靜音段的所述幀段的特征參數(shù)進(jìn)行檢測; 第二判斷子模塊,用于根據(jù)所述檢測模塊的檢測結(jié)果判斷所述屬于所述靜音段的所述 幀段是否滿足所述第一卡幀條件中的自然靜音條件;在所述屬于所述靜音段的所述幀段滿 足所述自然靜音條件時(shí),判斷出所述幀段不滿足所述第一卡幀條件。
16. 根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述第一判斷模塊包括: 第三判斷子模塊,用于在所述屬于所述靜音段的所述幀段不滿足所述自然靜音條件 時(shí),判斷屬于所述靜音段的所述幀段是否滿足所述第一卡幀條件中的音頻瞬斷條件; 第四判斷子模塊,用于在所述屬于所述靜音段的所述幀段滿足所述音頻瞬斷條件時(shí), 判斷滿足所述音頻瞬斷條件的所述幀段的幀數(shù)是否大于第二預(yù)定閾值;在所述幀數(shù)大于所 述第二預(yù)定閾值時(shí),判斷出滿足所述音頻瞬斷條件的所述幀段滿足所述第一卡幀條件;在 所述幀數(shù)小于等于所述第二預(yù)定閾值時(shí),判斷出滿足所述音頻瞬斷條件的所述幀段不滿足 所述第一卡幀條件。
17. 根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述第一判斷模塊包括: 第五判斷子模塊,用于在所述屬于所述靜音段的所述幀段不滿足所述音頻瞬斷條件 時(shí),判斷所述屬于所述靜音段的所述幀段是否滿足所述第一卡幀條件中的尖銳下滑/時(shí)域 截?cái)鄺l件;在所述屬于所述靜音段的所述幀段不滿足所述尖銳下滑/時(shí)域截?cái)鄺l件時(shí),判 斷出不滿足所述尖銳下滑/時(shí)域截?cái)鄺l件的所述幀段滿足所述第一卡幀條件; 第六判斷子模塊,用于在所述屬于所述靜音段的所述幀段滿足所述尖銳下滑/時(shí)域截 斷條件時(shí),判斷滿足所述尖銳下滑/時(shí)域截?cái)鄺l件的所述幀段的幀數(shù)是否大于第三預(yù)定閾 值;在所述幀數(shù)大于所述第三預(yù)定閾值時(shí),判斷出滿足所述尖銳下滑/時(shí)域截?cái)鄺l件的所 述幀段滿足所述第一卡幀條件;在所述幀數(shù)小于等于所述第三預(yù)定閾值時(shí),判斷出滿足所 述尖銳下滑/時(shí)域截?cái)鄺l件的所述幀段不滿足所述第一卡幀條件。
18. 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述選擇單元包括: 第二判斷模塊,用于在所述幀段不為所述靜音段時(shí),判斷所述幀段是否滿足第二卡幀 條件;在所述幀段不滿足所述第二卡幀條件時(shí),判斷出所述幀段不為所述出現(xiàn)卡幀的幀段; 在所述幀段滿足所述第二卡幀條件時(shí),則判斷出所述幀段為所述出現(xiàn)卡幀的幀段。
19. 根據(jù)權(quán)利要求18所述的裝置,其特征在于,所述第二判斷模塊包括: 第七判斷子模塊,用于判斷所述幀段是否滿足所述第二卡幀條件中的重音條件; 第八判斷子模塊,用于在所述幀段不滿足所述重音條件時(shí),判斷所述幀段是否滿足所 述第二卡幀條件中的磁化/機(jī)械音條件;在所述幀段不滿足所述第二卡幀條件中的磁化/ 機(jī)械音條件時(shí),判斷出所述幀段不滿足所述第二卡幀條件。
20. 根據(jù)權(quán)利要求19所述的裝置,其特征在于,所述第二判斷模塊包括: 第九判斷子模塊,用于在所述幀段滿足所述重音條件或者滿足所述磁化/機(jī)械音條件 時(shí),判斷屬于所述幀段的幀數(shù)是否大于第四預(yù)定閾值;在所述幀數(shù)大于所述第四預(yù)定閾值 時(shí),判斷出屬于所述幀段滿足所述第二卡幀條件;在所述幀數(shù)小于等于所述第四預(yù)定閾值 時(shí),判斷出屬于所述幀段不滿足所述第二卡幀條件。
21. 根據(jù)權(quán)利要求12至20中任一項(xiàng)所述的裝置,其特征在于,所述查找標(biāo)記單元包 括: 標(biāo)記模塊,用于在所述各幀中的連讀多個(gè)幀中的每一個(gè)的至少一個(gè)所述特征值均不在 對應(yīng)的閾值范圍之內(nèi),將所述連續(xù)多個(gè)幀組成的幀段標(biāo)記為所述特征值出現(xiàn)異常的幀段, 其中,所述特征值中的每一個(gè)對應(yīng)的所述閾值范圍相同或不同。
22. 根據(jù)權(quán)利要求21所述的裝置,其特征在于,所述特征值包括以下至少之一:能量包 絡(luò)值、頻譜流量、頻譜平滑度、譜偏斜、譜峰態(tài)。
【文檔編號(hào)】G10L25/78GK104123949SQ201410036425
【公開日】2014年10月29日 申請日期:2014年1月24日 優(yōu)先權(quán)日:2014年1月24日
【發(fā)明者】鄒連平, 張文婷, 何航 申請人:騰訊科技(深圳)有限公司