一種音頻中人聲突出處理的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及到多媒體信息領(lǐng)域,特別涉及到一種音頻中人聲突出處理的方法及裝 置。
【背景技術(shù)】
[0002] 隨著多媒體技術(shù)不斷的發(fā)展,音視頻信息在人們的工作、文體和娛樂生活中的作 用越來越重。然而,TV上的一些節(jié)目源,會(huì)出現(xiàn)背景聲音較大導(dǎo)致節(jié)目中的人物對(duì)話聽起來 不夠清晰的情況,例如雨聲中的人物對(duì)話,槍戰(zhàn)背景的人物對(duì)話,新聞節(jié)目中的現(xiàn)場采訪。 針對(duì)這類問題,現(xiàn)有的TV在"聲音設(shè)置"中有"語音清晰"、"新聞"選項(xiàng),用戶在觀看這類節(jié) 目時(shí),可以手動(dòng)打開這些選項(xiàng),但是對(duì)于一些節(jié)目源調(diào)用該功能效果會(huì)更差,例如一些音樂 類的節(jié)目,用戶需手動(dòng)關(guān)閉該功能,這樣用戶為了達(dá)到比較好的聲音效果,必須頻繁手動(dòng)開 關(guān),這給用戶來帶來不少麻煩,以至于該功能形同擺設(shè),并沒有多少用戶去頻繁開它。
[0003] 另外傳統(tǒng)的"語音清晰"、"新聞"算法是通過提升中頻段(200Hz至8kHz)的增益, 或者降低該頻段以外的頻域增益,或者兩種措施同時(shí)加入。但是實(shí)際的節(jié)目中的人聲在某 個(gè)小時(shí)間段并未有這么寬的帶寬,多數(shù)僅是該頻段內(nèi)的一小部分,因此并不能很好的達(dá)到 突出人聲的效果。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的主要目的為提供一種音頻中人聲突出處理的方法及裝置,旨在方便準(zhǔn)確 的識(shí)別人聲并對(duì)識(shí)別出的人聲進(jìn)行突出。
[0005] 本發(fā)明提供一種音頻中人聲突出處理的方法,該方法包括:
[0006] 對(duì)音頻信號(hào)進(jìn)行分幀處理,以得到各個(gè)音頻幀信號(hào);
[0007] 對(duì)得到的音頻幀信號(hào)進(jìn)行分組,每N個(gè)音頻幀信號(hào)分為一組,分析每一分組中音 頻幀信號(hào)的頻帶范圍、頻帶能量、低能量幀率及過零率的特性,并根據(jù)每一分組對(duì)應(yīng)的分析 結(jié)果,確定每一分組音頻幀信號(hào)中是否有人聲,N取大于1的正整數(shù);
[0008] 若有分組音頻幀信號(hào)中有人聲,則對(duì)該分組的音頻幀信號(hào)進(jìn)行帶通濾波,以輸出 濾波后的第一音頻信號(hào)。
[0009] 優(yōu)選地,所述對(duì)得到的音頻幀信號(hào)進(jìn)行分組,每N個(gè)音頻幀信號(hào)分為一組,分析每 一分組中音頻幀信號(hào)的頻帶范圍、頻帶能量、低能量幀率及過零率的特性,并根據(jù)每一分組 對(duì)應(yīng)的分析結(jié)果,確定每一分組音頻幀信號(hào)中是否有人聲頻帶范圍步驟包括:
[0010] 對(duì)得到的音頻幀信號(hào)進(jìn)行分組,每N個(gè)音頻幀信號(hào)分為一組;
[0011] 分析每一分組音頻幀信號(hào)的頻帶范圍是否與預(yù)設(shè)人聲頻帶范圍有交集;
[0012] 若所述分組音頻幀信號(hào)的頻帶范圍與預(yù)設(shè)人聲頻帶范圍有交集,則分析所述分組 音頻幀信號(hào)在預(yù)設(shè)人聲頻帶范圍內(nèi)的能量與所述分組音頻幀信號(hào)在預(yù)設(shè)人聲頻帶范圍外 的能量的比例是否大于等于第一預(yù)設(shè)閥值;
[0013] 若所述分組音頻幀信號(hào)在預(yù)設(shè)人聲頻帶范圍內(nèi)的能量與所述分組音頻幀信號(hào)在 預(yù)設(shè)人聲頻帶范圍外的能量的比例大于等于第一預(yù)設(shè)閥值,分析所述分組音頻幀信號(hào)的低 能量幀率是否小于第二預(yù)設(shè)閥值;
[0014] 若所述分組音頻幀信號(hào)的低能量幀率小于第二預(yù)設(shè)閥值,則分析所述分組音頻幀 信號(hào)的每幀音頻信號(hào)的過零率是否按照一預(yù)設(shè)規(guī)律交替變化;
[0015] 若所述分組音頻幀信號(hào)的每幀音頻信號(hào)的過零率按照一預(yù)設(shè)規(guī)律交替變化,則確 定所述分組音頻幀信號(hào)中有人聲。
[0016] 優(yōu)選地,所述若有分組音頻幀信號(hào)中有人聲,則對(duì)該分組的音頻幀信號(hào)進(jìn)行帶通 濾波,以輸出濾波后的第一音頻信號(hào)的步驟包括:
[0017] 若有分組音頻幀信號(hào)中有人聲,則將所述分組的音頻幀信號(hào)在預(yù)設(shè)人聲頻帶范圍 的音頻信號(hào)分成預(yù)設(shè)數(shù)量的頻段,并計(jì)算各個(gè)頻段的能量及找出最大能量;
[0018] 將分成預(yù)設(shè)數(shù)量的頻段從低頻段到高頻段排序,獲取與最大能量之差大于預(yù)設(shè)差 值的第一個(gè)頻段的中心頻點(diǎn)及獲取與最大能量之差小于預(yù)設(shè)差值的第一個(gè)頻段的中心頻 占.
[0019] 調(diào)用截止頻率范圍包括與最大能量之差大于預(yù)設(shè)差值的該第一個(gè)頻段的中心頻 點(diǎn)的高通濾波器對(duì)所述分組的音頻幀信號(hào)進(jìn)行濾波,以輸出第二音頻信號(hào);及并調(diào)用截止 頻率范圍包括與最大能量之差小于預(yù)設(shè)差值的該第一個(gè)頻段的中心頻點(diǎn)低通濾波器對(duì)所 述第二音頻信號(hào)進(jìn)行濾波,以輸出第一音頻信號(hào)。
[0020] 優(yōu)選地,所述調(diào)用截止頻率范圍包括與最大能量之差大于預(yù)設(shè)差值的該第一個(gè)頻 段的中心頻點(diǎn)的高通濾波器對(duì)所述分組的音頻幀信號(hào)進(jìn)行濾波,以輸出第二音頻信號(hào);及 并調(diào)用截止頻率范圍包括與最大能量之差小于預(yù)設(shè)差值的該第一個(gè)頻段的中心頻點(diǎn)低通 濾波器對(duì)所述第二音頻信號(hào)進(jìn)行濾波,以輸出第一音頻信號(hào)的步驟之后,該方法還包括:
[0021] 對(duì)輸出的第一音頻信號(hào)通過以下公式處理,以輸出第三音頻信號(hào);
[0023] 其中:其中ω =2 π f,f是頻率,X ( ω )是第一首頻/[目號(hào)f對(duì)應(yīng)的/[目號(hào)幅度。將預(yù) 設(shè)人聲頻帶范圍(fl_f5)分為四個(gè)頻段,分別是(fl-f2)、(f2-f3)、(f3-f4)、(f4-f5)。
[0024] 優(yōu)選地,所述若有分組音頻幀信號(hào)中有人聲,則對(duì)該分組的音頻幀信號(hào)進(jìn)行帶通 濾波,以輸出濾波后的第一音頻信號(hào)的步驟之后,該方法還包括:
[0025] 將所述第一音頻信號(hào)通過一預(yù)設(shè)截止頻率的低通濾波器,以輸出第四音頻信號(hào)。
[0026] 本發(fā)明還提供一種音頻中人聲突出處理的裝置,該裝置包括:
[0027] 分幀處理模塊,用于對(duì)音頻信號(hào)進(jìn)行分幀處理;
[0028] 分析確定模塊,用于對(duì)得到的音頻幀信號(hào)進(jìn)行分組,每N個(gè)音頻幀信號(hào)分為一組, 分析每一分組中音頻幀信號(hào)的頻帶范圍、頻帶能量、低能量幀率及過零率的特性,并根據(jù)每 一分組對(duì)應(yīng)的分析結(jié)果,確定每一分組音頻幀信號(hào)中是否有人聲,N取大于1的正整數(shù);
[0029] 第一處理模塊,用于在若有分組音頻幀信號(hào)中有人聲,則對(duì)該分組的音頻幀信號(hào) 進(jìn)行帶通濾波,以輸出濾波后的第一音頻信號(hào)。
[0030] 優(yōu)選地,所述分析確定模塊包括:
[0031] 分組單元,用于對(duì)得到的音頻幀信號(hào)進(jìn)行分組,每N個(gè)音頻幀信號(hào)分為一組;
[0032] 第一分析單元,用于分析每一分組音頻幀信號(hào)的頻帶范圍是否與預(yù)設(shè)人聲頻帶范 圍有交集;
[0033] 第二分析單元,用于在分組音頻幀信號(hào)的頻帶范圍與預(yù)設(shè)人聲頻帶范圍有交集 時(shí),分析所述分組音頻幀信號(hào)在預(yù)設(shè)人聲頻帶范圍內(nèi)的能量與所述分組音頻幀信號(hào)在預(yù)設(shè) 人聲頻帶范圍外的能量的比例是否大于等于第一預(yù)設(shè)閥值;
[0034] 第三分析單元,用于在分組音頻幀信號(hào)在預(yù)設(shè)人聲頻帶范圍內(nèi)的能量與所述分組 音頻幀信號(hào)在預(yù)設(shè)人聲頻帶范圍外的能量的比例大于等于第一預(yù)設(shè)閥值時(shí),分析所述分組 音頻幀信號(hào)的低能量幀率是否小于第二預(yù)設(shè)閥值;
[0035] 第四分析單元,用于在分組音頻幀信號(hào)的低能量幀率小于第二預(yù)設(shè)閥值時(shí),分析 所述分組音頻幀信號(hào)的每幀音頻信號(hào)的過零率是否按照一預(yù)設(shè)規(guī)律交替變化;
[0036] 確定單元,用于在所述分組音頻幀信號(hào)的每幀音頻信號(hào)的過零率按照一預(yù)設(shè)規(guī)律 交替變化時(shí),確定所述分組音頻幀信號(hào)中有人聲。
[0037] 優(yōu)選地,所述第一處理模塊包括:
[0038] 第一處理單元,用于在若有分組音頻幀信號(hào)中有人聲時(shí),將所述分組的音頻幀信 號(hào)在預(yù)設(shè)人聲頻帶范圍的音頻信號(hào)分成預(yù)設(shè)數(shù)量的頻段,并計(jì)算各個(gè)頻段的能量及找出最 大能量;
[0039] 獲取單元,用于將分成預(yù)設(shè)數(shù)量的頻段從低頻段到高頻段排序,獲取與最大能量 之差大于預(yù)設(shè)差值的第一個(gè)頻段的中心頻點(diǎn)及獲取與該最大能量之差小于預(yù)設(shè)差值的第 一個(gè)頻段的中心頻點(diǎn);
[0040] 調(diào)用單元,用于調(diào)用截止頻率范圍包括與最大能量之差大于預(yù)設(shè)差值的該第一個(gè) 頻段的中心頻點(diǎn)的高通濾波器對(duì)所述分組的音頻幀信號(hào)進(jìn)行濾波,以輸出第二音頻信號(hào); 及并調(diào)用截止頻率范圍包括與最大能量之差小于預(yù)設(shè)差值的該第一個(gè)頻段的中心頻點(diǎn)低 通濾波器對(duì)所述第二音頻信號(hào)進(jìn)行濾波,以輸出第一音頻信號(hào)。
[0041] 優(yōu)選地,所述第一處理模塊還包括:
[0042] 第二處理單元,用于對(duì)輸出的第一音頻信號(hào)通過以下公式處理,以輸出第三音頻 信號(hào);
[0044] 其中:其中ω =2 π f,f是頻率,X ( ω )是第一首頻/[目號(hào)f對(duì)應(yīng)的/[目號(hào)幅度。將預(yù) 設(shè)人聲頻帶范圍(fl_f5)分為四個(gè)頻段,分別是(fl-f2)、(f2-f3)、(f3-f4)、(f4-f5)。
[0045] 優(yōu)選地,所述裝置還包括:
[0046] 第二處理模塊,用于將所述第一音頻信號(hào)通過一預(yù)設(shè)截止頻率的低通濾波器,以 輸出第四音頻信號(hào)。
[0047] 采用本發(fā)明,對(duì)音頻信號(hào)進(jìn)行分幀處理,以得到