本發(fā)明涉及音頻處理領域,特別涉及一種音質增強的方法和麥克風。
背景技術:
在現(xiàn)有技術中,涉及到音頻處理的場景,特別是在會議的場景下,由于存在有外界噪音的存在,且本身人聲的處理不合理,在很多會議場所由于空間大且參會人員多會出現(xiàn)離麥克風遠的說話聲音小,說話斷字或不清晰的現(xiàn)象,導致用戶的體驗不好。
技術實現(xiàn)要素:
針對現(xiàn)有技術中的缺陷,本發(fā)明提出了一種音質增強的方法和麥克風,用以保證用戶的使用體驗。
具體的,本發(fā)明提出了以下具體的實施例:
本發(fā)明實施例提出了一種音質增強的方法,應用于內部嵌入浮點庫的ARM架構的系統(tǒng),該方法包括:
對獲取的聲音信號進行語音狀態(tài)識別,以識別出聲音信號中的語音狀態(tài)的聲音信號和非語音狀態(tài)下的聲音信號;
對非語音狀態(tài)下的聲音信號進行舒適噪音的轉換,生成對應的舒適噪音;
對語音狀態(tài)下的聲音信號進行按照頻段的不同進行不同的衰減或激勵處理,生成音質增強后的聲音信號;并對音質增強后的聲音信號進行自動增益處理。
在一個具體的實施例中,所述對獲取的聲音信號進行語音狀態(tài)識別,以識別出聲音信號中的語音狀態(tài)的聲音信號和非語音狀態(tài)下的聲音信號,具體包括:
對獲取的聲音信號進行能量檢測,以獲取聲音信號的能量值;
若聲音信號在一定延時范圍內所保持的能量值都大于預設能量閾值,確定所述聲音信號為語音狀態(tài)的聲音信號;
若聲音信號在一定延時范圍內所保持的能量值都小于預設能量閾值,確定所述聲音信號為非語音狀態(tài)的聲音信號。
在一個具體的實施例中,該方法還包括:
對確定聲音信號為語音狀態(tài)的聲音信號,確定在一定延時范圍內所保持的能量值所處的范圍;
基于不同的范圍,對聲音信號進行不同的衰減處理,以實現(xiàn)語音狀態(tài)的聲音信號與非語音狀態(tài)的聲音信號之間的平緩過渡。
在一個具體的實施例中,對語音狀態(tài)下的聲音信號進行按照頻段的不同進行不同的衰減或激勵處理,生成音質增強后的聲音信號,具體包括:
對語音狀態(tài)下的聲音信號進行按照頻段的不同劃分為多個不同的頻段;
對于高頻的頻段進行衰減處理,同時對處于低頻的頻段進行激勵處理,以生成音質增強后的聲音信號。
在一個具體的實施例中,對音質增強后的聲音信號進行自動增益處理,具體包括:
獲取音質增強后的聲音信號的音量信息;
利用平均濾波器將超過預設音量范圍的音質增強后的聲音信號的音量調整到預設音量范圍內。
本發(fā)明實施例還提出了一種麥克風,所述麥克風內部嵌入浮點庫的ARM架構的系統(tǒng),該麥克風包括:
識別模塊,用以對獲取的聲音信號進行語音狀態(tài)識別,以識別出聲音信號中的語音狀態(tài)的聲音信號和非語音狀態(tài)下的聲音信號;
轉換模塊,用于對非語音狀態(tài)下的聲音信號進行舒適噪音的轉換,生成對應的舒適噪音;
第一處理模塊,用于對語音狀態(tài)下的聲音信號進行按照頻段的不同進行不同的衰減或激勵處理,生成音質增強后的聲音信號;
第二處理模塊,用于對音質增強后的聲音信號進行自動增益處理。
在一個具體的實施例中,所述識別模塊,具體用于:
對獲取的聲音信號進行能量檢測,以獲取聲音信號的能量值;
若聲音信號在一定延時范圍內所保持的能量值都大于預設能量閾值,確定所述聲音信號為語音狀態(tài)的聲音信號;
若聲音信號在一定延時范圍內所保持的能量值都小于預設能量閾值,確定所述聲音信號為非語音狀態(tài)的聲音信號。
在一個具體的實施例中,該麥克風還包括:
過渡模塊,用于對確定聲音信號為語音狀態(tài)的聲音信號,確定在一定延時范圍內所保持的能量值所處的范圍;
基于不同的范圍,對聲音信號進行不同的衰減處理,以實現(xiàn)語音狀態(tài)的聲音信號與非語音狀態(tài)的聲音信號之間的平緩過渡。
在一個具體的實施例中,所述第一處理模塊,具體用于:
對語音狀態(tài)下的聲音信號進行按照頻段的不同劃分為多個不同的頻段;
對于高頻的頻段進行衰減處理,同時對處于低頻的頻段進行激勵處理,以生成音質增強后的聲音信號。
在一個具體的實施例中,所述第二處理模塊,具體用于:
獲取音質增強后的聲音信號的音量信息;
利用平均濾波器將超過預設音量范圍的音質增強后的聲音信號的音量調整到預設音量范圍內。
與現(xiàn)有技術相比,本發(fā)明實施例提出了一種音質增強的方法和麥克風,其中該方法包括:對獲取的聲音信號進行語音狀態(tài)識別,以識別出聲音信號中的語音狀態(tài)的聲音信號和非語音狀態(tài)下的聲音信號;對非語音狀態(tài)下的聲音信號進行舒適噪音的轉換,生成對應的舒適噪音;對語音狀態(tài)下的聲音信號進行按照頻段的不同進行不同的衰減或激勵處理,生成音質增強后的聲音信號;并對音質增強后的聲音信號進行自動增益處理。以此通過對聲音信號進行處理,以獲取到更優(yōu)質的聲音信號,提高用戶的使用體驗。
附圖說明
為了更清楚地說明本發(fā)明實施例的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,應當理解,以下附圖僅示出了本發(fā)明的某些實施例,因此不應被看作是對范圍的限定,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他相關的附圖。
圖1為本發(fā)明實施例提出的一種音質增強的方法的流程示意圖;
圖2為本發(fā)明實施例提出的一種音質增強的方法的示意圖;
圖3為本發(fā)明實施例提出的一種麥克風的結構示意圖;
圖4為本發(fā)明實施例提出的一種麥克風的結構示意圖。
具體實施方式
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。通常在此處附圖中描述和出示的本發(fā)明實施例的組件可以以各種不同的配置來布置和設計。因此,以下對在附圖中提供的本發(fā)明的實施例的詳細描述并非旨在限制要求保護的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實施例?;诒景l(fā)明的實施例,本領域技術人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
以下,根據(jù)實施例及附圖對本發(fā)明作進一步的詳細說明:
本發(fā)明公開了一種音質增強的方法,應用于內部嵌入浮點庫的ARM架構的系統(tǒng),如圖1所示,該方法包括:
步驟101、對獲取的聲音信號進行語音狀態(tài)識別,以識別出聲音信號中的語音狀態(tài)的聲音信號和非語音狀態(tài)下的聲音信號;
步驟102、對非語音狀態(tài)下的聲音信號進行舒適噪音的轉換,生成對應的舒適噪音;
步驟103、對語音狀態(tài)下的聲音信號進行按照頻段的不同進行不同的衰減或激勵處理,生成音質增強后的聲音信號;
步驟104、對音質增強后的聲音信號進行自動增益處理。
由于對音頻的處理以及產(chǎn)生舒適噪音時需要使用大量的浮點運算。如果使用定點計算,會花費很長的時間,也耗費較多的資源,精度相對也會比較差,相比浮點運算也差一些;因此本發(fā)明提出了具體的處理的系統(tǒng)為內部嵌入浮點庫的ARM架構的系統(tǒng),以此可以提高處理的效率,消耗的資源相對較小,且精度更高。
步驟101的執(zhí)行可以利用VAD(Voice Activity Detection,語音活動檢測、又稱語音端點檢測、或語音邊界檢測)技術來實現(xiàn);具體的,識別出的非語音狀態(tài)下的聲音信號即為噪音。
步驟102中的舒適噪音是一類特殊的噪音,由算法生成,起到使人放松或者引起警覺的作用;不同于一般噪音,不會使人產(chǎn)生煩躁或對人身體產(chǎn)生傷害。通過對非語音狀態(tài)下的聲音信號也即一般的噪音進行轉換,轉換為舒適噪音,以提高具體應用場景下,例如會議的語音質量。
而步驟103的執(zhí)行可以利用帶通濾波器來實現(xiàn),特別是FIR濾波器,也即Finite Impulse Response濾波器,或有限長單位沖激響應濾波器,以及非遞歸型濾波器來實現(xiàn)。
以此,一種具體的方法流程示意圖可以如圖2所示。
通過以上方式,兼顧了語音傳輸高速性和準確性,降低了硬件成本;提高了麥克風的音質;提高了麥克風的拾音距離;本發(fā)明采用的新型舒適噪音生成改善了會議環(huán)境,使得參會的人員獲得舒適的聽感。以此通過對音頻信號進行處理,獲取到更優(yōu)質的聲音信號,提高用戶的使用體驗。
實施例1
本發(fā)明實施例1公開了一種音質增強的方法,應用于內部嵌入浮點庫的ARM架構的系統(tǒng),如圖1所示,該方法包括:
步驟101、對獲取的聲音信號進行語音狀態(tài)識別,以識別出聲音信號中的語音狀態(tài)的聲音信號和非語音狀態(tài)下的聲音信號;
步驟102、對非語音狀態(tài)下的聲音信號進行舒適噪音的轉換,生成對應的舒適噪音;
步驟103、對語音狀態(tài)下的聲音信號進行按照頻段的不同進行不同的衰減或激勵處理,生成音質增強后的聲音信號;
步驟104、對音質增強后的聲音信號進行自動增益處理。
在一個具體的實施例中,步驟101,也即所述對獲取的聲音信號進行語音狀態(tài)識別,以識別出聲音信號中的語音狀態(tài)的聲音信號和非語音狀態(tài)下的聲音信號,具體包括:
對獲取的聲音信號進行能量檢測,以獲取聲音信號的能量值;
若聲音信號在一定延時范圍內所保持的能量值都大于預設能量閾值,確定所述聲音信號為語音狀態(tài)的聲音信號;
若聲音信號在一定延時范圍內所保持的能量值都小于預設能量閾值,確定所述聲音信號為非語音狀態(tài)的聲音信號。
具體的,語音狀態(tài)識別是VAD判斷來實現(xiàn)的,VAD判斷又稱語音端點檢測,語音邊界檢測。目的是從聲音信號流里識別和語音狀態(tài)和非語音狀態(tài)。本發(fā)明實施例主要使用了信號的能量閾值判別。基本的思路是當信號的能量低于某一經(jīng)驗門限并達到一定延時,判斷該信號為噪音;當信號的能量高一某一門限值并達到一定延時,判斷該信號為語音,也即語音狀態(tài)的聲音信號。
為了實現(xiàn)語音和非語音狀態(tài)的聲音信號的過渡帶平穩(wěn),該方法還可以包括:
對確定聲音信號為語音狀態(tài)的聲音信號,確定在一定延時范圍內所保持的能量值所處的范圍;
基于不同的范圍,對聲音信號進行不同的衰減處理,以實現(xiàn)語音狀態(tài)的聲音信號與非語音狀態(tài)的聲音信號之間的平緩過渡。
在此以一個具體的實施例來進行說明,在該具體的實施例中,設置了多3個閾值區(qū)間(分別為三個閾值E1、E2、E3)和理想能量值,其中,理想能量值是開會時正常通話音量長時采樣平均能量。3個閾值分別取標準能量值的0.2-0.4、0.08-0.2和0.05-0.08。也即E1>E2>E3。
以此,對于只達到了第一個閾值E1的聲音做3db衰減;達到第二個閾值E2聲音做6db衰減。
若達到最后一個閾值E3的聲音,則會進行轉換處理,替換成舒適噪音。
此外,以上每達到一個閾值時還需要做100毫秒的延時判斷,必須在這100ms內的能量持續(xù)的低于閾值才能進行下一步計算。如此使得語音和非語音狀態(tài)的聲音信號的過渡帶平穩(wěn),不會出現(xiàn)卡字和掉字的現(xiàn)象。
步驟102,也即對噪音進行轉換,在一個具體的實施例中,可以采用"線性同余法",每次調用時需要輸入不同的“seed”值,以此產(chǎn)生不同的“噪聲”序列。
此外,本發(fā)明時實施例還會對噪音的高頻部分進行衰減處理。具體的,可以采用FIR濾波器制作一個低通濾波對5000Hz以上的噪音進行過濾以及衰減處理,在實際的應該中,可以有效減小6000Hz以上對人耳刺激較大的頻段。當然,具體的,還可以根據(jù)需要對其他的頻段進行處理,以滿足不同的需要。
在一個具體的實施例中,步驟103,也即對語音狀態(tài)下的聲音信號進行按照頻段的不同進行不同的衰減或激勵處理,生成音質增強后的聲音信號,具體包括:
對語音狀態(tài)下的聲音信號進行按照頻段的不同劃分為多個不同的頻段;
對于高頻的頻段進行衰減處理,同時對處于低頻的頻段進行激勵處理,以生成音質增強后的聲音信號。
在此,一個具體的實施例來進行說明,在該實施例中,考慮到人聲樂音的頻譜分布以2500Hz為中點,因此對該頻譜下的聲音進行激勵,具體的,可以進行3-6db的增強,所產(chǎn)生的效果比較自然舒適、對增加音源突出感的作用也比較明顯。
而對人聲鼻音頻譜分布以500Hz為中點,對其進行激勵處理,具體的,可以進行3-6db的增強,可以有效地增大人聲的勁度感。
至于對人聲3500-6800Hz范圍內的頻譜,不宜使用激勵處理,因為它容易使音源產(chǎn)生令人不悅的嘈雜聲響,可以適當衰減;例如,可以做了6db的衰減。
此外,在實際的應該中,對人聲的齒音一般應避免使用激勵處理,因為此頻段的失真很容易被人察覺。當然如果是使用激勵效果比較柔和的數(shù)字式激勵器,也可以對齒音做輕微的激勵處理,以用于加重齒音的清晰感。其處理的頻譜應在7200Hz以上。
本實施例可以采用FIR濾波器(Finite Impulse Response濾波器:有限長單位沖激響應濾波器,又稱為非遞歸型濾波器)來設計帶通濾波器,對500Hz和3400Hz段進行增強過度帶寬是200Hz。對6800Hz段的聲音做了6db的衰減,過度帶寬是500Hz。采用FIR濾波器,結構簡單,只用了乘法加法,計算時間確定,沒有迭代的過程,很適合計算機計算,也很容易地設計成特定相位的濾波器。只需要對一個乘加循環(huán)就可以完成FIR濾波計算。
在一個具體的實施例中,步驟104、也即對音質增強后的聲音信號進行自動增益處理,具體包括:
獲取音質增強后的聲音信號的音量信息;
利用平均濾波器將超過預設音量范圍的音質增強后的聲音信號的音量調整到預設音量范圍內。
由于信號在經(jīng)過濾波降噪等一系列的處理之后,信號的幅度會出現(xiàn)一定幅度的衰減,同時為了獲得比較穩(wěn)定響亮舒適的聽覺效果,需要在話音激活檢測之后,根據(jù)檢測結果對語音信號進行自動增益調節(jié)。其數(shù)學模型為:
其中,Xi為當前輸入信號,M為平均濾波器的長度。AGC_maxinum和AGC_minum是期望的音量范圍。以此任何超過了這個范圍的音量會被算法調整到這個范圍附近。以此自動增益幫助下麥克風會根據(jù)人與會議電話之間的距離遠近來調整收音的大小,人離的遠一點講話,會把聲音放大傳給對方,人離的近講話,會議電話會把聲音變小一點傳給對方,使對方聽上去聲音大小差不多。本發(fā)明拾音距離可以達到5米,是市場同類產(chǎn)品的三倍。
本發(fā)明實施例提出了一種音質增強的方法和麥克風,其中該方法包括:對獲取的聲音信號進行語音狀態(tài)識別,以識別出聲音信號中的語音狀態(tài)的聲音信號和非語音狀態(tài)下的聲音信號;對非語音狀態(tài)下的聲音信號進行舒適噪音的轉換,生成對應的舒適噪音;對語音狀態(tài)下的聲音信號進行按照頻段的不同進行不同的衰減或激勵處理,生成音質增強后的聲音信號;并對音質增強后的聲音信號進行自動增益處理。以此通過對聲音信號進行處理,以獲取到更優(yōu)質的聲音信號,提高用戶的使用體驗。
實施例2
本發(fā)明實施例2還公開了一種麥克風,所述麥克風內部嵌入浮點庫的ARM架構的系統(tǒng),如圖3所示,該麥克風包括:
識別模塊201,用以對獲取的聲音信號進行語音狀態(tài)識別,以識別出聲音信號中的語音狀態(tài)的聲音信號和非語音狀態(tài)下的聲音信號;
轉換模塊202,用于對非語音狀態(tài)下的聲音信號進行舒適噪音的轉換,生成對應的舒適噪音;
第一處理模塊203,用于對語音狀態(tài)下的聲音信號進行按照頻段的不同進行不同的衰減或激勵處理,生成音質增強后的聲音信號;
第二處理模塊204,用于對音質增強后的聲音信號進行自動增益處理。
在一個具體的實施例中,所述識別模塊201,具體用于:
對獲取的聲音信號進行能量檢測,以獲取聲音信號的能量值;
若聲音信號在一定延時范圍內所保持的能量值都大于預設能量閾值,確定所述聲音信號為語音狀態(tài)的聲音信號;
若聲音信號在一定延時范圍內所保持的能量值都小于預設能量閾值,確定所述聲音信號為非語音狀態(tài)的聲音信號。
如圖4所示,該麥克風還包括:
過渡模塊205,用于對確定聲音信號為語音狀態(tài)的聲音信號,確定在一定延時范圍內所保持的能量值所處的范圍;
基于不同的范圍,對聲音信號進行不同的衰減處理,以實現(xiàn)語音狀態(tài)的聲音信號與非語音狀態(tài)的聲音信號之間的平緩過渡。
在一個具體的實施例中,所述第一處理模塊203,具體用于:
對語音狀態(tài)下的聲音信號進行按照頻段的不同劃分為多個不同的頻段;
對于高頻的頻段進行衰減處理,同時對處于低頻的頻段進行激勵處理,以生成音質增強后的聲音信號。
在一個具體的實施例中,所述第二處理模塊204,具體用于:
獲取音質增強后的聲音信號的音量信息;
利用平均濾波器將超過預設音量范圍的音質增強后的聲音信號的音量調整到預設音量范圍內。
本發(fā)明實施例提出了一種音質增強的方法和麥克風,其中該方法包括:對獲取的聲音信號進行語音狀態(tài)識別,以識別出聲音信號中的語音狀態(tài)的聲音信號和非語音狀態(tài)下的聲音信號;對非語音狀態(tài)下的聲音信號進行舒適噪音的轉換,生成對應的舒適噪音;對語音狀態(tài)下的聲音信號進行按照頻段的不同進行不同的衰減或激勵處理,生成音質增強后的聲音信號;并對音質增強后的聲音信號進行自動增益處理。以此通過對聲音信號進行處理,以獲取到更優(yōu)質的聲音信號,提高用戶的使用體驗。
本領域技術人員可以理解附圖只是一個優(yōu)選實施場景的示意圖,附圖中的模塊或流程并不一定是實施本發(fā)明所必須的。
本領域技術人員可以理解實施場景中的裝置中的模塊可以按照實施場景描述進行分布于實施場景的裝置中,也可以進行相應變化位于不同于本實施場景的一個或多個裝置中。上述實施場景的模塊可以合并為一個模塊,也可以進一步拆分成多個子模塊。
上述本發(fā)明序號僅僅為了描述,不代表實施場景的優(yōu)劣。
以上公開的僅為本發(fā)明的幾個具體實施場景,但是,本發(fā)明并非局限于此,任何本領域的技術人員能思之的變化都應落入本發(fā)明的保護范圍。