一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法
【專利摘要】一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法,涉及聲音場景的分類識別技術,為了解決在聲音環(huán)境識別中由于聲音環(huán)境結構復雜、易混淆、聲學特征不確定和維度高所造成的提取有效特征、建立統(tǒng)計模型困難,導致識別性能差的問題。本發(fā)明提出了噪聲最小統(tǒng)計量特征的提取、建模以及識別方法:在特征提取與建模階段,分別對聲音信號的能量譜進行頻域平滑和時域平滑并追蹤其最小統(tǒng)計量,將最小統(tǒng)計量轉換到對數(shù)域進行標準化和降維處理,從而提取出聲音環(huán)境的噪聲最小統(tǒng)計量特征,并采用高斯混合模型對噪聲最小統(tǒng)計量建模;在識別階段,對輸入聲音進行特征提取,計算所提取出的最小統(tǒng)計量特征在每個模型下的似然值,并依據(jù)此似然值進行類別決策。
【專利說明】一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法
【技術領域】
[0001]本發(fā)明涉及聲音場景的分類識別技術,屬于智能信息處理領域,具體是一種基于聲音環(huán)境的背景噪聲特點來對不同的聲音環(huán)境進行建模與識別的方法。
【背景技術】
[0002]隨著計算技術、通訊技術及網(wǎng)絡技術的迅猛發(fā)展,各種各樣的智能化設備不斷涌現(xiàn),研究智能人機交互在現(xiàn)實生活中變得越來越重要。聲音是人們能夠獲取的最重要的信息之一,開展聲音感知技術的研究無疑可以幫助用戶有效地利用聲音信息并提供相關服務。因此,近年來聲音感知技術的研究受到學術界的廣泛重視。聲音感知的目標是使計算機能夠感知人類聽覺系統(tǒng)所能夠關注和理解的那些聲音,其研究對象是非語音的聲音。與人類的語音相似,非語音的聲音也能傳遞有用信息。在特定環(huán)境中人的活動通常伴隨產(chǎn)生種類豐富的聲音事件,這些聲學事件可能由人們的身體直接產(chǎn)生也可能由人們所操縱的器物產(chǎn)生,即這些聲音事件在一定程度上反映了人們的活動情況以及周圍的環(huán)境狀況。因此,研究特定環(huán)境下的聲音事件有助于掌握人們的行為活動和環(huán)境狀態(tài),以提供相關的智能服務或安全預警,從而使聲音信息能夠更有效地為智能信息系統(tǒng)提供決策輔助或直接用于智能決策。
[0003]然而,我們所處的聲音環(huán)境具有極其豐富的聲音事件,試圖為每種聲學事件建模并識別是不現(xiàn)實的,也是計算上不可行的。因此,獲取聲音環(huán)境的先驗知識對聲音事件的檢測與識別就顯得格外重要了。每種聲音環(huán)境下都含有較為特定的一些聲音事件,如辦公室的聲音環(huán)境下較為可能出的聲音事件是鍵盤聲、腳步聲、椅子聲、人的說話聲、掌聲等,而不太可能出現(xiàn)汽車鳴笛聲、動物叫聲、歡呼聲等??梢?,聲音環(huán)境的先驗知識有助于縮小聲學事件的數(shù)量、提高檢測精度、減少計算代價。此外,為實現(xiàn)對與日俱增的數(shù)字音頻數(shù)據(jù)的智能檢索,也需要對數(shù)字音頻文件按照其聲音環(huán)境識別的結果進行有效地自動分割。
[0004]聲音環(huán)境識別就是僅依賴特定環(huán)境中的聲音信息對環(huán)境進行識別的一種技術。例如:依賴采集到的聲音信號來識別當前環(huán)境是街道、辦公室、高速公路還是餐館等。聲音環(huán)境識別存在著如下困難:1)聲音環(huán)境存在著較強的結構復雜性,多種聲音相互交織混疊在一起;2)聲音環(huán)境存在著較強的混淆性,相同的聲音可以出現(xiàn)在不同的聲音環(huán)境中;3)聲音環(huán)境中的聲音存在著較大的不確定性,很難確定某個聲音環(huán)境就必然出現(xiàn)某種聲音或何時出時,難于描述其穩(wěn)定的聲學性質;4)聲學特征通常具有較高的維度,使得難于利用這些特征進行建模。這些困難使得聲音環(huán)境難于進行特征提取與建模,并直接導致其識別精度較差。顯然,缺少能夠標識聲音環(huán)境的魯棒特征是導致這一問題的主要原因。因此,如果所提取的聲學特征能夠克服聲音環(huán)境的結構復雜、易混淆、聲學特征不確定和維度高等問題的影響,則有助于是提高聲音環(huán)境的識別性能。
[0005]本發(fā)明針對聲音的環(huán)境識別問題,提出了一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法,可以實現(xiàn)對復雜聲音環(huán)境的魯棒識別。
【發(fā)明內(nèi)容】
[0006]要解決的技術問題
[0007]本發(fā)明為了解決在聲音環(huán)境識別中由于聲音環(huán)境結構復雜、易混淆、聲學特征不確定和維度高所造成的提取有效特征、建立統(tǒng)計模型困難、特征魯棒性差,從而導致識別性能差的問題。
[0008]本發(fā)明為解決上述技術問題采取的技術方案是:
[0009]一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法,它由以下步驟實現(xiàn):
[0010]步驟一、將采集的聲音信號進行短時傅里葉變換得到信號的能量譜,而后對能量譜系數(shù)分別進行頻域平滑和時域平滑,對平滑后的結果進行最小統(tǒng)計量追蹤,提取出最小統(tǒng)計量并將其映射到對數(shù)域后進行標準化;
[0011]步驟二、將在訓練數(shù)據(jù)上使用步驟一所得到的標準化后的最小統(tǒng)計量進行特征值分解,提取前K個重要基向量Uk ;將標準化后的最小統(tǒng)計量投影到K個重要基向量Uk上得到降維后的特征,完成特征提取過程;將重要基向量Uk進行存儲以用于聲音環(huán)境識別步驟四中;
[0012]步驟三、依據(jù)步驟二中所得到的訓練數(shù)據(jù)降維后的最小統(tǒng)計量特征,采用高斯混合模型分別對每類環(huán)境聲音進行建模,得到高斯混合模型(GMM)并將其進行存儲以用于聲音環(huán)境識別步驟四中;
[0013]步驟四、利用步驟一對所采集的聲音信號提取標準化后的最小噪聲統(tǒng)計量特征,利用步驟二所得到的重要基向量Uk對其進行降維,完成對采集聲音信號的特征提?。辉倮貌襟E三所得到的高斯混合模型(GMM)進行聲音環(huán)境識別。
[0014]步驟一中提取聲音信號最小統(tǒng)計量的方法為:
[0015]步驟一(I)、對采集的聲音信號進行短時傅里葉變換:
[0016]
【權利要求】
1.一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法,其特征在于它由以下步驟實現(xiàn): 步驟一、將采集的聲音信號進行短時傅里葉變換得到信號的能量譜,而后對能量譜系數(shù)分別進行頻域平滑和時域平滑,對平滑后的結果進行最小統(tǒng)計量追蹤,提取出最小統(tǒng)計量并將其映射到對數(shù)域后進行標準化; 步驟二、將在訓練數(shù)據(jù)上使用步驟一所得到的標準化后的最小統(tǒng)計量進行特征值分解,提取前K個重要基向量Uk ;將標準化后的最小統(tǒng)計量投影到K個重要基向量Uk上得到降維后的特征,完成特征提取過程;將重要基向量Uk進行存儲以用于聲音環(huán)境識別步驟四中; 步驟三、依據(jù)步驟二中所得到的訓練數(shù)據(jù)降維后的最小統(tǒng)計量特征,采用高斯混合模型分別對每類環(huán)境聲音進行建模,得到高斯混合模型(GMM)并將其進行存儲以用于聲音環(huán)境識別步驟四中; 步驟四、利用步驟一對所采集的聲音信號提取標準化后的最小噪聲統(tǒng)計量特征,利用步驟二所得到的重要基向量Uk對其進行降維,完成對采集聲音信號的特征提??;再利用步驟三所得到的高斯混合模型(GMM)進行聲音環(huán)境識別。
2.根據(jù)權利要求1所述的一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法,其特征在于,步驟一中提取聲音信號最小統(tǒng)計量的方法為: 步驟一(I)、對采集的聲音信號進行短時傅里葉變換:
3.根據(jù)權利要求1所述的一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法,其特征在于,步驟一中最小統(tǒng)計量在對數(shù)域的標準化方法為:將每幀信號的最小統(tǒng)計量視為列向量:
4.根據(jù)權利要求1、2或3所述的一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法,其特征在于,步驟二中提取前K個重要基向量的方法為: 將標準化后最小統(tǒng)計量數(shù)據(jù)組織成矩陣的形式:X=[Xl,…,xJT,此矩陣的自相關矩陣為:C=XTX ;對自相關矩陣C進行特征值分解:
C=U A Ut 其中:U為基向量矩陣,Λ為一對角陣,SP A=diag(A1,…,λΜ),其中Ai為第i個特征值且滿足A1SO;提取前K個基向量作為Uk,并將標準化的最小統(tǒng)計量投向此子空間,以獲得降維特征:
5.根據(jù)權利要求1、2或3所述的一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法,其特征在于,步驟三中為每類環(huán)境聲音的建模方法為: 將每類訓練數(shù)據(jù)降維后的最小統(tǒng)計量特征分別采用高斯混合模型進行建模:
6.根據(jù)權利要求4所述的一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法,其特征在于,步驟三中為每類環(huán)境聲音的建模方法為: 將每類訓練數(shù)據(jù)降維后的最小統(tǒng)計量特征分別采用高斯混合模型進行建模:
7.根據(jù)權利要求1、2、3或6所述的一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法,其特征在于,步驟四的具體實現(xiàn)過程為: 步驟四(I)、對輸入聲音信號進行適時傅里葉變換、時頻平滑提取在對數(shù)域上標準化后的最小統(tǒng)計量; 步驟四(2)、將最小統(tǒng)計量投影到已存儲的基向量上Uk,獲得降維后的特征; 步驟四(3)、將所得到的特征輸入到每類的高斯混合模型中,并計算其似然值; 步驟四(4)、依據(jù)每個模型的輸出似然值,選取具有最大似然值的類別作為最終識別結果ο
8.根據(jù)權利要求4所述的一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法,其特征在于,步驟四的具體實現(xiàn)過程為: 步驟四(I)、對輸入聲音信號進行適時傅里葉變換、時頻平滑提取在對數(shù)域上標準化后的最小統(tǒng)計量; 步驟四(2)、將最小統(tǒng)計量投影到已存儲的基向量上Uk,獲得降維后的特征; 步驟四(3)、將所得到的特征輸入到每類的高斯混合模型中,并計算其似然值; 步驟四(4)、依據(jù)每個模型的輸出似然值,選取具有最大似然值的類別作為最終識別結果O
9.根據(jù)權利要求5所述的一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法,其特征在于,步驟四的具體實現(xiàn)過程為: 步驟四(I)、對輸入聲音信號進行適時傅里葉變換、時頻平滑提取在對數(shù)域上標準化后的最小統(tǒng)計量; 步驟四(2)、將最小統(tǒng)計量投影到已存儲的基向量上Uk,獲得降維后的特征; 步驟四(3)、將所得到的特 征輸入到每類的高斯混合模型中,并計算其似然值; 步驟四(4)、依據(jù)每個模型的輸出似然值,選取具有最大似然值的類別作為最終識別結果O
【文檔編號】G10L15/06GK103544953SQ201310507384
【公開日】2014年1月29日 申請日期:2013年10月24日 優(yōu)先權日:2013年10月24日
【發(fā)明者】鄧世文 申請人:哈爾濱師范大學