本發(fā)明涉及電子通信技術(shù)領(lǐng)域,具體涉及一種獲取人聲的智能系統(tǒng)及基于該系統(tǒng)的獲取方法。
背景技術(shù):
在無線通信網(wǎng)絡(luò)中,移動終端以無線方式與無線通信網(wǎng)絡(luò)建立連接,并接入到網(wǎng)絡(luò)中,進行視頻會話、即時通信、網(wǎng)頁瀏覽以及移動廣告推送等業(yè)務(wù)。為了提高用戶使用上述移動業(yè)務(wù)時的現(xiàn)場溝通體驗,可以在現(xiàn)有移動通信業(yè)務(wù)的基礎(chǔ)上引入機器人代理業(yè)務(wù)。機器人面臨著的世界是一個可以提供復(fù)雜信息多變的世界,要使得機器人為人類服務(wù)就需要它對各種應(yīng)用環(huán)境都具有相應(yīng)的信息獲取方式和處理方法,同時還需要它可以根據(jù)環(huán)境的變化做出不同的決策,而機器人一般是通過傳感器來輸入外部環(huán)境信息。由于傳統(tǒng)機器人每次都要依靠人的雙手來操作機器的的開關(guān),大大增加了機器必須依靠人的雙手才能被喚醒的依賴性,不利于人雙手的解放和機器的智能化。
現(xiàn)有技術(shù)中,基于麥克風(fēng)陣列的研究和應(yīng)用是當(dāng)前語音信號處理的一個新領(lǐng)域。在語音識別、語音控制、語音合成等語音信號處理領(lǐng)域中麥克風(fēng)接收到的語音信號受到環(huán)境噪聲和干擾的影響很大,嚴重影響了語音信號的處理質(zhì)量,一般的基于單麥克風(fēng)的語音增強系統(tǒng)難以獲得較好的增強效果。在實際復(fù)雜的聲學(xué)環(huán)境下,麥克風(fēng)拾取的語音信號不可避免地會受到房間混響、噪聲以及其他說話人的干擾,即麥克風(fēng)接收信號為帶噪語音,這樣不僅影響語音質(zhì)量,還會使許多語音處理系統(tǒng)的性能急劇惡化。因此,需要對麥克風(fēng)拾取的語音信號進行有效的噪聲抑制,減小干擾因素對語音信號的影響,以增強語音信號質(zhì)量,有效地改善語音處理系統(tǒng)的性能。在環(huán)境的背景噪聲小、說話人離麥克風(fēng)的距離較近、以及不能在設(shè)備同時發(fā)出聲音的同時獲取人聲等,此外不能夠根據(jù)拾取到的人聲確定說話人的方位。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的上述缺陷,解決復(fù)雜場景下的人聲獲取,包括遠距離、背景嘈雜、人聲干擾、聲音獲取質(zhì)量不高的問題,提供一種基于麥克風(fēng)陣列的人聲獲取方法,解決以上技術(shù)問題;
一種基于麥克風(fēng)陣列的人聲獲取方法,包括以下步驟:
步驟A,陣列麥克風(fēng)不斷偵測聲源,偵測是否有語音信號;
步驟B,提取偵測的語音信號中的關(guān)鍵詞
步驟C,將所述關(guān)鍵詞與數(shù)據(jù)庫中保存的開啟詞語進行匹配;
步驟D,若匹配成功,則發(fā)送喚醒指令,智能設(shè)備進入開啟狀態(tài),定位所述語音信號的方位;
步驟E,將所述語音信號發(fā)送至濾波模塊進行過濾;
步驟F,將濾除后的語音信號發(fā)送至智能設(shè)備的控制模塊。
上述的基于麥克風(fēng)陣列的人聲獲取方法,所述步驟A之前包括步驟A1,建立聲音識別數(shù)據(jù)庫。
上述的基于麥克風(fēng)陣列的人聲獲取方法,所述步驟E包括:
步驟E1,對接收到的語音信號進行頻域補償;
步驟E2,對頻域補償后的語音信號進行空域自適應(yīng)濾波,旨在使麥克風(fēng)接收指定方向的信號,抑制來自其它方向的干擾;
步驟E3,對濾波后的語音信號采用自適應(yīng)濾波方法濾除自身發(fā)出的聲音。
上述的基于麥克風(fēng)陣列的人聲獲取方法,所述步驟C包括步驟C1,若匹配不成功,則智能設(shè)備保持之前狀態(tài)。
上述的基于麥克風(fēng)陣列的人聲獲取方法,所述步驟D包括:
步驟D1,將喚醒指令發(fā)送給智能設(shè)備的控制模塊;
步驟D2,所述控制模塊控制智能設(shè)備定位語音信號方向并進入待命狀態(tài)。
上述的基于麥克風(fēng)陣列的人聲獲取方法,所述步驟D中,判斷模塊通過串口將喚醒指令發(fā)送給所述控制模塊。
本發(fā)明的目的還在于能夠有效提高了用戶與機器的可交互性及交互體驗性,提高了使用的便捷性,增加了人機互動的樂趣,提供一種獲取人聲的智能設(shè)備,解決以上技術(shù)問題。
本發(fā)明所解決的技術(shù)問題可以采用以下技術(shù)方案來實現(xiàn):一種獲取人聲的智能設(shè)備,包括基座和麥克風(fēng)陣列信號處理板,所述麥克風(fēng)陣列信號處理板位于所述基座上方,所述基座上設(shè)有控制模塊、判斷模塊和語音接收模塊,所述麥克風(fēng)陣列信號處理板上設(shè)有濾波模塊和麥克風(fēng)陣列接收模塊:
所述控制模塊,用于接收其他模塊發(fā)來的信息,并根據(jù)需要將收到的所述信息轉(zhuǎn)給其他模塊處理;
所述語音接收模塊與所述判斷模塊的輸入端信號連接,用于偵測語音信號;
所述判斷模塊,信號連接所述控制模塊,用于判斷偵測得到的關(guān)鍵詞與數(shù)據(jù)庫中的開啟詞是否匹配;
所述濾波模塊的輸出端與所述控制模塊的輸入端信號連接,用于將偵測得到的語音信號進行過濾;
所述麥克風(fēng)陣列接收模塊,用于分析出接收到語音信號音源的方向以及其變化。
上述的一種獲取人聲的智能設(shè)備,所述濾波模塊包括:
補償模塊,信號連接所述判斷模塊,用于頻域補償;
自適應(yīng)濾波模塊,信號連接所述補償模塊,用于經(jīng)過空域自適應(yīng)濾波方法使所述語音接收模塊3接收指定方向的信號,從而抑制來自其它方向的干擾;
頻域濾波模塊,信號連接所述自適應(yīng)濾波模塊,用于將接收到的信號采用頻域分塊濾波和最小均方誤差準則自適應(yīng)濾波方法濾除自身發(fā)出的聲音。
上述的一種獲取人聲的智能設(shè)備,所述控制模塊與所述濾波模塊的發(fā)送單元通過異步收發(fā)傳輸器連接所述控制模塊。
上述的一種獲取人聲的智能設(shè)備,所述語音接收模塊3包括360°全向音響。
有益效果:由于采用以上技術(shù)方案,本發(fā)明這種獲取人聲的智能系統(tǒng)及基于該系統(tǒng)的獲取方法通過通過利用聲源定位對實際說話者的聲源進行定位,通過分析計算不同聲源的坐標得到實際說話者的俯仰角、方位角信息,鑒分量結(jié)構(gòu),利用部分自適應(yīng)技術(shù),保證了去噪性能,有效地抑制非相干噪聲和相干噪聲,解決復(fù)雜場景下的人聲獲取,包括遠距離、背景嘈雜、人聲干擾、聲音獲取質(zhì)量不高的問題,增加了人機的互動性,大大的提高了用戶與機器的可交互性及交互體驗性。
附圖說明
圖1為本發(fā)明實施例中的一種基于麥克風(fēng)陣列的人聲獲取方法的工作流程圖;
圖2為本發(fā)明實施例中的一種獲取人聲的智能設(shè)備的結(jié)構(gòu)示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
需要說明的是,在不沖突的情況下,本發(fā)明中的實施例及實施例中的特征可以相互組合。
下面結(jié)合附圖和具體實施例對本發(fā)明作進一步說明,但不作為本發(fā)明的限定。
參照圖1,一種基于麥克風(fēng)陣列的人聲獲取方法,包括以下步驟:
步驟A,陣列麥克風(fēng)不斷偵測聲源,偵測是否有語音信號;
步驟B,提取偵測的語音信號中的關(guān)鍵詞
步驟C,將關(guān)鍵詞與數(shù)據(jù)庫中保存的開啟詞語進行匹配;
步驟D,若匹配成功,則發(fā)送喚醒指令,智能設(shè)備進入開啟狀態(tài),定位語音信號的方位;
步驟E,將語音信號發(fā)送至濾波模塊進行過濾;
步驟F,將濾除后的語音信號發(fā)送至智能設(shè)備的控制模塊。
進一步地,本發(fā)明一種基于麥克風(fēng)陣列的人聲獲取方法的較佳的實施例中,步驟A之前包括步驟A1,建立聲音識別數(shù)據(jù)庫。用戶在輸入語音信號之前,需要對該機器人進行初始化,用戶可對該機器人說:“數(shù)據(jù)存儲”,智能設(shè)備進入建立聲音識別數(shù)據(jù)庫界面,提示用戶開始語音輸入開啟詞。
進一步地,本發(fā)明一種基于麥克風(fēng)陣列的人聲獲取方法的較佳的實施例中,步驟E包括:
步驟E1,對接收到的語音信號進行頻域補償;
步驟E2,對頻域補償后的語音信號進行空域自適應(yīng)濾波,旨在使麥克風(fēng)接收指定方向的信號,抑制來自其它方向的干擾;
步驟E3,對濾波后的語音信號采用自適應(yīng)濾波方法濾除自身發(fā)出的聲音,即
對接收到的信號采用頻域分塊濾波和最小均方誤差準則自適應(yīng)濾波方法濾除自身發(fā)出的任何聲音。
進一步地,本發(fā)明一種基于麥克風(fēng)陣列的人聲獲取方法的較佳的實施例中,步驟C包括步驟C1,若匹配不成功,則智能設(shè)備保持之前狀態(tài)。
進一步地,本發(fā)明一種基于麥克風(fēng)陣列的人聲獲取方法的較佳的實施例中,步驟D包括:
步驟D1,將喚醒指令發(fā)送給智能設(shè)備的控制模塊;
步驟D2,控制模塊控制智能設(shè)備定位語音信號方向并進入待命狀態(tài)。
進一步地,本發(fā)明一種基于麥克風(fēng)陣列的人聲獲取方法的較佳的實施例中,步驟D中,判斷模塊通過串口將喚醒指令發(fā)送給控制模塊。智能設(shè)備的判斷模塊通過串口與控制模塊連接。使用者通過語音接收模塊輸入語音信號;將語音信號內(nèi)的關(guān)鍵詞該與數(shù)據(jù)庫中保存的開啟詞進行匹配,若存在該關(guān)鍵詞,則控制模塊將語音信號發(fā)送至濾波模塊進行過濾,將濾除后的語音信號發(fā)送至智能設(shè)備的控制模塊,智能設(shè)備進入待命狀態(tài)。
參照圖2,一種獲取人聲的智能設(shè)備,包括基座和麥克風(fēng)陣列信號處理板,麥克風(fēng)陣列信號處理板位于基座上方,基座上設(shè)有控制模塊1、判斷模塊2和語音接收模塊3,麥克風(fēng)陣列信號處理板上設(shè)有濾波模塊4和麥克風(fēng)陣列接收模塊5:
控制模塊1,用于接收其他模塊發(fā)來的信息,并根據(jù)需要將收到的信息轉(zhuǎn)給其他模塊處理;語音接收模塊3與判斷模塊2的輸入端信號連接,用于偵測語音信號;
判斷模塊2,信號連接控制模塊1,用于判斷偵測得到的關(guān)鍵詞與數(shù)據(jù)庫中的開啟詞是否匹配;
濾波模塊4的輸出端與控制模塊1的輸入端信號連接,用于將偵測得到的語音信號進行過濾;
麥克風(fēng)陣列接收模塊5,用于分析出接收到語音信號音源的方向以及其變化。
麥克風(fēng)陣列信號處理板設(shè)有通孔,且麥克風(fēng)陣列信號處理板上端環(huán)形分部包括至少6個麥克風(fēng)陣列接收模塊5。
進一步地,本發(fā)明一種獲取人聲的智能設(shè)備的較佳的實施例中,濾波模塊4包括:
補償模塊41,信號連接判斷模塊2,用于頻域補償;
自適應(yīng)濾波模塊42,信號連接補償模塊41,用于經(jīng)過空域自適應(yīng)濾波方法使語音接收模塊3接收指定方向的信號,從而抑制來自其它方向的干擾;
頻域濾波模塊43,信號連接自適應(yīng)濾波模塊42,用于將接收到的信號采用頻域分塊濾波和最小均方誤差準則自適應(yīng)濾波方法濾除自身發(fā)出的聲音。
通過自適應(yīng)濾波的語音信號來自于麥克風(fēng)陣列接收模塊5。
進一步地,本發(fā)明一種獲取人聲的智能設(shè)備的較佳的實施例中,控制模塊1與濾波模塊4的發(fā)送單元通過異步收發(fā)傳輸器連接控制模塊1。
進一步地,本發(fā)明一種獲取人聲的智能設(shè)備的較佳的實施例中,語音接收模塊3包括360°全向音響。
本發(fā)明這種獲取人聲的智能系統(tǒng)及基于該系統(tǒng)的獲取方法通過通過利用聲源定位對實際說話者的聲源進行定位,通過分析計算不同聲源的坐標得到實際說話者的俯仰角、方位角信息,鑒分量結(jié)構(gòu),利用部分自適應(yīng)技術(shù),保證了去噪性能,有效地抑制非相干噪聲和相干噪聲,解決復(fù)雜場景下的人聲獲取,包括遠距離、背景嘈雜、人聲干擾、聲音獲取質(zhì)量不高的問題,能夠?qū)掝l帶內(nèi)的噪聲進行有效抑制的同時并很好的保證語音質(zhì)量,提高全頻帶的信噪比,增加了人機的互動性,大大的提高了用戶與機器的可交互性及交互體驗性。
以上所述僅為本發(fā)明較佳的實施例,并非因此限制本發(fā)明的實施方式及保護范圍,對于本領(lǐng)域技術(shù)人員而言,應(yīng)當(dāng)能夠意識到凡運用本發(fā)明說明書及圖示內(nèi)容所作出的等同替換和顯而易見的變化所得到的方案,均應(yīng)當(dāng)包含在本發(fā)明的保護范圍內(nèi)。