一種基于麥克風(fēng)陣列的拾音方法及系統(tǒng)與流程

文檔序號(hào)：12476006閱讀：609來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及信號(hào)處理領(lǐng)域，尤其涉及一種基于麥克風(fēng)陣列的拾音方法及系統(tǒng)。

背景技術(shù)：

錄制高質(zhì)量的語音信號(hào)對(duì)語音識(shí)別等語音分析方法有著至關(guān)重要的作用。傳統(tǒng)采用單麥克風(fēng)錄音的方式在遠(yuǎn)距離高噪聲環(huán)境下錄音質(zhì)量急劇下降，這極大的限制了語音分析方法的應(yīng)用場(chǎng)景。因此手機(jī)上的語音輸入法和語音搜索等應(yīng)用必須保證說話人離手機(jī)話筒的距離足夠近，這種拾音環(huán)境都?xì)w為近場(chǎng)拾音。

使用麥克風(fēng)陣列錄音能夠利用多通道的語音信號(hào)數(shù)據(jù)進(jìn)行后期處理，從而抑制噪聲，增強(qiáng)目標(biāo)語音信號(hào)。所以在遠(yuǎn)場(chǎng)拾音中，麥克風(fēng)陣列成為必不可少的拾音設(shè)備。使用麥克風(fēng)陣列進(jìn)行拾音的一般步驟為：第一步，確定說話人的位置；第二步，利用波束形成技術(shù)對(duì)語音信號(hào)進(jìn)行增強(qiáng)。

然而上述方法在實(shí)際使用過程中存在以下問題：(1)并不是所有的時(shí)刻都有說話人在講話，同時(shí)并非所有時(shí)刻的語音都需要進(jìn)行拾取，這種情況在近場(chǎng)環(huán)境中通過按下開始錄音鍵可以輕松解決，但是在遠(yuǎn)場(chǎng)環(huán)境中卻不容易進(jìn)行處理；(2)當(dāng)有多個(gè)說話人的時(shí)候很難確定哪一個(gè)是需要拾音的說話人。

技術(shù)實(shí)現(xiàn)要素：

為了解決以上問題，本發(fā)明的目的在于提供一種基于麥克風(fēng)陣列的拾音方法及系統(tǒng)。

一種基于麥克風(fēng)陣列的拾音方法，其中，包括以下步驟：

步驟1，使用一麥克風(fēng)陣列拾取并輸出的多路語音信號(hào)中的其中一路語音

信號(hào)進(jìn)行語音激活檢測(cè)，判斷是否出現(xiàn)語音激活信號(hào)，如果是，執(zhí)行步驟

2，如果否，重復(fù)步驟1；

步驟2，利用所述麥克風(fēng)陣列輸出的多路語音信號(hào)進(jìn)行聲源定位，獲得聲源定位方向；

步驟3，對(duì)所述聲源定位方向的語音信號(hào)進(jìn)行語音增強(qiáng)，獲得增強(qiáng)過的語音信號(hào)；

步驟4，對(duì)所述增強(qiáng)過的語音信號(hào)進(jìn)行語音喚醒檢測(cè)，判斷是否檢測(cè)到語音喚醒，如果是，執(zhí)行步驟5，否則，重復(fù)步驟1；

步驟5，所述麥克風(fēng)陣列拾取并輸出多路語音信號(hào)；

步驟6，將所述麥克風(fēng)陣列拾取的多路語音信號(hào)處理為一路增強(qiáng)后的語音，作為最終所拾取到的音輸出。

本發(fā)明的基于麥克風(fēng)陣列的拾音方法，所述步驟5為：一指向所述聲源定位方向的拾音指示燈被點(diǎn)亮，同時(shí)所述麥克風(fēng)陣列拾取并輸出多路語音信號(hào)。

本發(fā)明的基于麥克風(fēng)陣列的拾音方法，所述步驟1的具體方法如下：

步驟11，自所述麥克風(fēng)陣列捕獲的多路語音信號(hào)中選取一路語音信號(hào)；

步驟12，檢測(cè)所述語音信號(hào)中說話者的語音起始點(diǎn)及語音結(jié)束點(diǎn)；

步驟13，依據(jù)所述語音起始點(diǎn)至所述語音結(jié)束點(diǎn)之間的信號(hào)判斷是否出現(xiàn)語音激活信號(hào)，如果是，執(zhí)行步驟2，否則，重復(fù)步驟1。

本發(fā)明的基于麥克風(fēng)陣列的拾音方法，所述步驟2中聲源定位的具體步驟為：

依據(jù)所述麥克風(fēng)陣列中的至少兩個(gè)麥克風(fēng)接收到的信號(hào)時(shí)間差獲取所述發(fā)聲聲源所在的位置作為聲源定位方向。

本發(fā)明的基于麥克風(fēng)陣列的拾音方法，所述步驟3中語音增強(qiáng)的具體步驟為：對(duì)所述聲源定位方向的語音信號(hào)進(jìn)行噪聲抑制，獲取一增強(qiáng)過的語音信號(hào)。

本發(fā)明的基于麥克風(fēng)陣列的拾音方法，所述步驟4的具體步驟為：將所述增強(qiáng)過的語音信號(hào)送入一語音喚醒模型，檢測(cè)所述增強(qiáng)過的語音信號(hào)中是否包含設(shè)定的喚醒詞，如果沒有，轉(zhuǎn)至步驟1，如果有，執(zhí)行步驟5。

本發(fā)明的基于麥克風(fēng)陣列的拾音方法，所述步驟6中，對(duì)所述拾音指示燈所指方向的語音進(jìn)行增強(qiáng)。

本發(fā)明的基于麥克風(fēng)陣列的拾音方法，所述步驟5之后執(zhí)行所述步驟6的同時(shí)，還包括依據(jù)所述步驟5獲取的多路語音信號(hào)執(zhí)行步驟1至步驟5。

本發(fā)明還提供一種基于麥克風(fēng)陣列的拾音系統(tǒng)，包括：

麥克風(fēng)陣列，包括多個(gè)麥克風(fēng)單元，多個(gè)所述麥克風(fēng)單元用于拾取并輸出多路語音信號(hào)；

語音激活單元，與所述麥克風(fēng)陣列連接，依據(jù)所述多路語音信號(hào)中的至少一路語音信號(hào)進(jìn)行語音激活檢測(cè)，輸出語音激活結(jié)果信號(hào)或語音未激活結(jié)果信號(hào)；

聲源定位單元，于一受所述語音激活結(jié)果信號(hào)控制下導(dǎo)通的第一受控開關(guān)作用下與所述麥克風(fēng)陣列連接，并依據(jù)所述多路語音信號(hào)進(jìn)行聲源定位確定聲源定位方向；

第一語音增強(qiáng)單元，與所述聲源定位單元連接，對(duì)所述聲源定位方向的語音信號(hào)進(jìn)行語音增強(qiáng)，獲得增強(qiáng)過的語音信號(hào)；

語音喚醒檢測(cè)單元，與所述第一語音增強(qiáng)單元連接，對(duì)所述增強(qiáng)過的語音信號(hào)進(jìn)行語音喚醒檢測(cè)，并輸出一語音喚醒結(jié)果信號(hào)或語音未喚醒結(jié)果信號(hào)；

第二語音增強(qiáng)單元，于一受所述語音喚醒結(jié)果信號(hào)控制下導(dǎo)通的第二受控開關(guān)作用下與所述麥克風(fēng)陣列連接，將所述麥克風(fēng)陣列的多路語音信號(hào)處理為一路增強(qiáng)后的語音，作為最終所拾取到的音輸出。

本發(fā)明的基于麥克風(fēng)陣列的拾音系統(tǒng)，所述麥克風(fēng)陣列為多顆麥克風(fēng)單元組成的平面環(huán)形結(jié)構(gòu)，多個(gè)拾音指示燈沿所述平面環(huán)形結(jié)構(gòu)的環(huán)繞方向設(shè)置，所述拾音指示燈用于指示所述聲源定位方向。

有益效果：本發(fā)明針對(duì)當(dāng)前語音識(shí)別技術(shù)在不同場(chǎng)景和不同需求下日益廣泛的應(yīng)用，提出了一種基于麥克風(fēng)陣列的拾音方法和系統(tǒng)，能夠更好地對(duì)遠(yuǎn)場(chǎng)環(huán)境下的語音信號(hào)進(jìn)行拾取，尤其在高噪聲環(huán)境下能夠準(zhǔn)確的拾音，為遠(yuǎn)距離的語音控制提供了優(yōu)秀的解決方案；同時(shí)本發(fā)明利用語音喚醒和語音檢測(cè)也能夠降低麥克風(fēng)陣列數(shù)據(jù)處理的計(jì)算量，從而減少能量損耗，既降低了能源的消耗，又能節(jié)約成本。

附圖說明

圖1為本發(fā)明的一種具體實(shí)施例的方法流程圖；

圖2是本發(fā)明的另一種具體實(shí)施例的方法流程圖；

圖3是本發(fā)明的系統(tǒng)結(jié)構(gòu)圖；

圖4是本發(fā)明的麥克風(fēng)陣列結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；诒景l(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。

需要說明的是，在不沖突的情況下，本發(fā)明中的實(shí)施例及實(shí)施例中的特征可以相互組合。

下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步說明，但不作為本發(fā)明的限定。

一種基于麥克風(fēng)陣列的拾音方法，其中，包括以下步驟：

步驟1，使用一麥克風(fēng)陣列拾取并輸出的多路語音信號(hào)中的其中一路語音

信號(hào)進(jìn)行語音激活檢測(cè)，判斷是否出現(xiàn)語音激活信號(hào)，如果是，執(zhí)行步驟

2，如果否，重復(fù)步驟1；

步驟2，利用麥克風(fēng)陣列輸出的多路語音信號(hào)進(jìn)行聲源定位，獲得聲源定位方向；

步驟3，對(duì)聲源定位方向的語音信號(hào)進(jìn)行語音增強(qiáng)，獲得增強(qiáng)過的語音信號(hào)；

步驟4，對(duì)增強(qiáng)過的語音信號(hào)進(jìn)行語音喚醒檢測(cè)，判斷是否檢測(cè)到語音喚醒，如果是，執(zhí)行步驟5，否則，重復(fù)步驟1；

步驟5，麥克風(fēng)陣列拾取并輸出多路語音信號(hào)；

步驟6，將麥克風(fēng)陣列拾取的多路語音信號(hào)處理為一路增強(qiáng)后的語音，作為最終所拾取到的音輸出。

本發(fā)明針對(duì)當(dāng)前語音識(shí)別技術(shù)在不同場(chǎng)景和不同需求下日益廣泛的應(yīng)用，通過語音喚醒來判斷開始拾音的方式，使設(shè)備進(jìn)入拾音狀態(tài)，進(jìn)而對(duì)說話人的語音進(jìn)行增強(qiáng)。能夠更好地對(duì)遠(yuǎn)場(chǎng)環(huán)境下的語音信號(hào)進(jìn)行拾取，尤其在高噪聲環(huán)境下能夠準(zhǔn)確的拾音。

作為本發(fā)明的一種優(yōu)選的實(shí)施例，步驟5為：一指向聲源定位方向的拾音指示燈被點(diǎn)亮，同時(shí)麥克風(fēng)陣列拾取并輸出多路語音信號(hào)。

拾音指示燈是語音交互的一種體現(xiàn)手段，用來提示用戶目前的拾音方向。在語音喚醒之后，拾音指示燈會(huì)指向聲源的方向，如果此方向是用戶的方向，那么用戶就可知道后續(xù)說的話將會(huì)被系統(tǒng)拾音，如果指示燈的方向不是用戶的方向，用戶也會(huì)明白自己的話不會(huì)被系統(tǒng)拾音，從而決定是否重新喚醒。

作為本發(fā)明的一種優(yōu)選實(shí)施例，步驟6中，對(duì)拾音指示燈所指方向的語音進(jìn)行增強(qiáng)。

這種交互方式通過提示即將拾音和進(jìn)行語音增強(qiáng)的方向，使得當(dāng)說話人看到拾音指示燈指向自己的時(shí)候，就知道此方向可以進(jìn)行拾音；如果指向了其它方向，或者沒有亮起，就需要重新使用喚醒詞進(jìn)行語音喚醒。這對(duì)設(shè)備的正確和高效的使用提供了一種簡(jiǎn)潔的引導(dǎo)。

本發(fā)明的基于麥克風(fēng)陣列的拾音方法，步驟1的具體方法如下：

步驟11，自麥克風(fēng)陣列捕獲的多路語音信號(hào)中選取一路語音信號(hào)；

步驟12，檢測(cè)語音信號(hào)中說話者的語音起始點(diǎn)及語音結(jié)束點(diǎn)；

步驟13，依據(jù)語音起始點(diǎn)至語音結(jié)束點(diǎn)之間的信號(hào)判斷是否出現(xiàn)語音激活信號(hào)，如果是，執(zhí)行步驟2，否則，重復(fù)步驟1。

上述的語音激活檢測(cè)步驟當(dāng)有人說話的時(shí)候，給出語音開始點(diǎn)，當(dāng)說話結(jié)束時(shí)，給出語音結(jié)束點(diǎn)。在整個(gè)流程中，只需麥克風(fēng)陣列的任意一路信號(hào)即可進(jìn)行語音激活檢測(cè)。語音激活檢測(cè)可以采用現(xiàn)有技術(shù)的語音激活檢測(cè)方法實(shí)現(xiàn)。

本發(fā)明的基于麥克風(fēng)陣列的拾音方法，步驟2中聲源定位的具體步驟為：依據(jù)麥克風(fēng)陣列中的至少兩個(gè)麥克風(fēng)接收到的信號(hào)時(shí)間差獲取發(fā)聲聲源所在的位置作為聲源定位方向。聲源定位方法可以采用波束形成技術(shù)實(shí)現(xiàn)。

本發(fā)明的基于麥克風(fēng)陣列的拾音方法，步驟3中語音增強(qiáng)的具體步驟為：對(duì)聲源定位方向的語音信號(hào)進(jìn)行噪聲抑制，獲取一增強(qiáng)過的語音信號(hào)。

利用麥克風(fēng)陣列進(jìn)行語音增強(qiáng)可以在聲源的方向上獲得更高信噪比的語音信號(hào)，達(dá)到語音增強(qiáng)的目的。從而有利于后續(xù)的處理。

本發(fā)明的基于麥克風(fēng)陣列的拾音方法，步驟4的具體步驟為：將增強(qiáng)過的語音信號(hào)送入一語音喚醒模型，檢測(cè)增強(qiáng)過的語音信號(hào)中是否包含設(shè)定的喚醒詞，如果沒有，轉(zhuǎn)至步驟1，如果有，執(zhí)行步驟5。

步驟4中通過檢測(cè)語音信號(hào)是否包含設(shè)定的喚醒詞，進(jìn)而決定是否進(jìn)入喚醒狀態(tài)，如果沒有喚醒，則系統(tǒng)不采取響應(yīng)，繼續(xù)進(jìn)行激活檢測(cè)來判斷有其他語音進(jìn)入。如果喚醒，就亮起拾音指示燈，進(jìn)入下一步驟。

一種優(yōu)選的實(shí)施例，步驟5之后執(zhí)行步驟6的同時(shí)，還包括依據(jù)步驟5獲取的多路語音信號(hào)執(zhí)行步驟1至步驟5。

在對(duì)拾音指示燈的方向進(jìn)行拾音的同時(shí)，麥克風(fēng)陣列會(huì)對(duì)所有方向的語音進(jìn)行持續(xù)錄制。這些數(shù)據(jù)一方面會(huì)進(jìn)入拾音數(shù)據(jù)流部分，得到最終的拾音；另一方面也會(huì)在喚醒數(shù)據(jù)流中進(jìn)行循環(huán)工作。這是為了保證其他方向上的用戶也說出了激活詞的情況，或者是拾音指示燈并沒有指向用戶方向的情況。這時(shí)如果喚醒成功，拾音指示燈會(huì)轉(zhuǎn)向新的聲源方向，繼而拾音數(shù)據(jù)流會(huì)在新的方向上拾音，同時(shí)喚醒數(shù)據(jù)流仍然在所有的方向上進(jìn)行持續(xù)的判斷。

該優(yōu)選的實(shí)施例下具體拾音流程為：使用麥克風(fēng)陣列的任意一路信號(hào)進(jìn)行語音激活檢測(cè)；當(dāng)檢測(cè)到語音激活信號(hào)之后，利用麥克風(fēng)陣列進(jìn)行聲源定位；根據(jù)聲源定位結(jié)果，對(duì)聲源定位方向的語音信號(hào)進(jìn)行語音增強(qiáng)；將增強(qiáng)過的語音信號(hào)送入到語音喚醒模型進(jìn)行語音喚醒檢測(cè)；當(dāng)檢測(cè)到語音喚醒后，拾音指示燈亮起，并指向聲源的方向；對(duì)指示燈的方向進(jìn)行語音增強(qiáng)，并進(jìn)行語音激活檢測(cè)，當(dāng)檢測(cè)到語音后，進(jìn)行拾音。最后，在進(jìn)行拾音的同時(shí)，仍然會(huì)檢測(cè)新方向的喚醒，一旦發(fā)現(xiàn)在新方向上有新的喚醒，那么拾音指示燈會(huì)指向新的喚醒方向，并一直重復(fù)此步驟。

本發(fā)明還提供一種基于麥克風(fēng)陣列的拾音系統(tǒng)，參照?qǐng)D3，包括：

麥克風(fēng)陣列，包括多個(gè)麥克風(fēng)單元，多個(gè)麥克風(fēng)單元用于拾取并輸出多路語音信號(hào)；

語音激活單元11，與麥克風(fēng)陣列連接，依據(jù)多路語音信號(hào)中的至少一路語音信號(hào)進(jìn)行語音激活檢測(cè)，輸出語音激活結(jié)果信號(hào)或語音未激活結(jié)果信號(hào)；

聲源定位單元12，于一受語音激活結(jié)果信號(hào)控制下導(dǎo)通的第一受控開關(guān)SK1作用下與麥克風(fēng)陣列連接，并依據(jù)多路語音信號(hào)進(jìn)行聲源定位確定聲源定位方向；

第一語音增強(qiáng)單元13，與聲源定位單元12連接，對(duì)聲源定位方向的語音信號(hào)進(jìn)行語音增強(qiáng)，獲得增強(qiáng)過的語音信號(hào)；

語音喚醒檢測(cè)單元14，與第一語音增強(qiáng)單元13連接，對(duì)增強(qiáng)過的語音信號(hào)進(jìn)行語音喚醒檢測(cè)，并輸出一語音喚醒結(jié)果信號(hào)或語音未喚醒結(jié)果信號(hào)；

第二語音增強(qiáng)單元15，于一受語音喚醒結(jié)果信號(hào)控制下導(dǎo)通的第二受控開關(guān)SK2作用下與麥克風(fēng)陣列連接，將麥克風(fēng)陣列的多路語音信號(hào)處理為一路增強(qiáng)后的單路語音信號(hào)，作為最終所拾取到的音輸出。

參照?qǐng)D3，整個(gè)拾音流程中，共有2個(gè)數(shù)據(jù)流。一個(gè)是喚醒數(shù)據(jù)流，一個(gè)是拾音數(shù)據(jù)流。喚醒數(shù)據(jù)流時(shí)時(shí)刻刻都在運(yùn)行，但并不是所有的時(shí)刻這些模塊都在工作，只有語音激活模塊檢測(cè)到語音激活，圖3中的第一受控開關(guān)SK1打開，數(shù)據(jù)才會(huì)向后流入到聲源定位單元12、第一語音增強(qiáng)單元13和語音喚醒檢測(cè)單元14，而通常大部分時(shí)刻聲源定位單元12、第一語音增強(qiáng)單元13和語音喚醒檢測(cè)單元14這三個(gè)模塊是不工作的，這樣會(huì)更加節(jié)省資源。

當(dāng)語音喚醒時(shí)，拾音指示燈亮起，并指向拾音的方向。這時(shí)圖3中的第二受控開關(guān)SK2打開，拾音數(shù)據(jù)流開始工作。當(dāng)語音喚醒再次給出信號(hào)時(shí)，拾音指示燈指向新的方向，在新的方向進(jìn)行拾音。直到拾音數(shù)據(jù)流沒有語音時(shí)，拾音數(shù)據(jù)流關(guān)閉。

本發(fā)明的基于麥克風(fēng)陣列的拾音系統(tǒng)，麥克風(fēng)陣列可以為多顆麥克風(fēng)單元組成的平面環(huán)形結(jié)構(gòu)，參照?qǐng)D4，該麥克風(fēng)陣列中共包含8顆麥克風(fēng)單元，8顆麥克風(fēng)單元呈對(duì)稱結(jié)構(gòu)，使得對(duì)各個(gè)方向的信號(hào)都能同等的對(duì)待和處理。多個(gè)拾音指示燈沿平面環(huán)形結(jié)構(gòu)的環(huán)繞方向設(shè)置，可以指向平面的各個(gè)方向，用于指示所述聲源定位方向。

以上僅為本發(fā)明較佳的實(shí)施例，并非因此限制本發(fā)明的實(shí)施方式及保護(hù)范圍，對(duì)于本領(lǐng)域技術(shù)人員而言，應(yīng)當(dāng)能夠意識(shí)到凡運(yùn)用本發(fā)明說明書及圖示內(nèi)容所作出的等同替換和顯而易見的變化所得到的方案，均應(yīng)當(dāng)包含在本發(fā)明的保護(hù)范圍內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：范利春;朱磊;高鵬
技術(shù)所有人：芋頭科技（杭州）有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

遠(yuǎn)距離拾音麥克風(fēng)相關(guān)技術(shù)

麥克風(fēng)拾音相關(guān)技術(shù)

麥克風(fēng)拾音距離相關(guān)技術(shù)

拾音系統(tǒng)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于麥克風(fēng)陣列的拾音方法及系統(tǒng)與流程