一種基于i-vector說(shuō)話(huà)人識(shí)別的聲源定位方法

文檔序號(hào)：10652767閱讀：579來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>測(cè)量裝置的制造及其應(yīng)用技術(shù)

一種基于i-vector說(shuō)話(huà)人識(shí)別的聲源定位方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于i?vector說(shuō)話(huà)人識(shí)別的聲源定位方法，該方法通過(guò)引入鑒別互相關(guān)函數(shù)的特征，得到鑒別互相關(guān)函數(shù)，將此特征分為訓(xùn)練集合測(cè)試集，對(duì)i?vector說(shuō)話(huà)人識(shí)別系統(tǒng)中的模型進(jìn)行訓(xùn)練和測(cè)試，采用最大期望算法實(shí)現(xiàn)對(duì)開(kāi)發(fā)集i?vector向量分布概率函數(shù)的最大似然估計(jì)，建立起一個(gè)受語(yǔ)音時(shí)長(zhǎng)約束的PLDA模型，能夠準(zhǔn)確地進(jìn)行語(yǔ)音識(shí)別以及聲源定位，這種算法的實(shí)現(xiàn)，有效地解決了傳統(tǒng)聲源定位中噪聲和混響的問(wèn)題。
【專(zhuān)利說(shuō)明】
-種基于i-vector說(shuō)話(huà)人識(shí)別的聲源定位方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及一種基于i-vector說(shuō)話(huà)人識(shí)別的聲源定位方法，屬于互聯(lián)網(wǎng)信息技術(shù) 領(lǐng)域。
【背景技術(shù)】
[0002] 說(shuō)話(huà)人識(shí)別作為生物認(rèn)證技術(shù)的一種，是根據(jù)應(yīng)用語(yǔ)音波形中反映說(shuō)話(huà)人生理和行為特征語(yǔ)音參數(shù)，自動(dòng)鑒別說(shuō)話(huà)人身份的一種技術(shù)。說(shuō)話(huà)人識(shí)別是一種自動(dòng)識(shí)別說(shuō)話(huà)人的過(guò)程，它是人體個(gè)性特征識(shí)別中的重要分支，它是根據(jù)語(yǔ)音波形中反映說(shuō)話(huà)人生理和行為特征的語(yǔ)音參數(shù)自動(dòng)識(shí)別說(shuō)話(huà)人身份的技術(shù)。隨著信息技術(shù)的不斷發(fā)展，與其他生物識(shí) 別技術(shù)相比，說(shuō)話(huà)人識(shí)別有著更為簡(jiǎn)便，經(jīng)濟(jì)及可擴(kuò)展性良好等優(yōu)勢(shì)，可廣泛應(yīng)用于數(shù)據(jù)庫(kù) 訪(fǎng)問(wèn)、安全驗(yàn)證、電話(huà)銀行、計(jì)算機(jī)遠(yuǎn)程登錄等領(lǐng)域。說(shuō)話(huà)人識(shí)別技術(shù)作為一項(xiàng)重要的生物特征身份鑒定技術(shù)，有著廣泛的應(yīng)用前景，國(guó)內(nèi)外許多研究者都投身到了運(yùn)一領(lǐng)域的研究中。近幾年來(lái)，W身份認(rèn)證矢量i-vector為基礎(chǔ)的說(shuō)話(huà)人建模技術(shù)取得了非常大的成功，使得說(shuō)話(huà)人識(shí)別系統(tǒng)的性能有了很大的提升?；谏矸菡J(rèn)證矢量（identity vector，i- vector)的子空間建模被證明是目前最前沿最有效的說(shuō)話(huà)人建模技術(shù)。
[0003] 隨著計(jì)算機(jī)技術(shù)與信息產(chǎn)業(yè)的迅猛發(fā)展，聲源定位已經(jīng)成為當(dāng)前研究的一個(gè)熱點(diǎn)。確定一個(gè)聲源在空間中的位置是一項(xiàng)很有廣闊應(yīng)用前景的研究，可廣泛應(yīng)用于社會(huì)生產(chǎn)和生活的各個(gè)方面。聲源定位是通過(guò)測(cè)量物體發(fā)出的聲音對(duì)物體定位，與使用聲納、雷達(dá)、無(wú)線(xiàn)通訊的定位方法不同，前者信號(hào)是普通的聲音，是寬帶信號(hào)，而后者信源是窄帶信號(hào)。根據(jù)聲音信號(hào)的特點(diǎn)，人們提出了不同的聲源定位算法，但由于噪聲和混響的存在，使得現(xiàn)有的聲源定位算法的定位精度較低。
[0004] 當(dāng)前聲源定位算法大致可W分為3類(lèi):基于高分辨率譜估計(jì)的定位算法、基于時(shí)延估計(jì)(TDE:Time Delay Estimation)的定位算法和基于可控波束形成的定位算法。
[0005] (1)基于高分辨率譜估計(jì)方法主要有4種:ARMA譜估計(jì)法、最小方差譜估計(jì)法、賭譜估計(jì)法和子空間法。ARMA譜估計(jì)法通過(guò)對(duì)平穩(wěn)線(xiàn)性信號(hào)過(guò)程建立模型來(lái)估計(jì)功率譜密度。賭譜估計(jì)法包含最大賭法和最小交叉賭法兩種。子空間法包括了 Pisarenko諧波分解法、 Prony法、多重信號(hào)分類(lèi)(MUSIC = Multiple Signal Classification)法和基于旋轉(zhuǎn)不變技術(shù)信號(hào)參數(shù)估計(jì)方法化SPRIT = Estimation of Signal Parameters via Rotational Invariance Techniques)。基于高分辨率譜估計(jì)的定位算法都要利用接收信號(hào)的協(xié)方差矩陣，而信號(hào)的協(xié)方差矩陣在實(shí)際中是未知的，必須從觀(guān)測(cè)數(shù)據(jù)中估計(jì)得到。估計(jì)信號(hào)的協(xié)方差矩陣，需要假定聲源和噪聲是統(tǒng)計(jì)平均的，且待估計(jì)的參數(shù)(聲源位置)是固定不變的，在一定時(shí)間間隔內(nèi)平均得到，而語(yǔ)音是短時(shí)平穩(wěn)信號(hào)，往往不能滿(mǎn)足運(yùn)個(gè)條件。目前的方法絕大多數(shù)是基于遠(yuǎn)場(chǎng)窄帶信號(hào)設(shè)計(jì)的，在室內(nèi)環(huán)境中的混響會(huì)使得運(yùn)類(lèi)算法的性能?chē)?yán)重惡化。
[0006] (2)基于時(shí)延估計(jì)的定位算法
[0007] 基于時(shí)延估計(jì)的算法分為兩個(gè)步驟。第一步為時(shí)延估計(jì)，即計(jì)算聲源到每?jī)蓚€(gè)麥克風(fēng)之間的時(shí)延;第二步為位置估計(jì)，即根據(jù)時(shí)延和麥克風(fēng)陣列的幾何位置估計(jì)出聲源的位置，其中時(shí)延估計(jì)（TDE)最為關(guān)鍵。廣義互相關(guān)(GCC:Generalized Cross Correlation) 時(shí)延估計(jì)法，通過(guò)計(jì)算不同麥克風(fēng)接收信號(hào)之間的互相關(guān)函數(shù)，可W估計(jì)出達(dá)到時(shí)間差 (TD0A:Time Difference Arrival)。但是在實(shí)際環(huán)境中，由于噪聲和混響的影響，相關(guān)函數(shù) 的最大峰會(huì)被弱化，造成峰值檢測(cè)困難。廣義互相關(guān)法通過(guò)對(duì)兩個(gè)麥克風(fēng)信號(hào)的互功率譜進(jìn)行加權(quán)，使得相關(guān)函數(shù)在時(shí)延外的峰值更加突出。Knapp列舉了五種常用的加權(quán)函數(shù)，其中最大似然加權(quán)的廣義互相關(guān)法(GCC-ML:GCC using Maximum Likelihood)和相位變換 (PHAT:曲ase Transform)加權(quán)的廣義互相關(guān)法（GCC-PHAT:GCC using F*hase Transform) 最為典型。計(jì)算復(fù)雜度低和易于實(shí)現(xiàn)的特點(diǎn)使得GCC方法得到了比較廣泛的應(yīng)用。
[0008] (3)基于可控波束形成的定位算法
[0009] 基于可控波束形成的定位算法早期用于雷達(dá)和聲納系統(tǒng)的目標(biāo)定位，后來(lái)被引入到麥克風(fēng)陣列信號(hào)處理。麥克風(fēng)陣波束形成技術(shù)在語(yǔ)音信號(hào)處理中主要有兩個(gè)方面的應(yīng) 用：1)語(yǔ)音增強(qiáng)；2)聲源定位。當(dāng)聲源的位置已知時(shí)，調(diào)整每個(gè)麥克風(fēng)的導(dǎo)引時(shí)延，可W使得每個(gè)麥克風(fēng)的信號(hào)在時(shí)間上對(duì)齊，從而使得麥克風(fēng)陣被到引導(dǎo)聲源的位置，然后將每個(gè) 麥克風(fēng)的信號(hào)相加，達(dá)到抑制噪聲、增強(qiáng)信號(hào)的目的。上述運(yùn)種最簡(jiǎn)單實(shí)用的波束被稱(chēng)為延時(shí)-求和(de lay-and-sum)波束形成。
[0010] 在強(qiáng)混響的環(huán)境下傳統(tǒng)的算法受到了嚴(yán)重的限制。例如，基于最大輸出功率可控波束對(duì)外界環(huán)境W及聲源頻率反映比較敏感，會(huì)限制應(yīng)用場(chǎng)合;基于高分辨率譜估計(jì)技術(shù) 的定位方法運(yùn)算量極大且不適于近距離的定位;基于時(shí)延的定位方法的時(shí)延精度易受到混響和噪聲干擾的影響。

【發(fā)明內(nèi)容】

[0011] 本發(fā)明目的在于解決了上述現(xiàn)有技術(shù)的不足，提出一種基于i-vector說(shuō)話(huà)人識(shí)別的聲源定位算法，該方法通過(guò)引入鑒別互相關(guān)函數(shù)的特征，得到鑒別互相關(guān)函數(shù)，將此特征分為訓(xùn)練集合測(cè)試集，對(duì)i-vector說(shuō)話(huà)人識(shí)別系統(tǒng)中的模型進(jìn)行訓(xùn)練和測(cè)試，采用最大期望(EM:expec1:ation maximization)算法實(shí)現(xiàn)對(duì)開(kāi)發(fā)集i-vector向量分布概率函數(shù)的最大似然估計(jì)，建立起一個(gè)受語(yǔ)音時(shí)長(zhǎng)約束的PLDA模型，能夠準(zhǔn)確地進(jìn)行語(yǔ)音識(shí)別W及聲源定位，運(yùn)種算法的實(shí)現(xiàn)，有效地解決了傳統(tǒng)聲源定位中噪聲和混響的問(wèn)題。
[0012] 本發(fā)明解決其技術(shù)問(wèn)題所采取的技術(shù)方案是:一種基于i-vector說(shuō)話(huà)人識(shí)別的聲源定位算法，該方法包括訓(xùn)練階段和定位階段。
[OOK]其中，訓(xùn)練階段的步驟如下：
[0014] 步驟1:聲源位于每個(gè)訓(xùn)練位置ri，i = l，2, . . .K，麥克風(fēng)陣記錄下聲源在該位置處發(fā)出的信號(hào)(混響信號(hào)）；
[001引步驟2:利用記錄下的混響信號(hào)，計(jì)算出互相關(guān)函數(shù)；
[0016]步驟3:由互相關(guān)函數(shù)生成特征向量y;
[0017] 步驟4:對(duì)于每個(gè)訓(xùn)練位置ri，利用特征向量，計(jì)算出互相關(guān)函數(shù)化DA模型的均值向量y和固定維度的說(shuō)話(huà)人子空間及殘差Eij。
[0018] 定位階段的步驟如下：
[0019] 步驟1:麥克風(fēng)陣記錄下信號(hào)，該信號(hào)包括聲源發(fā)出的信號(hào)(混響信號(hào))及噪聲；
[0020]步驟2:利用記錄下的信號(hào)，計(jì)算出互相關(guān)函數(shù)；
[0021 ]步驟3:由互相關(guān)函數(shù)生成特征向量y;如果有N帖數(shù)據(jù)，則生成一個(gè)特征向量集合y = {yt，t=l,. . .N};
[0022] 步驟4:利用PLDA模型對(duì)特征進(jìn)行測(cè)試，估計(jì)聲源的位置。
[0023] 此外，在互相關(guān)函數(shù)特征的選取中，通過(guò)利用一種房間沖激響應(yīng)脈沖算法roomsim 來(lái)模擬真實(shí)的聲音環(huán)境，信號(hào)Xi化)和X2化)之間的廣義互相關(guān)函數(shù)(GCC)可W在頻域計(jì)算：
[0024]
(1.1)
[002引式中，上標(biāo)V'表示復(fù)共輛，Xi( W )是xi(t)的傅里葉變換，CO )是加權(quán)函數(shù)。
[0026] 為了增強(qiáng)互相關(guān)函數(shù)的抗混響能力，可W使用相位變化(PHAT)加權(quán)函數(shù)：
[0027] (1.2)
[002引
[0029] (1.:3)
[0030] 在實(shí)際情況中，麥克風(fēng)信號(hào)xi(t)和X2(t)經(jīng)過(guò)加窗后，再由傅里葉變換求得Xl(CO) 和X2( ? )。如果房間脈沖響應(yīng)的長(zhǎng)度化)比窗函數(shù)的長(zhǎng)度短很多，則麥克風(fēng)信號(hào)在頻域可W 表不為：
[0031] Xn( W )=Hn(rs, w)S(co),n = l,2, (1.4)
[0032] 式中，S(CO)和Hn(。，CO)分別是S化)和hn(rs，k)的傅里葉變換。
[0033] 將式(1.4)代入式(1.3)，得到：
[0034] (1. 5)
[0035] 由式（1.5)可知，麥克風(fēng)陣接收信號(hào)Xi化)和X2化)之間的GCC等于房間脈沖響應(yīng)hi (。,1〇和]12(。，1〇之間的6〔〔。
[0036] 然而，在實(shí)際情況中房間脈沖響應(yīng)的長(zhǎng)度L比窗函數(shù)的長(zhǎng)度大很多，則麥克風(fēng)信號(hào) 在頻域只能近似表示為：
[0037] Xn( ? )>Hn(rs, ? )*S( O ) ,n = l ,2, (1.6)
[0038] 而且，麥克風(fēng)陣接收信號(hào)Xi化）和X2(k)之間的GCC只能近似等于房間脈沖響應(yīng)hi (rs,k)和h2(rs,k)之間的GCC，即：
[0039] (1.7)
[0040] 由此可W得到互相關(guān)函數(shù)的特征。
[0041] 本發(fā)明能夠應(yīng)用于在混響和噪聲下對(duì)說(shuō)話(huà)人識(shí)別W及對(duì)說(shuō)話(huà)人的聲源定位。
[0042] 有益效果
[00創(chuàng) 1、本發(fā)明利用了互相關(guān)函數(shù)的特征，結(jié)合了化DA的建模方法，根據(jù)化DA模型中i- vector的概率分布函數(shù)，可W提高PLDA模型的有效性。相較于傳統(tǒng)的聲源定位算法，可W降低誤差率，提高定位的準(zhǔn)確性。運(yùn)種算法的實(shí)現(xiàn)，有效地解決了傳統(tǒng)聲源定位中噪聲和混響的問(wèn)題。
[0044] 2、本發(fā)明將聲源的互相關(guān)函數(shù)的特征信息和化DA算法結(jié)合起來(lái)，適用于所有有強(qiáng) 噪聲和混響的情況。
[0045] 3、本發(fā)明通過(guò)對(duì)聲源的互相關(guān)函數(shù)特征的提取，數(shù)據(jù)采集方便簡(jiǎn)單，定位效果也較好。
【附圖說(shuō)明】
[0046] 圖1為本發(fā)明的方法流程圖。
[0047] 圖2為本發(fā)明對(duì)不同說(shuō)話(huà)人在iVector模型下的等錯(cuò)率eer的分析示意圖。
[004引圖3為本發(fā)明對(duì)不同測(cè)試數(shù)據(jù)在iVector模型W及信噪比為10地情況下的打分分析示意圖。圖4為本發(fā)明對(duì)不同測(cè)試數(shù)據(jù)在iVector模型W及信噪比為20地情況下的打分分析示意圖。
【具體實(shí)施方式】
[0049] 下面結(jié)合說(shuō)明書(shū)附圖對(duì)本發(fā)明創(chuàng)造作進(jìn)一步的詳細(xì)說(shuō)明。
[0050] 如圖1所示，本發(fā)明是一種基于i-vector說(shuō)話(huà)人識(shí)別的聲源定位算法研究。PLDA 算法是一種信道補(bǔ)償算法，它是基于i-Vector特征的，因?yàn)閕-Vector特征既包含說(shuō)話(huà)人信息又包含信道信息，而我們只關(guān)屯、說(shuō)話(huà)人信息，所W需要信道補(bǔ)償。下面將具體描述聲源特征選擇、概率線(xiàn)性鑒別分析、模型訓(xùn)練和打分四個(gè)方面。
[0051] 本發(fā)明具體實(shí)施步驟，包括如下：
[0052] 步驟1:利用Roomsim的仿真環(huán)境，模擬出在帶有混響和噪聲的環(huán)境，計(jì)算出聲源信息的互相關(guān)函數(shù)的特征，對(duì)其進(jìn)行降維、語(yǔ)音檢測(cè)等處理，并分為訓(xùn)練集和測(cè)試集，為下一步的模型訓(xùn)練做準(zhǔn)備。
[0化3] 步驟2:提取i-Vector,在化DA的框架下，i-Vector的產(chǎn)生過(guò)程可W用一個(gè)隱藏變量來(lái)描述。不同的隱藏變量數(shù)目，不同的先驗(yàn)假設(shè)構(gòu)成了不同的PLDA模型。假定第i個(gè)說(shuō)話(huà) 人的第j個(gè)i-vector表示為Wij，常用的PLDA模型假設(shè)如下：
[0054] Wij = ]i+Vyi+Zij
[0055] 其中，y為所有訓(xùn)練數(shù)據(jù)的均值，V矩陣表示說(shuō)話(huà)人空間（本征音矩陣），矢量yi為對(duì) 應(yīng)的說(shuō)話(huà)人因子，服從標(biāo)準(zhǔn)高斯分布，ZU表示殘差，由一個(gè)全角矩陣D表示。
[0056] 步驟3:應(yīng)用化DA，在已標(biāo)注數(shù)據(jù)集上通過(guò)期望最大化法化M)估計(jì)模型參數(shù)A=(y， V，D)，初始模型采用隨機(jī)值。
[0057] 步驟4:估計(jì)好模型參數(shù)后，給定兩個(gè)i-Vector Wi和W2，其對(duì)數(shù)似然比由公式計(jì)算，其中假設(shè)9tar表示他們來(lái)自同一個(gè)說(shuō)話(huà)人，0。。。表示他們來(lái)自不同的說(shuō)話(huà)人，用對(duì)數(shù)似然比計(jì)算得分為：
[0化引
[0059] 分別在無(wú)噪聲情況下，有噪聲情況下進(jìn)行測(cè)試，其中有噪聲情況下信噪比逐漸降低，經(jīng)過(guò)實(shí)驗(yàn)可W得到即使在有噪聲和混響的情況下，該方法也有很好的定位效果。
[0060] 下面對(duì)本發(fā)明的基于iVector的聲源定位算法在不同情況下分別進(jìn)行比較驗(yàn)證，實(shí)驗(yàn)參數(shù)選取包括如下：
[0061] (1)仿真數(shù)據(jù)集選取于Roomsim,它是一段長(zhǎng)方形房間混響仿真代碼，可設(shè)置聲源和接聽(tīng)者的位置。它的尺寸為7mX6mX3m，混響時(shí)間（Tso)與反射系數(shù)(0)的關(guān)系由艾潤(rùn)公式確定：
[0062] _ ' . _
[0063] 整個(gè)數(shù)據(jù)集按8:2的比例分成訓(xùn)練集和測(cè)試集，訓(xùn)練集數(shù)據(jù)作為算法輸入，而測(cè)試集用于測(cè)試改進(jìn)后的算法性能。
[0064] (2)聲源定位系統(tǒng)采用PLDA算法，參數(shù)為ii，V，yl，zリ。ii為所有訓(xùn)練數(shù)據(jù)的均值，V矩陣表示說(shuō)話(huà)人空間(本征音矩陣），矢量yi為對(duì)應(yīng)的說(shuō)話(huà)人因子，服從標(biāo)準(zhǔn)高斯分布，ZU表示殘差，由一個(gè)全角矩陣D表示。
[0065] (3)i-Vector的參數(shù)矩陣T采用一個(gè)空間代替兩個(gè)空間，在傳統(tǒng)的語(yǔ)音識(shí)別方法中，兩個(gè)空間是由本征音空間矩陣定義的說(shuō)話(huà)人空間，和由本征音信道空間矩陣定義的信道空間。運(yùn)個(gè)新的空間既包含了說(shuō)話(huà)人之間的差異又包含了信道的差異。
[0066] 實(shí)驗(yàn)1:驗(yàn)證在無(wú)噪環(huán)境下用iVector模型進(jìn)行聲源定位的等錯(cuò)率的結(jié)果圖
[0067] 圖2為本發(fā)明在無(wú)噪聲環(huán)境下，對(duì)五個(gè)人進(jìn)行聲源定位。其中，Model代表訓(xùn)練的模型，Test代表測(cè)試的模型。將每一行與每一列進(jìn)行匹配，顏色越深代表得分越高。等錯(cuò)率eer 越低代表性能越好。通過(guò)圖2可W看出，在無(wú)噪環(huán)境下，該算法的eer為0,所W該模型的定位效果非常好。
[0068] 實(shí)驗(yàn)2:驗(yàn)證在信噪比為15地環(huán)境下用iVector模型進(jìn)行聲源定位的等錯(cuò)率的結(jié)果圖
[0069] 圖3是在信噪比為10地下的等錯(cuò)率的結(jié)果圖。與實(shí)驗(yàn)1類(lèi)似，可看到在15地下，eer 仍然為0,定位效果很好。
[0070] 實(shí)驗(yàn)3:驗(yàn)證在信噪比為20地環(huán)境下用iVector模型進(jìn)行聲源定位的等錯(cuò)率的結(jié)果圖
[0071] 圖4是在信噪比為20地下的等錯(cuò)率的結(jié)果圖。與實(shí)驗(yàn)1類(lèi)似，可看到在15地下，eer 仍然為0,因此可W得出結(jié)論，基于i-vector說(shuō)話(huà)人識(shí)別的聲源定位算法定位有著很好的定位效果。
[0072] 對(duì)本領(lǐng)域技術(shù)人員而言，根據(jù)上述實(shí)施類(lèi)型可W很容易聯(lián)想其他的優(yōu)點(diǎn)和變形。因此，本發(fā)明不局限于W上實(shí)例，其僅僅作為例子對(duì)本發(fā)明的一種形態(tài)進(jìn)行詳細(xì)、示范性的說(shuō)明。在不背離本發(fā)明宗旨的范圍內(nèi)，本領(lǐng)域技術(shù)人員根據(jù)上述具體實(shí)例，通過(guò)各種等同替換所得到的技術(shù)方案，均應(yīng)包含在本發(fā)明的權(quán)利要求范圍及其等同范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于i-vector說(shuō)話(huà)人識(shí)別的聲源定位方法，其特征在于，所述方法包括如下步驟：步驟1:聲源位于每個(gè)訓(xùn)練位置ri，i = 1，2，... K，麥克風(fēng)陣記錄下聲源在該位置處發(fā)出的信號(hào)；步驟2:利用記錄下的混響信號(hào)，計(jì)算出互相關(guān)函數(shù)；步驟3:由互相關(guān)函數(shù)生成特征向量y; 步驟4:對(duì)于每個(gè)訓(xùn)練位置Γι，利用特征向量，計(jì)算出互相關(guān)函數(shù)PLDA模型的均值向量μ 和固定維度的說(shuō)話(huà)人子空間貧以及殘差e1J; 步驟5:麥克風(fēng)陣記錄下信號(hào)，該信號(hào)包括聲源發(fā)出的信號(hào)及噪聲；步驟6:利用記錄下的信號(hào)，計(jì)算出互相關(guān)函數(shù)；步驟7:由互相關(guān)函數(shù)生成特征向量y;如果有N幀數(shù)據(jù)，則生成一個(gè)特征向量集合y。步驟8:利用PLDA模型對(duì)特征進(jìn)行測(cè)試，估計(jì)聲源的位置。2. 根據(jù)權(quán)利要求1所述的一種基于i-vector說(shuō)話(huà)人識(shí)別的聲源定位算法，其特征在于，步驟2中，所述的特征屬性需要分配不同的權(quán)值。3. 根據(jù)權(quán)利要求1所述的一種基于i-vector說(shuō)話(huà)人識(shí)別的聲源定位算法，其特征在于，步驟3中，聲源位置特征值由項(xiàng)目特征屬性計(jì)算而來(lái)，所述計(jì)算過(guò)程包括：步驟3-1，互相關(guān)函數(shù)特征的選取中，通過(guò)利用一種房間沖激響應(yīng)脈沖算法roomsim來(lái) 模擬真實(shí)的聲音環(huán)境，信號(hào)之間的廣義互相關(guān)函數(shù)可以在頻域計(jì)算；步驟3-2，為了增強(qiáng)互相關(guān)函數(shù)的抗混響能力，可以使用相位變化加權(quán)函數(shù)；步驟3-3,實(shí)際情況中，麥克風(fēng)信號(hào)時(shí)域函數(shù)經(jīng)過(guò)加窗后，再由傅里葉變換求得頻域函數(shù);如果房間脈沖響應(yīng)的長(zhǎng)度比窗函數(shù)的長(zhǎng)度短很多，則麥克風(fēng)陣接收信號(hào)之間的GCC等于房間脈沖響應(yīng)的GCC。4. 根據(jù)權(quán)利要求1所述的一種基于i-vector說(shuō)話(huà)人識(shí)別的聲源定位算法，其特征在于：所述方法應(yīng)用于所有項(xiàng)目帶有特征屬性的聲源定位系統(tǒng)。
【文檔編號(hào)】G01S5/18GK106019230SQ201610365659
【公開(kāi)日】2016年10月12日
【申請(qǐng)日】2016年5月27日
【發(fā)明人】萬(wàn)新旺, 顧曉瑜, 楊?lèi)? 廖鵬程
【申請(qǐng)人】南京郵電大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：萬(wàn)新旺;顧曉瑜;楊?lèi)?廖鵬程;
技術(shù)所有人：南京郵電大學(xué);
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、邢老師：1.機(jī)械設(shè)計(jì)及理論 2.生物醫(yī)學(xué)材料及器械 3.聲發(fā)射檢測(cè)技術(shù)。
2、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開(kāi)發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
3、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開(kāi)發(fā)
4、張老師：1.機(jī)械設(shè)計(jì)的應(yīng)力分析、強(qiáng)度校核的計(jì)算機(jī)仿真 2.生物反應(yīng)器研制 3.生物力學(xué)
5、趙老師：檢測(cè)與控制技術(shù)、機(jī)器人技術(shù)、機(jī)電一體化技術(shù)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于i-vector說(shuō)話(huà)人識(shí)別的聲源定位方法