国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于i-vector說(shuō)話(huà)人識(shí)別的聲源定位方法

      文檔序號(hào):10652767閱讀:579來(lái)源:國(guó)知局
      一種基于i-vector說(shuō)話(huà)人識(shí)別的聲源定位方法
      【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于i?vector說(shuō)話(huà)人識(shí)別的聲源定位方法,該方法通過(guò)引入鑒別互相關(guān)函數(shù)的特征,得到鑒別互相關(guān)函數(shù),將此特征分為訓(xùn)練集合測(cè)試集,對(duì)i?vector說(shuō)話(huà)人識(shí)別系統(tǒng)中的模型進(jìn)行訓(xùn)練和測(cè)試,采用最大期望算法實(shí)現(xiàn)對(duì)開(kāi)發(fā)集i?vector向量分布概率函數(shù)的最大似然估計(jì),建立起一個(gè)受語(yǔ)音時(shí)長(zhǎng)約束的PLDA模型,能夠準(zhǔn)確地進(jìn)行語(yǔ)音識(shí)別以及聲源定位,這種算法的實(shí)現(xiàn),有效地解決了傳統(tǒng)聲源定位中噪聲和混響的問(wèn)題。
      【專(zhuān)利說(shuō)明】
      -種基于i-vector說(shuō)話(huà)人識(shí)別的聲源定位方法
      技術(shù)領(lǐng)域
      [0001] 本發(fā)明設(shè)及一種基于i-vector說(shuō)話(huà)人識(shí)別的聲源定位方法,屬于互聯(lián)網(wǎng)信息技術(shù) 領(lǐng)域。
      【背景技術(shù)】
      [0002] 說(shuō)話(huà)人識(shí)別作為生物認(rèn)證技術(shù)的一種,是根據(jù)應(yīng)用語(yǔ)音波形中反映說(shuō)話(huà)人生理和 行為特征語(yǔ)音參數(shù),自動(dòng)鑒別說(shuō)話(huà)人身份的一種技術(shù)。說(shuō)話(huà)人識(shí)別是一種自動(dòng)識(shí)別說(shuō)話(huà)人 的過(guò)程,它是人體個(gè)性特征識(shí)別中的重要分支,它是根據(jù)語(yǔ)音波形中反映說(shuō)話(huà)人生理和行 為特征的語(yǔ)音參數(shù)自動(dòng)識(shí)別說(shuō)話(huà)人身份的技術(shù)。隨著信息技術(shù)的不斷發(fā)展,與其他生物識(shí) 別技術(shù)相比,說(shuō)話(huà)人識(shí)別有著更為簡(jiǎn)便,經(jīng)濟(jì)及可擴(kuò)展性良好等優(yōu)勢(shì),可廣泛應(yīng)用于數(shù)據(jù)庫(kù) 訪(fǎng)問(wèn)、安全驗(yàn)證、電話(huà)銀行、計(jì)算機(jī)遠(yuǎn)程登錄等領(lǐng)域。說(shuō)話(huà)人識(shí)別技術(shù)作為一項(xiàng)重要的生物 特征身份鑒定技術(shù),有著廣泛的應(yīng)用前景,國(guó)內(nèi)外許多研究者都投身到了運(yùn)一領(lǐng)域的研究 中。近幾年來(lái),W身份認(rèn)證矢量i-vector為基礎(chǔ)的說(shuō)話(huà)人建模技術(shù)取得了非常大的成功,使 得說(shuō)話(huà)人識(shí)別系統(tǒng)的性能有了很大的提升?;谏矸菡J(rèn)證矢量(identity vector,i- vector)的子空間建模被證明是目前最前沿最有效的說(shuō)話(huà)人建模技術(shù)。
      [0003] 隨著計(jì)算機(jī)技術(shù)與信息產(chǎn)業(yè)的迅猛發(fā)展,聲源定位已經(jīng)成為當(dāng)前研究的一個(gè)熱 點(diǎn)。確定一個(gè)聲源在空間中的位置是一項(xiàng)很有廣闊應(yīng)用前景的研究,可廣泛應(yīng)用于社會(huì)生 產(chǎn)和生活的各個(gè)方面。聲源定位是通過(guò)測(cè)量物體發(fā)出的聲音對(duì)物體定位,與使用聲納、雷 達(dá)、無(wú)線(xiàn)通訊的定位方法不同,前者信號(hào)是普通的聲音,是寬帶信號(hào),而后者信源是窄帶信 號(hào)。根據(jù)聲音信號(hào)的特點(diǎn),人們提出了不同的聲源定位算法,但由于噪聲和混響的存在,使 得現(xiàn)有的聲源定位算法的定位精度較低。
      [0004] 當(dāng)前聲源定位算法大致可W分為3類(lèi):基于高分辨率譜估計(jì)的定位算法、基于時(shí)延 估計(jì)(TDE:Time Delay Estimation)的定位算法和基于可控波束形成的定位算法。
      [0005] (1)基于高分辨率譜估計(jì)方法主要有4種:ARMA譜估計(jì)法、最小方差譜估計(jì)法、賭譜 估計(jì)法和子空間法。ARMA譜估計(jì)法通過(guò)對(duì)平穩(wěn)線(xiàn)性信號(hào)過(guò)程建立模型來(lái)估計(jì)功率譜密度。 賭譜估計(jì)法包含最大賭法和最小交叉賭法兩種。子空間法包括了 Pisarenko諧波分解法、 Prony法、多重信號(hào)分類(lèi)(MUSIC = Multiple Signal Classification)法和基于旋轉(zhuǎn)不變技 術(shù)信號(hào)參數(shù)估計(jì)方法化SPRIT = Estimation of Signal Parameters via Rotational Invariance Techniques)。基于高分辨率譜估計(jì)的定位算法都要利用接收信號(hào)的協(xié)方差矩 陣,而信號(hào)的協(xié)方差矩陣在實(shí)際中是未知的,必須從觀(guān)測(cè)數(shù)據(jù)中估計(jì)得到。估計(jì)信號(hào)的協(xié)方 差矩陣,需要假定聲源和噪聲是統(tǒng)計(jì)平均的,且待估計(jì)的參數(shù)(聲源位置)是固定不變的,在 一定時(shí)間間隔內(nèi)平均得到,而語(yǔ)音是短時(shí)平穩(wěn)信號(hào),往往不能滿(mǎn)足運(yùn)個(gè)條件。目前的方法 絕大多數(shù)是基于遠(yuǎn)場(chǎng)窄帶信號(hào)設(shè)計(jì)的,在室內(nèi)環(huán)境中的混響會(huì)使得運(yùn)類(lèi)算法的性能?chē)?yán)重惡 化。
      [0006] (2)基于時(shí)延估計(jì)的定位算法
      [0007] 基于時(shí)延估計(jì)的算法分為兩個(gè)步驟。第一步為時(shí)延估計(jì),即計(jì)算聲源到每?jī)蓚€(gè)麥 克風(fēng)之間的時(shí)延;第二步為位置估計(jì),即根據(jù)時(shí)延和麥克風(fēng)陣列的幾何位置估計(jì)出聲源的 位置,其中時(shí)延估計(jì)(TDE)最為關(guān)鍵。廣義互相關(guān)(GCC:Generalized Cross Correlation) 時(shí)延估計(jì)法,通過(guò)計(jì)算不同麥克風(fēng)接收信號(hào)之間的互相關(guān)函數(shù),可W估計(jì)出達(dá)到時(shí)間差 (TD0A:Time Difference Arrival)。但是在實(shí)際環(huán)境中,由于噪聲和混響的影響,相關(guān)函數(shù) 的最大峰會(huì)被弱化,造成峰值檢測(cè)困難。廣義互相關(guān)法通過(guò)對(duì)兩個(gè)麥克風(fēng)信號(hào)的互功率譜 進(jìn)行加權(quán),使得相關(guān)函數(shù)在時(shí)延外的峰值更加突出。Knapp列舉了五種常用的加權(quán)函數(shù),其 中最大似然加權(quán)的廣義互相關(guān)法(GCC-ML:GCC using Maximum Likelihood)和相位變換 (PHAT:曲ase Transform)加權(quán)的廣義互相關(guān)法(GCC-PHAT:GCC using F*hase Transform) 最為典型。計(jì)算復(fù)雜度低和易于實(shí)現(xiàn)的特點(diǎn)使得GCC方法得到了比較廣泛的應(yīng)用。
      [0008] (3)基于可控波束形成的定位算法
      [0009] 基于可控波束形成的定位算法早期用于雷達(dá)和聲納系統(tǒng)的目標(biāo)定位,后來(lái)被引入 到麥克風(fēng)陣列信號(hào)處理。麥克風(fēng)陣波束形成技術(shù)在語(yǔ)音信號(hào)處理中主要有兩個(gè)方面的應(yīng) 用:1)語(yǔ)音增強(qiáng);2)聲源定位。當(dāng)聲源的位置已知時(shí),調(diào)整每個(gè)麥克風(fēng)的導(dǎo)引時(shí)延,可W使 得每個(gè)麥克風(fēng)的信號(hào)在時(shí)間上對(duì)齊,從而使得麥克風(fēng)陣被到引導(dǎo)聲源的位置,然后將每個(gè) 麥克風(fēng)的信號(hào)相加,達(dá)到抑制噪聲、增強(qiáng)信號(hào)的目的。上述運(yùn)種最簡(jiǎn)單實(shí)用的波束被稱(chēng)為延 時(shí)-求和(de lay-and-sum)波束形成。
      [0010] 在強(qiáng)混響的環(huán)境下傳統(tǒng)的算法受到了嚴(yán)重的限制。例如,基于最大輸出功率可控 波束對(duì)外界環(huán)境W及聲源頻率反映比較敏感,會(huì)限制應(yīng)用場(chǎng)合;基于高分辨率譜估計(jì)技術(shù) 的定位方法運(yùn)算量極大且不適于近距離的定位;基于時(shí)延的定位方法的時(shí)延精度易受到混 響和噪聲干擾的影響。

      【發(fā)明內(nèi)容】

      [0011] 本發(fā)明目的在于解決了上述現(xiàn)有技術(shù)的不足,提出一種基于i-vector說(shuō)話(huà)人識(shí)別 的聲源定位算法,該方法通過(guò)引入鑒別互相關(guān)函數(shù)的特征,得到鑒別互相關(guān)函數(shù),將此特征 分為訓(xùn)練集合測(cè)試集,對(duì)i-vector說(shuō)話(huà)人識(shí)別系統(tǒng)中的模型進(jìn)行訓(xùn)練和測(cè)試,采用最大期 望(EM:expec1:ation maximization)算法實(shí)現(xiàn)對(duì)開(kāi)發(fā)集i-vector向量分布概率函數(shù)的最大 似然估計(jì),建立起一個(gè)受語(yǔ)音時(shí)長(zhǎng)約束的PLDA模型,能夠準(zhǔn)確地進(jìn)行語(yǔ)音識(shí)別W及聲源定 位,運(yùn)種算法的實(shí)現(xiàn),有效地解決了傳統(tǒng)聲源定位中噪聲和混響的問(wèn)題。
      [0012] 本發(fā)明解決其技術(shù)問(wèn)題所采取的技術(shù)方案是:一種基于i-vector說(shuō)話(huà)人識(shí)別的聲 源定位算法,該方法包括訓(xùn)練階段和定位階段。
      [OOK]其中,訓(xùn)練階段的步驟如下:
      [0014] 步驟1:聲源位于每個(gè)訓(xùn)練位置ri,i = l,2, . . .K,麥克風(fēng)陣記錄下聲源在該位置處 發(fā)出的信號(hào)(混響信號(hào));
      [001引步驟2:利用記錄下的混響信號(hào),計(jì)算出互相關(guān)函數(shù);
      [0016]步驟3:由互相關(guān)函數(shù)生成特征向量y;
      [0017] 步驟4:對(duì)于每個(gè)訓(xùn)練位置ri,利用特征向量,計(jì)算出互相關(guān)函數(shù)化DA模型的均值 向量y和固定維度的說(shuō)話(huà)人子空間及殘差Eij。
      [0018] 定位階段的步驟如下:
      [0019] 步驟1:麥克風(fēng)陣記錄下信號(hào),該信號(hào)包括聲源發(fā)出的信號(hào)(混響信號(hào))及噪聲;
      [0020]步驟2:利用記錄下的信號(hào),計(jì)算出互相關(guān)函數(shù);
      [0021 ]步驟3:由互相關(guān)函數(shù)生成特征向量y;如果有N帖數(shù)據(jù),則生成一個(gè)特征向量集合y = {yt,t=l,. . .N};
      [0022] 步驟4:利用PLDA模型對(duì)特征進(jìn)行測(cè)試,估計(jì)聲源的位置。
      [0023] 此外,在互相關(guān)函數(shù)特征的選取中,通過(guò)利用一種房間沖激響應(yīng)脈沖算法roomsim 來(lái)模擬真實(shí)的聲音環(huán)境,信號(hào)Xi化)和X2化)之間的廣義互相關(guān)函數(shù)(GCC)可W在頻域計(jì)算:
      [0024]
      (1.1)
      [002引式中,上標(biāo)V'表示復(fù)共輛,Xi( W )是xi(t)的傅里葉變換,CO )是加權(quán)函數(shù)。
      [0026] 為了增強(qiáng)互相關(guān)函數(shù)的抗混響能力,可W使用相位變化(PHAT)加權(quán)函數(shù):
      [0027] (1.2)
      [002引
      [0029] (1.:3)
      [0030] 在實(shí)際情況中,麥克風(fēng)信號(hào)xi(t)和X2(t)經(jīng)過(guò)加窗后,再由傅里葉變換求得Xl(CO) 和X2( ? )。如果房間脈沖響應(yīng)的長(zhǎng)度化)比窗函數(shù)的長(zhǎng)度短很多,則麥克風(fēng)信號(hào)在頻域可W 表不為:
      [0031] Xn( W )=Hn(rs, w)S(co),n = l,2, (1.4)
      [0032] 式中,S(CO)和Hn(。,CO)分別是S化)和hn(rs,k)的傅里葉變換。
      [0033] 將式(1.4)代入式(1.3),得到:
      [0034] (1. 5)
      [0035] 由式(1.5)可知,麥克風(fēng)陣接收信號(hào)Xi化)和X2化)之間的GCC等于房間脈沖響應(yīng)hi (。,1〇和]12(。,1〇之間的6〔〔。
      [0036] 然而,在實(shí)際情況中房間脈沖響應(yīng)的長(zhǎng)度L比窗函數(shù)的長(zhǎng)度大很多,則麥克風(fēng)信號(hào) 在頻域只能近似表示為:
      [0037] Xn( ? )>Hn(rs, ? )*S( O ) ,n = l ,2, (1.6)
      [0038] 而且,麥克風(fēng)陣接收信號(hào)Xi化)和X2(k)之間的GCC只能近似等于房間脈沖響應(yīng)hi (rs,k)和h2(rs,k)之間的GCC,即:
      [0039] (1.7)
      [0040] 由此可W得到互相關(guān)函數(shù)的特征。
      [0041] 本發(fā)明能夠應(yīng)用于在混響和噪聲下對(duì)說(shuō)話(huà)人識(shí)別W及對(duì)說(shuō)話(huà)人的聲源定位。
      [0042] 有益效果
      [00創(chuàng) 1、本發(fā)明利用了互相關(guān)函數(shù)的特征,結(jié)合了化DA的建模方法,根據(jù)化DA模型中i- vector的概率分布函數(shù),可W提高PLDA模型的有效性。相較于傳統(tǒng)的聲源定位算法,可W降 低誤差率,提高定位的準(zhǔn)確性。運(yùn)種算法的實(shí)現(xiàn),有效地解決了傳統(tǒng)聲源定位中噪聲和混響 的問(wèn)題。
      [0044] 2、本發(fā)明將聲源的互相關(guān)函數(shù)的特征信息和化DA算法結(jié)合起來(lái),適用于所有有強(qiáng) 噪聲和混響的情況。
      [0045] 3、本發(fā)明通過(guò)對(duì)聲源的互相關(guān)函數(shù)特征的提取,數(shù)據(jù)采集方便簡(jiǎn)單,定位效果也 較好。
      【附圖說(shuō)明】
      [0046] 圖1為本發(fā)明的方法流程圖。
      [0047] 圖2為本發(fā)明對(duì)不同說(shuō)話(huà)人在iVector模型下的等錯(cuò)率eer的分析示意圖。
      [004引圖3為本發(fā)明對(duì)不同測(cè)試數(shù)據(jù)在iVector模型W及信噪比為10地情況下的打分分 析示意圖。 圖4為本發(fā)明對(duì)不同測(cè)試數(shù)據(jù)在iVector模型W及信噪比為20地情況下的打分分析示 意圖。
      【具體實(shí)施方式】
      [0049] 下面結(jié)合說(shuō)明書(shū)附圖對(duì)本發(fā)明創(chuàng)造作進(jìn)一步的詳細(xì)說(shuō)明。
      [0050] 如圖1所示,本發(fā)明是一種基于i-vector說(shuō)話(huà)人識(shí)別的聲源定位算法研究。PLDA 算法是一種信道補(bǔ)償算法,它是基于i-Vector特征的,因?yàn)閕-Vector特征既包含說(shuō)話(huà)人信 息又包含信道信息,而我們只關(guān)屯、說(shuō)話(huà)人信息,所W需要信道補(bǔ)償。下面將具體描述聲源特 征選擇、概率線(xiàn)性鑒別分析、模型訓(xùn)練和打分四個(gè)方面。
      [0051] 本發(fā)明具體實(shí)施步驟,包括如下:
      [0052] 步驟1:利用Roomsim的仿真環(huán)境,模擬出在帶有混響和噪聲的環(huán)境,計(jì)算出聲源信 息的互相關(guān)函數(shù)的特征,對(duì)其進(jìn)行降維、語(yǔ)音檢測(cè)等處理,并分為訓(xùn)練集和測(cè)試集,為下一 步的模型訓(xùn)練做準(zhǔn)備。
      [0化3] 步驟2:提取i-Vector,在化DA的框架下,i-Vector的產(chǎn)生過(guò)程可W用一個(gè)隱藏變 量來(lái)描述。不同的隱藏變量數(shù)目,不同的先驗(yàn)假設(shè)構(gòu)成了不同的PLDA模型。假定第i個(gè)說(shuō)話(huà) 人的第j個(gè)i-vector表示為Wij,常用的PLDA模型假設(shè)如下:
      [0054] Wij = ]i+Vyi+Zij
      [0055] 其中,y為所有訓(xùn)練數(shù)據(jù)的均值,V矩陣表示說(shuō)話(huà)人空間(本征音矩陣),矢量yi為對(duì) 應(yīng)的說(shuō)話(huà)人因子,服從標(biāo)準(zhǔn)高斯分布,ZU表示殘差,由一個(gè)全角矩陣D表示。
      [0056] 步驟3:應(yīng)用化DA,在已標(biāo)注數(shù)據(jù)集上通過(guò)期望最大化法化M)估計(jì)模型參數(shù)A=(y, V,D),初始模型采用隨機(jī)值。
      [0057] 步驟4:估計(jì)好模型參數(shù)后,給定兩個(gè)i-Vector Wi和W2,其對(duì)數(shù)似然比由公式計(jì)算, 其中假設(shè)9tar表示他們來(lái)自同一個(gè)說(shuō)話(huà)人,0。。。表示他們來(lái)自不同的說(shuō)話(huà)人,用對(duì)數(shù)似然比 計(jì)算得分為:
      [0化引
      [0059] 分別在無(wú)噪聲情況下,有噪聲情況下進(jìn)行測(cè)試,其中有噪聲情況下信噪比逐漸降 低,經(jīng)過(guò)實(shí)驗(yàn)可W得到即使在有噪聲和混響的情況下,該方法也有很好的定位效果。
      [0060] 下面對(duì)本發(fā)明的基于iVector的聲源定位算法在不同情況下分別進(jìn)行比較驗(yàn)證, 實(shí)驗(yàn)參數(shù)選取包括如下:
      [0061] (1)仿真數(shù)據(jù)集選取于Roomsim,它是一段長(zhǎng)方形房間混響仿真代碼,可設(shè)置聲源 和接聽(tīng)者的位置。它的尺寸為7mX6mX3m,混響時(shí)間(Tso)與反射系數(shù)(0)的關(guān)系由艾潤(rùn)公式 確定:
      [0062] _ ' . _
      [0063] 整個(gè)數(shù)據(jù)集按8:2的比例分成訓(xùn)練集和測(cè)試集,訓(xùn)練集數(shù)據(jù)作為算法輸入,而測(cè)試 集用于測(cè)試改進(jìn)后的算法性能。
      [0064] (2)聲源定位系統(tǒng)采用PLDA算法,參數(shù)為ii,V,yl,zリ。ii為所有訓(xùn)練數(shù)據(jù)的均值,V矩 陣表示說(shuō)話(huà)人空間(本征音矩陣),矢量yi為對(duì)應(yīng)的說(shuō)話(huà)人因子,服從標(biāo)準(zhǔn)高斯分布,ZU表示 殘差,由一個(gè)全角矩陣D表示。
      [0065] (3)i-Vector的參數(shù)矩陣T采用一個(gè)空間代替兩個(gè)空間,在傳統(tǒng)的語(yǔ)音識(shí)別方法 中,兩個(gè)空間是由本征音空間矩陣定義的說(shuō)話(huà)人空間,和由本征音信道空間矩陣定義的信 道空間。運(yùn)個(gè)新的空間既包含了說(shuō)話(huà)人之間的差異又包含了信道的差異。
      [0066] 實(shí)驗(yàn)1:驗(yàn)證在無(wú)噪環(huán)境下用iVector模型進(jìn)行聲源定位的等錯(cuò)率的結(jié)果圖
      [0067] 圖2為本發(fā)明在無(wú)噪聲環(huán)境下,對(duì)五個(gè)人進(jìn)行聲源定位。其中,Model代表訓(xùn)練的模 型,Test代表測(cè)試的模型。將每一行與每一列進(jìn)行匹配,顏色越深代表得分越高。等錯(cuò)率eer 越低代表性能越好。通過(guò)圖2可W看出,在無(wú)噪環(huán)境下,該算法的eer為0,所W該模型的定位 效果非常好。
      [0068] 實(shí)驗(yàn)2:驗(yàn)證在信噪比為15地環(huán)境下用iVector模型進(jìn)行聲源定位的等錯(cuò)率的結(jié)果 圖
      [0069] 圖3是在信噪比為10地下的等錯(cuò)率的結(jié)果圖。與實(shí)驗(yàn)1類(lèi)似,可看到在15地下,eer 仍然為0,定位效果很好。
      [0070] 實(shí)驗(yàn)3:驗(yàn)證在信噪比為20地環(huán)境下用iVector模型進(jìn)行聲源定位的等錯(cuò)率的結(jié)果 圖
      [0071] 圖4是在信噪比為20地下的等錯(cuò)率的結(jié)果圖。與實(shí)驗(yàn)1類(lèi)似,可看到在15地下,eer 仍然為0,因此可W得出結(jié)論,基于i-vector說(shuō)話(huà)人識(shí)別的聲源定位算法定位有著很好的定 位效果。
      [0072] 對(duì)本領(lǐng)域技術(shù)人員而言,根據(jù)上述實(shí)施類(lèi)型可W很容易聯(lián)想其他的優(yōu)點(diǎn)和變形。 因此,本發(fā)明不局限于W上實(shí)例,其僅僅作為例子對(duì)本發(fā)明的一種形態(tài)進(jìn)行詳細(xì)、示范性的 說(shuō)明。在不背離本發(fā)明宗旨的范圍內(nèi),本領(lǐng)域技術(shù)人員根據(jù)上述具體實(shí)例,通過(guò)各種等同替 換所得到的技術(shù)方案,均應(yīng)包含在本發(fā)明的權(quán)利要求范圍及其等同范圍之內(nèi)。
      【主權(quán)項(xiàng)】
      1. 一種基于i-vector說(shuō)話(huà)人識(shí)別的聲源定位方法,其特征在于,所述方法包括如下步 驟: 步驟1:聲源位于每個(gè)訓(xùn)練位置ri,i = 1,2,... K,麥克風(fēng)陣記錄下聲源在該位置處發(fā)出 的信號(hào); 步驟2:利用記錄下的混響信號(hào),計(jì)算出互相關(guān)函數(shù); 步驟3:由互相關(guān)函數(shù)生成特征向量y; 步驟4:對(duì)于每個(gè)訓(xùn)練位置Γι,利用特征向量,計(jì)算出互相關(guān)函數(shù)PLDA模型的均值向量μ 和固定維度的說(shuō)話(huà)人子空間貧以及殘差e1J; 步驟5:麥克風(fēng)陣記錄下信號(hào),該信號(hào)包括聲源發(fā)出的信號(hào)及噪聲; 步驟6:利用記錄下的信號(hào),計(jì)算出互相關(guān)函數(shù); 步驟7:由互相關(guān)函數(shù)生成特征向量y;如果有N幀數(shù)據(jù),則生成一個(gè)特征向量集合y。 步驟8:利用PLDA模型對(duì)特征進(jìn)行測(cè)試,估計(jì)聲源的位置。2. 根據(jù)權(quán)利要求1所述的一種基于i-vector說(shuō)話(huà)人識(shí)別的聲源定位算法,其特征在于, 步驟2中,所述的特征屬性需要分配不同的權(quán)值。3. 根據(jù)權(quán)利要求1所述的一種基于i-vector說(shuō)話(huà)人識(shí)別的聲源定位算法,其特征在于, 步驟3中,聲源位置特征值由項(xiàng)目特征屬性計(jì)算而來(lái),所述計(jì)算過(guò)程包括: 步驟3-1,互相關(guān)函數(shù)特征的選取中,通過(guò)利用一種房間沖激響應(yīng)脈沖算法roomsim來(lái) 模擬真實(shí)的聲音環(huán)境,信號(hào)之間的廣義互相關(guān)函數(shù)可以在頻域計(jì)算; 步驟3-2,為了增強(qiáng)互相關(guān)函數(shù)的抗混響能力,可以使用相位變化加權(quán)函數(shù); 步驟3-3,實(shí)際情況中,麥克風(fēng)信號(hào)時(shí)域函數(shù)經(jīng)過(guò)加窗后,再由傅里葉變換求得頻域函 數(shù);如果房間脈沖響應(yīng)的長(zhǎng)度比窗函數(shù)的長(zhǎng)度短很多,則麥克風(fēng)陣接收信號(hào)之間的GCC等于 房間脈沖響應(yīng)的GCC。4. 根據(jù)權(quán)利要求1所述的一種基于i-vector說(shuō)話(huà)人識(shí)別的聲源定位算法,其特征在于: 所述方法應(yīng)用于所有項(xiàng)目帶有特征屬性的聲源定位系統(tǒng)。
      【文檔編號(hào)】G01S5/18GK106019230SQ201610365659
      【公開(kāi)日】2016年10月12日
      【申請(qǐng)日】2016年5月27日
      【發(fā)明人】萬(wàn)新旺, 顧曉瑜, 楊?lèi)? 廖鵬程
      【申請(qǐng)人】南京郵電大學(xué)
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1