国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種音頻數(shù)據(jù)處理方法、裝置以及系統(tǒng)與流程

      文檔序號:12470127閱讀:271來源:國知局
      一種音頻數(shù)據(jù)處理方法、裝置以及系統(tǒng)與流程

      本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種音頻數(shù)據(jù)處理方法、裝置以及系統(tǒng)。



      背景技術(shù):

      目前的智能終端(如手機(jī)、平板電腦、臺式電腦等等)通常都具備基本的音頻處理能力,例如,可以錄制用戶的聲音,因此,目前的智能終端是可以支持目前大多數(shù)的音頻處理應(yīng)用。目前大多數(shù)的音頻處理應(yīng)用都可以對所錄制到的用戶歌聲進(jìn)行計(jì)算分析,以計(jì)算出用戶的唱歌分?jǐn)?shù),并向用戶顯示該唱歌分?jǐn)?shù),使得用戶可以直觀的知道自己的唱歌水平。但是,由于目前這些音頻處理應(yīng)用對用戶歌聲的分析維度比較單一(即都只能分析用戶的唱歌水平),所以導(dǎo)致最終的展示內(nèi)容也比較單一(即最終只顯示了用戶的唱歌分?jǐn)?shù)),使得展示效果不夠豐富。



      技術(shù)實(shí)現(xiàn)要素:

      本發(fā)明實(shí)施例提供一種音頻數(shù)據(jù)處理方法、裝置以及系統(tǒng),可以使與音頻數(shù)據(jù)的分析結(jié)果相關(guān)聯(lián)的展示內(nèi)容更加豐富。

      本發(fā)明第一方面提供了一種音頻數(shù)據(jù)處理方法,包括:

      客戶端獲取用戶音頻數(shù)據(jù),并將所述用戶音頻數(shù)據(jù)發(fā)送至所述服務(wù)器;

      所述服務(wù)器提取所述用戶音頻數(shù)據(jù)的用戶音頻特征,并根據(jù)所述用戶音頻特征分別計(jì)算所述用戶音頻數(shù)據(jù)與預(yù)設(shè)的音頻數(shù)據(jù)庫中的多個預(yù)設(shè)音頻數(shù)據(jù)之間的音色相似度;

      所述服務(wù)器從所述多個預(yù)設(shè)音頻數(shù)據(jù)中選取預(yù)設(shè)匹配數(shù)量的目標(biāo)預(yù)設(shè)音頻數(shù)據(jù),并將各目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度發(fā)送至所述客戶端;

      所述客戶端在第一預(yù)設(shè)顯示區(qū)域顯示所述各目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度,并在第二預(yù)設(shè)顯示區(qū)域顯示所述用戶音頻數(shù)據(jù)對應(yīng)的音頻質(zhì)量分?jǐn)?shù)。

      本發(fā)明第二方面提供了一種音頻數(shù)據(jù)處理方法,包括:

      服務(wù)器接收客戶端發(fā)送的用戶音頻數(shù)據(jù);

      所述服務(wù)器提取所述用戶音頻數(shù)據(jù)的用戶音頻特征,并根據(jù)所述用戶音頻特征分別計(jì)算所述用戶音頻數(shù)據(jù)與預(yù)設(shè)的音頻數(shù)據(jù)庫中的多個預(yù)設(shè)音頻數(shù)據(jù)之間的音色相似度;

      所述服務(wù)器從所述多個預(yù)設(shè)音頻數(shù)據(jù)中選取預(yù)設(shè)匹配數(shù)量的目標(biāo)預(yù)設(shè)音頻數(shù)據(jù),并將各目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度發(fā)送至所述客戶端,以使所述客戶端在第一預(yù)設(shè)顯示區(qū)域顯示所述各目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度,并在第二預(yù)設(shè)顯示區(qū)域顯示所述用戶音頻數(shù)據(jù)對應(yīng)的音頻質(zhì)量分?jǐn)?shù)。

      本發(fā)明第三方面提供了一種音頻數(shù)據(jù)處理裝置,其特征在于,包括:

      接收模塊,用于接收客戶端發(fā)送的用戶音頻數(shù)據(jù);

      計(jì)算模塊,用于提取所述用戶音頻數(shù)據(jù)的用戶音頻特征,并根據(jù)所述用戶音頻特征分別計(jì)算所述用戶音頻數(shù)據(jù)與預(yù)設(shè)的音頻數(shù)據(jù)庫中的多個預(yù)設(shè)音頻數(shù)據(jù)之間的音色相似度;

      選擇發(fā)送模塊,用于從所述多個預(yù)設(shè)音頻數(shù)據(jù)中選取預(yù)設(shè)匹配數(shù)量的目標(biāo)預(yù)設(shè)音頻數(shù)據(jù),并將各目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度發(fā)送至所述客戶端,以使所述客戶端在第一預(yù)設(shè)顯示區(qū)域顯示所述各目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度,并在第二預(yù)設(shè)顯示區(qū)域顯示所述用戶音頻數(shù)據(jù)對應(yīng)的音頻質(zhì)量分?jǐn)?shù)。

      本發(fā)明第四方面提供了一種音頻數(shù)據(jù)處理系統(tǒng),包括客戶端和服務(wù)器;

      所述客戶端,用于獲取用戶音頻數(shù)據(jù),并將所述用戶音頻數(shù)據(jù)發(fā)送至所述服務(wù)器,且還用于在第一預(yù)設(shè)顯示區(qū)域顯示所述服務(wù)器所發(fā)送的目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)對應(yīng)的音頻屬性信息和音色相似度,并在第二預(yù)設(shè)顯示區(qū)域顯示所述用戶音頻數(shù)據(jù)對應(yīng)的音頻質(zhì)量分?jǐn)?shù);

      所述服務(wù)器包括上述第三方面所提供的音頻數(shù)據(jù)處理裝置。

      本發(fā)明實(shí)施例中的客戶端將獲取到的用戶音頻數(shù)據(jù)發(fā)送到服務(wù)器,使得服務(wù)器可以計(jì)算所述用戶音頻數(shù)據(jù)與預(yù)設(shè)的音頻數(shù)據(jù)庫中的多個預(yù)設(shè)音頻數(shù)據(jù)之間的音色相似度,進(jìn)而根據(jù)各音色相似度的排序從中選擇出目標(biāo)預(yù)設(shè)音頻數(shù)據(jù),并將目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)對應(yīng)的音頻屬性信息和音色相似度發(fā)送至所述客戶端;由于不再僅限于在唱歌水平的維度上對用戶音頻數(shù)據(jù)進(jìn)行分析,所以使得所述客戶端不僅可以顯示用戶音頻數(shù)據(jù)的音頻質(zhì)量分?jǐn)?shù),還可以顯示目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)對應(yīng)的音頻屬性信息和音色相似度,從而使與用戶音頻數(shù)據(jù)的分析結(jié)果相關(guān)聯(lián)的展示內(nèi)容更加豐富。

      附圖說明

      為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

      圖1是本發(fā)明實(shí)施例提供的一種音頻數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)示意圖;

      圖2是本發(fā)明實(shí)施例提供的一種音頻數(shù)據(jù)處理方法的流程示意圖;

      圖2a是本發(fā)明實(shí)施例提供的一種客戶端界面展示圖;

      圖2b是本發(fā)明實(shí)施例提供的另一種客戶端界面展示圖;

      圖3是本發(fā)明實(shí)施例提供的一種音頻數(shù)據(jù)處理方法的時序示意圖;

      圖4是本發(fā)明實(shí)施例提供的另一種音頻數(shù)據(jù)處理方法的流程示意圖;

      圖5是本發(fā)明實(shí)施例提供的一種音頻數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖;

      圖6是本發(fā)明實(shí)施例提供的一種計(jì)算模塊的結(jié)構(gòu)示意圖;

      圖7是本發(fā)明實(shí)施例提供的一種標(biāo)簽設(shè)置單元的結(jié)構(gòu)示意圖;

      圖8是本發(fā)明實(shí)施例提供的一種選擇發(fā)送模塊的結(jié)構(gòu)示意圖;

      圖9是本發(fā)明實(shí)施例提供的另一種音頻數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖。

      具體實(shí)施方式

      下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

      請參見圖1,是本發(fā)明實(shí)施例提供的一種音頻數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)示意圖。所述系統(tǒng)可以包括客戶端100和服務(wù)器200,所述客戶端100與所述服務(wù)器200通過網(wǎng)絡(luò)進(jìn)行連接,所述客戶端100可以包括手機(jī)、平板電腦、臺式電腦等具備音頻處理功能和網(wǎng)絡(luò)通信功能的智能終端,所述服務(wù)器200可以為音頻處理應(yīng)用的后臺服務(wù)器200。所述系統(tǒng)可以應(yīng)用于對用戶歌聲進(jìn)行多維度分析的應(yīng)用場景,例如,當(dāng)用戶通過所述客戶端100錄制自己的歌聲,在錄制完畢后,所述客戶端100可以計(jì)算并顯示用戶歌聲數(shù)據(jù)的唱歌分?jǐn)?shù)(唱歌分?jǐn)?shù)可以是根據(jù)用戶歌聲的音準(zhǔn)、節(jié)奏等因素進(jìn)行計(jì)算得到的),所述客戶端100同時還將所述用戶歌聲數(shù)據(jù)發(fā)送到所述服務(wù)器200,所述服務(wù)器200可以提取用戶歌聲數(shù)據(jù)的用戶音頻特征,并根據(jù)所述用戶音頻特征分別計(jì)算所述用戶歌聲數(shù)據(jù)與預(yù)設(shè)的音頻數(shù)據(jù)庫中的多個預(yù)設(shè)明星歌聲數(shù)據(jù)之間的音色相似度;所述服務(wù)器200再從所述多個預(yù)設(shè)明星歌聲數(shù)據(jù)中選取預(yù)設(shè)匹配數(shù)量的目標(biāo)預(yù)設(shè)明星歌聲數(shù)據(jù),并將各目標(biāo)預(yù)設(shè)明星歌聲數(shù)據(jù)分別對應(yīng)的歌名、歌手名、歌手頭像以及音色相似度等信息發(fā)送至所述客戶端100,由此可見,所述系統(tǒng)不僅可以在唱歌水平這一維度上對用戶歌聲數(shù)據(jù)進(jìn)行分析,還可以在與明星歌聲的音色相似度這一維度上對用戶歌聲數(shù)據(jù)進(jìn)行分析,因此,使得所述客戶端100可以同時顯示唱歌分?jǐn)?shù)、各目標(biāo)預(yù)設(shè)明星歌聲數(shù)據(jù)分別對應(yīng)的歌名、歌手名、歌手頭像、音色相似度等信息,從而使與用戶歌聲數(shù)據(jù)的分析結(jié)果相關(guān)聯(lián)的展示內(nèi)容更加豐富。

      請參見圖2,是本發(fā)明實(shí)施例所提供的一種音頻數(shù)據(jù)處理方法的流程示意圖,所述方法可以包括:

      S201,客戶端獲取用戶音頻數(shù)據(jù),并將所述用戶音頻數(shù)據(jù)發(fā)送至所述服務(wù)器;

      具體的,所述客戶端可以獲取用戶所輸入的用戶音頻數(shù)據(jù)。例如,當(dāng)用戶在唱歌時,所述客戶端可以通過麥克風(fēng)獲取用戶的錄歌音頻,該錄歌音頻即為所述用戶音頻數(shù)據(jù)。當(dāng)用戶結(jié)束輸入所述用戶音頻數(shù)據(jù)時(如錄歌結(jié)束時),所述客戶端可以計(jì)算所獲取到的完整的所述用戶音頻數(shù)據(jù)對應(yīng)的音頻質(zhì)量分?jǐn)?shù),并顯示所述音頻質(zhì)量分?jǐn)?shù)以及音色相似度計(jì)算提示信息。同時,所述客戶端還可以將獲取到的完整的所述用戶音頻數(shù)據(jù)添加在音色相似度計(jì)算請求中,并將攜帶所述用戶音頻數(shù)據(jù)的音色相似度計(jì)算請求發(fā)送至服務(wù)器。

      請一并參見圖2a,是本發(fā)明實(shí)施例提供的一種客戶端界面展示圖,如圖2a所示,圖2a中的區(qū)域A正在顯示“SS”、“4829分”、“正在計(jì)算你的明星嗓指數(shù),稍等片刻”。其中,“SS”和“4829分”代表所述音頻質(zhì)量分?jǐn)?shù),“正在計(jì)算你的明星嗓指數(shù),稍等片刻”代表所述音色相似度計(jì)算提示信息。

      S202,所述服務(wù)器提取所述用戶音頻數(shù)據(jù)的用戶音頻特征,并根據(jù)所述用戶音頻特征分別計(jì)算所述用戶音頻數(shù)據(jù)與預(yù)設(shè)的音頻數(shù)據(jù)庫中的多個預(yù)設(shè)音頻數(shù)據(jù)之間的音色相似度;

      具體的,所述服務(wù)器可以提取所述用戶音頻數(shù)據(jù)中每一幀數(shù)據(jù)分別對應(yīng)的用戶音頻特征,并對所述用戶音頻數(shù)據(jù)中包含有語音信息的幀數(shù)據(jù)設(shè)置有效數(shù)據(jù)標(biāo)簽,并根據(jù)攜帶有所述有效數(shù)據(jù)標(biāo)簽的幀數(shù)據(jù)所對應(yīng)的用戶音頻特征以及預(yù)設(shè)的個性化音色計(jì)算模型,計(jì)算所述用戶音頻數(shù)據(jù)對應(yīng)的個性化音色向量,最后再分別計(jì)算所述用戶音頻數(shù)據(jù)對應(yīng)的個性化音音色向量與各預(yù)設(shè)音頻數(shù)據(jù)對應(yīng)的個性化音色向量之間的向量余弦距離;所述個性化音色計(jì)算模型是基于預(yù)設(shè)的共性音色計(jì)算模型和所述多個預(yù)設(shè)音頻數(shù)據(jù)訓(xùn)練得到的,且一個向量余弦距離指所述用戶音頻數(shù)據(jù)與一個預(yù)設(shè)音頻數(shù)據(jù)之間的音色相似度。

      可選的,所述用戶音頻特征可以為MFCC(Mel Frequency Cepstrum Coefficient,梅爾頻率倒譜系數(shù))音頻特征;所述共性音色計(jì)算模型可以為UBM(Universal Background Model,通用背景模型),所述個性化音色計(jì)算模型為I-vector計(jì)算模型。

      其中,對所述用戶音頻數(shù)據(jù)中包含有語音信息的幀數(shù)據(jù)設(shè)置有效數(shù)據(jù)標(biāo)簽的過程可以包括VAD(Voice Activity Detection,語音活動檢測)檢測,其具體過程可以為:對所述用戶音頻數(shù)據(jù)中每一幀數(shù)據(jù)分別對應(yīng)的MFCC音頻特征中的首位數(shù)據(jù)(MFCC音頻特征中的首位數(shù)據(jù)是用于代表信號的能量)進(jìn)行歸一化處理,得到待匹配信號能量值;再將所述用戶音頻數(shù)據(jù)中每一幀數(shù)據(jù)分別對應(yīng)的待匹配信號能量值分別與預(yù)設(shè)能量閾值進(jìn)行比較,并根據(jù)比較結(jié)果對每一幀數(shù)據(jù)進(jìn)行識別,以識別出包含語音信息的幀數(shù)據(jù)和不包含語音信息的幀數(shù)據(jù)(如若某一幀數(shù)據(jù)對應(yīng)的待匹配信號能量值大于所述預(yù)設(shè)能量閾值,則根據(jù)該比較結(jié)果可以確定該幀數(shù)據(jù)包含語音信息;如若某一幀數(shù)據(jù)對應(yīng)的待匹配信號能量值小于或等于所述預(yù)設(shè)能量閾值,則根據(jù)該比較結(jié)果可以確定該幀數(shù)據(jù)不包含語音信息);再為所述包含有語音信息的幀數(shù)據(jù)設(shè)置有效數(shù)據(jù)標(biāo)簽,并將所述不包含語音信息的幀數(shù)據(jù)刪除。

      可選的,所述服務(wù)器預(yù)先訓(xùn)練所述UBM和所述I-vector計(jì)算模型的具體過程可以為:所述服務(wù)器提取各預(yù)設(shè)音頻數(shù)據(jù)中每一幀數(shù)據(jù)分別對應(yīng)的預(yù)設(shè)音頻特征(所述預(yù)設(shè)音頻特征可以為MFCC音頻特征),并對攜帶有有效數(shù)據(jù)標(biāo)簽的預(yù)設(shè)音頻特征進(jìn)行歸一化處理;所述有效數(shù)據(jù)標(biāo)簽是用于標(biāo)識包含有語音信息的幀數(shù)據(jù)的標(biāo)簽;再利用已歸一化且攜帶有有效數(shù)據(jù)標(biāo)簽的預(yù)設(shè)音頻特征,通過EM算法(Expectation Maximization Algorithm,期望最大化算法),訓(xùn)練出UBM。UBM是一個GMM(Gaussian Mixture Model,混合高斯模型),GMM本質(zhì)上是一種多維概率密度函數(shù),對于M階GMM的概率密度函數(shù)可以使用如下公式表示:

      <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>|</mo> <mi>&lambda;</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <mi>P</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>k</mi> <mo>|</mo> <mi>&lambda;</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>c</mi> <mi>k</mi> </msub> <mi>P</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>|</mo> <mi>k</mi> <mo>,</mo> <mi>&lambda;</mi> <mo>)</mo> </mrow> </mrow>

      其中,

      <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>c</mi> <mi>k</mi> </msub> <mo>=</mo> <mn>1</mn> </mrow>

      M階GMM是用M個單高斯分布組成的,每個單高斯分布如下式:

      <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>|</mo> <mi>k</mi> <mo>,</mo> <mi>&lambda;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <msup> <mrow> <mo>(</mo> <mn>2</mn> <mi>&pi;</mi> <mo>)</mo> </mrow> <mrow> <mi>K</mi> <mo>/</mo> <mn>2</mn> </mrow> </msup> <mo>|</mo> <msub> <mo>&Sigma;</mo> <mi>k</mi> </msub> <msup> <mo>|</mo> <mrow> <mn>1</mn> <mo>/</mo> <mn>2</mn> </mrow> </msup> </mrow> </mfrac> <mi>exp</mi> <mo>&lsqb;</mo> <mo>-</mo> <mfrac> <mrow> <msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>-</mo> <msub> <mi>&mu;</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mi>T</mi> </msup> <msubsup> <mo>&Sigma;</mo> <mi>k</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mrow> <mo>(</mo> <mi>x</mi> <mo>-</mo> <msub> <mi>&mu;</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> <mn>2</mn> </mfrac> <mo>&rsqb;</mo> <mo>,</mo> </mrow>

      也就是說一個單高斯分布是一個多維的正態(tài)分布。一個GMM的訓(xùn)練過程,就是已知N個數(shù)據(jù)點(diǎn),假設(shè)服從M階GMM分布的情況下,估計(jì)出影響因子ck、均值μk和協(xié)方差∑k這些參數(shù),這些參數(shù)所確定的概率分布生成所述已知N個數(shù)據(jù)點(diǎn)的概率最大,而這個概率實(shí)際上等于這個乘積稱為似然函數(shù)。通常單個點(diǎn)的概率都很小,為了防止計(jì)算過程中下溢,通常會對其取對數(shù),把乘積變?yōu)榍蠛偷鹊絃og似然函數(shù),接下來只要將這個函數(shù)最大化,即找到這樣一組參數(shù)值,它讓似然函數(shù)取得最大值,這樣的參數(shù)就是最合適的參數(shù),即完成了參數(shù)估計(jì)的過程,也就是模型訓(xùn)練。GMM的Log似然函數(shù)為:

      <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mi>log</mi> <mo>&lsqb;</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>c</mi> <mi>k</mi> </msub> <mi>P</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>|</mo> <mi>k</mi> <mo>,</mo> <mi>&lambda;</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow>

      由于在對數(shù)函數(shù)中有加和,沒辦法使用直接求導(dǎo)的方法求得最大值,但這里可以使用EM方法。EM算法流程如下:

      S11:估計(jì)數(shù)據(jù)由每個單高斯分布生成的概率:對于每個數(shù)據(jù)xi來說,它由第k個單高斯分布生成的概率為:

      <mrow> <mi>&gamma;</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>c</mi> <mi>k</mi> </msub> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>|</mo> <mi>k</mi> <mo>,</mo> <mi>&lambda;</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </msubsup> <msub> <mi>c</mi> <mi>j</mi> </msub> <mi>P</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>|</mo> <mi>j</mi> <mo>,</mo> <mi>&lambda;</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

      S12:通過極大似然估計(jì),可以求得μk、∑k的值:

      <mrow> <msub> <mi>&mu;</mi> <mi>k</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>N</mi> <mi>k</mi> </msub> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mi>&gamma;</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> </mrow>

      <mrow> <msub> <mo>&Sigma;</mo> <mi>k</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>N</mi> <mi>k</mi> </msub> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mi>&gamma;</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>&mu;</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>&mu;</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mi>T</mi> </msup> </mrow>

      其中,因此,重復(fù)以上S11和S12步驟,直到似然函數(shù)的值收斂位置。S11步驟為E-step,即估計(jì);S12步驟為M-step,即最大化。UBM模型訓(xùn)練好后,可以獲取所述UBM的均值向量,所述UBM的均值向量可以用于訓(xùn)練所述I-vector計(jì)算模型。I-vector是基于單一空間的跨信道算法,該空間既包含了說話人空間的信息也包含了信道空間的信息。對于給定的語音,高斯超向量表示如下:

      M=m+Tw,

      其中,m是說話人無關(guān)且信道無關(guān)的超向量,通常為UBM的均值向量拼接而成,即上述UBM中的μk;T是一個低秩的矩陣;w是服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)向量,這個隨機(jī)向量簡稱I-vector。其中,T的訓(xùn)練算法中所涉及到的輸入?yún)?shù)包括已歸一化且攜帶有有效數(shù)據(jù)標(biāo)簽的預(yù)設(shè)音頻特征、T的秩rank、UBM和最大迭代次數(shù),輸出參數(shù)包括rank*CF的矩陣T。T的訓(xùn)練算法包括如下步驟S21-S27:

      S21,計(jì)算零階、一階及二階統(tǒng)計(jì)量,隨機(jī)初始化T。記當(dāng)前迭代次數(shù)為It=0:

      <mrow> <msub> <mi>N</mi> <mi>c</mi> </msub> <mrow> <mo>(</mo> <mi>h</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <msubsup> <mi>&gamma;</mi> <mi>t</mi> <mi>h</mi> </msubsup> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </mrow>

      <mrow> <msub> <mi>F</mi> <mi>c</mi> </msub> <mrow> <mo>(</mo> <mi>h</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <msubsup> <mi>&gamma;</mi> <mi>t</mi> <mi>h</mi> </msubsup> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> <msub> <mi>x</mi> <mi>t</mi> </msub> <mo>/</mo> <msub> <mi>N</mi> <mi>c</mi> </msub> <mrow> <mo>(</mo> <mi>h</mi> <mo>)</mo> </mrow> </mrow>

      其中,Nc(h)為語音h的零階充分統(tǒng)計(jì)量,F(xiàn)c(h)為一階充分統(tǒng)計(jì)量。其中,

      <mrow> <msubsup> <mi>&gamma;</mi> <mi>t</mi> <mi>h</mi> </msubsup> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&omega;</mi> <mi>c</mi> </msub> <mi>N</mi> <mrow> <mo>(</mo> <msubsup> <mi>x</mi> <mi>k</mi> <mi>h</mi> </msubsup> <mo>|</mo> <msub> <mi>M</mi> <mi>c</mi> </msub> <mo>,</mo> <msub> <mo>&Sigma;</mo> <mi>c</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>c</mi> </msubsup> <msub> <mi>&omega;</mi> <mi>l</mi> </msub> <mi>N</mi> <mrow> <mo>(</mo> <msubsup> <mi>x</mi> <mi>l</mi> <mi>h</mi> </msubsup> <mo>|</mo> <msub> <mi>M</mi> <mi>l</mi> </msub> <mo>,</mo> <msub> <mo>&Sigma;</mo> <mi>l</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> </mrow>

      且該值為語音段h的第t幀特征在GMM模型第c個混元上的狀態(tài)占有概率。

      S22,中心化一階統(tǒng)計(jì)量

      S23,擴(kuò)展統(tǒng)計(jì)量為矩陣,方便運(yùn)算:

      其中,I為F*F的單位矩陣。FF(h)為CF*1的列向量。

      S24,計(jì)算說話人因子方差與均值:

      <mrow> <msub> <mi>l</mi> <mi>T</mi> </msub> <mrow> <mo>(</mo> <mi>h</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>I</mi> <mo>+</mo> <msup> <mi>T</mi> <mi>T</mi> </msup> <msup> <mo>&Sigma;</mo> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mi>N</mi> <mi>N</mi> <mrow> <mo>(</mo> <mi>h</mi> <mo>)</mo> </mrow> <mi>T</mi> <mo>,</mo> <mi>y</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>I</mi> <mi>T</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <msup> <mi>T</mi> <mi>T</mi> </msup> <msup> <mo>&Sigma;</mo> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mi>F</mi> <mi>F</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </mrow>

      S25,累積所有語音的統(tǒng)計(jì)量:

      <mrow> <msub> <mi>N</mi> <mi>c</mi> </msub> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>h</mi> </munder> <msub> <mi>N</mi> <mi>c</mi> </msub> <mrow> <mo>(</mo> <mi>h</mi> <mo>)</mo> </mrow> </mrow>

      <mrow> <msub> <mi>A</mi> <mi>c</mi> </msub> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>h</mi> </munder> <msub> <mi>N</mi> <mi>c</mi> </msub> <mrow> <mo>(</mo> <mi>h</mi> <mo>)</mo> </mrow> <msubsup> <mi>l</mi> <mi>t</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mrow> <mo>(</mo> <mi>h</mi> <mo>)</mo> </mrow> </mrow>

      <mrow> <mi>C</mi> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>h</mi> </munder> <mi>F</mi> <mi>F</mi> <mrow> <mo>(</mo> <mi>h</mi> <mo>)</mo> </mrow> <mi>y</mi> <msup> <mrow> <mo>(</mo> <mi>h</mi> <mo>)</mo> </mrow> <mi>T</mi> </msup> </mrow>

      S26,更新V:

      S27,It自增。若It已大于迭代次數(shù)則結(jié)束訓(xùn)練,否則返回S24步驟。以上訓(xùn)練完成后即可得到總的變化矩陣T,然后計(jì)算總變化因子w(I-vector),它的計(jì)算公式為:

      <mrow> <mi>w</mi> <mo>=</mo> <msup> <mrow> <mo>(</mo> <mi>I</mi> <mo>+</mo> <msup> <mi>T</mi> <mi>T</mi> </msup> <msup> <mo>&Sigma;</mo> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mi>N</mi> <mo>(</mo> <mi>h</mi> <mo>)</mo> <mi>T</mi> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msup> <mi>T</mi> <mi>T</mi> </msup> <msup> <mo>&Sigma;</mo> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mover> <mi>F</mi> <mo>&OverBar;</mo> </mover> <mrow> <mo>(</mo> <mi>h</mi> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

      所述I-vector計(jì)算模型訓(xùn)練完后,即可基于所述I-vector計(jì)算模型計(jì)算所述各預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的個性化音色向量,并保存各預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的個性化音色向量,以便于后續(xù)用于計(jì)算與所述用戶音頻數(shù)據(jù)之間的音色相似度;所述個性化音色向量即為w(I-vector)值。

      其中,所述服務(wù)器計(jì)算所述用戶音頻數(shù)據(jù)對應(yīng)的個性化音色向量的具體過程可以為:對攜帶有所述有效數(shù)據(jù)標(biāo)簽的幀數(shù)據(jù)所對應(yīng)的用戶音頻特征進(jìn)行歸一化處理,并將已歸一化且攜帶有有效數(shù)據(jù)標(biāo)簽的用戶音頻特征輸入所述I-vector計(jì)算模型中,通過所述I-vector計(jì)算模型(即上述的總變化因子w(I-vector)的計(jì)算公式)計(jì)算出所述用戶音頻數(shù)據(jù)對應(yīng)的w(I-vector)值。

      其中,所述服務(wù)器在計(jì)算所述用戶音頻數(shù)據(jù)對應(yīng)的個性化音色向量與各預(yù)設(shè)音頻數(shù)據(jù)對應(yīng)的個性化音色向量之間的音色相似度時,具體可以利用向量間的余弦距離來表示音色相似度,如余弦距離計(jì)算公式為:w1可以表示所述用戶音頻數(shù)據(jù)對應(yīng)的個性化音音色向量,w2可以表示其中一個預(yù)設(shè)音頻數(shù)據(jù)對應(yīng)的個性化音色向量,因此,所述用戶音頻數(shù)據(jù)與該預(yù)設(shè)音頻數(shù)據(jù)之間的向量余弦距離即為k(w1,w2),即音色相似度為k。

      S203,所述服務(wù)器從所述多個預(yù)設(shè)音頻數(shù)據(jù)中選取預(yù)設(shè)匹配數(shù)量的目標(biāo)預(yù)設(shè)音頻數(shù)據(jù),并將各目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度發(fā)送至所述客戶端;

      具體的,所述服務(wù)器可以對所述用戶音頻數(shù)據(jù)與各預(yù)設(shè)音頻數(shù)據(jù)之間的音色相似度進(jìn)行排序,得到音色相似度排序表,再從所述音色相似度排序表中按序獲取預(yù)設(shè)匹配數(shù)量的音色相似度,作為目標(biāo)音色相似度;所述目標(biāo)音色相似度的數(shù)量等于所述預(yù)設(shè)匹配數(shù)量;所述服務(wù)器進(jìn)一步獲取每個所述目標(biāo)音色相似度所對應(yīng)的預(yù)設(shè)音頻數(shù)據(jù),作為目標(biāo)音頻數(shù)據(jù),并將各所述目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度發(fā)送至所述客戶端。例如,所述預(yù)設(shè)匹配數(shù)量為3,那么服務(wù)器將會把排前三的音色相似度所對應(yīng)的預(yù)設(shè)音頻數(shù)據(jù)確定為目標(biāo)預(yù)設(shè)音頻數(shù)據(jù),然后將這三個目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度發(fā)送至所述客戶端。所述音頻屬性信息可以包括目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)對應(yīng)的歌名、歌手名字、歌手頭像以及預(yù)設(shè)文案內(nèi)容,如某個預(yù)設(shè)文案內(nèi)容可以為“你也有海豚音”。

      S204,所述客戶端在預(yù)設(shè)顯示區(qū)域?qū)λ龈髂繕?biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度進(jìn)行顯示;

      具體的,當(dāng)所述客戶端接收到所述各目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度時,所述客戶端可以對所述音頻質(zhì)量分?jǐn)?shù)對應(yīng)的圖形面積進(jìn)行動態(tài)縮小,并在第二預(yù)設(shè)顯示區(qū)域中顯示圖形面積縮小后的所述音頻質(zhì)量分?jǐn)?shù),并取消對所述音色相似度計(jì)算提示信息的顯示,使得所述客戶端的當(dāng)前界面可以空出部分顯示區(qū)域(所空出的部分顯示區(qū)域即為第一預(yù)設(shè)顯示區(qū)域),此時可以進(jìn)一步在所述第一預(yù)設(shè)顯示區(qū)域顯示所述各目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度。

      請一并參見圖2b,是本發(fā)明實(shí)施例所提供的另一種客戶端界面展示圖,圖2b中的區(qū)域B是所述第二預(yù)設(shè)顯示區(qū)域,區(qū)域C是所述第一預(yù)設(shè)顯示區(qū)域,當(dāng)所述客戶端接收到所述各目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度時,圖2a中的區(qū)域A中的所述音頻質(zhì)量分?jǐn)?shù)對應(yīng)的圖形面積在動態(tài)縮小,并將動態(tài)縮小后的所述音頻質(zhì)量分?jǐn)?shù)顯示在圖2b中的區(qū)域B(即圖2b中所顯示的“SS”、“4829分”),同時取消對圖2a中的所述音色相似度計(jì)算提示信息的顯示,使得圖2a中的區(qū)域A可以空出來,進(jìn)而可以在圖2b中的區(qū)域C中顯示所述各目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度;其中,圖2b中的所述各目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度包括:3個目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度,分別為歌手A、歌手B、歌手C分別對應(yīng)的音頻屬性信息和音色相似度,也說明用戶的音色與這三位歌手的音色最為相似;其中,用戶與歌手A的音色相似度為0.96(即向量余弦距離為0.96),則可以在圖2b中的歌手A頭像下面顯示相應(yīng)文案內(nèi)容:“相似度96%”、“你也有海豚音”;其中,用戶與歌手B的音色相似度為0.9(即向量余弦距離為0.9),則可以在圖2b中的歌手B的頭像下面顯示相應(yīng)文案內(nèi)容“相似度90%”、“翻版XXX就是你”;其中,用戶與歌手C的音色相似度為0.88(即向量余弦距離為0.88),則可以在歌手C的頭像下面顯示相應(yīng)文案內(nèi)容:“相似度88%”、“你也是舞娘嗎?”

      可選的,當(dāng)所述服務(wù)器檢測出所述各目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音色相似度中的最大音色相似度大于預(yù)設(shè)相似度閾值時,所述服務(wù)器將所述最大音色相似度對應(yīng)的目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)的音頻屬性信息、所述最大音色相似度以及所述客戶端的用戶信息發(fā)送至與所述客戶端的用戶信息具有好友關(guān)聯(lián)關(guān)系的多個好友客戶端。例如,預(yù)設(shè)相似度閾值為0.9,而多個目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音色相似度中的最大音色相似度為0.93,則所述服務(wù)器可以將音色相似度為0.93的目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)的音頻屬性信息、為0.93的音色相似度以及所述客戶端的用戶信息發(fā)送至與所述客戶端的用戶信息具有好友關(guān)聯(lián)關(guān)系的多個好友客戶端。

      本發(fā)明實(shí)施例中的客戶端將獲取到的用戶音頻數(shù)據(jù)發(fā)送到服務(wù)器,使得服務(wù)器可以計(jì)算所述用戶音頻數(shù)據(jù)與預(yù)設(shè)的音頻數(shù)據(jù)庫中的多個預(yù)設(shè)音頻數(shù)據(jù)之間的音色相似度,進(jìn)而根據(jù)各音色相似度的排序從中選擇出目標(biāo)預(yù)設(shè)音頻數(shù)據(jù),并將目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)對應(yīng)的音頻屬性信息和音色相似度發(fā)送至所述客戶端;由于不再僅限于在唱歌水平的維度上對用戶音頻數(shù)據(jù)進(jìn)行分析,所以使得所述客戶端不僅可以顯示用戶音頻數(shù)據(jù)的音頻質(zhì)量分?jǐn)?shù),還可以顯示目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)對應(yīng)的音頻屬性信息和音色相似度,從而使與用戶音頻數(shù)據(jù)的分析結(jié)果相關(guān)聯(lián)的展示內(nèi)容更加豐富。

      請參見圖3,是本發(fā)明實(shí)施例提供的一種音頻數(shù)據(jù)處理方法的時序示意圖,所述方法可以包括:

      S301,客戶端獲取用戶音頻數(shù)據(jù),并計(jì)算和顯示所述用戶音頻數(shù)據(jù)對應(yīng)的音頻質(zhì)量分?jǐn)?shù);

      具體的,所述客戶端可以獲取用戶所輸入的用戶音頻數(shù)據(jù)。例如,當(dāng)用戶在唱歌時,所述客戶端可以通過麥克風(fēng)獲取用戶的錄歌音頻,該錄歌音頻即為所述用戶音頻數(shù)據(jù)。當(dāng)用戶結(jié)束輸入所述用戶音頻數(shù)據(jù)時(如錄歌結(jié)束時),所述客戶端可以計(jì)算所獲取到的完整的所述用戶音頻數(shù)據(jù)對應(yīng)的音頻質(zhì)量分?jǐn)?shù),并顯示所述音頻質(zhì)量分?jǐn)?shù)以及音色相似度計(jì)算提示信息。例如,所述音色相似度計(jì)算提示信息可以為一組字符串:“正在計(jì)算你的明星嗓指數(shù),稍等片刻”。

      S302,所述客戶端發(fā)送所述用戶音頻數(shù)據(jù)到服務(wù)器;

      具體的,所述客戶端還可以將獲取到的完整的所述用戶音頻數(shù)據(jù)添加在音色相似度計(jì)算請求中,并將攜帶所述用戶音頻數(shù)據(jù)的音色相似度計(jì)算請求發(fā)送至服務(wù)器。

      S303,所述服務(wù)器基于訓(xùn)練好的I-vector計(jì)算模型計(jì)算所述用戶音頻數(shù)據(jù)對應(yīng)的個性化音色向量;

      具體的,在S301步驟之前,所述服務(wù)器可以預(yù)設(shè)一個音頻數(shù)據(jù)庫中(所述音頻數(shù)據(jù)庫包括多個預(yù)設(shè)音頻數(shù)據(jù)),并預(yù)設(shè)I-vector計(jì)算模型,并基于I-vector計(jì)算模型預(yù)先計(jì)算各預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的個性化音色向量,其中,所述服務(wù)器的預(yù)設(shè)過程可以具體為:所述服務(wù)器提取各預(yù)設(shè)音頻數(shù)據(jù)中每一幀數(shù)據(jù)分別對應(yīng)的預(yù)設(shè)音頻特征,并對攜帶有有效數(shù)據(jù)標(biāo)簽的預(yù)設(shè)音頻特征進(jìn)行歸一化處理;所述有效數(shù)據(jù)標(biāo)簽是用于標(biāo)識包含有語音信息的幀數(shù)據(jù)的標(biāo)簽(通過VAD檢測即可檢測出幀數(shù)據(jù)是否包含語音信息);所述服務(wù)器再基于最大期望EM算法和已歸一化且攜帶有有效數(shù)據(jù)標(biāo)簽的預(yù)設(shè)音頻特征訓(xùn)練UBM的模型參數(shù),并在所述UBM的模型參數(shù)訓(xùn)練完成后獲取所述UBM的均值向量,并基于所述UBM的均值向量、所述已歸一化且攜帶有有效數(shù)據(jù)標(biāo)簽的預(yù)設(shè)音頻特征以及預(yù)設(shè)的迭代次數(shù)訓(xùn)練I-vector計(jì)算模型中的低秩矩陣,并在低秩矩陣訓(xùn)練完成后,所述服務(wù)器基于所述I-vector計(jì)算模型計(jì)算所述各預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的個性化音色向量;所述個性化音色向量為I-vector值。其中,訓(xùn)練UBM的模型參數(shù)和訓(xùn)練I-vector計(jì)算模型中的低秩矩陣的具體實(shí)現(xiàn)過程可以參見上述圖2對應(yīng)實(shí)施例中的S202中對所述UBM和所述I-vector計(jì)算模型的具體訓(xùn)練過程,這里不再進(jìn)贅述。

      當(dāng)所述服務(wù)器接收到所述客戶端發(fā)送的所述用戶音頻數(shù)據(jù)時,所述服務(wù)器可以提取所述用戶音頻數(shù)據(jù)中每一幀數(shù)據(jù)分別對應(yīng)的用戶音頻特征,所述用戶音頻特征可以為MFCC音頻特征;所述服務(wù)器可以進(jìn)一步對所述用戶音頻數(shù)據(jù)中每一幀數(shù)據(jù)分別對應(yīng)的MFCC音頻特征中的首位數(shù)據(jù)(MFCC音頻特征中的首位數(shù)據(jù)是用于代表信號的能量)進(jìn)行歸一化處理,得到待匹配信號能量值,并將所述用戶音頻數(shù)據(jù)中每一幀數(shù)據(jù)分別對應(yīng)的待匹配信號能量值分別與預(yù)設(shè)能量閾值進(jìn)行比較,并根據(jù)比較結(jié)果對每一幀數(shù)據(jù)進(jìn)行識別,以識別出包含語音信息的幀數(shù)據(jù)和不包含語音信息的幀數(shù)據(jù),并為所述包含有語音信息的幀數(shù)據(jù)設(shè)置有效數(shù)據(jù)標(biāo)簽,并將所述不包含語音信息的幀數(shù)據(jù)刪除;所述服務(wù)器再對攜帶有所述有效數(shù)據(jù)標(biāo)簽的幀數(shù)據(jù)所對應(yīng)的用戶音頻特征進(jìn)行歸一化處理,并將已歸一化且攜帶有有效數(shù)據(jù)標(biāo)簽的用戶音頻特征輸入所述I-vector計(jì)算模型中,通過所述I-vector計(jì)算模型計(jì)算出所述用戶音頻數(shù)據(jù)對應(yīng)的w(I-vector)值(即所述用戶音頻數(shù)據(jù)對應(yīng)的個性化音色向量)。

      S304,所述服務(wù)器分別計(jì)算所述用戶音頻數(shù)據(jù)對應(yīng)的個性化音音色向量與各預(yù)設(shè)音頻數(shù)據(jù)對應(yīng)的個性化音色向量之間的音色相似度;

      具體的,所述服務(wù)器在計(jì)算所述用戶音頻數(shù)據(jù)對應(yīng)的個性化音色向量與各預(yù)設(shè)音頻數(shù)據(jù)對應(yīng)的個性化音色向量之間的音色相似度時,具體可以利用向量間的余弦距離來表示音色相似度,如余弦距離計(jì)算公式為:w1可以表示所述用戶音頻數(shù)據(jù)對應(yīng)的個性化音音色向量,w2可以表示其中一個預(yù)設(shè)音頻數(shù)據(jù)對應(yīng)的個性化音色向量,因此,所述用戶音頻數(shù)據(jù)與該預(yù)設(shè)音頻數(shù)據(jù)之間的向量余弦距離即為k(w1,w2),即音色相似度為k。

      S305,所述服務(wù)器對所述用戶音頻數(shù)據(jù)與各預(yù)設(shè)音頻數(shù)據(jù)之間的音色相似度進(jìn)行排序,得到音色相似度排序表;

      S306,所述服務(wù)器從所述音色相似度排序表中按序獲取預(yù)設(shè)匹配數(shù)量的音色相似度,作為目標(biāo)音色相似度;

      例如,所述預(yù)設(shè)匹配數(shù)量為3,那么所述服務(wù)器將會把排前三的音色相似度確定為目標(biāo)音色相似度。

      S307,所述服務(wù)器獲取每個所述目標(biāo)音色相似度所對應(yīng)的預(yù)設(shè)音頻數(shù)據(jù),作為目標(biāo)音頻數(shù)據(jù);

      S308,所述服務(wù)器將各所述目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度發(fā)送至所述客戶端;

      具體的,所述音頻屬性信息可以包括目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)對應(yīng)的歌名、歌手名字、歌手頭像以及預(yù)設(shè)文案內(nèi)容,如某個預(yù)設(shè)文案內(nèi)容可以為“你也有海豚音”。

      S309,所述客戶端對所述音頻質(zhì)量分?jǐn)?shù)對應(yīng)的圖形面積進(jìn)行動態(tài)縮小,并在第二預(yù)設(shè)顯示區(qū)域中顯示圖形面積縮小后的所述音頻質(zhì)量分?jǐn)?shù),并在第一預(yù)設(shè)顯示區(qū)域顯示所述各目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度;

      具體的,當(dāng)所述客戶端接收到所述各目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度時,所述客戶端可以對所述音頻質(zhì)量分?jǐn)?shù)對應(yīng)的圖形面積進(jìn)行動態(tài)縮小,并在第二預(yù)設(shè)顯示區(qū)域中顯示圖形面積縮小后的所述音頻質(zhì)量分?jǐn)?shù),并取消對所述音色相似度計(jì)算提示信息的顯示,使得所述客戶端的當(dāng)前界面可以空出部分顯示區(qū)域(所空出的部分顯示區(qū)域即為第一預(yù)設(shè)顯示區(qū)域),此時可以進(jìn)一步在所述第一預(yù)設(shè)顯示區(qū)域顯示所述各目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度。

      本發(fā)明實(shí)施例中的客戶端將獲取到的用戶音頻數(shù)據(jù)發(fā)送到服務(wù)器,使得服務(wù)器可以計(jì)算所述用戶音頻數(shù)據(jù)與預(yù)設(shè)的音頻數(shù)據(jù)庫中的多個預(yù)設(shè)音頻數(shù)據(jù)之間的音色相似度,進(jìn)而根據(jù)各音色相似度的排序從中選擇出目標(biāo)預(yù)設(shè)音頻數(shù)據(jù),并將目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)對應(yīng)的音頻屬性信息和音色相似度發(fā)送至所述客戶端;由于不再僅限于在唱歌水平的維度上對用戶音頻數(shù)據(jù)進(jìn)行分析,所以使得所述客戶端不僅可以顯示用戶音頻數(shù)據(jù)的音頻質(zhì)量分?jǐn)?shù),還可以顯示目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)對應(yīng)的音頻屬性信息和音色相似度,從而使與用戶音頻數(shù)據(jù)的分析結(jié)果相關(guān)聯(lián)的展示內(nèi)容更加豐富。

      請參見圖4,是本發(fā)明實(shí)施例提供的另一種音頻數(shù)據(jù)處理方法的流程示意圖,所述方法可以包括:

      S401,服務(wù)器接收客戶端發(fā)送的用戶音頻數(shù)據(jù);

      S402,所述服務(wù)器提取所述用戶音頻數(shù)據(jù)的用戶音頻特征,并根據(jù)所述用戶音頻特征分別計(jì)算所述用戶音頻數(shù)據(jù)與預(yù)設(shè)的音頻數(shù)據(jù)庫中的多個預(yù)設(shè)音頻數(shù)據(jù)之間的音色相似度;

      S403,所述服務(wù)器從所述多個預(yù)設(shè)音頻數(shù)據(jù)中選取預(yù)設(shè)匹配數(shù)量的目標(biāo)預(yù)設(shè)音頻數(shù)據(jù),并將各目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度發(fā)送至所述客戶端,以使所述客戶端在第一預(yù)設(shè)顯示區(qū)域顯示所述各目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度,并在第二預(yù)設(shè)顯示區(qū)域顯示所述用戶音頻數(shù)據(jù)對應(yīng)的音頻質(zhì)量分?jǐn)?shù)。

      其中,S401-S403步驟的具體實(shí)現(xiàn)方式可以參見上述圖2對應(yīng)實(shí)施例中的S201-S204,這里不再進(jìn)行贅述。

      本發(fā)明實(shí)施例中的客戶端將獲取到的用戶音頻數(shù)據(jù)發(fā)送到服務(wù)器,使得服務(wù)器可以計(jì)算所述用戶音頻數(shù)據(jù)與預(yù)設(shè)的音頻數(shù)據(jù)庫中的多個預(yù)設(shè)音頻數(shù)據(jù)之間的音色相似度,進(jìn)而根據(jù)各音色相似度的排序從中選擇出目標(biāo)預(yù)設(shè)音頻數(shù)據(jù),并將目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)對應(yīng)的音頻屬性信息和音色相似度發(fā)送至所述客戶端;由于不再僅限于在唱歌水平的維度上對用戶音頻數(shù)據(jù)進(jìn)行分析,所以使得所述客戶端不僅可以顯示用戶音頻數(shù)據(jù)的音頻質(zhì)量分?jǐn)?shù),還可以顯示目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)對應(yīng)的音頻屬性信息和音色相似度,從而使與用戶音頻數(shù)據(jù)的分析結(jié)果相關(guān)聯(lián)的展示內(nèi)容更加豐富。

      請參見圖5,是本發(fā)明實(shí)施例提供的一種音頻數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖。所述音頻數(shù)據(jù)處理裝置1可以應(yīng)用于服務(wù)器中,所述音頻數(shù)據(jù)處理裝置1可以包括:預(yù)設(shè)提取處理模塊40、預(yù)設(shè)訓(xùn)練模塊50、預(yù)設(shè)計(jì)算模塊60、接收模塊10、計(jì)算模塊20、選擇發(fā)送模塊30;

      所述預(yù)設(shè)提取處理模塊40,用于提取各預(yù)設(shè)音頻數(shù)據(jù)中每一幀數(shù)據(jù)分別對應(yīng)的預(yù)設(shè)音頻特征,并對攜帶有有效數(shù)據(jù)標(biāo)簽的預(yù)設(shè)音頻特征進(jìn)行歸一化處理;所述有效數(shù)據(jù)標(biāo)簽是用于標(biāo)識包含有語音信息的幀數(shù)據(jù)的標(biāo)簽;

      所述預(yù)設(shè)訓(xùn)練模塊50,用于基于最大期望EM算法和已歸一化且攜帶有有效數(shù)據(jù)標(biāo)簽的預(yù)設(shè)音頻特征訓(xùn)練UBM的模型參數(shù),并在所述UBM的模型參數(shù)訓(xùn)練完成后獲取所述UBM的均值向量;

      所述預(yù)設(shè)訓(xùn)練模塊50,還用于基于所述UBM的均值向量、所述已歸一化且攜帶有有效數(shù)據(jù)標(biāo)簽的預(yù)設(shè)音頻特征以及預(yù)設(shè)的迭代次數(shù)訓(xùn)練I-vector計(jì)算模型中的低秩矩陣;

      所述預(yù)設(shè)計(jì)算模塊60,用于在低秩矩陣訓(xùn)練完成后,基于所述I-vector計(jì)算模型計(jì)算所述各預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的個性化音色向量;所述個性化音色向量為I-vector值。

      其中,所述預(yù)設(shè)提取處理模塊40、所述預(yù)設(shè)訓(xùn)練模塊50以及所述預(yù)設(shè)計(jì)算模塊60的具體實(shí)現(xiàn)方式可以參見上述圖2對應(yīng)實(shí)施例中的S202步驟中的所述服務(wù)器預(yù)先訓(xùn)練所述UBM和所述I-vector計(jì)算模型的具體過程,這里不再進(jìn)行贅述。

      所述接收模塊10,用于接收客戶端發(fā)送的用戶音頻數(shù)據(jù);

      具體的,所述客戶端可以獲取用戶所輸入的用戶音頻數(shù)據(jù)。例如,當(dāng)用戶在唱歌時,所述客戶端可以通過麥克風(fēng)獲取用戶的錄歌音頻,該錄歌音頻即為所述用戶音頻數(shù)據(jù)。當(dāng)用戶結(jié)束輸入所述用戶音頻數(shù)據(jù)時(如錄歌結(jié)束時),所述客戶端可以計(jì)算所獲取到的完整的所述用戶音頻數(shù)據(jù)對應(yīng)的音頻質(zhì)量分?jǐn)?shù),并顯示所述音頻質(zhì)量分?jǐn)?shù)以及音色相似度計(jì)算提示信息。同時,所述客戶端還可以將獲取到的完整的所述用戶音頻數(shù)據(jù)添加在音色相似度計(jì)算請求中,因此,所述接收模塊10可以接收所述客戶端發(fā)送的攜帶所述用戶音頻數(shù)據(jù)的音色相似度計(jì)算請求。

      所述計(jì)算模塊20,用于提取所述用戶音頻數(shù)據(jù)的用戶音頻特征,并根據(jù)所述用戶音頻特征分別計(jì)算所述用戶音頻數(shù)據(jù)與預(yù)設(shè)的音頻數(shù)據(jù)庫中的多個預(yù)設(shè)音頻數(shù)據(jù)之間的音色相似度;

      具體的,請一并參見圖6,是所述計(jì)算模塊20的結(jié)構(gòu)示意圖,所述計(jì)算模塊20可以包括:特征提取單元201、標(biāo)簽設(shè)置單元202、計(jì)算單元203;

      所述特征提取單元201,用于提取所述用戶音頻數(shù)據(jù)中每一幀數(shù)據(jù)分別對應(yīng)的用戶音頻特征;所述用戶音頻特征可以為MFCC音頻特征;

      所述標(biāo)簽設(shè)置單元202,用于對所述用戶音頻數(shù)據(jù)中包含有語音信息的幀數(shù)據(jù)設(shè)置有效數(shù)據(jù)標(biāo)簽;

      所述計(jì)算單元203,用于根據(jù)攜帶有所述有效數(shù)據(jù)標(biāo)簽的幀數(shù)據(jù)所對應(yīng)的用戶音頻特征以及預(yù)設(shè)的個性化音色計(jì)算模型,計(jì)算所述用戶音頻數(shù)據(jù)對應(yīng)的個性化音色向量;所述個性化音色計(jì)算模型即為所述I-vector計(jì)算模型。此處的所述計(jì)算單元203可以具體用于對攜帶有所述有效數(shù)據(jù)標(biāo)簽的幀數(shù)據(jù)所對應(yīng)的用戶音頻特征進(jìn)行歸一化處理,并將已歸一化且攜帶有有效數(shù)據(jù)標(biāo)簽的用戶音頻特征輸入所述I-vector計(jì)算模型中,并基于所述I-vector計(jì)算模型計(jì)算出所述用戶音頻數(shù)據(jù)對應(yīng)的個性化音色向量。

      所述計(jì)算單元203,還用于分別計(jì)算所述用戶音頻數(shù)據(jù)對應(yīng)的個性化音音色向量與各預(yù)設(shè)音頻數(shù)據(jù)對應(yīng)的個性化音色向量之間的向量余弦距離;其中,一個向量余弦距離指所述用戶音頻數(shù)據(jù)與一個預(yù)設(shè)音頻數(shù)據(jù)之間的音色相似度。

      進(jìn)一步的,再請一并參見圖7,是本發(fā)明實(shí)施例提供的一種標(biāo)簽設(shè)置單元202的結(jié)構(gòu)示意圖,所述標(biāo)簽設(shè)置單元202可以包括:歸一化處理子單元2021、匹配識別子單元2022、設(shè)置刪除子單元2023;

      所述歸一化處理子單元2021,用于對所述用戶音頻數(shù)據(jù)中每一幀數(shù)據(jù)分別對應(yīng)的MFCC音頻特征中的首位數(shù)據(jù)進(jìn)行歸一化處理,得到待匹配信號能量值;

      所述匹配識別子單元2022,用于將所述用戶音頻數(shù)據(jù)中每一幀數(shù)據(jù)分別對應(yīng)的待匹配信號能量值分別與預(yù)設(shè)能量閾值進(jìn)行比較,并根據(jù)比較結(jié)果對每一幀數(shù)據(jù)進(jìn)行識別,以識別出包含語音信息的幀數(shù)據(jù)和不包含語音信息的幀數(shù)據(jù);

      所述設(shè)置刪除子單元2023,用于為所述包含有語音信息的幀數(shù)據(jù)設(shè)置有效數(shù)據(jù)標(biāo)簽,并將所述不包含語音信息的幀數(shù)據(jù)刪除。

      所述選擇發(fā)送模塊30,用于從所述多個預(yù)設(shè)音頻數(shù)據(jù)中選取預(yù)設(shè)匹配數(shù)量的目標(biāo)預(yù)設(shè)音頻數(shù)據(jù),并將各目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度發(fā)送至所述客戶端,以使所述客戶端在第一預(yù)設(shè)顯示區(qū)域顯示所述各目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度,并在第二預(yù)設(shè)顯示區(qū)域顯示所述用戶音頻數(shù)據(jù)對應(yīng)的音頻質(zhì)量分?jǐn)?shù)。

      具體的,再請一并參見圖8,是本發(fā)明實(shí)施例提供的一種選擇發(fā)送模塊30的結(jié)構(gòu)示意圖,所述選擇發(fā)送模塊30可以包括:排序單元301、選擇單元302、數(shù)據(jù)獲取單元303、發(fā)送單元304;

      所述排序單元301,用于對所述用戶音頻數(shù)據(jù)與各預(yù)設(shè)音頻數(shù)據(jù)之間的音色相似度進(jìn)行排序,得到音色相似度排序表;

      所述選擇單元302,用于從所述音色相似度排序表中按序獲取預(yù)設(shè)匹配數(shù)量的音色相似度,作為目標(biāo)音色相似度;所述目標(biāo)音色相似度的數(shù)量等于所述預(yù)設(shè)匹配數(shù)量;

      所述數(shù)據(jù)獲取單元303,用于獲取每個所述目標(biāo)音色相似度所對應(yīng)的預(yù)設(shè)音頻數(shù)據(jù),作為目標(biāo)音頻數(shù)據(jù);

      所述發(fā)送單元304,用于將各所述目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度發(fā)送至所述客戶端。

      其中,當(dāng)所述客戶端接收到所述各目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度時,所述客戶端可以對所述音頻質(zhì)量分?jǐn)?shù)對應(yīng)的圖形面積進(jìn)行動態(tài)縮小,并在第二預(yù)設(shè)顯示區(qū)域中顯示圖形面積縮小后的所述音頻質(zhì)量分?jǐn)?shù),并取消對所述音色相似度計(jì)算提示信息的顯示,使得所述客戶端的當(dāng)前界面可以空出部分顯示區(qū)域(所空出的部分顯示區(qū)域即為第一預(yù)設(shè)顯示區(qū)域),此時可以進(jìn)一步在所述第一預(yù)設(shè)顯示區(qū)域顯示所述各目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度。

      可選的,所述選擇發(fā)送模塊30還用于當(dāng)檢測出所述各目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音色相似度中的最大音色相似度大于預(yù)設(shè)相似度閾值時,將所述最大音色相似度對應(yīng)的目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)的音頻屬性信息、所述最大音色相似度以及所述客戶端的用戶信息發(fā)送至與所述客戶端的用戶信息具有好友關(guān)聯(lián)關(guān)系的多個好友客戶端。

      本發(fā)明實(shí)施例中的客戶端將獲取到的用戶音頻數(shù)據(jù)發(fā)送到服務(wù)器,使得服務(wù)器可以計(jì)算所述用戶音頻數(shù)據(jù)與預(yù)設(shè)的音頻數(shù)據(jù)庫中的多個預(yù)設(shè)音頻數(shù)據(jù)之間的音色相似度,進(jìn)而根據(jù)各音色相似度的排序從中選擇出目標(biāo)預(yù)設(shè)音頻數(shù)據(jù),并將目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)對應(yīng)的音頻屬性信息和音色相似度發(fā)送至所述客戶端;由于不再僅限于在唱歌水平的維度上對用戶音頻數(shù)據(jù)進(jìn)行分析,所以使得所述客戶端不僅可以顯示用戶音頻數(shù)據(jù)的音頻質(zhì)量分?jǐn)?shù),還可以顯示目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)對應(yīng)的音頻屬性信息和音色相似度,從而使與用戶音頻數(shù)據(jù)的分析結(jié)果相關(guān)聯(lián)的展示內(nèi)容更加豐富。

      請參見圖9,是本發(fā)明實(shí)施例提供的另一種音頻數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖。如圖9所示,所述音頻數(shù)據(jù)處理裝置1000可以應(yīng)用于服務(wù)器中,所述音頻數(shù)據(jù)處理裝置1000可以包括:至少一個處理器1001,例如CPU,至少一個網(wǎng)絡(luò)接口1004,用戶接口1003,存儲器1005,至少一個通信總線1002。其中,通信總線1002用于實(shí)現(xiàn)這些組件之間的連接通信。其中,用戶接口1003可以包括顯示屏(Display)、鍵盤(Keyboard),可選用戶接口1003還可以包括標(biāo)準(zhǔn)的有線接口、無線接口。網(wǎng)絡(luò)接口1004可選的可以包括標(biāo)準(zhǔn)的有線接口、無線接口(如WI-FI接口)。存儲器1005可以是高速RAM存儲器,也可以是非不穩(wěn)定的存儲器(non-volatile memory),例如至少一個磁盤存儲器。存儲器1005可選的還可以是至少一個位于遠(yuǎn)離前述處理器1001的存儲裝置。如圖9所示,作為一種計(jì)算機(jī)存儲介質(zhì)的存儲器1005中可以包括操作系統(tǒng)、網(wǎng)絡(luò)通信模塊、用戶接口模塊以及設(shè)備控制應(yīng)用程序。

      在圖9所示的音頻數(shù)據(jù)處理裝置1000中,網(wǎng)絡(luò)接口1004主要用于連接客戶端;而用戶接口1003主要用于為用戶提供輸入的接口,獲取用戶輸出的數(shù)據(jù);而處理器1001可以用于調(diào)用存儲器1005中存儲的設(shè)備控制應(yīng)用程序,以實(shí)現(xiàn)

      接收客戶端發(fā)送的用戶音頻數(shù)據(jù);

      提取所述用戶音頻數(shù)據(jù)的用戶音頻特征,并根據(jù)所述用戶音頻特征分別計(jì)算所述用戶音頻數(shù)據(jù)與預(yù)設(shè)的音頻數(shù)據(jù)庫中的多個預(yù)設(shè)音頻數(shù)據(jù)之間的音色相似度;

      從所述多個預(yù)設(shè)音頻數(shù)據(jù)中選取預(yù)設(shè)匹配數(shù)量的目標(biāo)預(yù)設(shè)音頻數(shù)據(jù),并將各目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度發(fā)送至所述客戶端,以使所述客戶端在第一預(yù)設(shè)顯示區(qū)域顯示所述各目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度,并在第二預(yù)設(shè)顯示區(qū)域顯示所述用戶音頻數(shù)據(jù)對應(yīng)的音頻質(zhì)量分?jǐn)?shù)。

      在一個實(shí)施例中,所述處理器1001在執(zhí)行從所述多個預(yù)設(shè)音頻數(shù)據(jù)中選取預(yù)設(shè)匹配數(shù)量的目標(biāo)預(yù)設(shè)音頻數(shù)據(jù),并將各目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度發(fā)送至所述客戶端時,具體執(zhí)行以下步驟:

      對所述用戶音頻數(shù)據(jù)與各預(yù)設(shè)音頻數(shù)據(jù)之間的音色相似度進(jìn)行排序,得到音色相似度排序表;

      從所述音色相似度排序表中按序獲取預(yù)設(shè)匹配數(shù)量的音色相似度,作為目標(biāo)音色相似度;所述目標(biāo)音色相似度的數(shù)量等于所述預(yù)設(shè)匹配數(shù)量;

      獲取每個所述目標(biāo)音色相似度所對應(yīng)的預(yù)設(shè)音頻數(shù)據(jù),作為目標(biāo)音頻數(shù)據(jù);

      將各所述目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音頻屬性信息和音色相似度發(fā)送至所述客戶端。

      在一個實(shí)施例中,所述處理器1001在執(zhí)行提取所述用戶音頻數(shù)據(jù)的用戶音頻特征,并根據(jù)所述用戶音頻特征分別計(jì)算所述用戶音頻數(shù)據(jù)與預(yù)設(shè)的音頻數(shù)據(jù)庫中的多個預(yù)設(shè)音頻數(shù)據(jù)之間的音色相似度時,具體執(zhí)行以下步驟:

      提取所述用戶音頻數(shù)據(jù)中每一幀數(shù)據(jù)分別對應(yīng)的用戶音頻特征;

      對所述用戶音頻數(shù)據(jù)中包含有語音信息的幀數(shù)據(jù)設(shè)置有效數(shù)據(jù)標(biāo)簽;

      根據(jù)攜帶有所述有效數(shù)據(jù)標(biāo)簽的幀數(shù)據(jù)所對應(yīng)的用戶音頻特征以及預(yù)設(shè)的個性化音色計(jì)算模型,計(jì)算所述用戶音頻數(shù)據(jù)對應(yīng)的個性化音色向量;所述個性化音色計(jì)算模型是基于預(yù)設(shè)的共性音色計(jì)算模型和所述多個預(yù)設(shè)音頻數(shù)據(jù)訓(xùn)練得到的;

      分別計(jì)算所述用戶音頻數(shù)據(jù)對應(yīng)的個性化音音色向量與各預(yù)設(shè)音頻數(shù)據(jù)對應(yīng)的個性化音色向量之間的向量余弦距離;

      其中,一個向量余弦距離指所述用戶音頻數(shù)據(jù)與一個預(yù)設(shè)音頻數(shù)據(jù)之間的音色相似度。

      在一個實(shí)施例中,所述用戶音頻特征為梅爾頻率倒譜系數(shù)MFCC音頻特征;

      則所述處理器1001在執(zhí)行對所述用戶音頻數(shù)據(jù)中包含有語音信息的幀數(shù)據(jù)設(shè)置有效數(shù)據(jù)標(biāo)簽時,具體執(zhí)行以下步驟:

      對所述用戶音頻數(shù)據(jù)中每一幀數(shù)據(jù)分別對應(yīng)的MFCC音頻特征中的首位數(shù)據(jù)進(jìn)行歸一化處理,得到待匹配信號能量值;

      將所述用戶音頻數(shù)據(jù)中每一幀數(shù)據(jù)分別對應(yīng)的待匹配信號能量值分別與預(yù)設(shè)能量閾值進(jìn)行比較,并根據(jù)比較結(jié)果對每一幀數(shù)據(jù)進(jìn)行識別,以識別出包含語音信息的幀數(shù)據(jù)和不包含語音信息的幀數(shù)據(jù);

      為所述包含有語音信息的幀數(shù)據(jù)設(shè)置有效數(shù)據(jù)標(biāo)簽,并將所述不包含語音信息的幀數(shù)據(jù)刪除。

      在一個實(shí)施例中,所述共性音色計(jì)算模型為通用背景模型UBM,所述個性化音色計(jì)算模型為I-vector計(jì)算模型;

      則所述處理器1001在執(zhí)行提取所述用戶音頻數(shù)據(jù)的用戶音頻特征之前,還執(zhí)行以下步驟:

      提取各預(yù)設(shè)音頻數(shù)據(jù)中每一幀數(shù)據(jù)分別對應(yīng)的預(yù)設(shè)音頻特征,并對攜帶有有效數(shù)據(jù)標(biāo)簽的預(yù)設(shè)音頻特征進(jìn)行歸一化處理;所述有效數(shù)據(jù)標(biāo)簽是用于標(biāo)識包含有語音信息的幀數(shù)據(jù)的標(biāo)簽;

      基于最大期望EM算法和已歸一化且攜帶有有效數(shù)據(jù)標(biāo)簽的預(yù)設(shè)音頻特征訓(xùn)練UBM的模型參數(shù),并在所述UBM的模型參數(shù)訓(xùn)練完成后獲取所述UBM的均值向量;

      基于所述UBM的均值向量、所述已歸一化且攜帶有有效數(shù)據(jù)標(biāo)簽的預(yù)設(shè)音頻特征以及預(yù)設(shè)的迭代次數(shù)訓(xùn)練I-vector計(jì)算模型中的低秩矩陣;

      在低秩矩陣訓(xùn)練完成后,基于所述I-vector計(jì)算模型計(jì)算所述各預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的個性化音色向量;所述個性化音色向量為I-vector值。

      在一個實(shí)施例中,所述處理器1001在執(zhí)行根據(jù)攜帶有所述有效數(shù)據(jù)標(biāo)簽的幀數(shù)據(jù)所對應(yīng)的用戶音頻特征以及預(yù)設(shè)的個性化音色計(jì)算模型,計(jì)算所述用戶音頻數(shù)據(jù)對應(yīng)的個性化音色向量時,具體執(zhí)行以下步驟:

      對攜帶有所述有效數(shù)據(jù)標(biāo)簽的幀數(shù)據(jù)所對應(yīng)的用戶音頻特征進(jìn)行歸一化處理;

      將已歸一化且攜帶有有效數(shù)據(jù)標(biāo)簽的用戶音頻特征輸入所述I-vector計(jì)算模型中,并基于所述I-vector計(jì)算模型計(jì)算出所述用戶音頻數(shù)據(jù)對應(yīng)的個性化音色向量。

      在一個實(shí)施例中,所述處理器1001還執(zhí)行以下步驟:

      當(dāng)檢測出所述各目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)分別對應(yīng)的音色相似度中的最大音色相似度大于預(yù)設(shè)相似度閾值時,將所述最大音色相似度對應(yīng)的目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)的音頻屬性信息、所述最大音色相似度以及所述客戶端的用戶信息發(fā)送至與所述客戶端的用戶信息具有好友關(guān)聯(lián)關(guān)系的多個好友客戶端。

      本發(fā)明實(shí)施例中的客戶端將獲取到的用戶音頻數(shù)據(jù)發(fā)送到服務(wù)器,使得服務(wù)器可以計(jì)算所述用戶音頻數(shù)據(jù)與預(yù)設(shè)的音頻數(shù)據(jù)庫中的多個預(yù)設(shè)音頻數(shù)據(jù)之間的音色相似度,進(jìn)而根據(jù)各音色相似度的排序從中選擇出目標(biāo)預(yù)設(shè)音頻數(shù)據(jù),并將目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)對應(yīng)的音頻屬性信息和音色相似度發(fā)送至所述客戶端;由于不再僅限于在唱歌水平的維度上對用戶音頻數(shù)據(jù)進(jìn)行分析,所以使得所述客戶端不僅可以顯示用戶音頻數(shù)據(jù)的音頻質(zhì)量分?jǐn)?shù),還可以顯示目標(biāo)預(yù)設(shè)音頻數(shù)據(jù)對應(yīng)的音頻屬性信息和音色相似度,從而使與用戶音頻數(shù)據(jù)的分析結(jié)果相關(guān)聯(lián)的展示內(nèi)容更加豐富。

      本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過計(jì)算機(jī)程序來指令相關(guān)的硬件來完成,所述的程序可存儲于一計(jì)算機(jī)可讀取存儲介質(zhì)中,該程序在執(zhí)行時,可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲介質(zhì)可為磁碟、光盤、只讀存儲記憶體(Read-Only Memory,ROM)或隨機(jī)存儲記憶體(Random Access Memory,RAM)等。

      以上所揭露的僅為本發(fā)明較佳實(shí)施例而已,當(dāng)然不能以此來限定本發(fā)明之權(quán)利范圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。

      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1