国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      語音數(shù)據(jù)處理方法和裝置的制造方法

      文檔序號:10513515閱讀:455來源:國知局
      語音數(shù)據(jù)處理方法和裝置的制造方法
      【專利摘要】本發(fā)明公開了一種語音數(shù)據(jù)處理方法和裝置。該方法包括:獲取多個語音樣本中每個語音樣本的I?Vector向量,并確定多個語音樣本中的目標種子樣本;分別計算目標種子樣本的I?Vector向量與目標剩余語音樣本的I?Vector向量之間的余弦距離,目標剩余語音樣本為多個語音樣本中除目標種子樣本之外的語音樣本;至少按照余弦距離從多個語音樣本或目標剩余語音樣本中過濾得到目標語音樣本,目標語音樣本的I?Vector向量與目標種子樣本的I?Vector向量之間的余弦距離高于第一預定閾值。本發(fā)明解決了相關技術無法采用人工標注方法對語音數(shù)據(jù)進行清洗導致語音數(shù)據(jù)清洗效率低的技術問題。
      【專利說明】
      語音數(shù)據(jù)處理方法和裝置
      技術領域
      [0001 ]本發(fā)明涉及數(shù)據(jù)處理領域,具體而言,涉及一種語音數(shù)據(jù)處理方法和裝置。
      【背景技術】
      [0002] 在人工智能的各個領域,數(shù)據(jù)是至關重要的,很多時候數(shù)據(jù)的質(zhì)量起著決定性的 作用。而實際情況中的數(shù)據(jù)質(zhì)量多是參差不齊的,需要近一步對其進行處理。數(shù)據(jù)處理一般 是指去除數(shù)據(jù)中的"噪聲",保留需要的真正數(shù)據(jù)。在聲紋識別領域,通過互聯(lián)網(wǎng)獲取到的特 定人的聲紋語音樣本多數(shù)情況下都是不純的,除了包含非人聲等噪聲之外,往往還可能包 含有其他人的說話語音。如何將噪聲和其他人聲清洗掉,只保留該特定人的聲紋語音樣本, 是當今面臨的主要問題。
      [0003] 目前,為了從包含有噪聲和其他人聲紋的語音數(shù)據(jù)中獲取特定人的聲紋語音樣 本,通常采用人工標注方法,人工辨識一段包含特定人的聲紋、其他人聲紋以及噪聲的語音 數(shù)據(jù)中具體哪段語音樣本屬于特定人的聲紋,并將包含噪聲和其他人聲紋的語音樣本手工 剪掉。這種人工標注方法對語音數(shù)據(jù)進行清洗費時費力,且效率低下。
      [0004] 針對上述的問題,目前尚未提出有效的解決方案。

      【發(fā)明內(nèi)容】

      [0005] 本發(fā)明實施例提供了一種語音數(shù)據(jù)處理方法和裝置,以至少解決相關技術無法采 用人工標注方法對語音數(shù)據(jù)進行清洗導致語音數(shù)據(jù)清洗效率低的技術問題。
      [0006] 根據(jù)本發(fā)明實施例的一個方面,提供了一種語音數(shù)據(jù)處理方法,包括:獲取多個語 音樣本中每個語音樣本的I-Vector向量,并確定多個語音樣本中的目標種子樣本;分別計 算目標種子樣本的I-Vector向量與目標剩余語音樣本的I-Vector向量之間的余弦距離,其 中,目標剩余語音樣本為多個語音樣本中除目標種子樣本之外的語音樣本;以及至少按照 余弦距離從多個語音樣本或目標剩余語音樣本中過濾得到目標語音樣本,其中,目標語音 樣本的I-Vector向量與目標種子樣本的I-Vector向量之間的余弦距離高于第一預定閾值。
      [0007] 根據(jù)本發(fā)明實施例的另一方面,還提供了一種語音數(shù)據(jù)處理裝置,包括:獲取模 塊,用于獲取多個語音樣本中每個語音樣本的I-Vector向量,并確定多個語音樣本中的目 標種子樣本;計算模塊,用于分別計算目標種子樣本的I-Vector向量與目標剩余語音樣本 的I-Vector向量之間的余弦距離,其中,目標剩余語音樣本為多個語音樣本中除目標種子 樣本之外的語音樣本;以及過濾模塊,用于至少按照余弦距離從多個語音樣本或目標剩余 語音樣本中過濾得到目標語音樣本,其中,目標語音樣本的I-Vector向量與目標種子樣本 的I-Vector向量之間的余弦距離高于第一預定閾值。
      [0008] 在本發(fā)明實施例中,利用I-Vector聲紋識別技術采用自動聚類的方式對語音數(shù)據(jù) 進行清洗,通過獲取每個語音樣本的I-Vector向量,從中確定目標種子樣本;分別計算目標 種子樣本的I-Vector向量與目標剩余語音樣本的I-Vector向量之間的余弦距離,至少按照 余弦距離從多個語音樣本或目標剩余語音樣本中過濾得到與目標種子樣本的I-Vector向 量之間的余弦距離高于第一預定閾值,達到了無需人工參與自動對語音數(shù)據(jù)進行清洗的目 的,從而實現(xiàn)了提高對語音數(shù)據(jù)清洗的效率的技術效果,進而解決了相關技術無法采用人 工標注方法對語音數(shù)據(jù)進行清洗導致語音數(shù)據(jù)清洗效率低的技術問題。
      【附圖說明】
      [0009] 此處所說明的附圖用來提供對本發(fā)明的進一步理解,構成本申請的一部分,本發(fā) 明的示意性實施例及其說明用于解釋本發(fā)明,并不構成對本發(fā)明的不當限定。在附圖中:
      [0010] 圖1是根據(jù)本發(fā)明實施例的語音數(shù)據(jù)處理方法的硬件環(huán)境的示意圖;
      [0011] 圖2是根據(jù)本發(fā)明實施例的一種可選的語音數(shù)據(jù)處理方法的流程圖;
      [0012]圖3是根據(jù)本發(fā)明實施例的I-Vector向量的獲取過程的示意圖;
      [0013] 圖4是根據(jù)本發(fā)明實施例的從多個目標語音樣本中確定目標種子樣本的流程圖;
      [0014] 圖5是根據(jù)本發(fā)明實施例的一種優(yōu)選的語音數(shù)據(jù)處理方法的流程圖;
      [0015] 圖6是根據(jù)本發(fā)明實施例的一種可選的語音數(shù)據(jù)處理裝置的示意圖;
      [0016] 圖7是根據(jù)本發(fā)明實施例的一種可選的語音數(shù)據(jù)處理裝置的示意圖;
      [0017] 圖8是根據(jù)本發(fā)明實施例的另一種可選的語音數(shù)據(jù)處理裝置的示意圖;
      [0018] 圖9是根據(jù)本發(fā)明實施例的另一種可選的語音數(shù)據(jù)處理裝置的示意圖;
      [0019] 圖10是根據(jù)本發(fā)明實施例的另一種可選的語音數(shù)據(jù)處理裝置的示意圖;
      [0020] 圖11是根據(jù)本發(fā)明實施例的另一種可選的語音數(shù)據(jù)處理裝置的示意圖;
      [0021] 圖12是根據(jù)本發(fā)明實施例的另一種可選的語音數(shù)據(jù)處理裝置的示意圖;以及
      [0022] 圖13是根據(jù)本發(fā)明實施例的一種終端的結構框圖。
      【具體實施方式】
      [0023] 為了使本技術領域的人員更好地理解本發(fā)明方案,下面將結合本發(fā)明實施例中的 附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是 本發(fā)明一部分的實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人 員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應當屬于本發(fā)明保護的范 圍。
      [0024]需要說明的是,本發(fā)明的說明書和權利要求書及上述附圖中的術語"第一"、"第 二"等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應該理解這樣使用 的數(shù)據(jù)在適當情況下可以互換,以便這里描述的本發(fā)明的實施例能夠以除了在這里圖示或 描述的那些以外的順序?qū)嵤?。此外,術語"包括"和"具有"以及他們的任何變形,意圖在于覆 蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設備不必限于 清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品 或設備固有的其它步驟或單元。
      [0025] 首先,在對本發(fā)明實施例進行描述的過程中出現(xiàn)的部分名詞或者術語適用于如下 解釋:
      [0026] I-Vector聲紋識別技術,也成身份因子識別技術,它不嘗試去強制分開說話人空 間和信道空間,而是直接設置一個全局變化空間(Total Variability Space),它包含了語 音數(shù)據(jù)中所有可能的信息。然后通過因子分析的方法,得到全局變化空間的載荷因子,這個 就叫做I-Vector聲紋識別技術。其維度遠遠低于高斯超向量。在這個因子上,用一個簡單的 區(qū)分說話人之間的方法,就是讓不同說話人之間的距離變大,而同一個說話人受噪聲影響 的各個語句之間的距離變小。顯然的,這就是現(xiàn)行鑒別分析方法的目標,將說話人之間的差 異,視為類間矩陣,將噪聲帶來的差異,視為類內(nèi)矩陣,然后應用概率化的現(xiàn)行鑒別分析方 法估計得到I-vector矩陣,在這個I-vector矩陣上映射出來的就是反應說話人身份的信息 向量的I _vector向量。
      [0027] 實施例1
      [0028]根據(jù)本發(fā)明實施例,提供了一種語音數(shù)據(jù)處理方法的方法實施例。
      [0029] 可選地,在本實施例中,上述語音數(shù)據(jù)處理方法可以應用于如圖1所示的由服務器 102和終端104所構成的硬件環(huán)境中。如圖1所示,服務器102通過網(wǎng)絡與終端104進行連接, 上述網(wǎng)絡包括但不限于:廣域網(wǎng)、城域網(wǎng)或局域網(wǎng),終端104并不限定于PC、手機、平板電腦 等。本發(fā)明實施例的語音數(shù)據(jù)處理方法可以由服務器102來執(zhí)行,也可以由終端104來執(zhí)行, 還可以是由服務器102和終端104共同執(zhí)行。其中,終端104執(zhí)行本發(fā)明實施例的語音數(shù)據(jù)處 理方法也可以是由安裝在其上的客戶端來執(zhí)行。
      [0030] 圖2是根據(jù)本發(fā)明實施例的一種可選的語音數(shù)據(jù)處理方法的流程圖,如圖2所示, 該方法可以包括以下步驟:
      [0031] 步驟S22,獲取多個語音樣本中每個語音樣本的I-Vector向量,并確定多個語音樣 本中的目標種子樣本;
      [0032]步驟S24,分別計算目標種子樣本的I-Vector向量與目標剩余語音樣本的I-Vector向量之間的余弦距離,其中,目標剩余語音樣本為多個語音樣本中除目標種子樣本 之外的語音樣本;
      [0033] 步驟S26,至少按照余弦距離從多個語音樣本或目標剩余語音樣本中過濾得到目 標語音樣本,其中,目標語音樣本的I-Vector向量與目標種子樣本的I-Vector向量之間的 余弦距離高于第一預定閾值。
      [0034] 通過上述步驟S22至步驟S26,通過獲取每個語音樣本的I-Vector向量,從中確定 目標種子樣本;分別計算目標種子樣本的I-Vector向量與目標剩余語音樣本的I-Vector向 量之間的余弦距離,至少按照余弦距離從多個語音樣本或目標剩余語音樣本中過濾得到與 目標種子樣本的I-Vector向量之間的余弦距離高于第一預定閾值,達到了無需人工參與自 動對語音數(shù)據(jù)進行清洗的目的,進而解決了相關技術無法采用人工標注方法對語音數(shù)據(jù)進 行清洗導致語音數(shù)據(jù)清洗效率低的技術問題,實現(xiàn)了提高對語音數(shù)據(jù)清洗的效率的技術效 果。
      [0035]需要說明的是,對于一個語音數(shù)據(jù)中的任意一個語音樣本,經(jīng)過處理后均能得到 一個該語音樣本的I-Vector向量,其中,I-Vector向量為I-Vector矩陣中用于反映說話人 身份的信息向量,各個語音樣本之間的差異可以通過計算兩個語音樣本的I-Vector向量之 間的余弦距離來表征,兩者之間的余弦距離越接近1,則說明兩者越接近,反之說明兩者差 異越大。對于同一個特定人的語音樣本,每個語音樣本的I-Vector向量之間的余弦距離應 該接近1,差異很小。因此,本發(fā)明實施例采用基于語音樣本的I-Vector向量之間的余弦距 離來對各個語音樣本進行聚類,以達到對語音數(shù)據(jù)進行清洗的目的。
      [0036]為了便于理解如何利用本發(fā)明實施例的語音數(shù)據(jù)處理方法對語音數(shù)據(jù)進行清洗, 此處首先對步驟S22提供的技術方案中如何獲取多個語音樣本中每個語音樣本的I-Vector 向量進行詳細介紹,具體如下:
      [0037] 作為一種可選的實施例,步驟S22獲取多個語音樣本中每個語音樣本的I-Vector 向量可以包括以下步驟:
      [0038] 步驟S221,分別獲取多個語音樣本中每個語音樣本的語音特征參數(shù)。
      [0039] 需要說明的是,一個語音數(shù)據(jù)中可以包括多個語音樣本,每個語音樣本可能對應 特定人聲紋、其他人聲紋或者噪聲,其中,特定人聲紋、其他人聲紋或者噪聲的語音樣本的 語音特征參數(shù)均不相同,該語音特征參數(shù)可以用于表征該語音樣本的聲紋信息??蛇x地,該 語音特征參數(shù)可以包括但不僅限于所包含的聲紋類型以及每種類型聲紋的頻率和強度等 信息。
      [0040] 作為一種可選的實施例,步驟S221可以包括以下步驟:
      [0041] 步驟S2211,將語音樣本處理成采樣率分別為第一采樣率和第二采樣率的脈沖編 碼調(diào)制信號。
      [0042] 步驟S2212,從脈沖編碼調(diào)制信號中提取語音特征參數(shù)。
      [0043] 步驟S2213,對語音特征參數(shù)進行能量檢測和歸一化處理。
      [0044] 需要說明的是,此處的第一采樣率和第二采樣率可以依據(jù)實際需求進行設定和調(diào) 整,且第一采樣率和第二采樣率不同,該可選實施例并不對此做具體限定。該可選實施例通 過將語音樣本處理成采樣率不同的脈沖編碼調(diào)制信號并從該脈沖編碼調(diào)制信號中提取用 于標識該語音樣本聲紋信息的語音特征參數(shù),可以達到提高提取到的語音特征參數(shù)的精確 度的效果。在提取到語音特征參數(shù)之后通過對其進行能量檢測和歸一化處理,能夠達到提 高語音特征參數(shù)穩(wěn)定性和準確性的效果。需要說明的是,從脈沖編碼調(diào)制信號中提取的語 音特征參數(shù)可以為對從脈沖編碼調(diào)制信號中提取的MFCC特征取其一階和二階統(tǒng)計量拼接 而成的特征。還需要說明的是,為了提高提取到的語音特征參數(shù)的穩(wěn)定性和準確性,該可選 實施例還可以對提取到的語音特征參數(shù)進行語音活性檢測等,此處不再一一舉例說明。
      [0045] 在實際應用場景中,該可選實施例可以利用ffmpeg軟件將每個語音樣本處理成采 樣率分別為8K和16bit的脈沖編碼調(diào)制PCM文件,具體操作命令為:ffmpeg-y-loglevel quiet-i原始語音文件-acodec pam_sl61e_ar 8000-ac 1目標語音文件名.pcm。然后從中 提取MFCC特征,具體可以取幀長為20ms,兩幀間10ms重疊,使用11^1:1313的¥;[00613(?工具包或 者HTK語音識別包等工具提取MFCC特征,一般取前20維。然后取這20維的MFCC特征的一階和 二階統(tǒng)計量拼接起來作為該語音樣本的語音特征參數(shù)。針對提取到的MFCC特征可以對其進 行能量檢測、語音活性檢測和歸一化處理。
      [0046] 步驟S222,利用預先訓練完成的I-Vector矩陣獲取每個語音樣本的I-Vector向 量,其中,I-Vector矩陣用于指示語音樣本的語音特征參數(shù)對應的I-Vector向量。
      [0047] 需要說明的是,在獲取每個語音樣本的語音特征參數(shù)之后,可以利用預先訓練完 成的I-Vector矩陣獲取每個語音樣本的I-Vector向量。需要說明的是,I-Vector矩陣可以 用于指示語音樣本的語音特征參數(shù)對應的I-Vector向量。
      [0048]作為一種可選的實施例,I-Vector矩陣可以通過以下步驟訓練得到,具體如下:
      [0049]步驟S2221,分別獲取多個用于訓練I-Vector矩陣的語音樣本中每個語音樣本的 語音特征參數(shù)。
      [0050] 需要說明的是,此處的獲取多個用于訓練I-Vector矩陣的語音樣本中每個語音樣 本的語音特征參數(shù)可以由步驟S2211至步驟S2213得到,此處不再對其進行詳細描述。在實 際應用場景中可以選取100個小時以上的語音數(shù)據(jù)作為I-Vector矩陣的訓練數(shù)據(jù),可以利 用步驟S2211至步驟S2213分別獲取每個語音樣本的語音特征參數(shù)。
      [0051] 步驟S2222,依據(jù)多個用于訓練I-Vector矩陣的語音樣本中每個語音樣本的語音 特征參數(shù)從預先訓練完成的高斯混合模型中提取高斯超向量,其中,高斯混合模型為利用 多個用于訓練高斯混合模型的語音樣本中每個語音樣本的語音特征參數(shù)訓練得到的模型。
      [0052] 需要說明的是,高斯混合模型,也即GMM模型可以利用多個用于訓練GMM模型的語 音樣本中每個語音樣本的語音特征參數(shù)訓練得到。在實際訓練GMM模型時,可以隨機選取50 個小時左右的語音數(shù)據(jù)作為背景模型的訓練數(shù)據(jù)。按照步驟S2211至步驟S2213獲取上述語 音數(shù)據(jù)中各個語音樣本的語音特征參數(shù)之后,利用得到的語音特征參數(shù)訓練GMM模型,其 中,一般制定512個以上的組件。此處需要說明的是,統(tǒng)一背景模型(也即UBM模型)其實是一 個大型的GMM模型,用來訓練表示與說話人無關的特征分別。該UBM模型的訓練數(shù)據(jù)是盡量 包含各種信道下的所有人的語音數(shù)據(jù),訓練UBM模型也就是訓練GMM模型,所采用的算法可 以是EM算法,當EM算法不收斂時,即可以認為訓練結束。
      [0053] 在獲取到多個用于訓練I-Vector矩陣的語音樣本中每個語音樣本的語音特征參 數(shù)之后,可以利用預先訓練完成的GMM|旲型從中提取尚斯超向量,尚斯超向量也即各個GMM 模型的均值拼接后形成的超高維度向量。
      [0054] 步驟S2223,利用高斯超向量訓練I-Vector矩陣。
      [0055]需要說明的是,I-Vector技術是基于單一空間的跨信道算法,它不區(qū)分說話人空 間的信息和信道空間信息。對于任何一句單獨的語音樣本,都可以分解為背景模型mo和反 映每個說話人特征的Tws,高斯超向量GSV可表示如下M s = mo+Tws,其中,Ms是C*F維的高斯超 向量GSV; mo是與說話者無關且信道無關的OF維超向量,由UBM模型的均值向量拼接而成;ws 即總變化因子I-Vector,維數(shù)為N,是一組服從標準正態(tài)分布的隨機向量;T是總變化空間矩 陣,維數(shù)為CF*N。在對I-Vector訓練階段,根據(jù)大量語音數(shù)據(jù)訓練集,利用因子分析算法,從 中估計出總變化空間矩陣T;在得到總變化空間后,將高維的高斯超向量GSV在矩陣T所表示 的總變化子空間中進行投影,最終得到低維的總體變化因子,即為I-Vector向量。
      [0056] 圖3是根據(jù)本發(fā)明實施例的I-Vector向量的獲取過程的示意圖,如圖3所示,圖3只 列舉了兩個語音樣本的I-Vector向量的獲取過程,應當理解對于多個語音樣本中的其他語 音樣本也可以通過圖3所示的獲取過程得到其I-Vector向量。如圖3所示,首先從語音樣本 中提取MFCC特征;然后利用預先訓練完成的UBM模型從中提取高斯超向量GSV;然后利用預 先訓練得到的總變化空間矩陣T,也即I-Vector矩陣獲取I-Vector向量,最后利用預先訓練 完成的線性鑒別模塊PLDA模型依據(jù)獲取到的I-Vector向量對語音樣本進行過濾。
      [0057] 在步驟S22提供的技術方案中,獲取到多個語音樣本中每個語音樣本的I-Vector 向量之后,本發(fā)明實施例還需要從多個語音樣本中確定目標種子樣本,其中,目標種子樣本 可以有多個語音樣本中的至少一個語音樣本拼接而成,多個語音樣本中拼接成目標種子樣 本所需的至少一個語音樣本的個數(shù)可以依據(jù)目標種子樣本實際需求的音頻時長進行調(diào)整。
      [0058] 作為一種可選的實施例,從多個語音樣本中確定目標種子樣本可以由以下的迭代 過程確定。需要說明的是,該迭代過程的初始化可以包括:當前種子樣本被初始化為由多個 語音樣本中的至少一個語音樣本拼接得到,上一輪種子樣本和上一輪剩余語音樣本被初始 化為空。圖4是根據(jù)本發(fā)明實施例的從多個目標語音樣本中確定目標種子樣本的流程圖,如 圖4所示,確定多個語音樣本中的目標種子樣本可以包括:重復執(zhí)行以下操作,直到確定出 目標種子樣本:
      [0059] 步驟S223,分別計算當前種子樣本的I-Vector向量與當前剩余語音樣本的I-Vector向量之間的余弦距離,其中,當前剩余語音樣本為多個語音樣本中除當前種子樣本 之外的語音樣本。
      [0060] 需要說明的是,兩個向量之間的余弦距離可以通過以下歐幾里得點積公式推到:
      [0061] a · b= | a | | b | cosB
      [0062] 當給定兩個I-Vector向量A和B時,其余弦相似性Θ由點積和向量長度給出,如下式 所示:
      [0064]其中,Ai和Bi分別代表向量Α和Β的各個分量。有上式可知,相似性范圍從-1至1,其 中,-1代表兩個向量指向的方向正好相反,1代表兩個向量指向相同,〇代表兩個向量之間是 獨立的,在-1至1之間的值則代表兩個向量之間的相似性或相異性。
      [0065]需要說明的是,多個語音樣本中除當前種子樣本外的當前剩余語音樣本的個數(shù)可 以為多個,貝當前種子樣本的I-Vector向量和當前剩余語音樣本的I-Vector向量之間的余 弦距離也為多個,當前剩余語音樣本中的每個語音樣本的I-Vector向量與當前種子樣本的 I-Vector向量之間的余弦距離可以由上述公式計算得到。
      [0066]步驟S224,判斷第一平均值與第二平均值之間的差值是否小于第二預定閾值。
      [0067] 第一平均值為當前種子樣本的I-Vector向量與當前剩余語音樣本的I-Vector向 量之間的余弦距離的平均值,第二平均值為上一輪種子樣本的I-Vector向量與上一輪剩余 語音樣本的I-Vector向量之間的余弦距離的平均值,上一輪剩余語音樣本為多個語音樣本 中除上一輪種子樣本之外的語音樣本。需要說明的是,上一輪種子樣本的I-Vector向量與 上一輪剩余語音樣本中每個語音樣本的I-Vector向量之間的余弦距離也可以按照上述公 式計算得到。該可選實施例每確定一次種子樣本就會計算一次該種子樣本的I-Vector向量 與剩余語音樣本的I-Vector向量之間的余弦距離的平均值。從初始化開始,每計算兩次平 均值之后,該可選實施例就會比較前后兩次計算得到的平均值的差值是否小于第二預定閾 值。需要說明的是,第二預定閾值可以依據(jù)實際需求設定或調(diào)整。
      [0068] 在判斷第一平均值和第二平均值的差值小于第二預定閾值時,該可選實施例執(zhí)行 步驟S225,否則執(zhí)行步驟S226。
      [0069] 步驟S225,若差值小于第二預定閾值,則確定當前種子樣本為目標種子樣本。
      [0070] 當?shù)谝黄骄岛偷诙骄档牟钪敌∮诘诙A定閾值時,迭代過程終止,確定當 前種子樣本即為目標種子樣本。在確定目標種子樣本之后,即可利用該目標種子樣本執(zhí)行 步驟S24和步驟S26,以達到按照余弦距離過濾語音樣本,進而實現(xiàn)對語音數(shù)據(jù)進行清洗的 目的。
      [0071] 步驟S226,若差值大于或等于第二預定閾值,則將當前種子樣本作為上一輪種子 樣本,從當前剩余語音樣本中選擇語音樣本,將選擇出的語音樣本拼接成當前種子樣本,并 將當前剩余語音樣本作為上一輪剩余語音樣本,返回執(zhí)行步驟S223。
      [0072] 當?shù)谝黄骄岛偷诙骄档牟钪荡笥诨虻扔诘诙A定閾值時,說明迭需要繼續(xù) 迭代,則將當前種子樣本作為上一輪種子樣本,從當前剩余語音樣本中選擇語音樣本并將 選擇出的語音樣本拼接成當前種子樣本,將當前剩余語音樣本作為上一輪剩余語音樣本, 繼續(xù)返回執(zhí)行步驟S223,繼續(xù)下次迭代過程,直至確定前后兩次計算得到的余弦距離的平 均值的差值小于第二預定閾值時結束該迭代過程。
      [0073] 上述步驟通過迭代過程從多個語音樣本中確定目標種子樣本,在迭代過程中按照 I-Vector向量之間的余弦距離進行聚類,能夠?qū)崿F(xiàn)對多個語音樣本進行差異性聚類的目 的。
      [0074] 作為一種可選的實施例,步驟S226中從當前剩余語音樣本中選擇語音樣本可以包 括以下步驟:
      [0075]步驟S2262,將當前剩余語音樣本按照余弦距離從小到大的順序進行排序。
      [0076]步驟S2264,從排序后的當前剩余語音樣本中選擇靠前的一個或多個語音樣本,其 中,靠前的一個或多個語音樣本拼接成的當前種子樣本的音頻時長為第三預定閾值。
      [0077]需要說明的是,在計算得到當前種子樣本的I-Vector向量與當前剩余語音樣本中 每個語音樣本的I-Vector向量之間的余弦距離后,且在不滿足迭代過程終止的條件時,該 可選實施例需要重新確定當前種子樣本,在確定當前種子樣本時,可以首先對這些余弦距 離按照由小到大的順序進行排序,排序的目的是為了方便快速地確定余弦距離較小的至少 一個語音樣本,以便于將這些余弦距離較小的語音樣本拼接成當前種子樣本。
      [0078] 還需要說明的是,在將余弦距離較小的至少一個語音樣本拼接成當前種子樣本 時,需要考慮依據(jù)實際需求確定的種子樣本的音頻時長,并按照該音頻時長確定拼接成當 前種子樣本所需的語音樣本的個數(shù)。此處當前種子樣本的音頻時長的參考值為第三預定閾 值,其中,第三預定閾值可以依據(jù)實際需求進行設定或調(diào)整,此處不做具體限定。
      [0079] 在步驟S24提供的技術方案中,在確定目標種子樣本之后,多個語音樣本中除目標 種子樣本之外的語音樣本為目標剩余語音樣本,其中,目標剩余語音樣本的個數(shù)可以是一 個,也可以是多個。需要說明的是,目標種子樣本的I-Vector向量與目標剩余語音樣本中每 個語音樣本的I-Vector向量之間的余弦距離的計算方法與上述步驟S223介紹的方法相同, 此處不再贅述。當目標剩余語音樣本的個數(shù)為多個時,計算得到的目標種子樣本的I-Vector向量與目標剩余語音樣本的I-Vector向量之間的余弦距離也為多個,這些余弦距離 均在-1至1范圍內(nèi),且其中有可能存在至少兩個相同的余弦距離。
      [0080] 在步驟S26提供的技術方案中,可以按照步驟S24計算得到的余弦距離獲取目標語 音樣本,其中,目標語音樣本是從多個語音樣本或目標剩余語音樣本中過濾得到的語音樣 本。需要說明的是,對多個語音樣本或目標剩余語音樣本進行過濾所依據(jù)的條件為目標語 音樣本的I-Vector向量與目標種子樣本的I-Vector向量之間的余弦距離高于第一預定閾 值,其中,第一預定閾值可以依據(jù)實際需求進行設定或調(diào)整,此處不做具體限定。依據(jù)過濾 條件從多個語音樣本或目標剩余語音樣本進行過濾得到的目標語音樣本的個數(shù)可以是一 個,也可以是多個。
      [0081] 在實際應用場景中,通過上述步驟得到的目標語音樣本即為對包含特定人聲紋、 其他人聲紋以及噪聲的語音數(shù)據(jù)進行清洗,獲取到的特定人聲紋的語音樣本。通過上述步 驟,能夠解決相關技術無法采用人工標注方法對語音數(shù)據(jù)進行清洗導致語音數(shù)據(jù)清洗效率 低的技術問題,進而達到提高對語音數(shù)據(jù)清洗的效率的技術效果。
      [0082] 作為一種可選的實施例,步驟S26至少按照余弦距離從多個語音樣本或目標剩余 語音樣本中過濾得到目標語音樣本可以包括以下步驟:
      [0083] 步驟S262,判斷目標剩余語音樣本的數(shù)量是否大于等于第四預定閾值。
      [0084]步驟S264,在目標剩余語音樣本的數(shù)量大于等于第四預定閾值時,按照余弦距離 從目標剩余語音樣本中過濾得到目標語音樣本。
      [0085]步驟S266,在目標剩余語音樣本的數(shù)量小于第四預定閾值時,按照余弦距離以及 目標種子樣本的I-Vector向量與目標種子樣本的I-Vector向量之間的余弦距離從多個語 音樣本中過濾得到目標語音樣本。
      [0086] 需要說明的是,步驟S26得到的目標語音樣本可以從多個語音樣本中過濾得到,也 可以從目標剩余語音樣本中過濾得到。該可選實施例以目標剩余語音樣本的數(shù)量作為依據(jù) 確定是從多個語音樣本中過濾,還是從目標剩余語音樣本中過濾。具體地,當目標剩余語音 樣本的數(shù)量大于等于第四預定閾值時,該可選實施例可以按照目標種子樣本的I-Vector向 量與目標剩余語音樣本的I-Vector向量之間的余弦距離從目標剩余語音樣本中過濾得到 目標語音樣本,從目標剩余語音樣本中選擇余弦距離高于第一預定閾值的語音樣本作為目 標語音樣本。當目標剩余語音樣本的數(shù)量小于第四預定閾值時,該可選實施例可以按照目 標種子樣本的I-Vector向量與目標剩余語音樣本的I-Vector向量之間的余弦距離以及目 標種子樣本的I-Vector向量與目標種子樣本的I-Vector向量之間的余弦距離從多個語音 樣本中過濾得到目標語音樣本,此處需要同時考慮目標種子樣本的I-Vector向量與目標種 子樣本的I-Vector向量之間的余弦距離,從多個語音樣本中選擇余弦距離高于第一預定閾 值的語音樣本作為目標語音樣本。
      [0087] 該可選實施例依據(jù)目標剩余語音樣本的數(shù)量確定是從多個語音樣本中過濾得到 目標語音樣本,還是從目標剩余語音樣本中過濾得到目標語音樣本,能夠保證在目標剩余 語音樣本較少時亦能準確地過濾得到目標語音樣本,達到了提高對語音數(shù)據(jù)進行清洗后得 到的所需的語音樣本的精確到的效果。
      [0088] 本發(fā)明還提供了一種優(yōu)選實施例,圖5是根據(jù)本發(fā)明實施例的一種優(yōu)選的語音數(shù) 據(jù)處理方法的流程圖,如圖5所示,該優(yōu)選實施例可以包括以下步驟:
      [0089] 步驟S51,從多個語音樣本中隨機選取一定量的語音樣本作為種子樣本,并獲取種 子樣本和剩余語音樣本的I-Vector向量。
      [0090] 步驟S52,依次計算各個語音樣本的I-Vector向量與種子樣本的I-Vector向量之 間的余弦距離。
      [0091] 步驟S53,判斷是否收斂,即判斷當前種子樣本I-Vector向量與當前剩余語音樣本 I-Vector向量之間的余弦距離的平均值是否與上一輪計算得到的余弦距離的平均值的差 值是否小于一定閾值,如果是,則執(zhí)行步驟S54,否則執(zhí)行步驟S55。
      [0092]步驟S54,按一定距離閾值選取余弦距離大于等于該距離閾值的語音樣本作為語 音數(shù)據(jù)清洗后的結果,將余弦距離小于該距離閾值認為是噪聲或者其他人聲紋,并對其進 行過濾掉。至此,對語音數(shù)據(jù)的清洗結束。
      [0093]步驟S55,選取與種子樣本的I-Vector向量的余弦距離較近的語音樣本作為下一 輪迭代的種子樣本,返回執(zhí)行步驟S52。
      [0094] 舉例說明:
      [0095] 假如目標文件夾下面共有100個語音樣本,其中有60個是A人的,剩下為其他人的 樣本或者各類噪聲。隨機從這1〇〇個語音樣本中,選取5分鐘的音頻數(shù)據(jù),首次選取的時候, 盡量選取時長較短的文件,盡量包含較多的語音樣本。根據(jù)概率分布,這樣被選取的語音樣 本中屬于A的樣本占多數(shù)。將選取的語音樣本拼接起來,如果超過5分鐘,使用ffmpeg截取5 分鐘的數(shù)據(jù)作為種子樣本,對種子樣本提取I-Vector向量作為種子樣本的特征。
      [0096] 假如本輪選取了 10個語音樣本作為種子樣本,則對剩下的90個語音樣本分別提取 I-Vector向量,然后與種子樣本的I-Vector向量計算之間的余弦距離,再對90個語音樣本 的余弦距離取平均值記為 SC〇re_itN,N為迭代的輪數(shù)。
      [0097] 如果score_i tN-score_i t (N-1)的絕對值小于閾值(該閾值一般經(jīng)統(tǒng)計得到),停 止迭代,轉(zhuǎn)下一步;否則選取得分最高即與種子樣本的余弦距離較近的語音樣本,拼接成5 分鐘的音頻作為下一輪迭代的種子樣本,然后進行下一步迭代。
      [0098] 按一定距離閾值Th(該距離閾值Th也由經(jīng)驗得到)只選取距離大于Th的語音樣本 作為語音數(shù)據(jù)清洗后的結果,低于Th的語音樣本可認為是噪聲或者非本人,至此自動清洗 結束。
      [0099]在本發(fā)明實施例的語音數(shù)據(jù)處理方法中,語音數(shù)據(jù)自動清洗所采用的就是基于I-Vector向量余弦距離的自動聚類方法,只不過,在具體實施的過程中,不關注最終會聚出幾 個類別,而只關注包含樣本最多的某一特定類,其他包含樣本較少的類別,可以認為是噪聲 或者不是本人的樣本而丟棄。本發(fā)明可以大量減小人力成本,同時也為海量高質(zhì)量語音數(shù) 據(jù)的產(chǎn)生提供了可能。本發(fā)明最終以樣本間余弦距離的方式提供結果,具備一定的靈活性, 可根據(jù)實際需要,靈活選取最終的過濾距離閾值,在樣本質(zhì)量和數(shù)量之間做權衡。本發(fā)明除 了在訓練UBM-G麗模型和I-Vector矩陣時比較費時外,其他步驟計算速度均非常迅速,而 UBM-GMM模型和I-Vector矩陣只需要訓練一次。
      [0100]需要說明的是,對于前述的各方法實施例,為了簡單描述,故將其都表述為一系列 的動作組合,但是本領域技術人員應該知悉,本發(fā)明并不受所描述的動作順序的限制,因為 依據(jù)本發(fā)明,某些步驟可以采用其他順序或者同時進行。其次,本領域技術人員也應該知 悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作和模塊并不一定是本發(fā)明 所必須的。
      [0101] 通過以上的實施方式的描述,本領域的技術人員可以清楚地了解到根據(jù)上述實施 例的方法可借助軟件加必需的通用硬件平臺的方式來實現(xiàn),當然也可以通過硬件,但很多 情況下前者是更佳的實施方式?;谶@樣的理解,本發(fā)明的技術方案本質(zhì)上或者說對現(xiàn)有 技術做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲 介質(zhì)(如R0M/RAM、磁碟、光盤)中,包括若干指令用以使得一臺終端設備(可以是手機,計算 機,服務器,或者網(wǎng)絡設備等)執(zhí)行本發(fā)明各個實施例所述的方法。
      [0102] 實施例2
      [0103]根據(jù)本發(fā)明實施例,還提供了一種用于實施上述語音數(shù)據(jù)處理方法的語音數(shù)據(jù)處 理裝置。圖6是根據(jù)本發(fā)明實施例的一種可選的語音數(shù)據(jù)處理裝置的示意圖,如圖6所示,該 裝置可以包括:
      [0104] 獲取模塊62,用于獲取多個語音樣本中每個語音樣本的I-Vector向量,并確定多 個語音樣本中的目標種子樣本;計算模塊64,用于分別計算目標種子樣本的I-Vector向量 與目標剩余語音樣本的I-Vector向量之間的余弦距離,其中,目標剩余語音樣本為多個語 音樣本中除目標種子樣本之外的語音樣本;以及過濾模塊66,用于至少按照余弦距離從多 個語音樣本或目標剩余語音樣本中過濾得到目標語音樣本,其中,目標語音樣本的I-Vector向量與目標種子樣本的I-Vector向量之間的余弦距離高于第一預定閾值。
      [0105] 需要說明的是,該實施例中的獲取模塊62可以用于執(zhí)行本申請實施例1中的步驟 S22,該實施例中的計算模塊64可以用于執(zhí)行本申請實施例1中的步驟S24,該實施例中的過 濾模塊66可以用于執(zhí)行本申請實施例1中的步驟S26。
      [0106]此處需要說明的是,上述模塊與對應的步驟所實現(xiàn)的示例和應用場景相同,但不 限于上述實施例1所公開的內(nèi)容。需要說明的是,上述模塊作為裝置的一部分可以運行在如 圖1所示的硬件環(huán)境中,可以通過軟件實現(xiàn),也可以通過硬件實現(xiàn)。
      [0107] 通過上述模塊,可以解決了相關技術無法采用人工標注方法對語音數(shù)據(jù)進行清洗 導致語音數(shù)據(jù)清洗效率低的技術問題,進而達到提高對語音數(shù)據(jù)清洗的效率的技術效果。
      [0108] 作為一種可選的實施例,圖7是根據(jù)本發(fā)明實施例的另一種可選的語音數(shù)據(jù)處理 裝置的示意圖,如圖7所示,獲取模塊62可以包括:第一子獲取模塊621,用于分別獲取多個 語音樣本中每個語音樣本的語音特征參數(shù);第二子獲取模塊622,用于利用預先訓練完成的 I-Vector矩陣獲取每個語音樣本的I-Vector向量,其中,I-Vector矩陣用于指示語音樣本 的語音特征參數(shù)對應的I-Vector向量。
      [0109] 需要說明的是,該實施例中的第一子獲取模塊621可以用于執(zhí)行本申請實施例1中 的步驟S221,該實施例中的第二子獲取模塊622可以用于執(zhí)行本申請實施例1中的步驟 S222。此處需要說明的是,上述模塊與對應的步驟所實現(xiàn)的示例和應用場景相同,但不限于 上述實施例1所公開的內(nèi)容。需要說明的是,上述模塊作為裝置的一部分可以運行在如圖1 所示的硬件環(huán)境中,可以通過軟件實現(xiàn),也可以通過硬件實現(xiàn)。
      [0110] 作為一種可選的實施例,圖8是根據(jù)本發(fā)明實施例的另一種可選的語音數(shù)據(jù)處理 裝置的示意圖,如圖8所示,第一子獲取模塊621可以包括:采樣模塊6211,用于將語音樣本 處理成采樣率分別為第一采樣率和第二采樣率的脈沖編碼調(diào)制信號;第二提取模塊6212, 用于提取從脈沖編碼調(diào)制信號中提取語音特征參數(shù);以及處理模塊6213,用于對語音特征 參數(shù)進行能量檢測和歸一化處理。
      [0111] 需要說明的是,該實施例中的采樣模塊6211可以用于執(zhí)行本申請實施例1中的步 驟S2211,該實施例中的第二提取模塊6212可以用于執(zhí)行本申請實施例1中的步驟S2212,該 實施例中的處理模塊6213可以用于執(zhí)行本申請實施例1中的步驟S2213。此處需要說明的 是,上述模塊與對應的步驟所實現(xiàn)的示例和應用場景相同,但不限于上述實施例1所公開的 內(nèi)容。需要說明的是,上述模塊作為裝置的一部分可以運行在如圖1所示的硬件環(huán)境中,可 以通過軟件實現(xiàn),也可以通過硬件實現(xiàn)。
      [0112] 作為一種可選的實施例,圖9是根據(jù)本發(fā)明實施例的另一種可選的語音數(shù)據(jù)處理 裝置的示意圖,如圖9所示,I-Vector矩陣通過以下模塊訓練得到:第三子獲取模塊6221,用 于分別獲取多個用于訓練I-Vector矩陣的語音樣本中每個語音樣本的語音特征參數(shù);第一 提取模塊6222,用于依據(jù)多個用于訓練I-Vector矩陣的語音樣本中每個語音樣本的語音特 征參數(shù)從預先訓練完成的高斯混合模型中提取高斯超向量,其中,高斯混合模型為利用多 個用于訓練高斯混合模型的語音樣本中每個語音樣本的語音特征參數(shù)訓練得到的模型;訓 練模塊6223,用于利用高斯超向量訓練I-Vector矩陣。
      [0113]需要說明的是,該實施例中的第三子獲取模塊6221可以用于執(zhí)行本申請實施例1 中的步驟S2221,該實施例中的第一提取模塊6222可以用于執(zhí)行本申請實施例1中的步驟 S2222,該實施例中的訓練模塊6223可以用于執(zhí)行本申請實施例1中的步驟S2223。此處需要 說明的是,上述模塊與對應的步驟所實現(xiàn)的示例和應用場景相同,但不限于上述實施例1所 公開的內(nèi)容。需要說明的是,上述模塊作為裝置的一部分可以運行在如圖1所示的硬件環(huán)境 中,可以通過軟件實現(xiàn),也可以通過硬件實現(xiàn)。
      [0114] 作為一種可選的實施例,圖10是根據(jù)本發(fā)明實施例的另一種可選的語音數(shù)據(jù)處理 裝置的示意圖,如圖10所示,當前種子樣本被初始化為由多個語音樣本中的至少一個語音 樣本拼接得到,上一輪種子樣本和上一輪剩余語音樣本被初始化為空,其中,獲取模塊62可 以包括:重復執(zhí)行以下模塊中的操作,直到確定出目標種子樣本:第一子計算模塊623,用于 分別計算當前種子樣本的I-Vector向量與當前剩余語音樣本的I-Vector向量之間的余弦 距離,其中,當前剩余語音樣本為多個語音樣本中除當前種子樣本之外的語音樣本;第一判 斷模塊624,用于判斷第一平均值與第二平均值之間的差值是否小于第二預定閾值,其中, 第一平均值為當前種子樣本的I-Vector向量與當前剩余語音樣本的I-Vector向量之間的 余弦距離的平均值,第二平均值為上一輪種子樣本的I-Vector向量與上一輪剩余語音樣本 的I-Vector向量之間的余弦距離的平均值,上一輪剩余語音樣本為多個語音樣本中除上一 輪種子樣本之外的語音樣本;確定模塊625,用于若差值小于第二預定閾值,則確定當前種 子樣本為目標種子樣本;選擇模塊626,用于若差值大于或等于第二預定閾值,則將當前種 子樣本作為上一輪種子樣本,從當前剩余語音樣本中選擇語音樣本,將選擇出的語音樣本 拼接成當前種子樣本,并將當前剩余語音樣本作為上一輪剩余語音樣本。
      [0115] 需要說明的是,該實施例中的第一子計算模塊623可以用于執(zhí)行本申請實施例1中 的步驟S223,該實施例中的第一判斷模塊624可以用于執(zhí)行本申請實施例1中的步驟S224, 該實施例中的確定模塊625可以用于執(zhí)行本申請實施例1中的步驟S225,該實施例中的選擇 模塊626可以用于執(zhí)行本申請實施例1中的步驟S226。此處需要說明的是,上述模塊與對應 的步驟所實現(xiàn)的示例和應用場景相同,但不限于上述實施例1所公開的內(nèi)容。需要說明的 是,上述模塊作為裝置的一部分可以運行在如圖1所示的硬件環(huán)境中,可以通過軟件實現(xiàn), 也可以通過硬件實現(xiàn)。
      [0116] 作為一種可選的實施例,圖11是根據(jù)本發(fā)明實施例的另一種可選的語音數(shù)據(jù)處理 裝置的示意圖,如圖11所示,選擇模塊626可以包括:排序模塊6262,用于將當前剩余語音樣 本按照余弦距離從小到大的順序進行排序;第一子選擇模塊6264,用于從排序后的當前剩 余語音樣本中選擇靠前的一個或多個語音樣本,其中,靠前的一個或多個語音樣本拼接成 的當前種子樣本的音頻時長為第三預定閾值。
      [0117]需要說明的是,該實施例中的排序模塊6262可以用于執(zhí)行本申請實施例1中的步 驟S2262,該實施例中的第一子選擇模塊6264可以用于執(zhí)行本申請實施例1中的步驟S2264。 此處需要說明的是,上述模塊與對應的步驟所實現(xiàn)的示例和應用場景相同,但不限于上述 實施例1所公開的內(nèi)容。需要說明的是,上述模塊作為裝置的一部分可以運行在如圖1所示 的硬件環(huán)境中,可以通過軟件實現(xiàn),也可以通過硬件實現(xiàn)。
      [0118] 作為一種可選的實施例,圖12是根據(jù)本發(fā)明實施例的另一種可選的語音數(shù)據(jù)處理 裝置的示意圖,如圖12所示,過濾模塊66可以包括:第二判斷模塊662,用于判斷目標剩余語 音樣本的數(shù)量是否大于等于第四預定閾值;第一子過濾模塊664,用于在目標剩余語音樣本 的數(shù)量大于等于第四預定閾值時,按照余弦距離從目標剩余語音樣本中過濾得到目標語音 樣本;第二子過濾模塊666,用于在目標剩余語音樣本的數(shù)量小于第四預定閾值時,按照余 弦距離以及目標種子樣本的I-Vector向量與目標種子樣本的I-Vector向量之間的余弦距 離從多個語音樣本中過濾得到目標語音樣本。
      [0119] 需要說明的是,該實施例中的第一子過濾模塊664可以用于執(zhí)行本申請實施例1中 的步驟S262,該實施例中的第一子過濾模塊664可以用于執(zhí)行本申請實施例1中的步驟 S262,該實施例中的第二子過濾模塊666可以用于執(zhí)行本申請實施例1中的步驟S262。此處 需要說明的是,上述模塊與對應的步驟所實現(xiàn)的示例和應用場景相同,但不限于上述實施 例1所公開的內(nèi)容。需要說明的是,上述模塊作為裝置的一部分可以運行在如圖1所示的硬 件環(huán)境中,可以通過軟件實現(xiàn),也可以通過硬件實現(xiàn)。
      [0120] 實施例3
      [0121] 根據(jù)本發(fā)明實施例,還提供了一種用于實施上述語音數(shù)據(jù)處理方法的服務器或終 端。
      [0122] 圖13是根據(jù)本發(fā)明實施例的一種終端的結構框圖,如圖13所示,該終端可以包括: 一個或多個(圖中僅示出一個)處理器201、存儲器203、以及傳輸裝置205(如上述實施例中 的發(fā)送裝置),如圖13所示,該終端還可以包括輸入輸出設備207。
      [0123] 其中,存儲器203可用于存儲軟件程序以及模塊,如本發(fā)明實施例中的語音數(shù)據(jù)處 理方法和裝置對應的程序指令/模塊,處理器201通過運行存儲在存儲器203內(nèi)的軟件程序 以及模塊,從而執(zhí)行各種功能應用以及數(shù)據(jù)處理,即實現(xiàn)上述的語音數(shù)據(jù)處理方法。存儲器 203可包括高速隨機存儲器,還可以包括非易失性存儲器,如一個或者多個磁性存儲裝置、 閃存、或者其他非易失性固態(tài)存儲器。在一些實例中,存儲器203可進一步包括相對于處理 器201遠程設置的存儲器,這些遠程存儲器可以通過網(wǎng)絡連接至終端。上述網(wǎng)絡的實例包括 但不限于互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)、局域網(wǎng)、移動通信網(wǎng)及其組合。
      [0124] 上述的傳輸裝置205用于經(jīng)由一個網(wǎng)絡接收或者發(fā)送數(shù)據(jù),還可以用于處理器與 存儲器之間的數(shù)據(jù)傳輸。上述的網(wǎng)絡具體實例可包括有線網(wǎng)絡及無線網(wǎng)絡。在一個實例中, 傳輸裝置205包括一個網(wǎng)絡適配器(Network Interface Controller,NIC),其可通過網(wǎng)線 與其他網(wǎng)絡設備與路由器相連從而可與互聯(lián)網(wǎng)或局域網(wǎng)進行通訊。在一個實例中,傳輸裝 置205為射頻(Radio Frequency,RF)模塊,其用于通過無線方式與互聯(lián)網(wǎng)進行通訊。
      [0125] 其中,具體地,存儲器203用于存儲應用程序。
      [0126] 處理器201可以通過傳輸裝置205調(diào)用存儲器203存儲的應用程序,以執(zhí)行下述步 驟:獲取多個語音樣本中每個語音樣本的I-Vector向量,并確定多個語音樣本中的目標種 子樣本;分別計算目標種子樣本的Hector向量與目標剩余語音樣本的I-Vector向量之間 的余弦距離,其中,目標剩余語音樣本為多個語音樣本中除目標種子樣本之外的語音樣本; 以及至少按照余弦距離從多個語音樣本或目標剩余語音樣本中過濾得到目標語音樣本,其 中,目標語音樣本的I-Vector向量與目標種子樣本的I-Vector向量之間的余弦距離高于第 一預定閾值。
      [0127] 處理器201還用于執(zhí)行下述步驟:重復執(zhí)行以下操作,直到確定出目標種子樣本: 分別計算當前種子樣本的I-Vector向量與當前剩余語音樣本的I-Vector向量之間的余弦 距離,其中,當前剩余語音樣本為多個語音樣本中除當前種子樣本之外的語音樣本;判斷第 一平均值與第二平均值之間的差值是否小于第二預定閾值,其中,第一平均值為當前種子 樣本的I-Vector向量與當前剩余語音樣本的I-Vector向量之間的余弦距離的平均值,第二 平均值為上一輪種子樣本的I-Vector向量與上一輪剩余語音樣本的I-Vector向量之間的 余弦距離的平均值,上一輪剩余語音樣本為多個語音樣本中除上一輪種子樣本之外的語音 樣本;若差值小于第二預定閾值,則確定當前種子樣本為目標種子樣本;若差值大于或等于 第二預定閾值,則將當前種子樣本作為上一輪種子樣本,從當前剩余語音樣本中選擇語音 樣本,將選擇出的語音樣本拼接成當前種子樣本,并將當前剩余語音樣本作為上一輪剩余 語音樣本。
      [0128] 處理器201還用于執(zhí)行下述步驟:將當前剩余語音樣本按照余弦距離從小到大的 順序進行排序;從排序后的當前剩余語音樣本中選擇靠前的一個或多個語音樣本,其中,靠 前的一個或多個語音樣本拼接成的當前種子樣本的音頻時長為第三預定閾值。
      [0129] 處理器201還用于執(zhí)行下述步驟:判斷目標剩余語音樣本的數(shù)量是否大于等于第 四預定閾值;在目標剩余語音樣本的數(shù)量大于等于第四預定閾值時,按照余弦距離從目標 剩余語音樣本中過濾得到目標語音樣本;在目標剩余語音樣本的數(shù)量小于第四預定閾值 時,按照余弦距離以及目標種子樣本的I-Vector向量與目標種子樣本的I-Vector向量之間 的余弦距離從多個語音樣本中過濾得到目標語音樣本。
      [0130]處理器201還用于執(zhí)行下述步驟:分別獲取多個語音樣本中每個語音樣本的語音 特征參數(shù);利用預先訓練完成的I-Vector矩陣獲取每個語音樣本的I-Vector向量,其中,I-Vector矩陣用于指示語音樣本的語音特征參數(shù)對應的I-Vector向量。
      [0131] 處理器201還用于執(zhí)行下述步驟:分別獲取多個用于訓練I-Vector矩陣的語音樣 本中每個語音樣本的語音特征參數(shù);依據(jù)多個用于訓練I-Vector矩陣的語音樣本中每個語 音樣本的語音特征參數(shù)從預先訓練完成的高斯混合模型中提取高斯超向量,其中,高斯混 合模型為利用多個用于訓練高斯混合模型的語音樣本中每個語音樣本的語音特征參數(shù)訓 練得到的模型;利用高斯超向量訓練I-Vector矩陣。
      [0132] 處理器201還用于執(zhí)行下述步驟:將語音樣本處理成采樣率分別為第一采樣率和 第二采樣率的脈沖編碼調(diào)制信號;從脈沖編碼調(diào)制信號中提取語音特征參數(shù);以及對語音 特征參數(shù)進行能量檢測和歸一化處理。
      [0133] 采用本發(fā)明實施例,提供了一種對語音數(shù)據(jù)自動清洗的方案。通過獲取每個語音 樣本的I-Vector向量,從中確定目標種子樣本;分別計算目標種子樣本的I-Vector向量與 目標剩余語音樣本的I-Vector向量之間的余弦距離,至少按照余弦距離從多個語音樣本或 目標剩余語音樣本中過濾得到與目標種子樣本的I-Vector向量之間的余弦距離高于第一 預定閾值,達到了無需人工參與自動對語音數(shù)據(jù)進行清洗的目的,進而解決了相關技術無 法采用人工標注方法對語音數(shù)據(jù)進行清洗導致語音數(shù)據(jù)清洗效率低的技術問題,實現(xiàn)了提 高對語音數(shù)據(jù)清洗的效率的技術效果。
      [0134] 可選地,本實施例中的具體示例可以參考上述實施例1和實施例2中所描述的示 例,本實施例在此不再贅述。
      [0135] 本領域普通技術人員可以理解,圖13所示的結構僅為示意,終端可以是智能手機 (如Android手機、iOS手機等)、平板電腦、掌上電腦以及移動互聯(lián)網(wǎng)設備(Mobile Internet Devices,MID)、PAD等終端設備。圖13其并不對上述電子裝置的結構造成限定。例如,終端還 可包括比圖13中所示更多或者更少的組件(如網(wǎng)絡接口、顯示裝置等),或者具有與圖13所 示不同的配置。
      [0136] 本領域普通技術人員可以理解上述實施例的各種方法中的全部或部分步驟是可 以通過程序來指令終端設備相關的硬件來完成,該程序可以存儲于一計算機可讀存儲介質(zhì) 中,存儲介質(zhì)可以包括:閃存盤、只讀存儲器(Read-Only Memory,ROM)、隨機存取器(Random Access Memory,RAM)、磁盤或光盤等。
      [0137] 實施例4
      [0138] 本發(fā)明的實施例還提供了一種存儲介質(zhì)。可選地,在本實施例中,上述存儲介質(zhì)可 以用于執(zhí)行語音數(shù)據(jù)處理方法的程序代碼。
      [0139] 可選地,在本實施例中,上述存儲介質(zhì)可以位于上述實施例所示的網(wǎng)絡中的多個 網(wǎng)絡設備中的至少一個網(wǎng)絡設備上。
      [0140] 可選地,在本實施例中,存儲介質(zhì)被設置為存儲用于執(zhí)行以下步驟的程序代碼:
      [0141] S1,獲取多個語音樣本中每個語音樣本的I-Vector向量,并確定多個語音樣本中 的目標種子樣本;
      [0142] S2,分別計算目標種子樣本的I-Vector向量與目標剩余語音樣本的I-Vector向量 之間的余弦距離,其中,目標剩余語音樣本為多個語音樣本中除目標種子樣本之外的語音 樣本;
      [0143] S3,至少按照余弦距離從多個語音樣本或目標剩余語音樣本中過濾得到目標語音 樣本,其中,目標語音樣本的I-Vector向量與目標種子樣本的I-Vector向量之間的余弦距 離高于第一預定閾值。
      [0144] 可選地,存儲介質(zhì)還被設置為存儲用于執(zhí)行以下步驟的程序代碼:重復執(zhí)行以下 操作,直到確定出目標種子樣本:分別計算當前種子樣本的I-Vector向量與當前剩余語音 樣本的I-Vector向量之間的余弦距離,其中,當前剩余語音樣本為多個語音樣本中除當前 種子樣本之外的語音樣本;判斷第一平均值與第二平均值之間的差值是否小于第二預定閾 值,其中,第一平均值為當前種子樣本的I-Vector向量與當前剩余語音樣本的I-Vector向 量之間的余弦距離的平均值,第二平均值為上一輪種子樣本的I-Vector向量與上一輪剩余 語音樣本的I-Vector向量之間的余弦距離的平均值,上一輪剩余語音樣本為多個語音樣本 中除上一輪種子樣本之外的語音樣本;若差值小于第二預定閾值,則確定當前種子樣本為 目標種子樣本;若差值大于或等于第二預定閾值,則將當前種子樣本作為上一輪種子樣本, 從當前剩余語音樣本中選擇語音樣本,將選擇出的語音樣本拼接成當前種子樣本,并將當 前剩余語音樣本作為上一輪剩余語音樣本。
      [0145] 可選地,存儲介質(zhì)還被設置為存儲用于執(zhí)行以下步驟的程序代碼:將當前剩余語 音樣本按照余弦距離從小到大的順序進行排序;從排序后的當前剩余語音樣本中選擇靠前 的一個或多個語音樣本,其中,靠前的一個或多個語音樣本拼接成的當前種子樣本的音頻 時長為第三預定閾值。
      [0146] 可選地,存儲介質(zhì)還被設置為存儲用于執(zhí)行以下步驟的程序代碼:判斷目標剩余 語音樣本的數(shù)量是否大于等于第四預定閾值;在目標剩余語音樣本的數(shù)量大于等于第四預 定閾值時,按照余弦距離從目標剩余語音樣本中過濾得到目標語音樣本;在目標剩余語音 樣本的數(shù)量小于第四預定閾值時,按照余弦距離以及目標種子樣本的I-Vector向量與目標 種子樣本的I-Vector向量之間的余弦距離從多個語音樣本中過濾得到目標語音樣本。
      [0147] 可選地,存儲介質(zhì)還被設置為存儲用于執(zhí)行以下步驟的程序代碼:分別獲取多個 語音樣本中每個語音樣本的語音特征參數(shù);利用預先訓練完成的I-Vector矩陣獲取每個語 音樣本的I-Vector向量,其中,I-Vector矩陣用于指示語音樣本的語音特征參數(shù)對應的I-Vector 向量。
      [0148] 可選地,存儲介質(zhì)還被設置為存儲用于執(zhí)行以下步驟的程序代碼:分別獲取多個 用于訓練I-Vector矩陣的語音樣本中每個語音樣本的語音特征參數(shù);依據(jù)多個用于訓練I-Vector矩陣的語音樣本中每個語音樣本的語音特征參數(shù)從預先訓練完成的高斯混合模型 中提取高斯超向量,其中,高斯混合模型為利用多個用于訓練高斯混合模型的語音樣本中 每個語音樣本的語音特征參數(shù)訓練得到的模型;利用高斯超向量訓練I-Vector矩陣。
      [0149] 可選地,存儲介質(zhì)還被設置為存儲用于執(zhí)行以下步驟的程序代碼:將語音樣本處 理成采樣率分別為第一采樣率和第二采樣率的脈沖編碼調(diào)制信號;從脈沖編碼調(diào)制信號中 提取語音特征參數(shù);以及對語音特征參數(shù)進行能量檢測和歸一化處理。
      [0150] 可選地,本實施例中的具體示例可以參考上述實施例1和實施例2中所描述的示 例,本實施例在此不再贅述。
      [0151] 可選地,在本實施例中,上述存儲介質(zhì)可以包括但不限于:U盤、只讀存儲器(R0M, Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、移動硬盤、磁碟或者 光盤等各種可以存儲程序代碼的介質(zhì)。
      [0152] 上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。
      [0153] 上述實施例中的集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品 銷售或使用時,可以存儲在上述計算機可讀取的存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技 術方案本質(zhì)上或者說對現(xiàn)有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟 件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在存儲介質(zhì)中,包括若干指令用以使得一 臺或多臺計算機設備(可為個人計算機、服務器或者網(wǎng)絡設備等)執(zhí)行本發(fā)明各個實施例所 述方法的全部或部分步驟。
      [0154] 在本發(fā)明的上述實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒有 詳述的部分,可以參見其他實施例的相關描述。
      [0155] 在本申請所提供的幾個實施例中,應該理解到,所揭露的客戶端,可通過其它的方 式實現(xiàn)。其中,以上所描述的裝置實施例僅僅是示意性的,例如所述單元的劃分,僅僅為一 種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結合或者 可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之 間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連 接,可以是電性或其它的形式。
      [0156]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯 示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個 網(wǎng)絡單元上。可以根據(jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目 的。
      [0157] 另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以 是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單 元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。
      [0158] 以上所述僅是本發(fā)明的優(yōu)選實施方式,應當指出,對于本技術領域的普通技術人 員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應 視為本發(fā)明的保護范圍。
      【主權項】
      1. 一種語音數(shù)據(jù)處理方法,其特征在于,包括: 獲取多個語音樣本中每個語音樣本的I-Vector向量,并確定所述多個語音樣本中的目 標種子樣本; 分別計算所述目標種子樣本的I-Vector向量與目標剩余語音樣本的I-Vector向量之 間的余弦距離,其中,所述目標剩余語音樣本為所述多個語音樣本中除所述目標種子樣本 之外的語音樣本;以及 至少按照所述余弦距離從所述多個語音樣本或所述目標剩余語音樣本中過濾得到目 標語音樣本,其中,所述目標語音樣本的I-Vector向量與所述目標種子樣本的I-Vector向 量之間的余弦距離高于第一預定閾值。2. 根據(jù)權利要求1所述的方法,其特征在于,當前種子樣本被初始化為由所述多個語音 樣本中的至少一個語音樣本拼接得到,上一輪種子樣本和上一輪剩余語音樣本被初始化為 空,其中,確定所述多個語音樣本中的目標種子樣本包括:重復執(zhí)行以下操作,直到確定出 所述目標種子樣本: 分別計算所述當前種子樣本的I-Vector向量與當前剩余語音樣本的I-Vector向量之 間的余弦距離,其中,所述當前剩余語音樣本為所述多個語音樣本中除所述當前種子樣本 之外的語音樣本; 判斷第一平均值與第二平均值之間的差值是否小于第二預定閾值,其中,所述第一平 均值為所述當前種子樣本的I-Vector向量與所述當前剩余語音樣本的I-Vector向量之間 的余弦距離的平均值,所述第二平均值為所述上一輪種子樣本的I-Vector向量與所述上一 輪剩余語音樣本的I-Vector向量之間的余弦距離的平均值,所述上一輪剩余語音樣本為所 述多個語音樣本中除所述上一輪種子樣本之外的語音樣本; 若所述差值小于所述第二預定閾值,則確定所述當前種子樣本為所述目標種子樣本; 若所述差值大于或等于所述第二預定閾值,則將所述當前種子樣本作為所述上一輪種 子樣本,從所述當前剩余語音樣本中選擇語音樣本,將選擇出的所述語音樣本拼接成所述 當前種子樣本,并將所述當前剩余語音樣本作為所述上一輪剩余語音樣本。3. 根據(jù)權利要求2所述的方法,其特征在于,從所述當前剩余語音樣本中選擇語音樣本 包括: 將所述當前剩余語音樣本按照余弦距離從小到大的順序進行排序; 從排序后的所述當前剩余語音樣本中選擇靠前的一個或多個語音樣本,其中,所述靠 前的一個或多個語音樣本拼接成的所述當前種子樣本的音頻時長為第三預定閾值。4. 根據(jù)權利要求1所述的方法,其特征在于,至少按照所述余弦距離從所述多個語音樣 本或所述目標剩余語音樣本中過濾得到目標語音樣本包括: 判斷所述目標剩余語音樣本的數(shù)量是否大于等于第四預定閾值; 在所述目標剩余語音樣本的數(shù)量大于等于所述第四預定閾值時,按照所述余弦距離從 所述目標剩余語音樣本中過濾得到所述目標語音樣本; 在所述目標剩余語音樣本的數(shù)量小于所述第四預定閾值時,按照所述余弦距離以及所 述目標種子樣本的I-Vector向量與所述目標種子樣本的I-Vector向量之間的余弦距離從 所述多個語音樣本中過濾得到所述目標語音樣本。5. 根據(jù)權利要求1所述的方法,其特征在于,獲取多個語音樣本中每個語音樣本的I- Vector向量包括: 分別獲取所述多個語音樣本中每個語音樣本的語音特征參數(shù); 利用預先訓練完成的I-Vector矩陣獲取所述每個語音樣本的I-Vector向量,其中,所 述I-Vector矩陣用于指示所述語音樣本的語音特征參數(shù)對應的I-Vector向量。6. 根據(jù)權利要求5所述的方法,其特征在于,所述I-Vector矩陣通過以下步驟訓練得 到: 分別獲取多個用于訓練所述I-Vector矩陣的語音樣本中每個語音樣本的語音特征參 數(shù); 依據(jù)所述多個用于訓練所述I-Vector矩陣的語音樣本中每個語音樣本的語音特征參 數(shù)從預先訓練完成的高斯混合模型中提取高斯超向量,其中,所述高斯混合模型為利用多 個用于訓練所述高斯混合模型的語音樣本中每個語音樣本的語音特征參數(shù)訓練得到的模 型; 利用所述高斯超向量訓練所述I -Ve c tor矩陣。7. 根據(jù)權利要求5或6所述的方法,其特征在于,獲取語音樣本的語音特征參數(shù)包括: 將所述語音樣本處理成采樣率分別為第一采樣率和第二采樣率的脈沖編碼調(diào)制信號; 從所述脈沖編碼調(diào)制信號中提取語音特征參數(shù);以及 對所述語音特征參數(shù)進行能量檢測和歸一化處理。8. -種語音數(shù)據(jù)處理裝置,其特征在于,包括: 獲取模塊,用于獲取多個語音樣本中每個語音樣本的I-Vector向量,并確定所述多個 語音樣本中的目標種子樣本; 計算模塊,用于分別計算所述目標種子樣本的I-Vector向量與目標剩余語音樣本的I-Vector向量之間的余弦距離,其中,所述目標剩余語音樣本為所述多個語音樣本中除所述 目標種子樣本之外的語音樣本;以及 過濾模塊,用于至少按照所述余弦距離從所述多個語音樣本或所述目標剩余語音樣本 中過濾得到目標語音樣本,其中,所述目標語音樣本的I-Vector向量與所述目標種子樣本 的I-Vector向量之間的余弦距離高于第一預定閾值。9. 根據(jù)權利要求8所述的裝置,其特征在于,當前種子樣本被初始化為由所述多個語音 樣本中的至少一個語音樣本拼接得到,上一輪種子樣本和上一輪剩余語音樣本被初始化為 空,其中,所述獲取模塊包括:重復執(zhí)行模塊,用于重復執(zhí)行以下模塊中的操作,直到確定出 所述目標種子樣本: 第一子計算模塊,用于分別計算所述當前種子樣本的I-Vector向量與當前剩余語音樣 本的I-Vector向量之間的余弦距離,其中,所述當前剩余語音樣本為所述多個語音樣本中 除所述當前種子樣本之外的語音樣本; 第一判斷模塊,用于判斷第一平均值與第二平均值之間的差值是否小于第二預定閾 值,其中,所述第一平均值為所述當前種子樣本的I-Vector向量與所述當前剩余語音樣本 的I-Vector向量之間的余弦距離的平均值,所述第二平均值為所述上一輪種子樣本的I-Vector向量與所述上一輪剩余語音樣本的I-Vector向量之間的余弦距離的平均值,所述上 一輪剩余語音樣本為所述多個語音樣本中除所述上一輪種子樣本之外的語音樣本; 確定模塊,用于若所述差值小于所述第二預定閾值,則確定所述當前種子樣本為所述 目標種子樣本; 選擇模塊,用于若所述差值大于或等于所述第二預定閾值,則將所述當前種子樣本作 為所述上一輪種子樣本,從所述當前剩余語音樣本中選擇語音樣本,將選擇出的所述語音 樣本拼接成所述當前種子樣本,并將所述當前剩余語音樣本作為所述上一輪剩余語音樣 本。10. 根據(jù)權利要求9所述的裝置,其特征在于,所述選擇模塊包括: 排序模塊,用于將所述當前剩余語音樣本按照余弦距離從小到大的順序進行排序; 第一子選擇模塊,用于從排序后的所述當前剩余語音樣本中選擇靠前的一個或多個語 音樣本,其中,所述靠前的一個或多個語音樣本拼接成的所述當前種子樣本的音頻時長為 第三預定閾值。11. 根據(jù)權利要求8所述的裝置,其特征在于,所述過濾模塊包括: 第二判斷模塊,用于判斷所述目標剩余語音樣本的數(shù)量是否大于等于第四預定閾值; 第一子過濾模塊,用于在所述目標剩余語音樣本的數(shù)量大于等于所述第四預定閾值 時,按照所述余弦距離從所述目標剩余語音樣本中過濾得到所述目標語音樣本; 第二子過濾模塊,用于在所述目標剩余語音樣本的數(shù)量小于所述第四預定閾值時,按 照所述余弦距離以及所述目標種子樣本的I-Vector向量與所述目標種子樣本的I-Vector 向量之間的余弦距離從所述多個語音樣本中過濾得到所述目標語音樣本。12. 根據(jù)權利要求8所述的裝置,其特征在于,所述獲取模塊包括: 第一子獲取模塊,用于分別獲取所述多個語音樣本中每個語音樣本的語音特征參數(shù); 第二子獲取模塊,用于利用預先訓練完成的I-Vector矩陣獲取所述每個語音樣本的I-Vector向量,其中,所述I-Vector矩陣用于指示所述語音樣本的語音特征參數(shù)對應的I-Vector 向量。13. 根據(jù)權利要求12所述的裝置,其特征在于,所述I-Vector矩陣通過以下模塊訓練得 到: 第三子獲取模塊,用于分別獲取多個用于訓練所述I-Vector矩陣的語音樣本中每個語 音樣本的語音特征參數(shù); 第一提取模塊,用于依據(jù)所述多個用于訓練所述I-Vector矩陣的語音樣本中每個語音 樣本的語音特征參數(shù)從預先訓練完成的高斯混合模型中提取高斯超向量,其中,所述高斯 混合模型為利用多個用于訓練所述高斯混合模型的語音樣本中每個語音樣本的語音特征 參數(shù)訓練得到的模型; 訓練模塊,用于利用所述高斯超向量訓練所述I-Vector矩陣。14. 根據(jù)權利要求12或13所述的裝置,其特征在于,所述第一子獲取模塊包括: 采樣模塊,用于將所述語音樣本處理成采樣率分別為第一采樣率和第二采樣率的脈沖 編碼調(diào)制彳目號; 第二提取模塊,用于提取從所述脈沖編碼調(diào)制信號中提取語音特征參數(shù);以及 處理模塊,用于對所述語音特征參數(shù)進行能量檢測和歸一化處理。
      【文檔編號】G10L21/0272GK105869645SQ201610178300
      【公開日】2016年8月17日
      【申請日】2016年3月25日
      【發(fā)明人】金星明, 李為, 鄭昉勱, 吳富章, 朱碧磊, 錢柄樺, 李科, 吳永堅, 黃飛躍
      【申請人】騰訊科技(深圳)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1