特定人群的個(gè)性化彩鈴自動(dòng)審核方法及系統(tǒng)的制作方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種特定人群的個(gè)性化彩鈴自動(dòng)審核方法,包括以下步驟:接收待審核的彩鈴;從彩鈴中提取語(yǔ)音;提取語(yǔ)音的音頻特征,根據(jù)音頻特征判斷語(yǔ)音對(duì)應(yīng)的聲音是否來(lái)自預(yù)設(shè)人群;以及如果是,則判斷彩鈴未通過(guò)審核,否則判斷彩鈴?fù)ㄟ^(guò)審核,并將通過(guò)審核的彩鈴上傳至服務(wù)器。本發(fā)明的方法能夠自動(dòng)、快速、準(zhǔn)確地提取出不合格的彩鈴,效率高、成本低。本發(fā)明還提供了一種特定人群的個(gè)性化彩鈴自動(dòng)審核系統(tǒng)。
【專(zhuān)利說(shuō)明】特定人群的個(gè)性化彩鈴自動(dòng)審核方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及音頻信號(hào)處理【技術(shù)領(lǐng)域】,特別涉及一種特定人群的個(gè)性化彩鈴自動(dòng)審核方法及系統(tǒng)。
【背景技術(shù)】
[0002]個(gè)性化鈴音是使用了智能語(yǔ)音技術(shù)、滿(mǎn)足用戶(hù)親自動(dòng)手、便捷制作個(gè)性?xún)?nèi)容的鈴音、實(shí)現(xiàn)個(gè)人情感訴求的一項(xiàng)增值業(yè)務(wù)。個(gè)性化鈴音業(yè)務(wù)提供了豐富多彩的鈴音制作方式,可以通過(guò)特色的TTS (Text To Speech,從文本到語(yǔ)言)、預(yù)置鈴音下載、錄制、剪裁方式制作個(gè)性化鈴音。
[0003]而用戶(hù)制作的彩鈴質(zhì)量良莠不齊,部分用戶(hù)為了滿(mǎn)足自己所謂的個(gè)性,制作的彩鈴中,往往會(huì)出現(xiàn)惡意使用名人或者敏感人群的聲音制作彩鈴,彩鈴審核人員較難進(jìn)行全面的判斷。會(huì)導(dǎo)致惡意的彩鈴流入市場(chǎng),引起不必要的麻煩。
[0004]同時(shí)人工審核也受條件制約,不同的審核人員在不同的環(huán)境中,審核出的結(jié)論也不盡相同,隨著業(yè)務(wù)量逐漸增加,彩鈴企業(yè)也無(wú)法負(fù)擔(dān)不斷增長(zhǎng)的審核業(yè)務(wù)人力成本,如圖1所示,為目前人工審核彩鈴的流程示意圖。
【發(fā)明內(nèi)容】
[0005]本發(fā)明旨在至少在一定程度上解決上述相關(guān)技術(shù)中的技術(shù)問(wèn)題之一。
[0006]為此,本發(fā)明的一個(gè)目的在于提出一種特定人群的個(gè)性化彩鈴自動(dòng)審核方法,該方法能夠自動(dòng)、快速、準(zhǔn)確地提取出不合格的彩鈴,效率高、成本低。
[0007]本發(fā)明的另一個(gè)目的在于提供一種特定人群的個(gè)性化彩鈴自動(dòng)審核系統(tǒng)。
[0008]為達(dá)到上述目的,本發(fā)明第一方面的實(shí)施例提出了一種特定人群的個(gè)性化彩鈴自動(dòng)審核方法,包括以下步驟:接收待審核的彩鈴;從所述彩鈴中提取語(yǔ)音;提取所述語(yǔ)音的音頻特征,根據(jù)所述音頻特征判斷所述語(yǔ)音對(duì)應(yīng)的聲音是否來(lái)自預(yù)設(shè)人群;以及如果是,則判斷所述彩鈴未通過(guò)審核,否則判斷所述彩鈴?fù)ㄟ^(guò)審核,并將通過(guò)審核的彩鈴上傳至服務(wù)器。
[0009]根據(jù)本發(fā)明實(shí)施例的特定人群的個(gè)性化彩鈴自動(dòng)審核方法,對(duì)待審核彩鈴的頻譜進(jìn)行分析,提取出說(shuō)話(huà)語(yǔ)音的音頻特征,并判斷該語(yǔ)音是否屬于預(yù)設(shè)人群,如果是,則判定待審核的彩鈴未通過(guò)審核,否則該彩鈴?fù)ㄟ^(guò)審核,然后將審核通過(guò)的彩鈴上傳至服務(wù)器。因此,該方法能夠快速、準(zhǔn)確地提取出不合格(如包含預(yù)設(shè)人群的語(yǔ)音)的彩鈴,效率高、成本低。
[0010]另外,根據(jù)本發(fā)明上述實(shí)施例的特定人群的個(gè)性化彩鈴自動(dòng)審核方法還可以具有如下附加的技術(shù)特征:
[0011]在本發(fā)明的一個(gè)實(shí)施例中,所述從所述彩鈴中提取語(yǔ)音的步驟包括:利用音頻分類(lèi)器對(duì)所述彩鈴進(jìn)行頻譜分析,以從所述彩鈴中分離所述語(yǔ)音和鈴音。
[0012]在本發(fā)明的一個(gè)實(shí)施例中,所述提取所述語(yǔ)音的音頻特征,根據(jù)所述音頻特征判斷所述語(yǔ)音對(duì)應(yīng)的聲音是否來(lái)自預(yù)設(shè)人群,進(jìn)一步包括:提取所述語(yǔ)音的音頻特征;根據(jù)所述語(yǔ)音的音頻特征和來(lái)自所述預(yù)設(shè)人群的語(yǔ)音的音頻特征得到聲紋相似度;如果所述聲紋相似度大于預(yù)設(shè)閾值,則判斷所述語(yǔ)音對(duì)應(yīng)的聲音來(lái)自所述預(yù)設(shè)人群。
[0013]在本發(fā)明的一個(gè)實(shí)施例中,所述音頻特征包括MFCC特征。
[0014]在本發(fā)明的一個(gè)實(shí)施例中,在從所述彩鈴中提取語(yǔ)音之前,還包括:對(duì)所述彩鈴進(jìn)行噪音過(guò)濾。
[0015]本發(fā)明第二方面的實(shí)施例還提供了一種特定人群的個(gè)性化彩鈴自動(dòng)審核系統(tǒng),包括:上傳方,用于上傳所述待審核的彩鈴;審核方,用于從所述待審核的彩鈴中提取語(yǔ)音,并提取所述語(yǔ)音的音頻特征,根據(jù)所述音頻特征判斷所述語(yǔ)音對(duì)應(yīng)的聲音是否來(lái)自預(yù)設(shè)人群,以及在判斷所述語(yǔ)音對(duì)應(yīng)的聲音來(lái)自預(yù)設(shè)人群時(shí),判斷所述彩鈴未通過(guò)審核,否則判斷所述彩鈴?fù)ㄟ^(guò)審核;彩鈴服務(wù)器,用于接收并保存所述審核方審核通過(guò)的彩鈴。
[0016]根據(jù)本發(fā)明實(shí)施例的特定人群的個(gè)性化彩鈴自動(dòng)審核系統(tǒng),對(duì)待審核彩鈴的頻譜進(jìn)行分析,提取出說(shuō)話(huà)語(yǔ)音的音頻特征,并判斷該語(yǔ)音是否屬于預(yù)設(shè)人群,如果是,則判定待審核的彩鈴未通過(guò)審核,否則該彩鈴?fù)ㄟ^(guò)審核,然后將審核通過(guò)的彩鈴上傳至服務(wù)器。因此,該系統(tǒng)能夠快速、準(zhǔn)確地提取出不合格(如包含預(yù)設(shè)人群的語(yǔ)音)的彩鈴,效率高、成本低。
[0017]另外,根據(jù)本發(fā)明上述實(shí)施例的特定人群的個(gè)性化彩鈴自動(dòng)審核系統(tǒng)還可以具有如下附加的技術(shù)特征:
[0018]在本發(fā)明的一個(gè)實(shí)施例中,所述審核方利用音頻分類(lèi)器對(duì)所述彩鈴進(jìn)行頻譜分析,以從所述彩鈴中分離所述語(yǔ)音和鈴音。
[0019]在本發(fā)明的一個(gè)實(shí)施例中,所述審核方提取所述語(yǔ)音的音頻特征,根據(jù)所述音頻特征判斷所述語(yǔ)音對(duì)應(yīng)的聲音是否來(lái)自預(yù)設(shè)人群,進(jìn)一步包括:提取所述語(yǔ)音的音頻特征;根據(jù)所述語(yǔ)音的音頻特征和來(lái)自所述預(yù)設(shè)人群的語(yǔ)音的音頻特征得到聲紋相似度;如果所述聲紋相似度大于預(yù)設(shè)閾值,則判斷所述語(yǔ)音對(duì)應(yīng)的聲音來(lái)自所述預(yù)設(shè)人群。
[0020]在本發(fā)明的一個(gè)實(shí)施例中,所述音頻特征包括MFCC特征。
[0021]在本發(fā)明的一個(gè)實(shí)施例中,所述審核方還用于在從所述彩鈴中提取語(yǔ)音之前,對(duì)所述彩鈴進(jìn)行噪音過(guò)濾。
[0022]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0023]本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:
[0024]圖1為目前傳統(tǒng)的人工審核彩鈴的流程示意圖;
[0025]圖2為根據(jù)本發(fā)明一個(gè)實(shí)施例的特定人群的個(gè)性化彩鈴自動(dòng)審核方法的流程圖;
[0026]圖3為根據(jù)本發(fā)明另一個(gè)實(shí)施例特定人群的個(gè)性化彩鈴自動(dòng)審核方法的流程示意圖;
[0027]圖4為根據(jù)本發(fā)明一個(gè)實(shí)施例聲紋檢測(cè)的原理示意圖;
[0028]圖5為根據(jù)本發(fā)明一個(gè)實(shí)施例的提取音頻特征的流程示意圖;
[0029]圖6為根據(jù)本發(fā)明一個(gè)實(shí)施例UBM模型和說(shuō)話(huà)人模型示意圖;以及
[0030]圖7為根據(jù)本發(fā)明一個(gè)實(shí)施例的特定人群的個(gè)性化彩鈴自動(dòng)審核系統(tǒng)的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0031]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類(lèi)似的標(biāo)號(hào)表示相同或類(lèi)似的元件或具有相同或類(lèi)似功能的元件。下面通過(guò)參考附圖描述的實(shí)施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。
[0032]此外,術(shù)語(yǔ)“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對(duì)重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括一個(gè)或者更多個(gè)該特征。在本發(fā)明的描述中,“多個(gè)”的含義是兩個(gè)或兩個(gè)以上,除非另有明確具體的限定。
[0033]在本發(fā)明中,除非另有明確的規(guī)定和限定,術(shù)語(yǔ)“安裝”、“相連”、“連接”、“固定”等術(shù)語(yǔ)應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過(guò)中間媒介間接相連,可以是兩個(gè)元件內(nèi)部的連通。對(duì)于本領(lǐng)域的普通技術(shù)人員而言,可以根據(jù)具體情況理解上述術(shù)語(yǔ)在本發(fā)明中的具體含義。
[0034]在本發(fā)明中,除非另有明確的規(guī)定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接觸,也可以包括第一和第二特征不是直接接觸而是通過(guò)它們之間的另外的特征接觸。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或僅僅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正上方和斜上方,或僅僅表示第一特征水平高度小于第二特征。
[0035]下面參照附圖描述根據(jù)本發(fā)明實(shí)施例的特定人群的個(gè)性化彩鈴自動(dòng)審核方法及系統(tǒng)。
[0036]圖2為根據(jù)本發(fā)明一個(gè)實(shí)施例的特定人群的個(gè)性化彩鈴自動(dòng)審核方法的流程圖。圖3為根據(jù)本發(fā)明另一個(gè)實(shí)施例的特定人群的個(gè)性化彩鈴自動(dòng)審核方法的流程示意圖。結(jié)合圖2和圖3所示,該方法包括以下步驟:
[0037]步驟S201,接收待審核的彩鈴。
[0038]步驟S202,從彩鈴中提取語(yǔ)音。
[0039]具體地說(shuō),結(jié)合圖4所示,例如利用音頻分類(lèi)器對(duì)彩鈴進(jìn)行頻譜分析,以從彩鈴中分離語(yǔ)音和鈴音。其中,音頻分類(lèi)器以MFCC為特征向量,采用GMM-UBM模型,在已訓(xùn)練好的音樂(lè)和語(yǔ)音(說(shuō)話(huà))兩個(gè)混合高斯模型上,對(duì)待審核彩鈴進(jìn)行后驗(yàn)概率統(tǒng)計(jì),通過(guò)其后驗(yàn)概率的分布,來(lái)確定彩鈴的音頻屬性。其中,例如將音頻分為音樂(lè)和說(shuō)話(huà)(語(yǔ)音)兩個(gè)類(lèi)型。也即,該步驟將說(shuō)話(huà)部分從彩鈴中分離出來(lái)。
[0040]另外,在本發(fā)明的實(shí)施例中,在從彩鈴中提取語(yǔ)音之前,首先對(duì)彩鈴進(jìn)行噪音過(guò)濾。
[0041]步驟S203,提取語(yǔ)音的音頻特征,根據(jù)音頻特征判斷語(yǔ)音對(duì)應(yīng)的聲音是否來(lái)自預(yù)設(shè)人群。
[0042]在本發(fā)明的一個(gè)實(shí)施例中,結(jié)合圖4所示,該步驟S203進(jìn)一步包括:
[0043]步驟1:提取語(yǔ)音的音頻特征。
[0044]步驟2:根據(jù)語(yǔ)音的音頻特征和來(lái)自預(yù)設(shè)人群的語(yǔ)音的音頻特征得到聲紋相似度。
[0045]具體地說(shuō),聲紋(Voiaprint)是用電聲學(xué)儀器顯示的攜帶言語(yǔ)信息的聲波頻譜,聲紋不僅具有特定性,而且有相對(duì)穩(wěn)定性的特點(diǎn)。因此,可采取GMM-UBM模型,進(jìn)行聲紋檢測(cè)。首先進(jìn)行語(yǔ)音的音頻特征提取,然后采用MAP (Maximum a Poster1ri,最大后驗(yàn)概率)準(zhǔn)側(cè),先驗(yàn)分布來(lái)自于通用背景模型UBM,然后提取目標(biāo)音頻的特征,采用對(duì)數(shù)似然比得分取代似然度得分,以獲得聲紋的相似度。其中,預(yù)設(shè)閾值根據(jù)實(shí)際需求預(yù)先設(shè)定。
[0046]步驟3:如果聲紋相似度大于預(yù)設(shè)閾值,則判斷語(yǔ)音對(duì)應(yīng)的聲音來(lái)自預(yù)設(shè)人群。
[0047]其中,在本發(fā)明的一個(gè)實(shí)施例中,所述的音頻特征包括MFCC特征,同時(shí),輔以音高、清濁音等,如圖5所示。具體而言,MFCC是一種聽(tīng)覺(jué)感知頻域倒譜參數(shù),該參數(shù)從人耳對(duì)聲音頻率高低的非線(xiàn)性心理感覺(jué)角度反映了語(yǔ)音短時(shí)幅度譜的特征。
[0048]步驟S204,如果是,則判斷彩鈴未通過(guò)審核,否則判斷彩鈴?fù)ㄟ^(guò)審核,并將通過(guò)審核的彩鈴上傳至服務(wù)器。
[0049]關(guān)于上述的UBM模型,結(jié)合圖6所示。具體地說(shuō),同傳統(tǒng)的語(yǔ)音識(shí)別一樣,訓(xùn)練數(shù)據(jù)的數(shù)量是影響模式識(shí)別系統(tǒng)性能的重要因素,但在聲紋檢測(cè)上面,該問(wèn)題表現(xiàn)的更加突出。聲紋系統(tǒng)需要對(duì)每個(gè)敏感人都要建立一套對(duì)應(yīng)的模型,但是現(xiàn)實(shí)情況下要做到大量收集每個(gè)敏感人的語(yǔ)音信息,尤其是反動(dòng)人群(預(yù)設(shè)人群)的音頻數(shù)據(jù),是相當(dāng)困難的。所以本發(fā)明實(shí)施例的做法是先訓(xùn)練一個(gè)通用的說(shuō)話(huà)人模型,然后將目標(biāo)說(shuō)話(huà)人的數(shù)據(jù)使用自適應(yīng)的方法,映射到目標(biāo)說(shuō)話(huà)人上面。
[0050]說(shuō)話(huà)人的模型是在UBM的基礎(chǔ)上利用說(shuō)話(huà)人的數(shù)據(jù)進(jìn)行適當(dāng)?shù)卣{(diào)整,也就是自適應(yīng)的方法。一般而言,自適應(yīng)的方法有多種多樣,有最大似然線(xiàn)性回歸(Maximumlikelihood linear regress1n, MLLR),最大后驗(yàn)概率(Maximum a Poster1ri,MAP)等方法。在語(yǔ)音數(shù)據(jù)相對(duì)較少的情況下,MLLR能夠取得更好的性能,在語(yǔ)音數(shù)據(jù)超過(guò)30秒以上時(shí),MAP能夠取得更好的性能,因?yàn)椴殊徶械囊纛l數(shù)據(jù)往往大于30秒,故本發(fā)明的實(shí)施例中采用MAP的方案。
[0051]綜上所述,通過(guò)這一系列流程后,該方法能夠?qū)⒚舾腥巳旱男畔z測(cè)出來(lái),隨著用戶(hù)彩鈴的數(shù)量與質(zhì)量不斷積累,可以用此數(shù)據(jù)去迭代訓(xùn)練系統(tǒng)中的相關(guān)GMM-UBM模型,可以使得檢測(cè)效果越來(lái)越好。
[0052]綜上,本發(fā)明實(shí)施例的方法的原理概述如下:首先對(duì)待審核彩鈴進(jìn)行頻譜分析,分離出說(shuō)話(huà)語(yǔ)音的部分,然后對(duì)彩鈴中包含說(shuō)話(huà)語(yǔ)音的部分進(jìn)行聲紋分析,判別說(shuō)話(huà)人是不是預(yù)設(shè)人群,預(yù)設(shè)人群為預(yù)先設(shè)定的一類(lèi)特定人群。如果說(shuō)話(huà)人屬于預(yù)設(shè)人群,則該彩鈴審核不通過(guò),如果說(shuō)話(huà)人不屬于預(yù)設(shè)人群,則該彩鈴審核通過(guò),并上傳至服務(wù)器中。
[0053]根據(jù)本發(fā)明實(shí)施例的特定人群的個(gè)性化彩鈴自動(dòng)審核方法,對(duì)待審核彩鈴的頻譜進(jìn)行分析,提取出說(shuō)話(huà)語(yǔ)音的音頻特征,并判斷該語(yǔ)音是否屬于預(yù)設(shè)人群,如果是,則判定待審核的彩鈴未通過(guò)審核,否則該彩鈴?fù)ㄟ^(guò)審核,然后將審核通過(guò)的彩鈴上傳至服務(wù)器。因此,該方法能夠自動(dòng)、快速、準(zhǔn)確地提取出不合格(如包含預(yù)設(shè)人群的語(yǔ)音)的彩鈴,效率高、成本低,另外,該方法可實(shí)現(xiàn)分布式部署,可擴(kuò)展性強(qiáng),便于企業(yè)級(jí)大數(shù)據(jù)量的彩鈴的分析處理。
[0054]本發(fā)明的進(jìn)一步實(shí)施例還提供了一種特定人群的個(gè)性化彩鈴自動(dòng)審核系統(tǒng)。
[0055]圖7為根據(jù)本發(fā)明一個(gè)實(shí)施例的特定人群的個(gè)性化彩鈴自動(dòng)審核系統(tǒng)的結(jié)構(gòu)框圖。如圖7所示,該系統(tǒng)700包括:上傳方710、審核方720和彩鈴服務(wù)器730。
[0056]其中,上傳方710用于上傳待審核的彩鈴。審核方720用于從待審核的彩鈴中提取語(yǔ)音,并提取語(yǔ)音的音頻特征,根據(jù)音頻特征判斷語(yǔ)音對(duì)應(yīng)的聲音是否來(lái)自預(yù)設(shè)人群,以及在判斷語(yǔ)音對(duì)應(yīng)的聲音來(lái)自預(yù)設(shè)人群時(shí),判斷彩鈴未通過(guò)審核,否則判斷彩鈴?fù)ㄟ^(guò)審核。彩鈴服務(wù)器730用于接收并保存審核方審核通過(guò)的彩鈴。
[0057]具體地說(shuō),結(jié)合圖4所示,在本發(fā)明的一個(gè)實(shí)施例中,審核方720例如利用音頻分類(lèi)器對(duì)彩鈴進(jìn)行頻譜分析,以從彩鈴中分離語(yǔ)音和鈴音。其中,音頻分類(lèi)器以MFCC為特征向量,采用GMM-UBM模型,在已訓(xùn)練好的音樂(lè)和語(yǔ)音(說(shuō)話(huà))兩個(gè)混合高斯模型上,對(duì)待審核彩鈴進(jìn)行后驗(yàn)概率統(tǒng)計(jì),通過(guò)其后驗(yàn)概率的分布,來(lái)確定彩鈴的音頻屬性。其中,例如將音頻分為音樂(lè)和說(shuō)話(huà)(語(yǔ)音)兩個(gè)類(lèi)型。也即,該步驟將說(shuō)話(huà)部分從彩鈴中分離出來(lái)。
[0058]在本發(fā)明的另一個(gè)實(shí)施例中,審核方720提取語(yǔ)音的音頻特征,根據(jù)音頻特征判斷語(yǔ)音對(duì)應(yīng)的聲音是否來(lái)自預(yù)設(shè)人群,具體包括:提取語(yǔ)音的音頻特征,然后根據(jù)語(yǔ)音的音頻特征和來(lái)自預(yù)設(shè)人群的語(yǔ)音的音頻特征得到聲紋相似度,如果聲紋相似度大于預(yù)設(shè)閾值,則判斷語(yǔ)音對(duì)應(yīng)的聲音來(lái)自預(yù)設(shè)人群。
[0059]具體地說(shuō),聲紋(Voiaprint)是用電聲學(xué)儀器顯示的攜帶言語(yǔ)信息的聲波頻譜,聲紋不僅具有特定性,而且有相對(duì)穩(wěn)定性的特點(diǎn)。因此,可采取GMM-UBM模型,進(jìn)行聲紋檢測(cè)。首先進(jìn)行語(yǔ)音的音頻特征提取,然后采用MAP準(zhǔn)側(cè),先驗(yàn)分布來(lái)自于通用背景模型UBM,然后提取目標(biāo)音頻的特征,采用對(duì)數(shù)似然比得分取代似然度得分,以獲得聲紋的相似度。其中,預(yù)設(shè)閾值根據(jù)實(shí)際需求預(yù)先設(shè)定。
[0060]在上述示例中,音頻特征包括MFCC特征,同時(shí),輔以音高、清池音等,如圖5所示。具體而言,MFCC是一種聽(tīng)覺(jué)感知頻域倒譜參數(shù),該參數(shù)從人耳對(duì)聲音頻率高低的非線(xiàn)性心理感覺(jué)角度反映了語(yǔ)音短時(shí)幅度譜的特征。
[0061]在本發(fā)明的一個(gè)實(shí)施例中,審核方720還用于在從彩鈴中提取語(yǔ)音之前,對(duì)彩鈴進(jìn)行噪音過(guò)濾。
[0062]關(guān)于上述的UBM模型,結(jié)合圖6所示。具體地說(shuō),同傳統(tǒng)的語(yǔ)音識(shí)別一樣,訓(xùn)練數(shù)據(jù)的數(shù)量是影響模式識(shí)別系統(tǒng)性能的重要因素,但在聲紋檢測(cè)上面,該問(wèn)題表現(xiàn)的更加突出。聲紋系統(tǒng)需要對(duì)每個(gè)敏感人都要建立一套對(duì)應(yīng)的模型,但是現(xiàn)實(shí)情況下要做到大量收集每個(gè)敏感人的語(yǔ)音信息,尤其是反動(dòng)人群(預(yù)設(shè)人群)的音頻數(shù)據(jù),是相當(dāng)困難的。所以本發(fā)明實(shí)施例的做法是先訓(xùn)練一個(gè)通用的說(shuō)話(huà)人模型,然后將目標(biāo)說(shuō)話(huà)人的數(shù)據(jù)使用自適應(yīng)的方法,映射到目標(biāo)說(shuō)話(huà)人上面。
[0063]說(shuō)話(huà)人的模型是在UBM的基礎(chǔ)上利用說(shuō)話(huà)人的數(shù)據(jù)進(jìn)行適當(dāng)?shù)卣{(diào)整,也就是自適應(yīng)的方法。一般而言,自適應(yīng)的方法有多種多樣,有最大似然線(xiàn)性回歸(Maximumlikelihood linear regress1n, MLLR),最大后驗(yàn)概率MAP等方法。在語(yǔ)音數(shù)據(jù)相對(duì)較少的情況下,MLLR能夠取得更好的性能,在語(yǔ)音數(shù)據(jù)超過(guò)30秒以上時(shí),MAP能夠取得更好的性能,因?yàn)椴殊徶械囊纛l數(shù)據(jù)往往大于30秒,故本發(fā)明的實(shí)施例中采用MAP的方案。
[0064]綜上所述,通過(guò)這一系列流程后,該系統(tǒng)能夠?qū)⒚舾腥巳?預(yù)設(shè)人群)的信息檢測(cè)出來(lái),隨著用戶(hù)彩鈴的數(shù)量與質(zhì)量不斷積累,可以用此數(shù)據(jù)去迭代訓(xùn)練系統(tǒng)中的相關(guān)GMM-UBM I旲型,可以使得檢測(cè)效果越來(lái)越好。
[0065]綜上,本發(fā)明實(shí)施例的系統(tǒng)700的原理概述如下:首先對(duì)待審核彩鈴進(jìn)行頻譜分析,分離出說(shuō)話(huà)語(yǔ)音的部分,然后對(duì)彩鈴中包含說(shuō)話(huà)語(yǔ)音的部分進(jìn)行聲紋分析,判別說(shuō)話(huà)人是不是預(yù)設(shè)人群,預(yù)設(shè)人群為預(yù)先設(shè)定的一類(lèi)特定人群。如果說(shuō)話(huà)人屬于預(yù)設(shè)人群,則該彩鈴審核不通過(guò),如果說(shuō)話(huà)人不屬于預(yù)設(shè)人群,則該彩鈴審核通過(guò),并上傳至彩鈴服務(wù)器中。
[0066]根據(jù)本發(fā)明實(shí)施例的特定人群的個(gè)性化彩鈴自動(dòng)審核系統(tǒng),對(duì)待審核彩鈴的頻譜進(jìn)行分析,提取出說(shuō)話(huà)語(yǔ)音的音頻特征,并判斷該語(yǔ)音是否屬于預(yù)設(shè)人群,如果是,則判定待審核的彩鈴未通過(guò)審核,否則該彩鈴?fù)ㄟ^(guò)審核,然后將審核通過(guò)的彩鈴上傳至服務(wù)器。因此,該系統(tǒng)能夠自動(dòng)、快速、準(zhǔn)確地提取出不合格(如包含預(yù)設(shè)人群的語(yǔ)音)的彩鈴,效率高、成本低,另外,該系統(tǒng)可實(shí)現(xiàn)分布式部署,可擴(kuò)展性強(qiáng),便于企業(yè)級(jí)大數(shù)據(jù)量的彩鈴的分析處理。
[0067]流程圖中或在此以其他方式描述的任何過(guò)程或方法描述可以被理解為,表示包括一個(gè)或更多個(gè)用于實(shí)現(xiàn)特定邏輯功能或過(guò)程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實(shí)施方式的范圍包括另外的實(shí)現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時(shí)的方式或按相反的順序,來(lái)執(zhí)行功能,這應(yīng)被本發(fā)明的實(shí)施例所屬【技術(shù)領(lǐng)域】的技術(shù)人員所理解。
[0068]在流程圖中表示或在此以其他方式描述的邏輯和/或步驟,例如,可以被認(rèn)為是用于實(shí)現(xiàn)邏輯功能的可執(zhí)行指令的定序列表,可以具體實(shí)現(xiàn)在任何計(jì)算機(jī)可讀介質(zhì)中,以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備(如基于計(jì)算機(jī)的系統(tǒng)、包括處理器的系統(tǒng)或其他可以從指令執(zhí)行系統(tǒng)、裝置或設(shè)備取指令并執(zhí)行指令的系統(tǒng))使用,或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用。就本說(shuō)明書(shū)而言,"計(jì)算機(jī)可讀介質(zhì)"可以是任何可以包含、存儲(chǔ)、通信、傳播或傳輸程序以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用的裝置。計(jì)算機(jī)可讀介質(zhì)的更具體的示例(非窮盡性列表)包括以下:具有一個(gè)或多個(gè)布線(xiàn)的電連接部(電子裝置),便攜式計(jì)算機(jī)盤(pán)盒(磁裝置),隨機(jī)存取存儲(chǔ)器(RAM),只讀存儲(chǔ)器(R0M),可擦除可編輯只讀存儲(chǔ)器(EPR0M或閃速存儲(chǔ)器),光纖裝置,以及便攜式光盤(pán)只讀存儲(chǔ)器(⑶ROM)。另外,計(jì)算機(jī)可讀介質(zhì)甚至可以是可在其上打印所述程序的紙或其他合適的介質(zhì),因?yàn)榭梢岳缤ㄟ^(guò)對(duì)紙或其他介質(zhì)進(jìn)行光學(xué)掃描,接著進(jìn)行編輯、解譯或必要時(shí)以其他合適方式進(jìn)行處理來(lái)以電子方式獲得所述程序,然后將其存儲(chǔ)在計(jì)算機(jī)存儲(chǔ)器中。
[0069]應(yīng)當(dāng)理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來(lái)實(shí)現(xiàn)。在上述實(shí)施方式中,多個(gè)步驟或方法可以用存儲(chǔ)在存儲(chǔ)器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來(lái)實(shí)現(xiàn)。例如,如果用硬件來(lái)實(shí)現(xiàn),和在另一實(shí)施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項(xiàng)或他們的組合來(lái)實(shí)現(xiàn):具有用于對(duì)數(shù)據(jù)信號(hào)實(shí)現(xiàn)邏輯功能的邏輯門(mén)電路的離散邏輯電路,具有合適的組合邏輯門(mén)電路的專(zhuān)用集成電路,可編程門(mén)陣列(PGA),現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)等。
[0070]本【技術(shù)領(lǐng)域】的普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法攜帶的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件完成,所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),包括方法實(shí)施例的步驟之一或其組合。[0071 ] 此外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理模塊中,也可以是各個(gè)單元單獨(dú)物理存在,也可以?xún)蓚€(gè)或兩個(gè)以上單元集成在一個(gè)模塊中。上述集成的模塊既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能模塊的形式實(shí)現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷(xiāo)售或使用時(shí),也可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。
[0072]上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤(pán)或光盤(pán)等。
[0073]在本說(shuō)明書(shū)的描述中,參考術(shù)語(yǔ)“一個(gè)實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說(shuō)明書(shū)中,對(duì)上述術(shù)語(yǔ)的示意性表述不一定指的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任何的一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。
[0074]盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對(duì)本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在不脫離本發(fā)明的原理和宗旨的情況下在本發(fā)明的范圍內(nèi)可以對(duì)上述實(shí)施例進(jìn)行變化、修改、替換和變型。
【權(quán)利要求】
1.一種特定人群的個(gè)性化彩鈴自動(dòng)審核方法,其特征在于,包括以下步驟: 接收待審核的彩鈴; 從所述彩鈴中提取語(yǔ)音; 提取所述語(yǔ)音的音頻特征,根據(jù)所述音頻特征判斷所述語(yǔ)音對(duì)應(yīng)的聲音是否來(lái)自預(yù)設(shè)人群;以及 如果是,則判斷所述彩鈴未通過(guò)審核,否則判斷所述彩鈴?fù)ㄟ^(guò)審核,并將通過(guò)審核的彩鈴上傳至服務(wù)器。
2.根據(jù)權(quán)利要求1所述的特定人群的個(gè)性化彩鈴自動(dòng)審核方法,其特征在于,所述從所述彩鈴中提取語(yǔ)音的步驟包括: 利用音頻分類(lèi)器對(duì)所述彩鈴進(jìn)行頻譜分析,以從所述彩鈴中分離所述語(yǔ)音和鈴音。
3.根據(jù)權(quán)利要求1所述的特定人群的個(gè)性化彩鈴自動(dòng)審核方法,其特征在于,所述提取所述語(yǔ)音的音頻特征,根據(jù)所述音頻特征判斷所述語(yǔ)音對(duì)應(yīng)的聲音是否來(lái)自預(yù)設(shè)人群,進(jìn)一步包括: 提取所述語(yǔ)音的音頻特征; 根據(jù)所述語(yǔ)音的音頻特征和來(lái)自所述預(yù)設(shè)人群的語(yǔ)音的音頻特征得到聲紋相似度; 如果所述聲紋相似度大于預(yù)設(shè)閾值,則判斷所述語(yǔ)音對(duì)應(yīng)的聲音來(lái)自所述預(yù)設(shè)人群。
4.根據(jù)權(quán)利要求4所述的特定人群的個(gè)性化彩鈴自動(dòng)審核方法,其特征在于,所述音頻特征包括MFCC特征。
5.根據(jù)權(quán)利要求1-4任一項(xiàng)所述的特定人群的個(gè)性化彩鈴自動(dòng)審核方法,其特征在于,在從所述彩鈴中提取語(yǔ)音之前,還包括:對(duì)所述彩鈴進(jìn)行噪音過(guò)濾。
6.一種特定人群的個(gè)性化彩鈴自動(dòng)審核系統(tǒng),其特征在于,包括: 上傳方,用于上傳待審核的彩鈴; 審核方,用于從所述待審核的彩鈴中提取語(yǔ)音,并提取所述語(yǔ)音的音頻特征,根據(jù)所述音頻特征判斷所述語(yǔ)音對(duì)應(yīng)的聲音是否來(lái)自預(yù)設(shè)人群,以及在判斷所述語(yǔ)音對(duì)應(yīng)的聲音來(lái)自預(yù)設(shè)人群時(shí),判斷所述彩鈴未通過(guò)審核,否則判斷所述彩鈴?fù)ㄟ^(guò)審核; 彩鈴服務(wù)器,用于接收并保存所述審核方審核通過(guò)的彩鈴。
7.根據(jù)權(quán)利要求6所述的特定人群的個(gè)性化彩鈴自動(dòng)審核系統(tǒng),其特征在于,所述審核方利用音頻分類(lèi)器對(duì)所述彩鈴進(jìn)行頻譜分析,以從所述彩鈴中分離所述語(yǔ)音和鈴音。
8.根據(jù)權(quán)利要求6所述的特定人群的個(gè)性化彩鈴自動(dòng)審核系統(tǒng),其特征在于,所述審核方提取所述語(yǔ)音的音頻特征,根據(jù)所述音頻特征判斷所述語(yǔ)音對(duì)應(yīng)的聲音是否來(lái)自預(yù)設(shè)人群,進(jìn)一步包括: 提取所述語(yǔ)音的音頻特征; 根據(jù)所述語(yǔ)音的音頻特征和來(lái)自所述預(yù)設(shè)人群的語(yǔ)音的音頻特征得到聲紋相似度; 如果所述聲紋相似度大于預(yù)設(shè)閾值,則判斷所述語(yǔ)音對(duì)應(yīng)的聲音來(lái)自所述預(yù)設(shè)人群。
9.根據(jù)權(quán)利要求8所述的特定人群的個(gè)性化彩鈴自動(dòng)審核系統(tǒng),其特征在于,所述音頻特征包括MFCC特征。
10.根據(jù)權(quán)利要求6-9任一項(xiàng)所述的特定人群的個(gè)性化彩鈴自動(dòng)審核系統(tǒng),其特征在于,所述審核方還用于在從所述彩鈴中提取語(yǔ)音之前,對(duì)所述彩鈴進(jìn)行噪音過(guò)濾。
【文檔編號(hào)】G10L17/02GK104361891SQ201410654825
【公開(kāi)日】2015年2月18日 申請(qǐng)日期:2014年11月17日 優(yōu)先權(quán)日:2014年11月17日
【發(fā)明者】王瑞 申請(qǐng)人:科大訊飛股份有限公司