話音認(rèn)證和語音識別系統(tǒng)及方法
【專利摘要】一種用于配置語音識別系統(tǒng)的方法包括獲得一個話音認(rèn)證系統(tǒng)在一個話音認(rèn)證過程中所利用的一個語音樣本。對該語音樣本進(jìn)行處理以生成與該語音樣本相關(guān)聯(lián)的多個語音單元的多個聲學(xué)模型。對這些聲學(xué)模型進(jìn)行存儲以便隨后由該語音識別系統(tǒng)用作一個語音識別過程的一部分。
【專利說明】話音認(rèn)證和語音識別系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及作為話音認(rèn)證系統(tǒng)的一部分而運行的語音識別系統(tǒng)的自動調(diào)諧和配置。結(jié)果是一種既識別個人又識別其語音的系統(tǒng)。
【背景技術(shù)】
[0002]制作有效的語音識別系統(tǒng)的關(guān)鍵是創(chuàng)建聲學(xué)模型、語法和語言模型,這些模型使得底層語音識別技術(shù)能夠在應(yīng)用內(nèi)可靠地識別正在說的內(nèi)容并且給定語音樣本的上下文的情況下能夠弄清楚或理解該語音。創(chuàng)建聲學(xué)模型、語法和語言模型的過程包含收集語音樣本(通常還稱為話音樣本)的數(shù)據(jù)庫,該數(shù)據(jù)庫代表說話者與語音識別系統(tǒng)交互的方式。為了創(chuàng)建這些聲學(xué)模型、語法和語言模型,需要將數(shù)據(jù)庫中的每個語音樣本進(jìn)行分段并將其標(biāo)注成其單詞或音素組成部分。然后就對所有說話者(比如像所有說單詞“二(two)”的說話者)的全部常見組成部分進(jìn)行編譯和處理以創(chuàng)建此組成部分的單詞(或音素)聲學(xué)模型。在基于大詞匯音素的系統(tǒng)中,還需要重復(fù)該過程以針對此語言學(xué)市場創(chuàng)建語言和口音特定的模型和語法。通常,產(chǎn)生可以準(zhǔn)確地識別語音的聲學(xué)模型需要(來自每種性別的)每個單詞或音素的約1,000至2,000個示例。
[0003]針對任何語言學(xué)市場開發(fā)語音識別系統(tǒng)是一個數(shù)據(jù)驅(qū)動的過程。在不存在代表此市場特定的語言和口音的語音數(shù)據(jù)的情況下,不能產(chǎn)生適當(dāng)?shù)穆晫W(xué)、語法和語言模型。因此,獲得必要的語音數(shù)據(jù)(假設(shè)其是可獲得的)以及針對新的語言學(xué)市場創(chuàng)建適當(dāng)?shù)恼Z言和口音特定的模型可能特別耗時并非常昂貴。
[0004]如果提供了一種可以針對任何語言學(xué)視市場用有成本效益的方式自動配置的語音識別系統(tǒng),這將是有利的。
【發(fā)明內(nèi)容】
[0005]根據(jù)本發(fā)明的一個第一方面,提供了一種用于配置語音識別系統(tǒng)的方法,該方法包括:
[0006]獲得由一個話音認(rèn)證系統(tǒng)在一個話音認(rèn)證過程中所利用的一個語音樣本;
[0007]對該語音樣本進(jìn)行處理以生成與該語音樣本相關(guān)聯(lián)的多個語音單元的多個聲學(xué)模型;以及
[0008]對這些聲學(xué)模型進(jìn)行存儲以便隨后由該語音識別系統(tǒng)用作一個語音識別過程的一部分。
[0009]在一個實施例中,這些語音單元包括三音子、雙音子、聚類狀態(tài)、音素、單詞或短語。
[0010]在一個實施例中,該方法進(jìn)一步包括:對與該語音樣本相關(guān)聯(lián)的語音內(nèi)容數(shù)據(jù)進(jìn)行評估從而為這些語音單元中的每個語音單元確定一個可聞標(biāo)識符,以及基于所確定的該可聞標(biāo)識符對這些聲學(xué)模型進(jìn)行分類。
[0011]在一個實施例中,該方法進(jìn)一步包括基于從多個進(jìn)一步獲得和處理的語音樣本所生成的多個聲學(xué)模型更新所存儲的這些聲學(xué)模型。
[0012]在一個實施例中,該方法進(jìn)一步包括確定所存儲的這些聲學(xué)模型中的每個聲學(xué)模型的一個質(zhì)量,以及繼續(xù)更新這些聲學(xué)模型直到該質(zhì)量達(dá)到一個預(yù)先定義的閾值。
[0013]在一個實施例中,這些語音樣本由該認(rèn)證系統(tǒng)的不同用戶在向其登記的過程中提供。
[0014]在一個實施例中,該方法進(jìn)一步包括將這些聲學(xué)模型存儲在一個通用語音識別數(shù)據(jù)庫中。
[0015]在一個實施例中,該方法進(jìn)一步包括僅獲得與選自包括以下各項的組的一個或多個預(yù)先定義的語音輪廓相關(guān)聯(lián)的多個語音樣本:語言、性別、信道介質(zhì)、語法。
[0016]在一個實施例中,這些語音樣本由同一用戶或者在向該認(rèn)證系統(tǒng)登記的過程中或者作為隨后的一次認(rèn)證會話的一部分提供。
[0017]在一個實施例中,這些聲學(xué)模型存儲在該用戶特定的一個數(shù)據(jù)庫中,并且其中,自動地訪問該數(shù)據(jù)庫以響應(yīng)于該用戶向該認(rèn)證系統(tǒng)認(rèn)證自己來執(zhí)行該語音識別過程。
[0018]根據(jù)本發(fā)明的一個第二方面,提供了一種組合式語音識別和話音認(rèn)證方法,包括利用一個用戶的一次話音認(rèn)證確定的一個輸出設(shè)置一種語音識別功能的一個參數(shù),以便隨后由該用戶識別一種言語。
[0019]在一個實施例中,利用該輸出選擇多個聲學(xué)模型數(shù)據(jù)庫中的一個,以供該語音識別功能在識別該用戶的言語時使用,每個聲學(xué)模型數(shù)據(jù)庫包含一組以不同的方式訓(xùn)練的聲學(xué)模型。
[0020]在一個實施例中,該數(shù)據(jù)庫包括多個語音單元的多個聲學(xué)模型,已經(jīng)使用源自該用戶或者在向該認(rèn)證系統(tǒng)登記的過程中或者在隨后的一次認(rèn)證會話的過程中所提供的言語的話音數(shù)據(jù)對這些聲學(xué)模型進(jìn)行了訓(xùn)練。
[0021]在一個實施例中,該數(shù)據(jù)庫包括多個語音單元的多個聲學(xué)模型,已經(jīng)利用一個或多個具有一個共享的話音輪廓的其他用戶向該用戶所提供的多個語音樣本對這些聲學(xué)模型進(jìn)行了訓(xùn)練。
[0022]根據(jù)本發(fā)明的一個第三方面,提供了一種實施計算機程序的計算機可讀介質(zhì),該計算機程序包括一個或多個用于控制一個計算機系統(tǒng)實施如上文根據(jù)該第一方面所述的方法的指令。
[0023]根據(jù)本發(fā)明的一個第四方面,提供了一種語音識別系統(tǒng),包括:
[0024]一個處理模塊,可操作以獲得一個話音認(rèn)證系統(tǒng)在一個話音認(rèn)證過程中所利用的一個語音樣本,該處理模塊進(jìn)一步被安排成用于處理該語音樣本以生成與該語音樣本相關(guān)聯(lián)的多個語音單元的多個聲學(xué)模型;以及
[0025]一個存儲模塊,可操作以存儲這些聲學(xué)模型,以便隨后由該語音識別系統(tǒng)用作該處理模塊所實施的一個語音識別過程的一部分。
[0026]在一個實施例中,這些語音單元包括三音子、雙音子、聚類狀態(tài)、音素、單詞或短語。
[0027]在一個實施例中,該處理模塊進(jìn)一步可操作以對與該語音樣本相關(guān)聯(lián)的語音內(nèi)容數(shù)據(jù)進(jìn)行評估從而為這些語音單元中的每個語音單元確定一個可聞標(biāo)識符,以及基于相關(guān)標(biāo)識符對這些聲學(xué)模型進(jìn)行分類。
[0028]在一個實施例中,該處理模塊被進(jìn)一步安排成用于基于從多個進(jìn)一步獲得和處理的語音樣本所生成的多個聲學(xué)模型更新所存儲的這些聲學(xué)模型。
[0029]在一個實施例中,該處理模塊進(jìn)一步可操作以確定所存儲的這些聲學(xué)模型中的每個聲學(xué)模型的一個質(zhì)量,以及繼續(xù)更新這些聲學(xué)模型直到該質(zhì)量達(dá)到一個預(yù)先定義的閾值。
[0030]在一個實施例中,這些語音樣本由該認(rèn)證系統(tǒng)的不同用戶在向其登記的過程中提供。
[0031]在一個實施例中,將這些聲學(xué)模型存儲在一個通用語音識別數(shù)據(jù)庫中。
[0032]在一個實施例中,該處理模塊進(jìn)一步可操作以僅獲得與選自包括以下各項的組的一個或多個期望的預(yù)先定義的輪廓相關(guān)聯(lián)的多個語音樣本:語言、性別、信道介質(zhì)、語法。
[0033]在一個實施例中,這些語音樣本由同一用戶或者在向該認(rèn)證系統(tǒng)登記的過程中或者作為隨后的一次認(rèn)證會話的一部分提供。
[0034]在一個實施例中,該系統(tǒng)包括一個數(shù)據(jù)庫,該數(shù)據(jù)庫可操作以存儲這些聲學(xué)模型,并且其中,自動地訪問該數(shù)據(jù)庫以響應(yīng)于該認(rèn)證系統(tǒng)成功地認(rèn)證該用戶來執(zhí)行該語音識別過程。
[0035]根據(jù)本發(fā)明的一個第五方面,提供了一種組合式語音識別和話音認(rèn)證系統(tǒng),該系統(tǒng)包括:
[0036]一種話音認(rèn)證功能,可操作以認(rèn)證一種用戶言語;
[0037]—種語音識別功能,可操作以由該用戶響應(yīng)于該話音認(rèn)證功能進(jìn)行的一次肯定認(rèn)證對隨后的多種言語進(jìn)行評估;以及
[0038]一個參數(shù)設(shè)置模塊,可操作以基于一個用戶標(biāo)識符將該語音識別功能的一個參數(shù)設(shè)置為由該話音認(rèn)證功能所建立。
[0039]在一個實施例中,利用該標(biāo)識符選擇該語音識別功能在識別該用戶的隨后的多種言語時所使用的一組聲學(xué)模型數(shù)據(jù)庫中的一個聲學(xué)模型數(shù)據(jù)庫。
[0040]在一個實施例中,所選擇的數(shù)據(jù)庫包括多個聲學(xué)模型,已經(jīng)使用該用戶或者在向該認(rèn)證系統(tǒng)登記的過程中或者在隨后的一次認(rèn)證確定的過程中所提供的多個語音樣本對這些聲學(xué)模型進(jìn)行了訓(xùn)練。
[0041]在一個實施例中,所選擇的數(shù)據(jù)庫包括多個聲學(xué)模型,已經(jīng)使用該一個或多個具有一個共享的話音輪廓的其他用戶提供給該用戶的多個語音樣本對這些聲學(xué)模型進(jìn)行了訓(xùn)練,從該話音認(rèn)證確定來確定該話音輪廓。
【專利附圖】
【附圖說明】
[0042]參照附圖,僅通過示例的方式,本發(fā)明的特征和優(yōu)點將從其實施例的下列描述中變得清楚,在附圖中:
[0043]圖1是根據(jù)本發(fā)明的一個實施例的系統(tǒng)的框圖;
[0044]圖2是圖1的話音處理系統(tǒng)所實施的個體模塊的示意圖;
[0045]圖3是展示了用于創(chuàng)建聲紋的流程的示意圖;
[0046]圖4是根據(jù)本發(fā)明的一個實施例展示了用于為圖1的系統(tǒng)提供語音識別能力的流程的示意圖;
[0047]圖5是根據(jù)一個實施例展示了用于建立語音識別模型和語法的流程的示意圖;以及
[0048]圖6是根據(jù)一個實施例展示了用于為圖1的系統(tǒng)提供用戶特定的語音識別能力的流程的示意圖。
【具體實施方式】
[0049]實施例利用話音認(rèn)證系統(tǒng)(通常還稱為話音生物識別系統(tǒng))所處理的語音樣本自動地創(chuàng)建語音識別模型,可以有利地利用這些語音識別模型來提供附加語音識別能力。由于所生成的模型基于系統(tǒng)的實際用戶所提供的樣本,為這些用戶調(diào)諧該系統(tǒng),并且該系統(tǒng)因此能夠為此用戶群體提供高水平的語音識別準(zhǔn)確度。這種技術(shù)還避免了購買“附加”語音識別方案的需要,這些語音識別方案不僅昂貴而且可能難以獲得,尤其是對于適合創(chuàng)建語音識別技術(shù)所使用的聲學(xué)模型、語法和語言模型的語音數(shù)據(jù)庫不可用的市場。實施例還涉及個性化語音識別模型,這些個性化語音識別模型用于為系統(tǒng)的個人用戶提供甚至更高水平的語音識別準(zhǔn)確度。
[0050]出于說明的目的,并參照附圖,下文將在話音處理系統(tǒng)102的上下文中對本發(fā)明的實施例進(jìn)行描述,該話音處理系統(tǒng)為安全服務(wù)104 (如交互式話音響應(yīng)(“IVR”)電話銀行服務(wù))提供話音認(rèn)證和語音識別功能兩者。在所展示的實施例中,獨立于安全服務(wù)104(例如,由第三方提供商)實施話音處理系統(tǒng)102。在本實施例中,安全服務(wù)104的用戶使用電話106形式的輸入設(shè)備(例如,基于標(biāo)準(zhǔn)電話、移動電話或互聯(lián)網(wǎng)協(xié)議(IP)的電話服務(wù),如Skype?)與安全服務(wù)104通信。
[0051]圖1展示了用于實施本發(fā)明的一個實施例的示例系統(tǒng)配置100。如上所述,用戶使用電話106與電話銀行服務(wù)104通信。安全服務(wù)104進(jìn)而連接至話音處理系統(tǒng)102,以便初始地認(rèn)證這些用戶并且此后在電話銀行會話過程中為用戶話音命令提供語音識別能力。根據(jù)所展示的實施例,話音處理系統(tǒng)102通過一個公共交換電話網(wǎng)108形式的通信網(wǎng)連接至安全服務(wù)104。
[0052]系統(tǒng)配置的進(jìn)一步細(xì)節(jié)
[0053]參照圖2,話音處理系統(tǒng)102包括一個服務(wù)器計算機105,該服務(wù)器計算機包括典型的服務(wù)器硬件,該服務(wù)器硬件包括處理器、主板、隨機存取存儲器、硬盤和電源。服務(wù)器105還包括一個操作系統(tǒng),該操作系統(tǒng)與該硬件合作以提供可以在其中執(zhí)行軟件應(yīng)用的環(huán)境。就這一點而言,服務(wù)器105的硬盤裝載有處理模塊114,該處理模塊在該處理器的控制下可操作以實施各種話音認(rèn)證和語音識別功能。如所展示的,處理模塊114由各種用于實施前述功能的個體模塊/組件構(gòu)成,即,話音生物識別訓(xùn)練器115、話音生物識別引擎116、自動語音識別訓(xùn)練器117和自動語音識別引擎118。
[0054]處理器模塊114通信地耦合至許多數(shù)據(jù)庫,包括身份管理數(shù)據(jù)庫120、話音文件數(shù)據(jù)庫122、聲紋數(shù)據(jù)庫124和語音識別模型和語法數(shù)據(jù)庫126。還可以提供許多個性化語音識別模型數(shù)據(jù)庫128a至128η以用于存儲各自為特定用戶的話音所定制的模型和語法。提供了一個規(guī)則存儲器130以用于存儲處理模塊114所實施的各種規(guī)則,如在隨后的段落中將更詳細(xì)描述的。
[0055]服務(wù)器105包括用于與安全服務(wù)提供商系統(tǒng)104通信的適當(dāng)軟件和硬件??梢酝ㄟ^任何合適的通信鏈路進(jìn)行該通信,如互聯(lián)網(wǎng)連接、無線數(shù)據(jù)連接或公共網(wǎng)絡(luò)連接。在一個實施例中,通過安全服務(wù)提供商104路由用戶話音數(shù)據(jù)(即,代表用戶在登記、認(rèn)證和隨后與安全服務(wù)提供商系統(tǒng)104交互的過程中所提供的語音樣本的數(shù)據(jù))??商娲?,可以直接向服務(wù)器105提供話音數(shù)據(jù)(在這種情況下,服務(wù)器105還將實施合適的呼叫應(yīng)答服務(wù))。
[0056]如所討論的,所展示的實施例的通信系統(tǒng)108是公共交換電話網(wǎng)的形式。然而,在可替代的實施例中,通信網(wǎng)可以是數(shù)據(jù)網(wǎng),如互聯(lián)網(wǎng)。在這種實施例中,用戶可以使用聯(lián)網(wǎng)的計算設(shè)備使用網(wǎng)絡(luò)協(xié)議(如TCP/IP協(xié)議)與服務(wù)器105交換數(shù)據(jù)(在一個實施例中,XML代碼和分組的話音消息)。在國際專利申請PCT/AU 2008/000070中概述了這種實施例的進(jìn)一步細(xì)節(jié),該國際專利申請的內(nèi)容通過引用結(jié)合在此。在另一可替代的實施例中,通信系統(tǒng)可以附加地包括連接至分組交換網(wǎng)的第三或第四代(“3G”)CDMA或GPRS使能的移動電話網(wǎng),可以利用該移動電話網(wǎng)訪問服務(wù)器105。在這種實施例中,用戶輸入設(shè)備102包括用于將語音樣本作為數(shù)據(jù)傳輸?shù)臒o線能力。該無線計算設(shè)備可以包括例如移動電話、具有無線卡的個人計算機和任何其他有利于話音備案功能的移動通信設(shè)備。在另一實施例中,本發(fā)明可以采用基于802.11的無線網(wǎng)或某種其他個人虛擬網(wǎng)絡(luò)。
[0057]根據(jù)所展示的實施例,安全服務(wù)提供商系統(tǒng)104是電話銀行服務(wù)器的形式。安全服務(wù)提供商系統(tǒng)104包括一個收發(fā)器,該收發(fā)器包括一個用于與處理系統(tǒng)102通信的網(wǎng)卡。該服務(wù)器還包括用于提供應(yīng)答服務(wù)的適當(dāng)硬件和/或軟件。在所展示的實施例中,安全服務(wù)提供商104通過公共交換電話網(wǎng)108利用收發(fā)器模塊與用戶通信。
[0058]聲紋登記
[0059]在以任何細(xì)節(jié)描述用于創(chuàng)建語音識別模型的技術(shù)之前,將首先參照圖3對一種用于登記語音樣本和生成聲紋的基本流程進(jìn)行描述。在步驟302,由話音處理系統(tǒng)102接收語音樣本并將其以合適的文件存儲格式(例如,wav文件格式)存儲在話音文件數(shù)據(jù)庫122中。話音生物識別訓(xùn)練器115在步驟304處理所存儲的話音文件以用于生成聲紋,該聲紋與提供該語音樣本的用戶的標(biāo)識符相關(guān)聯(lián)。系統(tǒng)102可以從用戶請求附加語音樣本,直到已經(jīng)接收到足夠數(shù)量的樣本以用于創(chuàng)建準(zhǔn)確的聲紋。通常,對于文本相關(guān)的實施方式(即,其中,用戶說出的文本必須是相同的以用于登記和驗證)而言,請求和處理對相同單詞或短語的三次重復(fù),從而生成準(zhǔn)確的聲紋。在文本無關(guān)的實施方式(即,其中,用戶可以出于驗證目的提供任何言語)的情況下,請求超過30秒的語音以用于生成準(zhǔn)確的聲紋??梢岳缡褂檬跈?quán)給同一 申請人:的澳大利亞專利2009290150中所描述的過程對聲紋質(zhì)量進(jìn)行測量,該澳大利亞專利的內(nèi)容通過引用結(jié)合在此。在步驟306,將聲紋加載至聲紋數(shù)據(jù)庫124中以便隨后由話音生物識別引擎116在用戶認(rèn)證過程中使用(步驟308)。用戶在認(rèn)證過程中所提供的驗證樣本(這些驗證樣本可以例如是口令短語、賬號等)也存儲在話音文件數(shù)據(jù)庫122中,以便使用本領(lǐng)域技術(shù)人員所熟知的技術(shù)更新或“調(diào)諧”所存儲的與此用戶相關(guān)聯(lián)的聲紋時使用。
[0060]創(chuàng)建通用語音識別模型
[0061]參照圖4,示出了登記過程的擴展,該擴展有利地允許基于已登記的話音文件針對語音識別能力自動創(chuàng)建通用語音識別模型。在步驟402,將所存儲的話音文件(該話音文件可以或者是登記過程中所提供的話音文件或者是后成功認(rèn)證所提供的話音文件)傳遞至ASR訓(xùn)練器117,該訓(xùn)練器處理該話音文件以生成與該話音文件相關(guān)聯(lián)的多個語音單元的多個聲學(xué)模型,如將在隨后的段落中更詳細(xì)描述的。在步驟404,隨后將這些聲學(xué)模型存儲在語音識別模型數(shù)據(jù)庫126中,這些聲學(xué)模型各自優(yōu)選地由從話音文件數(shù)據(jù)庫122所獲得的多個話音文件所生成。這些模型隨后可以在步驟406用于提供自動語音識別能力以供用戶訪問安全服務(wù)104。
[0062]更詳細(xì)地,并附加地參照圖5,聲學(xué)模型生成步驟402包括使用分段器模塊502將這些話音文件分開成期望語音單元類型的語音單元(還稱為成分)(502)。根據(jù)所展示的實施例,分段器模塊502可處理的不同類型的語音單元包括三音子、雙音子、聚類狀態(tài)、音素、單詞和短語,盡管將理解任何合適的語音單元可以是取決于期望的實施方式可處理的。分段器模塊502為語音單元指定一個起始點并為語音單元指定一個結(jié)束點??梢詫Ψ侄纹髂K502進(jìn)行編程以將該結(jié)束點標(biāo)識為下一語音單元的起始點。同等地,可以對分段器模塊502進(jìn)行編程以識別一個語音單元的結(jié)束與下一語音單元的起始之間的間隙。該間隙中的波形在此被稱為“垃圾”并且可以代表沉默、背景噪聲、通信信道所引入的噪聲或說話者所產(chǎn)生但與語音不相關(guān)聯(lián)的聲音(如,呼吸噪聲、“嗯”、“啊”、猶豫等)。訓(xùn)練器506使用此類聲音來產(chǎn)生特殊模型,這種特殊模型在本領(lǐng)域內(nèi)通常被稱為“垃圾模型”。隨后識別引擎126使用這些垃圾模型來識別語音樣本中所聽到的聲音,但是這些語音樣本不是預(yù)先定義的語音單元。在步驟504與可聞標(biāo)識符(下文中“分類符”)相關(guān)聯(lián)地存儲已分段的非垃圾語音單元,該可聞標(biāo)識符源自與原始語音樣本相關(guān)聯(lián)的語音內(nèi)容數(shù)據(jù)。例如,話音處理系統(tǒng)可以存儲包含用戶在登記(例如,其賬號等)過程中所說的單詞或短語的元數(shù)據(jù)。分段器502可以對語音學(xué)查找字典進(jìn)行評估以確定組成所登記的單詞/短語的語音單元(三音子、雙音子、聚類狀態(tài)或音素)。語音單元的通用或原型聲學(xué)模型存儲在分段器502中并被其用于將用戶所提供的語音分段成其三音子、雙音子、聚類狀態(tài)或音素組成部分。獲得、分段并存儲(步驟504)進(jìn)一步的話音文件,直到已經(jīng)獲得了每個語音單元的足夠數(shù)量的樣本從而為已分類的語音單元創(chuàng)建通用語音模型。在具體實施例中,需要每個三音子、雙音子、聚類狀態(tài)或音素部分的500和2,000之間個樣本以產(chǎn)生適合識別的那部分的通用聲學(xué)模型。根據(jù)所展示的實施例,當(dāng)新的話音文件存儲在數(shù)據(jù)庫122中時,ASR訓(xùn)練器117自動地對其進(jìn)行處理,以用于創(chuàng)建和/或更新模型數(shù)據(jù)庫126中所存儲的聲學(xué)模型。通常在生成一個模型之前獲得并處理500和2,000之間個話音文件,以便提供一個將足夠反映已登記的用戶的語言和口音的模型。隨后由訓(xùn)練器模塊506對語音單元進(jìn)行處理。訓(xùn)練器模塊506對已登記的說話者所說的已分段的語音單元進(jìn)行處理以使用本領(lǐng)域中已知的模型生成技術(shù)創(chuàng)建語音識別系統(tǒng)所需的這些語音單元中的每個語音單元的聲學(xué)模型。類似地,訓(xùn)練模塊506還對來自與語音識別所使用的語音單元相關(guān)聯(lián)的語音文件的語法和語言模型進(jìn)行編譯。從語音樣本中的三音子、雙音子、聚類狀態(tài)、音素、單詞和/或短語序列的統(tǒng)計分析來計算語法和語言模型,該統(tǒng)計分析代表特定三音子、雙音子、聚類狀態(tài)、音素、單詞和/或短語后跟著另一特定三音子、雙音子、聚類狀態(tài)、音素、單詞和/或短語的幾率。這樣,特定于說話者在系統(tǒng)中進(jìn)行登記的方式并因此特定于所登記的說話者所說的口音和語言實施聲學(xué)模型、語法和語言模型。將所生成的模型和內(nèi)含的語法存儲在數(shù)據(jù)庫126中以便隨后在向安全服務(wù)104的用戶提供自動語音識別時使用。
[0063]在一個實施例中,由處理模塊114實施某些規(guī)則,這些規(guī)則指定了模型創(chuàng)建所必須處理的語音單元樣本的最小數(shù)量。這些規(guī)則還可以在處理模塊114將可利用所存儲的模型對語音進(jìn)行識別之前指定所存儲的模型的質(zhì)量。在具體實施例中,對于每個分類器而言,可以存在一個男性和女性模型。根據(jù)這種實施例,這些規(guī)則可以規(guī)定只選擇來自男性用戶的語音樣本來創(chuàng)建男性模型,并且只選擇來自女性用戶的語音樣本來創(chuàng)建女性模型??梢詮乃鎯Φ呐c已知用戶相關(guān)聯(lián)的元數(shù)據(jù)或通過對樣本進(jìn)行評估的方式(該評估包含使用女性和男性模型兩者聲學(xué)地處理該樣本,以及基于所產(chǎn)生的認(rèn)證分?jǐn)?shù)確定性別,即,使用男性模型的更高分表示男性說話者,同時使用女性模型的更高分表示女性說話者)對此進(jìn)行確定??梢酝鹊貫椴煌Z言、信道介質(zhì)(例如,移動電話、陸上通信線等)和語法輪廓創(chuàng)建附加的或可替代的模型,這樣使得將基于所檢測到的呼叫者輪廓選擇具體的模型集。可以例如基于該呼叫可獲得的數(shù)據(jù)(如可以指示哪個輪廓最接近地匹配當(dāng)前呼叫的電話線路號碼或IP地址),或通過并行地使用許多不同的模型以及選擇生成最佳結(jié)果或合適的模型(例如,通過評估所產(chǎn)生的認(rèn)證分?jǐn)?shù))處理語音來確定所檢測到的輪廓。
[0064]創(chuàng)建個性化語音識別模型
[0065]一旦已經(jīng)成功地認(rèn)證了用戶,認(rèn)為他們是系統(tǒng)102 ‘已知的’。在具體實施例中,一旦用戶已知,可以創(chuàng)建并隨后訪問個性化模型集從而為此用戶提供更高的語音識別準(zhǔn)確度。
[0066]根據(jù)這種實施例,并附加地參照圖6,為系統(tǒng)已知的每個用戶提供了個性化聲紋和語音識別數(shù)據(jù)庫128 (見步驟602至606)??梢猿跏嫉貜挠脩粼诘怯涍^程中所提供的語音樣本(例如,在某些實例中,可以要求用戶提供多個登記語音樣本,例如陳述其賬號、姓名、pin號碼等,可以對這些語音樣本進(jìn)行處理以創(chuàng)建有限數(shù)量的模型)、從如之前所述的通用模型、或從這兩者的組合來配置這些模型。當(dāng)用戶提供新的語音樣本時,可以創(chuàng)建新的模型并更新現(xiàn)有模型,如果需要的話。將理解的是,可以或者在成功認(rèn)證用戶的過程中或之后提供新的樣本(例如,由用戶在電話銀行會話過程中所發(fā)布的話音命令所導(dǎo)致)。系統(tǒng)102還可以提示用戶不時地發(fā)出特定單詞、短語等(即,在步驟602)以幫助針對此用戶建立更完整的模型集。再次,可以用規(guī)則存儲器130中所存儲的規(guī)則來控制此過程。
[0067]盡管之前的段落中所描述的實施例描述了 “第三方”、或集中式系統(tǒng)形式的處理系統(tǒng)102,但它仍將是提供商系統(tǒng)104。
[0068]可替代的配置和方法可以包括說話者使用第三方語音識別功能(如“Siri”私人助理)收集語音樣本(如轉(zhuǎn)讓給蘋果公司(Apple Inc.)的已公開的美國專利申請?zhí)?0120016678中所描述的),或者集成到手機或其他計算設(shè)備中的“龍(Dragon) ”語音識別軟件(從美國馬薩諸塞州伯靈頓市的Nuance公司(Nuance Communicat1ns, Inc.)可獲得),結(jié)合本文所述的話音認(rèn)證系統(tǒng)使用所述手機或其他計算設(shè)備。在這種情況下,來自“已知”說話者的語音樣本可以存儲在話音文件數(shù)據(jù)庫122中并且然后被分段器模塊502和訓(xùn)練器模塊506用于使用上文所述的過程為此說話者創(chuàng)建語音識別模型。
[0069]可替代地,主機服務(wù)或云服務(wù)(如與話音認(rèn)證系統(tǒng)結(jié)合使用的托管IVR服務(wù)或基于云的話音處理系統(tǒng))所收集的語音樣本還可以用于使用本文所述的方法創(chuàng)建語音識別模型。
[0070]雖然已經(jīng)參照本實施例描述了本發(fā)明,但本領(lǐng)域的技術(shù)人員將理解,在不背離本發(fā)明的范圍的情況下可以做出更改、改變和改善并且可用等效物來替代其元件和其步驟。此外,可以進(jìn)行許多修改以使本發(fā)明適應(yīng)一種具體狀況或使材料適應(yīng)本發(fā)明的教導(dǎo),而不背離其中心范圍。然而,此類更改、改變、修改和改善(盡管未在上文專門地描述)旨在并被暗示處于本發(fā)明的范圍和精神內(nèi)。因此,本發(fā)明旨在不限于在此所描述的具體實施例,并且將包括所有落在獨立權(quán)利要求的范圍內(nèi)的實施例。
[0071]在下面的權(quán)利要求書和本發(fā)明的前續(xù)描述中,除了由于明確的語言或必要的暗示,上下文另作要求以外,單詞“包括(comprise) ”或變形形式如“包括(comprises) ”或“包括(comprising)”是以包含在內(nèi)的意義來使用的,S卩,指明了所述特征的存在但并不排除在本發(fā)明的不同實施例中進(jìn)一步特征的存在或添加。
【權(quán)利要求】
1.一種用于配置語音識別系統(tǒng)的方法,該方法包括: 獲得由一個話音認(rèn)證系統(tǒng)在一個話音認(rèn)證過程中所利用的一個語音樣本; 對該語音樣本進(jìn)行處理以生成與該語音樣本相關(guān)聯(lián)的多個語音單元的多個聲學(xué)模型;以及 對這些聲學(xué)模型進(jìn)行存儲以便隨后由該語音識別系統(tǒng)用作一個語音識別過程的一部分。
2.根據(jù)權(quán)利要求1所述的方法,其中,這些語音單元包括多個三音子、多個雙音子、多個聚類狀態(tài)、多個音素、多個單詞或多個短語。
3.根據(jù)權(quán)利要求2所述的方法,進(jìn)一步包括對與該語音樣本相關(guān)聯(lián)的語音內(nèi)容數(shù)據(jù)進(jìn)行評估從而為這些語音單元中的每個語音單元確定一個可聞標(biāo)識符,以及基于所確定的該可聞標(biāo)識符對這些聲學(xué)模型進(jìn)行分類。
4.根據(jù)權(quán)利要求3所述的方法,進(jìn)一步包括基于從多個進(jìn)一步獲得和處理的語音樣本所生成的多個聲學(xué)模型更新所存儲的這些聲學(xué)模型。
5.根據(jù)權(quán)利要求4所述的方法,進(jìn)一步包括確定所存儲的這些聲學(xué)模型中的每個聲學(xué)模型的一個質(zhì)量,以及繼續(xù)更新這些聲學(xué)模塊直到該質(zhì)量達(dá)到一個預(yù)先定義的閾值。
6.根據(jù)權(quán)利要求4或5所述的方法,其中,這些語音樣本由該認(rèn)證系統(tǒng)的不同用戶在向其登記的過程中提供。
7.根據(jù)權(quán)利要求6所述的方法,進(jìn)一步包括利用所存儲的這些聲學(xué)模型進(jìn)行針對多個不同用戶的一個語音識別過程。
8.根據(jù)權(quán)利要求7所述的方法,進(jìn)一步包括僅獲得與選自包括以下各項的組的一個或多個預(yù)先定義的語音輪廓相關(guān)聯(lián)的多個語音樣本:語言、性別、信道介質(zhì)、語法。
9.根據(jù)權(quán)利要求4或5所述的方法,其中,這些語音樣本由同一用戶或者在向該認(rèn)證系統(tǒng)登記的過程中或者作為隨后的一次認(rèn)證會話的一部分提供。
10.根據(jù)權(quán)利要求9所述的方法,其中,這些聲學(xué)模型存儲在該用戶特定的一個數(shù)據(jù)庫中,并且其中,自動地訪問該數(shù)據(jù)庫以響應(yīng)于該用戶向該認(rèn)證系統(tǒng)認(rèn)證自己來執(zhí)行該語音識別過程。
11.一種組合式語音識別和話音認(rèn)證方法,包括利用一個用戶的一次話音認(rèn)證確定的一個輸出設(shè)置一種語音識別功能的一個參數(shù),以便隨后由該用戶識別一種言語。
12.根據(jù)權(quán)利要求11所述的方法,其中,利用該輸出選擇多個聲學(xué)模型數(shù)據(jù)庫中的一個,以供該語音識別功能在識別該用戶的言語時使用,每個聲學(xué)模型數(shù)據(jù)庫包含一組以不同的方式訓(xùn)練的聲學(xué)模型。
13.根據(jù)權(quán)利要求12所述的方法,其中,該數(shù)據(jù)庫包括多個語音單元的多個聲學(xué)模型,已經(jīng)使用源自該用戶或者在向該認(rèn)證系統(tǒng)登記的過程中或者在隨后的一次認(rèn)證會話的過程中所提供的多種言語的話音數(shù)據(jù)對這些聲學(xué)模型進(jìn)行了訓(xùn)練。
14.根據(jù)權(quán)利要求12所述的方法,其中,該數(shù)據(jù)庫包括多個語音單元的多個聲學(xué)模型,已經(jīng)利用一個或多個具有一個共享的話音輪廓的其他用戶向該用戶提供的多個語音樣本對這些聲學(xué)模型進(jìn)行了訓(xùn)練。
15.一種實施計算機程序的計算機可讀介質(zhì),該計算機程序包括一個或多個用于控制一個計算機系統(tǒng)實施根據(jù)權(quán)利要求1至14中任意一項所述的方法的指令。
16.—種語音識別系統(tǒng),包括: 一個處理模塊,可操作以獲得一個話音認(rèn)證系統(tǒng)在一個話音認(rèn)證過程中所利用的一個語音樣本,該處理模塊進(jìn)一步被安排成用于處理該語音樣本以生成與該語音樣本相關(guān)聯(lián)的多個語音單元的多個聲學(xué)模型;以及 一個存儲模塊,可操作以存儲這些聲學(xué)模型,以便隨后由該語音識別系統(tǒng)用作該處理模塊所實施的一個語音識別過程的一部分。
17.根據(jù)權(quán)利要求16所述的系統(tǒng),其中,這些語音單元包括多個三音子、多個雙音子、多個聚類狀態(tài)、多個音素、多個單詞或多個短語。
18.根據(jù)權(quán)利要求16或17所述的系統(tǒng),其中,該處理模塊進(jìn)一步可操作以對與該語音樣本相關(guān)聯(lián)的語音內(nèi)容數(shù)據(jù)進(jìn)行評估從而為這些語音單元中的每個語音單元確定一個可聞標(biāo)識符,以及基于相關(guān)的標(biāo)識符對這些聲學(xué)模型進(jìn)行分類。
19.根據(jù)權(quán)利要求17或18所述的系統(tǒng),其中,該處理模塊被進(jìn)一步安排成用于基于從進(jìn)一步獲得和處理的多個語音樣本所生成的多個聲學(xué)模型更新所存儲的這些聲學(xué)模型。
20.根據(jù)權(quán)利要求19所述的系統(tǒng),該處理模塊進(jìn)一步可操作以確定所存儲的這些聲學(xué)模型中的每個聲學(xué)模型的一個質(zhì)量,以及繼續(xù)更新這些聲學(xué)模型直到該質(zhì)量達(dá)到一個預(yù)先定義的閾值。
21.根據(jù)權(quán)利要求19或20所述的系統(tǒng),其中,這些語音樣本由該認(rèn)證系統(tǒng)的不同用戶在向其登記的過程中提供。
22.根據(jù)權(quán)利要求21所述的系統(tǒng),進(jìn)一步包括將這些聲學(xué)模型存儲在一個通用語音識別數(shù)據(jù)庫中。 21.根據(jù)權(quán)利要求19或20所述的系統(tǒng),其中,該處理模塊進(jìn)一步可操作以僅獲得與選自包括以下各項的組的一個或多個期望的預(yù)先定義的輪廓相關(guān)聯(lián)的多個語音樣本:語言、性別、信道介質(zhì)、語法。
23.根據(jù)權(quán)利要求19或20所述的系統(tǒng),其中,這些語音樣本由同一用戶或者在向該認(rèn)證系統(tǒng)登記的過程中或者作為隨后的一次認(rèn)證會話的一部分提供。
24.根據(jù)權(quán)利要求23所述的系統(tǒng),進(jìn)一步包括一個數(shù)據(jù)庫,該數(shù)據(jù)庫可操作以存儲這些聲學(xué)模型,并且其中,自動地訪問該數(shù)據(jù)庫以響應(yīng)于該認(rèn)證系統(tǒng)成功地認(rèn)證該用戶來執(zhí)行該語音識別過程。
25.一種組合式語音識別和話音認(rèn)證系統(tǒng),該系統(tǒng)包括: 一種話音認(rèn)證功能,可操作以認(rèn)證一種用戶言語; 一種語音識別功能,可操作以由該用戶響應(yīng)于該話音認(rèn)證功能進(jìn)行的一次肯定認(rèn)證對隨后的多種言語進(jìn)行評估;以及 一個參數(shù)設(shè)置模塊,可操作以基于一個用戶標(biāo)識符將該語音識別功能的一個參數(shù)設(shè)置為由該話音認(rèn)證功能所建立。
26.根據(jù)權(quán)利要求25所述的系統(tǒng),其中,利用該標(biāo)識符選擇該語音識別功能在識別該用戶的隨后的多種言語時所使用的一組聲學(xué)模型數(shù)據(jù)庫中的一個聲學(xué)模型數(shù)據(jù)庫。
27.根據(jù)權(quán)利要求26所述的系統(tǒng),其中,所選擇的該數(shù)據(jù)庫包括多個聲學(xué)模型,已經(jīng)使用該用戶或者在向該認(rèn)證系統(tǒng)登記的過程中或者在隨后的一次認(rèn)證確定的過程中所提供的多個語音樣本對這些聲學(xué)模型進(jìn)行了訓(xùn)練。
28.根據(jù)權(quán)利要求27所述的系統(tǒng),其中,所選擇的該數(shù)據(jù)庫包括多個聲學(xué)模型,已經(jīng)使用一個或多個具有一個共享的話音輪廓的其他用戶提供給該用戶的多個語音樣本對這些聲學(xué)模型進(jìn)行了訓(xùn)練,從該話音認(rèn)證確定來確定該話音輪廓。
29.—種基本如上文中參照附圖所描述的系統(tǒng)。
【文檔編號】G10L17/14GK104185868SQ201380016170
【公開日】2014年12月3日 申請日期:2013年1月23日 優(yōu)先權(quán)日:2012年1月24日
【發(fā)明者】哈比卜·E·泰歐哈米, 阿米特·薩達(dá)南德·馬勒高恩卡, 雷努卡·阿米特·馬勒高恩卡, 克萊夫·戴維·薩默菲爾德 申請人:澳爾亞有限公司