專利名稱:用于與說話者無關(guān)的話音識(shí)別系統(tǒng)的構(gòu)造話音模板的方法和設(shè)備的制作方法
背景技術(shù):
一、發(fā)明領(lǐng)域本發(fā)明一般涉及通信領(lǐng)域,尤其涉及用于與說話者無關(guān)的話音識(shí)別系統(tǒng)的話音模板。
二、背景話音識(shí)別(VR)是使機(jī)器具有模擬智能以識(shí)別用戶或用戶話音命令并便于人類與機(jī)器接口的最重要的技術(shù)之一。VR還是用于人類語音理解的關(guān)鍵技術(shù)。使用從聲音語音信號(hào)中恢復(fù)語言消息的技術(shù)的系統(tǒng)被稱為話音識(shí)別器。這里使用的術(shù)語“話音識(shí)別器”一般指任何口頭用戶接口使能設(shè)備。話音識(shí)別器一般包括聲處理器和單詞解碼器。聲處理器析取一序列信息承載特征或矢量,它們對于實(shí)現(xiàn)進(jìn)入的原始語音的VR是必要的。單詞解碼器解碼特征序列或矢量,以產(chǎn)生諸如對應(yīng)于輸入話語的一序列語言文字之類的有意思的和所希望的輸出格式。
聲處理器是話音識(shí)別器中的前端語音分析子系統(tǒng)。響應(yīng)于輸入語音信號(hào),聲處理器提供適當(dāng)?shù)谋硎?,以表征時(shí)變語音信號(hào)。聲處理器應(yīng)刪除諸如背景噪聲、信道失真、說話者特性以及說話方式之類的無關(guān)信息。有效的聲處理向話音識(shí)別器提供增強(qiáng)的聲識(shí)別能力。為此,要分析的有用的特征是短時(shí)譜包絡(luò)。通常用于表征短時(shí)譜包絡(luò)的兩種譜分析技術(shù)是線性預(yù)測編碼(LPC)和基于濾波器組的譜建模。在美國專利號(hào)5,414,796中(該專利轉(zhuǎn)讓給本發(fā)明的受讓人,并通過引用而充分結(jié)合于此)以及同樣通過引用而充分結(jié)合于此的L.B.Rabiner和R.W.Schafer的“Digital processing of Speech Signals”(第396頁至第453頁)(1978年)中描述了示例性LPC技術(shù)。
出于安全原因,對于VR(通常也稱為話音識(shí)別)的使用正變得日益重要。例如,VR可用于替代在無線電話機(jī)鍵盤上按壓按鈕的手動(dòng)作業(yè)。當(dāng)用戶在駕駛小汽車的同時(shí)始發(fā)一電話呼叫時(shí),這是尤其重要的。當(dāng)使用一不帶有VR的電話機(jī)時(shí),駕駛員必須從方向盤移開一只手,并在按壓按鈕以撥打呼叫的同時(shí)看電話機(jī)鍵盤。這些行為增加了小汽車事故的可能性。語音使能的電話機(jī)(即為語音識(shí)別而設(shè)計(jì)的電話機(jī))將允許駕駛員在發(fā)出電話呼叫的同時(shí)繼續(xù)觀察道路。并且一種免提小汽車套件系統(tǒng)將額外地允許駕駛員能夠在呼叫始發(fā)期間將雙手保持在方向盤上。
語音識(shí)別設(shè)備被分類成與說話者有關(guān)的或與說話者無關(guān)的設(shè)備。把與說話者有關(guān)的設(shè)備(這是較普通的)訓(xùn)練成識(shí)別某些特定用戶的命令。相反,與說話者無關(guān)的設(shè)備能夠接受任何用戶的話音命令。為了增加給定的VR系統(tǒng)的性能,不管是與說話者有關(guān)還是與說話者無關(guān),都要求訓(xùn)練以使系統(tǒng)配備有效的參數(shù)。換句話說,在最優(yōu)地起作用之前,系統(tǒng)需要學(xué)習(xí)。
與說話者有關(guān)的VR設(shè)備一般工作于兩個(gè)階段中,一訓(xùn)練階段和一識(shí)別階段。在訓(xùn)練階段中,VR系統(tǒng)提示用戶一次或兩次地(一般兩次)說出系統(tǒng)詞匯表中的各個(gè)單詞,使得系統(tǒng)能夠從這些特定單詞或短語中獲悉用戶的語音的特征。一示例性的免提小汽車套件的單詞表可包括鍵盤上的數(shù)字;關(guān)鍵詞“呼叫”、“發(fā)送”、“撥打”、“取消”、“清除”、“添加”、“刪除”、“歷史”、“程序”、“是”以及“否”;以及預(yù)定數(shù)量的通常稱為同事、朋友或家人的名字。一旦完成了訓(xùn)練,用戶就能夠通過說受訓(xùn)的關(guān)鍵詞來在識(shí)別階段中始發(fā)呼叫,VR設(shè)備通過把口頭話語與先前訓(xùn)練的話語(存儲(chǔ)為模板)相比較并采用最佳的匹配來識(shí)別所述關(guān)鍵詞。例如,如果姓名“約翰”是受訓(xùn)姓名之一,則用戶可通過說出短語“呼叫約翰”來始發(fā)對約翰的呼叫。VR系統(tǒng)將識(shí)別單詞“呼叫”和“約翰”,并將撥打用戶早已輸入作為約翰的電話號(hào)碼的號(hào)碼。
與說話者無關(guān)的VR設(shè)備也使用訓(xùn)練模板,它包括預(yù)定大小的預(yù)先記錄的單詞表(如某些控制詞、數(shù)0至9以及是和否)。必須對大量用戶(如100個(gè))說出該單詞表中的各個(gè)單詞進(jìn)行記錄。
通常,通過將包含由第1組說話者(如100個(gè)說話者)說的單詞的測試數(shù)據(jù)庫與包含由第2組說話者(與第1組一樣多)說的相同的單詞的訓(xùn)練數(shù)據(jù)庫相比較,來構(gòu)造與說話者無關(guān)的VR模板。一般把由一個(gè)用戶說出的一個(gè)單詞稱為一個(gè)話語。在對與測試數(shù)據(jù)庫的話語的收斂進(jìn)行測試之前,首先把訓(xùn)練數(shù)據(jù)庫的各話語時(shí)間歸一化并然后量化(一般根據(jù)已知技術(shù)量化的矢量)。然而,時(shí)間歸一化技術(shù)依賴于僅從具有與先前幀最大差異的個(gè)別幀(話語的周期性片段)中獲得的信息。提供一種用于建立與說話者無關(guān)的VR模板的方法,所述VR模板使用一給定話語中的更多的信息,這將是有利的。還將進(jìn)一步希望增加常規(guī)技術(shù)的精確性或收斂,用于根據(jù)話語的類型建立與說話者無關(guān)的VR模板。從而,存在對于一種構(gòu)造與說話者無關(guān)的語音識(shí)別模板的方法的需要,該方法提供增強(qiáng)的精確性并使用話語中的更多量的信息。
發(fā)明概述本發(fā)明針對一種構(gòu)造與說話者無關(guān)的語音識(shí)別模板的方法,該方法提供增強(qiáng)的精確性并使用話語中的更多量的信息。因此,在本發(fā)明的一個(gè)方面中,提供了一種建立語音模板,以用于與說話者無關(guān)的語音識(shí)別系統(tǒng)的方法。該方法有利地包括對第1組多個(gè)話語的各話語進(jìn)行分段,以對各話語生成多個(gè)時(shí)間群集段,各時(shí)間群集段由一譜均值表示;對所有的所述第1組多個(gè)話語的多個(gè)譜均值進(jìn)行量化,以生成多個(gè)模板矢量;把所述多個(gè)模板矢量的每一個(gè)與第2組多個(gè)話語相比較,以產(chǎn)生至少一個(gè)比較結(jié)果;如果所述至少一個(gè)比較結(jié)果超過至少一個(gè)預(yù)定閾值,則將所述第1組多個(gè)話語與所述多個(gè)模板矢量相匹配,以產(chǎn)生最優(yōu)匹配路徑結(jié)果;根據(jù)所述最優(yōu)匹配路徑結(jié)果,在時(shí)間上劃分所述第1組多個(gè)話語;以及重復(fù)所述量化、比較、匹配和劃分,直到至少一個(gè)比較結(jié)果不超過任一至少一個(gè)預(yù)定閾值為止。
附圖簡述
圖1是用于構(gòu)造和實(shí)現(xiàn)與說話者無關(guān)的話音識(shí)別的話音模板的系統(tǒng)框圖。
圖2是可用于圖1的系統(tǒng)中的話音識(shí)別子系統(tǒng)的框圖。
圖3是說明由諸如圖2的子系統(tǒng)之類的話音識(shí)別子系統(tǒng)執(zhí)行的用于識(shí)別輸入語音采樣的方法步驟的流程圖。
圖4是可用于圖1的系統(tǒng)中的模板構(gòu)建子系統(tǒng)的框圖。
圖5是可用于圖1的系統(tǒng)中的模板構(gòu)建子系統(tǒng)的框圖。
圖6是說明由諸如圖4的子系統(tǒng)或圖5的子系統(tǒng)之類的模板構(gòu)建子系統(tǒng)執(zhí)行的用于構(gòu)造話音模板的方法步驟的流程圖。
較佳實(shí)施例的詳細(xì)描述根據(jù)一個(gè)實(shí)施例,如圖1所示,用于構(gòu)造和實(shí)現(xiàn)與說話者無關(guān)的話音識(shí)別的話音模板的系統(tǒng)10包括與說話者無關(guān)的模板構(gòu)建子系統(tǒng)12以及語音識(shí)別子系統(tǒng)14。與說話者無關(guān)的模板構(gòu)建子系統(tǒng)12耦合至語音識(shí)別子系統(tǒng)14。
如下參考圖4-6所述,使用與說話者無關(guān)的模板構(gòu)建子系統(tǒng)12構(gòu)造與說話者無關(guān)的話音模板。把模板提供給語音識(shí)別子系統(tǒng)14,用于如下參考圖2-3所述的那樣識(shí)別來自用戶的輸入語音。
根據(jù)一個(gè)實(shí)施例,如圖2所示,語音識(shí)別子系統(tǒng)100包括模數(shù)轉(zhuǎn)換器(A/D)102、前端聲處理器104、特征提取器106、語音模板數(shù)據(jù)庫108、模型比較邏輯110以及判決邏輯112。在某一實(shí)施例中,聲處理器104和特征提取器106由一個(gè)設(shè)備實(shí)現(xiàn),如參數(shù)提取器。在一個(gè)實(shí)施例中,聲處理器104包括頻率分析模塊114。在一個(gè)實(shí)施例中,特征提取器106包括端點(diǎn)檢測器116、時(shí)間群集語音分段模塊118以及語音電平規(guī)范器。
A/D102耦合至聲處理器104。聲處理器104耦合至特征提取器106。在一個(gè)實(shí)施例中,在特征提取器106之內(nèi),端點(diǎn)檢測器116耦合至?xí)r間群集語音分段模塊118,后者耦合至幅度量化器120。特征提取器106耦合至模型比較邏輯110。模型比較邏輯110耦合至模板數(shù)據(jù)庫108和判決邏輯112。
語音識(shí)別子系統(tǒng)100可駐留于例如無線電話機(jī)或免提小汽車套件之中。用戶(未示出)說出一個(gè)單詞或短語,生成一語音信號(hào)。用常規(guī)變換器(未示出)把該語音信號(hào)轉(zhuǎn)換成電語音信號(hào)s(t)。把該語音信號(hào)s(t)提供至A/D102,后者按照已知的采樣方法將該語音信號(hào)轉(zhuǎn)換成數(shù)字化的語音信號(hào)s(n),所述已知采樣方法諸如脈沖編碼調(diào)制(PCM)、A律或μ律。
把語音采樣s(n)提供給聲處理器104,用于參數(shù)確定。聲處理器104產(chǎn)生一組參數(shù),該組參數(shù)對所述輸入語音信號(hào)s(t)的特征進(jìn)行建模??砂凑杖舾梢阎Z音參數(shù)確定技術(shù)中的任一種來確定參數(shù),所述已知語音參數(shù)確定技術(shù)例如上述美國專利號(hào)5,414,796以及Lawrence Rabiner和Biing-HwangJuang的“Fundamentals of Speech Recognition”(1993)中所述的語音編碼器編碼、基于離散傅里葉變換(DFT)的倒譜系數(shù)(如基于快速傅里葉變換(FFT)的倒譜系數(shù))、線性預(yù)測系數(shù)(LPC)或Bark比例分析。參數(shù)組最好是基于幀的(分段成周期性的幀)??砂崖曁幚砥?04實(shí)現(xiàn)為數(shù)字信號(hào)處理(DSP)。DSP可包括語音編碼器。作為替代,可把聲處理器104實(shí)現(xiàn)為語音編碼器。
把參數(shù)的各個(gè)幀提供給特征提取器106。在特征提取器106中,端點(diǎn)檢測器116使用提取的參數(shù)來檢測話語(即一個(gè)單詞)的端點(diǎn)。在一個(gè)實(shí)施例中,有利地按照轉(zhuǎn)讓給本發(fā)明的受讓人并通過引用而充分結(jié)合于此的1999年2月8日提交的題為“METHOD AND APPARATUS FOR ACCURATE ENDPOINTING OF SPEECHIN THE PRESENCE OF NOISE”的美國專利申請序列號(hào)09/246,414中描述的技術(shù)來進(jìn)行所述端點(diǎn)檢測。按照該技術(shù),把所述話語與諸如信噪比(SNR)閾值之類的第1閾值相比較,以確定該話語的第1起始點(diǎn)和第1結(jié)束點(diǎn)。然后把在所述第1起始點(diǎn)之前的話語部分與第2SNR閾值相比較,以確定該話語的第2起始點(diǎn)。然后把在所述第1結(jié)束點(diǎn)之后的話語部分與第2SNR閾值相比較,以確定該話語的第2結(jié)束點(diǎn)。最好周期性地重新計(jì)算所述第1和第2SNR閾值,并且第1SNR閾值最好超過第2SNR閾值。
把所檢測的話語的頻域參數(shù)幀提供給時(shí)間群集語音分段模塊118,根據(jù)一個(gè)實(shí)施例,后者實(shí)現(xiàn)了轉(zhuǎn)讓給本發(fā)明的受讓人并通過引用而充分結(jié)合于此1999年1月4日提交的題為“SYSTEM AND METHOD FOR SEGMENTATION AND RECOGNITIONOF SPEECH SIGNALS”的美國申請序列號(hào)09/225,891中描述的一種壓縮技術(shù)。按照該技術(shù),頻域參數(shù)中的各個(gè)語音幀由與該語音幀相關(guān)聯(lián)的至少一個(gè)譜值表示。然后對各對相鄰的幀確定譜差值。譜差值表示與一對中的兩個(gè)幀相關(guān)聯(lián)的譜值之間的差。在各對相鄰幀之間設(shè)置初始群集邊界,在參數(shù)中建立群集,并向各群集分配一方差值。該方差值最好等于所確定的譜差值之一。然后計(jì)算多個(gè)群集合并參數(shù),各群集合并參數(shù)與一對相鄰群集相關(guān)聯(lián)。從所述多個(gè)群集合并參數(shù)中選擇最小的群集合并參數(shù)。然后通過取消與所述最小群集合并參數(shù)相關(guān)聯(lián)的群集之間的邊界,來形成合并的群集,并向合并的群集分配一合并的方差值。所述合并的方差值表示分配給與最小群集合并參數(shù)相關(guān)聯(lián)的方差值。最好重復(fù)該過程,以便形成多個(gè)合并的群集,并且最好根據(jù)多個(gè)合并的群集形成分段的語音信號(hào)。
本領(lǐng)域的技術(shù)人員將理解到可用諸如時(shí)間歸一化模塊之類的其它設(shè)備來代替時(shí)間群集分段模塊118。然而,將本領(lǐng)域的技術(shù)人員也將理解,由于時(shí)間群集語音分段模塊118把與前一幀相比具有最小差值的幀合并成群集,并使用中平均來代替?zhèn)€別幀,時(shí)間群集語音分段模塊118使用經(jīng)處理的話語中的更多的信息。還將理解,時(shí)間群集語音分段模塊118最好連同模型比較邏輯110一起使用,后者采用本領(lǐng)域中已知的以及下述的動(dòng)態(tài)時(shí)間翹曲(DTW)模型。
把群集均值提供到語音電平規(guī)范器120。在一個(gè)實(shí)施例中,語音電平規(guī)范器120通過向各群集均值分配每信道兩比特(即每頻率兩比特)來量化語音幅度。在提取倒譜系數(shù)的另一實(shí)施例中,如技術(shù)人員所理解的那樣,不使用語音電平規(guī)范器120來量化群集均值。特征提取器106把由語音電平規(guī)范器120生成的輸出提供給模型比較邏輯110。
語音識(shí)別子系統(tǒng)100的所有詞匯表單詞的一組模板永久地存儲(chǔ)于模板數(shù)據(jù)庫108之中。該組模板最好是一組與說話者無關(guān)的模板,由下述的與說話者無關(guān)的模板構(gòu)建子系統(tǒng)構(gòu)造。最好把模板數(shù)據(jù)庫108實(shí)現(xiàn)為任何常規(guī)形式的非易失性存儲(chǔ)媒體,如閃存存儲(chǔ)器。這允許當(dāng)關(guān)斷對語音識(shí)別子系統(tǒng)100的供電時(shí)使模板保留于模板數(shù)據(jù)庫108中。
模型比較邏輯110把來自特征提取器106的矢量與存儲(chǔ)于模板數(shù)據(jù)庫108中的所有模板相比較。所述矢量與存儲(chǔ)于模板數(shù)據(jù)庫108之中的所有模板之間的比較結(jié)果或間距提供給判決邏輯112。判決邏輯112從模板數(shù)據(jù)庫112中選擇最接近地匹配所述矢量的模板。作為替代,判決邏輯112可使用常規(guī)“N最佳”選擇算法,該算法在預(yù)定匹配閾值之內(nèi)選擇N個(gè)最接近的匹配。然后,向用戶詢問關(guān)于哪個(gè)選擇是所想要的。判決邏輯112的輸出是關(guān)于說出了詞匯表中的哪個(gè)單詞的判決。
在一個(gè)實(shí)施例中,模型比較邏輯110和判決邏輯112使用DTW技術(shù)進(jìn)行收斂測試。DTW技術(shù)是已知的,并且描述于通過引用而充分結(jié)合于此的LawrenceRabiner和Biing-Hwang Juang的“Fundamentals of Speech Recognition”(1993)的第200至238頁中。按照DTW技術(shù),通過標(biāo)繪要對存儲(chǔ)于模板數(shù)據(jù)庫108中的各話語的時(shí)間序列測試的話語的時(shí)間序列來形成格子結(jié)構(gòu)。然后把正被測試的話語與模板數(shù)據(jù)庫108中的各話語逐點(diǎn)比較(如每10ms),一次一個(gè)話語。對于模板數(shù)據(jù)庫108中的各話語,在時(shí)間上調(diào)節(jié)或“翹曲”正被測試的話語,在某些點(diǎn)壓縮或擴(kuò)展,直到達(dá)到與模板數(shù)據(jù)庫108中的話語最接近的匹配為止。在時(shí)間上的每一點(diǎn)上,比較兩個(gè)話語,并且在該點(diǎn)聲明匹配(零代價(jià))或聲明不匹配。在某一點(diǎn)處不匹配的情況中,壓縮、擴(kuò)展或如有必要?jiǎng)t失配正被測試的話語。繼續(xù)該過程,直到兩個(gè)話語彼此已完全比較完為止。大量的(一般幾千個(gè))經(jīng)不同調(diào)節(jié)的話語是可能的。選擇具有最低代價(jià)函數(shù)(即要求最少數(shù)量的壓縮和/或擴(kuò)展和/或失配)的經(jīng)調(diào)節(jié)的話語。以類似于Viterbi解碼算法類似的方式,有利地通過從模板數(shù)據(jù)庫108中的話語中的各個(gè)點(diǎn)向后看,以確定具有最低總代價(jià)的路徑來進(jìn)行所述選擇。這允許確定最低代價(jià)的(即最接近匹配的)經(jīng)調(diào)節(jié)的話語,而不用借助產(chǎn)生每一個(gè)可能的經(jīng)不同調(diào)節(jié)的話語的“強(qiáng)制力”方法。然后比較模板數(shù)據(jù)庫108中的所有話語的最低代價(jià)的經(jīng)調(diào)節(jié)的話語,并且選擇具有最低代價(jià)的一個(gè)作為與所測試的話語最接近匹配的所存儲(chǔ)的話語。
有利地把模型比較邏輯110和判決邏輯112實(shí)現(xiàn)為微處理器。語音識(shí)別子系統(tǒng)100可以是例如ASIC。語音識(shí)別子系統(tǒng)100的識(shí)別精確度是關(guān)于語音識(shí)別子系統(tǒng)100能有多好地正確識(shí)別說出詞匯表中的單詞或短語的一個(gè)量度。例如,95%的識(shí)別精確度指示出語音識(shí)別子系統(tǒng)100在100次當(dāng)中能95次正確識(shí)別單詞表中的單詞。
根據(jù)一個(gè)實(shí)施例,語音識(shí)別子系統(tǒng)(未示出)執(zhí)行如圖3的流程圖中所示的算法步驟,來識(shí)別輸入到語音識(shí)別子系統(tǒng)的語音。在步驟200中,把輸入語音提供給語音識(shí)別子系統(tǒng)??刂屏魅缓筮M(jìn)行到步驟202。在步驟202中,檢測話語的端點(diǎn)。在某一特定實(shí)施例中,如上述參考圖2所述的那樣,按照美國申請序列號(hào)09/246,414中描述的技術(shù)來檢測話語的端點(diǎn)。然后控制流進(jìn)行到步驟204。
在步驟204中,在經(jīng)提取的話語上進(jìn)行時(shí)間群集語音分段。在某一特定實(shí)施例中,如上述參考圖2所述的那樣,所使用的時(shí)間群集語音分段技術(shù)是描述于上述美國申請序列號(hào)09/225,891中的技術(shù)。然后控制流進(jìn)行到步驟208。在步驟206中,提供與說話者無關(guān)的模板,用于與步驟204中生成的語音群集均值相匹配。最好按照下述參考圖4-6所述的技術(shù)來構(gòu)造所述與說話者無關(guān)的模板。然后控制流進(jìn)行到步驟208。在步驟208中,在某一話語的群集與所有與說話者無關(guān)的模板之間進(jìn)行DTW匹配,并選擇最接近匹配的模板作為識(shí)別出的話語。在某一實(shí)施例中,按照上述參考圖2的Lawrence Rabiner和Biing-Hwang Juang的“Fundamentals of Speech Recognition”(1993)中第200-238頁中描述的技術(shù)來執(zhí)行所述DTW匹配。本領(lǐng)域的技術(shù)人員將理解可在步驟204中執(zhí)行除了時(shí)間群集語音分段之外的技術(shù)。這樣的技術(shù)包括例如時(shí)間歸一化。
按照一個(gè)實(shí)施例,如圖4所示,與說話者無關(guān)的模板構(gòu)建子系統(tǒng)300包括處理器302和存儲(chǔ)媒體304。處理器100最好是微處理器,但可以是任何常規(guī)形式的處理器、專用處理器、數(shù)字信號(hào)處理器(DSP)、控制器或狀態(tài)機(jī)。處理器302耦合至存儲(chǔ)媒體304,有利地把后者實(shí)現(xiàn)為閃存存儲(chǔ)器、EEPROM存儲(chǔ)器、RAM存儲(chǔ)器、配置成保持固件指令的ROM存儲(chǔ)器、要運(yùn)行于處理器302之上的軟件模塊或任何其它常規(guī)形式的存儲(chǔ)器。最好把與說話者無關(guān)的模板構(gòu)建子系統(tǒng)實(shí)現(xiàn)為運(yùn)行于UNIX系統(tǒng)操作系統(tǒng)之上的計(jì)算機(jī)。在另一些實(shí)施例中,存儲(chǔ)媒體304可以是板載RAM存儲(chǔ)器,或者處理器302和存儲(chǔ)媒體304可駐留于ASIC中。在一個(gè)實(shí)施例中,處理器302配置成執(zhí)行由存儲(chǔ)媒體304包含的一組指令,以執(zhí)行如下參考圖6所述的步驟之類的算法步驟。
根據(jù)另一實(shí)施例,如圖5所示,與說話者無關(guān)的模板構(gòu)建子系統(tǒng)400包括端點(diǎn)檢測器402、時(shí)間群集語音分段邏輯404、矢量量化器406、收斂測試器408以及K均值語音分段邏輯410。最好采用控制處理器(未示出)來控制與說話者無關(guān)的模板構(gòu)建子系統(tǒng)進(jìn)行的迭代的次數(shù)。
端點(diǎn)檢測器402耦合至?xí)r間群集語音分段邏輯404。時(shí)間群集語音分段邏輯404耦合至矢量量化器406。矢量量化器406耦合至收斂測試器408以及K均值語音分段邏輯410??刂铺幚砥髯詈猛ㄟ^控制總線(未示出)耦合至端點(diǎn)檢測器402、時(shí)間群集語音分段邏輯404、矢量量化器406、收斂測試器408以及K均值語音分段邏輯410。
要被訓(xùn)練的話語的訓(xùn)練采樣Sx(n)以幀的形式提供給端點(diǎn)檢測402。訓(xùn)練采樣最好從訓(xùn)練數(shù)據(jù)庫(未示出)中提供,在后者中存儲(chǔ)要被訓(xùn)練的話語。在一個(gè)實(shí)施例中,訓(xùn)練數(shù)據(jù)庫包括100個(gè)單詞,各個(gè)單詞由100個(gè)不同的說話者說出,總共有10000條存儲(chǔ)的話語。端點(diǎn)檢測器402檢測話語的起始點(diǎn)和結(jié)束點(diǎn)。在一個(gè)實(shí)施例中,端點(diǎn)檢測器402按照上述美國申請序列號(hào)09/246,414以及上述參考圖2所述的技術(shù)來操作。
端點(diǎn)檢測器402向時(shí)間群集語音分段;邏輯404提供經(jīng)檢測的話語。時(shí)間群集語音分段邏輯404對經(jīng)檢測的話語執(zhí)行壓縮算法。在一個(gè)實(shí)施例中,時(shí)間群集語音分段邏輯404按照上述美國申請序列號(hào)09/225,891以及上述參考圖2所述的技術(shù)來操作。在一個(gè)實(shí)施例中,時(shí)間群集語音分段邏輯404把經(jīng)檢測的話語壓縮成20個(gè)分段,各段包括一群集均值。
時(shí)間群集語音分段邏輯404把一給定單詞的所有訓(xùn)練話語的群集均值提供給矢量量化器406。矢量量化器406對話語(即所有說話者的相同的單詞)的群集均值進(jìn)行矢量量化,并把所產(chǎn)生的矢量作為話語的可能的與說話者無關(guān)的(SI)模板提供給收斂測試器408。矢量量化器406最好按照各種已知的矢量量化(VQ)技術(shù)中的任一種來進(jìn)行操作。在例如A.Gersho和R.M.Gray的“Vector Quantization and Signal Compression”(1992)中描述了各種VQ技術(shù)。在某一特定實(shí)施例中,矢量量化器406產(chǎn)生4群集矢量。從而,例如逐次把各分段提供給矢量量化器406,后者把各分段表示為4個(gè)群集。各群集表示某一單詞的每一個(gè)說話者,從而每個(gè)單詞有多個(gè)群集。根據(jù)一個(gè)實(shí)施例,每個(gè)模板有80個(gè)矢量(4個(gè)群集乘以20個(gè)分段)。
收斂測試器408把可能的SI模板與要被測試的話語的測試采樣Sy(n)相比較。測試采樣以幀的形式提供給收斂測試器408。測試采樣最好從測試數(shù)據(jù)庫(未示出)中提供,后者中存儲(chǔ)要被測試的話語。在一個(gè)實(shí)施例中,測試數(shù)據(jù)庫包括100個(gè)單詞,各個(gè)單詞由100個(gè)不同的說話者說出,總共有10000條存儲(chǔ)的話語。所述單詞最好是包含于所述訓(xùn)練數(shù)據(jù)庫中的相同的單詞,但由100個(gè)不同的說話者說出。收斂測試器408把被訓(xùn)練的話語的可能的SI模板與被測試的話語的采樣相比較。在一個(gè)實(shí)施例中,收斂測試器408配置成采用DTW算法來進(jìn)行收斂測試。所采用的DTW算法最好是Lawrence Rabiner和Biing-Hwang Juang的“Fundamentals of Speech Recognition”(1993)中的第200至238頁中以及上述參考圖2描述的技術(shù)。
在一個(gè)實(shí)施例中,收斂測試器408配置成分析數(shù)據(jù)庫中的所有單詞的結(jié)果的精確度以及數(shù)據(jù)庫與可能的SI模板的方差。首先檢查所述方差,如果該方差落于一預(yù)定閾值之下,那么檢查精確度。最好每段計(jì)算方差,并然后相加以產(chǎn)生總體方差值。在某一特定實(shí)施例中,通過對4個(gè)群集的最佳匹配計(jì)算均方誤差來獲得所述方差。所述均方誤差技術(shù)在本領(lǐng)域中是眾所周知的。如果來自測試數(shù)據(jù)庫的話語與由訓(xùn)練數(shù)據(jù)庫產(chǎn)生的可能的SI模板相匹配(即,如果對于數(shù)據(jù)庫中所有的單詞來說,識(shí)別是正確的),則把收斂測試定義為是精確的。
還從矢量量化器406把可能的SI模板提供給K均值語音分段邏輯410。K均值語音分段邏輯410也接收訓(xùn)練采樣,所述訓(xùn)練采樣最好劃分成幀。在收斂測試器408執(zhí)行了對收斂的第1測試之后,方差或精確度的結(jié)果可能落于方差和精確度的預(yù)定閾值之下。在一個(gè)實(shí)施例中,如果方差或精確度的結(jié)果落于方差和精確度的預(yù)定閾值之下,則執(zhí)行另一次迭代。因此,控制處理器指示K均值語音分段邏輯410對訓(xùn)練采樣執(zhí)行K均值分段,從而產(chǎn)生如下所述的分段的語音幀。按照K均值語音分段,最好利用DTW技術(shù),使訓(xùn)練采樣與可能的SI模板相匹配,從而產(chǎn)生如參考圖2所述的最優(yōu)路徑。然后按照該最優(yōu)路徑對訓(xùn)練采樣進(jìn)行分段。例如,訓(xùn)練采樣的最初5個(gè)幀可與可能的SI模板的第1幀相匹配,訓(xùn)練采樣的接著的3幀可與可能的SI模板的第2幀相匹配,而訓(xùn)練采樣的接著的10幀可與可能的SI模板的第3幀相匹配。在該情況下,將把訓(xùn)練采樣的最初5幀分段成一個(gè)幀,將把接著的3幀分段成第2幀,并把接著的10幀分段成第3幀。在一個(gè)實(shí)施例中,K均值語音分段邏輯410按照通過引用而充分結(jié)合于此的Lawrence Rabiner和Biing-Hwang Juang的“Fundamentals of Speech Recognition”(1993)中的382-384頁中描述的示例性K均值分段技術(shù)進(jìn)行K均值分段。然后K均值語音分段邏輯410把群集均值的更新幀提供給矢量量化器406,后者對群集均值進(jìn)行矢量量化,并把產(chǎn)生的矢量(包括新的可能的SI模板)提供給收斂檢測器408,以進(jìn)行另一次收斂測試。本領(lǐng)域的一個(gè)技術(shù)人員將理解只要對于實(shí)現(xiàn)超過上述預(yù)定閾值的方差和精確度是必要的,就繼續(xù)進(jìn)行該迭代過程。
一旦通過了收斂測試,可能的(現(xiàn)在是最終的)SI模板可有利地用于諸如圖2的話音識(shí)別子系統(tǒng)之類的話音識(shí)別子系統(tǒng)中。最終的SI模板將存儲(chǔ)于圖2的模板數(shù)據(jù)庫108中,或用于圖3的流程圖的步驟206之中。
在一個(gè)實(shí)施例中,與說話者無關(guān)的模板構(gòu)建子系統(tǒng)(未示出)執(zhí)行圖6中所說明的方法步驟。在步驟500中,從訓(xùn)練數(shù)據(jù)庫(未示出)獲得話語的訓(xùn)練采樣。訓(xùn)練數(shù)據(jù)庫最好包含大量的單詞(如100個(gè)),各單詞由大量的說話者說出(如每個(gè)單詞100個(gè)說話者)。然后控制流進(jìn)行到步驟502。
在步驟502中,對訓(xùn)練采樣進(jìn)行端點(diǎn)檢測,以檢測話語。在一個(gè)實(shí)施例中,按照上述美國申請序列號(hào)09/246,414以及上述參考圖2所述的技術(shù)來執(zhí)行所述端點(diǎn)檢測。然后,控制流進(jìn)行到步驟504。
在步驟504中,對經(jīng)檢測的話語執(zhí)行時(shí)間群集語音分段,從而把該話語壓縮成多個(gè)分段,各分段由一個(gè)均值表示。在某一特定實(shí)施例中,把話語壓縮成20個(gè)分段,各分段包括一群集均值。在一個(gè)實(shí)施例中,根據(jù)上述美國申請序列號(hào)09/225,891以及上述參考圖2所述的技術(shù)來進(jìn)行所述時(shí)間群集語音分段。然后控制流進(jìn)行到步驟506。
在步驟506中,對同一單詞的所有說話者的訓(xùn)練采樣的群集均值進(jìn)行矢量量化。在某些實(shí)施例中,根據(jù)A.Gersho和R.M.Gray的“Vector Quantizationand Signal Compression”(1992)中描述的各種已知VQ技術(shù)的任一種來對群集均值進(jìn)行矢量量化。在某一實(shí)施例中,產(chǎn)生4群集矢量。從而例如把各分段表示為4個(gè)群集。各個(gè)群集表示某一單詞的每個(gè)說話者,并且每個(gè)單詞有多個(gè)群集。按照一個(gè)實(shí)施例,每模板產(chǎn)生80個(gè)矢量(4個(gè)群集乘以20個(gè)分段)。然后,控制流前進(jìn)到步驟510。
在步驟508中,從測試數(shù)據(jù)庫(未示出)獲得測試采樣,以用于進(jìn)行收斂測試。測試數(shù)據(jù)庫最好包含與訓(xùn)練數(shù)據(jù)庫中包含的相同的單詞,各個(gè)單詞由大量的說話者說出(如每個(gè)話語100個(gè)說話者)。然后控制流進(jìn)行到步驟510。
在步驟510中,把經(jīng)量化的矢量作為可能的SI模板與測試采樣進(jìn)行比較,以進(jìn)行收斂測試。在一個(gè)實(shí)施例中,收斂測試是DTW算法。所采用的DTW算法最好是Lawrence Rabiner和Biing-Hwang Juang的“Fundamentals of SpeechRecognition”(1993)中的第200至238頁中以及上述參考圖2描述的技術(shù)。
在一個(gè)實(shí)施例中,步驟510的收斂測試分析數(shù)據(jù)庫中的所有單詞的結(jié)果的精確度以及數(shù)據(jù)庫與可能的SI模板間的方差。首先檢查方差,如果該方法落于預(yù)定閾值之下,則檢查精確度。最好每段計(jì)算方差,并然后相加以產(chǎn)生總體方差值。在某一特定實(shí)施例中,通過對4個(gè)群集的最佳匹配計(jì)算均方誤差來獲得所述方差。所述均方誤差技術(shù)在本領(lǐng)域中是眾所周知的。如果由測試數(shù)據(jù)庫產(chǎn)生的可能的SI模板與來自訓(xùn)練數(shù)據(jù)庫的話語相匹配(即,如果對于數(shù)據(jù)庫中所有的單詞來說,識(shí)別是正確的),則把收斂測試定義為是精確的。然后控制流進(jìn)行到步驟512。
在步驟512中,如果步驟510的收斂測試的方差或精確度的結(jié)果落于方差和精確度的預(yù)定閾值之下,則執(zhí)行另一次迭代。因此,對訓(xùn)練采樣執(zhí)行K均值分段。最好利用DTW技術(shù),K均值語音分段使訓(xùn)練采樣與可能的SI模板相匹配,從而產(chǎn)生如參考圖2所述的最優(yōu)路徑。然后按照該最優(yōu)路徑對訓(xùn)練采樣進(jìn)行分段。在一個(gè)實(shí)施例中,按照Lawrence Rabiner和Biing-Hwang Juang的“Fundamentals of Speech Recognition”(1993)中的382-384頁中描述的技術(shù)進(jìn)行K均值語音分段。然后控制流進(jìn)行到步驟506,在其中對群集均值的更新幀進(jìn)行矢量量化,并在步驟510中(作為新的可能的SI模板)用來自測試數(shù)據(jù)庫的采樣進(jìn)行收斂測試。本領(lǐng)域的一個(gè)技術(shù)人員將理解只要對于實(shí)現(xiàn)超過上述預(yù)定閾值的方差和精確度是必要的,就可繼續(xù)進(jìn)行該迭代過程。
一旦通過了收斂測試(即,一旦達(dá)到了所述閾值),可能的(現(xiàn)在是最終的)SI模板可有利地用于諸如圖2的話音識(shí)別子系統(tǒng)之類的話音識(shí)別子系統(tǒng)中。最終的SI模板將存儲(chǔ)于圖2的模板數(shù)據(jù)庫108中,或用于圖3的流程圖的步驟206之中。
從而,已描述了一種用于構(gòu)造與說話者無關(guān)的話音識(shí)別系統(tǒng)的話音模板的新穎的和改進(jìn)的方法和設(shè)備。本領(lǐng)域的技術(shù)人員將理解貫穿于上述描述中的可能引用的數(shù)據(jù)、指令、命令、信息、信號(hào)、比特、碼元以及碼片可有利地用電壓、電流、電磁波、磁場或磁粒子、光場或光粒子或它們的任何組合來表示。本領(lǐng)域的技術(shù)人員還將理解連同這里所揭示的實(shí)施例一起描述的各種說明性的邏輯塊、模塊、電路和算法步驟可實(shí)現(xiàn)為電子硬件、計(jì)算機(jī)軟件或兩者的組合。已一般按照它們的功能性描述了各種說明性的元部件、塊、模塊、電路和步驟。是把功能實(shí)現(xiàn)為硬件還是軟件,這取決于某一特定應(yīng)用以及強(qiáng)加于整個(gè)系統(tǒng)上的設(shè)計(jì)限制。技術(shù)人員認(rèn)識(shí)到在這些情況下的硬件和軟件的互換性,以及怎樣最佳地實(shí)現(xiàn)所述的各特定應(yīng)用的功能。作為例子,可用數(shù)字信號(hào)處理器(DSP)、專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)或其它可編程邏輯器件、離散門或晶體管邏輯、諸如寄存器和FIFO之類的離散硬件部件、執(zhí)行一組固件指令的處理器、任何常規(guī)可編程軟件模塊以及處理器、或設(shè)計(jì)成執(zhí)行這里所述的功能的上述元部件的組合,來實(shí)現(xiàn)或執(zhí)行連同這里所揭示的實(shí)施例一起描述的各種說明性的邏輯塊、模塊、電路和算法步驟。處理器可最好是微處理器,但是作為替代,處理器可以是任何常規(guī)的處理器、控制器或狀態(tài)機(jī)。軟件模塊可駐留于RAM存儲(chǔ)器、閃存存儲(chǔ)器、ROM存儲(chǔ)器、EPROM存儲(chǔ)器、EEPROM存儲(chǔ)器、寄存器、硬盤、可拆卸式磁盤、CD-ROM或本領(lǐng)域中已知的任何其它形式的存儲(chǔ)媒體之中。示例性的處理器最好耦合至存儲(chǔ)媒體,以便從中讀取信息,并把信息寫入存儲(chǔ)媒體中。作為替代,存儲(chǔ)媒體可集成于處理器。處理器和存儲(chǔ)媒體可駐留于ASIC中。ASIC可駐留于電話機(jī)中。作為替代,處理器和存儲(chǔ)媒體可駐留于電話機(jī)中??砂烟幚砥鲗?shí)現(xiàn)為DSP和微處理的組合,或兩個(gè)微處理器與一個(gè)DSP核芯等等。
從而已示出和描述了本發(fā)明的較佳實(shí)施例。然而,本領(lǐng)域的技術(shù)人員將理解可對這里所揭示的實(shí)施例作出許多替換,而不背離本發(fā)明的要旨和范圍。因此,要按照下面的權(quán)利要求書來限制本發(fā)明。
權(quán)利要求
1.一種建立用于與說話者無關(guān)的語音識(shí)別系統(tǒng)的語音模板的方法,其特征在于該方法包括對第1組多個(gè)話語中的各話語進(jìn)行分段,以對各話語產(chǎn)生多個(gè)時(shí)間群集的分段,各時(shí)間群集的分段由一譜均值表示;對所述所有第1組多個(gè)話語的多個(gè)譜均值進(jìn)行量化,以產(chǎn)生多個(gè)模板矢量;把所述多個(gè)模板矢量的每一個(gè)與第2組多個(gè)話語相比較,以產(chǎn)生至少一個(gè)比較結(jié)果;如果所述至少一個(gè)比較結(jié)果超過至少一個(gè)預(yù)定閾值,則將所述第1組多個(gè)話語與所述多個(gè)模板矢量相匹配,以產(chǎn)生最優(yōu)匹配路徑結(jié)果;根據(jù)所述最優(yōu)匹配路徑結(jié)果在時(shí)間上劃分所述第1組多個(gè)話語;重復(fù)所述量化、比較、匹配和劃分,直到所述至少一個(gè)比較結(jié)果不超過任一至少一個(gè)預(yù)定閾值為止。
2.如權(quán)利要求1所述的方法,其特征在于所述比較包括計(jì)算方差量度。
3.如權(quán)利要求1所述的方法,其特征在于所述比較包括計(jì)算精確度量度。
4.如權(quán)利要求1所述的方法,其特征在于所述比較包括首先計(jì)算方差量度,并且如果所述方差量度不超過第1預(yù)定閾值,則其次計(jì)算精確度量度。
5.如權(quán)利要求4所述的方法,其特征在于所述匹配包括如果所述方差量度超過所述第1預(yù)定閾值或者所述精確度量度超過第2預(yù)定閾值,則使第1話語與所述多個(gè)模板矢量相匹配。
6.如權(quán)利要求1所述的方法,其特征在于所述比較包括執(zhí)行動(dòng)態(tài)時(shí)間翹曲計(jì)算。
7.如權(quán)利要求1所述的方法,其特征在于所述匹配包括執(zhí)行動(dòng)態(tài)時(shí)間翹曲計(jì)算。
8.如權(quán)利要求1所述的方法,其特征在于所述匹配和所述劃分包括執(zhí)行K均值分段計(jì)算。
9.如權(quán)利要求1所述的方法,其特征在于進(jìn)一步包括檢測第1話語的端點(diǎn)。
10.一種配置成建立用于與說話者無關(guān)的語音識(shí)別系統(tǒng)的語音模板的設(shè)備,其特征在于該設(shè)備包括用于對第1組多個(gè)話語中的各話語進(jìn)行分段,以對各話語產(chǎn)生多個(gè)時(shí)間群集的分段的裝置,各時(shí)間群集的分段由一譜均值表示;用于對所述所有第1組多個(gè)話語的多個(gè)譜均值進(jìn)行量化,以產(chǎn)生多個(gè)模板矢量的裝置;用于把所述多個(gè)模板矢量的每一個(gè)與第2組多個(gè)話語相比較,以產(chǎn)生至少一個(gè)比較結(jié)果的裝置;用于如果所述至少一個(gè)比較結(jié)果超過至少一個(gè)預(yù)定閾值,則將所述第1組多個(gè)話語與所述多個(gè)模板矢量相匹配,以產(chǎn)生最優(yōu)匹配路徑結(jié)果的裝置;用于根據(jù)所述最優(yōu)匹配路徑結(jié)果在時(shí)間上劃分所述第1組多個(gè)話語的裝置;用于重復(fù)所述量化、比較、匹配和劃分,直到所述至少一個(gè)比較結(jié)果不超過任一至少一個(gè)預(yù)定閾值為止的裝置。
11.一種配置成建立用于與說話者無關(guān)的語音識(shí)別系統(tǒng)的語音模板的設(shè)備,其特征在于該設(shè)備包括分段邏輯,配置成對第1組多個(gè)話語中的各話語進(jìn)行分段,以對各話語產(chǎn)生多個(gè)時(shí)間群集的分段,各時(shí)間群集的分段由一譜均值表示;耦合至所述分段邏輯的量化器,配置成對所述所有第1組多個(gè)話語的多個(gè)譜均值進(jìn)行量化,以產(chǎn)生多個(gè)模板矢量;耦合至所述量化器的收斂測試器,配置成把所述多個(gè)模板矢量的每一個(gè)與第2組多個(gè)話語相比較,以產(chǎn)生至少一個(gè)比較結(jié)果;耦合至所述量化器和所述收斂測試器的劃分邏輯,配置成如果所述至少一個(gè)比較結(jié)果超過至少一個(gè)預(yù)定閾值,則將所述第1組多個(gè)話語與所述多個(gè)模板矢量相匹配,以產(chǎn)生最優(yōu)匹配路徑結(jié)果,以及根據(jù)所述最優(yōu)匹配路徑結(jié)果在時(shí)間上劃分所述第1組多個(gè)話語,其中所述量化器、所述收斂測試器以及所述劃分邏輯進(jìn)一步配置成重復(fù)量化、比較、匹配和劃分,直到所述至少一個(gè)比較結(jié)果不超過任一至少一個(gè)預(yù)定閾值為止。
12.如權(quán)利要求11所述設(shè)備,其特征在于所述至少一個(gè)比較結(jié)果是方差量度。
13.如權(quán)利要求11所述設(shè)備,其特征在于所述至少一個(gè)比較結(jié)果是精確度量度。
14.如權(quán)利要求11所述設(shè)備,其特征在于所述至少一個(gè)比較結(jié)果是方差量度和精確度量度,其中所述收斂測試器配置成首先計(jì)算方差量度,并且如果所述方差量度不超過第1預(yù)定閾值,則其次計(jì)算精確度量度。
15.如權(quán)利要求14所述設(shè)備,其特征在于所述匹配包括如果所述方差量度超過所述第1預(yù)定閾值或者所述精確度量度超過第2預(yù)定閾值,則使第1話語與所述多個(gè)模板矢量相匹配。
16.如權(quán)利要求11所述的方法,其特征在于所述收斂測試器配置成執(zhí)行動(dòng)態(tài)時(shí)間翹曲計(jì)算。
17.如權(quán)利要求11所述的方法,其特征在于所述劃分邏輯配置成執(zhí)行動(dòng)態(tài)時(shí)間翹曲計(jì)算。
18.如權(quán)利要求11所述的方法,其特征在于所述劃分邏輯包括K均值語音分段邏輯。
19.如權(quán)利要求11所述的方法,其特征在于進(jìn)一步包括耦合至所述劃分邏輯并配置成檢測第1話語的端點(diǎn)的端點(diǎn)檢測器。
20.一種配置成建立用于與說話者無關(guān)的語音識(shí)別系統(tǒng)的語音模板的設(shè)備,其特征在于該設(shè)備包括處理器,以及耦合至所述處理器的存儲(chǔ)媒體,該存儲(chǔ)媒體包含一組由處理器可執(zhí)行的指令,用于對第1組多個(gè)話語中的各話語進(jìn)行分段,以對各話語產(chǎn)生多個(gè)時(shí)間群集的分段,各時(shí)間群集的分段由一譜均值表示,對所述所有第1組多個(gè)話語的多個(gè)譜均值進(jìn)行量化,以產(chǎn)生多個(gè)模板矢量,把所述多個(gè)模板矢量的每一個(gè)與第2組多個(gè)話語相比較,以產(chǎn)生至少一個(gè)比較結(jié)果,如果所述至少一個(gè)比較結(jié)果超過至少一個(gè)預(yù)定閾值,則將所述第1組多個(gè)話語與所述多個(gè)模板矢量相匹配,以產(chǎn)生最優(yōu)匹配路徑結(jié)果,根據(jù)所述最優(yōu)匹配路徑結(jié)果在時(shí)間上劃分所述第1組多個(gè)話語,以及重復(fù)量化、比較、匹配和劃分,直到所述至少一個(gè)比較結(jié)果不超過任一至少一個(gè)預(yù)定閾值為止。
21.如權(quán)利要求20所述的設(shè)備,其特征在于所述至少一個(gè)比較結(jié)果是方差量度。
22.如權(quán)利要求20所述設(shè)備,其特征在于所述至少一個(gè)比較結(jié)果是精確度量度。
23.如權(quán)利要求20所述設(shè)備,其特征在于所述至少一個(gè)比較結(jié)果是方差量度和精確度量度,其中所述指令組可由所述處理器執(zhí)行,來首先計(jì)算方差量度,并且如果所述方差量度不超過第1預(yù)定閾值,則其次計(jì)算精確度量度。
24.如權(quán)利要求23所述設(shè)備,其特征在于所述指令組可由所述處理器進(jìn)一步執(zhí)行,如果任一個(gè)所述方差量度超過所述第1預(yù)定閾值或者所述精確度量度超過第2預(yù)定閾值,則使第1話語與所述多個(gè)模板矢量相匹配。
25.如權(quán)利要求20所述的方法,其特征在于所述指令組可由所述處理器執(zhí)行,以通過執(zhí)行動(dòng)態(tài)時(shí)間翹曲計(jì)算來把所述多個(gè)矢量模板的每一個(gè)與所述多個(gè)話語相比較。
26.如權(quán)利要求20所述的方法,其特征在于所述指令組可由所述處理器執(zhí)行以匹配劃分邏輯,后者配置成通過執(zhí)行動(dòng)態(tài)時(shí)間翹曲計(jì)算使第1話語與所述多個(gè)矢量模板相匹配。
27.如權(quán)利要求20所述的方法,其特征在于所述指令組可由所述處理器執(zhí)行,以通過執(zhí)行K均值語音分段計(jì)算來劃分第1話語。
28.如權(quán)利要求20所述的方法,其特征在于所述指令組可由所述處理器進(jìn)一步執(zhí)行,以檢測第1話語的端點(diǎn)。
29.一種處理器可讀媒體,包含一組可由處理器執(zhí)行的指令,其特征在于處理器執(zhí)行該組指令用來對第1組多個(gè)話語中的各話語進(jìn)行分段,以對各話語產(chǎn)生多個(gè)時(shí)間群集的分段,各時(shí)間群集的分段由一譜均值表示;對所述所有第1組多個(gè)話語的多個(gè)譜均值進(jìn)行量化,以產(chǎn)生多個(gè)模板矢量;把所述多個(gè)模板矢量的每一個(gè)與第2組多個(gè)話語相比較,以產(chǎn)生至少一個(gè)比較結(jié)果;如果所述至少一個(gè)比較結(jié)果超過至少一個(gè)預(yù)定閾值,則將所述第1組多個(gè)話語與所述多個(gè)模板矢量相匹配,以產(chǎn)生最優(yōu)匹配路徑結(jié)果;根據(jù)所述最優(yōu)匹配路徑結(jié)果在時(shí)間上劃分所述第1組多個(gè)話語;重復(fù)所述量化、比較、匹配和劃分,直到所述至少一個(gè)比較結(jié)果不超過任一至少一個(gè)預(yù)定閾值為止。
全文摘要
一種用于構(gòu)造與說話者無關(guān)的話音識(shí)別系統(tǒng)的話音模板的方法和設(shè)備,包括對一訓(xùn)練話語進(jìn)行分段,以產(chǎn)生時(shí)間群集的分段,各分段由一均值表示。對一給定單詞的所有話語的均值進(jìn)行量化,以產(chǎn)生模板矢量。把各模板矢量與測試話語相比較,以產(chǎn)生比較結(jié)果。所述比較一般是動(dòng)態(tài)時(shí)間翹曲計(jì)算。如果比較結(jié)果超過至少一個(gè)預(yù)定閾值,則將訓(xùn)練話語與模板矢量相匹配,以產(chǎn)生最優(yōu)路徑結(jié)果,并且根據(jù)所述最優(yōu)路徑結(jié)果劃分所述訓(xùn)練話語。所述劃分一般是K均值分段計(jì)算。然后可對經(jīng)劃分的話語進(jìn)行再量化,并與測試話語進(jìn)行再比較,直到不超過至少一個(gè)預(yù)定閾值為止。
文檔編號(hào)G10L15/00GK1441947SQ01812771
公開日2003年9月10日 申請日期2001年7月11日 優(yōu)先權(quán)日2000年7月13日
發(fā)明者畢寧 申請人:高通股份有限公司