音調(diào)跟蹤裝置和方法

文檔序號：2822009閱讀：263來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：音調(diào)跟蹤裝置和方法
背景技術(shù)：
本發(fā)明涉及計算機語音系統(tǒng)。具體地說，本發(fā)明涉及計算機語音系統(tǒng)內(nèi)的音調(diào)跟蹤問題。
當(dāng)前，計算機正逐步用于完成多種語音功能，包括通過計算機網(wǎng)絡(luò)傳送人類語音，識別人類語音以及根據(jù)輸入的文本合成語音。為了實現(xiàn)這些功能，計算機必須能夠識別人類語音的各種要素，其中一個要素是語音的音調(diào)或語音的主調(diào)，它是在語音發(fā)聲期間由講話人的聲帶產(chǎn)生的。例如可以在元音音中聽到音調(diào)，例如“six”內(nèi)的“ih”音。
人類話音中的音調(diào)在語音信號中表現(xiàn)為由不同頻率的多個正弦波組合的接近重復(fù)的波形。這些接近重復(fù)的波形之間的周期確定音調(diào)。
為了識別語音信號內(nèi)的音調(diào)，現(xiàn)有技術(shù)采用音調(diào)跟蹤裝置。在“ARobust Algorithmfor Pitch Tracking(RAPT)”D.Talkin，Speech CodingandSynthesis，pp.495-518，Elsevier，1995中對音調(diào)跟蹤進行了綜合研究。一種這類音調(diào)跟蹤裝置對被候選語音周期區(qū)分的語音信號的兩部分進行識別并對這兩部分進行比較。如果候選音調(diào)周期等于語音信號的實際音調(diào)，則這兩部分接近相同。通常利用對各部分的多個采樣互相進行比較的互相關(guān)技術(shù)來完成此比較過程。
不幸地是，這種音調(diào)跟蹤裝置有時并不準(zhǔn)確。這會導(dǎo)致音調(diào)跟蹤錯誤，音調(diào)跟蹤錯誤會破壞計算機語音系統(tǒng)的性能。具體地說，音調(diào)跟蹤錯誤會導(dǎo)致計算機系統(tǒng)將語音的發(fā)音部分錯誤地識別為不發(fā)音部分，或者將語音的不發(fā)音部分錯誤地識別為發(fā)音部分，并且可以導(dǎo)致語音系統(tǒng)錯誤地對語音信號進行分段。
本發(fā)明概述在一種在語音信號中跟蹤音調(diào)的方法中，根據(jù)經(jīng)過語音信號的第一窗口和第二窗口的采樣建立第一窗口向量和第二窗口向量。利用測試音調(diào)周期將第一窗口和第二窗口分開。第一窗口內(nèi)的語音信號的能量與第一窗口向量和第二窗口向量的相關(guān)合并以產(chǎn)生可預(yù)測能量因數(shù)。然后，使用可預(yù)測能量因數(shù)確定測試音調(diào)周期的音調(diào)得分。部分地根據(jù)音調(diào)得分，識別音調(diào)跟蹤部分。
在本發(fā)明的其它實施例中，一種音調(diào)跟蹤方法對語音信號內(nèi)的第一波形和第二波形進行采樣。利用測試音調(diào)周期將第一波形的中央與第二波形的中央分開。確定的相關(guān)值描述了第一波形與第二波形之間的相似性，確定的音調(diào)輪廓因數(shù)描述了測試音調(diào)周期與先前音調(diào)周期之間的相似性。然后，組合相關(guān)值和音調(diào)輪廓因數(shù)，以產(chǎn)生從前面的音調(diào)周期到測試音調(diào)周期的過渡的音調(diào)得分。使用此音調(diào)得分識別音調(diào)跟蹤部分。
本發(fā)明的另一個實施例提供一種確定語音信號的區(qū)域是否是話音區(qū)域的方法。該方法包括采樣第一波形和第二波形并確定兩個波形之間的相關(guān)。然后，確定此第一波形的能量。如果相關(guān)和能量均高，則該方法認(rèn)為此區(qū)域為話音區(qū)域。
附圖的簡要說明

圖1示出本發(fā)明典型環(huán)境的平面圖；圖2示出語音信號的示意圖；圖3示出說明語句中作為時間函數(shù)的音調(diào)的示意圖；圖4示出語音合成系統(tǒng)的方框圖；圖5-1示出語音信號的示意圖；圖5-2示出圖5-1所示的語音信號被適當(dāng)降低其音調(diào)后的示意圖；圖5-3示出圖5-1所示的語音信號被不適當(dāng)降低其音調(diào)后的示意圖；圖6示出語音編碼器的方框圖；圖7二維圖解說明語音信號的窗口向量；圖8示出根據(jù)本發(fā)明的音調(diào)跟蹤裝置的方框圖；圖9示出根據(jù)本發(fā)明的音調(diào)跟蹤方法的流程圖；圖10示出產(chǎn)生窗口向量的各采樣的語音信號的示意圖；
圖11示出用于識別語音信號的話音區(qū)域和非話音區(qū)域的隱含馬爾可夫模型的示意圖；圖12示出根據(jù)能量和互相關(guān)對話音采樣和非話音采樣進行組合的示意圖；圖13示出根據(jù)本發(fā)明識別話音區(qū)域和非話音區(qū)域的方法的流程圖。
實施例的詳細說明圖1和有關(guān)討論對實現(xiàn)本發(fā)明的適當(dāng)計算環(huán)境進行了一般性、簡要說明。盡管不作這種要求，但是本發(fā)明至少部分地被描述為可以被個人計算機執(zhí)行的一般意義的計算機可執(zhí)行指令，例如程序模塊。通常，程序模塊包括例程、對象、部件、數(shù)據(jù)結(jié)構(gòu)等等，它們執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定提取數(shù)據(jù)類型。此外，本技術(shù)領(lǐng)域內(nèi)的其它技術(shù)人員會明白在其它計算機系統(tǒng)配置中也可以實施本發(fā)明，這些計算機系統(tǒng)配置包括手持設(shè)備、多處理器系統(tǒng)、基于多處理器或可編程消費電子產(chǎn)品、網(wǎng)絡(luò)個人計算機、小型計算機、巨型計算機等等。還可以在分布式計算環(huán)境中實施本發(fā)明，在分布式計算環(huán)境中，由通過通信網(wǎng)絡(luò)連接的遠程處理設(shè)備執(zhí)行任務(wù)。在一種分布式計算環(huán)境中，程序模塊既可以位于本地存儲設(shè)備也可以位于遠程存儲設(shè)備。
參考圖1，實現(xiàn)本發(fā)明的典型系統(tǒng)包括傳統(tǒng)個人計算機形式的通用計算設(shè)備20，通用計算設(shè)備20包括處理單元(CPU)21、系統(tǒng)內(nèi)存22以及系統(tǒng)總線23，系統(tǒng)總線23將包括系統(tǒng)內(nèi)存22在內(nèi)的各種系統(tǒng)部件連接到處理單元21。系統(tǒng)總線23可以是包括存儲器總線或存儲控制器、外圍總線以及局部總線在內(nèi)的幾種總線中的任何一種總線，局部總線可以采用任何類型的總線結(jié)構(gòu)。系統(tǒng)內(nèi)存22包括只讀存儲器(ROM)24和隨機存取存儲器(RAM)25?；据斎?輸出系統(tǒng)(BIOS)26含有有助于個人計算機20內(nèi)的各單元之間(例如在啟動期間)傳送信息的基本程序，例如，在啟動期間它被存儲到ROM24。個人計算機20進一步包括硬盤驅(qū)動器27，用于從硬盤(未示出)讀取數(shù)據(jù)或?qū)?shù)據(jù)寫入硬盤(未示出)；磁盤驅(qū)動器28，用于從可裝卸磁盤29讀取數(shù)據(jù)或?qū)?shù)據(jù)寫入可裝卸磁盤29；以及光盤驅(qū)動器30，用于從諸如CD ROM或其它光介質(zhì)之類的可裝卸光盤31讀取數(shù)據(jù)或?qū)?shù)據(jù)寫入諸如CD ROM或其它光介質(zhì)之類的可裝卸光盤31。硬盤驅(qū)動器27、磁盤驅(qū)動器28以及光盤驅(qū)動器30分別通過硬盤驅(qū)動器接口32、磁盤驅(qū)動器接口33以及光盤驅(qū)動器接口34連接到系統(tǒng)總線23。這些驅(qū)動器以及有關(guān)計算機可讀介質(zhì)為個人計算機20提供了計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊以及其它數(shù)據(jù)的非易失性存儲。
盡管在此描述的典型環(huán)境中使用了硬盤、可裝卸磁盤29以及可裝卸光盤31，但是本技術(shù)領(lǐng)域的其它技術(shù)人員應(yīng)該明白，在此典型操作環(huán)境中還可以使用能夠存儲數(shù)據(jù)、可以被計算機訪問的其它類型的計算機可讀介質(zhì)，例如卡型盒式磁帶機、閃速存儲卡、數(shù)字視盤、伯努利盒式磁盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)等等。
可以存儲到硬盤、磁盤29、光盤31、ROM24或RAM25的程序模塊有許多，它們包括操作系統(tǒng)35、一個或多個應(yīng)用程序36、其它程序模塊37以及其它程序數(shù)據(jù)38。用戶通過本機輸入設(shè)備(例如鍵盤40、定位設(shè)備42以及麥克風(fēng)43)將命令和信息輸入個人計算機20。其它輸入設(shè)備(未示出)還有操縱桿、游戲鍵盤、圓盤式衛(wèi)星天線、掃描儀等等。這些以及其它輸入設(shè)備通常通過與系統(tǒng)總線23相連的串行端口接口46連接到處理單元21，但是也可以利用其它接口(例如聲卡、并行端口、游戲端口或通用串行總線(USB))將這些以及其它輸入設(shè)備連接到處理單元21。監(jiān)視器47或其它類型的顯示設(shè)備通過諸如視頻適配器48的接口也連接到系統(tǒng)總線23。除了監(jiān)視器47之外，個人計算機通常還包括其它外圍輸出設(shè)備，例如揚聲器45和打印機(未示出)。
通過邏輯連接到一個或多個遠程計算機(例如遠程計算機49)，個人計算機20可以在網(wǎng)絡(luò)環(huán)境下運行。遠程計算機49可以是另一個個人計算機、手持設(shè)備、服務(wù)器、路由器、網(wǎng)絡(luò)個人計算機、對等設(shè)備或其它網(wǎng)絡(luò)節(jié)點，它通常包括上述與個人計算機20有關(guān)的許多單元或全部單元，但是在圖1中僅示出存儲設(shè)備50。圖1中所示的邏輯連接包括局域網(wǎng)(LAN)51和廣域網(wǎng)(WAN)52。在辦公室內(nèi)常用的這類網(wǎng)絡(luò)環(huán)境有企業(yè)計算機網(wǎng)絡(luò)(企業(yè)網(wǎng)絡(luò))和因特網(wǎng)。
當(dāng)在LAN網(wǎng)絡(luò)環(huán)境下使用時，個人計算機20通過網(wǎng)絡(luò)接口或適配器53連接到局域網(wǎng)51。當(dāng)在WAN網(wǎng)絡(luò)環(huán)境下使用時，個人計算機20通常包括調(diào)制解調(diào)器54或其它用于通過廣域網(wǎng)52(例如因特網(wǎng))建立通信的裝置。調(diào)制解調(diào)器54可以是內(nèi)置的也可以是外置的，它通過串行端口接口46連接到系統(tǒng)總線23。在網(wǎng)絡(luò)環(huán)境下，可以將與個人計算機20有關(guān)的所述程序模塊，或其各部分存儲到遠程存儲設(shè)備。顯然，所示的網(wǎng)絡(luò)連接屬于典型情況，當(dāng)然在各計算機之間也可以使用其它裝置建立通信鏈路。例如，在網(wǎng)絡(luò)的一個或多個部分之間可以建立無線通信鏈路。
圖2和圖3示出說明人類語音音調(diào)特性的示意圖。圖2示出人類語音信號200的示意圖，其縱軸202表示振幅，其橫軸204表示時間。語音信號200包括位于兩個非發(fā)音部分208與210之間的發(fā)音部分206。發(fā)音部分206包括多個接近重復(fù)的波形，例如波形212和214，它們被音調(diào)周期216分開。音調(diào)周期216的長度確定發(fā)音部分206的音調(diào)。
圖3示出作為說明語句的時間(橫軸232)函數(shù)的基本音調(diào)頻率的示意圖234?；疽粽{(diào)頻率可以被簡稱為基本頻率F0，它等于音調(diào)周期的倒數(shù)。從示意圖234可以清楚地看到音調(diào)隨時間發(fā)生變化。具體地說，在說明語句開始時，基本音調(diào)頻率升高以強調(diào)語句的主題，然后，逐漸降低直到語句結(jié)束。音調(diào)還可以在在單詞內(nèi)發(fā)生變化，在單詞的發(fā)音部分與非發(fā)音部分之間的交界處最明顯。
在包括諸如圖4所示的語音合成系統(tǒng)240的語音合成系統(tǒng)在內(nèi)的許多語音系統(tǒng)中均跟蹤音調(diào)的變化。語音合成系統(tǒng)240包括兩部分，即相互合作的訓(xùn)練部分242和合成部分244，以便根據(jù)輸入的文本產(chǎn)生合成語音。訓(xùn)練部分242采樣并存儲人類語音模板，合成部分244對人類語音模板進行調(diào)節(jié)和合并以產(chǎn)生合成語音。當(dāng)用戶對著麥克風(fēng)講話時，訓(xùn)練部分242根據(jù)麥克風(fēng)43產(chǎn)生的模擬人類語音信號產(chǎn)生模板。
將麥克風(fēng)43產(chǎn)生的模擬信號送到模數(shù)(A/D)轉(zhuǎn)換器246模數(shù)轉(zhuǎn)換器246周期地采樣該信號以產(chǎn)生此信號的數(shù)字采樣。然后，將數(shù)字采樣送到特征提取部件248和音調(diào)跟蹤裝置250。
通過對數(shù)字化的語音信號進行頻譜分析，特征提取部件248提取代表數(shù)字化輸入語音信號的參數(shù)。這樣會獲得代表輸入語音信號幀序列的頻率分量的系數(shù)。進行頻譜分析的各種方法在信號處理領(lǐng)域內(nèi)是眾所周知的，它們包括快速傅里葉變換、線性預(yù)測編碼(LPC)以及對數(shù)倒數(shù)系數(shù)。將獲得的頻譜系數(shù)送到分析引擎252。
另外，還將數(shù)字化信號送到音調(diào)跟蹤裝置250，音調(diào)跟蹤裝置250對該信號進行分析以對該信號確定一系列音調(diào)標(biāo)記。所設(shè)置的音調(diào)標(biāo)記與數(shù)字化信號的音調(diào)匹配并在時間上被拆分的總數(shù)等于該信號的音調(diào)周期。以下將進一步說明根據(jù)本發(fā)明的音調(diào)跟蹤裝置的運行過程。音調(diào)跟蹤裝置250產(chǎn)生的音調(diào)標(biāo)記被送到分析引擎252。
分析引擎252對存在于輸入語音信號內(nèi)的各語音單元創(chuàng)建聲音模型。這些語音單元包括音素、雙音素(兩個音素)或三音素(三個音素)。為了創(chuàng)建這些模型，分析引擎252將語音信號文本轉(zhuǎn)換為語音單元。將語音信號文本存儲到文本存儲器254，并利用字典存儲器256將語音信號文本劃分為其語音單元，字典存儲器256內(nèi)包括文本存儲器254內(nèi)各單詞的語音描述。
然后，分析引擎252從模型存儲器258內(nèi)檢索各語音單元的初始模型。例如，這種模型包括音素的三態(tài)隱含馬爾科夫模型。將初始模型與輸入語音信號的頻譜系數(shù)進行比較，并對這些模型進行調(diào)節(jié)，直到這些模型能夠正確表示輸入語音信號為止。然后，將這些模型存儲到單元存儲器260。
由于存儲容量有限，所以分析引擎252不能存儲存在于輸入語音信號內(nèi)的各例語音單元。相反，分析引擎252選擇各語音單元例的子集來表示語音單元的所有情況。
對于存儲在單元存儲器260內(nèi)的各語音單元，分析引擎252還存儲與在語音存儲器262內(nèi)存儲的語音單元有關(guān)的語音標(biāo)記。
合成部分244根據(jù)送到自然語言分列器(NLP)266的輸入文本264產(chǎn)生語音信號。自然語言分列器266將輸入的文本劃分為單詞和短語并對單詞和短語指定標(biāo)記，標(biāo)記描述文本中各要素之間的關(guān)系。將文本和標(biāo)記送到字母到聲音(LTS)部件268和韻律語音特征引擎270。利用字典256和在準(zhǔn)則存儲器272內(nèi)存在的一組字母到聲音單元規(guī)則，LTS部件268將各單詞劃分為語音單元，例如音素、雙元素或三音素。字母到聲音單元規(guī)則包括拼寫相同但發(fā)音不同的單詞的發(fā)音規(guī)則以及將數(shù)字轉(zhuǎn)換為文本的轉(zhuǎn)換規(guī)則(例如將“1”轉(zhuǎn)換為“壹”)。
將LTS268的輸出送到語音串和語音強調(diào)部件274，語音串和語音強調(diào)部件274產(chǎn)生能夠正確強調(diào)輸入的文本的語音串。然后，將語音串送到韻律語音特征引擎270，韻律語音特征引擎270插入延長記號并確定韻律語音特征參數(shù)，韻律語音特征參數(shù)指出文本串內(nèi)的各語音單元的強度、音調(diào)以及時長。通常，韻律語音特征引擎270利用存儲在韻律語音特征存儲單元276內(nèi)的韻律語音特征模型確定韻律語音特征。然后，將語音串和韻律語音特征參數(shù)送到語音合成器278。
通過訪問單元存儲器260和音調(diào)存儲器262，語音合成器278檢索各語音單元的語音模型和音調(diào)標(biāo)記。然后，語音合成器278對存儲的語音單元的音調(diào)、強度和持續(xù)時間進行轉(zhuǎn)換以使它們與被韻律語音特征引擎270識別的音調(diào)、強度和持續(xù)時間匹配。這樣就產(chǎn)生數(shù)字輸出語音信號。然后，將數(shù)字輸出語音信號送到輸出引擎280，用于存儲或用于轉(zhuǎn)換為模擬輸出信號。
將存儲單元的音調(diào)轉(zhuǎn)換為韻律語音特征引擎270設(shè)置的音調(diào)的步驟示于圖5-1、5-2和5-3。圖5-1示出包括波形283、284和285在內(nèi)的存儲的語音單元282的示意圖。為了降低語音單元282的音調(diào)，語音合成器278根據(jù)存儲的音調(diào)標(biāo)記對各波形進行分段并延長分段波形之間的時間。這種劃分示于圖5-2，分段波形286、287和288與圖5-1所示的波形283、284和285對應(yīng)。
如果不能對語音單元正確確定音調(diào)標(biāo)記，則這種分段技術(shù)就不能產(chǎn)生低音調(diào)。例如，這可以從圖5-3中看出，在圖5-3中，用于分段語音信號的存儲音調(diào)標(biāo)記不能正確地識別音調(diào)周期。尤其是，音調(diào)標(biāo)記指示的音調(diào)周期對于語音信號來說太長。這會導(dǎo)致在一個分段294內(nèi)出現(xiàn)多個峰290和292，并且建立的音調(diào)高于韻律語音特征引擎270調(diào)用的音調(diào)。因此，對于語音合成來說，準(zhǔn)確的音調(diào)跟蹤裝置至關(guān)重要。
為了減少通過信道發(fā)送的語音數(shù)據(jù)總數(shù)，還在語音編碼中使用了音調(diào)跟蹤。實質(zhì)上，通過識別在語音信號的發(fā)音部分語音信號包括多個接近重復(fù)的波形，語音編碼對語音數(shù)據(jù)進行壓縮。語音編碼器不是發(fā)送各波形各部分的準(zhǔn)確數(shù)值而是發(fā)送一個模板波形的數(shù)值。然后，通過參考當(dāng)即進行的波形，描述各后續(xù)波形。圖6示出這種語音編碼器的一個實例的方框圖。
在圖6中，語音編碼器300接收語音信號302，模數(shù)轉(zhuǎn)換器304將語音信號302轉(zhuǎn)換為數(shù)字信號。該數(shù)字信號通過線性預(yù)測編碼濾波器(LPC)306，線性預(yù)測編碼濾波器306將該信號白噪聲化以改進音調(diào)跟蹤。利用LPC系數(shù)來描述白噪聲化該信號的功能，LPC系數(shù)之后還被用于重構(gòu)此完整信號。將白噪聲化信號送到音調(diào)跟蹤裝置308，音調(diào)跟蹤裝置308識別該語音信號的音調(diào)。
還將語音信號送到減法單元310，減法單元310將延遲后的語音單元從該語音單元內(nèi)減去。延遲電路312對語音單元的延遲總量進行控制。延遲電路312對語音信號進行標(biāo)準(zhǔn)延遲，這樣當(dāng)前波形與語音信號內(nèi)的先前波形一致。為了實現(xiàn)此結(jié)果，延遲電路312使用音調(diào)跟蹤裝置308確定的音調(diào)，音調(diào)跟蹤裝置308指出在語音信號內(nèi)的連續(xù)波形之間的時間間隔。
在乘法單元314內(nèi)，延遲波形乘以增益因數(shù)“g(n)”，然后將此延遲波形從當(dāng)前波形中減去?？梢赃@樣選擇增益因數(shù)，以便通過減法單元310獲得的差值最小。通過使用負反饋回路316可以實現(xiàn)此要求，負反饋回路316對增益因數(shù)進行調(diào)節(jié)直到該差值變?yōu)樽钚橹埂?br> 一旦增益因數(shù)變成最小，則利用向量化單元318將減法單元310輸出的差值和LPC系數(shù)向量化為碼字。利用標(biāo)量化單元319將增益g(n)和音調(diào)周期標(biāo)量化為碼字。然后，通過信道發(fā)送這些碼字。
在圖6所示的語音編碼器中，如果減法單元310輸出的差值最小，則可以改善該編碼器的性能。由于這些波形不一致會在波形之間產(chǎn)生較大差值，所以音調(diào)跟蹤裝置308的性能不佳會導(dǎo)致編碼性能不佳。因此，準(zhǔn)確音調(diào)跟蹤裝置對于有效語音編碼過程至關(guān)重要。
在現(xiàn)有技術(shù)中，利用互相關(guān)完成音調(diào)跟蹤過程，互相關(guān)指出當(dāng)前采樣窗口與先前采樣窗口之間的相似性程度?；ハ嚓P(guān)值在-1和+1之間。如果兩個窗口中的波形在實質(zhì)上不同，則該互相關(guān)接近0。然而，如果兩個波形近似，則互相關(guān)接近+1。
在這種系統(tǒng)中，對多個不同的音調(diào)周期計算互相關(guān)。通常，由于窗口中的波形非常近似，所以最接近實際音調(diào)周期的測試音調(diào)周期將產(chǎn)生最高互相關(guān)。對于與實際音調(diào)周期不同的測試音調(diào)周期，由于在兩個采樣窗口內(nèi)的波形互相不一致，所以互相關(guān)會低。
不幸地是，現(xiàn)有技術(shù)的音調(diào)跟蹤裝置不能始終正確識別音調(diào)。例如，在現(xiàn)有技術(shù)的互相關(guān)系統(tǒng)內(nèi)，語音信號的不發(fā)音部分恰好具有半重復(fù)波形，它們會被錯誤地翻譯為提供音調(diào)的發(fā)音部分。由于不發(fā)音區(qū)域不為語音信號提供音調(diào)，所以這是明顯錯誤的。由于將音調(diào)與不發(fā)聲區(qū)域聯(lián)系在一起，所以現(xiàn)有技術(shù)的音調(diào)跟蹤裝置不能對語音信號正確計算音調(diào)，并會將不發(fā)音部分錯誤地識別為發(fā)音部分。
在對現(xiàn)有技術(shù)互相關(guān)方法的改進方案中，本發(fā)明構(gòu)建音調(diào)跟蹤的概率模型。該概率模型對語音信號確定測試音調(diào)跟蹤P為實際音調(diào)跟蹤的概率。此確定過程部分地是通過檢驗窗口向量X的序列實現(xiàn)的，其中P和X被定義為P＝{P0，P1，...，Pi，...，PM－1}等式1X＝{x0，x1，...，xi，...，xM－1}等式2其中Pi代表音調(diào)跟蹤內(nèi)的第i個音調(diào)，xi代表窗口向量序列內(nèi)的第i個窗口向量，M代表音調(diào)跟蹤內(nèi)的音調(diào)總數(shù)以及窗口向量內(nèi)的窗口向量總數(shù)。
各窗口向量xi被定義為存在于輸入語音信號的窗口內(nèi)的采樣集合。利用等式表示為xi＝{x[t－N/2]，...，x[t]，...，x[t＋N/2－1]}等式3其中N為窗口的大小，t為窗口中央的時間標(biāo)記，x[t]為時間t時輸入信號的采樣。
在以下的說明中，等式3定義的窗口向量被稱為當(dāng)前窗口向量xt。據(jù)此，先前窗口向量xt－p被定義為xt－p＝{x[t－p－N/2]，...，x[i－p]，...，x[t－p＋N/2－1]} 等式4其中N為窗口的大小，P為描述當(dāng)前窗口的中央與先前窗口的中央之間的時間周期的音調(diào)周期，t－p為先前窗口的中央。
測試音調(diào)跟蹤P為給出窗口向量X的序列的實際音調(diào)跟蹤的概率被表示為f(p|x)。如果對多個測試音調(diào)跟蹤計算此概率，則可以對這些概率進行互相比較以識別與實際音調(diào)跟蹤大概相同的音調(diào)跟蹤。因此，音調(diào)跟蹤的最大后驗(MAP)估計為PMAP＝argpmaxf(P|x)等式5利用貝葉斯規(guī)則，等式5的概率可以被擴展為其中f(P)為音調(diào)跟蹤P出現(xiàn)在任意語音信號內(nèi)的概率，f(x)為窗口向量序列x的概率，f(P|x)為給出音調(diào)跟蹤P的窗口序列X序列的概率。由于等式6尋找能使由等式右側(cè)的因數(shù)表示的總概率最大的音調(diào)跟蹤，所以只需要研究作為測試音調(diào)跟蹤的函數(shù)的因數(shù)?？梢院雎圆皇且粽{(diào)跟蹤函數(shù)的因數(shù)。由于f(x)不是P的函數(shù)，所以等式6簡化為PMAP＝argpmaxf(P)f(x|P)等式7因此，為了確定最可能的音調(diào)跟蹤，本發(fā)明對各測試音調(diào)跟蹤確定兩個概率。首先，已知測試音調(diào)跟蹤P，本發(fā)明確定窗口向量x的序列出現(xiàn)在語音信號內(nèi)的概率。其次，本發(fā)明確定測試音調(diào)跟蹤P出現(xiàn)在任意語音信號內(nèi)的概率。
本發(fā)明將給出測試音調(diào)跟蹤P的窗口向量x的序列的概率近似為一組獨立概率的乘積，這組獨立概率中的各概率代表特定窗口向量xi將出現(xiàn)在對于該窗口向量給定音調(diào)Pi的語音信號內(nèi)的概率。用等式表示為其中M為窗口向量序列x內(nèi)的窗口向量數(shù)和音調(diào)跟蹤P內(nèi)的音調(diào)數(shù)。
獨立窗口向量xi出現(xiàn)在對該時間窗口給出音調(diào)Pi的語音信號內(nèi)的概率可以通過對語音信號建模來確定。此模型的基礎(chǔ)是本發(fā)明人注意到根據(jù)如下等式當(dāng)前窗口向量可以被描述為過去窗口向量的函數(shù)xt＝ρxt－P＋et等式9其中xt為當(dāng)前窗口向量，ρ為預(yù)測增益，xt－P為先前窗口向量，et為誤差向量。在圖7所示的二維向量空間內(nèi)可以觀察到這種關(guān)系，其中xt被示為三角形502的斜邊500，三角形502的一個股504表示ρxt＝P，其另一個股506表示et。斜邊500與股504之間的夾角508被表示為θ。
從圖7中可以看到，最小預(yù)測誤差|et|2被定義為|et|2＝|xt|2－|xt|2cos2(θ)等式10其中在等式11中，＜xt，xt－P＞為xt與xt－P的標(biāo)量積，它被定義為其中x[t＋n]為在時間t＋n時對輸入信號的采樣，x[t＋n－P]為在時間t＋n－P時對輸入信號的采樣，N為窗口的大小。等式11中的|xt|為xt與xt的標(biāo)量乘積的平方根，|xt－P|為xt－P與xt－P的標(biāo)量乘積的平方根。用等式表示為將等式11、12、13和14合并產(chǎn)生對于音調(diào)P，等式15的右側(cè)等于當(dāng)前窗口向量與先前窗口向量的互相關(guān)αt(P)。因此，互相關(guān)可以代替等式10中的cos(θ)，獲得在根據(jù)本發(fā)明的實施例中，本發(fā)明人對出現(xiàn)最小預(yù)測誤差|et|2的概率建模為具有標(biāo)準(zhǔn)偏差σ的零平均值高斯隨機向量。因此，|et|2的任何一個值的概率由下式給出通過將各常數(shù)表示為一個常數(shù)V，可以對等式18進行簡化，產(chǎn)生用上述等式16代替|et|2可以獲得可以采集不是音調(diào)函數(shù)的因數(shù)，并用一個常數(shù)K代替此因數(shù)，因為這些因數(shù)不影響音調(diào)的最優(yōu)化過程。此簡化過程產(chǎn)生正如等式21所描述的那樣，具有給定音調(diào)周期P的特定預(yù)測誤差的概率與給出先前窗口向量和音調(diào)周期P的當(dāng)前窗口向量的概率相同。因此，等式21可以被重新寫為其中f(xt|Pt)為給出先前窗口向量和音調(diào)周期P的當(dāng)前窗口向量的概率。
如上所述，根據(jù)本發(fā)明，存在兩個概率，可以將它們合并以識別可能的音調(diào)跟蹤。第一個概率為給出音調(diào)跟蹤的窗口向量的概率。通過將等式22與上述等式8合并計算此概率。第二個概率為在語音信號內(nèi)出現(xiàn)音調(diào)跟蹤的概率。
通過假定音調(diào)周期的先前概率僅依賴于先前幀的音調(diào)周期，本發(fā)明近似計算在語音信號內(nèi)出現(xiàn)音調(diào)跟蹤的概率。因此，音調(diào)跟蹤的概率變成在音調(diào)跟蹤內(nèi)給出先前音調(diào)的語音信號內(nèi)存在的各獨立音調(diào)的概率的乘積。可以被表示為等式f(P)＝f(PT－1|PT－2)f(PT－2|PT－3)…f(P1|P0)f(P0) 等式23概率f(PT－1|PT－2)的一個可能選擇是平均值等于先前音調(diào)周期的高斯分布。這會導(dǎo)致對下式表示的獨立音調(diào)周期的對數(shù)似然其中γ為高斯分布的標(biāo)準(zhǔn)偏差，K’為常數(shù)。
將等式7、8和23合并，并進行重新排列得到乘積由于此對數(shù)是單調(diào)的，所以可以使等式25最大并可以使等式25的右側(cè)的對數(shù)最大的P的數(shù)值為將等式26與等式22和等式24合并并忽略常數(shù)K和常數(shù)K’不計，得到其中λ＝σ2/γ2。請注意，在等式27中，分母2σ2已從等式的右側(cè)去除，因為它對于確定可能的音調(diào)跟蹤無關(guān)緊要。
因此，測試音調(diào)跟蹤為實際音調(diào)跟蹤的概率包括三項。第一項為初始能量項α02(P0)|x0|2，它描述存在于從語音信號內(nèi)采樣的第一窗口內(nèi)的能量。
第二項為可預(yù)測能量項αt2(Pi)|xt|2，它代表對存在于現(xiàn)有技術(shù)音調(diào)跟蹤裝置內(nèi)的互相關(guān)項進行調(diào)整?？深A(yù)測能量項包括兩個因數(shù)當(dāng)前窗口的總能量|xi|2以及當(dāng)前窗口與先前窗口之間的互相關(guān)αi2(Pi)。由于包括總能量，所以此項在識別音調(diào)時比現(xiàn)有技術(shù)的互相關(guān)項要準(zhǔn)確得多。其一個原因是可預(yù)測能量項降低了在語音信號的非發(fā)音部分內(nèi)存在的非常大互相關(guān)的權(quán)重。在現(xiàn)有技術(shù)中不存在此降低權(quán)重過程，這里利用此降低權(quán)重過程是因為語音信號內(nèi)的非發(fā)音部分的總能量低，并且低的總能量產(chǎn)生低可預(yù)測能量。
測試音調(diào)跟蹤概率內(nèi)的第三項為音調(diào)過渡項λ(Pi－Pi－1)2，它處罰音調(diào)跟蹤內(nèi)的大過渡。在等式27內(nèi)包括此項是對現(xiàn)有技術(shù)的附加改進。在現(xiàn)有技術(shù)的系統(tǒng)中，一旦在一組時間標(biāo)記的各時間標(biāo)記確定可能音調(diào)，則執(zhí)行拆分步驟來緩和音調(diào)跟蹤。在本發(fā)明中，將此拆分步驟引入對音調(diào)跟蹤的概率計算中。
等式27的加法部分可以被看作獨立一序列概率值的總和，每個概率值表示在特定時間特定音調(diào)過渡的概率。這些獨立的概率值被表示為其中Si(Pi，Pi－1))為從在時間i－1時的音調(diào)Pi－1過渡到在時間i時的音調(diào)Pi的概率值。
將等式28與等式27合并獲得等式29提供以音調(diào)PM－1結(jié)束的可能音調(diào)跟蹤。為了計算以音調(diào)PM －1結(jié)束的可能音調(diào)跟蹤，可以將等式29展開，這樣得到將等式30與等式29進行比較，可以發(fā)現(xiàn)，為了計算以新音調(diào)PM結(jié)束的可能的音調(diào)聲徑，與過渡到新音調(diào)SM(PM，PM－1)有關(guān)的音調(diào)得分累加到在對以先前音調(diào)PM－1結(jié)束的音調(diào)聲徑計算的概率。
在本發(fā)明的實施例中，在一組時間標(biāo)記t＝iT時這樣確定音調(diào)跟蹤得分，即在時間t＝(M－1)T時確定以音調(diào)PM－1結(jié)束的音調(diào)跟蹤得分。通過存儲在時間t＝(M－1)T時確定的音調(diào)跟蹤得分并通過利用等式30，為了計算以音調(diào)PM結(jié)束的音調(diào)跟蹤值，本發(fā)明的此實施例僅需要確定在時間t＝MT時的聲徑得分SM(PM，PM－1)。
根據(jù)等式30，圖8示出根據(jù)本發(fā)明的音調(diào)跟蹤裝置350。在圖9所示的流程圖中示出音調(diào)跟蹤裝置350的運行過程。
音調(diào)跟蹤裝置350在輸入端352接收語音信號的數(shù)字采樣。在許多實施例中，語音信號先被帶通濾波處理，然后被轉(zhuǎn)換為數(shù)字采樣，這樣與發(fā)音部分無關(guān)的高頻和低頻均被去除。在音調(diào)跟蹤裝置350內(nèi)，數(shù)字采樣被存儲到存儲區(qū)354以允許音調(diào)跟蹤裝置350多次存取采樣。
在圖9所示的步驟520，圖8所示的音調(diào)指定器360指定當(dāng)前時間周期t＝MT的測試音調(diào)PM。在許多實施例中，音調(diào)指定器360從音調(diào)表362中檢索測試音調(diào)PM，音調(diào)表362包括人類語音中存在的典型音調(diào)列表。在許多實施例中，音調(diào)列表包括互相之間用對數(shù)方法劃分的音調(diào)。在一個實施例中，建立了一種四分之一半音解決方案以獲得滿意的效果。如下所述，由于最后將在此時間周期內(nèi)檢索列表音調(diào)內(nèi)的各音調(diào)，所以可以對特定音調(diào)進行隨機檢索。
將音調(diào)指定器360指定的測試音調(diào)PM送到窗口采樣器358。根據(jù)指定的測試音調(diào)以及存儲在采樣存儲器354內(nèi)的采樣，在圖9所示的步驟522，窗口采樣器358建立當(dāng)前窗口向量xt和先前窗口向量xt－P。如上等式3和等式4所示，當(dāng)前窗口向量和先前窗口向量包括采樣集合。
在圖10中示出存在于存取窗口向量xt和先前窗口向量xt－P內(nèi)的采樣的實例。圖10示出輸入語音信號404作為時間的函數(shù)示意圖。在圖10中，利用音調(diào)指定器360指定的音調(diào)周期406將當(dāng)前窗口402與先前窗口400分開。在先前窗口400內(nèi)的采樣408、410以及412示出先前窗口向量xt－P的采樣x[t－P－4]、x[t－P－3]以及x[t－P－2]。在先前窗口402內(nèi)的采樣414、416以及418示出當(dāng)前窗口向量xt的采樣x[t＋n－4]、x[t＋n－3]以及x[t＋n－2]。
窗口采樣器358將當(dāng)前窗口向量xt送到能量計算器366，能量計算器366在圖9所示的步驟524計算向量的能量|xi|2。在一個實施例中，利用上述等式13計算能量。
窗口采樣器358還將當(dāng)前窗口向量xt與先前窗口向量xt－P一起送到互相關(guān)計算器364。利用上述等式15，在圖9所示的步驟526，互相關(guān)計算器364計算前向互相關(guān)αi(P)。在本發(fā)明的一些實施例中，等式15內(nèi)的窗口N的大小被設(shè)置為等于正被測試的音調(diào)P。在這些實施例中，為了避免使用太小的窗口，本發(fā)明人要求最小窗口長度為5毫秒，而與正被測試的音調(diào)P無關(guān)。
在本發(fā)明的一些實施例中，窗口采樣器358還將下一個窗口向量xt＋P送到互相關(guān)計算器364。在時間上，下一個窗口向量xt＋P在當(dāng)前窗口向量xt前向互相關(guān)的總數(shù)等于音調(diào)指定器360產(chǎn)生的音調(diào)。在圖9所示的步驟528，互相關(guān)計算器364使用下一個窗口向量xt＋P來計算后向互相關(guān)αi(-P)。利用上述等式15并用(+P)代替(-P)就可以計算后向互相關(guān)αi(-P)。
在步驟528計算后向互相關(guān)之后，本發(fā)明的一些實施例在步驟530將前向互相關(guān)αi(P)與后向互相關(guān)αi(-P)進行比較。完成此比較過程是為了確定語音信號是否發(fā)生突變。如果對于相同音調(diào)周期后向互相關(guān)高于前向互相關(guān)，則輸入語音信號可能在先前窗口與當(dāng)前窗口之間已經(jīng)發(fā)生變化。在語音信號中，這種變化通常發(fā)生在音素之間的交界處。如果該信號在先前窗口與當(dāng)前窗口之間已經(jīng)發(fā)生變化，則后向互相關(guān)比前向互相關(guān)能夠更準(zhǔn)確的確定當(dāng)前窗口的可預(yù)測能量。
如果后向互相關(guān)高于前向互相關(guān)，則在步驟532，后向互相關(guān)與0進行比較。如果在步驟532得知后向互相關(guān)小于0，則在下一個窗口與當(dāng)前窗口之間存在負互相關(guān)。由于互相關(guān)先被平方然后在等式27中用于計算音調(diào)值，所以在等式27中會把負互相關(guān)誤認(rèn)為是正互相關(guān)。為了避免發(fā)生這種情況，如果在步驟532得知后向互相關(guān)小于0，則在步驟534將兩次調(diào)整后的互相關(guān)α″i(P)設(shè)置為0。如果在步驟532得知后向互相關(guān)大于0，則在步驟536將一次調(diào)整后的互相關(guān)α′i(P)設(shè)置為等于后向互相關(guān)αi(-P)。
如果在步驟530得知前向互相關(guān)大于后向互相關(guān)，則在步驟538將后向互相關(guān)與0進行比較。如果在步驟538得知后向互相關(guān)小于0，則在步驟534將兩次調(diào)整后的互相關(guān)α″i(P)設(shè)置為0。如果在步驟538得知后向互相關(guān)大于0，則在步驟542將一次調(diào)整后的互相關(guān)α′i(P)設(shè)置為等于前向互相關(guān)αi(P)。
在本發(fā)明的進一步實施例中，在步驟544，通過將諧波衰減值從一次調(diào)整后的互相關(guān)值α′i(P)中減去，可以對一次調(diào)整后的互相關(guān)進一步進行調(diào)整以產(chǎn)生兩次調(diào)整后的互相關(guān)α″i(P)。諧波衰減值具有兩部分，第一部分是被半音調(diào)周期(P/2)分開的窗口向量的互相關(guān)，第二部分是諧波衰減因數(shù)，諧波衰減值乘以P/2互相關(guān)值。此調(diào)整過程可以被表示為等式α″i(P)＝α′i(P)-βα′i(P/2)等式31其中β為衰減因數(shù)，并且0＜β＜1。在一些實施例中，β為(.2)。
在步驟534和步驟544后，圖9所示的過程繼續(xù)進行步驟546，在步驟546，對于從在向前時間標(biāo)記時的音調(diào)到在當(dāng)前時間標(biāo)記t＝MT時當(dāng)前選擇音調(diào)延伸的各聲徑，計算當(dāng)前聲徑值SM(PM，PM－1)。可以利用上述等式28計算當(dāng)前聲徑值。通過將互相關(guān)計算器364的輸出平方并將該平方值乘以能量計算器366的輸出就可以計算可預(yù)測能量αi2(Pi)|xi|2。這些功能可以分別被表示為圖8中的平方塊368和乘法塊370。對于一些實施例，請注意，利用替代αi(P)的互相關(guān)計算器364，可以產(chǎn)生兩次調(diào)整后的互相關(guān)α″i(P)。在這種實施例中，兩次調(diào)整后的互相關(guān)被用于計算可預(yù)測能量。
利用圖8所示的音調(diào)過渡計算器372產(chǎn)生等式28中的音調(diào)過渡項λ(PM－PM－1)2。對于時間t＝(M－1)T時的各音調(diào)，音調(diào)過渡計算器372產(chǎn)生單獨音調(diào)過渡項λ(PM－PM－1)2。音調(diào)過渡計算器372從音調(diào)選擇器360接收當(dāng)前音調(diào)PM并利用音調(diào)表362識別先前音調(diào)PM－1。
利用減法單元374分別從乘法器370的輸出中減去音調(diào)過渡計算器372產(chǎn)生的各單獨音調(diào)過渡項。這樣就產(chǎn)生從在時間t＝(M－1)T時的先前音調(diào)PM－1音調(diào)值到在時間t＝MT時的當(dāng)前測試音調(diào)PM的各聲徑的音調(diào)值。然后，將這些音調(diào)值送到動態(tài)規(guī)劃單元376。
在圖9所示的步驟548，音調(diào)選擇器360確定是否在時間t＝MT時已經(jīng)對各音調(diào)PM產(chǎn)生聲徑值。如果在時間t＝MT時的音調(diào)還未用于產(chǎn)生聲徑值，則在步驟550利用音調(diào)選擇器360選擇該音調(diào)。然后，處理過程返回步驟522以產(chǎn)生聲徑值用于從先前音調(diào)PM－1過渡到新選擇的音調(diào)PM。持續(xù)進行此過程直到對從先前音調(diào)PM－1到各可能當(dāng)前音調(diào)PM的各聲徑計算聲徑值為止。
如果在步驟548計算了所有當(dāng)前聲徑值，則在步驟552繼續(xù)進行此過程，在步驟552，動態(tài)規(guī)劃單元376利用等式30將當(dāng)前聲徑值SM(PM，PM－1)與過去音調(diào)跟蹤值相加。如上所述，過去音調(diào)跟蹤值代表在先前時間標(biāo)記t＝(M－1)T結(jié)束的各跟蹤的聲徑值之和。將當(dāng)前聲徑值與過去音調(diào)跟蹤值相加會產(chǎn)生在當(dāng)前時間標(biāo)記t＝MT結(jié)束的各音調(diào)跟蹤的音調(diào)跟蹤值。
作為此處理過程的一部分，動態(tài)規(guī)劃單元376的一些實施例將具有極低聲徑值的音調(diào)跟蹤刪除。這樣就降低了計算其它聲徑值的復(fù)雜性而不會明顯降低其性能。此刪除過程會使在時間t＝(M－S)T時之前全部時間內(nèi)的可能音調(diào)跟蹤匯合為一個最可能的音調(diào)跟蹤，其中S的值部分地是由刪除的嚴(yán)重程度和此語音信號內(nèi)音調(diào)的穩(wěn)定性確定的。然后，在步驟554，將此最可能音調(diào)跟蹤輸出。
在步驟556，存儲在時間t＝MT時確定的保留音調(diào)跟蹤，并在步驟558將時間標(biāo)記遞增到t＝(M＋1)T。然后，圖9所示的處理過程返回步驟520，在步驟520，音調(diào)選擇器360選擇新時間標(biāo)記的第一音調(diào)。
除了識別音調(diào)跟蹤之外，本發(fā)明還提供了一種用于識別語音信號內(nèi)的發(fā)音部分和非發(fā)音部分的裝置。為此，本發(fā)明定義了一種雙態(tài)隱藏馬爾可夫模型(HMM)，如圖11中的模型600所示。模型600包括發(fā)音狀態(tài)602和非發(fā)音狀態(tài)604，它們具有在這兩個狀態(tài)之間擴展的過渡聲徑606和608。模型600還包括自過渡聲徑610和612，它們自己分別與狀態(tài)602和狀態(tài)604相連。
在任意時間周期屬于發(fā)音狀態(tài)或非發(fā)音狀態(tài)的概率均是兩個概率的組合。第一概率是過渡概率，它代表語音信號將從發(fā)音區(qū)域過渡到非發(fā)音區(qū)域以及從非發(fā)音區(qū)域過渡到發(fā)音區(qū)域或者語音信號仍保持在發(fā)音區(qū)域或非發(fā)音區(qū)域的似然性。因此，第一概率指出語音信號經(jīng)過過渡聲徑606、608、610或612之一的似然性。在許多實施例中，根據(jù)實驗確定過渡概率以保證發(fā)音區(qū)域和非發(fā)音區(qū)域均不太短，從而實現(xiàn)連續(xù)性。
在確定語音信號是處于發(fā)音區(qū)域還是處于非發(fā)音區(qū)域的過程中使用的第二概率是以當(dāng)前時間周期的語音信號的特征為根據(jù)的。尤其是，第二概率是基于當(dāng)前采樣窗口的總能量|xi|2與在對窗口識別的最大前驗音調(diào)PMAP確定的當(dāng)前采樣窗口的兩次調(diào)整后的互相關(guān)α″i(PMAP)的組合的。根據(jù)本發(fā)明，已經(jīng)發(fā)現(xiàn)這些特征是發(fā)音區(qū)域和非發(fā)音區(qū)域的強標(biāo)志。這還可以從圖12所示的示意圖中看到，圖12示出，根據(jù)總能量值(橫軸630)和互相關(guān)值(縱軸632)，將發(fā)音窗口采樣634與非發(fā)音窗口采樣636相對組合在一起。在圖12中可以看到，發(fā)音窗口采樣634趨向于具有高總能量和高互相關(guān)，而非發(fā)音窗口采樣636趨向于具有低總能量和低互相關(guān)。
圖13所示的流程圖示出一種根據(jù)本發(fā)明用于識別語音信號的發(fā)音區(qū)域與非發(fā)音區(qū)域的方法。該方法從步驟650開始，在步驟650，利用集中在當(dāng)前時間t的當(dāng)前窗口向量xt與集中在先前時間t－PMAP的先前窗口向量xt－P，計算互相關(guān)。在計算互相關(guān)的過程中，PMAP是通過上述音調(diào)跟蹤處理過程對當(dāng)前時間t識別的最大前驗音調(diào)。此外，在一些實施例中，窗口向量xt與xt－P的長度等于最大前驗音調(diào)PMAP。
在步驟650對互相關(guān)進行計算之后，在步驟652確定窗口向量xt的總能量。然后，在步驟654，將互相關(guān)和總能量用于計算窗口向量包括發(fā)音區(qū)域的概率。在一個實施例中，根據(jù)在發(fā)音采樣與總能量和互相關(guān)之間的關(guān)系的高斯模型進行此計算過程。利用EM(估計最大)算法計算高斯分布的平均偏差和標(biāo)準(zhǔn)偏差，EM算法根據(jù)樣本發(fā)音估計發(fā)言組與非發(fā)言組的平均偏差和標(biāo)準(zhǔn)偏差。該算法從初始推測發(fā)言組和非發(fā)言組的平均偏差和標(biāo)準(zhǔn)偏差開始。然后，根據(jù)哪個組具有最高概率對樣本發(fā)音的采樣進行分類。如果對各組分配采樣，則重新估計各組的平均偏差和標(biāo)準(zhǔn)偏差。將此過程重復(fù)進行幾次，直到實現(xiàn)收斂以致在重復(fù)該過程之間各組的平均偏差和標(biāo)準(zhǔn)偏差不發(fā)生大的變化為止。此初始數(shù)值對于此算法有些重要。根據(jù)本發(fā)明的一個實施例，將發(fā)音狀態(tài)的初始平均偏差設(shè)置為等于最高對數(shù)能量采樣，而將非發(fā)音狀態(tài)的平均偏差設(shè)置為等于最低對數(shù)能量的采樣。發(fā)音組和非發(fā)音組的初始標(biāo)準(zhǔn)偏差均設(shè)置為互相相等并且均等于所有采樣的整體標(biāo)準(zhǔn)偏差。
在步驟656，該方法計算當(dāng)前窗口向量xt包括語音信號的非發(fā)音部分的概率。在一個實施例中，根據(jù)非發(fā)音采樣與總能量和互相關(guān)之間的關(guān)系的高斯模型來進行此計算過程。
在步驟658，將適當(dāng)過渡概率與分別在步驟654和656計算的概率相加。適當(dāng)過渡概率是從模型的先前狀態(tài)過渡到相應(yīng)狀態(tài)的概率。因此，如果在先前時間標(biāo)記語音信號處于圖11所示的非發(fā)音狀態(tài)604，則與發(fā)音狀態(tài)602有關(guān)的過渡概率就是與過渡聲徑606有關(guān)的概率。對于相同的先前狀態(tài)，與非發(fā)音狀態(tài)604有關(guān)的過渡概率就是與過渡聲徑612有關(guān)的概率。
在步驟660，將與各狀態(tài)有關(guān)的概率之和與在發(fā)音狀態(tài)和非發(fā)音狀態(tài)輸入當(dāng)前時間幀的多個可能發(fā)音跟蹤的各跟蹤值相加。利用動態(tài)規(guī)劃，根據(jù)當(dāng)前發(fā)音跟蹤值確定對過去時間周期的發(fā)音判定。這種動態(tài)規(guī)劃系統(tǒng)為本技術(shù)領(lǐng)域所公知。
在步驟661，語音跟蹤系統(tǒng)確定這是否是語音信號內(nèi)的最后一個幀。如果這不是最后一個幀，則在步驟662選擇語音信號內(nèi)的下一個時間標(biāo)記，并且處理過程返回步驟650。如果這是最后一個幀，則在步驟663通過檢驗在最后一幀結(jié)束的所有可能發(fā)音跟蹤的跟蹤值。
盡管參考特定實施例對本發(fā)明進行了說明，但是本技術(shù)領(lǐng)域的技術(shù)人員會認(rèn)識到，可以在本發(fā)明實質(zhì)范圍內(nèi)在形式和細節(jié)方面進行變更。此外，盡管采用方框圖對本發(fā)明進行了說明，但是本技術(shù)領(lǐng)域的其它技術(shù)人員會認(rèn)識到，可以將本發(fā)明的部件作為計算機指令實現(xiàn)。
權(quán)利要求
1.一種在語音信號內(nèi)跟蹤音調(diào)的方法，方法包括通過集中在第一時間標(biāo)記的第一時間窗口采樣語音信號以產(chǎn)生第一窗口向量；通過集中在第二時間標(biāo)記的第二時間窗口采樣語音信號以產(chǎn)生第二窗口向量，利用測試音調(diào)周期將第二時間標(biāo)記與第一時間標(biāo)記分開；計算由第一窗口向量表示的語音信號部分的能量的能量值；根據(jù)第一窗口向量和第二窗口向量，計算互相關(guān)值；將能量值與互相關(guān)值合并以產(chǎn)生可預(yù)測能量因數(shù)；部分地根據(jù)可預(yù)測能量因數(shù)，確定測試音調(diào)周期的音調(diào)得分；以及部分地根據(jù)音調(diào)得分，至少識別一部分音調(diào)跟蹤。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于經(jīng)過第一時間窗口采樣語音信號包括與測試音調(diào)周期相同長度的第一時間窗口采樣語音信號。
3.根據(jù)權(quán)利要求2所述的方法，其特征在于經(jīng)過第二時間窗口采樣語音信號包括與測試音調(diào)周期相同長度的第二時間窗口采樣語音信號。
4.根據(jù)權(quán)利要求1所述的方法，其特征在于計算互相關(guān)值包括將第一窗口向量與第二窗口向量的標(biāo)量乘積除以第一窗口向量和第二窗口向量的大小以產(chǎn)生初始互相關(guān)值。
5.根據(jù)權(quán)利要求4所述的方法，其特征在于計算互相關(guān)值還包括將互相關(guān)值設(shè)置為等于初始互相關(guān)值。
6.根據(jù)權(quán)利要求4所述的方法，其特征在于計算互相關(guān)值還包括如果初始互相關(guān)值小于0則將互相關(guān)值設(shè)置為0。
7.根據(jù)權(quán)利要求4所述的方法，其特征在于進一步包括經(jīng)過集中在第三時間標(biāo)記的第三時間窗口采樣語音信號以產(chǎn)生第三窗口向量，利用測試音調(diào)周期將第三時間標(biāo)記與第一時間標(biāo)記分開。
8.根據(jù)權(quán)利要求7所述的方法，其特征在于計算互相關(guān)值還包括根據(jù)第一窗口向量和第三窗口向量計算第二互相關(guān)值；將初始互相關(guān)值與第二互相關(guān)值進行比較；以及如果第二互相關(guān)值表示比初始互相關(guān)值更相關(guān)，則將互相關(guān)值設(shè)置為等于第二互相關(guān)值，否則，將互相關(guān)值設(shè)置為等于初始互相關(guān)值。
9.根據(jù)權(quán)利要求4所述的方法，其特征在于計算互相關(guān)值還包括經(jīng)過集中在第一時間標(biāo)記的一次諧波時間窗口采樣語音信號以產(chǎn)生第一次諧波窗口向量；經(jīng)過集中在二次諧波時間標(biāo)記的二次諧波時間窗口采樣語音信號以產(chǎn)生第二次諧波窗口向量，利用半測試音調(diào)周期將第二次諧波時間標(biāo)記與一次諧波時間標(biāo)記分開；根據(jù)第一次諧波窗口向量和第二次諧波窗口向量計算諧波互相關(guān)值；將諧波互相關(guān)值乘以衰減因數(shù)以產(chǎn)生諧波衰減值；以及將諧波衰減值從初始互相關(guān)值內(nèi)減去并將此互相關(guān)值設(shè)置為等于此差值。
10.根據(jù)權(quán)利要求1所述的方法，其特征在于確定音調(diào)值包括對集中在第一時間標(biāo)記的語音信號確定測試音調(diào)周期為實際音調(diào)周期的概率。
11.根據(jù)權(quán)利要求10所述的方法，其特征在于確定測試音調(diào)周期為實際音調(diào)周期的概率包括將可預(yù)測能量因數(shù)與過渡概率相加，過渡概率指出從先前音調(diào)周期過渡到測試音調(diào)周期的概率。
12.根據(jù)權(quán)利要求10所述的方法，其特征在于還包括用一個音調(diào)得分確定多個音調(diào)得分，用于從多個先前音調(diào)周期到測試音調(diào)周期的每一個可能過渡。
13.根據(jù)權(quán)利要求12所述的方法，其特征在于還包括將多個音調(diào)得分與過去音調(diào)得分合并以產(chǎn)生音調(diào)跟蹤得分，各音調(diào)跟蹤得分表示測試音調(diào)跟蹤等于語音信號的實際音調(diào)跟蹤的概率。
14.根據(jù)權(quán)利要求13所述的方法，其特征在于識別音調(diào)跟蹤包括識別與最高音調(diào)跟蹤得分有關(guān)的音調(diào)跟蹤。
15.根據(jù)權(quán)利要求1所述的方法，其特征在于還包括確定第一時間標(biāo)記是否處于語音信號的發(fā)音區(qū)域內(nèi)。
16.根據(jù)權(quán)利要求15所述的方法，其特征在于確定第一時間標(biāo)記是否處于語音信號的發(fā)音區(qū)域包括根據(jù)能量值和互相關(guān)值確定第一時間標(biāo)記處于發(fā)音區(qū)域內(nèi)的概率。
17.一種執(zhí)行語音功能的計算機語音系統(tǒng)，音調(diào)跟蹤裝置包括窗口采樣單元，用于從語音信號的各當(dāng)前窗口和先前窗口構(gòu)建當(dāng)前窗口向量和先前窗口向量，利用測試音調(diào)周期將當(dāng)前窗口中央與先前窗口中央分開；能量計算器，用于計算當(dāng)前窗口的總能量；互相關(guān)計算器，用于根據(jù)當(dāng)前窗口向量和先前窗口向量計算互相關(guān)值；乘法器，用于將總能量乘以互相關(guān)值以產(chǎn)生可預(yù)測能量因數(shù)；音調(diào)得分產(chǎn)生器，根據(jù)可預(yù)測能量產(chǎn)生音調(diào)得分；以及音調(diào)跟蹤識別器，用于至少部分地根據(jù)音調(diào)得分至少識別語音信號的部分音調(diào)跟蹤。
18.根據(jù)權(quán)利要求17所述的音調(diào)跟蹤裝置，其特征在于計算機語音系統(tǒng)為語音合成系統(tǒng)。
19.根據(jù)權(quán)利要求17所述的音調(diào)跟蹤裝置，其特征在于計算機語音系統(tǒng)為語音編碼器。
20.一種在語音信號內(nèi)跟蹤音調(diào)的方法，方法包括在語音信號內(nèi)采樣第一波形；在語音信號內(nèi)采樣第二波形，利用測試音調(diào)周期將第一波形的中央與第二波形的中央分開；創(chuàng)建表示第一波形與第二波形之間的相似程度的相關(guān)值；創(chuàng)建表示測試音調(diào)周期與先前音調(diào)周期的相似性的音調(diào)輪廓因數(shù)。將相關(guān)值與音調(diào)輪廓因數(shù)合并以產(chǎn)生音調(diào)得分以從先前音調(diào)周期過渡到測試音調(diào)周期；以及根據(jù)至少一個音調(diào)得分識別部分音調(diào)跟蹤。
21.根據(jù)權(quán)利要求20所述的方法，其特征在于創(chuàng)建相關(guān)值的過程包括確定第一波形與第二波形之間的互相關(guān)；確定第一波形的能量；以及將互相關(guān)值乘以能量值以產(chǎn)生相關(guān)值。
22.根據(jù)權(quán)利要求21所述的方法，其特征在于確定互相關(guān)包括根據(jù)對第一波形的采樣創(chuàng)建第一窗口向量和根據(jù)對第二波形的采樣創(chuàng)建第二窗口向量。
23.根據(jù)權(quán)利要求22所述的方法，其特征在于確定互相關(guān)還包括將第一窗口向量與第二窗口向量的標(biāo)量乘積除以第一窗口向量與第二窗口向量的大小以產(chǎn)生互相關(guān)值。
24.根據(jù)權(quán)利要求23所述的方法，其特征在于確定互相關(guān)還包括將互相關(guān)值設(shè)置為等于初始互相關(guān)值。
25.根據(jù)權(quán)利要求23所述的方法，其特征在于確定互相關(guān)還包括如果初始互相關(guān)值小于0則將互相關(guān)值設(shè)置為0。
26.根據(jù)權(quán)利要求23所述的方法，其特征在于還包括在語音信號內(nèi)采樣第三波形，利用測試音調(diào)周期將第三波形的中央與第一波形的中央分開；以及根據(jù)對第三波形的采樣創(chuàng)建第三窗口向量。
27.根據(jù)權(quán)利要求26所述的方法，其特征在于確定互相關(guān)還包括根據(jù)第一窗口向量和第三窗口向量計算第二互相關(guān)值；將初始互相關(guān)值與第二互相關(guān)值進行比較；以及如果第二互相關(guān)值大于初始互相關(guān)值，則將互相關(guān)值設(shè)置為等于第二互相關(guān)值，否則，將互相關(guān)值設(shè)置為等于初始互相關(guān)值。
28.根據(jù)權(quán)利要求23所述的方法，其特征在于確定互相關(guān)還包括采樣第一次諧波波形并根據(jù)對第一次諧波波形的采樣創(chuàng)建第一次諧波窗口向量；采樣第二次諧波波形并根據(jù)對第二次諧波波形的采樣創(chuàng)建第二次諧波窗口向量，利用半測試音調(diào)周期將第二次諧波波形的中央與第一次諧波波形的中央分開；根據(jù)第一次諧波窗口向量和第二次諧波窗口向量計算諧波互相關(guān)值；將諧波互相關(guān)值乘以衰減因數(shù)以產(chǎn)生諧波衰減值；以及將諧波衰減值從初始互相關(guān)值中減去并將互相關(guān)設(shè)置為等于此差值。
29.根據(jù)權(quán)利要求20所述的方法，其特征在于第一波形的長度等于測試音調(diào)周期。
30.根據(jù)權(quán)利要求20所述的方法，其特征在于創(chuàng)建音調(diào)輪廓因數(shù)包括將測試音調(diào)周期從先前音調(diào)周期中減去。
31.根據(jù)權(quán)利要求30所述的方法，其特征在于將相關(guān)值與音調(diào)輪廓因數(shù)合并包括將音調(diào)輪廓因數(shù)從相關(guān)值中減去。
32.根據(jù)權(quán)利要求20所述的方法，其特征在于識別部分音調(diào)跟蹤包括對至少兩個測試音調(diào)跟蹤確定多個音調(diào)值，其中，對于各測試音調(diào)跟蹤內(nèi)的各音調(diào)過渡對應(yīng)一個音調(diào)得分。
33.根據(jù)權(quán)利要求32所述的方法，其特征在于識別部分音調(diào)跟蹤還包括將各測試音調(diào)跟蹤的音調(diào)得分相加，以及，選擇具有最高和數(shù)的測試音調(diào)跟蹤作為語音信號的音調(diào)跟蹤。
34.一種用于跟蹤語音信號內(nèi)的音調(diào)的音調(diào)跟蹤系統(tǒng)，該系統(tǒng)包括窗口采樣器，用于產(chǎn)生語音信號內(nèi)第一波形和第二波形的采樣；相關(guān)計算器，用于產(chǎn)生表示第一波形與第二波形之間的相似性程度的相關(guān)值；音調(diào)輪廓計算器，用于計算表示測試音調(diào)周期與先前音調(diào)周期之間的相似性的音調(diào)輪廓因數(shù)；音調(diào)得分計算器，用于根據(jù)相關(guān)值和音調(diào)輪廓因數(shù)計算相關(guān)得分；以及音調(diào)跟蹤識別器，用于根據(jù)音調(diào)得分識別音調(diào)跟蹤。
35.一種確定語音信號的區(qū)域是否是發(fā)音區(qū)域的方法，方法包括采樣語音信號的第一波形和第二波形；確定第一波形與第二波形之間的相關(guān)；確定第一波形的能量；以及如果第一波形的能量以及第一波形與第二波形之間的相關(guān)均高，則確定該區(qū)域為發(fā)音區(qū)域。
36.根據(jù)權(quán)利要求35所述的方法，其特征在于還包括如果第一波形的能量以及第一波形與第二波形之間的相關(guān)均低，則確定語音信號的區(qū)域為非發(fā)音區(qū)域。
37.在計算機系統(tǒng)中使用的音調(diào)跟蹤裝置可以確定語音信號的區(qū)域是否是發(fā)音區(qū)域，該音調(diào)跟蹤裝置包括采樣器，用于采樣第一波形和第二波形；相關(guān)計算器，用于計算第一波形與第二波形之間的相關(guān)；能量計算器，用于計算第一波形的能量；以及區(qū)域識別器，如果第一波形與第二波形之間的相關(guān)高并且第一波形的能量也高則識別該語音信號的區(qū)域為發(fā)音區(qū)域。
全文摘要
本發(fā)明披露了一種在語音信號(200)內(nèi)跟蹤音調(diào)的方法,在該方法中,根據(jù)經(jīng)過語音信號的第一窗口和第二窗口(402、400)的采樣(414、416,418、408,410、412)創(chuàng)建第一窗口向量和第二窗口向量(x
文檔編號G10L11/00GK1338095SQ99813697
公開日2002年2月27日申請日期1999年11月22日優(yōu)先權(quán)日1998年11月24日
發(fā)明者亞歷杭德羅·阿塞羅, 詹姆斯·C·Iii·德保羅申請人:微軟公司

完整全部詳細技術(shù)資料下載