在語(yǔ)音識(shí)別中采用預(yù)取指令的方法

文檔序號(hào)：2824135閱讀：294來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：在語(yǔ)音識(shí)別中采用預(yù)取指令的方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語(yǔ)音識(shí)別。特別地，本發(fā)明涉及一種新的裝置和方法，其在系統(tǒng)在語(yǔ)音識(shí)別處理的聲音識(shí)別階段過(guò)程的處理中對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行聲音處理時(shí)，采用預(yù)取指令來(lái)把要被聲音處理的語(yǔ)音數(shù)據(jù)從主存儲(chǔ)器傳送到高速緩存。
背景技術(shù)：
在過(guò)去幾年，由一個(gè)機(jī)器所進(jìn)行的人的語(yǔ)音識(shí)別的技術(shù)和科學(xué)已經(jīng)獲得大的發(fā)展。今天，存在有許多用于自動(dòng)語(yǔ)音識(shí)別(ASR)的大詞匯連續(xù)語(yǔ)音識(shí)別(LVCSR)的應(yīng)用程序。為了實(shí)現(xiàn)語(yǔ)音識(shí)別，一種計(jì)算機(jī)系統(tǒng)可以被采用作為處理大量計(jì)算和搜索的語(yǔ)音引擎，以分析和識(shí)別攜帶人的語(yǔ)音特征的聲音信號(hào)。相應(yīng)地一個(gè)計(jì)算機(jī)系統(tǒng)在執(zhí)行這些操作中的效率對(duì)語(yǔ)音引擎的性能具有影響。
通常，一個(gè)語(yǔ)音識(shí)別系統(tǒng)對(duì)一個(gè)人的語(yǔ)音信號(hào)執(zhí)行幾個(gè)操作，以確定所說(shuō)的內(nèi)容。例如，當(dāng)一個(gè)人說(shuō)出如下句子“my name is John”時(shí)，例如一個(gè)麥克風(fēng)這樣的語(yǔ)音捕獲設(shè)備捕獲該發(fā)音作為一個(gè)模擬聲音信號(hào)。該模擬信號(hào)然后被轉(zhuǎn)換為一個(gè)數(shù)字信號(hào)，以便于由數(shù)字計(jì)算機(jī)所處理。攜帶語(yǔ)音特征的所獲得信號(hào)可以被使用一個(gè)數(shù)學(xué)模型來(lái)量化并且表現(xiàn)為多個(gè)特征矢量。例如，Mel頻率對(duì)數(shù)倒頻譜(Cepstral)系數(shù)(MFCC)可以被用于表示語(yǔ)音特征。
所計(jì)算的特征然后被一個(gè)計(jì)算機(jī)系統(tǒng)進(jìn)行聲音處理。在聲音處理過(guò)程中，該特征與包含在一個(gè)聲音模型中的已知音標(biāo)單元相比較。一個(gè)聲音模型的例子是隱藏馬爾可夫模型(HMM)。該語(yǔ)音特征與包含在該模型中的已知音標(biāo)單元的比較可能導(dǎo)致一個(gè)或多個(gè)匹配。所匹配的音標(biāo)單元然后例如使用一個(gè)字典或語(yǔ)法詞典來(lái)進(jìn)行語(yǔ)言處理，以形成一個(gè)所識(shí)別的字串。
為了執(zhí)行聲音處理，該語(yǔ)音引擎使用大量概率分布，例如作為該語(yǔ)音信號(hào)的特征矢量的空間的N維空間的M高斯分布函數(shù)的混合。每個(gè)特征矢量的平均值和方差被計(jì)算并且存儲(chǔ)器該計(jì)算機(jī)系統(tǒng)的存儲(chǔ)器中。后來(lái)，每個(gè)參數(shù)被從存儲(chǔ)器中取出，以用于該語(yǔ)音引擎來(lái)完成高斯函數(shù)的計(jì)算。
圖1為在人的語(yǔ)音識(shí)別中所涉及的現(xiàn)有計(jì)算機(jī)系統(tǒng)的存儲(chǔ)和執(zhí)行周期的示意圖。該圖示出在語(yǔ)音信號(hào)的聲音處理過(guò)程中該執(zhí)行單元和存儲(chǔ)器總線的時(shí)基比較。當(dāng)存儲(chǔ)器總線把要被處理的語(yǔ)音數(shù)據(jù)從存儲(chǔ)器傳送時(shí)，該執(zhí)行單元保持空閑，直到要被處理的數(shù)據(jù)變?yōu)榭梢杂稍撎幚砥魉@得為止。由于在聲音分析中所需的全部計(jì)算量，該存儲(chǔ)器等待時(shí)間快速增加，即當(dāng)該存儲(chǔ)器傳送要被處理的數(shù)據(jù)時(shí)所浪費(fèi)的時(shí)間增加。當(dāng)LVCSR連續(xù)接收語(yǔ)音信號(hào)時(shí)，該問(wèn)題特別嚴(yán)重。許多操作需要在每秒鐘內(nèi)完成，并且該缺點(diǎn)嚴(yán)重地限制該系統(tǒng)的速度和效率。

圖1為用于根據(jù)現(xiàn)有技術(shù)的聲音處理中的計(jì)算機(jī)系統(tǒng)的存儲(chǔ)和執(zhí)行周期的示意圖。
圖2為根據(jù)本發(fā)明一個(gè)實(shí)施例的方法的示意語(yǔ)音識(shí)別系統(tǒng)的方框圖。
圖3為根據(jù)本發(fā)明一個(gè)實(shí)施例的示意語(yǔ)音識(shí)別系統(tǒng)的流程圖。
圖4為在語(yǔ)音信號(hào)的聲音處理過(guò)程中的語(yǔ)音特征計(jì)算的示意方法。
圖5為采用根據(jù)本發(fā)明的方法的新的預(yù)取技術(shù)的C語(yǔ)言的示意計(jì)算機(jī)代碼。
圖6為采用根據(jù)本發(fā)明一個(gè)實(shí)施例的方法的新的預(yù)取技術(shù)的匯編語(yǔ)言的示意計(jì)算機(jī)代碼。
圖7為用于根據(jù)本發(fā)明一個(gè)實(shí)施例的示意計(jì)算機(jī)系統(tǒng)的存儲(chǔ)和執(zhí)行周期的示意圖。
具體實(shí)施例方式
在本發(fā)明的實(shí)施例的如下詳細(xì)描述中，給出各種具體細(xì)節(jié)。但是，本領(lǐng)域的普通技術(shù)人員顯然可以看出能夠?qū)崿F(xiàn)根據(jù)本發(fā)明的實(shí)施例的方法而沒(méi)有這些具體細(xì)節(jié)。換句話說(shuō)，眾所周知的方法、過(guò)程、部件和電路沒(méi)有被詳細(xì)描述，以避免對(duì)本發(fā)明的實(shí)施例造成混淆。
根據(jù)本發(fā)明的方法包括將在下文中描述的各種功能步驟。該功能步驟可以由硬件部件來(lái)實(shí)現(xiàn)，或者可以體現(xiàn)為機(jī)器可執(zhí)行的指令，其可以被用于使得用該指令編程的通用處理器執(zhí)行該功能步驟。另外，該功能步驟可以通過(guò)硬件和軟件的組合來(lái)執(zhí)行。
本發(fā)明的實(shí)施例揭示要在人的語(yǔ)音識(shí)別的聲音處理階段過(guò)程中實(shí)現(xiàn)的一種新的預(yù)取技術(shù)。當(dāng)在聲音處理過(guò)程中要被處理的數(shù)據(jù)被從主存儲(chǔ)器傳送到執(zhí)行單元時(shí)，該新的預(yù)取技術(shù)可以被用于減小或消除由于執(zhí)行單元等待空閑所導(dǎo)致的存儲(chǔ)器等待時(shí)間。在一個(gè)優(yōu)選實(shí)施例中，例如，當(dāng)該執(zhí)行單元忙于計(jì)算語(yǔ)音特征時(shí)，該應(yīng)用程序并行地執(zhí)行用于要被處理的數(shù)據(jù)的預(yù)取指令。相應(yīng)地，當(dāng)該執(zhí)行單元忙于計(jì)算時(shí)，該存儲(chǔ)器總線忙于預(yù)取該執(zhí)行單元進(jìn)行下一次計(jì)算所需的數(shù)據(jù)。
現(xiàn)在參見(jiàn)圖2，其中示出一個(gè)示意的語(yǔ)音識(shí)別系統(tǒng)200的方框圖。該系統(tǒng)包括語(yǔ)音捕獲設(shè)備210、模數(shù)轉(zhuǎn)換器212、計(jì)算機(jī)系統(tǒng)250和一系列I/O設(shè)備，例如控制器設(shè)備240、顯示設(shè)備242、網(wǎng)絡(luò)接口卡244和打印設(shè)備246。該計(jì)算機(jī)系統(tǒng)250又包括處理器252、存儲(chǔ)器280、高速緩存260、高速緩存控制器262、存儲(chǔ)器總線272以及I/O總線270。優(yōu)選地，該計(jì)算機(jī)系統(tǒng)可以進(jìn)一步包括一個(gè)直接存儲(chǔ)器存取274。
該系統(tǒng)如下工作一個(gè)人對(duì)麥克風(fēng)210說(shuō)話，獲得一個(gè)模擬語(yǔ)音信號(hào)。該信號(hào)然后通過(guò)模數(shù)轉(zhuǎn)換器212，以形成該模擬語(yǔ)音信號(hào)的數(shù)字化表示。該數(shù)字化的表示然后被輸入到該計(jì)算機(jī)系統(tǒng)250。該處理器252然后開(kāi)始識(shí)別與該語(yǔ)音信號(hào)相關(guān)的語(yǔ)音特征，并且把這些特征存儲(chǔ)在計(jì)算機(jī)系統(tǒng)250的存儲(chǔ)器280中。一個(gè)高速緩存260被用于存儲(chǔ)在語(yǔ)音特征的計(jì)算中所需的預(yù)取數(shù)據(jù)。連接到處理器252和高速緩存260的一個(gè)高速緩存控制器262協(xié)調(diào)處理器252和高速緩存260之間的數(shù)據(jù)傳送。
還被存儲(chǔ)在存儲(chǔ)器280中的是多個(gè)已知的音標(biāo)單元，其被稱為一個(gè)聲音模型。由本實(shí)施例所使用的聲音模型可以是一個(gè)與說(shuō)話者相關(guān)的(SD)模型或者可以是與說(shuō)話者無(wú)關(guān)的(SI)模型。該SD模型由一個(gè)特定人的聲音所效率，并且該識(shí)別系統(tǒng)被期望由相同的人所使用。例如，一個(gè)移動(dòng)電話或個(gè)人數(shù)字助理通常采用SD模型，因?yàn)樗A(yù)計(jì)被相同的人(該設(shè)備的擁有者)所使用。另一方面當(dāng)使用該系統(tǒng)的人改變時(shí)，使用SI模型。例如，一個(gè)自動(dòng)出納機(jī)(ATM)一般使用SI模型。
在處理器252已經(jīng)完成該語(yǔ)音信號(hào)的特征的計(jì)算并且把它們存儲(chǔ)在該存儲(chǔ)器280中之后，它可以在也存儲(chǔ)在存儲(chǔ)器280中的聲音模型內(nèi)尋求匹配。所用的特定搜索方法不影響用于該實(shí)施例的方法。例如，可以使用單個(gè)最佳或N個(gè)最佳假設(shè)。另外，一個(gè)字圖或一個(gè)音標(biāo)字圖可以被用于表示在聲音模型的搜索過(guò)程中得到的匹配。
無(wú)論如何，該匹配被進(jìn)行語(yǔ)言處理，以確定被識(shí)別的字串。另外，該處理器252可以利用該顯示設(shè)備242來(lái)把匹配的結(jié)果發(fā)送到另一個(gè)計(jì)算機(jī)，例如可以執(zhí)行該語(yǔ)言處理的服務(wù)器設(shè)備(未示出)。如果該處理器252被編程為也對(duì)匹配的結(jié)果執(zhí)行語(yǔ)言處理，則它可以利用打印設(shè)備246來(lái)打印相關(guān)的所識(shí)別字串。另外，所識(shí)別的字串可以顯示在顯示設(shè)備242上，或者例如被發(fā)送到控制器設(shè)備240，以把控制信號(hào)發(fā)送到另一個(gè)系統(tǒng)，來(lái)控制一個(gè)設(shè)備。
現(xiàn)在參見(jiàn)圖3，其中示出根據(jù)一個(gè)實(shí)施例的使用語(yǔ)音識(shí)別系統(tǒng)的流程圖。在步驟3e06中，以模擬形式捕獲一個(gè)示意的人的語(yǔ)音信號(hào)。所捕獲的語(yǔ)音信號(hào)攜帶與該說(shuō)話者所說(shuō)的內(nèi)容相關(guān)的語(yǔ)音特征。所選擇的特定語(yǔ)音特征不影響根據(jù)本實(shí)施例的方法。例如，所選擇的語(yǔ)音特征可以是按照頻率間隔測(cè)量的語(yǔ)音信號(hào)的能量強(qiáng)度。當(dāng)人說(shuō)話時(shí)，該特征改變，并且該特征可以由多個(gè)特征矢量所表示，每個(gè)特征矢量具有一個(gè)方向和幅度。然后該語(yǔ)音信號(hào)可以被數(shù)學(xué)地表示為以不同時(shí)間間隔測(cè)量的特征矢量的總和。該時(shí)間間隔或采樣頻率越短，則該語(yǔ)音信號(hào)的表示越精確。為了計(jì)算這些特征，該信號(hào)首先被轉(zhuǎn)換為數(shù)字形式，使其由步驟308中所示的一個(gè)數(shù)字計(jì)算機(jī)所處理。在步驟310中，該數(shù)字化的語(yǔ)音信號(hào)的特征被計(jì)算并且存儲(chǔ)在該系統(tǒng)的存儲(chǔ)單元中。例如，一般被用于表示語(yǔ)音特征的一個(gè)數(shù)學(xué)模型是Mel頻率Cepstral系數(shù)(MFCC)。
還存儲(chǔ)在該系統(tǒng)的存儲(chǔ)單元中的是一個(gè)聲音模型330和語(yǔ)言模型332。步驟340表示聲音和語(yǔ)言處理。在該步驟過(guò)程中，根據(jù)一個(gè)搜索算法執(zhí)行搜索，例如基于令牌傳播的搜索(解碼)算法。在該“搜索處理”或“匹配處理”過(guò)程中，該執(zhí)行單元在步驟310中查找所計(jì)算特征(例如，語(yǔ)音信號(hào)的MFCC)和包含在該聲音模型中的已知音標(biāo)特征之間的匹配。在該階段，通過(guò)選擇具有最高匹配概率的候選項(xiàng)獲得最佳候選項(xiàng)，例如一個(gè)音標(biāo)單元列表。
該搜索空間根據(jù)該系統(tǒng)已經(jīng)被編程而執(zhí)行的特定識(shí)別應(yīng)用程序而變化。例如，對(duì)于聽(tīng)寫(xiě)任務(wù)，該搜索空間可以被組織為一個(gè)詞匯樹(shù)；而為了命令和控制任務(wù)，該搜索空間可以被組織為一個(gè)字圖。可以執(zhí)行任何公知的搜索方法，例如單個(gè)最佳或N個(gè)最佳假設(shè)。無(wú)論如何，在搜索之后，可以由該執(zhí)行單元產(chǎn)生一個(gè)字圖。通過(guò)利用該聲音模型所作的匹配的字替換選項(xiàng)的字圖然后被進(jìn)行語(yǔ)言處理，并且在步驟350中產(chǎn)生一個(gè)所識(shí)別的字串。在特征矢量與包含在該聲音模型中的已知特征的匹配操作過(guò)程中，即，聲音模型匹配和形成處理，可以使用根據(jù)本發(fā)明不同實(shí)施例的方法。
在語(yǔ)言處理過(guò)程中，一個(gè)語(yǔ)言模型可以被用于形成單個(gè)最佳句子。該語(yǔ)言模型可以采用字典和語(yǔ)法詞典來(lái)從匹配的候選項(xiàng)中消除不類似或不允許出現(xiàn)的字。所獲得的最佳句子可以被用作為一個(gè)控制信號(hào)，或者它可以被簡(jiǎn)單地存儲(chǔ)在一個(gè)聽(tīng)寫(xiě)應(yīng)用程序中。
現(xiàn)在參見(jiàn)圖4，其中示出處理一個(gè)語(yǔ)音信號(hào)的聲音處理的示意方法。一般來(lái)說(shuō)，一個(gè)語(yǔ)音信號(hào)被表示為例如基于MFCC的一個(gè)數(shù)學(xué)模型。該模型被根據(jù)表示與多個(gè)特征矢量相關(guān)的狀態(tài)的高斯分布函數(shù)而計(jì)算。這種數(shù)學(xué)模型的一個(gè)例子使用根據(jù)公式410的一個(gè)高斯分布概率函數(shù)而形成。其中x＝(x1，x2，...xN)為語(yǔ)音信號(hào)的特征矢量1至N，并且平均值412和變量413為第i維矢量，聲音HMM狀態(tài)的高斯分布的第m個(gè)混合。一般來(lái)說(shuō)，該算法計(jì)算被使用，以加速特征矢量的計(jì)算。例如，如果要計(jì)算算法408，則通常如下公式被用于加速上述計(jì)算，因?yàn)閘og(Wmfm(x))可以被計(jì)算為如下Log(y1+y2)＝Log(y1)+Log(1+y2/y1)＝Logy1+log(1+e POWERlogy2-logy1)為了使該處理器執(zhí)行該計(jì)算，，可以利用一個(gè)計(jì)數(shù)的循環(huán)。在該循環(huán)塊中，算術(shù)指令與以前的數(shù)據(jù)傳輸函數(shù)相關(guān)。在執(zhí)行計(jì)算之前，例如與平均矢量412和每個(gè)特征矢量的方差矢量413相關(guān)的數(shù)值這樣的數(shù)據(jù)要被提供給該處理器。一個(gè)預(yù)取指令可以被用于傳送每個(gè)特征矢量的平均和變量值。在一個(gè)優(yōu)選實(shí)施例中，當(dāng)該執(zhí)行單元忙于計(jì)算當(dāng)前數(shù)據(jù)時(shí)，該預(yù)取指令被執(zhí)行。該預(yù)取指令可以在該執(zhí)行單元忙于當(dāng)前計(jì)算的任何周期過(guò)程中執(zhí)行。兩個(gè)事件不一定要完全同時(shí)，但是在一個(gè)優(yōu)選實(shí)施例中，該預(yù)取指令與該執(zhí)行單元的當(dāng)前計(jì)算周期同時(shí)執(zhí)行。
該高斯計(jì)算可以被許多次用于從該特征矢量、平均矢量、方差矢量計(jì)算高斯概率，直到該語(yǔ)音信號(hào)被完成時(shí)為止。一般來(lái)說(shuō)，一個(gè)循環(huán)被用于執(zhí)行該計(jì)算。當(dāng)該執(zhí)行單元忙于在該計(jì)算中所用的一組平均值和方差矢量時(shí)，該軟件例如可以包括預(yù)取接著的幾個(gè)平均和方差矢量的一個(gè)預(yù)取指令，使得當(dāng)該執(zhí)行單元已經(jīng)完成其計(jì)算并且準(zhǔn)備用于下一組平均和可變矢量時(shí)，該數(shù)值已經(jīng)存在于該緩沖存儲(chǔ)器處。在該高速緩存處預(yù)取數(shù)值意味著該執(zhí)行單元不需要空閑并等待數(shù)據(jù)。要被處理的數(shù)據(jù)已經(jīng)可用，并且在已經(jīng)完成當(dāng)前的計(jì)算之后，該執(zhí)行單元可以簡(jiǎn)單地執(zhí)行它的下一個(gè)計(jì)算。
圖5為采用根據(jù)本發(fā)明一個(gè)實(shí)施例的預(yù)取指令的C語(yǔ)言的示意計(jì)算機(jī)代碼。在行514中，格預(yù)取指令已經(jīng)被設(shè)置，以預(yù)取在行518中所示的函數(shù)ippsLogGauss1_32f_D2的計(jì)算所需的數(shù)據(jù)。函數(shù)_mm_prefetch()是在C語(yǔ)言庫(kù)中的一個(gè)示意的預(yù)取指令。也可以使用在任何其他計(jì)算機(jī)語(yǔ)言中的任何其他預(yù)取指令，只要該指令使得存儲(chǔ)器發(fā)送要被傳送到該高速緩存的位于預(yù)取地址的數(shù)據(jù)即可。在該實(shí)施例中，可以使用任何計(jì)算機(jī)語(yǔ)言。
當(dāng)執(zhí)行該預(yù)取指令時(shí)，一般預(yù)取一個(gè)高速緩存線。在具有等于32字節(jié)的一個(gè)高速緩存線的系統(tǒng)中，該_mm_prefetch把8個(gè)浮點(diǎn)數(shù)裝載到該高速緩存中，因?yàn)槊總€(gè)浮點(diǎn)數(shù)包括4字節(jié)。相應(yīng)地，可以通過(guò)把一個(gè)增量與下一個(gè)預(yù)取地址相加而計(jì)算該預(yù)取地址。該增量將保證當(dāng)數(shù)據(jù)預(yù)取完成時(shí)，之后緊接著需要被預(yù)取的數(shù)據(jù)。否則，該操作可能造成高速緩存的污染(cache pollution)，導(dǎo)致整個(gè)系統(tǒng)的低效率。類似地，如果該增量太小，則在該執(zhí)行單元的下一個(gè)計(jì)算周期開(kāi)始之前，該預(yù)取將不有效地隱藏該預(yù)取的等待時(shí)間。如果增量太大，則對(duì)不為初始迭代而預(yù)取的數(shù)據(jù)的啟動(dòng)成本降低預(yù)取該數(shù)據(jù)的優(yōu)點(diǎn)，并且該被預(yù)取的數(shù)據(jù)可能在以前預(yù)取的數(shù)據(jù)被實(shí)際使用之前包圍和取代該以前預(yù)取的數(shù)據(jù)。對(duì)于大的循環(huán)，該增量可以被設(shè)置為32字節(jié)或者8個(gè)浮點(diǎn)數(shù)。
通常，該增量的數(shù)值取決于計(jì)算成本和該循環(huán)的存儲(chǔ)器填充成本之間的比率。該增量的理想數(shù)值可以通過(guò)經(jīng)驗(yàn)和設(shè)計(jì)參數(shù)而獲得。對(duì)于大循環(huán)，該增量的數(shù)值可以被設(shè)置為16。這將導(dǎo)致在該計(jì)算的過(guò)程中預(yù)取該第三高速緩存線。通過(guò)使用增量數(shù)值16，可以把高速緩存失誤(miss)的情況減小一半。
該增量還可以根據(jù)所用的計(jì)算機(jī)語(yǔ)言而變化。例如，經(jīng)驗(yàn)表明，在C語(yǔ)言中，當(dāng)預(yù)取第三高速緩存線時(shí)獲得最佳結(jié)果。但是在匯編語(yǔ)言中，當(dāng)預(yù)取第四高速緩存線時(shí)獲得最佳結(jié)果。該區(qū)別的原因在于由所選擇語(yǔ)言選擇使用的特定編譯器。在C語(yǔ)言中，由于該編譯器，使得預(yù)取指令被更加隨機(jī)地發(fā)出。利用無(wú)序的核心處理器，在性能上的差別較小并且可以被忽略。但是，通過(guò)用匯編語(yǔ)言編寫(xiě)的代碼獲得最佳性能。
預(yù)取指令還可以被添加到ippsLogGauss1_32f_D2的主循環(huán)內(nèi)，如行528和529中所示。這示出在明確地示出在存儲(chǔ)器裝載之后的預(yù)取，其可以獲得類似的效果。
圖6示出在圖5的行529中所示的主循環(huán)的修正代碼。該采用匯編語(yǔ)言的示意計(jì)算機(jī)代碼采用根據(jù)本發(fā)明一個(gè)實(shí)施例的預(yù)取指令。該循環(huán)被展開(kāi)以使其處理32字節(jié)，并且在第四高速緩存線中的數(shù)據(jù)被預(yù)取。該方法可以減小語(yǔ)音識(shí)別的解碼成本。例如，在具有漢語(yǔ)(51K)語(yǔ)言模型的一個(gè)語(yǔ)音識(shí)別系統(tǒng)上的實(shí)驗(yàn)表現(xiàn)出9％的改進(jìn)。
圖7為在根據(jù)本發(fā)明一個(gè)實(shí)施例的人的語(yǔ)音識(shí)別中涉及的示意計(jì)算機(jī)系統(tǒng)的執(zhí)行單元和存儲(chǔ)周期的時(shí)間-動(dòng)作示意圖。根據(jù)本實(shí)施例的方法通過(guò)預(yù)取相應(yīng)的特征矢量的下一個(gè)平均和方差數(shù)值而利用高斯概率分布函數(shù)的長(zhǎng)計(jì)算周期的優(yōu)點(diǎn)。如圖7中所示，當(dāng)該執(zhí)行單元用于頂點(diǎn)(n-1)的計(jì)算時(shí)，該存儲(chǔ)器總線預(yù)取用于該頂點(diǎn)(n)的數(shù)據(jù)。類似地，在下一個(gè)周期過(guò)程中，當(dāng)該執(zhí)行單元忙于計(jì)算頂點(diǎn)(n)時(shí)，該存儲(chǔ)器總線忙于預(yù)取頂點(diǎn)(n+1)。按照這種方式，該執(zhí)行單元不空閑地等待該存儲(chǔ)器總線裝載他完成該計(jì)算所需的數(shù)據(jù)。其結(jié)果是消除在現(xiàn)有技術(shù)的聲音識(shí)別的處理中固有的等待時(shí)間。
權(quán)利要求
1.一種方法包括接收人的語(yǔ)音信號(hào)；對(duì)與所述人的語(yǔ)音信號(hào)相關(guān)的第一組語(yǔ)音數(shù)據(jù)進(jìn)行聲音處理；當(dāng)所述第一組語(yǔ)音數(shù)據(jù)被聲音處理時(shí)，把要被聲音處理的第二組語(yǔ)音數(shù)據(jù)從第一存儲(chǔ)器傳送到第二存儲(chǔ)器；對(duì)所述經(jīng)過(guò)聲音處理的第一和第二組語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)言處理；以及形成與所述人的語(yǔ)音信號(hào)相關(guān)的一個(gè)所識(shí)別字串。
2.根據(jù)權(quán)利要求1所述的方法，其中所述第一存儲(chǔ)器包括一個(gè)主存儲(chǔ)器。
3.根據(jù)權(quán)利要求1所述的方法，其中所述第二存儲(chǔ)器包括一個(gè)高速緩存。
4.根據(jù)權(quán)利要求1所述的方法，其中所述第一和第二組語(yǔ)音數(shù)據(jù)包括基于聲音的隱藏馬爾可夫模型狀態(tài)的高斯分布的一個(gè)平均矢量和方差矢量。
5.根據(jù)權(quán)利要求4所述的方法，其中所述平均矢量和所述方差矢量被用于計(jì)算一個(gè)特征矢量，其接著被用于搜索一個(gè)聲音模型。
6.根據(jù)權(quán)利要求1所述的方法，其中所述識(shí)別的字串被用于控制一個(gè)設(shè)備。
7.一種方法，其中包括對(duì)第一組語(yǔ)音數(shù)據(jù)進(jìn)行聲音處理；以及當(dāng)所述第一組語(yǔ)音數(shù)據(jù)被進(jìn)行聲音處理時(shí)，把要被聲音處理的第二組語(yǔ)音數(shù)據(jù)從第一存儲(chǔ)器傳送到第二存儲(chǔ)器。
8.根據(jù)權(quán)利要求7所述的方法，其中所述第一和第二組語(yǔ)音數(shù)據(jù)包括基于聲音的隱藏馬爾可夫模型狀態(tài)的高斯分布的平均矢量和方差矢量。
9.根據(jù)權(quán)利要求7所述的方法，其中所述第一存儲(chǔ)器比所述第二存儲(chǔ)器更慢。
10.根據(jù)權(quán)利要求7所述的方法，其中進(jìn)一步包括對(duì)所述經(jīng)過(guò)聲音處理的第一和第二組語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)言處理；以及識(shí)別對(duì)應(yīng)于所述語(yǔ)音數(shù)據(jù)的至少一個(gè)字。
11.一種系統(tǒng)，其中包括客戶機(jī)設(shè)備，其包括對(duì)第一和第二組語(yǔ)音數(shù)據(jù)進(jìn)行聲音處理的處理器，連接到所述處理器的主存儲(chǔ)器，該主存儲(chǔ)器存儲(chǔ)所述第一和第二組語(yǔ)音數(shù)據(jù)，連接到所述處理器和所述主存儲(chǔ)器的高速緩存，以及與所述第二組語(yǔ)音數(shù)據(jù)從所述主存儲(chǔ)器傳送到所述高速緩存的同時(shí)，所述處理器對(duì)所述第一組語(yǔ)音數(shù)據(jù)進(jìn)行聲音處理，以及連接到該客戶機(jī)設(shè)備的所述處理器的發(fā)送器模塊，該發(fā)送器模塊把所述經(jīng)過(guò)聲音處理的第一和第二組語(yǔ)音數(shù)據(jù)發(fā)送到一個(gè)服務(wù)器。
12.根據(jù)權(quán)利要求11所述的系統(tǒng)，其中進(jìn)一步包括人的語(yǔ)音捕獲模塊，用于捕獲人的語(yǔ)音信號(hào)；模數(shù)轉(zhuǎn)換器模塊，用于把所述人的語(yǔ)音信號(hào)轉(zhuǎn)換為數(shù)字語(yǔ)音信號(hào)；以及語(yǔ)音特征識(shí)別器模塊，用于識(shí)別所述數(shù)字語(yǔ)音信號(hào)的特征。
13.根據(jù)權(quán)利要求11所述的系統(tǒng)，其中所述客戶機(jī)設(shè)備選自移動(dòng)電話、個(gè)人數(shù)字助理和便攜式計(jì)算機(jī)系統(tǒng)。
14.根據(jù)權(quán)利要求12所述的系統(tǒng)，其中所述語(yǔ)音特征識(shí)別器模塊還對(duì)所述人的語(yǔ)音信號(hào)執(zhí)行結(jié)束點(diǎn)檢測(cè)、預(yù)先強(qiáng)調(diào)濾波以及量化。
15.根據(jù)權(quán)利要求11所述的系統(tǒng)，其中所述語(yǔ)音數(shù)據(jù)包括基于聲音的隱藏馬爾可夫模型狀態(tài)的高斯分布的平均矢量和差分矢量。
16.根據(jù)權(quán)利要求11所述的系統(tǒng)，其中所述經(jīng)過(guò)聲音處理的語(yǔ)音數(shù)據(jù)是一個(gè)字圖。
17.根據(jù)權(quán)利要求16所述的系統(tǒng)，其中所述發(fā)送器模塊形成所述字圖的二進(jìn)制表示，并且在發(fā)送所述字圖之前，把所述二進(jìn)制表示與一個(gè)源地址和目標(biāo)地址一同置于一個(gè)數(shù)據(jù)包中。
18.一種裝置，其中包括存儲(chǔ)第一和第二組語(yǔ)音數(shù)據(jù)的主存儲(chǔ)器；高速緩存；以及與所述第二組語(yǔ)音數(shù)據(jù)從所述主存儲(chǔ)器發(fā)送到所述高速緩存的同時(shí)，對(duì)所述第一組語(yǔ)音數(shù)據(jù)進(jìn)行聲音處理的處理器。
19.根據(jù)權(quán)利要求18所述的裝置，其中所述語(yǔ)音數(shù)據(jù)是與人的語(yǔ)音信號(hào)相關(guān)的特征矢量的平均和差分矢量。
20.根據(jù)權(quán)利要求18所述的裝置，其中所述裝置選自無(wú)線設(shè)備、個(gè)人數(shù)字助理和移動(dòng)設(shè)備。
21.根據(jù)權(quán)利要求18所述的裝置，其中進(jìn)一步包括連接到所述主存儲(chǔ)器的直接存儲(chǔ)器存取模塊，用于通過(guò)網(wǎng)絡(luò)發(fā)送一個(gè)經(jīng)過(guò)聲音處理的語(yǔ)音數(shù)據(jù)，用于語(yǔ)言處理。
22.根據(jù)權(quán)利要求21所述的裝置，其中所述網(wǎng)絡(luò)是互聯(lián)網(wǎng)。
23.一種包括可由一個(gè)處理器所執(zhí)行的程序的計(jì)算機(jī)可讀介質(zhì)，其中包括第一子例程，用于接收人的語(yǔ)音信號(hào)；第二子例程，用于對(duì)與所述人的語(yǔ)音信號(hào)相關(guān)的第一組語(yǔ)音數(shù)據(jù)進(jìn)行聲音處理；第三子例程，用于在所述第一組語(yǔ)音數(shù)據(jù)被進(jìn)行聲音處理時(shí)，把要被聲音處理的第二組語(yǔ)音數(shù)據(jù)從第一存儲(chǔ)器傳送到第二存儲(chǔ)器；第四子例程，用于對(duì)所述被聲音處理的第一組語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)言處理；以及第五子例程，用于形成與所述人的語(yǔ)音信號(hào)相關(guān)的一個(gè)所識(shí)別字串。
24.根據(jù)權(quán)利要求23所述的計(jì)算機(jī)可讀介質(zhì)，其中所述第一和所述第二組語(yǔ)音數(shù)據(jù)包括基于聲音的隱藏馬爾可夫模型狀態(tài)的高斯分布的平均矢量和差分矢量。
25.根據(jù)權(quán)利要求24所述的計(jì)算機(jī)可讀介質(zhì)，其中所述經(jīng)過(guò)聲音處理的語(yǔ)音數(shù)據(jù)包括一個(gè)字圖。
26.根據(jù)權(quán)利要求25所述的計(jì)算機(jī)可讀介質(zhì)，其中進(jìn)一步包括第六子例程，用于把所述字圖打包為一個(gè)數(shù)據(jù)包；以及第七子例程，用于通過(guò)一個(gè)網(wǎng)絡(luò)發(fā)送所述數(shù)據(jù)包。
27.根據(jù)權(quán)利要求26所述的計(jì)算機(jī)可讀介質(zhì)，其中所述網(wǎng)絡(luò)是互聯(lián)網(wǎng)。
全文摘要
一般來(lái)說(shuō)，由用于人的語(yǔ)音識(shí)別的計(jì)算機(jī)系統(tǒng)所使用的根據(jù)本發(fā)明一個(gè)實(shí)施例的新的預(yù)取方法提供根據(jù)聲音的隱藏馬爾可夫模型狀態(tài)的高斯分布計(jì)算和搜索語(yǔ)音特征的有效方法。當(dāng)該處理器正在用于對(duì)一個(gè)語(yǔ)音數(shù)據(jù)進(jìn)行聲音處理時(shí)，該新的方法傳送要被處理的語(yǔ)音數(shù)據(jù)。相應(yīng)地，由用于人的語(yǔ)音識(shí)別的一個(gè)計(jì)算機(jī)系統(tǒng)所采用的根據(jù)本發(fā)明一個(gè)實(shí)施例的預(yù)取方法減小或消除當(dāng)該存儲(chǔ)器把要被處理的語(yǔ)音數(shù)據(jù)傳送到處理器時(shí)該處理器等待空閑所造成的存儲(chǔ)器等待時(shí)間。
文檔編號(hào)G10L15/28GK1545696SQ01823554
公開(kāi)日2004年11月10日申請(qǐng)日期2001年6月19日優(yōu)先權(quán)日2001年6月19日
發(fā)明者賴春榮, 趙慶偉, 潘杰林申請(qǐng)人:英特爾公司, 英特爾中國(guó)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：賴春榮;趙慶偉;潘杰林
技術(shù)所有人：英特爾公司;英特爾中國(guó)有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語(yǔ)音識(shí)別特征提取相關(guān)技術(shù)

語(yǔ)音識(shí)別測(cè)試方法相關(guān)技術(shù)

語(yǔ)音識(shí)別方法相關(guān)技術(shù)

語(yǔ)音識(shí)別的方法相關(guān)技術(shù)

語(yǔ)音識(shí)別的主要方法相關(guān)技術(shù)

語(yǔ)音識(shí)別相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

在語(yǔ)音識(shí)別中采用預(yù)取指令的方法