国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      在語(yǔ)音識(shí)別中采用預(yù)取指令的方法

      文檔序號(hào):2824135閱讀:294來(lái)源:國(guó)知局
      專利名稱:在語(yǔ)音識(shí)別中采用預(yù)取指令的方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及語(yǔ)音識(shí)別。特別地,本發(fā)明涉及一種新的裝置和方法,其在系統(tǒng)在語(yǔ)音識(shí)別處理的聲音識(shí)別階段過(guò)程的處理中對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行聲音處理時(shí),采用預(yù)取指令來(lái)把要被聲音處理的語(yǔ)音數(shù)據(jù)從主存儲(chǔ)器傳送到高速緩存。
      背景技術(shù)
      在過(guò)去幾年,由一個(gè)機(jī)器所進(jìn)行的人的語(yǔ)音識(shí)別的技術(shù)和科學(xué)已經(jīng)獲得大的發(fā)展。今天,存在有許多用于自動(dòng)語(yǔ)音識(shí)別(ASR)的大詞匯連續(xù)語(yǔ)音識(shí)別(LVCSR)的應(yīng)用程序。為了實(shí)現(xiàn)語(yǔ)音識(shí)別,一種計(jì)算機(jī)系統(tǒng)可以被采用作為處理大量計(jì)算和搜索的語(yǔ)音引擎,以分析和識(shí)別攜帶人的語(yǔ)音特征的聲音信號(hào)。相應(yīng)地一個(gè)計(jì)算機(jī)系統(tǒng)在執(zhí)行這些操作中的效率對(duì)語(yǔ)音引擎的性能具有影響。
      通常,一個(gè)語(yǔ)音識(shí)別系統(tǒng)對(duì)一個(gè)人的語(yǔ)音信號(hào)執(zhí)行幾個(gè)操作,以確定所說(shuō)的內(nèi)容。例如,當(dāng)一個(gè)人說(shuō)出如下句子“my name is John”時(shí),例如一個(gè)麥克風(fēng)這樣的語(yǔ)音捕獲設(shè)備捕獲該發(fā)音作為一個(gè)模擬聲音信號(hào)。該模擬信號(hào)然后被轉(zhuǎn)換為一個(gè)數(shù)字信號(hào),以便于由數(shù)字計(jì)算機(jī)所處理。攜帶語(yǔ)音特征的所獲得信號(hào)可以被使用一個(gè)數(shù)學(xué)模型來(lái)量化并且表現(xiàn)為多個(gè)特征矢量。例如,Mel頻率對(duì)數(shù)倒頻譜(Cepstral)系數(shù)(MFCC)可以被用于表示語(yǔ)音特征。
      所計(jì)算的特征然后被一個(gè)計(jì)算機(jī)系統(tǒng)進(jìn)行聲音處理。在聲音處理過(guò)程中,該特征與包含在一個(gè)聲音模型中的已知音標(biāo)單元相比較。一個(gè)聲音模型的例子是隱藏馬爾可夫模型(HMM)。該語(yǔ)音特征與包含在該模型中的已知音標(biāo)單元的比較可能導(dǎo)致一個(gè)或多個(gè)匹配。所匹配的音標(biāo)單元然后例如使用一個(gè)字典或語(yǔ)法詞典來(lái)進(jìn)行語(yǔ)言處理,以形成一個(gè)所識(shí)別的字串。
      為了執(zhí)行聲音處理,該語(yǔ)音引擎使用大量概率分布,例如作為該語(yǔ)音信號(hào)的特征矢量的空間的N維空間的M高斯分布函數(shù)的混合。每個(gè)特征矢量的平均值和方差被計(jì)算并且存儲(chǔ)器該計(jì)算機(jī)系統(tǒng)的存儲(chǔ)器中。后來(lái),每個(gè)參數(shù)被從存儲(chǔ)器中取出,以用于該語(yǔ)音引擎來(lái)完成高斯函數(shù)的計(jì)算。
      圖1為在人的語(yǔ)音識(shí)別中所涉及的現(xiàn)有計(jì)算機(jī)系統(tǒng)的存儲(chǔ)和執(zhí)行周期的示意圖。該圖示出在語(yǔ)音信號(hào)的聲音處理過(guò)程中該執(zhí)行單元和存儲(chǔ)器總線的時(shí)基比較。當(dāng)存儲(chǔ)器總線把要被處理的語(yǔ)音數(shù)據(jù)從存儲(chǔ)器傳送時(shí),該執(zhí)行單元保持空閑,直到要被處理的數(shù)據(jù)變?yōu)榭梢杂稍撎幚砥魉@得為止。由于在聲音分析中所需的全部計(jì)算量,該存儲(chǔ)器等待時(shí)間快速增加,即當(dāng)該存儲(chǔ)器傳送要被處理的數(shù)據(jù)時(shí)所浪費(fèi)的時(shí)間增加。當(dāng)LVCSR連續(xù)接收語(yǔ)音信號(hào)時(shí),該問(wèn)題特別嚴(yán)重。許多操作需要在每秒鐘內(nèi)完成,并且該缺點(diǎn)嚴(yán)重地限制該系統(tǒng)的速度和效率。


      圖1為用于根據(jù)現(xiàn)有技術(shù)的聲音處理中的計(jì)算機(jī)系統(tǒng)的存儲(chǔ)和執(zhí)行周期的示意圖。
      圖2為根據(jù)本發(fā)明一個(gè)實(shí)施例的方法的示意語(yǔ)音識(shí)別系統(tǒng)的方框圖。
      圖3為根據(jù)本發(fā)明一個(gè)實(shí)施例的示意語(yǔ)音識(shí)別系統(tǒng)的流程圖。
      圖4為在語(yǔ)音信號(hào)的聲音處理過(guò)程中的語(yǔ)音特征計(jì)算的示意方法。
      圖5為采用根據(jù)本發(fā)明的方法的新的預(yù)取技術(shù)的C語(yǔ)言的示意計(jì)算機(jī)代碼。
      圖6為采用根據(jù)本發(fā)明一個(gè)實(shí)施例的方法的新的預(yù)取技術(shù)的匯編語(yǔ)言的示意計(jì)算機(jī)代碼。
      圖7為用于根據(jù)本發(fā)明一個(gè)實(shí)施例的示意計(jì)算機(jī)系統(tǒng)的存儲(chǔ)和執(zhí)行周期的示意圖。
      具體實(shí)施例方式
      在本發(fā)明的實(shí)施例的如下詳細(xì)描述中,給出各種具體細(xì)節(jié)。但是,本領(lǐng)域的普通技術(shù)人員顯然可以看出能夠?qū)崿F(xiàn)根據(jù)本發(fā)明的實(shí)施例的方法而沒(méi)有這些具體細(xì)節(jié)。換句話說(shuō),眾所周知的方法、過(guò)程、部件和電路沒(méi)有被詳細(xì)描述,以避免對(duì)本發(fā)明的實(shí)施例造成混淆。
      根據(jù)本發(fā)明的方法包括將在下文中描述的各種功能步驟。該功能步驟可以由硬件部件來(lái)實(shí)現(xiàn),或者可以體現(xiàn)為機(jī)器可執(zhí)行的指令,其可以被用于使得用該指令編程的通用處理器執(zhí)行該功能步驟。另外,該功能步驟可以通過(guò)硬件和軟件的組合來(lái)執(zhí)行。
      本發(fā)明的實(shí)施例揭示要在人的語(yǔ)音識(shí)別的聲音處理階段過(guò)程中實(shí)現(xiàn)的一種新的預(yù)取技術(shù)。當(dāng)在聲音處理過(guò)程中要被處理的數(shù)據(jù)被從主存儲(chǔ)器傳送到執(zhí)行單元時(shí),該新的預(yù)取技術(shù)可以被用于減小或消除由于執(zhí)行單元等待空閑所導(dǎo)致的存儲(chǔ)器等待時(shí)間。在一個(gè)優(yōu)選實(shí)施例中,例如,當(dāng)該執(zhí)行單元忙于計(jì)算語(yǔ)音特征時(shí),該應(yīng)用程序并行地執(zhí)行用于要被處理的數(shù)據(jù)的預(yù)取指令。相應(yīng)地,當(dāng)該執(zhí)行單元忙于計(jì)算時(shí),該存儲(chǔ)器總線忙于預(yù)取該執(zhí)行單元進(jìn)行下一次計(jì)算所需的數(shù)據(jù)。
      現(xiàn)在參見(jiàn)圖2,其中示出一個(gè)示意的語(yǔ)音識(shí)別系統(tǒng)200的方框圖。該系統(tǒng)包括語(yǔ)音捕獲設(shè)備210、模數(shù)轉(zhuǎn)換器212、計(jì)算機(jī)系統(tǒng)250和一系列I/O設(shè)備,例如控制器設(shè)備240、顯示設(shè)備242、網(wǎng)絡(luò)接口卡244和打印設(shè)備246。該計(jì)算機(jī)系統(tǒng)250又包括處理器252、存儲(chǔ)器280、高速緩存260、高速緩存控制器262、存儲(chǔ)器總線272以及I/O總線270。優(yōu)選地,該計(jì)算機(jī)系統(tǒng)可以進(jìn)一步包括一個(gè)直接存儲(chǔ)器存取274。
      該系統(tǒng)如下工作一個(gè)人對(duì)麥克風(fēng)210說(shuō)話,獲得一個(gè)模擬語(yǔ)音信號(hào)。該信號(hào)然后通過(guò)模數(shù)轉(zhuǎn)換器212,以形成該模擬語(yǔ)音信號(hào)的數(shù)字化表示。該數(shù)字化的表示然后被輸入到該計(jì)算機(jī)系統(tǒng)250。該處理器252然后開(kāi)始識(shí)別與該語(yǔ)音信號(hào)相關(guān)的語(yǔ)音特征,并且把這些特征存儲(chǔ)在計(jì)算機(jī)系統(tǒng)250的存儲(chǔ)器280中。一個(gè)高速緩存260被用于存儲(chǔ)在語(yǔ)音特征的計(jì)算中所需的預(yù)取數(shù)據(jù)。連接到處理器252和高速緩存260的一個(gè)高速緩存控制器262協(xié)調(diào)處理器252和高速緩存260之間的數(shù)據(jù)傳送。
      還被存儲(chǔ)在存儲(chǔ)器280中的是多個(gè)已知的音標(biāo)單元,其被稱為一個(gè)聲音模型。由本實(shí)施例所使用的聲音模型可以是一個(gè)與說(shuō)話者相關(guān)的(SD)模型或者可以是與說(shuō)話者無(wú)關(guān)的(SI)模型。該SD模型由一個(gè)特定人的聲音所效率,并且該識(shí)別系統(tǒng)被期望由相同的人所使用。例如,一個(gè)移動(dòng)電話或個(gè)人數(shù)字助理通常采用SD模型,因?yàn)樗A(yù)計(jì)被相同的人(該設(shè)備的擁有者)所使用。另一方面當(dāng)使用該系統(tǒng)的人改變時(shí),使用SI模型。例如,一個(gè)自動(dòng)出納機(jī)(ATM)一般使用SI模型。
      在處理器252已經(jīng)完成該語(yǔ)音信號(hào)的特征的計(jì)算并且把它們存儲(chǔ)在該存儲(chǔ)器280中之后,它可以在也存儲(chǔ)在存儲(chǔ)器280中的聲音模型內(nèi)尋求匹配。所用的特定搜索方法不影響用于該實(shí)施例的方法。例如,可以使用單個(gè)最佳或N個(gè)最佳假設(shè)。另外,一個(gè)字圖或一個(gè)音標(biāo)字圖可以被用于表示在聲音模型的搜索過(guò)程中得到的匹配。
      無(wú)論如何,該匹配被進(jìn)行語(yǔ)言處理,以確定被識(shí)別的字串。另外,該處理器252可以利用該顯示設(shè)備242來(lái)把匹配的結(jié)果發(fā)送到另一個(gè)計(jì)算機(jī),例如可以執(zhí)行該語(yǔ)言處理的服務(wù)器設(shè)備(未示出)。如果該處理器252被編程為也對(duì)匹配的結(jié)果執(zhí)行語(yǔ)言處理,則它可以利用打印設(shè)備246來(lái)打印相關(guān)的所識(shí)別字串。另外,所識(shí)別的字串可以顯示在顯示設(shè)備242上,或者例如被發(fā)送到控制器設(shè)備240,以把控制信號(hào)發(fā)送到另一個(gè)系統(tǒng),來(lái)控制一個(gè)設(shè)備。
      現(xiàn)在參見(jiàn)圖3,其中示出根據(jù)一個(gè)實(shí)施例的使用語(yǔ)音識(shí)別系統(tǒng)的流程圖。在步驟3e06中,以模擬形式捕獲一個(gè)示意的人的語(yǔ)音信號(hào)。所捕獲的語(yǔ)音信號(hào)攜帶與該說(shuō)話者所說(shuō)的內(nèi)容相關(guān)的語(yǔ)音特征。所選擇的特定語(yǔ)音特征不影響根據(jù)本實(shí)施例的方法。例如,所選擇的語(yǔ)音特征可以是按照頻率間隔測(cè)量的語(yǔ)音信號(hào)的能量強(qiáng)度。當(dāng)人說(shuō)話時(shí),該特征改變,并且該特征可以由多個(gè)特征矢量所表示,每個(gè)特征矢量具有一個(gè)方向和幅度。然后該語(yǔ)音信號(hào)可以被數(shù)學(xué)地表示為以不同時(shí)間間隔測(cè)量的特征矢量的總和。該時(shí)間間隔或采樣頻率越短,則該語(yǔ)音信號(hào)的表示越精確。為了計(jì)算這些特征,該信號(hào)首先被轉(zhuǎn)換為數(shù)字形式,使其由步驟308中所示的一個(gè)數(shù)字計(jì)算機(jī)所處理。在步驟310中,該數(shù)字化的語(yǔ)音信號(hào)的特征被計(jì)算并且存儲(chǔ)在該系統(tǒng)的存儲(chǔ)單元中。例如,一般被用于表示語(yǔ)音特征的一個(gè)數(shù)學(xué)模型是Mel頻率Cepstral系數(shù)(MFCC)。
      還存儲(chǔ)在該系統(tǒng)的存儲(chǔ)單元中的是一個(gè)聲音模型330和語(yǔ)言模型332。步驟340表示聲音和語(yǔ)言處理。在該步驟過(guò)程中,根據(jù)一個(gè)搜索算法執(zhí)行搜索,例如基于令牌傳播的搜索(解碼)算法。在該“搜索處理”或“匹配處理”過(guò)程中,該執(zhí)行單元在步驟310中查找所計(jì)算特征(例如,語(yǔ)音信號(hào)的MFCC)和包含在該聲音模型中的已知音標(biāo)特征之間的匹配。在該階段,通過(guò)選擇具有最高匹配概率的候選項(xiàng)獲得最佳候選項(xiàng),例如一個(gè)音標(biāo)單元列表。
      該搜索空間根據(jù)該系統(tǒng)已經(jīng)被編程而執(zhí)行的特定識(shí)別應(yīng)用程序而變化。例如,對(duì)于聽(tīng)寫(xiě)任務(wù),該搜索空間可以被組織為一個(gè)詞匯樹(shù);而為了命令和控制任務(wù),該搜索空間可以被組織為一個(gè)字圖。可以執(zhí)行任何公知的搜索方法,例如單個(gè)最佳或N個(gè)最佳假設(shè)。無(wú)論如何,在搜索之后,可以由該執(zhí)行單元產(chǎn)生一個(gè)字圖。通過(guò)利用該聲音模型所作的匹配的字替換選項(xiàng)的字圖然后被進(jìn)行語(yǔ)言處理,并且在步驟350中產(chǎn)生一個(gè)所識(shí)別的字串。在特征矢量與包含在該聲音模型中的已知特征的匹配操作過(guò)程中,即,聲音模型匹配和形成處理,可以使用根據(jù)本發(fā)明不同實(shí)施例的方法。
      在語(yǔ)言處理過(guò)程中,一個(gè)語(yǔ)言模型可以被用于形成單個(gè)最佳句子。該語(yǔ)言模型可以采用字典和語(yǔ)法詞典來(lái)從匹配的候選項(xiàng)中消除不類似或不允許出現(xiàn)的字。所獲得的最佳句子可以被用作為一個(gè)控制信號(hào),或者它可以被簡(jiǎn)單地存儲(chǔ)在一個(gè)聽(tīng)寫(xiě)應(yīng)用程序中。
      現(xiàn)在參見(jiàn)圖4,其中示出處理一個(gè)語(yǔ)音信號(hào)的聲音處理的示意方法。一般來(lái)說(shuō),一個(gè)語(yǔ)音信號(hào)被表示為例如基于MFCC的一個(gè)數(shù)學(xué)模型。該模型被根據(jù)表示與多個(gè)特征矢量相關(guān)的狀態(tài)的高斯分布函數(shù)而計(jì)算。這種數(shù)學(xué)模型的一個(gè)例子使用根據(jù)公式410的一個(gè)高斯分布概率函數(shù)而形成。其中x=(x1,x2,...xN)為語(yǔ)音信號(hào)的特征矢量1至N,并且平均值412和變量413為第i維矢量,聲音HMM狀態(tài)的高斯分布的第m個(gè)混合。一般來(lái)說(shuō),該算法計(jì)算被使用,以加速特征矢量的計(jì)算。例如,如果要計(jì)算算法408,則通常如下公式被用于加速上述計(jì)算,因?yàn)閘og(Wmfm(x))可以被計(jì)算為如下Log(y1+y2)=Log(y1)+Log(1+y2/y1)=Logy1+log(1+e POWERlogy2-logy1)為了使該處理器執(zhí)行該計(jì)算,,可以利用一個(gè)計(jì)數(shù)的循環(huán)。在該循環(huán)塊中,算術(shù)指令與以前的數(shù)據(jù)傳輸函數(shù)相關(guān)。在執(zhí)行計(jì)算之前,例如與平均矢量412和每個(gè)特征矢量的方差矢量413相關(guān)的數(shù)值這樣的數(shù)據(jù)要被提供給該處理器。一個(gè)預(yù)取指令可以被用于傳送每個(gè)特征矢量的平均和變量值。在一個(gè)優(yōu)選實(shí)施例中,當(dāng)該執(zhí)行單元忙于計(jì)算當(dāng)前數(shù)據(jù)時(shí),該預(yù)取指令被執(zhí)行。該預(yù)取指令可以在該執(zhí)行單元忙于當(dāng)前計(jì)算的任何周期過(guò)程中執(zhí)行。兩個(gè)事件不一定要完全同時(shí),但是在一個(gè)優(yōu)選實(shí)施例中,該預(yù)取指令與該執(zhí)行單元的當(dāng)前計(jì)算周期同時(shí)執(zhí)行。
      該高斯計(jì)算可以被許多次用于從該特征矢量、平均矢量、方差矢量計(jì)算高斯概率,直到該語(yǔ)音信號(hào)被完成時(shí)為止。一般來(lái)說(shuō),一個(gè)循環(huán)被用于執(zhí)行該計(jì)算。當(dāng)該執(zhí)行單元忙于在該計(jì)算中所用的一組平均值和方差矢量時(shí),該軟件例如可以包括預(yù)取接著的幾個(gè)平均和方差矢量的一個(gè)預(yù)取指令,使得當(dāng)該執(zhí)行單元已經(jīng)完成其計(jì)算并且準(zhǔn)備用于下一組平均和可變矢量時(shí),該數(shù)值已經(jīng)存在于該緩沖存儲(chǔ)器處。在該高速緩存處預(yù)取數(shù)值意味著該執(zhí)行單元不需要空閑并等待數(shù)據(jù)。要被處理的數(shù)據(jù)已經(jīng)可用,并且在已經(jīng)完成當(dāng)前的計(jì)算之后,該執(zhí)行單元可以簡(jiǎn)單地執(zhí)行它的下一個(gè)計(jì)算。
      圖5為采用根據(jù)本發(fā)明一個(gè)實(shí)施例的預(yù)取指令的C語(yǔ)言的示意計(jì)算機(jī)代碼。在行514中,格預(yù)取指令已經(jīng)被設(shè)置,以預(yù)取在行518中所示的函數(shù)ippsLogGauss1_32f_D2的計(jì)算所需的數(shù)據(jù)。函數(shù)_mm_prefetch()是在C語(yǔ)言庫(kù)中的一個(gè)示意的預(yù)取指令。也可以使用在任何其他計(jì)算機(jī)語(yǔ)言中的任何其他預(yù)取指令,只要該指令使得存儲(chǔ)器發(fā)送要被傳送到該高速緩存的位于預(yù)取地址的數(shù)據(jù)即可。在該實(shí)施例中,可以使用任何計(jì)算機(jī)語(yǔ)言。
      當(dāng)執(zhí)行該預(yù)取指令時(shí),一般預(yù)取一個(gè)高速緩存線。在具有等于32字節(jié)的一個(gè)高速緩存線的系統(tǒng)中,該_mm_prefetch把8個(gè)浮點(diǎn)數(shù)裝載到該高速緩存中,因?yàn)槊總€(gè)浮點(diǎn)數(shù)包括4字節(jié)。相應(yīng)地,可以通過(guò)把一個(gè)增量與下一個(gè)預(yù)取地址相加而計(jì)算該預(yù)取地址。該增量將保證當(dāng)數(shù)據(jù)預(yù)取完成時(shí),之后緊接著需要被預(yù)取的數(shù)據(jù)。否則,該操作可能造成高速緩存的污染(cache pollution),導(dǎo)致整個(gè)系統(tǒng)的低效率。類似地,如果該增量太小,則在該執(zhí)行單元的下一個(gè)計(jì)算周期開(kāi)始之前,該預(yù)取將不有效地隱藏該預(yù)取的等待時(shí)間。如果增量太大,則對(duì)不為初始迭代而預(yù)取的數(shù)據(jù)的啟動(dòng)成本降低預(yù)取該數(shù)據(jù)的優(yōu)點(diǎn),并且該被預(yù)取的數(shù)據(jù)可能在以前預(yù)取的數(shù)據(jù)被實(shí)際使用之前包圍和取代該以前預(yù)取的數(shù)據(jù)。對(duì)于大的循環(huán),該增量可以被設(shè)置為32字節(jié)或者8個(gè)浮點(diǎn)數(shù)。
      通常,該增量的數(shù)值取決于計(jì)算成本和該循環(huán)的存儲(chǔ)器填充成本之間的比率。該增量的理想數(shù)值可以通過(guò)經(jīng)驗(yàn)和設(shè)計(jì)參數(shù)而獲得。對(duì)于大循環(huán),該增量的數(shù)值可以被設(shè)置為16。這將導(dǎo)致在該計(jì)算的過(guò)程中預(yù)取該第三高速緩存線。通過(guò)使用增量數(shù)值16,可以把高速緩存失誤(miss)的情況減小一半。
      該增量還可以根據(jù)所用的計(jì)算機(jī)語(yǔ)言而變化。例如,經(jīng)驗(yàn)表明,在C語(yǔ)言中,當(dāng)預(yù)取第三高速緩存線時(shí)獲得最佳結(jié)果。但是在匯編語(yǔ)言中,當(dāng)預(yù)取第四高速緩存線時(shí)獲得最佳結(jié)果。該區(qū)別的原因在于由所選擇語(yǔ)言選擇使用的特定編譯器。在C語(yǔ)言中,由于該編譯器,使得預(yù)取指令被更加隨機(jī)地發(fā)出。利用無(wú)序的核心處理器,在性能上的差別較小并且可以被忽略。但是,通過(guò)用匯編語(yǔ)言編寫(xiě)的代碼獲得最佳性能。
      預(yù)取指令還可以被添加到ippsLogGauss1_32f_D2的主循環(huán)內(nèi),如行528和529中所示。這示出在明確地示出在存儲(chǔ)器裝載之后的預(yù)取,其可以獲得類似的效果。
      圖6示出在圖5的行529中所示的主循環(huán)的修正代碼。該采用匯編語(yǔ)言的示意計(jì)算機(jī)代碼采用根據(jù)本發(fā)明一個(gè)實(shí)施例的預(yù)取指令。該循環(huán)被展開(kāi)以使其處理32字節(jié),并且在第四高速緩存線中的數(shù)據(jù)被預(yù)取。該方法可以減小語(yǔ)音識(shí)別的解碼成本。例如,在具有漢語(yǔ)(51K)語(yǔ)言模型的一個(gè)語(yǔ)音識(shí)別系統(tǒng)上的實(shí)驗(yàn)表現(xiàn)出9%的改進(jìn)。
      圖7為在根據(jù)本發(fā)明一個(gè)實(shí)施例的人的語(yǔ)音識(shí)別中涉及的示意計(jì)算機(jī)系統(tǒng)的執(zhí)行單元和存儲(chǔ)周期的時(shí)間-動(dòng)作示意圖。根據(jù)本實(shí)施例的方法通過(guò)預(yù)取相應(yīng)的特征矢量的下一個(gè)平均和方差數(shù)值而利用高斯概率分布函數(shù)的長(zhǎng)計(jì)算周期的優(yōu)點(diǎn)。如圖7中所示,當(dāng)該執(zhí)行單元用于頂點(diǎn)(n-1)的計(jì)算時(shí),該存儲(chǔ)器總線預(yù)取用于該頂點(diǎn)(n)的數(shù)據(jù)。類似地,在下一個(gè)周期過(guò)程中,當(dāng)該執(zhí)行單元忙于計(jì)算頂點(diǎn)(n)時(shí),該存儲(chǔ)器總線忙于預(yù)取頂點(diǎn)(n+1)。按照這種方式,該執(zhí)行單元不空閑地等待該存儲(chǔ)器總線裝載他完成該計(jì)算所需的數(shù)據(jù)。其結(jié)果是消除在現(xiàn)有技術(shù)的聲音識(shí)別的處理中固有的等待時(shí)間。
      權(quán)利要求
      1.一種方法包括接收人的語(yǔ)音信號(hào);對(duì)與所述人的語(yǔ)音信號(hào)相關(guān)的第一組語(yǔ)音數(shù)據(jù)進(jìn)行聲音處理;當(dāng)所述第一組語(yǔ)音數(shù)據(jù)被聲音處理時(shí),把要被聲音處理的第二組語(yǔ)音數(shù)據(jù)從第一存儲(chǔ)器傳送到第二存儲(chǔ)器;對(duì)所述經(jīng)過(guò)聲音處理的第一和第二組語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)言處理;以及形成與所述人的語(yǔ)音信號(hào)相關(guān)的一個(gè)所識(shí)別字串。
      2.根據(jù)權(quán)利要求1所述的方法,其中所述第一存儲(chǔ)器包括一個(gè)主存儲(chǔ)器。
      3.根據(jù)權(quán)利要求1所述的方法,其中所述第二存儲(chǔ)器包括一個(gè)高速緩存。
      4.根據(jù)權(quán)利要求1所述的方法,其中所述第一和第二組語(yǔ)音數(shù)據(jù)包括基于聲音的隱藏馬爾可夫模型狀態(tài)的高斯分布的一個(gè)平均矢量和方差矢量。
      5.根據(jù)權(quán)利要求4所述的方法,其中所述平均矢量和所述方差矢量被用于計(jì)算一個(gè)特征矢量,其接著被用于搜索一個(gè)聲音模型。
      6.根據(jù)權(quán)利要求1所述的方法,其中所述識(shí)別的字串被用于控制一個(gè)設(shè)備。
      7.一種方法,其中包括對(duì)第一組語(yǔ)音數(shù)據(jù)進(jìn)行聲音處理;以及當(dāng)所述第一組語(yǔ)音數(shù)據(jù)被進(jìn)行聲音處理時(shí),把要被聲音處理的第二組語(yǔ)音數(shù)據(jù)從第一存儲(chǔ)器傳送到第二存儲(chǔ)器。
      8.根據(jù)權(quán)利要求7所述的方法,其中所述第一和第二組語(yǔ)音數(shù)據(jù)包括基于聲音的隱藏馬爾可夫模型狀態(tài)的高斯分布的平均矢量和方差矢量。
      9.根據(jù)權(quán)利要求7所述的方法,其中所述第一存儲(chǔ)器比所述第二存儲(chǔ)器更慢。
      10.根據(jù)權(quán)利要求7所述的方法,其中進(jìn)一步包括對(duì)所述經(jīng)過(guò)聲音處理的第一和第二組語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)言處理;以及識(shí)別對(duì)應(yīng)于所述語(yǔ)音數(shù)據(jù)的至少一個(gè)字。
      11.一種系統(tǒng),其中包括客戶機(jī)設(shè)備,其包括對(duì)第一和第二組語(yǔ)音數(shù)據(jù)進(jìn)行聲音處理的處理器,連接到所述處理器的主存儲(chǔ)器,該主存儲(chǔ)器存儲(chǔ)所述第一和第二組語(yǔ)音數(shù)據(jù),連接到所述處理器和所述主存儲(chǔ)器的高速緩存,以及與所述第二組語(yǔ)音數(shù)據(jù)從所述主存儲(chǔ)器傳送到所述高速緩存的同時(shí),所述處理器對(duì)所述第一組語(yǔ)音數(shù)據(jù)進(jìn)行聲音處理,以及連接到該客戶機(jī)設(shè)備的所述處理器的發(fā)送器模塊,該發(fā)送器模塊把所述經(jīng)過(guò)聲音處理的第一和第二組語(yǔ)音數(shù)據(jù)發(fā)送到一個(gè)服務(wù)器。
      12.根據(jù)權(quán)利要求11所述的系統(tǒng),其中進(jìn)一步包括人的語(yǔ)音捕獲模塊,用于捕獲人的語(yǔ)音信號(hào);模數(shù)轉(zhuǎn)換器模塊,用于把所述人的語(yǔ)音信號(hào)轉(zhuǎn)換為數(shù)字語(yǔ)音信號(hào);以及語(yǔ)音特征識(shí)別器模塊,用于識(shí)別所述數(shù)字語(yǔ)音信號(hào)的特征。
      13.根據(jù)權(quán)利要求11所述的系統(tǒng),其中所述客戶機(jī)設(shè)備選自移動(dòng)電話、個(gè)人數(shù)字助理和便攜式計(jì)算機(jī)系統(tǒng)。
      14.根據(jù)權(quán)利要求12所述的系統(tǒng),其中所述語(yǔ)音特征識(shí)別器模塊還對(duì)所述人的語(yǔ)音信號(hào)執(zhí)行結(jié)束點(diǎn)檢測(cè)、預(yù)先強(qiáng)調(diào)濾波以及量化。
      15.根據(jù)權(quán)利要求11所述的系統(tǒng),其中所述語(yǔ)音數(shù)據(jù)包括基于聲音的隱藏馬爾可夫模型狀態(tài)的高斯分布的平均矢量和差分矢量。
      16.根據(jù)權(quán)利要求11所述的系統(tǒng),其中所述經(jīng)過(guò)聲音處理的語(yǔ)音數(shù)據(jù)是一個(gè)字圖。
      17.根據(jù)權(quán)利要求16所述的系統(tǒng),其中所述發(fā)送器模塊形成所述字圖的二進(jìn)制表示,并且在發(fā)送所述字圖之前,把所述二進(jìn)制表示與一個(gè)源地址和目標(biāo)地址一同置于一個(gè)數(shù)據(jù)包中。
      18.一種裝置,其中包括存儲(chǔ)第一和第二組語(yǔ)音數(shù)據(jù)的主存儲(chǔ)器;高速緩存;以及與所述第二組語(yǔ)音數(shù)據(jù)從所述主存儲(chǔ)器發(fā)送到所述高速緩存的同時(shí),對(duì)所述第一組語(yǔ)音數(shù)據(jù)進(jìn)行聲音處理的處理器。
      19.根據(jù)權(quán)利要求18所述的裝置,其中所述語(yǔ)音數(shù)據(jù)是與人的語(yǔ)音信號(hào)相關(guān)的特征矢量的平均和差分矢量。
      20.根據(jù)權(quán)利要求18所述的裝置,其中所述裝置選自無(wú)線設(shè)備、個(gè)人數(shù)字助理和移動(dòng)設(shè)備。
      21.根據(jù)權(quán)利要求18所述的裝置,其中進(jìn)一步包括連接到所述主存儲(chǔ)器的直接存儲(chǔ)器存取模塊,用于通過(guò)網(wǎng)絡(luò)發(fā)送一個(gè)經(jīng)過(guò)聲音處理的語(yǔ)音數(shù)據(jù),用于語(yǔ)言處理。
      22.根據(jù)權(quán)利要求21所述的裝置,其中所述網(wǎng)絡(luò)是互聯(lián)網(wǎng)。
      23.一種包括可由一個(gè)處理器所執(zhí)行的程序的計(jì)算機(jī)可讀介質(zhì),其中包括第一子例程,用于接收人的語(yǔ)音信號(hào);第二子例程,用于對(duì)與所述人的語(yǔ)音信號(hào)相關(guān)的第一組語(yǔ)音數(shù)據(jù)進(jìn)行聲音處理;第三子例程,用于在所述第一組語(yǔ)音數(shù)據(jù)被進(jìn)行聲音處理時(shí),把要被聲音處理的第二組語(yǔ)音數(shù)據(jù)從第一存儲(chǔ)器傳送到第二存儲(chǔ)器;第四子例程,用于對(duì)所述被聲音處理的第一組語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)言處理;以及第五子例程,用于形成與所述人的語(yǔ)音信號(hào)相關(guān)的一個(gè)所識(shí)別字串。
      24.根據(jù)權(quán)利要求23所述的計(jì)算機(jī)可讀介質(zhì),其中所述第一和所述第二組語(yǔ)音數(shù)據(jù)包括基于聲音的隱藏馬爾可夫模型狀態(tài)的高斯分布的平均矢量和差分矢量。
      25.根據(jù)權(quán)利要求24所述的計(jì)算機(jī)可讀介質(zhì),其中所述經(jīng)過(guò)聲音處理的語(yǔ)音數(shù)據(jù)包括一個(gè)字圖。
      26.根據(jù)權(quán)利要求25所述的計(jì)算機(jī)可讀介質(zhì),其中進(jìn)一步包括第六子例程,用于把所述字圖打包為一個(gè)數(shù)據(jù)包;以及第七子例程,用于通過(guò)一個(gè)網(wǎng)絡(luò)發(fā)送所述數(shù)據(jù)包。
      27.根據(jù)權(quán)利要求26所述的計(jì)算機(jī)可讀介質(zhì),其中所述網(wǎng)絡(luò)是互聯(lián)網(wǎng)。
      全文摘要
      一般來(lái)說(shuō),由用于人的語(yǔ)音識(shí)別的計(jì)算機(jī)系統(tǒng)所使用的根據(jù)本發(fā)明一個(gè)實(shí)施例的新的預(yù)取方法提供根據(jù)聲音的隱藏馬爾可夫模型狀態(tài)的高斯分布計(jì)算和搜索語(yǔ)音特征的有效方法。當(dāng)該處理器正在用于對(duì)一個(gè)語(yǔ)音數(shù)據(jù)進(jìn)行聲音處理時(shí),該新的方法傳送要被處理的語(yǔ)音數(shù)據(jù)。相應(yīng)地,由用于人的語(yǔ)音識(shí)別的一個(gè)計(jì)算機(jī)系統(tǒng)所采用的根據(jù)本發(fā)明一個(gè)實(shí)施例的預(yù)取方法減小或消除當(dāng)該存儲(chǔ)器把要被處理的語(yǔ)音數(shù)據(jù)傳送到處理器時(shí)該處理器等待空閑所造成的存儲(chǔ)器等待時(shí)間。
      文檔編號(hào)G10L15/28GK1545696SQ01823554
      公開(kāi)日2004年11月10日 申請(qǐng)日期2001年6月19日 優(yōu)先權(quán)日2001年6月19日
      發(fā)明者賴春榮, 趙慶偉, 潘杰林 申請(qǐng)人:英特爾公司, 英特爾中國(guó)有限公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1