專利名稱:語音識(shí)別裝置及語音識(shí)別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及容許意義上無需區(qū)別的無用詞、進(jìn)行連續(xù)單詞語音識(shí)別的語音識(shí)別裝置及語音識(shí)別方法。
背景技術(shù):
以往,有一種單詞語音識(shí)別裝置,用預(yù)先從無用詞的集合學(xué)習(xí)到的聲音模型——無用信息聲音模型來應(yīng)對(duì)意義上無需區(qū)別的無用詞(例如請(qǐng)參照(日本)井ノ上直己等2人,“ガ一ベジHMMを用いた自由発話文中の不要語処理手法(使用無用信息HMM的自然語音句中的無用詞處理手法)”,電子情報(bào)通信學(xué)會(huì)論文誌A,Vol.J77-A,No.2,pp.215-222,1994年2月)。
圖1是表示現(xiàn)有的語音識(shí)別裝置的結(jié)構(gòu)圖。
如圖1所示,語音識(shí)別裝置由特征量計(jì)算部1201、網(wǎng)絡(luò)詞典保存部1202、路徑計(jì)算部1203、候選路徑保存部1204、識(shí)別結(jié)果輸出部1205、語言模型保存部1206、語言得分計(jì)算部1207、單詞聲音模型保存部1208、單詞聲音得分計(jì)算部1209、無用信息聲音模型保存部1210及無用信息聲音得分計(jì)算部1211組成。
特征量計(jì)算部1201對(duì)輸入的未知輸入語音進(jìn)行聲音分析,計(jì)算識(shí)別所需的特征參數(shù)。網(wǎng)絡(luò)詞典保存部1202保存記述語音識(shí)別裝置能夠受理的單詞串的網(wǎng)絡(luò)詞典。路徑計(jì)算部1203用該網(wǎng)絡(luò)詞典的記述來計(jì)算路徑的累計(jì)得分以便求未知輸入語音的最佳單詞序列。候選路徑保存部1204保存該候選路徑的信息。識(shí)別結(jié)果輸出部1205將最終得分最高的單詞序列作為識(shí)別結(jié)果來輸出。
此外,語言模型保存部1206預(yù)先保存預(yù)先通過統(tǒng)計(jì)性學(xué)習(xí)了單詞出現(xiàn)的概率的語言模型。語言得分計(jì)算部1207計(jì)算從前一單詞鏈接的單詞的出現(xiàn)概率——語言得分。單詞聲音模型保存部1208預(yù)先保存與待識(shí)別詞匯對(duì)應(yīng)的單詞的聲音模型——單詞聲音模型。單詞聲音得分計(jì)算部1209對(duì)照特征參數(shù)和單詞聲音模型,計(jì)算單詞聲音得分。
此外,無用信息聲音模型保存部1210預(yù)先保存從“え一と(eeto)”、“う一ん(uun)”等意義上無需區(qū)別的無用詞的集合學(xué)習(xí)到的聲音模型——無用信息聲音模型。無用信息聲音得分計(jì)算部1211對(duì)照特征參數(shù)和無用信息聲音模型,計(jì)算無用詞——無用信息模型的發(fā)生概率——無用信息聲音得分。
接著,說明現(xiàn)有的語音識(shí)別裝置的各部分進(jìn)行的工作。
首先,用戶發(fā)出的未知輸入語音被輸入到特征量計(jì)算部1201,特征量計(jì)算部1201對(duì)每個(gè)聲音分析的時(shí)間單元——幀進(jìn)行聲音分析,計(jì)算特征參數(shù)。這里設(shè)幀長為10ms。
接著,路徑計(jì)算部1203參照網(wǎng)絡(luò)詞典保存部1202中保存的記述能夠受理的單詞連接的網(wǎng)絡(luò)詞典,計(jì)算到當(dāng)前幀為止的候選路徑的累計(jì)得分,將候選路徑信息登記到候選路徑保存部1204中。
圖2是輸入語音為“それは、だ、だれ(sorewa,da,dare)”的情況下的候選路徑圖。具體地說,圖2(a)示出了輸入語音,顯示了單詞的切分位置。此外,圖2(b)示出了輸入幀為t-1時(shí)的候選路徑。此外,圖2(c)示出了輸入幀為t時(shí)的候選路徑。其中,橫軸示出了幀。這里,“だれ(dare)”的(口)吃音——無用詞“だ”被識(shí)別為無用信息模型。此外,無用信息模型與1個(gè)單詞同樣被提供了路徑。
這里,路徑511、512、513、52是單詞途中的最佳路徑以外的路徑,路徑521、522是到達(dá)單詞末端的最佳路徑,路徑531、532是到達(dá)單詞末端的最佳路徑以外的路徑,路徑54是單詞途中的最佳路徑。
此外,路徑計(jì)算部1203從前一幀中的候選路徑延伸路徑,對(duì)各路徑計(jì)算累計(jì)得分。
圖2(b)示出了當(dāng)前幀t的前一幀——第t-1幀中的候選路徑,該候選路徑信息被保存在候選路徑保存部1204中。如當(dāng)前幀t所示,從這些候選路徑如圖2(c)所示來延伸路徑。有前幀的候選路徑中的單詞進(jìn)一步延伸的路徑,和單詞結(jié)束、能夠連接在該單詞上的單詞重新開始的路徑。這里,能夠連接的單詞是網(wǎng)絡(luò)詞典所記述了的單詞。
在圖2(b)中,在幀t-1中,有單詞途中的最佳路徑以外的路徑511的單詞“綿(wada)”、和到達(dá)單詞末端的最佳路徑521的單詞“綿(wada)”,在幀t——圖2(c)中,單詞途中的最佳路徑以外的路徑511的單詞“綿(wada)”進(jìn)一步延伸,在到達(dá)單詞末端的最佳路徑521的單詞“綿(wada)”上,連接著單詞途中的最佳路徑54的單詞“種(dane)”、和單詞途中的最佳路徑以外的路徑512的單詞“菓子(gashi)”。
接著,對(duì)延伸了的候選路徑分別計(jì)算語言得分和聲音得分。
語言得分由語言得分計(jì)算部1207用語言模型保存部1206中保存的語言模型來求得。作為語言得分,采用從前一單詞鏈接的單詞的概率——二元語法(バイグラム)概率的對(duì)數(shù)值。這里,在到達(dá)單詞末端的最佳路徑522“それ(sore)”之后連接“綿(wada)”的路徑中,采用在“それ(sore)”之后出現(xiàn)“綿(wada)”的概率。提供它的定時(shí)可以是每個(gè)單詞1次。
對(duì)當(dāng)前幀的輸入特征參數(shù)矢量,如果當(dāng)前候選路徑是單詞,則聲音得分由單詞聲音得分計(jì)算部1209用單詞聲音模型保存部1208中保存的單詞聲音模型來計(jì)算;如果當(dāng)前候選路徑是無用詞——無用信息模型,則聲音得分由無用信息聲音得分計(jì)算部1211用無用信息聲音模型保存部1210中保存的無用信息聲音模型來計(jì)算。
例如,在圖2(b)中,求幀t-1中的聲音得分的路徑有4個(gè)路徑,采用單詞聲音模型的路徑是路徑522“それ(sore)”上連接的路徑511“綿(wada)”、路徑522“それ(sore)”上連接的連接521“綿(wada)”及路徑531“は(wa)”上連接的路徑513“だれ(dare)”,采用無用信息聲音模型的路徑是路徑531“は(wa)”上連接的路徑532“無用信息模型”。
作為聲音模型,一般采用將聲音特征以概率方式模型化了的隱馬爾可夫模型(HMM)等。將表示單詞的聲音特征的HMM稱為單詞聲音模型,將用1個(gè)模型來歸納表示“え一と(eeto)”、“う一ん(uun)”等意義上無需區(qū)別的無用詞的聲音特征的HMM稱為無用信息聲音模型。單詞聲音得分及無用信息聲音得分是從HMM得到的概率的對(duì)數(shù)值,表示單詞及無用信息模型的發(fā)生概率。
將這樣得到的語言得分和聲音得分相加作為對(duì)照得分,用Viterbi(維特比)算法來求各路徑的累計(jì)得分(例如請(qǐng)參照(日本)中川聖一著,“確率モデルによる音聲認(rèn)識(shí)(基于概率模型的語音識(shí)別)”,電子情報(bào)通信學(xué)會(huì)編,pp.44-46,1998年初版發(fā)行)。
但是,單純地記錄所有延伸了的候選路徑,會(huì)導(dǎo)致計(jì)算量和存儲(chǔ)容量的急劇增加,所以不理想。因此,采用對(duì)每個(gè)幀按累計(jì)得分從高到低的順序只保留K個(gè)(K是自然數(shù))的定向搜索。將該當(dāng)前幀中的K個(gè)候選路徑的信息登記到候選路徑保存部1204中。
逐次前進(jìn)1幀來對(duì)輸入幀重復(fù)進(jìn)行以上處理。
最后,所有幀的處理結(jié)束后,識(shí)別結(jié)果輸出部1205在最后一幀中將候選路徑保存部1204中保存的候選路徑中累計(jì)得分最高的候選路徑的單詞串作為識(shí)別結(jié)果來輸出。
然而,在上述現(xiàn)有例中有下述問題如果在待識(shí)別詞匯中存在與(口)吃音等非語言聲音在聲音上類似的單詞序列,則會(huì)錯(cuò)誤識(shí)別。
這里,所謂(口)吃音,是說口語時(shí)第一音或途中的音堵塞、多次重復(fù)同一音、拉長音、不能流暢地說出的發(fā)音。
此外,在圖2(c)中,各個(gè)單詞的上部在括號(hào)內(nèi)標(biāo)記的數(shù)值是每個(gè)單詞的對(duì)照得分。
在圖2(c)中,未知輸入語音的吃音部分“だ(da)”的區(qū)間通過無用信息模型,在其后連接“だれ(dare)”的路徑52在時(shí)刻t為最佳路徑是正確答案,但是在“それ(sore)”+“綿(wada)”的情況下為7+10=17分,在“それ(sore)”+“綿(wada)”+“種(dane)”的情況下為7+9+2=18分,在“それ(sore)”+“綿(wada)”+“菓子(gashi)”的情況下為7+9+1=17分,在“それ(sore)”+“は(wa)”+“だれ(dare)”的情況下為7+5+4=16分,在“それ(sore)”+“は(wa)”+無用信息模型+“だれ(dare)”的情況下為7+5+2+1=15分,所以“それ(sore)”+“綿(wada)”+“種(dane)”為當(dāng)前幀中的最高得分。
其原因是因?yàn)椋瑹o用信息聲音模型從包含吃音的被認(rèn)為是無用詞的所有聲音數(shù)據(jù)進(jìn)行學(xué)習(xí),所以分布非常廣,對(duì)無用詞發(fā)音、即非語言聲音不能得到很高的聲音得分。
作為解決它的方法,有統(tǒng)一提高無用信息聲音得分的方法,但是這種方法在最佳路徑不是無用詞的幀中無用信息聲音得分的值也增大,所以成為誤識(shí)別的原因。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種語音識(shí)別裝置,即使是包含無用詞、特別是吃音等非語言聲音的未知輸入語音,也能夠正確地識(shí)別。
為了實(shí)現(xiàn)上述目的,在本發(fā)明的語音識(shí)別裝置中,針對(duì)每個(gè)路徑計(jì)算語言得分、單詞聲音得分、以及無用信息聲音得分的累計(jì)得分,將累計(jì)得分最高的單詞串作為包含非語言聲音的未知輸入語音的識(shí)別結(jié)果來輸出,其特征在于,包括無用信息聲音模型保存機(jī)構(gòu),預(yù)先保存從無用詞的集合學(xué)習(xí)到的聲音模型的無用信息聲音模型;特征量計(jì)算機(jī)構(gòu),針對(duì)每個(gè)聲音分析的單位--幀對(duì)上述未知輸入語音進(jìn)行聲音分析,計(jì)算識(shí)別所需的特征參數(shù);無用信息聲音得分計(jì)算機(jī)構(gòu),針對(duì)每個(gè)上述幀對(duì)照上述特征參數(shù)和上述無用信息聲音模型,計(jì)算上述無用信息聲音得分;無用信息聲音得分校正機(jī)構(gòu),對(duì)輸入了上述非語言聲音的幀進(jìn)行校正以提高上述無用信息聲音得分計(jì)算機(jī)構(gòu)算出的無用信息聲音得分;以及識(shí)別結(jié)果輸出機(jī)構(gòu),將上述語言得分、上述單詞聲音得分、以及上述無用信息聲音得分校正機(jī)構(gòu)校正過的無用信息聲音得分的累計(jì)得分最高的單詞串作為上述未知輸入語音的識(shí)別結(jié)果來輸出。
由此,能夠只提高與非語言聲音對(duì)應(yīng)的無用信息聲音得分,能夠正確地識(shí)別未知輸入語音。
此外,在本發(fā)明的語音識(shí)別裝置中,其特征可以在于,上述語音識(shí)別裝置還包括非語言聲音推斷機(jī)構(gòu),針對(duì)每個(gè)上述幀用非語言聲音估算函數(shù)來計(jì)算表示上述非語言聲音的像非語言的程度的估算值;上述無用信息聲音得分校正機(jī)構(gòu)用上述非語言聲音推斷機(jī)構(gòu)算出的輸入了非語言聲音的幀中的估算值,來進(jìn)行校正以提高無用信息聲音得分。
由此,通過用非語言聲音推斷機(jī)構(gòu)推斷非語言聲音,提高與非語言聲音相當(dāng)?shù)臒o用信息聲音得分,由此能夠高精度地識(shí)別未知輸入語音。
此外,在本發(fā)明的語音識(shí)別裝置中,其特征也可以在于,上述非語言聲音推斷機(jī)構(gòu)根據(jù)上述特征量計(jì)算機(jī)構(gòu)算出的每個(gè)幀的特征參數(shù),在上述未知輸入語音的頻譜為重復(fù)圖案的部分中計(jì)算出值大的估算值。
由此,通過檢測未知輸入語音的頻譜的重復(fù)圖案,能夠?qū)⒊砸舻确钦Z言聲音高精度地推斷為無用信息模型。
此外,在本發(fā)明的語音識(shí)別裝置中,其特征可以在于,上述語音識(shí)別裝置還包括非語言推斷用特征量計(jì)算機(jī)構(gòu),針對(duì)每個(gè)上述幀計(jì)算推斷上述非語言聲音所需的非語言推斷用特征參數(shù);和非語言聲音模型保存機(jī)構(gòu),預(yù)先保存將非語言的特征模型化了的聲音模型的非語言聲音模型;上述非語言聲音推斷機(jī)構(gòu)通過針對(duì)每個(gè)上述幀對(duì)照上述非語言推斷用特征參數(shù)和上述非語言聲音模型來計(jì)算非語言對(duì)照得分作為上述估算值。
由此,通過用與用于識(shí)別語音的特征參數(shù)不同的、推斷非語言聲音所需的特征參數(shù)與非語言聲音模型進(jìn)行對(duì)照,能夠高精度地推斷非語言聲音,所以能夠提高相當(dāng)于非語言聲音的無用信息聲音得分,正確地識(shí)別未知輸入語音。
此外,在本發(fā)明的語音識(shí)別裝置中,其特征也可以在于,上述語音識(shí)別裝置還包括高頻功率持續(xù)幀數(shù)計(jì)算機(jī)構(gòu),根據(jù)上述非語言推斷用特征量計(jì)算機(jī)構(gòu)計(jì)算出的上述非語言推斷用特征參數(shù),來計(jì)算高頻功率持續(xù)幀數(shù);上述非語言聲音推斷機(jī)構(gòu)對(duì)照上述非語言推斷用特征參數(shù)和上述非語言聲音模型來計(jì)算非語言對(duì)照得分,根據(jù)上述非語言對(duì)照得分和上述高頻功率持續(xù)幀數(shù)來計(jì)算表示像非語言的程度的估算值。
由此,能夠用與用于識(shí)別語音的特征參數(shù)不同的、推斷非語言聲音所需的特征參數(shù)與非語言聲音模型進(jìn)行對(duì)照,用對(duì)照得分及高頻功率持續(xù)的幀數(shù)來推斷非語言聲音,能夠提高相當(dāng)于非語言聲音的無用信息聲音得分,正確地識(shí)別未知輸入語音。
此外,在本發(fā)明的語音識(shí)別裝置中,其特征也可以在于,上述高頻功率持續(xù)幀數(shù)計(jì)算機(jī)構(gòu)在上述非語言推斷用特征量計(jì)算機(jī)構(gòu)得到的高頻功率高于預(yù)定的閾值的情況下看作是高頻功率高的幀。
由此,能夠容易地計(jì)算高頻功率持續(xù)幀數(shù)。
此外,在本發(fā)明的語音識(shí)別裝置中,其特征也可以在于,上述語音識(shí)別裝置還包括非語言對(duì)應(yīng)字符插入機(jī)構(gòu),根據(jù)上述非語言聲音推斷機(jī)構(gòu)推斷出的估算值,選擇與上述非語言聲音對(duì)應(yīng)的表意字符及情感圖標(biāo)中的至少一方,將選擇出的表意字符及情感圖標(biāo)中的至少一方插入到上述識(shí)別結(jié)果輸出機(jī)構(gòu)的識(shí)別結(jié)果中。
由此,不能能夠提高識(shí)別性能,而且能夠用估算值自動(dòng)地插入表示該非語言聲音的表意字符或情感圖標(biāo)來創(chuàng)建郵件。
此外,在本發(fā)明的語音識(shí)別裝置中,其特征也可以在于,上述語音識(shí)別裝置還包括智能體控制機(jī)構(gòu),根據(jù)上述非語言聲音推斷機(jī)構(gòu)推斷出的估算值及上述識(shí)別結(jié)果輸出機(jī)構(gòu)的識(shí)別結(jié)果,來控制所顯示的智能體的動(dòng)作及該智能體所說的合成音。
由此,通過使用識(shí)別結(jié)果和估算值,能夠按照非語言聲音來改變智能體的動(dòng)作及答話。
此外,在本發(fā)明的語音識(shí)別裝置中,其特征可以在于,上述語音識(shí)別裝置還包括非語言現(xiàn)象推斷機(jī)構(gòu),根據(jù)與非語言聲音聯(lián)動(dòng)的用戶信息,來計(jì)算與該非語言聲音關(guān)聯(lián)的非語言現(xiàn)象的估算值;上述無用信息聲音得分校正機(jī)構(gòu)用上述非語言現(xiàn)象推斷機(jī)構(gòu)算出的輸入了非語言現(xiàn)象的幀中的估算值,來進(jìn)行校正以提高無用信息聲音得分。
由此,通過用非語言現(xiàn)象推斷機(jī)構(gòu)推斷非語言現(xiàn)象,按照非語言現(xiàn)象來提高無用信息聲音得分,能夠高精度地識(shí)別未知輸入語音。
此外,在本發(fā)明的語音識(shí)別裝置中,其特征也可以在于,上述語音識(shí)別裝置還包括非語言對(duì)應(yīng)字符插入機(jī)構(gòu),根據(jù)上述非語言現(xiàn)象推斷機(jī)構(gòu)推斷出的估算值,選擇與上述非語言對(duì)應(yīng)的表意字符及情感圖標(biāo)中的至少一方,將選擇出的表意字符及情感圖標(biāo)中的至少一方插入到上述識(shí)別結(jié)果輸出機(jī)構(gòu)的識(shí)別結(jié)果中。
由此,不僅能夠提高識(shí)別性能,而且能夠用估算值自動(dòng)地插入表示該非語言的表意字符或情感圖標(biāo)來創(chuàng)建郵件。
此外,在本發(fā)明的語音識(shí)別裝置中,其特征也可以在于,上述語音識(shí)別裝置還包括智能體控制機(jī)構(gòu),根據(jù)上述非語言現(xiàn)象推斷機(jī)構(gòu)推斷出的估算值及上述識(shí)別結(jié)果輸出機(jī)構(gòu)的識(shí)別結(jié)果,來控制所顯示的智能體的動(dòng)作及該智能體所發(fā)出的合成音。
由此,通過使用識(shí)別結(jié)果和估算值,能夠根據(jù)非語言現(xiàn)象來改變智能體的動(dòng)作及答話。
此外,在本發(fā)明的語音識(shí)別裝置中,其特征也可以在于,上述語音識(shí)別裝置還包括校正參數(shù)選擇變更機(jī)構(gòu),用于使用戶選擇用于決定對(duì)上述無用信息聲音得分校正機(jī)構(gòu)中的無用信息聲音得分進(jìn)行校正的程度的校正參數(shù)的值,變更為被選擇出的校正參數(shù)的值;上述無用信息聲音得分校正機(jī)構(gòu)根據(jù)上述校正參數(shù)來校正上述無用信息聲音得分。
由此,通過使用戶選擇校正參數(shù),能夠按照插入非語言的難易狀況來自由地進(jìn)行設(shè)定。
從以上說明可知,根據(jù)本發(fā)明的語音識(shí)別裝置,即使是包含吃音、笑聲、咳嗽等非語言部分的未知輸入語音也能夠正確地進(jìn)行語音識(shí)別。
因此,根據(jù)本發(fā)明,即使是包含非語言部分的未知輸入語音也能夠正確地進(jìn)行語音識(shí)別,在具有語音識(shí)別功能的家電設(shè)備、手機(jī)等日益普及的今天,本發(fā)明的實(shí)用價(jià)值極高。
其中,本發(fā)明不僅可以實(shí)現(xiàn)為這種語音識(shí)別裝置,而且可以實(shí)現(xiàn)為將這種語音識(shí)別裝置包括的特征性機(jī)構(gòu)作為步驟的語音識(shí)別方法,或者實(shí)現(xiàn)為使計(jì)算機(jī)執(zhí)行這些步驟的程序。此外,這種程序當(dāng)然可以經(jīng)CD-ROM等記錄媒體或因特網(wǎng)等傳輸媒體來分發(fā)。
圖1是現(xiàn)有的語音識(shí)別裝置的結(jié)構(gòu)圖。
圖2是輸入語音為“それは、だ、だれ(sorewa,da,dare)”的情況下的候選路徑圖。
圖3是本發(fā)明實(shí)施方式1的語音識(shí)別裝置的功能結(jié)構(gòu)方框圖。
圖4是語音識(shí)別裝置1的各部分執(zhí)行的處理的流程圖。
圖5是未知輸入語音為“それは、だ、だれ(sorewa,da,dare)”的情況下的非語言聲音估算函數(shù)及候選路徑圖。
圖6是本發(fā)明實(shí)施方式2的語音識(shí)別裝置的功能結(jié)構(gòu)方框圖。
圖7是語音識(shí)別裝置2的各部分執(zhí)行的處理的流程圖。
圖8是本發(fā)明實(shí)施方式3的語音識(shí)別裝置的功能結(jié)構(gòu)方框圖。
圖9是用戶面向帶攝像機(jī)的手機(jī)、用語音來輸入郵件的情況的示意圖。
圖10是本發(fā)明實(shí)施方式4的語音識(shí)別裝置4的功能結(jié)構(gòu)方框圖。
圖11是將帶情感圖標(biāo)的郵件正文實(shí)際顯示在手機(jī)的畫面901上的狀態(tài)圖。
圖12是本發(fā)明實(shí)施方式5的語音識(shí)別裝置的功能結(jié)構(gòu)方框圖。
圖13是本發(fā)明實(shí)施方式6的語音識(shí)別裝置的功能結(jié)構(gòu)方框圖。
具體實(shí)施例方式
以下,用附圖來說明本發(fā)明實(shí)施方式的語音識(shí)別裝置。
(實(shí)施方式1)圖3是本發(fā)明實(shí)施方式1的語音識(shí)別裝置的功能結(jié)構(gòu)方框圖。其中,在本實(shí)施方式1中,以非語言推斷對(duì)象為吃音的情況為例來進(jìn)行說明。
語音識(shí)別裝置1是使用語音識(shí)別來操作電視機(jī)的計(jì)算機(jī)裝置,如圖3所示,包括特征量計(jì)算部101、網(wǎng)絡(luò)詞典保存部102、路徑計(jì)算部103、候選路徑保存部104、識(shí)別結(jié)果輸出部105、語言模型保存部106、語言得分計(jì)算部107、單詞聲音模型保存部108、單詞聲音得分計(jì)算部109、無用信息聲音模型保存部110、無用信息聲音得分計(jì)算部111、非語言聲音推斷部112、以及無用信息聲音得分校正部113等。
其中,構(gòu)成這種語音識(shí)別裝置1的各部除了保存部,都用CPU、保存CPU執(zhí)行的程序的ROM、在執(zhí)行程序時(shí)提供工作區(qū)、或者暫時(shí)保存與輸入的未知輸入語音對(duì)應(yīng)的PCM信號(hào)的聲音數(shù)據(jù)等的存儲(chǔ)器等來實(shí)現(xiàn)。
特征量計(jì)算部101對(duì)輸入的未知輸入語音進(jìn)行聲音分析,計(jì)算識(shí)別所需的特征參數(shù)。網(wǎng)絡(luò)詞典保存部102保存記述該語音識(shí)別裝置1能夠受理的單詞串的網(wǎng)絡(luò)詞典。路徑計(jì)算部103參照網(wǎng)絡(luò)詞典的記述,計(jì)算路徑的累計(jì)得分以便求出未知輸入語音是何種單詞序列最合適。候選路徑保存部104保存該候選路徑的累計(jì)得分。識(shí)別結(jié)果輸出部105將最終累計(jì)得分最高的單詞序列作為識(shí)別結(jié)果來輸出。
此外,語言模型保存部106預(yù)先保存預(yù)先通過統(tǒng)計(jì)而學(xué)習(xí)了單詞出現(xiàn)的概率的語言模型。語言得分計(jì)算部107根據(jù)語言模型來計(jì)算與該單詞串對(duì)應(yīng)的語言得分。單詞聲音模型保存部108預(yù)先保存與待識(shí)別詞匯對(duì)應(yīng)的單詞的聲音模型——單詞聲音模型。單詞聲音得分計(jì)算部109對(duì)照特征參數(shù)和單詞聲音模型,計(jì)算單詞聲音得分。無用信息聲音模型保存部110預(yù)先保存預(yù)先從意義上無需區(qū)別的“え一と(eeto)”、“う一ん(uun)”等無用詞的集合學(xué)習(xí)到的聲音模型——無用信息聲音模型。無用信息聲音得分計(jì)算部111對(duì)照特征參數(shù)和無用信息聲音模型,計(jì)算無用信息聲音得分。
此外,非語言聲音推斷部112對(duì)每個(gè)幀計(jì)算推斷非語言聲音的值——非語言聲音的估算值。無用信息聲音得分校正部113對(duì)每個(gè)幀校正無用信息聲音得分計(jì)算部111算出的無用信息聲音得分。
接著,說明語音識(shí)別裝置1的各部分識(shí)別未知輸入語音的工作。
圖4是語音識(shí)別裝置1的各部分執(zhí)行的處理的流程圖。
語音識(shí)別裝置1的各部分對(duì)每個(gè)聲音分析的時(shí)間單元——幀,在1至T內(nèi)將輸入幀t逐次前進(jìn)1幀來進(jìn)行以下處理。這里設(shè)幀長為10ms。
首先,特征量計(jì)算部101對(duì)輸入的未知輸入語音進(jìn)行聲音分析,計(jì)算特征參數(shù)(S201)。
接著,非語言聲音推斷部112計(jì)算推斷非語言聲音的值——非語言聲音的估算值(S202)。在本實(shí)施方式1中,用頻譜的重復(fù)圖案來計(jì)算非語言聲音的估算值。
以下詳述非語言聲音的估算值的計(jì)算方法。
設(shè)幀t中的特征參數(shù)矢量為X(t),設(shè)幀i中的特征參數(shù)矢量X(i)和幀j中的特征參數(shù)矢量X(j)之間的歐幾里德距離為d(i,j),則非語言聲音估算值的距離D(t)用式(1)來表示。
其中,也可以用加權(quán)歐幾里德距離來取代歐幾里德距離。在采用了加權(quán)歐幾里德距離的情況下,也能夠得到與歐幾里德距離同樣的效果。
D(t)=Minλ-Ns,-,Ne{Σi=1λd(t+1,t-λ+i)/λ}...(1)]]>式(1)表示λ的值取Ns至Ne(λ為整數(shù))的值時(shí)夾著時(shí)刻t的過去λ幀和未來λ幀的頻譜圖案間的距離中的距離最小時(shí)的值。例如設(shè)Ns=3、Ne=10,則能夠檢測出3幀的重復(fù)至10幀的重復(fù)。在未知輸入語音的頻譜呈現(xiàn)重復(fù)的圖案時(shí),非語言聲音估算值的距離D(t)取小的值。
求幀t中的非語言聲音的估算值的函數(shù)——非語言聲音估算函數(shù)R(t)在本實(shí)施方式1中用式(2)來表示。
α及β是常數(shù)。在頻譜成為重復(fù)的圖案時(shí),非語言聲音估算函數(shù)R(t)的值變大。
其中,也可以用式(3)所示的非語言聲音估算函數(shù)R(t)來取代式(2)的非語言聲音估算函數(shù)R(t)。
圖5是未知輸入語音為“それは、だ、だれ(sorewa,da,dare)”的情況下的非語言聲音估算函數(shù)及候選路徑圖。具體地說,圖5(a)是非語言聲音估算函數(shù)的示例圖。
在圖5(a)中,縱軸是表示非語言聲音估算值的值,橫軸是幀。此外,圖5(b)示出了未知輸入語音的單詞的切分位置。這樣,非語言聲音估算函數(shù)R(t)在非語言聲音——吃音部分“だ(da)”的幀中呈現(xiàn)高的非語言聲音估算值。
接著,路徑計(jì)算部103首先參照網(wǎng)絡(luò)詞典保存部102中保存的網(wǎng)絡(luò)詞典從前一幀中的候選路徑延伸路徑。然后,路徑計(jì)算部103在前一幀為單詞末端的路徑中參照網(wǎng)絡(luò)詞典來求接著能夠連接的單詞或無用信息模型,創(chuàng)建連接了所有可能連接的單詞或無用信息模型的新路徑(S203)。其中,在前一幀為單詞途中的路徑中,路徑計(jì)算部103進(jìn)一步延伸該單詞。
此外,圖5(c)示出了輸入語音為“それは、だ、だれ(sorewa,da,dare)”的情況下幀為t-1時(shí)的候選路徑。圖5(d)示出了該情況下幀為t時(shí)的候選路徑。
這里,路徑311、312、313、314表示單詞途中的最佳路徑以外的路徑,路徑321表示到達(dá)單詞末端的最佳路徑以外的路徑,路徑331、332表示到達(dá)單詞末端的最佳路徑,路徑341表示單詞途中的最佳路徑。
例如,在圖5(d)中,在路徑321的“綿(wada)”上,連接著路徑311的“種(dane)”、和路徑312的“菓子(gashi)”。此外,在路徑332的“無用信息模型”上,連接著路徑341的“だれ(dare)”。在其他路徑中,單詞進(jìn)一步被延伸。
接著,語言得分計(jì)算部107參照語言模型保存部106中保存的語言模型,來計(jì)算延伸及連接了的新候選路徑的語言得分,輸出到路徑計(jì)算部103(S204)。
這里,作為語言得分,采用從前一單詞鏈接的單詞的概率——二元語法概率的對(duì)數(shù)值。例如,在圖5(c)的路徑331上的“は(wa)”之后連接路徑313的“だれ(dare)”的路徑中,采用在“は(wa)”之后出現(xiàn)“だれ(dare)”的出現(xiàn)概率。提供它的定時(shí)可以是每個(gè)單詞1次。
接著,路徑計(jì)算部103判斷當(dāng)前幀的候選路徑是否是單詞(S205)。即,判斷是單詞還是無用信息模型。
如果判斷的結(jié)果是單詞則執(zhí)行后述步驟S206,如果是無用信息模型則執(zhí)行后述步驟S207、S208。
例如,在圖5(c)的幀t-1中,對(duì)路徑314的“綿(wada)”、路徑321的“綿(wada)”、以及路徑313的“だれ(dare)”,執(zhí)行步驟S206。而對(duì)路徑332的“無用信息模型”,則執(zhí)行S207、S208。
在步驟S205中路徑計(jì)算部103判斷為單詞的情況下,單詞聲音得分計(jì)算部109參照單詞聲音模型,來計(jì)算當(dāng)前候選路徑的單詞聲音得分(S206)。
而在步驟S205中路徑計(jì)算部103判斷為無用信息的情況下,無用信息聲音得分計(jì)算部111參照無用信息聲音模型,來計(jì)算當(dāng)前候選路徑的無用信息聲音得分(S207)。
接著,無用信息聲音得分校正部113參照非語言聲音估算函數(shù),來校正步驟S207中計(jì)算出的無用信息聲音得分,計(jì)算新無用信息聲音得分(S208)。
以下詳述新無用信息聲音得分的計(jì)算方法。
在幀t中,設(shè)特征參數(shù)矢量為X(t),設(shè)通過與無用信息聲音模型進(jìn)行對(duì)照而得到的無用信息聲音得分為G(t),則在本實(shí)施方式1中,無用信息聲音得分校正部113如式(4)所示來校正無用信息聲音得分計(jì)算部111計(jì)算出的無用信息聲音得分G(t),設(shè)校正后的新無用信息聲音得分為G*(t)。w是加權(quán)常數(shù)(校正參數(shù))。
G*(t)=G(t)+wR(t)…(4)其結(jié)果是,例如以往只有2分的無用信息聲音得分,在本實(shí)施方式1中被校正為6分。
其中,如果頻譜在時(shí)間上重復(fù)的部分是無用信息聲音得分上升的函數(shù),則也可以采用式(4)以外的任何函數(shù)。
其中,單詞聲音模型及無用信息聲音模型與現(xiàn)有例同樣采用隱馬爾可夫模型(HMM)。此外,單詞聲音得分及無用信息聲音得分是從HMM得到的概率的對(duì)數(shù)值,表示單詞及無用信息模型的發(fā)生概率。
接著,路徑計(jì)算部103將當(dāng)前候選路徑的語言得分、單詞聲音得分及無用信息聲音得分相加,計(jì)算當(dāng)前候選路徑的對(duì)照得分。進(jìn)而,路徑計(jì)算部103與現(xiàn)有例同樣用Viterbi算法來計(jì)算當(dāng)前候選路徑的當(dāng)前幀以前的路徑,根據(jù)所有路徑的對(duì)照得分來計(jì)算累計(jì)得分,作為候選路徑信息登記到候選路徑保存部104中(S209)。
這里,單純地計(jì)算所有延伸了的候選路徑并記錄,會(huì)導(dǎo)致計(jì)算量及存儲(chǔ)容量的增加,所以不理想。因此,采用對(duì)每個(gè)幀按累計(jì)得分從高到低的順序只保留K個(gè)(K是自然數(shù))的定向搜索。將該當(dāng)前幀中的K個(gè)候選路徑的信息登記到候選路徑保存部104中。
接著,路徑計(jì)算部103判斷是否算出了所有候選路徑的累計(jì)得分(S210)。在判斷的結(jié)果是未算出所有候選路徑的累計(jì)得分的情況下(在S210中為“否”)執(zhí)行步驟S211,在算出了所有候選路徑的累計(jì)得分的情況下(在S210中為“是”)執(zhí)行步驟S212。
在未算出所有候選路徑的累計(jì)得分的情況下(在S210中為“否”),在步驟S211中轉(zhuǎn)移到下一候選路徑,重復(fù)步驟S205至步驟S210的處理,從而算出當(dāng)前幀以前的所有候選路徑的累計(jì)得分。
在算出了所有候選路徑的累計(jì)得分的情況下(在S210中為“是”),路徑計(jì)算部103判斷是否對(duì)所有幀完成了處理(S212)。在判斷的結(jié)果是未完成對(duì)所有幀的處理的情況下(在S212中為“否”)執(zhí)行步驟S213,在完成了對(duì)所有幀的處理的情況下(在S212中為“是”)執(zhí)行步驟S214。
在未完成對(duì)所有幀的處理的情況下(在S212中為“否”),在步驟S213中轉(zhuǎn)移到下一幀,重復(fù)步驟S201至步驟S210的處理,從而進(jìn)行直至最后一幀的處理。
在完成了對(duì)所有幀的處理的情況下(在S212中為“是”),識(shí)別結(jié)果輸出部105在最后一幀中將候選路徑保存部104中保存的候選路徑中累計(jì)得分最高的候選路徑的單詞串作為識(shí)別結(jié)果來輸出(S214)。
其結(jié)果是,以往如圖2(c)所示,在“それ(sore)”+“綿(wada)”的情況下為7+10=17分,在“それ(sore)”+“綿(wada)”+“種(dane)”的情況下為7+9+2=18分,在“それ(sore)”+“綿(wada)”+“菓子(gashi)”的情況下為7+9+1=17分,在“それ(sore)”+“は(wa)”+“だれ(dare)”的情況下為7+5+4=16分,在“それ(sore)”+“は(wa)”+無用信息模型+“だれ(dare)”的情況下為7+5+2+1=15分,所以“それ(sore)”+“綿(wada)”+“種(dane)”是當(dāng)前幀中的最高得分。
相反,根據(jù)本實(shí)施方式1的語音識(shí)別裝置1,如圖5(d)所示,在“それ(sore)”+“綿(wada)”的情況下為7+10=17分,在“それ(sore)”+“綿(wada)”+“種(dane)”的情況下為7+9+2=18分,在“それ(sore)”+“綿(wada)”+“菓子(gashi)”的情況下為7+9+1=17分,在“それ(sore)”+“は(wa)”+“だれ(dare)”的情況下為7+5+4=16分,在“それ(sore)”+“は(wa)”+無用信息模型+“だれ(dare)”的情況下為7+5+6+1=19分,所以“それ(sore)”+“は(wa)”+無用信息模型+“だれ(dare)”為當(dāng)前幀t以前的最高得分。
從以上可知,在本實(shí)施方式1的語音識(shí)別裝置1中,通過應(yīng)用非語言聲音估算函數(shù),不是一概提高無用信息聲音得分,而是只增大非語言聲音——吃音部分的無用信息聲音得分,從而能夠正確地識(shí)別未知輸入語音。
由此,例如在用語音識(shí)別來操作電視機(jī)的情況下,即使用戶緊張而發(fā)出了吃音,也能夠正確地識(shí)別,所以還能夠同時(shí)發(fā)揮可減輕用戶的體力和精神負(fù)擔(dān)的效果。
其中,單詞聲音模型也可以連結(jié)音素、音節(jié)、CV(輔音consonant-元音vowel)及VC(元音vowel-輔音consonant)的子字單位的聲音模型。
其中,在本實(shí)施方式1中,通過檢測頻譜重復(fù)的圖案來推斷非語言聲音,但是也可以采用其他推斷方法。
(實(shí)施方式2)接著,說明本發(fā)明實(shí)施方式2的語音識(shí)別裝置。
圖6是本發(fā)明實(shí)施方式2的語音識(shí)別裝置的功能結(jié)構(gòu)方框圖。其中,在本實(shí)施方式2中,以非語言推斷對(duì)象為笑聲的情況為例來進(jìn)行說明。此外,對(duì)與實(shí)施方式1的語音識(shí)別裝置1對(duì)應(yīng)的部分附以同一標(biāo)號(hào),省略其詳細(xì)說明。
語音識(shí)別裝置2與語音識(shí)別裝置1同樣是用語音識(shí)別來操作電視機(jī)的計(jì)算機(jī)裝置,如圖6所示,除了包括特征量計(jì)算部101、網(wǎng)絡(luò)詞典保存部102、路徑計(jì)算部103、候選路徑保存部104、識(shí)別結(jié)果輸出部105、語言模型保存部106、語言得分計(jì)算部107、單詞聲音模型保存部108、單詞聲音得分計(jì)算部109、無用信息聲音模型保存部110、無用信息聲音得分計(jì)算部111、非語言聲音推斷部112及無用信息聲音得分校正部113之外,還包括非語言推斷用特征量計(jì)算部114、非語言聲音模型保存部115及高頻功率持續(xù)幀數(shù)計(jì)算部116。
其中,構(gòu)成這種語音識(shí)別裝置2的各部分與語音識(shí)別裝置1同樣,除了保存部,都用CPU、保存CPU執(zhí)行的程序的ROM、在執(zhí)行程序時(shí)提供工作區(qū)、或者暫時(shí)保存與輸入的未知輸入語音對(duì)應(yīng)的PCM信號(hào)的聲音數(shù)據(jù)等的存儲(chǔ)器等來實(shí)現(xiàn)。
非語言推斷用特征量計(jì)算部114對(duì)輸入的未知輸入語音進(jìn)行聲音分析,對(duì)每個(gè)幀計(jì)算與非語言聲音模型進(jìn)行對(duì)照所需的特征參數(shù)及高頻功率。非語言聲音模型保存部115預(yù)先保存笑聲等非語言的聲音模型——非語言聲音模型。
此外,高頻功率持續(xù)幀數(shù)計(jì)算部116對(duì)高頻功率高的幀連續(xù)的幀數(shù)進(jìn)行計(jì)數(shù)。非語言聲音推斷部112用輸入語音的非語言推斷用特征參數(shù)和非語言聲音模型的對(duì)照得分及高頻功率高的部分的持續(xù)幀數(shù),對(duì)每個(gè)幀計(jì)算像是非語言的程度——非語言聲音估算函數(shù)。無用信息聲音得分校正部113對(duì)每個(gè)幀用非語言聲音估算函數(shù)來校正無用信息聲音得分計(jì)算部111算出的無用信息聲音得分。
接著,用圖7來說明語音識(shí)別裝置2的各部分識(shí)別未知輸入語音的工作。
圖7是語音識(shí)別裝置2的各部分執(zhí)行的處理的流程圖。
語音識(shí)別裝置2的各部分對(duì)每個(gè)幀在1至T內(nèi)將輸入幀t逐次前進(jìn)1幀來進(jìn)行以下步驟S701至步驟S714的處理。這里也設(shè)幀長為10ms。
首先,特征量計(jì)算部101對(duì)輸入的未知輸入語音進(jìn)行聲音分析,計(jì)算出特征參數(shù)(S701)。這里,作為特征參數(shù),采用Me1倒譜系數(shù)(メルフイルタバンクケプストラム係數(shù),MFCC)及其回歸系數(shù)及語音功率差分。
接著,非語言推斷用特征量計(jì)算部114計(jì)算輸入的未知輸入語音的笑聲的非語言推斷用特征參數(shù)(S702)。
接著,在頻譜非語言推斷用特征量計(jì)算部114得到的高頻功率高于預(yù)定的閾值θ的情況下,高頻功率持續(xù)幀數(shù)計(jì)算部116看作是高頻功率高的幀,遞增高頻功率持續(xù)幀數(shù)Nhp,在高頻功率變得低于閾值θ的時(shí)刻將高頻功率持續(xù)幀數(shù)Nhp清零。即,對(duì)高頻功率高的部分持續(xù)的幀數(shù)進(jìn)行計(jì)數(shù)(S703)。
接著,非語言聲音推斷部112對(duì)照非語言推斷用特征參數(shù)和非語言聲音模型,計(jì)算表示像是笑聲的程度的非語言推斷函數(shù)的值。即,根據(jù)笑聲的非語言推斷用特征參數(shù)和非語言模型來計(jì)算非語言對(duì)照得分,根據(jù)非語言對(duì)照得分和高頻功率持續(xù)幀數(shù)來計(jì)算表示像是笑聲的程度的非語言聲音估算值(S704)。以下詳述該方法。
首先,對(duì)每個(gè)幀與非語言聲音模型保存部115中保存著的非語言聲音模型進(jìn)行對(duì)照。非語言聲音模型預(yù)先從許多笑聲語音數(shù)據(jù)進(jìn)行學(xué)習(xí),保存到非語言聲音模型保存部115中。
非語言聲音模型的特征參數(shù)采用音調(diào)頻率、語音全域功率、高頻功率、低頻功率等與單詞聲音模型不同的特征參數(shù)。或者也可以采用與單詞聲音模型相同的特征參數(shù)(MFCC)或并用兩者。此外,也可以采用過去N幀中的語音的最大功率、最低功率、最大功率和最低功率之差、最小音調(diào)頻率、最大音調(diào)頻率及最大音調(diào)頻率和最小音調(diào)頻率之差等參數(shù)。
然后,根據(jù)當(dāng)前幀或包含當(dāng)前幀的多個(gè)幀的特征參數(shù)來構(gòu)成特征參數(shù)矢量,作為用于與非語言聲音模型進(jìn)行對(duì)照的非語言推斷用特征參數(shù)矢量。
作為非語言聲音模型,可以采用隱馬爾可夫模型(HMM)或高斯混合模型(GMM)、貝葉斯網(wǎng)絡(luò)(BN)、圖形模型(GM)、神經(jīng)網(wǎng)絡(luò)(NN)等。其中,在本實(shí)施方式2中采用GMM。
將通過與非語言聲音模型進(jìn)行對(duì)照而得到的輸入幀t中的笑聲的得分作為非語言對(duì)照得分S(t)。越像笑聲,則非語言對(duì)照得分S(t)具有越大的值,具有正數(shù)、“0”或負(fù)數(shù)的值。用非語言對(duì)照得分S(t)和高頻功率持續(xù)幀數(shù)計(jì)算部116得到的高頻功率持續(xù)幀數(shù)Nhp,如式(5)所示來表示笑聲用的非語言聲音估算函數(shù)R(t)。其中,α、λ、Rmin、Rmax是常數(shù),通過識(shí)別實(shí)驗(yàn)定為使識(shí)別率高的值。
由此,在有笑聲時(shí),非語言聲音估算函數(shù)R(t)的值變大。
以下,步驟S705至步驟S716的處理與實(shí)施方式1的步驟S203至步驟S214相同,所以這里省略其說明。
從以上可知,在本實(shí)施方式2的語音識(shí)別裝置2中,通過應(yīng)用非語言聲音估算函數(shù),能夠不是一律提高無用信息聲音得分,而是只增大笑聲部分的無用信息聲音得分,能夠正確地識(shí)別未知輸入語音。
其中,單詞聲音模型與實(shí)施方式1同樣,也可以連結(jié)音素、音節(jié)、CV及VC的子字單位的聲音模型。此外,如果無用信息聲音模型不僅學(xué)習(xí)“え一と(eeto)”、“う一ん(uun)”等無用詞語音,而且學(xué)習(xí)包含笑聲、咳嗽及突發(fā)音在內(nèi)的非語言聲音,則識(shí)別精度進(jìn)一步提高。
由此,例如在用語音識(shí)別來操作電視機(jī)的情況下,即使用戶邊笑邊說,也能夠正確地識(shí)別,所以能夠減輕用戶的體力和精神負(fù)擔(dān)。
其中,在實(shí)施方式2中,用與非語言聲音模型的對(duì)照得分及高頻功率持續(xù)幀數(shù)這兩者來確定笑聲推斷函數(shù),但是也可以只使用其中任一個(gè)。
此外,在實(shí)施方式2中,非語言聲音將笑聲作為對(duì)象,但是將咳嗽作為對(duì)象也能夠用同樣的方法來識(shí)別包含咳嗽的語音。
(實(shí)施方式3)接著,說明本發(fā)明實(shí)施方式3的語音識(shí)別裝置。
圖8是本發(fā)明實(shí)施方式3的語音識(shí)別裝置的功能結(jié)構(gòu)方框圖,圖9是用戶面向帶攝像機(jī)的手機(jī)、用語音來輸入郵件的情況的示意圖。其中,在本實(shí)施方式3中,以下述情況為例來進(jìn)行說明帶攝像機(jī)的手機(jī)將攝像機(jī)圖像作為輸入來檢測笑或咳嗽,校正語音識(shí)別的無用信息聲音得分。此外,對(duì)與實(shí)施方式1的語音識(shí)別裝置1對(duì)應(yīng)的構(gòu)件附以同一標(biāo)號(hào),省略其說明。
語音識(shí)別裝置3是用語音識(shí)別來創(chuàng)建郵件的手機(jī)等計(jì)算機(jī)裝置,如圖8所示,除了包括特征量計(jì)算部101、網(wǎng)絡(luò)詞典保存部102、路徑計(jì)算部103、候選路徑保存部104、識(shí)別結(jié)果輸出部105、語言模型保存部106、語言得分計(jì)算部107、單詞聲音模型保存部108、單詞聲音得分計(jì)算部109、無用信息聲音模型保存部110、無用信息聲音得分計(jì)算部111及無用信息聲音得分校正部113之外,還包括取代非語言聲音推斷部112而使用的非語言現(xiàn)象推斷部117。
其中,構(gòu)成這種語音識(shí)別裝置3的各部分與語音識(shí)別裝置1同樣,除了保存部,都用CPU、保存CPU執(zhí)行的程序的ROM、在執(zhí)行程序時(shí)提供工作區(qū)、或者暫時(shí)保存與輸入的未知輸入語音對(duì)應(yīng)的PCM信號(hào)的聲音數(shù)據(jù)等的存儲(chǔ)器等來實(shí)現(xiàn)。
非語言現(xiàn)象推斷部117將實(shí)時(shí)拍攝用戶面部的攝像機(jī)圖像信息作為輸入來檢測笑臉,計(jì)算表示“像是正在笑的程度”的非語言現(xiàn)象推斷函數(shù)R(t)。檢測笑臉的方式可以采用現(xiàn)有的任何方式,非語言現(xiàn)象推斷函數(shù)R(t)越大,則表示“像是正在笑的程度”越大。
例如,從攝像機(jī)輸入的面部圖像中提取表示眼、鼻、口等各個(gè)器官的輪廓的邊緣信息,將其形狀或位置關(guān)系作為特征參數(shù),與笑臉模型進(jìn)行對(duì)照來檢測笑容。此外,也可以是不檢測笑臉、而檢測咳嗽的圖像、表示“像是正在咳嗽的程度”的非語言現(xiàn)象推斷函數(shù)。
其中,非語言現(xiàn)象推斷函數(shù)R(t)與實(shí)施方式1、2同樣,可以采用式(2)至式(5)。
再者,也可以通過與實(shí)施方式1、2中的至少一個(gè)組合,用語音的非語言聲音估算函數(shù)和圖像的非語言現(xiàn)象推斷函數(shù)的加權(quán)和作為新的非語言現(xiàn)象推斷函數(shù)。
此外,也可以不是輸入攝像機(jī)圖像信息,而是安裝腦電波、血壓、心率、發(fā)汗、面部溫度等人體信息傳感器,將這些人體信息作為輸入。
例如,通過對(duì)照腦電波測試儀輸入的腦電波的時(shí)間序列圖案、和表示笑的狀態(tài)的笑腦電波模型,能夠計(jì)算表示“像是正在笑的程度”的非語言現(xiàn)象推斷函數(shù)R(t)。此外,作為輸入特征量,通過組合腦電波以及來自表示血壓、心率的血壓計(jì)的壓電傳感器的電壓時(shí)間序列圖案、來自表示發(fā)汗量、面部溫度的濕度傳感器、溫度傳感器的電流時(shí)間序列圖案等,能夠推斷更高級(jí)的非語言現(xiàn)象。
其中,在實(shí)施方式3的語音識(shí)別裝置3中,將手機(jī)作為對(duì)象,但是也可以是個(gè)人計(jì)算機(jī)、汽車導(dǎo)航系統(tǒng)、電視機(jī)、其他家電產(chǎn)品等。
由此,例如在向帶攝像機(jī)的手機(jī)中輸入郵件時(shí),通過使用面部圖像,即使在周圍噪聲多的場所,也能夠與笑聲同步來正確地檢測笑臉,能夠?qū)o用信息聲音得分校正為高的值,所以能夠提高語音識(shí)別性能。此外,在咳嗽的情況下也與笑聲同樣,能夠提高語音識(shí)別性能。
(實(shí)施方式4)接著,說明本發(fā)明實(shí)施方式4的語音識(shí)別裝置。
圖10是本發(fā)明實(shí)施方式4的語音識(shí)別裝置4的功能結(jié)構(gòu)方框圖,圖11是將帶情感圖標(biāo)的郵件正文實(shí)際顯示在手機(jī)的畫面901上的狀態(tài)圖。其中,在本實(shí)施方式4中,在將語音識(shí)別用作手機(jī)的字符輸入界面的情況下,在語音識(shí)別時(shí)笑或者咳嗽時(shí),如果笑或咳嗽的非語言聲音估算函數(shù)超過預(yù)定的閾值,則在其句中位置或句末,顯示與該非語言的種類相應(yīng)的情感圖標(biāo)。例如,作為笑臉的情感圖標(biāo)有“(^O^)”,作為咳嗽的情況下的情感圖標(biāo)有“ρ(>o<)”。此外,對(duì)與實(shí)施方式2的語音識(shí)別裝置2對(duì)應(yīng)的構(gòu)件附以同一標(biāo)號(hào),省略其說明。
語音識(shí)別裝置4是用語音識(shí)別來創(chuàng)建郵件的手機(jī)等計(jì)算機(jī)裝置,如圖10所示,除了包括特征量計(jì)算部101、網(wǎng)絡(luò)詞典保存部102、路徑計(jì)算部103、候選路徑保存部104、識(shí)別結(jié)果輸出部105、語言模型保存部106、語言得分計(jì)算部107、單詞聲音模型保存部108、單詞聲音得分計(jì)算部109、無用信息聲音模型保存部110、無用信息聲音得分計(jì)算部111、非語言聲音推斷部112、無用信息聲音得分校正部113、非語言推斷用特征量計(jì)算部114、非語言聲音模型保存部115及高頻功率持續(xù)幀數(shù)計(jì)算部116之外,還包括非語言對(duì)應(yīng)字符插入部118。
其中,構(gòu)成這種語音識(shí)別裝置4的各部分與語音識(shí)別裝置2同樣,除了保存部,都用CPU、保存CPU執(zhí)行的程序的ROM、在執(zhí)行程序時(shí)提供工作區(qū)、或者暫時(shí)保存與輸入的未知輸入語音對(duì)應(yīng)的PCM信號(hào)的聲音數(shù)據(jù)等的存儲(chǔ)器等來實(shí)現(xiàn)。
非語言對(duì)應(yīng)字符插入部118包括與笑或咳嗽等非語言聲音對(duì)應(yīng)的情感圖標(biāo)或字符(表意字符),在非語言聲音推斷部112輸出的非語言聲音估算函數(shù)R(t)的大小超過閾值的情況下,在其句中位置或句末插入與該非語言的種類相應(yīng)的情感圖標(biāo),顯示在識(shí)別結(jié)果輸出部105輸出的識(shí)別結(jié)果中插入了圖11所示的情感圖標(biāo)的句子。其中,情感圖標(biāo)也可以顯示為字符。例如,也可以在用戶笑了的情況下插入“(笑)”,在用戶咳嗽了的情況下插入“(咳)”。
其中,根據(jù)非語言現(xiàn)象來顯示何種字符及情感圖標(biāo)也可以預(yù)先由用戶自身來設(shè)定,在通過語音識(shí)別來輸入字符時(shí),也可以由用戶來設(shè)定是否需要根據(jù)非語言現(xiàn)象來插入字符及情感圖標(biāo)。
此外,也可以在非語言聲音估算函數(shù)R(t)的值小的情況下采用微笑的情感圖標(biāo),在非語言聲音估算函數(shù)R(t)的值大的情況下采用大笑的情感圖標(biāo)。此外,可以根據(jù)非語言聲音估算函數(shù)的值在預(yù)定的閾值以上的幀的持續(xù)幀數(shù)來變更根據(jù)非語言現(xiàn)象顯示的字符及情感圖標(biāo)。
例如,可以在微笑的情況下顯示情感圖標(biāo)“(⌒o⌒)”,在大笑的情況下顯示情感圖標(biāo)“(≥≤)”。
再者,將顯示位置設(shè)在該非語言現(xiàn)象出現(xiàn)的句中位置還是設(shè)在句末,可以由用戶自身來設(shè)定。
其中,也可以不校正無用信息聲音得分,只顯示與根據(jù)非語言聲音估算函數(shù)R(t)檢測出的非語言的種類相應(yīng)的字符或情感圖標(biāo)。在此情況下,也可以與“憤怒”、“喜悅”、“疑問”等非語言聲音模型進(jìn)行對(duì)照來推斷非語言聲音估算函數(shù),在非語言聲音估算函數(shù)的值在預(yù)定的閾值以上的情況下,顯示與非語言現(xiàn)象相應(yīng)的字符;再者,通過如實(shí)施方式3的語音識(shí)別裝置3所示,使用通過并用攝像機(jī)圖像或人體信息而算出的非語言現(xiàn)象推斷函數(shù)R(t),能夠精度更高地進(jìn)行顯示。此外,也可以通過在實(shí)施方式l的語音識(shí)別裝置1上附加非語言對(duì)應(yīng)字符插入部118,來構(gòu)成語音識(shí)別裝置4。
這里,可以對(duì)“憤怒”顯示“(怒)”或“(メ)”等,對(duì)“喜悅”顯示“(喜)”或“o(^^o~ )”等,對(duì)“疑問”顯示“(?)”或“(._.?)”等。
其中,表示非語言現(xiàn)象的字符及情感圖標(biāo)也可以顯示上述以外的字符及情感圖標(biāo)。
通過以上結(jié)構(gòu),例如在向手機(jī)中輸入郵件時(shí),不僅語音識(shí)別提高,而且能夠在邊實(shí)際輸入語音邊笑的地方插入情感圖標(biāo),能書寫更有現(xiàn)實(shí)感的郵件。
(實(shí)施方式5)接著,說明本發(fā)明實(shí)施方式5的語音識(shí)別裝置。
圖12是本發(fā)明實(shí)施方式5的語音識(shí)別裝置的功能結(jié)構(gòu)方框圖。其中,在本實(shí)施方式5中,在與個(gè)人計(jì)算機(jī)上的智能體(エ一ジエント)的對(duì)話中,如果檢測出吃音、笑聲、咳嗽,則智能體執(zhí)行與該非語言的種類相應(yīng)的應(yīng)對(duì)措施。此外,對(duì)與實(shí)施方式2的語音識(shí)別裝置2對(duì)應(yīng)的構(gòu)件附以同一標(biāo)號(hào),省略其說明。
語音識(shí)別裝置5是具備語音識(shí)別功能的個(gè)人計(jì)算機(jī)等計(jì)算機(jī)裝置,如圖12所示,除了包括特征量計(jì)算部101、網(wǎng)絡(luò)詞典保存部102、路徑計(jì)算部103、候選路徑保存部104、識(shí)別結(jié)果輸出部105、語言模型保存部106、語言得分計(jì)算部107、單詞聲音模型保存部108、單詞聲音得分計(jì)算部109、無用信息聲音模型保存部110、無用信息聲音得分計(jì)算部111、非語言聲音推斷部112、無用信息聲音得分校正部113、非語言推斷用特征量計(jì)算部114、非語言聲音模型保存部115及高頻功率持續(xù)幀數(shù)計(jì)算部116之外,還包括智能體控制部119。
其中,構(gòu)成這種語音識(shí)別裝置5的各部分與語音識(shí)別裝置2同樣,除了保存部,都用CPU、保存CPU執(zhí)行的程序的ROM、在執(zhí)行程序時(shí)提供工作區(qū)、或者暫時(shí)保存與輸入的未知輸入語音對(duì)應(yīng)的PCM信號(hào)的聲音數(shù)據(jù)等的存儲(chǔ)器等來實(shí)現(xiàn)。
智能體控制部119包括在畫面上顯示的智能體的圖像、和智能體說出的合成音的數(shù)據(jù),按照從識(shí)別結(jié)果輸出部105得到的識(shí)別結(jié)果、和從非語言聲音推斷部112得到的非語言聲音估算函數(shù)的大小,改變智能體的動(dòng)作和表情并顯示在畫面上,并且輸出智能體應(yīng)對(duì)的合成語音的話語。
例如,在檢測出吃音的情況下,智能體輸出“別緊張!”這一合成語音,并且使智能體執(zhí)行搖手等促使放松的動(dòng)作。此外,在檢測出笑聲的情況下,智能體邊一起笑邊輸出合成語音“有那么可笑嗎?”;在檢測出咳嗽的情況下,面帶擔(dān)憂地輸出合成語音“感冒了吧?”。
再者,在檢測出許多笑聲或咳嗽、未能得到識(shí)別結(jié)果的情況下,用合成音輸出“笑聲多,不能識(shí)別”、或者“咳嗽多,不能識(shí)別”,在畫面上智能體執(zhí)行抱歉等動(dòng)作。
其中,在實(shí)施方式5中,與個(gè)人計(jì)算機(jī)上的職能體進(jìn)行對(duì)話,但是不限于個(gè)人計(jì)算機(jī),用電視機(jī)、手機(jī)等其他電子設(shè)備也能夠執(zhí)行同樣的顯示。此外,通過與實(shí)施方式3組合,使用根據(jù)手機(jī)的攝像機(jī)圖像檢測出了笑臉的結(jié)果等,能夠使智能體執(zhí)行同樣的動(dòng)作。此外,也可以通過在實(shí)施方式1的語音識(shí)別裝置1上附加智能體控制部119,來構(gòu)成語音識(shí)別裝置5。
其中,在實(shí)施方式5中,用非語言聲音估算函數(shù)進(jìn)行了說明,但是采用非語言現(xiàn)象推斷函數(shù)或非語言聲音估算函數(shù)中的至少一個(gè)的結(jié)構(gòu)也能夠得到同樣的效果。
通過以上結(jié)構(gòu),在與智能體的對(duì)話中,不僅語音識(shí)別提高,而且能夠緩和用戶的緊張,更愉快地進(jìn)行會(huì)話。
(實(shí)施方式6)接著,說明本發(fā)明實(shí)施方式6的語音識(shí)別裝置。
圖13是本發(fā)明實(shí)施方式6的語音識(shí)別裝置的功能結(jié)構(gòu)方框圖。其中,在本實(shí)施方式6中,用戶預(yù)先決定式(4)中的無用信息聲音得分校正部113所用的校正參數(shù)w的值。
這里,如果增大w的值,則作為語音識(shí)別結(jié)果容易插入非語言部分;如果減小w的值,則難以插入非語言部分。例如,對(duì)于容易發(fā)出吃音的用戶,校正程度大,則性能高,容易使用;對(duì)于不太發(fā)出吃音的用戶,校正程度小,則性能高,容易使用。
此外,也有時(shí)在用語音來輸入話語隨便的郵件的情況下,在給好友的郵件等中,容易通過笑聲等來插入情感圖標(biāo),則很方便;而在給上級(jí)的郵件等中,難以插入情感圖標(biāo),或者完全不能插入情感圖標(biāo),則很方便。因此,應(yīng)該由用戶自身來設(shè)定決定非語言部分插入頻度的參數(shù)。
這里,以語音識(shí)別裝置2為基礎(chǔ)來說明用戶校正無用信息聲音得分校正部113所用的校正參數(shù)w的值的情況。此外,對(duì)與語音識(shí)別裝置2對(duì)應(yīng)的構(gòu)件附以同一標(biāo)號(hào),省略其說明。
語音識(shí)別裝置6是具備語音識(shí)別功能的計(jì)算機(jī)裝置,如圖13所示,除了包括特征量計(jì)算部101、網(wǎng)絡(luò)詞典保存部102、路徑計(jì)算部103、候選路徑保存部104、識(shí)別結(jié)果輸出部105、語言模型保存部106、語言得分計(jì)算部107、單詞聲音模型保存部108、單詞聲音得分計(jì)算部109、無用信息聲音模型保存部110、無用信息聲音得分計(jì)算部111、非語言聲音推斷部112、無用信息聲音得分校正部113、非語言推斷用特征量計(jì)算部114、非語言聲音模型保存部115及高頻功率持續(xù)幀數(shù)計(jì)算部116之外,還包括校正參數(shù)選擇變更部120。
其中,構(gòu)成這種語音識(shí)別裝置6的各部分與語音識(shí)別裝置2同樣,除了保存部,都用CPU、保存CPU執(zhí)行的程序的ROM、在執(zhí)行程序時(shí)提供工作區(qū)、或者暫時(shí)保存與輸入的未知輸入語音對(duì)應(yīng)的PCM信號(hào)的聲音數(shù)據(jù)等的存儲(chǔ)器等來實(shí)現(xiàn)。
校正參數(shù)選擇變更部120在畫面上顯示增大校正程度的按鈕、減小校正程度的按鈕、完全不進(jìn)行校正的按鈕這3個(gè)按鈕,根據(jù)用戶的選擇,來變更無用信息聲音得分校正部113所用的式(4)的參數(shù)w的值。
首先,校正參數(shù)選擇變更部120在初始設(shè)定等時(shí)將校正參數(shù)的按鈕顯示在畫面上,使用戶按照自身的喜好,來選擇校正程度。
接著,校正參數(shù)選擇變更部120根據(jù)用戶的選擇來變更無用信息聲音得分校正部113所用的式(4)的參數(shù)w的值。
由此,能夠根據(jù)用戶的嗜好來設(shè)定識(shí)別結(jié)果的非語言部分的插入頻度。
其中,校正參數(shù)選擇變更部120也可以不是顯示按鈕,而是顯示滾動(dòng)條,使得用戶能夠指定任意的值;此外,在手機(jī)這樣畫面小、難以使用指點(diǎn)設(shè)備的情況下,也可以分派給數(shù)字按鈕或功能鍵。
此外,無用信息得分的值根據(jù)用戶的音質(zhì)或說話方式來變動(dòng),所以為了使用戶按自己的說話方式來精度最高地識(shí)別包含非語言部分的語音,也可以邊實(shí)際說話邊設(shè)定無用信息得分的校正參數(shù)。
其中,在本實(shí)施方式6中用戶只決定了校正參數(shù)w,但是用戶也可以設(shè)定式(1)中的Ns、Ne、式(2)、式(3)、式(5)中的α、β、γ、Rmin、Rmax地來構(gòu)成。
此外,也可以在語音識(shí)別裝置1、語音識(shí)別裝置3、語音識(shí)別裝置4、語音識(shí)別裝置5上附加校正參數(shù)選擇變更部120,來校正參數(shù)。
由此,例如容易發(fā)出吃音的用戶能夠通過增大校正程度來提高識(shí)別性能;此外,在輸入郵件中插入情感圖標(biāo)時(shí),能夠在給好友的郵件和給上級(jí)的郵件中區(qū)分使用情感圖標(biāo)的插入頻度。
其中,本發(fā)明通過用程序來實(shí)現(xiàn),將其記錄到軟盤等記錄媒體上來移送,能夠容易地用其他獨(dú)立的計(jì)算機(jī)系統(tǒng)來實(shí)施。這里,作為記錄媒體,用包含光盤、IC卡及盒式ROM在內(nèi)的任何記錄程序的記錄媒體都能夠同樣地實(shí)施。
產(chǎn)業(yè)上的可利用性本發(fā)明的語音識(shí)別裝置及語音識(shí)別方法即使是包含吃音、笑聲、咳嗽等非語言部分的未知輸入語音也能夠正確地進(jìn)行語音識(shí)別,所以作為進(jìn)行容許意義上無需區(qū)別的無用詞的連續(xù)單詞語音識(shí)別等的語音識(shí)別裝置及語音識(shí)別方法等很有用,能夠應(yīng)用于具有語音識(shí)別功能的電視機(jī)、微波爐等家電設(shè)備、手機(jī)等便攜信息終端、個(gè)人計(jì)算機(jī)等計(jì)算機(jī)裝置。
權(quán)利要求
1.一種語音識(shí)別裝置,對(duì)每個(gè)路徑計(jì)算語言得分、單詞聲音得分、以及無用信息聲音得分的累計(jì)得分,并將累計(jì)得分最高的單詞串作為包含非語言聲音的未知輸入語音的識(shí)別結(jié)果來輸出,其特征在于,包括無用信息聲音模型保存機(jī)構(gòu),預(yù)先保存從無用詞的集合學(xué)習(xí)到的聲音模型的無用信息聲音模型;特征量計(jì)算機(jī)構(gòu),針對(duì)每個(gè)聲音分析的單位的幀對(duì)上述未知輸入語音進(jìn)行聲音分析,計(jì)算識(shí)別所需的特征參數(shù);無用信息聲音得分計(jì)算機(jī)構(gòu),針對(duì)每個(gè)上述幀對(duì)照上述特征參數(shù)和上述無用信息聲音模型,計(jì)算上述無用信息聲音得分;無用信息聲音得分校正機(jī)構(gòu),對(duì)輸入了上述非語言聲音的幀進(jìn)行校正以提高上述無用信息聲音得分計(jì)算機(jī)構(gòu)算出的無用信息聲音得分;以及識(shí)別結(jié)果輸出機(jī)構(gòu),將上述語言得分、上述單詞聲音得分、以及上述無用信息聲音得分校正機(jī)構(gòu)校正過的無用信息聲音得分的累計(jì)得分最高的單詞串作為上述未知輸入語音的識(shí)別結(jié)果來輸出。
2.如權(quán)利要求1所述的語音識(shí)別裝置,其特征在于,上述語音識(shí)別裝置還包括非語言聲音推斷機(jī)構(gòu),對(duì)每個(gè)上述幀用非語言聲音估算函數(shù)來計(jì)算表示上述非語言聲音的像非語言的程度的估算值;上述無用信息聲音得分校正機(jī)構(gòu)用上述非語言聲音推斷機(jī)構(gòu)算出的輸入了非語言聲音的幀中的估算值,來進(jìn)行校正以提高無用信息聲音得分。
3.如權(quán)利要求2所述的語音識(shí)別裝置,其特征在于,上述非語言聲音推斷機(jī)構(gòu)根據(jù)上述特征量計(jì)算機(jī)構(gòu)算出的每個(gè)幀的特征參數(shù),在上述未知輸入語音的頻譜為重復(fù)圖案的部分中計(jì)算出值大的估算值。
4.如權(quán)利要求2所述的語音識(shí)別裝置,其特征在于,上述語音識(shí)別裝置還包括非語言推斷用特征量計(jì)算機(jī)構(gòu),對(duì)每個(gè)上述幀計(jì)算推斷上述非語言聲音所需的非語言推斷用特征參數(shù);和非語言聲音模型保存機(jī)構(gòu),預(yù)先保存將非語言的特征模型化了的聲音模型的非語言聲音模型;上述非語言聲音推斷機(jī)構(gòu)通過對(duì)每個(gè)上述幀對(duì)照上述非語言推斷用特征參數(shù)和上述非語言聲音模型來計(jì)算非語言對(duì)照得分作為上述估算值。
5.如權(quán)利要求4所述的語音識(shí)別裝置,其特征在于,上述語音識(shí)別裝置還包括高頻功率持續(xù)幀數(shù)計(jì)算機(jī)構(gòu),根據(jù)上述非語言推斷用特征量計(jì)算機(jī)構(gòu)計(jì)算出的上述非語言推斷用特征參數(shù),來計(jì)算高頻功率持續(xù)幀數(shù);上述非語言聲音推斷機(jī)構(gòu)計(jì)算對(duì)照了上述非語言推斷用特征參數(shù)和上述非語言聲音模型的非語言對(duì)照得分,根據(jù)上述非語言對(duì)照得分和上述高頻功率持續(xù)幀數(shù)來計(jì)算表示像非語言的程度的估算值。
6.如權(quán)利要求5所述的語音識(shí)別裝置,其特征在于,上述高頻功率持續(xù)幀數(shù)計(jì)算機(jī)構(gòu)在上述非語言推斷用特征量計(jì)算機(jī)構(gòu)得到的高頻功率高于預(yù)定的閾值的情況下看作是高頻功率高的幀。
7.如權(quán)利要求2所述的語音識(shí)別裝置,其特征在于,上述語音識(shí)別裝置還包括非語言對(duì)應(yīng)字符插入機(jī)構(gòu),根據(jù)上述非語言聲音推斷機(jī)構(gòu)推斷出的估算值,選擇與上述非語言聲音對(duì)應(yīng)的表意字符及情感圖標(biāo)中的至少一方,將選擇出的表意字符及情感圖標(biāo)中的至少一方插入到上述識(shí)別結(jié)果輸出機(jī)構(gòu)的識(shí)別結(jié)果中。
8.如權(quán)利要求2所述的語音識(shí)別裝置,其特征在于,上述語音識(shí)別裝置還包括智能體控制機(jī)構(gòu),根據(jù)上述非語言聲音推斷機(jī)構(gòu)推斷出的估算值及上述識(shí)別結(jié)果輸出機(jī)構(gòu)的識(shí)別結(jié)果,來控制所顯示的智能體的動(dòng)作及該智能體所發(fā)出的合成音。
9.如權(quán)利要求1所述的語音識(shí)別裝置,其特征在于,上述語音識(shí)別裝置還包括非語言現(xiàn)象推斷機(jī)構(gòu),根據(jù)與非語言聲音聯(lián)動(dòng)的用戶信息,來計(jì)算與該非語言聲音關(guān)聯(lián)的非語言現(xiàn)象的估算值;上述無用信息聲音得分校正機(jī)構(gòu)用上述非語言現(xiàn)象推斷機(jī)構(gòu)算出的輸入了非語言現(xiàn)象的幀中的估算值,來進(jìn)行校正以提高無用信息聲音得分。
10.如權(quán)利要求9所述的語音識(shí)別裝置,其特征在于,上述語音識(shí)別裝置還包括非語言對(duì)應(yīng)字符插入機(jī)構(gòu),根據(jù)上述非語言現(xiàn)象推斷機(jī)構(gòu)推斷出的估算值,選擇與上述非語言對(duì)應(yīng)的表意字符及情感圖標(biāo)中的至少一方,將選擇出的表意字符及情感圖標(biāo)中的至少一方插入到上述識(shí)別結(jié)果輸出機(jī)構(gòu)的識(shí)別結(jié)果中。
11.如權(quán)利要求9所述的語音識(shí)別裝置,其特征在于,上述語音識(shí)別裝置還包括智能體控制機(jī)構(gòu),根據(jù)上述非語言現(xiàn)象推斷機(jī)構(gòu)推斷出的估算值及上述識(shí)別結(jié)果輸出機(jī)構(gòu)的識(shí)別結(jié)果,來控制所顯示的智能體的動(dòng)作及該智能體所發(fā)出的合成音。
12.如權(quán)利要求1所述的語音識(shí)別裝置,其特征在于,上述語音識(shí)別裝置還包括校正參數(shù)選擇變更機(jī)構(gòu),用于使用戶選擇用于決定對(duì)上述無用信息聲音得分校正機(jī)構(gòu)中的無用信息聲音得分進(jìn)行校正的程度的校正參數(shù)的值,變更為被選擇出的校正參數(shù)的值;上述無用信息聲音得分校正機(jī)構(gòu)根據(jù)上述校正參數(shù)來校正上述無用信息聲音得分。
13.一種語音識(shí)別方法,對(duì)每個(gè)路徑計(jì)算語言得分、單詞聲音得分、以及無用信息聲音得分的累計(jì)得分,將累計(jì)得分最高的單詞串作為包含非語言聲音的未知輸入語音的識(shí)別結(jié)果來輸出,其特征在于,包含特征量計(jì)算步驟,針對(duì)每個(gè)聲音分析的單位的幀對(duì)上述未知輸入語音進(jìn)行聲音分析,計(jì)算識(shí)別所需的特征參數(shù);無用信息聲音得分計(jì)算步驟,針對(duì)每個(gè)上述幀對(duì)照上述特征參數(shù)和無用信息聲音模型保存機(jī)構(gòu)中預(yù)先保存的上述無用信息聲音模型,計(jì)算上述無用信息聲音得分;無用信息聲音得分校正步驟,對(duì)輸入了上述非語言聲音的幀進(jìn)行校正以提高上述無用信息聲音得分計(jì)算步驟中算出的無用信息聲音得分;以及識(shí)別結(jié)果輸出步驟,將上述語言得分、上述單詞聲音得分、以及上述無用信息聲音得分校正步驟中校正過的無用信息聲音得分的累計(jì)得分最高的單詞串作為上述未知輸入語音的識(shí)別結(jié)果來輸出。
14.一種用于實(shí)現(xiàn)語音識(shí)別裝置的功能的程序,對(duì)每個(gè)路徑計(jì)算語言得分、單詞聲音得分、以及無用信息聲音得分的累計(jì)得分,將累計(jì)得分最高的單詞串作為包含非語言聲音的未知輸入語音的識(shí)別結(jié)果來輸出,其特征在于,用于使計(jì)算機(jī)執(zhí)行特征量計(jì)算步驟,針對(duì)每個(gè)聲音分析的單位的幀對(duì)上述未知輸入語音進(jìn)行聲音分析,計(jì)算識(shí)別所需的特征參數(shù);無用信息聲音得分計(jì)算步驟,針對(duì)每個(gè)上述幀對(duì)照上述特征參數(shù)和無用信息聲音模型保存機(jī)構(gòu)中預(yù)先保存的上述無用信息聲音模型,計(jì)算上述無用信息聲音得分;無用信息聲音得分校正步驟,對(duì)輸入了上述非語言聲音的幀進(jìn)行校正以提高上述無用信息聲音得分計(jì)算步驟中算出的無用信息聲音得分;以及識(shí)別結(jié)果輸出步驟,將上述語言得分、上述單詞聲音得分、以及上述無用信息聲音得分校正步驟中校正過的無用信息聲音得分的累計(jì)得分最高的單詞串作為上述未知輸入語音的識(shí)別結(jié)果來輸出。
15.一種記錄著用于實(shí)現(xiàn)語音識(shí)別裝置的功能的程序的計(jì)算機(jī)可讀取的記錄媒體,,對(duì)每個(gè)路徑計(jì)算語言得分、單詞聲音得分、以及無用信息聲音得分的累計(jì)得分,將累計(jì)得分最高的單詞串作為包含非語言聲音的未知輸入語音的識(shí)別結(jié)果來輸出,其特征在于,記錄著用于使計(jì)算機(jī)執(zhí)行下述步驟的程序特征量計(jì)算步驟,針對(duì)每個(gè)聲音分析的單位的幀對(duì)上述未知輸入語音進(jìn)行聲音分析,計(jì)算識(shí)別所需的特征參數(shù);無用信息聲音得分計(jì)算步驟,針對(duì)每個(gè)上述幀對(duì)照上述特征參數(shù)和無用信息聲音模型保存機(jī)構(gòu)中預(yù)先保存的上述無用信息聲音模型,計(jì)算上述無用信息聲音得分;無用信息聲音得分校正步驟,對(duì)輸入了上述非語言聲音的幀進(jìn)行校正以提高上述無用信息聲音得分計(jì)算步驟中算出的無用信息聲音得分;以及識(shí)別結(jié)果輸出步驟,將上述語言得分、上述單詞聲音得分、以及上述無用信息聲音得分校正步驟中校正過的無用信息聲音得分的累計(jì)得分最高的單詞串作為上述未知輸入語音的識(shí)別結(jié)果來輸出。
全文摘要
本發(fā)明的語音識(shí)別裝置(1)包括無用信息聲音模型保存部(110),預(yù)先保存從無用詞的集合學(xué)習(xí)到的聲音模型—無用信息聲音模型;特征量計(jì)算部(101),對(duì)每個(gè)聲音分析的單位—幀的包含非語言聲音的未知輸入語音進(jìn)行聲音分析,計(jì)算識(shí)別所需的特征參數(shù);無用信息聲音得分計(jì)算部(111),對(duì)每個(gè)幀對(duì)照特征參數(shù)和無用信息聲音模型,計(jì)算無用信息聲音得分;無用信息聲音得分校正部(113),對(duì)輸入了非語言聲音的幀進(jìn)行校正以提高無用信息聲音得分計(jì)算部(111)算出的無用信息聲音得分;以及識(shí)別結(jié)果輸出部(105),將語言得分、單詞聲音得分、以及無用信息聲音得分校正機(jī)構(gòu)校正過的無用信息聲音得分的累計(jì)得分最高的單詞串作為未知輸入語音的識(shí)別結(jié)果來輸出。
文檔編號(hào)G10L15/20GK1698097SQ20048000043
公開日2005年11月16日 申請(qǐng)日期2004年2月4日 優(yōu)先權(quán)日2003年2月19日
發(fā)明者山田麻紀(jì), 西崎誠, 中藤良久, 芳澤伸一 申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社