專利名稱:語(yǔ)音識(shí)別/響應(yīng)系統(tǒng)、語(yǔ)音/識(shí)別響應(yīng)程序及其記錄介質(zhì)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語(yǔ)音識(shí)別/響應(yīng)系統(tǒng),提供針對(duì)用戶發(fā)言的語(yǔ)音響應(yīng)。
背景技術(shù):
眾所周知,語(yǔ)音識(shí)別/響應(yīng)系統(tǒng)和語(yǔ)音交互系統(tǒng)都針對(duì)用戶的發(fā)言做出語(yǔ)音響應(yīng)。針對(duì)這種系統(tǒng),已經(jīng)提出了一些實(shí)現(xiàn)特殊的語(yǔ)音響應(yīng)例如方言的系統(tǒng)。然而,它們幾乎都有效地使用能夠從對(duì)話系統(tǒng)獲得的信息,而不使用來(lái)自用戶的發(fā)言信息。以汽車導(dǎo)航為例來(lái)說(shuō),與上述系統(tǒng)相對(duì)應(yīng)的系統(tǒng)恰當(dāng)有效地使用了汽車導(dǎo)航裝置發(fā)揮作用所依據(jù)的信息,例如,在汽車駕駛期間還有在語(yǔ)音響應(yīng)中獲得的地區(qū)信息(參見(jiàn)日本公開(kāi)專利申請(qǐng)2001-227962和日本公開(kāi)專利申請(qǐng)H8-124092)。具有這種功能的系統(tǒng)給用戶帶來(lái)如下優(yōu)點(diǎn)使他/她能夠在聽(tīng)覺(jué)上獲得他/她駕駛車輛所在地區(qū)的地區(qū)信息,這樣可以使駕駛員與/或乘客(們)感到愉快。
然而,如上所述的語(yǔ)音識(shí)別/響應(yīng)系統(tǒng)有可能產(chǎn)生這樣的問(wèn)題,例如它很難實(shí)現(xiàn)用戶感覺(jué)熟悉的語(yǔ)音響應(yīng)。更具體地說(shuō),由于各種環(huán)境與/或用戶的精神狀態(tài)的不同,用戶的發(fā)言環(huán)境和發(fā)言內(nèi)容可以有顯著的改變,因此,即沒(méi)有提出過(guò)任何一種系統(tǒng)可以應(yīng)用于如汽車導(dǎo)航裝置的電子設(shè)備,也沒(méi)有提出任何一種方法,包括上述提及的公開(kāi)文本所披露的系統(tǒng),可以完全地處理針對(duì)非特定用戶的靈活的響應(yīng)。
發(fā)明內(nèi)容
本發(fā)明,鑒于以上問(wèn)題,目的在于,提供一種語(yǔ)音識(shí)別/響應(yīng)系統(tǒng),該系統(tǒng)可以實(shí)現(xiàn)用戶感覺(jué)熟悉的語(yǔ)音響應(yīng)。
為了獲得上述目的,本發(fā)明的第一個(gè)方面的語(yǔ)音識(shí)別/響應(yīng)系統(tǒng)包括發(fā)言識(shí)別單元,通過(guò)用戶的語(yǔ)音輸入識(shí)別用戶的發(fā)言內(nèi)容,并輸出識(shí)別結(jié)果;
對(duì)話控制處理單元,根據(jù)所述識(shí)別結(jié)果控制與用戶的對(duì)話進(jìn)程,以便確定針對(duì)所述用戶的響應(yīng)內(nèi)容;發(fā)言特征分析單元,分析所述用戶的發(fā)言特征,產(chǎn)生發(fā)言特征信息;和響應(yīng)語(yǔ)音產(chǎn)生單元,根據(jù)所述響應(yīng)內(nèi)容和所述發(fā)言特征信息產(chǎn)生針對(duì)所述用戶的響應(yīng)語(yǔ)音。
為了獲得上述目的,本發(fā)明的第二方面的存儲(chǔ)介質(zhì),在其上存儲(chǔ)由計(jì)算機(jī)執(zhí)行的語(yǔ)音識(shí)別/響應(yīng)程序,其特征在于,所述程序?qū)е滤鲇?jì)算機(jī)起到如下單元的作用發(fā)言識(shí)別單元,通過(guò)用戶的語(yǔ)音輸入識(shí)別用戶的發(fā)言內(nèi)容,并輸出識(shí)別結(jié)果;對(duì)話控制處理單元,根據(jù)所述識(shí)別結(jié)果控制與用戶的對(duì)話進(jìn)程,以便確定針對(duì)所述用戶的響應(yīng)內(nèi)容;發(fā)言特征分析單元,分析所述用戶的發(fā)言特征,產(chǎn)生發(fā)言特征信息;和響應(yīng)語(yǔ)音產(chǎn)生單元,根據(jù)所述響應(yīng)內(nèi)容和所述發(fā)言特征信息產(chǎn)生針對(duì)所述用戶的響應(yīng)語(yǔ)音。
為了獲得上述目的,本發(fā)明的第三方面的語(yǔ)音識(shí)別/響應(yīng)程序,所述程序由計(jì)算機(jī)執(zhí)行,其特征在于,所述程序致使所述計(jì)算機(jī)起到如下單元的作用發(fā)言識(shí)別單元,通過(guò)用戶的語(yǔ)音輸入識(shí)別用戶的發(fā)言內(nèi)容,并輸出識(shí)別結(jié)果;對(duì)話控制處理單元,根據(jù)所述識(shí)別結(jié)果控制與用戶的對(duì)話進(jìn)程,以便確定對(duì)所述用戶的響應(yīng)內(nèi)容;發(fā)言特征分析單元,分析所述用戶的發(fā)言特征,產(chǎn)生發(fā)言特征信息;和響應(yīng)語(yǔ)音產(chǎn)生單元,根據(jù)所述響應(yīng)內(nèi)容和所述發(fā)言特征信息產(chǎn)生針對(duì)所述用戶的響應(yīng)語(yǔ)音。
圖1是說(shuō)明本發(fā)明實(shí)施例的語(yǔ)音識(shí)別/響應(yīng)系統(tǒng)的示意性結(jié)構(gòu)的方框圖;
圖2是本發(fā)明的例子的語(yǔ)音識(shí)別/響應(yīng)系統(tǒng)的方框圖;圖3是發(fā)言特征類別選擇處理的流程圖;圖4是響應(yīng)語(yǔ)音產(chǎn)生處理的流程圖;圖5是語(yǔ)音產(chǎn)生處理的另一個(gè)流程圖;圖6A是說(shuō)明響應(yīng)數(shù)據(jù)庫(kù)的讀取數(shù)據(jù)庫(kù)中存儲(chǔ)內(nèi)容的例1的視圖,圖6B是說(shuō)明它的例2的視圖;圖7是本發(fā)明第一修改的語(yǔ)音識(shí)別/響應(yīng)處理的流程圖;圖8是說(shuō)明本發(fā)明第二修改的處理流程的視圖;圖9是本發(fā)明第二修改的語(yǔ)音識(shí)別/響應(yīng)處理的流程圖;具體實(shí)施方式
現(xiàn)在,將參考相關(guān)附圖對(duì)本發(fā)明的最佳實(shí)施例進(jìn)行詳細(xì)說(shuō)明。
圖1說(shuō)明本發(fā)明實(shí)施例的語(yǔ)音識(shí)別/響應(yīng)系統(tǒng)的示意結(jié)構(gòu)。本發(fā)明實(shí)施例的語(yǔ)音識(shí)別/響應(yīng)系統(tǒng)1,輸出針對(duì)用戶發(fā)言產(chǎn)生的語(yǔ)音輸入的語(yǔ)音響應(yīng),從而實(shí)現(xiàn)和用戶的語(yǔ)音對(duì)話,可以應(yīng)用于具有各種語(yǔ)音響應(yīng)功能的裝置或設(shè)備,例如汽車導(dǎo)航系統(tǒng)、家用電器和視頻-音頻設(shè)備。產(chǎn)生語(yǔ)音識(shí)別/響應(yīng)程序來(lái)實(shí)現(xiàn)本發(fā)明實(shí)施例的語(yǔ)音識(shí)別/響應(yīng)系統(tǒng),并且通過(guò)記錄介質(zhì)或通信裝置在終端設(shè)備上安裝上述程序來(lái)執(zhí)行它,使終端設(shè)備能夠起到語(yǔ)音識(shí)別/響應(yīng)系統(tǒng)的作用。在這種情況下,上述終端設(shè)備可以包括各種信息終端,例如汽車導(dǎo)航系統(tǒng)、家用電器和視頻-音頻設(shè)備。
語(yǔ)音識(shí)別/響應(yīng)系統(tǒng)1大致地分成如下結(jié)構(gòu)部件發(fā)言識(shí)別單元10、發(fā)言特征分析單元20、響應(yīng)語(yǔ)音產(chǎn)生單元30和對(duì)話控制處理單元40。發(fā)言識(shí)別單元10接收用戶發(fā)言產(chǎn)生的語(yǔ)音輸入,執(zhí)行語(yǔ)音識(shí)別處理和其它識(shí)別所述發(fā)言內(nèi)容的處理,并且輸出作為識(shí)別結(jié)果的識(shí)別關(guān)鍵字S1。在識(shí)別用戶發(fā)言的每詞時(shí),所述識(shí)別關(guān)鍵字S1是作為識(shí)別結(jié)果獲得的。從發(fā)言識(shí)別單元10輸出的識(shí)別關(guān)鍵字S1被發(fā)送到發(fā)言特征分析單元20和對(duì)話控制處理單元40。
發(fā)言特征分析單元20根據(jù)識(shí)別關(guān)鍵字分析用戶的發(fā)言特征。所述發(fā)言特征包括各種特征,例如用戶的地區(qū)性、用戶的當(dāng)前環(huán)境等等,這些特征也許會(huì)影響用戶的發(fā)言。發(fā)言特征分析單元20根據(jù)識(shí)別關(guān)鍵字S1分析發(fā)言特征,產(chǎn)生發(fā)言特征信息S2并且將它發(fā)送到響應(yīng)語(yǔ)音產(chǎn)生單元30。
對(duì)話控制處理單元40根據(jù)識(shí)別關(guān)鍵字S1控制同用戶的對(duì)話進(jìn)程。對(duì)話進(jìn)程的確定應(yīng)當(dāng)考慮到如下因素例如,使用了本發(fā)明的語(yǔ)音識(shí)別/響應(yīng)系統(tǒng)設(shè)備的系統(tǒng)信息,以便根據(jù)預(yù)先準(zhǔn)備好的對(duì)話情景進(jìn)行控制。對(duì)話控制處理單元40確定對(duì)話情景(這將要根據(jù)系統(tǒng)信息和其它當(dāng)前環(huán)境信息進(jìn)展)使對(duì)話情景能夠根據(jù)相應(yīng)于用戶發(fā)言內(nèi)容的識(shí)別關(guān)鍵字S1進(jìn)展,從而實(shí)現(xiàn)對(duì)話。然后,對(duì)話控制處理單元40根據(jù)對(duì)話進(jìn)度產(chǎn)生響應(yīng)語(yǔ)音信息S3,通過(guò)它來(lái)確定隨后要輸出的語(yǔ)音響應(yīng),并發(fā)送這樣產(chǎn)生的響應(yīng)語(yǔ)音信息S3到響應(yīng)語(yǔ)音產(chǎn)生單元30。
響應(yīng)語(yǔ)音產(chǎn)生單元30產(chǎn)生這樣的語(yǔ)音響應(yīng),該語(yǔ)音響應(yīng)具有如下模式相應(yīng)于對(duì)話控制處理單元40給出的響應(yīng)語(yǔ)音信息S3和由發(fā)言特征信息S2所代表的發(fā)言特征,并通過(guò)諸如擴(kuò)音器這樣的語(yǔ)音輸出裝置輸出語(yǔ)音響應(yīng)。
本發(fā)明實(shí)施例的語(yǔ)音識(shí)別/響應(yīng)系統(tǒng)1以這種方式,根據(jù)用戶的發(fā)言狀態(tài)輸出基于發(fā)言特征的語(yǔ)音響應(yīng)。
舉例現(xiàn)在,對(duì)最佳實(shí)施例進(jìn)行如下描述。
圖2是根據(jù)本發(fā)明的例子的語(yǔ)音識(shí)別/響應(yīng)系統(tǒng)100的方框圖,它可以實(shí)現(xiàn)針對(duì)用戶發(fā)言的適當(dāng)?shù)恼Z(yǔ)音響應(yīng)。如圖2所示,語(yǔ)音識(shí)別/響應(yīng)系統(tǒng)100大致地分成如下結(jié)構(gòu)部件發(fā)言識(shí)別單元10、發(fā)言特征分析單元20、響應(yīng)語(yǔ)音產(chǎn)生單元30和對(duì)話控制處理單元40。
發(fā)言識(shí)別單元10包括參數(shù)轉(zhuǎn)換部分12和語(yǔ)音識(shí)別處理部分14。參數(shù)轉(zhuǎn)換部分12將語(yǔ)音(通過(guò)他/她的發(fā)言已經(jīng)由用戶輸入)轉(zhuǎn)換成指示語(yǔ)音特征的特征參數(shù)。語(yǔ)音識(shí)別處理部分14實(shí)施由參數(shù)轉(zhuǎn)換部分12獲得的特征參數(shù)和關(guān)鍵字模型(它們已經(jīng)預(yù)先包括在語(yǔ)音識(shí)別引擎中)之間的匹配處理,以便抽取識(shí)別關(guān)鍵字。在本發(fā)明的例子中,語(yǔ)音識(shí)別處理部分14配置為使用每詞中的關(guān)鍵字實(shí)施匹配處理以便執(zhí)行識(shí)別處理。識(shí)別關(guān)鍵字是包含在用戶發(fā)言中的詞以及這樣的關(guān)鍵字,所述關(guān)鍵字已經(jīng)通過(guò)語(yǔ)音識(shí)別處理加以識(shí)別。
發(fā)言特征分析單元20包括發(fā)言特征類別選擇部分22和發(fā)言特征數(shù)據(jù)庫(kù)(DB)24。發(fā)言特征類別選擇部分22使用發(fā)言特征參數(shù)來(lái)選擇發(fā)言特征類別,該特征參數(shù)相應(yīng)于由語(yǔ)音識(shí)別處理部分14抽取的識(shí)別關(guān)鍵字。
發(fā)言特征參數(shù)包括這樣的值,該值是關(guān)于被分類為各種元素的特征的出現(xiàn)頻率。在要判斷發(fā)言中的用戶是生于日本關(guān)東(Kanto)地區(qū)的人(以下簡(jiǎn)稱關(guān)東人),還是生于日本關(guān)西(Kansai)地區(qū)的人(以下稱為關(guān)西人)的情況下,例如,發(fā)言特征參數(shù)采用下列多元值的形式存儲(chǔ)在發(fā)言特征數(shù)據(jù)庫(kù)24中p=(關(guān)東人發(fā)言頻率值,關(guān)西人發(fā)言頻率值)發(fā)言特征類別選擇部分22使用上述發(fā)言特征參數(shù)來(lái)選擇用戶的發(fā)言特征類別。
對(duì)話控制處理單元40控制同用戶的對(duì)話。對(duì)話控制處理單元40,使用系統(tǒng)信息和識(shí)別關(guān)鍵字,確定要輸出為語(yǔ)音響應(yīng)的內(nèi)容,并且將參考標(biāo)識(shí)符ID(它起到要輸出為語(yǔ)音響應(yīng)的內(nèi)容的信息識(shí)別的作用)提供給響應(yīng)語(yǔ)音產(chǎn)生單元30。順便說(shuō)一下,對(duì)話控制處理例如通過(guò)引發(fā)預(yù)先準(zhǔn)備好的對(duì)話情景在考慮到用戶發(fā)言內(nèi)容的情況下進(jìn)展而被執(zhí)行。對(duì)話控制處理本身與本發(fā)明的特征不太相關(guān),因此說(shuō)明書省略了對(duì)它的詳細(xì)說(shuō)明。
響應(yīng)語(yǔ)音產(chǎn)生單元30,根據(jù)發(fā)言特征類別(它已經(jīng)通過(guò)發(fā)言特征類別選擇部分22獲得)為語(yǔ)音響應(yīng)產(chǎn)生語(yǔ)音信號(hào),并且為語(yǔ)音響應(yīng)(它已經(jīng)通過(guò)對(duì)話控制處理單元40獲得)產(chǎn)生參考標(biāo)識(shí)符ID。然后,通過(guò)擴(kuò)音器將響應(yīng)語(yǔ)音產(chǎn)生單元30產(chǎn)生的語(yǔ)音以語(yǔ)音響應(yīng)的形式輸出到用戶。
現(xiàn)在,將對(duì)發(fā)言特征參數(shù)進(jìn)行如下詳細(xì)描述。發(fā)言特征參數(shù)是這樣的參數(shù),它是預(yù)先準(zhǔn)備的,以便從多個(gè)發(fā)言特征類別(它們已經(jīng)預(yù)先通過(guò)將用戶發(fā)言的特征分類為各種類型模式而獲得)中選擇用戶發(fā)言落在其中的某個(gè)發(fā)言特征類別。發(fā)言特征參數(shù)是采用多元值形式表示的,所述值包括發(fā)言特征類別的對(duì)應(yīng)數(shù)量的元素。上述每一元素包括這樣的值,該值指示某人落在發(fā)言類別中的頻率,所述發(fā)言類別是通過(guò)在使用關(guān)鍵字的問(wèn)題中的元素表示的。
現(xiàn)在,將對(duì)獲得發(fā)言特征參數(shù)的過(guò)程的例子進(jìn)行如下描述。
為了獲得樣本,以問(wèn)卷形式進(jìn)行調(diào)查各個(gè)用戶通常是否將包括在詞典內(nèi)的關(guān)鍵字當(dāng)作識(shí)別關(guān)鍵字使用,按從“0“(零)到“n”的范圍(假定越大的數(shù)字意味著越高的使用頻率,請(qǐng)求用戶從“0”到“n”中選擇任意一個(gè)數(shù)字)。
給出下列等式M=(m(1),m(2),......,m(N)) 其中,I=1,2,......,N)M_all=∑m(i)其中,“N”是識(shí)別類別的數(shù)量,“m(i)”是參與問(wèn)卷調(diào)查中類別“i”的人數(shù)。
編譯問(wèn)卷調(diào)查的結(jié)果。
假定所編譯關(guān)于關(guān)鍵字第“k”個(gè)結(jié)果值使用如下等式表示Rk=(rk(1),rk(2),......rk(N))其中,rk(i)是關(guān)于類別“i”的編譯結(jié)果。
元素值“Rk”的“rk(i)”根據(jù)下列等式計(jì)算rk(i)=∑dk(i,j)(其中,j=1,2,......,N;dk(i,j)=0,.1,......,p1)上述“dk(i,j)”表示來(lái)自響應(yīng)號(hào)為“j”的結(jié)果,即,歸入揚(yáng)聲器類別“i”的人使用關(guān)鍵字第“k”個(gè)的頻率。
為了規(guī)范化組,確定規(guī)范化參數(shù)“L=(l(1)......,1(N))”。在類別“i”中的規(guī)范化參數(shù)被確定,以便滿足下列等式M_all/p=1(i)*m(i)(其中,I=1,2,......,N)上述標(biāo)識(shí)的等式可以被變換成如下等式l(i)=M_all/(p*m(i))[步驟4]使用規(guī)范化參數(shù)按照如下來(lái)規(guī)范化編譯結(jié)果“Rn”的值,所述規(guī)范化參數(shù)已經(jīng)在步驟3加以確定了rk’(i)=l(i)*rk(i)/∑l(j)*rk(j))[步驟5]
編譯結(jié)果的這樣規(guī)范化的值存儲(chǔ)在發(fā)言特征數(shù)據(jù)庫(kù)中,因此值“rk’(i)”是作為關(guān)鍵字“k”的發(fā)言特征參數(shù)使用的。
<計(jì)算例子>
□設(shè)計(jì)系統(tǒng)這里準(zhǔn)備了語(yǔ)音對(duì)話系統(tǒng),其中從用戶發(fā)言中抽取地區(qū)性和帶方言的語(yǔ)音響應(yīng),所述系統(tǒng)適合于用戶發(fā)言。
□先決條件A日本方言僅被分為兩種模式關(guān)東地區(qū)和關(guān)西地區(qū)。
B發(fā)言特征元素參數(shù)中的元素按照關(guān)東地區(qū)和關(guān)西地區(qū)這樣一對(duì)一的次序列出。
C關(guān)于關(guān)鍵字“makudo”(注釋這個(gè)字在日語(yǔ)中帶著關(guān)西重讀口音,意思是,“Mackers”)的發(fā)言特征參數(shù)將被找出。
對(duì)于屬于關(guān)東人和關(guān)西人的任何人,以問(wèn)卷形式進(jìn)行一個(gè)調(diào)查,調(diào)查他們是否通常使用識(shí)別關(guān)鍵字“makudo”。
對(duì)任意問(wèn)卷調(diào)查的答復(fù)可以是肯定的或否定的。對(duì)問(wèn)卷做出答復(fù)的人數(shù)“M”通過(guò)下列等式表示M=(731,635)因此,獲得下列等式M_all=731+635=1366[步驟2]獲得在步驟1進(jìn)行的問(wèn)卷調(diào)查的結(jié)果的編譯結(jié)果“R”。
答復(fù)是根據(jù)肯定的和否定的范圍1-2而作出的,由此提供項(xiàng)“p=2”。
假定做出肯定答復(fù)的人數(shù)是“R”值,提供下列等式Rmakudo=(9,613)[步驟3]獲得規(guī)范化參數(shù)“L”。
對(duì)問(wèn)卷調(diào)查做出答復(fù)的人數(shù)“M”在步驟1中通過(guò)下列等式表示M=(731,635)因此,提供下列等式l(1)=M_all/(p*m(1))=1366/(2*731)=0.93
l(2)=M_all/(p*m(2))=1366/(2*635)=1.08∴L=(0.93,1.08)編譯的結(jié)果“值Rmakudo”是按照如下用步驟3獲得的規(guī)范化參數(shù)“L”加以規(guī)范化的R_allmakudo=∑rmakudo(i)*l(i))=9*0.93+613*1.08=670.41r’makudo(1)=rmakudo(1)*l(1)/R’_all=9*0.93/670.41=0.012r’makudo(2)=rmakudo(2)*l(2)/R’_all=613*1.08/670.41=0.988∴R’makudo=(0.012,0.988)在步驟4所獲得的編譯結(jié)果的這樣規(guī)范化的值“R’makudo”作為‘makudo’的發(fā)言特征參數(shù)存儲(chǔ)在發(fā)言特征數(shù)據(jù)庫(kù)中。
圖3表示發(fā)言特征類別選擇處理的流程圖。發(fā)言特征類別選擇處理通過(guò)如圖2所示的發(fā)言特征類別選擇部分22執(zhí)行。
發(fā)言特征類別選擇部分22從語(yǔ)音識(shí)別處理部分14接收識(shí)別關(guān)鍵字(步驟S10)。然后,發(fā)言特征類別選擇部分22從發(fā)言特征數(shù)據(jù)庫(kù)24中獲得相應(yīng)于作為輸入的識(shí)別關(guān)鍵字的發(fā)言特征參數(shù)(步驟S11)。如果存在多個(gè)識(shí)別關(guān)鍵字,各個(gè)識(shí)別關(guān)鍵字都從數(shù)據(jù)庫(kù)中獲得。
然后,發(fā)言特征類別選擇部分22從在步驟S11獲得的發(fā)言特征參數(shù)中獲得單一的代表性的發(fā)言特征參數(shù)(步驟S12)。更具體地說(shuō),單一的識(shí)別關(guān)鍵字的存在導(dǎo)致單一的發(fā)言特征參數(shù)的存在。在存在單一的識(shí)別關(guān)鍵字的情況下,該單一的發(fā)言特征參數(shù)被作為代表性的發(fā)言特征參數(shù)加以處理。在存在多個(gè)識(shí)別關(guān)鍵字的情況下,使用相應(yīng)于多個(gè)識(shí)別關(guān)鍵字的發(fā)言特征參數(shù)產(chǎn)生單一的代表性的發(fā)言特征參數(shù)。
然后,發(fā)言特征類別選擇部分22使用在步驟S12獲得的代表性的發(fā)言特征參數(shù)選擇特征類別(步驟S13)。在步驟S13選擇的特征類別作為用戶的發(fā)言特征類別被輸出。
發(fā)言特征類別選擇部分22將在步驟S13選擇的發(fā)言特征類別輸出到響應(yīng)語(yǔ)音產(chǎn)生單元30(步驟S14)。由此,完成發(fā)言特征類別選擇處理。
現(xiàn)在,將對(duì)發(fā)言特征類別選擇處理的例子進(jìn)行入下描述。
<例1>在“makudo”(注釋這個(gè)字在日文中帶著關(guān)西重讀口音,意思是“Mackers”)和“想去”作為識(shí)別關(guān)鍵字被抽取的情況下。
先決條件□詞“makudo”的發(fā)言特征參數(shù)(0.012,0.988)□詞“想去”的發(fā)言特征參數(shù)(0.500,0.500)在例1中,發(fā)言特征參數(shù)中的元素表示如下(關(guān)東人發(fā)言頻率值,關(guān)西人發(fā)言頻率值)首先,在步驟S11,詞“makudo”的發(fā)言特征參數(shù)“u”和詞“想去”的發(fā)言特征參數(shù)“v”從發(fā)言特征數(shù)據(jù)庫(kù)獲得。這里,發(fā)言特征參數(shù)“u”和“V”表示如下u=(0.012,0.988),v=(0.500,0.500)然后,在步驟S12,獲得代表性的發(fā)言特征參數(shù)。還有許多獲得代表性的發(fā)言特征參數(shù)的方法。在這種情況下,采用如下方法在發(fā)言特征參數(shù)(它們已經(jīng)在步驟S11獲得)的元素中,值為最大的元素被確定為代表性的發(fā)言特征元素參數(shù)的元素。
發(fā)言特征參數(shù)“u”的第一元素是“0.012”,發(fā)言特征參數(shù)“v”的第一元素是“0.500”。在這些值中,最大值是“0.500”。同樣,發(fā)言特征參數(shù)“u”的第二元素是“0.988”,發(fā)言特征參數(shù)“v”的第二元素是“0.500”。在這些值中,最大值是“0.988”。
按照這種步驟,代表性發(fā)言特征參數(shù)“w”可以表示如下w=(0.500,0.988)然后,在步驟S13,選擇發(fā)言特征類別。在代表性的發(fā)言特征參數(shù)“w”的元素中,值為最大的元素被確定為發(fā)言特征類別。
在這個(gè)例子中,在代表性的發(fā)言特征參數(shù)“w”中具有最大值的元素是第一元素中的“0.988”,因此“關(guān)西人”被選擇作為發(fā)言特征類別。
<例2>在抽取“愉快的”作為識(shí)別關(guān)鍵字的情況下。
先決條件□詞“愉快的”的發(fā)言特征參數(shù)(0.998,0.002)
在例2中,發(fā)言特征參數(shù)的元素分別表示下面的特征(愉快,煩悶)首先,在步驟S11中,詞“愉快的”的發(fā)言特征參數(shù)“u”從發(fā)言特征數(shù)據(jù)庫(kù)獲得。這里,發(fā)言特征參數(shù)“u”可以表示如下u=(0.998,0.002)然后,在步驟S12獲得代表性的發(fā)言特征參數(shù)。還有許多獲得代表性的發(fā)言特征參數(shù)的方法。在這種情況下,采用如下的方法在發(fā)言特征參數(shù)(它們已經(jīng)在步驟Sl1獲得)的元素中,值為最大的元素被確定為代表性發(fā)言特征參數(shù)的元素。
在例2中,存在要處理的單一的發(fā)言特征參數(shù),因此發(fā)言特征參數(shù)“u”自己成為代表性發(fā)言特征參數(shù)“w”,可以表示如下w=(0.998,0.002)然后,在步驟S13,選擇發(fā)言特征類別。在代表性的發(fā)言特征參數(shù)“w”的元素中,值為最大的元素被確定為發(fā)言特征類別。
在這個(gè)例子中,在代表性的發(fā)言特征參數(shù)“w”中具有最大值的元素是第一元素中的“0.998”,因此“愉快的”被選作言特征類別。所述發(fā)言特征類就是按照這樣的方式加以選擇的。
現(xiàn)在,將對(duì)響應(yīng)語(yǔ)音產(chǎn)生單元進(jìn)行如下詳細(xì)描述。圖4是說(shuō)明使用發(fā)言特征類別的響應(yīng)語(yǔ)音產(chǎn)生處理所依據(jù)的視圖,示出了語(yǔ)音產(chǎn)生單元結(jié)合在執(zhí)行流程圖期間訪問(wèn)的數(shù)據(jù)庫(kù)執(zhí)行的流程。
如圖4所示,響應(yīng)語(yǔ)音產(chǎn)生單元30包括響應(yīng)數(shù)據(jù)庫(kù)結(jié)構(gòu)32和音素?cái)?shù)據(jù)庫(kù)38。響應(yīng)數(shù)據(jù)庫(kù)結(jié)構(gòu)32包括為各個(gè)發(fā)言特征類別構(gòu)建的多個(gè)響應(yīng)數(shù)據(jù)庫(kù)33,34,...。各個(gè)響應(yīng)數(shù)據(jù)庫(kù)33,34,...包括讀取信息數(shù)據(jù)庫(kù)33a,34a,和韻律信息數(shù)據(jù)庫(kù)33b,34b,......。
如圖4所示的流程圖,響應(yīng)語(yǔ)音產(chǎn)生單元30從發(fā)言特征類別選擇部分22獲得發(fā)言特征類別(步驟S31),并且選擇相應(yīng)于以上發(fā)言特征類別的一組響應(yīng)數(shù)據(jù)庫(kù)(步驟S31)。響應(yīng)數(shù)據(jù)庫(kù)成對(duì)地存儲(chǔ)讀取信息數(shù)據(jù)庫(kù)和用于產(chǎn)生韻律的韻律信息數(shù)據(jù)庫(kù),例如成對(duì)的詞、詞組的拆分和重讀的位置。在所輸入的發(fā)言特征類別是例如“關(guān)西人”的情況下,選擇用于關(guān)西人的響應(yīng)數(shù)據(jù)庫(kù)?;蛘?,在所輸入的發(fā)言特征類別是例如“關(guān)東人”的情況下,選擇用于關(guān)東人的響應(yīng)數(shù)據(jù)庫(kù)。
然后,響應(yīng)語(yǔ)音產(chǎn)生單元30使用從對(duì)話控制處理單元40所輸入的參考標(biāo)識(shí)符ID,以便獲得用于語(yǔ)音響應(yīng)的讀取信息和從在步驟S31選擇的響應(yīng)數(shù)據(jù)庫(kù)獲得相應(yīng)的韻律信息(步驟S32)。
響應(yīng)語(yǔ)音產(chǎn)生單元30,使用在步驟S32獲得的讀取信息和韻律信息,以及音素?cái)?shù)據(jù)庫(kù)存儲(chǔ)的用于組成合成語(yǔ)音的音素?cái)?shù)據(jù),產(chǎn)生用于語(yǔ)音響應(yīng)的合成語(yǔ)音(步驟S33),并且以語(yǔ)音響應(yīng)的形式輸出這樣產(chǎn)生的合成語(yǔ)音(步驟S34)。所述響應(yīng)語(yǔ)音就是用這樣的方式產(chǎn)生并輸出的。
如圖4所示的處理有這樣的流程,其中響應(yīng)語(yǔ)音是使用按規(guī)則的語(yǔ)言合成的語(yǔ)音合成方法產(chǎn)生的??梢允褂昧硪恢姓Z(yǔ)音合成方法。在準(zhǔn)備了例如已經(jīng)為語(yǔ)音響應(yīng)預(yù)先記錄的語(yǔ)音的情況下,如圖4所示的讀取信息數(shù)據(jù)庫(kù)由如圖5所示的以上被記錄的語(yǔ)音組成的響應(yīng)語(yǔ)音數(shù)據(jù)庫(kù)50代替。更具體地說(shuō),響應(yīng)語(yǔ)音產(chǎn)生單元從發(fā)言特征類別選擇部分22接收發(fā)言特征類別(步驟S40),選擇響應(yīng)語(yǔ)音數(shù)據(jù)庫(kù)50(步驟S41)并獲得響應(yīng)語(yǔ)音(步驟S42)。對(duì)話控制處理單元40和其它裝置實(shí)現(xiàn)對(duì)話狀態(tài)(步驟S44),并且響應(yīng)語(yǔ)音產(chǎn)生單元直接輸出已經(jīng)根據(jù)對(duì)話狀態(tài)和識(shí)別關(guān)鍵字選擇的響應(yīng)語(yǔ)音(步驟S44)。
現(xiàn)在,將對(duì)響應(yīng)語(yǔ)音產(chǎn)生處理的例子進(jìn)行描述如下。這個(gè)例子是以如圖4所示的處理為基礎(chǔ)的。
<例1>在發(fā)言特征類別被判斷是“關(guān)西”,值“2”作為響應(yīng)語(yǔ)音數(shù)據(jù)庫(kù)的參考標(biāo)識(shí)符ID被輸入的情況下。
首先,在步驟S31,響應(yīng)語(yǔ)音產(chǎn)生單元30作出響應(yīng)數(shù)據(jù)庫(kù)的選擇?!瓣P(guān)西”作為發(fā)言特征類別被輸入。因此,在這一塊中,為使用“關(guān)西”,設(shè)置響應(yīng)數(shù)據(jù)庫(kù)。
然后,響應(yīng)語(yǔ)音產(chǎn)生單元30,在步驟S32接收響應(yīng)語(yǔ)音數(shù)據(jù)庫(kù)的參考標(biāo)識(shí)符ID,并且獲得相應(yīng)于以上ID的韻律信息和來(lái)自在步驟S31選擇的響應(yīng)數(shù)據(jù)庫(kù)中的讀取信息。響應(yīng)數(shù)據(jù)庫(kù)存儲(chǔ)讀取信息,如圖6A所示。在這個(gè)例子中,參考標(biāo)識(shí)符ID是“2”,“關(guān)西”響應(yīng)數(shù)據(jù)庫(kù)在步驟S31被選擇,因此,句子“hona,“makudo”ni ikimashou!”(注釋這個(gè)句子在日文中,帶著關(guān)西重讀口音,意思是,“好,讓我們?nèi)ackers!”)被選擇。同時(shí),獲得韻律信息,例如,詞、詞組的拆分、標(biāo)點(diǎn)的位置和重讀的位置,所述韻律信息相應(yīng)于讀取信息。
然后,響應(yīng)語(yǔ)音產(chǎn)生單元30,使用在步驟S32所輸出的“hona,“makudo”ni ikimashou!”的讀取數(shù)據(jù)、相應(yīng)于以上讀取數(shù)據(jù)的韻律信息和音素讀取數(shù)據(jù),以便在步驟33產(chǎn)生用于響應(yīng)的語(yǔ)音。在步驟S33產(chǎn)生的語(yǔ)音以語(yǔ)音響應(yīng)的形式被輸出。
在這個(gè)例子中,響應(yīng)數(shù)據(jù)庫(kù)存儲(chǔ)每一單句的數(shù)據(jù),因此導(dǎo)致在步驟S32獲得單個(gè)參考標(biāo)識(shí)符ID。然而本發(fā)明還可以適用于這樣一個(gè)情況,就是響應(yīng)數(shù)據(jù)庫(kù)存儲(chǔ)每一單個(gè)詞的數(shù)據(jù),從而實(shí)現(xiàn)本發(fā)明的系統(tǒng)。在這種情況下,參考標(biāo)識(shí)符ID的序列是從對(duì)話控制處理單元40輸出的。相應(yīng)于各個(gè)參考標(biāo)識(shí)符ID的讀取信息,以及韻律信息是按照參考標(biāo)識(shí)符ID序列的次序獲得的,并且在步驟S33,詞通過(guò)語(yǔ)音合成處理組合在一起,然后當(dāng)組合的詞組成單句時(shí),就輸出語(yǔ)音響應(yīng)。還可以使用中間語(yǔ)言(其中諸如重音這樣的韻律信息以符號(hào)形式被添加到讀取信息)數(shù)據(jù)庫(kù)作為響應(yīng)數(shù)據(jù)庫(kù),在所述中間語(yǔ)言數(shù)據(jù)庫(kù)中,韻律信息數(shù)據(jù)庫(kù)和讀取信息數(shù)據(jù)庫(kù)組合在一起。
<例2>在發(fā)言特征類別被判斷是“愉快”,值“3”作為響應(yīng)語(yǔ)音數(shù)據(jù)庫(kù)的參考標(biāo)識(shí)符ID被輸入的情況下。
首先,在步驟S31,響應(yīng)語(yǔ)音產(chǎn)生單元30選擇響應(yīng)數(shù)據(jù)庫(kù)?!坝淇臁弊鳛榘l(fā)言特征類別被輸入。因此,在這一塊中,為使用“愉快”,設(shè)置響應(yīng)數(shù)據(jù)庫(kù)。
然后,響應(yīng)語(yǔ)音產(chǎn)生單元30,在步驟S32接收響應(yīng)語(yǔ)音數(shù)據(jù)庫(kù)的參考標(biāo)識(shí)符ID,并且獲得相應(yīng)于以上ID的韻律信息和來(lái)自在步驟S31選擇的響應(yīng)數(shù)據(jù)庫(kù)中的讀取信息。響應(yīng)數(shù)據(jù)庫(kù)存儲(chǔ)讀取信息,如圖6B所示。在這個(gè)例子中,參考標(biāo)識(shí)符ID是“3”,并且在步驟S31選擇用于“愉快”的響應(yīng)數(shù)據(jù)庫(kù),因此,選擇句子“好事情,你看起來(lái)很愉快”。同時(shí),獲得韻律信息,例如,詞、詞組的拆分、標(biāo)點(diǎn)的位置和重讀的位置,所述韻律信息相應(yīng)于讀取信息。
然后,響應(yīng)語(yǔ)音產(chǎn)生單元30,使用在步驟S32所輸出的“好事情,你看起來(lái)很愉快”的讀取數(shù)據(jù)、相應(yīng)于以上讀取數(shù)據(jù)的韻律信息,和音素?cái)?shù)據(jù)庫(kù),以便在步驟33產(chǎn)生用于響應(yīng)的語(yǔ)音。在步驟S33產(chǎn)生的語(yǔ)音以語(yǔ)音響應(yīng)的形式被輸出。
這個(gè)例子中,響應(yīng)數(shù)據(jù)庫(kù)存儲(chǔ)每一單句的數(shù)據(jù),因此導(dǎo)致在步驟S32獲得單個(gè)參考標(biāo)識(shí)符ID。然而本發(fā)明還可以適用于這樣一個(gè)情況,就是響應(yīng)數(shù)據(jù)庫(kù)存儲(chǔ)每一單個(gè)詞的數(shù)據(jù),以便實(shí)現(xiàn)本發(fā)明的系統(tǒng)。在這種情況下,參考標(biāo)識(shí)符ID的序列是從對(duì)話控制處理單元40輸出的。相應(yīng)于各個(gè)參考標(biāo)識(shí)符ID的讀取信息,以及韻律信息是按照參考標(biāo)識(shí)符ID序列的次序獲得的,并且在步驟S33,詞通過(guò)語(yǔ)音合成處理組合在一起,然后當(dāng)組合的詞組成單句時(shí),輸出語(yǔ)音響應(yīng)。還可以使用中間語(yǔ)言(其中諸如重音這樣的韻律信息以符號(hào)形式被添加到讀取信息)數(shù)據(jù)庫(kù)作為響應(yīng)數(shù)據(jù)庫(kù),在所述中間語(yǔ)言數(shù)據(jù)庫(kù)中,韻律信息數(shù)據(jù)庫(kù)和讀取信息數(shù)據(jù)庫(kù)組合在一起。
<修改1>
現(xiàn)在,將對(duì)上述說(shuō)明例子的修改進(jìn)行如下描述。在這個(gè)修改中,不同于關(guān)鍵字間隔的語(yǔ)音間隔(即,可有可無(wú)的字)也進(jìn)行發(fā)言特征類別的判斷處理。更具體地說(shuō),如圖7所示的流程圖,可以執(zhí)行從從可有可無(wú)的詞的發(fā)言數(shù)據(jù)中抽取這樣的關(guān)鍵字的處理,可以采用表達(dá)式從所述關(guān)鍵字中推出發(fā)言特征(所述關(guān)鍵字以下簡(jiǎn)稱“特征關(guān)鍵字”),與上述一起執(zhí)行的是關(guān)鍵字抽取處理(以下簡(jiǎn)稱“主關(guān)鍵字選取”),這樣就有可能更加顯著地反映用戶發(fā)言的特征。
更具體地說(shuō),將執(zhí)行下列處理。
首先,參數(shù)轉(zhuǎn)換部分12將發(fā)言數(shù)據(jù)(已經(jīng)輸入)轉(zhuǎn)換為特征參數(shù)(步驟S20)。然后,語(yǔ)音識(shí)別處理部分14實(shí)施在步驟20所生成的特征參數(shù)與主關(guān)鍵字模型的匹配處理,以便抽取關(guān)鍵字(步驟S21)。語(yǔ)音識(shí)別處理部分14還實(shí)施在步驟20所生成的特征參數(shù)與特征關(guān)鍵字模型的匹配處理,以便抽取特征關(guān)鍵字(步驟S22)。
然后,發(fā)言特征類別選擇部分22使用發(fā)言特征參數(shù)獲得最適當(dāng)?shù)陌l(fā)言特征類別,該發(fā)言特征參數(shù)相應(yīng)于在步驟S21獲得的主關(guān)鍵字和在步驟S22獲得的特征關(guān)鍵字(步驟S23)。在這一階段,利用在主關(guān)鍵字這一側(cè)所存儲(chǔ)的發(fā)言特征參數(shù)和在特征關(guān)鍵字這一側(cè)所存儲(chǔ)的發(fā)言特征參數(shù)的全部,來(lái)獲得代表性的發(fā)言特征參數(shù)。
響應(yīng)語(yǔ)音產(chǎn)生單元30,使用在步驟S23獲得的發(fā)言特征類別和在步驟S21和S22獲得的識(shí)別關(guān)鍵字,產(chǎn)生用于語(yǔ)音響應(yīng)的語(yǔ)音(步驟S24)。這樣產(chǎn)生的語(yǔ)音以語(yǔ)音響應(yīng)的形式被輸入給用戶。
現(xiàn)在,對(duì)修改1中具體處理例子進(jìn)行如下描述。
<例>在給出“juutai-jouhou wo tanomu-wa”(注釋這個(gè)帶著關(guān)西重讀口音,意思是“請(qǐng)給我交通阻塞信息”)的發(fā)言的情況下。
先決條件□主關(guān)鍵字是“juutai-jouhou”(即,交通阻塞信息)。
□詞“tanomu-wa”(即,“請(qǐng)給我”)已經(jīng)作為發(fā)言特征關(guān)鍵字被記錄。
□詞“juutai-jouhou”(即,交通阻塞信息)的發(fā)言特征參數(shù)(0.50,0.50)□詞“tanomu-wa”(即,“請(qǐng)給我”)的發(fā)言特征參數(shù)(0.80,0.20)*在這個(gè)例子中,發(fā)言特征參數(shù)的元素分別表示下面的特征(關(guān)西人發(fā)言頻率值,關(guān)東人發(fā)言頻率值)在步驟S20,參數(shù)轉(zhuǎn)換部分12獲得發(fā)言數(shù)據(jù)本身的特征參數(shù)。
然后,語(yǔ)音識(shí)別處理部分14實(shí)施主關(guān)鍵字模型同在步驟S20獲得的特征參數(shù)進(jìn)行匹配處理,以便在步驟S21抽取“juutai-jouhou”(即,交通阻塞信息)的主關(guān)鍵字。語(yǔ)音識(shí)別處理部分14還實(shí)施特征關(guān)鍵字同特征關(guān)鍵字模型和在步驟S20獲得的特征參數(shù)進(jìn)行匹配處理,以便在步驟S22選取“tanomu”(即,“請(qǐng)給我”)的特征關(guān)鍵字。
然后,在步驟S23,發(fā)言特征類別選擇部分22抽取發(fā)言特征類別。更具體地說(shuō),與“juutai-jouhou”(即,交通阻塞信息)的主關(guān)鍵字對(duì)應(yīng)的發(fā)言特征參數(shù)“u”是從發(fā)言特征數(shù)據(jù)庫(kù)獲得的。與“tanomu”(即,“請(qǐng)給我”)的特征關(guān)鍵字對(duì)應(yīng)的發(fā)言特征參數(shù)“v”也是從發(fā)言特征數(shù)據(jù)庫(kù)中獲得的。在這個(gè)例子中,發(fā)言特征參數(shù)“u”和“v”可以表示如下u=(0.50,0.50),v=(0.80,0.20)然后,發(fā)言特征類別選擇部分22獲得用于作為發(fā)出的整個(gè)語(yǔ)音數(shù)據(jù)的代表性的發(fā)言特征參數(shù)。在發(fā)言特征參數(shù)被確定為代表性的發(fā)言特征參數(shù)的元素。發(fā)言特征參數(shù)“u”的第一元素是“0.50”,發(fā)言特征參數(shù)“v”的第一元素是“0.80”。在這些值中,最大值是“0.80”。同樣,發(fā)言特征參數(shù)“u”的第二元素是“0.50”,發(fā)言特征參數(shù)“v”的第二元素“0.20”。在這些值中,最大值是“0.50“。
按照這種步驟,代表性的發(fā)言特征參數(shù)“w”可以表示如下w=(0.80,0.50)
然后,在代表性的發(fā)言特征參數(shù)“w”的元素中,具有最大值的元素被確定作為發(fā)言特征類別。在代表性的發(fā)言特征參數(shù)“w”中具有最大值的元素是第一元素中的“0.80”。因此,發(fā)言特征類別選擇部分22判斷發(fā)言的人是“關(guān)西人”,并且將這個(gè)判斷結(jié)果發(fā)送給響應(yīng)語(yǔ)音產(chǎn)生單元30。
然后,響應(yīng)語(yǔ)音產(chǎn)生單元30返回發(fā)言特征類別,并實(shí)施語(yǔ)音合成處理以便以語(yǔ)音響應(yīng)的形式輸出合成語(yǔ)音。
<修改2>
現(xiàn)在,將對(duì)上述說(shuō)明例子的另一個(gè)修改描述如下。在這個(gè)修改例2中,準(zhǔn)備了多個(gè)發(fā)言特征數(shù)據(jù)庫(kù),為每個(gè)發(fā)言特征數(shù)據(jù)庫(kù)獲得發(fā)言特征參數(shù),這樣就有可能更詳細(xì)地反映語(yǔ)音響應(yīng)中的用戶發(fā)言的特征。
更具體地說(shuō),預(yù)先準(zhǔn)備了一個(gè)發(fā)言特征“A”的數(shù)據(jù)庫(kù)(例如,如圖8所示的表示感情的發(fā)言特征數(shù)據(jù)庫(kù))和一個(gè)發(fā)言特征“B”的數(shù)據(jù)庫(kù)(例如,如圖8所示的地區(qū)性的發(fā)言特征數(shù)據(jù)庫(kù)),因此兩個(gè)發(fā)言特征參數(shù),即,任一發(fā)言特征“A”參數(shù)和任一發(fā)言特征“B”參數(shù)都是為單一關(guān)鍵字獲得的(參見(jiàn)圖8)。
預(yù)先從全部關(guān)鍵字中的發(fā)言特征“A”參數(shù)和發(fā)言特征“B”參數(shù)獲得代表性的發(fā)言特征參數(shù),有可能獲得這樣的特征,,所述特征已經(jīng)從發(fā)言的兩個(gè)方面加以判斷了。因此,和上述使用單一發(fā)言特征類別參數(shù)的情況相比較,有可能提供可以反映模式詳細(xì)的發(fā)言情況的語(yǔ)音響應(yīng)。
不用說(shuō),相似的處理可以應(yīng)用于使用三個(gè)或更多發(fā)言特征數(shù)據(jù)庫(kù)的情況。在這種情況下,語(yǔ)音識(shí)別/響應(yīng)系統(tǒng)更詳細(xì)地綜合發(fā)言情況,這樣就有可能提供針對(duì)所述情況的最適當(dāng)?shù)恼Z(yǔ)音響應(yīng)。
現(xiàn)在,將根據(jù)如圖1的方框圖和圖9的流程圖描述相各個(gè)處理。
<處理例子>
首先,參數(shù)轉(zhuǎn)換部分12將已經(jīng)輸入的發(fā)言數(shù)據(jù)轉(zhuǎn)換成為特征參數(shù)(步驟S20)。然后,語(yǔ)音識(shí)別處理部分14實(shí)施主關(guān)鍵字模型同在步驟S20產(chǎn)生的特征參數(shù)進(jìn)行匹配處理,以便抽取關(guān)鍵字(步驟S21)。語(yǔ)音識(shí)別處理部分14還實(shí)施特征關(guān)鍵字模型同在步驟S20產(chǎn)生的特征參數(shù)進(jìn)行匹配處理,以便采用步驟S21相同的方式抽取特征關(guān)鍵字(步驟S22)。當(dāng)然,如上所述,發(fā)言特征類別僅用于主關(guān)鍵字。在這種情況下,系統(tǒng)結(jié)構(gòu)和圖9所示的流程圖的結(jié)構(gòu)相一致,除了步驟S21被刪除之外。
然后,發(fā)言特征類別選擇部分22,使用發(fā)言特征“A”參數(shù)(它們相應(yīng)于在步驟S21獲得的主關(guān)鍵字和在步驟S22獲得的特征關(guān)鍵字,以便獲得最適當(dāng)?shù)陌l(fā)言特征“A”類別(步驟S231)。在這一階段,利用在主關(guān)鍵字這一側(cè)所存儲(chǔ)的發(fā)言特征“A”參數(shù)和在特征關(guān)鍵字這一側(cè)所存儲(chǔ)的發(fā)言特征“A”參數(shù)的全部,來(lái)獲得代表性的發(fā)言特征“A”參數(shù)。發(fā)言特征類別選擇部分22,還使用發(fā)言特征參數(shù)“B”參數(shù)(該參數(shù)相應(yīng)于在步驟S21獲得的主關(guān)鍵字和在步驟S22獲得的特征鍵字),以便采用與步驟S231相同的方式獲得最適當(dāng)?shù)陌l(fā)言特征“B”類別(步驟S232)。
響應(yīng)語(yǔ)音產(chǎn)生單元30,使用在步驟S231獲得的發(fā)言特征“A”類別、在步驟S232獲得的發(fā)言特征“B”類別和在步驟S21和S22獲得的識(shí)別關(guān)鍵字,產(chǎn)生用于語(yǔ)音響應(yīng)的語(yǔ)音。這樣產(chǎn)生的語(yǔ)音以語(yǔ)音響應(yīng)的形式輸入給用戶。
現(xiàn)在,對(duì)修改2中具體處理例子進(jìn)行如下描述。
<例子>在給出“akan,juutai-jouhou wo tanomu wa”(注釋帶著關(guān)西口音,意思是,“我的天?。≌?qǐng)給我交通堵塞信息”)的發(fā)言的情況下。
先決前提□主關(guān)鍵字是“juutai-jouhau”(即,交通阻塞信息)。
□詞“tanomu-wa”(即,“請(qǐng)給我”)已經(jīng)作為發(fā)言特征關(guān)鍵字被記錄。
□詞“juutai-jouhou”(即,交通阻塞信息)的發(fā)言特征“A”參數(shù)(0.50,0.50)□詞“juutai-jouhou”(即,交通阻塞信息)的發(fā)言特征“B”參數(shù)(0.50,0.50)□詞“tanomu-wa”(即,“請(qǐng)給我”)的發(fā)言特征“A”參數(shù)(0.80,0.20)□詞“tanomu-wa”(即,“請(qǐng)給我”)的發(fā)言特征“B”參數(shù)(0.50,0.50)□詞“akan”(即,“哦,我的天?。 ?的發(fā)言特征“A”參數(shù)(0.80,0.20)
□詞“akan”(即,“哦,我的天??!”)的發(fā)言特征“B”參數(shù)(0.10,0.90)*在這個(gè)例子中,發(fā)言特征“A”參數(shù)的元素的分別表示如下特征(關(guān)西人發(fā)言頻率值,關(guān)東人發(fā)言頻率的值)和在這個(gè)例子中,發(fā)言特征“B”參數(shù)的元素的分別表示如下特征(表示愉快的頻率值,表示煩悶的頻率值))在步驟S20,轉(zhuǎn)換部分12獲得發(fā)言數(shù)據(jù)本身的特征參數(shù)。然后,語(yǔ)音識(shí)別處理部分14實(shí)施主關(guān)鍵字模型同在步驟S20獲得的特征參數(shù)的匹配處理,以便在步驟S21抽取“juutai-jouhou”(即,交通阻塞信息)的主關(guān)鍵字。
語(yǔ)音識(shí)別處理部分14還實(shí)施特征關(guān)鍵字和在步驟S20獲得的特征關(guān)鍵字模型和特征參數(shù)的匹配處理,以便在步驟S22抽取“akan”(即,“哦,我的天??!”)和“tanomu”(即,“請(qǐng)給我”)的特征關(guān)鍵字。
然后,在步驟S231,發(fā)言特征類別選擇部分22抽取發(fā)言特征“A“類別。更具體地說(shuō),與“juutai-jouhou”(即,交通阻塞信息)的主關(guān)鍵字對(duì)應(yīng)的發(fā)言特征“A”的參數(shù)“ua”是從發(fā)言特征數(shù)據(jù)庫(kù)獲得的。與“tanomu”(即,“請(qǐng)給我”)的特征關(guān)鍵字對(duì)應(yīng)的發(fā)言特征“A”的參數(shù)“va(1)”,以及與“akan”(即,“哦,我的天??!”)的特征關(guān)鍵字對(duì)應(yīng)的發(fā)言特征“A”的參數(shù)“va(2)”,也是從發(fā)言特征數(shù)據(jù)庫(kù)獲得的。
在這個(gè)例子中,發(fā)言特征參數(shù)“ua”,“va(1)”和“va(2)”可以表示如下ua=(0.50,0.50)va(1)=(0.80,0.20)va(2)=(0.90,0.20)采用與上述同樣的方法,在步驟S232,發(fā)言特征類別選擇部分22抽取發(fā)言特征“B”類別。更具體地說(shuō),與“juutai-jouhou”(即,交通阻塞信息)的主關(guān)鍵字對(duì)應(yīng)的發(fā)言特征“B”的參數(shù)“ub”是從發(fā)言特征數(shù)據(jù)庫(kù)獲得的。與“tanomu”(即,“請(qǐng)給我”)的特征關(guān)鍵字對(duì)應(yīng)的發(fā)言特征“B”參數(shù)“vb(1),以及“akan”(即,“哦,我的天??!”)的特征關(guān)鍵字對(duì)應(yīng)的發(fā)言特征“B”參數(shù)“vb(2)”,也是從發(fā)言特征數(shù)據(jù)庫(kù)獲得的。
在這個(gè)例子中,發(fā)言特征“B”的參數(shù)“ub”,“vb(1)”和“vb(2)”可以表示如下ub=(0.50,0.50)vb(1)=(0.50,0.50)vb(2)=(0.10,0.90))然后,發(fā)言特征類別選擇部分22獲得用于作為輸出的整個(gè)語(yǔ)音數(shù)據(jù)的代表性發(fā)言特征參數(shù)。在發(fā)言特征“A”參數(shù)的元素中以及發(fā)言特征“B”參數(shù)的元素中(它們已經(jīng)分別在步驟S231和S232獲得),具有最大值的元素分別被確定為代表性發(fā)言特征“A”參數(shù)的元素和代表性的發(fā)言特征“B”參數(shù)的元素。
這里,獲得用于特征“A”參數(shù)的代表性的發(fā)言特征“A”參數(shù)。發(fā)言特征“A”參數(shù)“ua”的第一元素是“0.50”,發(fā)言特征“A”參數(shù)“va(1)”的第一元素是“0.80”,發(fā)言特征“A”參數(shù)“va(2)”的第一元素是“0.90”。在這些值中,最大值是“0.90”。采用同樣的方式,發(fā)言特征“A”參數(shù)“ua”的第二元素是“0.50”,發(fā)言特征“A”參數(shù)的“va(1)”第二元素是“0.20”,發(fā)言特征“A”參數(shù)“va(2)‘的第二元素是“0.20”。在這些值中,最大值是“0.50”。
根據(jù)這種步驟,代表性的發(fā)言特征“A”參數(shù)“Wa‘可以表示如下wa=(0.90,0.50)用于發(fā)言特征“B”參數(shù)的代表性的發(fā)言特征“B”參數(shù)“wb”以相似的方法中獲得,可以表示如下wb=(0.50,0.90)然后,在代表性的發(fā)言特征“A”參數(shù)“wa”的元素和代表性的發(fā)言特征“B”參數(shù)“wb”中,具有最大值的代表性元素被確定為發(fā)言特征類別。在代表性的發(fā)言特征“A”參數(shù)“wa‘中具有最大值的元素是第一元素中的“0.90”。因此,發(fā)言特征類別選擇部分22判斷給出發(fā)言的人是“關(guān)西人”,并且將判斷結(jié)果發(fā)送到響應(yīng)語(yǔ)音產(chǎn)生單元30。
以同樣方式,在代表性的發(fā)言特征B”參數(shù)“wb”中具有最大值的元素是第一元素中的“0.90”。因此,發(fā)言特征類別選擇部分22判斷給出發(fā)言的人是“感覺(jué)煩悶”,并且將斷定結(jié)果發(fā)送到響應(yīng)語(yǔ)音產(chǎn)生單元30。
然后,響應(yīng)語(yǔ)音產(chǎn)生單元30反映兩個(gè)發(fā)言特征類別,并且實(shí)施語(yǔ)音合成處理以便采用語(yǔ)音響應(yīng)的形式將合成語(yǔ)音輸出。
根據(jù)詳細(xì)描述的本發(fā)明,本發(fā)明的語(yǔ)音識(shí)別/響應(yīng)系統(tǒng),被配置為執(zhí)行用戶發(fā)言的語(yǔ)音識(shí)別,根據(jù)識(shí)別結(jié)果選擇用戶發(fā)言的發(fā)言特征類別,并且產(chǎn)生與發(fā)言特征類別一致的響應(yīng)語(yǔ)音。因此,執(zhí)行語(yǔ)音響應(yīng)的切換操作,以便根據(jù)用戶的發(fā)言提供一個(gè)輸出。僅通過(guò)所述的語(yǔ)音識(shí)別/響應(yīng)系統(tǒng)獲得的信息,就可以提供對(duì)用戶來(lái)說(shuō)感覺(jué)熟悉的對(duì)話,同時(shí)避免用戶由發(fā)言風(fēng)格例如方言的改變所引起的混淆。
權(quán)利要求
1.一種語(yǔ)音識(shí)別/響應(yīng)系統(tǒng),包括發(fā)言識(shí)別單元(10),通過(guò)用戶的語(yǔ)音輸入識(shí)別用戶的發(fā)言內(nèi)容,并且輸出識(shí)別結(jié)果;對(duì)話控制處理單元(40),根據(jù)所述識(shí)別結(jié)果控制同用戶的對(duì)話進(jìn)程,以便確定針對(duì)所述用戶的響應(yīng)內(nèi)容;發(fā)言特征分析單元(20),分析所述用戶的發(fā)言特征以便產(chǎn)生發(fā)言特征信息;和響應(yīng)語(yǔ)音產(chǎn)生單元(30),根據(jù)所述響應(yīng)內(nèi)容和所述發(fā)言特征信息產(chǎn)生針對(duì)所述用戶的響應(yīng)語(yǔ)音。
2.根據(jù)權(quán)利要求1的系統(tǒng),其中所述發(fā)言特征信息包括多個(gè)發(fā)言特征類別,所述發(fā)言特征類別通過(guò)將用戶的發(fā)言特征分類為多個(gè)組獲得,所述發(fā)言特征分析單元(20)根據(jù)所述識(shí)別結(jié)果從所述多個(gè)發(fā)言特征類別中選擇發(fā)言特征類別,以便輸出所述發(fā)言特征類別。
3.根據(jù)權(quán)利要求2的系統(tǒng),其中所述多個(gè)發(fā)言特征類別包括與所述用戶的地區(qū)性有關(guān)的參數(shù)。
4.根據(jù)權(quán)利要求2或3的系統(tǒng),其中所述發(fā)言特征分析單元(20)包括數(shù)據(jù)庫(kù)(24),用于存儲(chǔ)所述發(fā)言特征參數(shù),它們被用于選擇與所述用戶的發(fā)言有關(guān)的所述發(fā)言特征類別;和裝置(22),用于使用相應(yīng)于所述識(shí)別結(jié)果的發(fā)言特征參數(shù)選擇所述發(fā)言特征類別。
5.一種存儲(chǔ)介質(zhì),其上存儲(chǔ)由計(jì)算機(jī)執(zhí)行的語(yǔ)音識(shí)別/響應(yīng)程序,其中所述程序?qū)е滤鲇?jì)算機(jī)起到如下單元的作用發(fā)言識(shí)別單元(10),通過(guò)用戶的語(yǔ)音輸入識(shí)別用戶的發(fā)言內(nèi)容,并且輸出識(shí)別結(jié)果;對(duì)話控制處理單元(40),根據(jù)所述識(shí)別結(jié)果控制同用戶的對(duì)話進(jìn)程,以便確定針對(duì)所述用戶的響應(yīng)內(nèi)容;發(fā)言特征分析單元(20),分析所述用戶的發(fā)言特征以便產(chǎn)生發(fā)言特征信息;和響應(yīng)語(yǔ)音產(chǎn)生單元(30),根據(jù)所述響應(yīng)內(nèi)容和所述發(fā)言特征信息產(chǎn)生針對(duì)所述用戶的響應(yīng)語(yǔ)音。
6.一種由計(jì)算機(jī)執(zhí)行的語(yǔ)音識(shí)別/響應(yīng)程序,其中所述程序?qū)е滤鲇?jì)算機(jī)起到如下單元的作用發(fā)言識(shí)別單元(10),通過(guò)用戶的語(yǔ)音輸入識(shí)別用戶的發(fā)言內(nèi)容,并且輸出識(shí)別結(jié)果;對(duì)話控制處理單元(40),根據(jù)所述識(shí)別結(jié)果控制同用戶的對(duì)話進(jìn)程,以便確定針對(duì)所述用戶的響應(yīng)內(nèi)容;發(fā)言特征分析單元(20),分析所述用戶的發(fā)言特征以便產(chǎn)生發(fā)言特征信息;和響應(yīng)語(yǔ)音產(chǎn)生單元(30),根據(jù)所述響應(yīng)內(nèi)容和所述發(fā)言特征信息產(chǎn)生針對(duì)所述用戶的響應(yīng)語(yǔ)音。
全文摘要
一種語(yǔ)音識(shí)別響應(yīng)系統(tǒng)包括發(fā)言識(shí)別單元、對(duì)話控制處理單元、發(fā)言特征分析單元和響應(yīng)語(yǔ)音產(chǎn)生單元。發(fā)言識(shí)別單元通過(guò)用戶的語(yǔ)音輸入識(shí)別用戶的發(fā)言內(nèi)容,并輸出識(shí)別結(jié)果。對(duì)話控制處理單元根據(jù)識(shí)別結(jié)果控制同用戶的對(duì)話進(jìn)程以便確定針對(duì)用戶的響應(yīng)內(nèi)容。發(fā)言特征分析單元分析用戶的發(fā)言特征以便產(chǎn)生發(fā)言特征信息。響應(yīng)語(yǔ)音產(chǎn)生單元根據(jù)響應(yīng)內(nèi)容和發(fā)言特征信息產(chǎn)生針對(duì)所述用戶的響應(yīng)語(yǔ)音。
文檔編號(hào)G10L13/00GK1474379SQ03145060
公開(kāi)日2004年2月11日 申請(qǐng)日期2003年7月2日 優(yōu)先權(quán)日2002年7月2日
發(fā)明者小林載, 市原直彥, 小田川智, 彥, 智 申請(qǐng)人:日本先鋒公司