的第二似然度,從選擇部120選擇出的多個(gè)候選中確定從作為檢索對(duì)象的語(yǔ)音信號(hào)中推定為發(fā)出與檢索字符串對(duì)應(yīng)的語(yǔ)音的推定區(qū)間。例如,確定部124按照第二似然度計(jì)算部123計(jì)算出的第二似然度從大到小的順序?qū)㈩A(yù)定個(gè)數(shù)的區(qū)間確定為推定區(qū)間。確定部124確定的區(qū)間的位置信息作為最終的檢索結(jié)果,經(jīng)由輸出裝置5具備的畫(huà)面向外部顯不。
[0069]參照?qǐng)D5所示的流程圖說(shuō)明以上那樣的語(yǔ)音檢索裝置100執(zhí)行的語(yǔ)音檢索處理的流程。
[0070]如果檢索字符串取得部111取得檢索字符串(步驟Sll),則開(kāi)始圖5所示的流程圖的處理。如果檢索字符串取得部111取得檢索字符串,則變換部112和第二變換部121將檢索字符串變換為音素列(步驟S12),按照音素列的音素順序排列聲音模型的音素(步驟S13)。具體地說(shuō),變換部112將檢索字符串變換為基于單音素的單音素音素列,第二變換部121將檢索字符串變換為基于三音素的三音素音素列。
[0071]如果將檢索字符串變換為音素列,則時(shí)間長(zhǎng)度導(dǎo)出部113導(dǎo)出與檢索字符串對(duì)應(yīng)的語(yǔ)音的發(fā)言時(shí)間長(zhǎng)度(步驟S14)。具體地說(shuō),時(shí)間長(zhǎng)度導(dǎo)出部113取得在時(shí)間長(zhǎng)度存儲(chǔ)部104中針對(duì)每個(gè)音素的狀態(tài)存儲(chǔ)的平均持續(xù)長(zhǎng)度,將取得的平均持續(xù)長(zhǎng)度相加,由此導(dǎo)出與檢索字符串對(duì)應(yīng)的語(yǔ)音的發(fā)言時(shí)間長(zhǎng)度。
[0072]如果時(shí)間長(zhǎng)度導(dǎo)出部113導(dǎo)出發(fā)言時(shí)間長(zhǎng)度,則語(yǔ)音檢索處理從作為檢索對(duì)象的語(yǔ)音信號(hào)的開(kāi)始到末尾,按順序地指定所導(dǎo)出的發(fā)言時(shí)間長(zhǎng)度的區(qū)間即似然度計(jì)算區(qū)間,轉(zhuǎn)移到計(jì)算似然度的處理。首先,區(qū)間指定部114指定從作為檢索對(duì)象的語(yǔ)音信號(hào)的開(kāi)頭幀開(kāi)始的似然度計(jì)算區(qū)間(步驟S15)。
[0073]如果區(qū)間指定部114指定似然度計(jì)算區(qū)間,則特征量計(jì)算部115針對(duì)每個(gè)幀計(jì)算所指定的似然度計(jì)算區(qū)間的語(yǔ)音信號(hào)的特征量(步驟S16)。然后,輸出概率取得部116根據(jù)特征量計(jì)算部115計(jì)算出的特征量和對(duì)應(yīng)的單音素模型,對(duì)每個(gè)幀取得從包含在音素列中的各音素輸出該特征量的輸出概率(步驟S17)。
[0074]如果輸出概率取得部116取得輸出概率,則置換部117將對(duì)每個(gè)幀取得的輸出概率置換為其前后η個(gè)幀中的最大的輸出概率,由此執(zhí)行下界化處理(步驟S18)。由此,吸收時(shí)間長(zhǎng)度導(dǎo)出部113導(dǎo)出的發(fā)言時(shí)間長(zhǎng)度和實(shí)際的發(fā)言時(shí)間長(zhǎng)度之間的誤差。
[0075]似然度計(jì)算部118取得下界化后的輸出概率在對(duì)數(shù)軸上的和,由此計(jì)算區(qū)間指定部114指定的似然度計(jì)算區(qū)間的似然度(步驟S19)。如果似然度計(jì)算部118計(jì)算出似然度,則重復(fù)部119判定作為檢索對(duì)象的語(yǔ)音信號(hào)的全部區(qū)間的似然度計(jì)算是否結(jié)束(步驟S20)。
[0076]在全部區(qū)間的似然度計(jì)算沒(méi)有結(jié)束的情況下(步驟S20:否),區(qū)間指定部114指定從上一個(gè)指定的幀的下一個(gè)幀開(kāi)始的似然度計(jì)算區(qū)間(步驟S21),語(yǔ)音檢索處理返回到步驟S16。然后,重復(fù)部119針對(duì)新指定的似然度計(jì)算區(qū)間重復(fù)進(jìn)行上述的步驟S16?S20的處理,計(jì)算似然度。這樣,重復(fù)部119直到到達(dá)作為檢索對(duì)象的語(yǔ)音信號(hào)的末尾為止,使區(qū)間指定部114指定的似然度計(jì)算區(qū)間逐幀地偏移,依次計(jì)算似然度。
[0077]最終,如果全部區(qū)間的似然度計(jì)算結(jié)束(步驟S20:是),則語(yǔ)音檢索處理轉(zhuǎn)移到根據(jù)計(jì)算出的似然度確定與檢索字符串對(duì)應(yīng)的區(qū)間的處理(步驟S22)。參照?qǐng)D6所示的流程圖說(shuō)明該確定處理的細(xì)節(jié)。
[0078]在似然度計(jì)算處理結(jié)束的狀態(tài)下,選擇部120從區(qū)間指定部114指定的似然度計(jì)算區(qū)間中,針對(duì)每個(gè)預(yù)定的選擇時(shí)間長(zhǎng)度逐一地選擇區(qū)間(步驟S101)。進(jìn)而,選擇部120從這樣選擇出的區(qū)間中,按照似然度從高到低的順序選擇X個(gè)區(qū)間(步驟S102)。S卩,選擇部120從作為檢索對(duì)象的語(yǔ)音信號(hào)的全體中預(yù)備地選擇確定為最終檢索結(jié)果的區(qū)間的候選,使得候選均勻地剩余。
[0079]在選擇部120的預(yù)備選擇后,第二輸出概率取得部122根據(jù)三音素音素列,對(duì)每個(gè)幀取得選擇部120選擇出的區(qū)間中的輸出概率(步驟S103)。然后,第二似然度計(jì)算部123通過(guò)DP匹配計(jì)算選擇部120選擇出的區(qū)間的似然度(步驟S104)。S卩,第二輸出概率取得部122和第二似然度計(jì)算部123根據(jù)三音素模型和DP匹配,執(zhí)行精度比輸出概率取得部116和似然度計(jì)算部118高的似然度計(jì)算處理。
[0080]如果第二似然度計(jì)算部123計(jì)算出第二似然度,則確定部124根據(jù)計(jì)算出的第二似然度確定與檢索字符串對(duì)應(yīng)的區(qū)間(步驟S105)。例如,確定部124按照第二似然度計(jì)算部123計(jì)算出的第二似然度從大到小的順序,將預(yù)定個(gè)數(shù)的區(qū)間確定為推定為發(fā)出與檢索字符串對(duì)應(yīng)的語(yǔ)音的區(qū)間。以上,圖6所示的流程圖的處理結(jié)束。
[0081]返回到圖5所示的流程圖的說(shuō)明,如果確定與檢索字符串對(duì)應(yīng)的區(qū)間,則確定部124經(jīng)由輸出裝置5輸出確定結(jié)果(步驟S23)。通過(guò)以上步驟,語(yǔ)音檢索裝置100執(zhí)行的語(yǔ)音檢索處理結(jié)束。
[0082]如以上說(shuō)明的那樣,實(shí)施方式I的語(yǔ)音檢索裝置100用字符串(文本)取得檢索詞(查詢(xún)),從作為檢索對(duì)象的語(yǔ)音信號(hào)中確定被推定為發(fā)出與查詢(xún)對(duì)應(yīng)的語(yǔ)音的區(qū)間。由于用字符串取得檢索詞,因此在作為檢索對(duì)象的語(yǔ)音包含多個(gè)發(fā)言者的語(yǔ)音的情況、查詢(xún)輸入者的語(yǔ)音在聲音上特異的情況、或查詢(xún)輸入者原本就難以發(fā)聲等情況下,也能夠高精度并且高速地進(jìn)行語(yǔ)音檢索。
[0083]另外,實(shí)施方式I的語(yǔ)言檢索裝置100首先通過(guò)進(jìn)行使用了將狀態(tài)轉(zhuǎn)移固定化了的高速聲音模型即單音素模型的計(jì)算量少的匹配,來(lái)預(yù)備選擇被推定為發(fā)出與查詢(xún)對(duì)應(yīng)的語(yǔ)音的區(qū)間的候選。然后,語(yǔ)音檢索裝置100進(jìn)行使用了考慮到狀態(tài)轉(zhuǎn)移的聲音模型即三音素模型的計(jì)算量多并且高精度的匹配,由此得到最終的檢索結(jié)果。其結(jié)果是語(yǔ)音檢索裝置100能夠在抑制計(jì)算量的同時(shí)高精度地進(jìn)行語(yǔ)音檢索。
[0084](實(shí)施方式2)
[0085]接著,說(shuō)明本發(fā)明的實(shí)施方式2。
[0086]在實(shí)施方式I中,時(shí)間長(zhǎng)度導(dǎo)出部113導(dǎo)出一個(gè)時(shí)間長(zhǎng)度作為與檢索字符串取得部111取得的一個(gè)檢索字符串對(duì)應(yīng)的語(yǔ)音的發(fā)言時(shí)間長(zhǎng)度。另外,通過(guò)下界化在各音素的前后η幀的范圍內(nèi)吸收了時(shí)間長(zhǎng)度導(dǎo)出部113導(dǎo)出的發(fā)言時(shí)間長(zhǎng)度和實(shí)際的發(fā)言時(shí)間長(zhǎng)度之間的誤差。
[0087]但是,存在以下的問(wèn)題,即在語(yǔ)速原本快或慢的情況下,導(dǎo)出的發(fā)言時(shí)間長(zhǎng)度比實(shí)際的發(fā)言時(shí)間長(zhǎng)度長(zhǎng)或短,超過(guò)了前后η幀的范圍。為了應(yīng)對(duì)該問(wèn)題,在實(shí)施方式2中,時(shí)間長(zhǎng)度導(dǎo)出部113導(dǎo)出相互不同的多個(gè)時(shí)間長(zhǎng)度作為與檢索字符串取得部111取得的一個(gè)檢索字符串對(duì)應(yīng)的語(yǔ)音的發(fā)言時(shí)間長(zhǎng)度。
[0088]為此,在實(shí)施方式2中,時(shí)間長(zhǎng)度存儲(chǔ)部104對(duì)各音素以狀態(tài)為單位對(duì)應(yīng)地存儲(chǔ)在聲音模型中利用的各音素的平均持續(xù)長(zhǎng)度、比平均持續(xù)長(zhǎng)度短的時(shí)間長(zhǎng)度、比平均持續(xù)長(zhǎng)度長(zhǎng)的時(shí)間長(zhǎng)度這3種時(shí)間長(zhǎng)度。比平均持續(xù)長(zhǎng)度長(zhǎng)的時(shí)間長(zhǎng)度例如是平均持續(xù)長(zhǎng)度的
1.3倍的時(shí)間長(zhǎng)度。比平均持續(xù)長(zhǎng)度短的時(shí)間長(zhǎng)度例如是平均持續(xù)長(zhǎng)度的0.7倍的時(shí)間長(zhǎng)度。
[0089]即,實(shí)施方式2的語(yǔ)音檢索裝置100準(zhǔn)備與快/普通/慢這3個(gè)語(yǔ)速對(duì)應(yīng)的時(shí)間長(zhǎng)度,作為各音素的每個(gè)狀態(tài)的持續(xù)時(shí)間長(zhǎng)度。由此,防止由于語(yǔ)速的不同而檢索精度惡化。
[0090]參照?qǐng)D7所示的流程圖說(shuō)明實(shí)施方式2的語(yǔ)音檢索裝置100執(zhí)行的語(yǔ)音檢索處理的流程。
[0091]如果檢索字符串取得部111取得檢索字符串(步驟S31),則開(kāi)始圖7所示的流程圖的處理。如果檢索字符串取得部111取得檢索字符串,則變換部112和第二變換部121將檢索字符串變換為音素列(步驟S32),按照音素列的音素順序排列聲音模型的音素(步驟S33)。具體地說(shuō),變換部112將檢索字符串變換為基于單音素的單音素音素列,第二變換部121將檢索字符串變換為基于三音素的三音素音素列。
[0092]如果將檢索字符串變換為音素列,則時(shí)間長(zhǎng)度導(dǎo)出部113導(dǎo)出3個(gè)時(shí)間長(zhǎng)度作為與檢索字符串對(duì)應(yīng)的語(yǔ)音的發(fā)言時(shí)間長(zhǎng)度(步驟S34)。作為3個(gè)時(shí)間長(zhǎng)度,第一,時(shí)間長(zhǎng)度導(dǎo)出部113取得在時(shí)間長(zhǎng)度存儲(chǔ)部104中對(duì)每個(gè)狀態(tài)存儲(chǔ)的平均持續(xù)長(zhǎng)度,將取得的平均持續(xù)長(zhǎng)度相加,由此導(dǎo)出第一時(shí)間長(zhǎng)度。第二,時(shí)間長(zhǎng)度導(dǎo)出部113取得比在時(shí)間長(zhǎng)度存儲(chǔ)部104中對(duì)每個(gè)狀態(tài)存儲(chǔ)的平均持續(xù)長(zhǎng)度短的時(shí)間長(zhǎng)度,將取得的時(shí)間長(zhǎng)度相加,由此導(dǎo)出第二時(shí)間長(zhǎng)度。第三,時(shí)間長(zhǎng)度導(dǎo)出部113取得比在時(shí)間長(zhǎng)度存儲(chǔ)部104中對(duì)每個(gè)狀態(tài)存儲(chǔ)的平均持續(xù)長(zhǎng)度長(zhǎng)的時(shí)間長(zhǎng)度,將取得的時(shí)間長(zhǎng)度相加,由此導(dǎo)出第三時(shí)間長(zhǎng)度。
[0093]在比在時(shí)間長(zhǎng)度存儲(chǔ)部104中對(duì)每個(gè)狀態(tài)存儲(chǔ)的平均持續(xù)長(zhǎng)度短的時(shí)間長(zhǎng)度一律是平均持續(xù)長(zhǎng)度的0.7倍的時(shí)間長(zhǎng)度的情況下,第二時(shí)間長(zhǎng)度為第一時(shí)間長(zhǎng)度的0.7倍。在比在時(shí)間長(zhǎng)度存儲(chǔ)部104中對(duì)每個(gè)狀態(tài)存儲(chǔ)的平均持續(xù)長(zhǎng)度長(zhǎng)的時(shí)間長(zhǎng)度一律是平均持續(xù)長(zhǎng)度的1.3倍的時(shí)間長(zhǎng)度的情況下,第三時(shí)間長(zhǎng)度為第一時(shí)間長(zhǎng)度的1.3倍。
[0094]如果時(shí)間長(zhǎng)度導(dǎo)出部113導(dǎo)出3個(gè)時(shí)間長(zhǎng)度作為發(fā)言時(shí)間長(zhǎng)度,則語(yǔ)音檢索處理從作為檢索對(duì)象的語(yǔ)音信號(hào)的開(kāi)始到末尾,順序地指定導(dǎo)出的各時(shí)間長(zhǎng)度的區(qū)間即似然度計(jì)算區(qū)間,轉(zhuǎn)移到計(jì)算似然度的處理。首先,區(qū)間指定部114針對(duì)時(shí)間長(zhǎng)度導(dǎo)出部113導(dǎo)出的3個(gè)時(shí)間長(zhǎng)度,分別指定從作為檢索對(duì)象的語(yǔ)音信號(hào)的開(kāi)頭幀開(kāi)始的似然度計(jì)算區(qū)間(步驟S35)。
[0095]如果區(qū)間指定部114針對(duì)各時(shí)間長(zhǎng)度指定似然度計(jì)算區(qū)間,則特征量計(jì)算部115針對(duì)每個(gè)幀計(jì)算指定的似然度計(jì)算區(qū)間的語(yǔ)音信號(hào)的特征量(步驟S36)。然后,輸出概率取得部116根據(jù)特征量計(jì)算部115計(jì)算出的特征量和對(duì)應(yīng)的單音素模型,對(duì)每個(gè)幀取得從包含在音素列中的各音素輸出該特征量的輸出概率(步驟S37)。
[0096]如果輸出概率取得部116取得輸出概率,則置換部117將對(duì)每個(gè)幀取得的輸出概率置換為其前后η個(gè)幀中的最大的輸出概率,由此執(zhí)行下界化處理(步驟S38)。由此,吸收時(shí)間長(zhǎng)度導(dǎo)出部113導(dǎo)出的發(fā)言時(shí)間長(zhǎng)度和實(shí)際的發(fā)言時(shí)間長(zhǎng)度之間的誤差。
[0097]似然度計(jì)算部118取得下界化后的輸出概率在對(duì)數(shù)軸上的和,由此計(jì)算區(qū)間指定部114針對(duì)3個(gè)時(shí)間長(zhǎng)度分別指定的似然度計(jì)算區(qū)間的似然度(步驟S