語(yǔ)音檢索裝置以及語(yǔ)音檢索方法_3

文檔序號(hào)：8923595閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)>語(yǔ)音檢索裝置以及語(yǔ)音檢索方法

的第二似然度，從選擇部120選擇出的多個(gè)候選中確定從作為檢索對(duì)象的語(yǔ)音信號(hào)中推定為發(fā)出與檢索字符串對(duì)應(yīng)的語(yǔ)音的推定區(qū)間。例如，確定部124按照第二似然度計(jì)算部123計(jì)算出的第二似然度從大到小的順序?qū)㈩A(yù)定個(gè)數(shù)的區(qū)間確定為推定區(qū)間。確定部124確定的區(qū)間的位置信息作為最終的檢索結(jié)果，經(jīng)由輸出裝置5具備的畫(huà)面向外部顯不。
[0069]參照?qǐng)D5所示的流程圖說(shuō)明以上那樣的語(yǔ)音檢索裝置100執(zhí)行的語(yǔ)音檢索處理的流程。
[0070]如果檢索字符串取得部111取得檢索字符串(步驟Sll)，則開(kāi)始圖5所示的流程圖的處理。如果檢索字符串取得部111取得檢索字符串，則變換部112和第二變換部121將檢索字符串變換為音素列(步驟S12)，按照音素列的音素順序排列聲音模型的音素(步驟S13)。具體地說(shuō)，變換部112將檢索字符串變換為基于單音素的單音素音素列，第二變換部121將檢索字符串變換為基于三音素的三音素音素列。
[0071]如果將檢索字符串變換為音素列，則時(shí)間長(zhǎng)度導(dǎo)出部113導(dǎo)出與檢索字符串對(duì)應(yīng)的語(yǔ)音的發(fā)言時(shí)間長(zhǎng)度(步驟S14)。具體地說(shuō)，時(shí)間長(zhǎng)度導(dǎo)出部113取得在時(shí)間長(zhǎng)度存儲(chǔ)部104中針對(duì)每個(gè)音素的狀態(tài)存儲(chǔ)的平均持續(xù)長(zhǎng)度，將取得的平均持續(xù)長(zhǎng)度相加，由此導(dǎo)出與檢索字符串對(duì)應(yīng)的語(yǔ)音的發(fā)言時(shí)間長(zhǎng)度。
[0072]如果時(shí)間長(zhǎng)度導(dǎo)出部113導(dǎo)出發(fā)言時(shí)間長(zhǎng)度，則語(yǔ)音檢索處理從作為檢索對(duì)象的語(yǔ)音信號(hào)的開(kāi)始到末尾，按順序地指定所導(dǎo)出的發(fā)言時(shí)間長(zhǎng)度的區(qū)間即似然度計(jì)算區(qū)間，轉(zhuǎn)移到計(jì)算似然度的處理。首先，區(qū)間指定部114指定從作為檢索對(duì)象的語(yǔ)音信號(hào)的開(kāi)頭幀開(kāi)始的似然度計(jì)算區(qū)間(步驟S15)。
[0073]如果區(qū)間指定部114指定似然度計(jì)算區(qū)間，則特征量計(jì)算部115針對(duì)每個(gè)幀計(jì)算所指定的似然度計(jì)算區(qū)間的語(yǔ)音信號(hào)的特征量(步驟S16)。然后，輸出概率取得部116根據(jù)特征量計(jì)算部115計(jì)算出的特征量和對(duì)應(yīng)的單音素模型，對(duì)每個(gè)幀取得從包含在音素列中的各音素輸出該特征量的輸出概率(步驟S17)。
[0074]如果輸出概率取得部116取得輸出概率，則置換部117將對(duì)每個(gè)幀取得的輸出概率置換為其前后η個(gè)幀中的最大的輸出概率，由此執(zhí)行下界化處理(步驟S18)。由此，吸收時(shí)間長(zhǎng)度導(dǎo)出部113導(dǎo)出的發(fā)言時(shí)間長(zhǎng)度和實(shí)際的發(fā)言時(shí)間長(zhǎng)度之間的誤差。
[0075]似然度計(jì)算部118取得下界化后的輸出概率在對(duì)數(shù)軸上的和，由此計(jì)算區(qū)間指定部114指定的似然度計(jì)算區(qū)間的似然度(步驟S19)。如果似然度計(jì)算部118計(jì)算出似然度，則重復(fù)部119判定作為檢索對(duì)象的語(yǔ)音信號(hào)的全部區(qū)間的似然度計(jì)算是否結(jié)束(步驟S20)。
[0076]在全部區(qū)間的似然度計(jì)算沒(méi)有結(jié)束的情況下(步驟S20:否)，區(qū)間指定部114指定從上一個(gè)指定的幀的下一個(gè)幀開(kāi)始的似然度計(jì)算區(qū)間(步驟S21)，語(yǔ)音檢索處理返回到步驟S16。然后，重復(fù)部119針對(duì)新指定的似然度計(jì)算區(qū)間重復(fù)進(jìn)行上述的步驟S16?S20的處理，計(jì)算似然度。這樣，重復(fù)部119直到到達(dá)作為檢索對(duì)象的語(yǔ)音信號(hào)的末尾為止，使區(qū)間指定部114指定的似然度計(jì)算區(qū)間逐幀地偏移，依次計(jì)算似然度。
[0077]最終，如果全部區(qū)間的似然度計(jì)算結(jié)束(步驟S20:是)，則語(yǔ)音檢索處理轉(zhuǎn)移到根據(jù)計(jì)算出的似然度確定與檢索字符串對(duì)應(yīng)的區(qū)間的處理(步驟S22)。參照?qǐng)D6所示的流程圖說(shuō)明該確定處理的細(xì)節(jié)。
[0078]在似然度計(jì)算處理結(jié)束的狀態(tài)下，選擇部120從區(qū)間指定部114指定的似然度計(jì)算區(qū)間中，針對(duì)每個(gè)預(yù)定的選擇時(shí)間長(zhǎng)度逐一地選擇區(qū)間(步驟S101)。進(jìn)而，選擇部120從這樣選擇出的區(qū)間中，按照似然度從高到低的順序選擇X個(gè)區(qū)間(步驟S102)。S卩，選擇部120從作為檢索對(duì)象的語(yǔ)音信號(hào)的全體中預(yù)備地選擇確定為最終檢索結(jié)果的區(qū)間的候選，使得候選均勻地剩余。
[0079]在選擇部120的預(yù)備選擇后，第二輸出概率取得部122根據(jù)三音素音素列，對(duì)每個(gè)幀取得選擇部120選擇出的區(qū)間中的輸出概率(步驟S103)。然后，第二似然度計(jì)算部123通過(guò)DP匹配計(jì)算選擇部120選擇出的區(qū)間的似然度(步驟S104)。S卩，第二輸出概率取得部122和第二似然度計(jì)算部123根據(jù)三音素模型和DP匹配，執(zhí)行精度比輸出概率取得部116和似然度計(jì)算部118高的似然度計(jì)算處理。
[0080]如果第二似然度計(jì)算部123計(jì)算出第二似然度，則確定部124根據(jù)計(jì)算出的第二似然度確定與檢索字符串對(duì)應(yīng)的區(qū)間(步驟S105)。例如，確定部124按照第二似然度計(jì)算部123計(jì)算出的第二似然度從大到小的順序，將預(yù)定個(gè)數(shù)的區(qū)間確定為推定為發(fā)出與檢索字符串對(duì)應(yīng)的語(yǔ)音的區(qū)間。以上，圖6所示的流程圖的處理結(jié)束。
[0081]返回到圖5所示的流程圖的說(shuō)明，如果確定與檢索字符串對(duì)應(yīng)的區(qū)間，則確定部124經(jīng)由輸出裝置5輸出確定結(jié)果(步驟S23)。通過(guò)以上步驟，語(yǔ)音檢索裝置100執(zhí)行的語(yǔ)音檢索處理結(jié)束。
[0082]如以上說(shuō)明的那樣，實(shí)施方式I的語(yǔ)音檢索裝置100用字符串(文本)取得檢索詞(查詢(xún))，從作為檢索對(duì)象的語(yǔ)音信號(hào)中確定被推定為發(fā)出與查詢(xún)對(duì)應(yīng)的語(yǔ)音的區(qū)間。由于用字符串取得檢索詞，因此在作為檢索對(duì)象的語(yǔ)音包含多個(gè)發(fā)言者的語(yǔ)音的情況、查詢(xún)輸入者的語(yǔ)音在聲音上特異的情況、或查詢(xún)輸入者原本就難以發(fā)聲等情況下，也能夠高精度并且高速地進(jìn)行語(yǔ)音檢索。
[0083]另外，實(shí)施方式I的語(yǔ)言檢索裝置100首先通過(guò)進(jìn)行使用了將狀態(tài)轉(zhuǎn)移固定化了的高速聲音模型即單音素模型的計(jì)算量少的匹配，來(lái)預(yù)備選擇被推定為發(fā)出與查詢(xún)對(duì)應(yīng)的語(yǔ)音的區(qū)間的候選。然后，語(yǔ)音檢索裝置100進(jìn)行使用了考慮到狀態(tài)轉(zhuǎn)移的聲音模型即三音素模型的計(jì)算量多并且高精度的匹配，由此得到最終的檢索結(jié)果。其結(jié)果是語(yǔ)音檢索裝置100能夠在抑制計(jì)算量的同時(shí)高精度地進(jìn)行語(yǔ)音檢索。
[0084](實(shí)施方式2)
[0085]接著，說(shuō)明本發(fā)明的實(shí)施方式2。
[0086]在實(shí)施方式I中，時(shí)間長(zhǎng)度導(dǎo)出部113導(dǎo)出一個(gè)時(shí)間長(zhǎng)度作為與檢索字符串取得部111取得的一個(gè)檢索字符串對(duì)應(yīng)的語(yǔ)音的發(fā)言時(shí)間長(zhǎng)度。另外，通過(guò)下界化在各音素的前后η幀的范圍內(nèi)吸收了時(shí)間長(zhǎng)度導(dǎo)出部113導(dǎo)出的發(fā)言時(shí)間長(zhǎng)度和實(shí)際的發(fā)言時(shí)間長(zhǎng)度之間的誤差。
[0087]但是，存在以下的問(wèn)題，即在語(yǔ)速原本快或慢的情況下，導(dǎo)出的發(fā)言時(shí)間長(zhǎng)度比實(shí)際的發(fā)言時(shí)間長(zhǎng)度長(zhǎng)或短，超過(guò)了前后η幀的范圍。為了應(yīng)對(duì)該問(wèn)題，在實(shí)施方式2中，時(shí)間長(zhǎng)度導(dǎo)出部113導(dǎo)出相互不同的多個(gè)時(shí)間長(zhǎng)度作為與檢索字符串取得部111取得的一個(gè)檢索字符串對(duì)應(yīng)的語(yǔ)音的發(fā)言時(shí)間長(zhǎng)度。
[0088]為此，在實(shí)施方式2中，時(shí)間長(zhǎng)度存儲(chǔ)部104對(duì)各音素以狀態(tài)為單位對(duì)應(yīng)地存儲(chǔ)在聲音模型中利用的各音素的平均持續(xù)長(zhǎng)度、比平均持續(xù)長(zhǎng)度短的時(shí)間長(zhǎng)度、比平均持續(xù)長(zhǎng)度長(zhǎng)的時(shí)間長(zhǎng)度這3種時(shí)間長(zhǎng)度。比平均持續(xù)長(zhǎng)度長(zhǎng)的時(shí)間長(zhǎng)度例如是平均持續(xù)長(zhǎng)度的
1.3倍的時(shí)間長(zhǎng)度。比平均持續(xù)長(zhǎng)度短的時(shí)間長(zhǎng)度例如是平均持續(xù)長(zhǎng)度的0.7倍的時(shí)間長(zhǎng)度。
[0089]即，實(shí)施方式2的語(yǔ)音檢索裝置100準(zhǔn)備與快/普通/慢這3個(gè)語(yǔ)速對(duì)應(yīng)的時(shí)間長(zhǎng)度，作為各音素的每個(gè)狀態(tài)的持續(xù)時(shí)間長(zhǎng)度。由此，防止由于語(yǔ)速的不同而檢索精度惡化。
[0090]參照?qǐng)D7所示的流程圖說(shuō)明實(shí)施方式2的語(yǔ)音檢索裝置100執(zhí)行的語(yǔ)音檢索處理的流程。
[0091]如果檢索字符串取得部111取得檢索字符串(步驟S31)，則開(kāi)始圖7所示的流程圖的處理。如果檢索字符串取得部111取得檢索字符串，則變換部112和第二變換部121將檢索字符串變換為音素列(步驟S32)，按照音素列的音素順序排列聲音模型的音素(步驟S33)。具體地說(shuō)，變換部112將檢索字符串變換為基于單音素的單音素音素列，第二變換部121將檢索字符串變換為基于三音素的三音素音素列。
[0092]如果將檢索字符串變換為音素列，則時(shí)間長(zhǎng)度導(dǎo)出部113導(dǎo)出3個(gè)時(shí)間長(zhǎng)度作為與檢索字符串對(duì)應(yīng)的語(yǔ)音的發(fā)言時(shí)間長(zhǎng)度(步驟S34)。作為3個(gè)時(shí)間長(zhǎng)度，第一，時(shí)間長(zhǎng)度導(dǎo)出部113取得在時(shí)間長(zhǎng)度存儲(chǔ)部104中對(duì)每個(gè)狀態(tài)存儲(chǔ)的平均持續(xù)長(zhǎng)度，將取得的平均持續(xù)長(zhǎng)度相加，由此導(dǎo)出第一時(shí)間長(zhǎng)度。第二，時(shí)間長(zhǎng)度導(dǎo)出部113取得比在時(shí)間長(zhǎng)度存儲(chǔ)部104中對(duì)每個(gè)狀態(tài)存儲(chǔ)的平均持續(xù)長(zhǎng)度短的時(shí)間長(zhǎng)度，將取得的時(shí)間長(zhǎng)度相加，由此導(dǎo)出第二時(shí)間長(zhǎng)度。第三，時(shí)間長(zhǎng)度導(dǎo)出部113取得比在時(shí)間長(zhǎng)度存儲(chǔ)部104中對(duì)每個(gè)狀態(tài)存儲(chǔ)的平均持續(xù)長(zhǎng)度長(zhǎng)的時(shí)間長(zhǎng)度，將取得的時(shí)間長(zhǎng)度相加，由此導(dǎo)出第三時(shí)間長(zhǎng)度。
[0093]在比在時(shí)間長(zhǎng)度存儲(chǔ)部104中對(duì)每個(gè)狀態(tài)存儲(chǔ)的平均持續(xù)長(zhǎng)度短的時(shí)間長(zhǎng)度一律是平均持續(xù)長(zhǎng)度的0.7倍的時(shí)間長(zhǎng)度的情況下，第二時(shí)間長(zhǎng)度為第一時(shí)間長(zhǎng)度的0.7倍。在比在時(shí)間長(zhǎng)度存儲(chǔ)部104中對(duì)每個(gè)狀態(tài)存儲(chǔ)的平均持續(xù)長(zhǎng)度長(zhǎng)的時(shí)間長(zhǎng)度一律是平均持續(xù)長(zhǎng)度的1.3倍的時(shí)間長(zhǎng)度的情況下，第三時(shí)間長(zhǎng)度為第一時(shí)間長(zhǎng)度的1.3倍。
[0094]如果時(shí)間長(zhǎng)度導(dǎo)出部113導(dǎo)出3個(gè)時(shí)間長(zhǎng)度作為發(fā)言時(shí)間長(zhǎng)度，則語(yǔ)音檢索處理從作為檢索對(duì)象的語(yǔ)音信號(hào)的開(kāi)始到末尾，順序地指定導(dǎo)出的各時(shí)間長(zhǎng)度的區(qū)間即似然度計(jì)算區(qū)間，轉(zhuǎn)移到計(jì)算似然度的處理。首先，區(qū)間指定部114針對(duì)時(shí)間長(zhǎng)度導(dǎo)出部113導(dǎo)出的3個(gè)時(shí)間長(zhǎng)度，分別指定從作為檢索對(duì)象的語(yǔ)音信號(hào)的開(kāi)頭幀開(kāi)始的似然度計(jì)算區(qū)間(步驟S35)。
[0095]如果區(qū)間指定部114針對(duì)各時(shí)間長(zhǎng)度指定似然度計(jì)算區(qū)間，則特征量計(jì)算部115針對(duì)每個(gè)幀計(jì)算指定的似然度計(jì)算區(qū)間的語(yǔ)音信號(hào)的特征量(步驟S36)。然后，輸出概率取得部116根據(jù)特征量計(jì)算部115計(jì)算出的特征量和對(duì)應(yīng)的單音素模型，對(duì)每個(gè)幀取得從包含在音素列中的各音素輸出該特征量的輸出概率(步驟S37)。
[0096]如果輸出概率取得部116取得輸出概率，則置換部117將對(duì)每個(gè)幀取得的輸出概率置換為其前后η個(gè)幀中的最大的輸出概率，由此執(zhí)行下界化處理(步驟S38)。由此，吸收時(shí)間長(zhǎng)度導(dǎo)出部113導(dǎo)出的發(fā)言時(shí)間長(zhǎng)度和實(shí)際的發(fā)言時(shí)間長(zhǎng)度之間的誤差。
[0097]似然度計(jì)算部118取得下界化后的輸出概率在對(duì)數(shù)軸上的和，由此計(jì)算區(qū)間指定部114針對(duì)3個(gè)時(shí)間長(zhǎng)度分別指定的似然度計(jì)算區(qū)間的似然度(步驟S

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第3頁(yè)1 2 3 4 5

相關(guān)技術(shù)