計算部118計算出的似然從大到小的順序,將預(yù)定數(shù)量的區(qū)間確定為推定區(qū)間。把確定部120確定的區(qū)間的位置信息作為最終的檢索結(jié)果,經(jīng)由輸出裝置5所具有的畫面向外部顯示。
[0082]參照圖6所示的流程圖,對上述那樣的聲音檢索裝置100執(zhí)行的聲音檢索處理的流程進(jìn)行說明。
[0083]當(dāng)檢索詞取得部111取得檢索詞時(步驟Sll),開始圖6所示的流程圖的處理。如果檢索詞取得部111取得檢索詞,則變換部112將檢索詞變換為音索串(步驟S12),按照音素串的音素順序,排列聲學(xué)模型的音素(步驟S13)。具體來說,變換部112將作為字符串輸入的檢索詞變換為基于單音的單音音素串等。
[0084]如果將檢索詞變換為音素串,則輸出概率取得部116根據(jù)檢索對象的聲音信號的特征量和聲學(xué)模型,取得從音素串包含的各音素中輸出各幀的特征量的輸出概率(步驟S14) ο另外,該特征量通過特征量計算部115預(yù)先計算出。特征量計算部115從檢索對象的聲音信號的起始到末尾,每次指定I個幀,依次計算指定的幀的聲音信號的特征量。
[0085]如果輸出概率取得部116取得了輸出概率,則相對化計算部130對已取得的輸出概率執(zhí)行相對化運算處理(步驟S15)。關(guān)于該相對化運算處理的詳細(xì)內(nèi)容,參照圖7所示的流程圖來進(jìn)行說明。
[0086]相對化計算部130指定檢索對象的聲音信號中的起始的幀(步驟S151)?;鶞?zhǔn)音素選擇部131在指定的幀內(nèi)選擇距離最小的音素來作為基準(zhǔn)音素(步驟S152)。相對值計算部132計算指定的幀內(nèi)的各音素的距離的、以基準(zhǔn)音素的距離為基準(zhǔn)的相對值(步驟S153)ο
[0087]如果如上那樣指定的幀的距離的相對化結(jié)束,則相對化運算部130判定是否指定了檢索對象的聲音信號中的全部的幀(步驟S154)。在全部幀的指定未結(jié)束時(步驟S154 ;否),相對化計算部130指定下一幀(步驟S155),將處理返回到步驟S152。S卩,相對化運算部130對新指定的幀,執(zhí)行距離的相對化運算處理。
[0088]如此,相對化計算部130針對全部的幀,重復(fù)進(jìn)行距離的相對化運算處理,計算以基準(zhǔn)音素為基準(zhǔn)的距離的相對值。最終如果全部幀的指定結(jié)束(步驟S154;是),則圖7所示的相對化運算處理結(jié)束。
[0089]返回到圖6所示的流程圖,如果相對化運算處理結(jié)束,則時間長度導(dǎo)出部113導(dǎo)出與檢索詞相對應(yīng)的聲音的發(fā)音時間長度(步驟S16)。具體來說,時間長度導(dǎo)出部113取得在時間長度存儲部104中針對音素的每個狀態(tài)而存儲的平均連續(xù)長度,對取得的平均連續(xù)長度進(jìn)行加法運算,由此導(dǎo)出與檢索詞相對應(yīng)的聲音的發(fā)音時間長度。
[0090]如果時間長度導(dǎo)出部113導(dǎo)出發(fā)音時間長度,貝Ij聲音檢索處理轉(zhuǎn)移到從檢索對象的聲音信號的起始到末尾,按順序指定導(dǎo)出的發(fā)音時間長度的區(qū)間即似然計算區(qū)間,來計算似然的處理。首先,區(qū)間指定部114指定從檢索對象的聲音信號的起始幀開始的似然計算區(qū)間(步驟S17)。
[0091]如果區(qū)間指定部114指定了似然計算區(qū)間,則搜索部117根據(jù)相對化運算部130的相對化運算結(jié)果,通過DP匹配來搜索指定的似然計算區(qū)間的各幀與音素串中包含的各音素的對應(yīng)(步驟S18)。
[0092]似然計算部118根據(jù)通過搜索部117的搜索與各幀建立了對應(yīng)關(guān)系的各音素的由相對值計算部132計算出的相對值,計算表示區(qū)間指定部114所指定的似然計算區(qū)間為發(fā)出與檢素詞相對應(yīng)的聲音的區(qū)間的可能性的似然(步驟S19)。如果似然計算部118計算出似然,則重復(fù)部119判斷檢索對象的聲音信號的全部區(qū)間的似然計算是否結(jié)束(步驟S20)。
[0093]在全部區(qū)間的似然計算沒有結(jié)束時(步驟S20 ;否),區(qū)間指定部114指定從剛指定的幀的下一幀開始的似然計算區(qū)間(步驟S21),聲音檢索處理返回到步驟S18。接著,重復(fù)部119對新指定的似然計算區(qū)間,重復(fù)上述步驟S18?S20的處理,來計算似然。如此,重復(fù)部119在到達(dá)檢索對象的聲音信號的末尾之前,每次將區(qū)間指定部114指定的似然計算區(qū)間移動I幀,依次計算似然。
[0094]最終,如果全部區(qū)間的似然計算結(jié)束(步驟S20 ;是),則確定部120根據(jù)計算出的似然,確定與檢索詞對應(yīng)的區(qū)間(步驟S22)。例如,確定部120按照似然計算部118計算出的似然從大到小的順序,將預(yù)定數(shù)量的區(qū)間確定為被推定為發(fā)出與檢索詞相對應(yīng)的聲音的區(qū)間。接著,確定部120經(jīng)由輸出裝置5,輸出確定結(jié)果(步驟S23)。根據(jù)已上所述,聲音檢索裝置100執(zhí)行的聲音檢索處理結(jié)束。
[0095]如以上說明的那樣,實施方式I的聲音檢索裝置100在檢索對象的聲音信號內(nèi)的各幀,以基準(zhǔn)音素的距離為基準(zhǔn)對各音素的距離進(jìn)行相對化處理。接著,根據(jù)相對化處理后的結(jié)果,確定被推定為從檢索對象的聲音信號中發(fā)出了與檢索詞相對應(yīng)的聲音的區(qū)間。結(jié)果,能夠抑制由于存在像長音或接近無聲的信號的區(qū)間那樣,無論對于怎樣的音素距離均小的區(qū)間和不是這樣的區(qū)間而造成的誤檢測,可高精度地進(jìn)行聲音檢索。
[0096](實施方式2)
[0097]下面對本發(fā)明的實施方式2進(jìn)行說明。
[0098]實施方式2的聲音檢索裝置與實施方式I的聲音檢索裝置100相同,物理上如圖1所示那樣構(gòu)成。因此,在此省略詳細(xì)的說明。
[0099]實施方式2的聲音檢索裝置在功能上如圖8所示那樣構(gòu)成。聲音檢索裝置200不具備實施方式I的聲音檢索裝置100所具備的相對化運算部130,取而代之具有標(biāo)準(zhǔn)化運算部140。其它各部分的功能基本上與實施方式I的聲音檢索裝置100具備的各部分相同。由此,以下關(guān)于與實施方式I共同的功能的說明,適當(dāng)進(jìn)行省略。
[0100]聲音信號存儲部101存儲檢索對象的聲音信號。聲學(xué)模型存儲部102存儲聲學(xué)模型。時間長度存儲部104以各音素的狀態(tài)單位存儲在聲學(xué)模型中采用的各音素的平均連續(xù)長度。
[0101]檢索詞取得部111取得檢索詞。變換部112按照檢索詞取得部111取得的檢索詞,對聲學(xué)模型的音素進(jìn)行排列,將檢索詞變換為音素串。
[0102]特征量計算部115從聲音信號存儲部101取得檢索對象的聲音信號,針對每一幀計算檢索對象的聲音信號的特征量。輸出概率取得部116根據(jù)特征量計算部115計算出的特征量,針對每一幀取得從音素串包含的各音素中輸出該特征量的輸出概率。
[0103]時間長度導(dǎo)出部113從時間長度存儲部104取得變換部112變換后的音素串中包含的各音素的平均連續(xù)長度。接著,根據(jù)取得的平均連續(xù)長度,導(dǎo)出與檢索詞相對應(yīng)的聲音的發(fā)音時間長度。
[0104]區(qū)間指定部114從聲音信號存儲部101取得檢索對象的聲音信號,從檢索對象的聲音信號的起始開始按順序,指定時間長度導(dǎo)出部113導(dǎo)出的時間長度的區(qū)間即似然計算區(qū)間。例如,如圖3的(C)所示的那樣,區(qū)間指定部114首先指定包括從第O幀到第(M-1)幀的M個幀的時間長度L的第O似然計算區(qū)間。似然是表示與檢索詞相對應(yīng)的聲音與指定的區(qū)間的聲音信號的類似程度的指標(biāo)。
[0105]搜索部117根據(jù)輸出概率取得部116取得的輸出概率,通過DP匹配來搜索區(qū)間指定部114指定的似然計算區(qū)間中的各幀與音素串中包含的各音素的對應(yīng)。即,搜索部117在假定為從區(qū)間指定部114指定的似然計算區(qū)間發(fā)出了與檢索詞相對應(yīng)的聲音的情況下,搜索該似然計算區(qū)間內(nèi)的各幀的聲音信號與哪個音素相對應(yīng)。
[0106]例如,如圖9所示,搜索部117搜索區(qū)間指定部114指定的似然計算區(qū)間中包含的第O幀到第10幀的各幀與音素串“r,a:,m,e,N”的各音素的對應(yīng)。在圖9中,通過箭頭表示了假定第O?2幀與音素“r”相對應(yīng),第3?5幀與音素“a: ”相對應(yīng),第6?7幀與音素“m”相對應(yīng),第8?9幀與音素“e”相對應(yīng),第10幀與音素“N”相對應(yīng)時的路徑??騼?nèi)的數(shù)字表示根據(jù)輸出概率取得部116針對各幀和各音素取得的輸出概率而計算出的距離。為了容易理解,僅表示了由箭頭表示的路徑通過的框內(nèi)的數(shù)字。
[0107]如此,搜索部117使音素串中包含的某個音素與從起始的幀到末尾的幀的各幀相對應(yīng)。接著,搜索部117通過DP匹配來搜索沿著通過建立對應(yīng)關(guān)系而取得的路徑累積的累積距離為最小的最大似然序列。
[0108]另外,搜索部117生成記錄了通過基于DP匹配的搜索而取得的最大似然序列的路徑中的累積距離的累積距離表和記錄了迀移方向的迀移方向表。在圖9的“累積距離”和“迀移方向”的列中表示累積距離表和迀移方向表的例子。累積距離表具有沿著通過搜索而取得的最大似然序列的路徑,累積從第O幀到各幀的距離值而得到的值的信息。迀移方向表具有沿著通過搜索而取得的最大似然序列的路徑,從各幀迀移到下一幀時的方向的信息。另外,向下箭頭表示在從當(dāng)前的幀迀移到下一幀時,不移到下一音素的情況。向右箭頭表示在從當(dāng)前的幀迀移到下一幀時,移到下一音素的情況。
[0109]似然計算部118根據(jù)通過搜索部117的搜索而與各幀建立了對應(yīng)關(guān)系的各音素的由輸出概率取得部116取得的輸出概率,計算表示區(qū)間指定部114所指定的似然計算區(qū)間為發(fā)出與檢索詞相對應(yīng)的聲音的區(qū)間的可能性的似然。具體來說,似然計算部118對通過搜索部117建立對應(yīng)關(guān)系而取得的最大似然序列的路徑中的累積距離,執(zhí)行累積距離越小似然越大的運算,來取得該似然計算區(qū)間的似然。
[0110]重復(fù)部119改變區(qū)間指定部114指定的似然計算區(qū)間,重復(fù)進(jìn)行區(qū)間指定部114、搜索部117以及似然計算部118的處理。
[0111]具體地說,當(dāng)參照圖3的(C)進(jìn)行說明時,重復(fù)部119使區(qū)間指定部114指定的似然計算區(qū)間移動I幀,新指定包括從第I幀到第M幀的M個幀的時間長度L的第I似然計算區(qū)間。接著,在新指定的第I似然計算區(qū)間,執(zhí)行與上述搜索部117和似然計算部118的處理相同的處理。
[0112]同樣地,重復(fù)部119從第2似然計算區(qū)間到第(p-1)似然計算區(qū)間,使區(qū)間指定部114指定的似然計算區(qū)間移動I幀,針對在檢索對象的聲音信號中能夠指定的P個似然計算區(qū)間中的各個似然計算區(qū)間,進(jìn)行與搜索部117和似然計算部118的處理相同的處理。由此,重復(fù)部119針對檢索對象的聲音信號的每I幀,生成累積距離表和迀移方向表,并計算假設(shè)從該區(qū)間發(fā)出了與檢索詞相對應(yīng)的聲音時的似然。
[0113]如果搜索部117針對檢索對象的聲音信號內(nèi)的各似然計算區(qū)間,生成了累積距離表和迀移方向表,則標(biāo)準(zhǔn)化運算部140對于輸出概率取得部116針對