国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      聲音檢索裝置、聲音檢索方法_3

      文檔序號(hào):8922607閱讀:來源:國知局
      計(jì)算部118計(jì)算出的似然從大到小的順序,將預(yù)定數(shù)量的區(qū)間確定為推定區(qū)間。把確定部120確定的區(qū)間的位置信息作為最終的檢索結(jié)果,經(jīng)由輸出裝置5所具有的畫面向外部顯示。
      [0082]參照圖6所示的流程圖,對(duì)上述那樣的聲音檢索裝置100執(zhí)行的聲音檢索處理的流程進(jìn)行說明。
      [0083]當(dāng)檢索詞取得部111取得檢索詞時(shí)(步驟Sll),開始圖6所示的流程圖的處理。如果檢索詞取得部111取得檢索詞,則變換部112將檢索詞變換為音索串(步驟S12),按照音素串的音素順序,排列聲學(xué)模型的音素(步驟S13)。具體來說,變換部112將作為字符串輸入的檢索詞變換為基于單音的單音音素串等。
      [0084]如果將檢索詞變換為音素串,則輸出概率取得部116根據(jù)檢索對(duì)象的聲音信號(hào)的特征量和聲學(xué)模型,取得從音素串包含的各音素中輸出各幀的特征量的輸出概率(步驟S14) ο另外,該特征量通過特征量計(jì)算部115預(yù)先計(jì)算出。特征量計(jì)算部115從檢索對(duì)象的聲音信號(hào)的起始到末尾,每次指定I個(gè)幀,依次計(jì)算指定的幀的聲音信號(hào)的特征量。
      [0085]如果輸出概率取得部116取得了輸出概率,則相對(duì)化計(jì)算部130對(duì)已取得的輸出概率執(zhí)行相對(duì)化運(yùn)算處理(步驟S15)。關(guān)于該相對(duì)化運(yùn)算處理的詳細(xì)內(nèi)容,參照圖7所示的流程圖來進(jìn)行說明。
      [0086]相對(duì)化計(jì)算部130指定檢索對(duì)象的聲音信號(hào)中的起始的幀(步驟S151)?;鶞?zhǔn)音素選擇部131在指定的幀內(nèi)選擇距離最小的音素來作為基準(zhǔn)音素(步驟S152)。相對(duì)值計(jì)算部132計(jì)算指定的幀內(nèi)的各音素的距離的、以基準(zhǔn)音素的距離為基準(zhǔn)的相對(duì)值(步驟S153)ο
      [0087]如果如上那樣指定的幀的距離的相對(duì)化結(jié)束,則相對(duì)化運(yùn)算部130判定是否指定了檢索對(duì)象的聲音信號(hào)中的全部的幀(步驟S154)。在全部幀的指定未結(jié)束時(shí)(步驟S154 ;否),相對(duì)化計(jì)算部130指定下一幀(步驟S155),將處理返回到步驟S152。S卩,相對(duì)化運(yùn)算部130對(duì)新指定的幀,執(zhí)行距離的相對(duì)化運(yùn)算處理。
      [0088]如此,相對(duì)化計(jì)算部130針對(duì)全部的幀,重復(fù)進(jìn)行距離的相對(duì)化運(yùn)算處理,計(jì)算以基準(zhǔn)音素為基準(zhǔn)的距離的相對(duì)值。最終如果全部幀的指定結(jié)束(步驟S154;是),則圖7所示的相對(duì)化運(yùn)算處理結(jié)束。
      [0089]返回到圖6所示的流程圖,如果相對(duì)化運(yùn)算處理結(jié)束,則時(shí)間長度導(dǎo)出部113導(dǎo)出與檢索詞相對(duì)應(yīng)的聲音的發(fā)音時(shí)間長度(步驟S16)。具體來說,時(shí)間長度導(dǎo)出部113取得在時(shí)間長度存儲(chǔ)部104中針對(duì)音素的每個(gè)狀態(tài)而存儲(chǔ)的平均連續(xù)長度,對(duì)取得的平均連續(xù)長度進(jìn)行加法運(yùn)算,由此導(dǎo)出與檢索詞相對(duì)應(yīng)的聲音的發(fā)音時(shí)間長度。
      [0090]如果時(shí)間長度導(dǎo)出部113導(dǎo)出發(fā)音時(shí)間長度,貝Ij聲音檢索處理轉(zhuǎn)移到從檢索對(duì)象的聲音信號(hào)的起始到末尾,按順序指定導(dǎo)出的發(fā)音時(shí)間長度的區(qū)間即似然計(jì)算區(qū)間,來計(jì)算似然的處理。首先,區(qū)間指定部114指定從檢索對(duì)象的聲音信號(hào)的起始幀開始的似然計(jì)算區(qū)間(步驟S17)。
      [0091]如果區(qū)間指定部114指定了似然計(jì)算區(qū)間,則搜索部117根據(jù)相對(duì)化運(yùn)算部130的相對(duì)化運(yùn)算結(jié)果,通過DP匹配來搜索指定的似然計(jì)算區(qū)間的各幀與音素串中包含的各音素的對(duì)應(yīng)(步驟S18)。
      [0092]似然計(jì)算部118根據(jù)通過搜索部117的搜索與各幀建立了對(duì)應(yīng)關(guān)系的各音素的由相對(duì)值計(jì)算部132計(jì)算出的相對(duì)值,計(jì)算表示區(qū)間指定部114所指定的似然計(jì)算區(qū)間為發(fā)出與檢素詞相對(duì)應(yīng)的聲音的區(qū)間的可能性的似然(步驟S19)。如果似然計(jì)算部118計(jì)算出似然,則重復(fù)部119判斷檢索對(duì)象的聲音信號(hào)的全部區(qū)間的似然計(jì)算是否結(jié)束(步驟S20)。
      [0093]在全部區(qū)間的似然計(jì)算沒有結(jié)束時(shí)(步驟S20 ;否),區(qū)間指定部114指定從剛指定的幀的下一幀開始的似然計(jì)算區(qū)間(步驟S21),聲音檢索處理返回到步驟S18。接著,重復(fù)部119對(duì)新指定的似然計(jì)算區(qū)間,重復(fù)上述步驟S18?S20的處理,來計(jì)算似然。如此,重復(fù)部119在到達(dá)檢索對(duì)象的聲音信號(hào)的末尾之前,每次將區(qū)間指定部114指定的似然計(jì)算區(qū)間移動(dòng)I幀,依次計(jì)算似然。
      [0094]最終,如果全部區(qū)間的似然計(jì)算結(jié)束(步驟S20 ;是),則確定部120根據(jù)計(jì)算出的似然,確定與檢索詞對(duì)應(yīng)的區(qū)間(步驟S22)。例如,確定部120按照似然計(jì)算部118計(jì)算出的似然從大到小的順序,將預(yù)定數(shù)量的區(qū)間確定為被推定為發(fā)出與檢索詞相對(duì)應(yīng)的聲音的區(qū)間。接著,確定部120經(jīng)由輸出裝置5,輸出確定結(jié)果(步驟S23)。根據(jù)已上所述,聲音檢索裝置100執(zhí)行的聲音檢索處理結(jié)束。
      [0095]如以上說明的那樣,實(shí)施方式I的聲音檢索裝置100在檢索對(duì)象的聲音信號(hào)內(nèi)的各幀,以基準(zhǔn)音素的距離為基準(zhǔn)對(duì)各音素的距離進(jìn)行相對(duì)化處理。接著,根據(jù)相對(duì)化處理后的結(jié)果,確定被推定為從檢索對(duì)象的聲音信號(hào)中發(fā)出了與檢索詞相對(duì)應(yīng)的聲音的區(qū)間。結(jié)果,能夠抑制由于存在像長音或接近無聲的信號(hào)的區(qū)間那樣,無論對(duì)于怎樣的音素距離均小的區(qū)間和不是這樣的區(qū)間而造成的誤檢測,可高精度地進(jìn)行聲音檢索。
      [0096](實(shí)施方式2)
      [0097]下面對(duì)本發(fā)明的實(shí)施方式2進(jìn)行說明。
      [0098]實(shí)施方式2的聲音檢索裝置與實(shí)施方式I的聲音檢索裝置100相同,物理上如圖1所示那樣構(gòu)成。因此,在此省略詳細(xì)的說明。
      [0099]實(shí)施方式2的聲音檢索裝置在功能上如圖8所示那樣構(gòu)成。聲音檢索裝置200不具備實(shí)施方式I的聲音檢索裝置100所具備的相對(duì)化運(yùn)算部130,取而代之具有標(biāo)準(zhǔn)化運(yùn)算部140。其它各部分的功能基本上與實(shí)施方式I的聲音檢索裝置100具備的各部分相同。由此,以下關(guān)于與實(shí)施方式I共同的功能的說明,適當(dāng)進(jìn)行省略。
      [0100]聲音信號(hào)存儲(chǔ)部101存儲(chǔ)檢索對(duì)象的聲音信號(hào)。聲學(xué)模型存儲(chǔ)部102存儲(chǔ)聲學(xué)模型。時(shí)間長度存儲(chǔ)部104以各音素的狀態(tài)單位存儲(chǔ)在聲學(xué)模型中采用的各音素的平均連續(xù)長度。
      [0101]檢索詞取得部111取得檢索詞。變換部112按照檢索詞取得部111取得的檢索詞,對(duì)聲學(xué)模型的音素進(jìn)行排列,將檢索詞變換為音素串。
      [0102]特征量計(jì)算部115從聲音信號(hào)存儲(chǔ)部101取得檢索對(duì)象的聲音信號(hào),針對(duì)每一幀計(jì)算檢索對(duì)象的聲音信號(hào)的特征量。輸出概率取得部116根據(jù)特征量計(jì)算部115計(jì)算出的特征量,針對(duì)每一幀取得從音素串包含的各音素中輸出該特征量的輸出概率。
      [0103]時(shí)間長度導(dǎo)出部113從時(shí)間長度存儲(chǔ)部104取得變換部112變換后的音素串中包含的各音素的平均連續(xù)長度。接著,根據(jù)取得的平均連續(xù)長度,導(dǎo)出與檢索詞相對(duì)應(yīng)的聲音的發(fā)音時(shí)間長度。
      [0104]區(qū)間指定部114從聲音信號(hào)存儲(chǔ)部101取得檢索對(duì)象的聲音信號(hào),從檢索對(duì)象的聲音信號(hào)的起始開始按順序,指定時(shí)間長度導(dǎo)出部113導(dǎo)出的時(shí)間長度的區(qū)間即似然計(jì)算區(qū)間。例如,如圖3的(C)所示的那樣,區(qū)間指定部114首先指定包括從第O幀到第(M-1)幀的M個(gè)幀的時(shí)間長度L的第O似然計(jì)算區(qū)間。似然是表示與檢索詞相對(duì)應(yīng)的聲音與指定的區(qū)間的聲音信號(hào)的類似程度的指標(biāo)。
      [0105]搜索部117根據(jù)輸出概率取得部116取得的輸出概率,通過DP匹配來搜索區(qū)間指定部114指定的似然計(jì)算區(qū)間中的各幀與音素串中包含的各音素的對(duì)應(yīng)。即,搜索部117在假定為從區(qū)間指定部114指定的似然計(jì)算區(qū)間發(fā)出了與檢索詞相對(duì)應(yīng)的聲音的情況下,搜索該似然計(jì)算區(qū)間內(nèi)的各幀的聲音信號(hào)與哪個(gè)音素相對(duì)應(yīng)。
      [0106]例如,如圖9所示,搜索部117搜索區(qū)間指定部114指定的似然計(jì)算區(qū)間中包含的第O幀到第10幀的各幀與音素串“r,a:,m,e,N”的各音素的對(duì)應(yīng)。在圖9中,通過箭頭表示了假定第O?2幀與音素“r”相對(duì)應(yīng),第3?5幀與音素“a: ”相對(duì)應(yīng),第6?7幀與音素“m”相對(duì)應(yīng),第8?9幀與音素“e”相對(duì)應(yīng),第10幀與音素“N”相對(duì)應(yīng)時(shí)的路徑??騼?nèi)的數(shù)字表示根據(jù)輸出概率取得部116針對(duì)各幀和各音素取得的輸出概率而計(jì)算出的距離。為了容易理解,僅表示了由箭頭表示的路徑通過的框內(nèi)的數(shù)字。
      [0107]如此,搜索部117使音素串中包含的某個(gè)音素與從起始的幀到末尾的幀的各幀相對(duì)應(yīng)。接著,搜索部117通過DP匹配來搜索沿著通過建立對(duì)應(yīng)關(guān)系而取得的路徑累積的累積距離為最小的最大似然序列。
      [0108]另外,搜索部117生成記錄了通過基于DP匹配的搜索而取得的最大似然序列的路徑中的累積距離的累積距離表和記錄了迀移方向的迀移方向表。在圖9的“累積距離”和“迀移方向”的列中表示累積距離表和迀移方向表的例子。累積距離表具有沿著通過搜索而取得的最大似然序列的路徑,累積從第O幀到各幀的距離值而得到的值的信息。迀移方向表具有沿著通過搜索而取得的最大似然序列的路徑,從各幀迀移到下一幀時(shí)的方向的信息。另外,向下箭頭表示在從當(dāng)前的幀迀移到下一幀時(shí),不移到下一音素的情況。向右箭頭表示在從當(dāng)前的幀迀移到下一幀時(shí),移到下一音素的情況。
      [0109]似然計(jì)算部118根據(jù)通過搜索部117的搜索而與各幀建立了對(duì)應(yīng)關(guān)系的各音素的由輸出概率取得部116取得的輸出概率,計(jì)算表示區(qū)間指定部114所指定的似然計(jì)算區(qū)間為發(fā)出與檢索詞相對(duì)應(yīng)的聲音的區(qū)間的可能性的似然。具體來說,似然計(jì)算部118對(duì)通過搜索部117建立對(duì)應(yīng)關(guān)系而取得的最大似然序列的路徑中的累積距離,執(zhí)行累積距離越小似然越大的運(yùn)算,來取得該似然計(jì)算區(qū)間的似然。
      [0110]重復(fù)部119改變區(qū)間指定部114指定的似然計(jì)算區(qū)間,重復(fù)進(jìn)行區(qū)間指定部114、搜索部117以及似然計(jì)算部118的處理。
      [0111]具體地說,當(dāng)參照圖3的(C)進(jìn)行說明時(shí),重復(fù)部119使區(qū)間指定部114指定的似然計(jì)算區(qū)間移動(dòng)I幀,新指定包括從第I幀到第M幀的M個(gè)幀的時(shí)間長度L的第I似然計(jì)算區(qū)間。接著,在新指定的第I似然計(jì)算區(qū)間,執(zhí)行與上述搜索部117和似然計(jì)算部118的處理相同的處理。
      [0112]同樣地,重復(fù)部119從第2似然計(jì)算區(qū)間到第(p-1)似然計(jì)算區(qū)間,使區(qū)間指定部114指定的似然計(jì)算區(qū)間移動(dòng)I幀,針對(duì)在檢索對(duì)象的聲音信號(hào)中能夠指定的P個(gè)似然計(jì)算區(qū)間中的各個(gè)似然計(jì)算區(qū)間,進(jìn)行與搜索部117和似然計(jì)算部118的處理相同的處理。由此,重復(fù)部119針對(duì)檢索對(duì)象的聲音信號(hào)的每I幀,生成累積距離表和迀移方向表,并計(jì)算假設(shè)從該區(qū)間發(fā)出了與檢索詞相對(duì)應(yīng)的聲音時(shí)的似然。
      [0113]如果搜索部117針對(duì)檢索對(duì)象的聲音信號(hào)內(nèi)的各似然計(jì)算區(qū)間,生成了累積距離表和迀移方向表,則標(biāo)準(zhǔn)化運(yùn)算部140對(duì)于輸出概率取得部116針對(duì)
      當(dāng)前第3頁1 2 3 4 5 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1