国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      聲音檢索裝置以及聲音檢索方法

      文檔序號(hào):9929566閱讀:998來(lái)源:國(guó)知局
      聲音檢索裝置以及聲音檢索方法
      【專(zhuān)利說(shuō)明】聲音檢索裝置以及聲音檢索方法
      [0001 ] 本申請(qǐng)主張以2014年12月22日申請(qǐng)的日本國(guó)專(zhuān)利申請(qǐng)2014-259418號(hào)為基礎(chǔ)的優(yōu)先權(quán),將該基礎(chǔ)申請(qǐng)的內(nèi)容作為參照全部合并到本申請(qǐng)中。
      技術(shù)領(lǐng)域
      [0002]本發(fā)明涉及一種聲音檢索裝置以及聲音檢索方法。
      【背景技術(shù)】
      [0003]隨著聲音和動(dòng)畫(huà)等多媒體內(nèi)容的擴(kuò)大/普及,尋求高精度的多媒體檢索技術(shù)。其中,正在研究一種聲音檢索的技術(shù),即從聲音信號(hào)中確定發(fā)出與設(shè)為檢索對(duì)象的檢索詞(查詢(xún))對(duì)應(yīng)的聲音的位置。
      [0004]在聲音檢索中,還沒(méi)有確立與使用了圖像識(shí)別的字符檢索的技術(shù)相比具有充分性能的檢索方法。因此紛紛研究用于實(shí)現(xiàn)充分性能的聲音檢索的技術(shù)。
      [0005]例如,非專(zhuān)利文獻(xiàn)I(Y.Zhang and J.Glass.“An inner-product lower-boundestimate for dynamic time warping,,,in Proc.1CASSP,2011,pp.5660_5663)中公開(kāi)一種高速地比較聲音信號(hào)之間的方法。這樣,能夠從檢索對(duì)象的聲音信號(hào)中高速地確定與通過(guò)聲音輸入的查詢(xún)對(duì)應(yīng)的位置。
      [0006]在非專(zhuān)利文獻(xiàn)I公開(kāi)的技術(shù)中,在檢索對(duì)象的聲音的語(yǔ)速和查詢(xún)輸入者的語(yǔ)速不同的情況下有檢索精度變差的問(wèn)題。

      【發(fā)明內(nèi)容】

      [0007]本發(fā)明是用于解決以上問(wèn)題的發(fā)明,其目的在于提供能夠從不同語(yǔ)速的聲音信號(hào)中高精度地檢索檢索詞的聲音檢索裝置以及聲音檢索方法。
      [0008]為了達(dá)到上述目的,本發(fā)明的聲音檢索裝置具備:
      [0009]記錄單元,其記錄檢索對(duì)象的聲音信號(hào);時(shí)間長(zhǎng)度取得單元,其從存儲(chǔ)有與音素相關(guān)的持續(xù)時(shí)間長(zhǎng)度數(shù)據(jù)的數(shù)據(jù)庫(kù)取得檢索字符串的音素串中包括的各個(gè)音素的持續(xù)時(shí)間長(zhǎng)度;語(yǔ)速信息取得單元,其取得由用戶(hù)指定的與語(yǔ)速相關(guān)的信息;時(shí)間長(zhǎng)度變更單元,其根據(jù)上述語(yǔ)速信息取得單元取得的與語(yǔ)速相關(guān)的信息,變更上述時(shí)間長(zhǎng)度取得單元取得的各個(gè)音素的持續(xù)時(shí)間長(zhǎng)度;時(shí)間長(zhǎng)度導(dǎo)出單元,其根據(jù)由上述時(shí)間長(zhǎng)度變更單元變更的各個(gè)音素的持續(xù)時(shí)間長(zhǎng)度,導(dǎo)出與上述檢索字符串對(duì)應(yīng)的聲音發(fā)聲時(shí)間長(zhǎng)度;區(qū)間指定單元,其在上述檢索對(duì)象的聲音信號(hào)的時(shí)間長(zhǎng)度中指定多個(gè)上述時(shí)間長(zhǎng)度導(dǎo)出單元導(dǎo)出的發(fā)聲時(shí)間長(zhǎng)度的區(qū)間作為似然取得區(qū)間;似然取得單元,其取得似然,該似然表示上述區(qū)間指定單元指定的似然取得區(qū)間是發(fā)出與上述檢索字符串對(duì)應(yīng)的聲音的區(qū)間的似然度;以及確定單元,其根據(jù)上述似然取得單元針對(duì)由上述區(qū)間指定單元指定的似然取得區(qū)間分別取得的似然,確定從檢索對(duì)象的聲音信號(hào)中推定發(fā)出了與上述檢索字符串對(duì)應(yīng)的聲音的推定區(qū)間。
      [0010]根據(jù)本發(fā)明,能夠從不同語(yǔ)速的聲音信號(hào)中高精度地檢索檢索詞。
      【附圖說(shuō)明】
      [0011]如果將以下詳細(xì)的描述與以下的附圖對(duì)應(yīng)起來(lái)考慮,則能夠更深地理解本申請(qǐng)。
      [0012]圖1是表示本發(fā)明實(shí)施方式I的聲音檢索裝置的物理結(jié)構(gòu)的圖。
      [0013]圖2是表示本發(fā)明實(shí)施方式I的聲音檢索裝置的功能結(jié)構(gòu)的圖。
      [0014]圖3是用于說(shuō)明音素的狀態(tài)的圖。
      [0015]圖4是表示用于使音素各個(gè)狀態(tài)的持續(xù)時(shí)間長(zhǎng)度伸縮的語(yǔ)速信息的例子的圖。
      [0016]圖5是表示用于使音素狀態(tài)的持續(xù)時(shí)間長(zhǎng)度伸縮的計(jì)算例的圖。
      [0017]圖6A是檢索對(duì)象的聲音信號(hào)的波形圖。圖6B是表示在檢索對(duì)象的聲音信號(hào)中設(shè)定的幀的圖。圖6C是表示在檢索對(duì)象的聲音信號(hào)中指定的似然取得期間的圖。
      [0018]圖7是將輸出概率進(jìn)行下限化的例子的圖。
      [0019]圖8是表示本發(fā)明實(shí)施方式I的聲音檢索裝置所執(zhí)行的聲音檢索處理的流程的流程圖。
      [0020]圖9是表示確定與檢索字符串對(duì)應(yīng)的區(qū)間的處理流程的流程圖。
      [0021]圖10是表示將使持續(xù)時(shí)間長(zhǎng)度伸縮的變更率僅設(shè)定為母音的持續(xù)時(shí)間長(zhǎng)度的例子的圖。
      [0022]圖11是表示本發(fā)明實(shí)施方式2的聲音檢索裝置所執(zhí)行的聲音檢索處理的流程的流程圖。
      [0023]圖12是表示按照音素的每個(gè)狀態(tài)設(shè)定使持續(xù)時(shí)間長(zhǎng)度伸縮的變更率的例子的圖。
      [0024]圖13是表示將使持續(xù)時(shí)間長(zhǎng)度伸縮的變更率僅設(shè)定為音素的特定狀態(tài)的例子的圖。
      【具體實(shí)施方式】
      [0025]以下,一邊參照附圖一邊說(shuō)明本發(fā)明實(shí)施方式的聲音檢索裝置、聲音檢索方法以及程序。另外,對(duì)于圖中相同或相應(yīng)的部分標(biāo)注相同符號(hào)。
      [0026](實(shí)施方式I)
      [0027]如圖1所示,實(shí)施方式I的聲音檢索裝置100物理地具備:R0M(Read Only Memory:只讀存儲(chǔ)器)l、RAM(Random Access Memory:隨機(jī)存取存儲(chǔ)器)2、外部存儲(chǔ)裝置3、輸入裝置
      4、輸出裝置5、CPU(Central Processing Unit:中央處理單元)6以及總線7。
      [0028]ROMl存儲(chǔ)聲音檢索程序。RAM2作為CPU6的工作區(qū)而使用。
      [0029]外部存儲(chǔ)裝置3例如由硬盤(pán)構(gòu)成,將作為檢索對(duì)象的聲音信號(hào)、后述的單音子模型、三音子模型以及音素的時(shí)間長(zhǎng)度作為數(shù)據(jù)進(jìn)行存儲(chǔ)。
      [0030]輸入裝置4例如由鍵盤(pán)和聲音識(shí)別裝置構(gòu)成。輸入裝置4將用戶(hù)輸入的檢索詞作為文本數(shù)據(jù)提供給CPU6。輸出裝置5例如具備液晶顯示器等畫(huà)面、揚(yáng)聲器等。輸出裝置5將通過(guò)CPU6輸出的文本數(shù)據(jù)顯示在畫(huà)面上,從揚(yáng)聲器輸出聲音數(shù)據(jù)。
      [0031 ] CPU6將存儲(chǔ)在ROMl中的聲音檢索程序讀出到RAM2,通過(guò)執(zhí)行該聲音檢索程序,實(shí)現(xiàn)以下所示的功能。總線7連接ROM 1、RAM2、外部存儲(chǔ)裝置3、輸入裝置4、輸出裝置5以及CPU6。
      [0032]如圖2所示,聲音檢索裝置100在功能上具備聲音信號(hào)存儲(chǔ)部101、單音子模型存儲(chǔ)部102、三音子模型存儲(chǔ)部103、時(shí)間長(zhǎng)度存儲(chǔ)部104、檢索字符串取得部111、變換部112、時(shí)間長(zhǎng)度取得部113、語(yǔ)速信息取得部114、時(shí)間長(zhǎng)度變更部115、時(shí)間長(zhǎng)度導(dǎo)出部116、區(qū)間指定部117、特征量計(jì)算部118、輸出概率取得部119、置換部120、似然取得部121、重復(fù)部122、選擇部123、第二變換部124、第二輸出概率取得部125、第二似然取得部126以及確定部127。在外部存儲(chǔ)裝置3的存儲(chǔ)區(qū)域中構(gòu)筑聲音信號(hào)存儲(chǔ)部101、單音子模型存儲(chǔ)部102、三音子模型存儲(chǔ)部103以及時(shí)間長(zhǎng)度存儲(chǔ)部104。
      [0033]聲音信號(hào)存儲(chǔ)部101存儲(chǔ)檢索對(duì)象的聲音信號(hào)。檢索對(duì)象的聲音信號(hào)是例如與新聞廣播等的聲音、被錄音的會(huì)議的聲音、被錄音的講演會(huì)的聲音、電影的聲音相關(guān)的聲音信號(hào)。
      [0034]單音子模型存儲(chǔ)部102以及三音子模型存儲(chǔ)部103存儲(chǔ)聲學(xué)模型。聲學(xué)模型是將構(gòu)成作為檢索字符串而能夠取得的字符串的各個(gè)音素的頻率特性進(jìn)行模型化而得的模型。具體地說(shuō),單音子模型存儲(chǔ)部102存儲(chǔ)單音子(I個(gè)音素)的聲學(xué)模型(單音子模型),三音子模型存儲(chǔ)部103存儲(chǔ)三音子(3個(gè)音素)的聲學(xué)模型(三音子模型)。
      [0035]音素是構(gòu)成由說(shuō)話者發(fā)出的聲音的成分單位。例如,“力亍riy”這個(gè)單詞由“k”、“a”、“t”、“e”、“g”、V’、“r”、“i” 這8個(gè)音素構(gòu)成。
      [0036]單音子模型是按照每個(gè)音素生成的聲學(xué)模型,是不依存于相鄰的音素,即將與前后的音素狀態(tài)之間的狀態(tài)迀移進(jìn)行了固定化的聲學(xué)模型。三音子模型是按照每3個(gè)音素生成的聲學(xué)模型,依存于相鄰的音素,即考慮了與前后的音素狀態(tài)之間的狀態(tài)迀移的聲學(xué)模型,具有比單音子模型更多的信息。聲音檢索裝置100通過(guò)一般的方法學(xué)習(xí)單音子模型以及三音子模型,分別預(yù)先存儲(chǔ)在單音子模型存儲(chǔ)部102以及三音子模型存儲(chǔ)部103中。
      [0037]作為單音子模型以及三音子模型,例如能夠使用通過(guò)一般聲音識(shí)別而使用的聲學(xué)模型即HMM(Hidden Markov Model:隱馬爾科夫模型)。!!麗是用于通過(guò)統(tǒng)計(jì)方法根據(jù)聲音信號(hào)概率地推定構(gòu)成該聲音信號(hào)的音素的模型。HMM使用將表示時(shí)間狀態(tài)的搖擺的迀移概率、輸出根據(jù)各個(gè)狀態(tài)輸入的特征量的概率(輸出概率)設(shè)為參數(shù)的標(biāo)準(zhǔn)模式。
      [0038]時(shí)間長(zhǎng)度存儲(chǔ)部104通過(guò)各個(gè)音素的狀態(tài)單位來(lái)存儲(chǔ)通過(guò)聲學(xué)模型而使用的各個(gè)音素的平均持續(xù)時(shí)間長(zhǎng)度。各個(gè)音素的平均持續(xù)時(shí)間長(zhǎng)度是發(fā)出各個(gè)音素時(shí)的平均時(shí)間長(zhǎng)度。各個(gè)音素的狀態(tài)是在時(shí)間方向?qū)⒏鱾€(gè)音素進(jìn)行了細(xì)化的單位,相當(dāng)于聲學(xué)模型的最小單位。針對(duì)各個(gè)音素預(yù)先決定狀態(tài)數(shù)量。
      [0039]在本實(shí)施方式中,以針對(duì)各個(gè)音素決定的狀態(tài)數(shù)量為“3”的情況作為例子進(jìn)行說(shuō)明。例如,如圖3所示,聲音“$)”被分為包括該音素的發(fā)聲開(kāi)始時(shí)的第一狀態(tài)“al”、作為中間狀態(tài)的第二狀態(tài)“a2”、包括發(fā)聲結(jié)束時(shí)的第三狀態(tài)“a3”共3個(gè)狀態(tài)。即,一個(gè)音素由3個(gè)狀態(tài)構(gòu)成。在將通過(guò)聲學(xué)模型而使用的所有音素的數(shù)量設(shè)為Q的情況下,存在(3XQ)個(gè)狀態(tài)。聲音檢索裝置100對(duì)于音素的狀態(tài)分別根據(jù)大量的聲音信號(hào)數(shù)據(jù)來(lái)計(jì)算持續(xù)時(shí)間長(zhǎng)度的平均值,預(yù)先存儲(chǔ)在時(shí)間長(zhǎng)度存儲(chǔ)部104中。
      [0040]檢索字符串取得部111取得用戶(hù)經(jīng)由輸入裝置4而輸入的檢索字符串。即,用戶(hù)通過(guò)字符串(文本)對(duì)聲音檢索裝置100賦予用于從檢索對(duì)象的聲音信號(hào)檢索發(fā)出目的聲音的部分的檢索詞(查詢(xún))。
      [0041]變換部112將不依存于相鄰音素的聲學(xué)模型即單音子模型的音素按照檢索字符串取得部111取得的檢索字符串進(jìn)行排列,將檢索字符串變換為音素串。即,變換部112按照與檢索字符串中包括的字符相同的順序,排列發(fā)聲各個(gè)字符時(shí)的音素(單音子),從而將檢索字符串變換為單音子音素串。
      [0042]在本實(shí)施方式中,說(shuō)明檢索日語(yǔ)“力fd'y”的情況。當(dāng)作為檢索字符串輸入日語(yǔ)“力亍=i'y” 時(shí),“力亍=i'y” 包括 “k”、“a”、“t”、“e”、“g”、V’、“r”、“i” 這8個(gè)音素(單音子),因此變換部112生成音素串“k、a、t、e、g、o、r、i”。
      [0043]時(shí)間長(zhǎng)度取得部丨丨3從時(shí)間長(zhǎng)度存儲(chǔ)部104取得由變更部112生成的音素串所對(duì)應(yīng)的音素的每個(gè)狀態(tài)的平均持續(xù)時(shí)間長(zhǎng)度。
      [0044]語(yǔ)速信息取得
      當(dāng)前第1頁(yè)1 2 3 4 5 6 
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1