国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      聲音檢索裝置以及聲音檢索方法

      文檔序號:9929566閱讀:1000來源:國知局
      聲音檢索裝置以及聲音檢索方法
      【專利說明】聲音檢索裝置以及聲音檢索方法
      [0001 ] 本申請主張以2014年12月22日申請的日本國專利申請2014-259418號為基礎(chǔ)的優(yōu)先權(quán),將該基礎(chǔ)申請的內(nèi)容作為參照全部合并到本申請中。
      技術(shù)領(lǐng)域
      [0002]本發(fā)明涉及一種聲音檢索裝置以及聲音檢索方法。
      【背景技術(shù)】
      [0003]隨著聲音和動(dòng)畫等多媒體內(nèi)容的擴(kuò)大/普及,尋求高精度的多媒體檢索技術(shù)。其中,正在研究一種聲音檢索的技術(shù),即從聲音信號中確定發(fā)出與設(shè)為檢索對象的檢索詞(查詢)對應(yīng)的聲音的位置。
      [0004]在聲音檢索中,還沒有確立與使用了圖像識別的字符檢索的技術(shù)相比具有充分性能的檢索方法。因此紛紛研究用于實(shí)現(xiàn)充分性能的聲音檢索的技術(shù)。
      [0005]例如,非專利文獻(xiàn)I(Y.Zhang and J.Glass.“An inner-product lower-boundestimate for dynamic time warping,,,in Proc.1CASSP,2011,pp.5660_5663)中公開一種高速地比較聲音信號之間的方法。這樣,能夠從檢索對象的聲音信號中高速地確定與通過聲音輸入的查詢對應(yīng)的位置。
      [0006]在非專利文獻(xiàn)I公開的技術(shù)中,在檢索對象的聲音的語速和查詢輸入者的語速不同的情況下有檢索精度變差的問題。

      【發(fā)明內(nèi)容】

      [0007]本發(fā)明是用于解決以上問題的發(fā)明,其目的在于提供能夠從不同語速的聲音信號中高精度地檢索檢索詞的聲音檢索裝置以及聲音檢索方法。
      [0008]為了達(dá)到上述目的,本發(fā)明的聲音檢索裝置具備:
      [0009]記錄單元,其記錄檢索對象的聲音信號;時(shí)間長度取得單元,其從存儲(chǔ)有與音素相關(guān)的持續(xù)時(shí)間長度數(shù)據(jù)的數(shù)據(jù)庫取得檢索字符串的音素串中包括的各個(gè)音素的持續(xù)時(shí)間長度;語速信息取得單元,其取得由用戶指定的與語速相關(guān)的信息;時(shí)間長度變更單元,其根據(jù)上述語速信息取得單元取得的與語速相關(guān)的信息,變更上述時(shí)間長度取得單元取得的各個(gè)音素的持續(xù)時(shí)間長度;時(shí)間長度導(dǎo)出單元,其根據(jù)由上述時(shí)間長度變更單元變更的各個(gè)音素的持續(xù)時(shí)間長度,導(dǎo)出與上述檢索字符串對應(yīng)的聲音發(fā)聲時(shí)間長度;區(qū)間指定單元,其在上述檢索對象的聲音信號的時(shí)間長度中指定多個(gè)上述時(shí)間長度導(dǎo)出單元導(dǎo)出的發(fā)聲時(shí)間長度的區(qū)間作為似然取得區(qū)間;似然取得單元,其取得似然,該似然表示上述區(qū)間指定單元指定的似然取得區(qū)間是發(fā)出與上述檢索字符串對應(yīng)的聲音的區(qū)間的似然度;以及確定單元,其根據(jù)上述似然取得單元針對由上述區(qū)間指定單元指定的似然取得區(qū)間分別取得的似然,確定從檢索對象的聲音信號中推定發(fā)出了與上述檢索字符串對應(yīng)的聲音的推定區(qū)間。
      [0010]根據(jù)本發(fā)明,能夠從不同語速的聲音信號中高精度地檢索檢索詞。
      【附圖說明】
      [0011]如果將以下詳細(xì)的描述與以下的附圖對應(yīng)起來考慮,則能夠更深地理解本申請。
      [0012]圖1是表示本發(fā)明實(shí)施方式I的聲音檢索裝置的物理結(jié)構(gòu)的圖。
      [0013]圖2是表示本發(fā)明實(shí)施方式I的聲音檢索裝置的功能結(jié)構(gòu)的圖。
      [0014]圖3是用于說明音素的狀態(tài)的圖。
      [0015]圖4是表示用于使音素各個(gè)狀態(tài)的持續(xù)時(shí)間長度伸縮的語速信息的例子的圖。
      [0016]圖5是表示用于使音素狀態(tài)的持續(xù)時(shí)間長度伸縮的計(jì)算例的圖。
      [0017]圖6A是檢索對象的聲音信號的波形圖。圖6B是表示在檢索對象的聲音信號中設(shè)定的幀的圖。圖6C是表示在檢索對象的聲音信號中指定的似然取得期間的圖。
      [0018]圖7是將輸出概率進(jìn)行下限化的例子的圖。
      [0019]圖8是表示本發(fā)明實(shí)施方式I的聲音檢索裝置所執(zhí)行的聲音檢索處理的流程的流程圖。
      [0020]圖9是表示確定與檢索字符串對應(yīng)的區(qū)間的處理流程的流程圖。
      [0021]圖10是表示將使持續(xù)時(shí)間長度伸縮的變更率僅設(shè)定為母音的持續(xù)時(shí)間長度的例子的圖。
      [0022]圖11是表示本發(fā)明實(shí)施方式2的聲音檢索裝置所執(zhí)行的聲音檢索處理的流程的流程圖。
      [0023]圖12是表示按照音素的每個(gè)狀態(tài)設(shè)定使持續(xù)時(shí)間長度伸縮的變更率的例子的圖。
      [0024]圖13是表示將使持續(xù)時(shí)間長度伸縮的變更率僅設(shè)定為音素的特定狀態(tài)的例子的圖。
      【具體實(shí)施方式】
      [0025]以下,一邊參照附圖一邊說明本發(fā)明實(shí)施方式的聲音檢索裝置、聲音檢索方法以及程序。另外,對于圖中相同或相應(yīng)的部分標(biāo)注相同符號。
      [0026](實(shí)施方式I)
      [0027]如圖1所示,實(shí)施方式I的聲音檢索裝置100物理地具備:R0M(Read Only Memory:只讀存儲(chǔ)器)l、RAM(Random Access Memory:隨機(jī)存取存儲(chǔ)器)2、外部存儲(chǔ)裝置3、輸入裝置
      4、輸出裝置5、CPU(Central Processing Unit:中央處理單元)6以及總線7。
      [0028]ROMl存儲(chǔ)聲音檢索程序。RAM2作為CPU6的工作區(qū)而使用。
      [0029]外部存儲(chǔ)裝置3例如由硬盤構(gòu)成,將作為檢索對象的聲音信號、后述的單音子模型、三音子模型以及音素的時(shí)間長度作為數(shù)據(jù)進(jìn)行存儲(chǔ)。
      [0030]輸入裝置4例如由鍵盤和聲音識別裝置構(gòu)成。輸入裝置4將用戶輸入的檢索詞作為文本數(shù)據(jù)提供給CPU6。輸出裝置5例如具備液晶顯示器等畫面、揚(yáng)聲器等。輸出裝置5將通過CPU6輸出的文本數(shù)據(jù)顯示在畫面上,從揚(yáng)聲器輸出聲音數(shù)據(jù)。
      [0031 ] CPU6將存儲(chǔ)在ROMl中的聲音檢索程序讀出到RAM2,通過執(zhí)行該聲音檢索程序,實(shí)現(xiàn)以下所示的功能。總線7連接ROM 1、RAM2、外部存儲(chǔ)裝置3、輸入裝置4、輸出裝置5以及CPU6。
      [0032]如圖2所示,聲音檢索裝置100在功能上具備聲音信號存儲(chǔ)部101、單音子模型存儲(chǔ)部102、三音子模型存儲(chǔ)部103、時(shí)間長度存儲(chǔ)部104、檢索字符串取得部111、變換部112、時(shí)間長度取得部113、語速信息取得部114、時(shí)間長度變更部115、時(shí)間長度導(dǎo)出部116、區(qū)間指定部117、特征量計(jì)算部118、輸出概率取得部119、置換部120、似然取得部121、重復(fù)部122、選擇部123、第二變換部124、第二輸出概率取得部125、第二似然取得部126以及確定部127。在外部存儲(chǔ)裝置3的存儲(chǔ)區(qū)域中構(gòu)筑聲音信號存儲(chǔ)部101、單音子模型存儲(chǔ)部102、三音子模型存儲(chǔ)部103以及時(shí)間長度存儲(chǔ)部104。
      [0033]聲音信號存儲(chǔ)部101存儲(chǔ)檢索對象的聲音信號。檢索對象的聲音信號是例如與新聞廣播等的聲音、被錄音的會(huì)議的聲音、被錄音的講演會(huì)的聲音、電影的聲音相關(guān)的聲音信號。
      [0034]單音子模型存儲(chǔ)部102以及三音子模型存儲(chǔ)部103存儲(chǔ)聲學(xué)模型。聲學(xué)模型是將構(gòu)成作為檢索字符串而能夠取得的字符串的各個(gè)音素的頻率特性進(jìn)行模型化而得的模型。具體地說,單音子模型存儲(chǔ)部102存儲(chǔ)單音子(I個(gè)音素)的聲學(xué)模型(單音子模型),三音子模型存儲(chǔ)部103存儲(chǔ)三音子(3個(gè)音素)的聲學(xué)模型(三音子模型)。
      [0035]音素是構(gòu)成由說話者發(fā)出的聲音的成分單位。例如,“力亍riy”這個(gè)單詞由“k”、“a”、“t”、“e”、“g”、V’、“r”、“i” 這8個(gè)音素構(gòu)成。
      [0036]單音子模型是按照每個(gè)音素生成的聲學(xué)模型,是不依存于相鄰的音素,即將與前后的音素狀態(tài)之間的狀態(tài)迀移進(jìn)行了固定化的聲學(xué)模型。三音子模型是按照每3個(gè)音素生成的聲學(xué)模型,依存于相鄰的音素,即考慮了與前后的音素狀態(tài)之間的狀態(tài)迀移的聲學(xué)模型,具有比單音子模型更多的信息。聲音檢索裝置100通過一般的方法學(xué)習(xí)單音子模型以及三音子模型,分別預(yù)先存儲(chǔ)在單音子模型存儲(chǔ)部102以及三音子模型存儲(chǔ)部103中。
      [0037]作為單音子模型以及三音子模型,例如能夠使用通過一般聲音識別而使用的聲學(xué)模型即HMM(Hidden Markov Model:隱馬爾科夫模型)。!!麗是用于通過統(tǒng)計(jì)方法根據(jù)聲音信號概率地推定構(gòu)成該聲音信號的音素的模型。HMM使用將表示時(shí)間狀態(tài)的搖擺的迀移概率、輸出根據(jù)各個(gè)狀態(tài)輸入的特征量的概率(輸出概率)設(shè)為參數(shù)的標(biāo)準(zhǔn)模式。
      [0038]時(shí)間長度存儲(chǔ)部104通過各個(gè)音素的狀態(tài)單位來存儲(chǔ)通過聲學(xué)模型而使用的各個(gè)音素的平均持續(xù)時(shí)間長度。各個(gè)音素的平均持續(xù)時(shí)間長度是發(fā)出各個(gè)音素時(shí)的平均時(shí)間長度。各個(gè)音素的狀態(tài)是在時(shí)間方向?qū)⒏鱾€(gè)音素進(jìn)行了細(xì)化的單位,相當(dāng)于聲學(xué)模型的最小單位。針對各個(gè)音素預(yù)先決定狀態(tài)數(shù)量。
      [0039]在本實(shí)施方式中,以針對各個(gè)音素決定的狀態(tài)數(shù)量為“3”的情況作為例子進(jìn)行說明。例如,如圖3所示,聲音“$)”被分為包括該音素的發(fā)聲開始時(shí)的第一狀態(tài)“al”、作為中間狀態(tài)的第二狀態(tài)“a2”、包括發(fā)聲結(jié)束時(shí)的第三狀態(tài)“a3”共3個(gè)狀態(tài)。即,一個(gè)音素由3個(gè)狀態(tài)構(gòu)成。在將通過聲學(xué)模型而使用的所有音素的數(shù)量設(shè)為Q的情況下,存在(3XQ)個(gè)狀態(tài)。聲音檢索裝置100對于音素的狀態(tài)分別根據(jù)大量的聲音信號數(shù)據(jù)來計(jì)算持續(xù)時(shí)間長度的平均值,預(yù)先存儲(chǔ)在時(shí)間長度存儲(chǔ)部104中。
      [0040]檢索字符串取得部111取得用戶經(jīng)由輸入裝置4而輸入的檢索字符串。即,用戶通過字符串(文本)對聲音檢索裝置100賦予用于從檢索對象的聲音信號檢索發(fā)出目的聲音的部分的檢索詞(查詢)。
      [0041]變換部112將不依存于相鄰音素的聲學(xué)模型即單音子模型的音素按照檢索字符串取得部111取得的檢索字符串進(jìn)行排列,將檢索字符串變換為音素串。即,變換部112按照與檢索字符串中包括的字符相同的順序,排列發(fā)聲各個(gè)字符時(shí)的音素(單音子),從而將檢索字符串變換為單音子音素串。
      [0042]在本實(shí)施方式中,說明檢索日語“力fd'y”的情況。當(dāng)作為檢索字符串輸入日語“力亍=i'y” 時(shí),“力亍=i'y” 包括 “k”、“a”、“t”、“e”、“g”、V’、“r”、“i” 這8個(gè)音素(單音子),因此變換部112生成音素串“k、a、t、e、g、o、r、i”。
      [0043]時(shí)間長度取得部丨丨3從時(shí)間長度存儲(chǔ)部104取得由變更部112生成的音素串所對應(yīng)的音素的每個(gè)狀態(tài)的平均持續(xù)時(shí)間長度。
      [0044]語速信息取得
      當(dāng)前第1頁1 2 3 4 5 6 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
      1