聲音檢索裝置、聲音檢索方法
【專利說明】聲音檢索裝置、聲音檢索方法
[0001]關(guān)于本申請,主張以在2014年12月22日申請的日本國專利申請第2014-259419號為基礎(chǔ)的優(yōu)先權(quán),參照該基礎(chǔ)申請的內(nèi)容,在本申請引用全部內(nèi)容。
技術(shù)領(lǐng)域
[0002]本發(fā)明涉及一種聲音檢索裝置、聲音檢索方法。
【背景技術(shù)】
[0003]隨著聲音、動畫等多媒體內(nèi)容的擴大/普及,要求高精度的多媒體檢索技術(shù)。其中,正在研究從聲音信號中確定發(fā)出與成為檢索對象的檢索詞(查詢)對應的聲音的位置的聲音檢索技術(shù)。
[0004]在聲音檢索中,尚未確立與使用圖像識別的字符串檢索技術(shù)相比具有充分的性能的檢索方法。因此,正在研究用于實現(xiàn)具有充分性能的聲音檢索的各種技術(shù)。
[0005]例如,在非專利文獻I 中(Y.Zhang and J.Glass.“An inner-productlower-bound estimate for dynamic time warping” in P r o c.1CASSP, 2011,pp.5660-5663.),公開了高速地比較聲音信號之間的方法。由此,能夠從檢索對象的聲音信號中高速地確定與通過聲音輸入的查詢對應的位置。
[0006]在非專利文獻I公開的技術(shù)中,在檢索對象的音聲的語速和查詢輸入者的語速不同的情況下,存在檢索精度變差的問題。
【發(fā)明內(nèi)容】
[0007]本發(fā)明是為了解決上述的課題而提出的,其目的是提供一種能夠從不同語速的聲音信號中高精度地對檢索詞進行檢索的聲音檢索裝置、聲音檢索方法。
[0008]為了實現(xiàn)上述目的,本發(fā)明的聲音檢索裝置具備:
[0009]記錄單元,其記錄檢索對象的聲音信號;
[0010]變換單元,其將檢索字符串變換為音素串;
[0011]時間長度取得單元,其從存儲有與音素相關(guān)的持續(xù)時間長度數(shù)據(jù)的數(shù)據(jù)庫中取得由所述變換單元進行變換而得的音素串所包含的各音素的持續(xù)時間長度;
[0012]時間長度導出單元,其根據(jù)由所述時間長度取得單元取得的持續(xù)時間長度,導出多個相互不同的語速所對應的多個時間長度作為與所述檢索字符串對應的聲音的發(fā)聲時間長度的候補;
[0013]區(qū)間指定單元,其在檢索對象的聲音信號的時間長度中,對所述多個時間長度中的各時間長度指定多個具有由所述時間長度導出單元導出的時間長度的區(qū)間即似然取得區(qū)間;
[0014]似然取得單元,其取得表示由所述區(qū)間指定單元指定的似然取得區(qū)間是發(fā)出與所述檢索字符串對應的聲音的區(qū)間的似然度的似然;以及
[0015]確定單元,其根據(jù)由所述似然取得單元針對由所述區(qū)間指定單元指定的似然取得區(qū)間分別取得的似然,確定從所述檢索對象的聲音信號中推定發(fā)出與所述檢索字符串對應的聲音的推定區(qū)間。
[0016]根據(jù)本發(fā)明,能夠從不同語速的聲音信號中能夠高精度地對檢索詞進行檢索。
【附圖說明】
[0017]若根據(jù)以下的附圖考慮以下的詳細記述,則能夠得到對本申請的更深的理解。
[0018]圖1是表示本發(fā)明的實施方式I的聲音檢索裝置的物理結(jié)構(gòu)的圖。
[0019]圖2是表示本發(fā)明的實施方式I的聲音檢索裝置的功能結(jié)構(gòu)的圖。
[0020]圖3是用于說明音素的狀態(tài)的圖。
[0021]圖4是用于說明導出與語速對應的說話時間長度的圖。
[0022]圖5(a)是檢索對象的聲音信號的波形圖,圖5(b)是表示在檢索對象的聲音信號中設定的幀的圖,圖5(c)是表示在檢索對象的聲音信號中指定的似然取得區(qū)間的圖。
[0023]圖6是表不將輸出概率下限化的例子的圖。
[0024]圖7是用于說明基于選擇部的候補區(qū)間的選擇方法的圖。
[0025]圖8是表示本發(fā)明的實施方式I的聲音檢索裝置執(zhí)行的聲音檢索處理的流程的流程圖。
[0026]圖9是表示確定與檢索字符串對應的區(qū)間的處理流程的流程圖。
[0027]圖10是表示本發(fā)明的實施方式2的聲音檢索裝置的功能結(jié)構(gòu)的圖。
[0028]圖1lA是用于說明選擇部在乘上所取得的似然的加權(quán)系數(shù)后選擇候補區(qū)間的方法的圖。
[0029]圖1lB是表示加權(quán)系數(shù)的例子的圖。
[0030]圖12是用于說明基于選擇部的候補區(qū)間的選擇方法的圖。
[0031]圖13A是表示選擇部對每個語速記載了分割聲音信號而得的區(qū)間的最大似然的例子的圖。
[0032]圖13B是表示在分割聲音信號而得的每個區(qū)間對與語速對應的似然順序進行比較的例子的圖。
【具體實施方式】
[0033]以下,參照附圖對本發(fā)明的實施方式的聲音檢索裝置進行說明。另外,對圖中相同或?qū)牟糠仲x予相同符號。
[0034](實施方式I)
[0035]如圖1所示,實施方式I的聲音檢索裝置100物理上具備:R0M(Read Only Memory:只讀存儲器)1、RAM(Random Access Memory:隨機存取存儲器)2、外部存儲裝置3、輸入裝置4、輸出裝置5、CPU(Central Processing Unit:中央處理單元)6以及總線7。
[0036]ROMl存儲聲音檢索程序。RAM2被用作CPU6的工作區(qū)域。
[0037]外部存儲裝置3例如由硬盤構(gòu)成,將解析對象即聲音信號、后述的單音子模型、三音子模型以及音素的時間長度作為數(shù)據(jù)來存儲。
[0038]輸入裝置4例如由鍵盤、聲音識別裝置構(gòu)成。輸入裝置4向CPU6提供用戶輸入的檢索詞作為文本數(shù)據(jù)。輸出裝置5例如具備液晶顯示器等畫面、揚聲器等。輸出裝置5在畫面上顯示由CPU6輸出的文本數(shù)據(jù),從揚聲器輸出聲音數(shù)據(jù)。
[0039]CPU6將存儲在ROMl中的聲音檢索程序讀出到RAM2并執(zhí)行該聲音檢索程序,由此實現(xiàn)以下所示的功能??偩€7連接R0M1、RAM2、外部存儲裝置3、輸入裝置4、輸出裝置5、CPU6。
[0040]如圖2所示,聲音檢索裝置100功能上具備聲音信號存儲部101、單音子模型存儲部102、三音子模型存儲部103、時間長度存儲部104、檢索字符串取得部111、變換部112、時間長度取得部113、時間長度導出部114、區(qū)間指定部115、特征量計算部116、輸出概率取得部117、置換部118、似然取得部119、重復部120、選擇部121、第2變換部122、第2輸出概率取得部123、第2似然取得部124以及確定部125。在外部存儲裝置3的存儲區(qū)域構(gòu)筑聲音信號存儲部101、單音子模型存儲部102、三音子模型存儲部103以及時間長度存儲部104。
[0041]聲音信號存儲部101存儲檢索對象的聲音信號。檢索對象的聲音信號例如是新聞播放等聲音、所錄音的會議的聲音、所錄音的演講的聲音、電影的聲音等聲音信號。
[0042]單音子模型存儲部102和三音子模型存儲部103存儲聲學模型。聲學模型是對構(gòu)成能夠作為檢索字符串而取得的字符串的各音素的頻率特性等進行模型化而得的模型。具體而言,單音子模型存儲部102存儲基于單音子(I個音素)的聲學模型(單音子模型),三音子模型存儲部103存儲基于三音子(3個音素)的聲學模型(三音子模型)。
[0043]音素是構(gòu)成說話者發(fā)出的聲音的成分單位。例如“力尹=T >J ”這一單詞由“k”、“a”、“ t ”、“ e ”、“ g”、“ ο ”、“r ”、“ i ” 這 8 個音素構(gòu)成。
[0044]單音子模型是對每一個音素生成的聲學模型,是不依存相鄰的音素,即是固定化與前后的音素狀態(tài)的狀態(tài)迀移而得的聲學模型。三音子模型是對每三個音素生成的聲學模型,是依存相鄰的音素,即考慮與前后的音素狀態(tài)的狀態(tài)迀移而得的聲學模型,與單音子模型相比,具有較多信息。聲音檢索裝置100通過一般的方法學習單音子模型和三音子模型,并分別預先存儲在單音子模型存儲部102和三音子模型存儲部103中。
[0045]作為單音子模型和三音子模型,例如可以利用在一般的聲音識別中所利用的聲學模型即HMM(Hidden Markov Model,隱馬爾科夫模型)。HMM是用于通過統(tǒng)計方法根據(jù)聲音信號概率地推定構(gòu)成該聲音信號的音素的模型。在HMM中使用將表示時間狀態(tài)的起伏的迀移概率和輸出從各狀態(tài)輸入的特征量的概率(輸出概率)作為參數(shù)的標準模式。
[0046]時間長度存儲部104將在聲學模型中利用的各音素的持續(xù)時間長度區(qū)分為語速、性別、每個年兩層、發(fā)聲環(huán)境等的組,并以各音素的狀態(tài)單位進行存儲。各音素的持續(xù)時間長度是發(fā)出各音素時的平均時間長度。各音素的狀態(tài)是在時間方向?qū)Ω饕羲剡M行細分化而得的單位,相當于聲學模型的最小單位。對各音素預先決定狀態(tài)數(shù)。例如,以對各音素決定的狀態(tài)數(shù)為“3”的情況為例進行說明。例如如圖3所示,將聲音“態(tài)”的音素“a”分為包含該音素的發(fā)聲開始時的第I狀態(tài)“al”、作為中間狀態(tài)的第2狀態(tài)“a2”以及包含發(fā)聲結(jié)束時的第3狀態(tài)“a3”這3個狀態(tài)。即,I個音素由3個狀態(tài)構(gòu)成。將在聲學模型中利用的全部音素的數(shù)量設為Q的情況下,存在(3XQ)個狀態(tài)。聲音檢索裝置100根據(jù)大量的聲音信號的數(shù)據(jù)分別針對(3XQ)個狀態(tài)計算持續(xù)時間長度的平均值,并預先存儲在時間長度存儲部104中。
[0047]在本實施方式中,將音素的持續(xù)時間長度的組分為與“快”、“較快”、“普通”、“較慢”、“慢”這5個階段的語速對應的組。時間長度存儲部104將大量的聲音數(shù)據(jù)分為“快”、“較快”、“普通”、“較慢”、“慢”這5個階段的語速的組,對各語速的每個組求出音素的持續(xù)時間長度的平均,對與語速對應的每個組存儲持續(xù)時間長度。
[0048]檢索字符串取得部111取得用戶經(jīng)由輸入裝置4輸入的檢索字符串。S卩,用戶用字符串(文本)對聲音檢索裝置100賦予用于從檢索對象的聲音信號檢索發(fā)出目的聲音的部分的檢索詞(查詢)。
[0049]變換部112按照檢索字符串取得部111取得的檢索字符串排列不依存于相鄰的音素的聲學模型即單音子模型的音素,將檢索字符串變換為音素串。即,變換部112按照與在檢索字符串中包含的字符相同的順序排列發(fā)出各字符時的音素(單音子),由此將檢索字符串變換為單音子音素串。
[0050]在本