語音檢索裝置以及語音檢索方法

文檔序號：8923595閱讀：921來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語音檢索裝置以及語音檢索方法
【專利說明】語音檢索裝置以及語音檢索方法
[0001]本申請主張以2014年3月5日申請的日本專利申請?zhí)卦?014-42542為基礎(chǔ)的優(yōu)先權(quán)，將該基礎(chǔ)申請的內(nèi)容全部組合到本申請中。
技術(shù)領(lǐng)域
[0002]本發(fā)明涉及一種語音檢索裝置以及語音檢索方法。
【背景技術(shù)】
[0003]近年來，伴隨著語音、動畫等多媒體內(nèi)容的擴大、普及，要求高精度的多媒體檢索技術(shù)。關(guān)于語音檢索，研宄了從語音中確定發(fā)出與所給出的檢索詞(查詢)對應(yīng)的語音的位置的語音檢索技術(shù)。在語音檢索中，由于語音識別的難度等特有的原因，與從字符串中確定包含希望的檢索詞的位置的字符串檢索技術(shù)相比，還沒有確立充分性能的檢索方法。因此，研宄了各種用于實現(xiàn)充分性能的語音檢索的技術(shù)。
[0004]例如，非專利文獻I (Y.Zhang and J.Glass.“An inner-product lower-boundestimate for dynamic time warping，，，in Proc.1CASSP, 2011,pp.5660 ~ 5663.)公開了將語音信號彼此高速地比較的方法。由此，能夠從作為檢索對象的語音信號中高速地確定與用語音輸入的查詢對應(yīng)的位置。
[0005]但是，在非專利文獻I中用語音輸入查詢，因此在作為檢索對象的語音包含多個發(fā)言者的語音的情況下，有時特征與查詢輸入者的語音近似的發(fā)言者的發(fā)言優(yōu)先。
[0006]另外，在查詢輸入者的語音在聲音上特異的情況下，或查詢輸入者原本就難以發(fā)聲的情況下，無法利用通過語音輸入查詢的方法。

【發(fā)明內(nèi)容】

[0007]本發(fā)明用于解決上述那樣的問題，其目的在于提供一種能夠高精度并且高速地進行語音檢索的語音檢索裝置以及語音檢索方法。
[0008]為了達到上述目的，本發(fā)明的語音檢索裝置具備:
[0009]檢索字符串取得單元，其取得檢索字符串；
[0010]變換單元，其將上述檢索字符串取得單元取得的檢索字符串變換為音素列；
[0011]時間長度導(dǎo)出單元，其取得在上述變換單元變換而得的音素列中包含的各音素的持續(xù)長度，根據(jù)該取得的持續(xù)長度，導(dǎo)出與上述檢索字符串對應(yīng)的語音的發(fā)言時間長度；
[0012]區(qū)間指定單元，其指定作為檢索對象的語音信號中的由上述時間長度導(dǎo)出單元導(dǎo)出的時間長度的區(qū)間即似然度取得區(qū)間；
[0013]似然度取得單元，其取得表示上述區(qū)間指定單元指定的似然度取得區(qū)間是發(fā)出與上述檢索字符串對應(yīng)的語音的區(qū)間的似然性的似然度；
[0014]重復(fù)單元，其改變上述區(qū)間指定單元指定的似然度取得區(qū)間，重復(fù)進行上述區(qū)間指定單元和上述似然度取得單元的處理；以及
[0015]確定單元，其根據(jù)上述似然度取得單元針對上述區(qū)間指定單元指定的似然度取得區(qū)間分別取得的似然度，從上述作為檢索對象的語音信號中確定被推定為發(fā)出與上述檢索字符串對應(yīng)的語音的推定區(qū)間。
[0016]根據(jù)本發(fā)明，能夠高精度并且高速地進行語音檢索。
【附圖說明】
[0017]圖1是表示本發(fā)明的實施方式I的語音檢索裝置的物理結(jié)構(gòu)的圖。
[0018]圖2是表示本發(fā)明的實施方式I的語音檢索裝置的功能結(jié)構(gòu)的圖。
[0019]圖3(a)是作為檢索對象的語音信號的波形圖。圖3(b)是表示在作為檢索對象的語音信號中設(shè)定的幀的圖。圖3(c)是表示在作為檢索對象的語音信號中指定的似然度計算區(qū)間的圖。
[0020]圖4是表示對輸出概率進行下界化的例子的圖。
[0021]圖5是表示本發(fā)明的實施方式I的語音檢索裝置執(zhí)行的語音檢索處理的流程的流程圖。
[0022]圖6是表示確定與檢索字符串對應(yīng)的區(qū)間的處理的流程的流程圖。
[0023]圖7是表示本發(fā)明的實施方式2的語音檢索裝置執(zhí)行的語音檢索處理的流程的流程圖。
[0024]圖8是表示本發(fā)明的實施方式3的語音檢索裝置的功能結(jié)構(gòu)的圖。
【具體實施方式】
[0025]以下，參照【附圖說明】本發(fā)明的實施方式。此外，在圖中對相同或相當?shù)牟糠仲x予相同符號。
[0026](實施方式I)
[0027]實施方式I的語音檢索裝置在物理上如圖1所示那樣構(gòu)成。語音檢索裝置100具備ROM(只讀存儲器)1、RAM(隨機存取存儲器)2、外部存儲裝置3、輸入裝置4、輸出裝置5和CPU (中央處理單元)6。
[0028]ROMl存儲用于進行各種初始設(shè)定、硬件的檢查、程序的裝載等的初始程序。RAM2暫時存儲CPU6執(zhí)行的各種軟件程序、這些軟件程序的執(zhí)行所需要的數(shù)據(jù)等。
[0029]外部存儲裝置3例如是硬盤等，存儲各種軟件程序、數(shù)據(jù)等。在這些軟件程序中包含應(yīng)用軟件程序、OS (操作系統(tǒng))那樣的基本軟件程序等。
[0030]輸入裝置4例如是鍵盤等。輸入裝置4將用戶使用鍵盤操作輸入的文本數(shù)據(jù)等輸入到CPU6。輸出裝置5例如具備液晶顯示器等的畫面、揚聲器等。輸出裝置5將由CPU6輸出的文本數(shù)據(jù)顯示在畫面上，從揚聲器輸出語音數(shù)據(jù)。
[0031]CPU6將存儲在外部存儲裝置3中的軟件程序讀出到RAM2中，執(zhí)行控制該軟件程序，由此實現(xiàn)以下的功能結(jié)構(gòu)。
[0032]語音檢索裝置100在功能上如圖2所示那樣構(gòu)成。語音檢索裝置100具備語音信號存儲部101、單音素模型(mono-phone model)存儲部102、三音素模型(tr1-phonemodel)存儲部103、時間長度存儲部104、檢索字符串取得部111、變換部112、時間長度導(dǎo)出部113、區(qū)間指定部114、特征量計算部115、輸出概率取得部116、置換部117、似然度計算部118、重復(fù)部119、選擇部120、第二變換部121、第二輸出概率取得部122、第二似然度計算部123、確定部124。在外部存儲裝置3的存儲區(qū)域中構(gòu)筑語音信號存儲部101、單音素模型存儲部102、三音素模型存儲部103以及時間長度存儲部104。
[0033]語音信號存儲部101存儲作為檢索對象的語音信號。作為檢索對象的語音信號例如是新聞廣播等的語音、被錄音的會議的語音、電影的語音等的語音信號。
[0034]單音素模型存儲部102和三音素模型存儲部103存儲聲音模型。對構(gòu)成能夠作為檢索字符串而取得的字符串的各音素的頻率特性進行模型化來得到聲音模型。具體地說，單音素模型存儲部102存儲基于單音素(一個音素)的聲音模型(mono-phone model)，三音素模型存儲部103存儲基于三音素(3個音素)的聲音模型(tr1-phone model)。
[0035]單音素模型是對每個音素生成的聲音模型，是不依存于相鄰的音素的、即將與前后的音素狀態(tài)的狀態(tài)轉(zhuǎn)移固定化了的聲音模型。三音素模型是對每3個音素生成的聲音模型，是依存于相鄰的音素的、即考慮到與前后的音素狀態(tài)的狀態(tài)轉(zhuǎn)移的聲音模型。語音檢索裝置100通過普通的方法學(xué)習(xí)單音素模型和三音素模型，分別預(yù)先存儲在單音素模型存儲部102和三音素模型存儲部103中。
[0036]作為單音素模型和三音素模型，例如可以利用作為在普通的語音識別中利用的聲音模型的HMM(Hidden Markov Model，隱馬爾科夫模型)。HMM是用于通過統(tǒng)計的方法概率地從語音信號中推定成為輸出該語音信號的基礎(chǔ)的詞匯的模型。HMM使用以表示時間性的狀態(tài)波動的轉(zhuǎn)移概率、輸出從各狀態(tài)輸入的特征量的概率(輸出概率)作為參數(shù)的標準模式。通過將用預(yù)定的加權(quán)系數(shù)加權(quán)后的高斯(正態(tài))分布相加所得的混合高斯分布來表示該輸出概率。
[0037]時間長度存儲部104以各音素的狀態(tài)為單位存儲在聲音模型中利用的各音素的平均持續(xù)長度。各音素的平均持續(xù)長度是發(fā)出各音素時的平均的時間長度。各音素的狀態(tài)是指在時間方向上對各音素進行細分所得的單位，相當于聲音模型的最小單位。對各音素預(yù)先確定了狀態(tài)數(shù)。
[0038]以下，以對各音素確定的狀態(tài)數(shù)是“3”的情況為例進行說明。例如，音素“a”被分為包含該音素的發(fā)言開始時的第一狀態(tài)“al”、作為中間狀態(tài)的第二狀態(tài)“a2”、包含發(fā)言結(jié)束時的第三狀態(tài)“a3”這3個狀態(tài)。在將在聲音模型中利用的全部音素的個數(shù)設(shè)為Q的情況下，存在(3XQ)個狀態(tài)。語音檢索裝置100針對(3XQ)個狀態(tài)分別根據(jù)大量語音信號的數(shù)據(jù)計算持續(xù)長度的平均值，預(yù)先存儲在時間長度存儲部104中。
[0039]此外，為了提高檢索精度，適合的是在與發(fā)出作為檢索對象的語音信號的域(環(huán)境)相同的域中發(fā)出用于學(xué)習(xí)聲音模型的語音信號、以及用于計算音素的平均持續(xù)長度的語音信號。例如，在檢索對象是在會議室中錄音的語音信號的情況下，適合的是使用在會議室中錄音的語音信號學(xué)習(xí)聲音模型，計算音素的平均持續(xù)長度。但是，也可以在與發(fā)出作為檢索對象的語音信號的域不同的域中發(fā)出用于學(xué)習(xí)聲音模型的語音信號、以及用于計算音素的平均持續(xù)長度的語音信號。
[0040]檢索字符串取得部111取得檢索字符串。檢索字符串取得部111例如取得用戶經(jīng)由輸入裝置4輸入的檢索字符串。即，用戶用字符串(文本)給出用于從作為檢索對象的語音信號中檢索發(fā)出目標語音的部分的檢索詞(查詢)。
[0041]變換部112依照檢索字符串取得部111取得的檢索字符串，對不依存于相鄰的音素的聲音模型即單音素模型的音素進行排列，將檢索字符串變換為音素列。即，變換部112按照與包含在檢索字符串中的字符相同的順序，排列對各字符發(fā)聲時的音素(單音素)，由此將檢索字符串變換為單音素音素列。
[0042]例如，在輸入日語“歹一 7 V ”作為檢索字符串的情況下，“歹一 7 V ”包含“r”、“a: ”、“m”、“e”、“N”這5個音素(單音素)，因此變換部112生成音素列“r，a:，m，e，N”。或者，在輸入了英語“cake”作為檢索字符串的情況下，“cake”包含“k”、“e”、“i”、“k”這4個音素(單音素)，因此變換部112生成音素列“k，e，i，k”。
[0043]時間長度導(dǎo)出部11

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3 4 5