聲音檢索裝置以及聲音檢索方法_6

文檔序號：9929566閱讀：來源：國知局

用，由此能夠作為本發(fā)明的聲音檢索裝置發(fā)揮功能。另外，能夠使用聲音檢索裝置實施本發(fā)明的聲音檢索方法。
[0145]另外，這樣的程序的應用方法是任意的。除了能夠在例如計算機可讀取的記錄介質(zhì)(CD-ROM(Compact Disc Read-Only Memory光盤只讀存儲器)、DVD(Digital VersatileDisc數(shù)字多功能光盤)、MD(Magneto Optical disc磁光盤)等)中存儲程序來應用外，也能夠在因特網(wǎng)等網(wǎng)絡上的存儲裝置中存儲程序，通過下載該程序來應用。
[0146]以上，說明了本發(fā)明的優(yōu)選實施方式，不過本發(fā)明不限定于特定的實施方式，本發(fā)明包括專利請求范圍所記載的發(fā)明及其均等的范圍。
【主權項】
1.一種聲音檢索裝置，該聲音檢索裝置特征在于，具備: 記錄單元，其記錄檢索對象的聲音信號；時間長度取得單元，其從存儲有與音素相關的持續(xù)時間長度數(shù)據(jù)的數(shù)據(jù)庫取得檢索字符串的音素串中包括的各個音素的持續(xù)時間長度；語速信息取得單元，其取得由用戶指定的與語速相關的信息；時間長度變更單元，其根據(jù)上述語速信息取得單元取得的與語速相關的信息，變更上述時間長度取得單元取得的各個音素的持續(xù)時間長度；時間長度導出單元，其根據(jù)由上述時間長度變更單元變更的各個音素的持續(xù)時間長度，導出與上述檢索字符串對應的聲音發(fā)聲時間長度；區(qū)間指定單元，其在上述檢索對象的聲音信號的時間長度中指定多個上述時間長度導出單元導出的發(fā)聲時間長度的區(qū)間作為似然取得區(qū)間；似然取得單元，其取得似然，該似然表示上述區(qū)間指定單元指定的似然取得區(qū)間是發(fā)出與上述檢索字符串對應的聲音的區(qū)間的似然度；以及確定單元，其根據(jù)上述似然取得單元針對由上述區(qū)間指定單元指定的似然取得區(qū)間分別取得的似然，確定從檢索對象的聲音信號中推定發(fā)出了與上述檢索字符串對應的聲音的推定區(qū)間。2.根據(jù)權利要求1所述的聲音檢索裝置，其特征在于，上述時間長度變更單元通過個別決定的變更率來變更上述時間長度取得單元取得的各個音素的持續(xù)時間長度中母音音素的持續(xù)時間長度和子音音素的持續(xù)時間長度。3.根據(jù)權利要求1或2所述的聲音檢索裝置，其特征在于，上述時間長度變更單元通過比子音音素的持續(xù)時間長度的變更率大的變更率來變更上述時間長度取得單元取得的各個音素的持續(xù)時間長度中母音音素的持續(xù)時間長度。4.根據(jù)權利要求1所述的聲音檢索裝置，其特征在于，上述時間長度變更單元只變更上述時間長度取得單元取得的母音和子音的音素的持續(xù)時間長度中母音音素的持續(xù)時間長度。5.根據(jù)權利要求1?4中的任意一項所述的聲音檢索裝置，其特征在于，上述時間長度取得單元按照各個音素的每個狀態(tài)取得上述變換單元變換的音素串中包括的各個音素的持續(xù)時間長度，上述時間長度變更單元通過按照每個狀態(tài)決定的變更率來變更上述時間長度取得單元按照各個音素的每個狀態(tài)取得的持續(xù)時間長度。6.根據(jù)權利要求5所述的聲音檢索裝置，其特征在于，上述時間長度變更單元通過比不包括音素的發(fā)聲開始時或發(fā)聲結(jié)束時的狀態(tài)的持續(xù)時間長度的變更率小的變更率來變更各個音素狀態(tài)中包括音素的發(fā)聲開始時或發(fā)聲結(jié)束時的狀態(tài)的持續(xù)時間長度。7.根據(jù)權利要求1?5中的任意一項所述的聲音檢索裝置，其特征在于，該聲音檢索裝置還具備: 特征量計算單元，其按照比較聲音信號和音素模型的區(qū)間即每幀來計算上述區(qū)間指定單元指定的似然取得區(qū)間的上述檢索對象的聲音信號的特征量;和輸出概率取得單元，其按照每個幀取得從上述音素串中包括的各個音素輸出上述檢索對象的聲音信號的特征量的輸出概率，上述似然取得單元將按照上述區(qū)間指定單元指定的似然取得區(qū)間中包括的每個幀所取得的輸出概率的對數(shù)的值相加，取得該似然取得區(qū)間的上述似然。8.根據(jù)權利要求7所述的聲音檢索裝置，其特征在于，上述變換單元將不依存于相鄰的音素的聲學模型的音素進行排列，并將上述檢索字符串變換為上述音素串，上述似然取得單元根據(jù)上述音素串，取得上述區(qū)間指定單元指定的似然取得區(qū)間的上述似然，上述聲音檢索裝置還具備: 選擇單元，其根據(jù)上述似然取得單元取得的似然，從上述指定的多個似然取得區(qū)間中選擇上述推定區(qū)間的候補；第二變換單元，其將依存于相鄰的音素的第二聲學模型的音素進行排列，并將上述檢索字符串變換為第二音素串；以及第二似然取得單元，其根據(jù)上述第二音素串，針對由上述選擇單元選擇的多個候補分別取得第二似然，該第二似然表示由上述選擇單元選擇為上述推定區(qū)間的候補的區(qū)間是發(fā)出與上述檢索字符串對應的聲音的區(qū)間的似然度，上述確定單元根據(jù)上述第二似然取得單元取得的第二似然，從上述選擇單元選擇出的多個候補中確定上述推定區(qū)間。9.根據(jù)權利要求8所述的聲音檢索裝置，其特征在于，上述選擇單元按照每個預定的選擇時間長度，從上述區(qū)間指定單元指定的似然取得區(qū)間中逐個選擇在從該預定的選擇時間長度的區(qū)間中開始的似然取得區(qū)間中上述似然最大的似然取得區(qū)間，從而選擇上述推定區(qū)間的多個候補。10.—種聲音檢索方法，其是具有記錄檢索對象的聲音信號的存儲器的聲音檢索裝置的聲音檢索方法，該聲音檢索方法的特征在于，包括: 變換步驟，將檢索字符串變換為音素串；時間長度取得步驟，從存儲有與音素相關的持續(xù)時間長度數(shù)據(jù)的數(shù)據(jù)庫取得由上述變換步驟進行變換的音素串中包括的各個音素的持續(xù)時間長度；語速信息取得步驟，取得由用戶指定的與語速相關的信息；時間長度變更步驟，根據(jù)上述語速信息取得步驟取得的與語速相關的信息，變更上述時間長度取得步驟取得的各個音素的持續(xù)時間長度；時間長度導出步驟，根據(jù)由上述時間長度變更步驟進行變更的各個音素的持續(xù)時間長度，導出與上述檢索字符串對應的聲音的發(fā)聲時間長度；區(qū)間指定步驟，在上述檢索對象的聲音信號的時間長度中指定多個上述時間長度導出步驟導出的發(fā)聲時間長度的區(qū)間作為似然取得區(qū)間；似然取得步驟，取得似然，該似然表示上述區(qū)間指定步驟指定的似然取得區(qū)間是發(fā)出與上述檢索字符串對應的聲音的區(qū)間的似然度；以及確定步驟，根據(jù)上述似然取得步驟針對由上述區(qū)間指定步驟指定的似然取得區(qū)間分別取得的似然，確定從檢索對象的聲音信號中推定發(fā)出了與上述檢索字符串對應的聲音的推定區(qū)間。11.根據(jù)權利要求10所述的聲音檢索方法，其特征在于，上述時間長度變更步驟通過個別決定的變更率來變更上述時間長度取得步驟取得的各個音素的持續(xù)時間長度中母音音素的持續(xù)時間長度和子音音素的持續(xù)時間長度。12.根據(jù)權利要求10或11所述的聲音檢索方法，其特征在于，上述時間長度變更步驟通過比子音音素的持續(xù)時間長度的變更率大的變更率來變更上述時間長度取得步驟取得的各個音素的持續(xù)時間長度中母音音素的持續(xù)時間長度。13.根據(jù)權利要求1O所述的聲音檢索方法，其特征在于，上述時間長度變更步驟只變更上述時間長度取得步驟取得的母音和子音音素的持續(xù)時間長度中母音音素的持續(xù)時間長度。14.根據(jù)權利要求10?13中的任意一項所述的聲音檢索方法，其特征在于，上述時間長度取得步驟按照各個音素的每個狀態(tài)取得由上述變換步驟變換的音素串中包括的各個音素的持續(xù)時間長度，上述時間長度變更步驟通過按照每個狀態(tài)決定的變更率來變更上述時間長度取得步驟按照各個音素的每個狀態(tài)取得的持續(xù)時間長度。15.根據(jù)權利要求14所述的聲音檢索方法，其特征在于，上述時間長度變更步驟通過比不包括音素的發(fā)聲開始時或發(fā)聲結(jié)束時的狀態(tài)的持續(xù)時間長度的變更率小的變更率來變更各個音素狀態(tài)中包括音素的發(fā)聲開始時或發(fā)聲結(jié)束時的狀態(tài)的持續(xù)時間長度。16.根據(jù)權利要求10?14中的任意一項所述的聲音檢索方法，其特征在于，該聲音檢索方法還包括: 特征量計算步驟，其按照比較聲音信號和音素模型的區(qū)間即每幀來計算上述區(qū)間指定步驟指定的似然取得區(qū)間的上述檢索對象的聲音信號的特征量;和輸出概率取得步驟，其按照每幀取得從上述音素串中包括的各個音素輸出上述檢索對象的聲音信號的特征量的輸出概率，上述似然取得步驟將按照上述區(qū)間指定步驟指定的似然取得區(qū)間中包括的每個幀所取得的輸出概率的對數(shù)的值相加，取得該似然取得區(qū)間的上述似然。17.根據(jù)權利要求16所述的聲音檢索方法，其特征在于，上述變換步驟將不依存于相鄰的音素的聲學模型的音素進行排列，并將上述檢索字符串變換為上述音素串，上述似然取得步驟根據(jù)上述音素串，取得上述區(qū)間指定步驟指定的似然取得區(qū)間的上述似然，上述聲音檢索方法還包括: 選擇步驟，其根據(jù)上述似然取得步驟取得的似然，從上述指定的多個似然取得區(qū)間中選擇上述推定區(qū)間的候補；第二變換步驟，其將依存于相鄰的音素的第二聲學模型的音素進行排列，并將上述檢索字符串變換為第二音素串；以及第二似然取得步驟，其根據(jù)上述第二音素串，針對由上述選擇步驟選擇的多個候補分別取得第二似然，該第二似然表示由上述選擇步驟選擇為上述推定區(qū)間的候補的區(qū)間是發(fā)出與上述檢索字符串對應的聲音的區(qū)間的似然度，上述確定步驟根據(jù)上述第二似然取得步驟取得的第二似然，從上述選擇步驟選擇出的多個候補中確定上述推定區(qū)間。18.根據(jù)權利要求17所述的聲音檢索方法，其特征在于，上述選擇步驟按照每個預定的選擇時間長度，從上述區(qū)間指定步驟指定的似然取得區(qū)間中逐個選擇在從該預定的選擇時間長度的區(qū)間中開始的似然取得區(qū)間中上述似然最大的似然取得區(qū)間，從而選擇上述推定區(qū)間的多個候補。
【專利摘要】本發(fā)明涉及一種聲音檢索裝置以及聲音檢索方法。變換部(112)將檢索字符串變換為音素串。語速信息取得部(114)取得與檢索對象的聲音信號的語速對應的語速信息。時間長度變更部(115)根據(jù)語速信息變更音素的平均持續(xù)時間長度。時間長度導出部(116)使用變更后的持續(xù)時間長度，導出與檢索字符串對應的聲音的發(fā)聲時間長度。區(qū)間指定部(117)指定多個檢索對象的聲音信號的似然取得區(qū)間。似然取得部(121)取得表示似然取得區(qū)間是發(fā)出與檢索字符串對應的聲音的區(qū)間的似然度的似然。確定部(127)根據(jù)對于選擇出的似然取得區(qū)間分別取得的似然，確定從檢索對象的聲音信號中推定發(fā)出了與檢索字符串對應的聲音的推定區(qū)間。
【IPC分類】G06F17/30, G10L25/54
【公開號】CN105718503
【申請?zhí)枴緾N201510972004
【發(fā)明人】富田寬基
【申請人】卡西歐計算機株式會社
【公開日】2016年6月29日
【申請日】2015年12月22日
【公告號】US20160180834

完整全部詳細技術資料下載

當前第6頁1 2 3 4 5 6

相關技術