積,取得該似然取得區(qū)間的似然。即,越是包括很多輸出概率高的幀的似然取得區(qū)間,似然取得部121取得的似然越大。
[0065]另外,是將各個幀的輸出概率進(jìn)行相乘的處理,所以可以不采用對數(shù)而直接進(jìn)行輸出概率的乘法,也可以代替對數(shù)而使用近似式。
[0066]重復(fù)部122改變區(qū)間指定部117進(jìn)行指定的似然取得區(qū)間的聲音信號的指定區(qū)間,控制各部,使得重復(fù)進(jìn)行區(qū)間指定部117、特征量計算部118、輸出概率取得部119、置換部120以及似然取得部121的處理。
[0067]如果具體參照圖6B和圖6C進(jìn)行說明,則接受重復(fù)部122的控制,區(qū)間指定部117使幀的開頭位置位移I個位移長度(S=1ms)并指定第一幀列,將第一幀列的區(qū)間新指定為第一似然取得區(qū)間。并且,重復(fù)部122在新指定的第一似然取得區(qū)間中,使各部執(zhí)行與從上述的特征量計算部118到似然取得部121之間的處理相同的處理,控制各部,使得取得第一似然取得區(qū)間的似然。
[0068]同樣,重復(fù)部122控制各部,使得從第二似然取得區(qū)間到第(P-1)似然取得區(qū)間為止,由區(qū)間指定部117指定的似然取得區(qū)間逐個位移一個位移長度(S=1ms)而取得關(guān)于似然取得區(qū)間各自的似然。其結(jié)果為,針對將檢索對象的聲音信號逐個位移了一個位移長度的似然取得區(qū)間的每一個,取得相對于根據(jù)單音子模型而生成的音素串“k、a、t、e、g、0、r、i”的似然。另外,在檢索對象的聲音信號中能夠指定的似然取得區(qū)間的數(shù)量P使用聲音信號的時間長度T和似然取得區(qū)間的時間長度L以及位移長度S,被定為P = (T-L+S)/S。
[0069]選擇部123根據(jù)似然取得部121取得的似然,從區(qū)間指定部117指定的似然取得區(qū)間中按照似然從高到低的順序選擇X個被推定為發(fā)出與檢索字符串對應(yīng)的聲音的推定區(qū)間的候補。即,選擇部123為了根據(jù)后段的三音子模型抑制精度更高的似然取得的計算量,從取得了似然的P個似然取得區(qū)間中預(yù)備地選擇X個成為最終檢索結(jié)果的候補的區(qū)間,從候補去除剩余的似然取得區(qū)間。
[0070]這時,由區(qū)間指定部117指定的似然取得區(qū)間具有大量的重疊,因此似然大的區(qū)間大多會時序地連續(xù)存在。因此,選擇部123如果在P個似然取得區(qū)間中單純地從似然大的區(qū)間按順序選擇推定區(qū)間的候補,則所選擇的區(qū)間集中在檢索對象的聲音信號中一部分上的可能性變大。
[0071]為了避免上述問題,選擇部123設(shè)置預(yù)定的選擇時間長度,按照每個選擇時間長度,逐個選擇在從該預(yù)定的選擇時間長度的區(qū)間中開始的似然取得區(qū)間中似然最大的似然取得區(qū)間。該預(yù)定的選擇時間長度設(shè)定為比似然取得區(qū)間的時間長度L要短的時間,例如相當(dāng)于似然取得區(qū)間的時間長度L的Ι/m(例如1/2)的時間長度。例如,在假設(shè)“力亍riy”的發(fā)聲時間長度為2秒以上(L2 2秒)的情況下,設(shè)m=2,將選擇時間長度設(shè)定為I秒。按照每個選擇時間長度(L/m)逐個選擇似然取得區(qū)間作為候補,剩余的從候補中排除。這樣,選擇部123能夠毫無遺漏地檢索對象的聲音信號整體地選擇推定區(qū)間的候補。
[0072]選擇部123的選擇結(jié)果經(jīng)由輸出裝置5所具備的畫面而顯示在外部。之后,聲音檢索裝置100針對選擇出的X個區(qū)間,基于三音子模型以及動態(tài)計劃法(DP (Dynami cProgramming動態(tài)規(guī)劃)匹配)執(zhí)行精度更高的似然取得處理。DP匹配是選擇狀態(tài)迀移而使得分析區(qū)間的似然成為最大的方法。在三音子模型中,需要考慮和前后的音素之間的狀態(tài)迀移,所以通過DP匹配決定前后音素的狀態(tài)迀移,使似然取得區(qū)間的似然變得最大。
[0073]第二變換部124將依存于相鄰的音素的第二聲學(xué)模型即三音子模型的音素按照檢索字符串取得部111所取得的檢索字符串進(jìn)行排列,將檢索字符串變換為第二音素串即三音子音素串。例如,在作為檢索字符串輸入了日語“力T-的情況下,“力T-包括“k_a+t”、“a-t+e”、“t-e+g”、“e-g+o”、“g-o+r”、“o_r+i” 六個三音子,因此第二變換部 124生成將這六個三音子進(jìn)行了排列的三音子音素串。并且,也會將由2個音素組成的雙音子“k+a”、“r-1”分配給始端和終端。此時,預(yù)先將雙音子模型存儲在外部存儲裝置3中。另外位于符號左側(cè)的音素表示位于中心音素的前面,位于“+”符號右側(cè)的音素位于中心音素的后面。
[0074]第二輸出概率取得部125按照每個幀取得輸出概率,該輸出概率是從由第二變換部124進(jìn)行變換而得的第二音素串(三音子音素串)中包括的各音素輸出由選擇部123作為推定區(qū)間的候補而選擇的區(qū)間的檢索對象的聲音信號的特質(zhì)量的輸出概率。具體地說,第二輸出概率取得部125從三音子模型存儲部103取得三音子模型,比較由特征量計算部118計算出的各個幀的特征量和三音子音素串中包括的各三音子的模型。并且,計算從各個三音子輸出各個幀的特征量的概率。
[0075]第二似然取得部126針對選擇部123限定為X個的區(qū)間候補分別取得第二似然,該第二似然表示選擇部123作為推定區(qū)間的候補而選擇的區(qū)間是發(fā)出與檢索字符串對應(yīng)的聲音的區(qū)間的似然度。第二似然是根據(jù)第二音素串即三音子音素串而取得的,因此根據(jù)單音子音素串與似然取得部121取得的似然相比,是精度更高的指標(biāo)。
[0076]第二似然取得部126根據(jù)由第二輸出概率取得部125取得的輸出概率,針對由選擇部123限定的第二似然取得區(qū)間中包括的各個幀,通過DP匹配來檢索聲音信號的特征量和三音子音素串中包括的各個三音子模型之間的對應(yīng)。然后,將對針對選擇部123選擇出的區(qū)間(第二似然取得區(qū)間)的各個幀分別取得的輸出概率取對數(shù)而得的值相加,由此得到該區(qū)間的第二似然。
[0077]確定部127根據(jù)第二似然取得部126所取得的第二似然,從選擇部123選擇出的X個區(qū)間的候補中確定推定區(qū)間,該推定區(qū)間是從檢索對象的聲音信號中推定發(fā)出與檢索字符串對應(yīng)的聲音的區(qū)間。例如,確定部127按照第二似然取得部126所取得的第二似然從大到小的順序?qū)㈩A(yù)定數(shù)量的區(qū)間確定為推定區(qū)間。或者,將似然在預(yù)定值以上的區(qū)間確定為推定區(qū)間。由確定部127確定的區(qū)間的位置信息作為最終的檢索結(jié)果,經(jīng)由輸出裝置5所具備的畫面顯示在外部。
[0078]參照圖8所示的流程圖說明由具有以上那樣的物理結(jié)構(gòu)以及功能結(jié)構(gòu)的聲音檢索裝置100所執(zhí)行的聲音檢索處理。
[0079]用戶將音素的每個狀態(tài)的持續(xù)時間長度預(yù)先存儲在時間長度存儲部104中,將作為檢索對象的聲音信號存儲在聲音信號存儲部101中。檢索對象的聲音信號設(shè)為例如一個小時演講的錄音的聲音。這里,檢索對象的查詢設(shè)為“力fj'y”。另外,用戶將檢索對象的聲音信號的語速相對生成了持續(xù)時間長度的聲音數(shù)據(jù)的語速有多快準(zhǔn)備為語速信息。這里,說明針對成為生成持續(xù)時間長度的基礎(chǔ)的聲音數(shù)據(jù)的語速,從約慢1.4倍語速的聲音信號中檢測檢索對象的查詢“力的處理。另外,預(yù)先決定在使持續(xù)時間長度伸縮時的母音和子音的變更率的比。這里,準(zhǔn)備圖4所示的伸長倍率作為語速信息。
[0080]CPU6從ROMl讀出聲音檢索軟件,通過執(zhí)行程序開始圖8所示的流程圖。用戶從輸入裝置4輸入檢索對象的檢索字符串“力f d'y”作為文本數(shù)據(jù),檢索字符串取得部111取得檢索字符串(步驟Sll)。如果檢索字符串取得部111取得檢索字符串,則變換部112以及第二變換部124將檢索字符串變換為音素串(步驟S12),按照音素串的音素順序排列聲學(xué)模型的音素(步驟S13)。具體地說,變換部112將檢索字符串變換為單音子模型的單音子音素串“k、a、t、e、g、o、r、i”,第二變換部124將檢索字符串變換為三音子模型的三音子音素串“k-a+t”、“a-t+e”、“t-e+g”、“e-g+o”、“g-o+r”、“o_r+i”。另外,也可以追加雙音子模型 “k+a”、“r_i”。
[0081]語速信息取得部114取得與用戶輸入的聲音信號的語速對應(yīng)的語速信息(步驟S14)。針對成為生成持續(xù)時間長度的基礎(chǔ)的聲音數(shù)據(jù)的語速,從大約慢1.4倍語速的聲音信號中檢測出檢索對象的查詢“力f =fy”,所以用戶作為語速信息作為將持續(xù)時間長度伸長1.4倍的語速信息,輸入圖4所示的伸長倍率。即,關(guān)于母音輸入1.6倍的變更率,關(guān)于子音輸Al.1倍的變更率,將持續(xù)時間長度的平均伸長約1.4倍。
[0082]時間長度變更部115經(jīng)由時間長度取得部113,根據(jù)語速信息變更從時間長度存儲部104取得的平均持續(xù)時間長度(步驟S15)。具體地說,時間長度變更部115將圖4所示的伸長倍率(變更率)乘以圖5第2列所示的平均語速用的持續(xù)時間長度,作為慢1.4倍語速用的持續(xù)時間長度來生成圖5的第3列所示的持續(xù)時間長度。
[0083]返回圖8,如果變換部112將檢索字符串變換為音素串,則時間長度導(dǎo)出部116導(dǎo)出與檢索字符串對應(yīng)的聲音的發(fā)聲時間長度(步驟S16)。具體地說,時間長度導(dǎo)出部116取得由時間長度變更部115將時間長度變更后的持續(xù)時間長度,通過加上取得的持續(xù)時間長度,導(dǎo)出與檢索字符串對應(yīng)的聲音的發(fā)聲時間長度。具體地說,為了生成與慢語速對應(yīng)的發(fā)聲時間長度,將加上了圖5第3列所示的伸長后的持續(xù)時間長度的合計值(852ms)導(dǎo)出作為發(fā)聲時間長度。
[0084]如果時間長度導(dǎo)出部116導(dǎo)出發(fā)聲時間長度,貝Ij區(qū)間指定部117從檢索對象的聲音信號的開頭到結(jié)尾,一邊將導(dǎo)出的發(fā)聲時間長度的區(qū)間即似然取得區(qū)間逐個位移一個位移長度S—邊按順序進(jìn)行指定,轉(zhuǎn)移到取得似然的處理。首先,區(qū)間指定部117指定從檢索對象的聲音信號開頭開始的第O幀列,將第O幀列的24幀量的區(qū)間(Oms?852ms)指定為比平均語速慢I.4倍的語速用的第O似然取得區(qū)間(步驟SI7)。
[0085]如果區(qū)間指定部117指定似然取得區(qū)間,則特征量計算部118按照每個幀來計算所指定的似然取得區(qū)間的聲音信號的特征量(步驟S18)。然后,輸出概率取得部119根據(jù)特征量計算部118計算出的特征量和相應(yīng)的單音子模型,按照每個幀取得從音素串中包括的各個音素輸出該特征量的輸出概率(步驟S19)。即,針對圖5所示的從“kl”到“i3”之間的24個狀態(tài)分別取得輸出概率。
[0086]如果輸出概率取得部119取得輸出概率,則置換部120將按照每個幀取得的輸出概率置換為該幀和該幀之前的NI個幀和該幀之后的N2個幀的合計(1+N1+N2