聲音合成方法、聲音合成裝置和存儲(chǔ)聲音合成程序的介質(zhì)的制作方法
【專利摘要】本發(fā)明提供了聲音合成方法、聲音合成裝置和存儲(chǔ)聲音合成程序的介質(zhì)。一種聲音合成方法,用于通過(guò)提取自參考聲音的語(yǔ)音片段的連接而產(chǎn)生聲音信號(hào),所述方法包括:由片段選擇單元順序地選擇所述語(yǔ)音片段;由音高設(shè)置單元設(shè)置音高過(guò)渡,在所述音高過(guò)渡中,根據(jù)與作為所述參考聲音的聲產(chǎn)生參考的參考音高和所述片段選擇單元所選擇的語(yǔ)音片段的觀測(cè)音高之間的差值相對(duì)應(yīng)的音級(jí),來(lái)反映所述語(yǔ)音片段的觀測(cè)音高的變動(dòng);以及由聲音合成單元通過(guò)根據(jù)所述音高設(shè)置單元所產(chǎn)生的音高過(guò)渡而調(diào)整所述片段選擇單元所選擇的語(yǔ)音片段的音高,來(lái)產(chǎn)生所述聲音信號(hào)。
【專利說(shuō)明】聲音合成方法、聲音合成裝置和存儲(chǔ)聲音合成程序的介質(zhì)
[0001]相關(guān)申請(qǐng)的交叉引用
[0002]本申請(qǐng)要求日本申請(qǐng)JP 2015-043918的優(yōu)先權(quán),所述申請(qǐng)的內(nèi)容通過(guò)引用合并于本申請(qǐng)。
技術(shù)領(lǐng)域
[0003]本發(fā)明的一個(gè)或多個(gè)實(shí)施例涉及用于控制例如待合成的聲音的音高的暫時(shí)性變動(dòng)(下面被稱作“音高過(guò)渡”)的技術(shù)。
【背景技術(shù)】
[0004]迄今,已經(jīng)提出了聲音合成技術(shù),其用于對(duì)由用戶在時(shí)間序列中指定的具有任意音高的歌唱聲音進(jìn)行合成。例如,在日本專利申請(qǐng)公開(kāi)N0.2014-098802中,描述了一種配置,該配置通過(guò)設(shè)置與被指定為待合成對(duì)象的多個(gè)音符的時(shí)間序列相對(duì)應(yīng)的音高過(guò)渡(音高曲線)、沿著音高過(guò)渡調(diào)整與聲產(chǎn)生細(xì)節(jié)相對(duì)應(yīng)的語(yǔ)音片段的音高、并隨后使各個(gè)語(yǔ)音片段彼此連結(jié),來(lái)合成歌唱聲音。
[0005]作為用于產(chǎn)生音高過(guò)渡的技術(shù),還存在以下配置:例如,F(xiàn)ujisaki發(fā)表在MacNeilage ,P.F.(Ed.)The Product1n of Speech, (Springer-Verlag,紐約,美國(guó))的第39-55頁(yè)的 “Dynamic Characteristics of Voice Fundamental Frequency in Speechand Singing”中所公開(kāi)的使用Fujisaki模型的配置;以及Keiichi Tokuda發(fā)表在TheInstitute of Electronics , Informat1n and Communicat1n Engineers, TechnicalResearch Report,Vol.100,N0.392,SP2000-74,第43-50頁(yè),(2000).的“Basics of VoiceSynthesis based on HMM”中所公開(kāi)的配置,該配置使用通過(guò)應(yīng)用了大量聲音的機(jī)器學(xué)習(xí)產(chǎn)生的HMM。此外,在Suni,A.S.,Aalto1D.,Rait11T.,Alku,P.,Vain1,Μ.等人發(fā)表在2013年8月31日至2013年9月2日于巴塞羅那召開(kāi)的第八屆語(yǔ)音合成ISCA工作會(huì)議會(huì)刊(8thISCA Workshop on Speech Synthesis ,Proceedings)中的 “Wavelets for Intonat1nModeling in HMM Speech Synthesis”中公開(kāi)了這樣的配置,其用于通過(guò)將音高過(guò)渡分解為句子、短語(yǔ)、詞語(yǔ)、音節(jié)、音素(phoneme)而執(zhí)行HMM的機(jī)器學(xué)習(xí)。
【發(fā)明內(nèi)容】
[0006]附帶地,在人類發(fā)出的實(shí)際聲音中,觀察到了這一現(xiàn)象:音高根據(jù)聲產(chǎn)生目標(biāo)的音素而在較短的時(shí)間段內(nèi)顯著變動(dòng)(下面被稱作“音素相關(guān)變動(dòng)”)。例如,如圖9所示,可在被發(fā)聲輔音的區(qū)段(在圖9的示例中,音素[m]和音素[g]的區(qū)段)以及其中進(jìn)行不發(fā)聲輔音和元音中的一個(gè)到另一個(gè)的過(guò)渡的區(qū)段(在圖9的示例中,在其中進(jìn)行從音素[k]到音素[i]的過(guò)渡的區(qū)段)中確認(rèn)音素相關(guān)變動(dòng)(所謂微韻律)。
[0007]在Fuj i saki發(fā)表在MacNei Iage,P.F.(Ed.) The Product1n of Speech ,(Springer-Verlag,紐約,美國(guó))的第39-55頁(yè)的 “Dynamic Characteristics of VoiceFundamental Frequency in Speech and Singing”的技術(shù)中,容易出現(xiàn)較長(zhǎng)時(shí)間段期間的音高變動(dòng)(例如句子),因而難以重現(xiàn)各個(gè)音素單元中出現(xiàn)的音素相關(guān)變動(dòng)。另一方面,在Keiichi Tokuda發(fā)表在The Institute of Electronics , Informat1n andCommunicat1n Engineers,Technical Research Report,Vol.100,N0.392,SP2000_74,第43-50頁(yè),(2000).的 “Basics of Voice Synthesis based on HMM” 的技術(shù)以及Suni,A.S.,Aalto1D.,Rait11T.,Alku,P.,Vain1,M.等人發(fā)表在2013年8月31 日至2013年9月2日于巴塞羅那召開(kāi)的第八屆語(yǔ)音合成ISCA工作會(huì)議會(huì)刊(8th ISCA Workshop on SpeechSynthesis ,Proceedings)的技術(shù)中,當(dāng)在用于機(jī)器學(xué)習(xí)的大量聲音中包括音素相關(guān)變動(dòng)時(shí),期望產(chǎn)生如實(shí)重現(xiàn)實(shí)際音素相關(guān)變動(dòng)的音高過(guò)渡。然而,除音素相關(guān)變動(dòng)之外的音素的簡(jiǎn)單錯(cuò)誤也被反映在音高過(guò)渡中,這會(huì)使人擔(dān)心通過(guò)使用音高過(guò)渡而合成的聲音會(huì)被聽(tīng)眾感知為走調(diào)(即,偏離開(kāi)適當(dāng)音高的五音不全歌唱聲音)。鑒于上述情形,本發(fā)明的一個(gè)或多個(gè)實(shí)施例的目的在于,產(chǎn)生音高過(guò)渡,在該音高過(guò)渡中反映了音素相關(guān)變動(dòng)而同時(shí)減小了對(duì)被感知為走調(diào)的擔(dān)憂。
[0008]在本發(fā)明的一個(gè)或多個(gè)實(shí)施例中,一種聲音合成方法用于通過(guò)提取自參考聲音的語(yǔ)音片段的連接而產(chǎn)生聲音信號(hào),所述聲音合成方法包括:由片段選擇單元順序地選擇所述語(yǔ)音片段;由音高設(shè)置單元設(shè)置音高過(guò)渡,在所述音高過(guò)渡中,根據(jù)與作為所述參考聲音的聲產(chǎn)生參考的參考音高和所述片段選擇單元所選擇的語(yǔ)音片段的觀測(cè)音高之間的差值相對(duì)應(yīng)的音級(jí),來(lái)反映所述語(yǔ)音片段的觀測(cè)音高的變動(dòng);以及由聲音合成單元通過(guò)根據(jù)所述音高設(shè)置單元所產(chǎn)生的音高過(guò)渡而調(diào)整所述片段選擇單元所選擇的語(yǔ)音片段的音高,來(lái)產(chǎn)生所述聲音信號(hào)。
[0009]在本發(fā)明的一個(gè)或多個(gè)實(shí)施例中,一種聲音合成裝置被配置為通過(guò)提取自參考聲音的語(yǔ)音片段的連接而產(chǎn)生聲音信號(hào),所述聲音合成裝置包括被配置為順序地選擇聲音片段的片段選擇單元。所述聲音合成裝置還包括:音高設(shè)置單元,其被配置為設(shè)置音高過(guò)渡,在所述音高過(guò)渡中,根據(jù)與作為所述參考聲音的聲產(chǎn)生參考的參考音高和所述片段選擇單元所選擇的語(yǔ)音片段的觀測(cè)音高之間的差值相對(duì)應(yīng)的音級(jí),來(lái)反映所述語(yǔ)音片段的觀測(cè)音高的變動(dòng);以及聲音合成單元,其被配置為通過(guò)根據(jù)所述音高設(shè)置單元所產(chǎn)生的音高過(guò)渡而調(diào)整所述片段選擇單元所選擇的語(yǔ)音片段的音高,來(lái)產(chǎn)生所述聲音信號(hào)。
[0010]在本發(fā)明的一個(gè)或多個(gè)實(shí)施例中,一種非暫時(shí)性計(jì)算機(jī)可讀記錄介質(zhì),其存儲(chǔ)用于通過(guò)提取自參考聲音的語(yǔ)音片段的連接而產(chǎn)生聲音信號(hào)的聲音合成程序,所述程序使得計(jì)算機(jī)充當(dāng):片段選擇單元,其被配置為順序地選擇所述語(yǔ)音片段;音高設(shè)置單元,其被配置為設(shè)置音高過(guò)渡,在所述音高過(guò)渡中,根據(jù)與作為所述參考聲音的聲產(chǎn)生參考的參考音高和所述片段選擇單元所選擇的語(yǔ)音片段的觀測(cè)音高之間的差值相對(duì)應(yīng)的音級(jí),來(lái)反映所述語(yǔ)音片段的觀測(cè)音高的變動(dòng);以及聲音合成單元,其被配置為通過(guò)根據(jù)所述音高設(shè)置單元所產(chǎn)生的音高過(guò)渡而調(diào)整所述片段選擇單元所選擇的語(yǔ)音片段的音高,來(lái)產(chǎn)生所述聲音信號(hào)。
【附圖說(shuō)明】
[0011]圖1是根據(jù)本發(fā)明的第一實(shí)施例的聲音合成裝置的框圖。
[0012]圖2是音高設(shè)置單元的框圖。
[0013]圖3是用于示出所述音高設(shè)置單元的操作的曲線圖。
[0014]圖4是用于示出參考音高和觀測(cè)音高之間的差值與調(diào)整值之間的關(guān)系的曲線圖。
[0015]圖5是變動(dòng)分析單元的操作的流程圖。
[0016]圖6是根據(jù)本發(fā)明的第二實(shí)施例的音高設(shè)置單元的框圖。
[0017]圖7是用于示出平滑處理單元的操作的曲線圖。
[0018]圖8是用于示出根據(jù)本發(fā)明的第三實(shí)施例的差值與調(diào)整值之間的關(guān)系的曲線圖。
[0019]圖9是用于不出首素相關(guān)變動(dòng)的曲線圖。
【具體實(shí)施方式】
[0020]〈第一實(shí)施例〉
[0021]圖1是根據(jù)本發(fā)明的第一實(shí)施例的聲音合成裝置100的框圖。根據(jù)第一實(shí)施例的聲音合成裝置100是被配置為產(chǎn)生任意歌曲(下面被稱作“目標(biāo)歌曲”)的歌唱聲音的聲音信號(hào)V的信號(hào)處理裝置,并且通過(guò)包括處理器12、存儲(chǔ)裝置14和發(fā)聲裝置16的計(jì)算機(jī)系統(tǒng)實(shí)現(xiàn)。例如,便攜式信息處理裝置(例如移動(dòng)電話或智能電話)或者便攜式或固定式信息處理裝置(例如個(gè)人計(jì)算機(jī))可用作聲音合成裝置100。
[0022]存儲(chǔ)裝置14存儲(chǔ)由處理器12執(zhí)行的程序以及由處理器12使用的各種類型的數(shù)據(jù)。已知的記錄介質(zhì)(例如半導(dǎo)體記錄介質(zhì)或磁性記錄介質(zhì))或者多種類型的記錄介質(zhì)的組合可任意地用作存儲(chǔ)裝置14。根據(jù)第一實(shí)施例的存儲(chǔ)裝置14存儲(chǔ)語(yǔ)音片段組L和合成信息S。
[0023]語(yǔ)音片段組L是預(yù)先從特定發(fā)聲者發(fā)出的聲音(下面被稱作“參考聲音”)提取的多個(gè)語(yǔ)音片段P的一個(gè)集合(所謂聲音合成庫(kù))。每個(gè)語(yǔ)音片段P為單個(gè)音素(例如,元音和輔音)或通過(guò)連結(jié)多個(gè)音素而獲得的音素鏈(例如,雙音或三音)。每個(gè)語(yǔ)音片段P被表示為時(shí)間域中的聲音波形的采樣序列或者頻域中的頻譜的時(shí)間序列。
[0024]參考聲音是利用預(yù)定音高(下面被稱作“參考音高”)FR作為參考而產(chǎn)生的聲音。具體地,發(fā)聲者發(fā)出參考聲音,使得他/她自己的聲音達(dá)到參考音高Fr。因此,每個(gè)語(yǔ)音片段P的音高與參考音高Fr基本匹配,但是每個(gè)語(yǔ)音片段P的音高可包含可歸于音素相關(guān)變動(dòng)的從參考音高Fr的變動(dòng)等。如圖1所示,根據(jù)第一實(shí)施例的存儲(chǔ)裝置14存儲(chǔ)參考音高Fr。
[0025]合成信息S指定作為要由聲音合成裝置100合成的目標(biāo)的聲音。根據(jù)第一實(shí)施例的合成信息S是時(shí)間序列數(shù)據(jù),其用于指定形成目標(biāo)歌曲的多個(gè)音符的時(shí)間序列,并且合成信息S針對(duì)目標(biāo)歌曲的每個(gè)音符指定如圖1所示的音高X1、聲產(chǎn)生周期X2以及聲產(chǎn)生細(xì)節(jié)(聲產(chǎn)生特性W3t3X1被指定為例如符合樂(lè)器數(shù)字接口(MIDI)標(biāo)準(zhǔn)的音符編號(hào)。聲產(chǎn)生周期X2是持續(xù)產(chǎn)生所述音符的聲音的周期,并且被指定為例如聲產(chǎn)生的起始點(diǎn)及其持續(xù)時(shí)間(音值)。聲產(chǎn)生細(xì)節(jié)X3是合成的聲音的語(yǔ)音單元(具體地,所述目標(biāo)歌曲的歌詞的音節(jié))。
[0026]根據(jù)第一實(shí)施例的處理器12執(zhí)行存儲(chǔ)在存儲(chǔ)裝置14中的程序,從而用作合成處理單元20,該合成處理單元20通過(guò)利用存儲(chǔ)在存儲(chǔ)裝置14中的語(yǔ)音片段組L和合成信息S來(lái)產(chǎn)生聲音信號(hào)V。具體地,根據(jù)第一實(shí)施例的合成處理單元20基于音高X1和聲產(chǎn)生周期X2,來(lái)調(diào)整在語(yǔ)音片段組L之中與合成信息S在時(shí)間序列中指定的聲產(chǎn)生細(xì)節(jié)X3相對(duì)應(yīng)的各個(gè)語(yǔ)音片段P,并隨后將各個(gè)語(yǔ)音片段P彼此連接,從而產(chǎn)生聲音信號(hào)V。注意的是,可采用處理器12的各功能分布到多個(gè)裝置中的配置或者聲音合成專用的電子電路實(shí)現(xiàn)處理器12的所有功能或一部分功能的配置。圖1所示的發(fā)聲裝置16(例如,揚(yáng)聲器或耳機(jī))發(fā)出與處理器12所產(chǎn)生的聲音信號(hào)V相對(duì)應(yīng)的音響效果。注意的是,為了方便起見(jiàn),省略了被配置為將聲音信號(hào)V從數(shù)字信號(hào)轉(zhuǎn)換為模擬信號(hào)的D/A轉(zhuǎn)換器的示意。
[0027]如圖1所示,根據(jù)第一實(shí)施例的合成處理單元20包括片段選擇單元22、音高設(shè)置單元24和聲音合成單元26。片段選擇單元22順序地選擇各個(gè)語(yǔ)音片段P,該語(yǔ)音片段P對(duì)應(yīng)于由合成信息S在時(shí)間序列中從存儲(chǔ)裝置14內(nèi)的語(yǔ)音片段組L中指定的聲產(chǎn)生細(xì)節(jié)X3。音高設(shè)置單元24設(shè)置合成的聲音的音高的暫時(shí)性過(guò)渡(下面被稱作“音高過(guò)渡”)C。簡(jiǎn)言之,基于合成信息S的音高X1和聲產(chǎn)生周期X2來(lái)設(shè)置音高過(guò)渡(音高曲線)C,以便跟隨由合成信息S針對(duì)每個(gè)首符指定的首尚Xi的時(shí)間序列。聲首合成單兀26基于首尚設(shè)置單兀24所廣生的首尚過(guò)渡C來(lái)調(diào)整由片段選擇單元22順序地選擇的各語(yǔ)音片段P的音高,并且將已調(diào)整的各個(gè)語(yǔ)音片段P在時(shí)間軸上彼此連結(jié),從而產(chǎn)生聲音信號(hào)V。
[0028]根據(jù)第一實(shí)施例的音高設(shè)置單元24對(duì)音高過(guò)渡C進(jìn)行設(shè)置,在所述音高過(guò)渡C中,音素相關(guān)變動(dòng)(所述音高在短時(shí)間段內(nèi)根據(jù)聲產(chǎn)生目標(biāo)的因素而變動(dòng))被反映在不會(huì)被收聽(tīng)者感知為走調(diào)的范圍內(nèi)。圖2是音高設(shè)置單元24的具體框圖。如圖2所示,根據(jù)第一實(shí)施例的音高設(shè)置單元24包括基礎(chǔ)設(shè)置過(guò)渡單元32、變動(dòng)產(chǎn)生單元34以及變動(dòng)添加單元36。
[0029]基礎(chǔ)過(guò)渡設(shè)置單元32設(shè)置音高的暫時(shí)性過(guò)渡(下面被稱作“基礎(chǔ)過(guò)渡”)B,所述音高的暫時(shí)性過(guò)渡對(duì)應(yīng)于由合成信息S針對(duì)每個(gè)音符而指定的音高X1??刹捎萌魏我阎挠糜谠O(shè)置基礎(chǔ)過(guò)渡B的方法。具體地,設(shè)置所述基礎(chǔ)過(guò)渡B,以使得所述音高在時(shí)間軸上彼此相鄰的音符之間不斷變動(dòng)。換言之,基礎(chǔ)過(guò)渡B對(duì)應(yīng)于形成目標(biāo)歌曲的旋律的多個(gè)音符之中的音高的粗略軌跡。在參考聲音中觀測(cè)到的音高的變動(dòng)(例如,音素相關(guān)變動(dòng))并不反映在基礎(chǔ)過(guò)渡B中。
[0030]變動(dòng)產(chǎn)生單元34產(chǎn)生變動(dòng)分量A,其表示音素相關(guān)變動(dòng)。具體地,根據(jù)第一實(shí)施例的變動(dòng)產(chǎn)生單元34產(chǎn)生變動(dòng)分量A,使得由片段選擇單元22順序地選擇的語(yǔ)音片段P中所包含的音素相關(guān)變動(dòng)被反映在變動(dòng)分量A中。另一方面,在各個(gè)語(yǔ)音片段P中,除音素相關(guān)變動(dòng)之外的音高變動(dòng)(具體地,會(huì)被收聽(tīng)者感知為走調(diào)的音高變動(dòng))未被反映在變動(dòng)分量A中。[0031 ] 變動(dòng)添加單元36通過(guò)將變動(dòng)產(chǎn)生單元34所產(chǎn)生的變動(dòng)分量A添加至基礎(chǔ)過(guò)渡設(shè)置單元32所設(shè)置的基礎(chǔ)過(guò)渡B來(lái)產(chǎn)生音高過(guò)渡C。因此,產(chǎn)生了音高過(guò)渡C,在該音高過(guò)渡C中反映了各個(gè)語(yǔ)音片段P的音素相關(guān)變動(dòng)。
[0032]相比于除音素相關(guān)變動(dòng)之外的變動(dòng)(下面被稱作“錯(cuò)誤變動(dòng)”),音素相關(guān)變動(dòng)大略傾向于展現(xiàn)音高的較大變動(dòng)量??紤]到上述趨勢(shì),在第一實(shí)施例中,各語(yǔ)音片段P之中展現(xiàn)出與參考音高Fr的較大音高差(隨后描述為差值D)的區(qū)段中的音高變動(dòng)被估計(jì)為音素相關(guān)變動(dòng),并且被反映在音高過(guò)渡C中,而展現(xiàn)出與參考音高Fr的較小音高差的區(qū)段中的音高變動(dòng)被估計(jì)為除音素相關(guān)變動(dòng)之外的錯(cuò)誤變動(dòng),并且不被反映在音高過(guò)渡C中。
[0033]如圖2所示,根據(jù)第一實(shí)施例的變動(dòng)產(chǎn)生單元34包括音高分析單元42和變動(dòng)分析單元44。音高分析單元42順序地識(shí)別片段選擇單元22所選擇的每個(gè)語(yǔ)音片段P的音高Fv(下面被稱作“觀測(cè)音高”)。按照足夠短于語(yǔ)音片段P的時(shí)間長(zhǎng)度的周期,順序地識(shí)別觀測(cè)音高Fv。可采用任何已知的音高檢測(cè)技術(shù)來(lái)識(shí)別觀測(cè)音高Fv。
[0034]圖3是用于示出觀測(cè)音高Fv與參考音高Fr(_700森特(cent))之間的關(guān)系的曲線圖,為了方便起見(jiàn),通過(guò)假設(shè)以西班牙語(yǔ)發(fā)出的參考聲音的多個(gè)音素的時(shí)間序列([n]、[a]、[B]、[D]和[ο])來(lái)示出所述關(guān)系。在圖3中,為了方便起見(jiàn),還示出了參考聲音的聲音波形。參照?qǐng)D3,可確認(rèn)這樣的趨勢(shì):觀測(cè)音高Fv以各音素之中不同的音級(jí)降至參考音高Fr之下。具體地,在音素[B]和[D]作為發(fā)聲的輔音的各個(gè)區(qū)段中,相比于音素[η]作為另一個(gè)發(fā)聲的輔音以及音素[a]或[O]作為元音的區(qū)段,觀測(cè)音高Fv相對(duì)于參考音高Fr的變動(dòng)可以更加明顯地觀測(cè)到。音素[B]和[D]的區(qū)段中的觀測(cè)音高Fv的變動(dòng)為音素相關(guān)變動(dòng),而音素[n]、[a]和
[O]的區(qū)段中的觀測(cè)音高Fv的變動(dòng)為錯(cuò)誤變動(dòng)。換言之,還可從圖3中確認(rèn)上文提到的這一趨勢(shì):音素相關(guān)變動(dòng)比錯(cuò)誤變動(dòng)展現(xiàn)出更大的變動(dòng)量。
[0035]圖2所示的變動(dòng)分析單元44產(chǎn)生當(dāng)語(yǔ)音片段P的音素相關(guān)變動(dòng)被估計(jì)時(shí)獲得的變動(dòng)分量A。具體地,根據(jù)第一實(shí)施例的變動(dòng)分析單元44計(jì)算存儲(chǔ)在存儲(chǔ)裝置14中的參考音高Fr與由音高分析單元42識(shí)別的觀測(cè)音高Fv之間的差值D(D = Fr-Fv),并且將差值D乘以調(diào)整值α,從而產(chǎn)生變動(dòng)分量A(A = aD = a(FR_Fv))。根據(jù)第一實(shí)施例的變動(dòng)分析單元44根據(jù)差值D可變地設(shè)置調(diào)整值a,以重現(xiàn)上文提到的這一趨勢(shì):將展現(xiàn)出較大差值D的區(qū)段中的音高變動(dòng)估計(jì)為音素相關(guān)變動(dòng)并且將其反映在音高過(guò)渡C中,而將展現(xiàn)出較小差值D的區(qū)段中的音高變動(dòng)估計(jì)為除音素相關(guān)變動(dòng)之外的錯(cuò)誤變動(dòng)并且未將其反映在音高過(guò)渡C中。簡(jiǎn)言之,變動(dòng)分析單元44計(jì)算調(diào)整值a,使得調(diào)整值a隨著差值D變大(S卩,音高變動(dòng)更有可能是音素相關(guān)變動(dòng))而增加(即,音高變動(dòng)更為主導(dǎo)地反映在音高過(guò)渡C中)。
[0036]圖4是用于示出差值D和調(diào)整值a之間的關(guān)系的曲線圖。如圖4所示,差值D的數(shù)值范圍被分為第一范圍R1、第二范圍R2和第三范圍R3,其中以預(yù)定閾值Dth1和預(yù)定閾值Dth2設(shè)為邊界。閾值Dth2是超過(guò)閾值Dthi的預(yù)定值。第一范圍Ri是降至閾值Dthi以下的范圍,第二范圍R2是超過(guò)閾值Dth2的范圍。第三范圍R3是閾值Dthi與閾值Dth2之間的范圍。經(jīng)驗(yàn)性地或統(tǒng)計(jì)地預(yù)先選擇閾值Dthi和閾值DTH2,使得差值D在觀測(cè)音高Fv的變動(dòng)是音素相關(guān)變動(dòng)時(shí)成為第二范圍R2內(nèi)的數(shù)值,并且差值D在觀測(cè)音高Fv的變動(dòng)是除音素相關(guān)變動(dòng)之外的錯(cuò)誤變動(dòng)時(shí)成為第一范圍Ri內(nèi)的數(shù)值。在圖4的示例中,假設(shè)這樣的情況,其中將閾值Dthi設(shè)為近似170森特,并將閾值Dth2設(shè)為近似220森特。當(dāng)差值D為200森特(在第三范圍R3內(nèi))時(shí),調(diào)整值a被設(shè)為0.6。
[0037]如同根據(jù)圖4理解的那樣,當(dāng)參考音高Fr與觀測(cè)音高Fv之間的差值D是第一范圍R1內(nèi)的數(shù)值(即,當(dāng)觀測(cè)音高Fv的變動(dòng)被估計(jì)為錯(cuò)誤變動(dòng))時(shí),將調(diào)整值a設(shè)為最小值O。另一方面,當(dāng)差值D是第二范圍R2內(nèi)的數(shù)值(即,當(dāng)觀測(cè)音高Fv的變動(dòng)被估計(jì)為音素相關(guān)變動(dòng))時(shí),將調(diào)整值a設(shè)為最大值I。此外,當(dāng)差值D是第三范圍R3內(nèi)的數(shù)值時(shí),將調(diào)整值a設(shè)為在大于或等于O且小于或等于I的范圍內(nèi)的對(duì)應(yīng)于差值D的值。具體地,調(diào)整值a與第三范圍R3內(nèi)的差值D成正比。
[0038]如上所述,根據(jù)第一實(shí)施例的變動(dòng)分析單元44通過(guò)將差值D與上述條件下設(shè)置的調(diào)整值a相乘而產(chǎn)生變動(dòng)分量A。因此,當(dāng)差值D是第一范圍R1內(nèi)的數(shù)值時(shí)將調(diào)整值a設(shè)為最小值0,從而使變動(dòng)分量A為0,并且禁止觀測(cè)音高Fv的變動(dòng)(錯(cuò)誤變動(dòng))被反映在音高過(guò)渡C中。另一方面,當(dāng)差值D是第二范圍R2內(nèi)的數(shù)值時(shí)將調(diào)整值a設(shè)為最大值I,從而產(chǎn)生與觀測(cè)音高Fv的音素相關(guān)變動(dòng)相對(duì)應(yīng)的差值D作為變動(dòng)分量A,其結(jié)果為觀測(cè)音高Fv的變動(dòng)被反映在音高過(guò)渡C中。如同根據(jù)以上描述理解的那樣,調(diào)整值a的最大值I意指觀測(cè)音高Fv的變動(dòng)被反映在變動(dòng)分量A中(作為音素相關(guān)變動(dòng)而被提取),而調(diào)整值a的最小值O意指觀測(cè)音高Fv的變動(dòng)未被反映在變動(dòng)分量A中(作為錯(cuò)誤變動(dòng)而被忽略)。注意的是,就元音音素而言,觀測(cè)音高Fv與參考音高Fr之間的差值D降至閾值Dthi以下。因此,元音的觀測(cè)音高Fv的變動(dòng)(除音素相關(guān)變動(dòng)之外的變動(dòng))未被反映在音高過(guò)渡C中。
[0039]圖2所示的變動(dòng)添加單元36通過(guò)將由變動(dòng)產(chǎn)生單元34(變動(dòng)分析單元44)根據(jù)上述過(guò)程產(chǎn)生的變動(dòng)分量A添加至基礎(chǔ)過(guò)渡B來(lái)產(chǎn)生音高過(guò)渡C。具體地,根據(jù)第一實(shí)施例的變動(dòng)添加單元36從基礎(chǔ)過(guò)渡B中減去變動(dòng)分量A,從而產(chǎn)生音高過(guò)渡C(C = B-A)。在圖3中,同時(shí)用虛線表示在為方便起見(jiàn)而將基礎(chǔ)過(guò)渡B假設(shè)為參考音高Fr時(shí)獲得的音高過(guò)渡C。如同根據(jù)圖3理解的那樣,在音素[n]、[a]和[O]的各區(qū)段的大部分中,參考音高Fr與觀測(cè)音高Fv之間的差值D降至閾值Dthi以下,因此在音高過(guò)渡C中,觀測(cè)音高Fv的變動(dòng)(即,錯(cuò)誤變動(dòng))得到充分抑制。另一方面,在音素[B]和[D]的各區(qū)段的大部分中,差值D超過(guò)閾值DTH2,因此觀測(cè)音高Fv的變動(dòng)(即,音素相關(guān)變動(dòng))也在音高過(guò)渡C中如實(shí)保持。如同根據(jù)以上描述理解的那樣,根據(jù)第一實(shí)施例的音高設(shè)置單元24設(shè)置音高過(guò)渡C,使得與差值D是第一范圍R1內(nèi)的數(shù)值時(shí)相比,語(yǔ)音片段P的觀測(cè)音高Fv的變動(dòng)所反映的音級(jí)在差值D是第二范圍1?2內(nèi)的數(shù)值時(shí)變得更大。
[0040]圖5是變動(dòng)分析單元44的操作的流程圖。每當(dāng)音高分析單元42對(duì)由片段選擇單元22順序地選擇的每個(gè)語(yǔ)音片段P的觀測(cè)音高Fv進(jìn)行識(shí)別時(shí),執(zhí)行圖5所示的過(guò)程。當(dāng)圖5所示的過(guò)程開(kāi)始時(shí),變動(dòng)分析單元44計(jì)算存儲(chǔ)在存儲(chǔ)裝置14中的參考音高Fr與由音高分析單元42識(shí)別的觀測(cè)音高Fv之間的差值D(SI)。
[0041]變動(dòng)分析單元44設(shè)置對(duì)應(yīng)于差值D的調(diào)整值a(S2)。具體地,在存儲(chǔ)裝置14中存儲(chǔ)參照?qǐng)D4描述的用于表不差值D與調(diào)整值a之間的關(guān)系的函數(shù)(諸如閾值Dthi和閾值Dth2之類的變量),并且變動(dòng)分析單元44使用存儲(chǔ)在存儲(chǔ)裝置14中的函數(shù)來(lái)設(shè)置對(duì)應(yīng)于差值D的調(diào)整值a。然后,變動(dòng)分析單元44將差值D乘以調(diào)整值a,從而產(chǎn)生變動(dòng)分量A(S3)。
[0042]如上所述,在第一實(shí)施例中,設(shè)置音高過(guò)渡C,在所述音高過(guò)渡C中利用與參考音高Fr和觀測(cè)音高Fv之間的差值D相對(duì)應(yīng)的音級(jí)來(lái)反映觀測(cè)音高Fv的變動(dòng),因而可產(chǎn)生如實(shí)重現(xiàn)參考聲音的音素相關(guān)變動(dòng)的音高過(guò)渡,同時(shí)減少了合成的聲音會(huì)被感知為走調(diào)的擔(dān)憂。特別地,第一實(shí)施例的有利之處在于:由于將變動(dòng)分量A添加至與通過(guò)合成信息S在時(shí)間序列中指定的音高X1相對(duì)應(yīng)的基礎(chǔ)過(guò)渡B,因此可在保持目標(biāo)歌曲的旋律的同時(shí)重現(xiàn)音素相關(guān)變動(dòng)。
[0043]此外,第一實(shí)施例實(shí)現(xiàn)了以下顯著效果:可通過(guò)諸如將要應(yīng)用于調(diào)整值a的設(shè)置的差值D乘以調(diào)整值a之類的簡(jiǎn)單過(guò)程,來(lái)產(chǎn)生變動(dòng)分量A。特別地,在第一實(shí)施例中,設(shè)置調(diào)整值a,以使其在差值D在第一范圍R1內(nèi)時(shí)變?yōu)樽钚≈礝,使其在差值D在第二范圍R2內(nèi)時(shí)變?yōu)樽畲笾礗,并且使其在差值D在第一范圍與第二范圍之間的第三范圍R3內(nèi)時(shí)變?yōu)楦鶕?jù)差值D而變動(dòng)的數(shù)值,因此與例如將包括指數(shù)函數(shù)的多種函數(shù)應(yīng)用于調(diào)整值a的設(shè)置的配置相比,上文提及的效果為變動(dòng)分量A的產(chǎn)生過(guò)程變得更為簡(jiǎn)單。
[0044]〈第二實(shí)施例〉
[0045]將描述本發(fā)明的第二實(shí)施例。注意的是,在下文示出的每個(gè)實(shí)施例中,具有與第一實(shí)施例中的組件的行為或功能相同的行為或功能的組件同樣用第一實(shí)施例的描述所用的附圖標(biāo)記表示,并且適當(dāng)?shù)厥÷粤讼鄳?yīng)組件的詳細(xì)描述。
[0046]圖6是根據(jù)第二實(shí)施例的音高設(shè)置單元24的框圖。如圖6所示,通過(guò)將平滑處理單元45添加至根據(jù)第一實(shí)施例的變動(dòng)產(chǎn)生單元34來(lái)配置根據(jù)第二實(shí)施例的音高設(shè)置單元24。平滑處理單元46在時(shí)間軸上對(duì)變動(dòng)分析單元44所產(chǎn)生的變動(dòng)分量A進(jìn)行平滑化。可采用任何已知技術(shù)來(lái)對(duì)變動(dòng)分量A進(jìn)行平滑化(抑制暫時(shí)性變動(dòng))。另一方面,變動(dòng)添加單元36通過(guò)將已被平滑處理單元46平滑化的變動(dòng)分量A添加至基礎(chǔ)過(guò)渡B來(lái)產(chǎn)生音高過(guò)渡C。
[0047]在圖7中,假設(shè)與圖3所示的音素相同的音素的時(shí)間序列,并且以虛線表示每個(gè)語(yǔ)音片段P的觀測(cè)音高Fv被根據(jù)第一實(shí)施例的變動(dòng)分量A校正的音級(jí)(校正量)的時(shí)間變化。換言之,圖7的縱軸所表示的校正量對(duì)應(yīng)于參考聲音的觀測(cè)音高Fv與在基礎(chǔ)過(guò)渡B保持在參考音高Fr時(shí)獲得的音高過(guò)渡C之間的差值。因此,如圖3與圖7的對(duì)比中的理解,在被估計(jì)為展現(xiàn)錯(cuò)誤變動(dòng)的音素[n]、[a]和[O]的區(qū)段中校正量增加,而在被估計(jì)為展現(xiàn)音素相關(guān)變動(dòng)的音素[B]和[D]的區(qū)段中校正量被抑制到接近O。
[0048]如圖7所示,在第一實(shí)施例的配置中,校正量會(huì)緊隨每個(gè)音素的起始點(diǎn)之后急劇變動(dòng),這會(huì)使人擔(dān)心重現(xiàn)聲音信號(hào)V的合成的聲音可能被感知為帶給聽(tīng)眾不自然的感覺(jué)。另一方面,圖7的實(shí)線對(duì)應(yīng)于根據(jù)第二實(shí)施例的校正量的時(shí)間變化。如根據(jù)圖7的理解,在第二實(shí)施例中,平滑處理單元46對(duì)變動(dòng)分量A進(jìn)行平滑化,從而與第一實(shí)施例相比更大程度地抑制了音高過(guò)渡C的驟然變動(dòng)。這帶來(lái)了以下優(yōu)點(diǎn):減少了合成的聲音可能被感知為帶給聽(tīng)眾不自然的感覺(jué)的擔(dān)憂。
[0049]〈第三實(shí)施例〉
[0050]圖8是用于示出根據(jù)本發(fā)明第三實(shí)施例的差值D與調(diào)整值α之間的關(guān)系的曲線圖。如圖8中的箭頭所示,根據(jù)第三實(shí)施例的變動(dòng)分析單元可變地對(duì)確定差值D的范圍的閾值Dthi和閾值Dth2進(jìn)行設(shè)置。如同根據(jù)第一實(shí)施例的描述理解的那樣,調(diào)整值α可能會(huì)隨著閾值Dth1和閾值Dth2變小而被設(shè)置為更大的數(shù)值(例如,最大值I),從而使語(yǔ)音片段P的觀測(cè)音高Fv的變動(dòng)(音素相關(guān)變動(dòng))變得更有可能被反映在音高過(guò)渡C中。另一方面,調(diào)整值α可能會(huì)隨著閾值Dthi和閾值Dth2變大而被設(shè)置為更小的數(shù)值(例如,最小值O),從而使語(yǔ)音片段P的觀測(cè)音高Fv的變動(dòng)變得更不可能被反映在音高過(guò)渡C中。
[0051]順便提及,取決于音素類型,被聽(tīng)眾感知為走調(diào)(五音不全)的音級(jí)存在差異。例如,存在這樣的趨勢(shì):只要當(dāng)音高相比于目標(biāo)歌曲的原始音高X1稍有差異時(shí),諸如音素[η]的發(fā)聲的輔音就會(huì)被感知為走調(diào);而即使當(dāng)音高相比于原始音高X1存在差異時(shí),諸如音素[V]、[ ζ ]和[j ]的發(fā)聲的摩擦音幾乎不會(huì)被感知為走調(diào)。
[0052]考慮到聽(tīng)眾感知特性取決于音素類型的差異,根據(jù)第三實(shí)施例的變動(dòng)分析單元44依據(jù)由片段選擇單元22順序地選擇的語(yǔ)音片段P的每個(gè)音素的類型,可變地設(shè)置差值D與調(diào)整值α之間的關(guān)系(具體地,閾值Dth1和閾值DTH2)。具體地,就傾向于被感知為走調(diào)的那類音素(例如,[η])而言,通過(guò)將閾值Dth1和閾值Dth2設(shè)置為較大的數(shù)值,使在音高過(guò)渡C中觀測(cè)音高Fv的變動(dòng)(錯(cuò)誤變動(dòng))所反映的音級(jí)減小。同時(shí),就傾向于很難被感知為走調(diào)的那類音素(例如,[v]、[z]或[j])而言,通過(guò)將閾值Dth1和閾值Dth2設(shè)置為較小的數(shù)值,使在音高過(guò)渡C中觀測(cè)音高Fv的變動(dòng)(音素相關(guān)變動(dòng))所反映的音級(jí)增加??赏ㄟ^(guò)變動(dòng)分析單元44參照例如被添加至語(yǔ)音片段組L的每個(gè)語(yǔ)音片段P的屬性信息(用于指定每個(gè)音素的類型的信息)來(lái)識(shí)別形成語(yǔ)音片段P的每個(gè)音素的類型。
[0053]另外,在第三實(shí)施例中,實(shí)現(xiàn)了與第一實(shí)施例相同的效果。此外,在第三實(shí)施例中,可變地控制差值D與調(diào)整值α之間的關(guān)系,這帶來(lái)了以下優(yōu)點(diǎn):在音高過(guò)渡C中反映每個(gè)語(yǔ)音片段P的觀測(cè)音高Fv的變動(dòng)的音級(jí)可以被適當(dāng)?shù)卣{(diào)整。此外,在第三實(shí)施例中,根據(jù)語(yǔ)音片段P的每個(gè)音素的類型來(lái)控制差值D與調(diào)整值α之間的關(guān)系,因而可如實(shí)重現(xiàn)參考聲音的音素相關(guān)變動(dòng),同時(shí)顯著減少了被合成的聲音會(huì)被感知為走調(diào)的擔(dān)憂。注意的是,第二實(shí)施例的配置可應(yīng)用于第三實(shí)施例。
[0054]〈修改例〉
[0055]可按各種不同的方式修改以上示出的每個(gè)實(shí)施例。下面示出了具體修改的各個(gè)實(shí)施例。還可以適當(dāng)?shù)亟M合從下面的示例中任意選擇的至少兩個(gè)實(shí)施例。
[0056](I)在上述每個(gè)實(shí)施例中,示出了音高分析單元42對(duì)每個(gè)語(yǔ)音片段P的觀測(cè)音高Fv進(jìn)行識(shí)別的配置,但是觀測(cè)音高Fv可針對(duì)每個(gè)語(yǔ)音片段P預(yù)先存儲(chǔ)在存儲(chǔ)裝置14中。在觀測(cè)音高Fv存儲(chǔ)在存儲(chǔ)裝置14的配置中,可省略上述每個(gè)實(shí)施例中示出的音高分析單元42。
[0057](2)在上述每個(gè)實(shí)施例中,示出了調(diào)整值α根據(jù)差值D以直線變動(dòng),但是差值D與調(diào)整值α之間的關(guān)系可以任意設(shè)置。例如,可采用調(diào)整值α相對(duì)于差值D以曲線變動(dòng)的配置??梢匀我飧淖冋{(diào)整值α的最大值和最小值。此外,在第三實(shí)施例中,可根據(jù)語(yǔ)音片段P的音素類型來(lái)控制差值D與調(diào)整值α之間的關(guān)系,但是變動(dòng)分析單元44可基于例如用戶給出的指令來(lái)改變差值D與調(diào)整值α之間的關(guān)系。
[0058](3)還可利用用于通過(guò)通信網(wǎng)絡(luò)(例如移動(dòng)通信網(wǎng)絡(luò)或互聯(lián)網(wǎng))向/從終端裝置通信的服務(wù)器裝置來(lái)實(shí)現(xiàn)聲音合成裝置100。具體地,從終端裝置通過(guò)通信網(wǎng)絡(luò)接收的聲音合成信息S按照與第一實(shí)施例相同的方式指定合成的聲音,聲音合成裝置100產(chǎn)生該合成的聲音的聲音信號(hào)V,并將聲音信號(hào)V通過(guò)通信網(wǎng)絡(luò)發(fā)送至終端裝置。此外,例如,可采用以下配置:語(yǔ)音片段組L被存儲(chǔ)在與聲音合成裝置100分離提供的服務(wù)器裝置中,并且聲音合成裝置100從服務(wù)器裝置獲取對(duì)應(yīng)于合成信息S內(nèi)的聲產(chǎn)生細(xì)節(jié)X3的每個(gè)語(yǔ)音片段P。換言之,聲音合成裝置100持有語(yǔ)音片段組L的配置并不是必要的。
[0059]注意的是,根據(jù)本發(fā)明優(yōu)選模式的聲音合成裝置是被配置為通過(guò)提取自參考聲音的語(yǔ)音片段的連接而產(chǎn)生聲音信號(hào)的聲音合成裝置,所述聲音合成裝置包括:片段選擇單元,其被配置為順序地選擇所述語(yǔ)音片段;音高設(shè)置單元,其被配置為設(shè)置音高過(guò)渡,在所述音高過(guò)渡中,根據(jù)與作為所述參考聲音的聲產(chǎn)生參考的參考音高和所述片段選擇單元所選擇的語(yǔ)音片段的觀測(cè)音高之間的差值相對(duì)應(yīng)的音級(jí),來(lái)反映所述語(yǔ)音片段的觀測(cè)音高的變動(dòng);以及聲音合成單元,其被配置為通過(guò)根據(jù)所述音高設(shè)置單元所產(chǎn)生的音高過(guò)渡而調(diào)整所述片段選擇單元所選擇的語(yǔ)音片段的音高,來(lái)產(chǎn)生所述聲音信號(hào)。在上述配置中,設(shè)置這樣的音高轉(zhuǎn)換:在其中利用與參考音高和語(yǔ)音片段的觀測(cè)音高之間的差值相對(duì)應(yīng)的音級(jí)來(lái)反映語(yǔ)音片段的觀測(cè)音高的變動(dòng),所述參考音高為參考聲音的聲產(chǎn)生的參考。例如,音高設(shè)置單元設(shè)置所述音高過(guò)渡,以使得與所述差值為特定數(shù)值的情況相比,在所述音高過(guò)渡中所述語(yǔ)音片段的觀測(cè)音高的變動(dòng)所反映的音級(jí)在所述差值超過(guò)所述特定數(shù)值時(shí)變大。這帶來(lái)了以下優(yōu)點(diǎn):能夠產(chǎn)生重現(xiàn)音素相關(guān)變動(dòng)的音高過(guò)渡,同時(shí)減少了對(duì)被聽(tīng)眾感知為走調(diào)(即,五音不全)的擔(dān)憂。
[0060]在本發(fā)明的優(yōu)選模式中,音高設(shè)置單元包括:基礎(chǔ)過(guò)渡設(shè)置單元,其被配置為設(shè)置基礎(chǔ)過(guò)渡,所述基礎(chǔ)過(guò)渡對(duì)應(yīng)于待合成的目標(biāo)的音高的時(shí)間序列;變動(dòng)產(chǎn)生單元,其被配置為通過(guò)將參考音高與觀測(cè)音高之間的差值乘以與參考音高與所述觀測(cè)音高之間的差值相對(duì)應(yīng)的調(diào)整值,來(lái)產(chǎn)生變動(dòng)分量;以及變動(dòng)添加單元,其被配置為將所述變動(dòng)分量添加至所述基礎(chǔ)過(guò)渡。在上述模式中,通過(guò)將所述差值乘以與參考音高和觀測(cè)音高之間的差值相對(duì)應(yīng)的調(diào)整值而獲得的變動(dòng)分量被添加至與待合成的目標(biāo)的音高的時(shí)間序列相對(duì)應(yīng)的基礎(chǔ)過(guò)渡,這帶來(lái)了以下優(yōu)點(diǎn):可在保持待合成目標(biāo)的音高過(guò)渡(例如,歌曲的旋律)的同時(shí)重現(xiàn)音素相關(guān)變動(dòng)。
[0061]在本發(fā)明的優(yōu)選模式中,變動(dòng)產(chǎn)生單元設(shè)置調(diào)整量,以使其在所述差值為降至第一閾值以下的第一范圍內(nèi)的數(shù)值時(shí)成為最小值,使其在所述差值為超過(guò)第二閾值(其大于第一閾值)的第二范圍內(nèi)的數(shù)值時(shí)成為最大值,并且使其在所述差值為處于第一閾值與第二閾值之間的數(shù)值時(shí)成為根據(jù)不同的差值而在最小值與最大值之間的范圍內(nèi)變動(dòng)的數(shù)值。在上述模式中,以簡(jiǎn)單的方式定義差值與調(diào)整值之間的關(guān)系,這帶來(lái)了使調(diào)整值的設(shè)置(即,變動(dòng)分量的產(chǎn)生)簡(jiǎn)化的優(yōu)點(diǎn)。
[0062]在本發(fā)明的優(yōu)選模式中,變動(dòng)產(chǎn)生單元包括被配置為對(duì)變動(dòng)分量進(jìn)行平滑化的平滑處理單元,并且變動(dòng)添加單元將已平滑化的變動(dòng)分量添加至基礎(chǔ)過(guò)渡。在上述模式中,對(duì)變動(dòng)分量進(jìn)行平滑化,從而合成的聲音的音高的驟然變動(dòng)被抑制。這帶來(lái)了以下優(yōu)點(diǎn):可產(chǎn)生帶給聽(tīng)眾自然感覺(jué)的合成的聲音。例如,上述模式的具體示例在上文中被描述為第二實(shí)施例。
[0063]在本發(fā)明的優(yōu)選模式中,變動(dòng)產(chǎn)生單元可變地控制差值與調(diào)整值之間的關(guān)系。具體地,變動(dòng)產(chǎn)生單元根據(jù)片段選擇單元所選擇的語(yǔ)音片段的音素類型來(lái)控制差值與調(diào)整值之間的關(guān)系。上述模式帶來(lái)了以下優(yōu)點(diǎn):可以適當(dāng)?shù)卣{(diào)整在音高過(guò)渡中反映各語(yǔ)音片段的觀測(cè)音高的變動(dòng)的音級(jí)。例如,上述模式的具體示例在上文中被描述為第三實(shí)施例。
[0064]根據(jù)上述每個(gè)實(shí)施例的聲音合成裝置通過(guò)諸如數(shù)字信號(hào)處理器(DSP)的硬件(電子電路)實(shí)現(xiàn),并且還可以以通用處理器單元(例如中央處單元(CPU))與程序合作的方式實(shí)現(xiàn)。根據(jù)本發(fā)明的程序可通過(guò)以存儲(chǔ)在計(jì)算機(jī)可讀記錄介質(zhì)中的形式提供而安裝在計(jì)算機(jī)上。例如,所述記錄介質(zhì)為非暫時(shí)性存儲(chǔ)器,其優(yōu)選示例包括諸如CD-ROM的光學(xué)記錄介質(zhì)(光盤),并且可包含任意格式的已知記錄介質(zhì),例如半導(dǎo)體記錄介質(zhì)或磁性記錄介質(zhì)。例如,根據(jù)本發(fā)明的程序可通過(guò)以在通信網(wǎng)絡(luò)上分布的形式提供而安裝在計(jì)算機(jī)上。此外,本發(fā)明還可被定義為根據(jù)上述每個(gè)實(shí)施例的聲音合成裝置的操作方法(聲音合成方法)。
[0065]雖然已經(jīng)描述了當(dāng)前被視為本發(fā)明特定實(shí)施例的內(nèi)容,但是應(yīng)當(dāng)理解,可對(duì)其進(jìn)行各種不同的修改,并且其意圖在于,所附權(quán)利要求將所有這樣的修改覆蓋為落入本發(fā)明的真實(shí)精神和范圍內(nèi)。
【主權(quán)項(xiàng)】
1.一種聲音合成方法,其用于通過(guò)提取自參考聲音的語(yǔ)音片段的連接而產(chǎn)生聲音信號(hào),所述聲音合成方法包括: 由片段選擇單元順序地選擇所述語(yǔ)音片段; 由音高設(shè)置單元設(shè)置音高過(guò)渡,在所述音高過(guò)渡中,根據(jù)與作為所述參考聲音的聲產(chǎn)生參考的參考音高和所述片段選擇單元所選擇的語(yǔ)音片段的觀測(cè)音高之間的差值相對(duì)應(yīng)的音級(jí),來(lái)反映所述語(yǔ)音片段的觀測(cè)音高的變動(dòng);以及 由聲音合成單元通過(guò)根據(jù)所述音高設(shè)置單元所產(chǎn)生的音高過(guò)渡而調(diào)整所述片段選擇單元所選擇的語(yǔ)音片段的音高,來(lái)產(chǎn)生所述聲音信號(hào)。2.根據(jù)權(quán)利要求1所述的聲音合成方法,其中,所述音高過(guò)渡的設(shè)置包括:對(duì)所述音高過(guò)渡進(jìn)行設(shè)置,使得與所述差值為特定數(shù)值的情況相比,在所述音高過(guò)渡中所述語(yǔ)音片段的觀測(cè)音高的變動(dòng)所反映的音級(jí)在所述差值超過(guò)所述特定數(shù)值時(shí)變大。3.根據(jù)權(quán)利要求1所述的聲音合成方法,其中,所述音高過(guò)渡的設(shè)置包括: 由基礎(chǔ)過(guò)渡設(shè)置單元設(shè)置基礎(chǔ)過(guò)渡,所述基礎(chǔ)過(guò)渡對(duì)應(yīng)于待合成的目標(biāo)的音高的時(shí)間序列; 由變動(dòng)產(chǎn)生單元通過(guò)將所述參考音高與所述觀測(cè)音高之間的差值和與所述參考音高與所述觀測(cè)音高之間的差值相對(duì)應(yīng)的調(diào)整值相乘,來(lái)產(chǎn)生變動(dòng)分量;以及 由變動(dòng)添加單元將所述變動(dòng)分量添加至所述基礎(chǔ)過(guò)渡。4.根據(jù)權(quán)利要求3所述的聲音合成方法,其中,所述變動(dòng)分量的產(chǎn)生包括:當(dāng)所述差值為低于第一閾值的第一范圍內(nèi)的數(shù)值時(shí),對(duì)所述調(diào)整值進(jìn)行設(shè)置以使其成為最小值;當(dāng)所述差值為超過(guò)比所述第一閾值更大的第二閾值的第二范圍內(nèi)的數(shù)值時(shí),對(duì)所述調(diào)整值進(jìn)行設(shè)置以使其成為最大值;以及當(dāng)所述差值為所述第一閾值與所述第二閾值之間的數(shù)值時(shí),對(duì)所述調(diào)整值進(jìn)行設(shè)置,以使其成為根據(jù)所述最小值與所述最大值之間的范圍內(nèi)的差值而變動(dòng)的數(shù)值。5.根據(jù)權(quán)利要求3所述的聲音合成方法,其中: 所述變動(dòng)分量的產(chǎn)生包括:由平滑處理單元對(duì)所述變動(dòng)分量進(jìn)行平滑化;并且 所述變動(dòng)分量的添加包括:將已平滑化的變動(dòng)分量添加至所述基礎(chǔ)過(guò)渡。6.一種聲音合成裝置,其被配置為通過(guò)提取自參考聲音的語(yǔ)音片段的連接而產(chǎn)生聲音信號(hào),所述聲音合成裝置包括: 片段選擇單元,其被配置為順序地選擇所述語(yǔ)音片段; 音高設(shè)置單元,其被配置為設(shè)置音高過(guò)渡,在所述音高過(guò)渡中,根據(jù)與作為所述參考聲音的聲產(chǎn)生參考的參考音高和所述片段選擇單元所選擇的語(yǔ)音片段的觀測(cè)音高之間的差值相對(duì)應(yīng)的音級(jí),來(lái)反映所述語(yǔ)音片段的觀測(cè)音高的變動(dòng);以及 聲音合成單元,其被配置為通過(guò)根據(jù)所述音高設(shè)置單元所產(chǎn)生的音高過(guò)渡而調(diào)整所述片段選擇單元所選擇的語(yǔ)音片段的音高,來(lái)產(chǎn)生所述聲音信號(hào)。7.根據(jù)權(quán)利要求6所述的聲音合成裝置,其中,所述音高設(shè)置單元還被配置為:對(duì)所述音高過(guò)渡進(jìn)行設(shè)置,使得與所述差值為特定數(shù)值的情況相比,在所述音高過(guò)渡中所述語(yǔ)音片段的觀測(cè)音高的變動(dòng)所反映的音級(jí)在所述差值超過(guò)所述特定數(shù)值時(shí)變大。8.根據(jù)權(quán)利要求6所述的聲音合成裝置,其中,所述音高設(shè)置單元包括: 基礎(chǔ)過(guò)渡設(shè)置單元,其被配置為設(shè)置基礎(chǔ)過(guò)渡,所述基礎(chǔ)過(guò)渡對(duì)應(yīng)于待合成的目標(biāo)的首尚的時(shí)間序列; 變動(dòng)產(chǎn)生單元,其被配置為通過(guò)將所述參考音高與所述觀測(cè)音高之間的差值和與所述參考音高與所述觀測(cè)音高之間的差值相對(duì)應(yīng)的調(diào)整值相乘,來(lái)產(chǎn)生變動(dòng)分量;以及 變動(dòng)添加單元,其被配置為將所述變動(dòng)分量添加至所述基礎(chǔ)過(guò)渡。9.根據(jù)權(quán)利要求8所述的聲音合成裝置,其中,所述變動(dòng)產(chǎn)生單元還被配置為:當(dāng)所述差值為低于第一閾值的第一范圍內(nèi)的數(shù)值時(shí),將所述調(diào)整值設(shè)置為最小值;當(dāng)所述差值為超過(guò)比所述第一閾值更大的第二閾值的第二范圍內(nèi)的數(shù)值時(shí),將所述調(diào)整值設(shè)置為最大值;以及當(dāng)所述差值為處于所述第一閾值與所述第二閾值之間的數(shù)值時(shí),將所述調(diào)整值設(shè)置為根據(jù)所述最小值與所述最大值之間的范圍內(nèi)的差值而變動(dòng)的數(shù)值。10.根據(jù)權(quán)利要求8所述的聲音合成裝置,其中: 所述變動(dòng)產(chǎn)生單元包括平滑處理單元,該平滑處理單元被配置為對(duì)所述變動(dòng)分量進(jìn)行平滑化;并且 所述變動(dòng)添加單元還被配置為將已平滑化的變動(dòng)分量添加至所述基礎(chǔ)過(guò)渡。11.一種存儲(chǔ)聲音合成程序的非暫時(shí)性計(jì)算機(jī)可讀記錄介質(zhì),所述聲音合成程序用于通過(guò)提取自參考聲音的語(yǔ)音片段的連接而產(chǎn)生聲音信號(hào),所述程序使得計(jì)算機(jī)充當(dāng): 片段選擇單元,其被配置為順序地選擇所述語(yǔ)音片段; 音高設(shè)置單元,其被配置為設(shè)置音高過(guò)渡,在所述音高過(guò)渡中,根據(jù)與作為所述參考聲音的聲產(chǎn)生參考的參考音高和所述片段選擇單元所選擇的語(yǔ)音片段的觀測(cè)音高之間的差值相對(duì)應(yīng)的音級(jí),來(lái)反映所述語(yǔ)音片段的觀測(cè)音高的變動(dòng);以及 聲音合成單元,其被配置為通過(guò)根據(jù)所述音高設(shè)置單元所產(chǎn)生的音高過(guò)渡而調(diào)整所述片段選擇單元所選擇的語(yǔ)音片段的音高,來(lái)產(chǎn)生所述聲音信號(hào)。
【文檔編號(hào)】G10L13/02GK105957515SQ201610124952
【公開(kāi)日】2016年9月21日
【申請(qǐng)日】2016年3月4日
【發(fā)明人】才野慶二郎, 若爾迪·博納達(dá), 梅利因·布洛烏
【申請(qǐng)人】雅馬哈株式會(huì)社