一種聲氣信號分離與合成的方法及系統(tǒng)的制作方法

文檔序號：9912692閱讀：668來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種聲氣信號分離與合成的方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信號處理領(lǐng)域，尤其是一種聲氣信號分離與合成的方法及系統(tǒng)。
【背景技術(shù)】
[0002]語音是語言的聲學(xué)表現(xiàn)，是人類交流信息最自然、最有效、最方便的手段，也是人類進(jìn)行思維的一種依托。人類開始進(jìn)入了信息化時代，用現(xiàn)代手段研究語音處理技術(shù)，使人們能更加有效地產(chǎn)生、傳輸、存儲和獲取語音信息，這對于促進(jìn)社會的發(fā)展具有十分重要的意義。最近幾十年，對語音的研究使科學(xué)家和工程師們走到一起，從而形成了一門重要的學(xué)科:語音信號處理。語音信號處理技術(shù)簡稱語音處理，它與語言學(xué)、語音學(xué)、心理學(xué)、聲學(xué)、計(jì)算機(jī)學(xué)以及人工智能等學(xué)科都有著緊密的聯(lián)系，極大地推動了社會的科技進(jìn)步，我們可以用自動語音識別技術(shù)，使手寫文稿和手工打印文本變成自動聽寫機(jī)操作;把人工查閱各種書面文字資料的操作變?yōu)榭诤糇詣硬殚喐鞣N各樣的數(shù)據(jù)庫;可以采用語音合成技術(shù)，將存儲的語音或文字資料轉(zhuǎn)化為語音高質(zhì)量的回放，甚至自動翻譯成另一種語言的語音回放或進(jìn)行文字顯示。總而言之，語音信號處理技術(shù)的研究對于信息化社會的發(fā)展具有極其重要的意義。
[0003]然而，目前對人聲的語音信號處理技術(shù)大多只能根據(jù)基頻與共振峰的關(guān)系提取出聲帶與口腔共鳴發(fā)出的聲音信號，尚未能從人聲語音信號中提取出唇齒發(fā)出的氣音信號，無法單獨(dú)對聲音信號或氣音信號進(jìn)行修改等后續(xù)處理。

【發(fā)明內(nèi)容】

[0004]為解決上述問題，本發(fā)明的目的在于:提供一種能將聲音信號和氣音信號進(jìn)行分離的，聲氣信號分離與合成的方法。
[0005]本發(fā)明的另一目的在于:提供一種能將聲音信號和氣音信號進(jìn)行分離的，聲氣信號分離與合成的系統(tǒng)。
[0006]本發(fā)明所采取的技術(shù)方案是:
一種聲氣信號分離與合成的方法，包括:
A、將采樣的人聲語音信號由時域轉(zhuǎn)換到頻域，得到原始的頻譜圖；
B、根據(jù)原始的頻譜圖測定人聲語音信號的基頻；
C、在原始的頻譜圖上將與基頻成整數(shù)倍距離的位置標(biāo)記為峰值的位置，以兩峰之間的位置作為谷值的位置；
D、從原始的頻譜圖中分別將峰值的位置信息和谷值的位置信息提取出來，進(jìn)而得到峰值的位置信息對應(yīng)的聲音信息頻譜圖以及谷值的位置信息對應(yīng)的氣音信息頻譜圖；
E、分別對聲音信息頻譜圖中的聲音信息和氣音信息頻譜圖中的氣音信息進(jìn)行處理；
F、將處理后的聲音信息和處理后的氣音信息頻進(jìn)行合成，得到最終的人聲語音信號。
[0007]進(jìn)一步，所述步驟A，其具體為:
采用至少0.02322*a點(diǎn)的重疊加窗快速傅里葉變換對采樣的人聲語音信號進(jìn)行處理，得到原始的頻譜圖，其中，a為設(shè)定的采樣頻率。
[0008]進(jìn)一步，所述步驟B，其具體為:
通過分片段重疊加窗測定時域信號周期序列的方法，準(zhǔn)確測定出人聲語音信號的信號流在不同時間點(diǎn)的基頻，其中，片段的長度在快速傅里葉變換窗口長度的I到4倍的范圍內(nèi)，重疊加窗的間距小于等于快速傅里葉變換的窗間距。
[0009]進(jìn)一步，所述步驟D，其包括:
將峰值的位置信息從原始的頻譜圖中提取出來，進(jìn)而得到聲音信息頻譜圖；
將峰谷的位置的信息從原始的頻譜圖中提取出來，進(jìn)而得到聲音信息頻譜圖。
[0010]進(jìn)一步，所述將峰值的位置信息提取出來，得到聲音信息頻譜圖這一步驟，其包括:
D11、計(jì)算快速傅里葉變換結(jié)果中的理論峰值位置P，所述理論峰值位置P的計(jì)算公式為:p=2nz/a*m，其中，2n為快速傅里葉變換的點(diǎn)數(shù)，η和m均為正整數(shù)，z為快速傅里葉變換窗口對應(yīng)位置所測定的基頻，0〈p〈2n—1;
D12、判斷理論峰值位置P是否為整數(shù)，若是，則以理論峰值位置P對應(yīng)的信息作為提取出的聲音信息;反之，則采用四舍五入法或線性插值法進(jìn)行處理，得到提取出的聲音信息。
[0011]進(jìn)一步，所述步驟D12中采用四舍五入法或線性插值法進(jìn)行處理，得到提取出的聲音信息這一步驟，其具體為:
若采用四舍五入法，則對理論峰值位置P進(jìn)行四舍五入，然后以P四舍五入后的結(jié)果對應(yīng)的信息作為提取出的聲音信息；
若采用線性插值法，則提取出的聲音信息X的計(jì)算公式為:x=(l-(p-q))*fq+(p-q)*fp，其中，q為P向下取整的結(jié)果，fjPfP分別為快速傅里葉變換結(jié)果中位置q和位置P對應(yīng)的分量。
[0012]進(jìn)一步，所述將峰谷的位置的信息從原始的頻譜圖中提取出來，進(jìn)而得到聲音信息頻譜圖這一步驟，其包括:
D21、計(jì)算快速傅里葉變換結(jié)果中的理論谷值位置s，所述理論谷值位置s的計(jì)算公式為:s=2nz/a* (m-0.5)，其中，2n為快速傅里葉變換的點(diǎn)數(shù)，η和m均為正整數(shù)，z為快速傅里葉變換窗口對應(yīng)位置所測定的基頻，0<s<2n-1;
D22、判斷理論谷值位置s是否為整數(shù)，若是，則以理論谷值位置s對應(yīng)的信息作為提取出的氣音信息;反之，則采用四舍五入法或線性插值法進(jìn)行處理，得到提取出的氣音信息。
[0013]進(jìn)一步，所述步驟D22中采用四舍五入法或線性插值法進(jìn)行處理，得到提取出的氣音信息這一步驟，其具體為:
若采用四舍五入法，則對理論谷值位置s進(jìn)行四舍五入，然后以s四舍五入后的結(jié)果對應(yīng)的信息作為提取出的氣音信息；
若采用線性插值法’則提取出的氣音信息沾勺計(jì)算公式為:!^=!^-^-!.))*;^+^-!.)*;^，其中，r為S向下取整的結(jié)果，fdPfr分別為快速傅里葉變換結(jié)果中位置S和位置r對應(yīng)的分量。
[0014]進(jìn)一步，所述步驟D在將峰值的位置信息和谷值的位置信息提取出來得到兩張頻譜圖后，還需對這兩張頻譜圖分別執(zhí)行插值處理才能得到完整的聲音信息頻譜圖和氣音信息頻譜圖。
[0015]本發(fā)明所采取的另一技術(shù)方案是:
一種聲氣信號分離與合成的系統(tǒng)，包括:
轉(zhuǎn)換模塊，用于將采樣的人聲語音信號由時域轉(zhuǎn)換到頻域，得到原始的頻譜圖；
測定模塊，用于根據(jù)原始的頻譜圖測定人聲語音信號的基頻；
標(biāo)記模塊，用于在原始的頻譜圖上將與基頻成整數(shù)倍距離的位置標(biāo)記為峰值的位置，以兩峰之間的位置作為谷值的位置；
提取模塊，用于從原始的頻譜圖中分別將峰值的位置信息和谷值的位置信息提取出來，進(jìn)而得到峰值的位置信息對應(yīng)的聲音信息頻譜圖以及谷值的位置信息對應(yīng)的氣音信息頻譜圖；
單獨(dú)處理模塊，用于分別對聲音信息頻譜圖中的聲音信息和氣音信息頻譜圖中的氣音信息進(jìn)行處理；
合成模塊，用于將處理后的聲音信息和處理后的氣音信息頻進(jìn)行合成，得到最終的人聲語音信號；
所述轉(zhuǎn)換模塊的輸出端依次通過測定模塊、標(biāo)記模塊、提取模塊和單獨(dú)處理模塊進(jìn)而與合成模塊的輸入端連接。
[0016]本發(fā)明的方法的有益效果是:根據(jù)測定的基頻來確定波峰和波谷的位置，然后根據(jù)波峰和波谷的位置將聲音信號和氣音信號從人聲語言信號中分離出來，解決了現(xiàn)有技術(shù)只能提取聲音信號而未能從人聲語音信號中提取出唇齒發(fā)出的氣音信號的問題，能單獨(dú)對聲音信號或氣音信號進(jìn)行修改等后續(xù)處理;能將處理后的氣音信號和聲音信號重新合成正常的人聲語音信號，更加方便和全面。進(jìn)一步，在提取聲音信息頻譜圖以及氣音信息頻譜圖時，能根據(jù)效率或精度的要求選擇采用四舍五入法或線性插值法得到完整的頻譜圖，更加靈活。
[0017]本發(fā)明的系統(tǒng)的有益效果是:根據(jù)測定的基頻來確定波峰和波谷的位置，然后提取模塊根據(jù)波峰和波谷的位置將聲音信號和氣音信號從人聲語言信號中分離出來，解決了現(xiàn)有技術(shù)只能提取聲音信號而未能從人聲語音信號中提取出唇齒發(fā)出的氣音信號的問題，能單獨(dú)對聲音信號或氣音信號進(jìn)行修改等后續(xù)處理;合成模塊能將處理后的氣音信號和聲音信號重新合成正常的人聲語音信號，更加方便和全面。
【附圖說明】
[0018]圖1為本發(fā)明一種聲氣信號分離與合成的方法的整體流程圖；
圖2為本發(fā)明一種聲氣信號分離與合成的系統(tǒng)的結(jié)構(gòu)框圖；
圖3為本發(fā)明實(shí)施例一的整體流程圖。
【具體實(shí)施方式】
[0019]參照圖1，一種聲氣信號分離與合成的方法，包括:
A、將采樣的人聲語音信號由時域轉(zhuǎn)換到頻域，得到原始的頻譜圖；
B、根據(jù)原始的頻譜圖測定人

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3