基于時頻脊線-Hough變換的漢語聲調識別方法
【專利摘要】本發(fā)明將漢語聲調的識別問題轉換為時頻分布圖中線段的變化趨勢的分類問題,從而得到一種新的漢語聲調識別方法和技術。首先,將攜帶漢語聲調的韻母語音信號用SPWVD時頻分布圖來表示,聲調信息則體現(xiàn)在時頻圖中一組類似平行的時頻脊線上;其次,由于時頻主脊線是圖中能量較大的區(qū)域,且反映了不同聲調的變化趨勢,為減小計算量,對時頻分布圖進行二值化、閾值化、細化等處理后,得到反映聲調變化趨勢的時頻主脊線的中心線段;然后,對含有主脊線的中心線的時頻圖進行Hough變換,得到主脊線的中心線的截距和夾角參數(shù);最后,根據(jù)線段的截距和夾角以及線段的始末點坐標值來判斷聲調類型。
【專利說明】基于時頻脊線-Hough變換的漢語聲調識別方法
【技術領域】
[0001]本發(fā)明屬于語音合成與語音識別中的聲調識別【技術領域】。本發(fā)明把攜帶漢語聲調的韻母語音信號用一種時頻分布來表示,漢語的聲調信息則體現(xiàn)在時頻分布圖像中的脊線變化趨勢上,通過對時頻分布圖像進行二值化、閾值化、細化等預處理后得到反映聲調變化趨勢的線段,對這些線段進行Hough變換,根據(jù)Hough變換參數(shù)來識別漢語的聲調。
【背景技術】
[0002]漢語語音信號除具有語音信號非平穩(wěn)的共性外,它還呈現(xiàn)有聲調特征,聲調是漢語的主要屬性之一,具有構詞、辨義和提高表達效果等功能。漢語中的30%是同音不同調的,聲調是漢語語音分析處理不可回避的問題,聲調在漢語語音信號識別與合成的等起重要的作用,結合聲調特征的語音識別有助于提高語音的識別率;考慮聲調的語音合成可減少合成語音的機器味增強自然感。
[0003]漢語中的單個漢字都是單音節(jié),音節(jié)可以作為漢語語音分析的基本單元,而漢語的音節(jié)由聲母和韻母組成,聲調信息由韻母攜帶,漢語普通話是一種帶有聲調的語言,漢語聲調一般分成一聲(陰平)、二聲(陽平)、三聲(上聲)和四聲(去聲)四類。漢字的發(fā)音由韻母和聲母配合構成一個音節(jié),聲調由韻母發(fā)音部分攜帶,每一種聲調都呈現(xiàn)特定形狀的基音曲線,它反映正常重音音節(jié)的音高形式,具有曲拱特征。
[0004]目前提取聲調特征主要是時域方法和頻域方法。時域方法利用線性預測和自相關函數(shù)等提取基音頻率,頻域方法對線性預測殘差進行倒譜分析可獲得基頻的精準位置。時域方法運算量小,但抗噪性能差且易出現(xiàn)倍頻或半倍頻,以Hilbert — Huang變換和倒譜相結合的頻域方法運算復雜,且在提取基音的過程中,無論采用哪一種方法提取的基音頻率軌跡與真實的基音頻率軌跡都不可能完全吻合。此外,聲調特征提取后,一般都使用支持向量機、高斯混合模型、神經(jīng)網(wǎng)絡等分類器識別,需要訓練過程后才能識別是第幾聲調,算法復雜、運算時間長。
【發(fā)明內(nèi)容】
[0005](I)漢語韻母的最佳時頻表示
[0006]語音是典型的非平穩(wěn)信號,時頻分布是分析非平穩(wěn)信號分析的有力工具。魏格納-威力分布(Wigner-Ville Distribut1n, WVD)具有最好的時頻聚集性,但對于多分量信號存在交叉項,交叉性的存在干擾了信號的真實時頻分布。平滑的偽魏格納-威力分布(Smoothed Pseudo Wigner-Ville Distribut1n, SPWVD),通過在時域和頻域加窗函數(shù)平滑來抑制WVD的交叉項,兼顧了時頻聚集性和交叉項抑制。SPWVD定義為:
[0007]
SPWVD_(1/') = [ [ z{t -U + -)z\t -U- —)?ζ(ιι)?ι(τ)?Γ?~Τ?!dudr(I)
-'j, 2 2
[0008]式中g(u) , h( τ )是兩個實的偶窗函數(shù),且g(0) = h (O) = I。
[0009]漢語的聲調由韻母攜帶,即聲調信息反映在語音的濁音段上,本發(fā)明通過對攜帶聲調的韻母進行SPWVD,將韻母語音信號的瞬時頻率隨時間的變化過程在時頻面清晰地表現(xiàn)出來,在時頻圖中時頻脊線表示的是瞬時頻率隨的變化過程,是信號能量最集中的區(qū)域。SPffVD時頻脊線清晰地表現(xiàn)了不同聲調脊線隨時間的變化,同一韻母的不同聲調其時頻脊線沿時間軸的變化各不相同。聲母“ο”四個聲調的SPWVD如圖1所示。
[0010](2)時頻主脊線提取和細化預處理
[0011]由于漢語韻母屬于濁音發(fā)聲因而呈現(xiàn)諧波性,即在時頻圖中會出現(xiàn)一條或幾條時頻脊線,但這幾條時頻脊線的變化趨勢基本相同,對于聲調識別只需提取其中一條時頻主脊線即可。為此,需要對SPWVD時頻矩陣進行閾值化處理。由于SPWVD通過加時窗和頻窗對WVD進行平滑來抑制交叉項,導致其時頻聚集性變差,即時頻脊線變粗,此時提取出來的時頻脊線有一定的寬度,如果直接對SPWVD進行Hough變換,會增加運算時間,因此,需要對SPffVD圖像進行二值化、閾值化、細化進一步預處理,提取出時頻脊線的中心線。聲母“ο”四個聲調的SPWVD時頻脊線的中心線如圖⑵表示。
[0012](3)經(jīng)過Hough變換得到線段的參數(shù)空間
[0013]將提取的SPWVD時頻脊線的中心線進行Hough變換,得到反映線段截距和夾角參數(shù)以及線段起始和末端點的坐標值。Hough變換將被檢測圖像中的直線在參數(shù)空間里與直線參數(shù)對應的位置聚集形成尖峰,根據(jù)尖峰的個數(shù)和位置,從而得到圖像空間的直線及直線的參數(shù)。
[0014]Hough變換的基本思想是點-線對偶性,圖像變換前在圖像空間,變換后在參數(shù)空間。在圖像空間里,所有過點(x,y)的直線都滿足方程:
[0015]y = px+q(2)
[0016]其中ρ為斜率,q為截距,上述直線方程也可寫為:
[0017]q = -px+y(3)
[0018]它代表參數(shù)空間過點(p,q)的一條直線。在圖像空間的同一條直線上的兩個點(Xpy1)和(x2, y2)都滿足直線方程式(2),在參數(shù)空間里可寫成q =-pxJyJP q = _px2+y2,它們在參數(shù)空間是兩條不同的直線,但由于它們在圖像空間有相同的斜率和截距,所以,這兩條直線在參數(shù)空間的點(P,q)相交,如圖3(a)、(b)所示。由此可見,在圖像空間中共線的點對應在參數(shù)空間里相交的線,反過來,在參數(shù)空間相交于同一個點的所有直線在圖像空間都有共線的點與之對應。根據(jù)點-線對偶性,當給定圖像空間的一些邊緣點,就可通過Hough變換確定連接這些點的直線,Hough變換把在圖像空間中的直線檢測問題轉換到在參數(shù)空間里對點的檢測問題,通過對參數(shù)空間里相交的點進行累加統(tǒng)計,就可完成直線的檢測和參數(shù)估計任務。
[0019]為了避免當直線接近垂直和水平方向時,由于P和q的值接近無窮大而使計算量增大的問題,可將直線改用極坐標表示:
[0020]p = xcos^+ jsin^ = -Jx2 + v2 sin(沒 + arctan —)(4)
[0021]這里P代表直線距原點的法線距離,Θ為該法線與X軸正向的夾角,如圖4(a)所示。根據(jù)這個方程,原圖像空間的點對應著新的參數(shù)空間中的一條正弦曲線,即由笛卡兒坐標空間轉換到極坐標空間,Hough變換由原來的點-直線對偶變成了點-正弦曲線對偶,如圖4(b)所示。檢測在圖像空間中的直線需要在參數(shù)空間里檢測正弦曲線的交點,且直線的參數(shù)由法線距離P以及法線與X軸正向的夾角Θ表示。
[0022](4)根據(jù)Hough變換得到線段參數(shù)空間來識別聲調
[0023]根據(jù)法線距離P和法線與X軸正向的夾角Θ的值和相應直線的始末端點坐標來判斷聲調類型。根據(jù)Θ的值范圍輔以線段兩端點坐標,可以區(qū)分出四種聲調。當Θ值為正角度,或者末端的縱坐標大于始端的縱坐標則為二聲;當Θ值為負角度,或者末端的縱坐標小于始端的縱坐標則為四聲;若Θ的較小,幾乎為0,則為一聲;其他情況為三聲。
【專利附圖】
【附圖說明】
[0024]圖1是聲母“O”四個聲調下的SPWVD時頻分布圖,其中圖1(a)是一聲“O”的SPffVD時頻圖,圖1 (b)是二聲“ο”的SPWVD時頻圖,圖1 (c)是三聲“ο”的SPWVD時頻圖,圖1(d)是四聲“ο”的SPWVD時頻圖。
[0025]圖2對聲母“O”四個聲調的SPWVD閾值化和細化后提取的時頻脊線的中心線。
[0026]圖3 Hough變換的圖像空間到截距和斜率的參數(shù)空間表示說明示意圖。
[0027]圖4 Hough變換的圖像空間到法線距離和夾角的參數(shù)空間表示說明示意圖。
[0028]圖5本發(fā)明的總體框架說明
【具體實施方式】
[0029]步驟1:語音信號預處理和聲韻分割。對信號先進行濾波和預加重處理后,根據(jù)短時平均幅度差和過零率等進行端點檢測去除語音的無聲段,然后進行聲韻分割找到攜帶聲調的韻母部分。
[0030]步驟2:作出韻母的SPWVD時頻分布圖。用SPWVD對韻母信號進行時頻變換得到SPWVD時頻圖像。時頻脊線是時頻圖像中能量較大的區(qū)域,不同聲調的時頻脊沿時間軸的變化各不相同。由于韻母具有很強的諧波性,所以在時頻圖中會同時出現(xiàn)幾條時頻脊線。
[0031]步驟3:對時頻分布圖像進行二值化、閾值化和細化處理,得到時頻主脊線。通過對SPWVD時頻圖像進行二值化、閾值化處理提取一條主時頻脊線。此時提取出來的圖像脊線,有一定的寬度,還需要用bwmorph函數(shù)進行細化處理,得到主脊線的中心線。
[0032]步驟4:對含有主脊線的中心線的時頻圖像進行Hough變換,得到主脊線的中心線這些線段,并得到該線段的截距和夾角參數(shù),即由P和Θ組成的Hough矩陣。在某個閾值下搜索Hough矩陣返回大于或等于該閾值處的P和Θ的值,同時保存相應直線的始末端點坐標值。
[0033]步驟5:根據(jù)P和Θ的值和相應直線的始末端點坐標值來判斷聲調得類型。根據(jù)提取Θ的值范圍輔以線段兩端點坐標值,可以區(qū)分出四種聲調。當Θ值為正角度,或者末端的縱坐標大于始端的縱坐標則為二聲;當Θ值為負角度,或者末端的縱坐標小于始端的縱坐標則為四聲;若Θ的較小,幾乎為0,則為一聲;其他情況為三聲。
【權利要求】
1.基于時頻脊線-Hough變換的漢語聲調識別方法,其特征是: 把攜帶漢語聲調的韻母語音信號用種時頻分布來表示,則漢語的聲調信息則體現(xiàn)在時頻分布圖像中的脊線變化趨勢上,通過對時頻分布圖像進行二值化、閾值化、細化等預處理后得到反映聲調變化趨勢的線段,對這些線段進行Hough變換,根據(jù)Hough變換參數(shù)來識別漢語的聲調。
2.如權利要求1所述的基于時頻脊線-Hough變換的漢語聲調識別方法,其特征是:通過對攜帶聲調的韻母進行SPWVD,將韻母語音信號的瞬時頻率隨時間的變化過程在時頻面清晰地表現(xiàn)出來。 語音是典型的非平穩(wěn)信號,時頻分布是分析非平穩(wěn)信號分析的有力工具。魏格納-威力分布(Wigner-Ville Distribut1n, WVD)具有最好的時頻聚集性,但對于多分量信號存在交叉項,交叉性的存在干擾了信號的真實時頻分布。平滑的偽魏格納-威力分布(Smoothed Pseudo Wigner-Ville Distribut1n, SPWVD),通過在時域和頻域加窗函數(shù)平滑來抑制WVD的交叉項,兼顧了時頻聚集性和交叉項抑制。 漢語的聲調由韻母攜帶,即聲調信息反映在語音的濁音段上,本發(fā)明通過對攜帶聲調的韻母進行SPWVD,將韻母語音信號的瞬時頻率隨時間的變化過程在時頻面清晰地表現(xiàn)出來,在時頻圖中時頻脊線表示的是瞬時頻率隨的變化過程,是信號能量最集中的區(qū)域。SPffVD時頻脊線清晰地表現(xiàn)了不同聲調脊線隨時間的變化,同一韻母的不同聲調其時頻脊線沿時間軸的變化各不相同。
3.如權利要求1所述的基于時頻脊線-Hough變換的漢語聲調識別方法,其特征是:對SPffVD圖像進行二值化、閾值化、細化進一步預處理,提取出時頻脊線的中心線。 由于漢語韻母屬于濁音發(fā)聲因而呈現(xiàn)諧波性,即在時頻圖中會出現(xiàn)一條或幾條時頻脊線,但這幾條時頻脊線的變化趨勢基本相同,對于聲調識別只需提取其中一條時頻主脊線即可。為此,需要對SPWVD時頻矩陣進行閾值化處理。由于SPWVD通過加時窗和頻窗對WVD進行平滑來抑制交叉項,導致其時頻聚集性變差,即時頻脊線變粗,此時提取出來的時頻脊線有一定的寬度,如果直接對SPWVD進行Hough變換,會增加運算時間,因此,需要對SPWVD圖像進行二值化、閾值化、細化進一步預處理,提取出時頻脊線的中心線。
4.如權利要求1所述的基于時頻脊線-Hough變換的漢語聲調識別方法,其特征是:將提取的SPWVD時頻脊線的中心線進行Hough變換,得到反映線段截距和夾角參數(shù)以及線段起始和末端點的坐標值的參數(shù)空間值。 Hough變換將被檢測圖像中的直線在參數(shù)空間里與直線參數(shù)對應的位置聚集形成尖峰,根據(jù)尖峰的個數(shù)和位置,從而得到圖像空間的直線及直線的參數(shù)。Hough變換的基本思想是點-線對偶性,圖像變換前在圖像空間,變換后在參數(shù)空間。在圖像空間中共線的點對應在參數(shù)空間里相交的線,反過來,在參數(shù)空間相交于同一個點的所有直線在圖像空間都有共線的點與之對應。根據(jù)點-線對偶性,當給定圖像空間的一些邊緣點,就可通過Hough變換確定連接這些點的直線,Hough變換把在圖像空間中的直線檢測問題轉換到在參數(shù)空間里對點的檢測問題,通過對參數(shù)空間里相交的點進行累加統(tǒng)計,就可完成直線的檢測和參數(shù)估計任務。
5.如權利要求1所述的基于時頻脊線-Hough變換的漢語聲調識別方法,其特征是:根據(jù)Hough變換得到線段參數(shù)空間來識別聲調 根據(jù)法線距離P和法線與X軸正向的夾角Θ的值和相應直線的始末端點坐標來判斷聲調類型。根據(jù)θ的值范圍輔以線段兩端點坐標,可以區(qū)分出四種聲調。當θ值為正角度,或者末端的縱坐標大于始端的縱坐標則為二聲;當θ值為負角度,或者末端的縱坐標小于始端的縱坐標則為四聲;若θ的較小,幾乎為O,則為一聲;其它情況為三聲。
【文檔編號】G10L13/08GK104299611SQ201410509560
【公開日】2015年1月21日 申請日期:2014年9月28日 優(yōu)先權日:2014年9月28日
【發(fā)明者】于鳳芹 申請人:江南大學