專利名稱:在固定頻率下調(diào)整語音速度的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種在固定頻率下調(diào)整語音速度的方法,特別涉及一種針對語言學(xué)習(xí)機或電腦教學(xué)軟體中的重播功能,將語音速度放慢或加快,而不改變其語音頻率的方法。
一般的語言學(xué)習(xí)是錄取錄音帶的語音于暫停前最后所放的一段予以重復(fù)播放,但常因原始語句速度過快而聽不清楚,若將其放慢則不可能,因此,有些語言學(xué)習(xí)機設(shè)有速度快慢的調(diào)整鈕,當(dāng)速度調(diào)慢時僅僅是將錄音機的馬達轉(zhuǎn)速變慢,或于重復(fù)放音時將單位時間內(nèi)的取樣點減少,從而造成語音的頻率降低,甚至無法辨識語音內(nèi)容。
圖1是原始語音波形,而圖二則為轉(zhuǎn)速放慢后的波形,猶如對時間軸將原音波形拉長,因此而降低了頻率。
因此本發(fā)明的主要目的是提供一種在固定頻率下調(diào)整語音速度的方法,是將語音信息分割為若干小段,將每一小段重復(fù)兩次,或?qū)⒎指詈蟮恼Z音中的偶數(shù)段語音去除,使語音于固定頻率下達到調(diào)整放音的速度。
本發(fā)明的在固定頻率下調(diào)整語音速度的方法,包括將數(shù)字化語音信息分割為若干小段,使每一段內(nèi)含有適當(dāng)?shù)狞c數(shù);在每一段中取其最高點;由最高點向下尋找至零交叉點,并記錄該零交叉點的位置;以最高點所在波尾端的零交叉點為切割點予以分段,以消除相鄰兩段語音連接處的間隙;在放音時取其單數(shù)段,使語音在固定頻率下加快一倍的速度;在放音時使每一段連續(xù)取兩次,使語音于固定頻率下放慢一倍的速度;以及選取不同間隔的語音段,以調(diào)整不同的放音速度。
上述的方法是將語音信息分割為每一段含128個點或256個點,以防止再生語音失真。
上述的方法是以22K作為語音信息的取樣頻率,以利于辨識。
上述的方法是于每一小段中取其最高點,由該最高點向下尋找過零點,并記錄該過零點位置,再以各段最高點波形尾瑞的過零點為切割點予以分段,以消除兩段間之間隙,獲取完整的語音波形。
本發(fā)明的主要特點將于結(jié)合以下附圖進行詳細說明圖1是原始語音波形示意圖;圖2是一般語言學(xué)習(xí)機放慢轉(zhuǎn)速的波形示意圖;圖3是2比特取樣的波形示意圖;圖4是圖3增加取樣率的波形示意圖;圖5是3比特取樣的波形示意圖6是8比特取樣的波形示意圖;圖7是22K頻率的取樣波形示意圖;圖8、圖9是分割后的語音波形示意圖;圖10是本發(fā)明的語音波形示意圖;圖11是本發(fā)明的加快語音速度的波形示意圖;圖12和圖13是本發(fā)明的不同速度調(diào)整取段參考表。
由于本發(fā)明在分段過程中,需將模擬語音訊號轉(zhuǎn)換為數(shù)字語音信號,因此,先將該轉(zhuǎn)換取樣過程作一說明所謂取樣率(Sampling rate)是單位時間內(nèi)(每秒)的取樣點數(shù),以正弦波為例,當(dāng)一個正弦波的信號被數(shù)字化時,如圖3示,若以2個比特取樣,因22=4,可有0-3共4個等級(level),以2為零交叉點(Zerocrossing point,即作為波形中央的參考點或沒有語音訊號時的基準(zhǔn)點),則如圖所示,其直線段連成的波形為再生的波形,與原來的正弦波形存在相當(dāng)?shù)牟罹?,而如圖4所示,雖然已增加了取樣率,但其精確度仍嫌不夠。
因此,如圖5所示,可增加為3比特來取樣,因23=8,可有0-7共8個等級(level),以4為零交叉點,使再生波較接近原正弦波,而一般則如圖6所示,以8個比特取樣,可將語音振幅分為0-255等256個等級,并以128為零交叉點。
由于一般的音樂中含有許多高頻樂器,故需要較大的取樣率,人耳的聽力范圍為20~20KHZ,語音頻率于1KHZ以下,所以2K以上的取樣率應(yīng)足以辨識(如圖7所示)。
如果將人們的語音放慢而不改變其頻率,可將語音信息的語句分割為若干小段,假設(shè)每一小段內(nèi)的波形變化不大,則將每一小段重復(fù)播放兩次,即可達到速度放慢一倍的效果。由于語句的切割與重置如圖8、9所示,相鄰的兩段之間連接處會出現(xiàn)間隙,使調(diào)整后的語音產(chǎn)生顫音,因此,要避免顫音的產(chǎn)生就需先除去間隙。但由于語音的信號相當(dāng)復(fù)雜,若于每一段只獲取一個完整的周期波非常不易,且語音的頻率隨時在變化,波長亦隨之變化,因此很難以固定長度獲取,于是,本發(fā)明是依據(jù)下列步驟改善上述的缺點1.將數(shù)字化的語音信息分割為每一段含128個點。
2.于每一段中取極大值,即最高點。
3.由最高點向下尋找零交叉點,并記錄該零交叉點的位置。
4.以最高點波長尾瑞的零交叉點為切割點予以分段,則可消除兩段連接處的間隙,因連接點的值均在零交叉點附近,且其斜率皆為負,因此連接點的線段較為平緩而少突出(如圖10所示)。
上述每一段所含點數(shù)的適當(dāng)值是由取樣率決定,在22K的取樣率下,若每段取1024點,則放慢的再生音有明顯回音出現(xiàn),若每一段取512點,則回音較少,而若每一段取256點或128點,則再生音失真極少,而若每一段取64點,則再生音有明顯雜音出現(xiàn)。在22K的取樣率下,每一段所含點數(shù)從128點至256點皆可。而若取樣率為55K,則每一段所含點數(shù)為32~64點。
依前述的分段方法,若欲在固定頻率下將語音速度加快,可在分段時只取單數(shù)段(即一、三、五…)(如圖11所示)。
若欲加快一倍與放慢一倍間有其他的速度選擇,則可如圖12所顯示的選取語音段的方法來調(diào)整語音速度,該列表中的第三欄的數(shù)字表示切割語音的序號,加圈者為此段被去除,未加圈者為被選取,第二欄中的t表示播放語音段數(shù)與原語音切割段數(shù)之比,而為利于程序設(shè)計時的處理,圖12可歸z納為如圖13的例表(其中的m表示切割的語音段的序號)。
權(quán)利要求
1.一種在固定頻率下調(diào)整語音速度的方法,包括將數(shù)字化語音信息分割為若干小段,使每一段內(nèi)含有適當(dāng)?shù)狞c數(shù);在每一段中取其最高點;由最高點向下尋找至零交叉點,并記錄該零交叉點的位置;以最高點所在波尾端的零交叉點為切割點予以分段,以消除相鄰兩段語音連接處的間隙;在放音時取其單數(shù)段,使語音在固定頻率下加快一倍的速度;在放音時使每一段連續(xù)取兩次,使語音于固定頻率下放慢一倍的速度;以及選取不同間隔的語音段,以調(diào)整不同的放音速度。
2.如權(quán)利要求1所述的方法,其中該語音信息每一段所含的點數(shù)值,是以22KHZ作為取樣率。
3.如權(quán)利要求1所述的方法,其中該語音信息所含的點數(shù)為128或256點。
全文摘要
一種在固定頻率下調(diào)整語音速度的方法,是將語音信息分割為若干小段,在每一小段中取其最高點,由該最高點向下尋找零交叉點,并記錄該零交叉點的位置,再以各段最高點波形尾端的零交叉點為切割點予以分段,以消除兩段間之間隙。在放音時只取單數(shù)段或使每一小段連續(xù)重復(fù)兩次,使放音速度放慢或加快,而且不會改變語音的頻率。
文檔編號G10L21/04GK1310439SQ0111056
公開日2001年8月29日 申請日期2001年4月12日 優(yōu)先權(quán)日2001年4月12日
發(fā)明者潘必煜 申請人:潘必煜