專利名稱:語音波形處理系統(tǒng)及方法
技術領域:
本發(fā)明是關于一種語音波形處理系統(tǒng)及方法,特別是一種可根據預先定義的語音參數對連續(xù)語音波形進行切分處理的語音波形處理系統(tǒng)及方法。
背景技術:
現今社會隨著計算機科技的飛速發(fā)展,計算機技術業(yè)已滲透至人們日常生活各個領域,應用計算機處理信息也已由單純文本文件的處理發(fā)展至今日可處理音頻及視頻在內的所有形式的數據。
在各種信息處理形式中,音頻信息處理技術的發(fā)展歷來備受關注,如通過對語音聲波處理并結合相應軟件實現不同目的的應用技術。目前是使用一種可對語音波形進行切分處理的技術,可對音頻數據執(zhí)行切分處理,也就是將連續(xù)語音信號分割為若干段落。但是該項技術往往需借由統(tǒng)一標準執(zhí)行,缺乏自主性及靈活性,因而其應用范圍受到限制。
此外,常用的連續(xù)語音切分處理技術往往是單純作為一項理論技術,缺乏實用性。
因此,如何提供一種自主靈活的語音切分處理系統(tǒng)及方法,如何拓展該項技術的應用領域,成為急待解決的重要問題。
發(fā)明內容
克服上述現有技術的缺點,本發(fā)明的主要目的在于提供一種語音波形處理系統(tǒng)及方法,可按預先定義的語音參數將連續(xù)語音波形切分為多個句段。
本發(fā)明的另一目的在于提供一種語音波形處理系統(tǒng)及方法,可對切分處理后的句段建立索引機制。
本發(fā)明的再一目的在于提供一種語音波形處理系統(tǒng)及方法,可快速跳轉到連續(xù)語音當中的任何一個句段。
本發(fā)明的又一目的在于提供一種語音波形處理系統(tǒng)及方法,可將其它媒體信息通過索引機制與任何一個句段建立關聯(lián)。
為達上述及其它目的,本發(fā)明即提供一種語音波形處理系統(tǒng)及方法。
本發(fā)明的語音波形處理系統(tǒng)至少包括切分參數設定模塊,用于設定處理語音波形的處理參數;語音數據預處理模塊,用于讀取連續(xù)語音信號,并對該語音信號進行預處理;儲存模塊,用于儲存該切分參數設定模塊預先設定處理的語音波形的處理參數及與語音信號相關的信息;切分處理模塊,用于根據該切分參數設定模塊預先設定處理的語音波形的處理參數及與輸入語音信號相關的信息,對輸入的連續(xù)語音信號進行切分處理;切分結果顯示模塊,用于將借由該切分處理模塊進行切分處理后的切分索引提供給使用者;以及波形顯示模塊,用于顯示連續(xù)語音信號波形及借由該切分處理模塊進行切分處理后的語音信號波形。
本發(fā)明通過該語音波形處理系統(tǒng)執(zhí)行的語音波形處理方法的步驟包括1)令該語音波形處理系統(tǒng)預先設定處理語音波形處理的參數;2)令該語音波形處理系統(tǒng)讀取輸入的連續(xù)語音信號,并對該語音信號進行預處理,該連續(xù)語音信號波形將通過語音波形處理系統(tǒng)所設的波形顯示模塊提供給使用者瀏覽;3)令該語音波形處理系統(tǒng)預先設定處理語音波形的參數及與輸入語音信號相關的信息;4)令該語音波形處理系統(tǒng)按照語音波形處理的參數及與輸入的語音信號相關的信息,對輸入的連續(xù)語音信號進行切分處理,并通過波形顯示模塊提供給使用者瀏覽該切分處理后的語音波形;以及5)令該語音波形處理系統(tǒng)將切分處理后的切分索引提供給使用者。
與常用的語音波形處理技術相比,本發(fā)明的語音波形處理系統(tǒng)及方法可根據預先定義的語音參數將連續(xù)語音波形切分為多個句段,并將切分處理后的句段建立索引機制,實現可快速跳轉到連續(xù)語音的其中任一句段的目的,可將其它媒體信息通過索引機制與任何一個句段建立關聯(lián),借以改善上述現有技術的缺點,令語言處理技術具有更大的應用空間。
圖1是本發(fā)明的語音波形處理系統(tǒng)的基本結構方塊圖;圖2是本發(fā)明的語音波形處理方法的基本工作流程圖;圖3是本發(fā)明的語音波形處理系統(tǒng)預先設定語音切分處理參數的計算機屏幕截留圖;圖4是本發(fā)明的切分處理模塊進行切分的基本工作流程圖;圖5是令該切分處理模塊通過彈出信息框形式提供連續(xù)語音切分結果列表的計算機屏幕截留圖;圖6是在確定該語音切分處理系統(tǒng)所執(zhí)行的切分結果后的計算機屏幕截留圖;圖7是本發(fā)明的語音切分處理模塊配合其它軟件執(zhí)行連續(xù)語音切分的計算機屏幕截留圖;以及圖8是利用本發(fā)明的語音切分處理模塊對連續(xù)語音切分后,選擇并按照切分結果索引直接跳轉到相應句段播放或者處理的計算機屏幕截留圖。
具體實施例方式
實施例以下通過特定的具體實施例說明本發(fā)明的實施方式。
以下實施例是將本發(fā)明的語音波形處理系統(tǒng)結合在計算機設備中進行連續(xù)語音波形處理,此外,還可應用在具有音效識別功能的其他信息設備中。
圖1為方塊圖,它是本發(fā)明的語音波形處理系統(tǒng)的基本結構示意情形圖,該語音波形處理系統(tǒng)1至少包括語音數據預處理模塊10,儲存模塊11,切分處理模塊12,切分結果顯示模塊13及波形顯示模塊14。在本實施例中,使用者可根據需要自定義處理語音波形的參數,這些處理語音波形參數至少包括靜音幅閥值及靜音間隔閥值,其中,當語音聲波幅度小于預先設定的靜音幅度閥值時,則判定為靜音狀態(tài),當持續(xù)靜音狀態(tài)時間超過靜音間隔閥值時,則判定為語音停頓狀態(tài),根據這些參數對連續(xù)語音進行切分處理。
語音數據預處理模塊10用于讀取輸入的連續(xù)語音信號,以對該語音信號進行預處理,并對輸入的語音波形進行分析,記錄該段語音波形中的停頓位置。
儲存模塊11用于儲存預先設定的處理語音波形的參數及與輸入語音信號相關的信息。在本實施例中,該預先設定處理語音波形的參數至少包括如上所述的使用者自定義的靜音幅閥值及靜音間隔閥值,該輸入的語音信號相關信息至少包括借由該語音數據預處理模塊10判定該段語音信號中具有的停頓位置。
該切分處理模塊12用于根據語音波形處理的參數及與輸入語音信號相關的信息,對輸入的連續(xù)語音信號進行切分處理。其中,該切分處理過程是按照切分算法進行的。
該切分結果顯示模塊13則用于將切分處理模塊12處理后的切分索引提供給使用者。在本實施例中,該切分結果顯示模塊13是以彈出列表的形式出現,并提供輸入語音經由切分處理后產生的句段編號、起始位置及統(tǒng)計信息等相關信息。
該波形顯示模塊14用于顯示輸入的連續(xù)語音信號波形及借由該切分處理模塊12進行切分處理后的語音信號波形。在本實施例中,在該切分處理模塊12對輸入的連續(xù)語音進行切分處理前,該波形顯示模塊14將顯示該段連續(xù)語音的原始波形,且在該語音波形切分模塊1對輸入的連續(xù)語音進行切分處理后,該波形顯示模塊14將顯示該段連續(xù)語音經語音切分處理的波形,其中也包括語音切分線的切分波形。
圖2是基本工作流程圖,顯示本發(fā)明的語音波形處理方法的基本步驟。
在步驟S1中,先行提供使用者處理語音波形的參數設置字段,令使用者可通過該參數設置字段進行語音處理參數的選擇及設置,接著,執(zhí)行步驟S2。
在步驟S2中,向該語音波形處理系統(tǒng)1輸入一段連續(xù)語音信號,該連續(xù)語音信號即為待執(zhí)行切分處理的對象,它可以是使用者直接輸入的一段語音或由任何外部設備(例如磁帶、光盤及硬盤等)轉錄的語音,接著,進行步驟S3。
在步驟S3中,令該語音數據預處理模塊10讀取輸入的連續(xù)語音信號,并對該語音信號進行預處理,該連續(xù)語音信號波形則可通過波形顯示模塊14提供給使用者參考,接著,進行步驟S4。
在步驟S4中,令該語音波形處理系統(tǒng)1掃描輸入的連續(xù)語音信號,并根據預先通過該參數設置字段設定的語音處理參數,判斷該段連續(xù)語音信號中的停頓位置,接著,進行步驟S5。
在步驟S5中,令該儲存模塊11儲存由該語音波形處理系統(tǒng)1經掃描判斷出的停頓位置,接著,進行步驟S6。
在步驟S6中,令該切分處理模塊12執(zhí)行切分算法,并根據該儲存模塊11中儲存的停頓位置切分連續(xù)語音,生成切分句段清單,最后,執(zhí)行步驟S7。
在步驟S7中,令該切分結果顯示模塊13顯示切分句段清單,并令該波形顯示模塊14顯示該段連續(xù)語音經語音切分處理后的波形,也就是語音切分線的切分波形。
圖3為計算機屏幕截留圖,顯示通過本發(fā)明的語音波形處理系統(tǒng)預先設定語音切分處理參數的操作畫面。如圖所示,該截留圖畫面3包括有波形顯示區(qū)域30、靜音幅度閥值設定字段31、靜音時間閥值設定字段32、執(zhí)行切分按鍵33、處理進度條34及其它相關功能區(qū)域。該波形顯示區(qū)域30是以二維坐標軸顯示輸入的原始語音波形,其中,橫坐標代表時間,縱坐標則代表語音幅度。例如,使用者根據實際需要在該靜音幅度閥值設定字段31調整語音切分處理的幅度閥值,也就是當語音幅度小于該設定值時,系統(tǒng)即判定為無語音信號,且在該靜音時間閥值設定字段32調整語音切分處理的時間閥值,即當靜音時間大于該設定值時,系統(tǒng)判定為停頓。完成上述設定后,使用者即可由鼠標點擊執(zhí)行切分按鍵33,令該切分處理模塊12開始執(zhí)行語音波形切分。此外,該截留圖畫面3另包括有處理進度條34,追蹤并顯示當前的處理進度。
圖4為基本工作流程圖,顯示本發(fā)明的切分處理模塊12進行切分程序的基本步驟。
在步驟S40中,令該切分處理模塊12讀取輸入的連續(xù)語音,包括該連續(xù)語音的語音幅度及其它相關信息,接著,執(zhí)行步驟S41。
在步驟S41中,令該切分處理模塊12判斷語音幅度是否小于預先設定的靜音幅度閥值,若判斷結果為是,則執(zhí)行步驟S42;如否,則執(zhí)行步驟S43。
在步驟S42中,令該切分處理模塊12累計語音幅度小于預先設定的靜音幅度閥值的時間,以持續(xù)讀取連續(xù)語音資料,并反復執(zhí)行步驟S40至步驟S42。
在步驟S43中,令該切分處理模塊12判斷累計持續(xù)靜音時間是否大于預先設定的靜音時間閥值,若是,則執(zhí)行步驟S44;如否,則直接進至步驟S46。
在步驟S44中,令該切分處理模塊12獲取語音停頓位置的位置信息,其中,該位置信息可以是停頓終點時間、停頓起點及持續(xù)時間等,接著,進行步驟S45。
在步驟S45中,令該切分處理模塊12為這些語音停頓位置依次建立編號,并列入句段索引表,該句段索引表中包括句段序號及停頓點位置等信息,接著,執(zhí)行步驟S46。
在步驟S46中,令該切分處理模塊12將靜音累計時間歸零,以進行累加下一靜音時間,接著,執(zhí)行步驟S47。
在步驟S47中,令該切分處理模塊12判斷輸入的連續(xù)語音是否已處理完畢,若是,則執(zhí)行步驟S48;如否,則循環(huán)執(zhí)行步驟S40至步驟S47,直至輸入的連續(xù)語音處理完畢為止。
在步驟S48中,令該切分處理模塊12通過彈出信息框形式提供連續(xù)語音的完整切分結果列表,其中,顯示內容包括整個連續(xù)語音分段數目、各個句段序號及斷句時間等。
圖5是計算機屏幕截留圖,顯示在上述步驟S48中,該切分處理模塊12通過彈出信息框形式提供連續(xù)語音切分結果列表的示意情形。如圖所示,該彈出信息框5即為該段連續(xù)語音切分結果列表,其中顯示序號為1即為語音開始,根據預先設定語音切分參數判斷序號為2的語音段時間為″00:02.967″,以下依次為各個語音段時間標志,在此不再贅述。該彈出信息框5包括顯示連續(xù)語音切分結果總數的信息提示50,在本實施例中,該信息提示50中顯示有將輸入連續(xù)語音切分為36個片段的示意情形,因此,借由彈出信息框5即可清晰地了解語音切分結果(未完全示意),點擊確定按鈕51即確定該語音切分處理系統(tǒng)1所執(zhí)行的切分結果,并產生圖6所示的新的計算機屏幕截留圖。
圖6為計算機屏幕截留圖,顯示在圖5點擊確定按鈕51即確定該語音切分處理系統(tǒng)1所執(zhí)行的切分結果后的示意情形。其中在波形顯示區(qū)域60中,相應的語音切分位置通過一系列切分線61表示。
圖7為計算機屏幕截留圖,顯示本發(fā)明的語音切分處理模塊12配合其它軟件執(zhí)行連續(xù)語音切分的示意情形。其中,該軟件可以是任一款播放或編輯聲音文件的應用軟件。該應用畫面圖7上除了具備波形顯示區(qū)域70外,還包括切分結果列表71、語音信息顯示列表72及多個不同控制功能操作鍵等。
圖8為計算機屏幕截留圖,顯示利用本發(fā)明的切分處理模塊12對連續(xù)語音切分后選擇并按照切分結果索引直接跳轉至相應句段播放或者處理的示意情形。使用者可通過雙擊該波形顯示區(qū)域70中的一段由切分線隔開的波形段80、該切分結果列表71中的任一序號段81或者該語音信息顯示列表72中任一選項82跳轉到相應位置。此外,使用者也可通過這些控制功能操作鍵對該選擇段落執(zhí)行刪除或進一步操作處理。
因此,應用本發(fā)明的語音切分處理系統(tǒng)及方法可根據預先定義的語音參數將連續(xù)語音波形切分為多個句段,并為切分處理后的句段建立索引,實現快速跳轉到連續(xù)語音中任一句段的目的,借以改善上述現有技術的缺點,令語言處理技術具有更大的應用性。
權利要求
1.一種語音波形處理系統(tǒng),按定義的參數對連續(xù)語音波形進行處理,其特征在于,該系統(tǒng)至少包括切分參數設定模塊,用于設定處理語音波形的處理參數;語音數據預處理模塊,用于讀取連續(xù)語音信號,并對該語音信號進行預處理;儲存模塊,用于儲存該切分參數設定模塊預先設定處理的語音波形的處理參數及與語音信號相關的信息;切分處理模塊,用于根據該切分參數設定模塊預先設定處理的語音波形的處理參數及與輸入語音信號相關的信息,對輸入的連續(xù)語音信號進行切分處理;切分結果顯示模塊,用于將借由該切分處理模塊進行切分處理后的切分索引提供給使用者;以及波形顯示模塊,用于顯示連續(xù)語音信號波形及借由該切分處理模塊進行切分處理后的語音信號波形。
2.如權利要求1所述的語音波形處理系統(tǒng),其特征在于,該預先設定處理的語音波形處理的參數至少包括靜音幅閥值及靜音持續(xù)間隔時間中的一個。
3.如權利要求2所述的語音波形處理系統(tǒng),其特征在于,當語音波形幅度小于預先設定的靜音幅閥值時,則該語音波形處理系統(tǒng)判斷為靜音狀態(tài)。
4.如權利要求2所述的語音波形處理系統(tǒng),其特征在于,當持續(xù)靜音狀態(tài)時間超過靜音持續(xù)間隔時間時,則該語音波形處理系統(tǒng)判斷為語音停頓狀態(tài)。
5.如權利要求1所述的語音波形處理系統(tǒng),其特征在于,該語音數據預處理模塊對輸入的語音波形進行分析后,記錄該段語音波形中的停頓區(qū)域。
6.如權利要求1所述的語音波形處理系統(tǒng),其特征在于,該切分處理模塊按照切分算法對連續(xù)語音信號進行切分處理。
7.如權利要求1所述的語音波形處理系統(tǒng),其特征在于,該切分結果顯示模塊將在進行完切分處理后,顯示帶切分標記的語音波形以及索引清單。
8.一種語音波形處理方法,通過語音波形處理系統(tǒng)按定義的參數對連續(xù)語音波形進行處理,其特征在于,該方法包括下列步驟1)令該語音波形處理系統(tǒng)預先設定處理語音波形處理的參數;2)令該語音波形處理系統(tǒng)讀取輸入的連續(xù)語音信號,并對該語音信號進行預處理,該連續(xù)語音信號波形將通過語音波形處理系統(tǒng)所設的波形顯示模塊提供給使用者瀏覽;3)令該語音波形處理系統(tǒng)預先設定處理語音波形的參數及與輸入語音信號相關的信息;4)令該語音波形處理系統(tǒng)按照語音波形處理的參數及與輸入的語音信號相關的信息,對輸入的連續(xù)語音信號進行切分處理,并通過波形顯示模塊提供給使用者瀏覽該切分處理后的語音波形;以及5)令該語音波形處理系統(tǒng)將切分處理后的切分索引提供給使用者。
9.如權利要求8所述的語音波形處理方法,其特征在于,該語音波形處理系統(tǒng)預先設定處理的語音波形處理的參數至少包括靜音幅閥值及靜音持續(xù)間隔時間。
10.如權利要求9所述的語音波形處理方法,其特征在于,當語音波形幅度小于預先設定的靜音幅閥值時,則該語音波形處理系統(tǒng)判斷為靜音狀態(tài)。
11.如權利要求9所述的語音波形處理方法,其特征在于,當持續(xù)靜音狀態(tài)時間超過靜音持續(xù)間隔時間時,則該語音波形處理系統(tǒng)判斷為語音停頓狀態(tài)。
12.如權利要求8所述的語音波形處理方法,其特征在于,該語音波形處理系統(tǒng)對輸入的語音波形進行分析后,記錄該段語音波形中的停頓區(qū)域。
13.如權利要求8所述的語音波形處理方法,其特征在于,該語音波形處理系統(tǒng)按照切分算法對連續(xù)語音信號進行切分處理執(zhí)行切分。
14.如權利要求8所述的語音波形處理方法,其特征在于,該語音波形處理系統(tǒng)將進行完切分處理后,顯示帶切分標記的語音波形以及索引清單。
全文摘要
一種語音波形處理系統(tǒng)及方法,該系統(tǒng)至少包括語音數據預處理模塊、儲存模塊、切分處理模塊、切分結果顯示模塊及波形顯示模塊;與常用的語音波形處理技術相比,本發(fā)明的語音波形處理系統(tǒng)及方法可根據預先定義的語音參數將連續(xù)語音波形切分為多個句段,并將切分處理后的句段建立索引機制,實現可快速跳轉到連續(xù)語音的其中任一句段的目的,可將其它媒體信息通過索引機制與任何一個句段建立關聯(lián),借以改善上述現有技術的缺點,令語言處理技術具有更大的應用空間。
文檔編號G06F17/28GK1770260SQ20041008713
公開日2006年5月10日 申請日期2004年11月1日 優(yōu)先權日2004年11月1日
發(fā)明者邵曉慧, 邱全成 申請人:英業(yè)達股份有限公司