一種嵌入式語音合成方法及系統(tǒng)的制作方法

文檔序號：2836100閱讀：390來源：國知局

專利名稱：一種嵌入式語音合成方法及系統(tǒng)的制作方法
技術領域：
本發(fā)明涉及一種語音合成方法及系統(tǒng)，尤其涉及一種便攜式(含手持)手持數(shù)字移動設備，包括移動電話(手機)和個人數(shù)字助理(PDA)的語音合成方法及系統(tǒng)。
語音合成技術在近年來，特別是在實際應用方面的進展十分迅速。經(jīng)過多年來的研究積累和實踐經(jīng)驗，當今的語音合成系統(tǒng)不僅在可懂度上毫無問題，而且在自然度上也已經(jīng)取得了十分明顯的進步。當今主流的技術大多采用波形拼接的算法并配合上大規(guī)模預先建立好的音庫的方法，通過分析，找到音庫中最大長度的匹配音段，在結合一些韻律調(diào)整的算法來提高合成系統(tǒng)的自然度。最終系統(tǒng)的自然度很大程度上取決于音庫的大小和覆蓋程度，因此，很多合成系統(tǒng)往往需要很大的音庫。這樣的方法的采用對當前桌面PC的CPU處理能力、內(nèi)存和其他資源的配置來講當然是不成問題的。但是對于當前的主流手持設備(包括手機和PDA)來說，要完成同樣的任務幾乎是不可能的。
雖然，目前有的語音合成廠商已經(jīng)開發(fā)出了嵌入式語音合成系統(tǒng)，但這類系統(tǒng)目前只是音庫最少也需要1M以上的存儲空間，這對于當前主流的手持設備來說仍然是非常大的開銷，因為語音合成只是增加了設備的一項特性而已，但它的代價或說成本還是很高的。因此，一個占用較少資源而又能被用戶接受的語音合成系統(tǒng)對于手持設備來說是非常具有商業(yè)價值的。對于目前的手持數(shù)字通信設備來說，一個占用的全部資源在500K字節(jié)以內(nèi)的語音合成系統(tǒng)才是真正可以在所說的設備上實際采用的系統(tǒng)，而且對所說的設備幾乎不用增加什么成本。
為了實現(xiàn)上述目的，本發(fā)明提供了一種嵌入式語音合成方法，用于手持式數(shù)字移動通信設備操作系統(tǒng)將文字信號轉換成語音信號進行回放，其特點在于包括如下步驟A、文本輸入步驟，用于通過所述通信設備操作輸入文本文字；B、文本分析步驟，用于分析輸入文本的格式和內(nèi)容并將輸入的文字轉換成相應的拼音符號，形成拼音符號序列輸出；C、碼字序例生成步驟，用于接收所述拼音符號序列，并通過檢索預設的壓縮語音庫得到所述拼音序列對應壓縮語音的碼字序列輸出；D、語音解碼步驟，用于接收所述壓縮語音的碼字序列，利用與壓縮語音庫壓縮算法相對應的解壓算法還原出未經(jīng)壓縮的原始語音的數(shù)據(jù)信號，并所述語音數(shù)據(jù)信號輸出；E、波形拼接合成步驟，用于將所述語音數(shù)據(jù)信號片斷進行波形拼接在一起，作平滑處理后輸出；F、數(shù)字語音信號輸出步驟，用于將合成的整句文字信息的語音信號輸出。
上述的嵌入式語音合成方法，其特點在于所述文本分析步驟還進一步包括多音字處理步驟，根據(jù)輸入文字內(nèi)容的上下文，通過查找預設的多音字表，得到所述文字中多音字正確的拼音。
上述的嵌入式語音合成方法，其特點在于在所述碼字序例生成步驟中，所述壓縮語音庫中存儲經(jīng)編碼壓縮/包裝的數(shù)字化語音信號，所述數(shù)字化語音信號包括有所有漢語/日文/韓文音節(jié)以及特殊文字、數(shù)字、符號的原始發(fā)音經(jīng)模/數(shù)轉換后的數(shù)字化語音信號。
上述的嵌入式語音合成方法，其特點在于在所述碼字序例生成步驟中，是通過建立一個快速索引表來檢索所述壓縮語音庫的。
上述的嵌入式語音合成方法，其特點在于所述預設的壓縮語音庫是通過如下步驟生成的步驟一，創(chuàng)建一個空的語音庫；步驟二，每次從原始語音庫中讀入一個原始語音片斷；步驟三，通過語音壓縮算法將該段語音壓縮成能代表所述段語音的碼字序列；步驟四，為該段語音碼字序列建立一個索引標記并將該段標記和碼字序列一起放入新建立的壓縮語音庫；步驟五，判斷是否處理完全部的原始語音庫，如果是，則離線部分程序結束；如果否，則返回步驟二重復步驟二、三、四和步驟五，直到處理完全部原始語音庫。
上述方法不僅通過采用波形拼接和語音壓縮算法大大降低了語音合成部件對整個系統(tǒng)資源的要求，同時漢字多音字處理以及對一些自定義特殊符號的處理，比如句間停頓、整句處理等技術的采用使得合成的語音具有較好的可懂度和自然度。由于整句的語音是通過單音節(jié)的發(fā)音拼接而成，因此有必要對拼接后的整句語音做一個后處理來提高合成語音的效果。所采用的方法是時域-基音同步疊加算法TD-PSOLA。在本發(fā)明中該算法用來將拼接起來的各音節(jié)片斷的發(fā)音聽起來更為緊湊，并按句式的種類調(diào)整整句語音的音調(diào)變化，比如疑問句尾的音調(diào)上升、陳述句尾的降調(diào)等。
為了更好地實現(xiàn)上述目的，本發(fā)明還提供了一種嵌入式語音合成系統(tǒng)，設置于手持數(shù)字移動通訊設備的操作系統(tǒng)，其特點在于，包括一輸入模塊，用于操作所述設備的操作系統(tǒng)輸入文本信息，并將所述文本信息輸出；一文本分析模塊，用于分析接收的所述文本信息格式和內(nèi)容并將其轉換成拼音符號后輸出；一碼字序列生成模塊，用于接收所述文本分析模塊輸出的拼音符號序列，并將通過檢索內(nèi)設的壓縮語音模塊得到所述拼音序列對應壓縮語音的碼字序列輸出；一語音解音碼模塊，用于接收所述碼字序列，利用與壓縮語音模塊壓縮算法相對應的解壓算法還原所述碼字序列，并將還原出未經(jīng)壓縮的原始語音的數(shù)據(jù)信號輸出；一波形拼接合成模塊，用于將所述語音數(shù)據(jù)信號片斷進行波形拼接在一起，作平滑處理后輸出數(shù)字語音信號。
上述的嵌入式語音合成系統(tǒng)，其特點在于，還進一步包括一多音字處理模塊，用于根據(jù)內(nèi)設的多音字詞表模塊所提供的信息查找所要分析的輸入文本中有無多音字，并根據(jù)文本分析結果為輸入文本中具有多音的漢字確定一個正確的發(fā)音。
上述的嵌入式語音合成系統(tǒng)，其特點在于還進一步包括有數(shù)字與特殊字符處理模塊，用于將接收的數(shù)字與特殊字符轉換成拼音符號后輸出。
上述的嵌入式語音合成系統(tǒng)，其特點在于所述壓縮語音模塊進一步包括存儲所有述漢字/日文字/韓文字音節(jié)的壓縮語音庫和用于快速檢索所述壓縮語音庫的索引表。
上述嵌入式語音合成系統(tǒng)，其特點在于所述壓縮語音庫還包括特殊符號的碼字，所述特殊符號包括數(shù)字、標點以及自定義的表示語音停頓、語法、語氣含義的標記。
上述嵌入式語音合成系統(tǒng)，其特點在于在所述設備的系統(tǒng)資源中，所述嵌入式語音合成系統(tǒng)占用的資源在500K字節(jié)以內(nèi)，計算復雜度小于5MIPS。
依據(jù)上述方法形成的一個語音合成系統(tǒng)，完全可以在手持通信設備應用，而且所需的計算能力不超出所說的手持設備本身所具有的計算處理能力。
下面結合附圖
和實施例對本發(fā)明進一步說明，通過結合附圖對系統(tǒng)各組成部件的詳細說明將會更好地描述實現(xiàn)本發(fā)明的步驟和過程。
其中，原始語音庫模塊80和壓縮/包裝模塊50只在該語音合成系統(tǒng)的離線工作狀態(tài)時使用，這兩個模塊只是用于生成該合成系統(tǒng)在線工作時需要用到的壓縮語音庫模塊70。即為了形成壓縮語音庫模塊70中的壓縮語音庫，該語音合成系統(tǒng)利用一語音合成系統(tǒng)離線部分4，用于將原始語音庫模塊80通過編碼壓縮/包裝模塊50形成壓縮語音庫。在原始語音庫模塊80的原始語音庫中存儲有所有漢語音節(jié)以及一些特殊的文字、數(shù)字及符號的原始發(fā)音經(jīng)模/數(shù)轉換后的數(shù)字化語音信號。編碼壓縮/包裝模塊50用于將該原始語音庫中所有的語音片斷通過一定的語音壓縮算法壓縮成占用空間更小的語音片斷，并以一定的方式將所有漢語音節(jié)以及一些特殊的文字、數(shù)字及符號的壓縮碼字包裝在一個文件中以便于語音解碼模塊30查找。在本發(fā)明的實施例中，編碼壓縮/包裝模塊50所采用的壓縮語音庫包裝方法是以一定規(guī)則將編碼壓縮后的語音碼字組合成一個文件的形式，該壓縮語音庫的索引是根據(jù)用來代表不同語音碼字的符號建立的，這些符號可以是拼音和/或一些特殊符號的字符表示。其中索引表的建立可以使用例如HASH表的方式建立。該文件即構成了壓縮語音庫模塊70。在本實施例中，本發(fā)明所采用的壓縮語音庫的方法可以是任意一種能夠滿足所述手持設備資源要求(包括存儲空間和計算復雜度)的且能夠達到聽覺要求(用戶滿意)的算法，例如碼激勵線性預測(CELP)等具有低碼速率的、在通信系統(tǒng)中廣泛采用的語音壓縮算法，或者其他具有高壓縮率和低失真的語音編解碼算法，只要其運算復雜度和存儲要求能夠在所述的手持設備上運行即可。合成系統(tǒng)離線部分的壓縮/包裝模塊50中所用到的語音壓縮方法決定了該語音系統(tǒng)在線部分中語音解碼模塊30中所采用的方法，這兩個模塊中的壓縮和解壓縮算法是統(tǒng)一且互相配合使用的。此外，在壓縮語音庫中不僅存放有所有漢語音節(jié)(包括數(shù)字)的發(fā)音的壓縮后的碼字，而且該壓縮語音庫模塊7還包括有一些特殊的符號，比如標點，以及自定義的表示語音停頓、疑問等含義的標記所對應的發(fā)音壓縮后的碼字。
該文本分析及多音字處理模塊10可以接收文本形式的輸入，通過分析輸入文本的格式和內(nèi)容將輸入漢字、日文文字或韓文字轉換成相應拼音符號。在本發(fā)明的實施中，所采用的多音字處理方法是根據(jù)一個以自定義格式存儲的多音字詞表來分析文本上下文，從而得到輸入文本的正確發(fā)音。特別是由于漢字的發(fā)音存在一字多音的現(xiàn)象，故多音字詞表模塊60中存儲了所有具有“一字多音”現(xiàn)象的漢字以及其所對應的發(fā)音和相應的規(guī)則。該多音字詞表模塊60可以預先構建好，當該語音合成系統(tǒng)處于工作狀態(tài)時，由文本分析及多音字處理模塊10調(diào)用。因此，文本分析及多音字處理模塊10會根據(jù)多音字詞表模塊60所提供的信息查找所要分析的輸入文本中有無多音字，并根據(jù)文本分析的結果為輸入文本中具有多發(fā)音的漢字確定一個正確的發(fā)音；此外，文本分析及多音字處理模塊10還可進一步包括對輸入文本中數(shù)字及符號的處理，最終，文本分析及多音字處理模塊10將輸入文本所對應的拼音符號輸出到碼字序列生成模塊20。而碼字序列生成模塊20接收來自文本分析及多音字處理模塊10輸出的拼音符號序列，通過檢索經(jīng)壓縮編碼并按一定規(guī)則包裝存儲的壓縮語音庫模塊70，得到該拼音序列所對應的壓縮語音的碼字序列，然后將該碼字序列輸出到語音解碼模塊30。該壓縮語音庫模塊70可以預先構建好，當該語音合成系統(tǒng)處于工作狀態(tài)時，由碼字序列生成模塊20調(diào)用。語音解碼模塊30接收來碼字序列生成模塊20輸出的代表將要合成的語音的經(jīng)過一定編碼算法壓縮過后的碼字序列，通過與編碼壓縮方法相應的解壓縮算法還原出未經(jīng)壓縮的原始語音的數(shù)字信號，并輸出到波形拼接合成模塊40。波形拼接合成模塊40將所接收到的來自語音解碼模塊30的語音數(shù)字信號拼接在一起，合成輸出最終給用戶的聽的聲音信號的數(shù)字化表示。語音合成在線部分中所采用的語音解壓縮算法既可以通過軟件實現(xiàn)，也可以通過芯片實現(xiàn)。算法的選用也可以同所用的手持設備緊密相關，也就是說可以利用手持設備上已有的DSP芯片和/或手持設備的CPU資源。當然也可以使用為該功能新增的芯片(但這樣會增加已有設備的成本)。
圖2-圖5給出了一個依據(jù)本發(fā)明方法的語音合成系統(tǒng)的實施例的流程說明。圖2、圖3和圖4是該語音合成系統(tǒng)在線部分的程序流程示意；圖5是該語音合成系統(tǒng)離線部分的程序流程示意。
如圖2所示，在該語音合成系統(tǒng)被初始化時，會加載多音字詞表模塊60和壓縮語音庫模塊70，并在程序中為壓縮語音庫建立一個快速索引表，以備圖4中步驟110使用；如圖3所示，該語音合成系統(tǒng)在線部分退出時，會執(zhí)行如圖2相反的步驟，即刪除所建立的快速索引表，并卸載多音字詞表模塊60和壓縮語音庫模塊70。
為了更好地說明圖4中所示該語音合成系統(tǒng)(在線部分)的主要合成步驟，下面以輸入文字內(nèi)容為“歡迎使用語音手機通，請問您想查誰的電話？”為例，描述合成語音的生成過程。
首先，步驟100通過手機操作系統(tǒng)輸入上述文字；步驟110，根據(jù)接收到的上述文本字信息，通過文本及多音字處理模塊10得到該文字所對應的符號序列，該符號序列包括拼音以及一些表示例如停頓的特殊符號。該實施例中生成的符號序列為“huan1 ying2 shi3 yong4 yu3 yin1 shou3 ji1 tong1@dhqing3 wen4 nin1 xiang3 cha2 shui2 de0 dian4 hua4@wh”。該步驟110的處理包括將文字轉換成其所對應的正確的發(fā)音，針對一字多音的情況，根據(jù)文字內(nèi)容的上下文，通過查找系統(tǒng)初始化步驟預先加載的多音字詞表模塊60，來得到要合成的文字中的多音字的正確的拼音，比如，“查”就有兩個發(fā)音，“cha2”和“zha1”，通過分析多音字詞表得出，只有在姓氏中才念成“zha1”，所以該字的正確發(fā)音應是“cha2”。除了對多音字處理之外，該步驟110還對比如標點符號等做了特殊的處理并標記以自定義的特殊符號以便后續(xù)步驟中合成出更好的語音，比如該例中，逗號被標記成“@dh”，問號被標記成“@wh”；步驟120，利用該系統(tǒng)初始化步驟中所建立的索引表，將符號序列轉換成預先存儲在壓縮語音庫中對應于該符號的碼字序列，該例中，“huan1”的原始語音所對應的壓縮后的碼字序列記為$huan1($huan1其中包含表示發(fā)音huan1的多個CELP編碼的子碼字)從壓縮語音庫中首先被提取出來，接著是“ying2”的，以此類推，最終的碼字序列為“$huan1，$ying2，$shi3，$yong4，$yu3，$yin1，$shou3，$ji1，$tong1，$@dh，$qing3，$wen4，$nin1，$xiang3，$cha2，$shui2，$de0，$dian4，$hua4，$@wh”；步驟130，通過語音解碼算法將每一個碼字，比如$huan1，還原成其所對應的語音信號的數(shù)字表示，也就是原始語音片斷的波形，記為#huan1，其余的碼字處理與此相同。其中，對于$@dh的處理是要在兩個子句的連接時插入例如300毫秒的停頓(即無聲的語音斷)，記為#silence300；而對$@wh的處理是要將整句合成語音的音調(diào)在句尾即“誰”字上升高，使得合成的語音更像一個疑問句，記為#pitchup，因此，本實施例中該步驟130的輸出是“#huan1，#ying2，#shi3，#yong4，#yu3，#yin1，#shou3，#ji1，#tong1，#silence300，#qing3，#wen4，#nin1，#xiang3，#cha2，#shui2，#de0，#dian4，#hua4，#pitchup”；步驟140，首先將還原出的所有語音片斷直接拼接在一起，也就是將波形#ying2直接接在#huan1之后，而#shi3直接接在#ying2之后，以此類推。然后按照時域-基音同步疊加算法TD-PSOLA對直接拼接在一起的語音波形做后處理。該實施例中對于#pitchup處理是將整句語音中出現(xiàn)在該標記前的一個字即“誰”字，根據(jù)TD-PSOLA算法升高它的音調(diào)(即基頻)，使得合成的語音更像一個疑問句。
步驟150，最終，將最后處理過的合成語音輸出。
下面進一步說明圖3給出了該語音合成系統(tǒng)離線部分創(chuàng)建壓縮語音庫的步驟。
步驟200，程序創(chuàng)建一個空的語音庫；步驟210，每次從原始語音庫中讀入一個原始語音片斷，比如一個漢字的音節(jié)；步驟220，通過采用碼速率為4.8kbps的碼激勵線性預測(CELP)算法將該段語音壓縮成能代表該段語音的碼字序列。比如，“huan1”的發(fā)音的壓縮后的碼字序列標記為$huan1，其中包含表示該發(fā)音的CELP的碼字序列(該碼字序列通過CELP解壓縮算法就可以還原出聽起來與“huan1”大體一致的發(fā)音)。
步驟230，為該段語音碼字序列建立一個索引標記并將該標記如$huan1和其CELP碼字序列一起放入新建立的壓縮語音庫；步驟240，判斷是否處理完全部的原始語音庫，即是否處理完所有漢語的音節(jié)及標點符號，如果是，則離線部分程序結束；如果否，則返回步驟210，重復步驟210、步驟220、步驟230和步驟240，直到處理完全部原始語音庫。
本發(fā)明在手持式移動通信設備，如手機上的應用，可以為手機實現(xiàn)多種語音輸入功能。例如，基于本發(fā)明的系統(tǒng)支持用戶自己定制某些功能菜單下的個性化的提示語音，從而使得用戶手持設備更具個人特色。比如收到短信后，用戶可以通過菜單(包括語音通)定制系統(tǒng)提示“快點兒看xx的信”或“你有信了”等等；又比如對某些較長的提示可以定制用戶自己喜歡的短語等。具體來說用戶通過設備菜單可以將相同的控制操作定義成不同的提示信息(如上例收到短信)，當手機判斷出用戶需要語音提示時就會調(diào)用語音合成系統(tǒng)完成用戶所希望的文本信息語音輸出。
本發(fā)明涉及一種語音合成方法和系統(tǒng)，能夠直接應用于手持數(shù)字移動設備如手機、PDA上而無需增添新的資源。該方法和系統(tǒng)可以充分利用手持設備本身的資源，從而大大降低語音合成系統(tǒng)所占用的系統(tǒng)資源。依據(jù)本發(fā)明的語音合成系統(tǒng)占用的總資源(包括音庫和系統(tǒng)動態(tài)內(nèi)存)不到500K字節(jié)，計算復雜度小于5MIPS，能夠運行在當前主流的手機之中。
本發(fā)明在手機上應用時，所有語音功能均可以隨時在手持設備上啟用或關閉。在沒有啟用語音功能時，原手持設備的各種功能將不受任何影響。語音功能啟用或關閉可以通過手持設備上的按鍵、或是手持設備菜單中的某項設置、或是語音命令直接完成。
上述的實施例，僅為本發(fā)明的較佳實施例，并非是對本發(fā)明的限定，本發(fā)明的應用不僅限于手機，而且可以應用到多種手持式移動通信設備，而且該語音合成方法不僅可以適用于中文漢字，而且可以適用其他東方文字，如日文文字和韓文文字。根據(jù)本發(fā)明的主要構思，本領域普通技術人員均可以產(chǎn)生多種相類似的或等價的應用，因此，本發(fā)明的保護范圍應以權利要求的保護范圍為準。
權利要求
1.一種嵌入式語音合成方法，用于手持式數(shù)字移動通信設備操作系統(tǒng)將文字信號轉換成語音信號進行回放，其特征在于包括如下步驟A、文本輸入步驟，用于通過所述通信設備操作輸入文本文字；B、文本分析步驟，用于分析輸入文本的格式和內(nèi)容并將輸入的文字轉換成相應的拼音符號，形成拼音符號序列輸出；C、碼字序例生成步驟，用于接收所述拼音符號序列，并通過檢索預設的壓縮語音庫得到所述拼音序列對應壓縮語音的碼字序列輸出；D、語音解碼步驟，用于接收所述壓縮語音的碼字序列，利用與壓縮語音庫壓縮算法相對應的解壓算法還原出未經(jīng)壓縮的原始語音的數(shù)據(jù)信號，并所述語音數(shù)據(jù)信號輸出；E、波形拼接合成步驟，用于將所述語音數(shù)據(jù)信號片斷進行波形拼接在一起，作平滑處理后輸出；F、數(shù)字語音信號輸出步驟，用于將合成的整句文字信息的語音信號輸出。
2.根據(jù)權利要求1所述的嵌入式語音合成方法，其特征在于所述文本分析步驟還進一步包括多音字處理步驟，根據(jù)輸入文字內(nèi)容的上下文，通過查找預設的多音字表，得到所述文字中多音字正確的拼音。
3.根據(jù)權利要求1所述的嵌入式語音合成方法，其特征在于在所述碼字序例生成步驟中，所述壓縮語音庫中存儲經(jīng)編碼壓縮/包裝的數(shù)字化語音信號，所述數(shù)字化語音信號包括有所有漢語/日文/韓文音節(jié)以及特殊文字、數(shù)字、符號的原始發(fā)音經(jīng)模/數(shù)轉換后的數(shù)字化語音信號。
4.根據(jù)權利要求1、2或3所述的嵌入式語音合成方法，其特征在于在所述碼字序例生成步驟中，是通過建立一個快速索引表來檢索所述壓縮語音庫的。
5.根據(jù)權利要求4所述的嵌入式語音合成方法，其特征在于所述預設的壓縮語音庫是通過如下步驟生成的步驟一，創(chuàng)建一個空的語音庫；步驟二，每次從原始語音庫中讀入一個原始語音片斷；步驟三，通過語音壓縮算法將該段語音壓縮成能代表所述段語音的碼字序列；步驟四，為該段語音碼字序列建立一個索引標記并將該段標記和碼字序列一起放入新建立的壓縮語音庫；步驟五，判斷是否處理完全部的原始語音庫，如果是，則離線部分程序結束；如果否，則返回步驟二重復步驟二、三、四和步驟五，直到處理完全部原始語音庫。
6.一種嵌入式語音合成系統(tǒng)，設置于手持數(shù)字移動通訊設備的操作系統(tǒng)，其特征在于，包括一輸入模塊，用于操作所述設備的操作系統(tǒng)輸入文本信息，并將所述文本信息輸出；一文本分析模塊，用于分析接收的所述文本信息格式和內(nèi)容并將其轉換成拼音符號后輸出；一碼字序列生成模塊，用于接收所述文本分析模塊輸出的拼音符號序列，并將通過檢索內(nèi)設的壓縮語音模塊得到所述拼音序列對應壓縮語音的碼字序列輸出；一語音解音碼模塊，用于接收所述碼字序列，利用與壓縮語音模塊壓縮算法相對應的解壓算法還原所述碼字序列，并將還原出未經(jīng)壓縮的原始語音的數(shù)據(jù)信號輸出；一波形拼接合成模塊，用于將所述語音數(shù)據(jù)信號片斷進行波形拼接在一起，作平滑處理后輸出數(shù)字語音信號。
7.根據(jù)權利要求6所述的嵌入式語音合成系統(tǒng)，其特征在于，還進一步包括一多音字處理模塊，用于根據(jù)內(nèi)設的多音字詞表模塊所提供的信息查找所要分析的輸入文本中有無多音字，并根據(jù)文本分析結果為輸入文本中具有多音的漢字確定一個正確的發(fā)音。
8.根據(jù)權利要求7所述的嵌入式語音合成系統(tǒng)，其特征在于還進一步包括有數(shù)字與特殊字符處理模塊，用于將接收的數(shù)字與特殊字符轉換成拼音符號后輸出。
9.根據(jù)權利要求6、7或8所述嵌入式語音合成系統(tǒng)，其特征在于所述壓縮語音模塊進一步包括存儲所有述漢字/日文字/韓文字音節(jié)的壓縮語音庫和用于快速檢索所述壓縮語音庫的索引表。
10.根據(jù)權利要求9所述嵌入式語音合成系統(tǒng)，其特征在于所述壓縮語音庫還包括特殊符號的碼字，所述特殊符號包括數(shù)字、標點以及自定義的表示語音停頓、語法、語氣含義的標記。
11.根據(jù)權利要求6、7、8或10所述嵌入式語音合成系統(tǒng)，其特征在于在所述設備的系統(tǒng)資源中，所述嵌入式語音合成系統(tǒng)占用的資源在500K字節(jié)以內(nèi)，計算復雜度小于5MIPS。
全文摘要
本發(fā)明公開了一種嵌入式語音合成方法及系統(tǒng)，用于手持數(shù)字移動通訊設備的操作系統(tǒng)，通過在該操作系統(tǒng)中加載文本分析模塊、碼字序列生成模塊、語音解音碼模塊輸入模塊和波形拼接合成模塊，可以使輸入的文本信息轉換成數(shù)字語音信號輸出。該方法和系統(tǒng)可以充分利用該設備本身的資源，從而大大降低語音合成系統(tǒng)所占用的系統(tǒng)資源。依據(jù)本發(fā)明的語音合成系統(tǒng)占用的總資源不到500K字節(jié)，計算復雜度小于5MIPS，能夠運行在當前主流的手機之中。
文檔編號G10L13/00GK1455386SQ0214665
公開日2003年11月12日申請日期2002年11月1日優(yōu)先權日2002年11月1日
發(fā)明者劉建, 汪俊杰, 顏永紅, 張建平申請人:中國科學院聲學研究所, 北京中科信利技術有限公司

完整全部詳細技術資料下載