国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種動態(tài)漢語語音合成方法

      文檔序號:6560845閱讀:367來源:國知局
      專利名稱:一種動態(tài)漢語語音合成方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及一種語音合成技術(shù),特別是涉及一種基于大規(guī)模自然語音音庫的動態(tài)漢語語音合成技術(shù)。
      目前,國內(nèi)外語音合成技術(shù)主要有參數(shù)合成技術(shù)和波形合成技術(shù)兩種。波形合成技術(shù)又分為簡單波形拼接技術(shù)和基音同步波形疊加技術(shù)兩種。
      從理論上講參數(shù)合成技術(shù)是合理的,但這種技術(shù)過分依賴于語言學(xué)和語音學(xué)的發(fā)展,由于言語生成模型不夠完善,合成語音的音質(zhì)總是不盡人意。
      應(yīng)用參數(shù)合成技術(shù)的資料可參閱中國重大科技成果數(shù)據(jù)庫(1986—今),1.編號851408,四川大學(xué)楊家沅等的研究成果“計算機漢語語音合成裝置”;2.編號880759,四川大學(xué)茍大舉等的研究成果,“無限詞匯的計算機漢語語音合成系統(tǒng)”;3.編號912209,復(fù)旦大學(xué)李宗葛等的研究成果“人—機器人漢語語音通信系統(tǒng)研究”。
      波形拼接技術(shù)在用于語音表公共汽車報站器等有限詞匯合成時,能合成出清晰、自然的語音。但簡單的波形拼接法用于無限詞匯的漢語文語轉(zhuǎn)換系統(tǒng)時,由于不能改變原始采樣波形的聲學(xué)參數(shù),以使其適應(yīng)于不同的上下文語言環(huán)境,所以使得合成出的連續(xù)語音的自然度較差。
      應(yīng)用波形拼接合成技術(shù)的資料可查閱1.中國發(fā)明專利ZL94103372,發(fā)明人清華大學(xué)蔡蓮紅等,發(fā)明名稱“基于波形編輯的漢語文字—語音轉(zhuǎn)換方法及系統(tǒng)”;2.中國重大科技成果數(shù)據(jù)庫,a.編號891728,復(fù)旦大學(xué)邵祥義等的研究成果“漢語語聲識別及合成技術(shù)開發(fā)”;b.編號941008,清華大學(xué)蔡蓮紅等的研究成果,“漢語文語轉(zhuǎn)換系統(tǒng)TH-Speech”;3.中國適用技術(shù)數(shù)據(jù)庫(1983—今),編號199012,同濟大學(xué)邵祥義等的研究成果“漢語語聲識別及合成技術(shù)開發(fā)”。
      利用基因同步波形疊加方法在時間域中調(diào)節(jié)韻律參數(shù),對提高自然度有一定作用,但處理后的聲音和音色與原始發(fā)音不完全相同,有機器聲、回聲,聽起來不夠親切和清晰,也很難為公眾所接受。相關(guān)文獻見中國實用新型專利ZL 97215108,發(fā)明人呂士楠等,發(fā)明名稱為“基音同步波形疊加漢語文語轉(zhuǎn)換裝置”。
      本發(fā)明的目的是針對現(xiàn)有的利用參數(shù)合成、簡單波形拼接合成以及基音同步疊加技術(shù)的語音合成所存在的缺陷和不足,采用一種基于拼接自然言語片段的無限詞匯動態(tài)漢語語音技術(shù),提供一種高清晰度和高自然度的漢語文語轉(zhuǎn)換系統(tǒng),即以自然語音的音色和韻律將漢字文本變成語音的播放系統(tǒng)。該系統(tǒng)以大規(guī)模的自然語音的數(shù)字化錄音為基礎(chǔ),通過選取相匹配的語音片段的拼接,以達到合成為自然、流暢的漢語語音的目的。
      本發(fā)明主要基于大規(guī)模自然語音的錄音音庫。大規(guī)模的概念是指錄音音庫的范圍基本覆蓋了絕大多數(shù)上下文環(huán)境中的各種發(fā)音的情況,針對不同的上下文環(huán)境,系統(tǒng)將選取最匹配的原始語音片段來加以拼接。由于音庫的規(guī)模很大,因此在幾乎所有情況下,都能夠找到最適合的原始自然語音,而無需使用其它技術(shù)進行調(diào)節(jié),因此保證了最終合成的語音和原始語音的一致性。另外,這里所選取的片段超越了音節(jié)的層次,而是多字詞,這樣就進一步保證了合成語音的自然度。本發(fā)明的技術(shù)方案主要分為兩部分一是大規(guī)模錄音音庫的構(gòu)造,二是語音的合成。
      在大規(guī)模錄音音庫的構(gòu)造過程中,主要包括以下幾個步驟首先,進行錄音文本設(shè)計(即擬定錄音的內(nèi)容)。通過計算機從一個大規(guī)模語料庫(1999年人民日報,約2500萬字)中檢索高頻度的漢語語句,再由人工確認(rèn)并淘汰不合適的語句。在此檢索結(jié)果上構(gòu)造錄音文本,以保證根據(jù)此錄音文本錄制的音庫具有較高的覆蓋率,既能夠覆蓋所有的漢語基本音節(jié),包括常見的輕聲、兒化音節(jié)和絕大多數(shù)的上下文語言環(huán)境,如句法結(jié)構(gòu)及語法重音配置等。
      第二步,擬定錄音內(nèi)容后。請一位專業(yè)播音員在專用的錄音室中進行錄音,房間的混響時間為0.5秒左右,信噪比高于30分貝,用高保真話筒和放大器,要求從20Hz~20KHz間有平坦的響應(yīng)。要求播音員按照正常的速度和音高朗讀所擬定的錄音文本。用數(shù)字錄音機和數(shù)字錄音磁帶采用16位量化,不低于16KHz采樣率進行錄音。同時采用電聲門波圖儀記錄聲門振動的信號,并記錄在數(shù)字錄音磁帶上。
      第三步,由人工將上述得到的錄音信號,從數(shù)字錄音機中通過采樣卡采到計算機中,由此便得到真實錄音的語音庫。同時將聲門振動的信號也采樣到計算機中。
      第四步,得到真實錄音的語音庫后,由實驗室人工對每句的韻律層次結(jié)構(gòu)(三級結(jié)構(gòu)韻律詞、韻律短語和語調(diào)短語)進行分析。以音節(jié)為最小單位,標(biāo)注出每個音節(jié)在聲音文件中的起、止點位置,音節(jié)所在句的編碼,音節(jié)在詞中的位置,詞在韻律短語中的位置,韻律短語在語調(diào)短語中的位置以及語調(diào)短語在句中的位置等。將這些信息保留為計算機中的庫文件,形成真實語音的索引庫。
      第五步,對前述的聲門振動信號進行聲學(xué)分析和聚類分析。通過計算機從聲門振動的信號中提取每個音節(jié)的基頻(70~400Hz)和音長(130~400ms)。根據(jù)每個音節(jié)的基頻信息和音長信息進行聚類,淘汰一些相似的或重復(fù)的音節(jié),只保留具有典型特征的音節(jié),以得到經(jīng)過精簡后的語音庫。根據(jù)不同需要,可以選擇不同的淘汰閾值,這樣對每個音節(jié)來說,可以包含不同的音節(jié)樣本數(shù)目,以得到不同大小規(guī)模的語音庫。
      最后,對語音庫進行壓縮,此步為了適合嵌入式系統(tǒng)內(nèi)存較少的應(yīng)用環(huán)境,可根據(jù)需要對語音數(shù)據(jù)進行壓縮。例如采用G.729等語音壓縮國際標(biāo)準(zhǔn)來對所得到的語音庫進行壓縮,壓縮比可達到16∶1左右。
      語音合成過程主要包括以下幾個步驟首先,通過計算機設(shè)置初始的合成參數(shù),目前的合成參數(shù)有音庫(男聲庫或女聲庫)、語速(10級)、數(shù)字讀法(電報讀法或數(shù)目讀法)、是否閱讀標(biāo)點等。
      第二步,通過計算機對文本進行切分,即利用標(biāo)點信息(逗號、句號、問號、感嘆號、分號、冒號等)將輸入的文本文件切分為短句。同時提取用戶輸入的標(biāo)注信息,標(biāo)注是用戶控制文語轉(zhuǎn)換效果的一種高級手段,通過標(biāo)注可以控制合成參數(shù)或多音字的特殊讀法等。
      例如中儲股份(\digit=2\600787\digit=\)\speed=6\公司近期在資產(chǎn)運做方面加快了步伐,但該股短期可能還有一次回調(diào)\read=tiao2\過程。將被切分為三個短句(1)中儲股份(600787)(2)公司近期在資產(chǎn)運做方面加快了步伐,(3)但該股短期可能還有一次回調(diào)過程。
      根據(jù)上述標(biāo)注,600787將按照電報方式讀出(即讀成六零零七八七),而不會按初始缺省的數(shù)目方式讀出(即讀成六十萬零七百八十七)。讀完后將數(shù)字讀法置回缺省值?;卣{(diào)的“調(diào)”字會讀成“條”的音,而不會讀成“吊”的音。從第二個短句開始,語速將改變到第6級。
      文本切分后,由計算機進行文本的預(yù)處理預(yù)處理主要包括數(shù)字處理和符號轉(zhuǎn)換,也即將數(shù)字、符號轉(zhuǎn)換成相應(yīng)的中文讀法。a數(shù)字處理對數(shù)字處理來說,如果有用戶的標(biāo)注,將按照用戶的標(biāo)注進行轉(zhuǎn)換,如果沒有用戶標(biāo)注,將會根據(jù)上下文來進行自動判斷。例如2001年,我市人均收入將超過4000元。2001將按照數(shù)字讀法(即二零零一),4000按照數(shù)目讀法(即四千)。昨晚2117,孔令輝以21∶17勝了第三局。第一個2117將按照時間來讀取(即讀成二十一點十七分),第二個21∶17將按照比分來讀取(即讀成二十一比十七)。b符號轉(zhuǎn)換根據(jù)上下文判斷符號的讀法,轉(zhuǎn)換為相應(yīng)的中文讀法。例如“.”有時做為小數(shù)點,有時做為句號(英文)。“-”有時做為減號,有時做為“到”(如1-5%)?!?”可以做為“除以”,也可能是“每”(如100m/s)。
      第三步計算機對預(yù)處理后的文本進行韻律層次結(jié)構(gòu)分析,即計算機根據(jù)上下文的環(huán)境,進行韻律層次結(jié)構(gòu)分析,得到多層韻律層次結(jié)構(gòu),包括詞、韻律短語和語調(diào)短語等。其中包括分詞、歧義處理、詞綴處理、姓名判定、未登錄詞判定、韻律短語判定、語調(diào)判定等。a分詞本發(fā)明中采用的分詞方法是雙向最大匹配法。也即對需要分詞的短語進行正向的和逆向的最大匹配,如果一致的地方則得到了切分結(jié)果,如果不一致的地方認(rèn)為是歧義字段,再對歧義字段作進一步處理。例如“這件事一時的確定不下來”的正、逆向分詞結(jié)果分別為正向這件/事/一時/的確/定/不/下來逆向這件/事/一時/的/確定/不/下來因此,此文本中有一個歧義字段“的確定”,其它部分都已得到正確的分詞結(jié)果。b歧義處理本發(fā)明中采用的歧義處理主要是詞性法,也即對于該歧義字串內(nèi)提供首字和末字的詞性信息(主要是介詞、副詞、助詞、連詞等)進行切分,如果不能滿足切分規(guī)則的,則使用逆向最大分詞的結(jié)果。例如從中國從/中國;表面的表面/的;需求和需求/和;c詞綴處理本發(fā)明中的詞綴處理是指建立一虛詞庫,收錄了常見的詞綴信息。按照規(guī)則將未組詞的詞綴單字賦予前粘、后粘或者單字屬性,以便在選音時可以根據(jù)此屬性選擇更匹配的音。例如要&gt;獲取/幫助&lt;和&gt;疑難/解答,請&gt;登錄/我們&lt;的/網(wǎng)站其中“要、請”被賦予后粘屬性,“的”被賦予前粘屬性?!昂汀北毁x予單字屬性。d姓名和未登錄詞判定本發(fā)明對于未組詞的單字近一步判斷其是否是姓氏。如果可能是姓氏,同時根據(jù)上下文關(guān)系判斷是否是真實的姓名。另外,對于連續(xù)的單字將做為未登錄詞處理,按照二三原則分開。e韻律短語切分判斷前停詞(例如“不是”“而是”、)后停詞(例如“說”、“講”),在人們閱讀到這些詞的時候一般要做明顯的停頓,再根據(jù)人大致說7個字左右需要進行呼吸的特點,進行韻律短語切分。f語調(diào)判定根據(jù)句尾的標(biāo)點來標(biāo)定整個語句的語調(diào)模式。以便后面的選音過程能根據(jù)此屬性選取更匹配的音節(jié)樣板。
      第四步,計算機根據(jù)韻律層次結(jié)構(gòu)分析的結(jié)果,在大規(guī)模錄音音庫中搜索到最匹配的錄音片段。主要包括如下幾方面a獲得拼音將切分好的文本轉(zhuǎn)化成為拼音碼。b多音字處理多音字如果分詞時屬于某個詞,即可從詞庫中得到它的正確拼音。如果是單字,則對某些特殊的字根據(jù)上下文進行判斷。例如“重”如果前面是數(shù)字,則讀“蟲”音,否則讀“眾”音。如果不在這些特殊的字中間,則采用默認(rèn)的拼音。c音變在語流中,連著讀的音節(jié)或聲調(diào)有時會發(fā)生變化。這里主要處理了變調(diào)、輕聲、兒化等,根據(jù)實現(xiàn)擬定的規(guī)則,將拼音碼改變。d最長匹配對得到的一串連續(xù)的拼音碼,在音庫中進行最長匹配,搜索能夠盡量匹配的短語或詞。如果能搜索到,則直接使用能夠匹配的短語或詞。e選音如果不能通過最長匹配得到音節(jié)樣本,則需要通過一些屬性從音庫中搜索最合適的樣本。這些屬性包括這個音節(jié)是在詞首、詞中、詞尾還是單字詞;這個音節(jié)所在的詞是在句首、句中還是句末;這個音節(jié)前面和后面的聲調(diào)是什么,也即調(diào)連屬性;這個音節(jié)前面的韻母和后面的聲母是什么,也即音連屬性;這個音節(jié)的前粘、后粘屬性;這個音節(jié)所在韻律短語的位置,這個音節(jié)所在語句的語調(diào)模式;第五步,由計算機將得到的音段拼接成語句。并且做如下處理a對于連接處進行加窗處理,使前一個音節(jié)的尾部緩降到0,后一個音節(jié)的開始部分從0緩升,以使相鄰音節(jié)的語音特征不會有突變。b對韻律層次結(jié)構(gòu)的邊界處增加靜音段,根據(jù)不同的韻律層次結(jié)構(gòu)的邊界,將增加不同長度的靜音段,以基本符合人們朗讀時的停頓情況。通過拼接和平滑的過程,就可以得到準(zhǔn)確、清晰、流暢、自然的連續(xù)語音。
      第六步,計算機將得到的連續(xù)語音通過聲卡輸出。
      本發(fā)明可以將計算機接收到的或內(nèi)部產(chǎn)生的信息通過語音的方式播放出來,擺脫了目前人們對計算機屏幕的視覺依賴,可以通過“聽”來獲取計算機中的信息,同時有利于通過電話進行信息傳輸,為計算機提供新的人機接口。這種新的計算機信息輸出方式適用于臺式計算機、掌上電腦和車載移動通信系統(tǒng),也可用于機場、碼頭和車站的自動播音系統(tǒng),各種信息自動咨詢系統(tǒng),殘疾人的助講、助讀以及辦公自動化系統(tǒng)等方面。
      本發(fā)明結(jié)合附

      圖1說明如下圖1為系統(tǒng)流程圖,其中1.設(shè)置初始合成參數(shù)2.文本切分和預(yù)處理3.韻律層次結(jié)構(gòu)分析4.選音5.波形拼接6.播放合成結(jié)果7.進行結(jié)束選擇8.構(gòu)造音庫初始化9.錄音文本設(shè)計10.錄音11.采樣12.切分和標(biāo)注13.聲學(xué)分析和聚類分析14.壓縮15.形成語音庫本發(fā)明的技術(shù)方案可以在PC機WINDOWS、NT和WIN-CE操作系統(tǒng)環(huán)境下實現(xiàn)。這里介紹本發(fā)明的技術(shù)方案是在一臺帶聲卡的586IBM/PC兼容機WINDOWS操作系統(tǒng)環(huán)境下具體實現(xiàn)的。
      首先進行錄音文本設(shè)計,通過對1999年人民日報進行檢索,選出高頻語句。由計算機得到初始的檢索結(jié)果共計10000句,再由人工確認(rèn)并淘汰不合適語句。并人工追加了常用的兒化音句、常用輕聲句等其它常用音節(jié)樣本。
      錄音文本的組成為高頻語句9912句常用兒化音句290句常用輕聲句 380句常用英文單詞251個數(shù)字、數(shù)字串 1271個英文字母組合串 1216個希臘字母 24個標(biāo)點符號的漢語讀音 21個第二步進行錄音,由一位廣播學(xué)院高年級女生按新聞廣播風(fēng)格朗讀選定語句,廣播學(xué)院錄音室錄音。錄音時使用數(shù)字錄音機,并采用16位量化,44.1KHz采樣率進行錄制。從數(shù)字錄音機轉(zhuǎn)存到計算機上時,降采樣到16KHz,以減小數(shù)據(jù)量。得到的音庫共計2G左右大小。
      第三步進行切分和標(biāo)注,在實驗室由人工完成。得到相應(yīng)的每個音節(jié)的位置和韻律特征屬性,并保存在一索引庫中。
      第四步進行聲學(xué)分析和聚類分析,通過計算機提取聲學(xué)參數(shù)(基頻和音長),對不同的音節(jié)做聚類分析,保留典型音節(jié),淘汰重復(fù)音節(jié),由機器和人工結(jié)合完成。使用不同的閾值,可以得到兩個版本的音庫,一是700M左右,二是12M左右。12M的庫再通過G.729壓縮可以壓縮到1M以下,即可適應(yīng)嵌入式系統(tǒng)應(yīng)用的要求。
      第五步進行切分和預(yù)處理,對于任意輸入的文本文件,計算機對文本進行切分和預(yù)處理??偨Y(jié)了大量實際文本中的數(shù)字和符號出現(xiàn)的方式,定義了一些行之有效的規(guī)則,利用這些規(guī)則自動判斷數(shù)字和符號的讀法。
      第六步進行韻律層次結(jié)構(gòu)分析,即計算機對預(yù)處理后的文本進行韻律層次結(jié)構(gòu)分析。在系統(tǒng)中有六萬詞的詞庫,以供分詞使用。另外有單字屬性庫,對每個GB范圍的漢字都記錄它的一些屬性例如是否動詞,是否副詞,是否介詞,是否可做量詞,是否詞綴(前粘、后粘、單字),是否姓氏,是否常用姓氏,是否常用名,是否是地名分界詞等。另外,還有常見的稱謂庫,前停、后停詞庫等,以供韻律層次結(jié)構(gòu)分析時使用。
      第七步計算機根據(jù)韻律層次結(jié)構(gòu)分析的結(jié)果,從大規(guī)模錄音音庫中選擇最匹配的錄音片段,可能是通過最長匹配獲得的詞或短語,也可能是根據(jù)韻律層次結(jié)構(gòu)分析獲得的屬性而從音庫中選取的最合適的音節(jié)樣本。
      第八步將得到的音段拼接成語句,對相鄰的音節(jié)做加窗處理,在首尾各加10ms的三角窗,根據(jù)韻律層次結(jié)構(gòu)的邊界增加不同長度的靜音段,在詞間增加10ms,在韻律短語間增加100ms,在冒號后增加200ms,在分號后增加400ms,在逗號間增加300ms,在陳述句后增加600ms,在疑問和感嘆句后增加800ms。這樣就可以得到準(zhǔn)確、清晰、流暢、自然的連續(xù)語音。
      第九步計算機將得到的連續(xù)語音通過聲卡播出。
      本發(fā)明與現(xiàn)有技術(shù)相比具有以下優(yōu)點1.無限詞匯漢語合成,發(fā)音準(zhǔn)確、清晰、自然。
      2.具有混合中英文文本播放功能。
      3.有從2G至1.5M不同大小規(guī)模的音庫可供選擇。
      4.語音庫和運行程序可壓縮到1.5MB,可以以嵌入式方式植入掌上電腦。
      權(quán)利要求
      一種基于大規(guī)模自然語音音庫的動態(tài)漢語語音合成方法,其特征包括1.通過計算機檢索,設(shè)計較高覆蓋率的錄音文本的步驟;
      2.通過人工錄音得到大規(guī)模的真實錄音的原始語音庫的步驟;
      3.通過實驗室計算機和人工結(jié)合完成,用于對句子的韻律層次結(jié)構(gòu)進行切分和標(biāo)注的步驟;
      4.通過計算機聲學(xué)分析、聚類分析和壓縮技術(shù),用于得到不同大小規(guī)模語音庫的步驟;
      5.通過計算機自動進行韻律層次結(jié)構(gòu)分析,得到多級的韻律層次結(jié)構(gòu)(韻律詞、韻律短語、語調(diào)短語)的步驟;
      6.通過計算機進行選音,包括最長匹配或根據(jù)韻律分析得到的韻律結(jié)構(gòu),從大規(guī)模真實錄音語音庫中選取最匹配的語音片段的步驟。
      全文摘要
      一種高清晰度和高自然度的漢語無限詞匯語音合成方法,和一個實用的漢語文本播放系統(tǒng),它能將漢語文本轉(zhuǎn)換成流暢的漢語口語輸出?;痉椒ㄊ?收集大量的常用語句的錄音,經(jīng)聲學(xué)分析,韻律層級標(biāo)注,語音選擇,建立語音庫。然后由計算機對待播放的文本作出韻律層級分析,檢索語音庫中匹配語音音段,再拼接成準(zhǔn)確、清晰、自然的連續(xù)語言。它具有數(shù)學(xué)運算少,能實時處理;占用計算機內(nèi)存可壓縮,可植入掌上電腦,輸出語音準(zhǔn)確、清晰、流暢,接近自然語言的特點。適用于臺式計算機、掌上電腦和車載移動通信系統(tǒng),可用于機場、碼頭和車站的自動播音系統(tǒng),各種信息自動咨詢系統(tǒng),殘疾人的助講、助讀以及辦公自動化系統(tǒng)等方面。
      文檔編號G06F17/30GK1333501SQ01123418
      公開日2002年1月30日 申請日期2001年7月20日 優(yōu)先權(quán)日2001年7月20日
      發(fā)明者呂士楠, 陳明, 張連毅, 賀琳, 耿俊成 申請人:北京捷通華聲語音技術(shù)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1