一種啞語轉(zhuǎn)換語音系統(tǒng)的制作方法

文檔序號：2827625閱讀：1473來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種啞語轉(zhuǎn)換語音系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種啞語轉(zhuǎn)換語音系統(tǒng)，包括3D掃描設(shè)備、數(shù)據(jù)儲存處理系統(tǒng)、語音合成模塊三部分，該啞語轉(zhuǎn)換語音系統(tǒng)通過3D掃描設(shè)備掃描人體骨骼，得到一段時(shí)間內(nèi)的骨骼動作的掃描數(shù)據(jù)；數(shù)據(jù)儲存處理系統(tǒng)將掃描數(shù)據(jù)與數(shù)據(jù)庫中預(yù)存的骨骼動作的存儲數(shù)據(jù)進(jìn)行對比，當(dāng)掃描數(shù)據(jù)與存儲數(shù)據(jù)吻合時(shí)，將數(shù)據(jù)庫中預(yù)存的存儲數(shù)據(jù)所對應(yīng)的含義發(fā)送至語音合成模塊生成語音并播放。該系統(tǒng)能夠?qū)≌Z手勢自動轉(zhuǎn)換為語音輸出，方便殘疾人與正常人之間的交流；意思轉(zhuǎn)換及表達(dá)準(zhǔn)確率較高，速度較快，并具有語氣模擬功能。
【專利說明】一種啞語轉(zhuǎn)換語音系統(tǒng)

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種將啞語手勢動作轉(zhuǎn)換為語音輸出的系統(tǒng)。

【背景技術(shù)】
[0002] 啞語又叫手語：手語是由于聾人交際的需要而產(chǎn)生的，它已作為聾人的一種語言，逐漸為人們所接受。手語包括手指語和手勢語。手指語是用手指的指式變化和動作代表字母，并按照拼音順序依次拼出詞語；在遠(yuǎn)古時(shí)代，全人類都處在簡單的有聲語言階段，常常用手做各種姿勢來表示意思，這樣的手勢大多數(shù)是指示性和形象性的動作，叫作自然手勢，此后，隨著社會的進(jìn)步，特別是聾教育的產(chǎn)生與發(fā)展，開始創(chuàng)造出具有語言性質(zhì)的手勢，這種在有聲語言和文字基礎(chǔ)上產(chǎn)生的，與有聲語言密切結(jié)合的手語，稱之為人為手勢。自然手勢和人為手勢結(jié)合成為手勢語。
[0003] 啞語雖然能夠完成掌握啞語的交流者之間的交流需要，但是在交流雙方只有一方掌握啞語的情況下，如殘疾人和正常人之間進(jìn)行交流時(shí)，啞語難以被正常人了解，還是存在交流障礙。
[0004] 3D掃描最早出現(xiàn)的是接觸式測量方法，代表是三維坐標(biāo)測量機(jī)，雖然精度達(dá)到微米量級（0.5mm)，但是由于體積巨大、造價(jià)高以及不能測量柔軟的物體等缺點(diǎn)，使其應(yīng)用領(lǐng) 域受到限制。于是出現(xiàn)了非接觸式測量方法，主要分兩類。
[0005] -類是被動方式，就是不需要特定的光源，完全依靠物體所處的自然光條件進(jìn)行掃描，常采用雙目技術(shù)，但是精度低，只能掃描出有幾何特征的物體，不能滿足很多領(lǐng)域的要求。
[0006] 另一類是主動方式，就是像物體投射特定的光，其中代表技術(shù)激光線式的掃描，精度比較高，但是由于每次只能投射一條光線，所以掃描速度慢。另外，由于激光會對生物體以及比較珍貴的物體造成傷害，所以不能應(yīng)用于某些特定領(lǐng)域。
[0007] 新興的技術(shù)是結(jié)構(gòu)光式的掃描，結(jié)構(gòu)光也屬于主動方式，通過投影或者光柵投射同時(shí)多條光線，就可以采取物體的一個(gè)表面，只需要幾個(gè)面的信息就可以完成掃描，最大的特點(diǎn)是3D掃描儀掃描速度快，而且可編程實(shí)現(xiàn)。
[0008] 還有一種是低頻脈沖波（低頻聲波）式原理，主要應(yīng)用于物位測量方面?；诙?維數(shù)組波束形成器傳送低頻脈沖，3D物位掃描儀接收來自筒倉、倉室或其他容室內(nèi)物料的回波。設(shè)備的數(shù)字信號處理器對接收到的信號進(jìn)行取樣和分析，通過估算回波到達(dá)的時(shí)間和方向，處理器形成一個(gè)物料表面的三維圖，這個(gè)圖像通過一種專有的計(jì)算方法對信息進(jìn) 行處理并生成3D圖象，可以在遠(yuǎn)端屏幕上顯示出來。
[0009] 語音合成，又稱文語轉(zhuǎn)換（Text to Speech)技術(shù)，能將任意文字信息實(shí)時(shí)轉(zhuǎn)化為標(biāo) 準(zhǔn)流暢的語音朗讀出來，相當(dāng)于給機(jī)器裝上了人工嘴巴。它涉及聲學(xué)、語言學(xué)、數(shù)字信號處理、計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科技術(shù)，是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù)，解決的主要問題就是如何將文字信息轉(zhuǎn)化為可聽的聲音信息，也即讓機(jī)器像人一樣開口說話。我們所說的"讓機(jī)器像人一樣開口說話"與傳統(tǒng)的聲音回放設(shè)備有著本質(zhì)的區(qū)別。傳統(tǒng)的聲音回放設(shè)備如磁帶錄音機(jī)，是通過預(yù)先錄制聲音然后回放來實(shí)現(xiàn)"讓機(jī)器說話"的。這種方式無論是在內(nèi) 容、存儲、傳輸或者方便性、及時(shí)性等方面都存在很大的限制。而通過計(jì)算機(jī)語音合成則可以在任何時(shí)候?qū)⑷我馕谋巨D(zhuǎn)換成具有高自然度的語音，從而真正實(shí)現(xiàn)讓機(jī)器"像人一樣開口說話"。
[0010] 文語轉(zhuǎn)換系統(tǒng)實(shí)際上可以看作是一個(gè)人工智能系統(tǒng)。為了合成出高質(zhì)量的語言，除了依賴于各種規(guī)則，包括語義學(xué)規(guī)則、詞匯規(guī)則、語音學(xué)規(guī)則外，還必須對文字的內(nèi)容有很好的理解，這也涉及到自然語言理解的問題。文語轉(zhuǎn)換過程是先將文字序列轉(zhuǎn)換成音韻序列，再由系統(tǒng)根據(jù)音韻序列生成語音波形。其中第一步涉及語言學(xué)處理，例如分詞、字音轉(zhuǎn)換等，以及一整套有效的韻律控制規(guī)則；第二步需要先進(jìn)的語音合成技術(shù)，能按要求實(shí)時(shí) 合成出高質(zhì)量的語音流。因此一般說來，文語轉(zhuǎn)換系統(tǒng)都需要一套復(fù)雜的文字序列到音素序列的轉(zhuǎn)換程序，也就是說，文語轉(zhuǎn)換系統(tǒng)不僅要應(yīng)用數(shù)字信號處理技術(shù)，而且必須有大量的語言學(xué)知識的支持。

【發(fā)明內(nèi)容】

[0011] 本發(fā)明的目的在于提供一種啞語轉(zhuǎn)換語音系統(tǒng)，能夠?qū)≌Z手勢自動轉(zhuǎn)換為語音輸出，方便殘疾人與正常人之間的交流。為此本發(fā)明采用的技術(shù)方案是，一種啞語轉(zhuǎn)換語音系統(tǒng)，其特征在于，包括3D掃描設(shè)備、數(shù)據(jù)儲存處理系統(tǒng)、語音合成模塊三部分，該啞語轉(zhuǎn) 換語音系統(tǒng)通過3D掃描設(shè)備掃描人體骨骼，得到一段時(shí)間內(nèi)的骨骼動作的掃描數(shù)據(jù)；數(shù)據(jù) 儲存處理系統(tǒng)將掃描數(shù)據(jù)與數(shù)據(jù)庫中預(yù)存的骨骼動作的存儲數(shù)據(jù)進(jìn)行對比，當(dāng)掃描數(shù)據(jù)與存儲數(shù)據(jù)吻合時(shí)，將數(shù)據(jù)庫中預(yù)存的存儲數(shù)據(jù)所對應(yīng)的含義發(fā)送至語音合成模塊生成語音并播放。
[0012] 優(yōu)選地，所述啞語轉(zhuǎn)換語音系統(tǒng)對掃描數(shù)據(jù)和儲存數(shù)據(jù)的完成相應(yīng)骨骼動作的時(shí) 間進(jìn)行對比，根據(jù)時(shí)間差異調(diào)整合成語音的語速快慢和/或音量大小。比如：數(shù)據(jù)庫中的存儲數(shù)據(jù)中，完成一個(gè)骨骼動作的時(shí)間是2秒；當(dāng)掃描數(shù)據(jù)中完成同一個(gè)骨骼動作的時(shí)間是 1. 8秒，則合成的語音的語速較為急促、音量較大；反之，則合成的語音的語速較為舒緩，音量較小。以實(shí)現(xiàn)對啞語者的語氣的模擬。語速和音量可以同時(shí)調(diào)整，也可以分別單獨(dú)調(diào)整。
[0013] 優(yōu)選地，根據(jù)使用者的實(shí)際骨骼動作的掃描數(shù)據(jù)，對所述數(shù)據(jù)庫中預(yù)存的骨骼動作的儲存數(shù)據(jù)進(jìn)行錄入更新。以提高識別速度和識別的準(zhǔn)確性。
[0014] 優(yōu)選地，所述數(shù)據(jù)儲存處理系統(tǒng)通過修改數(shù)據(jù)允許誤差值（即靈敏度），提高掃描數(shù)據(jù)與存儲數(shù)據(jù)對比的精準(zhǔn)度。
[0015] 本發(fā)明的有益效果在于，能夠?qū)≌Z手勢自動轉(zhuǎn)換為語音輸出，方便殘疾人與正常人之間的交流；意思轉(zhuǎn)換及表達(dá)準(zhǔn)確率較高，識別率可以達(dá)到99%以上；意思轉(zhuǎn)換及表達(dá)速度較快，使用現(xiàn)有普通合格處理器，即可達(dá)到感覺不到啞語和語音之間的延時(shí)的效果。該系統(tǒng)填補(bǔ)了市場空白，真正實(shí)現(xiàn)了聾啞人與正常人的無障礙交流，設(shè)備所用的技術(shù)都是經(jīng)過多年投入市場經(jīng)過檢驗(yàn)的成熟技術(shù)，3D掃描可靠性極高，能夠精準(zhǔn)識別，每秒30幀的識別速度可快速分辨出〇. 03秒一個(gè)的動作，并有錄入更新數(shù)據(jù)功能使設(shè)備能更加適合個(gè) 體使用，首創(chuàng)根據(jù)動作速度合成相對應(yīng)帶有語氣的合成語音，使設(shè)備更符合人體語音。能夠應(yīng)用到各種聾啞人需要用到語音表達(dá)的場合。
[0016] 下面將結(jié)合附圖和【具體實(shí)施方式】對本發(fā)明做進(jìn)一步說明。

【專利附圖】

【附圖說明】
[0017] 附圖為系統(tǒng)整體構(gòu)成及流程示意框圖。

【具體實(shí)施方式】
[0018] 所述啞語轉(zhuǎn)換語音系統(tǒng)包括3D掃描設(shè)備、數(shù)據(jù)儲存處理系統(tǒng)、語音合成模塊三部分，所述3D掃描設(shè)備采用微軟成熟投入市場多年的KINECT設(shè)備，KINECT設(shè)備一共有三個(gè)鏡頭，其中中間的一個(gè)是RGB Camera，用來獲取640x480的彩色圖像，每秒鐘最多獲取30幀圖像；兩側(cè)是兩個(gè)景深（3D D印th)傳感器，用來檢測人體的相對位置，原理和人眼立體成像是一樣的，這兩個(gè)傳感器使用的是紅外線。Kinect兩側(cè)是麥克風(fēng)，下邊還有一個(gè)可移動底座，用來調(diào)整Kinect的仰角。所述數(shù)據(jù)的儲存處理和語音的合成在單片機(jī)內(nèi)完成，然后把識別出來的對應(yīng)骨骼所指向的含義以及語氣發(fā)送至語音合成模塊進(jìn)行合成語音，然后通過揚(yáng)聲器進(jìn)行播放。
[0019] 下面將通過一次標(biāo)準(zhǔn)的啞語轉(zhuǎn)換語音的流程對本發(fā)明做出詳細(xì)說明：該啞語轉(zhuǎn)換語音系統(tǒng)通過3D掃描設(shè)備掃描人體骨骼，得到一段時(shí)間內(nèi)的骨骼動作的掃描數(shù)據(jù)（見表 1)；
[0020] (表1) 一段時(shí)間的右手掌的骨骼動作的掃描數(shù)據(jù)
[0021]

【權(quán)利要求】
1. 一種啞語轉(zhuǎn)換語音系統(tǒng)，其特征在于，包括3D掃描設(shè)備、數(shù)據(jù)儲存處理系統(tǒng)、語音合成模塊三部分，該啞語轉(zhuǎn)換語音系統(tǒng)通過3D掃描設(shè)備掃描人體骨骼，得到一段時(shí)間內(nèi)的骨骼動作的掃描數(shù)據(jù)；數(shù)據(jù)儲存處理系統(tǒng)將掃描數(shù)據(jù)與數(shù)據(jù)庫中預(yù)存的骨骼動作的存儲數(shù)據(jù) 進(jìn)行對比，當(dāng)掃描數(shù)據(jù)與存儲數(shù)據(jù)吻合時(shí)，將數(shù)據(jù)庫中預(yù)存的存儲數(shù)據(jù)所對應(yīng)的含義發(fā)送至語音合成模塊生成語音并播放。
2. 如權(quán)利要求1所述的一種啞語轉(zhuǎn)換語音系統(tǒng)，其特征在于，所述啞語轉(zhuǎn)換語音系統(tǒng) 對掃描數(shù)據(jù)和儲存數(shù)據(jù)的完成相應(yīng)骨骼動作的時(shí)間進(jìn)行對比，根據(jù)時(shí)間差異調(diào)整合成語音的語速和/或音量。
3. 如權(quán)利要求1所述的一種啞語轉(zhuǎn)換語音系統(tǒng)，其特征在于，根據(jù)使用者的實(shí)際骨骼動作的掃描數(shù)據(jù)，對所述數(shù)據(jù)庫中預(yù)存的骨骼動作的儲存數(shù)據(jù)進(jìn)行錄入更新。
4. 如權(quán)利要求1所述的一種啞語轉(zhuǎn)換語音系統(tǒng)，其特征在于，所述數(shù)據(jù)儲存處理系統(tǒng) 通過修改數(shù)據(jù)允許誤差值，提高掃描數(shù)據(jù)與存儲數(shù)據(jù)對比的精準(zhǔn)度。
【文檔編號】G10L13/08GK104064187SQ201410324724
【公開日】2014年9月24日申請日期:2014年7月9日優(yōu)先權(quán)日:2014年7月9日
【發(fā)明者】張江杰申請人:張江杰

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張江杰
技術(shù)所有人：張江杰
我是此專利的發(fā)明人

上一篇：人體音頻數(shù)字化采集與識別系統(tǒng)及其實(shí)現(xiàn)方法
上一篇：一種鋼琴擊弦機(jī)頂桿潤滑處理方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

文字轉(zhuǎn)換語音播音系統(tǒng)相關(guān)技術(shù)

在線文本語音轉(zhuǎn)換系統(tǒng)相關(guān)技術(shù)

啞語相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種啞語轉(zhuǎn)換語音系統(tǒng)的制作方法