一種啞語轉(zhuǎn)換語音系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種啞語轉(zhuǎn)換語音系統(tǒng),包括3D掃描設(shè)備、數(shù)據(jù)儲存處理系統(tǒng)、語音合成模塊三部分,該啞語轉(zhuǎn)換語音系統(tǒng)通過3D掃描設(shè)備掃描人體骨骼,得到一段時(shí)間內(nèi)的骨骼動作的掃描數(shù)據(jù);數(shù)據(jù)儲存處理系統(tǒng)將掃描數(shù)據(jù)與數(shù)據(jù)庫中預(yù)存的骨骼動作的存儲數(shù)據(jù)進(jìn)行對比,當(dāng)掃描數(shù)據(jù)與存儲數(shù)據(jù)吻合時(shí),將數(shù)據(jù)庫中預(yù)存的存儲數(shù)據(jù)所對應(yīng)的含義發(fā)送至語音合成模塊生成語音并播放。該系統(tǒng)能夠?qū)≌Z手勢自動轉(zhuǎn)換為語音輸出,方便殘疾人與正常人之間的交流;意思轉(zhuǎn)換及表達(dá)準(zhǔn)確率較高,速度較快,并具有語氣模擬功能。
【專利說明】一種啞語轉(zhuǎn)換語音系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種將啞語手勢動作轉(zhuǎn)換為語音輸出的系統(tǒng)。
【背景技術(shù)】
[0002] 啞語又叫手語:手語是由于聾人交際的需要而產(chǎn)生的,它已作為聾人的一種語言, 逐漸為人們所接受。手語包括手指語和手勢語。手指語是用手指的指式變化和動作代表字 母,并按照拼音順序依次拼出詞語;在遠(yuǎn)古時(shí)代,全人類都處在簡單的有聲語言階段,常常 用手做各種姿勢來表示意思,這樣的手勢大多數(shù)是指示性和形象性的動作,叫作自然手勢, 此后,隨著社會的進(jìn)步,特別是聾教育的產(chǎn)生與發(fā)展,開始創(chuàng)造出具有語言性質(zhì)的手勢,這 種在有聲語言和文字基礎(chǔ)上產(chǎn)生的,與有聲語言密切結(jié)合的手語,稱之為人為手勢。自然手 勢和人為手勢結(jié)合成為手勢語。
[0003] 啞語雖然能夠完成掌握啞語的交流者之間的交流需要,但是在交流雙方只有一方 掌握啞語的情況下,如殘疾人和正常人之間進(jìn)行交流時(shí),啞語難以被正常人了解,還是存在 交流障礙。
[0004] 3D掃描最早出現(xiàn)的是接觸式測量方法,代表是三維坐標(biāo)測量機(jī),雖然精度達(dá)到微 米量級(0.5mm),但是由于體積巨大、造價(jià)高以及不能測量柔軟的物體等缺點(diǎn),使其應(yīng)用領(lǐng) 域受到限制。于是出現(xiàn)了非接觸式測量方法,主要分兩類。
[0005] -類是被動方式,就是不需要特定的光源,完全依靠物體所處的自然光條件進(jìn)行 掃描,常采用雙目技術(shù),但是精度低,只能掃描出有幾何特征的物體,不能滿足很多領(lǐng)域的 要求。
[0006] 另一類是主動方式,就是像物體投射特定的光,其中代表技術(shù)激光線式的掃描,精 度比較高,但是由于每次只能投射一條光線,所以掃描速度慢。另外,由于激光會對生物體 以及比較珍貴的物體造成傷害,所以不能應(yīng)用于某些特定領(lǐng)域。
[0007] 新興的技術(shù)是結(jié)構(gòu)光式的掃描,結(jié)構(gòu)光也屬于主動方式,通過投影或者光柵投射 同時(shí)多條光線,就可以采取物體的一個(gè)表面,只需要幾個(gè)面的信息就可以完成掃描,最大的 特點(diǎn)是3D掃描儀掃描速度快,而且可編程實(shí)現(xiàn)。
[0008] 還有一種是低頻脈沖波(低頻聲波)式原理,主要應(yīng)用于物位測量方面?;诙?維數(shù)組波束形成器傳送低頻脈沖,3D物位掃描儀接收來自筒倉、倉室或其他容室內(nèi)物料的 回波。設(shè)備的數(shù)字信號處理器對接收到的信號進(jìn)行取樣和分析,通過估算回波到達(dá)的時(shí)間 和方向,處理器形成一個(gè)物料表面的三維圖,這個(gè)圖像通過一種專有的計(jì)算方法對信息進(jìn) 行處理并生成3D圖象,可以在遠(yuǎn)端屏幕上顯示出來。
[0009] 語音合成,又稱文語轉(zhuǎn)換(Text to Speech)技術(shù),能將任意文字信息實(shí)時(shí)轉(zhuǎn)化為標(biāo) 準(zhǔn)流暢的語音朗讀出來,相當(dāng)于給機(jī)器裝上了人工嘴巴。它涉及聲學(xué)、語言學(xué)、數(shù)字信號處 理、計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科技術(shù),是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù),解決的主要問題就 是如何將文字信息轉(zhuǎn)化為可聽的聲音信息,也即讓機(jī)器像人一樣開口說話。我們所說的"讓 機(jī)器像人一樣開口說話"與傳統(tǒng)的聲音回放設(shè)備有著本質(zhì)的區(qū)別。傳統(tǒng)的聲音回放設(shè)備如 磁帶錄音機(jī),是通過預(yù)先錄制聲音然后回放來實(shí)現(xiàn)"讓機(jī)器說話"的。這種方式無論是在內(nèi) 容、存儲、傳輸或者方便性、及時(shí)性等方面都存在很大的限制。而通過計(jì)算機(jī)語音合成則可 以在任何時(shí)候?qū)⑷我馕谋巨D(zhuǎn)換成具有高自然度的語音,從而真正實(shí)現(xiàn)讓機(jī)器"像人一樣開 口說話"。
[0010] 文語轉(zhuǎn)換系統(tǒng)實(shí)際上可以看作是一個(gè)人工智能系統(tǒng)。為了合成出高質(zhì)量的語言, 除了依賴于各種規(guī)則,包括語義學(xué)規(guī)則、詞匯規(guī)則、語音學(xué)規(guī)則外,還必須對文字的內(nèi)容有 很好的理解,這也涉及到自然語言理解的問題。文語轉(zhuǎn)換過程是先將文字序列轉(zhuǎn)換成音韻 序列,再由系統(tǒng)根據(jù)音韻序列生成語音波形。其中第一步涉及語言學(xué)處理,例如分詞、字音 轉(zhuǎn)換等,以及一整套有效的韻律控制規(guī)則;第二步需要先進(jìn)的語音合成技術(shù),能按要求實(shí)時(shí) 合成出高質(zhì)量的語音流。因此一般說來,文語轉(zhuǎn)換系統(tǒng)都需要一套復(fù)雜的文字序列到音素 序列的轉(zhuǎn)換程序,也就是說,文語轉(zhuǎn)換系統(tǒng)不僅要應(yīng)用數(shù)字信號處理技術(shù),而且必須有大量 的語言學(xué)知識的支持。
【發(fā)明內(nèi)容】
[0011] 本發(fā)明的目的在于提供一種啞語轉(zhuǎn)換語音系統(tǒng),能夠?qū)≌Z手勢自動轉(zhuǎn)換為語音 輸出,方便殘疾人與正常人之間的交流。為此本發(fā)明采用的技術(shù)方案是,一種啞語轉(zhuǎn)換語音 系統(tǒng),其特征在于,包括3D掃描設(shè)備、數(shù)據(jù)儲存處理系統(tǒng)、語音合成模塊三部分,該啞語轉(zhuǎn) 換語音系統(tǒng)通過3D掃描設(shè)備掃描人體骨骼,得到一段時(shí)間內(nèi)的骨骼動作的掃描數(shù)據(jù);數(shù)據(jù) 儲存處理系統(tǒng)將掃描數(shù)據(jù)與數(shù)據(jù)庫中預(yù)存的骨骼動作的存儲數(shù)據(jù)進(jìn)行對比,當(dāng)掃描數(shù)據(jù)與 存儲數(shù)據(jù)吻合時(shí),將數(shù)據(jù)庫中預(yù)存的存儲數(shù)據(jù)所對應(yīng)的含義發(fā)送至語音合成模塊生成語音 并播放。
[0012] 優(yōu)選地,所述啞語轉(zhuǎn)換語音系統(tǒng)對掃描數(shù)據(jù)和儲存數(shù)據(jù)的完成相應(yīng)骨骼動作的時(shí) 間進(jìn)行對比,根據(jù)時(shí)間差異調(diào)整合成語音的語速快慢和/或音量大小。比如:數(shù)據(jù)庫中的存 儲數(shù)據(jù)中,完成一個(gè)骨骼動作的時(shí)間是2秒;當(dāng)掃描數(shù)據(jù)中完成同一個(gè)骨骼動作的時(shí)間是 1. 8秒,則合成的語音的語速較為急促、音量較大;反之,則合成的語音的語速較為舒緩,音 量較小。以實(shí)現(xiàn)對啞語者的語氣的模擬。語速和音量可以同時(shí)調(diào)整,也可以分別單獨(dú)調(diào)整。
[0013] 優(yōu)選地,根據(jù)使用者的實(shí)際骨骼動作的掃描數(shù)據(jù),對所述數(shù)據(jù)庫中預(yù)存的骨骼動 作的儲存數(shù)據(jù)進(jìn)行錄入更新。以提高識別速度和識別的準(zhǔn)確性。
[0014] 優(yōu)選地,所述數(shù)據(jù)儲存處理系統(tǒng)通過修改數(shù)據(jù)允許誤差值(即靈敏度),提高掃描 數(shù)據(jù)與存儲數(shù)據(jù)對比的精準(zhǔn)度。
[0015] 本發(fā)明的有益效果在于,能夠?qū)≌Z手勢自動轉(zhuǎn)換為語音輸出,方便殘疾人與正 常人之間的交流;意思轉(zhuǎn)換及表達(dá)準(zhǔn)確率較高,識別率可以達(dá)到99%以上;意思轉(zhuǎn)換及表 達(dá)速度較快,使用現(xiàn)有普通合格處理器,即可達(dá)到感覺不到啞語和語音之間的延時(shí)的效果。 該系統(tǒng)填補(bǔ)了市場空白,真正實(shí)現(xiàn)了聾啞人與正常人的無障礙交流,設(shè)備所用的技術(shù)都是 經(jīng)過多年投入市場經(jīng)過檢驗(yàn)的成熟技術(shù),3D掃描可靠性極高,能夠精準(zhǔn)識別,每秒30幀的 識別速度可快速分辨出〇. 03秒一個(gè)的動作,并有錄入更新數(shù)據(jù)功能使設(shè)備能更加適合個(gè) 體使用,首創(chuàng)根據(jù)動作速度合成相對應(yīng)帶有語氣的合成語音,使設(shè)備更符合人體語音。能夠 應(yīng)用到各種聾啞人需要用到語音表達(dá)的場合。
[0016] 下面將結(jié)合附圖和【具體實(shí)施方式】對本發(fā)明做進(jìn)一步說明。
【專利附圖】
【附圖說明】
[0017] 附圖為系統(tǒng)整體構(gòu)成及流程示意框圖。
【具體實(shí)施方式】
[0018] 所述啞語轉(zhuǎn)換語音系統(tǒng)包括3D掃描設(shè)備、數(shù)據(jù)儲存處理系統(tǒng)、語音合成模塊三部 分,所述3D掃描設(shè)備采用微軟成熟投入市場多年的KINECT設(shè)備,KINECT設(shè)備一共有三個(gè)鏡 頭,其中中間的一個(gè)是RGB Camera,用來獲取640x480的彩色圖像,每秒鐘最多獲取30幀圖 像;兩側(cè)是兩個(gè)景深(3D D印th)傳感器,用來檢測人體的相對位置,原理和人眼立體成像是 一樣的,這兩個(gè)傳感器使用的是紅外線。Kinect兩側(cè)是麥克風(fēng),下邊還有一個(gè)可移動底座, 用來調(diào)整Kinect的仰角。所述數(shù)據(jù)的儲存處理和語音的合成在單片機(jī)內(nèi)完成,然后把識別 出來的對應(yīng)骨骼所指向的含義以及語氣發(fā)送至語音合成模塊進(jìn)行合成語音,然后通過揚(yáng)聲 器進(jìn)行播放。
[0019] 下面將通過一次標(biāo)準(zhǔn)的啞語轉(zhuǎn)換語音的流程對本發(fā)明做出詳細(xì)說明:該啞語轉(zhuǎn)換 語音系統(tǒng)通過3D掃描設(shè)備掃描人體骨骼,得到一段時(shí)間內(nèi)的骨骼動作的掃描數(shù)據(jù)(見表 1);
[0020] (表1) 一段時(shí)間的右手掌的骨骼動作的掃描數(shù)據(jù)
[0021]
【權(quán)利要求】
1. 一種啞語轉(zhuǎn)換語音系統(tǒng),其特征在于,包括3D掃描設(shè)備、數(shù)據(jù)儲存處理系統(tǒng)、語音合 成模塊三部分,該啞語轉(zhuǎn)換語音系統(tǒng)通過3D掃描設(shè)備掃描人體骨骼,得到一段時(shí)間內(nèi)的骨 骼動作的掃描數(shù)據(jù);數(shù)據(jù)儲存處理系統(tǒng)將掃描數(shù)據(jù)與數(shù)據(jù)庫中預(yù)存的骨骼動作的存儲數(shù)據(jù) 進(jìn)行對比,當(dāng)掃描數(shù)據(jù)與存儲數(shù)據(jù)吻合時(shí),將數(shù)據(jù)庫中預(yù)存的存儲數(shù)據(jù)所對應(yīng)的含義發(fā)送 至語音合成模塊生成語音并播放。
2. 如權(quán)利要求1所述的一種啞語轉(zhuǎn)換語音系統(tǒng),其特征在于,所述啞語轉(zhuǎn)換語音系統(tǒng) 對掃描數(shù)據(jù)和儲存數(shù)據(jù)的完成相應(yīng)骨骼動作的時(shí)間進(jìn)行對比,根據(jù)時(shí)間差異調(diào)整合成語音 的語速和/或音量。
3. 如權(quán)利要求1所述的一種啞語轉(zhuǎn)換語音系統(tǒng),其特征在于,根據(jù)使用者的實(shí)際骨骼 動作的掃描數(shù)據(jù),對所述數(shù)據(jù)庫中預(yù)存的骨骼動作的儲存數(shù)據(jù)進(jìn)行錄入更新。
4. 如權(quán)利要求1所述的一種啞語轉(zhuǎn)換語音系統(tǒng),其特征在于,所述數(shù)據(jù)儲存處理系統(tǒng) 通過修改數(shù)據(jù)允許誤差值,提高掃描數(shù)據(jù)與存儲數(shù)據(jù)對比的精準(zhǔn)度。
【文檔編號】G10L13/08GK104064187SQ201410324724
【公開日】2014年9月24日 申請日期:2014年7月9日 優(yōu)先權(quán)日:2014年7月9日
【發(fā)明者】張江杰 申請人:張江杰