專利名稱:一種用于機(jī)頂盒的語音控制系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種控制系統(tǒng),特別是涉及一種用于機(jī)頂盒的語音控制系統(tǒng)。
背景技術(shù):
語音識別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù) 之一。它是一門交叉學(xué)科,正逐步成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù)。語音識 別技術(shù)發(fā)展到今天,特別是中小詞匯量非特定人語音識別系統(tǒng)識別精度已經(jīng)大于 98%。這些技術(shù)已經(jīng)能夠滿足通常應(yīng)用的要求。由于大規(guī)模集成電路技術(shù)的發(fā)展, 這些復(fù)雜的語音識別系統(tǒng)也已經(jīng)完全可以制成專用芯片,大量生產(chǎn)。在西方經(jīng)濟(jì) 發(fā)達(dá)國家,大量的語音識別產(chǎn)品已經(jīng)進(jìn)入市場和服務(wù)領(lǐng)域。 一些用戶交機(jī)、電話 機(jī)、手機(jī)已經(jīng)包含了語音識別撥號功能,還有語音記事本、語音智能玩具等產(chǎn)品 也包括語音識別與語音合成功能。人們可以通過電話網(wǎng)絡(luò)用語音識別口語對話系 統(tǒng)査詢有關(guān)的機(jī)票、旅游、銀行信息,并且取得很好的結(jié)果。調(diào)查統(tǒng)計(jì)表明多達(dá) 85%以上的人對語音識別的信息査詢服務(wù)系統(tǒng)的性能表示滿意??梢灶A(yù)測在近五 到十年內(nèi),語音識別系統(tǒng)的應(yīng)用將更加廣泛。各種各樣的語音識別系統(tǒng)產(chǎn)品將出 現(xiàn)在市場上。
在IPTV方面,目前商家推出的種類繁多的機(jī)頂盒雖然性能用途不同,但 操作方式卻基本相同,都是通過遙控進(jìn)行按鍵操作。隨著機(jī)頂盒集成的功能越來 越多,按鍵操作的難度和繁瑣度也將越來越大。將語音識別技術(shù)融入機(jī)頂盒的操 作系統(tǒng)中,實(shí)現(xiàn)控制命令的語音操作將使用戶將雙手解放出來,僅靠說話就能輕 松的完成操作。
一種現(xiàn)有的基于語音的人機(jī)通訊系統(tǒng)和方法中,采甩服務(wù)器模式進(jìn)行語音識 別,語音識別模塊在服務(wù)器端,也就是說用戶發(fā)出的每條語音控制命令都需要經(jīng) 機(jī)頂盒發(fā)送給服務(wù)器端進(jìn)行語音識別,再由服務(wù)器將識別出的操作命令交由機(jī)頂 盒進(jìn)行執(zhí)行,這樣勢必會占用信號傳輸帶寬,增加操作時間,降低語音操作的靈 敏度。
嵌入式語音識別模式是將語言識別軟件及模型寫在設(shè)備(如機(jī)頂盒)的存儲 器里,識別過程在終端完成。機(jī)頂盒的操作命令較固定,需要識別的詞匯量不是 很大,不會占用存儲器太大的空間,所以本發(fā)明采用嵌入式語音識別模式,嵌入
式模式與服務(wù)器模式相比識別所需的時間更短,可以使用戶更快速的完成操作。
發(fā)明內(nèi)容
本發(fā)明的目的是提供 種方便快速的機(jī)頂盒的語音控制系統(tǒng)。 本發(fā)明的目的通過以下技術(shù)方案予以實(shí)現(xiàn)
一種用于機(jī)頂盒的語音控制系統(tǒng)包括前端處理子系統(tǒng)和語音識別子系統(tǒng)。 所述前端處理子系統(tǒng)包括語音采集模塊,A/D轉(zhuǎn)換模塊,傳輸模塊。
其中語音采集模塊為一話筒,用來采集用戶發(fā)出的語音控制命令。A/D轉(zhuǎn)換 模塊對話筒輸入的模擬的語音信號進(jìn)行抽樣、量化和編碼,獲得數(shù)字化的語音信 號。傳輸模塊則負(fù)責(zé)將轉(zhuǎn)換好的信號通過無線技術(shù)發(fā)送給機(jī)頂盒。
所述的無線技術(shù)是紅外線技術(shù)。
所述語音識別子系統(tǒng)包括傳輸模塊,噪聲處理模塊和語音識別模塊。 其中傳輸模塊用來接收遙控器發(fā)送過來的信號,并將信號傳遞給噪聲處理模 塊,由噪聲處理模塊去除干擾噪聲之后交由語音識別模塊進(jìn)行語音識別,最后將 識別出的命令交給機(jī)頂盒的控制模塊進(jìn)行執(zhí)行。
所述噪聲處理模塊為一數(shù)字濾波器,是由數(shù)字乘法器、加法器和延時單元組 成的一種裝置。其功能是對輸入離散信號的數(shù)字代碼進(jìn)行運(yùn)算處理,以達(dá)到改變 信號頻譜的目的。數(shù)字濾波器與模擬濾波器的區(qū)別主要在于一個是采用軟件(程 序)的數(shù)值計(jì)算(數(shù)字濾波器),另外一個是采用硬件電路獲得(模擬濾波器)。 數(shù)字濾波器具有高精度、高可靠性、可程控改變特性或復(fù)用、便于集成等優(yōu)點(diǎn), 因此在語言信號處理、圖像信號處理、醫(yī)學(xué)生物信號處理以及其他應(yīng)用領(lǐng)域都得 到了廣泛應(yīng)用。
所述的語音識別模塊對語音信號的識別包括語音特征提取、聲學(xué)模型與模式
匹配、語義理解三個步驟,其中各個步驟的作用如下
1)語音特征提取目的是從語音信號中提取隨時間變化的語音特征序列。 2)聲學(xué)模型與模式匹配(識別算法)聲學(xué)模型是識別系統(tǒng)的底層模型,并且是 語音識別系統(tǒng)中最關(guān)鍵的一部分。聲學(xué)模型通常由獲取的語音特征通過訓(xùn)練產(chǎn) 生,目的是為每個發(fā)音建立發(fā)音模板。在識別時將未知的語音特征同聲學(xué)模型(模 式)進(jìn)行匹配與比較,計(jì)算未知語音的特征矢量序列和每個發(fā)音模板之間的距離。 聲學(xué)模型的設(shè)計(jì)和語言發(fā)音特點(diǎn)密切相關(guān)。聲學(xué)模型單元大小(字發(fā)音模型、半
音節(jié)模型或音素模型)對語音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識別率,以及靈活性有較大 影響。
3)語義理解對識別結(jié)果進(jìn)行語法、語義分析。明白語言的意義以便作出 相應(yīng)的反應(yīng)。通常是通過語言模型來實(shí)現(xiàn)。 本發(fā)明具有以下有益效果-
本發(fā)明是建立在非特定人識別的聲學(xué)模型基礎(chǔ)上的,非特定人識別的聲學(xué)模 型是針對某一種特定的語言來訓(xùn)練的,發(fā)音人不需要訓(xùn)練既可使用。對用戶來說 提供了很大方便,他們甚至不需要了解該過程。
下面將結(jié)合實(shí)施例和附圖對本發(fā)明作進(jìn)一步的詳細(xì)描述
圖1是結(jié)構(gòu)示意圖2是本發(fā)明的實(shí)現(xiàn)流程具體實(shí)施例方式
下面結(jié)合附圖對本發(fā)明做進(jìn)一步的說明。
本發(fā)明的結(jié)構(gòu)示意圖如附圖1所示, 一種用于機(jī)頂盒的語音控制系統(tǒng)由前端 子系統(tǒng)包括信號采集模塊、A/D轉(zhuǎn)換模塊及傳輸模塊;語音識別子系統(tǒng)又包括傳 輸模塊、噪聲處理模塊和語音識別模塊。
本發(fā)明的實(shí)現(xiàn)流程圖如附圖2所示,用戶發(fā)出一語音控制命令,語音被遙控 器上的話筒采集,采集后的語音信號交由A/D轉(zhuǎn)換模塊。A/D轉(zhuǎn)換模塊通過抽 樣把模擬的語音信號進(jìn)行周期性掃描,把時間上連續(xù)的信號變成時間上離散的信 號,再經(jīng)過量化把抽樣得到的瞬時值的幅度離散,即用一組規(guī)定的電平,把瞬時 抽樣值用最接近的電平值來表示,最后用一組二進(jìn)制碼組來表示每一個有固定電 平的量化值完成編碼,從而將連續(xù)的模擬語音信號轉(zhuǎn)換為離散的數(shù)字語音信號, 方便下一步的處理。遙控器的傳輸模塊將轉(zhuǎn)換好的數(shù)字信號通過無線紅外線技術(shù) 傳送給機(jī)頂盒進(jìn)行下- 步的處理。機(jī)頂盒的接收模塊同樣通過無線技術(shù)接收遙控 器傳送過來的數(shù)字信號,并將接收到的信號交給噪聲處理模塊。噪聲處理模塊為 --數(shù)字濾波器,通過濾波減弱、消除信號中噪聲信號的頻譜成分,增強(qiáng)信號的信 噪比,使語音識別模塊能更有效、準(zhǔn)確的進(jìn)行語音識別。語音識別模塊對信號進(jìn) 行語音特征提取,提取出信號的語音特征序列,將語音特征與已建立的聲學(xué)模型
進(jìn)行比對,并對結(jié)果進(jìn)行語法、語義分析完成語音識別。若用戶發(fā)出的命令為合 法的(與聲學(xué)模型中已建立的模型相匹配),則將識別出的詞匯轉(zhuǎn)換為控制命令 交給機(jī)頂盒的控制模塊進(jìn)行執(zhí)行,完成用戶的操作指示。若用戶的命令為非法的, 則不作出反應(yīng)。
例如,用戶對遙控器的話筒發(fā)出"菜單"命令,話筒對語音命令進(jìn)行拾取后 經(jīng)過各級的處理交由機(jī)頂盒的語音識別模塊,語音識別模塊對語音信號提取特征 后與己建立的聲學(xué)模型進(jìn)行比對,比對后發(fā)現(xiàn)特征序列與模型庫中已有的聲學(xué)模 型"菜單"相匹配,則識別出用戶發(fā)出的命令為"菜單",將識別出的詞匯轉(zhuǎn)換 為 -條控制命令,使機(jī)頂盒執(zhí)行"菜單"命令,顯示出系統(tǒng)的菜單選項(xiàng)。
對于上述實(shí)施方式的一種替換,所述的無線傳輸技術(shù)也可以是藍(lán)牙技術(shù),語 音信號和控制信息通過藍(lán)牙技術(shù)進(jìn)行傳輸。
權(quán)利要求
1.一種用于機(jī)頂盒的語音控制系統(tǒng),其特征在于包括前端處理子系統(tǒng)和語音識別子系統(tǒng),其中1)前端處理子系統(tǒng)用于實(shí)現(xiàn)對語音控制信號的采集、轉(zhuǎn)換和發(fā)送;包括信號采集模塊、A/D轉(zhuǎn)換模塊及傳輸模塊;2)語音識別子系統(tǒng)接收前端處理子系統(tǒng)發(fā)送過來的語音信號,并對信號進(jìn)行語音識別以產(chǎn)生一條機(jī)頂盒可以執(zhí)行的控制命令。
2. 根據(jù)權(quán)利要求1所述的一種用于機(jī)頂盒的語音控制系統(tǒng),其特征是,前端處 理子系統(tǒng)位于遙控器中。
3. 根據(jù)權(quán)利要求1所述的一種用于機(jī)頂盒的語音控制系統(tǒng),其特征是,所述語 音信號采集模塊為話筒。
4. 根據(jù)權(quán)利要求1所述的一種用于機(jī)頂盒的語音控制系統(tǒng),其特征是,所述 A/D轉(zhuǎn)換模塊為一模數(shù)轉(zhuǎn)換器,將模擬的語音控制信號轉(zhuǎn)換為數(shù)字信號。
5. 根據(jù)權(quán)利要求1所述的一種用于機(jī)頂盒的語音控制系統(tǒng),其特征是,所述傳 輸模塊是通過無線傳輸技術(shù)完成信號的發(fā)送和接收。
6. 根據(jù)權(quán)利要求5所述的一種用于機(jī)頂盒的語音控制系統(tǒng),其特征是,所述無 線傳輸技術(shù)為紅外線技術(shù)。
7. 根據(jù)權(quán)利要求1所述的一種用于機(jī)頂盒的語音控制系統(tǒng),其特征是,所述語 音識別子系統(tǒng)位于機(jī)頂盒中,它包括傳輸模塊、噪聲處理模塊和語音識別模塊。
8. 根據(jù)權(quán)利要求7所述的一種用于機(jī)頂盒的語音控制系統(tǒng),其特征是,所述噪 聲處理模塊為一數(shù)字濾波器,可以通過濾波去除控制信號中的噪聲信號。
9. 根據(jù)權(quán)利要求7所述的一種用于機(jī)頂盒的語音控制系統(tǒng),其特征是,所述語 音識別模塊通過語音特征提取、聲學(xué)模型與模式匹配、語義理解最終將語音控制 信號轉(zhuǎn)換為機(jī)頂盒可直接執(zhí)行的控制命令并交給控制模塊執(zhí)行。
全文摘要
本發(fā)明公開了一種用于機(jī)頂盒的語音控制系統(tǒng),它包括遙控器和機(jī)頂盒兩部分。在遙控器中,有用于采集、轉(zhuǎn)換、發(fā)送語音控制信號的前端處理子系統(tǒng);機(jī)頂盒中則有語音識別子系統(tǒng)。其中前端子系統(tǒng)包括信號采集模塊、A/D轉(zhuǎn)換模塊及傳輸模塊;語音識別子系統(tǒng)又包括傳輸模塊、噪聲處理模塊和語音識別模塊。用戶發(fā)出的語音控制命令經(jīng)各個模塊依次處理最后轉(zhuǎn)變?yōu)闄C(jī)頂盒可執(zhí)行的控制信號,實(shí)現(xiàn)對機(jī)頂盒操作的語音控制,使用戶避免繁瑣的按鍵更方便的完成對機(jī)頂盒的操作。
文檔編號G08C17/02GK101345819SQ20081003025
公開日2009年1月14日 申請日期2008年8月19日 優(yōu)先權(quán)日2008年8月19日
發(fā)明者倩 孫, 羅笑南 申請人:中山大學(xué)