一種唇語識(shí)別方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種唇語識(shí)別方法,包括:定向發(fā)射無線信號(hào),使所述無線信號(hào)覆蓋用戶面部;接收用戶面部反射的無線信號(hào),并對(duì)所述反射的無線信號(hào)進(jìn)行過濾,獲得用戶嘴部運(yùn)動(dòng)時(shí)的嘴部反射信號(hào);對(duì)所述嘴部反射信號(hào)進(jìn)行分段,獲得分段信號(hào),并提取所述分段信號(hào)的波形特征圖;所述分段信號(hào)為每發(fā)出一個(gè)語音事件的反射信號(hào);比較所述分段信號(hào)的波形特征圖與預(yù)先采樣的所有嘴部運(yùn)動(dòng)特征圖的相似度,讀取相似度最高的嘴部運(yùn)動(dòng)特征圖所對(duì)應(yīng)的語音事件。相應(yīng)的,本發(fā)明實(shí)施例還提供一種唇語識(shí)別系統(tǒng)。采用本發(fā)明實(shí)施例,能夠通過無線信號(hào)探測(cè)用戶嘴部運(yùn)動(dòng)來實(shí)現(xiàn)唇語識(shí)別,提高識(shí)別效率和準(zhǔn)確率。
【專利說明】一種唇語識(shí)別方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及移動(dòng)通信【技術(shù)領(lǐng)域】,尤其涉及一種唇語識(shí)別方法及系統(tǒng)。
【背景技術(shù)】
[0002] 無線探測(cè)識(shí)別的應(yīng)用提高到一個(gè)新的水平,包括運(yùn)動(dòng)檢測(cè)、手勢(shì)識(shí)別、定位、材料 分類等。通過檢測(cè)和分析信號(hào)的反射,無線探測(cè)識(shí)別系統(tǒng)可以發(fā)現(xiàn)穿墻運(yùn)動(dòng)和識(shí)別人的手 勢(shì),甚至可以檢測(cè)和定位人體中的腫瘤。
[0003] 但是,在現(xiàn)有技術(shù)中,對(duì)用戶說話的識(shí)別,只是通過聲學(xué)傳感器或攝像裝置來實(shí) 現(xiàn)。采用這種方法的系統(tǒng)布置代價(jià)很高,并且具有限的傳感和通信范圍。此外,采用聲學(xué)傳 感器或攝像裝置的系統(tǒng)對(duì)于檢測(cè)會(huì)有延遲,因?yàn)閭鞲衅鞅仨毾蠕浿坡曇簦瑪z像裝置必須先 拍攝圖片,再進(jìn)行處理,然后才會(huì)發(fā)送到接收器。同時(shí),采用聲學(xué)傳感器的系統(tǒng)不能在太嘈 雜的環(huán)境中解碼。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明實(shí)施例提出一種唇語識(shí)別方法及系統(tǒng),能夠通過無線信號(hào)探測(cè)用戶嘴部運(yùn) 動(dòng)來實(shí)現(xiàn)唇語的識(shí)別,提高識(shí)別效率和準(zhǔn)確率。
[0005] 本發(fā)明實(shí)施例提供一種唇語識(shí)別方法,包括:
[0006] 定向發(fā)射無線信號(hào),使所述無線信號(hào)覆蓋用戶面部;
[0007] 接收用戶面部反射的無線信號(hào),并對(duì)所述反射的無線信號(hào)進(jìn)行過濾,獲得用戶嘴 部運(yùn)動(dòng)時(shí)的嘴部反射信號(hào);
[0008] 對(duì)所述嘴部反射信號(hào)進(jìn)行分段,獲得分段信號(hào),并提取所述分段信號(hào)的波形特征 圖;所述分段信號(hào)為每發(fā)出一個(gè)語音事件的反射信號(hào);
[0009] 比較所述分段信號(hào)的波形特征圖與預(yù)先采樣的所有嘴部運(yùn)動(dòng)特征圖的相似度,讀 取相似度最高的嘴部運(yùn)動(dòng)特征圖所對(duì)應(yīng)的語音事件;所述嘴部運(yùn)動(dòng)特征圖為發(fā)出一個(gè)語音 事件時(shí)的無線信號(hào)波形特征圖。
[0010] 進(jìn)一步地,所述定向發(fā)射無線信號(hào),使所述無線信號(hào)覆蓋用戶面部,具體包括:
[0011] 勻速旋轉(zhuǎn)無線信號(hào),記錄所述無線信號(hào)變換程度最大的時(shí)間點(diǎn);
[0012] 根據(jù)所述無線信號(hào)勻速旋轉(zhuǎn)的角速度和所述時(shí)間點(diǎn),計(jì)算所述無線信號(hào)定向發(fā)射 的角度;
[0013] 根據(jù)所述角度定向發(fā)射無線信號(hào),使所述無線信號(hào)覆蓋用戶面部。
[0014] 進(jìn)一步地,所述接收用戶面部反射的無線信號(hào),并對(duì)所述反射的無線信號(hào)進(jìn)行過 濾,獲得用戶嘴部運(yùn)動(dòng)時(shí)的嘴部反射信號(hào),具體包括:
[0015] 接收用戶面部反射的無線信號(hào),并采用巴特沃斯濾波器,對(duì)所述反射的無線信號(hào) 進(jìn)行過濾,獲得濾波信號(hào);
[0016] 設(shè)置延遲閾值,去除延遲時(shí)間大于所述延遲閾值的濾波信號(hào),獲得用戶嘴部運(yùn)動(dòng) 時(shí)的嘴部反射信號(hào)。
[0017] 進(jìn)一步地,所述設(shè)置延遲閾值,去除延遲時(shí)間大于所述延遲閾值的濾波信號(hào),獲得 用戶嘴部運(yùn)動(dòng)時(shí)的嘴部反射信號(hào),具體包括:
[0018] 對(duì)所述濾波信號(hào)的信道狀態(tài)信息CSI進(jìn)行快速傅里葉逆變換,獲得濾波信號(hào)的時(shí) 域 CSI ;
[0019] 設(shè)置延遲閾值,去除時(shí)域CSI大于所述延遲閾值的濾波信號(hào),獲得具有時(shí)域CSI的 嘴部反射信號(hào);
[0020] 對(duì)所述嘴部反射信號(hào)的時(shí)域CSI進(jìn)行快速傅里葉變換,獲得用戶嘴部運(yùn)動(dòng)時(shí)的嘴 部反射信號(hào)。
[0021] 進(jìn)一步地,所述對(duì)所述嘴部反射信號(hào)進(jìn)行分段,獲得分段信號(hào),并提取所述分段信 號(hào)的波形特征圖,具體包括:
[0022] 采用小波變換算法,對(duì)所述嘴部反射信號(hào)進(jìn)行分段,獲得分段信號(hào);
[0023] 在所述分段信號(hào)的CSI中,選取每個(gè)時(shí)間段信號(hào)強(qiáng)度變化最大的子載波,并將每 個(gè)時(shí)間段選取的子載波拼接起來,獲得所述分段信號(hào)的波形特征圖;所述CSI具有30個(gè)子 載波。
[0024] 進(jìn)一步地,所述比較所述分段信號(hào)的波形特征圖與預(yù)先采樣的所有嘴部運(yùn)動(dòng)特征 圖的相似度,讀取相似度最高的嘴部運(yùn)動(dòng)特征圖所對(duì)應(yīng)的語音事件,具體包括:
[0025] 根據(jù)最小二乘法算法,比較所述分段信號(hào)的波形特征圖與預(yù)先采樣的所有嘴部運(yùn) 動(dòng)特征圖的相似度,讀取相似度最高的嘴部運(yùn)動(dòng)特征圖所對(duì)應(yīng)的語音事件。
[0026] 相應(yīng)地,本發(fā)明實(shí)施例還提供一種唇語識(shí)別系統(tǒng),包括發(fā)射端和接收端;所述接收 端包括信號(hào)過濾模塊、特征提取模塊和特征對(duì)比模塊;
[0027] 所述發(fā)射端用于定向發(fā)射無線信號(hào),使所述無線信號(hào)覆蓋用戶面部;
[0028] 所述信號(hào)過濾模塊用于接收用戶面部反射的無線信號(hào),并對(duì)所述反射的無線信號(hào) 進(jìn)行過濾,獲得用戶說話時(shí)嘴部的反射信號(hào);
[0029] 所述特征提取模塊用于對(duì)所述嘴部反射信號(hào)進(jìn)行分段,獲得分段信號(hào),并提取分 段信號(hào)的波形特征圖;所述分段信號(hào)為每發(fā)出一個(gè)語音事件的反射信號(hào);
[0030] 所述特征對(duì)比模塊用于比較所述分段信號(hào)的波形特征圖與預(yù)先采樣的所有嘴部 運(yùn)動(dòng)特征圖的相似度,讀取相似度最高的嘴部運(yùn)動(dòng)特征圖所對(duì)應(yīng)的語音事件;所述嘴部運(yùn) 動(dòng)特征圖為用戶發(fā)出一個(gè)語音事件時(shí)的無線信號(hào)波形特征圖。
[0031] 實(shí)施本發(fā)明實(shí)施例,具有如下有益效果:
[0032] 本發(fā)明實(shí)施例提供的唇語識(shí)別方法及系統(tǒng)能夠通過無線信號(hào)探測(cè)用戶嘴部運(yùn)動(dòng) 來提取嘴部反射信號(hào)的波形特征圖,并將波形特征圖與預(yù)先采樣的嘴部運(yùn)動(dòng)特征圖進(jìn)行對(duì) t匕,從而實(shí)現(xiàn)唇語的識(shí)別,提高識(shí)別效率和準(zhǔn)確率;無需部署額外的裝置,成本低廉,而且, 在具有噪音的環(huán)境下,仍可準(zhǔn)確進(jìn)行唇語識(shí)別;定向發(fā)射無線信號(hào),使無線信號(hào)覆蓋用戶面 部,以減少不相關(guān)的多徑效應(yīng),提高探測(cè)信號(hào)的精度;提取嘴部反射信號(hào)的波形特征圖,選 取每段時(shí)間內(nèi)信號(hào)強(qiáng)度變化最大的子載波作為特征圖,降低計(jì)算復(fù)雜度,提高識(shí)別效率;由 于相同用戶具有相同語速,從而對(duì)每個(gè)用戶均建立嘴部運(yùn)動(dòng)特征圖檔案,在對(duì)用戶的唇語 進(jìn)行識(shí)別時(shí),直接與其嘴部運(yùn)動(dòng)特征圖檔案進(jìn)行對(duì)比,提高唇語識(shí)別的準(zhǔn)確率;采用上下文 相關(guān)的糾錯(cuò)技術(shù),對(duì)已識(shí)別的唇語進(jìn)行驗(yàn)證,進(jìn)一步提高唇語識(shí)別的準(zhǔn)確率。
【專利附圖】
【附圖說明】
[0033] 圖1是本發(fā)明提供的唇語識(shí)別方法的一個(gè)實(shí)施例的流程示意圖;
[0034] 圖2是本發(fā)明提供的唇語識(shí)別方法中步驟S1的一個(gè)實(shí)施例的流程示意圖;
[0035] 圖3是本發(fā)明提供的唇語識(shí)別方法中步驟S2的一個(gè)實(shí)施例的流程示意圖;
[0036] 圖4是圖2所示實(shí)施例中的步驟S22的一個(gè)實(shí)施例的流程示意圖;
[0037] 圖5是本發(fā)明提供的唇語識(shí)別方法中步驟S3的一個(gè)實(shí)施例的流程示意圖;
[0038] 圖6是本發(fā)明提供的唇語識(shí)別系統(tǒng)的一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0039] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;?本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0040] 參見圖1,是本發(fā)明提供的唇語識(shí)別方法的一個(gè)實(shí)施例的流程示意圖,包括:
[0041] S1、定向發(fā)射無線信號(hào),使所述無線信號(hào)覆蓋用戶面部;
[0042] S2、接收用戶面部反射的無線信號(hào),并對(duì)所述反射的無線信號(hào)進(jìn)行過濾,獲得用戶 嘴部運(yùn)動(dòng)時(shí)的嘴部反射信號(hào);
[0043] S3、對(duì)所述嘴部反射信號(hào)進(jìn)行分段,獲得分段信號(hào),并提取所述分段信號(hào)的波形特 征圖;所述分段信號(hào)為每發(fā)出一個(gè)語音事件的反射信號(hào);
[0044] S4、比較所述分段信號(hào)的波形特征圖與預(yù)先采樣的所有嘴部運(yùn)動(dòng)特征圖的相似 度,讀取相似度最高的嘴部運(yùn)動(dòng)特征圖所對(duì)應(yīng)的語音事件;所述嘴部運(yùn)動(dòng)特征圖為發(fā)出一 個(gè)語音事件時(shí)的無線信號(hào)波形特征圖。
[0045] 在一個(gè)優(yōu)選地實(shí)施方式中,如圖2所示,所述步驟S1具體包括:
[0046] S11、勻速旋轉(zhuǎn)無線信號(hào),記錄所述無線信號(hào)變換程度最大的時(shí)間點(diǎn);
[0047] S12、根據(jù)所述無線信號(hào)勻速旋轉(zhuǎn)的角速度和所述時(shí)間點(diǎn),計(jì)算所述無線信號(hào)定向 發(fā)射的角度;
[0048] S13、根據(jù)所述角度定向發(fā)射無線信號(hào),使所述無線信號(hào)覆蓋用戶面部。
[0049] 在另一個(gè)優(yōu)選地實(shí)施方式中,所述步驟S1具體包括:
[0050] S111、發(fā)射端保持無線信號(hào)發(fā)射的垂直方向仰角不變,在水平方向勻速360度旋 轉(zhuǎn)無線信號(hào);
[0051] S112、接收端記錄無線信號(hào)在水平方向變換程度最大的第一時(shí)間點(diǎn),并將第一時(shí) 間點(diǎn)反饋給發(fā)射端;
[0052] S113、發(fā)射端根據(jù)水平方向勻速旋轉(zhuǎn)的角速度和第一時(shí)間點(diǎn),調(diào)整無線信號(hào)的水 平方向角度;
[0053] S114、發(fā)射端固定水平方向角速度,在垂直方向勻速360度旋轉(zhuǎn)無線信號(hào);
[0054] S115、接收端記錄無線信號(hào)在垂直方向變換程度最大的第二時(shí)間點(diǎn),并將第二時(shí) 間點(diǎn)反饋給發(fā)射端;
[0055] S116、發(fā)射端根據(jù)無線信號(hào)垂直方向勻速旋轉(zhuǎn)的角速度和第二時(shí)間點(diǎn),調(diào)整無線 信號(hào)的垂直方向角度;
[0056] S117、根據(jù)水平方向角度和垂直方向角度,定向發(fā)射無線信號(hào),使無線信號(hào)覆蓋用 戶面部。
[0057] 在又一個(gè)實(shí)施方式中,定向發(fā)射無線信號(hào)的角度通過用戶在固定位置重復(fù)預(yù)定義 已知的語音事件來實(shí)現(xiàn)。例如,用戶每秒發(fā)出一個(gè)"啊"的音,發(fā)射端勻速旋轉(zhuǎn)無線信號(hào),接 收端檢測(cè)接收到的波形,并將接收到的波形與預(yù)先采樣的"啊"音所對(duì)應(yīng)的波形特征圖進(jìn)行 對(duì)比,找到與"啊"音對(duì)應(yīng)的波形特征圖相似度最高、波形最匹配的時(shí)間點(diǎn)。根據(jù)時(shí)間點(diǎn)和 無線信號(hào)旋轉(zhuǎn)角速度,計(jì)算出無線信號(hào)定向發(fā)射角度。
[0058] 需要說明的是,發(fā)射端用無線信號(hào)對(duì)周圍環(huán)境進(jìn)行360度掃描,其掃描過程是通 過將發(fā)射端安裝在步進(jìn)電機(jī)上旋轉(zhuǎn)來實(shí)現(xiàn)的。接收端通過感知信號(hào)變換程度,記錄信號(hào)變 換程度最大的時(shí)間點(diǎn)。其中,發(fā)射端可從同一位置開始多次重復(fù)掃描過程,接收端記錄多次 的時(shí)間點(diǎn),然后通過分析和排除偶然誤差,將正確的時(shí)間點(diǎn)反饋給發(fā)射端。發(fā)射端根據(jù)反饋 的時(shí)間點(diǎn)調(diào)整定向發(fā)射無線信號(hào)的角度。接收端還可以在后續(xù)信號(hào)分析匹配過程中,進(jìn)一 步向發(fā)射端反饋更精準(zhǔn)的時(shí)間點(diǎn)信息,以改進(jìn)無線信號(hào)的發(fā)射方向。
[0059] 采用定向發(fā)射無線信號(hào)的方式,使無線信號(hào)覆蓋用戶面部,以減少不相關(guān)的多徑 效應(yīng),提高探測(cè)信號(hào)的精度。
[0060] 進(jìn)一步地,如圖3所示,所述步驟S2具體包括:
[0061] S21、接收用戶面部反射的無線信號(hào),并采用巴特沃斯濾波器,對(duì)所述反射的無線 信號(hào)進(jìn)行過濾,獲得濾波信號(hào)。
[0062] 采用3階巴特沃斯帶通濾波器,并設(shè)置巴特沃斯帶通濾波器具有通帶內(nèi)最大平坦 的頻率響應(yīng),以確保在目標(biāo)頻率范圍內(nèi)的信號(hào)的保真度,同時(shí)消除帶外噪聲。通過巴特沃斯 帶通濾波器,保留嘴部運(yùn)動(dòng)對(duì)信號(hào)的干擾信息,濾除其他頻段的信息。
[0063] S22、設(shè)置延遲閾值,去除延遲時(shí)間大于所述延遲閾值的濾波信號(hào),獲得用戶嘴部 運(yùn)動(dòng)時(shí)的嘴部反射信號(hào)。
[0064] 無線信號(hào)從發(fā)射端發(fā)出,會(huì)沿著不同路徑反射,即多徑反射,最終到達(dá)接收端。而 由于嘴部運(yùn)動(dòng),如舌頭、嘴唇和下顎的運(yùn)動(dòng),是非剛性的,一組多徑反射可能反映嘴部不同 部分的運(yùn)動(dòng)信息。因此,設(shè)置延遲閾值,去除延遲時(shí)間超過延遲閾值的多徑分量(通常來自 周圍靜態(tài)環(huán)境的反射)。其中,延遲閾值是根據(jù)經(jīng)驗(yàn)選擇并基于嘴部運(yùn)動(dòng)特征圖的分類過程 來進(jìn)行調(diào)整的。由于典型的室內(nèi)信道的最大額外時(shí)延通常小于500納秒,因此,通常設(shè)置延 遲閾值為500納秒。
[0065] 進(jìn)一步地,如圖4所示,所述步驟S22具體包括:
[0066] S221、對(duì)所述濾波信號(hào)的信道狀態(tài)信息CSI進(jìn)行快速傅里葉逆變換,獲得濾波信 號(hào)的時(shí)域CSI ;
[0067] S222、設(shè)置延遲閾值,去除時(shí)域CSI大于所述延遲閾值的濾波信號(hào),獲得具有時(shí)域 CSI的嘴部反射信號(hào);
[0068] S223、對(duì)所述嘴部反射信號(hào)的時(shí)域CSI進(jìn)行快速傅里葉變換,獲得用戶嘴部運(yùn)動(dòng) 時(shí)的嘴部反射信號(hào)。
[0069] CSI (Channel State Information,信道狀態(tài)信息)表示各個(gè)子載波的細(xì)粒度的信 道頻率響應(yīng)。根據(jù)CSI在時(shí)域中的功率延遲分布來對(duì)濾波信號(hào)進(jìn)行進(jìn)一步的過濾。先對(duì)濾 波信號(hào)的頻域CSI進(jìn)行快速傅里葉逆變換,將頻域CSI轉(zhuǎn)換為CSI在時(shí)域中的功率延遲分 布。然后,設(shè)置延遲閾值,去除延遲時(shí)間大于延遲閾值的多徑分量。最后,通過快速傅里葉 變換,將保留的多徑分量的時(shí)域CSI轉(zhuǎn)換回頻域CSI,從而獲得嘴部反射信號(hào)。
[0070] 進(jìn)一步地,如圖5所示,所述步驟S3具體包括:
[0071] S31、采用小波變換算法,對(duì)所述嘴部反射信號(hào)進(jìn)行分段,獲得分段信號(hào);
[0072] S32、在所述分段信號(hào)的CSI中,選取每個(gè)時(shí)間段信號(hào)強(qiáng)度變化最大的子載波,并 將每個(gè)時(shí)間段選取的子載波拼接起來,獲得所述分段信號(hào)的波形特征圖;所述CSI具有30 個(gè)子載波。
[0073] 在每個(gè)時(shí)間段內(nèi),分段信號(hào)CSI均具有30個(gè)子載波,即分段信號(hào)CSI在每個(gè)時(shí)間 段均具有30組數(shù)據(jù),每組數(shù)據(jù)表示一個(gè)子載波的信號(hào)幅度和相位信息。選取30個(gè)子載波中 信號(hào)強(qiáng)度(波形峰峰值)變化最大的子載波,并舍棄該時(shí)間段內(nèi)其余29個(gè)子載波。將變化 最大的子載波作為該時(shí)間段的單一代表值,并將每個(gè)時(shí)間段選取的單一代表值拼接起來, 形成分段信號(hào)整個(gè)時(shí)間內(nèi)的信號(hào)變換值,該信號(hào)變換值即為分段信號(hào)的波形特征圖。在每 段時(shí)間內(nèi),選取信號(hào)強(qiáng)度變化最大的子載波來進(jìn)行后續(xù)處理,簡(jiǎn)化了計(jì)算,并提高了效率。
[0074] 進(jìn)一步地,所述步驟S4具體包括:
[0075] 根據(jù)最小二乘法算法,比較所述分段信號(hào)的波形特征圖與預(yù)先采樣的所有嘴部運(yùn) 動(dòng)特征圖的相似度,讀取相似度最高的嘴部運(yùn)動(dòng)特征圖所對(duì)應(yīng)的語音事件。
[0076] 需要說明的是,對(duì)于同一個(gè)用戶,其語速有相似的節(jié)奏模式。預(yù)先采樣該用戶的嘴 部運(yùn)動(dòng)特征圖,從而根據(jù)廣義最小二乘法算法,直接比較分段信號(hào)的波形特征圖與預(yù)先采 樣的所有嘴部運(yùn)動(dòng)特征圖的相似度,獲得相似度最高的嘴部運(yùn)動(dòng)特征圖。讀取相似度最高 的嘴部運(yùn)動(dòng)特征圖對(duì)應(yīng)的語音事件,即可完成該用戶唇語的識(shí)別。
[0077] 進(jìn)一步地,在所述步驟S2之前,還包括:
[0078] 采樣用戶發(fā)出已知的語音事件時(shí)無線信號(hào)的波形特征圖,獲得所述已知語音事件 對(duì)應(yīng)的嘴部運(yùn)動(dòng)特征圖;
[0079] 將所述嘴部運(yùn)動(dòng)特征圖進(jìn)行歸類,使具有相同讀音的已知語音事件所對(duì)應(yīng)的嘴部 運(yùn)動(dòng)特征圖為一類。
[0080] 在對(duì)用戶進(jìn)行唇語識(shí)別之前,需先對(duì)用戶的嘴部運(yùn)動(dòng)特征圖進(jìn)行采樣,對(duì)不同用 戶建立不同的嘴部運(yùn)動(dòng)特征檔案。嘴部運(yùn)動(dòng)特征圖的采樣方法與上述分段信號(hào)的波形特征 圖的獲得方法相同,這里不再詳細(xì)描述。
[0081] 對(duì)于發(fā)音不同的語音事件,嘴部運(yùn)動(dòng)不同,對(duì)無線信號(hào)波形的影響也不同。但對(duì)于 發(fā)音相同的語音事件,嘴部運(yùn)動(dòng)基本相同,對(duì)無線信號(hào)波形的影響也相同,因此,將對(duì)無線 信號(hào)波形的影響相同的嘴部運(yùn)動(dòng)特征圖歸為一類。
[0082] 由于用戶發(fā)出的每個(gè)語音事件之間是相關(guān)的,在完成對(duì)唇語的識(shí)別后,通過使用 上下文的糾錯(cuò)技術(shù),對(duì)識(shí)別的唇語進(jìn)行驗(yàn)證,減少同類別嘴部運(yùn)動(dòng)特征圖的識(shí)別錯(cuò)誤,進(jìn)一 步提高唇語識(shí)別的準(zhǔn)確率。
[0083] 優(yōu)選地,所述語音事件為音節(jié)或單詞。
[0084] 在預(yù)先采樣用戶的嘴部運(yùn)動(dòng)特征圖時(shí),可對(duì)用戶發(fā)出一個(gè)音節(jié)的嘴部運(yùn)動(dòng)特征圖 進(jìn)行采樣,也可對(duì)用戶發(fā)出一個(gè)單詞的嘴部運(yùn)動(dòng)特征圖進(jìn)行采樣。相應(yīng)的,在對(duì)嘴部反射信 號(hào)進(jìn)行分段時(shí),可采用詞內(nèi)分段或詞間分段的方法。若采用詞內(nèi)分段的方法,則將一個(gè)單詞 分為多個(gè)音節(jié),通過音節(jié)的組合來識(shí)別該單詞。若采用詞間分段的方法,由于通常人在連續(xù) 發(fā)出兩個(gè)單詞之間有較短的間隔時(shí)間(如300毫秒),通過檢測(cè)無聲的間隔區(qū)間將單詞區(qū)分 開來。
[0085] 參見圖6,是本發(fā)明提供的一種唇語識(shí)別系統(tǒng)的一個(gè)實(shí)施例的結(jié)構(gòu)示意圖,包括發(fā) 射端101和接收端102 ;所述接收端102包括信號(hào)過濾模塊103、特征提取模塊104和特征 對(duì)比模塊105 ;
[0086] 所述發(fā)射端101用于定向發(fā)射無線信號(hào),使所述無線信號(hào)覆蓋用戶面部;
[0087] 所述信號(hào)過濾模塊103用于接收用戶面部反射的無線信號(hào),并對(duì)所述反射的無線 信號(hào)進(jìn)行過濾,獲得用戶說話時(shí)嘴部的反射信號(hào);
[0088] 所述特征提取模塊104用于對(duì)所述嘴部反射信號(hào)進(jìn)行分段,獲得分段信號(hào),并提 取分段信號(hào)的波形特征圖;所述分段信號(hào)為每發(fā)出一個(gè)語音事件的反射信號(hào);
[0089] 所述特征對(duì)比模塊105用于比較所述分段信號(hào)的波形特征圖與預(yù)先采樣的所有 嘴部運(yùn)動(dòng)特征圖的相似度,讀取相似度最高的嘴部運(yùn)動(dòng)特征圖所對(duì)應(yīng)的語音事件;所述嘴 部運(yùn)動(dòng)特征圖為用戶發(fā)出一個(gè)語音事件時(shí)的無線信號(hào)波形特征圖。
[0090] 其中,發(fā)射端101采用定向天線或具有束波功能,從而保證無線信號(hào)的定向發(fā)射。 在接收反射的無線信號(hào)時(shí),可使用多個(gè)接收端102,部署在不同的角度,從而提高識(shí)別的精 度。
[0091] 優(yōu)選地,所述語音事件為音節(jié)或單詞。
[0092] 需要說明的是,本發(fā)明實(shí)施例僅以一個(gè)用戶的唇語識(shí)別為例進(jìn)行描述,但在具體 實(shí)施當(dāng)中,還可對(duì)多個(gè)用戶同時(shí)進(jìn)行唇語識(shí)別。
[0093] 在識(shí)別前,先對(duì)多個(gè)用戶分別進(jìn)行采樣,建立用戶對(duì)應(yīng)的嘴部運(yùn)動(dòng)特征圖檔案。 識(shí)別過程中,發(fā)射端發(fā)射不同的無線信號(hào),使每個(gè)無線信號(hào)定位不同的用戶。接收端采用 MMO(Multiple-Input Multiple-Output,多輸入多輸出)技術(shù),同時(shí)解碼多個(gè)用戶的嘴部 運(yùn)動(dòng)。在對(duì)多個(gè)用戶進(jìn)行唇語識(shí)別時(shí),采用之字形消除(Zigzag cancelation)來實(shí)現(xiàn)同時(shí) 識(shí)別技術(shù)。例如,同時(shí)對(duì)兩個(gè)用戶唇語進(jìn)行識(shí)別時(shí),先識(shí)別第一用戶的第一語音事件,當(dāng)?shù)?一用戶的第二語音事件與第二用戶的第一語音事件同時(shí)發(fā)生時(shí),消除第一用戶的第二語音 事件,而根據(jù)第一用戶的第一語音事件來預(yù)測(cè)其第二語音事件,同時(shí),識(shí)別出第二用戶的第 一語音事件。重復(fù)這一過程,從而實(shí)現(xiàn)對(duì)多個(gè)用戶的唇語識(shí)別,無需部署額外的設(shè)備。
[0094] 本發(fā)明實(shí)施例提供的唇語識(shí)別方法及系統(tǒng)能夠通過無線信號(hào)探測(cè)用戶嘴部運(yùn)動(dòng) 來提取嘴部反射信號(hào)的波形特征圖,并將波形特征圖與預(yù)先采樣的嘴部運(yùn)動(dòng)特征圖進(jìn)行對(duì) t匕,從而實(shí)現(xiàn)唇語的識(shí)別,提高識(shí)別效率和準(zhǔn)確率;無需部署額外的裝置,成本低廉,而且, 在具有噪音的環(huán)境下,仍可準(zhǔn)確進(jìn)行唇語識(shí)別;定向發(fā)射無線信號(hào),使無線信號(hào)覆蓋用戶面 部,以減少不相關(guān)的多徑效應(yīng),提高探測(cè)信號(hào)的精度;提取嘴部反射信號(hào)的波形特征圖,選 取每段時(shí)間內(nèi)信號(hào)強(qiáng)度變化最大的子載波作為特征圖,降低計(jì)算復(fù)雜度,提高識(shí)別效率;由 于相同用戶具有相同語速,從而對(duì)每個(gè)用戶均建立嘴部運(yùn)動(dòng)特征圖檔案,在對(duì)用戶的唇語 進(jìn)行識(shí)別時(shí),直接與其嘴部運(yùn)動(dòng)特征圖檔案進(jìn)行對(duì)比,提高唇語識(shí)別的準(zhǔn)確率;采用上下文 相關(guān)的糾錯(cuò)技術(shù),對(duì)已識(shí)別的唇語進(jìn)行驗(yàn)證,進(jìn)一步提高唇語識(shí)別的準(zhǔn)確率。
[0095] 以上所述是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本【技術(shù)領(lǐng)域】的普通技術(shù)人員 來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也視為 本發(fā)明的保護(hù)范圍。
【權(quán)利要求】
1. 一種唇語識(shí)別方法,其特征在于,包括: 定向發(fā)射無線信號(hào),使所述無線信號(hào)覆蓋用戶面部; 接收用戶面部反射的無線信號(hào),并對(duì)所述反射的無線信號(hào)進(jìn)行過濾,獲得用戶嘴部運(yùn) 動(dòng)時(shí)的嘴部反射信號(hào); 對(duì)所述嘴部反射信號(hào)進(jìn)行分段,獲得分段信號(hào),并提取所述分段信號(hào)的波形特征圖;所 述分段信號(hào)為每發(fā)出一個(gè)語音事件的反射信號(hào); 比較所述分段信號(hào)的波形特征圖與預(yù)先采樣的所有嘴部運(yùn)動(dòng)特征圖的相似度,讀取相 似度最高的嘴部運(yùn)動(dòng)特征圖所對(duì)應(yīng)的語音事件;所述嘴部運(yùn)動(dòng)特征圖為發(fā)出一個(gè)語音事件 時(shí)的無線信號(hào)波形特征圖。
2. 如權(quán)利要求1所述的唇語識(shí)別方法,其特征在于,所述定向發(fā)射無線信號(hào),使所述無 線信號(hào)覆蓋用戶面部,具體包括: 勻速旋轉(zhuǎn)無線信號(hào),記錄所述無線信號(hào)變換程度最大的時(shí)間點(diǎn); 根據(jù)所述無線信號(hào)旋轉(zhuǎn)的角速度和所述時(shí)間點(diǎn),計(jì)算所述無線信號(hào)定向發(fā)射的角度; 根據(jù)所述角度定向發(fā)射無線信號(hào),使所述無線信號(hào)覆蓋用戶面部。
3. 如權(quán)利要求1所述的唇語識(shí)別方法,其特征在于,所述接收用戶面部反射的無線信 號(hào),并對(duì)所述反射的無線信號(hào)進(jìn)行過濾,獲得用戶嘴部運(yùn)動(dòng)時(shí)的嘴部反射信號(hào),具體包括: 接收用戶面部反射的無線信號(hào),并采用巴特沃斯濾波器,對(duì)所述反射的無線信號(hào)進(jìn)行 過濾,獲得濾波信號(hào); 設(shè)置延遲閾值,去除延遲時(shí)間大于所述延遲閾值的濾波信號(hào),獲得用戶嘴部運(yùn)動(dòng)時(shí)的 嘴部反射信號(hào)。
4. 如權(quán)利要求3所述的唇語識(shí)別方法,其特征在于,所述設(shè)置延遲閾值,去除延遲時(shí)間 大于所述延遲閾值的濾波信號(hào),獲得用戶嘴部運(yùn)動(dòng)時(shí)的嘴部反射信號(hào),具體包括: 對(duì)所述濾波信號(hào)的信道狀態(tài)信息CSI進(jìn)行快速傅里葉逆變換,獲得濾波信號(hào)的時(shí)域 CSI ; 設(shè)置延遲閾值,去除時(shí)域CSI大于所述延遲閾值的濾波信號(hào),獲得具有時(shí)域CSI的嘴部 反射信號(hào); 對(duì)所述嘴部反射信號(hào)的時(shí)域CSI進(jìn)行快速傅里葉變換,獲得用戶嘴部運(yùn)動(dòng)時(shí)的嘴部反 射信號(hào)。
5. 如權(quán)利要求1所述的唇語識(shí)別方法,其特征在于,所述對(duì)所述嘴部反射信號(hào)進(jìn)行分 段,獲得分段信號(hào),并提取所述分段信號(hào)的波形特征圖,具體包括: 采用小波變換算法,對(duì)所述嘴部反射信號(hào)進(jìn)行分段,獲得分段信號(hào); 在所述分段信號(hào)的CSI中,選取每個(gè)時(shí)間段信號(hào)強(qiáng)度變化最大的子載波,并將每個(gè)時(shí) 間段選取的子載波拼接起來,獲得所述分段信號(hào)的波形特征圖;所述CSI具有30個(gè)子載波。
6. 如權(quán)利要求1所述的唇語識(shí)別方法,其特征在于,所述比較所述分段信號(hào)的波形特 征圖與預(yù)先采樣的所有嘴部運(yùn)動(dòng)特征圖的相似度,讀取相似度最高的嘴部運(yùn)動(dòng)特征圖所對(duì) 應(yīng)的語音事件,具體包括: 根據(jù)最小二乘法算法,比較所述分段信號(hào)的波形特征圖與預(yù)先采樣的所有嘴部運(yùn)動(dòng)特 征圖的相似度,讀取相似度最高的嘴部運(yùn)動(dòng)特征圖所對(duì)應(yīng)的語音事件。
7. 如權(quán)利要求1所述的唇語識(shí)別方法,其特征在于,在所述接收用戶面部反射的無線 信號(hào),并對(duì)所述反射的無線信號(hào)進(jìn)行過濾,獲得用戶嘴部運(yùn)動(dòng)時(shí)的嘴部反射信號(hào)之前,還包 括: 采樣用戶發(fā)出已知的語音事件時(shí)無線信號(hào)的波形特征圖,獲得所述已知語音事件對(duì)應(yīng) 的嘴部運(yùn)動(dòng)特征圖; 將所述嘴部運(yùn)動(dòng)特征圖進(jìn)行歸類,使具有相同發(fā)音的已知語音事件所對(duì)應(yīng)的嘴部運(yùn)動(dòng) 特征圖為一類。
8. 如權(quán)利要求1至7任一項(xiàng)所述的唇語識(shí)別方法,其特征在于,所述語音事件為音節(jié)或 單詞。
9. 一種唇語識(shí)別系統(tǒng),其特征在于,包括發(fā)射端和接收端;所述接收端包括信號(hào)過濾 模塊、特征提取模塊和特征對(duì)比模塊; 所述發(fā)射端用于定向發(fā)射無線信號(hào),使所述無線信號(hào)覆蓋用戶面部; 所述信號(hào)過濾模塊用于接收用戶面部反射的無線信號(hào),并對(duì)所述反射的無線信號(hào)進(jìn)行 過濾,獲得用戶說話時(shí)嘴部的反射信號(hào); 所述特征提取模塊用于對(duì)所述嘴部反射信號(hào)進(jìn)行分段,獲得分段信號(hào),并提取分段信 號(hào)的波形特征圖;所述分段信號(hào)為每發(fā)出一個(gè)語音事件的反射信號(hào); 所述特征對(duì)比模塊用于比較所述分段信號(hào)的波形特征圖與預(yù)先采樣的所有嘴部運(yùn)動(dòng) 特征圖的相似度,讀取相似度最高的嘴部運(yùn)動(dòng)特征圖所對(duì)應(yīng)的語音事件;所述嘴部運(yùn)動(dòng)特 征圖為用戶發(fā)出一個(gè)語音事件時(shí)的無線信號(hào)波形特征圖。
10. 如權(quán)利要求9所述的唇語識(shí)別系統(tǒng),其特征在于,所述語音事件為音節(jié)或單詞。
【文檔編號(hào)】G06K9/62GK104217218SQ201410462392
【公開日】2014年12月17日 申請(qǐng)日期:2014年9月11日 優(yōu)先權(quán)日:2014年9月11日
【發(fā)明者】王冠華, 伍楷舜, 倪明選 申請(qǐng)人:廣州市香港科大霍英東研究院