專利名稱:基于視覺特征的單音節(jié)語言唇讀識別系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計算機智能識別技術(shù),具體涉及一種面向單音節(jié)語言的、 基于視覺特征的唇讀識別系統(tǒng),根據(jù)視頻中人物說話時的唇動變化,識 別說話內(nèi)容。
背景技術(shù):
計算機從1946年誕生發(fā)展至今,經(jīng)歷了鍵盤操作方式、鼠標(biāo)操作方 式,進入了自然人機交互方式階段。在這種背景下,近年來語音識別技 術(shù)得到了快速的發(fā)展,通過語音進行人機交互,無疑是交互方式中最有 效、快捷的途徑。"噪音環(huán)境下的語音識別綜述"(Y. Cong. Speech recognition in noisy environments:a survey [J]. Speech Communication, 1995: 16:261-291) —文分析了由IBM提出的ViaVoice語音識別系統(tǒng),指出這 些在實驗室里表現(xiàn)優(yōu)秀的系統(tǒng),在實際噪聲環(huán)境或多話者條件下,其識 別率都大大下降。
唇動是語音的視覺補充,它可以幫助語音提高識別率。唇讀就是在 這樣的背景下提出來的。唇讀的現(xiàn)象是普遍存在的,主要是聽力殘障者 從正常人說話中獲取信息的一種技巧。他們憑借自身已有的語言知識、 談話內(nèi)容和背景知識等眾多相關(guān)因素,再根據(jù)觀察到說話人的口型變化 情況,映像成說話內(nèi)容。事實上正常人也在使用這種手段,只是數(shù)量上 和意識上有所差別。由計算機來實現(xiàn)和完成這項技巧,對人機交流技術(shù) 有著深遠(yuǎn)的影響。
解決唇讀問題需要經(jīng)過唇的檢測定位、特征提取、識別理解的過程。 許多唇讀識別系統(tǒng)直接采集的是唇部灰度圖像,采用手動的辦法框
出唇的區(qū)域或?qū)z像頭固定在頭盔上與人臉形成相對固定的位置,不允
許人臉自由移動,見"增強語音識別的自動唇讀"(E.D.Petajan,"Automatic Lipreading to Enhance Speech Recognition " ,PhD thesis, Univ. of 111ionis,Urbana-Champaign,1984);或?qū)⒋酵可仙钌目诩t或者貼反光片, 且在特定的光照條件下攝取,見"使用概率模型的唇讀"(Luettin J, Thacker N A. Speechreading Using Probabilistic Models. Computer Vision and Image Understanding. 1997, 165(2):163-178)。而唇讀的目標(biāo)是在無任何交互和限 制條件下,能夠自動地將不同光照、不同皮膚顏色、不同話者準(zhǔn)確定位、 跟蹤、識別和理解。
目前已有的唇讀研究多是利用音視頻信息相結(jié)合而進行的,比如 IBM公司提供的視聽覺測試庫ViaVoiceTM,見"大詞匯量的人機音視頻 語音識另廿"(Gerasimos Potamianos, Chalapathy Neti, Giridharan Iyengar, Eric Helmuth, Large-Vocabulary Audio-Visual Speech Recognition by Machines and Humans IBM Thomas J.Watson Research Center Aalborg, Denmark September 2001:3-7); Intel研究機構(gòu)于2003年初構(gòu)建的視聽覺 實時識別系統(tǒng)AVCSR,見"不依賴于說話人的音視頻連續(xù)語音識別" (Luhong Liang, Xiaoxing Liu, Yibao Zhao, Xiaobo Pi, and Ara V.Nefian SPEAKER INDEPENDENT AUDIO-VISUAL CONTINUOUS SPEECH RECOGNITION EURASIP Journal on Applied Signal Processing, Special issue on Audio-Visual Speech Processing, 2002 ),但是在嘈雜的環(huán)境、禁止 發(fā)聲的環(huán)境或者遠(yuǎn)距離的情況下,聲音信息難以準(zhǔn)確獲取。
識別系統(tǒng)采集自然語速的句子,不能直接用于識別,需要從句子中 將單音節(jié)發(fā)音切割開來,即唇動分割。有的唇動系統(tǒng)使用的分割技術(shù)基 于嚴(yán)格的等時間間隔,如徐彥君,杜利民."漢語聽覺視覺雙模態(tài)數(shù)據(jù)庫" CAVSRl.O聲學(xué)學(xué)報,2000; 25 (1): 42—49,這對于自然狀況下的人 的講話內(nèi)容的識別是不適用的;有的依賴視頻數(shù)據(jù)使用語音能量進行分 割,如單衛(wèi),姚鴻勛,高文.唇讀中序列口型的分類,中文信息學(xué)報.2002,
16 (1): 31—36,這種方法無法用于無聲的環(huán)境。
現(xiàn)有的唇讀識別系統(tǒng)中,語料庫的規(guī)模小而簡單,如Movdlan建立 的語料庫Tulips集合為(one, two, three, four},見"使用隨機網(wǎng)絡(luò)的視覺 i吾音i只另lj" (J. R. Movellan.. Visual speech recognition with stochastic networks. In G. Tesauro, D. Touretzky, and T. Leen, editors, Advances in Neural Information Processing Systems, volume 7. MIT press, Cambridge, W95); Pigoen和Vandendo卬e建立的語料庫M2VTS集合為法語數(shù)字0 到9 ,見"多模態(tài)人臉數(shù)據(jù)庫M2VTS"(S.PigeonandL. Vandendorpe.The M2VTS multimodal face database. In Proceedings of the First International Conference on Audio-and Video-Based Biometric Person Authentication, Lecture Notes in Computer Science. Springer Verlag, 1997) ; Mattehews禾口 Cox所建立的語料庫Avletters的集合為{A.. .Z},見I. A. Matthews, J. A. Bangham and S. J. Cox, Scale Based Features for Audiovisual Speech Recognition這些庫適合研究階段的實驗,離真實的應(yīng)用背景和唇讀實 用目標(biāo)太遙遠(yuǎn)。中科院聲學(xué)所的徐彥君建立了漢語聽覺視覺雙模態(tài)數(shù)據(jù) 庫CAVSR,哈爾濱工業(yè)大學(xué)建立了音視頻語料庫HIT B.i-CAVDatabase, 這些庫是包括了音頻和視頻兩部分信息的,不適用于僅使用視頻信息的 環(huán)境。
發(fā)明內(nèi)容
本發(fā)明提供一種基于視覺特征的單音節(jié)語言唇讀識別系統(tǒng),目的在 于僅利用視頻信息,解決如漢語等單音節(jié)語言的唇讀識別問題。
本發(fā)明的一種基于視覺特征的單音節(jié)語言唇讀識別系統(tǒng),包括視頻 解碼模塊、唇部定位模塊、唇動分割模塊、特征提取模塊、語料庫、模
型建立模塊和唇語識別模塊;
(A) 視頻解碼模塊將輸入的面部視頻信號a轉(zhuǎn)換成幀圖像序列,送入 唇部定位單元;
(B) 唇部定位模塊從幀圖像序列中發(fā)現(xiàn)并定位人臉,并進一步檢測、 確定唇部區(qū)域,從原圖像中分離出唇部圖像,提交一個只包含唇部動作 變化的唇動視頻序列給唇動分割模塊;
(C) 唇動分割模塊將唇動視頻序列以單音節(jié)為單位分割成若干單音 節(jié)唇動圖像序列, 一個單音節(jié)唇動圖像序列由若干連續(xù)的幀組成,提交 給特征提取模塊;
(D) 特征提取模塊針對單音節(jié)唇動圖像序列中每幀圖像,提取并描 述唇部發(fā)音時低級視覺特征和高級視覺特征,低級視覺特征包含直接基 于該幀圖像像素或經(jīng)變換后的特征;高級視覺特征包含唇部輪廓參數(shù), 唇部輪廓參數(shù)根據(jù)該幀圖像的唇部區(qū)域及該幀圖像的低級視覺特征計 算,將低級視覺特征和高級視覺特征融合,形成該幀圖像的唇動特征向 量;單音節(jié)唇動圖像序列中每幀圖像處理后,將各幀圖像的唇動特征向 量組成的單音節(jié)唇動特征向量提交給唇讀識別模塊或者語料庫;
(E) 語料庫存儲漢語中各個單音節(jié)發(fā)音時的單音節(jié)唇動圖像序列樣 本、單音節(jié)唇動圖像序列樣本的特征向量、單音節(jié)唇動圖像序列樣本與 單音節(jié)標(biāo)識符之間的對應(yīng)關(guān)系,以及單音節(jié)標(biāo)識符與拼音文字之間的對 應(yīng)關(guān)系;
(F) 模型建立模塊從語料庫中獲取單音節(jié)唇動圖像序列樣本的特征 向量作為訓(xùn)練對象,通過學(xué)習(xí)算法建立識別模型,將模型參數(shù)以文件方 式保存于本模塊,并在需要時傳遞給唇語識別模塊;
(G) 唇語識別模塊對單音節(jié)唇動圖像序列進行識別,從特征提取模 塊獲取單音節(jié)唇動特征向量,結(jié)合從模型建立模塊獲取的模型參數(shù),對 單音節(jié)唇動特征向量進行分類,再從語料庫中索引得到單音節(jié)的拼音文
字,最后將單音節(jié)的拼音文字進行組合輸出給最終用戶。
所述的單音節(jié)語言唇讀識別系統(tǒng),其特征在于所述唇部定位模塊 包括人臉檢測單元、唇色增強單元和唇部區(qū)域確定單元;
人臉檢測單元從所述視頻解碼模塊中獲取幀圖像,確定每一幀圖像 中的人臉區(qū)域,并分割出人臉圖像,將其提交給唇色增強單元;
唇色增強單元對人臉圖像下1/3區(qū)域進行圖像增強,將增強后的下 1/3區(qū)域臉部圖像提交給唇部區(qū)域確定單元;
唇部區(qū)域確定單元對增強的下1/3區(qū)域人臉圖像進行處理,確定唇部 位置,計算左右唇角、上唇頂點和下唇底點的坐標(biāo),并根據(jù)這些坐標(biāo)提 取嘴唇區(qū)域圖像,結(jié)合時間序列形成唇動視頻序列提交給所述唇動分割 模塊。
所述的單音節(jié)語言唇讀識別系統(tǒng),其特征在于所述唇動分割模塊 包括唇動描述單元、唇速描述單元、閾值判斷單元;
唇動描述單元從唇部定位模塊獲取唇動視頻序列,計算其中每一幀 的唇動瞬時位置速度場,并將其提交給唇速描述單元;
唇速描述單元從每一幀的唇動瞬時位置速度場計算表示唇部運動速 度規(guī)律的唇速點,并將各幀的唇速點進行曲線擬合,得到唇速曲線,將 其提交給閾值判斷單元;
閾值判斷單元根據(jù)曲線極小值點和閾值對唇速曲線進行音節(jié)分割, 將唇動視頻序列分割為單音節(jié)唇動圖像序列,所述閾值為唇速曲線所有 相鄰極小值點間對應(yīng)幀數(shù)的平均值。
所述的單音節(jié)語言唇讀識別系統(tǒng),其特征在于所述特征提取模塊 包括低級特征提取單元、高級特征提取單元、特征描述單元,
低級特征提取單元從唇動分割模塊或者語料庫獲取單音節(jié)唇動圖像
序列,對其中的每一幀圖像中唇部區(qū)域進行DCT變換取得DCT系數(shù), 再對DCT系數(shù)做主成分分析,用K-L變換進行二次降維,得到維數(shù)少的 低級視覺特征,提交給高級特征提取單元和特征描述單元;
高級特征提取單元計算單音節(jié)唇動圖像序列中每一幀的高級視覺特 征,高級視覺特征包含唇部輪廓參數(shù)內(nèi)唇寬度w,、外唇寬度叫、上外 唇高度A、上內(nèi)唇高度&、下內(nèi)唇高度&、下外唇高度^、唇偏轉(zhuǎn)角度^、 嘴唇中心點坐標(biāo)(^,。、上外唇四次曲線離坐標(biāo)原點的偏移量"。#、四次 曲線偏離拋物線的距離《。、下外唇輔助參數(shù)《、內(nèi)唇面積、外唇面積、內(nèi) 唇灰度均值;高級特征計算所需的數(shù)據(jù)一部分來自唇動分割模塊或者語 料庫中的單音節(jié)唇動圖像序列,另一部分來自低級視覺特征;本單元將 計算得到的高級特征提交給特征描述單元;
特征描述單元將低級視覺特征和高級視覺特征融合,形成該幀圖像 的唇動特征向量;單音節(jié)唇動圖像序列中每幀圖像處理后,將各幀圖像 的唇動特征向量組成單音節(jié)唇動特征向量,如果所處理的單音節(jié)唇動圖 像序列來自唇動分割模塊,則本單元將單音節(jié)唇動特征向量提交給唇語 識別模塊;如果所處理的單音節(jié)唇動圖像序列來自語料庫,則本單元將 單音節(jié)唇動特征向量反饋給語料庫。
所述的單音節(jié)語言唇讀識別系統(tǒng),其特征在于所述模型建立模塊 包括初值設(shè)定單元和參數(shù)學(xué)習(xí)單元,
初值設(shè)定單元,從語料庫讀取單音節(jié)唇動圖像序列樣本的特征向量, 作為模型的觀測向量;同時設(shè)定狀態(tài)轉(zhuǎn)移概率矩陣aij、混合比系數(shù)Cjm、
協(xié)方差矩陣i:m和均值向量llm四個模型參數(shù)的初值,并將所述四個模型
參數(shù)初值和觀測向量提供給參數(shù)學(xué)習(xí)單元;
參數(shù)學(xué)習(xí)單元對四個模型參數(shù)初值和觀測向量進行學(xué)習(xí),確定四個模型參數(shù),并將這四個模型參數(shù)以文件形式存儲,以便唇語識別模塊讀 取,所述學(xué)習(xí)方法為隱馬爾可夫模型方法。
所述的單音節(jié)語言唇讀識別系統(tǒng),其特征在于所述唇讀識別模塊 包括參數(shù)讀取單元、匹配單元和文字組合輸出單元;
參數(shù)讀取單元從模型建立模塊讀取給定的模型參數(shù)文件,并將來自
特征提取模塊的待測單音節(jié)唇動特征向量序列和模型參數(shù)提交給匹配單 元;
匹配單元根據(jù)模型參數(shù),對待測單音節(jié)唇動特征向量序列中的每個 向量進行識別,將識別結(jié)果形成一個單音節(jié)標(biāo)識符序列,提交給文字組
合輸出單元;
文字組合輸出單元根據(jù)語料庫中單音節(jié)標(biāo)識符與拼音文字之間的對 應(yīng)關(guān)系,將單音節(jié)標(biāo)識符序列轉(zhuǎn)換、組合,形成一段拼音文字,輸出給 用戶。
本發(fā)明將說話者一段連續(xù)的唇動序列自動分割成一系列單音節(jié)唇動 序列,每個單音節(jié)唇動序列代表一個單音節(jié)的發(fā)音動作,這樣,系統(tǒng)的 識別模型可以針對單音節(jié)唇動序列進行內(nèi)容識別,與定長分割和手工分 割相比,實用性更強,識別準(zhǔn)確率也得到了提高。
本發(fā)明具有完備的語料庫,語料庫采集的素材是漢語普通話,漢語 是單音節(jié)語言,采用的單音節(jié)唇動序列樣本涵蓋所有聲韻母,單音節(jié)唇 動序列樣本分布符合漢語聲韻母的實際分布概率,包含的內(nèi)容豐富,樣 本多樣化,收集了同一個音不同的唇動視頻,可以利用學(xué)習(xí)算法找到發(fā)
同一個音時存在的普遍唇動特征,其反映的規(guī)律具有代表性,為本發(fā)明 正確識別未知樣本的唇動內(nèi)容提供了可靠保障。語料庫的規(guī)模具有很強
的可擴展性,可以隨著研究的深入方便地擴大規(guī)模,也可以方便地更換
為其它單音節(jié)語言的素材。
本發(fā)明采用含有簡單背景的人臉圖像作為輸入,在自然光照條件下, 被采集者以自然語速(新聞播音語速)朗讀每個單音節(jié)發(fā)音。對素材的 采集不進行人為的限制,不需要人工參與,能夠滿足自然交互的需要。 本發(fā)明能夠根據(jù)視頻中人物說話時的唇部動作識別說話內(nèi)容,只需處理
視頻圖像,不需要音頻數(shù)據(jù)進行輔助識別,能夠?qū)vi、 wnw、 rmvb、 mpg 等視頻文件進行處理,滿足無聲條件下說話內(nèi)容識別的要求。
圖l是本發(fā)明的結(jié)構(gòu)示意圖; 圖2是本發(fā)明的唇部定位模塊結(jié)構(gòu)示意圖; 圖3是本發(fā)明的唇部定位模塊工作流程圖; 圖4是本發(fā)明的唇動分割模塊結(jié)構(gòu)示意圖; 圖5是本發(fā)明的特征提取模塊結(jié)構(gòu)示意圖; 圖6是本發(fā)明的模型建立模塊結(jié)構(gòu)示意圖; 圖7是本發(fā)明的模型建立模塊工作流程圖; 圖8是本發(fā)明的唇讀識別模塊結(jié)構(gòu)示意圖; 圖9是本發(fā)明的唇讀識別模塊工作流程圖io是本發(fā)明的語料庫結(jié)構(gòu)。
具體實施例方式
如圖1所示,本發(fā)明包括視頻解碼模塊10、唇部定位模塊20、唇動 分割模塊30、特征提取模塊40、語料庫50、模型建立模塊60和唇讀識 別模塊70。
視頻解碼模塊10接受用戶給定的視頻文件或設(shè)備,將其解碼,獲取 可用于本發(fā)明處理的圖像幀序列。
唇部定位模塊20用于分析視頻中的圖像幀,它從視頻解碼模塊10 中發(fā)現(xiàn)并定位說話人的唇部位置,這些位置信息需要提供給唇動分割模
塊30和特征提取模塊40。唇部定位模塊20首先得到一個唇部位置向量, 它包含4個分量,每個分量是二維空間的坐標(biāo)值,分別代表左唇角、右 唇角、上唇頂點和下唇底點。然后根據(jù)該向量從原圖像中分割出唇部圖 像,結(jié)合視頻的時間序列,形成唇動序列,提交給唇動分割模塊30。
唇動分割模塊30負(fù)責(zé)將唇動序列分割成單音節(jié)子序列。該模塊接收 唇部定位模塊20提供的唇動序列,然后將此序列分割,得到一個有序集 合,集合中的每個元素是單音節(jié)唇動序列,也是原唇動序列的子序列, 它是說話者發(fā)出一個單音節(jié)時唇部的動作。這個子序列集合要提供給特 征提取模塊40。
特征提取模塊40負(fù)責(zé)從單音節(jié)唇動序列中提取特征。該模塊接收來 自唇動分割模塊30提供的單音節(jié)唇動序列,獲取單音節(jié)唇動特征向量, 并將該特征向量提供給唇讀識別模塊70。
語料庫50用于存儲預(yù)先搜集的訓(xùn)練數(shù)據(jù),主要為單音節(jié)的拼音文字、 該單音的發(fā)音視頻文件和唇動特征向量,本發(fā)明構(gòu)建時,唇動特征向量 為空,在系統(tǒng)初始化時,需調(diào)用特征提取模塊40從語料庫的發(fā)音視頻文
件中獲取每個單音節(jié)的唇動特征向量,并存儲進唇動特征向量字段;本 發(fā)明中,語料庫50是模型建立模塊60的學(xué)習(xí)對象,語料庫50作為訓(xùn)練 集,為本發(fā)明的模型建立提供依據(jù);同時語料庫50為唇讀識別模塊70 提供單音節(jié)標(biāo)識符與拼音之間的對應(yīng)關(guān)系。 .
模型建立模塊60從語料庫50提供的數(shù)據(jù)中學(xué)習(xí),確定識別模型的 參數(shù),這些參數(shù)以文件形式存儲,供唇語識別模塊70讀取。
唇語識別模塊70首先從模型建立模塊60給定的參數(shù)文件中獲取參 數(shù),以此為基礎(chǔ)對特征提取模塊40提供的一系列特征向量進行識別,得 到識別后的單音節(jié)標(biāo)識符,并根據(jù)語料庫中單音節(jié)標(biāo)識符與拼音之間的
對應(yīng)關(guān)系,向用戶輸出一段拼音文字。 整個系統(tǒng)流程包括
(1) 系統(tǒng)初始化
系統(tǒng)初始化針對的對象是管理員用戶,管理員用戶的主要任務(wù)是通 過系統(tǒng)提供的接口建立完整的語料庫,具體過程如下
(1.1) 確定要識別的單音節(jié)語言,直接打開語料庫50進行編輯,需 要編輯的內(nèi)容包括添加該語言所有的單音節(jié)(拼音文字方式)以及每 個單音節(jié)對應(yīng)的發(fā)音視頻片斷;
(1.2) 管理員需要調(diào)用特征提取模塊40,以語料庫中的視頻片斷為處 理對象,為每個音節(jié)提取唇動特征向量,并存儲在語料庫50中;
(1.3) 管理員以語料庫50中的單音節(jié)(拼音文字)和音節(jié)唇動特征 向量為學(xué)習(xí)對象,通過模型建立模塊60確定參數(shù),這些參數(shù)被模型建立 模塊60以文件形式存放,提供給唇語識別模塊70;
(2) 唇語識別
唇語識別流程針對的對象是所有使用該系統(tǒng)的用戶,用戶通過指定
文件或設(shè)備給視頻解碼模塊10,提供給本發(fā)明要識別的視頻數(shù)據(jù),然后
通過唇語識別模塊識別說話者的說話內(nèi)容,該內(nèi)容以拼音文字體現(xiàn) ,
(2.1) 視頻解碼模塊10獲取數(shù)據(jù),將輸入轉(zhuǎn)換為可處理的幀圖像形
式,提供給唇部定位模塊20;
(2.2) 唇部定位模塊20用于給出由視頻解碼模塊10提供的幀圖像序 列中說話人唇部的位置信息,進而形成唇部運動序列,提供給唇動分割 模塊30和特征提取模塊40;
(2.3) 唇動分割模塊30對唇部定位模塊20給出的唇動序列進行處 理,得到一個單音節(jié)唇動序列的集合,該集合提交給特征提取模塊40;
(2.4) 特征提取模塊40對唇動分割模塊30給出的單音節(jié)唇動序列集 合進行處理,逐個對集合中的單音節(jié)唇動序列進行特征提取,得到一個
單音節(jié)的唇動特征向量集合,該集合提交給唇語識別模塊70;
(2.5)唇語識別模塊70首先讀取由模型建立模塊60存放的參數(shù)文 件,獲取模型參數(shù),再逐個處理特征提取模塊40給出的單音節(jié)唇動特征 向量集合,根據(jù)集合中的唇動特征向量進行識別,得到一段展示視頻中 說話者內(nèi)容的單音節(jié)標(biāo)識符序列,然后根據(jù)語料庫中單音節(jié)標(biāo)識符與拼 音之間的對應(yīng)關(guān)系,將之轉(zhuǎn)換、組合,形成一段拼音文字,作為系統(tǒng)輸 出提交給用戶。
本發(fā)明視頻解碼模塊10采用商用解碼軟件Adobe Premiere 2.0實現(xiàn),
本發(fā)明定義了視頻解碼模塊的接口,其中輸入包括多種格式的視頻文 件、設(shè)備;輸出為以圖像幀按時間順序排列而成的視頻數(shù)據(jù)。該模塊可 以對常見格式的視頻文件進行解碼,如avi、 wmv、 rmvb等。本發(fā)明對于 輸入視頻的要求為包含且僅包含說話人正面視頻片斷。
唇部定位模塊20可以采用如圖2所示的功能模塊予以具體實現(xiàn),它 包括人臉檢測單元21、唇色增強單元22、唇部區(qū)域確定單元23。模塊間 的數(shù)據(jù)流向以及處理流程見圖3所示
人臉檢測單元21首先從視頻中獲取第1幀,針對該幀圖像,以膚色 為基準(zhǔn),搜索圖像中可能的人臉區(qū)域,再針對每個候選區(qū)域,以眼睛特 征為基準(zhǔn),判定該候選區(qū)域是否為正面人臉,如果是,則從幀圖像中獲 取該區(qū)域,得到人臉圖像;對于視頻中的后繼幀圖像(如第n幀,n大于 1),以人臉圖像在第n-l幀圖像中的位置為基準(zhǔn),在附件搜索,確定第n 幀圖像中的人臉區(qū)域。該模塊將視頻中所有幀中的人臉圖像提交給唇色 增強單元22。
唇色增強單元22將獲取的人臉圖像(由人臉檢測單元21提供)進 行分析,首先獲取臉部中垂線,然后根據(jù)中垂線獲取臉部圖像下方1/3 區(qū)域,對這一區(qū)域進行圖像增強,增大圖像對比度,以擴大唇色和膚色
的顏色差別,完成唇色增強。該模塊將唇色增強后的臉部圖像下方1/3 區(qū)域提交給唇部區(qū)域確定單元23。
唇部區(qū)域確定單元23將唇色增強單元22提供的唇色增強圖像進行 處理,進行水平、垂直方向的投影,得到像素投影曲線,根據(jù)該曲線特 征確定唇部位置,由唇部的4個點進行位置描述。該模塊根據(jù)唇部位置 信息將唇部圖像分割,形成唇動序列提交給唇動分割模塊30。
唇動分割模塊30可以采用如圖4所示的功能模塊予以具體實現(xiàn),它 包括唇動描述單元31、唇速描述單元32、閾值判斷單元33。以下是模塊 間的數(shù)據(jù)流向以及處理流程的具體描述
唇動描述單元31從唇部定位模塊20獲取唇動序列,并從中提取一 系列描述唇部運動的唇動瞬時位置速度場,每一幀唇部圖像用一組速度 場表示,該模塊計算所有幀的速度場,并將之提交給唇速描述單元32。
唇速描述單元32從唇動描述單元31獲取唇動序列每一幀的唇動瞬 時位置速度場,結(jié)合時間順序,計算唇部的運動速度,用曲線表示唇部 運動規(guī)律。該模塊提交曲線給閾值判斷單元33。
閾值判斷單元33接受來自唇速描述單元32提交的唇速曲線,分析 該曲線,找到曲線的極小值點,將相鄰兩極小值點間對應(yīng)幀數(shù)與閾值比 較(這里閾值是唇速曲線所有相鄰極小值點間對應(yīng)幀數(shù)的平均值),大于 該閾值的即為音節(jié)分割點,根據(jù)這些分割點,將唇動序列分割為單音節(jié) 唇動序列。該模塊將單音節(jié)唇動序列提交給特征提取模塊40。
特征提取模塊40可以采用如圖5所示的功能模塊予以具體實現(xiàn),它 包括低級特征提取單元41、高級特征提取單元42、特征描述單元43。以
下是模塊間的數(shù)據(jù)流向以及處理流程的具體描述
低級特征提取單元41從唇動分割模塊30或者語料庫50獲取單音節(jié)
唇動圖像序列,對序列中的每一幀圖像的唇部區(qū)域提取低級特征。本模
塊提取出的特征提交給高級特征提取單元42和特征描述單元43。
高級特征提取單元42計算單音節(jié)唇動圖像序列中每一幀的高級視覺
特征,主要為唇部輪廓參數(shù),這些特征的計算所需數(shù)據(jù)來自兩個部分,
其中一部分是從唇動分割模塊30或者語料庫50獲取的單音節(jié)唇動序列, 另一部分從低級特征單元41中獲取需要的低級特征量;本模塊將從這兩 部分進行計算獲取的高級特征量提交給特征描述單元43。
特征描述單元43從低級特征提取單元41和高級特征提取單元42獲 取特征量,將兩者融合成一個多維特征向量,即單音節(jié)唇動特征向量。 如果特征提取模塊40處理的單音節(jié)唇動序列來自唇動分割模塊30,則本 模塊將單音節(jié)唇動特征向量提交給唇語識別模塊70;如果特征提取模塊 40處理的單音節(jié)唇動序列來自語料庫50,則本模塊將單音節(jié)唇動特征向 量反饋回語料庫50。
語料庫50由一個表格及視頻文件集構(gòu)成,表格結(jié)構(gòu)如圖IO所示, 它包含5個字段,分別是單音節(jié)標(biāo)識符、拼音、唇動視頻、特征描述、 備注信息。單音節(jié)標(biāo)識符用于標(biāo)識不同音節(jié),拼音為單音節(jié)的文字表述, 唇動視頻為單音節(jié)發(fā)音的唇動視頻,特征描述為單音節(jié)唇動的特征向量, 備注信息為預(yù)留字段,可以為空。
模型建立模塊60為語料庫中的每個音節(jié)建立模型,本發(fā)明采用隱馬 爾可夫模型,因此模型建立也就是求得該音節(jié)模型的狀態(tài)轉(zhuǎn)移概率矩陣
混合比系數(shù)C」m、協(xié)方差矩陣i:m、均值向量Pm四個模型參數(shù)。以下
描述的是一個音節(jié)建模的過程,具體如圖6所示的功能模塊予以實現(xiàn), 包括初值設(shè)定單元61、參數(shù)學(xué)習(xí)單元62。模塊間的數(shù)據(jù)流向以及處理流 程見圖7所示
初值設(shè)定單元61,包含兩個功能, 一個用于設(shè)定模型參數(shù)的初始值, 分別是狀態(tài)轉(zhuǎn)移概率矩陣aij、混合比系數(shù)Cjm、協(xié)方差矩陣Em、均值向 量^m。另一個功能是將語料庫50中的單音節(jié)唇動特征向量讀入系統(tǒng), 得到模型的觀測向量。本模塊將設(shè)定的初值以及觀測向量提供給參數(shù)學(xué)
習(xí)單元62。
參數(shù)學(xué)習(xí)單元62接收來自初值設(shè)定單元61的四個模型參數(shù)初值和 觀測向量,經(jīng)過本模塊的迭代算法進行參數(shù)訓(xùn)練,該算法的每一輪迭代, 首先進行參數(shù)修正,然后將修正的四個模型參數(shù)進行收斂性判斷,如果 不符合收斂性條件,則繼續(xù)迭代;如果符合收斂性條件,則模型參數(shù)得 以確定,將這四個模型參數(shù)以文件形式存儲,以便唇語識別模塊70讀取。
唇語識別模塊70采用如圖8所示的功能模塊予以實現(xiàn),包括參數(shù)讀 取單元71、匹配單元72、文字組合輸出單元73。模塊間的數(shù)據(jù)流向以及 處理流程見圖9所示
參數(shù)讀取單元71首先接收來自特征提取模塊的待測試的單音節(jié)特征 向量序列,接著從模型建立模塊60給定的模型參數(shù)文件中讀取每個音節(jié) 的模型參數(shù),分別是入h...入n (系統(tǒng)有n個音節(jié))。本模塊將待測試單音 節(jié)特征向量序列和{ A ,, ... A J提交給匹配單元72。
匹配單元72獲取了來自參數(shù)讀取單元71給出的待測試單音節(jié)特征 向量序列和(A,,...入J,針對單音節(jié)特征向量序列中的每個向量(即單 音節(jié)特征向量)進行識別,其過程是利用識別算法將該向量序列分別與 單音節(jié)模型A l5 ... A n進行匹配,該匹配過程通過計算最大似然概率,找 到與待測試單音節(jié)特征向量序列最匹配的模型A i,獲得對應(yīng)的單音節(jié)標(biāo) 識符。重復(fù)以上過程,識別待測向量序列對應(yīng)的音節(jié),形成一個單音節(jié) 標(biāo)識符序列,提交給文字組合輸出單元73。
文字組合輸出單元73接收來自匹配單元72的音節(jié)類別序列,根據(jù)
語料庫中單音節(jié)標(biāo)識符與拼音之間的對應(yīng)關(guān)系,將之轉(zhuǎn)換組合,形成一 段拼音文字,并輸出給用戶。
權(quán)利要求
1.一種基于視覺特征的單音節(jié)語言唇讀識別系統(tǒng),包括視頻解碼模塊、唇部定位模塊、唇動分割模塊、特征提取模塊、語料庫、模型建立模塊和唇語識別模塊;(A)視頻解碼模塊將輸入的面部視頻信號轉(zhuǎn)換成幀圖像序列,送入唇部定位單元;(B)唇部定位模塊從幀圖像序列中發(fā)現(xiàn)并定位人臉,并進一步檢測、確定唇部區(qū)域,從原圖像中分離出唇部圖像,提交一個只包含唇部動作變化的唇動視頻序列給唇動分割模塊;(C)唇動分割模塊將唇動視頻序列以單音節(jié)為單位分割成若干單音節(jié)唇動圖像序列,一個單音節(jié)唇動圖像序列由若干連續(xù)的幀組成,提交給特征提取模塊;(D)特征提取模塊針對單音節(jié)唇動圖像序列中每幀圖像,提取并描述唇部發(fā)音時低級視覺特征和高級視覺特征,低級視覺特征包含直接基于該幀圖像像素或經(jīng)變換后的特征;高級視覺特征包含唇部輪廓參數(shù),唇部輪廓參數(shù)根據(jù)該幀圖像的唇部區(qū)域及該幀圖像的低級視覺特征計算,將低級視覺特征和高級視覺特征融合,形成該幀圖像的唇動特征向量;單音節(jié)唇動圖像序列中每幀圖像處理后,將各幀圖像的唇動特征向量組成的單音節(jié)唇動特征向量提交給唇讀識別模塊或者語料庫;(E)語料庫存儲漢語中各個單音節(jié)發(fā)音時的單音節(jié)唇動圖像序列樣本、單音節(jié)唇動圖像序列樣本的特征向量、單音節(jié)唇動圖像序列樣本與單音節(jié)標(biāo)識符之間的對應(yīng)關(guān)系,以及單音節(jié)標(biāo)識符與拼音文字之間的對應(yīng)關(guān)系;(F)模型建立模塊從語料庫中獲取單音節(jié)唇動圖像序列樣本的特征向量作為訓(xùn)練對象,通過學(xué)習(xí)算法建立識別模型,將模型參數(shù)以文件方式保存于本模塊,并在需要時傳遞給唇語識別模塊;(G)唇語識別模塊對單音節(jié)唇動圖像序列進行識別,從特征提取模塊獲取單音節(jié)唇動特征向量,結(jié)合從模型建立模塊獲取的模型參數(shù),對單音節(jié)唇動特征向量進行分類,再從語料庫中索引得到單音節(jié)的拼音文字,最后將單音節(jié)的拼音文字進行組合輸出給最終用戶。
2. 如權(quán)利要求1所述的單音節(jié)語言唇讀識別系統(tǒng),其特征在于所述唇部定位模塊(20)包括人臉檢測單元(21)、唇色增強單元(22)和唇部區(qū)域確定單元(23);人臉檢測單元(21)從所述視頻解碼模塊(10)中獲取幀圖像,確定每一幀圖像中的人臉區(qū)域,并分割出人臉圖像,將其提交給唇色增強單元22;唇色增強單元(22)對人臉圖像下1/3區(qū)域進行圖像增強,將增強后 的下1/3區(qū)域臉部圖像提交給唇部區(qū)域確定單元(23);唇部區(qū)域確定單元(23)對增強的下1/3區(qū)域人臉圖像進行處理,確 定唇部位置,計算左右唇角、上唇頂點和下唇底點的坐標(biāo),并根據(jù)這些 坐標(biāo)提取嘴唇區(qū)域圖像,結(jié)合時間序列形成唇動視頻序列提交給所述唇 動分割模塊。
3. 如權(quán)利要求1所述的單音節(jié)語言唇讀識別系統(tǒng),其特征在于所 述唇動分割模塊(30)包括唇動描述單元(31)、唇速描述單元(32)、 閾值判斷單元(33);唇動描述單元(31)從唇部定位模塊(20)獲取唇動視頻序列,計 算其中每一幀的唇動瞬時位置速度場,并將其提交給唇速描述單元(32);唇速描述單元(32)從每一幀的唇動瞬時位置速度場計算表示唇部 運動速度規(guī)律的唇速點,并將各幀的唇速點進行曲線擬合,得到唇速曲 線,將其提交給閾值判斷單元(33); 閾值判斷單元(33)根據(jù)曲線極小值點和閾值對唇速曲線進行音節(jié) 分割,將唇動視頻序列分割為單音節(jié)唇動圖像序列,所述閾值為唇速曲 線所有相鄰極小值點間對應(yīng)幀數(shù)的平均值。
4.如權(quán)利要求1所述的單音節(jié)語言唇讀識別系統(tǒng),其特征在于所述特征提取模塊(40)包括低級特征提取單元(41)、高級特征提取單元 (42)、特征描述單元(43),低級特征提取單元(41)從唇動分割模塊(30)或者語料庫(50) 獲取單音節(jié)唇動圖像序列,對其中的每一幀圖像中唇部區(qū)域進行DCT變 換取得DCT系數(shù),再對DCT系數(shù)做主成分分析,用K-L變換進行二次 降維,得到維數(shù)少的低級視覺特征,提交給高級特征提取單元(42)和 特征描述單元(43);高級特征提取單元(42)計算單音節(jié)唇動圖像序列中每一幀的高級 視覺特征,高級視覺特征包含唇部輪廓參數(shù)內(nèi)唇寬度w,、外唇寬度叫、 上外唇高度A、上內(nèi)唇高度A、下內(nèi)唇高度&、下外唇高度&、唇偏轉(zhuǎn)角 度^、嘴唇中心點坐標(biāo)(X。,。、上外唇四次曲線離坐標(biāo)原點的偏移量"。#、 四次曲線偏離拋物線的距離《。、下外唇輔助參數(shù)仏、內(nèi)唇面積、外唇面積、 內(nèi)唇灰度均值;高級特征計算所需的數(shù)據(jù)一部分來自唇動分割模塊(30) 或者語料庫(50)中的單音節(jié)唇動圖像序列,另一部分來自低級視覺特 征;本單元將計算得到的高級特征提交給特征描述單元(43);特征描述單元(43)將低級視覺特征和高級視覺特征融合,形成該 幀圖像的唇動特征向量;單音節(jié)唇動圖像序列中每幀圖像處理后,將各 幀圖像的唇動特征向量組成單音節(jié)唇動特征向量,如果所處理的單音節(jié) 唇動圖像序列來自唇動分割模塊(30),則本單元將單音節(jié)唇動特征向量 提交給唇語識別模塊(70);如果所處理的單音節(jié)唇動圖像序列來自語料 庫(50),則本單元將單音節(jié)唇動特征向量反饋給語料庫(50)。
5. 如權(quán)利要求1所述的單音節(jié)語言唇讀識別系統(tǒng),其特征在于所述模型建立模塊(60)包括初值設(shè)定單元(61)和參數(shù)學(xué)習(xí)單元(62),初值設(shè)定單元(61),從語料庫(50)讀取單音節(jié)唇動圖像序列樣本 的特征向量,作為模型的觀測向量;同時設(shè)定狀態(tài)轉(zhuǎn)移概率矩陣aij、混 合比系數(shù)Cjm、協(xié)方差矩陣I^和均值向量ym四個模型參數(shù)的初值,并將所述四個模型參數(shù)初值和觀測向量提供給參數(shù)學(xué)習(xí)單元(62);參數(shù)學(xué)習(xí)單元(62)對四個模型參數(shù)初值和觀測向量進行學(xué)習(xí),確 定四個模型參數(shù),并將這四個模型參數(shù)以文件形式存儲,以便唇語識別 模塊(70)讀取,所述學(xué)習(xí)方法為隱馬爾可夫模型方法。
6. 如權(quán)利要求1所述的單音節(jié)語言唇讀識別系統(tǒng),其特征在于所 述唇讀識別模塊(70)包括參數(shù)讀取單元(71)、匹配單元(72)和文字 組合輸出單元(73);參數(shù)讀取單元(71)從模型建立模塊(60)讀取給定的模型參數(shù)文 件,并將來自特征提取模塊的待測單音節(jié)唇動特征向量序列和模型參數(shù) 提交給匹配單元(72);匹配單元(72)根據(jù)模型參數(shù),對待測單音節(jié)唇動特征向量序列中 的每個向量進行識別,將識別結(jié)果形成一個單音節(jié)標(biāo)識符序列,提交給 文字組合輸出單元(73);文字組合輸出單元(73)根據(jù)語料庫中單音節(jié)標(biāo)識符與拼音文字之 間的對應(yīng)關(guān)系,將單音節(jié)標(biāo)識符序列轉(zhuǎn)換、組合,形成一段拼音文字, 輸出給用戶。
全文摘要
基于視覺特征的單音節(jié)語言唇讀識別系統(tǒng),屬于計算機智能識別技術(shù),根據(jù)視頻中人物說話時的唇動變化,識別說話內(nèi)容,目的在于僅利用視頻信息,解決如漢語等單音節(jié)語言的唇讀識別問題。本發(fā)明包括視頻解碼模塊、唇部定位模塊、唇動分割模塊、特征提取模塊、語料庫、模型建立模塊和唇語識別模塊; 本發(fā)明所采用的語料庫內(nèi)容豐富,易于擴充,本發(fā)明只需處理視頻圖像,不需要音頻數(shù)據(jù)進行輔助識別,能夠?qū)vi、wmv、rmvb、mpg等視頻文件進行處理,滿足無聲條件下說話內(nèi)容識別的要求。本發(fā)明的唇動分割部分以單音節(jié)為識別目標(biāo)進行機器智能分割,與定長時間分割和手工分割相比,實用性更強,識別準(zhǔn)確率得到極大提高。
文檔編號G06K9/00GK101101752SQ20071005279
公開日2008年1月9日 申請日期2007年7月19日 優(yōu)先權(quán)日2007年7月19日
發(fā)明者芳 劉, 周慧華, 王天江, 剛 陳, 龔立宇 申請人:華中科技大學(xué)