一種人像語(yǔ)音視頻同步校準(zhǔn)裝置及方法
【專利摘要】本發(fā)明公開(kāi)了一種人像語(yǔ)音視頻同步校準(zhǔn)裝置及方法,使用現(xiàn)有的成熟的人臉識(shí)別技術(shù)、動(dòng)態(tài)嘴唇識(shí)別技術(shù)、人聲提取技術(shù)等,通過(guò)信息化手段和硬件設(shè)備的設(shè)計(jì),實(shí)現(xiàn)人像語(yǔ)音視頻同步校準(zhǔn)功能。本發(fā)明只采用低時(shí)間復(fù)雜度的左移位,右移位和異或計(jì)算,提高了計(jì)算性能,而且不需要語(yǔ)音和視頻文件中加入時(shí)間戳信息,減少了信息存儲(chǔ)量。本發(fā)明可應(yīng)用于人像語(yǔ)音視頻的同步檢測(cè)以及對(duì)異步語(yǔ)音視頻的校準(zhǔn)。
【專利說(shuō)明】
一種人像語(yǔ)音視頻同步校準(zhǔn)裝置及方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于多媒體信息處理技術(shù)領(lǐng)域,具體涉及一種人像語(yǔ)音視頻同步校準(zhǔn)裝置 及方法。
【背景技術(shù)】
[0002] 隨著多媒體和互聯(lián)網(wǎng)的普及和發(fā)展,人像語(yǔ)音視頻應(yīng)用在各個(gè)領(lǐng)域中,如談話類 娛樂(lè)節(jié)目,網(wǎng)絡(luò)主播節(jié)目,大規(guī)模開(kāi)放的在線課程等。人像語(yǔ)音視頻使用的語(yǔ)音信息和視頻 信息一般采用不同硬件分別錄制,然后經(jīng)過(guò)計(jì)算機(jī)進(jìn)行綜合處理合成一個(gè)可以直接播放的 語(yǔ)音視頻文件。在錄制過(guò)程中由于硬件或者網(wǎng)絡(luò)出現(xiàn)問(wèn)題,會(huì)導(dǎo)致語(yǔ)音信息和視頻信息不 同步。傳統(tǒng)的語(yǔ)音視頻同步校準(zhǔn)一般采用人工逐幀播放語(yǔ)音視頻文件,發(fā)現(xiàn)誤差時(shí),人為進(jìn) 行校準(zhǔn)的方法,需要耗費(fèi)很多工作量;有一些加入時(shí)間戳的同步方法只能識(shí)別具有時(shí)間戳 的語(yǔ)音信息和視頻信息,不能識(shí)別沒(méi)有加入時(shí)間戳的語(yǔ)音信息和視頻信息;還有一些采用 識(shí)別視頻幀中運(yùn)動(dòng)幅度特征與語(yǔ)音信息特征進(jìn)行匹配的方法,需要運(yùn)動(dòng)隨之產(chǎn)生聲音信息 的變化,而無(wú)法判斷沒(méi)有產(chǎn)生聲音的運(yùn)動(dòng)。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的目的在于提供一種人像語(yǔ)音視頻同步校準(zhǔn)裝置及方法,以達(dá)到對(duì)談話類 娛樂(lè)節(jié)目,網(wǎng)絡(luò)主播節(jié)目,大規(guī)模開(kāi)放的在線課程等人像語(yǔ)音視頻的同步檢測(cè)以及對(duì)異步 語(yǔ)音視頻的校準(zhǔn)目的。
[0004] 為了解決上述技術(shù)問(wèn)題,本發(fā)明使用現(xiàn)有的成熟的人臉識(shí)別技術(shù)、動(dòng)態(tài)嘴唇識(shí)別 技術(shù)、人聲提取技術(shù)等,通過(guò)信息化手段和硬件設(shè)備的設(shè)計(jì),實(shí)現(xiàn)人像語(yǔ)音視頻同步校準(zhǔn)功 能,所采用的具體技術(shù)方案如下:
[0005] -種人像語(yǔ)音視頻同步校準(zhǔn)裝置,包括:人臉識(shí)別模塊,動(dòng)態(tài)嘴唇識(shí)別模塊,人聲 提取模塊,時(shí)間差計(jì)算模塊,同步調(diào)節(jié)模塊;
[0006] 所述的人臉識(shí)別模塊與動(dòng)態(tài)嘴唇識(shí)別模塊連接;
[0007] 所述的時(shí)間差計(jì)算模塊與動(dòng)態(tài)嘴唇識(shí)別模塊連接;
[0008] 所述的時(shí)間差計(jì)算模塊與人聲提取模塊連接;
[0009 ]所述的時(shí)間差計(jì)算模塊與同步調(diào)節(jié)模塊連接;
[0010] 所述的人臉識(shí)別模塊用于識(shí)別圖片信息中的人臉區(qū)域;
[0011] 所述的動(dòng)態(tài)嘴唇識(shí)別模塊用于識(shí)別出人臉區(qū)域中的嘴唇區(qū)域,并且判斷嘴唇閉合 狀態(tài),進(jìn)一步判斷嘴唇是否處于發(fā)音狀態(tài);
[0012] 所述的人聲提取模塊用于提取語(yǔ)音信息中的人聲部分;
[0013] 所述的時(shí)間差計(jì)算模塊用于計(jì)算動(dòng)態(tài)嘴唇絕對(duì)時(shí)刻和人聲時(shí)刻的距離;
[0014] 所述的同步調(diào)節(jié)模塊用于調(diào)節(jié)動(dòng)態(tài)嘴唇絕對(duì)時(shí)刻和人聲時(shí)刻;
[0015] -種人像語(yǔ)音視頻同步校準(zhǔn)方法如下:
[0016] 步驟Sl,讀取語(yǔ)音視頻頭文件信息,獲得語(yǔ)音視頻的時(shí)間總長(zhǎng)度T,語(yǔ)音視頻的某 一時(shí)刻為t,KtST;
[0017] 步驟S2,設(shè)定動(dòng)態(tài)嘴唇數(shù)組P[k],l<k<T,將數(shù)組P中所有元素初始值設(shè)為0,設(shè)定 人聲數(shù)組S [ f ],1 < f < T,將數(shù)組S中所有元素初始值設(shè)為0;
[0018] 步驟S3,依次提取視頻文件t時(shí)刻的圖片幀,采用人臉識(shí)別技術(shù)識(shí)別出某一時(shí)刻圖 片幀中的i個(gè)人臉區(qū)域Μμ,1<ΚΙ,Ι為識(shí)別出來(lái)的人臉區(qū)域總數(shù);
[0019] 步驟S4,采用嘴唇識(shí)別技術(shù)識(shí)別出某一時(shí)刻人臉區(qū)域Mt,i中的嘴唇區(qū)域Lt, <1;
[0020] 步驟S5,比較嘴唇區(qū)域Lt^與Lt,H,Lt|2,…Uh的位置偏移情況,確定嘴唇區(qū)域 U,」是否處于動(dòng)態(tài)開(kāi)啟或閉合狀態(tài),其中J為可以調(diào)整的閾值,用于控制比較嘴唇區(qū)域的數(shù) 量,J彡j彡I,如果確定嘴唇區(qū)域Lq處于運(yùn)動(dòng)狀態(tài),則將P[t]的值設(shè)為1;
[0021] 步驟S6,將語(yǔ)音文件E分成左右兩個(gè)聲道文件A,B,用左聲道文件A的音頻信號(hào)減去 右聲道文件B的音頻信號(hào),得到文件C,用右聲道文件B的音頻信號(hào)減去左聲道文件A的音頻 信號(hào),得到文件D,將C和D兩路信號(hào)重新合成F,進(jìn)一步,從語(yǔ)音文件E中減去語(yǔ)音文件F可以 得到人聲文件G;
[0022]步驟S7,按時(shí)序依次提取人聲文件G在t時(shí)刻的頻率Ht,Ht單位為Hz,0<t<T,如果 ZaSHtS Zb,則將S[ t ]的值設(shè)為1,其中Za為人聲頻率下限閾值,Zb為人聲頻率上限閾值; [0023]步驟S8,完全復(fù)制一份S[t],命名為數(shù)組Sr[t],設(shè)定用于移位操作的初始值,左移 位Ieft = O,右移位r i ght = 0,確認(rèn)校準(zhǔn)時(shí)間間隔sure = 0,并給出左移位上限閾值LEFT,右 移位上限閾值RIGHT,校準(zhǔn)閾值Z;
[0024] 步驟S9,對(duì)P[t]和S[t]進(jìn)行異或操作的累加,
,如果X小于Z, 則sure = Ief t,并轉(zhuǎn)入Sl 3,否則轉(zhuǎn)入SlO;
[0025] 步驟S10,對(duì)S[t]進(jìn)行一次左移位操作S[t]〈〈,left = left+1,如果left彡LEFT,轉(zhuǎn) 入S9,否則轉(zhuǎn)入S11;
[0026] 步驟S11,對(duì)P[t]和Sr[t]進(jìn)行異或操作的累加
,如果X小于 Z,則sure =-right,并轉(zhuǎn)入Sl 3,否則轉(zhuǎn)入Sl 2;
[0027] 步驟S12,對(duì)S[t]進(jìn)行一次右移位操作S[t]>>,right = right+l,如果rights; RIGHT,轉(zhuǎn)入Sll,否則轉(zhuǎn)入S14;
[0028] 步驟S13,校準(zhǔn)檢測(cè)成功,將語(yǔ)音文件移位sure個(gè)時(shí)刻和視頻文件重新合成;
[0029] 步驟S14,校準(zhǔn)結(jié)束。
[0030] 本發(fā)明具有有益效果。本發(fā)明提供了一種人像語(yǔ)音視頻同步檢測(cè)與校準(zhǔn)的新方 法,通過(guò)識(shí)別視頻文件中嘴唇閉合狀態(tài),得到了視頻中人物的發(fā)音信息,通過(guò)識(shí)別語(yǔ)音文 件,得到了人聲信息,將兩者進(jìn)行時(shí)間差檢測(cè),可以校準(zhǔn)語(yǔ)音和視頻不同步情況,本發(fā)明只 采用低時(shí)間復(fù)雜度的左移位,右移位和異或計(jì)算,提高了計(jì)算性能,而且不需要語(yǔ)音和視頻 文件中加入時(shí)間戳信息,減少了信息存儲(chǔ)量。
[0031] 本發(fā)明裝置的工作過(guò)程如下:采用人臉識(shí)別模塊識(shí)別出圖片信息中的人臉區(qū)域; 然后,采用動(dòng)態(tài)嘴唇識(shí)別模塊識(shí)別出人臉區(qū)域中的嘴唇區(qū)域,并且判斷嘴唇閉合狀態(tài),進(jìn)一 步判斷嘴唇是否處于發(fā)音狀態(tài);接著,采用人聲提取模塊提取語(yǔ)音信息中的人聲部分;隨 后,采用時(shí)間差計(jì)算模塊計(jì)算動(dòng)態(tài)嘴唇絕對(duì)時(shí)刻和人聲時(shí)刻的距離;最后,采用同步調(diào)節(jié)模 塊調(diào)節(jié)動(dòng)態(tài)嘴唇絕對(duì)時(shí)刻和人聲時(shí)刻,生成調(diào)整好的人像語(yǔ)音視頻。
【附圖說(shuō)明】
[0032] 圖1是本發(fā)明裝置的總體結(jié)構(gòu)示意圖。
[0033] 圖中:1_人臉識(shí)別模塊,2-動(dòng)態(tài)嘴唇識(shí)別模塊,3-人聲提取模塊,4-時(shí)間差計(jì)算模 塊,5-同步調(diào)節(jié)模塊。
[0034] 圖2是一種人像語(yǔ)音視頻同步校準(zhǔn)方法的流程圖。
[0035] 圖3是實(shí)施例一視頻文件第32秒圖片幀的二值圖。
[0036] 圖4是實(shí)施例一視頻文件第32秒圖片幀的人臉區(qū)域圖。
[0037] 圖5是實(shí)施例一視頻文件第32秒圖片幀的嘴唇區(qū)域圖。
[0038]圖6是實(shí)施例一視頻文件第31秒圖片幀的二值圖。
[0039]圖7是實(shí)施例一視頻文件第31秒圖片幀的人臉區(qū)域圖。
[0040]圖8是實(shí)施例一視頻文件第31秒圖片幀的嘴唇區(qū)域圖。
[0041 ]圖9是實(shí)施例一語(yǔ)音文件的語(yǔ)音聲譜圖和人聲聲譜圖。
[0042]圖10是實(shí)施例一動(dòng)態(tài)嘴唇數(shù)組和人聲數(shù)組的數(shù)值趨勢(shì)圖。
[0043]圖11是實(shí)施例二視頻文件第19秒圖片幀的二值圖。
[0044] 圖12是實(shí)施例二視頻文件第19秒圖片幀的人臉區(qū)域圖。
[0045] 圖13是實(shí)施例二視頻文件第19秒圖片幀的嘴唇區(qū)域圖。
[0046] 圖14是實(shí)施例二視頻文件第18秒圖片幀的識(shí)別不意圖。
[0047] 圖15是實(shí)施例二視頻文件第18秒圖片幀的人臉區(qū)域圖。
[0048] 圖16是實(shí)施例二視頻文件第18秒圖片幀的嘴唇區(qū)域圖。
[0049] 圖17是實(shí)施例二語(yǔ)音文件的語(yǔ)音聲譜圖和人聲聲譜圖。
[0050] 圖18是實(shí)施例二校準(zhǔn)前動(dòng)態(tài)嘴唇數(shù)組和人聲數(shù)組的數(shù)值趨勢(shì)圖。
[0051] 圖19是實(shí)施例二校準(zhǔn)后動(dòng)態(tài)嘴唇數(shù)組和人聲數(shù)組的數(shù)值趨勢(shì)圖。
【具體實(shí)施方式】
[0052] 下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明作進(jìn)一步詳細(xì)地說(shuō)明。
[0053] 由圖1所示的一種人像語(yǔ)音視頻同步校準(zhǔn)裝置的總體結(jié)構(gòu)示意圖可知,它包括Ια臉識(shí)別模塊, 2-動(dòng)態(tài)嘴唇識(shí)別模塊, 3-人聲提取模塊, 4-時(shí)間 差計(jì)算模塊, 5-同步調(diào)節(jié)模 塊。
[0054]所述的人臉識(shí)別模塊1與動(dòng)態(tài)嘴唇識(shí)別模塊2連接;
[0055] 所述的時(shí)間差計(jì)算模塊4與動(dòng)態(tài)嘴唇識(shí)別模塊2連接;
[0056] 所述的時(shí)間差計(jì)算模塊4與人聲提取模塊3連接;
[0057]所述的時(shí)間差計(jì)算模塊4與同步調(diào)節(jié)模塊5連接;
[0058] 本發(fā)明在使用時(shí),各部件的功能描述如下。
[0059] 所述的人臉識(shí)別模塊1用于識(shí)別圖片信息中的人臉區(qū)域;
[0060] 所述的動(dòng)態(tài)嘴唇識(shí)別模塊2用于識(shí)別出人臉區(qū)域中的嘴唇區(qū)域,并且判斷嘴唇閉 合狀態(tài),進(jìn)一步判斷嘴唇是否處于發(fā)音狀態(tài);
[0061] 所述的人聲提取模塊3用于提取語(yǔ)音信息中的人聲部分;
[0062] 所述的時(shí)間差計(jì)算模塊4用于計(jì)算動(dòng)態(tài)嘴唇絕對(duì)時(shí)刻和人聲時(shí)刻的距離;
[0063] 所述的同步調(diào)節(jié)模塊5用于調(diào)節(jié)動(dòng)態(tài)嘴唇絕對(duì)時(shí)刻和人聲時(shí)刻。以下是發(fā)明人給 出的實(shí)施例:
[0064] -種人像語(yǔ)音視頻同步校準(zhǔn)方法的工作流程如圖2所示。
[0065] 實(shí)施例1:對(duì)同步的語(yǔ)音視頻檢測(cè)過(guò)程
[0066] 步驟Sl,讀取語(yǔ)音視頻頭文件信息,獲得語(yǔ)音視頻的時(shí)間總長(zhǎng)度72,單位為秒,語(yǔ) 音視頻的某一時(shí)刻為t,l<t<72;
[0067] 步驟S2,設(shè)定動(dòng)態(tài)嘴唇數(shù)組P[k],l<k<72,將數(shù)組P中所有元素初始值設(shè)為0,設(shè) 定人聲數(shù)組S[f],I,將數(shù)組S中所有元素初始值設(shè)為0;
[0068] 步驟S3,依次提取視頻文件t時(shí)刻的圖片幀,圖3是視頻文件第32秒提取出來(lái)的圖 片幀的二值圖,圖6是視頻文件第31秒提取出來(lái)的圖片幀的二值圖,采用人臉識(shí)別技術(shù)識(shí)別 出某一時(shí)刻圖片幀中的i個(gè)人臉區(qū)域Mt, i,I Si < I,I = 1,圖4是從圖3中提取出來(lái)的一個(gè)人 臉區(qū)域M32, i,圖7是從圖6提取出來(lái)的一個(gè)人臉區(qū)域M31, i;
[0069]步驟S4,采用嘴唇識(shí)別技術(shù)識(shí)別出某一時(shí)刻人臉區(qū)域Mt,i中的嘴唇區(qū)域Lt, <1,1 = 1,圖5是從圖4中提取出來(lái)的一個(gè)嘴唇區(qū)域L32,i,圖8是從圖7中提取出來(lái)的一個(gè)嘴 唇區(qū)域L31,1;
[0070] 步驟S5,比較嘴唇區(qū)域Lt^與…Uh的位置偏移情況,確定嘴唇區(qū)域 Uj是否處于動(dòng)態(tài)開(kāi)啟或閉合狀態(tài),J為可以調(diào)整的閾值,實(shí)施例中J=I,JSjSI,圖5中嘴 唇區(qū)域L 324和圖8中嘴唇區(qū)域L31,i進(jìn)行比較,確定嘴唇處于動(dòng)態(tài)開(kāi)啟狀態(tài),則將P[32]的值設(shè) 為1;
[0071] 步驟S6,將語(yǔ)音文件E分成左右兩個(gè)聲道文件即左聲道文件A和右聲道文件B,如圖 9(a)所示為語(yǔ)音文件E的頻譜圖,用左聲道文件A的音頻信號(hào)減去右聲道文件B的音頻信號(hào), 得到文件C,用右聲道文件B的音頻信號(hào)減去左聲道文件A的音頻信號(hào),得到文件D,將文件C 和文件D兩路信號(hào)重新合成語(yǔ)音文件F,進(jìn)一步,從語(yǔ)音文件E中減去語(yǔ)音文件F可以得到人 聲文件G,如圖9 (b)所示為人聲文件G的頻譜圖;
[0072]步驟S7,按時(shí)序依次提取人聲文件G在t時(shí)刻的頻率Ht,Ht的單位為Hz,0<t<72,如 果Za彡Ht彡Zb,則將S[t]的值設(shè)為l,Za為人聲頻率下限閾值,實(shí)施例中Za= 100,Zb為人聲 頻率上限閾值,實(shí)施例中Zb = 600;
[0073]步驟S8,完全復(fù)制一份S[t],命名為數(shù)組Sr[t],設(shè)定用于移位操作的初始值,左移 位Ief t = 0,右移位right = 0,確認(rèn)校準(zhǔn)時(shí)間間隔sure = 0,并給出左移位上限閾值LEFT = 5, 右移位上限閾值RIGHT = 5,校準(zhǔn)閾值Z = 8;
[0074] 步驟S9,對(duì)動(dòng)態(tài)嘴唇數(shù)組P[t]和語(yǔ)音數(shù)組S[t]進(jìn)行異或操作的累加,X= t(P[i]XORS[t]),如圖1〇所示為P[t]和S[t]的數(shù)值趨勢(shì)圖,計(jì)算得到X = 5,X小于Z,則 1=0' sure = 0,并轉(zhuǎn)入步驟Sl 3;
[0075] 步驟S13,校準(zhǔn)檢測(cè)成功,將語(yǔ)音文件移位0個(gè)時(shí)刻和視頻文件重新合成;
[0076] 步驟S14,校準(zhǔn)結(jié)束。
[0077]實(shí)施例2:對(duì)不同步的語(yǔ)音視頻檢測(cè)與校準(zhǔn)過(guò)程
[0078]步驟SI,讀取語(yǔ)音視頻頭文件信息,獲得語(yǔ)音視頻的時(shí)間總長(zhǎng)度58,單位為秒,語(yǔ) 音視頻的某一時(shí)刻為t,I < t < 58;
[0079]步驟S2,設(shè)定動(dòng)態(tài)嘴唇數(shù)組P[k],l<k<58,將數(shù)組P中所有元素初始值設(shè)為0,設(shè) 定人聲數(shù)組S[f],I,將數(shù)組S中所有元素初始值設(shè)為0;
[0080] 步驟S3,依次提取視頻文件t時(shí)刻的圖片幀,圖11是從視頻文件第19S提取出來(lái)的 圖片幀的二值圖,圖14是從視頻文件第18秒提取出來(lái)的圖片幀的二值圖,采用人臉識(shí)別技 術(shù)識(shí)別出某一時(shí)刻圖片幀中的i個(gè)人臉區(qū)域= 圖12是從圖11中提取出來(lái) 的三個(gè)人臉區(qū)域%9,1,119,2,119, 3,圖15是從圖14中提取出來(lái)的三個(gè)人臉區(qū)域此8,1,118, 2, Ml8,3 ;
[0081] 步驟S4,采用嘴唇識(shí)別技術(shù)識(shí)別出某一時(shí)刻人臉區(qū)域Mt,i中的嘴唇區(qū)域LmKi ,I = 3,圖13是從圖12中提取出來(lái)的三個(gè)嘴唇區(qū)域L19,!,L19,2,L19,3,圖16是從圖15中提取 出來(lái)的三個(gè)嘴唇區(qū)域Ll8,l,Ll8,2,Ll8,3;
[0082] 步驟S5,比較嘴唇區(qū)域Lt^與Lt^,Lt|2,…Uh的位置偏移情況,確定嘴唇區(qū)域 Uj是否處于動(dòng)態(tài)開(kāi)啟或閉合狀態(tài),J為可以調(diào)整的閾值,實(shí)施例中J=I JSjSI,圖13中嘴 唇區(qū)域Lliu和圖16中嘴唇區(qū)域L18,:進(jìn)行比較,確定嘴唇處于靜態(tài)狀態(tài),繼續(xù)將圖13中嘴唇區(qū) 域1^ 9,2和圖16中嘴唇區(qū)域L18,2進(jìn)行比較,確定嘴唇處于動(dòng)態(tài)閉合狀態(tài),則將P[19]的值設(shè)為 1;
[0083]步驟S6,將語(yǔ)音文件E分成左右兩個(gè)聲道文件即左聲道文件A和右聲道文件B,如圖 17(a)所示為語(yǔ)音文件E的頻譜圖,用左聲道文件A的音頻信號(hào)減去右聲道文件B的音頻信 號(hào),得到文件C,用右聲道文件B的音頻信號(hào)減去左聲道文件A的音頻信號(hào),得到文件D,將文 件C和文件D兩路信號(hào)重新合成語(yǔ)音文件F,進(jìn)一步,從語(yǔ)音文件E中減去語(yǔ)音文件F可以得到 人聲文件G,如圖17(b)所示為人聲文件G的頻譜圖;
[0084]步驟S7,按時(shí)序依次提取人聲文件G在t時(shí)刻的頻率Ht,單位Hz,OSt<58,如果Za SHtSZb,則將S[t]的值設(shè)為I,Za為人聲頻率下限閾值,實(shí)施例中Za = 80,Zb為人聲頻率上 限閾值,實(shí)施例中Zb = 800;
[0085]步驟S8,完全復(fù)制一份S[t],命名為數(shù)組Sr[t],設(shè)定用于移位操作的初始值,左移 位Ief t = 0,右移位right = 0,確認(rèn)校準(zhǔn)時(shí)間間隔sure = 0,并給出左移位上限閾值LEFT = 4, 右移位上限閾值RIGHT = 4,校準(zhǔn)閾值Z = 6;
[0086] 步驟S9,對(duì)動(dòng)態(tài)嘴唇數(shù)組P[t]和語(yǔ)音數(shù)組S[t]進(jìn)行異或操作的累加,X= t(P[i.]XORS[l]),如圖I8所示為P[t]和S[t]的數(shù)值趨勢(shì)圖,計(jì)算得到X = 9,X大于Z,則 :t=a sure = 0,并轉(zhuǎn)入步驟SlO;
[0087] 步驟S10,對(duì)S[t]進(jìn)行一次左移位操作S[t]〈〈,left = left+l,計(jì)算得到left= 1, left彡LEFT,轉(zhuǎn)入步驟S9;
[0088] 步驟S9,對(duì)P[t]和S[t]進(jìn)行異或操作的累加
,計(jì)算得到X = 6,X大于Z,則sure = l,并轉(zhuǎn)入步驟S10;
[0089] 步驟S10,對(duì)S[t]進(jìn)行一次左移位操作S[t]〈〈,left = left+l,計(jì)算得到left = 2, left彡LEFT,轉(zhuǎn)入步驟S9;
[0090] 步驟S9,對(duì)P[t]和S[t]進(jìn)行異或操作的累加
如圖19所示為 P[ t]和S[ t]的數(shù)值趨勢(shì)圖,計(jì)算得到X = 2,X小于Z,則sure = 2,并轉(zhuǎn)入步驟Sl3;
[0091] 步驟S13,校準(zhǔn)檢測(cè)成功,將語(yǔ)音文件左移位2個(gè)時(shí)刻和視頻文件重新合成;
[0092] 步驟S14,校準(zhǔn)結(jié)束。
【主權(quán)項(xiàng)】
1. 一種人像語(yǔ)音視頻同步校準(zhǔn)裝置,其特征在于包括:人臉識(shí)別模塊、動(dòng)態(tài)嘴唇識(shí)別模 塊、人聲提取模塊、時(shí)間差計(jì)算模塊和同步調(diào)節(jié)模塊; 所述人臉識(shí)別模塊與動(dòng)態(tài)嘴唇識(shí)別模塊連接; 所述時(shí)間差計(jì)算模塊分別與動(dòng)態(tài)嘴唇識(shí)別模塊、人聲提取模塊、同步調(diào)節(jié)模塊連接; 所述人臉識(shí)別模塊用于識(shí)別圖片信息中的人臉區(qū)域; 所述動(dòng)態(tài)嘴唇識(shí)別模塊用于識(shí)別出人臉區(qū)域中的嘴唇區(qū)域,并且判斷嘴唇閉合狀態(tài), 進(jìn)一步判斷嘴唇是否處于發(fā)音狀態(tài); 所述人聲提取模塊用于提取語(yǔ)音信息中的人聲部分; 所述時(shí)間差計(jì)算模塊用于計(jì)算動(dòng)態(tài)嘴唇絕對(duì)時(shí)刻和人聲時(shí)刻的距離; 所述同步調(diào)節(jié)模塊用于調(diào)節(jié)動(dòng)態(tài)嘴唇絕對(duì)時(shí)刻和人聲時(shí)刻。2. 權(quán)利要求1所述的一種人像語(yǔ)音視頻同步校準(zhǔn)裝置的人像語(yǔ)音視頻同步校準(zhǔn)方法, 其特征在于包括以下步驟: 步驟S1,讀取語(yǔ)音視頻頭文件信息,獲得語(yǔ)音視頻的時(shí)間總長(zhǎng)度T,語(yǔ)音視頻的某一時(shí) 刻為 步驟S2,設(shè)定動(dòng)態(tài)嘴唇數(shù)組P[k],l<k<T,將數(shù)組P中所有元素初始值設(shè)為0,設(shè)定人聲 數(shù)組S[ f ],1 <f <T,將數(shù)組S中所有元素初始值設(shè)為0; 步驟S3,依次提取視頻文件t時(shí)刻的圖片幀,采用人臉識(shí)別技術(shù)識(shí)別出某一時(shí)刻圖片幀 中的i個(gè)人臉區(qū)域彡1,1為識(shí)別出來(lái)的人臉區(qū)域總數(shù); 步驟S4,采用嘴唇識(shí)別技術(shù)識(shí)別出某一時(shí)刻人臉區(qū)域Mt>1中的嘴唇區(qū)域LmlSiSl; 步驟S5,比較嘴唇區(qū)域Lq,與的位置偏移情況,確定嘴唇區(qū)域Lt,j 是否處于動(dòng)態(tài)開(kāi)啟或閉合狀態(tài),J為可以調(diào)整的閾值,用于控制比較嘴唇區(qū)域的數(shù)量, <1; 如果確定嘴唇區(qū)域Ly處于運(yùn)動(dòng)狀態(tài),則將P[t ]的值設(shè)為1,否則不作操作; 步驟S6,將語(yǔ)音文件E分成左右兩個(gè)聲道文件即左聲道文件A和右聲道文件B,用左聲道 文件A的音頻信號(hào)減去右聲道文件B的音頻信號(hào),得到文件C,用右聲道文件B的音頻信號(hào)減 去左聲道文件A的音頻信號(hào),得到文件D,將文件C和文件D兩路信號(hào)重新合成語(yǔ)音文件F,進(jìn) 一步,從語(yǔ)音文件E中減去語(yǔ)音文件F可以得到人聲文件G; 步驟S7,按時(shí)序依次提取人聲文件G在t時(shí)刻的頻率Ht,Ht單位為Hz,0<t<T;如果Za< Zb,則將S [ t ]的值設(shè)為1,Za為人聲頻率下限閾值,Zb為人聲頻率上限閾值; 步驟S8,完全復(fù)制一份S[t],命名為數(shù)組Sr[t],設(shè)定用于移位操作的初始值,左移位 left = 0,右移位right = 0,確認(rèn)校準(zhǔn)時(shí)間間隔sure = 0,并給出左移位上限閾值LEFT,右移 位上限閾值RIGHT,校準(zhǔn)閾值Z; 步驟S9,對(duì)動(dòng)態(tài)嘴唇數(shù)組P[t]和人聲數(shù)組S[t]進(jìn)行異或操作的累加,X= XOR S[t]),如果X小于Z,則sure = left,并轉(zhuǎn)入步驟S13,否則轉(zhuǎn)入步驟S10; t=l 步驟S10,對(duì)S[t]進(jìn)行一次左移位操作S[t]〈〈,left = left+1,如果left<LEFT,轉(zhuǎn)入步 驟S9,否則轉(zhuǎn)入步驟SI 1; 步驟S11,對(duì)P[t]和Sr[t]進(jìn)行異或操作的累加,X=t(P[t]X〇RSr[i]),如果X小于Z,則 t=l sure =-right,并轉(zhuǎn)入步驟SI 3,否則轉(zhuǎn)入步驟SI 2; 步驟312,對(duì)5[1:]進(jìn)行一次右移位操作5[1:]>>,1^811〖=1^811〖+1,如果1^8111:<1?16!11',轉(zhuǎn) 入步驟SI 1,否則轉(zhuǎn)入步驟SI 4; 步驟S13,校準(zhǔn)檢測(cè)成功,將語(yǔ)音文件移位sure個(gè)時(shí)刻和視頻文件重新合成; 步驟S14,校準(zhǔn)結(jié)束。
【文檔編號(hào)】H04N21/43GK106067989SQ201610273130
【公開(kāi)日】2016年11月2日
【申請(qǐng)日】2016年4月28日 公開(kāi)號(hào)201610273130.1, CN 106067989 A, CN 106067989A, CN 201610273130, CN-A-106067989, CN106067989 A, CN106067989A, CN201610273130, CN201610273130.1
【發(fā)明人】陳瀟君, 茍建平, 詹天明, 成科揚(yáng), 陳小波, 詹永照, 毛啟容, 柯佳, 汪滿容
【申請(qǐng)人】江蘇大學(xué)