一種人像語(yǔ)音視頻同步校準(zhǔn)裝置及方法

文檔序號(hào)：10698651閱讀：635來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

一種人像語(yǔ)音視頻同步校準(zhǔn)裝置及方法
【專利摘要】本發(fā)明公開(kāi)了一種人像語(yǔ)音視頻同步校準(zhǔn)裝置及方法，使用現(xiàn)有的成熟的人臉識(shí)別技術(shù)、動(dòng)態(tài)嘴唇識(shí)別技術(shù)、人聲提取技術(shù)等，通過(guò)信息化手段和硬件設(shè)備的設(shè)計(jì)，實(shí)現(xiàn)人像語(yǔ)音視頻同步校準(zhǔn)功能。本發(fā)明只采用低時(shí)間復(fù)雜度的左移位，右移位和異或計(jì)算，提高了計(jì)算性能，而且不需要語(yǔ)音和視頻文件中加入時(shí)間戳信息，減少了信息存儲(chǔ)量。本發(fā)明可應(yīng)用于人像語(yǔ)音視頻的同步檢測(cè)以及對(duì)異步語(yǔ)音視頻的校準(zhǔn)。
【專利說(shuō)明】
一種人像語(yǔ)音視頻同步校準(zhǔn)裝置及方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于多媒體信息處理技術(shù)領(lǐng)域，具體涉及一種人像語(yǔ)音視頻同步校準(zhǔn)裝置及方法。
【背景技術(shù)】
[0002] 隨著多媒體和互聯(lián)網(wǎng)的普及和發(fā)展，人像語(yǔ)音視頻應(yīng)用在各個(gè)領(lǐng)域中，如談話類娛樂(lè)節(jié)目，網(wǎng)絡(luò)主播節(jié)目，大規(guī)模開(kāi)放的在線課程等。人像語(yǔ)音視頻使用的語(yǔ)音信息和視頻信息一般采用不同硬件分別錄制，然后經(jīng)過(guò)計(jì)算機(jī)進(jìn)行綜合處理合成一個(gè)可以直接播放的語(yǔ)音視頻文件。在錄制過(guò)程中由于硬件或者網(wǎng)絡(luò)出現(xiàn)問(wèn)題，會(huì)導(dǎo)致語(yǔ)音信息和視頻信息不同步。傳統(tǒng)的語(yǔ)音視頻同步校準(zhǔn)一般采用人工逐幀播放語(yǔ)音視頻文件，發(fā)現(xiàn)誤差時(shí)，人為進(jìn) 行校準(zhǔn)的方法，需要耗費(fèi)很多工作量;有一些加入時(shí)間戳的同步方法只能識(shí)別具有時(shí)間戳的語(yǔ)音信息和視頻信息，不能識(shí)別沒(méi)有加入時(shí)間戳的語(yǔ)音信息和視頻信息;還有一些采用識(shí)別視頻幀中運(yùn)動(dòng)幅度特征與語(yǔ)音信息特征進(jìn)行匹配的方法，需要運(yùn)動(dòng)隨之產(chǎn)生聲音信息的變化，而無(wú)法判斷沒(méi)有產(chǎn)生聲音的運(yùn)動(dòng)。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明的目的在于提供一種人像語(yǔ)音視頻同步校準(zhǔn)裝置及方法，以達(dá)到對(duì)談話類娛樂(lè)節(jié)目，網(wǎng)絡(luò)主播節(jié)目，大規(guī)模開(kāi)放的在線課程等人像語(yǔ)音視頻的同步檢測(cè)以及對(duì)異步語(yǔ)音視頻的校準(zhǔn)目的。
[0004] 為了解決上述技術(shù)問(wèn)題，本發(fā)明使用現(xiàn)有的成熟的人臉識(shí)別技術(shù)、動(dòng)態(tài)嘴唇識(shí)別技術(shù)、人聲提取技術(shù)等，通過(guò)信息化手段和硬件設(shè)備的設(shè)計(jì)，實(shí)現(xiàn)人像語(yǔ)音視頻同步校準(zhǔn)功能，所采用的具體技術(shù)方案如下：
[0005] -種人像語(yǔ)音視頻同步校準(zhǔn)裝置，包括:人臉識(shí)別模塊，動(dòng)態(tài)嘴唇識(shí)別模塊，人聲提取模塊，時(shí)間差計(jì)算模塊，同步調(diào)節(jié)模塊；
[0006] 所述的人臉識(shí)別模塊與動(dòng)態(tài)嘴唇識(shí)別模塊連接；
[0007] 所述的時(shí)間差計(jì)算模塊與動(dòng)態(tài)嘴唇識(shí)別模塊連接；
[0008] 所述的時(shí)間差計(jì)算模塊與人聲提取模塊連接；
[0009 ]所述的時(shí)間差計(jì)算模塊與同步調(diào)節(jié)模塊連接；
[0010] 所述的人臉識(shí)別模塊用于識(shí)別圖片信息中的人臉區(qū)域；
[0011] 所述的動(dòng)態(tài)嘴唇識(shí)別模塊用于識(shí)別出人臉區(qū)域中的嘴唇區(qū)域，并且判斷嘴唇閉合狀態(tài)，進(jìn)一步判斷嘴唇是否處于發(fā)音狀態(tài)；
[0012] 所述的人聲提取模塊用于提取語(yǔ)音信息中的人聲部分；
[0013] 所述的時(shí)間差計(jì)算模塊用于計(jì)算動(dòng)態(tài)嘴唇絕對(duì)時(shí)刻和人聲時(shí)刻的距離；
[0014] 所述的同步調(diào)節(jié)模塊用于調(diào)節(jié)動(dòng)態(tài)嘴唇絕對(duì)時(shí)刻和人聲時(shí)刻；
[0015] -種人像語(yǔ)音視頻同步校準(zhǔn)方法如下：
[0016] 步驟Sl，讀取語(yǔ)音視頻頭文件信息，獲得語(yǔ)音視頻的時(shí)間總長(zhǎng)度T，語(yǔ)音視頻的某一時(shí)刻為t，KtST;
[0017] 步驟S2,設(shè)定動(dòng)態(tài)嘴唇數(shù)組P[k]，l<k<T，將數(shù)組P中所有元素初始值設(shè)為0,設(shè)定人聲數(shù)組S [ f ]，1 < f < T，將數(shù)組S中所有元素初始值設(shè)為0;
[0018] 步驟S3,依次提取視頻文件t時(shí)刻的圖片幀，采用人臉識(shí)別技術(shù)識(shí)別出某一時(shí)刻圖片幀中的i個(gè)人臉區(qū)域Μμ，1<ΚΙ，Ι為識(shí)別出來(lái)的人臉區(qū)域總數(shù)；
[0019] 步驟S4,采用嘴唇識(shí)別技術(shù)識(shí)別出某一時(shí)刻人臉區(qū)域Mt,i中的嘴唇區(qū)域Lt, <1;
[0020] 步驟S5,比較嘴唇區(qū)域Lt^與Lt,H，Lt|2,…Uh的位置偏移情況，確定嘴唇區(qū)域 U,」是否處于動(dòng)態(tài)開(kāi)啟或閉合狀態(tài)，其中J為可以調(diào)整的閾值，用于控制比較嘴唇區(qū)域的數(shù) 量，J彡j彡I，如果確定嘴唇區(qū)域Lq處于運(yùn)動(dòng)狀態(tài)，則將P[t]的值設(shè)為1;
[0021] 步驟S6,將語(yǔ)音文件E分成左右兩個(gè)聲道文件A，B，用左聲道文件A的音頻信號(hào)減去右聲道文件B的音頻信號(hào)，得到文件C，用右聲道文件B的音頻信號(hào)減去左聲道文件A的音頻信號(hào)，得到文件D，將C和D兩路信號(hào)重新合成F，進(jìn)一步，從語(yǔ)音文件E中減去語(yǔ)音文件F可以得到人聲文件G;
[0022]步驟S7,按時(shí)序依次提取人聲文件G在t時(shí)刻的頻率Ht，Ht單位為Hz，0<t<T，如果 ZaSHtS Zb，則將S[ t ]的值設(shè)為1，其中Za為人聲頻率下限閾值，Zb為人聲頻率上限閾值； [0023]步驟S8,完全復(fù)制一份S[t]，命名為數(shù)組Sr[t]，設(shè)定用于移位操作的初始值，左移位Ieft = O，右移位r i ght = 0，確認(rèn)校準(zhǔn)時(shí)間間隔sure = 0，并給出左移位上限閾值LEFT，右移位上限閾值RIGHT，校準(zhǔn)閾值Z;
[0024] 步驟S9,對(duì)P[t]和S[t]進(jìn)行異或操作的累加，
，如果X小于Z，則sure = Ief t，并轉(zhuǎn)入Sl 3，否則轉(zhuǎn)入SlO;
[0025] 步驟S10,對(duì)S[t]進(jìn)行一次左移位操作S[t]〈〈，left = left+1，如果left彡LEFT，轉(zhuǎn) 入S9,否則轉(zhuǎn)入S11;
[0026] 步驟S11，對(duì)P[t]和Sr[t]進(jìn)行異或操作的累加
，如果X小于 Z，則sure =-right，并轉(zhuǎn)入Sl 3,否則轉(zhuǎn)入Sl 2;
[0027] 步驟S12，對(duì)S[t]進(jìn)行一次右移位操作S[t]>>，right = right+l，如果rights； RIGHT，轉(zhuǎn)入Sll，否則轉(zhuǎn)入S14;
[0028] 步驟S13,校準(zhǔn)檢測(cè)成功，將語(yǔ)音文件移位sure個(gè)時(shí)刻和視頻文件重新合成；
[0029] 步驟S14,校準(zhǔn)結(jié)束。
[0030] 本發(fā)明具有有益效果。本發(fā)明提供了一種人像語(yǔ)音視頻同步檢測(cè)與校準(zhǔn)的新方法，通過(guò)識(shí)別視頻文件中嘴唇閉合狀態(tài)，得到了視頻中人物的發(fā)音信息，通過(guò)識(shí)別語(yǔ)音文件，得到了人聲信息，將兩者進(jìn)行時(shí)間差檢測(cè)，可以校準(zhǔn)語(yǔ)音和視頻不同步情況，本發(fā)明只采用低時(shí)間復(fù)雜度的左移位，右移位和異或計(jì)算，提高了計(jì)算性能，而且不需要語(yǔ)音和視頻文件中加入時(shí)間戳信息，減少了信息存儲(chǔ)量。
[0031] 本發(fā)明裝置的工作過(guò)程如下：采用人臉識(shí)別模塊識(shí)別出圖片信息中的人臉區(qū)域；然后，采用動(dòng)態(tài)嘴唇識(shí)別模塊識(shí)別出人臉區(qū)域中的嘴唇區(qū)域，并且判斷嘴唇閉合狀態(tài)，進(jìn)一步判斷嘴唇是否處于發(fā)音狀態(tài);接著，采用人聲提取模塊提取語(yǔ)音信息中的人聲部分；隨后，采用時(shí)間差計(jì)算模塊計(jì)算動(dòng)態(tài)嘴唇絕對(duì)時(shí)刻和人聲時(shí)刻的距離;最后，采用同步調(diào)節(jié)模塊調(diào)節(jié)動(dòng)態(tài)嘴唇絕對(duì)時(shí)刻和人聲時(shí)刻，生成調(diào)整好的人像語(yǔ)音視頻。
【附圖說(shuō)明】
[0032] 圖1是本發(fā)明裝置的總體結(jié)構(gòu)示意圖。
[0033] 圖中：1_人臉識(shí)別模塊，2-動(dòng)態(tài)嘴唇識(shí)別模塊，3-人聲提取模塊，4-時(shí)間差計(jì)算模塊，5-同步調(diào)節(jié)模塊。
[0034] 圖2是一種人像語(yǔ)音視頻同步校準(zhǔn)方法的流程圖。
[0035] 圖3是實(shí)施例一視頻文件第32秒圖片幀的二值圖。
[0036] 圖4是實(shí)施例一視頻文件第32秒圖片幀的人臉區(qū)域圖。
[0037] 圖5是實(shí)施例一視頻文件第32秒圖片幀的嘴唇區(qū)域圖。
[0038]圖6是實(shí)施例一視頻文件第31秒圖片幀的二值圖。
[0039]圖7是實(shí)施例一視頻文件第31秒圖片幀的人臉區(qū)域圖。
[0040]圖8是實(shí)施例一視頻文件第31秒圖片幀的嘴唇區(qū)域圖。
[0041 ]圖9是實(shí)施例一語(yǔ)音文件的語(yǔ)音聲譜圖和人聲聲譜圖。
[0042]圖10是實(shí)施例一動(dòng)態(tài)嘴唇數(shù)組和人聲數(shù)組的數(shù)值趨勢(shì)圖。
[0043]圖11是實(shí)施例二視頻文件第19秒圖片幀的二值圖。
[0044] 圖12是實(shí)施例二視頻文件第19秒圖片幀的人臉區(qū)域圖。
[0045] 圖13是實(shí)施例二視頻文件第19秒圖片幀的嘴唇區(qū)域圖。
[0046] 圖14是實(shí)施例二視頻文件第18秒圖片幀的識(shí)別不意圖。
[0047] 圖15是實(shí)施例二視頻文件第18秒圖片幀的人臉區(qū)域圖。
[0048] 圖16是實(shí)施例二視頻文件第18秒圖片幀的嘴唇區(qū)域圖。
[0049] 圖17是實(shí)施例二語(yǔ)音文件的語(yǔ)音聲譜圖和人聲聲譜圖。
[0050] 圖18是實(shí)施例二校準(zhǔn)前動(dòng)態(tài)嘴唇數(shù)組和人聲數(shù)組的數(shù)值趨勢(shì)圖。
[0051] 圖19是實(shí)施例二校準(zhǔn)后動(dòng)態(tài)嘴唇數(shù)組和人聲數(shù)組的數(shù)值趨勢(shì)圖。
【具體實(shí)施方式】
[0052] 下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明作進(jìn)一步詳細(xì)地說(shuō)明。
[0053] 由圖1所示的一種人像語(yǔ)音視頻同步校準(zhǔn)裝置的總體結(jié)構(gòu)示意圖可知，它包括Ια臉識(shí)別模塊， 2-動(dòng)態(tài)嘴唇識(shí)別模塊， 3-人聲提取模塊， 4-時(shí)間差計(jì)算模塊， 5-同步調(diào)節(jié)模塊。
[0054]所述的人臉識(shí)別模塊1與動(dòng)態(tài)嘴唇識(shí)別模塊2連接；
[0055] 所述的時(shí)間差計(jì)算模塊4與動(dòng)態(tài)嘴唇識(shí)別模塊2連接；
[0056] 所述的時(shí)間差計(jì)算模塊4與人聲提取模塊3連接；
[0057]所述的時(shí)間差計(jì)算模塊4與同步調(diào)節(jié)模塊5連接；
[0058] 本發(fā)明在使用時(shí)，各部件的功能描述如下。
[0059] 所述的人臉識(shí)別模塊1用于識(shí)別圖片信息中的人臉區(qū)域；
[0060] 所述的動(dòng)態(tài)嘴唇識(shí)別模塊2用于識(shí)別出人臉區(qū)域中的嘴唇區(qū)域，并且判斷嘴唇閉合狀態(tài)，進(jìn)一步判斷嘴唇是否處于發(fā)音狀態(tài)；
[0061] 所述的人聲提取模塊3用于提取語(yǔ)音信息中的人聲部分；
[0062] 所述的時(shí)間差計(jì)算模塊4用于計(jì)算動(dòng)態(tài)嘴唇絕對(duì)時(shí)刻和人聲時(shí)刻的距離；
[0063] 所述的同步調(diào)節(jié)模塊5用于調(diào)節(jié)動(dòng)態(tài)嘴唇絕對(duì)時(shí)刻和人聲時(shí)刻。以下是發(fā)明人給出的實(shí)施例：
[0064] -種人像語(yǔ)音視頻同步校準(zhǔn)方法的工作流程如圖2所示。
[0065] 實(shí)施例1:對(duì)同步的語(yǔ)音視頻檢測(cè)過(guò)程
[0066] 步驟Sl，讀取語(yǔ)音視頻頭文件信息，獲得語(yǔ)音視頻的時(shí)間總長(zhǎng)度72,單位為秒，語(yǔ) 音視頻的某一時(shí)刻為t，l<t<72;
[0067] 步驟S2,設(shè)定動(dòng)態(tài)嘴唇數(shù)組P[k]，l<k<72,將數(shù)組P中所有元素初始值設(shè)為0,設(shè) 定人聲數(shù)組S[f]，I，將數(shù)組S中所有元素初始值設(shè)為0;
[0068] 步驟S3,依次提取視頻文件t時(shí)刻的圖片幀，圖3是視頻文件第32秒提取出來(lái)的圖片幀的二值圖，圖6是視頻文件第31秒提取出來(lái)的圖片幀的二值圖，采用人臉識(shí)別技術(shù)識(shí)別出某一時(shí)刻圖片幀中的i個(gè)人臉區(qū)域Mt, i，I Si < I，I = 1，圖4是從圖3中提取出來(lái)的一個(gè)人臉區(qū)域M32, i，圖7是從圖6提取出來(lái)的一個(gè)人臉區(qū)域M31, i;
[0069]步驟S4,采用嘴唇識(shí)別技術(shù)識(shí)別出某一時(shí)刻人臉區(qū)域Mt,i中的嘴唇區(qū)域Lt, <1，1 = 1，圖5是從圖4中提取出來(lái)的一個(gè)嘴唇區(qū)域L32,i，圖8是從圖7中提取出來(lái)的一個(gè)嘴唇區(qū)域L31,1;
[0070] 步驟S5,比較嘴唇區(qū)域Lt^與…Uh的位置偏移情況，確定嘴唇區(qū)域 Uj是否處于動(dòng)態(tài)開(kāi)啟或閉合狀態(tài)，J為可以調(diào)整的閾值，實(shí)施例中J=I，JSjSI，圖5中嘴唇區(qū)域L 324和圖8中嘴唇區(qū)域L31,i進(jìn)行比較，確定嘴唇處于動(dòng)態(tài)開(kāi)啟狀態(tài)，則將P[32]的值設(shè) 為1;
[0071] 步驟S6,將語(yǔ)音文件E分成左右兩個(gè)聲道文件即左聲道文件A和右聲道文件B，如圖 9(a)所示為語(yǔ)音文件E的頻譜圖，用左聲道文件A的音頻信號(hào)減去右聲道文件B的音頻信號(hào)，得到文件C，用右聲道文件B的音頻信號(hào)減去左聲道文件A的音頻信號(hào)，得到文件D，將文件C 和文件D兩路信號(hào)重新合成語(yǔ)音文件F，進(jìn)一步，從語(yǔ)音文件E中減去語(yǔ)音文件F可以得到人聲文件G，如圖9 (b)所示為人聲文件G的頻譜圖；
[0072]步驟S7，按時(shí)序依次提取人聲文件G在t時(shí)刻的頻率Ht，Ht的單位為Hz，0<t<72，如果Za彡Ht彡Zb，則將S[t]的值設(shè)為l，Za為人聲頻率下限閾值，實(shí)施例中Za= 100，Zb為人聲頻率上限閾值，實(shí)施例中Zb = 600;
[0073]步驟S8,完全復(fù)制一份S[t]，命名為數(shù)組Sr[t]，設(shè)定用于移位操作的初始值，左移位Ief t = 0，右移位right = 0，確認(rèn)校準(zhǔn)時(shí)間間隔sure = 0，并給出左移位上限閾值LEFT = 5，右移位上限閾值RIGHT = 5，校準(zhǔn)閾值Z = 8;
[0074] 步驟S9,對(duì)動(dòng)態(tài)嘴唇數(shù)組P[t]和語(yǔ)音數(shù)組S[t]進(jìn)行異或操作的累加，X= t(P[i]XORS[t])，如圖1〇所示為P[t]和S[t]的數(shù)值趨勢(shì)圖，計(jì)算得到X = 5，X小于Z，則 1=0' sure = 0，并轉(zhuǎn)入步驟Sl 3;
[0075] 步驟S13,校準(zhǔn)檢測(cè)成功，將語(yǔ)音文件移位0個(gè)時(shí)刻和視頻文件重新合成；
[0076] 步驟S14,校準(zhǔn)結(jié)束。
[0077]實(shí)施例2:對(duì)不同步的語(yǔ)音視頻檢測(cè)與校準(zhǔn)過(guò)程
[0078]步驟SI，讀取語(yǔ)音視頻頭文件信息，獲得語(yǔ)音視頻的時(shí)間總長(zhǎng)度58,單位為秒，語(yǔ) 音視頻的某一時(shí)刻為t，I < t < 58;
[0079]步驟S2,設(shè)定動(dòng)態(tài)嘴唇數(shù)組P[k]，l<k<58,將數(shù)組P中所有元素初始值設(shè)為0,設(shè) 定人聲數(shù)組S[f]，I，將數(shù)組S中所有元素初始值設(shè)為0;
[0080] 步驟S3，依次提取視頻文件t時(shí)刻的圖片幀，圖11是從視頻文件第19S提取出來(lái)的圖片幀的二值圖，圖14是從視頻文件第18秒提取出來(lái)的圖片幀的二值圖，采用人臉識(shí)別技術(shù)識(shí)別出某一時(shí)刻圖片幀中的i個(gè)人臉區(qū)域= 圖12是從圖11中提取出來(lái) 的三個(gè)人臉區(qū)域％9,1，119,2，119, 3，圖15是從圖14中提取出來(lái)的三個(gè)人臉區(qū)域此8,1，118, 2， Ml8,3 ;
[0081] 步驟S4,采用嘴唇識(shí)別技術(shù)識(shí)別出某一時(shí)刻人臉區(qū)域Mt,i中的嘴唇區(qū)域LmKi ，I = 3,圖13是從圖12中提取出來(lái)的三個(gè)嘴唇區(qū)域L19,!,L19,2，L19,3,圖16是從圖15中提取出來(lái)的三個(gè)嘴唇區(qū)域Ll8,l，Ll8,2，Ll8,3;
[0082] 步驟S5,比較嘴唇區(qū)域Lt^與Lt^，Lt|2,…Uh的位置偏移情況，確定嘴唇區(qū)域 Uj是否處于動(dòng)態(tài)開(kāi)啟或閉合狀態(tài)，J為可以調(diào)整的閾值，實(shí)施例中J=I JSjSI，圖13中嘴唇區(qū)域Lliu和圖16中嘴唇區(qū)域L18,:進(jìn)行比較，確定嘴唇處于靜態(tài)狀態(tài)，繼續(xù)將圖13中嘴唇區(qū) 域1^ 9,2和圖16中嘴唇區(qū)域L18,2進(jìn)行比較，確定嘴唇處于動(dòng)態(tài)閉合狀態(tài)，則將P[19]的值設(shè)為 1;
[0083]步驟S6,將語(yǔ)音文件E分成左右兩個(gè)聲道文件即左聲道文件A和右聲道文件B，如圖 17(a)所示為語(yǔ)音文件E的頻譜圖，用左聲道文件A的音頻信號(hào)減去右聲道文件B的音頻信號(hào)，得到文件C，用右聲道文件B的音頻信號(hào)減去左聲道文件A的音頻信號(hào)，得到文件D，將文件C和文件D兩路信號(hào)重新合成語(yǔ)音文件F，進(jìn)一步，從語(yǔ)音文件E中減去語(yǔ)音文件F可以得到人聲文件G，如圖17(b)所示為人聲文件G的頻譜圖；
[0084]步驟S7，按時(shí)序依次提取人聲文件G在t時(shí)刻的頻率Ht，單位Hz，OSt<58，如果Za SHtSZb，則將S[t]的值設(shè)為I，Za為人聲頻率下限閾值，實(shí)施例中Za = 80，Zb為人聲頻率上限閾值，實(shí)施例中Zb = 800;
[0085]步驟S8,完全復(fù)制一份S[t]，命名為數(shù)組Sr[t]，設(shè)定用于移位操作的初始值，左移位Ief t = 0，右移位right = 0，確認(rèn)校準(zhǔn)時(shí)間間隔sure = 0，并給出左移位上限閾值LEFT = 4，右移位上限閾值RIGHT = 4，校準(zhǔn)閾值Z = 6;
[0086] 步驟S9,對(duì)動(dòng)態(tài)嘴唇數(shù)組P[t]和語(yǔ)音數(shù)組S[t]進(jìn)行異或操作的累加，X= t(P[i.]XORS[l])，如圖I8所示為P[t]和S[t]的數(shù)值趨勢(shì)圖，計(jì)算得到X = 9，X大于Z，則 :t=a sure = 0,并轉(zhuǎn)入步驟SlO;
[0087] 步驟S10,對(duì)S[t]進(jìn)行一次左移位操作S[t]〈〈，left = left+l，計(jì)算得到left= 1， left彡LEFT，轉(zhuǎn)入步驟S9;
[0088] 步驟S9,對(duì)P[t]和S[t]進(jìn)行異或操作的累加
，計(jì)算得到X = 6，X大于Z，則sure = l，并轉(zhuǎn)入步驟S10;
[0089] 步驟S10,對(duì)S[t]進(jìn)行一次左移位操作S[t]〈〈，left = left+l，計(jì)算得到left = 2， left彡LEFT，轉(zhuǎn)入步驟S9;
[0090] 步驟S9,對(duì)P[t]和S[t]進(jìn)行異或操作的累加
如圖19所示為 P[ t]和S[ t]的數(shù)值趨勢(shì)圖，計(jì)算得到X = 2，X小于Z，則sure = 2，并轉(zhuǎn)入步驟Sl3;
[0091] 步驟S13,校準(zhǔn)檢測(cè)成功，將語(yǔ)音文件左移位2個(gè)時(shí)刻和視頻文件重新合成；
[0092] 步驟S14,校準(zhǔn)結(jié)束。
【主權(quán)項(xiàng)】
1. 一種人像語(yǔ)音視頻同步校準(zhǔn)裝置，其特征在于包括:人臉識(shí)別模塊、動(dòng)態(tài)嘴唇識(shí)別模塊、人聲提取模塊、時(shí)間差計(jì)算模塊和同步調(diào)節(jié)模塊；所述人臉識(shí)別模塊與動(dòng)態(tài)嘴唇識(shí)別模塊連接；所述時(shí)間差計(jì)算模塊分別與動(dòng)態(tài)嘴唇識(shí)別模塊、人聲提取模塊、同步調(diào)節(jié)模塊連接；所述人臉識(shí)別模塊用于識(shí)別圖片信息中的人臉區(qū)域；所述動(dòng)態(tài)嘴唇識(shí)別模塊用于識(shí)別出人臉區(qū)域中的嘴唇區(qū)域，并且判斷嘴唇閉合狀態(tài)，進(jìn)一步判斷嘴唇是否處于發(fā)音狀態(tài)；所述人聲提取模塊用于提取語(yǔ)音信息中的人聲部分；所述時(shí)間差計(jì)算模塊用于計(jì)算動(dòng)態(tài)嘴唇絕對(duì)時(shí)刻和人聲時(shí)刻的距離；所述同步調(diào)節(jié)模塊用于調(diào)節(jié)動(dòng)態(tài)嘴唇絕對(duì)時(shí)刻和人聲時(shí)刻。2. 權(quán)利要求1所述的一種人像語(yǔ)音視頻同步校準(zhǔn)裝置的人像語(yǔ)音視頻同步校準(zhǔn)方法，其特征在于包括以下步驟：步驟S1，讀取語(yǔ)音視頻頭文件信息，獲得語(yǔ)音視頻的時(shí)間總長(zhǎng)度T，語(yǔ)音視頻的某一時(shí) 刻為步驟S2,設(shè)定動(dòng)態(tài)嘴唇數(shù)組P[k]，l<k<T，將數(shù)組P中所有元素初始值設(shè)為0,設(shè)定人聲數(shù)組S[ f ]，1 <f <T，將數(shù)組S中所有元素初始值設(shè)為0; 步驟S3,依次提取視頻文件t時(shí)刻的圖片幀，采用人臉識(shí)別技術(shù)識(shí)別出某一時(shí)刻圖片幀中的i個(gè)人臉區(qū)域彡1，1為識(shí)別出來(lái)的人臉區(qū)域總數(shù)；步驟S4,采用嘴唇識(shí)別技術(shù)識(shí)別出某一時(shí)刻人臉區(qū)域Mt>1中的嘴唇區(qū)域LmlSiSl; 步驟S5,比較嘴唇區(qū)域Lq，與的位置偏移情況，確定嘴唇區(qū)域Lt,j 是否處于動(dòng)態(tài)開(kāi)啟或閉合狀態(tài)，J為可以調(diào)整的閾值，用于控制比較嘴唇區(qū)域的數(shù)量， <1; 如果確定嘴唇區(qū)域Ly處于運(yùn)動(dòng)狀態(tài)，則將P[t ]的值設(shè)為1，否則不作操作；步驟S6,將語(yǔ)音文件E分成左右兩個(gè)聲道文件即左聲道文件A和右聲道文件B，用左聲道文件A的音頻信號(hào)減去右聲道文件B的音頻信號(hào)，得到文件C，用右聲道文件B的音頻信號(hào)減去左聲道文件A的音頻信號(hào)，得到文件D，將文件C和文件D兩路信號(hào)重新合成語(yǔ)音文件F，進(jìn) 一步，從語(yǔ)音文件E中減去語(yǔ)音文件F可以得到人聲文件G; 步驟S7,按時(shí)序依次提取人聲文件G在t時(shí)刻的頻率Ht，Ht單位為Hz，0<t<T;如果Za< Zb，則將S [ t ]的值設(shè)為1，Za為人聲頻率下限閾值，Zb為人聲頻率上限閾值；步驟S8,完全復(fù)制一份S[t]，命名為數(shù)組Sr[t]，設(shè)定用于移位操作的初始值，左移位 left = 0，右移位right = 0，確認(rèn)校準(zhǔn)時(shí)間間隔sure = 0，并給出左移位上限閾值LEFT，右移位上限閾值RIGHT，校準(zhǔn)閾值Z; 步驟S9，對(duì)動(dòng)態(tài)嘴唇數(shù)組P[t]和人聲數(shù)組S[t]進(jìn)行異或操作的累加，X= XOR S[t])，如果X小于Z，則sure = left，并轉(zhuǎn)入步驟S13,否則轉(zhuǎn)入步驟S10; t=l 步驟S10,對(duì)S[t]進(jìn)行一次左移位操作S[t]〈〈，left = left+1，如果left<LEFT，轉(zhuǎn)入步驟S9,否則轉(zhuǎn)入步驟SI 1; 步驟S11，對(duì)P[t]和Sr[t]進(jìn)行異或操作的累加，X=t(P[t]X〇RSr[i])，如果X小于Z，則 t=l sure =-right，并轉(zhuǎn)入步驟SI 3，否則轉(zhuǎn)入步驟SI 2; 步驟312，對(duì)5[1:]進(jìn)行一次右移位操作5[1:]>>，1^811〖=1^811〖+1，如果1^8111:<1?16!11'，轉(zhuǎn) 入步驟SI 1，否則轉(zhuǎn)入步驟SI 4; 步驟S13，校準(zhǔn)檢測(cè)成功，將語(yǔ)音文件移位sure個(gè)時(shí)刻和視頻文件重新合成；步驟S14,校準(zhǔn)結(jié)束。
【文檔編號(hào)】H04N21/43GK106067989SQ201610273130
【公開(kāi)日】2016年11月2日
【申請(qǐng)日】2016年4月28日公開(kāi)號(hào)201610273130.1, CN 106067989 A, CN 106067989A, CN 201610273130, CN-A-106067989, CN106067989 A, CN106067989A, CN201610273130, CN201610273130.1
【發(fā)明人】陳瀟君, 茍建平, 詹天明, 成科揚(yáng), 陳小波, 詹永照, 毛啟容, 柯佳, 汪滿容
【申請(qǐng)人】江蘇大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳瀟君;茍建平;詹天明;成科揚(yáng);陳小波;詹永照;毛啟容;柯佳;汪滿容;
技術(shù)所有人：江蘇大學(xué);
我是此專利的發(fā)明人

上一篇：音頻處理方法、裝置以及視頻播放器的制造方法
上一篇：視頻列表顯示方法、裝置及移動(dòng)終端的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開(kāi)發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開(kāi)發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

電腦時(shí)間校準(zhǔn)同步相關(guān)技術(shù)

無(wú)砝碼校準(zhǔn)裝置相關(guān)技術(shù)

四輪定位儀校準(zhǔn)裝置相關(guān)技術(shù)

時(shí)間校準(zhǔn)同步相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種人像語(yǔ)音視頻同步校準(zhǔn)裝置及方法