音畫同步檢測方法、裝置、電子設(shè)備及終端與流程

文檔序號：40279249發(fā)布日期：2024-12-11 13:16閱讀：17來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

本公開涉及圖像處理，具體為計算機視覺和人工智能等，尤其涉及一種音畫同步檢測方法、裝置、電子設(shè)備及終端。

背景技術(shù)：

1、在視頻編輯、編碼、播放過程中，可能存在視頻畫面中的嘴唇和聲音不匹配的情況，影響用戶的觀看體驗。相關(guān)技術(shù)中，往往采用有參考的方法進行音畫同步檢測，例如：添加標記信息或通過參考視頻進行對比，或者采用無參考的方法進行音畫同步檢測，例如：根據(jù)口型的開合信息或者是否存在語音信息，然而，上述方法，無法應(yīng)用在實際的場景中，且經(jīng)常會發(fā)生誤檢，最終還要通過人工進行二次檢測，耗費大量的人力和時間，由此，如何提高音畫同步檢測的準確性和可靠性，已成為亟待解決的問題。

技術(shù)實現(xiàn)思路

1、本公開提出了一種音畫同步檢測方法、裝置、電子設(shè)備、終端和計算機程序產(chǎn)品。

2、根據(jù)本公開的第一方面，提出了一種音畫同步檢測方法，包括：提取目標長度的視頻段的圖像數(shù)據(jù)和音頻數(shù)據(jù)；根據(jù)提取的圖像數(shù)據(jù)進行人臉檢測和跟蹤，以劃分成多個人臉圖像列表；根據(jù)每個人臉圖像列表的遍歷結(jié)果，提取所述每個人臉圖像列表對應(yīng)的嘴部特征，其中，所述嘴部特征用于表征嘴唇的變化情況；根據(jù)所述音頻數(shù)據(jù)以及所述嘴部特征，確認所述視頻段的同步結(jié)果。

3、根據(jù)本公開的第二方面，提出了一種音畫同步檢測裝置，包括：第一提取模塊，用于提取目標長度的視頻段的圖像數(shù)據(jù)和音頻數(shù)據(jù)；劃分模塊，用于根據(jù)提取的圖像數(shù)據(jù)進行人臉檢測和跟蹤，以劃分成多個人臉圖像列表；第二提取模塊，用于根據(jù)每個人臉圖像列表的遍歷結(jié)果，提取所述每個人臉圖像列表對應(yīng)的嘴部特征，其中，所述嘴部特征用于表征嘴唇的變化情況；確認模塊，用于根據(jù)所述音頻數(shù)據(jù)以及所述嘴部特征，確認所述視頻段的同步結(jié)果。

4、根據(jù)本公開的第三方面，提出了一種電子設(shè)備，包括：至少一個處理器；以及與所述至少一個處理器通信連接的存儲器；其中，所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令，所述指令被所述至少一個處理器執(zhí)行，以使所述至少一個處理器能夠執(zhí)行上述第一方面提出的音畫同步檢測方法。

5、根據(jù)本公開實施例的第四方面，提供一種終端，包括如第三方面實施例提出的電子設(shè)備。

6、根據(jù)本公開的第五方面，提出了一種計算機程序產(chǎn)品，包括計算機程序，所述計算機程序在被處理器執(zhí)行時實現(xiàn)上述第一方面提出的音畫同步檢測方法。

7、應(yīng)當理解，本部分所描述的內(nèi)容并非旨在標識本公開的實施例的關(guān)鍵或重要特征，也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。

技術(shù)特征：

1.一種音畫同步檢測方法，其中，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其中，所述提取目標長度的視頻段的圖像數(shù)據(jù)和音頻數(shù)據(jù)，包括：

3.根據(jù)權(quán)利要求2所述的方法，其中，所述根據(jù)提取的圖像數(shù)據(jù)進行人臉檢測和跟蹤，以劃分成多個人臉圖像列表，包括：

4.根據(jù)權(quán)利要求3所述的方法，其中，所述根據(jù)每個人臉圖像列表的遍歷結(jié)果，提取所述每個人臉圖像列表對應(yīng)的嘴部特征，包括：

5.根據(jù)權(quán)利要求4所述的方法，其中，所述根據(jù)所述音頻數(shù)據(jù)以及所述嘴部特征，確認所述視頻段的同步結(jié)果，包括：

6.根據(jù)權(quán)利要求5所述的方法，其中，所述確定存在張合變化的嘴部特征的嘴部特征列表的過程，包括：

7.根據(jù)權(quán)利要求5所述的方法，其中，所述確定所述音頻特征序列的過程，包括：

8.根據(jù)權(quán)利要求5所述的方法，其中，所述根據(jù)存在張合變化的嘴部特征的嘴部特征列表和所述音頻數(shù)據(jù)列表的音頻特征序列，獲取所述圖像列表對應(yīng)的唇音相似度，包括：

9.根據(jù)權(quán)利要求5所述的方法，其中，所述根據(jù)所述圖像列表對應(yīng)的唇音相似度，對所述視頻段進行音畫同步檢測，以確認所述視頻段的同步結(jié)果，包括：

10.根據(jù)權(quán)利要求6所述的方法，其中，所述根據(jù)所述統(tǒng)計數(shù)量，對所述視頻段進行音畫同步檢測，以確認所述視頻段的同步結(jié)果，包括：

11.根據(jù)權(quán)利要求6所述的方法，其中，所述確定所述音頻特征序列之前，還包括：

12.一種音畫同步檢測裝置，其中，所述裝置包括：

13.根據(jù)權(quán)利要求12所述的裝置，其中，所述提取模塊，用于：

14.根據(jù)權(quán)利要求13所述的裝置，其中，所述劃分模塊，用于：

15.根據(jù)權(quán)利要求14所述的裝置，其中，所述第二提取模塊，用于：

16.根據(jù)權(quán)利要求15所述的裝置，其中，所述確認模塊，用于：

17.根據(jù)權(quán)利要求15所述的裝置，其中，所述確定存在張合變化的嘴部特征的嘴部特征列表的過程，包括：

18.根據(jù)權(quán)利要求16所述的裝置，其中，所述確定所述音頻特征序列的過程，包括：

19.根據(jù)權(quán)利要求16所述的裝置，其中，所述確認模塊，用于：

20.根據(jù)權(quán)利要求16所述的裝置，其中，所述確認模塊，用于：

21.一種電子設(shè)備，其特征在于，包括處理器和存儲器；

22.一種終端，其特征在于，包括如權(quán)利要求21所述的電子設(shè)備。

23.一種計算機程序產(chǎn)品，包括計算機程序，所述計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)權(quán)利要求1-11中任一項所述的方法。

技術(shù)總結(jié)
本公開提出了一種音畫同步檢測方法、裝置、電子設(shè)備及終端，涉及圖像處理領(lǐng)域，具體為計算機視覺和人工智能等技術(shù)領(lǐng)域，包括：提取目標長度的視頻段的圖像數(shù)據(jù)和音頻數(shù)據(jù)；根據(jù)提取的圖像數(shù)據(jù)進行人臉檢測和跟蹤，以劃分成多個人臉圖像列表；根據(jù)每個人臉圖像列表的遍歷結(jié)果，提取所述每個人臉圖像列表對應(yīng)的嘴部特征，其中，所述嘴部特征用于表征嘴唇的變化情況；根據(jù)所述音頻數(shù)據(jù)以及所述嘴部特征，確認所述視頻段的同步結(jié)果。本公開解決了在多人物的場景下進行音畫同步檢測的問題，通過圖像列表對應(yīng)的嘴巴區(qū)域圖片和音頻幀，對視頻進行音畫同步檢測，提高了獲取視頻的音畫同步檢測結(jié)果的準確性和可靠性。

技術(shù)研發(fā)人員：王向陽
受保護的技術(shù)使用者：北京百度網(wǎng)訊科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/10

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王向陽
技術(shù)所有人：北京百度網(wǎng)訊科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學(xué)與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

音畫同步相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

音畫同步檢測方法、裝置、電子設(shè)備及終端與流程

音畫同步檢測方法、裝置、電子設(shè)備及終端與流程