国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      音畫同步檢測方法、裝置、電子設(shè)備及終端與流程

      文檔序號:40279249發(fā)布日期:2024-12-11 13:16閱讀:17來源:國知局
      音畫同步檢測方法、裝置、電子設(shè)備及終端與流程

      本公開涉及圖像處理,具體為計算機視覺和人工智能等,尤其涉及一種音畫同步檢測方法、裝置、電子設(shè)備及終端。


      背景技術(shù):

      1、在視頻編輯、編碼、播放過程中,可能存在視頻畫面中的嘴唇和聲音不匹配的情況,影響用戶的觀看體驗。相關(guān)技術(shù)中,往往采用有參考的方法進行音畫同步檢測,例如:添加標記信息或通過參考視頻進行對比,或者采用無參考的方法進行音畫同步檢測,例如:根據(jù)口型的開合信息或者是否存在語音信息,然而,上述方法,無法應(yīng)用在實際的場景中,且經(jīng)常會發(fā)生誤檢,最終還要通過人工進行二次檢測,耗費大量的人力和時間,由此,如何提高音畫同步檢測的準確性和可靠性,已成為亟待解決的問題。


      技術(shù)實現(xiàn)思路

      1、本公開提出了一種音畫同步檢測方法、裝置、電子設(shè)備、終端和計算機程序產(chǎn)品。

      2、根據(jù)本公開的第一方面,提出了一種音畫同步檢測方法,包括:提取目標長度的視頻段的圖像數(shù)據(jù)和音頻數(shù)據(jù);根據(jù)提取的圖像數(shù)據(jù)進行人臉檢測和跟蹤,以劃分成多個人臉圖像列表;根據(jù)每個人臉圖像列表的遍歷結(jié)果,提取所述每個人臉圖像列表對應(yīng)的嘴部特征,其中,所述嘴部特征用于表征嘴唇的變化情況;根據(jù)所述音頻數(shù)據(jù)以及所述嘴部特征,確認所述視頻段的同步結(jié)果。

      3、根據(jù)本公開的第二方面,提出了一種音畫同步檢測裝置,包括:第一提取模塊,用于提取目標長度的視頻段的圖像數(shù)據(jù)和音頻數(shù)據(jù);劃分模塊,用于根據(jù)提取的圖像數(shù)據(jù)進行人臉檢測和跟蹤,以劃分成多個人臉圖像列表;第二提取模塊,用于根據(jù)每個人臉圖像列表的遍歷結(jié)果,提取所述每個人臉圖像列表對應(yīng)的嘴部特征,其中,所述嘴部特征用于表征嘴唇的變化情況;確認模塊,用于根據(jù)所述音頻數(shù)據(jù)以及所述嘴部特征,確認所述視頻段的同步結(jié)果。

      4、根據(jù)本公開的第三方面,提出了一種電子設(shè)備,包括:至少一個處理器;以及與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行上述第一方面提出的音畫同步檢測方法。

      5、根據(jù)本公開實施例的第四方面,提供一種終端,包括如第三方面實施例提出的電子設(shè)備。

      6、根據(jù)本公開的第五方面,提出了一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)上述第一方面提出的音畫同步檢測方法。

      7、應(yīng)當理解,本部分所描述的內(nèi)容并非旨在標識本公開的實施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。



      技術(shù)特征:

      1.一種音畫同步檢測方法,其中,所述方法包括:

      2.根據(jù)權(quán)利要求1所述的方法,其中,所述提取目標長度的視頻段的圖像數(shù)據(jù)和音頻數(shù)據(jù),包括:

      3.根據(jù)權(quán)利要求2所述的方法,其中,所述根據(jù)提取的圖像數(shù)據(jù)進行人臉檢測和跟蹤,以劃分成多個人臉圖像列表,包括:

      4.根據(jù)權(quán)利要求3所述的方法,其中,所述根據(jù)每個人臉圖像列表的遍歷結(jié)果,提取所述每個人臉圖像列表對應(yīng)的嘴部特征,包括:

      5.根據(jù)權(quán)利要求4所述的方法,其中,所述根據(jù)所述音頻數(shù)據(jù)以及所述嘴部特征,確認所述視頻段的同步結(jié)果,包括:

      6.根據(jù)權(quán)利要求5所述的方法,其中,所述確定存在張合變化的嘴部特征的嘴部特征列表的過程,包括:

      7.根據(jù)權(quán)利要求5所述的方法,其中,所述確定所述音頻特征序列的過程,包括:

      8.根據(jù)權(quán)利要求5所述的方法,其中,所述根據(jù)存在張合變化的嘴部特征的嘴部特征列表和所述音頻數(shù)據(jù)列表的音頻特征序列,獲取所述圖像列表對應(yīng)的唇音相似度,包括:

      9.根據(jù)權(quán)利要求5所述的方法,其中,所述根據(jù)所述圖像列表對應(yīng)的唇音相似度,對所述視頻段進行音畫同步檢測,以確認所述視頻段的同步結(jié)果,包括:

      10.根據(jù)權(quán)利要求6所述的方法,其中,所述根據(jù)所述統(tǒng)計數(shù)量,對所述視頻段進行音畫同步檢測,以確認所述視頻段的同步結(jié)果,包括:

      11.根據(jù)權(quán)利要求6所述的方法,其中,所述確定所述音頻特征序列之前,還包括:

      12.一種音畫同步檢測裝置,其中,所述裝置包括:

      13.根據(jù)權(quán)利要求12所述的裝置,其中,所述提取模塊,用于:

      14.根據(jù)權(quán)利要求13所述的裝置,其中,所述劃分模塊,用于:

      15.根據(jù)權(quán)利要求14所述的裝置,其中,所述第二提取模塊,用于:

      16.根據(jù)權(quán)利要求15所述的裝置,其中,所述確認模塊,用于:

      17.根據(jù)權(quán)利要求15所述的裝置,其中,所述確定存在張合變化的嘴部特征的嘴部特征列表的過程,包括:

      18.根據(jù)權(quán)利要求16所述的裝置,其中,所述確定所述音頻特征序列的過程,包括:

      19.根據(jù)權(quán)利要求16所述的裝置,其中,所述確認模塊,用于:

      20.根據(jù)權(quán)利要求16所述的裝置,其中,所述確認模塊,用于:

      21.一種電子設(shè)備,其特征在于,包括處理器和存儲器;

      22.一種終端,其特征在于,包括如權(quán)利要求21所述的電子設(shè)備。

      23.一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)權(quán)利要求1-11中任一項所述的方法。


      技術(shù)總結(jié)
      本公開提出了一種音畫同步檢測方法、裝置、電子設(shè)備及終端,涉及圖像處理領(lǐng)域,具體為計算機視覺和人工智能等技術(shù)領(lǐng)域,包括:提取目標長度的視頻段的圖像數(shù)據(jù)和音頻數(shù)據(jù);根據(jù)提取的圖像數(shù)據(jù)進行人臉檢測和跟蹤,以劃分成多個人臉圖像列表;根據(jù)每個人臉圖像列表的遍歷結(jié)果,提取所述每個人臉圖像列表對應(yīng)的嘴部特征,其中,所述嘴部特征用于表征嘴唇的變化情況;根據(jù)所述音頻數(shù)據(jù)以及所述嘴部特征,確認所述視頻段的同步結(jié)果。本公開解決了在多人物的場景下進行音畫同步檢測的問題,通過圖像列表對應(yīng)的嘴巴區(qū)域圖片和音頻幀,對視頻進行音畫同步檢測,提高了獲取視頻的音畫同步檢測結(jié)果的準確性和可靠性。

      技術(shù)研發(fā)人員:王向陽
      受保護的技術(shù)使用者:北京百度網(wǎng)訊科技有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/10
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1