本公開涉及圖像處理,具體為計算機視覺和人工智能等,尤其涉及一種音畫同步檢測方法、裝置、電子設(shè)備及終端。
背景技術(shù):
1、在視頻編輯、編碼、播放過程中,可能存在視頻畫面中的嘴唇和聲音不匹配的情況,影響用戶的觀看體驗。相關(guān)技術(shù)中,往往采用有參考的方法進行音畫同步檢測,例如:添加標記信息或通過參考視頻進行對比,或者采用無參考的方法進行音畫同步檢測,例如:根據(jù)口型的開合信息或者是否存在語音信息,然而,上述方法,無法應(yīng)用在實際的場景中,且經(jīng)常會發(fā)生誤檢,最終還要通過人工進行二次檢測,耗費大量的人力和時間,由此,如何提高音畫同步檢測的準確性和可靠性,已成為亟待解決的問題。
技術(shù)實現(xiàn)思路
1、本公開提出了一種音畫同步檢測方法、裝置、電子設(shè)備、終端和計算機程序產(chǎn)品。
2、根據(jù)本公開的第一方面,提出了一種音畫同步檢測方法,包括:提取目標長度的視頻段的圖像數(shù)據(jù)和音頻數(shù)據(jù);根據(jù)提取的圖像數(shù)據(jù)進行人臉檢測和跟蹤,以劃分成多個人臉圖像列表;根據(jù)每個人臉圖像列表的遍歷結(jié)果,提取所述每個人臉圖像列表對應(yīng)的嘴部特征,其中,所述嘴部特征用于表征嘴唇的變化情況;根據(jù)所述音頻數(shù)據(jù)以及所述嘴部特征,確認所述視頻段的同步結(jié)果。
3、根據(jù)本公開的第二方面,提出了一種音畫同步檢測裝置,包括:第一提取模塊,用于提取目標長度的視頻段的圖像數(shù)據(jù)和音頻數(shù)據(jù);劃分模塊,用于根據(jù)提取的圖像數(shù)據(jù)進行人臉檢測和跟蹤,以劃分成多個人臉圖像列表;第二提取模塊,用于根據(jù)每個人臉圖像列表的遍歷結(jié)果,提取所述每個人臉圖像列表對應(yīng)的嘴部特征,其中,所述嘴部特征用于表征嘴唇的變化情況;確認模塊,用于根據(jù)所述音頻數(shù)據(jù)以及所述嘴部特征,確認所述視頻段的同步結(jié)果。
4、根據(jù)本公開的第三方面,提出了一種電子設(shè)備,包括:至少一個處理器;以及與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行上述第一方面提出的音畫同步檢測方法。
5、根據(jù)本公開實施例的第四方面,提供一種終端,包括如第三方面實施例提出的電子設(shè)備。
6、根據(jù)本公開的第五方面,提出了一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)上述第一方面提出的音畫同步檢測方法。
7、應(yīng)當理解,本部分所描述的內(nèi)容并非旨在標識本公開的實施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
1.一種音畫同步檢測方法,其中,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其中,所述提取目標長度的視頻段的圖像數(shù)據(jù)和音頻數(shù)據(jù),包括:
3.根據(jù)權(quán)利要求2所述的方法,其中,所述根據(jù)提取的圖像數(shù)據(jù)進行人臉檢測和跟蹤,以劃分成多個人臉圖像列表,包括:
4.根據(jù)權(quán)利要求3所述的方法,其中,所述根據(jù)每個人臉圖像列表的遍歷結(jié)果,提取所述每個人臉圖像列表對應(yīng)的嘴部特征,包括:
5.根據(jù)權(quán)利要求4所述的方法,其中,所述根據(jù)所述音頻數(shù)據(jù)以及所述嘴部特征,確認所述視頻段的同步結(jié)果,包括:
6.根據(jù)權(quán)利要求5所述的方法,其中,所述確定存在張合變化的嘴部特征的嘴部特征列表的過程,包括:
7.根據(jù)權(quán)利要求5所述的方法,其中,所述確定所述音頻特征序列的過程,包括:
8.根據(jù)權(quán)利要求5所述的方法,其中,所述根據(jù)存在張合變化的嘴部特征的嘴部特征列表和所述音頻數(shù)據(jù)列表的音頻特征序列,獲取所述圖像列表對應(yīng)的唇音相似度,包括:
9.根據(jù)權(quán)利要求5所述的方法,其中,所述根據(jù)所述圖像列表對應(yīng)的唇音相似度,對所述視頻段進行音畫同步檢測,以確認所述視頻段的同步結(jié)果,包括:
10.根據(jù)權(quán)利要求6所述的方法,其中,所述根據(jù)所述統(tǒng)計數(shù)量,對所述視頻段進行音畫同步檢測,以確認所述視頻段的同步結(jié)果,包括:
11.根據(jù)權(quán)利要求6所述的方法,其中,所述確定所述音頻特征序列之前,還包括:
12.一種音畫同步檢測裝置,其中,所述裝置包括:
13.根據(jù)權(quán)利要求12所述的裝置,其中,所述提取模塊,用于:
14.根據(jù)權(quán)利要求13所述的裝置,其中,所述劃分模塊,用于:
15.根據(jù)權(quán)利要求14所述的裝置,其中,所述第二提取模塊,用于:
16.根據(jù)權(quán)利要求15所述的裝置,其中,所述確認模塊,用于:
17.根據(jù)權(quán)利要求15所述的裝置,其中,所述確定存在張合變化的嘴部特征的嘴部特征列表的過程,包括:
18.根據(jù)權(quán)利要求16所述的裝置,其中,所述確定所述音頻特征序列的過程,包括:
19.根據(jù)權(quán)利要求16所述的裝置,其中,所述確認模塊,用于:
20.根據(jù)權(quán)利要求16所述的裝置,其中,所述確認模塊,用于:
21.一種電子設(shè)備,其特征在于,包括處理器和存儲器;
22.一種終端,其特征在于,包括如權(quán)利要求21所述的電子設(shè)備。
23.一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)權(quán)利要求1-11中任一項所述的方法。