国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      篡改音頻的定位方法及裝置

      文檔序號:40260704發(fā)布日期:2024-12-11 12:52閱讀:12來源:國知局
      篡改音頻的定位方法及裝置

      本發(fā)明涉及計算機技術(shù)和音頻信號處理,更具體地,涉及一種篡改音頻的定位方法及裝置。


      背景技術(shù):

      1、隨著人工智能技術(shù)的發(fā)展,高質(zhì)量的音頻合成手段越來越難以辨別,尤其對于局部篡改音頻,由于該類音頻中僅含有少部分片段被篡改,因而隱蔽性較高,導致定位較難。

      2、在一個示例中,可以通過特征提取器對待測音頻進行特征提取,并利用數(shù)據(jù)中的標簽對分類器進行訓練,從而實現(xiàn)對待測音頻中的局部篡改音頻進行定位。

      3、在實現(xiàn)本發(fā)明構(gòu)思的過程中,發(fā)明人發(fā)現(xiàn)相關(guān)技術(shù)中至少存在如下問題:無法較為有效地保障局部篡改音頻定位的效率和準確率。


      技術(shù)實現(xiàn)思路

      1、有鑒于此,本發(fā)明提供了一種篡改音頻的定位方法及裝置。

      2、根據(jù)本發(fā)明的一個方面,提供了一種篡改音頻的定位方法,包括:對待檢測音頻進行特征提取處理,得到第一特征和第二特征,其中,上述第一特征表征了上述待檢測音頻的語音特征,上述第二特征表征了上述待檢測音頻的時序自一致性特征;根據(jù)上述第一特征和上述第二特征,確定融合特征,其中,上述融合特征的維度與上述待檢測音頻的幀數(shù)相同;以及,將上述融合特征輸入至經(jīng)訓練的強化學習網(wǎng)絡,得到定位結(jié)果,其中,上述定位結(jié)果表征了上述待檢測音頻中篡改音頻的位置。

      3、根據(jù)本發(fā)明的實施例,上述經(jīng)訓練的強化學習網(wǎng)絡是通過如下方式訓練得到的:獲取訓練樣本集,其中,上述訓練樣本集包括多個樣本音頻和每個上述樣本音頻各自的標簽序列,上述樣本音頻包括多個樣本幀,上述標簽序列包括每個上述樣本幀各自的標簽,上述標簽表征了上述樣本幀是否被篡改;對上述樣本音頻進行特征提取處理,得到第一樣本特征和第二樣本特征,其中,上述第一樣本特征表征了上述樣本音頻的語音特征,上述第二樣本特征表征了上述樣本音頻的時序自一致性特征;根據(jù)上述第一樣本特征和上述第二樣本特征,確定樣本融合特征,其中,上述樣本融合特征的維度與上述樣本音頻的幀數(shù)相同;將上述樣本融合特征輸入至待訓練的強化學習網(wǎng)絡,得到樣本定位結(jié)果,其中,上述樣本定位結(jié)果表征了上述樣本音頻中樣本篡改音頻的位置;以及,根據(jù)上述標簽序列和上述樣本定位結(jié)果,訓練上述強化學習網(wǎng)絡,得到上述經(jīng)訓練的強化學習網(wǎng)絡。

      4、根據(jù)本發(fā)明的實施例,上述方法還包括:定義上述待訓練的強化學習網(wǎng)絡的狀態(tài)空間和策略空間;其中,上述狀態(tài)空間的維度與上述樣本音頻的幀數(shù)相同;其中,上述策略空間中的候選策略包括以下至少之一:位置保持不變、向第一方向延伸第一數(shù)目個位置和向第二方向延伸第二數(shù)目個位置,上述第一方向和上述第二方向相反。

      5、根據(jù)本發(fā)明的實施例,上述將上述樣本融合特征輸入至待訓練的強化學習網(wǎng)絡,得到樣本定位結(jié)果包括:基于目標決策函數(shù),在多個上述候選策略中選擇用于當前輪次的目標策略;以及,根據(jù)用于當前輪次的目標策略,對上述狀態(tài)空間進行處理,得到所述當前輪次的定位結(jié)果。

      6、根據(jù)本發(fā)明的實施例,上述基于目標決策函數(shù),在多個上述候選策略中選擇用于當前輪次的目標策略包括:基于上述目標決策函數(shù),確定每個上述候選策略各自的決策值;以及,將與多個決策值中的最大決策值相對應的候選策略確定為上述用于當前輪次的目標策略。

      7、根據(jù)本發(fā)明的實施例,上述目標決策函數(shù)是通過如下方式確定的:根據(jù)狀態(tài)損失值,確定用于當前輪次的獎勵損失值,其中,上述用于當前輪次的獎勵損失值和上述狀態(tài)損失值成反比;根據(jù)上述用于當前輪次的獎勵損失值,確定用于每一輪次的獎勵損失值;以及,根據(jù)上述用于當前輪次的獎勵損失值和上述用于每一輪次的獎勵損失值,確定上述目標決策函數(shù)。

      8、根據(jù)本發(fā)明的實施例,上述根據(jù)上述目標策略,對上述狀態(tài)空間進行處理,得到當前輪次的定位結(jié)果包括:在上述目標策略為位置保持不變的情況下,將上述狀態(tài)空間確定為上述當前輪次的定位結(jié)果;在上述目標策略為向第一方向延伸第一數(shù)目個位置的情況下,將上述狀態(tài)空間中,與上述第一方向和第一數(shù)目相對應至少一個位置的標簽變更為預設(shè)值,得到上述當前輪次的定位結(jié)果;以及在上述目標策略為向第二方向延伸第二數(shù)目個位置的情況下,將上述狀態(tài)空間中,與上述第二方向和第二數(shù)目相對應至少一個位置的標簽變更為上述預設(shè)值,得到上述當前輪次的定位結(jié)果。

      9、根據(jù)本發(fā)明的實施例,上述根據(jù)上述標簽序列和上述樣本定位結(jié)果,訓練上述強化學習網(wǎng)絡,得到上述經(jīng)訓練的強化學習網(wǎng)絡包括:基于狀態(tài)損失函數(shù),根據(jù)上述標簽序列和上述狀態(tài)空間,確定狀態(tài)損失值;以及,響應于上述狀態(tài)損失值和預設(shè)損失閾值滿足預設(shè)條件,將與上述狀態(tài)損失值對應的狀態(tài)空間確定為上述樣本定位結(jié)果、與上述狀態(tài)損失值對應的強化學習網(wǎng)絡確定為上述經(jīng)訓練的強化學習網(wǎng)絡。

      10、根據(jù)本發(fā)明的實施例,上述對待檢測音頻進行特征提取處理,得到第一特征和第二特征包括:將上述待檢測音頻輸入至第一特征提取分支,得到上述第一特征,其中,上述第一特征提取分支包括預訓練語音模型;以及,將上述待檢測音頻輸入至第二特征提取分支,得到上述第二特征,其中,上述第二特征提取分支包括特征提取網(wǎng)絡和全連接網(wǎng)絡,上述特征提取網(wǎng)絡是基于以下方式中的至少之一構(gòu)建的:小波變換、經(jīng)驗小波變換、傅里葉變換、經(jīng)驗模式分解。

      11、根據(jù)本發(fā)明的另一個方面,提供了一種篡改音頻的定位裝置,包括:特征提取處理模塊,用于對待檢測音頻進行特征提取處理,得到第一特征和第二特征,其中,上述第一特征表征了上述待檢測音頻的語音特征,上述第二特征表征了上述待檢測音頻的時序自一致性特征;確定模塊,用于根據(jù)上述第一特征和上述第二特征,確定融合特征,其中,上述融合特征的維度與上述待檢測音頻的幀數(shù)相同;以及,定位模塊,用于將上述融合特征輸入至經(jīng)訓練的強化學習網(wǎng)絡,得到定位結(jié)果,其中,上述定位結(jié)果表征了上述待檢測音頻中篡改音頻的位置。

      12、根據(jù)本發(fā)明的另一個方面,提供了一種電子設(shè)備,包括:一個或多個處理器;存儲器,用于存儲一個或多個指令,其中,當上述一個或多個指令被上述一個或多個處理器執(zhí)行時,使得上述一個或多個處理器實現(xiàn)如本發(fā)明所述的方法。

      13、根據(jù)本發(fā)明的另一個方面,提供了一種計算機可讀存儲介質(zhì),其上存儲有可執(zhí)行指令,上述可執(zhí)行指令被處理器執(zhí)行時使處理器實現(xiàn)如本發(fā)明所述的方法。

      14、根據(jù)本發(fā)明的另一個方面,提供了一種計算機程序產(chǎn)品,上述計算機程序產(chǎn)品包括計算機可執(zhí)行指令,上述計算機可執(zhí)行指令在被執(zhí)行時用于實現(xiàn)如本發(fā)明所述的方法。

      15、根據(jù)本發(fā)明的實施例,通過分別提取待檢測音頻的第一特征和第二特征,能夠多維度地捕捉待檢測音頻的關(guān)鍵信息。通過將表征了語音特征的第一特征和表征了時序自一致性特征的第二特征進行融合,能夠得到與待檢測音頻的幀數(shù)相同維度的融合特征,確保了特征的全面性和一致性,能夠保障后續(xù)處理時更為精確地保留待檢測音頻的時間序列信息。在此基礎(chǔ)上,通過引入強化學習框架,即將融合特征輸入至經(jīng)訓練的強化學習網(wǎng)絡,能夠提高定位結(jié)果的準確率和定位連續(xù)性。



      技術(shù)特征:

      1.一種篡改音頻的定位方法,其特征在于,包括:

      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述經(jīng)訓練的強化學習網(wǎng)絡是通過如下方式訓練得到的:

      3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包括:

      4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述將所述樣本融合特征輸入至待訓練的強化學習網(wǎng)絡,得到樣本定位結(jié)果包括:

      5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述基于目標決策函數(shù),在多個所述候選策略中選擇用于當前輪次的目標策略包括:

      6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述目標決策函數(shù)是通過如下方式確定的:

      7.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述目標策略,對所述狀態(tài)空間進行處理,得到當前輪次的定位結(jié)果包括:

      8.根據(jù)權(quán)利要求3至7中任一項所述的方法,其特征在于,所述根據(jù)所述標簽序列和所述樣本定位結(jié)果,訓練所述強化學習網(wǎng)絡,得到所述經(jīng)訓練的強化學習網(wǎng)絡包括:

      9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對待檢測音頻進行特征提取處理,得到第一特征和第二特征包括:

      10.一種篡改音頻的定位裝置,其特征在于,包括:


      技術(shù)總結(jié)
      本發(fā)明提供了一種篡改音頻的定位方法及裝置,可以應用于計算機技術(shù)和音頻信號處理技術(shù)領(lǐng)域。該篡改音頻的定位方法包括:對待檢測音頻進行特征提取處理,得到第一特征和第二特征,其中,第一特征表征了待檢測音頻的語音特征,第二特征表征了待檢測音頻的時序自一致性特征;根據(jù)第一特征和第二特征,確定融合特征,其中,融合特征的維度與待檢測音頻的幀數(shù)相同;以及,將融合特征輸入至經(jīng)訓練的強化學習網(wǎng)絡,得到定位結(jié)果,其中,定位結(jié)果表征了待檢測音頻中篡改音頻的位置。

      技術(shù)研發(fā)人員:何佳毅,易江燕,陶建華
      受保護的技術(shù)使用者:中國科學院自動化研究所
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/10
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1