說話人語音分割聚類方法、裝置及電子設(shè)備與流程

文檔序號：39616504發(fā)布日期：2024-10-11 13:28閱讀：44來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本申請涉及語音處理，具體涉及一種說話人語音分割聚類方法、裝置及電子設(shè)備。

背景技術(shù)：

1、在一段語音中通常會包含多個說話人，為區(qū)分語音中的不同說話人，通常通過提取聲紋嵌入碼實現(xiàn)分割聚類。但如果語音時間太長，則可能包含多個說話人，故而無法準(zhǔn)確提取語音片段中的說話人的特征，導(dǎo)致不能正確分割聚類；如果語音太短，則不能充分提取說話人信息得到具有高表征力的聲紋嵌入碼。

2、相關(guān)技術(shù)中，使用滑窗手段將語音段切分為1秒左右的短音頻片段，對每個短音頻片段提取得到聲紋嵌入碼并進行聚類來解決此問題，但上述方法雖然能區(qū)分語音片段中連續(xù)的說話人，但由于提取說話人特征的音頻片段仍較長，依然可能包含兩個說話人，導(dǎo)致劃分不精細(xì)，也即說話人跳變點的確定不夠清晰，在連續(xù)相鄰不同說話人語音分割上仍然存在較大的誤差。因此，目前的語音分離方法中存在劃分不精細(xì)導(dǎo)致最終的分割聚類結(jié)果存在誤差的問題。

技術(shù)實現(xiàn)思路

1、有鑒于此，本申請?zhí)峁┝艘环N說話人語音分割聚類方法、裝置及電子設(shè)備，主要目的在于改善目前的分割聚類方法中存在說話人跳變點的確定不夠清晰，導(dǎo)致最終的語音分離結(jié)果存在誤差的問題。

2、第一方面，本申請?zhí)峁┝艘环N說話人語音分割聚類方法，包括：

3、對待檢測語音進行預(yù)聚類處理，得到預(yù)聚類分割結(jié)果；所述預(yù)聚類分割結(jié)果中包括用于區(qū)分不同說話人的初始語音跳變點；

4、將所述預(yù)聚類分割結(jié)果轉(zhuǎn)化為文本，得到文本識別結(jié)果；

5、基于所述文本識別結(jié)果，對所述初始語音跳變點進行動態(tài)調(diào)整，得到若干文本對數(shù)據(jù)；

6、根據(jù)所述文本對數(shù)據(jù)，確定每一個所述文本對數(shù)據(jù)對應(yīng)的跳變概率；所述跳變概率用于表征語音跳變點在當(dāng)前語句中的準(zhǔn)確程度；

7、基于跳變概率最大的所述文本對數(shù)據(jù)，對所述初始語音跳變點進行修正。

8、可選地，所述文本對數(shù)據(jù)包括正向文本數(shù)據(jù)和反向文本數(shù)據(jù)，所述反向文本數(shù)據(jù)的文字順序與所述正向文本數(shù)據(jù)相反；

9、所述基于所述文本識別結(jié)果，對所述初始語音跳變點進行動態(tài)調(diào)整，得到若干文本對數(shù)據(jù)，包括：以所述初始語音跳變點為中心，將所述初始語音跳變點按預(yù)設(shè)字符范圍，分別向左向右調(diào)整預(yù)設(shè)字符步長，得到所述正向文本數(shù)據(jù)；基于所述正向文本數(shù)據(jù)生成所述反向文本數(shù)據(jù)。

10、可選地，根據(jù)所述文本對數(shù)據(jù)，確定每一個所述文本對數(shù)據(jù)對應(yīng)的跳變概率，包括：將所述文本對數(shù)據(jù)輸入語音跳變點檢測模型，得到每一個所述文本對數(shù)據(jù)對應(yīng)的跳變概率；其中，所述語音跳變點檢測模型是基于已標(biāo)注有語音跳變點的訓(xùn)練集訓(xùn)練得到的。

11、可選地，所述語音跳變點檢測模型的訓(xùn)練步驟，包括：根據(jù)所述已標(biāo)注有語音跳變點的訓(xùn)練集和所述訓(xùn)練集對應(yīng)的損失函數(shù)，對初始模型進行訓(xùn)練，得到所述語音跳變點檢測模型。

12、可選地，根據(jù)所述已標(biāo)注有語音跳變點的訓(xùn)練集和所述訓(xùn)練集對應(yīng)的損失函數(shù)，對初始模型進行訓(xùn)練，包括：根據(jù)所述已標(biāo)注有語音跳變點的正向文本訓(xùn)練集，生成反向文本訓(xùn)練集；對所述正向文本訓(xùn)練集和所述反向文本訓(xùn)練集分別設(shè)置損失函數(shù)；基于所述正向文本訓(xùn)練集、所述反向文本訓(xùn)練集和對應(yīng)的損失函數(shù)對初始模型進行訓(xùn)練，得到所述語音跳變點檢測模型。

13、可選地，所述文本識別結(jié)果中包括每個文本字符和所述初始語音跳變點的時間戳；所述基于跳變概率最大的所述文本對數(shù)據(jù)，對所述初始語音跳變點進行修正，包括：結(jié)合所述跳變概率最大的所述文本對數(shù)據(jù)中文本字符的時間戳，對所述初始語音跳變點的時間戳進行修正。

14、第二方面，本申請?zhí)峁┝艘环N說話人語音分割聚類裝置，包括：

15、處理單元，被配置為對待檢測語音進行預(yù)聚類處理，得到預(yù)聚類分割結(jié)果；所述預(yù)聚類分割結(jié)果中包括用于區(qū)分不同說話人的初始語音跳變點；

16、轉(zhuǎn)化單元，被配置為將所述預(yù)聚類分割結(jié)果轉(zhuǎn)化為文本，得到文本識別結(jié)果；

17、調(diào)整單元，被配置為基于所述文本識別結(jié)果，對所述初始語音跳變點進行動態(tài)調(diào)整，得到若干文本對數(shù)據(jù)；

18、確定單元，被配置為根據(jù)所述文本對數(shù)據(jù)，確定每一個所述文本對數(shù)據(jù)對應(yīng)的跳變概率；所述跳變概率用于表征語音跳變點在當(dāng)前語句中的準(zhǔn)確程度；

19、修正單元，被配置為基于跳變概率最大的所述文本對數(shù)據(jù)，對所述初始語音跳變點進行修正。

20、第三方面，本申請?zhí)峁┝艘环N計算機可讀存儲介質(zhì)，其上存儲有計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)第一方面所述的說話人語音分割聚類方法。

21、第四方面，本申請?zhí)峁┝艘环N電子設(shè)備，包括存儲介質(zhì)、處理器及存儲在存儲介質(zhì)上并可在處理器上運行的計算機程序，所述處理器執(zhí)行所述計算機程序時實現(xiàn)第一方面所述的說話人語音分割聚類方法。

22、第五方面，本申請?zhí)峁┝艘环N計算機程序產(chǎn)品，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時實現(xiàn)第一方面所述的說話人語音分割聚類方法。

23、借由上述技術(shù)方案，本申請?zhí)峁┑囊环N說話人語音分割聚類方法、裝置及電子設(shè)備，首先對待檢測語音進行預(yù)聚類處理，得到預(yù)聚類分割結(jié)果，其中預(yù)聚類分割結(jié)果中包括用于區(qū)分不同說話人的初始語音跳變點。進而將預(yù)聚類分割結(jié)果轉(zhuǎn)化為文本，得到文本識別結(jié)果?；谖谋咀R別結(jié)果，對初始語音跳變點進行動態(tài)調(diào)整，得到若干文本對數(shù)據(jù)，根據(jù)文本對數(shù)據(jù)，確定每一個文本對數(shù)據(jù)對應(yīng)的跳變概率，這里的跳變概率用于表征語音跳變點在當(dāng)前語句中的準(zhǔn)確程度。最后基于跳變概率最大的文本對數(shù)據(jù)，對初始語音跳變點進行修正。與相關(guān)技術(shù)中僅通過語音分割的方式相比，本申請通過預(yù)分割聚類結(jié)果并轉(zhuǎn)文本處理，結(jié)合文字語義領(lǐng)域分析來確定語音跳變點，進而對語音分離方式確定的初始語音跳變點進行修正。使最終確定的語音跳變點更加精確，解決目前的說話人語音分割聚類方法中存在說話人跳變點的確定不夠清晰，導(dǎo)致最終的語音分離結(jié)果存在誤差的問題。

24、上述說明僅是本申請技術(shù)方案的概述，為了能夠更清楚了解本申請的技術(shù)手段，而可依照說明書的內(nèi)容予以實施，并且為了讓本申請的上述和其它目的、特征和優(yōu)點能夠更明顯易懂，以下特舉本申請的具體實施方式。

技術(shù)特征：

1.一種說話人語音分割聚類方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述文本對數(shù)據(jù)包括正向文本數(shù)據(jù)和反向文本數(shù)據(jù)，所述反向文本數(shù)據(jù)的文字順序與所述正向文本數(shù)據(jù)相反；

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，根據(jù)所述文本對數(shù)據(jù)，確定每一個所述文本對數(shù)據(jù)對應(yīng)的跳變概率，包括：

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述語音跳變點檢測模型的訓(xùn)練步驟，包括：

5.根據(jù)權(quán)利要求4所述的方法，其特征在于，根據(jù)所述已標(biāo)注有語音跳變點的訓(xùn)練集和所述訓(xùn)練集對應(yīng)的損失函數(shù)，對初始模型進行訓(xùn)練，包括：

6.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述文本識別結(jié)果中包括每個文本字符和所述初始語音跳變點的時間戳；

7.一種說話人語音分割聚類裝置，其特征在于，包括：

8.一種電子設(shè)備，包括存儲介質(zhì)、處理器及存儲在存儲介質(zhì)上并可在處理器上運行的計算機程序，其特征在于，所述處理器執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1至6中任一項所述的方法。

9.一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至6中任一項所述的方法。

10.一種計算機程序產(chǎn)品，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至6中任一項所述的方法。

技術(shù)總結(jié)
本申請公開了一種說話人語音分割聚類方法、裝置及電子設(shè)備，涉及語音處理技術(shù)領(lǐng)域。方法包括：對待檢測語音進行預(yù)聚類處理，得到預(yù)聚類分割結(jié)果；將預(yù)聚類分割結(jié)果轉(zhuǎn)化為文本，得到文本識別結(jié)果；基于文本識別結(jié)果，對初始語音跳變點進行動態(tài)調(diào)整，得到若干文本對數(shù)據(jù)；根據(jù)文本對數(shù)據(jù)，確定每一個文本對數(shù)據(jù)對應(yīng)的跳變概率；基于跳變概率最大的文本對數(shù)據(jù)，對初始語音跳變點進行修正。通過預(yù)分割聚類結(jié)果并轉(zhuǎn)文本處理，結(jié)合語義領(lǐng)域分析來確定語音跳變點，進而對語音分離方式確定的初始語音跳變點進行修正使其更加精確，解決目前的說話人跳變點的確定不夠清晰，導(dǎo)致存在誤差的問題。

技術(shù)研發(fā)人員：徐利強,蔡敦波,錢嶺
受保護的技術(shù)使用者：中移（蘇州）軟件技術(shù)有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/10/10

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：徐利強,蔡敦波,錢嶺
技術(shù)所有人：中移（蘇州）軟件技術(shù)有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

說話人語音分割聚類方法、裝置及電子設(shè)備與流程

說話人語音分割聚類方法、裝置及電子設(shè)備與流程