音視頻通話的同譯同傳方法及系統(tǒng)、計算機(jī)裝置與流程

文檔序號：39622155發(fā)布日期：2024-10-11 13:42閱讀：14來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

本公開涉及通信，尤其涉及一種音視頻通話的同譯同傳方法及系統(tǒng)、計算機(jī)裝置。

背景技術(shù)：

1、隨著全球化的加速和信息技術(shù)的飛速發(fā)展，多語言環(huán)境下的語音通話確實(shí)變得越來越重要。

2、人們在工作和日常生活中需要與不同語言背景的人進(jìn)行溝通，這就要求有更高效的溝通方式，然而，目前的實(shí)時翻譯技術(shù)還存在一些挑戰(zhàn)和問題，傳統(tǒng)的三方通話模式需要專業(yè)的翻譯人員參與，這不僅增加了通話成本，而且對翻譯人員的專業(yè)水平和體力都有較高要求，即使是專業(yè)的翻譯人員，在實(shí)時翻譯過程中也可能因?yàn)檎Z言差異、文化差異或?qū)I(yè)術(shù)語等原因，導(dǎo)致翻譯的準(zhǔn)確性和完整性受到影響；雖然有些第三方翻譯軟件可以提供機(jī)器翻譯服務(wù)，但這些軟件的接入過程往往較為復(fù)雜，用戶需要進(jìn)行一系列的設(shè)置，靈活性差，無法快速適應(yīng)不同場景和需求，也會導(dǎo)致用戶體驗(yàn)感差，也會降低通話的效率。

技術(shù)實(shí)現(xiàn)思路

1、有鑒于此，本公開實(shí)施例提供了一種音視頻通話的同譯同傳方法及系統(tǒng)、計算機(jī)裝置，能夠解決現(xiàn)有技術(shù)中存在的翻譯成本高、同步譯出準(zhǔn)確性差、同步率低、靈活性差，無法滿足不同語言環(huán)境的同傳同譯需求等的問題。

2、第一方面，本公開實(shí)施例提供了一種音視頻通話的同譯同傳方法，采用如下技術(shù)方案：

3、建立點(diǎn)對點(diǎn)語音通話通道；

4、yy+242178p

5、獲取第一通話端的語音信息；

6、對所述語音信息進(jìn)行斷句，獲得n個會話語音段；

7、將n個所述會話語音段按照時間順序轉(zhuǎn)化為n個文字文本段；

8、基于所述第一通話端的目標(biāo)語種，對n個所述文字文本段進(jìn)行翻譯，獲取n個文字文本翻譯信息；

9、基于n個所述文字文本翻譯信息獲得n個目標(biāo)語音段；

10、基于所述點(diǎn)對點(diǎn)語音通話通道將n個所述目標(biāo)語音段根據(jù)時間順序發(fā)送至第二通話端；

11、所述第二通話端根據(jù)時間順序依次播放n個所述目標(biāo)語音段。

12、可選的，所述建立點(diǎn)對點(diǎn)語音通話通道，包括：

13、對第一通話端、第二通話端分別進(jìn)行認(rèn)證；

14、將符合認(rèn)證的所述第一通話端、符合認(rèn)證的所述第二通話端分別與流媒體轉(zhuǎn)發(fā)服務(wù)器建立雙向互發(fā)的流媒體通道。

15、可選的，所述進(jìn)行認(rèn)證的方法包括：通過短信驗(yàn)證碼、郵箱驗(yàn)證碼、生物識別技術(shù)、用戶名和密碼中的一種或多種的方式進(jìn)行認(rèn)證。

16、可選的，所述對所述語音信息進(jìn)行斷句，獲得n個會話語音段，包括：

17、基于所述語音信息獲取所述第一通話端的環(huán)境信息；所述環(huán)境信息包括若干環(huán)境聲音信號；

18、基于所述環(huán)境信息獲得環(huán)境分類信息；

19、基于所述語音信息以及所述環(huán)境分類信息，確定所述第一通話端處于的發(fā)聲狀態(tài)；

20、根據(jù)所述發(fā)聲狀態(tài)、語音停頓設(shè)置信息，對所述語音信息進(jìn)行斷句處理，獲得n個會話語音段；

21、所述語音停頓設(shè)置信息包括語句停頓時長、無停頓一句話最大時長中的一種或多種；n≥1。

22、可選的，所述基于所述環(huán)境信息獲得環(huán)境分類信息，包括：

23、對所述環(huán)境信息進(jìn)行降噪處理，獲得第一聲音信號；

24、對所述第一聲音信號進(jìn)行預(yù)處理，獲得第二聲音信號；

25、獲取所述第二聲音信號的特征信息；所述特征信息包括聲音頻率、聲音響度中的一種或多種；

26、采用機(jī)器學(xué)習(xí)算法訓(xùn)練預(yù)設(shè)分類器，基于訓(xùn)練好的預(yù)設(shè)分類器、預(yù)設(shè)標(biāo)注數(shù)據(jù)集對所述特征信息進(jìn)行分析，獲得環(huán)境分類信息。

27、可選的，所述基于所述語音信息以及所述環(huán)境分類信息，確定所述第一通話端處于的發(fā)聲狀態(tài)，包括：

28、按照預(yù)設(shè)間隔連續(xù)采集所述語音信息中至少兩次環(huán)境聲音樣本；

29、采用預(yù)設(shè)策略對所述環(huán)境聲音樣本進(jìn)行分析，確定所述發(fā)聲狀態(tài)；所述發(fā)聲狀態(tài)包括有聲狀態(tài)或無聲狀態(tài)。

30、可選的，所述采用預(yù)設(shè)策略對所述環(huán)境聲音樣本進(jìn)行分析，確定所述發(fā)聲狀態(tài)，包括：

31、基于所述環(huán)境分類信息，確定環(huán)境閾值；

32、采用連續(xù)值法對所述環(huán)境聲音樣本進(jìn)行分析，若連續(xù)采集的m次所述環(huán)境聲音樣本對應(yīng)的環(huán)境值均大于所述環(huán)境閾值，確定所述發(fā)聲狀態(tài)為有聲狀態(tài)；

33、或者，采用概率值法對所述環(huán)境聲音樣本進(jìn)行分析，若連續(xù)采集的n次所述環(huán)境聲音樣本中存在p次所述環(huán)境聲音樣本對應(yīng)的環(huán)境值均大于所述環(huán)境閾值，確定所述發(fā)聲狀態(tài)為有聲狀態(tài)；

34、n＞m，p＝n-1。

35、可選的，若所述環(huán)境分類信息為安靜環(huán)境類，設(shè)置環(huán)境閾值為第一數(shù)值；

36、若所述環(huán)境分類信息為嘈雜環(huán)境類，設(shè)置環(huán)境閾值為第二數(shù)值，且所述第二數(shù)值大于所述第一數(shù)值。

37、可選的，所述根據(jù)所述發(fā)聲狀態(tài)、語音停頓設(shè)置信息，對所述語音信息進(jìn)行斷句處理，包括：

38、若所述無聲狀態(tài)的連續(xù)時長超過所述語句停頓時長時，則將無聲狀態(tài)連續(xù)階段的任一處作為斷句點(diǎn)進(jìn)行斷句處理；

39、所述連續(xù)時長為采集的所述環(huán)境聲音樣本的間隔時長與采集的樣本個數(shù)的乘積。

40、可選的，該方法還包括：根據(jù)所述語音信息的內(nèi)容專業(yè)度對所述語音停頓設(shè)置信息進(jìn)行調(diào)整。

41、可選的，所述基于所述點(diǎn)對點(diǎn)語音通話通道將n個所述目標(biāo)語音段根據(jù)時間順序發(fā)送至第二通話端，包括：

42、將n個所述目標(biāo)語音段與n個所述會話語音段分別合成處理，獲得n個疊加語音段；

43、基于所述點(diǎn)對點(diǎn)語音通話通道將n個所述疊加語音段根據(jù)時間順序發(fā)送至第二通話端；

44、其中，在所述疊加語音段中，所述會話語音段為襯底聲，對應(yīng)的所述目標(biāo)語音段為主要聲，且所述目標(biāo)語音段的設(shè)置音量高于所述會話語音段的設(shè)置音量。

45、可選的，所述第二通話端根據(jù)時間順序依次播放n個所述目標(biāo)語音段，包括：

46、根據(jù)所述第二通話端的設(shè)置需求，判斷是否需要播放所述襯底聲，若是，根據(jù)時間順序依次播放n個所述疊加語音段；

47、若否，對所述疊加語音段進(jìn)行分離處理，分離獲得n個所述目標(biāo)語音段，所述第二通話端根據(jù)時間順序依次播放n個所述目標(biāo)語音段。

48、可選的，所述點(diǎn)對點(diǎn)語音通話通道建立有多個，多個所述點(diǎn)對點(diǎn)語音通話通道為多個所述第二通話端與所述第一通話端建立的通道；

49、在所述第二通話端、所述第一通話端均可對應(yīng)設(shè)置語言。

50、可選的，該同譯同傳方法還包括：

51、獲取所述第一通話端、多個所述第二通話端的語言設(shè)置信息；

52、基于所述語言設(shè)置信息獲取設(shè)置數(shù)量最多的語言，記為主體語言，并將所述主體語言作為所述目標(biāo)語音段的語言；

53、若所述第二通話端的設(shè)置語言與所述主體語言不一致，將n個所述目標(biāo)語音段與n個所述會話語音段分別合成處理，獲得n個疊加語音段；基于多個所述點(diǎn)對點(diǎn)語音通話通道將n個所述疊加語音段分別發(fā)送至多個所述第二通話端；在每個所述第二通話端中均根據(jù)時間順序進(jìn)行播放；在所述疊加語音段中，所述會話語音段為襯底聲，對應(yīng)的所述目標(biāo)語音段為主要聲，且所述目標(biāo)語音段的設(shè)置音量高于所述會話語音段的設(shè)置音量。

54、可選的，該同譯同傳方法還包括：基于所述點(diǎn)對點(diǎn)語音通話通道將n個所述目標(biāo)語音段以及n個所述文字文本翻譯信息根據(jù)時間順序發(fā)送至第二通話端；

55、所述第二通話端根據(jù)時間順序依次播放n個所述目標(biāo)語音段、n個所述文字文本翻譯信息；其中，每個所述目標(biāo)語音段與對應(yīng)的所述文字文本翻譯信息同步播放。

56、第二方面，本公開實(shí)施例還提供了一種音視頻通話的同譯同傳系統(tǒng)，包括如下技術(shù)方案：

57、第一會話端，用于獲取第一通話端的語音信息，對所述語音信息進(jìn)行斷句，獲得n個會話語音段，將n個所述會話語音段按照時間順序轉(zhuǎn)化為n個文字文本段，基于所述第一通話端的目標(biāo)語種，對n個所述文字文本段進(jìn)行翻譯，獲取n個文字文本翻譯信息，基于n個所述文字文本翻譯信息獲得n個目標(biāo)語音段；

58、信息轉(zhuǎn)發(fā)服務(wù)器，用于建立點(diǎn)對點(diǎn)語音通話通道，基于所述點(diǎn)對點(diǎn)語音通話通道將n個所述目標(biāo)語音段根據(jù)時間順序發(fā)送至第二通話端；

59、第二會話端，用于所述第二通話端根據(jù)時間順序依次播放n個所述目標(biāo)語音段。

60、可選的，所述第二會話端還用于根據(jù)所述第二通話端對應(yīng)的用戶的預(yù)設(shè)或操作，根據(jù)預(yù)設(shè)指令播報所述目標(biāo)語音段。

61、可選的，該同譯同傳系統(tǒng)還包括智能語音語義翻譯網(wǎng)關(guān)；

62、所述智能語音語義翻譯網(wǎng)關(guān)包括：

63、輸入輸出模塊，用于接收語音信息，接收第一通話端預(yù)設(shè)的目標(biāo)語種，yy+242178p

64、將目標(biāo)語音段發(fā)送至所述第二會話端；

65、路由規(guī)則引擎，用于確定調(diào)用的第三方翻譯接口，通過所述第三方翻譯接口對接收到的文字文本段進(jìn)行翻譯，得到文字文本翻譯信息；

66、緩存數(shù)據(jù)庫，用于存儲調(diào)用第三方翻譯接口得到的文字文本翻譯信息；

67、檢索模型，用于從所述緩存數(shù)據(jù)庫中檢索對應(yīng)的文字文本翻譯信息；

68、接口連接層，用于與所述第三方翻譯接口交互數(shù)據(jù)。

69、第三方面，本公開實(shí)施例還提供了一種計算機(jī)裝置，采用如下技術(shù)方案：

70、所述計算機(jī)裝置包括：

71、至少一個處理器；以及，

72、與所述至少一個處理器通信連接的存儲器；其中，

73、所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令，所述指令被所述至少一個處理器執(zhí)行，以使所述至少一個處理器能夠執(zhí)行以上任一所述的音視頻通話的同譯同傳方法。

74、第四方面，本公開實(shí)施例還提供了一種計算機(jī)可讀存儲介質(zhì)，該計算機(jī)可讀存儲介質(zhì)存儲計算機(jī)指令，該計算機(jī)指令用于使計算機(jī)執(zhí)行以上任一所述的音視頻通話的同譯同傳方法。

75、第五方面，本公開實(shí)施例還提供了一種計算機(jī)程序產(chǎn)品，包括計算機(jī)程序/指令，該計算機(jī)程序/指令被處理器執(zhí)行時實(shí)現(xiàn)以上任一項(xiàng)所述方法的步驟。

76、本技術(shù)公開的音視頻通話的同譯同傳方法，能夠?qū)c(diǎn)對點(diǎn)語音通話進(jìn)行同傳同譯，解決語言不互通的問題，滿足通話翻譯的即時性和流暢性；具體地，建立點(diǎn)對點(diǎn)語音通話通道和獲取語音信息確保了通信的實(shí)時性和直接性；斷句并轉(zhuǎn)換為文本使得語音信息可以即時準(zhǔn)確地轉(zhuǎn)化為可處理的文本形式，從而為后續(xù)翻譯提供了堅(jiān)實(shí)的基礎(chǔ)；基于第一通話端的目標(biāo)語種進(jìn)行文本翻譯，確保了翻譯的準(zhǔn)確性和文化適應(yīng)性，這樣的處理方式能夠有效地傳達(dá)語義和情感，避免信息失真或誤解；根據(jù)翻譯的文本信息生成目標(biāo)語音段，使得翻譯結(jié)果在語音播放時能夠自然流暢，接近本地語言的表達(dá)習(xí)慣和語調(diào)；將目標(biāo)語音段按時間順序發(fā)送和播放，確保信息的有序傳遞和接收，這種方式不僅保證了信息的連貫性，還提升了交流的效果和體驗(yàn)；整體方案支持多種語言的同傳翻譯，適應(yīng)不同語言環(huán)境下的溝通需求，這種靈活性和效率大大提高了跨語言交流的便利性和實(shí)用性。

77、上述說明僅是本公開技術(shù)方案的概述，為了能更清楚了解本公開的技術(shù)手段，而可依照說明書的內(nèi)容予以實(shí)施，并且為讓本公開的上述和其他目的、特征和優(yōu)點(diǎn)能夠更明顯易懂，以下特舉較佳實(shí)施例，并配合附圖，詳細(xì)說明如下。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：林皓
技術(shù)所有人：北京信源密信技術(shù)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機(jī)構(gòu)動力學(xué)與控制
5、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

音視頻通話的同譯同傳方法及系統(tǒng)、計算機(jī)裝置與流程

音視頻通話的同譯同傳方法及系統(tǒng)、計算機(jī)裝置與流程