本公開涉及通信,尤其涉及一種音視頻通話的同譯同傳方法及系統(tǒng)、計算機(jī)裝置。
背景技術(shù):
1、隨著全球化的加速和信息技術(shù)的飛速發(fā)展,多語言環(huán)境下的語音通話確實(shí)變得越來越重要。
2、人們在工作和日常生活中需要與不同語言背景的人進(jìn)行溝通,這就要求有更高效的溝通方式,然而,目前的實(shí)時翻譯技術(shù)還存在一些挑戰(zhàn)和問題,傳統(tǒng)的三方通話模式需要專業(yè)的翻譯人員參與,這不僅增加了通話成本,而且對翻譯人員的專業(yè)水平和體力都有較高要求,即使是專業(yè)的翻譯人員,在實(shí)時翻譯過程中也可能因?yàn)檎Z言差異、文化差異或?qū)I(yè)術(shù)語等原因,導(dǎo)致翻譯的準(zhǔn)確性和完整性受到影響;雖然有些第三方翻譯軟件可以提供機(jī)器翻譯服務(wù),但這些軟件的接入過程往往較為復(fù)雜,用戶需要進(jìn)行一系列的設(shè)置,靈活性差,無法快速適應(yīng)不同場景和需求,也會導(dǎo)致用戶體驗(yàn)感差,也會降低通話的效率。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本公開實(shí)施例提供了一種音視頻通話的同譯同傳方法及系統(tǒng)、計算機(jī)裝置,能夠解決現(xiàn)有技術(shù)中存在的翻譯成本高、同步譯出準(zhǔn)確性差、同步率低、靈活性差,無法滿足不同語言環(huán)境的同傳同譯需求等的問題。
2、第一方面,本公開實(shí)施例提供了一種音視頻通話的同譯同傳方法,采用如下技術(shù)方案:
3、建立點(diǎn)對點(diǎn)語音通話通道;
4、yy+242178p
5、獲取第一通話端的語音信息;
6、對所述語音信息進(jìn)行斷句,獲得n個會話語音段;
7、將n個所述會話語音段按照時間順序轉(zhuǎn)化為n個文字文本段;
8、基于所述第一通話端的目標(biāo)語種,對n個所述文字文本段進(jìn)行翻譯,獲取n個文字文本翻譯信息;
9、基于n個所述文字文本翻譯信息獲得n個目標(biāo)語音段;
10、基于所述點(diǎn)對點(diǎn)語音通話通道將n個所述目標(biāo)語音段根據(jù)時間順序發(fā)送至第二通話端;
11、所述第二通話端根據(jù)時間順序依次播放n個所述目標(biāo)語音段。
12、可選的,所述建立點(diǎn)對點(diǎn)語音通話通道,包括:
13、對第一通話端、第二通話端分別進(jìn)行認(rèn)證;
14、將符合認(rèn)證的所述第一通話端、符合認(rèn)證的所述第二通話端分別與流媒體轉(zhuǎn)發(fā)服務(wù)器建立雙向互發(fā)的流媒體通道。
15、可選的,所述進(jìn)行認(rèn)證的方法包括:通過短信驗(yàn)證碼、郵箱驗(yàn)證碼、生物識別技術(shù)、用戶名和密碼中的一種或多種的方式進(jìn)行認(rèn)證。
16、可選的,所述對所述語音信息進(jìn)行斷句,獲得n個會話語音段,包括:
17、基于所述語音信息獲取所述第一通話端的環(huán)境信息;所述環(huán)境信息包括若干環(huán)境聲音信號;
18、基于所述環(huán)境信息獲得環(huán)境分類信息;
19、基于所述語音信息以及所述環(huán)境分類信息,確定所述第一通話端處于的發(fā)聲狀態(tài);
20、根據(jù)所述發(fā)聲狀態(tài)、語音停頓設(shè)置信息,對所述語音信息進(jìn)行斷句處理,獲得n個會話語音段;
21、所述語音停頓設(shè)置信息包括語句停頓時長、無停頓一句話最大時長中的一種或多種;n≥1。
22、可選的,所述基于所述環(huán)境信息獲得環(huán)境分類信息,包括:
23、對所述環(huán)境信息進(jìn)行降噪處理,獲得第一聲音信號;
24、對所述第一聲音信號進(jìn)行預(yù)處理,獲得第二聲音信號;
25、獲取所述第二聲音信號的特征信息;所述特征信息包括聲音頻率、聲音響度中的一種或多種;
26、采用機(jī)器學(xué)習(xí)算法訓(xùn)練預(yù)設(shè)分類器,基于訓(xùn)練好的預(yù)設(shè)分類器、預(yù)設(shè)標(biāo)注數(shù)據(jù)集對所述特征信息進(jìn)行分析,獲得環(huán)境分類信息。
27、可選的,所述基于所述語音信息以及所述環(huán)境分類信息,確定所述第一通話端處于的發(fā)聲狀態(tài),包括:
28、按照預(yù)設(shè)間隔連續(xù)采集所述語音信息中至少兩次環(huán)境聲音樣本;
29、采用預(yù)設(shè)策略對所述環(huán)境聲音樣本進(jìn)行分析,確定所述發(fā)聲狀態(tài);所述發(fā)聲狀態(tài)包括有聲狀態(tài)或無聲狀態(tài)。
30、可選的,所述采用預(yù)設(shè)策略對所述環(huán)境聲音樣本進(jìn)行分析,確定所述發(fā)聲狀態(tài),包括:
31、基于所述環(huán)境分類信息,確定環(huán)境閾值;
32、采用連續(xù)值法對所述環(huán)境聲音樣本進(jìn)行分析,若連續(xù)采集的m次所述環(huán)境聲音樣本對應(yīng)的環(huán)境值均大于所述環(huán)境閾值,確定所述發(fā)聲狀態(tài)為有聲狀態(tài);
33、或者,采用概率值法對所述環(huán)境聲音樣本進(jìn)行分析,若連續(xù)采集的n次所述環(huán)境聲音樣本中存在p次所述環(huán)境聲音樣本對應(yīng)的環(huán)境值均大于所述環(huán)境閾值,確定所述發(fā)聲狀態(tài)為有聲狀態(tài);
34、n>m,p=n-1。
35、可選的,若所述環(huán)境分類信息為安靜環(huán)境類,設(shè)置環(huán)境閾值為第一數(shù)值;
36、若所述環(huán)境分類信息為嘈雜環(huán)境類,設(shè)置環(huán)境閾值為第二數(shù)值,且所述第二數(shù)值大于所述第一數(shù)值。
37、可選的,所述根據(jù)所述發(fā)聲狀態(tài)、語音停頓設(shè)置信息,對所述語音信息進(jìn)行斷句處理,包括:
38、若所述無聲狀態(tài)的連續(xù)時長超過所述語句停頓時長時,則將無聲狀態(tài)連續(xù)階段的任一處作為斷句點(diǎn)進(jìn)行斷句處理;
39、所述連續(xù)時長為采集的所述環(huán)境聲音樣本的間隔時長與采集的樣本個數(shù)的乘積。
40、可選的,該方法還包括:根據(jù)所述語音信息的內(nèi)容專業(yè)度對所述語音停頓設(shè)置信息進(jìn)行調(diào)整。
41、可選的,所述基于所述點(diǎn)對點(diǎn)語音通話通道將n個所述目標(biāo)語音段根據(jù)時間順序發(fā)送至第二通話端,包括:
42、將n個所述目標(biāo)語音段與n個所述會話語音段分別合成處理,獲得n個疊加語音段;
43、基于所述點(diǎn)對點(diǎn)語音通話通道將n個所述疊加語音段根據(jù)時間順序發(fā)送至第二通話端;
44、其中,在所述疊加語音段中,所述會話語音段為襯底聲,對應(yīng)的所述目標(biāo)語音段為主要聲,且所述目標(biāo)語音段的設(shè)置音量高于所述會話語音段的設(shè)置音量。
45、可選的,所述第二通話端根據(jù)時間順序依次播放n個所述目標(biāo)語音段,包括:
46、根據(jù)所述第二通話端的設(shè)置需求,判斷是否需要播放所述襯底聲,若是,根據(jù)時間順序依次播放n個所述疊加語音段;
47、若否,對所述疊加語音段進(jìn)行分離處理,分離獲得n個所述目標(biāo)語音段,所述第二通話端根據(jù)時間順序依次播放n個所述目標(biāo)語音段。
48、可選的,所述點(diǎn)對點(diǎn)語音通話通道建立有多個,多個所述點(diǎn)對點(diǎn)語音通話通道為多個所述第二通話端與所述第一通話端建立的通道;
49、在所述第二通話端、所述第一通話端均可對應(yīng)設(shè)置語言。
50、可選的,該同譯同傳方法還包括:
51、獲取所述第一通話端、多個所述第二通話端的語言設(shè)置信息;
52、基于所述語言設(shè)置信息獲取設(shè)置數(shù)量最多的語言,記為主體語言,并將所述主體語言作為所述目標(biāo)語音段的語言;
53、若所述第二通話端的設(shè)置語言與所述主體語言不一致,將n個所述目標(biāo)語音段與n個所述會話語音段分別合成處理,獲得n個疊加語音段;基于多個所述點(diǎn)對點(diǎn)語音通話通道將n個所述疊加語音段分別發(fā)送至多個所述第二通話端;在每個所述第二通話端中均根據(jù)時間順序進(jìn)行播放;在所述疊加語音段中,所述會話語音段為襯底聲,對應(yīng)的所述目標(biāo)語音段為主要聲,且所述目標(biāo)語音段的設(shè)置音量高于所述會話語音段的設(shè)置音量。
54、可選的,該同譯同傳方法還包括:基于所述點(diǎn)對點(diǎn)語音通話通道將n個所述目標(biāo)語音段以及n個所述文字文本翻譯信息根據(jù)時間順序發(fā)送至第二通話端;
55、所述第二通話端根據(jù)時間順序依次播放n個所述目標(biāo)語音段、n個所述文字文本翻譯信息;其中,每個所述目標(biāo)語音段與對應(yīng)的所述文字文本翻譯信息同步播放。
56、第二方面,本公開實(shí)施例還提供了一種音視頻通話的同譯同傳系統(tǒng),包括如下技術(shù)方案:
57、第一會話端,用于獲取第一通話端的語音信息,對所述語音信息進(jìn)行斷句,獲得n個會話語音段,將n個所述會話語音段按照時間順序轉(zhuǎn)化為n個文字文本段,基于所述第一通話端的目標(biāo)語種,對n個所述文字文本段進(jìn)行翻譯,獲取n個文字文本翻譯信息,基于n個所述文字文本翻譯信息獲得n個目標(biāo)語音段;
58、信息轉(zhuǎn)發(fā)服務(wù)器,用于建立點(diǎn)對點(diǎn)語音通話通道,基于所述點(diǎn)對點(diǎn)語音通話通道將n個所述目標(biāo)語音段根據(jù)時間順序發(fā)送至第二通話端;
59、第二會話端,用于所述第二通話端根據(jù)時間順序依次播放n個所述目標(biāo)語音段。
60、可選的,所述第二會話端還用于根據(jù)所述第二通話端對應(yīng)的用戶的預(yù)設(shè)或操作,根據(jù)預(yù)設(shè)指令播報所述目標(biāo)語音段。
61、可選的,該同譯同傳系統(tǒng)還包括智能語音語義翻譯網(wǎng)關(guān);
62、所述智能語音語義翻譯網(wǎng)關(guān)包括:
63、輸入輸出模塊,用于接收語音信息,接收第一通話端預(yù)設(shè)的目標(biāo)語種,yy+242178p
64、將目標(biāo)語音段發(fā)送至所述第二會話端;
65、路由規(guī)則引擎,用于確定調(diào)用的第三方翻譯接口,通過所述第三方翻譯接口對接收到的文字文本段進(jìn)行翻譯,得到文字文本翻譯信息;
66、緩存數(shù)據(jù)庫,用于存儲調(diào)用第三方翻譯接口得到的文字文本翻譯信息;
67、檢索模型,用于從所述緩存數(shù)據(jù)庫中檢索對應(yīng)的文字文本翻譯信息;
68、接口連接層,用于與所述第三方翻譯接口交互數(shù)據(jù)。
69、第三方面,本公開實(shí)施例還提供了一種計算機(jī)裝置,采用如下技術(shù)方案:
70、所述計算機(jī)裝置包括:
71、至少一個處理器;以及,
72、與所述至少一個處理器通信連接的存儲器;其中,
73、所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行以上任一所述的音視頻通話的同譯同傳方法。
74、第四方面,本公開實(shí)施例還提供了一種計算機(jī)可讀存儲介質(zhì),該計算機(jī)可讀存儲介質(zhì)存儲計算機(jī)指令,該計算機(jī)指令用于使計算機(jī)執(zhí)行以上任一所述的音視頻通話的同譯同傳方法。
75、第五方面,本公開實(shí)施例還提供了一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序/指令,該計算機(jī)程序/指令被處理器執(zhí)行時實(shí)現(xiàn)以上任一項(xiàng)所述方法的步驟。
76、本技術(shù)公開的音視頻通話的同譯同傳方法,能夠?qū)c(diǎn)對點(diǎn)語音通話進(jìn)行同傳同譯,解決語言不互通的問題,滿足通話翻譯的即時性和流暢性;具體地,建立點(diǎn)對點(diǎn)語音通話通道和獲取語音信息確保了通信的實(shí)時性和直接性;斷句并轉(zhuǎn)換為文本使得語音信息可以即時準(zhǔn)確地轉(zhuǎn)化為可處理的文本形式,從而為后續(xù)翻譯提供了堅(jiān)實(shí)的基礎(chǔ);基于第一通話端的目標(biāo)語種進(jìn)行文本翻譯,確保了翻譯的準(zhǔn)確性和文化適應(yīng)性,這樣的處理方式能夠有效地傳達(dá)語義和情感,避免信息失真或誤解;根據(jù)翻譯的文本信息生成目標(biāo)語音段,使得翻譯結(jié)果在語音播放時能夠自然流暢,接近本地語言的表達(dá)習(xí)慣和語調(diào);將目標(biāo)語音段按時間順序發(fā)送和播放,確保信息的有序傳遞和接收,這種方式不僅保證了信息的連貫性,還提升了交流的效果和體驗(yàn);整體方案支持多種語言的同傳翻譯,適應(yīng)不同語言環(huán)境下的溝通需求,這種靈活性和效率大大提高了跨語言交流的便利性和實(shí)用性。
77、上述說明僅是本公開技術(shù)方案的概述,為了能更清楚了解本公開的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為讓本公開的上述和其他目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉較佳實(shí)施例,并配合附圖,詳細(xì)說明如下。