本發(fā)明涉及語音翻譯技術領域,尤其涉及語音翻譯方法及裝置。
背景技術:
當與使用不同語言的人溝通時,為了直接的、有效的溝通交流,結(jié)合語音識別、翻譯以及語音合成技術已能將一種語言的語音轉(zhuǎn)換成另一種語言的語音,雖然目前語音識別技術已擁有對多數(shù)語言的識別模型,但是現(xiàn)有的語音翻譯軟件或設備在溝通前都需要用戶手動切換源語言和目標語言來進行相應的語音識別和翻譯,無法通過語音識別來準確區(qū)別不同語言,進而導致溝通效率低。
上述內(nèi)容僅用于輔助理解本發(fā)明的技術方案,并不代表承認上述內(nèi)容是現(xiàn)有技術。
技術實現(xiàn)要素:
本發(fā)明的主要目的在于提供一種語音翻譯方法及裝置,旨在解決現(xiàn)有的語音翻譯軟件或設備無法通過語音識別來準確區(qū)別不同語言,進而導致溝通效率低的問題。
為實現(xiàn)上述目的,本發(fā)明提供的一種語音翻譯方法,包括步驟:
在接收到第一語音數(shù)據(jù)時,提取所述第一語音數(shù)據(jù)的聲紋特征;
確定所提取的聲紋特征對應的語言類別;
在所提取的聲紋特征對應的語言類別是第一語言時,獲取預存的第二語言;
將所述第一語音數(shù)據(jù)由第一語言轉(zhuǎn)換成第二語言對應的第二語音數(shù)據(jù)。
優(yōu)選地,所述確定所提取的聲紋特征對應的語言類別的步驟包括:
判斷所提取的聲紋特征是否與預存的第一語言的聲紋特征匹配;
在所提取的聲紋特征與預存的第一語言的聲紋特征匹配時,確定所提取 的聲紋特征對應的語言類別是第一語言;
在所提取的聲紋特征與預存的第一語言的聲紋特征不匹配時,確定所提取的聲紋特征對應的語言類別是第二語言。
優(yōu)選地,所述將所述第一語音數(shù)據(jù)由第一語言轉(zhuǎn)換成所述第二語言對應的第二語音數(shù)據(jù)的步驟包括:
根據(jù)第一語言將所述第一語音數(shù)據(jù)轉(zhuǎn)換成所述第一語言對應的第一文本數(shù)據(jù);
將所述第一文本數(shù)據(jù)翻譯成所述第二語言對應的第二文本數(shù)據(jù);
將所述第二文本數(shù)據(jù)合成第二語音數(shù)據(jù)。
優(yōu)選地,所述將所述第一語音數(shù)據(jù)由第一語言轉(zhuǎn)換成所述第二語言對應的第二語音數(shù)據(jù)的步驟之后,還包括:
輸出所述第二語音數(shù)據(jù)。
優(yōu)選地,所述在接收到第一語音數(shù)據(jù)時,提取所述第一語音數(shù)據(jù)的聲紋特征的步驟之前,還包括:
接收第一語言和第二語言的設置指令;
根據(jù)所述設置指令提供語言類別的選擇界面,以供用戶選擇第一語言和第二語言;
在所述用戶選擇第一語言和第二語言時,保存所述第一語言和第二語言;
提取所述第一語言對應語音數(shù)據(jù)的聲紋特征,并保存所述聲紋特征。
此外,為實現(xiàn)上述目的,本發(fā)明還提供一種語音翻譯裝置,包括:
提取模塊,用于在接收到第一語音數(shù)據(jù)時,提取所述第一語音數(shù)據(jù)的聲紋特征;
確定模塊,用于確定所提取的聲紋特征對應的語言類別;
獲取模塊,用于在所提取的聲紋特征對應的語言類別是第一語言時,獲取預存的第二語言;
轉(zhuǎn)換模塊,用于將所述第一語音數(shù)據(jù)由第一語言轉(zhuǎn)換成第二語言對應的第二語音數(shù)據(jù)。
優(yōu)選地,所述確定模塊包括判斷單元和確定單元,
所述判斷單元,用于判斷所提取的聲紋特征是否與預存的第一語言的聲 紋特征匹配;
所述確定單元,用于在所提取的聲紋特征與預存的第一語言的聲紋特征匹配時,確定所提取的聲紋特征對應的語言類別是第一語言;還用于在所提取的聲紋特征與預存的第一語言的聲紋特征不匹配時,確定所提取的聲紋特征對應的語言類別是第二語言。
優(yōu)選地,所述轉(zhuǎn)換模塊包括轉(zhuǎn)換單元、翻譯單元和合成單元,
所述轉(zhuǎn)換單元,用于根據(jù)第一語言將所述第一語音數(shù)據(jù)轉(zhuǎn)換成所述第一語言對應的第一文本數(shù)據(jù);
所述翻譯單元,用于將所述第一文本數(shù)據(jù)翻譯成所述第二語言對應的第二文本數(shù)據(jù);
所述合成單元,用于將所述第二文本數(shù)據(jù)合成第二語音數(shù)據(jù)。
優(yōu)選地,所述語音翻譯裝置還包括輸出模塊,用于輸出所述第二語音數(shù)據(jù)。
優(yōu)選地,所述語音翻譯裝置還包括接收模塊、提供模塊和保存模塊,
所述接收模塊,用于接收第一語言和第二語言的設置指令;
所述提供模塊,用于根據(jù)所述設置指令提供語言類別的選擇界面,以供用戶選擇第一語言和第二語言;
所述保存模塊,用于在所述用戶選擇第一語言和第二語言時,保存所述第一語言和第二語言;還用于保存所述第一語言的聲紋特征;
所述提取模塊,還用于提取所述第一語言對應語音數(shù)據(jù)的聲紋特征。
相對現(xiàn)有技術,本發(fā)明通過接收語音數(shù)據(jù),提取所述語音數(shù)據(jù)對應的聲紋特征,確定所提取的聲紋特征對應的語言類別,在所提取的聲紋特征對應的語言類別是第一語言時,獲取預存的第二語言;將所述第一語音數(shù)據(jù)由第一語言轉(zhuǎn)換成第二語言對應的第二語音數(shù)據(jù)。實現(xiàn)準確區(qū)別不同語言,并自動將一種語言的語音轉(zhuǎn)換成另一種語言的語音,進而提高溝通的有效性。
附圖說明
圖1為本發(fā)明語音翻譯方法的第一實施例的流程示意圖;
圖2為圖1中步驟S40一實施例的細化流程示意圖;
圖3為本發(fā)明語音翻譯方法的第二實施例的流程示意圖;
圖4為本發(fā)明語音翻譯方法的第三實施例的流程示意圖;
圖5為本發(fā)明語音翻譯裝置的第一實施例的功能模塊示意圖;
圖6為圖5中確定模塊一實施例的細化功能模塊示意圖;
圖7為圖5中轉(zhuǎn)換模塊一實施例的細化功能模塊示意圖;
圖8為本發(fā)明語音翻譯裝置的第二實施例的功能模塊示意圖。
本發(fā)明目的的實現(xiàn)、功能特點及優(yōu)點將結(jié)合實施例,參照附圖做進一步說明。
具體實施方式
應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
本發(fā)明實施例的主要解決方案是:在接收到第一語音數(shù)據(jù)時,提取所述第一語音數(shù)據(jù)的聲紋特征;確定所提取的聲紋特征對應的語言類別;在所提取的聲紋特征對應的語言類別是第一語言時,獲取預存的第二語言;將所述第一語音數(shù)據(jù)由第一語言轉(zhuǎn)換成第二語言對應的第二語音數(shù)據(jù)。有效避免現(xiàn)有的語音翻譯軟件或設備無法通過語音識別來準確區(qū)別不同語言,進而導致溝通效率低的問題。實現(xiàn)通過語音識別準確地區(qū)別不同語言,并自動將一種語言的語音轉(zhuǎn)換成另一種語言的語音,進而提高溝通的有效性。
由于現(xiàn)有的語音翻譯軟件或設備無法通過語音識別來準確區(qū)別不同語言,進而導致溝通效率低。
基于上述問題,本發(fā)明提供一種語音翻譯方法。
參照圖1,圖1為本發(fā)明語音翻譯方法的第一實施例的流程示意圖。
在一實施例中,所述語音翻譯方法包括:
步驟S10,在接收到第一語音數(shù)據(jù)時,提取所述第一語音數(shù)據(jù)的聲紋特征;
實時接收語音數(shù)據(jù),對接收到的語音數(shù)據(jù)進行聲紋特征提取,所述聲紋特征的提取可以在會話過程中提取,可以根據(jù)選擇語言的不同而側(cè)重點不同,如語言中有方言或中、英文識別等,也可以側(cè)重提取辨別說話人的口音、發(fā) 音方式等。所述聲紋特征的提取可以通過對所述第一語音數(shù)據(jù)進行預處理,所述預處理是對所述第一語音數(shù)據(jù)進行采樣、量化、預加重和加窗等,將原始的第一語音數(shù)據(jù)轉(zhuǎn)化成N維的特征矢量,從而提取到所述第一語音數(shù)據(jù)的聲紋特征。所述接收第一語音數(shù)據(jù)的方式可以通過麥克風接收或藍牙耳機接收等不限于其他接收方式。
步驟S20,確定所提取的聲紋特征對應的語言類別;
根據(jù)提取到的聲紋特征建立聲紋模型,判斷所述聲紋模型是否與預存的語言類別的聲紋模型匹配。所述聲紋特征模型可以根據(jù)設置語言的不同,選擇不同的聲紋特征模型,適當增加與特定語種相關的某些聲紋特征比重。
步驟S30,在所提取的聲紋特征對應的語言類別是第一語言時,獲取預存的第二語言;
判斷所提取的聲紋特征是否與預存的第一語言的聲紋特征匹配。在所提取的聲紋特征與預存的第一語言的聲紋特征匹配時,獲取該對話場景中的另一種語音作為第二語言;在所提取的聲紋特征與預存的第一語言的聲紋特征不匹配時,判斷所提取的聲紋特征對應的語言類別是第二語言。以一中文和英文的對話場景為例,在所述對話場景中第一語言為中文,第二語言為英文,在提取語音數(shù)據(jù)的聲紋特征后,判斷所提取的聲紋特征是否與預存的中文的聲紋特征匹配。在所提取的聲紋特征與預存的中文的聲紋特征匹配時,判斷所提取的聲紋特征對應的語言類別是中文,那么所述對話場景中另一種語音即為英文。在所提取的聲紋特征與預存的中文的聲紋特征不匹配時,所述聲紋特征對應的語言類別是英文,那么所述對話場景中另一種語音即為中文。
步驟S40,將所述第一語音數(shù)據(jù)由第一語言轉(zhuǎn)換成第二語言對應的第二語音數(shù)據(jù)。
在確定第一語言和第二語言后,將所述第一語言、第二語言和第一語音數(shù)據(jù)傳送到云端服務器,以供云端服務器對所述第一語音數(shù)據(jù)進行處理,根據(jù)第一語言將所述第一語音數(shù)據(jù)轉(zhuǎn)換成第二語言對應的第二語音數(shù)據(jù)。對接收到的語音數(shù)據(jù)的處理也可以部分在云端服務器處理,部分在本地處理。
具體的,參考圖2,將所述第一語音數(shù)據(jù)由第一語言轉(zhuǎn)換成第二語言對應的第二語音數(shù)據(jù)的過程可以是:
步驟S41,根據(jù)第一語言將所述第一語音數(shù)據(jù)轉(zhuǎn)換成所述第一語言對應的 第一文本數(shù)據(jù);
步驟S42,將所述第一文本數(shù)據(jù)翻譯成所述第二語言對應的第二文本數(shù)據(jù);
步驟S43,將所述第二文本數(shù)據(jù)合成第二語音數(shù)據(jù)。
在本實施例中,以所述第一語言是中文,第二語言是英文為例,在獲取中文、英文后,根據(jù)中文將所述中文語音數(shù)據(jù)轉(zhuǎn)換成中文文本數(shù)據(jù);將所述中文文本數(shù)據(jù)翻譯成英文文本數(shù)據(jù);可以在界面顯示轉(zhuǎn)換成的中文文本數(shù)據(jù)和英文文本數(shù)據(jù),最后將所述英文文本數(shù)據(jù)合成英文語音數(shù)據(jù)。
本實施例在接收到第一語音數(shù)據(jù)時,提取所述第一語音數(shù)據(jù)的聲紋特征;確定所提取的聲紋特征對應的語言類別;在所提取的聲紋特征對應的語言類別是第一語言時,獲取預存的第二語言;將所述第一語音數(shù)據(jù)由第一語言轉(zhuǎn)換成第二語言對應的第二語音數(shù)據(jù)。實現(xiàn)通過語音識別準確區(qū)別不同語言,并自動將一種語言的語音轉(zhuǎn)換成另一種語言的語音,進而提高溝通的有效性。
參照圖3,圖3為本發(fā)明語音翻譯方法的第二實施例的流程示意圖?;谏鲜龇椒ǖ牡谝粚嵤├霾襟ES20包括:
步驟S21,判斷所提取的聲紋特征是否與預存的第一語言的聲紋特征匹配;
步驟S22,在所提取的聲紋特征與預存的第一語言的聲紋特征匹配時,確定所提取的聲紋特征對應的語言類別是第一語言;
步驟S23,在所提取的聲紋特征與預存的第一語言的聲紋特征不匹配時,確定所提取的聲紋特征對應的語言類別是第二語言。
判斷所提取的聲紋特征是否與預存的第一語言的聲紋特征匹配,若所提取的聲紋特征與預存的第一語言的聲紋特征匹配,則所述第一語音數(shù)據(jù)對應的語言類別是第一語言,第二語言即為該對話場景中的另一種語音。否則,所述第一語音數(shù)據(jù)對應的語言類別為第二語言。在獲取第一語言和第二語言時,顯示所述第一語言和第二語言,以供用戶辨別所述第一語言和第二語言是否有誤。所述顯示第一語言和第二語言的方式可以是語音播報當前第一語言和第二語言、高亮顯示當前第一語言和第二語言等顯示方式,根據(jù)用戶的需要及/或系統(tǒng)的性能設置。在用戶辨別所述第一語言和第二語言有誤時,接 收重新設置第一語言和第二語言的指令;根據(jù)所述指令提供語言類別的選擇界面,以供用戶選擇第一語言和第二語言;在所述用戶選擇第一語言和第二語言時,保存第一語言和第二語言。接收第一語言所對應的第一語音數(shù)據(jù),并提取所述第一語音數(shù)據(jù)的聲紋特征,保存所述第一語言的聲紋特征。在保存所述聲紋特征后,調(diào)整并更新原有的聲紋特征。再次接收到語音數(shù)據(jù)時,提取所述語音數(shù)據(jù)的聲紋特征,判斷所述聲紋特征是否與更新后的聲紋特征匹配。
進一步,所述步驟S40之后,還包括:
步驟S50,輸出所述第二語音數(shù)據(jù)。
所述輸出所述第二語音數(shù)據(jù)可以直接通過揚聲器輸出或者耳機輸出,根據(jù)用戶的需要及/或系統(tǒng)的性能設置。
本實施例通過判斷所提取的聲紋特征是否與預存的第一語言的聲紋特征匹配;在所提取的聲紋特征與預存的第一語言的聲紋特征匹配時,確定所述聲紋特征對應的語言類別是第一語言。通過聲紋特征確定所述聲紋特征對應的語言類別,提高識別的準確性,進一步提高溝通的有效性。
參照圖4,圖4為本發(fā)明語音翻譯方法的第三實施例的流程示意圖?;谏鲜龇椒ǖ牡谝粚嵤├?,所述步驟S10之前,還包括:
步驟S60,接收第一語言和第二語言的設置指令;
步驟S70,根據(jù)所述設置指令提供語言類別的選擇界面,以供用戶選擇第一語言和第二語言;
步驟S80,在所述用戶選擇第一語言和第二語言時,保存所述第一語言和第二語言;
步驟S90,提取所述第一語言對應語音數(shù)據(jù)的聲紋特征,并保存所述聲紋特征。
接收第一語言和第二語言的設置指令可以在對話的起始階段,在接收到第一語言和第二語言的設置指令時,根據(jù)所述設置指令提供語言類別的選擇界面,以供用戶選擇第一語言和第二語言;在所述用戶選擇第一語言和第二語言時,保存第一語言和第二語言。也可以通過語音的方式來選擇第一語言和第二語言,根據(jù)用戶的需要及/或系統(tǒng)的性能設置。在保存第一語言和第二 語言后,接收所述第一語言對應的第一語音數(shù)據(jù),提取所述第一語音數(shù)據(jù)的聲紋特征,保存所述聲紋特征。所述第一、第二語言可以是中文、英文等,也可以根據(jù)地域名稱,例如廣東、加拿大等,如果設置的是地域名稱,可以本地預存地域名稱與當?shù)刂饕Z言類別對應的聲紋特征。
在本發(fā)明其他實施例中,所述語音翻譯方法還可以是:在多語言會議下,例如,有A、B、C、D四種語言,在會議中,提供界面以供用戶選擇自己的語言,在用戶選擇自己的語言后,通過傳輸模塊的藍牙或Wi-Fi等傳送到云端服務器。在云端服務器中預存A、B、C、D四種語言以及四種語言對應的聲紋特征。在接收到語音數(shù)據(jù)時,提取所述語音數(shù)據(jù)的聲紋特征,判斷所提取的聲紋特征是否與預存的語言類別的聲紋特征匹配。以所提取的聲紋特征與預存的A語言的聲紋特征匹配為例,在所提取的聲紋特征與預存的A語言的聲紋特征匹配時,確定所提取的聲紋特征對應的語言類別是A語言。從云端服務器中獲取預存B、C、D三種語言,根據(jù)A語言將接收到的語音數(shù)據(jù)轉(zhuǎn)換成A語言對應的A文本數(shù)據(jù),再將A文本數(shù)據(jù)翻譯成B文本數(shù)據(jù)、C文本數(shù)據(jù)、D文本數(shù)據(jù),將B文本數(shù)據(jù)轉(zhuǎn)換成B語音數(shù)據(jù),C文本數(shù)據(jù)轉(zhuǎn)換成C語音數(shù)據(jù),D文本數(shù)據(jù)轉(zhuǎn)換成D語音數(shù)據(jù),最后通過傳輸模塊的藍牙或Wi-Fi等傳送到使用B、C、D語言對應的用戶的揚聲器或耳機。有效避免現(xiàn)有的語音翻譯軟件或設備無法通過語音識別來準確區(qū)別不同語言,進而導致溝通效率低的問題。實現(xiàn)通過語音識別準確地區(qū)別不同語言,并自動將一種語言的語音轉(zhuǎn)換成另一種語言的語音,進而提高溝通的有效性。
本實施例通過預存第一語言、第二語言以及第一語言的聲紋特征,在接收到語音數(shù)據(jù)時,可以提取所述語音數(shù)據(jù)的聲紋特征,根據(jù)第一語言的聲紋特征與所述第一語言的對應關系可以確定所述聲紋特征對應的語言類別,通過語音識別準確地區(qū)別不同語言,進而提高溝通的有效性。
上述第一至第三實施例的語音翻譯方法的執(zhí)行主體均可以為語音翻譯設備或與語音翻譯設備信號連接的翻譯設備。更進一步地,該語音翻譯方法可以由安裝在語音翻譯設備或設備上的客戶端翻譯程序?qū)崿F(xiàn),其中,所述語音翻譯設備包括但不限于手機、pad、筆記本電腦等。
本發(fā)明進一步提供一種語音翻譯裝置。
參照圖5,圖5為本發(fā)明語音翻譯裝置的第一實施例的功能模塊示意圖。
在一實施例中,所述語音翻譯裝置包括:提取模塊10、確定模塊20、獲取模塊30和轉(zhuǎn)換模塊40。
提取模塊10,用于在接收到第一語音數(shù)據(jù)時,提取所述第一語音數(shù)據(jù)的聲紋特征;
實時接收語音數(shù)據(jù),對接收到的語音數(shù)據(jù)進行聲紋特征提取,所述聲紋特征的提取可以在會話過程中提取,可以根據(jù)選擇語言的不同而側(cè)重點不同,如語言中有方言或中、英文識別等,也可以側(cè)重提取辨別說話人的口音、發(fā)音方式等。所述聲紋特征的提取可以通過對所述第一語音數(shù)據(jù)進行預處理,所述預處理是對所述第一語音數(shù)據(jù)進行采樣、量化、預加重和加窗等,將原始的第一語音數(shù)據(jù)轉(zhuǎn)化成N維的特征矢量,從而提取到所述第一語音數(shù)據(jù)的聲紋特征。所述接收第一語音數(shù)據(jù)的方式可以通過麥克風接收或藍牙耳機接收等不限于其他接收方式。
確定模塊20,用于確定所提取的聲紋特征對應的語言類別;
根據(jù)提取到的聲紋特征建立聲紋模型,判斷所述聲紋模型是否與預存的語言類別的聲紋模型匹配。所述聲紋特征模型可以根據(jù)設置語言的不同,選擇不同的聲紋特征模型,適當增加與特定語種相關的某些聲紋特征比重。
具體的,參考圖6,所述確定模塊20包括判斷單元21和確定單元22,
所述判斷單元21,用于判斷所提取的聲紋特征是否與預存的第一語言的聲紋特征匹配;
所述確定單元22,用于在所提取的聲紋特征與預存的第一語言的聲紋特征匹配時,確定所提取的聲紋特征對應的語言類別是第一語言;還用于在所提取的聲紋特征與預存的第一語言的聲紋特征不匹配時,確定所提取的聲紋特征對應的語言類別是第二語言。
判斷所提取的聲紋特征是否與預存的第一語言的聲紋特征匹配,若所提取的聲紋特征與預存的第一語言的聲紋特征匹配,則所述第一語音數(shù)據(jù)對應的語言類別是第一語言,第二語言即為該對話場景中的另一種語音。否則,所述第一語音數(shù)據(jù)對應的語言類別為第二語言。在獲取第一語言和第二語言時,顯示所述第一語言和第二語言,以供用戶辨別所述第一語言和第二語言是否有誤。所述顯示第一語言和第二語言的方式可以是語音播報當前第一語 言和第二語言、高亮顯示當前第一語言和第二語言等顯示方式,根據(jù)用戶的需要及/或系統(tǒng)的性能設置。在用戶辨別所述第一語言和第二語言有誤時,接收重新設置第一語言和第二語言的指令;根據(jù)所述指令提供語言類別的選擇界面,以供用戶選擇第一語言和第二語言;在所述用戶選擇第一語言和第二語言時,保存第一語言和第二語言。接收第一語言所對應的第一語音數(shù)據(jù),并提取所述第一語音數(shù)據(jù)的聲紋特征,保存所述聲紋特征。在保存所述聲紋特征后,調(diào)整并更新原有的聲紋特征。再次接收到語音數(shù)據(jù)時,提取所述語音數(shù)據(jù)的聲紋特征,判斷所述聲紋特征是否與更新后的聲紋特征匹配。
獲取模塊30,用于在所提取的聲紋特征對應的語言類別是第一語言時,獲取預存的第二語言;
判斷所提取的聲紋特征是否與預存的第一語言的聲紋特征匹配。在所提取的聲紋特征與預存的第一語言的聲紋特征匹配時,獲取該對話場景中的另一種語音作為第二語言;在所提取的聲紋特征與預存的第一語言的聲紋特征不匹配時,判斷所提取的聲紋特征對應的語言類別是第二語言。以一中文和英文的對話場景為例,在所述對話場景中第一語言為中文,第二語言為英文,在提取語音數(shù)據(jù)的聲紋特征后,判斷所提取的聲紋特征是否與預存的中文的聲紋特征匹配。在所提取的聲紋特征與預存的中文的聲紋特征匹配時,判斷所提取的聲紋特征對應的語言類別是中文,那么所述對話場景中另一種語音即為英文。在所提取的聲紋特征與預存的中文的聲紋特征不匹配時,所提取的聲紋特征對應的語言類別是英文,那么所述對話場景中另一種語音即為中文。
轉(zhuǎn)換模塊40,用于將所述第一語音數(shù)據(jù)由第一語言轉(zhuǎn)換成第二語言對應的第二語音數(shù)據(jù)。
在確定第一語言和第二語言后,將所述第一語言、第二語言和第一語音數(shù)據(jù)傳送到云端服務器,以供云端服務器對所述第一語音數(shù)據(jù)進行處理,根據(jù)第一語言將所述第一語音數(shù)據(jù)轉(zhuǎn)換成第二語言對應的第二語音數(shù)據(jù)。對接收到的語音數(shù)據(jù)的處理也可以部分在云端服務器處理,部分在本地處理。
具體的,參考圖7,所述轉(zhuǎn)換模塊40包括轉(zhuǎn)換單元41、翻譯單元42和合成單元43,
所述轉(zhuǎn)換單元41,用于根據(jù)第一語言將所述第一語音數(shù)據(jù)轉(zhuǎn)換成所述第 一語言對應的第一文本數(shù)據(jù);
所述翻譯單元42,用于將所述第一文本數(shù)據(jù)翻譯成所述第二語言對應的第二文本數(shù)據(jù);
所述合成單元43,用于將所述第二文本數(shù)據(jù)合成第二語音數(shù)據(jù)。
在本實施例中,以所述第一語言是中文,第二語言是英文為例,在獲取中文、英文后,根據(jù)中文將所述中文語音數(shù)據(jù)轉(zhuǎn)換成中文文本數(shù)據(jù);將所述中文文本數(shù)據(jù)翻譯成英文文本數(shù)據(jù);可以在界面顯示轉(zhuǎn)換成的中文文本數(shù)據(jù)和英文文本數(shù)據(jù),最后將所述英文文本數(shù)據(jù)合成英文語音數(shù)據(jù)。
本實施例在接收到第一語音數(shù)據(jù)時,提取所述第一語音數(shù)據(jù)的聲紋特征;確定所提取聲紋特征對應的語言類別;在確定所提取聲紋特征對應的語言類別是第一語言時,獲取預存的第二語言;將所述第一語音數(shù)據(jù)由第一語言轉(zhuǎn)換成第二語言對應的第二語音數(shù)據(jù)。實現(xiàn)通過語音識別準確區(qū)別不同語言,進而提高溝通的有效性。
參照圖8,圖8為本發(fā)明語音翻譯裝置的第二實施例的功能模塊示意圖。
基于上述第一實施例,本實施例所述語音翻譯裝置還包括輸出模塊50、接收模塊60、提供模塊70和保存模塊80。
所述輸出模塊50,用于輸出所述第二語音數(shù)據(jù)。
所述輸出所述第二語音數(shù)據(jù)可以直接通過揚聲器輸出或者耳機輸出,根據(jù)用戶的需要及/或系統(tǒng)的性能設置。
所述接收模塊60,用于接收第一語言和第二語言的設置指令;
所述提供模塊70,用于根據(jù)所述設置指令提供語言類別的選擇界面,以供用戶選擇第一語言和第二語言;
所述保存模塊80,用于在所述用戶選擇第一語言和第二語言時,保存所述第一語言和第二語言;還用于保存所述第一語言的聲紋特征;
所述提取模塊10,還用于提取第一語言對應語音數(shù)據(jù)的聲紋特征。
接收第一語言和第二語言的設置指令可以在對話的起始階段,在接收到第一語言和第二語言的設置指令時,根據(jù)所述設置指令提供語言類別的選擇界面,以供用戶選擇第一語言和第二語言;在所述用戶選擇第一語言和第二語言時,保存第一語言和第二語言。也可以通過語音的方式來選擇第一語言 和第二語言,根據(jù)用戶的需要及/或系統(tǒng)的性能設置。在保存第一語言和第二語言后,接收所述第一語言對應的第一語音數(shù)據(jù),提取所述第一語音數(shù)據(jù)的聲紋特征,保存所述聲紋特征。所述第一、第二語言可以是中文、英文等,也可以根據(jù)地域名稱,例如廣東、加拿大等,如果設置的是地域名稱,可以本地預存地域名稱與當?shù)刂饕Z言類別對應的聲紋特征。
在本發(fā)明其他實施例中,所述語音翻譯方法還可以是:在多語言會議下,例如,有A、B、C、D四種語言,在會議中,提供界面以供用戶選擇自己的語言,在用戶選擇自己的語言后,通過傳輸模塊的藍牙或Wi-Fi等傳送到云端服務器。在云端服務器中預存A、B、C、D四種語言以及四種語言對應的聲紋特征。在接收到語音數(shù)據(jù)時,提取所述語音數(shù)據(jù)的聲紋特征,判斷所提取的聲紋特征是否與預存的語言類別的聲紋特征匹配。以所提取的聲紋特征與預存的A語言的聲紋特征匹配為例,在所提取的聲紋特征與預存的A語言的聲紋特征匹配時,確定所提取的聲紋特征對應的語言類別是A語言。從云端服務器中獲取預存B、C、D三種語言,根據(jù)A語言將接收到的語音數(shù)據(jù)轉(zhuǎn)換成A語言對應的A文本數(shù)據(jù),再將A文本數(shù)據(jù)翻譯成B文本數(shù)據(jù)、C文本數(shù)據(jù)、D文本數(shù)據(jù),將B文本數(shù)據(jù)轉(zhuǎn)換成B語音數(shù)據(jù),C文本數(shù)據(jù)轉(zhuǎn)換成C語音數(shù)據(jù),D文本數(shù)據(jù)轉(zhuǎn)換成D語音數(shù)據(jù),最后通過傳輸模塊的藍牙或Wi-Fi等傳送到使用B、C、D語言對應的用戶的揚聲器或耳機。有效避免現(xiàn)有的語音翻譯軟件或設備無法通過語音識別來準確區(qū)別不同語言,進而導致溝通效率低的問題。實現(xiàn)通過語音識別準確地區(qū)別不同語言,并自動將一種語言的語音轉(zhuǎn)換成另一種語言的語音,進而提高溝通的有效性。
本實施例通過預存第一語言、第二語言以及第一語言的聲紋特征,在接收到語音數(shù)據(jù)時,可以提取所述語音數(shù)據(jù)的聲紋特征,根據(jù)第一語言的聲紋特征與所述第一語言的對應關系可以確定所述聲紋特征對應的語言類別,準確的區(qū)別不同語言,提高溝通的有效性。
上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。通過以上的實施方式的描述,本領域的技術人員可以清楚地了解到上述實施例方法可借助軟件加必需的通用硬件平臺的方式來實現(xiàn),當然也可以通過硬件,但很多情況下前者是更佳的實施方式。基于這樣的理解,本發(fā)明的技術方案本質(zhì) 上或者說對現(xiàn)有技術做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)(如ROM/RAM、磁碟、光盤)中,包括若干指令用以使得一臺終端設備(可以是手機,計算機,服務器,或者網(wǎng)絡設備等)執(zhí)行本發(fā)明各個實施例所述的方法。
以上僅為本發(fā)明的優(yōu)選實施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運用在其他相關的技術領域,均同理包括在本發(fā)明的專利保護范圍內(nèi)。