本發(fā)明實(shí)施例涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及一種翻譯方法及裝置。
背景技術(shù):
現(xiàn)有技術(shù)存在的翻譯方法,可以將用戶輸入的文本從源語言翻譯到目標(biāo)語言,例如從中文翻譯到英文。在進(jìn)行翻譯時(shí),用戶輸入的文本中若存在成語、古詩詞、網(wǎng)絡(luò)熱詞等較難翻譯的部分時(shí),現(xiàn)有技術(shù)不能提供準(zhǔn)確的翻譯結(jié)果,例如,當(dāng)用戶輸入“空山不見人,但聞人語響”時(shí),現(xiàn)有技術(shù)提供的翻譯結(jié)果為“nomountains,buthearavoice”。由此可見,現(xiàn)有技術(shù)的翻譯方法,對于成語、古詩詞、網(wǎng)絡(luò)熱詞等較難翻譯的語句不能夠提供準(zhǔn)確、理想的翻譯結(jié)果。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例旨在提供一種翻譯方法及裝置,可以識別出源語言文本中的固定語義單元,并獲取所述固定語義單元的源語言釋義,利用所述源語言釋義得到目標(biāo)語言的翻譯結(jié)果,準(zhǔn)確率高、覆蓋范圍廣。
為此,本發(fā)明實(shí)施例提供如下技術(shù)方案:
第一方面,本發(fā)明實(shí)施例提供了一種翻譯方法,包括:獲取源語言文本,識別所述源語言文本是否包含固定語義單元;當(dāng)識別出所述源語言文本中包含固定語義單元時(shí),獲取所述固定語義單元的源語言釋義;所述源語言釋義通過采用源語言解釋所述固定語義單元的含義得到;對所述源語言釋義進(jìn)行翻譯,得到以目標(biāo)語言表示的翻譯結(jié)果;所述目標(biāo)語言與所述源語言屬于不同語種。
第二方面,本發(fā)明實(shí)施例提供了一種翻譯裝置,包括:識別單元,用于獲取源語言文本,識別所述源語言文本是否包含固定語義單元;釋義單元,用于當(dāng)識別出所述源語言文本中包含固定語義單元時(shí),獲取所述固定語義單元的源語言釋義;所述源語言釋義通過采用源語言解釋所述固定語義單元的含義得到;翻譯單元,用于對所述源語言釋義進(jìn)行翻譯,得到以目標(biāo)語言表示的翻譯結(jié)果;所述目標(biāo)語言與所述源語言屬于不同語種。
第三方面,本發(fā)明實(shí)施例提供了一種用于翻譯的裝置,包括有存儲器,以及一個(gè)或者一個(gè)以上的程序,其中一個(gè)或者一個(gè)以上程序存儲于存儲器中,且經(jīng)配置以由一個(gè)或者一個(gè)以上處理器執(zhí)行所述一個(gè)或者一個(gè)以上程序包含用于進(jìn)行以下操作的指令:獲取源語言文本,識別所述源語言文本是否包含固定語義單元;當(dāng)識別出所述源語言文本中包含固定語義單元時(shí),獲取所述固定語義單元的源語言釋義;所述源語言釋義通過采用源語言解釋所述固定語義單元的含義得到;對所述源語言釋義進(jìn)行翻譯,得到以目標(biāo)語言表示的翻譯結(jié)果;所述目標(biāo)語言與所述源語言屬于不同語種。
第四方面,本發(fā)明實(shí)施例提供了一種機(jī)器可讀介質(zhì),其上存儲有指令,當(dāng)由一個(gè)或多個(gè)處理器執(zhí)行時(shí),使得裝置執(zhí)行如第一方面所示的翻譯方法。
本發(fā)明實(shí)施例提供的翻譯方法及裝置,可以識別出源語言文本中包含的固定語義單元,并獲取所述固定語義單元的源語言釋義,利用所述源語言釋義得到目標(biāo)語言的翻譯結(jié)果,準(zhǔn)確率高、覆蓋范圍廣。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明一實(shí)施例提供的翻譯方法流程圖;
圖2為本發(fā)明一實(shí)施例提供的翻譯裝置示意圖;
圖3是根據(jù)另一示例性實(shí)施例示出的一種翻譯的裝置的框圖;
圖4是根據(jù)一示例性實(shí)施例示出的服務(wù)器的框圖。
具體實(shí)施方式
現(xiàn)有技術(shù)中,當(dāng)用戶輸入的源語言文本包含固定語義單元時(shí),例如源語言文本包含古詩詞、成語或者網(wǎng)絡(luò)用語時(shí),往往不能夠得到準(zhǔn)確的翻譯結(jié)果。舉例說明,用戶輸入的源語言文本為“我好藍(lán)瘦香菇啊”,現(xiàn)有技術(shù)提供的譯文為“i'msoblueandthinletinousedodes”,與源語言文本的含義相去甚遠(yuǎn)。再例如,用戶輸入的源語言文本為“一葉障目很可怕”,現(xiàn)有技術(shù)提供的譯文為“haveaterrible”。由此可見,當(dāng)在一個(gè)句子或段落中出現(xiàn)成語、古文或者網(wǎng)絡(luò)用語時(shí),現(xiàn)有技術(shù)不能提供準(zhǔn)確的翻譯。
申請人經(jīng)過研究發(fā)現(xiàn),當(dāng)源語言文本存在生澀難懂的內(nèi)容時(shí),例如存在成語、古文或者網(wǎng)絡(luò)用語時(shí),理解源語言文本本身就很難,直接對其翻譯則更難。這是因?yàn)榕c此相關(guān)的雙語訓(xùn)練語料稀少,機(jī)器翻譯模型較難學(xué)會如何翻譯。此外,由于成語、古文或者網(wǎng)絡(luò)用語相對于普通詞匯較為精煉,存在許多隱含含義,因此較難翻譯。而本發(fā)明旨在提供一種翻譯方法及裝置,可以識別出源語言文本中包含的固定語義單元,并獲取所述固定語義單元的源語言釋義,所述源語言釋義是相對簡單易懂的表述,再利用所述釋義得到目標(biāo)語言的翻譯結(jié)果,由此獲得的翻譯結(jié)果準(zhǔn)確率高、覆蓋范圍廣。其中,語義單元可以但不限于包括字符、字符串、短語或短句等,例如古詩詞、成語或者網(wǎng)絡(luò)用語等。
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明中的技術(shù)方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。
下面將結(jié)合附圖1對本發(fā)明示例性實(shí)施例示出的翻譯方法進(jìn)行介紹。
參見圖1,為本發(fā)明一實(shí)施例提供的翻譯方法流程圖。如圖1所示,可以包括:
s101,獲取源語言文本,識別所述源語言文本是否包含固定語義單元。
具體實(shí)現(xiàn)時(shí),源語言文本具體可以為用戶輸入的待翻譯文本。用戶還可以通過用戶界面選擇需要翻譯為的目標(biāo)語言,翻譯結(jié)果使用目標(biāo)語言表示。一般地,源語言與目標(biāo)語言屬于不同語種。
本發(fā)明可以識別源語言文本中包含的固定語義單元。本發(fā)明可以預(yù)先建立語義單元庫,用于存儲預(yù)設(shè)的語義單元。在識別源語言文本是否包含固定語義單元時(shí),可以將所述源語言文本與語義單元庫中包括的預(yù)設(shè)語義單元進(jìn)行匹配;若存在匹配結(jié)果,確定所述源語言文本中包含固定語義單元。其中,所述固定語義單元包括成語、網(wǎng)絡(luò)用語、古詩詞或者歇后語。
舉例說明,用戶輸入的源語言文本為中文句子“我好藍(lán)瘦香菇”時(shí),可以將源語言文本與預(yù)設(shè)的固定語義單元庫中的語義單元進(jìn)行匹配,當(dāng)源語言文本中存在或者包括與預(yù)設(shè)的固定語義單元匹配的語義單元時(shí),例如“藍(lán)瘦香菇”,可以對識別出的語義單元“藍(lán)瘦香菇”進(jìn)行標(biāo)記,進(jìn)而在s102中獲取進(jìn)行標(biāo)記的語義單元的釋義。又如,用戶輸入的源語言文本為中文句子“無為在歧路,兒女共沾巾”時(shí),將源語言文本與語義單元庫中的語義單元進(jìn)行匹配,存在匹配結(jié)果“無為在歧路,兒女共沾巾”,這時(shí)可以標(biāo)記匹配結(jié)果,將其作為s102的輸入,獲取相應(yīng)釋義。又如,用戶輸入的源語言文本為中文句子“一葉障目很可怕”時(shí),可以識別出所述源語言文本存在成語“一葉障目”。需要說明的是,只要源語言文本中的部分語義單元與語義單元庫中的語義單元匹配,即可以確定存在匹配結(jié)果。
s102,當(dāng)識別出所述源語言文本中包含固定語義單元時(shí),獲取所述固定語義單元的源語言釋義;所述源語言釋義通過采用源語言解釋所述固定語義單元的含義得到。
其中,所述源語言釋義與所述固定語義單元屬于同一語種且所述釋義由基本詞匯構(gòu)成。
需要說明的是,本發(fā)明實(shí)施例可以將復(fù)雜的源語言文本轉(zhuǎn)換為較簡單的源語言釋義,再將源語言釋義翻譯為目標(biāo)語言,大大降低了翻譯的復(fù)雜度,提高了翻譯的準(zhǔn)確性。其中,釋義與源語言文本屬于同一語種。釋義通過解釋所述固定語義單元的含義得到。所述釋義與所述固定語義單元屬于同一語種,一般地,釋義由基本詞匯構(gòu)成?;驹~匯一般是語言詞匯中最主要的部分,一般是日常生活中最必須、最常用、最普遍、最明確,能夠被使用這種語言的群體所共同理解和使用。因此,將固定語義單元轉(zhuǎn)換成簡單易懂的、由基本詞匯構(gòu)成的釋義,再對釋義進(jìn)行源語言到目標(biāo)語言的翻譯,則更容易獲得準(zhǔn)確的翻譯結(jié)果。
舉例說明,釋義可以理解為解釋詞語或者短句的含義,例如是將語言a下的詞語a,轉(zhuǎn)換為語言a下的解釋b。其中,詞語a與解釋b的含義相同,但表述不同,解釋b更簡單通用、易于理解。需要說明的是,釋義一般是通過解釋短語或者短句的含義得到,并不等同于同義詞或者近義詞。
根據(jù)固定語義單元的種類不同,獲取所述固定語義單元的釋義可以包括以下幾種情況:
(1)當(dāng)所述固定語義單元為成語時(shí),獲取使用現(xiàn)代文表示的所述成語的含義。舉例說明,若源語言文本存在成語“一葉障目”,則獲取“一葉障目”的釋義為“一片葉子擋在眼前會讓人看不到外面的廣闊世界”。又如,若源語言文本存在成語“坐井觀天”,則獲取“坐井觀天”的釋義為“坐在井底看天,用來比喻和諷刺眼界狹窄或?qū)W識膚淺之人”。
(2)當(dāng)所述固定語義單元為網(wǎng)絡(luò)用語時(shí),獲取使用基本詞匯表示的所述網(wǎng)絡(luò)用語的含義。舉例說明,若源語言文本存在網(wǎng)絡(luò)用語“藍(lán)瘦香菇”,則獲取“藍(lán)瘦香菇”的釋義為“難受,想哭”。
(3)當(dāng)所述固定語義單元為古詩詞時(shí),獲取現(xiàn)代文表示的所述古詩詞的含義。舉例說明,若源語言文本存在古詩詞“空山不見人,但聞人語響”,則獲取“空山不見人,但聞人語響”的釋義為“幽靜的山谷里看不見人,只能聽到那說話的聲音?!?/p>
(4)當(dāng)所述固定語義單元為歇后語時(shí),獲取使用基本詞匯表示的所述歇后語的含義。舉例說明,若源語言文本存在歇后語“竹籃打水一場空”,則獲取“竹籃打水一場空”的釋義為“白費(fèi)力氣”。
需要說明的是,在一些實(shí)施方式中,可以預(yù)先建立釋義翻譯模型。具體地,可以利用固定語義單元以及與其匹配的釋義的同語語料,訓(xùn)練得到釋義翻譯模型。則所述獲取所述固定語義單元的釋義包括:利用預(yù)先建立的釋義翻譯模型對所述固定語義單元進(jìn)行解釋,得到與所述固定語義單元對應(yīng)的釋義。以中文為例進(jìn)行說明,可以利用古詩、成語、網(wǎng)絡(luò)詞語等到現(xiàn)代文的語料,訓(xùn)練機(jī)器翻譯模型,得到古詩、成語、網(wǎng)絡(luò)用語到現(xiàn)代文的語料翻譯模型。其中,訓(xùn)練使用的機(jī)器翻譯模型可以使用通用的模型,例如可以使用基于統(tǒng)計(jì)的機(jī)器翻譯模型,也可使用基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯模型。在建立釋義翻譯模型后,即可以利用釋義翻譯模型對所述固定語義單元進(jìn)行解釋,得到與所述固定語義單元對應(yīng)的釋義。需要說明的是,釋義翻譯模型的精度相對不高,但是可以對任意輸入進(jìn)行釋義,覆蓋度較好。
在另一些實(shí)施方式中,還可以建立釋義挖掘模型。所述釋義挖掘模型用于從網(wǎng)絡(luò)上獲取語義單元的同語言釋義。在獲取所述固定語義單元的釋義時(shí),可以利用預(yù)先建立的釋義挖掘模型從網(wǎng)絡(luò)上獲取與所述固定語義單元匹配的釋義。舉例說明,可以從網(wǎng)絡(luò)等公開環(huán)境中挖掘古詩、成語、網(wǎng)絡(luò)用語的釋義。例如,可以利用古詩庫、成語庫、網(wǎng)絡(luò)用語庫,挖掘其釋義。以古詩詞為例,可以獲取一個(gè)詩句對應(yīng)不同數(shù)據(jù)來源的釋義,找到相似度較高的或者較為通用的釋義作為其對應(yīng)的釋義。具體實(shí)現(xiàn)時(shí),釋義挖掘模型可以通過不同方式挖掘網(wǎng)絡(luò)釋義。
例如,對于結(jié)構(gòu)化的網(wǎng)站,可以通過解析特定字段,獲取成語的釋義。舉例說明,對于百科、成語解釋網(wǎng)站,其對應(yīng)的結(jié)構(gòu)化數(shù)據(jù)中可能包括特定的字段為“成語釋義”,一般可以通過解析“成語釋義”字段對應(yīng)的數(shù)據(jù)來獲取成語的含義。
對于非結(jié)構(gòu)化網(wǎng)站,可以通過詞的共現(xiàn)頻度來挖掘釋義。例如,原詞和釋義是經(jīng)常一起出現(xiàn)的,二者距離位置很近且一同出現(xiàn)。若原詞與釋義經(jīng)常一同出現(xiàn),則認(rèn)為兩者是釋義關(guān)系。例如,坐井觀天和眼界小,見識少,在網(wǎng)頁中經(jīng)常一起出現(xiàn),則認(rèn)為二者是釋義關(guān)系。又如,竹籃打水一場空與白費(fèi)力氣、徒勞無功經(jīng)常一起出現(xiàn),則可以認(rèn)為二者是釋義關(guān)系。當(dāng)然,以上僅為示例性說明,不視為對本申請的限制。需要說明的是,釋義挖掘模型的精度高,但覆蓋度沒有釋義翻譯模型好。
需要說明的是,從網(wǎng)絡(luò)獲取釋義的處理可以預(yù)先離線完成,也可以實(shí)時(shí)在線完成。具體地,當(dāng)從網(wǎng)絡(luò)獲取釋義的處理為預(yù)先離線完成時(shí),可以預(yù)先針對預(yù)設(shè)的語義單元庫中保存的各語義單元從網(wǎng)絡(luò)獲取其釋義,并保存語義單元與其對應(yīng)釋義的對應(yīng)關(guān)系。在s102通過釋義挖掘模型獲取固定語義單元的釋義時(shí),可以直接通過查詢得到語義單元對應(yīng)的釋義。當(dāng)從網(wǎng)絡(luò)獲取釋義的處理為實(shí)時(shí)在線完成時(shí),可以在接收到獲取固定語義單元釋義的請求時(shí),實(shí)時(shí)從網(wǎng)絡(luò)上搜索得到所述語義單元的釋義。
具體實(shí)現(xiàn)時(shí),可以單獨(dú)建立釋義挖掘模型獲取固定語義單元的釋義,也可以單獨(dú)建立釋義翻譯模型獲取固定語義單元的釋義。當(dāng)然,也可以同時(shí)建立釋義挖掘模型和釋義翻譯模型,由于釋義挖掘模型的精度較高,因此在獲取固定語義單元的釋義時(shí),可以優(yōu)先使用釋義挖掘模型。若釋義挖掘模型未覆蓋所述固定語義單元,再使用釋義翻譯模型。其中,釋義挖掘模型可以通過將固定語義單元與已經(jīng)挖掘到的釋義進(jìn)行匹配得到釋義,釋義翻譯模型通過對固定語義單元進(jìn)行解碼處理得到。
s103,對所述源語言釋義進(jìn)行翻譯,得到以目標(biāo)語言表示的翻譯結(jié)果;所述目標(biāo)語言與所述源語言屬于不同語種。
需要說明的是,可以單獨(dú)對釋義進(jìn)行翻譯,再結(jié)合源語言文本的其他部分得到翻譯結(jié)果。也可以結(jié)合釋義對源語言文本整體進(jìn)行翻譯,得到翻譯結(jié)果。由源語言釋義到目標(biāo)語言翻譯結(jié)果的處理可以采用現(xiàn)有技術(shù)的機(jī)器翻譯模型。
舉例說明,在現(xiàn)有技術(shù)中,若用戶輸入的源語言文本為“我好藍(lán)瘦香菇啊”,現(xiàn)有技術(shù)提供的譯文為“i'msoblueandthinletinousedodes”,與源語言文本的含義相去甚遠(yuǎn)。應(yīng)用本發(fā)明實(shí)施例的方法,可以識別出源語言文本存在網(wǎng)絡(luò)用語“藍(lán)瘦香菇”,得到其釋義為“難受,想哭”,這時(shí),得到源語言文本的整體釋義為“我好難受,想哭”,對源語言文本的整體釋義“我好難受,想哭”進(jìn)行翻譯,得到翻譯結(jié)果為“ifeelsoterrible.iwanttocry.”當(dāng)然,也可以只針對固定語義單元的源語言釋義進(jìn)行翻譯,再結(jié)合源語言文本的其他部分得到翻譯結(jié)果。具體的方式是非常靈活的,在此不進(jìn)行限定。
又舉例說明,用戶輸入的源語言文本為“坐井觀天很可怕”,現(xiàn)有技術(shù)提供的譯文為“haveaterrible”。應(yīng)用本發(fā)明實(shí)施例的方法,可以識別出源語言文本存在成語“坐井觀天”,得到其釋義為“坐在井底看天”,結(jié)合源語言文本以及釋義得到的翻譯結(jié)果為“l(fā)ookattheskyfromthebottomofawellisterrible?!痹诮Y(jié)合源語言文本以及釋義得到翻譯結(jié)果時(shí),可以先得到源語言文本的整體釋義,例如“坐在井底看天很可怕”,再針對源語言釋義“坐在井底看天很可怕”進(jìn)行翻譯得到目標(biāo)語言的翻譯結(jié)果為“l(fā)ookattheskyfromthebottomofawellisterrible?!碑?dāng)然,也可以得到固定語義單元“坐井觀天”的源語言釋義“坐在井底看天”的翻譯結(jié)果“l(fā)ookattheskyfromthebottomofawell”,再結(jié)合源語言文本的其他部分得到翻譯結(jié)果“l(fā)ookattheskyfromthebottomofawellisterrible?!?/p>
再舉例說明,用戶輸入的源語言文本為“空山不見人,但聞人語響”時(shí),現(xiàn)有技術(shù)提供的翻譯結(jié)果為“nomountains,buthearavoice.”應(yīng)用本發(fā)明實(shí)施例的方法,可以識別出源語言文本存在古詩詞“空山不見人,但聞人語響”,則獲取“空山不見人,但聞人語響”的釋義為“幽靜的山谷里看不見人,只能聽到那說話的聲音”,結(jié)合源語言文本以及釋義得到的翻譯結(jié)果為“inthequietvalley,ican'tseeanyone,buticanhearthevoice.”
再舉例說明,用戶輸入的源語言文本為“竹籃打水一場空”時(shí),現(xiàn)有技術(shù)提供的翻譯結(jié)果為“ablank”。應(yīng)用本發(fā)明實(shí)施例的方法,可以識別出源語言文本存在歇后語“竹籃打水一場空”,則獲取“竹籃打水一場空”的釋義為“白費(fèi)力氣”,結(jié)合源語言文本以及釋義得到的翻譯結(jié)果為“allinvain”。
從以上實(shí)例可以看出,本發(fā)明實(shí)施例提出了一種對古詩詞、成語、諺語、文言文、網(wǎng)絡(luò)熱詞等較難翻譯文本的翻譯方法,可以先將其轉(zhuǎn)換為簡單易懂的釋義,再對釋義進(jìn)行翻譯,解決原文本身較難理解和翻譯且雙語語料稀疏,導(dǎo)致翻譯效果不佳的問題。由于相對于雙語翻譯,單語的釋義會比雙語翻譯多很多,收集難度較低,準(zhǔn)確度、覆蓋度較高。舉例說明,在進(jìn)行中文到英文的古詩翻譯時(shí),由于古詩是另一種較難理解的描述方式,本發(fā)明實(shí)施例可以利用“古詩——簡單的中文釋義——英文”的方式進(jìn)行翻譯,由此得到的翻譯結(jié)果更為準(zhǔn)確。本發(fā)明可以將復(fù)雜的源語言轉(zhuǎn)換為較簡單的源語言釋義,再將源語言釋義翻譯為目標(biāo)語言,本發(fā)明提供的翻譯方法覆蓋面更廣,自動化程度高,不僅能翻譯古詩文、成語,還可以翻譯網(wǎng)絡(luò)熱詞。需要說明的是,本發(fā)明提供的翻譯方法不限于應(yīng)用于中文到英文的翻譯,也可以應(yīng)用于英文到中文、德語到意大利語的翻譯等。
參見圖2,為本發(fā)明一實(shí)施例提供的翻譯裝置示意圖。
一種翻譯裝置200,包括:
識別單元201,用于獲取源語言文本,識別所述源語言文本是否包含固定語義單元。其中,所述識別單元201具體用于:將所述源語言文本與預(yù)設(shè)語義單元庫中包括的語義單元進(jìn)行匹配;若存在匹配結(jié)果,確定所述源語言文本中包含固定語義單元。其中,所述識別單元201的具體實(shí)現(xiàn)可以參照圖1所示實(shí)施例的步驟101而實(shí)現(xiàn)。
釋義單元202,用于當(dāng)識別出所述源語言文本中包含固定語義單元時(shí),獲取所述固定語義單元的源語言釋義;所述源語言釋義通過解釋所述固定語義單元的含義得到。
其中,所述釋義單元具體用于:當(dāng)所述固定語義單元為成語時(shí),獲取使用現(xiàn)代文表示的所述成語的含義;和/或,當(dāng)所述固定語義單元為網(wǎng)絡(luò)用語時(shí),獲取使用基本詞匯表示的所述網(wǎng)絡(luò)用語的含義;和/或,當(dāng)所述固定語義單元為古詩詞時(shí),獲取現(xiàn)代文表示的所述古詩詞的含義;和/或,當(dāng)所述固定語義單元為歇后語時(shí),獲取使用基本詞匯表示的所述歇后語的含義。
所述釋義單元具體包括:第一釋義子單元,用于利用預(yù)先建立的釋義翻譯模型對所述固定語義單元進(jìn)行解釋,得到與所述固定語義單元對應(yīng)的釋義;和/或,第二釋義子單元,用于利用預(yù)先建立的釋義挖掘模型從網(wǎng)絡(luò)上獲取與所述固定語義單元匹配的釋義。其中,所述釋義單元202的具體實(shí)現(xiàn)可以參照圖1所示實(shí)施例的步驟102而實(shí)現(xiàn)。
翻譯單元203,用于對所述源語言釋義進(jìn)行翻譯,得到以目標(biāo)語言表示的翻譯結(jié)果;所述目標(biāo)語言與所述源語言屬于不同語種。其中,所述翻譯單元203的具體實(shí)現(xiàn)可以參照圖1所示實(shí)施例的步驟103而實(shí)現(xiàn)。
在一些實(shí)施方式中,所述裝置還包括:釋義翻譯模型建立單元,用于利用固定語義單元以及與其匹配的釋義的同語語料,訓(xùn)練得到釋義翻譯模型。
在一些實(shí)施方式中,所述裝置還包括:釋義挖掘模型建立單元,用于建立釋義挖掘模型,所述釋義挖掘模型用于從網(wǎng)絡(luò)上獲取固定語義單元的同語言釋義。
其中,本發(fā)明裝置各單元或模塊的設(shè)置可以參照圖1所示的方法而實(shí)現(xiàn),在此不贅述。
參見圖3為根據(jù)一示例性實(shí)施例示出的一種用于翻譯的裝置的框圖。例如,裝置300可以是移動電話,計(jì)算機(jī),數(shù)字廣播終端,消息收發(fā)設(shè)備,游戲控制臺,平板設(shè)備,醫(yī)療設(shè)備,健身設(shè)備,個(gè)人數(shù)字助理等。
參照圖3,裝置300可以包括以下一個(gè)或多個(gè)組件:處理組件302,存儲器304,電源組件306,多媒體組件308,音頻組件310,輸入/輸出(i/o)的接口312,傳感器組件314,以及通信組件316。
處理組件302通??刂蒲b置300的整體操作,諸如與顯示,電話呼叫,數(shù)據(jù)通信,相機(jī)操作和記錄操作相關(guān)聯(lián)的操作。處理組件302可以包括一個(gè)或多個(gè)處理器320來執(zhí)行指令,以完成上述的方法的全部或部分步驟。此外,處理組件302可以包括一個(gè)或多個(gè)模塊,便于處理組件302和其他組件之間的交互。例如,處理部件302可以包括多媒體模塊,以方便多媒體組件308和處理組件302之間的交互。
存儲器304被配置為存儲各種類型的數(shù)據(jù)以支持在設(shè)備300的操作。這些數(shù)據(jù)的示例包括用于在裝置300上操作的任何應(yīng)用程序或方法的指令,聯(lián)系人數(shù)據(jù),電話簿數(shù)據(jù),消息,圖片,視頻等。存儲器304可以由任何類型的易失性或非易失性存儲設(shè)備或者它們的組合實(shí)現(xiàn),如靜態(tài)隨機(jī)存取存儲器(sram),電可擦除可編程只讀存儲器(eeprom),可擦除可編程只讀存儲器(eprom),可編程只讀存儲器(prom),只讀存儲器(rom),磁存儲器,快閃存儲器,磁盤或光盤。
電源組件306為裝置300的各種組件提供電力。電源組件306可以包括電源管理系統(tǒng),一個(gè)或多個(gè)電源,及其他與為裝置300生成、管理和分配電力相關(guān)聯(lián)的組件。
多媒體組件308包括在所述裝置300和用戶之間的提供一個(gè)輸出接口的屏幕。在一些實(shí)施例中,屏幕可以包括液晶顯示器(lcd)和觸摸面板(tp)。如果屏幕包括觸摸面板,屏幕可以被實(shí)現(xiàn)為觸摸屏,以接收來自用戶的輸入信號。觸摸面板包括一個(gè)或多個(gè)觸摸傳感器以感測觸摸、滑動和觸摸面板上的手勢。所述觸摸傳感器可以不僅感測觸摸或滑動動作的邊界,而且還檢測與所述觸摸或滑動操作相關(guān)的持續(xù)時(shí)間和壓力。在一些實(shí)施例中,多媒體組件308包括一個(gè)前置攝像頭和/或后置攝像頭。當(dāng)設(shè)備300處于操作模式,如拍攝模式或視頻模式時(shí),前置攝像頭和/或后置攝像頭可以接收外部的多媒體數(shù)據(jù)。每個(gè)前置攝像頭和后置攝像頭可以是一個(gè)固定的光學(xué)透鏡系統(tǒng)或具有焦距和光學(xué)變焦能力。
音頻組件310被配置為輸出和/或輸入音頻信號。例如,音頻組件310包括一個(gè)麥克風(fēng)(mic),當(dāng)裝置300處于操作模式,如呼叫模式、記錄模式和語音識別模式時(shí),麥克風(fēng)被配置為接收外部音頻信號。所接收的音頻信號可以被進(jìn)一步存儲在存儲器304或經(jīng)由通信組件316發(fā)送。在一些實(shí)施例中,音頻組件310還包括一個(gè)揚(yáng)聲器,用于輸出音頻信號。
i/o接口312為處理組件302和外圍接口模塊之間提供接口,上述外圍接口模塊可以是鍵盤,點(diǎn)擊輪,按鈕等。這些按鈕可包括但不限于:主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。
傳感器組件314包括一個(gè)或多個(gè)傳感器,用于為裝置300提供各個(gè)方面的狀態(tài)評估。例如,傳感器組件314可以檢測到設(shè)備300的打開/關(guān)閉狀態(tài),組件的相對定位,例如所述組件為裝置300的顯示器和小鍵盤,傳感器組件314還可以檢測裝置300或裝置300一個(gè)組件的位置改變,用戶與裝置300接觸的存在或不存在,裝置300方位或加速/減速和裝置300的溫度變化。傳感器組件314可以包括接近傳感器,被配置用來在沒有任何的物理接觸時(shí)檢測附近物體的存在。傳感器組件314還可以包括光傳感器,如cmos或ccd圖像傳感器,用于在成像應(yīng)用中使用。在一些實(shí)施例中,該傳感器組件314還可以包括加速度傳感器,陀螺儀傳感器,磁傳感器,壓力傳感器或溫度傳感器。
通信組件316被配置為便于裝置300和其他設(shè)備之間有線或無線方式的通信。裝置300可以接入基于通信標(biāo)準(zhǔn)的無線網(wǎng)絡(luò),如wifi,2g或3g,或它們的組合。在一個(gè)示例性實(shí)施例中,通信部件316經(jīng)由廣播信道接收來自外部廣播管理系統(tǒng)的廣播信號或廣播相關(guān)信息。在一個(gè)示例性實(shí)施例中,所述通信部件316還包括近場通信(nfc)模塊,以促進(jìn)短程通信。例如,在nfc模塊可基于射頻識別(rfid)技術(shù),紅外數(shù)據(jù)協(xié)會(irda)技術(shù),超寬帶(uwb)技術(shù),藍(lán)牙(bt)技術(shù)和其他技術(shù)來實(shí)現(xiàn)。
在示例性實(shí)施例中,裝置300可以被一個(gè)或多個(gè)應(yīng)用專用集成電路(asic)、數(shù)字信號處理器(dsp)、數(shù)字信號處理設(shè)備(dspd)、可編程邏輯器件(pld)、現(xiàn)場可編程門陣列(fpga)、控制器、微控制器、微處理器或其他電子元件實(shí)現(xiàn),用于執(zhí)行上述方法。
具體地,本發(fā)明實(shí)施例提供了一種翻譯裝置300,包括有存儲器304,以及一個(gè)或者一個(gè)以上的程序,其中一個(gè)或者一個(gè)以上程序存儲于存儲器304中,且經(jīng)配置以由一個(gè)或者一個(gè)以上處理器320執(zhí)行所述一個(gè)或者一個(gè)以上程序包含用于進(jìn)行以下操作的指令:獲取源語言文本,識別所述源語言文本是否包含固定語義單元;當(dāng)識別出所述源語言文本中包含固定語義單元時(shí),獲取所述固定語義單元的源語言釋義;所述源語言釋義通過解釋所述固定語義單元的含義得到;對所述源語言釋義進(jìn)行翻譯,得到以目標(biāo)語言表示的翻譯結(jié)果;所述目標(biāo)語言與所述源語言屬于不同語種。
進(jìn)一步地,所述處理器320具體還用于執(zhí)行所述一個(gè)或者一個(gè)以上程序包含用于進(jìn)行以下操作的指令:
將所述源語言文與預(yù)設(shè)語義單元庫中包括的語義單元進(jìn)行匹配;若存在匹配結(jié)果,確定所述源語言文本中包含固定語義單元。
進(jìn)一步地,所述處理器320具體還用于執(zhí)行所述一個(gè)或者一個(gè)以上程序包含用于進(jìn)行以下操作的指令:
利用預(yù)先建立的釋義翻譯模型對所述固定語義單元進(jìn)行解釋,得到與所述固定語義單元對應(yīng)的釋義;和/或,
利用預(yù)先建立的釋義挖掘模型從網(wǎng)絡(luò)上獲取與所述固定語義單元匹配的釋義。
進(jìn)一步地,所述處理器320具體還用于執(zhí)行所述一個(gè)或者一個(gè)以上程序包含用于進(jìn)行以下操作的指令:
利用固定語義單元以及與其匹配的釋義的同語語料,訓(xùn)練得到釋義翻譯模型。
進(jìn)一步地,所述處理器320具體還用于執(zhí)行所述一個(gè)或者一個(gè)以上程序包含用于進(jìn)行以下操作的指令:
建立釋義挖掘模型,所述釋義挖掘模型用于從網(wǎng)絡(luò)上獲取固定語義單元的同語言釋義。
進(jìn)一步地,所述處理器320具體還用于執(zhí)行所述一個(gè)或者一個(gè)以上程序包含用于進(jìn)行以下操作的指令:
當(dāng)所述固定語義單元為成語時(shí),獲取使用現(xiàn)代文表示的所述成語的含義;和/或,
當(dāng)所述固定語義單元為網(wǎng)絡(luò)用語時(shí),獲取使用基本詞匯表示的所述網(wǎng)絡(luò)用語的含義;和/或,
當(dāng)所述固定語義單元為古詩詞時(shí),獲取現(xiàn)代文表示的所述古詩詞的含義;和/或,
當(dāng)所述固定語義單元為歇后語時(shí),獲取使用基本詞匯表示的所述歇后語的含義。
在示例性實(shí)施例中,還提供了一種包括指令的非臨時(shí)性計(jì)算機(jī)可讀存儲介質(zhì),例如包括指令的存儲器304,上述指令可由裝置300的處理器320執(zhí)行以完成上述方法。例如,所述非臨時(shí)性計(jì)算機(jī)可讀存儲介質(zhì)可以是rom、隨機(jī)存取存儲器(ram)、cd-rom、磁帶、軟盤和光數(shù)據(jù)存儲設(shè)備等。
一種機(jī)器可讀介質(zhì),例如該機(jī)器可讀介質(zhì)可以為非臨時(shí)性計(jì)算機(jī)可讀存儲介質(zhì),當(dāng)所述介質(zhì)中的指令由裝置(終端或者服務(wù)器)的處理器執(zhí)行時(shí),使得裝置能夠執(zhí)行一種翻譯方法,所述方法包括:獲取源語言文本,識別所述源語言文本是否包含固定語義單元;當(dāng)識別出所述源語言文本中包含固定語義單元時(shí),獲取所述固定語義單元的源語言釋義;所述源語言釋義通過解釋所述固定語義單元的含義得到;對所述源語言釋義進(jìn)行翻譯,得到以目標(biāo)語言表示的翻譯結(jié)果;所述目標(biāo)語言與所述源語言屬于不同語種。
可選地,所述識別所述源語言文本是否包含固定語義單元包括:將所述源語言文本與預(yù)設(shè)語義單元庫中包括的語義單元進(jìn)行匹配;若存在匹配結(jié)果,確定所述源語言文本中包含固定語義單元。
可選地,所述獲取所述固定語義單元的源語言釋義包括:
利用預(yù)先建立的釋義翻譯模型對所述固定語義單元進(jìn)行解釋,得到與所述固定語義單元對應(yīng)的源語言釋義;和/或,利用預(yù)先建立的釋義挖掘模型從網(wǎng)絡(luò)上獲取與所述固定語義單元匹配的源語言釋義。
可選地,所述方法還包括:利用固定語義單元及與其匹配的源語言釋義的同語語料,訓(xùn)練得到釋義翻譯模型。
可選地,所述方法還包括:建立釋義挖掘模型,所述釋義挖掘模型用于從網(wǎng)絡(luò)上獲取語義單元的同語言釋義。
可選地,所述固定語義單元包括成語、網(wǎng)絡(luò)用語、古詩詞或者歇后語。
可選地,所述獲取所述固定語義單元的源語言釋義包括:當(dāng)所述固定語義單元為成語時(shí),獲取使用現(xiàn)代文表示的所述成語的含義;當(dāng)所述固定語義單元為網(wǎng)絡(luò)用語時(shí),獲取使用基本詞匯表示的所述網(wǎng)絡(luò)用語的含義;當(dāng)所述固定語義單元為古詩詞時(shí),獲取現(xiàn)代文表示的所述古詩詞的含義;當(dāng)所述固定語義單元為歇后語時(shí),獲取使用基本詞匯表示的所述歇后語的含義。
圖4是本發(fā)明實(shí)施例中服務(wù)器的結(jié)構(gòu)示意圖。該服務(wù)器400可因配置或性能不同而產(chǎn)生比較大的差異,可以包括一個(gè)或一個(gè)以上中央處理器(centralprocessingunits,cpu)422(例如,一個(gè)或一個(gè)以上處理器)和存儲器432,一個(gè)或一個(gè)以上存儲應(yīng)用程序442或數(shù)據(jù)444的存儲介質(zhì)430(例如一個(gè)或一個(gè)以上海量存儲設(shè)備)。其中,存儲器432和存儲介質(zhì)430可以是短暫存儲或持久存儲。存儲在存儲介質(zhì)430的程序可以包括一個(gè)或一個(gè)以上模塊(圖示沒標(biāo)出),每個(gè)模塊可以包括對服務(wù)器中的一系列指令操作。更進(jìn)一步地,中央處理器422可以設(shè)置為與存儲介質(zhì)430通信,在服務(wù)器400上執(zhí)行存儲介質(zhì)430中的一系列指令操作。
服務(wù)器400還可以包括一個(gè)或一個(gè)以上電源426,一個(gè)或一個(gè)以上有線或無線網(wǎng)絡(luò)接口450,一個(gè)或一個(gè)以上輸入輸出接口458,一個(gè)或一個(gè)以上鍵盤456,和/或,一個(gè)或一個(gè)以上操作系統(tǒng)441,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm等等。
本領(lǐng)域技術(shù)人員在考慮說明書及實(shí)踐這里公開的發(fā)明后,將容易想到本發(fā)明的其它實(shí)施方案。本發(fā)明旨在涵蓋本發(fā)明的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本發(fā)明的一般性原理并包括本公開未公開的本技術(shù)領(lǐng)域中的公知常識或慣用技術(shù)手段。說明書和實(shí)施例僅被視為示例性的,本發(fā)明的真正范圍和精神由下面的權(quán)利要求指出。
應(yīng)當(dāng)理解的是,本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進(jìn)行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來限制
以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。本發(fā)明可以在由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計(jì)算環(huán)境中實(shí)踐本發(fā)明,在這些分布式計(jì)算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來執(zhí)行任務(wù)。在分布式計(jì)算環(huán)境中,程序模塊可以位于包括存儲設(shè)備在內(nèi)的本地和遠(yuǎn)程計(jì)算機(jī)存儲介質(zhì)中。
本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對于裝置實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。以上所描述的裝置實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動的情況下,即可以理解并實(shí)施。以上所述僅是本發(fā)明的具體實(shí)施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。