專利名稱:語言翻譯方法及其系統(tǒng)的制作方法
背景技術:
本發(fā)明涉及語言翻譯。特別是,本發(fā)明涉及一種通過網(wǎng)絡向設備提供的翻譯業(yè)務。
在我們連接日益緊密的現(xiàn)代世界中,其中特殊的例子是語言的障礙使得交流十分困難,這種情況變得越來越頻繁。一個典型的情況是一個外國旅行者不能理解與其所到的國家對應的本地語言。對于這些旅行者來說,即使是一個最簡單的句子,他們與當?shù)厝私涣髌饋硪彩鞘掷щy的。例如,不具備與其所參觀的國家相關的語言知識的外國旅行者將經(jīng)歷一段與本地人進行日常生活的交流以完成甚至是很簡單的任務的困難時期。這種簡單的任務包括旅館的登記和付帳后離開,乘出租車,找公用廁所,或者兌換貨幣,這里僅僅給出了一些實例。
預期無線移動設備(例如個人數(shù)字助理、便攜式計算機、掌上型個人計算機、手持式計算機、靈巧電話機、智能移動電話等)在未來將會更加普及。期望該更加普及與無線和3G通信業(yè)務的成本降低相符。
因此,隨著時間的流逝,將日益希望實現(xiàn)一種用于移動設備的有效的通用語言翻譯系統(tǒng)。執(zhí)行這種系統(tǒng)的設備將支持獨立用戶,例如外國旅行者,他們需要克服語言障礙造成的挑戰(zhàn)。然而,技術方面的限制使得難以提供關于自由文字(例如主要地不受限制的文字)的高質量的翻譯。必須克服或避免這些限制才能有一個正確有效的移動翻譯系統(tǒng)。
發(fā)明概述本發(fā)明的實例一般適合于移動語言翻譯機,其便于在說不同語言的個人之間的交流。某些特殊的實施例適合于一種通過從服務器有選擇地下載信息并提供給無線移動設備的翻譯業(yè)務。被下載的信息包括一個具有語言獨立翻譯引擎和至少一個語言從屬翻譯數(shù)據(jù)庫的翻譯結構。該語言從屬翻譯數(shù)據(jù)庫包括翻譯模板和一個翻譯字典。關于在世界中所選擇的一個或多個城市的專用數(shù)據(jù)庫也可以被下載。語言之間的翻譯可以通過將語言從屬翻譯數(shù)據(jù)庫和任意城市專用數(shù)據(jù)庫應用到翻譯引擎而實現(xiàn)。翻譯引擎執(zhí)行一個用戶驅動項替換表以簡化翻譯過程。
附圖簡述
圖1是一個示例性計算設備的框圖;圖2是一個示例性計算設備的框圖;圖3是一個示例性計算系統(tǒng)環(huán)境的框圖;圖4是一個描述從輸入到翻譯的流程處理的一般流程圖;圖5是一個描述從輸入到翻譯的全面流程處理的更詳細地流程圖。
優(yōu)選實施例的詳述I.典型適合的計算設備圖1描述了一個實現(xiàn)本發(fā)明實施例的適合的計算系統(tǒng)100的實例。計算系統(tǒng)100僅僅是一個適合的計算系統(tǒng)的實例,并不用于建議任何關于本發(fā)明使用目的或者功能性的限制。計算系統(tǒng)100不應該被理解為具有涉及其所描述的元件之一或組合的任何相關性或者要求。
參照圖1,適合于本發(fā)明的示例性設備包括一個以計算機110形式出現(xiàn)的通用計算設備。計算機110的元件可以包括但不限制于一個處理單元120、一個系統(tǒng)存儲器130和一個系統(tǒng)總線121,該總線連接包括系統(tǒng)存儲器到處理單元120的各種系統(tǒng)部件。系統(tǒng)總線121可以是多種總線結構類型中的任何一種,各種系統(tǒng)總線包括使用任何總線結構的存儲總線或者存儲控制器、外設總線和本地總線。借助于實施例,但不限制于此,這些總線結構包括工業(yè)標準結構(ISA)總線,微通道結構(MCA)總線,增強型ISA(EISA)總線,視頻電子標準協(xié)會(VESA)本地總線,和也稱為夾層總線(Mezzanine bus)的外設部件互連(PCI)總線。
計算機110典型地包括多種計算機可讀媒質。計算機可讀媒質可以是任何可以通過計算機110訪問的可用媒質,其包括易失的和非易失的媒質、可移動的和非可移動的媒質。借助于實例,但不限制于此,計算機可讀媒質可以包括計算機存儲媒質和通信媒質。計算機存儲媒質包括以任何用于存儲信息的方法或技術執(zhí)行的易失的和非易失的媒質、可移動的和非可移動的媒質,上述信息例如計算機可讀指令、數(shù)據(jù)結構、程序模塊或者其它數(shù)據(jù)。計算機存儲媒質包括,但不限于此,RAM、ROM、EPROM、閃存或其它的存儲技術、CD-ROM、數(shù)字化視頻光盤(DVD)或其它的光盤存儲器、盒式磁帶、錄音帶、磁盤存儲器或者其它的磁存儲設備、或者其它可以被用于存儲所需信息和通過計算機110訪問的媒質。
通信媒質典型地包括有計算機可讀指令,數(shù)據(jù)結構、程序模塊或者其它在已調(diào)制數(shù)據(jù)信號中的數(shù)據(jù),例如載波或其它的傳輸機制,并且包括任何信息傳送媒質。術語“已調(diào)制數(shù)據(jù)信號”意思是一個信息使其自身的一個或者多個特征以一種方式設置或者變化,用于對信號中的信息編碼。借助于實施例,但不限于此,通信媒質包括有線媒質,例如有線網(wǎng)絡或直接單線連接;和無線媒質,例如聲音、射頻、紅外線和其它無線媒質。上述任何種類的組合都將被包括在計算機可讀媒質的范圍內(nèi)。
系統(tǒng)存儲器130包括易失的和/或非易失的存儲器形式的計算機存儲媒質,例如只讀存儲器(ROM)131和隨機存儲器(RAM)132。一個基本輸入/輸出系統(tǒng)133(BIOS)被典型地存儲在ROM131中,諸如在啟動期間,其包括幫助在計算機110中的元件間傳輸信息的例行程序。RAM132典型地包括數(shù)據(jù)和/或程序模塊,其可以通過處理單元120立即訪問和/或操作。借助于實施例,但不限于此,圖1描述了操作系統(tǒng)134、應用程序135、其它程序模塊136和程序數(shù)據(jù)137。
計算機110也可以包括其它可移動/非可移動、易失/非易失的計算機存儲媒質。僅僅借助于實例,圖1描述了一種硬盤驅動器141,其讀取或者寫入非可移動的、非易失的磁性媒體;一種磁盤驅動器151,其讀取或者寫入到可移動的、非易失的磁盤152;和一個光盤驅動器155,其讀取或者寫入到非可移動的、非易失的光盤156,例如CDROM或者其它的光媒質??梢杂糜谑纠圆僮鳝h(huán)境的其它可移動的/非可移動的、易失的/非易失的計算機存儲媒質包括但不限制于,盒式磁帶、閃存卡,數(shù)字化視頻光盤,數(shù)字錄像磁帶、固態(tài)RAM、固態(tài)ROM,等等。硬盤驅動器141一般通過一個非可移動存儲器接口,例如接口140被連接到系統(tǒng)總線121,磁盤驅動器151和光盤驅動器155一般通過一個可移動的存儲器接口,例如接口150被連接到系統(tǒng)總線121。
在圖1中描述的和上述討論的驅動器以及與驅動器相關的計算機存儲媒質提供對計算機可讀指令、數(shù)據(jù)結構、程序模塊和其它用于計算機110的數(shù)據(jù)的存儲。在圖1中,例如,硬盤驅動器141被描述用作存儲操作系統(tǒng)144、應用程序145、其它程序模塊146和程序數(shù)據(jù)147。應該注意,這些部件可以相同或者不同于操作系統(tǒng)134、應用程序135,其它程序模塊136和程序數(shù)據(jù)137。在這里用不同的編號描述操作系統(tǒng)144、應用程序145、其它程序模塊146和程序數(shù)據(jù)147,至少它們是不同的復制。
用戶也可以通過輸入設備,例如鍵盤162、麥克風163和指示器161,例如鼠標、跟蹤球或觸摸板將命令和信息輸入到計算機110。其它的輸入設備(未示出)可以包括一個操縱桿、游戲板,衛(wèi)星反射器、掃描儀等等。這些和其它的輸入設備常常通過連接到系統(tǒng)總線的用戶輸入接口160連接到處理單元120,但是也可以通過其它的接口和總線結構連接,例如并行端口,游戲端口或通用串行總線(USB)。監(jiān)視器191或其它類型的顯示設備也通過諸如視頻接口190的接口連接到系統(tǒng)總線121。除監(jiān)視器之外,計算機還包括其它通過輸出外設接口195連接的外設輸出設備,例如揚聲器197和打印機196。
計算機110在一種使用邏輯連接一個或更多諸如遠程計算機180的遠程計算機的網(wǎng)絡環(huán)境下操作。遠程計算機180可以是一個個人計算機,一個手持設備,一個服務器,一個路由器、一個網(wǎng)絡PC,一個對等設備或者其它公共網(wǎng)絡節(jié)點,并且遠程計算機典型地包括上述的許多或全部涉及計算機110的元件。在圖1中描述的邏輯連接包括一個局域網(wǎng)(LAN)171和一個廣域網(wǎng)(WAN)173,但是也可以包括其它的網(wǎng)絡。這種網(wǎng)絡環(huán)境在辦公室、大企業(yè)(enterprise-wide)計算機網(wǎng)絡,內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中是很普通的。
當在LAN網(wǎng)絡環(huán)境中使用時,計算機110通過網(wǎng)絡接口或適配器170連接到LAN171。當在WAN網(wǎng)絡環(huán)境中使用時,計算機110一般包括一個調(diào)制解調(diào)器172或者用于通過WAN173建立通信的其它裝置,例如因特網(wǎng)。調(diào)制解調(diào)器172可以是內(nèi)置或外置的,其可以通過用戶輸入接口160或其它合適的機制連接到系統(tǒng)總線121。在網(wǎng)絡環(huán)境下,所描述的涉及計算機110或其中某部分的程序模塊可以被存儲在遠程記憶體存儲器設備中。借助于實例,但不限于此,圖1描述了駐留于遠程計算機180中的遠程應用模塊185。應該明白,所顯示的網(wǎng)絡連接是示范性的,也可以使用其它裝置在計算機之間建立一個通信連接。
應該注意,本發(fā)明可以與諸如圖1中描述的計算機系統(tǒng)聯(lián)合執(zhí)行。當然,本發(fā)明也可以與服務器,一個專用于信息處理的計算機,或一個分布式系統(tǒng)相似地聯(lián)合執(zhí)行,其中在分布式計算系統(tǒng)的不同部分執(zhí)行本發(fā)明的不同部分。
II.另外一個示例性的適合的計算設備圖2是一個移動計算設備200的框圖。移動設備200包括一個微處理器202,存儲器204。輸入/輸出(I/O)部件206和用于與遠程計算機或其它移動設備通信的通信接口208。在一個實施例中,設備200的內(nèi)部部件通過適合的總線210連接用于彼此通信。
設備200是可以實現(xiàn)本發(fā)明的一個適合的計算設備的實例。設備200僅僅是這種設備的一個實例,并不用于建議關于本發(fā)明的功能性和使用目的的任何限制。設備200不應該被理解為具有涉及在示例性設備200描述的部件之一或組合的任何相關性或者要求。
存儲器204被作為非易失性電子存儲器實現(xiàn),例如具有電池備用模塊(未示出)的隨機訪問存儲器(RAM),這樣使得當?shù)揭苿釉O備的總功率被關閉時,存儲在存儲器204上的信息不會丟失。存儲器204的一部分最好作為可尋址存儲器分配給程序執(zhí)行,而存儲器204的另一部分最好用于存儲,例如在磁盤上的模擬存儲器。
存儲器204包括一個操作系統(tǒng)212,應用程序214以及對象存儲器216。存儲器204的操作系統(tǒng)212最好在處理器202的操作期間執(zhí)行。在一個優(yōu)選的實施例中,操作系統(tǒng)212是一個來自微軟公司可商用的WINDOWSCE商標操作系統(tǒng)。操作系統(tǒng)212最好設計用于移動設備,其通過一組開放式應用程序接口和方法執(zhí)行可以被應用214利用的數(shù)據(jù)庫特征。在對象存儲器216中的對象通過應用214和操作系統(tǒng)212維持,至少部分地響應于對開放式應用程序接口和方法的呼叫。
通信接口208代表許多允許移動設備200發(fā)送和接收信息的設備和技術。設備包括例如有線和無線調(diào)制解調(diào)器、衛(wèi)星接收機和廣播調(diào)諧器。移動設備200也可以直接連接到計算機與之交換數(shù)據(jù)。在這種情況下,通信接口208也可以是一個紅外線收發(fā)信機或一個串或并行通信連接,所有這些都可以發(fā)送流信息。
輸入/輸出部件206可以包括任何種類輸入設備的任何一種,例如觸敏屏、按鈕、滾軸和麥克風以及包括一個音頻產(chǎn)生器、振動設備和顯示器的多種輸出設備的任何一種。上述列出的設備作為實例,并且不需要全部出現(xiàn)在移動設備200中。另外,在不脫離本發(fā)明的范圍的情況下,其它的輸入/輸出設備也可以被加入或者與移動設備200一起建立。
除了在這里描述的之外,本發(fā)明的實施例可以與許多通用或專用的計算系統(tǒng)環(huán)境或者上述的配置以外的其它配置中操作。眾所周知的適合的計算機系統(tǒng)環(huán)境和配置的實例包括但不限于,個人計算機、服務器計算機、手持或者膝上型設備,多處理器系統(tǒng)、基于微處理器的系統(tǒng)、設置的機頂盒、可編程的用戶電子設備、網(wǎng)絡PC、小型計算機、大型計算機、電話系統(tǒng)、包括上述任何系統(tǒng)或設備的分布式計算系統(tǒng)等。
本發(fā)明的實施例可以在例如程序模塊的由計算機執(zhí)行的通用的計算機可執(zhí)行指令環(huán)境中進行描述。通常,程序模塊包括執(zhí)行特定任務或實現(xiàn)特定抽象數(shù)據(jù)類型的例行程序、程序、對象、分量、數(shù)據(jù)結構,等。本發(fā)明被設計為在分布式計算環(huán)境下實現(xiàn),在該環(huán)境中,任務被通過通信網(wǎng)絡連接的遠程處理設備執(zhí)行。在一種分布式計算環(huán)境中,程序模塊位于包括記憶體存儲器設備的本地和遠程計算機存儲媒質中。在下文借助于圖描述通過程序和模塊執(zhí)行的任務。本領域的技術人員可以將說明書和圖實現(xiàn)為處理器可執(zhí)行指令,該指令可以寫入到任何形式的計算機可讀媒質上。
III.示例的計算系統(tǒng)環(huán)境圖3是一個描述適合的計算系統(tǒng)環(huán)境300的實例的框圖,本發(fā)明的實施例可以在該環(huán)境下實現(xiàn)。計算系統(tǒng)環(huán)境300僅僅是一個適合的計算環(huán)境的實例,并不用于建議任何關于本發(fā)明使用目的或者功能性的限制。計算環(huán)境300不應該被理解為具有涉及其所描述的部件之一或組合的任何相關性或者要求。
環(huán)境300包括多個客戶機304??蛻魴C304可以是類似于圖2中描述的設備200的移動設備,這只是說明性而不是必須??蛻魴C304不一定要是移動的。按照一個實施例,至少一個客戶機304是一般的非移動計算設備,相似于圖1中計算機100的PC計算機。一個假定的客戶機304可以是任何上述關于圖1和圖2的計算設備,或者其它的計算設備。為了簡化本發(fā)明示例性實施例的描述,假設客戶304是類似于圖2中描述的設備200的移動設備。另外,通常假設與客戶機304的通信通過無線網(wǎng)絡通信。非無線通信可以被很容易地實現(xiàn)以支持與移動或者非移動客戶304通信。
客戶機304被配置為連接,至少是暫時連接到網(wǎng)絡310中維持的服務器302。客戶機304被示例性地配置為通過通信接口與服務器302通信,例如在圖2中描述的接口208。服務器302被示例性地配置為向客戶機304提供信息,例如應用信息。這種信息可以從應用存儲器214中存取,并被處理器202利用以使客戶機用戶具有語言翻譯功能。
本發(fā)明的實施例屬于一種能夠使客戶304從服務器302中獲得專用信息,例如應用信息的系統(tǒng)。專用的信息使得客戶機能夠作為移動語言翻譯機進行操作。使用移動語言翻譯機,客戶機304的用戶會有機會使用他們不是特別流利的特殊的當?shù)卣Z言完成某種形式的交流。客戶從服務器接收的信息示例性地啟動用戶熟悉的語言和至少一種用戶選擇的外國語言之間的翻譯。被接收的信息還包括屬于用戶選擇特定目的地(也就是一個城市)的信息。
服務器302被配置為通過網(wǎng)絡(也就是因特網(wǎng))向客戶機304提供一種實際的翻譯業(yè)務。盡管不是必須的,但客戶機304示例性的是一個無線移動設備。服務器302提供給客戶機302的業(yè)務示例性地在付費基礎上提供的(也就是在一次或預訂的基礎上的付款)。翻譯業(yè)務示例性地使啟動客戶機移動設備充當其用戶的移動翻譯機。用戶可以使用移動翻譯機器利用他們不是特別的流利的特殊的自然語言參與談話。例如,不具備他們所訪問的國家的語言知識的外國旅行者需要與當?shù)厝诉M行必要的日常生活的交流,例如用于旅館的登記和付帳后離開,乘出租車以及購物等等。移動翻譯機使得旅行者能夠實現(xiàn)這種談話。
如上所述,為了將客戶機304裝備成為充當用戶的移動翻譯機,從服務器304將某些應用項目傳送到客戶機302以在其上實現(xiàn)這些項目。應用項目示例性地包括一個語言獨立翻譯引擎和至少一個語言從屬翻譯數(shù)據(jù)庫。語言從屬數(shù)據(jù)庫示例性地包括翻譯模板和翻譯字典的集合。翻譯模板的功能涉及將在下文中詳細描述的特殊的翻譯方案。
從服務器302傳送到客戶機304的應用項目任選地包括一個或更多代表一個或更多特殊目的城市的專用數(shù)據(jù)庫。專用的數(shù)據(jù)庫示例性地包括與目的城市相關的專用詞和短語,例如特殊的旅館、街道名稱、飯館、游覽勝地等。可以在不脫離本發(fā)明范圍的情況下實現(xiàn)專用數(shù)據(jù)庫的其它類型(也就是,不同于基于城市的數(shù)據(jù)庫)。
假如需要,客戶機304的用戶可以要求一個和更多語言從屬數(shù)據(jù)庫(對應于一種或更多種自然語言)以及一個或更多專用數(shù)據(jù)庫的傳送。當應用項目從服務器302傳送到客戶移動設備之后,就可以通過將語言從屬翻譯數(shù)據(jù)庫和任意一個專用數(shù)據(jù)庫應用到翻譯引擎來實現(xiàn)語言之間的翻譯。翻譯引擎可以長時間駐留在客戶機304中或者被偶爾地從服務器302傳送輸?shù)娇蛻魴C304(也就是,傳送一個語言從屬或者專用數(shù)據(jù)庫)。翻譯引擎示例性地執(zhí)行一個將在下文中詳細描述的特殊的翻譯方案。
按照一個特殊的實施例,一個將去北京旅行的美國人從服務器將翻譯引擎、中一英雙向翻譯模板和字典以及一個北京專用翻譯字典下載到他/她無線移動設備中。在北京,美國人可以將語言從屬翻譯數(shù)據(jù)庫和城市專用翻譯數(shù)據(jù)庫應用到翻譯引擎以易于在北京有效的交流。翻譯引擎示例性地是語言獨立的。
IV.優(yōu)選的翻譯方案有很多與為自由文本(free text)提供高質量翻譯相關的難題。按照一個實施例,為了防止其中一些難題的發(fā)生,由服務器302提供和在客戶機304上執(zhí)行的翻譯業(yè)務是基于“聯(lián)合翻譯”方案的。按照該方案,可以提供對于典型情況的翻譯。對于每一種典型情況,將典型的語句與用各種外國語言對它們的翻譯一起收集?;谶@些例句,利用基于例句的翻譯系統(tǒng)得到翻譯。
圖4是一個流程圖,一般性地描述了聯(lián)合翻譯方案的工作流程。該過程的第一個步驟是讓客戶機的用戶與他或她的客戶機設備交互,以便完成源句子408的選擇。如框402、404和406所示,用戶可以通過語言輸入、手寫輸入和/或鍵盤輸入所完成的交互來選擇源句子408。在不脫離本發(fā)明的范圍下,也可以利用其它的輸入方法。示例性地從已經(jīng)從服務器302下載到客戶機304的語言從屬數(shù)據(jù)庫和專用數(shù)據(jù)庫中選擇源句子408。源句子408示例性地屬于一種用戶熟悉的語言在已經(jīng)選擇源句子之后,翻譯機410應用語言獨立翻譯引擎將源句子翻譯成目標句子412。目標句子412示例性地是用戶想要完成交互的語言。按照框414和416,目標句子412作為語音(也就是模擬語音)輸出或者在顯示器中輸出給客戶機設備的用戶。用戶則利用該輸出以一種相對的外文完成交流。在不脫離本發(fā)明的范圍下,也可以產(chǎn)生其它形式的輸出。
按照一個實施例,源句子408的選擇像直接的用戶輸出那樣簡單。例如,用戶利用語音、手寫或者鍵盤輸入的方法可以直接將源句子輸入到客戶機設備?;蛘撸淳渥?08的選擇可以通過一個選擇過程完成。例如,客戶機設備可以從用戶的選擇中提供一個分類的源句子408的列表。
然而,按照本發(fā)明的一個方面,下載到客戶機設備的語言從屬數(shù)據(jù)庫包括有限數(shù)目的例句。假如這些例句的其中一個準確地匹配用戶所尋找的句子,那么用戶選擇該句子充當源句子408。否則,用戶選擇與用戶所尋找的比較類似的例句。那么,系統(tǒng)被配置為可以允許用戶改變類似的句子直到它以適當?shù)男问匠洚斣淳渥?08。用戶示例性地可以通過用字典中包含的元素替換句子元素來改變類似的句子,該字典是從語言從屬數(shù)據(jù)庫和/或一個或更多下載的專用數(shù)據(jù)庫中發(fā)現(xiàn)的。在這種方法中,用戶把相似的語句變換成所需的源句子408。換句話說,源句子408的選擇可以利用兩個步驟過程完成。首先,選擇相似的句子。然后,通過替代、增加和/或刪除項修改相似的句子,直到相似的句子是合理的或與源句子408恰當近似。
按照本發(fā)明的一個方面,可以以至少兩種方式選擇相似的句子。首先,用戶可以手動瀏覽語句數(shù)據(jù)庫(也就是部分語言從屬數(shù)據(jù)庫)。瀏覽過程示例性地利用基于分類的菜單系統(tǒng)是很容易的。例如,用戶可以利用一個輸入設備選擇一個寬的類別,例如“TAXI”。一旦進行選擇,子分類的列表便會出現(xiàn)在用戶面前。用戶可以通過菜單系統(tǒng)移動,直到他或她發(fā)現(xiàn)一個類似于他們所尋找的可以充當源句子408的句子。然后用戶修改類似的句子,直到它適合充當源句子408。
然而或者,用戶可以通過輸入他們所要尋找的內(nèi)容開始查找類似的句子。然后,系統(tǒng)將從數(shù)據(jù)庫中檢索類似的語句,并呈現(xiàn)給用戶用于選擇。用戶則選擇一個非常類似于他們所尋找的句子。然后,用戶修改類似的語句直到它適合充當源句子408。例如,用戶可以輸入“May I get to the train station quickly by taxi?”然后該系統(tǒng)將查找語句數(shù)據(jù)庫并提供一個列表,例如a.“May I get to the hotel by taxi?”b.“I get to the train station by bus.”c.“I get to the train station quickly.”然后,用戶從列表中選擇一個句子充當類似的句子(也就是修改的基礎)。在修改的一個實例中,用戶可以選擇用”train station”替換在語句”a.”中的片段“thehotel”來進行修改。術語”train station”是一個示例性地術語,其可以從用于翻譯的語言從屬數(shù)據(jù)庫中得到。
按照本發(fā)明的一個方面,圖5是一個描述整個流程的流程圖,其中用戶從輸入一個他們希望翻譯的句子開始。框502表示用戶的輸入,其可以經(jīng)由語音輸入、鍵盤輸入手寫輸入或其它的輸入完成???04代表輸入與語句和模板506的匹配過程,上述語句和模塊506存儲在客戶機作為部分語言從屬數(shù)據(jù)庫(和/或部分任何專用數(shù)據(jù)庫)。
框508表示對用戶輸入定位恰當?shù)钠ヅ涞那闆r。在那種情況下,按照框510,被示例性地作為被下載的語言從屬數(shù)據(jù)庫和獨立翻譯引擎一部分執(zhí)行的字典和規(guī)則512被應用于翻譯語句508,并產(chǎn)生輸出514(也就是語音或者顯示輸出)。
框516表示沒有對用戶輸入定位恰當?shù)钠ヅ涞那闆r,但是定位了一個相似的匹配。模板516代表從數(shù)據(jù)庫506檢索的相似匹配。按照框518,用戶修改相似的匹配,直到它可以合理的近似于原始輸入502。然后,按照框510,將被修改的語句翻譯成輸出514(也就是語音或者顯示輸出)。
框520代表既沒有對輸入502定位恰當?shù)钠ヅ?,也沒有定位合理的估計的情況。在這種情況下,對應的輸入502被傳送回到服務器。按照框522,利用該輸入以訓練隨后被傳送給其它客戶機的語音從屬數(shù)據(jù)庫和/或專用數(shù)據(jù)庫。
V.基于模板的機器翻譯按照本發(fā)明的一個方面,通過一種基于模板的機器翻譯方法實現(xiàn)已描述的翻譯過程,該過程通常通過方程1的取樣數(shù)據(jù)格式舉例說明方程1<template id=“100002”cntSlot=“2”>
<Example Sentence>
<es>Can I get back to<slot id=”1”>thehotel</slot>quickly from<slot id=”2”>
here</slot>by taxi?</es>
<cs>□<slot id=”2”>□□</slot>□□□□□□□□□□<slot id=”1”>□□</slot>□□</cs>
</Example Sentence>
</template>
按照基于模板的機器翻譯方法,通過應用容納基于模板的方法的算法完成從語言從屬數(shù)據(jù)庫檢索與用戶想要翻譯的語句近似的一個句子。該算法通常包括兩個步驟。
算法的第一個步驟是使用加權項頻率/反向文件頻率(TF-IDF)信息檢索方法選擇候選語句。據(jù)此被表示為D的例句的集合包括多個文件,其中每一個文件實際上是一個例句。關于一個文件(僅包含一個語句)的索引結果表示為一個加權的矢量方程2
這里,dik(1≤k≤m)是文件Di中項tk的加權,m是矢量空間的尺寸,該矢量空間的尺寸通過在集合中建立的不同項的數(shù)量確定。項示例性地是英文單詞,但這不是必須的。它們可以容易地是日文字符,中文字符或其它語言單位。文件中一個項的加權dik是按照其在文件中的出現(xiàn)頻率(tf-項頻率termfrequency)以及它在整個集合中的分布(idf-反向文件頻率inverse documentfrequency)計算的。有多種方法可以被用于計算dik。例如,可以利用下面的公式等式3
這里,fik是文件Di中項tk的出現(xiàn)頻率;N是集合中文件的總數(shù)量,nk是包括項tk的文件的數(shù)量。
一個查詢(在給出的情況下,對應于用戶希望翻譯的語句)按照一個類似的方法進行索引,同時獲得一個用于查詢的矢量等式4
然后,計算在Di和Qj之間的相似性,將其作為它們矢量之間的內(nèi)積,也就是等式5
輸出是一組語句S,這里方程6
算法的第二個步驟是利用加權編輯距離方法去重新排列已選擇的語句組。假設一個已選擇的語句Di→(di1,di2,…,dim),在Di和Qj之間的表示為ED(Di,Qj)的編輯距離被定義為最小的必須使兩個字符串A和B相等的插入項,刪除項和取代項的數(shù)量。特別是,ED(Di,Qj)被定義為將Di變?yōu)镼j所需的最小操作量,這里操作是下面之一1.改變一個項;2.插入一個項;或3.刪除一個項。
動態(tài)規(guī)劃算法被示例性地用于計算兩個字符串的編輯距離。一個二維的矩陣m
被用于保持編輯距離值等式7m[i,j]=ED(S1[1..i],S2[1..j])m
=0m[i,0]=i,i=1..|S1|m
=j,j=1..|S2|m[i,j]=min(m[i-1,j-1]+ifS1[i]=S2[j]then 0 else 1,m[i-1,j]+1,m[i,j-1]+1),i=1..|S1|,j=1..|S2|m[,]示例性地被逐行計算。行m[i,]僅僅依賴于行m[i-1,]。該算法的時間復雜性是0(|S1|*|S2|)。假如S1和S2在項數(shù)量方面具有“相似“的長度,例如大約是‘n’,則該復雜性是0(n2)。
加權的編輯距離一般涉及這種情況,即每一個操作(插入、刪除、代替)的損失不是必須為1,而是可以基于相關項的意義分配不同的值。例如,隨后的損失數(shù)值列表可以被用于按照下面的特殊部分語音分配數(shù)值
該列表示例性地僅僅可以被修改以適應一個給定應用。通過TF-IDF方法選擇的語句S={Di|Sim(Di,Qj)≥δ}示例性地根據(jù)加權編輯距離ED排列,同時獲得一個有序的列表等式8T={T1,T2,T3,…Tn},這里ED(Ti,Qj)≥ED(Ti+1,Qj). 1≤i≤n該有序的列表被示例性地當作便于所描述的基于模板的翻譯過程的基礎(確定哪些相似句子或語句將提交給用戶)。
盡管本發(fā)明已經(jīng)參照優(yōu)選的實施例進行了描述,但是本領域的技術人員在不脫離本發(fā)明的范圍和精神下,可以在形式和細節(jié)上做出改變。
權利要求
1.一種向客戶機計算設備的用戶提供語言翻譯業(yè)務的方法,該方法包括從用戶接收一個對應于語言選擇的輸入;從客戶機計算設備向服務器發(fā)送一個請求;和從服務器向客戶機傳送一個語言從屬數(shù)據(jù)庫,其中語言從屬數(shù)據(jù)庫符合語言選擇。
2.按照權利要求1的方法,還包括從用戶接收對應于專用數(shù)據(jù)庫選擇的輸入;從客戶機計算設備向服務器發(fā)送一個專用數(shù)據(jù)庫請求;和從服務器向客戶機傳送一個專用數(shù)據(jù)庫,其中專用數(shù)據(jù)庫符合專用數(shù)據(jù)庫選擇。
3.按照權利要求2的方法,其中傳送專用數(shù)據(jù)庫包括傳送一個具有屬于特殊目的地的翻譯信息的專用數(shù)據(jù)庫。
4.按照權利要求3的方法,其中傳送專用數(shù)據(jù)庫包括傳輸一個具有屬于特殊城市的翻譯信息的專用數(shù)據(jù)庫。
5.按照權利要求4的方法,還包括操作客戶機計算設備以利用與語言從屬數(shù)據(jù)庫和專用數(shù)據(jù)庫相關的語言獨立翻譯引擎去執(zhí)行語言翻譯。
6.按照權利要求1的方法,還包括操作客戶機計算設備以利用與語言從屬數(shù)據(jù)庫相關的語言獨立翻譯引擎去執(zhí)行語言翻譯。
7.按照權利要求6的方法,還包括從服務器向客戶機傳送語言獨立翻譯引擎。
8.按照權利要求7的方法,其中傳送語言獨立翻譯引擎包括傳送具有語言從屬數(shù)據(jù)庫的語言翻譯引擎。
9.按照權利要求6的方法,還包括向用戶提供可以訪問包含在語言從屬數(shù)據(jù)庫中并屬于用戶熟悉的語言的例句的集合;從用戶接收一個對應于用戶想要翻譯的例句的選擇輸入。
10.按照權利要求9的方法,其中向用戶提供可以訪問例句的集合包括向用戶提供訪問例句的一個已分類的集合。
11.按照權利要求9的方法,其中利用對應于語言從屬數(shù)據(jù)庫的語言獨立翻譯引擎包括通過利用語言獨立翻譯引擎將包含在語言從屬數(shù)據(jù)庫中的翻譯字典應用到例句中而翻譯例句。
12.按照權利要求6的方法,還包括向用戶提供可以訪問包含在語言從屬數(shù)據(jù)庫并屬于用戶熟悉的語言的例句的集合;從用戶接收一個識別與用戶想要翻譯的目標語句相似但不等同的選擇輸入;從用戶接收一個操作輸入;按照操作輸入修改例句以使例句更接近于目標語句。
13.按照權利要求12的方法,其中向用戶提供例句的集合的訪問包括向用戶提供對例句的已分類的集合的訪問。
14.按照權利要求12的方法,其中利用與語言從屬數(shù)據(jù)庫相關的語言獨立翻譯引擎包括通過利用語言獨立翻譯引擎將包含在語言從屬數(shù)據(jù)庫中的翻譯字典應用到例句中而翻譯例句。
15.按照權利要求6的方法,還包括從用戶接收一個表示用戶想要翻譯的文本的目標輸入;搜索包含在語言從屬數(shù)據(jù)庫中的取樣文本的集合;和識別至少基本上相似于目標輸入的取樣文本。
16.按照權利要求15的方法,其中利用對應于語言從屬數(shù)據(jù)庫的語言獨立翻譯引擎包括通過利用語言獨立翻譯引擎將包含在語言從屬數(shù)據(jù)庫中的翻譯字典應用到取樣文本而翻譯取樣文本。
17.按照權利要求15的方法,其中識別一個取樣文本的步驟包括識別多個與目標文本近似的取樣文本;將多個取樣文本呈現(xiàn)給用戶;和從用戶接收一個識別多個取樣文本中的一個的選擇輸入。
18.按照權利要求15的方法,其中利用語言獨立翻譯引擎和語言從屬數(shù)據(jù)庫包括通過利用語言獨立翻譯引擎,應用包含在語言從屬數(shù)據(jù)庫中的翻譯字典而翻譯多個取樣文本中的一個。
19.按照權利要求15的方法,還包括從用戶接收一個操作輸入;按照操作輸入修改多個取樣文本中的一個以使其更接近于目標語句。
20.按照權利要求19的方法,其中利用語言獨立翻譯引擎和語言從屬數(shù)據(jù)庫包括通過利用語言獨立翻譯引擎將包含在語言從屬數(shù)據(jù)庫中的翻譯字典應用到更接近的語句而翻譯所述更接近的語句。
21.一種操作服務器使其提供語言翻譯業(yè)務的方法,該方法包括存儲對應于第一對語言的第一語言數(shù)據(jù)庫;存儲對應于不同于第一對語言的第二對語言的第二語言從屬數(shù)據(jù)庫;從客戶機接收一個關于翻譯的請求;和通過向客戶機傳送第一和第二語言從屬數(shù)據(jù)庫之一的至少一個復制來響應該請求,。
22.一種實現(xiàn)語言翻譯業(yè)務的裝置,包括一個適合于接收用戶輸入的輸入機制;一個連接到輸入機制,適合接收對應于用戶輸入的輸入信號的處理器;一個連接到處理器的存儲器;一個存儲在存儲器中的語言從屬數(shù)據(jù)庫,該語言從屬數(shù)據(jù)庫包括一個翻譯字典和多個例句;和一個存儲在存儲器中的語言獨立翻譯引擎,處理器適合于基于用戶輸入選擇例句,并且還適合于利用語言獨立翻譯引擎以將翻譯字典應用于例句來產(chǎn)生輸出給用戶的翻譯。
全文摘要
公開了一種翻譯業(yè)務,該業(yè)務通過從服務器有選擇地下載信息被提供給無線移動設備。被下載的信息包括一種具有一個語言獨立翻譯引擎和至少一個語言從屬翻譯數(shù)據(jù)庫的翻譯架構。語言從屬翻譯數(shù)據(jù)庫包括翻譯模板和翻譯字典。一個用于世界上的所選城市或多個城市的專用數(shù)據(jù)庫也可以被下載。語言之間的翻譯可以通過將語言從屬數(shù)據(jù)庫和任意的城市專用翻譯數(shù)據(jù)庫應用到翻譯引擎而實現(xiàn)。翻譯引擎執(zhí)行一個用于簡化翻譯過程的用戶術語項代替方案。
文檔編號G06F1/00GK1530861SQ200410031370
公開日2004年9月22日 申請日期2004年2月24日 優(yōu)先權日2003年2月24日
發(fā)明者M·周, J·高, M 周 申請人:微軟公司