專利名稱:創(chuàng)建用于學(xué)習(xí)單詞翻譯的數(shù)據(jù)的裝置和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及創(chuàng)建用于根據(jù)上下文學(xué)習(xí)單詞翻譯的學(xué)習(xí)數(shù)據(jù)的裝置和方法。
背景技術(shù):
將源語言輸入文本(原文)翻譯成不同于所述源語言的目標(biāo)語言文本 (譯文)的機器翻譯裝置包括存儲了源語言單詞與目標(biāo)語言翻譯的多個組合 的雙語詞典。 一般采用原文的部分或全部作為關(guān)鍵字對所述雙語詞典進(jìn)行 搜索,從而基于搜索到的翻譯創(chuàng)建所要輸出的翻譯。
即使對于源語言形式的同一單詞而言,有時也會根據(jù)所出現(xiàn)的上下文 具有不同的適當(dāng)翻譯。因此,在所述雙語詞典中,往往相對于源語言形式 的一個單詞注冊目標(biāo)語言形式的多個翻譯。因此, 一個重要的問題是從所
述多個翻譯中根據(jù)所出現(xiàn)的上下文選擇適當(dāng)?shù)姆g,從而提高機器翻譯裝 置的翻譯準(zhǔn)確性。
作為針對該問題的一種措施,有人提出了一種方法,其中,針對所出 現(xiàn)的每一上下文學(xué)習(xí)合適的翻譯,從而通過參考學(xué)習(xí)結(jié)果選擇翻譯。例如,
JP-A 2002-73602(特開)提出了一種針對翻譯學(xué)習(xí)方法的技術(shù),其中,用戶 參考原文和機器翻譯裝置輸出的翻譯,針對原文單詞指定適當(dāng)?shù)姆g,其 中已為原文單詞輸出了不適當(dāng)?shù)姆g。
然而,根據(jù)JP-A 2002-73602 (特開)中描述的翻譯學(xué)習(xí)方法,用戶需要 逐字向系統(tǒng)指示適當(dāng)?shù)姆g,因此要付出大量的勞動。也就是說,在常規(guī) 方法中,由于每個所出現(xiàn)的上下文的翻譯學(xué)習(xí)的翻譯學(xué)習(xí)數(shù)據(jù)通常是人工 創(chuàng)建的,所以產(chǎn)生學(xué)習(xí)數(shù)據(jù)的處理工作量就變得過大。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個方面,數(shù)據(jù)創(chuàng)建裝置創(chuàng)建學(xué)習(xí)數(shù)據(jù),所述學(xué)習(xí)數(shù)據(jù)
用于學(xué)習(xí)與源語言形式的一個單詞相對應(yīng)的多個翻譯候選的適當(dāng)使用,所 述翻譯候選是以目標(biāo)語言形式描述的。
所述數(shù)據(jù)創(chuàng)建裝置包括輸入單元,其用于輸入所述源語言形式的語 句;翻譯生成單元,其用于將所述語句中的一個單詞翻譯成所述目標(biāo)語言 形式,并針對所述單詞生成所述目標(biāo)語言形式的多個翻譯候選和表示所述 翻譯候選的概率的似真性;對應(yīng)信息創(chuàng)建單元,其用于創(chuàng)建多條對應(yīng)信息, 在所述多條對應(yīng)信息中,使所述單詞分別相關(guān)于所述多個翻譯候選;判斷 單元,其用于判斷所述翻譯候選的似真性是否大于預(yù)定閾值;以及學(xué)習(xí)數(shù) 據(jù)創(chuàng)建單元,其用于創(chuàng)建所述學(xué)習(xí)數(shù)據(jù),在所述學(xué)習(xí)數(shù)據(jù)中,將所述語句 中的另一個單詞添加到其所具有的所述似真性大于所述閾值的所述翻譯候 選的對應(yīng)信息內(nèi)。
根據(jù)本發(fā)明的另一方面,在數(shù)據(jù)創(chuàng)建裝置中執(zhí)行數(shù)據(jù)創(chuàng)建方法,其創(chuàng) 建學(xué)習(xí)數(shù)據(jù),所述學(xué)習(xí)數(shù)據(jù)用于學(xué)習(xí)與源語言形式的一個單詞相對應(yīng)的多 個翻譯候選的適當(dāng)使用,所述翻譯候選是以目標(biāo)語言形式描述的。
所述數(shù)據(jù)創(chuàng)建方法包括輸入所述源語言形式的語句;將所述語句中 的一個單詞翻譯成目標(biāo)語言形式,并針對所述單詞生成所述目標(biāo)語言形式 的多個翻譯候選和表示所述翻譯候選的概率的似真性;創(chuàng)建多條對應(yīng)信息, 在所述多條對應(yīng)信息中,使所述單詞分別相關(guān)于所述多個翻譯候選;判斷 所述翻譯候選的似真性是否大于預(yù)定閾值;以及創(chuàng)建所述學(xué)習(xí)數(shù)據(jù),在所 述學(xué)習(xí)數(shù)據(jù)中,將所述語句中的另一個單詞添加到其所具有的所述似真性 大于所述閾值的所述翻譯候選的對應(yīng)信息內(nèi)。
圖1是根據(jù)本發(fā)明的實施例的單詞翻譯學(xué)習(xí)裝置的構(gòu)造的方框圖2是用于說明雙語詞典的數(shù)據(jù)結(jié)構(gòu)的例子的示意圖3是用于說明翻譯規(guī)則的例子的示意圖4是用于說明學(xué)習(xí)結(jié)果的數(shù)據(jù)結(jié)構(gòu)的例子的示意圖5是根據(jù)實施例的學(xué)習(xí)數(shù)據(jù)創(chuàng)建/學(xué)習(xí)處理的整個流程的流程圖6是根據(jù)實施例的翻譯生成處理的整個流程的流程圖7是用于說明語形學(xué)分析和翻譯獲取處理的處理結(jié)果的例子的示意
圖8是用于說明相關(guān)性分析的處理結(jié)果的例子的示意圖; 圖9是相關(guān)關(guān)系的直觀表達(dá)的示意圖10是用于說明應(yīng)用了翻譯規(guī)則時的處理結(jié)果的示意圖; 圖11是用于說明判斷結(jié)果的例子的示意圖12是用于說明所要創(chuàng)建的單詞翻譯學(xué)習(xí)數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)的例子的示 意圖13是根據(jù)實施例的單詞翻譯學(xué)習(xí)處理的整個流程的流程圖14是用于說明學(xué)習(xí)矢量的例子的示意圖15是用于說明學(xué)習(xí)結(jié)果的另一數(shù)據(jù)格式的例子的示意圖16是用于說明處理結(jié)果的例子的示意圖17是用于說明矢量表示的例子的示意圖;以及
圖18是用于說明根據(jù)實施例的單詞翻譯學(xué)習(xí)裝置的硬件配置的示意圖。
具體實施例方式
下面將參考附圖詳細(xì)說明根據(jù)本發(fā)明的用于針對單詞翻譯學(xué)習(xí)創(chuàng)建數(shù) 據(jù)的裝置和方法的示范性實施例。將通過舉例的方式說明本發(fā)明的實施例, 在所述例子中,將本發(fā)明實現(xiàn)為單詞翻譯學(xué)習(xí)裝置,其創(chuàng)建用于學(xué)習(xí)單詞 翻譯的數(shù)據(jù),并根據(jù)所創(chuàng)建的學(xué)習(xí)數(shù)據(jù)學(xué)習(xí)單詞翻譯,以輸出學(xué)習(xí)結(jié)果。 注意,本發(fā)明的裝置不限于單詞翻譯學(xué)習(xí)裝置,其可以是任何能夠創(chuàng)建用 于學(xué)習(xí)單詞翻譯的學(xué)習(xí)數(shù)據(jù)的裝置。
根據(jù)本實施例的單詞翻譯學(xué)習(xí)裝置機械地翻譯源語言的輸入語句(下 文稱為"輸入文本"),以創(chuàng)建單詞翻譯學(xué)習(xí)數(shù)據(jù),所述數(shù)據(jù)包括在翻譯時 應(yīng)用了翻譯規(guī)則的翻譯和輸入文本。相應(yīng)地,在出現(xiàn)了輸入文本所包括的 單詞的上下文中,能夠?qū)W習(xí)通過應(yīng)用了翻譯規(guī)則而獲取的翻譯的采納。
如圖1所示,單詞翻譯學(xué)習(xí)裝置100包括雙語詞典存儲單元121、翻譯 規(guī)則存儲單元122、學(xué)習(xí)結(jié)果存儲單元123、輸入單元101、翻譯生成單元 110、對應(yīng)信息創(chuàng)建單元102、判斷單元103、學(xué)習(xí)數(shù)據(jù)創(chuàng)建單元104、學(xué)習(xí) 單元105和輸出控制器106。
雙語詞典存儲單元121存儲雙語詞典,在所述雙語詞典中,至少一個 翻譯與源語言單詞相關(guān)。如圖2所示,所述雙語詞典包括單詞描述、作為 原型的單詞的描述、詞性和翻譯列表。在針對一個單詞存在多個翻譯候選 時,在翻譯列表的列中描述通過符號";"分隔的多個翻譯。
返回到圖1,翻譯規(guī)則存儲單元122存儲翻譯時采用的翻譯規(guī)則。如圖 3所示,所述翻譯規(guī)則包括根據(jù)翻譯規(guī)則用于標(biāo)識單詞的單詞ID、單詞描 述、作為原型的單詞描述、詞性、指示具有相關(guān)關(guān)系的單詞的ID的相關(guān)目 的地ID和翻譯。在將在下文中予以描述的翻譯單元114根據(jù)相關(guān)性分析結(jié) 果(語法分析結(jié)果)從多個翻譯候選中選擇適當(dāng)?shù)姆g時,參考所述翻譯規(guī) 則。
在圖3所示的翻譯規(guī)則中,在原型為"interests詞性為名詞的單詞 修飾原型為"pay",詞性為動詞的單詞時,將"interest"的日文翻譯指 定為單詞301(利息)。此外,當(dāng)列"描述"、"原型"或"詞性"為空時,將 空白列以外的項目與分析結(jié)果進(jìn)行對照(collate)。在"翻譯"列為空時, 不選擇任何翻譯。
返回到圖1,學(xué)習(xí)結(jié)果存儲單元123存儲學(xué)習(xí)單元105的學(xué)習(xí)結(jié)果。如 圖4所示,在本實施例中,按照一定的格式表達(dá)學(xué)習(xí)結(jié)果,在所述格式中, 使在所要學(xué)習(xí)的單詞之前和之后出現(xiàn)的單詞的頻率矢量化。在下述說明中, 將具有矢量格式的學(xué)習(xí)結(jié)果稱為學(xué)習(xí)矢量。學(xué)習(xí)矢量的矢量化方法不限于 此,可以采用任何常規(guī)使用的方法,例如,按照與所關(guān)注的單詞相隔的距 離對值加權(quán)的方法等。
圖4示出了相對于作為"interest"的日文翻譯候選的單詞401 (興味)、 單詞402(権利)和單詞403(利息)的學(xué)習(xí)結(jié)果。在所述單詞翻譯學(xué)習(xí)數(shù)據(jù)中 出現(xiàn)在"interest"附近的相應(yīng)單詞對應(yīng)于所述學(xué)習(xí)矢量的相應(yīng)維度。所 述相應(yīng)維度的值指示對應(yīng)單詞的頻率。最初將所述學(xué)習(xí)矢量的相應(yīng)維度的 所有值都設(shè)為0。
雙語詞典存儲單元121、翻譯規(guī)則存儲單元122和學(xué)習(xí)結(jié)果存儲單元 123可以是任何一般采用的記錄介質(zhì),例如,硬盤驅(qū)動器(HDD)、光盤、存 儲卡和隨機存取存儲器(RAM)。
返回到圖1,輸入單元101通過諸如鍵盤之類的輸入裝置(未示出)或者
從諸如磁盤之類的記錄介質(zhì)(未示出)輸入源語言形式的文本(輸入文本)。
翻譯生成單元110相對于輸入文本中包括的每一單詞生成目標(biāo)語言的 翻譯和表示所述翻譯的概率的似真性。在本實施例中,翻譯生成單元110
采用與常規(guī)采用的轉(zhuǎn)換方法中的機器翻譯相同的方法將輸入文本翻譯成目
標(biāo)語言。翻譯生成單元110包括語形學(xué)(morphological)分析單元111、翻 譯獲取單元112、相關(guān)性分析單元113和翻譯單元114。
語形學(xué)分析單元111針對輸入文本執(zhí)行語形學(xué)分析,從而以單詞為單 位對文本進(jìn)行劃分。翻譯獲取單元112從雙語詞典存儲單元121獲取對應(yīng) 于每一劃分出的單詞的目標(biāo)語言翻譯。相關(guān)性分析單元113分析所劃分的 單詞之間的相關(guān)關(guān)系。
翻譯單元114通過向所述相關(guān)性分析結(jié)果應(yīng)用翻譯規(guī)則而根據(jù)所述相 關(guān)關(guān)系獲取適當(dāng)?shù)姆g。具體地,在從雙語詞典存儲單元121獲取了多個 翻譯作為針對所劃分的單詞的翻譯時,翻譯單元114參考所分析的相關(guān)關(guān) 系和翻譯規(guī)則存儲單元122中的翻譯規(guī)則獲取對應(yīng)于作為相關(guān)目的地的單 詞的翻譯。
例如,在相關(guān)性分析單元113獲取的相關(guān)性分析結(jié)果的部分與圖3所 示的翻譯規(guī)則中的"單詞ID"、"描述"、"原型"、"詞性"和"相關(guān)目的地 ID"指定的語法模式相匹配時,獲取翻譯規(guī)則中的"翻譯"列中所指定的 翻譯。
翻譯生成單元110將通過應(yīng)用翻譯規(guī)則獲取的翻譯設(shè)為似真性=1,將 未經(jīng)應(yīng)用翻譯規(guī)則而獲取的翻譯設(shè)為似真性=0。翻譯生成單元110的翻譯 處理和似真性設(shè)置方法不限于此,可以應(yīng)用任何常規(guī)采用的機器翻譯技術(shù), 只要能夠生成輸入文本中包括的每一單詞的翻譯并且能夠生成表示每一翻 譯的概率的似真性即可。
對應(yīng)信息創(chuàng)建單元102通過將輸入文本中的單詞與翻譯生成單元110 針對該單詞生成的翻譯相組合來創(chuàng)建對應(yīng)信息。
判斷單元103相對于所創(chuàng)建的各條對應(yīng)信息判斷翻譯的似真性是否大 于預(yù)定閾值,由此判斷是否采納所述對應(yīng)信息作為單詞翻譯學(xué)習(xí)數(shù)據(jù)。在 本實施例中,由于似真性的值為0或1,因而,例如,可以采用0作為閾值。 之后,判斷單元103判斷采用包括似真性為1的翻譯的對應(yīng)信息,gp,包
括通過應(yīng)用轉(zhuǎn)換規(guī)則獲取的翻譯的對應(yīng)信息。
學(xué)習(xí)數(shù)據(jù)創(chuàng)建單元104通過使輸入文本中包括的每一單詞與被作為單 詞翻譯學(xué)習(xí)數(shù)據(jù)采用的對應(yīng)信息相關(guān)而創(chuàng)建單詞翻譯學(xué)習(xí)數(shù)據(jù)。下面將說
明單詞翻譯學(xué)習(xí)數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)的細(xì)節(jié)。
學(xué)習(xí)單元105采用所創(chuàng)建的經(jīng)翻譯的翻譯學(xué)習(xí)數(shù)據(jù)執(zhí)行單詞翻譯學(xué)習(xí)。 具體地,學(xué)習(xí)單元105采用存儲在學(xué)習(xí)結(jié)果存儲單元123中的學(xué)習(xí)矢量學(xué) 習(xí)翻譯。由學(xué)習(xí)單元105執(zhí)行的單詞翻譯學(xué)習(xí)方法不限于采用學(xué)習(xí)矢量的 方法,可以應(yīng)用任何常規(guī)采用的方法,例如,采用以支持矢量機(SVM)為代 表的機械學(xué)習(xí)機學(xué)習(xí)翻譯的方法。
輸出控制器106控制學(xué)習(xí)數(shù)據(jù)創(chuàng)建單元104創(chuàng)建的單詞翻譯學(xué)習(xí)數(shù)據(jù) 或者學(xué)習(xí)單元105的學(xué)習(xí)結(jié)果的輸出處理。例如,輸出控制器106將學(xué)習(xí) 結(jié)果輸出至學(xué)習(xí)結(jié)果存儲單元123。其構(gòu)造可以使得輸出控制器106將學(xué)習(xí) 結(jié)果輸出至諸如顯示單元或打印機的輸出單元(未示出)。
接下來將參考圖5說明根據(jù)本實施例的由單詞翻譯學(xué)習(xí)裝置100執(zhí)行 的學(xué)習(xí)數(shù)據(jù)創(chuàng)建/學(xué)習(xí)處理。在所述學(xué)習(xí)數(shù)據(jù)創(chuàng)建/學(xué)習(xí)處理中,由輸入文 本創(chuàng)建學(xué)習(xí)數(shù)據(jù),并基于所創(chuàng)建的學(xué)習(xí)數(shù)據(jù)學(xué)習(xí)翻譯。
輸入單元101首先接收輸入文本的輸入(步驟S501)。翻譯生成單元110 執(zhí)行相對于輸入文本中的各個單詞生成翻譯的翻譯生成處理(步驟502)。在 下文中將說明翻譯生成處理的細(xì)節(jié)。
在翻譯生成處理之后,對應(yīng)信息創(chuàng)建單元102創(chuàng)建對應(yīng)信息,在所述 信息中,使輸入文本中的每一單詞與相應(yīng)翻譯相關(guān)(步驟S503)。判斷單元 103從所創(chuàng)建的各條對應(yīng)信息中獲取尚未針對其判斷是否采用其作為單詞 翻譯學(xué)習(xí)數(shù)據(jù)的對應(yīng)信息(步驟S504)。
判斷單元103判斷所獲取的對應(yīng)信息中包括的翻譯的似真性是否大于 閾值(步驟S505)。如上所述,所述似真性的值為0或1,并將應(yīng)用了翻譯 規(guī)則的翻譯設(shè)為似真性=1。因此,這一步驟對應(yīng)于判斷所述翻譯是否是通 過應(yīng)用翻譯規(guī)則而獲取的。
在似真性不大于閾值時,即,在未采用所述翻譯規(guī)則的情況下獲取了 所述翻譯時(步驟S505處的"否"),那么判斷單元103判斷不采用當(dāng)前的 對應(yīng)信息作為單詞翻譯學(xué)習(xí)數(shù)據(jù)(步驟S506)。
在似真性大于閾值時,即,在通過應(yīng)用翻譯規(guī)則而獲取了所述翻譯時
(步驟S505處的"是"),判斷單元103判斷采用當(dāng)前的對應(yīng)信息作為單詞 翻譯學(xué)習(xí)數(shù)據(jù)(步驟S507)。在這種情況下,學(xué)習(xí)數(shù)據(jù)創(chuàng)建單元104創(chuàng)建使 所采用的對應(yīng)信息與輸入文本相關(guān)的單詞翻譯學(xué)習(xí)數(shù)據(jù)(步驟S508)。
之后,判斷單元103判斷是否處理了所有的對應(yīng)信息(步驟S509)。在 尚未處理所有的對應(yīng)信息時(步驟S509處的"否"),判斷單元103獲取下 一對應(yīng)信息,以重復(fù)所述處理(步驟S504)。在處理了所有的對應(yīng)信息時(步 驟S509處的"是"),學(xué)習(xí)單元105基于所創(chuàng)建的單詞翻譯學(xué)習(xí)數(shù)據(jù)執(zhí)行 單詞翻譯學(xué)習(xí)處理(步驟S510)。在下文中將說明單詞翻譯學(xué)習(xí)處理的細(xì)節(jié)。
在單詞翻譯學(xué)習(xí)處理之后,輸出控制器106將單詞翻譯學(xué)習(xí)處理的結(jié) 果輸出至學(xué)習(xí)結(jié)果存儲單元123(步驟S511),并完成學(xué)習(xí)數(shù)據(jù)創(chuàng)建/學(xué)習(xí)處 理。
將參考圖6詳細(xì)說明步驟S502處的翻譯生成處理。 語形學(xué)分析單元111針對輸入文本執(zhí)行語形學(xué)分析,從而將輸入文本 劃分為單詞(步驟S601)。翻譯獲取單元112從雙語詞典存儲單元121中的
雙語詞典獲取分別對應(yīng)于所劃分的單詞的翻譯(步驟S602)。
圖7示出了在源語言為英語,目標(biāo)語言為日語,并且提供了英文輸入 文本"pay d印osit interest"的情況下的處理結(jié)果。
如圖7所示,所述處理結(jié)果包括用于標(biāo)識輸入文本的單詞的單詞ID、 輸入文本的單詞的描述、所述單詞的原型、詞性、相關(guān)目的地、翻譯列表 和指示規(guī)則應(yīng)用的存在的標(biāo)記。對于原型、詞性和翻譯列表而言,設(shè)置從 雙語詞典獲取的信息。
在"相關(guān)目的地"列中設(shè)置具有單詞相關(guān)關(guān)系的單詞的單詞ID。由于 相關(guān)目的地是通過語形學(xué)分析之后執(zhí)行的語法分析設(shè)置的,因而在這一階 段相關(guān)目的地列為空白。在"規(guī)則應(yīng)用"列中,在應(yīng)用了翻譯規(guī)則時設(shè)置1, 在未應(yīng)用翻譯規(guī)則時設(shè)置O。也就是說,在"規(guī)則應(yīng)用"列中設(shè)置對應(yīng)于針 對相應(yīng)的翻譯的似真性的值。由于"規(guī)則應(yīng)用"列是通過應(yīng)用在語法分析 之后執(zhí)行的翻譯規(guī)則的處理設(shè)置的,因而在這一階段將默認(rèn)值設(shè)為"0"。
返回到圖6,相關(guān)性分析單元113針對所劃分的單詞執(zhí)行相關(guān)性分析(語 法分析)(步驟S603)。因此,明確了單詞之間的相關(guān)關(guān)系。
如圖8所示,將每一單詞的相關(guān)目的地的單詞ID設(shè)置到"相關(guān)目的地" 列內(nèi)。在沒有相關(guān)目的地時,將設(shè)置到"相關(guān)目的地"列內(nèi)。
圖9是用于對圖8中的相關(guān)關(guān)系進(jìn)行直觀表達(dá)的示意圖。圖9示出了 處于通過橢圓形表示的節(jié)點內(nèi)的單詞修飾處于上方節(jié)點內(nèi)的單詞的情況。
翻譯單元114應(yīng)用翻譯規(guī)則以判斷針對單詞的翻譯,其中,在翻譯列 表中包含了多個針對所述單詞的翻譯(步驟S604)。
圖10是用于說明在將圖3所示的翻譯規(guī)則應(yīng)用于圖8所示的語形學(xué)分 析結(jié)果時的處理結(jié)果的示意圖。圖8所示的語形學(xué)分析結(jié)果中的"interest" 修飾"pay"的部分符合圖3中的翻譯規(guī)則。因此,將圖3中的單詞301 (利 息)判斷為"interest"的翻譯,并將包括三個翻譯的"interest"的翻譯 列表的值更改為圖8中的翻譯1001 (利息)。將應(yīng)用了規(guī)則的"interest" 的列的值從"1"改為"0"。
對應(yīng)信息創(chuàng)建單元102針對圖IO所示的每一行處理結(jié)果創(chuàng)建使描述與 翻譯列表中的翻譯相關(guān)的對應(yīng)信息。
接下來將說明單詞翻譯學(xué)習(xí)數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)的細(xì)節(jié)。將針對源語言為 英語,目標(biāo)語言為日語,并且提供了英文輸入文本"pay d印osit interest" 的情況說明所要創(chuàng)建的單詞翻譯學(xué)習(xí)數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)。
通過針對輸入文本的翻譯生成處理獲取了圖IO所示的處理結(jié)果。接下 來,判斷單元103判斷是否采納所述對應(yīng)信息作為單詞翻譯學(xué)習(xí)數(shù)據(jù)。
在圖10的例子中,由于表格中的每一行對應(yīng)于每一條對應(yīng)信息,因而 判斷單元103針對每一行執(zhí)行判斷。判斷單元103基于是否包括應(yīng)用了翻 譯規(guī)則的翻譯判斷是否采納所述對應(yīng)信息作為單詞翻譯學(xué)習(xí)數(shù)據(jù)。也就是 說,判斷單元103采用對應(yīng)于"規(guī)則應(yīng)用"的所在的行的值為"1"的行的 對應(yīng)信息作為單詞翻譯學(xué)習(xí)數(shù)據(jù)。在圖10所示的例子中,僅將使單詞 "interest"與日文翻譯1001 (利息)相關(guān)的對應(yīng)信息采納為單詞翻譯學(xué)習(xí) 數(shù)據(jù)。
在圖11中,以表格形式示出了表達(dá)判斷結(jié)果的例子。如圖11所示, 0 述判斷結(jié)果包括單詞ID、描述、原型、詞性、翻譯和指示是否將所述對 應(yīng)信息采納為單詞翻譯學(xué)習(xí)數(shù)據(jù)的學(xué)習(xí)標(biāo)記。將圖IO所示的翻譯生成處理 的處理結(jié)果的值直接設(shè)置到單詞ID、描述和詞性列內(nèi)。
將圖10所示的翻譯列表列中的最上面的翻譯設(shè)為所述翻譯。在圖10 所示的例子中,沒有在翻譯列表中保留了多個翻譯的單詞。因此,將圖10 中的翻譯列表的值直接設(shè)置到圖11所示的翻譯列中。直接設(shè)置圖10中的
規(guī)則應(yīng)用值。
學(xué)習(xí)數(shù)據(jù)創(chuàng)建單元104參考圖11所示的判斷結(jié)果來創(chuàng)建單詞翻譯學(xué)習(xí) 數(shù)據(jù)。如圖12所示,學(xué)習(xí)數(shù)據(jù)創(chuàng)建單元104創(chuàng)建了這樣的單詞翻譯學(xué)習(xí)數(shù) 據(jù),其中,將所采納的對應(yīng)信息的翻譯作為"〈learn〉"標(biāo)簽的"tw"屬性 的值嵌入到了輸入文本中。
單詞翻譯學(xué)習(xí)數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)不限于圖12所示的格式,可以采用任何 使單詞和翻譯的組合與輸入文本中的所述單詞之外的至少一個單詞相關(guān)的 數(shù)據(jù)格式。例如,可以采用圖ll所示的表格格式中的整個判斷結(jié)果作為單 詞翻譯學(xué)習(xí)數(shù)據(jù)??梢圆捎猛ㄟ^相關(guān)單詞表達(dá)的上下文中的單詞翻譯學(xué)習(xí) 數(shù)據(jù)來學(xué)習(xí)具體翻譯的選擇。
圖12中的單詞翻譯學(xué)習(xí)數(shù)據(jù)表明,相對于文本"pay d印osit interest",即,在出現(xiàn)了 "pay"和"d印osit"的上下文中,將"interest" 轉(zhuǎn)換為日文單詞1201(利息)。
就常規(guī)而言,已經(jīng)人工創(chuàng)建了單詞翻譯學(xué)習(xí)數(shù)據(jù);但是,在本實施例 中,能夠僅通過用戶根據(jù)上述處理輸入源語言文本獲取單詞翻譯學(xué)習(xí)數(shù)據(jù)。 相應(yīng)地,能夠顯著降低創(chuàng)建單詞翻譯學(xué)習(xí)數(shù)據(jù)的時間和工作量。
將參考圖13說明步驟S510處的單詞翻譯學(xué)習(xí)處理的細(xì)節(jié)。例如,將 說明這樣一種情況,其中,采用具有圖ll所示的表格格式的單詞翻譯學(xué)習(xí) 數(shù)據(jù)來執(zhí)行學(xué)習(xí)。
學(xué)習(xí)單元105首先從所創(chuàng)建的單詞翻譯學(xué)習(xí)數(shù)據(jù)中獲取未經(jīng)處理的單 詞ID(下文中稱為IDa)(步驟S1301)。之后,學(xué)習(xí)單元105判斷對應(yīng)于所獲 取的IDa的學(xué)習(xí)標(biāo)記是否為"1"(步驟S1302)。在學(xué)習(xí)標(biāo)記為"1"時(步 驟S1302處的"是"),學(xué)習(xí)單元105將對應(yīng)于具有IDa的單詞的翻譯設(shè)置 到變量tw中(步驟S1303)。
學(xué)習(xí)單元105獲取所創(chuàng)建的單詞翻譯學(xué)習(xí)數(shù)據(jù)中的IDa以外的單詞 ID(下文稱為IDb)(步驟S1304)。之后,學(xué)習(xí)單元105針對被設(shè)置為變量tw 的翻譯的學(xué)習(xí)矢量將與單詞ID為IDb的單詞相對應(yīng)的維度值加l(步驟
S1305)。
之后,學(xué)習(xí)單元105判斷所述單詞ID中除IDa之外是否還存在未經(jīng)處 理的單詞ID(步驟S1306)。當(dāng)存在未經(jīng)處理的單詞ID時(步驟S1306處的 "是"),學(xué)習(xí)單元105獲取下一單詞ID作為IDb,并重復(fù)所述處理(步驟 S1304)。
在不存在未經(jīng)處理的單詞ID時(步驟S1306處的"否"),學(xué)習(xí)單元105 判斷是否相對于所有單詞ID執(zhí)行了上述處理(步驟S1307)。
當(dāng)尚未處理所有的單詞ID時(步驟S1307處的"否"),學(xué)習(xí)單元105 獲取下一個未經(jīng)處理的單詞ID作為IDa,以重復(fù)所述處理(步驟S1301)。 在已經(jīng)處理了所有的單詞ID時(步驟S1307中的"是"),學(xué)習(xí)單元105完 成所述單詞翻譯學(xué)習(xí)處理。
接下來將說明單詞翻譯學(xué)習(xí)處理的具體例子。例如,將說明這樣一種 情況,其中,在學(xué)習(xí)結(jié)果處于圖4所示的起始狀態(tài)時,采用圖ll所示的單 詞翻譯學(xué)習(xí)數(shù)據(jù)來學(xué)習(xí)翻譯。
在以0作為單詞ID的單詞"pay"和以1作為單詞ID的單詞"d印osit" 中,學(xué)習(xí)標(biāo)記為"0"(步驟S1302處的"否"),因此不執(zhí)行翻譯學(xué)習(xí)。在 以2為單詞ID的單詞"interest"中,學(xué)習(xí)標(biāo)記為"1"(步驟S1302處的 "是"),因此將更新對應(yīng)翻譯1101(利息)的學(xué)習(xí)矢量。
也就是說,在圖4的例子中,學(xué)習(xí)單元105更新對應(yīng)于單詞403的學(xué) 習(xí)矢量,其中,單詞403是處于最右側(cè)位置的翻譯。學(xué)習(xí)單元105首先將 對應(yīng)于以O(shè)作為單詞ID的單詞"pay(動詞)"的維度值加l。接下來,學(xué)習(xí) 單元105還將對應(yīng)于以1作為單詞ID的單詞"deposit(名詞)"的維度值 加1。圖14是用于說明通過這種方式更新的學(xué)習(xí)矢量的一個例子的示意圖。 如圖14所示,將對應(yīng)于單詞403的學(xué)習(xí)矢量的維度值更新為1。
輸出控制器106能夠?qū)W(xué)習(xí)矢量轉(zhuǎn)換成外部裝置可用的數(shù)據(jù)格式,并 輸出所述數(shù)據(jù)格式。圖15是將對應(yīng)于學(xué)習(xí)矢量的各個維度的單詞的原型和 詞性轉(zhuǎn)換成了特定格式的學(xué)習(xí)結(jié)果的例子。
圖15的學(xué)習(xí)結(jié)果表明,不存在將"interest (名詞)"翻譯成了日文單 詞1501 (興味)或單詞1502 (権利)的學(xué)習(xí)數(shù)據(jù);但是,存在將"interest (名 詞)"翻譯成了單詞1503(利息)的學(xué)習(xí)數(shù)據(jù),并且所述學(xué)習(xí)數(shù)據(jù)表明"pay(動 詞)"和"d印osit(名詞)"分別在"interest"之前和之后出現(xiàn)一次。
可以通過下述方式采用圖15中的學(xué)習(xí)數(shù)據(jù),以提高機器翻譯的質(zhì)量。 例如,將說明將英文輸入文本"The bank owes me 10 years of d印osit interest."翻譯成日文的情況。
在采用圖2所示的雙語詞典和圖3所示的翻譯規(guī)則翻譯輸入文本時, 能夠獲取圖16所示的處理結(jié)果。如果觀察到了對應(yīng)于以8作為單詞ID的 "interest"的翻譯列表,那么由于未向輸入文本應(yīng)用所述翻譯規(guī)則,因 而保留三個翻譯候選(興味、権利、利息)。
如果假設(shè)在存在多個翻譯候選時輸出頂部翻譯,那么在這一例子中則 相對于"interest"輸出了不合適的翻譯(興味)。在這樣的情況下,可以 通過采用圖15所示的學(xué)習(xí)結(jié)果來選擇合適的翻譯(利息)。
這里,假設(shè)獲取了圖14所示的學(xué)習(xí)矢量,或者在獲取了圖15所示的 學(xué)習(xí)結(jié)果時,將其轉(zhuǎn)換為圖14所示的學(xué)習(xí)矢量。
相對于輸入文本"The bank owes me 10 years of deposit interest.,, 中的"interest",采用與學(xué)習(xí)矢量中相同的方法使前后單詞的出現(xiàn)頻率矢 量化。所述矢量的維度不分配給冠詞、代詞、介詞、數(shù)字和符號。圖17是 用于說明通過這種方式轉(zhuǎn)換的矢量表示的一個例子的示意圖。
選擇與圖14的三個學(xué)習(xí)矢量中與圖17中的矢量具有最大的余弦相似 性的學(xué)習(xí)矢量相對應(yīng)的翻譯。相應(yīng)地,由于能夠選擇前后具有共同的單詞 的翻譯,因而能夠獲取更加合適的翻譯。
例如,由于圖14中的三個學(xué)習(xí)矢量的單詞401(興味)和單詞402(権利) 的學(xué)習(xí)矢量的所有分量均為0,因而余弦相似性變成0。另一方面,對于單 詞403(利息)的學(xué)習(xí)矢量而言,對應(yīng)于"d印osit(名詞)"的維度值為1, 對于圖17中的矢量而言,對應(yīng)于"d印osit(名詞)"的維度值也為1。因此, 余弦相似性取得比0大的值。因此,與圖17中的矢量具有最大余弦相似性 的學(xué)習(xí)矢量是對應(yīng)于單詞403(利息)的學(xué)習(xí)矢量。也就是說,能夠?qū)卧~ 403(利息)選作輸入文本"The bank owes me 10 years of d印osit interest."中的單詞"interest"的翻譯。
因而,在根據(jù)本實施例的單詞翻譯學(xué)習(xí)裝置100中,能夠創(chuàng)建輸入文 本,并且能夠在對輸入文本進(jìn)行機器翻譯時創(chuàng)建包括應(yīng)用了翻譯規(guī)則的翻
譯的單詞翻譯學(xué)習(xí)數(shù)據(jù)。相應(yīng)地,能夠降低通常由人工執(zhí)行的單詞翻譯學(xué) 習(xí)數(shù)據(jù)的創(chuàng)建的負(fù)荷。由于能夠基于通過這種方式創(chuàng)建的單詞翻譯學(xué)習(xí)數(shù) 據(jù)執(zhí)行單詞翻譯學(xué)習(xí),因而能夠提高單詞翻譯學(xué)習(xí)處理的效率。
參考圖18說明根據(jù)本實施例的單詞翻譯學(xué)習(xí)裝置100的硬件配置。 根據(jù)本實施例的單詞翻譯學(xué)習(xí)裝置100包括諸如中央處理單元(CPU)51 之類的控制器、諸如只讀存儲器(R0M)52和RAM 53之類的存儲單元、連接 至網(wǎng)絡(luò)以執(zhí)行通信的通信I/F54、諸如硬盤驅(qū)動器(HDD)和光盤(CD)驅(qū)動器 之類的外部存儲單元、諸如顯示器之類的顯示單元、諸如鍵盤和鼠標(biāo)之類 的輸入單元、以及用于使各個單元相互連接的總線61,其是采用普通計算 機的硬件配置。
將通過根據(jù)本實施例的單詞翻譯學(xué)習(xí)裝置100執(zhí)行的數(shù)據(jù)創(chuàng)建程序按 照可安裝或可執(zhí)行的格式文件的形式記錄到諸如只讀光盤存儲器 (CD-ROM)、軟盤(FD)、可記錄光盤(CD-R)和數(shù)字通用盤(DVD)之類的計算機 可讀記錄介質(zhì)上,并提供所述數(shù)據(jù)創(chuàng)建程序。
可以通過將由根據(jù)本實施例的單詞翻譯學(xué)習(xí)裝置100執(zhí)行的數(shù)據(jù)創(chuàng)建 程序存儲到連接至諸如Internet之類的網(wǎng)絡(luò)的計算機上來提供所述數(shù)據(jù)創(chuàng) 建程序,并經(jīng)由所述網(wǎng)絡(luò)下載數(shù)據(jù)創(chuàng)建程序。此外,能夠通過諸如Internet 之類的網(wǎng)絡(luò)提供或散布由根據(jù)所述實施例的單詞翻譯學(xué)習(xí)裝置100執(zhí)行的 數(shù)據(jù)創(chuàng)建程序。
能夠?qū)⒏鶕?jù)所述實施例的數(shù)據(jù)創(chuàng)建程序集成到ROM等內(nèi),從而加以提供。
通過根據(jù)本實施例的單詞翻譯學(xué)習(xí)裝置100執(zhí)行的數(shù)據(jù)創(chuàng)建程序具有 包括上述各單元(輸入單元、翻譯單詞生成單元、對應(yīng)信息創(chuàng)建單元、判斷 單元、學(xué)習(xí)數(shù)據(jù)創(chuàng)建單元、學(xué)習(xí)單元和輸出控制器)的模塊配置。作為實際 硬件,CPU 51(處理器)從記錄介質(zhì)讀出數(shù)據(jù)創(chuàng)建程序,并執(zhí)行所述程序, 從而將這些相應(yīng)的單元加載到主存儲器上,從而在所述主存儲器上生成相 應(yīng)的單元。
權(quán)利要求
1、一種數(shù)據(jù)創(chuàng)建裝置,其用于創(chuàng)建學(xué)習(xí)數(shù)據(jù),所述學(xué)習(xí)數(shù)據(jù)用于學(xué)習(xí)與源語言形式的一個單詞相對應(yīng)的多個翻譯候選的適當(dāng)使用,所述翻譯候選是以目標(biāo)語言形式描述的,所述裝置包括輸入單元,其用于輸入所述源語言形式的語句;翻譯生成單元,其用于將所述語句中的一個單詞翻譯成所述目標(biāo)語言形式,并針對所述單詞生成所述目標(biāo)語言形式的多個翻譯候選和表示所述翻譯候選的概率的似真性;對應(yīng)信息創(chuàng)建單元,其用于創(chuàng)建多條對應(yīng)信息,在所述多條對應(yīng)信息中,使所述單詞分別相關(guān)于所述多個翻譯候選;判斷單元,其用于判斷所述翻譯候選的似真性是否大于預(yù)定閾值;以及學(xué)習(xí)數(shù)據(jù)創(chuàng)建單元,其用于創(chuàng)建所述學(xué)習(xí)數(shù)據(jù),在所述學(xué)習(xí)數(shù)據(jù)中,將所述語句中的另一個單詞添加到所具有的所述似真性大于所述閾值的所述翻譯候選的對應(yīng)信息中。
2、 根據(jù)權(quán)利要求1所述的裝置,其中,所述翻譯生成單元基于預(yù)定的 翻譯規(guī)則將所述語句翻譯成所述目標(biāo)語言形式,并生成所述翻譯候選和所 述似真性。
3、 根據(jù)權(quán)利要求2所述的裝置,還包括詞典存儲單元,其用于存儲雙語詞典,在所述雙語詞典中,將所述源 語言形式的單詞與針對所述源語言形式的單詞的所述翻譯候選彼此相關(guān); 以及翻譯規(guī)則存儲單元,其用于存儲所述翻譯規(guī)則,在所述翻譯規(guī)則中, 將所述源語言形式的單詞、與所述源語言形式的單詞具有相關(guān)關(guān)系的單詞、 和所述翻譯候選彼此相關(guān),其中所述翻譯生成單元包括語形學(xué)分析單元,其用于針對所述語句執(zhí)行語形學(xué)分析,以將所述語 句劃分成多個單詞,翻譯獲取單元,其用于從所述詞典存儲單元獲取針對所劃分的單詞的 所述翻譯候選,相關(guān)性分析單元,其用于分析所劃分的多個單詞之間的所述相關(guān)關(guān)系,以及翻譯單元,其用于針對所劃分的每一單詞,按照所述翻譯規(guī)則存儲單 元中存儲的所述翻譯規(guī)則,將所劃分的單詞和與所劃分的單詞具有所述相 關(guān)關(guān)系的單詞分別與所述源語言形式的單詞和與所述源語言形式的單詞具 有所述相關(guān)關(guān)系的單詞進(jìn)行對照,并按照來自所述翻譯規(guī)則存儲單元的所 述翻譯規(guī)則獲取與所述源語言形式的所述單詞相關(guān)的匹配的翻譯候選。
4、 根據(jù)權(quán)利要求3所述的裝置,其中,所述翻譯生成單元針對從所述 翻譯規(guī)則存儲單元獲取的所述翻譯候選,生成比從所述詞典存儲單元獲取 的所述翻譯候選的似真性大的似真性。
5、 根據(jù)權(quán)利要求3所述的裝置,其中,所述學(xué)習(xí)數(shù)據(jù)創(chuàng)建單元創(chuàng)建所 述學(xué)習(xí)數(shù)據(jù),在所述學(xué)習(xí)數(shù)據(jù)中,使所述語句中包括的單詞相關(guān)于包括從 所述翻譯規(guī)則存儲單元獲取的所述翻譯候選的所述對應(yīng)信息。
6、 根據(jù)權(quán)利要求1所述的裝置,其中,所述學(xué)習(xí)數(shù)據(jù)創(chuàng)建單元創(chuàng)建所 述學(xué)習(xí)數(shù)據(jù),在所述學(xué)習(xí)數(shù)據(jù)中,使所述語句所包括的多個單詞中的除了 所述對應(yīng)信息內(nèi)包括的單詞之外的單詞相關(guān)于包括所具有的似真性大于所 述閾值的所述翻譯候選的所述對應(yīng)信息。
7、 根據(jù)權(quán)利要求1所述的裝置,其中,所述學(xué)習(xí)數(shù)據(jù)創(chuàng)建單元創(chuàng)建所 述學(xué)習(xí)數(shù)據(jù),在所述學(xué)習(xí)數(shù)據(jù)中,在所述語句包括的多個單詞的范圍內(nèi), 使所述對應(yīng)信息中的所述翻譯候選相關(guān)于包括所述語句中含有的單詞和所 具有的似真性大于所述閾值的所述翻譯候選的所述對應(yīng)信息中的單詞。
8、 根據(jù)權(quán)利要求1所述的裝置,還包括學(xué)習(xí)單元,其基于所述學(xué)習(xí)數(shù) 據(jù)學(xué)習(xí)所述多個翻譯候選的適當(dāng)使用。
9、 一種在數(shù)據(jù)創(chuàng)建裝置中執(zhí)行的數(shù)據(jù)創(chuàng)建方法,其創(chuàng)建學(xué)習(xí)數(shù)據(jù),所 述學(xué)習(xí)數(shù)據(jù)用于學(xué)習(xí)與源語言形式的一個單詞相對應(yīng)的多個翻譯候選的適當(dāng)使用,所述翻譯候選是以目標(biāo)語言形式描述的,所述方法包括輸入所述源語言形式的語句;將所述語句中的一個單詞翻譯成目標(biāo)語言形式,并針對所述單詞生成 所述目標(biāo)語言形式的多個翻譯候選和表示所述翻譯候選的概率的似真性;創(chuàng)建多條對應(yīng)信息,在所述多條對應(yīng)信息中,使所述單詞分別相關(guān)于 所述多個翻譯候選;判斷所述翻譯候選的似真性是否大于預(yù)定閾值;以及創(chuàng)建所述學(xué)習(xí)數(shù)據(jù),在所述學(xué)習(xí)數(shù)據(jù)中,將所述語句中的另一個單詞 添加到所具有的所述似真性大于所述閾值的所述翻譯候選的對應(yīng)信息中。
全文摘要
輸入單元接收源語言形式的輸入語句。翻譯生成單元針對輸入語句中包括的單詞生成目標(biāo)語言形式的翻譯,并生成目標(biāo)語言形式的翻譯的似真性。對應(yīng)信息創(chuàng)建單元創(chuàng)建對應(yīng)信息,在所述對應(yīng)信息中,使所述單詞相關(guān)于所述翻譯。判斷單元判斷針對對應(yīng)信息中包括的目標(biāo)語言形式的翻譯所生成的似真性是否大于預(yù)定閾值。學(xué)習(xí)數(shù)據(jù)創(chuàng)建單元創(chuàng)建學(xué)習(xí)數(shù)據(jù),在所述學(xué)習(xí)數(shù)據(jù)中,使輸入語句中包括的單詞相關(guān)于包括其所具有的似真性大于閾值的目標(biāo)語言形式的翻譯的對應(yīng)信息。
文檔編號G06F17/28GK101382933SQ20081021486
公開日2009年3月11日 申請日期2008年9月3日 優(yōu)先權(quán)日2007年9月3日
發(fā)明者出羽達(dá)也 申請人:株式會社東芝