平行句對(duì)的篩選方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及機(jī)器翻譯技術(shù)領(lǐng)域,尤其是涉及一種平行句對(duì)的篩選方法和系統(tǒng)。
【背景技術(shù)】
[0002] 隨著國(guó)際交流的日益深入,人們對(duì)語(yǔ)言翻譯的需求與日倶增。然而,世界上的語(yǔ)言 種類繁多,各有特征,形式靈活,使得語(yǔ)言的機(jī)器翻譯成為尚待解決的難題。為了實(shí)現(xiàn)自動(dòng) 的機(jī)器翻譯,目前的翻譯技術(shù)一般基于統(tǒng)計(jì)模型,而建立可靠的統(tǒng)計(jì)模型需要建立大規(guī)模 高質(zhì)量的平行語(yǔ)料。然而,高質(zhì)量的平行語(yǔ)料常常只存在于少量的幾種語(yǔ)言中,而且往往受 限于特定的領(lǐng)域,例如政府文件、新聞等。隨著互聯(lián)網(wǎng)的興起,國(guó)際信息的交流變得空前便 捷,人們對(duì)高質(zhì)量機(jī)器翻譯的需求也愈加迫切。與此同時(shí),互聯(lián)網(wǎng)也為機(jī)器翻譯帶來(lái)了新的 機(jī)遇?;ヂ?lián)網(wǎng)上的大量語(yǔ)料,使得獲得多種語(yǔ)言、多個(gè)領(lǐng)域的平行語(yǔ)料成為可能。然而,互聯(lián) 網(wǎng)上語(yǔ)料的質(zhì)量參差不齊,直接獲取的雙語(yǔ)語(yǔ)料中可能包含大量噪聲,反而不適合機(jī)器翻 譯系統(tǒng)。為此,需要對(duì)粗糙的雙語(yǔ)語(yǔ)料進(jìn)行處理,從中篩選出可靠的平行句對(duì)。
[0003] 目前的平行句對(duì)篩選方法依賴于詞語(yǔ)對(duì)齊技術(shù),詞語(yǔ)對(duì)齊技術(shù)并非為平行句對(duì)的 篩選開(kāi)發(fā),而是假定輸入語(yǔ)料是互譯的,因此不適合充滿噪聲的輸入語(yǔ)料。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明所要解決的技術(shù)問(wèn)題是如何從大量的粗糙的雙語(yǔ)語(yǔ)料中篩選出可靠的平 行句對(duì)。
[0005] 為解決上述技術(shù)問(wèn)題,本發(fā)明提出了一種平行句對(duì)的篩選方法和系統(tǒng)。
[0006] 第一方面,該方法包括:
[0007] 將每一待篩句對(duì)中的源語(yǔ)言語(yǔ)句和目標(biāo)語(yǔ)言語(yǔ)句均切分成詞;
[0008] 利用雙語(yǔ)詞向量模型確定切分得到的每一個(gè)詞的詞向量;
[0009] 計(jì)算所述源語(yǔ)言語(yǔ)句中每一個(gè)詞在該源語(yǔ)言語(yǔ)句中的權(quán)重值;
[0010] 計(jì)算所述目標(biāo)語(yǔ)言語(yǔ)句中每一個(gè)詞在該目標(biāo)語(yǔ)言語(yǔ)句中的權(quán)重值;
[0011] 建立一目標(biāo)函數(shù),其中:
[0012] 該目標(biāo)函數(shù)的控制變量為所述源語(yǔ)言語(yǔ)句中每一個(gè)詞與所述目標(biāo)語(yǔ)言語(yǔ)句中每 一個(gè)詞之間的轉(zhuǎn)移量;
[0013] 該目標(biāo)函數(shù)的優(yōu)化目標(biāo)為該待篩句對(duì)中源語(yǔ)言語(yǔ)句和目標(biāo)語(yǔ)言語(yǔ)句之間的泥土 移動(dòng)距離最小,所述泥土移動(dòng)距離為所述源語(yǔ)言語(yǔ)句中每一個(gè)詞的詞向量與所述目標(biāo)語(yǔ)言 語(yǔ)句中每一個(gè)詞的詞向量之間的距離與對(duì)應(yīng)的轉(zhuǎn)移量之間的乘積之和;
[0014] 該目標(biāo)函數(shù)的約束條件包括:每一所述轉(zhuǎn)移量大于等于0、所述目標(biāo)語(yǔ)言語(yǔ)句中每 一個(gè)詞的權(quán)重值等于該詞與所述源語(yǔ)言語(yǔ)句中每一個(gè)詞之間的轉(zhuǎn)移量之和、及所述源語(yǔ)言 語(yǔ)句中每一個(gè)詞的權(quán)重值等于該詞與所述目標(biāo)語(yǔ)言語(yǔ)句中每一個(gè)詞之間的轉(zhuǎn)移量之和;
[0015] 計(jì)算所述目標(biāo)函數(shù)的最優(yōu)解,并根據(jù)所述最優(yōu)解確定該待篩句對(duì)的所述泥土移動(dòng) 距離最小值;
[0016] 根據(jù)若干個(gè)待篩句對(duì)的泥土移動(dòng)距離最小值確定平行句對(duì)篩選標(biāo)準(zhǔn),并根據(jù)所述 平行句對(duì)篩選標(biāo)準(zhǔn)進(jìn)行平行句對(duì)的篩選。
[0017] 可選的,該方法還包括:
[0018] 將所述源語(yǔ)言語(yǔ)句和所述目標(biāo)語(yǔ)言語(yǔ)句切分所得到的詞轉(zhuǎn)換為統(tǒng)一的大小寫。
[0019] 可選的,所述利用雙語(yǔ)詞向量模型確定切分得到的每一個(gè)詞的詞向量,包括:
[0020] 建立數(shù)據(jù)集,該數(shù)據(jù)集中包括單語(yǔ)訓(xùn)練集和雙語(yǔ)訓(xùn)練集;
[0021] 利用雙語(yǔ)詞向量模型對(duì)所述單語(yǔ)訓(xùn)練集和所述雙語(yǔ)訓(xùn)練集中的訓(xùn)練語(yǔ)料進(jìn)行訓(xùn) 練,得到每一訓(xùn)練語(yǔ)料的詞向量;
[0022] 從訓(xùn)練語(yǔ)料的詞向量中篩選出該待篩句對(duì)中切分得到的每一個(gè)詞的詞向量。
[0023]可選的,該方法還包括:
[0024]將根據(jù)所述平行句對(duì)篩選標(biāo)準(zhǔn)篩選出的平行句對(duì)加入所述雙語(yǔ)訓(xùn)練集中。
[0025]可選的,所述根據(jù)若干個(gè)待篩句對(duì)的泥土移動(dòng)距離確定平行句對(duì)篩選標(biāo)準(zhǔn),包括: [0026]根據(jù)所述若干個(gè)待篩句對(duì)的泥土移動(dòng)距離設(shè)置篩選比例或設(shè)置篩選距離閾值,將 所述篩選比例或所述篩選距離閾值作為所述平行句對(duì)篩選標(biāo)準(zhǔn)。
[0027] 可選的,采用下式計(jì)算目標(biāo)語(yǔ)言語(yǔ)句或源語(yǔ)言語(yǔ)句中第i個(gè)詞的權(quán)重值:
[0028] K-J.
[0029] 其中,U為目標(biāo)語(yǔ)言語(yǔ)句中第i個(gè)詞的權(quán)重值,Sl為源語(yǔ)言語(yǔ)句中第i個(gè)詞的權(quán)重 值,TF(i)為相應(yīng)語(yǔ)句中第i個(gè)詞的詞頻,IDF(i)為所述相應(yīng)語(yǔ)句中第i個(gè)詞的逆文檔頻率, vt為目標(biāo)語(yǔ)言語(yǔ)句所切分得到的詞的數(shù)量,Vs為源語(yǔ)言語(yǔ)句所切分得到的詞的數(shù)量。
[0030] 可選的,所建立的目標(biāo)函數(shù)為:
[0031] 該目標(biāo)函數(shù)的約束條件包括:[0032] wij > 0
[0033]
[0034]
[0035] 其中,d為泥土移動(dòng)距離的最小值,Clj為目標(biāo)語(yǔ)言語(yǔ)句中第i個(gè)詞的詞向量與源語(yǔ) 言語(yǔ)句中第j個(gè)詞的詞向量之間的距離,為目標(biāo)語(yǔ)言語(yǔ)句中第i個(gè)詞的詞向量與源語(yǔ)言語(yǔ) 句中第j個(gè)詞的詞向量之間的轉(zhuǎn)移量,為目標(biāo)語(yǔ)言語(yǔ)句所切分得到的詞的數(shù)量,VS為源語(yǔ) 言語(yǔ)句所切分得到的詞的數(shù)量,為目標(biāo)語(yǔ)言語(yǔ)句中第i個(gè)詞的權(quán)重值,為源語(yǔ)言語(yǔ)句中 第j個(gè)詞的權(quán)重值。
[0036] 第二方面,該系統(tǒng)包括:
[0037] 切分模塊,用于將每一待篩句對(duì)中的源語(yǔ)言語(yǔ)句和目標(biāo)語(yǔ)言語(yǔ)句均切分成詞;
[0038] 詞向量確定模塊,用于利用雙語(yǔ)詞向量模型確定切分得到的每一個(gè)詞的詞向量;
[0039] 第一計(jì)算模塊,用于計(jì)算所述源語(yǔ)言語(yǔ)句中每一個(gè)詞在該源語(yǔ)言語(yǔ)句中的權(quán)重 值;
[0040]第二計(jì)算模塊,用于計(jì)算所述目標(biāo)語(yǔ)言語(yǔ)句中每一個(gè)詞在該目標(biāo)語(yǔ)言語(yǔ)句中的權(quán) 重值;
[0041 ]函數(shù)建立模塊,用于建立一目標(biāo)函數(shù),其中:
[0042]該目標(biāo)函數(shù)的控制變量為所述源語(yǔ)言語(yǔ)句中每一個(gè)詞與所述目標(biāo)語(yǔ)言語(yǔ)句中每 一個(gè)詞之間的轉(zhuǎn)移量;
[0043]該目標(biāo)函數(shù)的優(yōu)化目標(biāo)為該待篩句對(duì)中源語(yǔ)言語(yǔ)句和目標(biāo)語(yǔ)言語(yǔ)句之間的泥土 移動(dòng)距離最小,所述泥土移動(dòng)距離為所述源語(yǔ)言語(yǔ)句中每一個(gè)詞的詞向量與所述目標(biāo)語(yǔ)言 語(yǔ)句中每一個(gè)詞的詞向量之間的距離與對(duì)應(yīng)的轉(zhuǎn)移量之間的乘積之和;
[0044] 該目標(biāo)函數(shù)的約束條件包括:每一所述轉(zhuǎn)移量大于等于0、所述目標(biāo)語(yǔ)言語(yǔ)句中每 一個(gè)詞的權(quán)重值等于該詞與所述源語(yǔ)言語(yǔ)句中每一個(gè)詞之間的轉(zhuǎn)移量之和,所述源語(yǔ)言語(yǔ) 句中每一個(gè)詞的權(quán)重值等于該詞與所述目標(biāo)語(yǔ)言語(yǔ)句中每一個(gè)詞之間的轉(zhuǎn)移量之和;
[0045] 第三計(jì)算模塊,用于計(jì)算所述目標(biāo)函數(shù)的最優(yōu)解,并根據(jù)所述最優(yōu)解確定該待篩 句對(duì)的所述泥土移動(dòng)距離;
[0046]標(biāo)準(zhǔn)確定模塊,用于根據(jù)若干個(gè)待篩句對(duì)的泥土移動(dòng)距離確定平行句對(duì)篩選標(biāo) 準(zhǔn),并根據(jù)所述平行句對(duì)篩選標(biāo)準(zhǔn)進(jìn)行平行句對(duì)的篩選。
[0047]可選的,該系統(tǒng)還包括:
[0048]預(yù)處理模塊,用于將所述源語(yǔ)言語(yǔ)句和所述目標(biāo)語(yǔ)言語(yǔ)句切分所得到的詞轉(zhuǎn)換為 統(tǒng)一的大小寫。
[0049] 可選的,所述詞向量確定模塊包括:
[0050] 建立單元,用于建立數(shù)據(jù)集,該數(shù)據(jù)集中包括單語(yǔ)訓(xùn)練集和雙語(yǔ)訓(xùn)練集;
[0051] 訓(xùn)練單元,用于利用雙語(yǔ)詞向量模型對(duì)所述單語(yǔ)訓(xùn)練集和所述雙語(yǔ)訓(xùn)練集中的訓(xùn) 練語(yǔ)料進(jìn)行訓(xùn)練,得到每一訓(xùn)練語(yǔ)料的詞向量;
[0052] 篩選單元,用于從訓(xùn)練語(yǔ)料的詞向量中篩選出該待篩句對(duì)中切分得到的每一個(gè)詞 的詞向量。
[0053] 本發(fā)明將待篩句對(duì)中的源語(yǔ)言語(yǔ)句和目標(biāo)語(yǔ)言語(yǔ)句切分為詞,然后根據(jù)每一個(gè)詞 的詞向量和權(quán)重值建立以源語(yǔ)言語(yǔ)句和目標(biāo)語(yǔ)言語(yǔ)句之間的泥土移動(dòng)距離最小為優(yōu)化目 標(biāo)的目標(biāo)函數(shù),通過(guò)求解目標(biāo)函數(shù)計(jì)算出泥土移動(dòng)距離最小值,便得知該待篩語(yǔ)句對(duì)中源 語(yǔ)言語(yǔ)句的真實(shí)意思和目標(biāo)語(yǔ)言語(yǔ)句的真實(shí)意思之間的最小差距。根據(jù)該方法可以得到若 干個(gè)待篩語(yǔ)句對(duì)的泥土移動(dòng)距離最小值。進(jìn)而根據(jù)這些泥土移動(dòng)距離最小值制定出平行句 對(duì)篩選標(biāo)準(zhǔn),然后便可以利用平行句對(duì)篩選標(biāo)準(zhǔn)進(jìn)行平行句對(duì)的篩選工作??梢?jiàn),本發(fā)明提 供的篩選方法是針對(duì)平行句對(duì)的篩選工作而專門設(shè)計(jì),沒(méi)有假定語(yǔ)料都是互譯的,能夠?qū)?互聯(lián)網(wǎng)上大量的粗糙的雙語(yǔ)語(yǔ)料進(jìn)行篩選,從而得到高質(zhì)量的、可靠的雙語(yǔ)語(yǔ)料。
【附圖說(shuō)明】
[0054]通過(guò)參考附圖會(huì)更加清楚地理解本發(fā)明的特征信息和優(yōu)點(diǎn),附圖是示意性的而不 應(yīng)理解為對(duì)本發(fā)明進(jìn)行任何限