本發(fā)明涉及自然語言處理,特別是一種基于全向注意力機制的翻譯方法。
背景技術(shù):
1、隨著信息技術(shù)的發(fā)展,自然語言處理作為人工智能領(lǐng)域的重要分支,其研究和應(yīng)用愈發(fā)廣泛。傳統(tǒng)的統(tǒng)計機器翻譯模型由于依賴復(fù)雜的特征工程而顯得力不從心,而基于深度學習的神經(jīng)機器翻譯則通過端到端的學習方式實現(xiàn)了翻譯性能的飛躍。
2、在現(xiàn)有技術(shù)中,知識蒸餾是一種常用的方法,通過將自回歸模型的知識轉(zhuǎn)移到非自回歸模型中,提升非自回歸模型的翻譯質(zhì)量。在知識蒸餾過程中,自回歸模型生成的目標序列通常被視為“軟標簽”,而非自回歸模型生成的目標序列被視為“硬標簽”,這種做法導(dǎo)致非自回歸模型在實際情況下無法生成高質(zhì)量的翻譯結(jié)果。因此,如何運用全向注意力推理模塊通過課程學習策略調(diào)整教師模型來解決多模式問題,成為了提高非自回歸翻譯模型性能的關(guān)鍵。
技術(shù)實現(xiàn)思路
1、鑒于上述現(xiàn)有存在的問題,提出了本發(fā)明。
2、因此,本發(fā)明提供了一種基于全向注意力機制的翻譯方法解決了自回歸翻譯模型多模式問題以及提高非自回歸模型翻譯精度和速度的問題。
3、為解決上述技術(shù)問題,本發(fā)明提供如下技術(shù)方案:
4、第一方面,本發(fā)明實施例提供了一種基于全向注意力機制的翻譯方法,其包括,收集平行語料數(shù)據(jù)并進行處理;
5、使用處理后的平行語料數(shù)據(jù)與非自回歸翻譯模型參數(shù)規(guī)模相當?shù)淖曰貧w翻譯模型進行知識蒸餾,生成蒸餾數(shù)據(jù)集;
6、利用蒸餾數(shù)據(jù)集訓練自回歸翻譯模型,找出存在的多模式問題;
7、根據(jù)存在的多模式問題,提出改進思路和解決方案;
8、提出改進思路和解決方案后,將自回歸翻譯模型生成的目標語言轉(zhuǎn)換為非自回歸翻譯模型的生成的目標語言;
9、完成從自回歸翻譯模型到非自回歸翻譯模型的轉(zhuǎn)換后,使用蒸餾數(shù)據(jù)集訓練非自回歸翻譯模型直至收斂;
10、非自回歸翻譯模型收斂完成后,對非自回歸翻譯模型進行評估與優(yōu)化。
11、作為本發(fā)明所述基于全向注意力機制的翻譯方法的一種優(yōu)選方案,其中:收集平行語料數(shù)據(jù)并進行處理,包括以下步驟,
12、收集已被正確翻譯并嚴格對齊的源語言與目標語言的平行語料;
13、對收集的平行語料進行清洗,將句子統(tǒng)一大小寫并規(guī)范處理標點符號,移除不需要的標記和特殊字符,同時過濾掉太長和太短的句子和有嚴重錯誤的句子;
14、根據(jù)清洗后的平行語料構(gòu)建詞匯表,并對詞匯表中的句子進行分詞處理。
15、作為本發(fā)明所述基于全向注意力機制的翻譯方法的一種優(yōu)選方案,其中:使用處理后的平行語料數(shù)據(jù)與非自回歸翻譯模型參數(shù)規(guī)模相當?shù)淖曰貧w翻譯模型進行知識蒸餾,生成蒸餾數(shù)據(jù)集,包括以下步驟,
16、選擇性能優(yōu)秀的自回歸模型作為教師模型;
17、使用教師模型來對處理后的平行語料數(shù)據(jù)進行前向傳播和知識蒸餾,生成目標句子的字符序列,得到純凈的蒸餾數(shù)據(jù)集。
18、作為本發(fā)明所述基于全向注意力機制的翻譯方法的一種優(yōu)選方案,其中:利用蒸餾數(shù)據(jù)集訓練自回歸翻譯模型,找出存在的多模式問題,包括以下步驟,
19、生成蒸餾數(shù)據(jù)集后,根據(jù)生成的蒸餾數(shù)據(jù)集來訓練學生模型,同時學習原始訓練數(shù)據(jù)的硬標簽,從而找到多模式問題;
20、根據(jù)多模式問題來定義一個綜合損失函數(shù),一部分是學生模型對原始標簽的預(yù)測誤差,另一部分是學生模型的輸出與教師模型的軟標簽之間的差距,學生模型的綜合損失函數(shù)的表達式為:
21、;
22、其中,表示綜合損失函數(shù),表示原始訓練數(shù)據(jù)集上的損失項,和分別表示平衡不同損失項的影響的和的權(quán)重系數(shù),表示蒸餾數(shù)據(jù)集上的損失項,表示從自回歸模型到非自回歸模型轉(zhuǎn)換期間的損失項。
23、作為本發(fā)明所述基于全向注意力機制的翻譯方法的一種優(yōu)選方案,其中:根據(jù)存在的多模式問題,提出改進思路和解決方案,包括以下步驟,
24、根據(jù)存在的多模式問題,引入一個全向注意力推理模塊,使字符序列生成時能夠觀察到所有位置的信息;
25、通過課程學習策略逐步調(diào)整教師模型,使教師模型平滑過渡到學生模型。
26、作為本發(fā)明所述基于全向注意力機制的翻譯方法的一種優(yōu)選方案,其中:提出改進思路和解決方案后,將自回歸翻譯模型生成的目標語言轉(zhuǎn)換為非自回歸翻譯模型的生成的目標語言,包括以下步驟,
27、開始轉(zhuǎn)換時,自回歸翻譯模型生成目標語言的信息要和之前生成的字符序列的目標語言的信息保持一致;
28、在每個教師模型訓練階段,計算替代率來評估非自回歸翻譯模型的性能;
29、計算教師模型訓練的替代率的表達式為:
30、;
31、其中,表示替代率,表示訓練的總輪次,表示參與計算的熵和哈希函數(shù)值的句子數(shù)量,表示數(shù)據(jù)集的句子長度,表示對第個句子長度的信息熵計算,表示句子長度對應(yīng)的哈希函數(shù)值,表示以句子長度均值和方差為參數(shù)的正態(tài)分布密度函數(shù)對句子長度的評估值,表示蒸餾數(shù)據(jù)集中句子的總數(shù),表示蒸餾數(shù)據(jù)集中第個句子的長度,表示對第個蒸餾數(shù)據(jù)句子長度的函數(shù)值,表示句子長度的對數(shù)函數(shù)值,表示蒸餾數(shù)據(jù)集中每個句子長度的微小變化量。
32、作為本發(fā)明所述基于全向注意力機制的翻譯方法的一種優(yōu)選方案,其中:完成從自回歸翻譯模型到非自回歸翻譯模型的轉(zhuǎn)換后,使用蒸餾數(shù)據(jù)集訓練非自回歸翻譯模型直至收斂,包括以下步驟,
33、在使用蒸餾數(shù)據(jù)集訓練非自回歸翻譯模型之前,選擇非自回歸任務(wù)的神經(jīng)網(wǎng)絡(luò)架構(gòu),并使用非自回歸任務(wù)的神經(jīng)網(wǎng)絡(luò)架構(gòu)對非自回歸模型進行隨機初始化和預(yù)訓練初始化;
34、在訓練過程中,非自回歸模型會使用交叉熵損失來最小化預(yù)測目標序列與蒸餾數(shù)據(jù)集中教師模型提供的目標序列之間的差異;
35、在生成最終輸出時,采用后處理技術(shù)的解碼策略去除非自回歸模型中最小化預(yù)測目標序列與蒸餾數(shù)據(jù)集中教師模型提供的目標序列之間的差異,提高翻譯質(zhì)量,同時需要加入一致性損失的輔助損失來提升非自回歸的模型性能,確定對于不同的噪聲輸入,非自回歸模型也能產(chǎn)生同樣的輸出,進而完成自回歸翻譯模型的收斂。
36、作為本發(fā)明所述基于全向注意力機制的翻譯方法的一種優(yōu)選方案,其中:對非自回歸翻譯模型進行評估與優(yōu)化,包括以下步驟,
37、在蒸餾數(shù)據(jù)集上評估和測試非自回歸翻譯模型的性能;
38、根據(jù)蒸餾數(shù)據(jù)集的評估表現(xiàn)來調(diào)整非自回歸翻譯模型的學習率和批次大小的超參數(shù),并使用不同初始化的模型融合;
39、提升了非自回歸翻譯模型的性能之后,將模型導(dǎo)出為易于部署的格式,利用量化和剪枝的技術(shù)進一步提高推理速度和減少內(nèi)存占用來優(yōu)化模型;
40、對非自回歸翻譯模型完成優(yōu)化后,建立實時監(jiān)控系統(tǒng),以監(jiān)測非自回歸翻譯模型在生產(chǎn)環(huán)境中的響應(yīng)時間和吞吐量的性能指標,同時設(shè)置異常檢測機制來及時發(fā)現(xiàn)并處理模型在實際應(yīng)用中遇到的具體問題;
41、根據(jù)實際應(yīng)用中的反饋,定期和不定期地對非自回歸翻譯模型再進行訓練,來適應(yīng)不斷變化的數(shù)據(jù)分布。
42、第二方面,本發(fā)明實施例提供了一種計算機設(shè)備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其中:所述計算機程序被處理器執(zhí)行時實現(xiàn)如本發(fā)明第一方面所述的基于全向注意力機制的翻譯方法?的任一步驟。
43、第三方面,本發(fā)明實施例提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其中:所述計算機程序被處理器執(zhí)行時實現(xiàn)如本發(fā)明第一方面所述的基于全向注意力機制的翻譯方法?的任一步驟。
44、本發(fā)明有益效果為:通過收集并處理平行語料數(shù)據(jù),實現(xiàn)了高質(zhì)量訓練數(shù)據(jù)的準備,提升了翻譯的準確性和流暢性,利用自回歸模型對處理后的語料進行知識蒸餾,確保了非自回歸模型能夠獲得高質(zhì)量的知識轉(zhuǎn)移,進而提高了翻譯模型的學習效率和泛化能力,使用蒸餾數(shù)據(jù)集訓練自回歸模型并識別多模式問題,實現(xiàn)了模型訓練過程中的問題定位與改進,確保了模型能夠在復(fù)雜場景下保持高翻譯質(zhì)量,引入全向注意力機制并逐步調(diào)整教師模型至學生模型,解決了多模式問題,增強了模型在翻譯時對上下文的理解能力,實現(xiàn)了更自然、更準確的翻譯輸出效果。