国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于譯稿分類為待譯稿件匹配譯員的方法與流程

      文檔序號:12665904閱讀:302來源:國知局

      本發(fā)明屬于自然語言處理、信息檢索,尤其涉及一種基于譯稿分類為待譯稿件匹配譯員的方法。



      背景技術:

      在大體量的翻譯公司或者翻譯平臺上,不得不面對的一個問題是如何為待譯稿件匹配譯員,常見的做法是人工判別和機器判別,人工判別是通過語言專家或翻譯專家分別對翻譯文檔和譯員進行分析和判斷,由于人的閱讀和理解限制,這種方法速度較慢同時要耗費非常大的的人力成本,并且由于判別人能力的參差以及每人對文檔難度的理解不同而產生很大的判別差別,判別結果無法做到統(tǒng)一標準,客觀性很差。機器判別的方法包括一種方法:根據(jù)譯稿匹配譯員,實際是通過譯稿匹配譯稿庫中已有譯稿,進而確定譯員。

      文檔相似度匹配可以通過搜索引擎實現(xiàn),Lucene是一套用于全文檢索和搜索的開源程序庫,為互聯(lián)網(wǎng)時代搜索引擎是常見的信息檢索工具。

      通常一個文檔集合里會有很多文檔包含某個單詞,每個文檔會記錄文檔編號,單詞在這個文檔中出現(xiàn)的次數(shù)(TF)及單詞在文檔中哪些位置出現(xiàn)過等信息,這樣與一個文檔相關的信息叫做倒排索引項,包含這個單詞的一系列倒排索引項構成了這個單詞對應的倒排索引表,成萬上億個單詞的倒排索引表構成了倒排索引。

      目前,對利用文檔處理及匹配提高匹配譯員的效率尚有許多提高空間。



      技術實現(xiàn)要素:

      本發(fā)明所要解決的技術問題是通過對已有譯稿和待譯稿進行預處理,基于譯稿分類對預處理后的已有譯稿和待譯稿進行相似度匹配,從而高效準確地匹配到合適的譯員。

      為解決上述技術問題,本發(fā)明提供了一種基于譯稿分類為待譯稿件匹配譯員的方法,其特征是包括以下步驟:

      (1)建立停用詞表

      所述建立停用詞表的步驟是通過譯稿庫計算得到高頻通用詞,通過高頻通用詞和常見停用詞建立停用詞表;

      (2)對已有譯稿進行預處理,所述已有譯稿記錄著完稿譯員的信息;

      (3)對待譯稿進行預處理,所述預處理包括分詞;

      (4)將預處理后的已有譯稿與預處理后的待譯稿進行文檔相似度匹配,獲得候選譯稿;

      (5)篩選譯稿,所述篩選譯稿的步驟是:

      收集若干類別的文檔作為訓練樣本,對譯稿分類器進行訓練,對譯稿庫已有譯稿進行分類;

      將候選譯稿關聯(lián)分類,如果候選譯稿包含不同分類,保留數(shù)量比例超過設定閾值的分類的譯稿;

      (6)獲取候選譯稿記錄的譯員信息,保存為待譯稿件匹配譯員的信息。

      進一步,所述建立停用詞表的步驟中的譯稿庫中的已有譯稿,是已經通過譯稿分類器分類后的譯稿。

      進一步,所述對待譯稿進行預處理的步驟是: (1)對待譯稿進行分詞,(2)提取待譯稿主題, (3)對待譯稿分詞后的待譯稿內容和待譯稿主題進行加權,獲得預處理后的待譯稿。

      進一步,所述對已有譯稿進行預處理的步驟是:(1)對已有譯稿分詞并建立基于詞匯的倒排索引;(2)對分詞后的已有譯稿提取主題,建立基于譯稿主題的倒排索引;(3)對基于詞匯的倒排索引和基于譯稿主題的倒排索引進行加權,獲得預處理后的已有譯稿。

      進一步,所述對已有譯稿分詞后提取主題的方法是:(1)如果有標題,將標題默認為主題;(2)如果沒有標題,但有關鍵詞,根據(jù)關鍵詞提取譯稿主題;(3)如果沒有標題,也沒有關鍵詞,默認首句為主題句。

      進一步,所述對待譯稿進行分詞是通過調用Lucene搜索引擎進行分詞,所述Lucene搜索引擎包括若干種分詞器。

      進一步,所述Lucene搜索引擎根據(jù)語種類別采用相匹配的分詞器對譯稿庫中已有譯稿進行分詞。

      進一步,所述Lucene搜索引擎根據(jù)語種類別采用相匹配的分詞器,所述語種類別包括拉丁語系和東亞語系,所述拉丁語系采用具有詞干提取功能的分詞器,所述東亞語系采用基于詞典和統(tǒng)計的分詞器。

      進一步,所述將預處理后的已有譯稿與待譯稿件進行文檔相似度匹配的步驟是根據(jù)公式(一)計算文檔相似度,所述公式(一)為:

      其中,Q表示待譯稿件,d表示已有譯稿,qi表示預處理后的待譯稿件詞語,N表示譯稿庫中的總文檔數(shù);

      k1, b為調節(jié)因子,設置k1=1.2,b=0.75,fi為qi在d中的出現(xiàn)次數(shù),n(qi)為譯稿庫中包含qi的文檔數(shù),dl為已有譯稿d的長度,avgdl為譯稿庫中所有文檔的平均長度;

      所述公式一的計算因子N,qi,n(qi),dl,avgdl,fi由以下步驟得出;

      (a)記錄譯稿庫中的總文檔數(shù)N,總文檔長度adl,根據(jù)公式 計算得出平均文檔長度avgdl;

      (b)根據(jù)步驟(2)獲取預處理后的待譯稿件詞語qi,獲取已有譯稿d的長度dl,獲取qi在已有譯稿d中的出現(xiàn)次數(shù) fi,計算譯稿庫中包含qi的文檔數(shù)n(qi)。

      進一步,所述公式(一)是由公式集合(二)轉換而來,

      所述公式集合(二)為:

      其中, Wi表示qi的權重;R(qi,d)表示qi與已有譯稿d的相關性得分,

      k1,k2,b為調節(jié)因子,設k2=0 ,qfi為qi在待譯稿件中的出現(xiàn)頻率,Wi表示詞語與文檔相關性的權重,IDF為逆文檔頻率。

      采用上述技術方案,可達到以下效果:

      通過譯稿匹配譯員,代替人工指派譯員,降低人工勞動強度,提高匹配準確率;

      通過對對已有譯稿和待譯稿進行預處理提高了匹配基礎;

      通過高效的相似度匹配算法提高了匹配效率和質量;

      通過計算高頻通用詞補充停用詞表提高匹配準確率;

      通過對候選譯稿進行類別篩選提高匹配準確率。

      附圖說明

      此處所說明的附圖用來提供對本發(fā)明的進一步理解,構成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構成對本發(fā)明的不當限定,在附圖中:

      圖1示出了一種基于譯稿分類為待譯稿件匹配譯員的方法的流程示意圖。

      具體實施方式

      下面結合附圖和具體實施方式對本發(fā)明的技術方案作進一步具體說明。

      為解決上述技術問題,本發(fā)明提供了一種基于譯稿分類為待譯稿件匹配譯員的方法,如圖1所示,其特征是包括以下步驟:

      (1)建立停用詞表

      所述建立停用詞表的步驟是通過譯稿庫計算得到高頻通用詞,通過高頻通用詞和常見停用詞建立停用詞表;

      (2)對已有譯稿進行預處理,所述已有譯稿記錄著完稿譯員的信息;

      (3)對待譯稿進行預處理,所述預處理包括分詞;

      (4)將預處理后的已有譯稿與預處理后的待譯稿進行文檔相似度匹配,獲得候選譯稿;

      (5)篩選譯稿,所述篩選譯稿的步驟是:

      收集不同類別的文檔作為訓練樣本,對譯稿分類器進行訓練,對譯稿庫已有譯稿進行分類;

      將候選譯稿關聯(lián)分類,如果候選譯稿包含不同分類,保留數(shù)量比例超過設定閾值的分類的譯稿;

      (6)獲取候選譯稿記錄的譯員信息,保存為待譯稿件匹配譯員的信息。

      進一步,所述建立停用詞表的步驟中的譯稿庫中的已有譯稿,是已經通過譯稿分類器分類后的譯稿。

      進一步,所述對待譯稿進行預處理的步驟是: (1)對待譯稿進行分詞,(2)提取待譯稿主題, (3)對待譯稿分詞后的待譯稿內容和待譯稿主題進行加權,獲得預處理后的待譯稿。

      進一步,所述對已有譯稿進行預處理的步驟是:(1)對已有譯稿分詞并建立基于詞匯的倒排索引;(2)對分詞后的已有譯稿提取主題,建立基于譯稿主題的倒排索引;(3)對基于詞匯的倒排索引和基于譯稿主題的倒排索引進行加權,獲得預處理后的已有譯稿。

      進一步,所述對已有譯稿分詞后提取主題的方法是:(1)如果有標題,將標題默認為主題;(2)如果沒有標題,但有關鍵詞,根據(jù)關鍵詞提取譯稿主題;(3)如果沒有標題,也沒有關鍵詞,默認首句為主題句。

      進一步,所述對待譯稿進行分詞是通過調用Lucene搜索引擎進行分詞,所述Lucene搜索引擎包括若干種分詞器。

      進一步,所述Lucene搜索引擎根據(jù)語種類別采用相匹配的分詞器對譯稿庫中已有譯稿進行分詞。

      進一步,所述Lucene搜索引擎根據(jù)語種類別采用相匹配的分詞器,所述語種類別包括拉丁語系和東亞語系,所述拉丁語系采用具有詞干提取功能的分詞器,所述東亞語系采用基于詞典和統(tǒng)計的分詞器。

      進一步,所述將預處理后的已有譯稿與待譯稿件進行文檔相似度匹配的步驟是根據(jù)公式(一)計算文檔相似度,所述公式(一)為:

      其中,Q表示待譯稿件,d表示已有譯稿,qi表示預處理后的待譯稿件詞語,N表示譯稿庫中的總文檔數(shù);

      k1, b為調節(jié)因子,設置k1=1.2,b=0.75,fi為qi在d中的出現(xiàn)次數(shù),n(qi)為譯稿庫中包含qi的文檔數(shù),dl為已有譯稿d的長度,avgdl為譯稿庫中所有文檔的平均長度;

      所述公式一的計算因子N,qi,n(qi),dl,avgdl,fi由以下步驟得出;

      (a)記錄譯稿庫中的總文檔數(shù)N,總文檔長度adl,根據(jù)公式 計算得出平均文檔長度avgdl;

      (b)根據(jù)步驟(2)獲取預處理后的待譯稿件詞語qi,獲取已有譯稿d的長度dl,獲取qi在已有譯稿d中的出現(xiàn)次數(shù) fi,計算譯稿庫中包含qi的文檔數(shù)n(qi) 。

      進一步,所述公式(一)是由公式集合(二)轉換而來,

      所述公式集合(二)為:

      其中, Wi表示qi的權重;R(qi,d)表示qi與已有譯稿d的相關性得分,

      k1,k2,b為調節(jié)因子,設k2=0 ,qfi為qi在待譯稿件中的出現(xiàn)頻率,Wi表示詞語與文檔相關性的權重,IDF為逆文檔頻率。

      所述對譯稿進行分類的方法是根據(jù)貝葉斯文本分類算法對譯稿庫進行分類。

      本領域技術人員還應當理解,以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領域的技術人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。

      當前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1