国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于大規(guī)模術(shù)語語料庫(kù)對(duì)譯稿自動(dòng)碎片化分類的方法

      文檔序號(hào):6386410閱讀:202來源:國(guó)知局
      專利名稱:基于大規(guī)模術(shù)語語料庫(kù)對(duì)譯稿自動(dòng)碎片化分類的方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及文檔劃分領(lǐng)域,具體而言,涉及一種基于大規(guī)模術(shù)語語料庫(kù)對(duì)譯稿自動(dòng)碎片化分類的方法。
      背景技術(shù)
      目前,現(xiàn)有技術(shù)中的語料庫(kù)的生產(chǎn)一般包括以下幾個(gè)過程:語料搜集:語料可以來自國(guó)家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)及其他標(biāo)準(zhǔn)文獻(xiàn),也可以來自正式出版發(fā)行的辭典、百科全書、期刊、教材、報(bào)刊及其他工具書和權(quán)威性網(wǎng)站發(fā)布的相關(guān)文獻(xiàn);還可以通過與其他術(shù)語語料庫(kù)聯(lián)網(wǎng)、交換語料數(shù)據(jù)及記錄載體等方式獲得。規(guī)范化處理:按照已定的標(biāo)準(zhǔn)格式或規(guī)則,對(duì)從各種途徑獲取的語料進(jìn)行初加工。例如語料的查重、文件格式的統(tǒng)一轉(zhuǎn)換等。信息標(biāo)注:對(duì)規(guī)范化處理后的原始語料,結(jié)合項(xiàng)目研究的近遠(yuǎn)期目標(biāo)可采用里標(biāo)語言進(jìn)行篇章級(jí)、術(shù)語級(jí)等的信息標(biāo)注。術(shù)語語料庫(kù)是語料庫(kù)中的一種,其按照一定的格式和要求生成。術(shù)語語料庫(kù)的組織:為便于術(shù)語研究、語料交換和術(shù)語語料庫(kù)系統(tǒng)開發(fā),術(shù)語語料庫(kù)中語料的存儲(chǔ)和管理應(yīng)盡量采用通用的分類法進(jìn)行分類組織。通用的分類方法如:中國(guó)標(biāo)準(zhǔn)文獻(xiàn)分類法(ccs)、國(guó)際標(biāo)準(zhǔn)分類法(ICS)、GB/T13745學(xué)科分類與代碼等。由于大型語料庫(kù)的規(guī)模非常大,術(shù)語語料數(shù)一般在百萬到千萬級(jí)別,大的甚至可以達(dá)到億級(jí),以術(shù)語語料為關(guān)鍵詞在待譯文稿中進(jìn)行匹配要占用大量的存儲(chǔ)空間而且花費(fèi)的查詢時(shí)間也非常多,實(shí)際效果非常不理想。由于大型語料庫(kù)內(nèi)的語料數(shù)量巨大,而且待譯稿件是個(gè)無序的文本空間,不利于將語料庫(kù)中的術(shù)語作為關(guān)鍵詞在待譯稿件中進(jìn)行術(shù)語匹配,以確定待譯稿件的碎片化分類。

      發(fā)明內(nèi)容
      本發(fā)明旨在提供一種基于大規(guī)模術(shù)語語料庫(kù)對(duì)譯稿自動(dòng)碎片化分類的方法,以解決上述不利于譯稿碎片化分類方法的問題。 在本發(fā)明的實(shí)施例中,提供了 一種基于大規(guī)模術(shù)語語料庫(kù)對(duì)譯稿自動(dòng)碎片化分類的方法,包括:提取譯稿每段的各個(gè)關(guān)鍵詞,建立每個(gè)段落與其包含的各個(gè)關(guān)鍵詞的對(duì)應(yīng)關(guān)系;將所述譯稿的各個(gè)關(guān)鍵詞逐個(gè)在術(shù)語語料庫(kù)中匹配,將每個(gè)關(guān)鍵詞匹配的術(shù)語的行業(yè)類別屬性,作為該關(guān)鍵詞在其對(duì)應(yīng)的每個(gè)段所歸屬的行業(yè)類別屬性;根據(jù)所述對(duì)應(yīng)關(guān)系,確定每個(gè)段包含相同的最多的行業(yè)類別屬性;將最多的行業(yè)類別屬性對(duì)該段分類。優(yōu)選地,判斷所述譯稿內(nèi)的每段的詞數(shù);如果所述詞數(shù)小于閾值,則與相鄰的下一段合并作為新的一段;
      直到所述新的一段的詞數(shù)大于閾值。優(yōu)選地,為每個(gè)段落建立ID ;建立屬于同一個(gè)行業(yè)類別屬性的多個(gè)段落的ID的集合,得到多個(gè)集合。優(yōu)選地,所述提取關(guān)鍵詞的過程包括:對(duì)譯稿進(jìn)行分詞處理,去除停用詞和不表示具體概念的詞語,得到分詞后的關(guān)鍵詞集合。由于待譯文稿的詞語數(shù)要遠(yuǎn)小于術(shù)語語料庫(kù)的詞語數(shù);而且術(shù)語語料庫(kù)具備按字母順序查找的功能,在其中進(jìn)行關(guān)鍵詞匹配不需要采用模式匹配算法,可以極大的減少查詢時(shí)間??s短對(duì)譯稿分類的時(shí)間,提高分類效率。


      此處所說明的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:圖1示出了實(shí)施例的流程圖;圖2示出了實(shí)施例的方法采用的系統(tǒng)框架結(jié)構(gòu)圖;圖3示出了實(shí)施例中合并段的流程圖。
      具體實(shí)施例方式下面將參考附圖并結(jié)合實(shí)施例,來詳細(xì)說明本發(fā)明。參見圖1,實(shí)施例的流程包括:Sll:提取譯稿每段的各個(gè)關(guān)鍵詞,建立每個(gè)段落與其包含的各個(gè)關(guān)鍵詞的對(duì)應(yīng)關(guān)系;S12:將所述譯稿的各個(gè)關(guān)鍵詞逐個(gè)在術(shù)語語料庫(kù)中匹配,將每個(gè)關(guān)鍵詞匹配的術(shù)語的行業(yè)類別屬性,作為該關(guān)鍵詞在其對(duì)應(yīng)的每個(gè)段所歸屬的行業(yè)類別屬性;S13:根據(jù)所述對(duì)應(yīng)關(guān)系,確定每個(gè)段包含相同的最多的行業(yè)類別屬性;S14:將最多的行業(yè)類別屬性對(duì)該段分類。由于待譯文稿的詞語數(shù)要遠(yuǎn)小于術(shù)語語料庫(kù)的詞語數(shù),經(jīng)過分詞處理后的詞語數(shù)量還要大為減少;而且術(shù)語語料庫(kù)具備按字母順序查找的功能,在其中進(jìn)行關(guān)鍵詞匹配不需要采用模式匹配算法,可以極大的減少查詢時(shí)間。縮短對(duì)譯稿分類的時(shí)間,提高分類效率。優(yōu)選地,參見圖2,由系統(tǒng)中的分詞處理模塊提取關(guān)鍵詞,包括:對(duì)譯稿進(jìn)行分詞處理,去除停用詞和不表示具體概念的詞語,得到分詞后的關(guān)鍵詞集合。優(yōu)選地,在實(shí)施例中,計(jì)算每個(gè)詞語在文稿中的出現(xiàn)次數(shù)即詞頻,記錄每個(gè)詞語的段落屬性,即其所屬的段落號(hào);建立待譯文檔的關(guān)鍵詞列表,列表項(xiàng)包括:詞語、詞頻、詞語在段落屬性、列表如表I所示:表I
      權(quán)利要求
      1.一種基于大規(guī)模術(shù)語語料庫(kù)對(duì)譯稿自動(dòng)碎片化分類的方法,其特征在于,包括: 提取譯稿每段的各個(gè)關(guān)鍵詞,建立每個(gè)段落與其包含的各個(gè)關(guān)鍵詞的對(duì)應(yīng)關(guān)系; 將所述譯稿的各個(gè)關(guān)鍵詞逐個(gè)在術(shù)語語料庫(kù)中匹配,將每個(gè)關(guān)鍵詞匹配的術(shù)語的行業(yè)類別屬性,作為該關(guān)鍵詞在其對(duì)應(yīng)的每個(gè)段所歸屬的行業(yè)類別屬性; 根據(jù)所述對(duì)應(yīng)關(guān)系,確定每個(gè)段包含相同的最多的行業(yè)類別屬性; 將最多的行業(yè)類別屬性對(duì)該段分類。
      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,判斷所述譯稿內(nèi)的每段的詞數(shù); 如果所述詞數(shù)小于閾值,則與相鄰的下一段合并作為新的一段; 直到所述新的一段的詞數(shù)大于閾值。
      3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,為每個(gè)段落建立ID; 建立屬于同一個(gè)行業(yè)類別屬性的多個(gè)段落的ID的集合,得到多個(gè)集合。
      4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述提取關(guān)鍵詞的過程包括: 對(duì)譯稿進(jìn)行分詞處理,去除停用詞和不表示具體概念的詞語,得到分詞后的譯稿的關(guān)鍵詞集合。
      全文摘要
      本發(fā)明提供了一種基于大規(guī)模術(shù)語語料庫(kù)對(duì)譯稿自動(dòng)碎片化分類的方法,包括對(duì)譯稿進(jìn)行分詞處理,去除停用詞,獲得其關(guān)鍵詞集合,提取譯稿每段的各個(gè)關(guān)鍵詞,建立每個(gè)段落與其包含的各個(gè)關(guān)鍵詞的對(duì)應(yīng)關(guān)系;將所述譯稿的各個(gè)關(guān)鍵詞逐個(gè)在術(shù)語語料庫(kù)中匹配,將每個(gè)關(guān)鍵詞匹配的術(shù)語的行業(yè)類別屬性,作為該關(guān)鍵詞在其對(duì)應(yīng)的每個(gè)段所歸屬的行業(yè)類別屬性;根據(jù)所述對(duì)應(yīng)關(guān)系,確定每個(gè)段包含相同的最多的行業(yè)類別屬性;將最多的行業(yè)類別屬性對(duì)該段分類。由于譯稿的詞語數(shù)要遠(yuǎn)小于術(shù)語庫(kù)的詞語數(shù);且術(shù)語庫(kù)具備按字母順序查找的功能,在其中進(jìn)行關(guān)鍵詞匹配不需要采用模式匹配算法,可以極大的減少查詢時(shí)間??s短對(duì)譯稿碎片化的時(shí)間,提高碎片化效率。
      文檔編號(hào)G06F17/30GK103106245SQ201210591759
      公開日2013年5月15日 申請(qǐng)日期2012年12月31日 優(yōu)先權(quán)日2012年12月31日
      發(fā)明者江潮 申請(qǐng)人:武漢傳神信息技術(shù)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1