基于大規(guī)模術(shù)語語料庫(kù)對(duì)譯稿自動(dòng)碎片化分類的方法

文檔序號(hào)：6386410閱讀：202來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于大規(guī)模術(shù)語語料庫(kù)對(duì)譯稿自動(dòng)碎片化分類的方法
技術(shù)領(lǐng)域：
本發(fā)明涉及文檔劃分領(lǐng)域，具體而言，涉及一種基于大規(guī)模術(shù)語語料庫(kù)對(duì)譯稿自動(dòng)碎片化分類的方法。
背景技術(shù)：
目前，現(xiàn)有技術(shù)中的語料庫(kù)的生產(chǎn)一般包括以下幾個(gè)過程:語料搜集:語料可以來自國(guó)家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)及其他標(biāo)準(zhǔn)文獻(xiàn)，也可以來自正式出版發(fā)行的辭典、百科全書、期刊、教材、報(bào)刊及其他工具書和權(quán)威性網(wǎng)站發(fā)布的相關(guān)文獻(xiàn)；還可以通過與其他術(shù)語語料庫(kù)聯(lián)網(wǎng)、交換語料數(shù)據(jù)及記錄載體等方式獲得。規(guī)范化處理:按照已定的標(biāo)準(zhǔn)格式或規(guī)則，對(duì)從各種途徑獲取的語料進(jìn)行初加工。例如語料的查重、文件格式的統(tǒng)一轉(zhuǎn)換等。信息標(biāo)注:對(duì)規(guī)范化處理后的原始語料，結(jié)合項(xiàng)目研究的近遠(yuǎn)期目標(biāo)可采用里標(biāo)語言進(jìn)行篇章級(jí)、術(shù)語級(jí)等的信息標(biāo)注。術(shù)語語料庫(kù)是語料庫(kù)中的一種，其按照一定的格式和要求生成。術(shù)語語料庫(kù)的組織:為便于術(shù)語研究、語料交換和術(shù)語語料庫(kù)系統(tǒng)開發(fā)，術(shù)語語料庫(kù)中語料的存儲(chǔ)和管理應(yīng)盡量采用通用的分類法進(jìn)行分類組織。通用的分類方法如:中國(guó)標(biāo)準(zhǔn)文獻(xiàn)分類法(ccs)、國(guó)際標(biāo)準(zhǔn)分類法(ICS)、GB/T13745學(xué)科分類與代碼等。由于大型語料庫(kù)的規(guī)模非常大，術(shù)語語料數(shù)一般在百萬到千萬級(jí)別，大的甚至可以達(dá)到億級(jí)，以術(shù)語語料為關(guān)鍵詞在待譯文稿中進(jìn)行匹配要占用大量的存儲(chǔ)空間而且花費(fèi)的查詢時(shí)間也非常多，實(shí)際效果非常不理想。由于大型語料庫(kù)內(nèi)的語料數(shù)量巨大，而且待譯稿件是個(gè)無序的文本空間，不利于將語料庫(kù)中的術(shù)語作為關(guān)鍵詞在待譯稿件中進(jìn)行術(shù)語匹配，以確定待譯稿件的碎片化分類。

發(fā)明內(nèi)容
本發(fā)明旨在提供一種基于大規(guī)模術(shù)語語料庫(kù)對(duì)譯稿自動(dòng)碎片化分類的方法，以解決上述不利于譯稿碎片化分類方法的問題。在本發(fā)明的實(shí)施例中，提供了一種基于大規(guī)模術(shù)語語料庫(kù)對(duì)譯稿自動(dòng)碎片化分類的方法，包括:提取譯稿每段的各個(gè)關(guān)鍵詞，建立每個(gè)段落與其包含的各個(gè)關(guān)鍵詞的對(duì)應(yīng)關(guān)系；將所述譯稿的各個(gè)關(guān)鍵詞逐個(gè)在術(shù)語語料庫(kù)中匹配，將每個(gè)關(guān)鍵詞匹配的術(shù)語的行業(yè)類別屬性，作為該關(guān)鍵詞在其對(duì)應(yīng)的每個(gè)段所歸屬的行業(yè)類別屬性；根據(jù)所述對(duì)應(yīng)關(guān)系，確定每個(gè)段包含相同的最多的行業(yè)類別屬性；將最多的行業(yè)類別屬性對(duì)該段分類。優(yōu)選地，判斷所述譯稿內(nèi)的每段的詞數(shù)；如果所述詞數(shù)小于閾值，則與相鄰的下一段合并作為新的一段；
直到所述新的一段的詞數(shù)大于閾值。優(yōu)選地，為每個(gè)段落建立ID ；建立屬于同一個(gè)行業(yè)類別屬性的多個(gè)段落的ID的集合，得到多個(gè)集合。優(yōu)選地，所述提取關(guān)鍵詞的過程包括:對(duì)譯稿進(jìn)行分詞處理，去除停用詞和不表示具體概念的詞語，得到分詞后的關(guān)鍵詞集合。由于待譯文稿的詞語數(shù)要遠(yuǎn)小于術(shù)語語料庫(kù)的詞語數(shù)；而且術(shù)語語料庫(kù)具備按字母順序查找的功能，在其中進(jìn)行關(guān)鍵詞匹配不需要采用模式匹配算法，可以極大的減少查詢時(shí)間?？s短對(duì)譯稿分類的時(shí)間，提高分類效率。

此處所說明的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解，構(gòu)成本申請(qǐng)的一部分，本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明，并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:圖1示出了實(shí)施例的流程圖；圖2示出了實(shí)施例的方法采用的系統(tǒng)框架結(jié)構(gòu)圖；圖3示出了實(shí)施例中合并段的流程圖。
具體實(shí)施例方式下面將參考附圖并結(jié)合實(shí)施例，來詳細(xì)說明本發(fā)明。參見圖1，實(shí)施例的流程包括:Sll:提取譯稿每段的各個(gè)關(guān)鍵詞，建立每個(gè)段落與其包含的各個(gè)關(guān)鍵詞的對(duì)應(yīng)關(guān)系;S12:將所述譯稿的各個(gè)關(guān)鍵詞逐個(gè)在術(shù)語語料庫(kù)中匹配，將每個(gè)關(guān)鍵詞匹配的術(shù)語的行業(yè)類別屬性，作為該關(guān)鍵詞在其對(duì)應(yīng)的每個(gè)段所歸屬的行業(yè)類別屬性；S13:根據(jù)所述對(duì)應(yīng)關(guān)系，確定每個(gè)段包含相同的最多的行業(yè)類別屬性；S14:將最多的行業(yè)類別屬性對(duì)該段分類。由于待譯文稿的詞語數(shù)要遠(yuǎn)小于術(shù)語語料庫(kù)的詞語數(shù)，經(jīng)過分詞處理后的詞語數(shù)量還要大為減少；而且術(shù)語語料庫(kù)具備按字母順序查找的功能，在其中進(jìn)行關(guān)鍵詞匹配不需要采用模式匹配算法，可以極大的減少查詢時(shí)間。縮短對(duì)譯稿分類的時(shí)間，提高分類效率。優(yōu)選地，參見圖2，由系統(tǒng)中的分詞處理模塊提取關(guān)鍵詞，包括:對(duì)譯稿進(jìn)行分詞處理，去除停用詞和不表示具體概念的詞語，得到分詞后的關(guān)鍵詞集合。優(yōu)選地，在實(shí)施例中，計(jì)算每個(gè)詞語在文稿中的出現(xiàn)次數(shù)即詞頻，記錄每個(gè)詞語的段落屬性，即其所屬的段落號(hào)；建立待譯文檔的關(guān)鍵詞列表，列表項(xiàng)包括:詞語、詞頻、詞語在段落屬性、列表如表I所示:表I
權(quán)利要求
1.一種基于大規(guī)模術(shù)語語料庫(kù)對(duì)譯稿自動(dòng)碎片化分類的方法，其特征在于，包括: 提取譯稿每段的各個(gè)關(guān)鍵詞，建立每個(gè)段落與其包含的各個(gè)關(guān)鍵詞的對(duì)應(yīng)關(guān)系；將所述譯稿的各個(gè)關(guān)鍵詞逐個(gè)在術(shù)語語料庫(kù)中匹配，將每個(gè)關(guān)鍵詞匹配的術(shù)語的行業(yè)類別屬性，作為該關(guān)鍵詞在其對(duì)應(yīng)的每個(gè)段所歸屬的行業(yè)類別屬性；根據(jù)所述對(duì)應(yīng)關(guān)系，確定每個(gè)段包含相同的最多的行業(yè)類別屬性；將最多的行業(yè)類別屬性對(duì)該段分類。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，判斷所述譯稿內(nèi)的每段的詞數(shù)；如果所述詞數(shù)小于閾值，則與相鄰的下一段合并作為新的一段；直到所述新的一段的詞數(shù)大于閾值。
3.根據(jù)權(quán)利要求1或2所述的方法，其特征在于，為每個(gè)段落建立ID；建立屬于同一個(gè)行業(yè)類別屬性的多個(gè)段落的ID的集合，得到多個(gè)集合。
4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述提取關(guān)鍵詞的過程包括: 對(duì)譯稿進(jìn)行分詞處理，去除停用詞和不表示具體概念的詞語，得到分詞后的譯稿的關(guān)鍵詞集合。
全文摘要
本發(fā)明提供了一種基于大規(guī)模術(shù)語語料庫(kù)對(duì)譯稿自動(dòng)碎片化分類的方法，包括對(duì)譯稿進(jìn)行分詞處理，去除停用詞，獲得其關(guān)鍵詞集合，提取譯稿每段的各個(gè)關(guān)鍵詞，建立每個(gè)段落與其包含的各個(gè)關(guān)鍵詞的對(duì)應(yīng)關(guān)系；將所述譯稿的各個(gè)關(guān)鍵詞逐個(gè)在術(shù)語語料庫(kù)中匹配，將每個(gè)關(guān)鍵詞匹配的術(shù)語的行業(yè)類別屬性，作為該關(guān)鍵詞在其對(duì)應(yīng)的每個(gè)段所歸屬的行業(yè)類別屬性；根據(jù)所述對(duì)應(yīng)關(guān)系，確定每個(gè)段包含相同的最多的行業(yè)類別屬性；將最多的行業(yè)類別屬性對(duì)該段分類。由于譯稿的詞語數(shù)要遠(yuǎn)小于術(shù)語庫(kù)的詞語數(shù)；且術(shù)語庫(kù)具備按字母順序查找的功能，在其中進(jìn)行關(guān)鍵詞匹配不需要采用模式匹配算法，可以極大的減少查詢時(shí)間?？s短對(duì)譯稿碎片化的時(shí)間，提高碎片化效率。
文檔編號(hào)G06F17/30GK103106245SQ201210591759
公開日2013年5月15日申請(qǐng)日期2012年12月31日優(yōu)先權(quán)日2012年12月31日
發(fā)明者江潮申請(qǐng)人:武漢傳神信息技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：江潮;
技術(shù)所有人：武漢傳神信息技術(shù)有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語料庫(kù)相關(guān)技術(shù)

雅思王聽力真題語料庫(kù)相關(guān)技術(shù)

ccl語料庫(kù)相關(guān)技術(shù)

王陸語料庫(kù)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于大規(guī)模術(shù)語語料庫(kù)對(duì)譯稿自動(dòng)碎片化分類的方法