生成簡繁轉(zhuǎn)換模板及基于模板進行簡繁轉(zhuǎn)換的方法、系統(tǒng)的制作方法
【專利摘要】本申請?zhí)峁┝艘环N生成簡繁轉(zhuǎn)換模板的方法及系統(tǒng)、基于模板的中文簡繁轉(zhuǎn)換的方法及系統(tǒng)。該中文簡繁轉(zhuǎn)換的方法包括:獲取第一混合詞組;用數(shù)字標(biāo)識符取代所述第一混合詞組中的數(shù)字以獲取第一中間混合詞組;從預(yù)先生成的模板中查找所述第一中間混合詞組對應(yīng)的第二中間混合詞組;根據(jù)所述數(shù)字標(biāo)識符和所述第二中間混合詞組獲取所述第一混合詞組對應(yīng)的第二混合詞組;其中,所述第一和第二混合詞組包括一對多字符和數(shù)字,所述第一混合詞組為簡體混合詞組和繁體混合詞組中的一種,所述第二混合詞組為簡體混合詞組和繁體混合詞組中的另一種。本申請可以準(zhǔn)確并快速地將包含一對多字符和數(shù)字的混合詞組進行簡繁之間的轉(zhuǎn)換。
【專利說明】生成簡繁轉(zhuǎn)換模板及基于模板進行簡繁轉(zhuǎn)換的方法、系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本申請涉及一種中文簡繁轉(zhuǎn)換的方法及系統(tǒng),尤其涉及一種生成簡繁轉(zhuǎn)換模板及基于模板進行簡繁轉(zhuǎn)換的方法、系統(tǒng)。
【背景技術(shù)】
[0002]中文文字有簡體中文和繁體中文之分,在兩岸四地的日常交流中經(jīng)常需要將簡體中文和繁體中文進行相互轉(zhuǎn)換。此時,經(jīng)常會遇到某些簡體中文字符對應(yīng)多個繁體中文字符的情況。例如,簡體中文“里”可以對應(yīng)繁體中文“里”或“裡”,簡體中文“出”可以對應(yīng)繁體中文“出”或“齣”,簡體中文“發(fā)”可以對應(yīng)繁體中文“髪”或“發(fā)”,反之亦然,例如繁體中文“乾”可以對應(yīng)簡體的“干”(葡萄干)和“乾”(乾隆、乾坤等),繁體中文“著”可以對應(yīng)簡體的“著”和“著”(著作)等。這種一對多情況可以在現(xiàn)有各類型模板的輔助下得到部分解決。然而在進行簡繁轉(zhuǎn)換時,經(jīng)常會遇到包括一對多字符和各類型數(shù)字組成的混合詞組(adhoc numerical phrases),例如有40里”、“唱了兩出”等。當(dāng)前的簡繁轉(zhuǎn)換技術(shù)在轉(zhuǎn)換該類型混合詞組時具有如下缺陷:大部分這種混合詞組不含常規(guī)詞典條目或詞匯條目,使用常規(guī)詞典無法進行轉(zhuǎn)換,同時由于數(shù)字的不可窮盡性,因此無法完整構(gòu)建該類型的詞典。例如,簡體中文“有40里”中不含任何固定詞條,因而“里”(在此,“里”表示500米的單位長度)會錯誤地轉(zhuǎn)換為“裡”(在此,“裡”表示內(nèi)部);又例如,簡體中文“唱了兩出”同樣不含任何固定詞條,“出”應(yīng)該被轉(zhuǎn)換為繁體中文“齣”,卻被錯誤地轉(zhuǎn)換為繁體中文“出”。此外,由于該混合詞組隨著數(shù)字的改變會生成無數(shù)的變型,這使得基于概率的轉(zhuǎn)換模型如N-Gram模型會變得無效,或者不能以任何類型的模板列出,或是難以用任何轉(zhuǎn)換系統(tǒng)處理。
【發(fā)明內(nèi)容】
[0003]為了提高簡繁轉(zhuǎn)換精度和轉(zhuǎn)換效率,本申請?zhí)峁┝艘环N生成簡繁轉(zhuǎn)換模板的方法及系統(tǒng)、基于模板進行簡繁轉(zhuǎn)換的方法及系統(tǒng)。
[0004]本申請的一個方案提供了一種生成簡繁轉(zhuǎn)換模板的方法,用于第一和第二混合詞組之間的轉(zhuǎn)換,所述第一和第二混合詞組包括一對多字符和數(shù)字,所述第一混合詞組為繁體混合詞組和簡體混合詞組中的一種,所述第二混合詞組為繁體混合詞組和簡體混合詞組中的另一種,包括:
[0005]獲取第一混合詞組-第二混合詞組候選對;
[0006]從所述第一混合詞組-第二混合詞組候選對中提取中間候選對;
[0007]從所述中間候選對中獲取具有最大覆蓋率的候選對;
[0008]使用所述具有最大覆蓋率的候選對生成簡繁轉(zhuǎn)換模板。
[0009]本申請的另一個方案提供了一種簡繁中文轉(zhuǎn)換方法,用于第一和第二混合詞組之間的轉(zhuǎn)換,所述第一和第二混合詞組包括一對多字符和數(shù)字,所述第一混合詞組為繁體混合詞組和簡體混合詞組中的一種,所述第二混合詞組為繁體混合詞組和簡體混合詞組中的另一種,包括:[0010]獲取第一混合詞組;
[0011]用數(shù)字標(biāo)識符取代所述第一混合詞組中的所述數(shù)字,以獲取第一中間混合詞組;
[0012]從生成的模板中查找所述第一中間混合詞組對應(yīng)的第二中間混合詞組;
[0013]根據(jù)所述數(shù)字標(biāo)識符和所述第二中間混合詞組獲取所述第一混合詞組對應(yīng)的第
二混合詞組。
[0014]本申請的再一個方案提供了一種生成簡繁轉(zhuǎn)換模板的系統(tǒng),用于第一和第二混合詞組之間的轉(zhuǎn)換,所述第一和第二混合詞組包括一對多字符和數(shù)字,所述第一混合詞組為繁體混合詞組和簡體混合詞組中的一種,所述第二混合詞組為繁體混合詞組和簡體混合詞組中的另一種,包括:
[0015]候選對獲取模塊,獲取第一混合詞組-第二混合詞組候選對;
[0016]中間候選對提取模塊,用于從所述第一混合詞組-第二混合詞組候選對中提取中間候選對;
[0017]最大覆蓋率候選對獲取模塊,用于從所述中間候選對中獲取具有最大覆蓋率的候選對;
[0018]模板生成模塊,用于使用所述具有最大覆蓋率的候選對生成簡繁轉(zhuǎn)換模板。
[0019]本申請的再一個方案提供了一種簡繁中文轉(zhuǎn)換系統(tǒng),用于第一和第二混合詞組之間的轉(zhuǎn)換,所述第一和第二混合詞組包括一對多字符和數(shù)字,所述第一混合詞組為繁體混合詞組和簡體混合詞組中的一種,所述第二混合詞組為繁體混合詞組和簡體混合詞組中的另一種,包括:
[0020]第一混合詞組獲取模塊,用于獲取第一混合詞組;
[0021]第一中間混合詞組獲取模塊,用于用數(shù)字標(biāo)識符取代所述第一混合詞組中的所述數(shù)字,以獲取第一中間混合詞組;
[0022]第二中間混合詞組查找模塊,用于從生成的模板中查找所述第一中間混合詞組對應(yīng)的第二中間混合詞組;
[0023]第二混合詞組獲取模塊,用于根據(jù)所述數(shù)字標(biāo)識符和所述第二中間混合詞組獲取所述第一混合詞組對應(yīng)的第二混合詞組。
[0024]綜上所述,利用預(yù)先生成的第一中文混合詞組-第二中文混合詞組候選對,可以快速和準(zhǔn)確地完成包含一對多字符和數(shù)字的第一混合詞組和第二混合詞組之間的簡繁轉(zhuǎn)換。
[0025]通過以下參照附圖對本申請實施例的說明,本申請的上述以及其它目的、特征和優(yōu)點將更加明顯。
【專利附圖】
【附圖說明】
[0026]下面將參照所附附圖來描述本申請的實施例,其中:
[0027]圖1是本申請的實施例一提供的生成簡繁轉(zhuǎn)換模板的方法的流程圖;
[0028]圖2是本申請的實施例一提供的獲取第一混合詞組-第二混合詞組候選對的流程圖;
[0029]圖3是本申請的實施例二提供的簡繁中文轉(zhuǎn)換方法的流程圖;
[0030]圖4是本申請的實施例三提供的生成簡繁轉(zhuǎn)換模板的系統(tǒng)的方塊圖;[0031]圖5是本申請的實施例三提供的候選對獲取模塊的結(jié)構(gòu)圖;
[0032]圖6是本申請的實施例四提供的簡繁中文轉(zhuǎn)換系統(tǒng)的方塊圖。
【具體實施方式】
[0033]下面結(jié)合附圖詳細描述本申請的具體實施例。應(yīng)當(dāng)注意,這里描述的實施例只用于舉例說明,并不用于限制本申請。
[0034]實施例一
[0035]本實施例提供了一種生成簡繁轉(zhuǎn)換模板的方法,該方法用于第一和第二混合詞組之間的轉(zhuǎn)換,所述第一和第二混合詞組包括一對多字符和數(shù)字,所述第一混合詞組為繁體混合詞組和簡體混合詞組中的一種,所述第二混合詞組為繁體混合詞組和簡體混合詞組中的另一種。如圖1所示,該方法包括:
[0036]SI 10,獲取第一混合詞組-第二混合詞組候選對。
[0037]為了描述簡便,在本實施例中,第一混合詞組為簡體混合詞組,即該第一混合詞組為簡體中文和數(shù)字相混合的詞組,第二混合詞組為繁體混合詞組,即該第二混合詞組為繁體中文和數(shù)字相混合的詞組。
[0038]具體地,如圖2所示,該步驟包括:
[0039]S211,獲取第一中間混合詞組,從而獲取第二混合詞組。
[0040]具體地,以獲取的第一中間混合詞組為“小河長有40里”為例,將其表示為:“〈TC>小河長有40里”,其中,“〈TC〉”表示為繁體混合詞組,字符“里”為一對多字符,“40”為數(shù)字。
[0041]其次,用數(shù)字標(biāo)識符“ [num] ”取代第一中間混合詞組中的數(shù)字“40”,得到第二中間混合詞組“〈TC〉小河長有[num]里”,本領(lǐng)域技術(shù)人員可以理解的是,數(shù)字標(biāo)識符“ [num] ”僅是舉例需要,本申請的保護范圍并不限于此。
[0042]再次,以一對多字符“里”為基準(zhǔn)對第二中間混合詞組“〈TC〉小河長有[num]里”進行變換,從而得到多個第三中間混合詞組。其中,本申請所述“變換”可以是一個混合詞組通過增加、減少或改換字符,或者通過其他方式來達到形式上的擴展、縮減或變更。
[0043]例如,對減少字符這一方式而言,將“〈TC〉小河長有[num]里”縮減為“〈TC〉河長有[num]里”、“〈TC〉長有[num]里”、“〈TC〉有[num]里”、“〈TC〉[num]里”、“〈TC〉里”等,從以上示例可以看出,本示例的字符縮減是從繁體混合詞組的開頭開始,依次縮減一個字符,本領(lǐng)域技術(shù)人員可以理解的是,字符縮減也可以從繁體混合詞組的結(jié)尾開始,每次縮減字符的數(shù)量也不限于一個,也可以是其他數(shù)量,此外,每次縮減字符的數(shù)量不一定必須相同。
[0044]例如,對于增加字符這一方式而言,可以利用延長結(jié)構(gòu)來對繁體混合詞組進行擴展,以增加其長度,這種延長結(jié)構(gòu)可以位于繁體混合詞組的開頭,也可以是位于繁體混合詞組的結(jié)尾,也可以是位于繁體混合詞組的中間,并且延長結(jié)構(gòu)的長度可以呈現(xiàn)一定的規(guī)律性,也可以具有隨機性。例如,將“〈TC〉小河長有[num]里”變換為“〈TC〉旁邊的小河長有[num]里”,其中,延長結(jié)構(gòu)為“旁邊的”,其位于繁體混合詞組“〈TC〉小河長有[num]里”之
N /.刖。
[0045]從以上可以看出,在獲取的多個第三中間混合詞組中,有些包括數(shù)字和一對多字符,有些僅包括一對多字符,有些僅包括數(shù)字,有些不包括一對多字符和數(shù)字。[0046]本實施例采用的示例為:通過減少字符這一方式將“〈TC〉小河長有[num]里”縮減為“〈TC〉河長有[num]里”、“〈TC〉長有[num]里”、“〈TC〉有[num]里”、“〈TC〉[num]里”、“〈TC〉里”等。
[0047]再次,從第三中間混合詞組中過濾掉不包括一對多字符和數(shù)字標(biāo)識符的第三中間混合詞組,得到第二混合詞組。
[0048]承接上述示例,利用數(shù)字標(biāo)識符“ [num] ”過濾掉詞組“〈TC〉里”,從而最終得到第二混合詞組:“〈TC>小河長有[num]里”、“〈TC〉河長有[num]里”、“〈TC〉長有[num]里”、“〈TC〉有[num]里”和“<TC>[num]里”,此處得到的第二混合詞組具有重疊的結(jié)構(gòu)“ [num]里”。
[0049]需要指出的是,本實施例也可以數(shù)字標(biāo)識符“ [num] ”為基準(zhǔn)來對繁體混合詞組“〈TC〉小河長有[num]里”進行變換,例如,將繁體混合詞組“〈TC〉小河長有[num]里”變換為多個第三中間混合詞組:“〈TC>河長有[num]里”、“〈TC〉長有[num]里”、“〈TC〉小河長有[num] ”等。然后再利用一對多字符“里”過濾掉不包含一對多字符和數(shù)字標(biāo)識符的第三中間混合詞組,從而得到第二混合詞組。
[0050]本領(lǐng)域技術(shù)人員可以理解的是,本實施例也可以同時以一對多字符“里”和數(shù)字標(biāo)識符“ [num] ”為基準(zhǔn)進行變換,然后再利用一對多字符“里”和數(shù)字標(biāo)識符“ [num] ”過濾掉不包含一對多字符“里”和數(shù)字標(biāo)識符“ [num] ”的混合詞組,從而得到第二混合詞組。在這種情況下,過濾步驟是可以省略的,從而使得運算效率非常高。
[0051]需要指出的是,本實施例也可以先以數(shù)字為基準(zhǔn)對第一中間混合詞組進行變換,然后再用數(shù)字標(biāo)識符“ [num] ”取代變換后的混合詞組中的數(shù)字,然后再利用一對多字符和數(shù)字標(biāo)識符“ [num] ”進行過濾,具體的過程可以參照上述描述,在此不再贅述。
[0052]本領(lǐng)域技術(shù)人員可以理解的是,無論是采用何種變換和過濾方式,最終只要保證獲得第二混合詞組包括一對多字符和數(shù)字標(biāo)識符即可。
[0053]S212,將第二混合詞組進行轉(zhuǎn)換,獲取對應(yīng)第二混合詞組的第一混合詞組。
[0054]承接上述示例,分別將第二混合詞組“〈TC〉小河長有[num]里”、“〈TC〉河長有[num]里”、“〈TC〉長有[num]里”、“〈TC〉有[num]里”和“〈TC〉[num]里”轉(zhuǎn)換為第一混合詞組“〈SC〉小河長有[num]里”、“〈SC〉河長有[num]里,,、“〈SC〉長有[num]里”、“〈SC〉有[num]里”和“〈SC〉[num]里”,其中,“〈SC〉”表示簡體混合詞組。
[0055]S213,將第一混合詞組與對應(yīng)的第二混合詞組組成第一混合詞組-第二混合詞組候選對。
[0056]承接上述示例,分別將第二混合詞組“〈TC〉小河長有[num]里”、“〈TC〉河長有[num]里”、“〈TC〉長有[num]里”、“〈TC〉有[num]里”和“〈TC〉[num]里”與對應(yīng)的第一混合詞組“〈SC〉小河長有[num]里”、“〈SC〉河長有[num]里,,、“〈SC〉長有[num]里,,、“〈SC〉有[num]里”和“〈SC〉[num]里”組成第一混合詞組-第二混合詞組候選對:“〈SC>小河長有[num]里一〈TC〉小河長有[num]里”、“〈SC〉河長有[num]里一〈TC〉河長有[num]里”、“〈SC〉長有[num]里一〈TC〉長有[num]里”、“〈SC〉有[num]里一〈TC〉有[num]里”和“〈SC〉[num]里一〈TC〉[num]里”。
[0057]需要說明的是,在實際應(yīng)用中,并不是所有的候選對都具有重疊結(jié)構(gòu),理由是:可能該句子是以數(shù)字開始,以一對多字符結(jié)尾,因此只能獲取一個候選對;或是,從內(nèi)容完全不同的句子獲取對應(yīng)的候選對,從不同句子的角度看,獲取的候選對不具有重疊結(jié)構(gòu)。本申請為了簡化描述,以具有重疊結(jié)構(gòu)的候選對為例,但這并構(gòu)成對本申請的限制。
[0058]S120,從第一混合詞組-第二混合詞組候選對中提取中間候選對。
[0059]承接上述示例,利用訓(xùn)練文本,統(tǒng)計候選對中第一混合詞組到第二混合詞組的轉(zhuǎn)換頻率,轉(zhuǎn)換頻率大于預(yù)設(shè)第一閾值的候選對得以保留下來。例如,對于候選對“〈SC〉小河長有[num]里一〈TC〉小河長有[num]里”而言,從第一混合詞組“〈SC〉小河長有[num]里” 到第二混合詞組“〈TC〉小河長有[num]里”的轉(zhuǎn)換頻率為12次,對于候選對“〈SC〉河長有 [num]里一〈TC〉河長有[num]里”而言,轉(zhuǎn)換頻率為18次,對于候選對“〈SC〉長有[num] 里一〈TC〉長有[num]里”而言,轉(zhuǎn)換頻率為20次,對于候選對“〈SC〉有[num]里一〈TC〉 有[num]里”而言,轉(zhuǎn)換頻率為25次,對于候選對“〈SC〉[num]里一〈TC〉[num]里”而言,轉(zhuǎn)換頻率為34次,預(yù)設(shè)第一閾值為19次,這樣保留候選對“〈SC〉長有[num]里一〈TC〉長有 [num]里”、“〈SC〉有[num]里一〈TC〉有[num]里”和 “〈SC〉[num]里一〈TC〉[num]里”。
[0060]然后,統(tǒng)計候選對的信心度,保留信心度大于預(yù)設(shè)第二預(yù)設(shè)閾值的候選對。具體地,由于存在一對多字符,在生成第一混合詞組-第二混合詞組候選對時,可能會出現(xiàn)一個混合詞組對應(yīng)兩種混合詞組,所以需要判斷每一第一混合詞組-第二混合詞組候選對的信心度,保留信心度大于第二預(yù)設(shè)閾值的候選對。例如,在生成候選對“長有[num]里一〈TC〉 長有[num]里”時,還可能會生成候選對“長有[num]里一〈TC〉長有[num]裏”;在生成候選對“〈SC〉有[num]里一〈TC〉有[num]里”時,還可能會生成候選對“〈SC〉有[num]里 —〈TC〉有[num]裡”;在生成候選對“〈SC〉[num]里一<TC>[num]里”時,還可能會生成候選對“〈SC〉[num]里一〈TC〉[num]裏”。此時,對于候選對“〈SC〉長有[num]里一〈TC〉長有 [num]里”、“〈SC〉有[num]里一〈TC〉有[num]里”和 “〈SC〉[num]里一〈TC〉[num]里”而言,其轉(zhuǎn)換頻率分別為20次、25次和34次。相對應(yīng)地,對于候選對“長 有[num]里一〈TC〉 長有[num]裏”、“〈SC〉有[num]里一〈TC〉有[num]裡”和“〈SC〉[num]里一〈TC〉[num]裏” 而言,其轉(zhuǎn)換頻率分別為I次、3次和10次。然后,統(tǒng)計“〈SC〉長有[num]里一〈TC〉長有 [num]里”、“〈SC〉有[num]里一〈TC〉有[num]里”和“〈SC〉[num]里一〈TC〉[num]里”的信心度分別為20/(20+1)、25/(25+3)和34/(34+10),第二預(yù)設(shè)閾值為6/7,通過將各個候選對的信心度與第二預(yù)設(shè)閾值進行比較,保留候選對“〈SC〉長有[num]里一〈TC〉長有[num] 里”和“〈SC〉有[num]里一〈TC〉有[num]里”。這樣做的目的是不僅得到高頻率轉(zhuǎn)換的候選對,又保證得到的該候選對的轉(zhuǎn)換可能性具有很高信心度,即能滿足實際轉(zhuǎn)換需要。
[0061]S130,從中間候選對中選取具有最大覆蓋率的候選對。
[0062]承接上述示例,候選對“〈SC〉有[num]里一〈TC〉有[num]里”和“〈SC〉[num]里 —<TC>[num]里”是兩個合適的候選對,并且候選對“〈SC〉[num]里一<TC>[num]里”是候選對“〈SC〉有[num]里一〈TC〉有[num]里”的模板。因此,可以對兩個候選對進行合并,以便減小模板的存儲空間和存儲成本,并且還可以在保證轉(zhuǎn)換精度的同時,提高轉(zhuǎn)換效率。這種合并可以通過計算覆蓋率來評估,該覆蓋率表示:在一個訓(xùn)練文本中,與候選對匹配的簡體或繁體的句子數(shù)量在所有句子數(shù)量中所占的比重,此處的簡體或繁體是由測試文本的簡繁類型所決定。計算覆蓋率的公式如下:
【權(quán)利要求】
1.一種生成簡繁轉(zhuǎn)換模板的方法,用于第一和第二混合詞組之間的轉(zhuǎn)換,所述第一和第二混合詞組包括一對多字符和數(shù)字,所述第一混合詞組為繁體混合詞組和簡體混合詞組中的一種,所述第二混合詞組為繁體混合詞組和簡體混合詞組中的另一種,其特征在于,包括:獲取第一混合詞組-第二混合詞組候選對;從所述第一混合詞組-第二混合詞組候選對中提取中間候選對;從所述中間候選對中獲取具有最大覆蓋率的候選對;使用所述具有最大覆蓋率的候選對生成簡繁轉(zhuǎn)換模板。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,獲取第一混合詞組-第二混合詞組候選對的步驟包括:獲取第二混合詞組;將所述第二混合詞組進行轉(zhuǎn)換,獲取對應(yīng)所述第二混合詞組的第一混合詞組;將所述第一混合詞組和所述第二混合詞組組成所述第一混合詞組-第二混合詞組候選對。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,獲取第二混合詞組的步驟包括:獲取第一中間混合詞組,所述第一中間混合詞組包括所述一對多字符和所述數(shù)字; 利用所述數(shù)字標(biāo)識符取代所述第一中間混合詞組中的數(shù)字,得到第二中間混合詞組; 利用所述一對多字符和/或所述數(shù)字標(biāo)識符變換所述第二中間混合詞組,得到第三中間混合詞組;從所述第三中間混合詞組中過濾掉不包括所述一對多字符和所述數(shù)字標(biāo)識符的混合詞組,得到所述第二混合詞組。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,獲取第二混合詞組的步驟包括:獲取第一中間混合詞組,所述第一中間混合詞組包括所述一對多字符和所述數(shù)字;利用所述一對多字符和/或所述數(shù)字變換所述第一中間混合詞組,得到第四中間混合詞組;利用所述數(shù)字標(biāo)識符取代所述第四中間混合詞組中的數(shù)字,得到第五中間混合詞組; 從所述第五中間混合詞組中過濾掉不包括所述一對多字符和所述數(shù)字標(biāo)識符的混合詞組,得到所述第二混合詞組。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,從所述第一混合詞組-第二混合詞組候選對中提取中間候選對的步驟包括:統(tǒng)計所述第一混合詞組-第二混合詞組候選對在訓(xùn)練文本中的轉(zhuǎn)換頻率;保留轉(zhuǎn)換頻率大于第一預(yù)設(shè)閾值的第一混合詞組-第二混合詞組候選對;統(tǒng)計大于第一預(yù)設(shè)閾值的第一混合詞組和第二混合詞組候選對的信心度是否大于第二預(yù)設(shè)閾值;如果是,則將信心度大于第二預(yù)設(shè)閾值的第一混合詞組和第二混合詞組候選對作為所述中間候選對。
6.一種簡繁中文轉(zhuǎn)換方法,用于第一和第二混合詞組之間的轉(zhuǎn)換,所述第一和第二混合詞組包括一對多字符和數(shù)字,所述第一混合詞組為繁體混合詞組和簡體混合詞組中的一種,所述第二混合詞組為繁體混合詞組和簡體混合詞組中的另一種,其特征在于,包括:獲取第一混合詞組;用數(shù)字標(biāo)識符取代所述第一混合詞組中的所述數(shù)字,以獲取第一中間混合詞組;從根據(jù)權(quán)利要求1-5任意一項所述的方法生成的模板中查找所述第一中間混合詞組對應(yīng)的第二中間混合詞組;根據(jù)所述數(shù)字標(biāo)識符和所述第二中間混合詞組獲取所述第一混合詞組對應(yīng)的第二混合詞組。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,通過字符串匹配方法,利用所述第一混合詞組-第二混合詞組候選對和所述第一中間混合詞組從所述模板中查找所述第一中間混合詞組對應(yīng)的所述第二中間混合詞組。
8.根據(jù)權(quán)利要求6所述的方法,其特征在于,根據(jù)所述數(shù)字標(biāo)識符和所述第二中間混合詞組獲取所述第一混合詞組對應(yīng)的第二混合詞組的步驟包括:用所述數(shù)字取代所述第二中間混合詞組中的數(shù)字標(biāo)識符,進而得到所述第一混合詞組對應(yīng)的第二混合詞組。
9.根據(jù)權(quán)利要求6所述的方法,其特征在于,獲取第一混合詞組的步驟之前還包括:接收用戶輸入的第一混合詞組,判斷所述第一混合詞組中包含所述一對多字符和所述數(shù)字的步驟。
10.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述數(shù)字為中文數(shù)字或阿拉伯?dāng)?shù)字。
11.一種生成簡繁轉(zhuǎn)換模板的系統(tǒng),用于第一和第二混合詞組之間的轉(zhuǎn)換,所述第一和第二混合詞組包括一對多字符和數(shù)字,所述第一混合詞組為繁體混合詞組和簡體混合詞組中的一種,所述第二混合詞組為繁體混合詞組和簡體混合詞組中的另一種,其特征在于,包括: 候選對獲取模塊,獲取第一混合詞組-第二混合詞組候選對;中間候選對提取模塊,用于從所述第一混合詞組-第二混合詞組候選對中提取中間候選對;最大覆蓋率候選對獲取模塊,用于從所述中間候選對中獲取具有最大覆蓋率的候選對;模板生成模塊,用于使用所述具有最大覆蓋率的候選對生成簡繁轉(zhuǎn)換模板。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其特征在于,具有候選對獲取模塊用于:第二混合詞組獲取單元,用于獲取第二混合詞組;第一混合詞組獲取單元,用于將所述第二混合詞組進行轉(zhuǎn)換,獲取對應(yīng)所述第二混合詞組的第一混合詞組;候選對組成單元,用于將所述第一混合詞組和所述第二混合詞組組成所述第一混合詞組-第二混合詞組候選對。
13.根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,第二混合詞組單元用于:獲取第一中間混合詞組,所述第一中間混合詞組包括所述一對多字符和所述數(shù)字;利用所述數(shù)字標(biāo)識符取代所述第一中間混合詞組中的數(shù)字,得到第二中間混合詞組; 利用所述一對多字符和/或所述數(shù)字標(biāo)識符變換所述第二中間混合詞組,得到第三中間混合詞組;從所述第三中間混合詞組中過濾掉不包括所述一對多字符和所述數(shù)字標(biāo)識符的混合詞組,得到所述第二混合詞組。
14.根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,第二混合詞組單元用于:獲取第一中間混合詞組,所述第一中間混合詞組包括所述一對多字符和所述數(shù)字;利用所述一對多字符和/或所述數(shù)字變換所述第一中間混合詞組,得到第四中間混合詞組;利用所述數(shù)字標(biāo)識符取代所述第四中間混合詞組中的數(shù)字,得到第五中間混合詞組; 從所述第五中間混合詞組中過濾掉不包括所述一對多字符和所述數(shù)字標(biāo)識符的混合詞組,得到所述第二混合詞組。
15.根據(jù)權(quán)利要求11所述的系統(tǒng),其特征在于,中間候選對提取模塊用于:統(tǒng)計所述第一混合詞組-第二混合詞組候選對在訓(xùn)練文本中的轉(zhuǎn)換頻率;保留轉(zhuǎn)換頻率大于第一預(yù)設(shè)閾值的第一混合詞組-第二混合詞組候選對;統(tǒng)計大于第一預(yù)設(shè)閾值的第一混合詞組和第二混合詞組候選對的信心度是否大于第二預(yù)設(shè)閾值;如果是,則將信心度大于第二預(yù)設(shè)閾值的第一混合詞組和第二混合詞組候選對作為所述中間候選對。
16.一種簡繁中文轉(zhuǎn)換系統(tǒng),用于第一和第二混合詞組之間的轉(zhuǎn)換,所述第一和第二混合詞組包括一對多字符和數(shù)字,所述第一混合詞組為繁體混合詞組和簡體混合詞組中的一種,所述第二混合詞組為繁體混合詞組和簡體混合詞組中的另一種,其特征在于,包括:第一混合詞組獲取模塊,用于獲取第一混合詞組;第一中間混合詞組獲取模塊,用于用數(shù)字標(biāo)識符取代所述第一混合詞組中的所述數(shù)字,以獲取第一中間混合詞組;·第二中間混合詞組查找模塊,用于從根據(jù)權(quán)利要求11-15任意一項所述的系統(tǒng)生成的模板中查找所述第一中間混合詞組對應(yīng)的第二中間混合詞組;第二混合詞組獲取模塊,用于根據(jù)所述數(shù)字標(biāo)識符和所述第二中間混合詞組獲取所述第一混合詞組對應(yīng)的第二混合詞組。
17.根據(jù)權(quán)利要求16所述的系統(tǒng),其特征在于,所述查找模塊用于:通過字符串匹配方法,利用所述第一混合詞組-第二混合詞組候選對和所述第一中間混合詞組從所述模板中查找所述第一中間混合詞組對應(yīng)的所述第二中間混合詞組。
18.根據(jù)權(quán)利要求16所述的系統(tǒng),其特征在于,所述第二混合詞組獲取模塊用于: 用所述數(shù)字取代所述第二中間混合詞組中的數(shù)字標(biāo)識符,進而得到所述第一混合詞組對應(yīng)的第二混合詞組。
19.根據(jù)權(quán)利要求16所述的系統(tǒng),其特征在于,還包括:判斷模塊用于:接收用戶輸入的第一混合詞組,判斷所述第一混合詞組中包含所述一對多字符和所述數(shù)字。
20.根據(jù)權(quán)利要求16所述的系統(tǒng),其特征在于,所述數(shù)字為中文數(shù)字或阿拉伯?dāng)?shù)字。
【文檔編號】G06F17/28GK103577396SQ201210284530
【公開日】2014年2月12日 申請日期:2012年8月10日 優(yōu)先權(quán)日:2012年8月10日
【發(fā)明者】朱純深, 郝天永 申請人:香港城市大學(xué)