国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于將簡體漢語句子轉換為繁體漢語句子的方法和設備的制作方法

      文檔序號:6492435閱讀:294來源:國知局
      用于將簡體漢語句子轉換為繁體漢語句子的方法和設備的制作方法
      【專利摘要】本發(fā)明公開了一種用于將簡體漢語句子轉換為繁體漢語句子的方法和設備。所述方法包括:由基于簡體-繁體字符一對多轉換表的序列標注模型,對輸入的簡體漢語句子進行序列標注,以得到多組序列標注結果及其組概率;對所述簡體漢語句子進行分詞和詞性標注;根據所述簡體漢語句子中的歧義字的詞性和歧義詞的轉換概率中的至少一個以及所述組概率,從所述多組序列標注結果中選擇最佳標注結果;以及按照所述最佳標注結果,基于所述一對多轉換表,將所輸入的簡體漢語句子中的、所述一對多轉換表中出現的簡體字符轉換為繁體字符;其中在所述一對多轉換表中,每一個簡體字符對應于按順序排列的多個候選繁體字符。
      【專利說明】用于將簡體漢語句子轉換為繁體漢語句子的方法和設備
      【技術領域】
      [0001]本發(fā)明一般地涉及自然語言處理。具體而言,本發(fā)明涉及一種能夠將簡體漢語句子轉換為繁體漢語句子的方法和設備。
      【背景技術】
      [0002]由于歷史和文化傳播等原因,漢語存在兩種書面形式。一種是中國大陸和新加坡使用的簡體漢字,另一種是臺灣、香港、澳門、大多數海外華人使用的繁體漢字。隨著各地區(qū)之間的文化交流、經濟往來等日益增多,存在將簡體漢字和繁體漢字互相轉換的需要。
      [0003]漢字簡繁轉換的主要問題在于,在漢字的簡化過程中將多個繁體漢字進行了歸并,使得多個繁體漢字可能對應于一個簡體漢字,因此,將簡體漢字轉換為繁體漢字時,會存在一對多的歧義。例如,簡體漢字“發(fā)”對應于繁體漢字“發(fā)”和“髪”。簡體詞“出發(fā)”應轉換為繁體詞“出發(fā)”,簡體詞“頭發(fā)”應轉換為繁體詞“頭髪”。
      [0004]傳統(tǒng)的簡繁轉換方法依賴于人工構造的各種映射表,根據映射表中簡繁漢字的對應關系,進行簡體漢字和繁體漢字之間的轉換。傳統(tǒng)的方法雖然實現簡單、轉換速度較快,但是無法解決簡體漢字與繁體漢字之間的一對多歧義問題,并且基于詞的映射表的轉換必然涉及到對輸入的簡體漢語句子進行分詞,轉換結果受到分詞結果的較大影響。此外,傳統(tǒng)的方法需要高質量的大規(guī)模知識庫,即需要大量的人力物力。并且,人工構造的知識可能互相矛盾,從而影響系統(tǒng)的整體性能。因此,期望設計一種設備和方法,其能夠解決簡繁轉換的一對多歧義問題,較少受到分詞的影響,不依賴于高質量的大規(guī)模知識庫,避免過多引入人工構造的知識。

      【發(fā)明內容】

      [0005]在下文中給出了關于本發(fā)明的簡要概述,以便提供關于本發(fā)明的某些方面的基本理解。應當理解,這個概述并不是關于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。
      [0006]本發(fā)明的目的是針對現有技術的上述問題,提出一種能夠將簡體漢語句子轉換為繁體漢語句子的方法和設備。該方案能夠克服簡繁轉換過程中的一對多歧義問題。
      [0007]為了實現上述目的,根據本發(fā)明的一個方面,提供了一種將簡體漢語句子轉換為繁體漢語句子的方法,其包括:由基于簡體-繁體字符一對多轉換表的序列標注模型,對輸入的簡體漢語句子進行序列標注,以得到多組序列標注結果及其組概率;對所述簡體漢語句子進行分詞和詞性標注;根據所述簡體漢語句子中的歧義字的詞性和歧義詞的轉換概率中的至少一個以及所述組概率,從所述多組序列標注結果中選擇最佳標注結果;以及按照所述最佳標注結果,基于所述一對多轉換表,將所輸入的簡體漢語句子中的、所述一對多轉換表中出現的簡體字符轉換為繁體字符;其中在所述一對多轉換表中,每一個簡體字符對應于按順序排列的多個候選繁體字符。[0008]根據本發(fā)明的另一個方面,提供了一種將簡體漢語句子轉換為繁體漢語句子的轉換設備,其包括:基于簡體-繁體字符一對多轉換表的序列標注模型,用于對輸入的簡體漢語句子進行序列標注,以得到多組序列標注結果及其組概率;分詞和詞性標注裝置,用于對所述簡體漢語句子進行分詞和詞性標注;選擇裝置,用于根據所述簡體漢語句子中的歧義字的詞性和歧義詞的轉換概率中的至少一個以及所述組概率,從所述多組序列標注結果中選擇最佳標注結果;以及轉換裝置,用于按照所述最佳標注結果,基于所述一對多轉換表,將所輸入的簡體漢語句子中的、所述一對多轉換表中出現的簡體字符轉換為繁體字符;其中在所述一對多轉換表中,每一個簡體字符對應于按順序排列的多個候選繁體字符。
      [0009]另外,根據本發(fā)明的另一方面,還提供了 一種存儲介質。所述存儲介質包括機器可讀的程序代碼,當在信息處理設備上執(zhí)行所述程序代碼時,所述程序代碼使得所述信息處理設備執(zhí)行根據本發(fā)明的上述方法。
      [0010]此外,根據本發(fā)明的再一方面,還提供了 一種程序產品。所述程序產品包括機器可執(zhí)行的指令,當在信息處理設備上執(zhí)行所述指令時,所述指令使得所述信息處理設備執(zhí)行根據本發(fā)明的上述方法。
      【專利附圖】

      【附圖說明】
      [0011]參照下面結合附圖對本發(fā)明實施例的說明,會更加容易地理解本發(fā)明的以上和其它目的、特點和優(yōu)點。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類似的技術特征或部件將采用相同或類似的附圖標記來表示。附圖中:
      [0012]圖1示出了訓練語料的示例性獲取方法;
      [0013]圖2示出了根據本發(fā)明實施例的簡繁漢語句子轉換方法的第一實施例的流程圖;
      [0014]圖3示出了根據本發(fā)明實施例的簡繁漢語句子轉換方法的第二實施例的流程圖;
      [0015]圖4示出了根據本發(fā)明實施例的簡繁漢語句子轉換設備的結構方框圖;以及
      [0016]圖5示出了可用于實施根據本發(fā)明實施例的方法和設備的計算機的示意性框圖。
      【具體實施方式】
      [0017]在下文中將結合附圖對本發(fā)明的示范性實施例進行詳細描述。為了清楚和簡明起見,在說明書中并未描述實際實施方式的所有特征。然而,應該了解,在開發(fā)任何這種實際實施例的過程中必須做出很多特定于實施方式的決定,以便實現開發(fā)人員的具體目標,例如,符合與系統(tǒng)及業(yè)務相關的那些限制條件,并且這些限制條件可能會隨著實施方式的不同而有所改變。此外,還應該了解,雖然開發(fā)工作有可能是非常復雜和費時的,但對得益于本公開內容的本領域技術人員來說,這種開發(fā)工作僅僅是例行的任務。
      [0018]在此,還需要說明的一點是,為了避免因不必要的細節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據本發(fā)明的方案密切相關的裝置結構和/或處理步驟,而省略了與本發(fā)明關系不大的其他細節(jié)。另外,還需要指出的是,在本發(fā)明的一個附圖或一種實施方式中描述的元素和特征可以與一個或更多個其它附圖或實施方式中示出的元素和特征相結合。
      [0019]本發(fā)明基于如下的思想:可以將簡繁漢語句子的轉換問題看作一個序列標注問題。而且,對于序列標注的結果,可以通過引入歧義字的詞性和歧義詞的轉換概率來進行篩選。選出的最佳序列標注結果對應的繁體漢語句子可作為轉換的結果。[0020]應注意,此處的術語“句子”相當于字符串,可包括多個簡體字符或繁體字符,可以是完整的一句話,也可以是不完整的一句話、也可以是包括多句話的段落等。只要它是連續(xù)的同一種(簡體或繁體)漢字字符串即可。
      [0021]首先,介紹簡體-繁體字符一對多轉換表、序列標注模型的訓練、訓練語料的獲取方式、標注規(guī)則。
      [0022]如上所述,本發(fā)明所要解決的問題是克服在簡繁體轉換中一個簡體漢字可能對應于多個繁體漢字的問題。通常,一個繁體漢字能夠找到其唯一對應的一個簡體漢字。有些情況下,對應的簡體漢字和繁體漢字是同一個字。因此,繁體漢字轉換為簡體漢字時通常不存在一對多轉換歧義問題。
      [0023]本發(fā)明需要利用一個簡體-繁體字符一對多轉換表(以下簡稱為一對多轉換表)來記錄簡體字符與繁體字符的對應關系、歧義字的詞性概率、歧義詞的轉換概率,并基于此進行序列標注模型的訓練、標注、標注結果的篩選等。注意,歧義詞的轉換概率可以記載于單獨的歧義詞表中。
      [0024]可以從維基百科獲得上述一對多轉換表,也可通過如下方式獲得上述一對多轉換表:從繁體-簡體字符轉換表中,抽取與多個繁體字符對應的簡體字符;基于所抽取的簡體字符以及與其對應的多個繁體字符,構建上述一對多轉換表。繁體-簡體字符轉換表例如是1956年出版的國家標準-簡化字總表。
      [0025]一對多轉換表的獲取方式并不受上述給出的示例的限制。不同方式獲得的一對多轉換表可進行去重合并,以獲得擁有更多詞匯的轉換表。
      [0026]將基于此一對多轉換表進行下面將描述的序列標注模型的訓練過程,并根據訓練語料獲得上述的歧義字的詞性概率和歧義詞的轉換概率。
      [0027]在一對多轉換表中,每一個簡體字符對應于按順序排列的多個候選繁體字符?;谏鲜鲆粚Χ噢D換表的標注規(guī)則是為一對多轉換表中出現的簡體字符標注一對多轉換表中其對應的候選繁體字符的序號。對于一對多轉換表中沒有出現的簡體字符、標點符號,將其標注為與上述序號不同的同一公共標簽。例如,一個簡體漢字可能對應于五個繁體漢字,則在一對多轉換表中,五個繁體漢字分別對應于序號1-5。如果一個簡體漢字不在一對多轉換表中,則將其標注為O。也就是說,標注結果表明被標注的簡體字符所對應的繁體字符在上述一對多轉換表中作為與該簡體字符對應的候選繁體字符的序號。
      [0028]訓練序列標注模型時,對序列標注模型的輸入包括簡體漢語句子中的所有字符的上下文相關的特征模板。序列標注模型按照上下文相關的特征模板,自動提取訓練語料中每個字符的上下文相關特征。
      [0029]例如,表1示出了上下文相關的特征模板的示例,其中,C表示簡體漢語句子中的字符,C0表示當前字符,CL1表示當前字符的前一字符,C1表示當前字符的后一字符,以此類推。
      [0030]表1特征模板
      [0031]
      【權利要求】
      1.一種將簡體漢語句子轉換為繁體漢語句子的方法,包括: 由基于簡體-繁體字符一對多轉換表的序列標注模型,對輸入的簡體漢語句子進行序列標注,以得到多組序列標注結果及其組概率; 對所述簡體漢語句子進行分詞和詞性標注; 根據所述簡體漢語句子中的歧義字的詞性和歧義詞的轉換概率中的至少一個以及所述組概率,從所述多組序列標注結果中選擇最佳標注結果;以及 按照所述最佳標注結果,基于所述一對多轉換表,將所輸入的簡體漢語句子中的、所述一對多轉換表中出現的簡體字符轉換為繁體字符; 其中在所述一對多轉換表中,每一個簡體字符對應于按順序排列的多個候選繁體字符。
      2.如權利要求1所述的方法,其中在所述序列標注步驟之后還包括: 去除其中的標注結果不符合基于所述一對多轉換表的標注規(guī)則的一組或多組序列標注結果。
      3.如權利要求1所述的方法,其中所述序列標注步驟包括: 由所述序列標注模型以所述簡體漢語句子作為輸入,進行序列標注; 所述序列標注結果表明被標注的簡體字符所對應的繁體字符在所述一對多轉換表中作為與該簡體字符對應的候選繁體字符的序號; 所述組概率表明所述序列·標注模型給出的該組序列標注結果的置信度。
      4.如權利要求1所述的方法,其中所述選擇步驟包括: 計算所述序列標注結果表明的與所述歧義字對應的繁體字具有詞性標注結果表明的詞性的詞性概率; 使用所述詞性概率和所述歧義詞的轉換概率中的至少一個以及所述組概率,從所述多組序列標注結果中選擇所述最佳標注結果。
      5.如權利要求4所述的方法,其中計算通過將在語料庫中所述歧義字對應的各個繁體字具有某一詞性的次數除以所述歧義字具有該詞性的次數而得到的商,作為所述歧義字對應的所述各個繁體字具有該詞性的所述詞性概率。
      6.如權利要求1所述的方法,其中所述歧義詞的轉換概率表明所述簡體漢語句子中出現的所述歧義詞被轉換為不同的繁體詞的相應概率;計算通過將與所述歧義詞對應的各個繁體詞在語料庫中與該歧義詞對應的次數除以該歧義詞在語料庫中出現的次數而得到的商,作為所述歧義詞相對于所述各個繁體詞的轉換概率。
      7.如權利要求1所述的方法,其中所述選擇步驟包括:根據所述簡體漢語句子中的所述歧義字的詞性和所述歧義詞的轉換概率中的至少一個調整所述組概率,從所述多組序列標注結果中選擇調整后的組概率最大的一組序列標注結果作為所述最佳標注結果。
      8.如權利要求1所述的方法,其中在所述轉換步驟之后還包括:基于其中的元素一一對應的簡體-繁體字符一對一轉換表,將所輸入的簡體漢語句子中剩余的簡體字符轉換為繁體字符。
      9.如權利要求1所述的方法,其中利用基于所述一對多轉換表標注的訓練語料,訓練所述序列標注模型; 其中所述訓練語料通過如下步驟獲得:以所述一對多轉換表中的一個或多個繁體字符為搜索元素,利用搜索引擎,獲得包含所述一個或多個繁體字符的繁體漢語句子; 按照繁體-簡體字符轉換表,將所獲得的繁體漢語句子轉換為簡體漢語句子; 根據繁體漢語句子中的搜索元素,按照所述一對多轉換表,對轉換得到的簡體漢語句子中的簡體字符進行序列標注,以得到所述訓練語料。
      10.一種將簡體漢語句子轉換為繁體漢語句子的轉換設備,包括: 基于簡體-繁體字符一對多轉換表的序列標注模型,用于對輸入的簡體漢語句子進行序列標注,以得到多組序列標注結果及其組概率; 分詞和詞性標注裝置,用于對所述簡體漢語句子進行分詞和詞性標注; 選擇裝置,用于根據所述簡體漢語句子中的歧義字的詞性和歧義詞的轉換概率中的至少一個以及所述組概率,從所述多組序列標注結果中選擇最佳標注結果;以及 轉換裝置,用于按照所述最佳標注結果,基于所述一對多轉換表,將所輸入的簡體漢語句子中的、所述一對多轉換表中出現的簡體字符轉換為繁體字符; 其中在所述一對多轉換表中,每一個簡體字符對應于按順序排列的多個候選繁體字符。
      【文檔編號】G06F17/28GK103853706SQ201210519822
      【公開日】2014年6月11日 申請日期:2012年12月6日 優(yōu)先權日:2012年12月6日
      【發(fā)明者】房璐, 孟遙, 于浩 申請人:富士通株式會社
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1