国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于sc文法的分詞標(biāo)音連寫方法及裝置的制造方法

      文檔序號:9865495閱讀:353來源:國知局
      一種基于sc文法的分詞標(biāo)音連寫方法及裝置的制造方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及一種分詞標(biāo)音連寫方法及裝置,特別涉及一種漢盲翻譯系統(tǒng)中基于SC文法的分詞標(biāo)音連寫方法及裝置,屬于計算機科學(xué)中的機器翻譯技術(shù)領(lǐng)域。
      【背景技術(shù)】
      [0002]機器翻譯是指利用電子計算機將一種自然語言轉(zhuǎn)換成另一種自然語言表達的過程。漢盲翻譯系統(tǒng)把中文信息自動翻譯為盲文字符,這對盲人的教育、生活等起到非常大的幫助。盲文是一種特殊形式的拼音文字,要實現(xiàn)漢字到盲文的翻譯,首先應(yīng)將漢語進行分詞連寫,再轉(zhuǎn)換成拼音,然后由拼音轉(zhuǎn)換成盲文,所以漢語分詞標(biāo)音的準(zhǔn)確性就在很大程度上決定了漢盲翻譯的準(zhǔn)確性。分詞連寫是漢語盲文獨有的重要規(guī)則。分詞是把一個一個的詞分開來寫;連寫是按照盲文的特殊性,避免音節(jié)結(jié)構(gòu)過于松散,便于摸讀,將一些詞連起來寫。分詞連寫,必須遵循漢語語法、語言的邏輯性、習(xí)慣性和音節(jié)長短程度的基本規(guī)則。在漢語轉(zhuǎn)換成拼音的過程中,由于漢字有多音字問題,但詞的多音現(xiàn)象就比字的多音現(xiàn)象少得多,三字以上的詞很少有多音現(xiàn)象,所以正確的分詞連寫可大大減少多音現(xiàn)象。但單獨的多音字問題還是會存在,如何正確地給多音字標(biāo)音就必須利用上下文語境進行自然語言分析處理。所以在漢字到盲文的轉(zhuǎn)換過程有兩個難點:1、提高漢語分詞連寫的正確性;2、結(jié)合上下文的語境分析給多音字正確標(biāo)音。由于國內(nèi)目前針對漢語到盲文的翻譯還停留在人工階段,為了給盲人帶來更多更好的教育素材,繁重的翻譯工作帶來了準(zhǔn)確率的降低,因此迫切需要一套針對漢語到盲文的高準(zhǔn)確率的分詞標(biāo)音連寫方法,從而為漢盲翻譯打下夯實的基礎(chǔ)。

      【發(fā)明內(nèi)容】

      [0003]本發(fā)明的目的是為解決實現(xiàn)漢盲機器翻譯的問題,提出一種基于SC文法的分詞標(biāo)音連寫方法及裝置,實現(xiàn)快速、準(zhǔn)確的分詞標(biāo)音連寫。
      [0004]本發(fā)明的思想是:1、基于SC文法的分詞歧義規(guī)則,利用自然語言中的鄰接約束條件,建立歧義切分規(guī)則庫,以排除不合法切分來提高分詞精度;2、基于SC文法的分詞連寫規(guī)則庫和連寫語料統(tǒng)計庫,按照盲文的特殊性,避免音節(jié)結(jié)構(gòu)過于松散,便于盲人摸讀,將一些詞連起來寫。連寫語料統(tǒng)計庫用來連寫那些無法表示為規(guī)則的連寫知識;3、基于SC文法的字典庫,利用字典進行正向最大匹配來進行分詞,發(fā)生歧義的字段調(diào)用分詞歧義規(guī)則來獲得正確的切分結(jié)果,解析該詞的上下文語境獲得正確的詞性標(biāo)注和標(biāo)音。
      [0005]本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的:
      [0006]—種基于SC文法的分詞標(biāo)音連寫方法,基于字典庫、組合歧義詞庫、分詞歧義規(guī)則庫、連寫規(guī)則庫和連寫語料統(tǒng)計庫,包括以下步驟:
      [0007](I)接收待分詞標(biāo)音的漢語字符串和文章體裁類型;
      [0008]所述字符串為純漢字字符串,即為不包含數(shù)字、標(biāo)點符號、ASCII碼字符等特殊符號的字符串;如果字符串中包含非漢字字符,對其進行分割,對分割后的非漢字子串單獨處理,如直接生成詞節(jié)點并賦予相應(yīng)類型,對漢字字串轉(zhuǎn)步驟(2)經(jīng)過分詞標(biāo)音連寫后與其他經(jīng)處理的非漢字子串合并后輸出即可。
      [0009](2)對漢語字符串基于字典庫進行分詞,并對分詞后的詞塊進行詞性標(biāo)注和標(biāo)音;
      [0010](3)根據(jù)文章體裁類型,調(diào)用相應(yīng)的連寫規(guī)則庫,基于連寫規(guī)則庫中的盲文分詞連寫規(guī)則對步驟(2)的詞塊進行組合連寫;
      [0011](4)基于連寫語料統(tǒng)計庫對組合后的詞塊進行二次組合連寫;
      [0012](5)將生成的分詞標(biāo)音連寫后的漢語字符串輸出。
      [0013]所述字典庫用于漢語分詞、詞性標(biāo)注和標(biāo)音,包括漢語單詞符號、語法語義屬性標(biāo)識符、上下文區(qū)分函數(shù)、單詞的拼音。
      [0014]所述字典庫通過以下過程構(gòu)建:根據(jù)漢語字典知識定義一套語法語義屬性分類體系,并進行收錄,語言工程人員在調(diào)試語料的過程中進一步完善。
      [0015]所述基于字典庫進行分詞通過以下過程完成:
      [0016]a.參照字典庫,利用正向最大匹配算法對語句進行拆分得到詞塊;
      [0017]b.根據(jù)詞塊的交叉特征進行交叉歧義判斷;
      [0018]C.基于組合歧義詞庫對詞塊進行歧義判斷;
      [0019]d.根據(jù)歧義規(guī)則,通過推理消除歧義;
      [0020]e.輸出分詞結(jié)果。
      [0021]所述交叉歧義是形如字串AXB,其中AX構(gòu)成一個詞,同時XB也構(gòu)成一個詞,這類歧義現(xiàn)象即為交叉歧義。其中,A、X、B的長度大于等于一個字長。如“有時間”、“不同情況”、“大腦袋”等均存在交叉歧義。
      [0022]所述組合歧義詞庫用于識別存在組合歧義的詞塊,庫里收錄的是存在組合歧義的二字詞,組合歧義詞是形如AB的詞串,其中A,B分別獨立成詞,如句子“他將來上海?!敝械摹皩怼本褪墙M合歧義詞。
      [0023]所述組合歧義詞庫通過以下過程構(gòu)建:語言工程師在調(diào)試大批量語料的過程中逐步收錄。
      [0024]所述分詞歧義規(guī)則庫用于推理消除歧義詞塊,得到正確的分詞結(jié)果,包括歧義詞塊、條件函數(shù)、正確分詞操作。
      [0025]所述分詞歧義規(guī)則庫通過以下過程構(gòu)建:語言工程師在調(diào)試大批量語料的過程中逐步總結(jié)完善規(guī)則。分詞歧義規(guī)則庫細(xì)分為交叉歧義規(guī)則和組合歧義規(guī)則兩類,具有交叉歧義的詞塊調(diào)用交叉歧義規(guī)則推理消歧,具有組合歧義的詞塊調(diào)用組合歧義規(guī)則推理消歧。
      [0026]所述基于組合歧義詞庫對詞塊進行歧義判斷通過以下過程完成:
      [0027]a.對當(dāng)前詞塊,利用二分查找算法查詢組合歧義詞庫;
      [0028]b.根據(jù)查詢結(jié)果,輸出組合歧義標(biāo)志。
      [0029]所述根據(jù)歧義規(guī)則,通過推理消除歧義通過以下過程完成:
      [0030]a.對當(dāng)前含歧義標(biāo)志的詞塊,匹配歧義規(guī)則中的歧義詞塊部分;
      [0031 ] b.若匹配成功,進行條件函數(shù)檢查;
      [0032]c.若條件檢查滿足,執(zhí)行正確分詞操作;
      [0033]d.輸出正確的分詞結(jié)果。
      [0034]所述對分詞后的詞塊進行詞性標(biāo)注和標(biāo)音通過以下過程完成:
      [0035]a.對當(dāng)前的詞塊,從字典庫中取出該詞塊的字典信息;
      [0036]b.逐條進行上下文函數(shù)檢查;
      [0037]c.若上下文檢查滿足,取出該條的詞性和拼音。
      [0038]所述連寫規(guī)則庫用于對分詞并標(biāo)注后的詞塊進行組合連寫,包括規(guī)則詞塊部分、條件函數(shù)、連寫操作。根據(jù)不同的文章體裁,連寫規(guī)則庫細(xì)分為文言文規(guī)則庫和現(xiàn)代文規(guī)則庫。
      [0039]所述連寫規(guī)則庫通過以下過程構(gòu)建:根據(jù)盲文出版物中定義的連寫規(guī)則進行逐條收錄,語言工程人員在調(diào)試語料的過程中進一步完善。
      [0040]所述基于連寫規(guī)則對詞塊進行組合連寫通過以下過程完成:
      [0041 ] a.對當(dāng)前若干詞塊,匹配連寫規(guī)則中的詞塊部分;
      [0042]b.若匹配成功,進行條件函數(shù)檢查;
      [0043]c.若條件檢查滿足,執(zhí)行正確連寫操作;
      [0044]d輸出連寫后的分詞結(jié)果。
      [0045]所述連寫語料統(tǒng)計庫用于對根據(jù)連寫規(guī)則組合后的詞塊進行二次組合連寫,庫里收錄的是需要組合連寫的詞塊,如“三大紀(jì)律”。連寫語料統(tǒng)計庫細(xì)分為基礎(chǔ)詞庫和用戶詞庫,其中基礎(chǔ)詞庫收錄了一些通用的連寫詞塊,用戶詞庫包括用戶自定義需要連寫的詞塊。
      [0046]所述連寫語料統(tǒng)計庫通過以下過程構(gòu)建:根據(jù)盲文出版物中定義的一些具體連寫詞塊進行收錄,語言工程人員在調(diào)試語料的過程中進一步完善。
      [0047]所述基于連寫語料統(tǒng)計庫對組合后的詞塊進行二次組合連寫通過以下過程完成:
      [0048]a.對當(dāng)前詞塊,按照用戶詞庫、基礎(chǔ)詞庫的順序進行匹配;
      [0049]b.若匹配成功,執(zhí)行連寫組合;
      [0050]c.輸出連寫后的詞塊結(jié)果;
      [0051]—種基于SC文法的分詞標(biāo)音連寫裝置,基于字典庫、組合歧義詞庫、連寫語料統(tǒng)計庫、連寫規(guī)則庫和分詞歧義規(guī)則庫,包括依次連接的分詞模塊、詞性標(biāo)注及標(biāo)音模塊、一次組合連寫模塊和二次組合連寫模塊,分詞模塊、詞性標(biāo)注及標(biāo)音模塊分別與字典庫相連,分詞模塊還與組合歧義詞庫和分詞歧義規(guī)則庫分別相連,一次組合連寫模塊與連寫規(guī)則庫相連,二次組合連寫模塊與連寫語料統(tǒng)計庫相連;
      [0052]分詞模塊用于對輸入漢語字符串基于字典庫進行分割,拆分成獨立的詞塊,并在分割的過程中對得到的詞塊基于交叉歧義特征以及組合歧義詞庫判斷是否存在歧義,并對存在歧義的詞基于分詞歧義規(guī)則庫消除切分歧義,得到正確的詞塊;
      [0053]詞性標(biāo)注及標(biāo)
      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1