国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法

      文檔序號(hào):40278239發(fā)布日期:2024-12-11 13:14閱讀:11來(lái)源:國(guó)知局
      一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法

      本發(fā)明涉及語(yǔ)言學(xué)習(xí),具體是一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法。


      背景技術(shù):

      1、在自然語(yǔ)言處理和藏文文本校對(duì)領(lǐng)域標(biāo)注數(shù)據(jù)是一項(xiàng)費(fèi)時(shí)費(fèi)力的工作,不管是統(tǒng)計(jì)機(jī)器學(xué)習(xí)、深度學(xué)習(xí),還是預(yù)訓(xùn)練語(yǔ)言模型訓(xùn)練、測(cè)試都需要高質(zhì)量的標(biāo)注數(shù)據(jù)集。

      2、目前藏文文本自動(dòng)校對(duì)領(lǐng)域沒(méi)有一個(gè)公開(kāi)的符合錯(cuò)誤分布的高質(zhì)量標(biāo)注數(shù)據(jù)集,人工收集整理標(biāo)注數(shù)據(jù)集耗費(fèi)大量的人力物力,如何采用自動(dòng)構(gòu)建符合錯(cuò)誤分布的藏文錯(cuò)誤數(shù)據(jù)集,對(duì)研究藏文文本自動(dòng)校對(duì)起到至關(guān)重要的作用。

      3、為此,本發(fā)明提供了一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法,以解決上述問(wèn)題。


      技術(shù)實(shí)現(xiàn)思路

      1、針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法,解決了上述問(wèn)題。

      2、為實(shí)現(xiàn)以上目的,本發(fā)明通過(guò)以下技術(shù)方案予以實(shí)現(xiàn):一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法,包括確定文本的錯(cuò)誤類型、構(gòu)建混淆集和加噪算法,所述錯(cuò)誤類型包括拼寫(xiě)錯(cuò)誤和真字錯(cuò)誤;

      3、所述構(gòu)建混淆集包括:構(gòu)建拼寫(xiě)錯(cuò)誤音節(jié)混淆集、構(gòu)建形近音節(jié)混淆集、構(gòu)建音似音節(jié)混淆集、構(gòu)建動(dòng)詞時(shí)態(tài)混淆集,構(gòu)建易錯(cuò)虛詞混淆集,并構(gòu)建不同音節(jié)的混淆集;

      4、所述加噪算法包括與混淆集相匹配的聯(lián)合加噪算法,用于利用混淆集保留原音節(jié)與替換音節(jié)之間的語(yǔ)言信息關(guān)聯(lián),例如音近、形似、時(shí)態(tài)、虛詞搭配和拼寫(xiě)錯(cuò)誤等信息,并通過(guò)混淆集隨機(jī)替換正確句子中的音節(jié)來(lái)加噪訓(xùn)練數(shù)據(jù)。

      5、優(yōu)選的,所述拼寫(xiě)錯(cuò)誤為本身不符合藏文音節(jié)拼寫(xiě)規(guī)范,判斷拼寫(xiě)錯(cuò)誤不需要上下文信息;

      6、所述真字錯(cuò)誤包括同音字替換錯(cuò)誤、形似錯(cuò)誤、動(dòng)詞時(shí)態(tài)錯(cuò)誤和虛詞搭配錯(cuò)誤,真字錯(cuò)誤符合藏文音節(jié)拼寫(xiě)規(guī)范,不能與前后字組合構(gòu)成具有語(yǔ)義信息的詞語(yǔ)或者不符合當(dāng)前語(yǔ)境,判斷真字錯(cuò)誤需要結(jié)合上下文信息。

      7、優(yōu)選的,構(gòu)建拼寫(xiě)錯(cuò)誤音節(jié)混淆集包括非構(gòu)件集合和音節(jié)構(gòu)件識(shí)別算法,具體為替換正確音節(jié)某個(gè)構(gòu)件來(lái)自動(dòng)生成錯(cuò)誤音節(jié)的動(dòng)態(tài)集合,且藏文音節(jié)最多7個(gè)字符、最少1個(gè)字符,其構(gòu)件集合和非構(gòu)件集合如下:

      8、設(shè)b代表基字集合

      9、設(shè)pr代表前加字集合

      10、設(shè)u代表上加字集合,則:

      11、設(shè)d代表下加字集合

      12、設(shè)s代表后加字集合

      13、設(shè)es代表再后加字集合

      14、設(shè)tvowel代表元音集合

      15、設(shè)非前加字集合

      16、設(shè)非上加字集合

      17、設(shè)非下加字集合

      18、設(shè)非后加字集合

      19、設(shè)非再后加字集合

      20、其中,npr、nu、nd、ns、nes集合和音節(jié)構(gòu)件識(shí)別算法,可以自動(dòng)生成拼寫(xiě)錯(cuò)誤音節(jié),具體算法可描述為:首先使用音節(jié)構(gòu)件識(shí)別算法處理音節(jié),將其拆分為構(gòu)件集合,比如分解為{“”,“上加字”,“基字”,“下加字”,“”,“元音”,“后加字”,“”}的構(gòu)件集合,其次,去除空字符的構(gòu)件,從剩下的構(gòu)件中隨機(jī)選擇一個(gè)非元音、非基字構(gòu)件、非再下加字,從非構(gòu)件集合里與其構(gòu)件位置對(duì)應(yīng)的子集中隨機(jī)選擇一個(gè)字母進(jìn)行替換,生成一個(gè)拼寫(xiě)錯(cuò)誤音節(jié),錯(cuò)誤音節(jié)混淆集為通過(guò)算法自動(dòng)生成錯(cuò)誤音節(jié)的過(guò)程,具體如算法1所示:

      21、

      22、

      23、優(yōu)選的,構(gòu)建形近音節(jié)混淆集是構(gòu)件識(shí)別算法和形狀相似構(gòu)件集合,替換原音節(jié)中的某個(gè)構(gòu)件來(lái)自動(dòng)生成形近字動(dòng)態(tài)集合,其具體算法為:對(duì)音節(jié)使用構(gòu)件識(shí)別算法,將其拆分為構(gòu)件集合,去除空字符的構(gòu)件,從剩下的構(gòu)件中隨機(jī)選擇一個(gè)非元音、非再下加字的構(gòu)件,若選中的構(gòu)件屬于上述形狀相似構(gòu)件集合中的一組,從該組中選擇一個(gè)不同的構(gòu)件將其替換,具體如算法2所示:

      24、

      25、優(yōu)選的,構(gòu)建音似音節(jié)混淆集是通過(guò)類似于同音字庫(kù)形式來(lái)建立混淆集,具體算法是:首先按照“相近音”對(duì)每個(gè)基礎(chǔ)字進(jìn)行分類,建立五十二組“相近音”藏文基礎(chǔ)字,每組基礎(chǔ)字個(gè)數(shù)最少為1最多為12,五十二組音似聲母作為生成音近字的“骨架”;其次把基礎(chǔ)字、元音和后綴設(shè)a,b,c三個(gè)集合,三個(gè)集合分別表示為:基礎(chǔ)字集合其中a集合是五十二組音近基礎(chǔ)字,b集合是元音字符集合,c集合是后加字和再后加字集合,也稱后綴集合,算法的主要思路是集合a中同一組的每個(gè)元素與集合b的一個(gè)元素、集合c的一個(gè)元素組合構(gòu)成一組音近字組,比如可構(gòu)成一組音近字,具體如算法3所示:

      26、

      27、優(yōu)選的,構(gòu)建動(dòng)詞時(shí)態(tài)混淆集,藏文動(dòng)詞分為三時(shí)一式:即過(guò)去時(shí)、現(xiàn)在時(shí)、未來(lái)時(shí)和命令式,具體方法為:對(duì)收集的1654個(gè)單音節(jié)動(dòng)詞首先刪除只有一種形態(tài)的動(dòng)詞,然后對(duì)剩下動(dòng)詞的時(shí)態(tài)進(jìn)行去重,刪除重復(fù)相同的時(shí)態(tài),得到836個(gè)具有不同動(dòng)詞形態(tài)的單音節(jié)動(dòng)詞作為動(dòng)詞時(shí)態(tài)混淆集。

      28、優(yōu)選的,構(gòu)建易錯(cuò)虛詞混淆集,藏文虛詞分為自由虛詞和不自由虛詞,自由虛詞不受接續(xù)規(guī)則的限制,不自由虛詞是指有多種形態(tài),使用時(shí)有固定的規(guī)則,受接續(xù)規(guī)則限制,接續(xù)規(guī)則指的是不自由虛詞的接續(xù)受到上一個(gè)音節(jié)后加字的語(yǔ)音強(qiáng)弱影響,不自由虛詞有不同的變體形式;

      29、具體方法為:收集各類不自由虛詞的變體與接續(xù)規(guī)則構(gòu)建易錯(cuò)虛詞混淆集,不自由虛詞共有九種,建立11組不同混淆集。

      30、優(yōu)選的,所述加噪算法的具體如算法4所示:

      31、

      32、s←使用構(gòu)件識(shí)別算法將音節(jié)t拆分為一組構(gòu)件,從非空字符的構(gòu)件中隨機(jī)選擇一個(gè)非元音構(gòu)件

      33、if?s∈e中的某個(gè)子集e

      34、t←從e中選擇一個(gè)與s不同的構(gòu)件將其替換,生成t的形近字

      35、//加噪方式三

      36、s←使用構(gòu)件識(shí)別算法將音節(jié)t拆分為一組構(gòu)件,從非空字符的構(gòu)件中隨機(jī)選擇一個(gè)非元音、非基字的構(gòu)件

      37、t←根據(jù)所選構(gòu)件,確定非構(gòu)件集合w里與其對(duì)應(yīng)的子集w,從w中隨機(jī)選擇一個(gè)構(gòu)件將s替換,生成不符合拼寫(xiě)規(guī)則的音節(jié)

      38、end?for

      39、end?for

      40、return加噪數(shù)據(jù)集

      41、有益效果

      42、本發(fā)明提供了一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法。與現(xiàn)有技術(shù)相比具備以下有益效果:

      43、(1)、在藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建中,標(biāo)注數(shù)據(jù)是耗費(fèi)眾多人力的

      44、

      45、巨大工程,本案通過(guò)算法和數(shù)據(jù)集的建立,計(jì)算機(jī)通過(guò)算法可以實(shí)現(xiàn)上千人的數(shù)據(jù)標(biāo)注工作幾分鐘就完成,節(jié)省了大量的人力資源。

      46、(2)、在藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建中,傳統(tǒng)的數(shù)據(jù)標(biāo)注工程讓上千人標(biāo)注需要很多天才能完成,而計(jì)算機(jī)幾分鐘就完成標(biāo)注,而且標(biāo)注質(zhì)量統(tǒng)一、一致,不會(huì)產(chǎn)生人為的錯(cuò)誤,節(jié)約了時(shí)間的同時(shí),避免了人工標(biāo)注容易產(chǎn)生錯(cuò)誤的情況。

      47、(3)、該藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法,避免了傳統(tǒng)一個(gè)人標(biāo)注一天的數(shù)據(jù)需要花費(fèi)幾百到幾千的經(jīng)費(fèi),上千人標(biāo)注一天的數(shù)據(jù)需要上百萬(wàn)的經(jīng)費(fèi),長(zhǎng)此以往節(jié)約了十分可觀的經(jīng)濟(jì)消耗。



      技術(shù)特征:

      1.一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法,包括確定文本的錯(cuò)誤類型、構(gòu)建混淆集和加噪算法,其特征在于:所述錯(cuò)誤類型包括拼寫(xiě)錯(cuò)誤和真字錯(cuò)誤;

      2.根據(jù)權(quán)利要求1所述的一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法,其特征在于:所述拼寫(xiě)錯(cuò)誤本身不符合藏文音節(jié)拼寫(xiě)規(guī)范,判斷拼寫(xiě)錯(cuò)誤不需要上下文信息;

      3.根據(jù)權(quán)利要求1所述的一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法,其特征在于:構(gòu)建拼寫(xiě)錯(cuò)誤音節(jié)混淆集包括非構(gòu)件集合和音節(jié)構(gòu)件識(shí)別算法,具體為替換正確音節(jié)某個(gè)構(gòu)件來(lái)自動(dòng)生成錯(cuò)誤音節(jié)的動(dòng)態(tài)集合,且藏文音節(jié)最多7個(gè)字符、最少1個(gè)字符,其構(gòu)件集合和非構(gòu)件集合如下:

      4.根據(jù)權(quán)利要求1所述的一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法,其特征在于:構(gòu)建形近音節(jié)混淆集是構(gòu)件識(shí)別算法和形狀相似構(gòu)件集合,替換原音節(jié)中的某個(gè)構(gòu)件來(lái)自動(dòng)生成形近字動(dòng)態(tài)集合,其具體算法為:對(duì)音節(jié)使用構(gòu)件識(shí)別算法,將其拆分為構(gòu)件集合,去除空字符的構(gòu)件,從剩下的構(gòu)件中隨機(jī)選擇一個(gè)非元音、非再下加字的構(gòu)件,若選中的構(gòu)件屬于上述形狀相似構(gòu)件集合中的一組,從該組中選擇一個(gè)不同的構(gòu)件將其替換,具體如算法2所示:

      5.根據(jù)權(quán)利要求1所述的一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法,其特征在于:構(gòu)建音似音節(jié)混淆集是通過(guò)類似于同音字庫(kù)形式來(lái)建立混淆集,具體算法是:首先按照“相近音”對(duì)每個(gè)基礎(chǔ)字進(jìn)行分類,建立五十二組“相近音”藏文基礎(chǔ)字,每組基礎(chǔ)字個(gè)數(shù)最少為1最多為12,五十二組音似聲母作為生成音近字的“骨架”;其次把基礎(chǔ)字、元音和后綴設(shè)a,b,c三個(gè)集合,三個(gè)集合分別表示為:基礎(chǔ)字集合其中a集合是五十二組音近基礎(chǔ)字,b集合是元音字符集合,c集合是后加字和再后加字集合,也稱后綴集合,算法的主要思路是集合a中同一組的每個(gè)元素與集合b的一個(gè)元素、集合c的一個(gè)元素組合構(gòu)成一組音近字組,比如可構(gòu)成一組音近字,具體如算法3所示:

      6.根據(jù)權(quán)利要求1所述的一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法,其特征在于:構(gòu)建動(dòng)詞時(shí)態(tài)混淆集,藏文動(dòng)詞分為三時(shí)一式:即過(guò)去時(shí)、現(xiàn)在時(shí)、未來(lái)時(shí)和命令式,具體方法為:對(duì)收集的1654個(gè)單音節(jié)動(dòng)詞首先刪除只有一種形態(tài)的動(dòng)詞,然后對(duì)剩下動(dòng)詞的時(shí)態(tài)進(jìn)行去重,刪除重復(fù)相同的時(shí)態(tài),得到836個(gè)具有不同動(dòng)詞形態(tài)的單音節(jié)動(dòng)詞作為動(dòng)詞時(shí)態(tài)混淆集。

      7.根據(jù)權(quán)利要求1所述的一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法,其特征在于:構(gòu)建易錯(cuò)虛詞混淆集,藏文虛詞分為自由虛詞和不自由虛詞,自由虛詞不受接續(xù)規(guī)則的限制,不自由虛詞是指有多種形態(tài),使用時(shí)有固定的規(guī)則,受接續(xù)規(guī)則限制,接續(xù)規(guī)則指的是不自由虛詞的接續(xù)受到上一個(gè)音節(jié)后加字的語(yǔ)音強(qiáng)弱影響,不自由虛詞有不同的變體形式;

      8.根據(jù)權(quán)利要求1所述的一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法,其特征在于:所述加噪算法的具體如算法4所示:


      技術(shù)總結(jié)
      本發(fā)明公開(kāi)了一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法,包括確定文本的錯(cuò)誤類型、構(gòu)建混淆集和加噪算法,所述錯(cuò)誤類型包括拼寫(xiě)錯(cuò)誤和真字錯(cuò)誤;所述構(gòu)建混淆集包括:構(gòu)建拼寫(xiě)錯(cuò)誤音節(jié)混淆集、構(gòu)建形近音節(jié)混淆集、構(gòu)建音似音節(jié)混淆集、構(gòu)建動(dòng)詞時(shí)態(tài)混淆集,構(gòu)建易錯(cuò)虛詞混淆集,并構(gòu)建不同音節(jié)的混淆集;所述加噪算法包括與混淆集相匹配的聯(lián)合加噪算法,用于利用混淆集保留原音節(jié)與替換音節(jié)之間的語(yǔ)言信息關(guān)聯(lián)。本發(fā)明涉及語(yǔ)言學(xué)習(xí)技術(shù)領(lǐng)域;該藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法,通過(guò)算法和數(shù)據(jù)集的建立,計(jì)算機(jī)通過(guò)算法可以實(shí)現(xiàn)上千人的數(shù)據(jù)標(biāo)注工作幾分鐘就完成,節(jié)省了大量的人力資源,還節(jié)約了時(shí)間,避免了人工標(biāo)注容易產(chǎn)生錯(cuò)誤的情況。

      技術(shù)研發(fā)人員:珠杰,鄭任公,拉巴頓珠,德慶卓瑪,頓珠次仁,卓嘎
      受保護(hù)的技術(shù)使用者:西藏大學(xué)
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/10
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1