本發(fā)明涉及語(yǔ)言學(xué)習(xí),具體是一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法。
背景技術(shù):
1、在自然語(yǔ)言處理和藏文文本校對(duì)領(lǐng)域標(biāo)注數(shù)據(jù)是一項(xiàng)費(fèi)時(shí)費(fèi)力的工作,不管是統(tǒng)計(jì)機(jī)器學(xué)習(xí)、深度學(xué)習(xí),還是預(yù)訓(xùn)練語(yǔ)言模型訓(xùn)練、測(cè)試都需要高質(zhì)量的標(biāo)注數(shù)據(jù)集。
2、目前藏文文本自動(dòng)校對(duì)領(lǐng)域沒(méi)有一個(gè)公開(kāi)的符合錯(cuò)誤分布的高質(zhì)量標(biāo)注數(shù)據(jù)集,人工收集整理標(biāo)注數(shù)據(jù)集耗費(fèi)大量的人力物力,如何采用自動(dòng)構(gòu)建符合錯(cuò)誤分布的藏文錯(cuò)誤數(shù)據(jù)集,對(duì)研究藏文文本自動(dòng)校對(duì)起到至關(guān)重要的作用。
3、為此,本發(fā)明提供了一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法,以解決上述問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法,解決了上述問(wèn)題。
2、為實(shí)現(xiàn)以上目的,本發(fā)明通過(guò)以下技術(shù)方案予以實(shí)現(xiàn):一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法,包括確定文本的錯(cuò)誤類型、構(gòu)建混淆集和加噪算法,所述錯(cuò)誤類型包括拼寫(xiě)錯(cuò)誤和真字錯(cuò)誤;
3、所述構(gòu)建混淆集包括:構(gòu)建拼寫(xiě)錯(cuò)誤音節(jié)混淆集、構(gòu)建形近音節(jié)混淆集、構(gòu)建音似音節(jié)混淆集、構(gòu)建動(dòng)詞時(shí)態(tài)混淆集,構(gòu)建易錯(cuò)虛詞混淆集,并構(gòu)建不同音節(jié)的混淆集;
4、所述加噪算法包括與混淆集相匹配的聯(lián)合加噪算法,用于利用混淆集保留原音節(jié)與替換音節(jié)之間的語(yǔ)言信息關(guān)聯(lián),例如音近、形似、時(shí)態(tài)、虛詞搭配和拼寫(xiě)錯(cuò)誤等信息,并通過(guò)混淆集隨機(jī)替換正確句子中的音節(jié)來(lái)加噪訓(xùn)練數(shù)據(jù)。
5、優(yōu)選的,所述拼寫(xiě)錯(cuò)誤為本身不符合藏文音節(jié)拼寫(xiě)規(guī)范,判斷拼寫(xiě)錯(cuò)誤不需要上下文信息;
6、所述真字錯(cuò)誤包括同音字替換錯(cuò)誤、形似錯(cuò)誤、動(dòng)詞時(shí)態(tài)錯(cuò)誤和虛詞搭配錯(cuò)誤,真字錯(cuò)誤符合藏文音節(jié)拼寫(xiě)規(guī)范,不能與前后字組合構(gòu)成具有語(yǔ)義信息的詞語(yǔ)或者不符合當(dāng)前語(yǔ)境,判斷真字錯(cuò)誤需要結(jié)合上下文信息。
7、優(yōu)選的,構(gòu)建拼寫(xiě)錯(cuò)誤音節(jié)混淆集包括非構(gòu)件集合和音節(jié)構(gòu)件識(shí)別算法,具體為替換正確音節(jié)某個(gè)構(gòu)件來(lái)自動(dòng)生成錯(cuò)誤音節(jié)的動(dòng)態(tài)集合,且藏文音節(jié)最多7個(gè)字符、最少1個(gè)字符,其構(gòu)件集合和非構(gòu)件集合如下:
8、設(shè)b代表基字集合
9、設(shè)pr代表前加字集合
10、設(shè)u代表上加字集合,則:
11、設(shè)d代表下加字集合
12、設(shè)s代表后加字集合
13、設(shè)es代表再后加字集合
14、設(shè)tvowel代表元音集合
15、設(shè)非前加字集合
16、設(shè)非上加字集合
17、設(shè)非下加字集合
18、設(shè)非后加字集合
19、設(shè)非再后加字集合
20、其中,npr、nu、nd、ns、nes集合和音節(jié)構(gòu)件識(shí)別算法,可以自動(dòng)生成拼寫(xiě)錯(cuò)誤音節(jié),具體算法可描述為:首先使用音節(jié)構(gòu)件識(shí)別算法處理音節(jié),將其拆分為構(gòu)件集合,比如分解為{“”,“上加字”,“基字”,“下加字”,“”,“元音”,“后加字”,“”}的構(gòu)件集合,其次,去除空字符的構(gòu)件,從剩下的構(gòu)件中隨機(jī)選擇一個(gè)非元音、非基字構(gòu)件、非再下加字,從非構(gòu)件集合里與其構(gòu)件位置對(duì)應(yīng)的子集中隨機(jī)選擇一個(gè)字母進(jìn)行替換,生成一個(gè)拼寫(xiě)錯(cuò)誤音節(jié),錯(cuò)誤音節(jié)混淆集為通過(guò)算法自動(dòng)生成錯(cuò)誤音節(jié)的過(guò)程,具體如算法1所示:
21、
22、
23、優(yōu)選的,構(gòu)建形近音節(jié)混淆集是構(gòu)件識(shí)別算法和形狀相似構(gòu)件集合,替換原音節(jié)中的某個(gè)構(gòu)件來(lái)自動(dòng)生成形近字動(dòng)態(tài)集合,其具體算法為:對(duì)音節(jié)使用構(gòu)件識(shí)別算法,將其拆分為構(gòu)件集合,去除空字符的構(gòu)件,從剩下的構(gòu)件中隨機(jī)選擇一個(gè)非元音、非再下加字的構(gòu)件,若選中的構(gòu)件屬于上述形狀相似構(gòu)件集合中的一組,從該組中選擇一個(gè)不同的構(gòu)件將其替換,具體如算法2所示:
24、
25、優(yōu)選的,構(gòu)建音似音節(jié)混淆集是通過(guò)類似于同音字庫(kù)形式來(lái)建立混淆集,具體算法是:首先按照“相近音”對(duì)每個(gè)基礎(chǔ)字進(jìn)行分類,建立五十二組“相近音”藏文基礎(chǔ)字,每組基礎(chǔ)字個(gè)數(shù)最少為1最多為12,五十二組音似聲母作為生成音近字的“骨架”;其次把基礎(chǔ)字、元音和后綴設(shè)a,b,c三個(gè)集合,三個(gè)集合分別表示為:基礎(chǔ)字集合其中a集合是五十二組音近基礎(chǔ)字,b集合是元音字符集合,c集合是后加字和再后加字集合,也稱后綴集合,算法的主要思路是集合a中同一組的每個(gè)元素與集合b的一個(gè)元素、集合c的一個(gè)元素組合構(gòu)成一組音近字組,比如可構(gòu)成一組音近字,具體如算法3所示:
26、
27、優(yōu)選的,構(gòu)建動(dòng)詞時(shí)態(tài)混淆集,藏文動(dòng)詞分為三時(shí)一式:即過(guò)去時(shí)、現(xiàn)在時(shí)、未來(lái)時(shí)和命令式,具體方法為:對(duì)收集的1654個(gè)單音節(jié)動(dòng)詞首先刪除只有一種形態(tài)的動(dòng)詞,然后對(duì)剩下動(dòng)詞的時(shí)態(tài)進(jìn)行去重,刪除重復(fù)相同的時(shí)態(tài),得到836個(gè)具有不同動(dòng)詞形態(tài)的單音節(jié)動(dòng)詞作為動(dòng)詞時(shí)態(tài)混淆集。
28、優(yōu)選的,構(gòu)建易錯(cuò)虛詞混淆集,藏文虛詞分為自由虛詞和不自由虛詞,自由虛詞不受接續(xù)規(guī)則的限制,不自由虛詞是指有多種形態(tài),使用時(shí)有固定的規(guī)則,受接續(xù)規(guī)則限制,接續(xù)規(guī)則指的是不自由虛詞的接續(xù)受到上一個(gè)音節(jié)后加字的語(yǔ)音強(qiáng)弱影響,不自由虛詞有不同的變體形式;
29、具體方法為:收集各類不自由虛詞的變體與接續(xù)規(guī)則構(gòu)建易錯(cuò)虛詞混淆集,不自由虛詞共有九種,建立11組不同混淆集。
30、優(yōu)選的,所述加噪算法的具體如算法4所示:
31、
32、s←使用構(gòu)件識(shí)別算法將音節(jié)t拆分為一組構(gòu)件,從非空字符的構(gòu)件中隨機(jī)選擇一個(gè)非元音構(gòu)件
33、if?s∈e中的某個(gè)子集e
34、t←從e中選擇一個(gè)與s不同的構(gòu)件將其替換,生成t的形近字
35、//加噪方式三
36、s←使用構(gòu)件識(shí)別算法將音節(jié)t拆分為一組構(gòu)件,從非空字符的構(gòu)件中隨機(jī)選擇一個(gè)非元音、非基字的構(gòu)件
37、t←根據(jù)所選構(gòu)件,確定非構(gòu)件集合w里與其對(duì)應(yīng)的子集w,從w中隨機(jī)選擇一個(gè)構(gòu)件將s替換,生成不符合拼寫(xiě)規(guī)則的音節(jié)
38、end?for
39、end?for
40、return加噪數(shù)據(jù)集
41、有益效果
42、本發(fā)明提供了一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法。與現(xiàn)有技術(shù)相比具備以下有益效果:
43、(1)、在藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建中,標(biāo)注數(shù)據(jù)是耗費(fèi)眾多人力的
44、
45、巨大工程,本案通過(guò)算法和數(shù)據(jù)集的建立,計(jì)算機(jī)通過(guò)算法可以實(shí)現(xiàn)上千人的數(shù)據(jù)標(biāo)注工作幾分鐘就完成,節(jié)省了大量的人力資源。
46、(2)、在藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建中,傳統(tǒng)的數(shù)據(jù)標(biāo)注工程讓上千人標(biāo)注需要很多天才能完成,而計(jì)算機(jī)幾分鐘就完成標(biāo)注,而且標(biāo)注質(zhì)量統(tǒng)一、一致,不會(huì)產(chǎn)生人為的錯(cuò)誤,節(jié)約了時(shí)間的同時(shí),避免了人工標(biāo)注容易產(chǎn)生錯(cuò)誤的情況。
47、(3)、該藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法,避免了傳統(tǒng)一個(gè)人標(biāo)注一天的數(shù)據(jù)需要花費(fèi)幾百到幾千的經(jīng)費(fèi),上千人標(biāo)注一天的數(shù)據(jù)需要上百萬(wàn)的經(jīng)費(fèi),長(zhǎng)此以往節(jié)約了十分可觀的經(jīng)濟(jì)消耗。
1.一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法,包括確定文本的錯(cuò)誤類型、構(gòu)建混淆集和加噪算法,其特征在于:所述錯(cuò)誤類型包括拼寫(xiě)錯(cuò)誤和真字錯(cuò)誤;
2.根據(jù)權(quán)利要求1所述的一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法,其特征在于:所述拼寫(xiě)錯(cuò)誤本身不符合藏文音節(jié)拼寫(xiě)規(guī)范,判斷拼寫(xiě)錯(cuò)誤不需要上下文信息;
3.根據(jù)權(quán)利要求1所述的一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法,其特征在于:構(gòu)建拼寫(xiě)錯(cuò)誤音節(jié)混淆集包括非構(gòu)件集合和音節(jié)構(gòu)件識(shí)別算法,具體為替換正確音節(jié)某個(gè)構(gòu)件來(lái)自動(dòng)生成錯(cuò)誤音節(jié)的動(dòng)態(tài)集合,且藏文音節(jié)最多7個(gè)字符、最少1個(gè)字符,其構(gòu)件集合和非構(gòu)件集合如下:
4.根據(jù)權(quán)利要求1所述的一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法,其特征在于:構(gòu)建形近音節(jié)混淆集是構(gòu)件識(shí)別算法和形狀相似構(gòu)件集合,替換原音節(jié)中的某個(gè)構(gòu)件來(lái)自動(dòng)生成形近字動(dòng)態(tài)集合,其具體算法為:對(duì)音節(jié)使用構(gòu)件識(shí)別算法,將其拆分為構(gòu)件集合,去除空字符的構(gòu)件,從剩下的構(gòu)件中隨機(jī)選擇一個(gè)非元音、非再下加字的構(gòu)件,若選中的構(gòu)件屬于上述形狀相似構(gòu)件集合中的一組,從該組中選擇一個(gè)不同的構(gòu)件將其替換,具體如算法2所示:
5.根據(jù)權(quán)利要求1所述的一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法,其特征在于:構(gòu)建音似音節(jié)混淆集是通過(guò)類似于同音字庫(kù)形式來(lái)建立混淆集,具體算法是:首先按照“相近音”對(duì)每個(gè)基礎(chǔ)字進(jìn)行分類,建立五十二組“相近音”藏文基礎(chǔ)字,每組基礎(chǔ)字個(gè)數(shù)最少為1最多為12,五十二組音似聲母作為生成音近字的“骨架”;其次把基礎(chǔ)字、元音和后綴設(shè)a,b,c三個(gè)集合,三個(gè)集合分別表示為:基礎(chǔ)字集合其中a集合是五十二組音近基礎(chǔ)字,b集合是元音字符集合,c集合是后加字和再后加字集合,也稱后綴集合,算法的主要思路是集合a中同一組的每個(gè)元素與集合b的一個(gè)元素、集合c的一個(gè)元素組合構(gòu)成一組音近字組,比如可構(gòu)成一組音近字,具體如算法3所示:
6.根據(jù)權(quán)利要求1所述的一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法,其特征在于:構(gòu)建動(dòng)詞時(shí)態(tài)混淆集,藏文動(dòng)詞分為三時(shí)一式:即過(guò)去時(shí)、現(xiàn)在時(shí)、未來(lái)時(shí)和命令式,具體方法為:對(duì)收集的1654個(gè)單音節(jié)動(dòng)詞首先刪除只有一種形態(tài)的動(dòng)詞,然后對(duì)剩下動(dòng)詞的時(shí)態(tài)進(jìn)行去重,刪除重復(fù)相同的時(shí)態(tài),得到836個(gè)具有不同動(dòng)詞形態(tài)的單音節(jié)動(dòng)詞作為動(dòng)詞時(shí)態(tài)混淆集。
7.根據(jù)權(quán)利要求1所述的一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法,其特征在于:構(gòu)建易錯(cuò)虛詞混淆集,藏文虛詞分為自由虛詞和不自由虛詞,自由虛詞不受接續(xù)規(guī)則的限制,不自由虛詞是指有多種形態(tài),使用時(shí)有固定的規(guī)則,受接續(xù)規(guī)則限制,接續(xù)規(guī)則指的是不自由虛詞的接續(xù)受到上一個(gè)音節(jié)后加字的語(yǔ)音強(qiáng)弱影響,不自由虛詞有不同的變體形式;
8.根據(jù)權(quán)利要求1所述的一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法,其特征在于:所述加噪算法的具體如算法4所示: