一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法

文檔序號(hào)：40278239發(fā)布日期：2024-12-11 13:14閱讀：11來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及語(yǔ)言學(xué)習(xí)，具體是一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法。

背景技術(shù)：

1、在自然語(yǔ)言處理和藏文文本校對(duì)領(lǐng)域標(biāo)注數(shù)據(jù)是一項(xiàng)費(fèi)時(shí)費(fèi)力的工作，不管是統(tǒng)計(jì)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)，還是預(yù)訓(xùn)練語(yǔ)言模型訓(xùn)練、測(cè)試都需要高質(zhì)量的標(biāo)注數(shù)據(jù)集。

2、目前藏文文本自動(dòng)校對(duì)領(lǐng)域沒(méi)有一個(gè)公開(kāi)的符合錯(cuò)誤分布的高質(zhì)量標(biāo)注數(shù)據(jù)集，人工收集整理標(biāo)注數(shù)據(jù)集耗費(fèi)大量的人力物力，如何采用自動(dòng)構(gòu)建符合錯(cuò)誤分布的藏文錯(cuò)誤數(shù)據(jù)集，對(duì)研究藏文文本自動(dòng)校對(duì)起到至關(guān)重要的作用。

3、為此，本發(fā)明提供了一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法，以解決上述問(wèn)題。

技術(shù)實(shí)現(xiàn)思路

1、針對(duì)現(xiàn)有技術(shù)的不足，本發(fā)明提供了一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法，解決了上述問(wèn)題。

2、為實(shí)現(xiàn)以上目的，本發(fā)明通過(guò)以下技術(shù)方案予以實(shí)現(xiàn)：一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法，包括確定文本的錯(cuò)誤類型、構(gòu)建混淆集和加噪算法，所述錯(cuò)誤類型包括拼寫(xiě)錯(cuò)誤和真字錯(cuò)誤；

3、所述構(gòu)建混淆集包括：構(gòu)建拼寫(xiě)錯(cuò)誤音節(jié)混淆集、構(gòu)建形近音節(jié)混淆集、構(gòu)建音似音節(jié)混淆集、構(gòu)建動(dòng)詞時(shí)態(tài)混淆集，構(gòu)建易錯(cuò)虛詞混淆集，并構(gòu)建不同音節(jié)的混淆集；

4、所述加噪算法包括與混淆集相匹配的聯(lián)合加噪算法，用于利用混淆集保留原音節(jié)與替換音節(jié)之間的語(yǔ)言信息關(guān)聯(lián)，例如音近、形似、時(shí)態(tài)、虛詞搭配和拼寫(xiě)錯(cuò)誤等信息，并通過(guò)混淆集隨機(jī)替換正確句子中的音節(jié)來(lái)加噪訓(xùn)練數(shù)據(jù)。

5、優(yōu)選的，所述拼寫(xiě)錯(cuò)誤為本身不符合藏文音節(jié)拼寫(xiě)規(guī)范，判斷拼寫(xiě)錯(cuò)誤不需要上下文信息；

6、所述真字錯(cuò)誤包括同音字替換錯(cuò)誤、形似錯(cuò)誤、動(dòng)詞時(shí)態(tài)錯(cuò)誤和虛詞搭配錯(cuò)誤，真字錯(cuò)誤符合藏文音節(jié)拼寫(xiě)規(guī)范，不能與前后字組合構(gòu)成具有語(yǔ)義信息的詞語(yǔ)或者不符合當(dāng)前語(yǔ)境，判斷真字錯(cuò)誤需要結(jié)合上下文信息。

7、優(yōu)選的，構(gòu)建拼寫(xiě)錯(cuò)誤音節(jié)混淆集包括非構(gòu)件集合和音節(jié)構(gòu)件識(shí)別算法，具體為替換正確音節(jié)某個(gè)構(gòu)件來(lái)自動(dòng)生成錯(cuò)誤音節(jié)的動(dòng)態(tài)集合，且藏文音節(jié)最多7個(gè)字符、最少1個(gè)字符，其構(gòu)件集合和非構(gòu)件集合如下：

8、設(shè)b代表基字集合

9、設(shè)pr代表前加字集合

10、設(shè)u代表上加字集合，則：

11、設(shè)d代表下加字集合

12、設(shè)s代表后加字集合

13、設(shè)es代表再后加字集合

14、設(shè)tvowel代表元音集合

15、設(shè)非前加字集合

16、設(shè)非上加字集合

17、設(shè)非下加字集合

18、設(shè)非后加字集合

19、設(shè)非再后加字集合

20、其中，npr、nu、nd、ns、nes集合和音節(jié)構(gòu)件識(shí)別算法，可以自動(dòng)生成拼寫(xiě)錯(cuò)誤音節(jié)，具體算法可描述為：首先使用音節(jié)構(gòu)件識(shí)別算法處理音節(jié)，將其拆分為構(gòu)件集合，比如分解為{“”，“上加字”，“基字”，“下加字”，“”，“元音”，“后加字”，“”}的構(gòu)件集合，其次，去除空字符的構(gòu)件，從剩下的構(gòu)件中隨機(jī)選擇一個(gè)非元音、非基字構(gòu)件、非再下加字，從非構(gòu)件集合里與其構(gòu)件位置對(duì)應(yīng)的子集中隨機(jī)選擇一個(gè)字母進(jìn)行替換，生成一個(gè)拼寫(xiě)錯(cuò)誤音節(jié)，錯(cuò)誤音節(jié)混淆集為通過(guò)算法自動(dòng)生成錯(cuò)誤音節(jié)的過(guò)程，具體如算法1所示：

21、

22、

23、優(yōu)選的，構(gòu)建形近音節(jié)混淆集是構(gòu)件識(shí)別算法和形狀相似構(gòu)件集合，替換原音節(jié)中的某個(gè)構(gòu)件來(lái)自動(dòng)生成形近字動(dòng)態(tài)集合，其具體算法為：對(duì)音節(jié)使用構(gòu)件識(shí)別算法，將其拆分為構(gòu)件集合，去除空字符的構(gòu)件，從剩下的構(gòu)件中隨機(jī)選擇一個(gè)非元音、非再下加字的構(gòu)件，若選中的構(gòu)件屬于上述形狀相似構(gòu)件集合中的一組，從該組中選擇一個(gè)不同的構(gòu)件將其替換，具體如算法2所示：

24、

25、優(yōu)選的，構(gòu)建音似音節(jié)混淆集是通過(guò)類似于同音字庫(kù)形式來(lái)建立混淆集，具體算法是：首先按照“相近音”對(duì)每個(gè)基礎(chǔ)字進(jìn)行分類，建立五十二組“相近音”藏文基礎(chǔ)字，每組基礎(chǔ)字個(gè)數(shù)最少為1最多為12，五十二組音似聲母作為生成音近字的“骨架”；其次把基礎(chǔ)字、元音和后綴設(shè)a，b，c三個(gè)集合，三個(gè)集合分別表示為：基礎(chǔ)字集合其中a集合是五十二組音近基礎(chǔ)字，b集合是元音字符集合，c集合是后加字和再后加字集合，也稱后綴集合，算法的主要思路是集合a中同一組的每個(gè)元素與集合b的一個(gè)元素、集合c的一個(gè)元素組合構(gòu)成一組音近字組，比如可構(gòu)成一組音近字，具體如算法3所示：

26、

27、優(yōu)選的，構(gòu)建動(dòng)詞時(shí)態(tài)混淆集，藏文動(dòng)詞分為三時(shí)一式：即過(guò)去時(shí)、現(xiàn)在時(shí)、未來(lái)時(shí)和命令式，具體方法為：對(duì)收集的1654個(gè)單音節(jié)動(dòng)詞首先刪除只有一種形態(tài)的動(dòng)詞，然后對(duì)剩下動(dòng)詞的時(shí)態(tài)進(jìn)行去重，刪除重復(fù)相同的時(shí)態(tài)，得到836個(gè)具有不同動(dòng)詞形態(tài)的單音節(jié)動(dòng)詞作為動(dòng)詞時(shí)態(tài)混淆集。

28、優(yōu)選的，構(gòu)建易錯(cuò)虛詞混淆集，藏文虛詞分為自由虛詞和不自由虛詞，自由虛詞不受接續(xù)規(guī)則的限制，不自由虛詞是指有多種形態(tài)，使用時(shí)有固定的規(guī)則，受接續(xù)規(guī)則限制，接續(xù)規(guī)則指的是不自由虛詞的接續(xù)受到上一個(gè)音節(jié)后加字的語(yǔ)音強(qiáng)弱影響，不自由虛詞有不同的變體形式；

29、具體方法為：收集各類不自由虛詞的變體與接續(xù)規(guī)則構(gòu)建易錯(cuò)虛詞混淆集，不自由虛詞共有九種，建立11組不同混淆集。

30、優(yōu)選的，所述加噪算法的具體如算法4所示：

31、

32、s←使用構(gòu)件識(shí)別算法將音節(jié)t拆分為一組構(gòu)件，從非空字符的構(gòu)件中隨機(jī)選擇一個(gè)非元音構(gòu)件

33、if?s∈e中的某個(gè)子集e

34、t←從e中選擇一個(gè)與s不同的構(gòu)件將其替換，生成t的形近字

35、//加噪方式三

36、s←使用構(gòu)件識(shí)別算法將音節(jié)t拆分為一組構(gòu)件，從非空字符的構(gòu)件中隨機(jī)選擇一個(gè)非元音、非基字的構(gòu)件

37、t←根據(jù)所選構(gòu)件，確定非構(gòu)件集合w里與其對(duì)應(yīng)的子集w，從w中隨機(jī)選擇一個(gè)構(gòu)件將s替換，生成不符合拼寫(xiě)規(guī)則的音節(jié)

38、end?for

39、end?for

40、return加噪數(shù)據(jù)集

41、有益效果

42、本發(fā)明提供了一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法。與現(xiàn)有技術(shù)相比具備以下有益效果：

43、(1)、在藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建中，標(biāo)注數(shù)據(jù)是耗費(fèi)眾多人力的

44、

45、巨大工程，本案通過(guò)算法和數(shù)據(jù)集的建立，計(jì)算機(jī)通過(guò)算法可以實(shí)現(xiàn)上千人的數(shù)據(jù)標(biāo)注工作幾分鐘就完成，節(jié)省了大量的人力資源。

46、(2)、在藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建中，傳統(tǒng)的數(shù)據(jù)標(biāo)注工程讓上千人標(biāo)注需要很多天才能完成，而計(jì)算機(jī)幾分鐘就完成標(biāo)注，而且標(biāo)注質(zhì)量統(tǒng)一、一致，不會(huì)產(chǎn)生人為的錯(cuò)誤，節(jié)約了時(shí)間的同時(shí)，避免了人工標(biāo)注容易產(chǎn)生錯(cuò)誤的情況。

47、(3)、該藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法，避免了傳統(tǒng)一個(gè)人標(biāo)注一天的數(shù)據(jù)需要花費(fèi)幾百到幾千的經(jīng)費(fèi)，上千人標(biāo)注一天的數(shù)據(jù)需要上百萬(wàn)的經(jīng)費(fèi)，長(zhǎng)此以往節(jié)約了十分可觀的經(jīng)濟(jì)消耗。

技術(shù)特征：

1.一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法，包括確定文本的錯(cuò)誤類型、構(gòu)建混淆集和加噪算法，其特征在于：所述錯(cuò)誤類型包括拼寫(xiě)錯(cuò)誤和真字錯(cuò)誤；

2.根據(jù)權(quán)利要求1所述的一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法，其特征在于：所述拼寫(xiě)錯(cuò)誤本身不符合藏文音節(jié)拼寫(xiě)規(guī)范，判斷拼寫(xiě)錯(cuò)誤不需要上下文信息；

3.根據(jù)權(quán)利要求1所述的一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法，其特征在于：構(gòu)建拼寫(xiě)錯(cuò)誤音節(jié)混淆集包括非構(gòu)件集合和音節(jié)構(gòu)件識(shí)別算法，具體為替換正確音節(jié)某個(gè)構(gòu)件來(lái)自動(dòng)生成錯(cuò)誤音節(jié)的動(dòng)態(tài)集合，且藏文音節(jié)最多7個(gè)字符、最少1個(gè)字符，其構(gòu)件集合和非構(gòu)件集合如下：

4.根據(jù)權(quán)利要求1所述的一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法，其特征在于：構(gòu)建形近音節(jié)混淆集是構(gòu)件識(shí)別算法和形狀相似構(gòu)件集合，替換原音節(jié)中的某個(gè)構(gòu)件來(lái)自動(dòng)生成形近字動(dòng)態(tài)集合，其具體算法為：對(duì)音節(jié)使用構(gòu)件識(shí)別算法，將其拆分為構(gòu)件集合，去除空字符的構(gòu)件，從剩下的構(gòu)件中隨機(jī)選擇一個(gè)非元音、非再下加字的構(gòu)件，若選中的構(gòu)件屬于上述形狀相似構(gòu)件集合中的一組，從該組中選擇一個(gè)不同的構(gòu)件將其替換，具體如算法2所示：

5.根據(jù)權(quán)利要求1所述的一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法，其特征在于：構(gòu)建音似音節(jié)混淆集是通過(guò)類似于同音字庫(kù)形式來(lái)建立混淆集，具體算法是：首先按照“相近音”對(duì)每個(gè)基礎(chǔ)字進(jìn)行分類，建立五十二組“相近音”藏文基礎(chǔ)字，每組基礎(chǔ)字個(gè)數(shù)最少為1最多為12，五十二組音似聲母作為生成音近字的“骨架”；其次把基礎(chǔ)字、元音和后綴設(shè)a，b，c三個(gè)集合，三個(gè)集合分別表示為：基礎(chǔ)字集合其中a集合是五十二組音近基礎(chǔ)字，b集合是元音字符集合，c集合是后加字和再后加字集合，也稱后綴集合，算法的主要思路是集合a中同一組的每個(gè)元素與集合b的一個(gè)元素、集合c的一個(gè)元素組合構(gòu)成一組音近字組，比如可構(gòu)成一組音近字，具體如算法3所示：

6.根據(jù)權(quán)利要求1所述的一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法，其特征在于：構(gòu)建動(dòng)詞時(shí)態(tài)混淆集，藏文動(dòng)詞分為三時(shí)一式：即過(guò)去時(shí)、現(xiàn)在時(shí)、未來(lái)時(shí)和命令式，具體方法為：對(duì)收集的1654個(gè)單音節(jié)動(dòng)詞首先刪除只有一種形態(tài)的動(dòng)詞，然后對(duì)剩下動(dòng)詞的時(shí)態(tài)進(jìn)行去重，刪除重復(fù)相同的時(shí)態(tài)，得到836個(gè)具有不同動(dòng)詞形態(tài)的單音節(jié)動(dòng)詞作為動(dòng)詞時(shí)態(tài)混淆集。

7.根據(jù)權(quán)利要求1所述的一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法，其特征在于：構(gòu)建易錯(cuò)虛詞混淆集，藏文虛詞分為自由虛詞和不自由虛詞，自由虛詞不受接續(xù)規(guī)則的限制，不自由虛詞是指有多種形態(tài)，使用時(shí)有固定的規(guī)則，受接續(xù)規(guī)則限制，接續(xù)規(guī)則指的是不自由虛詞的接續(xù)受到上一個(gè)音節(jié)后加字的語(yǔ)音強(qiáng)弱影響，不自由虛詞有不同的變體形式；

8.根據(jù)權(quán)利要求1所述的一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法，其特征在于：所述加噪算法的具體如算法4所示：

技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法，包括確定文本的錯(cuò)誤類型、構(gòu)建混淆集和加噪算法，所述錯(cuò)誤類型包括拼寫(xiě)錯(cuò)誤和真字錯(cuò)誤；所述構(gòu)建混淆集包括：構(gòu)建拼寫(xiě)錯(cuò)誤音節(jié)混淆集、構(gòu)建形近音節(jié)混淆集、構(gòu)建音似音節(jié)混淆集、構(gòu)建動(dòng)詞時(shí)態(tài)混淆集，構(gòu)建易錯(cuò)虛詞混淆集，并構(gòu)建不同音節(jié)的混淆集；所述加噪算法包括與混淆集相匹配的聯(lián)合加噪算法，用于利用混淆集保留原音節(jié)與替換音節(jié)之間的語(yǔ)言信息關(guān)聯(lián)。本發(fā)明涉及語(yǔ)言學(xué)習(xí)技術(shù)領(lǐng)域；該藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法，通過(guò)算法和數(shù)據(jù)集的建立，計(jì)算機(jī)通過(guò)算法可以實(shí)現(xiàn)上千人的數(shù)據(jù)標(biāo)注工作幾分鐘就完成，節(jié)省了大量的人力資源，還節(jié)約了時(shí)間，避免了人工標(biāo)注容易產(chǎn)生錯(cuò)誤的情況。

技術(shù)研發(fā)人員：珠杰,鄭任公,拉巴頓珠,德慶卓瑪,頓珠次仁,卓嘎
受保護(hù)的技術(shù)使用者：西藏大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/10

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：珠杰,鄭任公,拉巴頓珠,德慶卓瑪,頓珠次仁,卓嘎
技術(shù)所有人：西藏大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種藏文音節(jié)校對(duì)標(biāo)注數(shù)據(jù)集構(gòu)建方法