本發(fā)明涉及數(shù)據(jù)標(biāo)注,特別指一種基于行業(yè)詞庫(kù)與標(biāo)簽庫(kù)的數(shù)據(jù)標(biāo)注方法及系統(tǒng)。
背景技術(shù):
1、隨著人工智能技術(shù)的廣泛應(yīng)用,對(duì)高質(zhì)量標(biāo)注數(shù)據(jù)的需求急劇增加,數(shù)據(jù)標(biāo)注作為將原始數(shù)據(jù)轉(zhuǎn)換為機(jī)器可識(shí)別信息的關(guān)鍵環(huán)節(jié),其重要性日益凸顯。針對(duì)數(shù)據(jù)的標(biāo)注,傳統(tǒng)上采取人工一一標(biāo)注的方法,存在如下缺點(diǎn):
2、1、容易受到標(biāo)注人員主觀判斷的影響,導(dǎo)致不同人的標(biāo)注結(jié)果不一致的情況,難以保證標(biāo)注質(zhì)量;2、耗時(shí)費(fèi)力,標(biāo)注的效率低下;3、不同行業(yè)具有獨(dú)特的特征和專業(yè)術(shù)語(yǔ),傳統(tǒng)方法往往難以精準(zhǔn)捕捉這些特性,限制了數(shù)據(jù)標(biāo)注的深度和廣度,尤其在較為專業(yè)知識(shí)的領(lǐng)域,如醫(yī)療、法律等;4、人工標(biāo)注的標(biāo)注成本居高不下。
3、因此,如何提供一種基于行業(yè)詞庫(kù)與標(biāo)簽庫(kù)的數(shù)據(jù)標(biāo)注方法及系統(tǒng),實(shí)現(xiàn)提升數(shù)據(jù)標(biāo)注的質(zhì)量以及效率,降低標(biāo)注成本,成為一個(gè)亟待解決的技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明要解決的技術(shù)問(wèn)題,在于提供一種基于行業(yè)詞庫(kù)與標(biāo)簽庫(kù)的數(shù)據(jù)標(biāo)注方法及系統(tǒng),實(shí)現(xiàn)提升數(shù)據(jù)標(biāo)注的質(zhì)量以及效率,降低標(biāo)注成本。
2、第一方面,本發(fā)明提供了一種基于行業(yè)詞庫(kù)與標(biāo)簽庫(kù)的數(shù)據(jù)標(biāo)注方法,包括如下步驟:
3、步驟s1、獲取大量的包含不同行業(yè)的歷史標(biāo)注數(shù)據(jù),基于行業(yè)對(duì)各所述歷史標(biāo)注數(shù)據(jù)進(jìn)行分組;
4、步驟s2、從各分組的所述歷史標(biāo)注數(shù)據(jù)中分別提取對(duì)應(yīng)的行業(yè)分詞,將各分組的所述行業(yè)分詞分別存儲(chǔ)至預(yù)先創(chuàng)建的行業(yè)詞庫(kù);從各所述歷史標(biāo)注數(shù)據(jù)中提取項(xiàng)目標(biāo)簽,將各所述項(xiàng)目標(biāo)簽、項(xiàng)目標(biāo)簽對(duì)應(yīng)的項(xiàng)目編號(hào)以及與行業(yè)分詞的關(guān)聯(lián)關(guān)系分別存儲(chǔ)至預(yù)先創(chuàng)建的標(biāo)簽庫(kù);
5、步驟s3、通過(guò)工作流引擎獲取待標(biāo)注文件,識(shí)別所述待標(biāo)注文件得到待標(biāo)注數(shù)據(jù),識(shí)別所述待標(biāo)注數(shù)據(jù)的行業(yè)以及項(xiàng)目編號(hào);
6、步驟s4、通過(guò)所述行業(yè)匹配對(duì)應(yīng)的行業(yè)詞庫(kù),自然語(yǔ)言分詞工具基于所述行業(yè)詞庫(kù)的行業(yè)分詞對(duì)文本數(shù)據(jù)執(zhí)行分詞操作,得到分詞結(jié)果;通過(guò)所述項(xiàng)目編號(hào)匹配對(duì)應(yīng)的標(biāo)簽庫(kù),基于所述標(biāo)簽庫(kù)的項(xiàng)目標(biāo)簽對(duì)分詞結(jié)果進(jìn)行預(yù)標(biāo)注,得到預(yù)標(biāo)注結(jié)果;
7、步驟s5、對(duì)所述預(yù)標(biāo)注結(jié)果進(jìn)行審核和修正后,生成標(biāo)注結(jié)果,展示并導(dǎo)出所述標(biāo)注結(jié)果。
8、進(jìn)一步的,所述步驟s2還包括:
9、基于最新標(biāo)注數(shù)據(jù)或者標(biāo)注需求對(duì)各所述行業(yè)詞庫(kù)以及標(biāo)簽庫(kù)進(jìn)行實(shí)時(shí)的更新和維護(hù)。
10、進(jìn)一步的,所述步驟s3具體為:
11、通過(guò)工作流引擎獲取待標(biāo)注文件,為各所述待標(biāo)注文件分別分配對(duì)應(yīng)的存儲(chǔ)空間以及計(jì)算資源,將各所述待標(biāo)注文件分別存儲(chǔ)至對(duì)應(yīng)的存儲(chǔ)空間,對(duì)各所述待標(biāo)注文件進(jìn)行圖像增強(qiáng)的預(yù)處理后,通過(guò)ocr技術(shù)識(shí)別各所述待標(biāo)注文件得到待標(biāo)注數(shù)據(jù),通過(guò)預(yù)訓(xùn)練的循環(huán)神經(jīng)網(wǎng)絡(luò)自動(dòng)識(shí)別所述待標(biāo)注數(shù)據(jù)的行業(yè),通過(guò)編號(hào)規(guī)則從所述待標(biāo)注數(shù)據(jù)中自動(dòng)識(shí)別項(xiàng)目編號(hào)。
12、進(jìn)一步的,所述步驟s4具體為:
13、通過(guò)所述行業(yè)自動(dòng)匹配對(duì)應(yīng)的行業(yè)詞庫(kù),自然語(yǔ)言分詞工具h(yuǎn)anlp基于所述行業(yè)詞庫(kù)的行業(yè)分詞對(duì)文本數(shù)據(jù)自動(dòng)執(zhí)行分詞操作,得到分詞結(jié)果;通過(guò)所述項(xiàng)目編號(hào)匹配對(duì)應(yīng)的標(biāo)簽庫(kù),基于所述標(biāo)簽庫(kù)的項(xiàng)目標(biāo)簽的關(guān)聯(lián)關(guān)系以及標(biāo)注次數(shù)自動(dòng)對(duì)分詞結(jié)果進(jìn)行預(yù)標(biāo)注,得到預(yù)標(biāo)注結(jié)果。
14、進(jìn)一步的,所述步驟s5具體為:
15、基于預(yù)設(shè)的標(biāo)注規(guī)則自動(dòng)對(duì)所述預(yù)標(biāo)注結(jié)果進(jìn)行審核和修正后,生成標(biāo)注結(jié)果,展示并導(dǎo)出所述標(biāo)注結(jié)果,對(duì)所述標(biāo)注結(jié)果進(jìn)行存儲(chǔ)和備份,且標(biāo)注過(guò)程中通過(guò)工作流引擎對(duì)標(biāo)注進(jìn)度進(jìn)行跟蹤。
16、第二方面,本發(fā)明提供了一種基于行業(yè)詞庫(kù)與標(biāo)簽庫(kù)的數(shù)據(jù)標(biāo)注系統(tǒng),包括如下模塊:
17、歷史標(biāo)注數(shù)據(jù)獲取模塊,用于獲取大量的包含不同行業(yè)的歷史標(biāo)注數(shù)據(jù),基于行業(yè)對(duì)各所述歷史標(biāo)注數(shù)據(jù)進(jìn)行分組;
18、行業(yè)詞庫(kù)和標(biāo)簽庫(kù)創(chuàng)建模塊,用于從各分組的所述歷史標(biāo)注數(shù)據(jù)中分別提取對(duì)應(yīng)的行業(yè)分詞,將各分組的所述行業(yè)分詞分別存儲(chǔ)至預(yù)先創(chuàng)建的行業(yè)詞庫(kù);從各所述歷史標(biāo)注數(shù)據(jù)中提取項(xiàng)目標(biāo)簽,將各所述項(xiàng)目標(biāo)簽、項(xiàng)目標(biāo)簽對(duì)應(yīng)的項(xiàng)目編號(hào)以及與行業(yè)分詞的關(guān)聯(lián)關(guān)系分別存儲(chǔ)至預(yù)先創(chuàng)建的標(biāo)簽庫(kù);
19、待標(biāo)注文件識(shí)別模塊,用于通過(guò)工作流引擎獲取待標(biāo)注文件,識(shí)別所述待標(biāo)注文件得到待標(biāo)注數(shù)據(jù),識(shí)別所述待標(biāo)注數(shù)據(jù)的行業(yè)以及項(xiàng)目編號(hào);
20、預(yù)標(biāo)注模塊,用于通過(guò)所述行業(yè)匹配對(duì)應(yīng)的行業(yè)詞庫(kù),自然語(yǔ)言分詞工具基于所述行業(yè)詞庫(kù)的行業(yè)分詞對(duì)文本數(shù)據(jù)執(zhí)行分詞操作,得到分詞結(jié)果;通過(guò)所述項(xiàng)目編號(hào)匹配對(duì)應(yīng)的標(biāo)簽庫(kù),基于所述標(biāo)簽庫(kù)的項(xiàng)目標(biāo)簽對(duì)分詞結(jié)果進(jìn)行預(yù)標(biāo)注,得到預(yù)標(biāo)注結(jié)果;
21、標(biāo)注審核模塊,用于對(duì)所述預(yù)標(biāo)注結(jié)果進(jìn)行審核和修正后,生成標(biāo)注結(jié)果,展示并導(dǎo)出所述標(biāo)注結(jié)果。
22、進(jìn)一步的,所述行業(yè)詞庫(kù)和標(biāo)簽庫(kù)創(chuàng)建模塊還用于:
23、基于最新標(biāo)注數(shù)據(jù)或者標(biāo)注需求對(duì)各所述行業(yè)詞庫(kù)以及標(biāo)簽庫(kù)進(jìn)行實(shí)時(shí)的更新和維護(hù)。
24、進(jìn)一步的,所述待標(biāo)注文件識(shí)別模塊具體用于:
25、通過(guò)工作流引擎獲取待標(biāo)注文件,為各所述待標(biāo)注文件分別分配對(duì)應(yīng)的存儲(chǔ)空間以及計(jì)算資源,將各所述待標(biāo)注文件分別存儲(chǔ)至對(duì)應(yīng)的存儲(chǔ)空間,對(duì)各所述待標(biāo)注文件進(jìn)行圖像增強(qiáng)的預(yù)處理后,通過(guò)ocr技術(shù)識(shí)別各所述待標(biāo)注文件得到待標(biāo)注數(shù)據(jù),通過(guò)預(yù)訓(xùn)練的循環(huán)神經(jīng)網(wǎng)絡(luò)自動(dòng)識(shí)別所述待標(biāo)注數(shù)據(jù)的行業(yè),通過(guò)編號(hào)規(guī)則從所述待標(biāo)注數(shù)據(jù)中自動(dòng)識(shí)別項(xiàng)目編號(hào)。
26、進(jìn)一步的,所述預(yù)標(biāo)注模塊具體用于:
27、通過(guò)所述行業(yè)自動(dòng)匹配對(duì)應(yīng)的行業(yè)詞庫(kù),自然語(yǔ)言分詞工具h(yuǎn)anlp基于所述行業(yè)詞庫(kù)的行業(yè)分詞對(duì)文本數(shù)據(jù)自動(dòng)執(zhí)行分詞操作,得到分詞結(jié)果;通過(guò)所述項(xiàng)目編號(hào)匹配對(duì)應(yīng)的標(biāo)簽庫(kù),基于所述標(biāo)簽庫(kù)的項(xiàng)目標(biāo)簽的關(guān)聯(lián)關(guān)系以及標(biāo)注次數(shù)自動(dòng)對(duì)分詞結(jié)果進(jìn)行預(yù)標(biāo)注,得到預(yù)標(biāo)注結(jié)果。
28、進(jìn)一步的,所述標(biāo)注審核模塊具體用于:
29、基于預(yù)設(shè)的標(biāo)注規(guī)則自動(dòng)對(duì)所述預(yù)標(biāo)注結(jié)果進(jìn)行審核和修正后,生成標(biāo)注結(jié)果,展示并導(dǎo)出所述標(biāo)注結(jié)果,對(duì)所述標(biāo)注結(jié)果進(jìn)行存儲(chǔ)和備份,且標(biāo)注過(guò)程中通過(guò)工作流引擎對(duì)標(biāo)注進(jìn)度進(jìn)行跟蹤。
30、本發(fā)明的優(yōu)點(diǎn)在于:
31、1、通過(guò)獲取大量的包含不同行業(yè)的歷史標(biāo)注數(shù)據(jù),基于行業(yè)對(duì)各歷史標(biāo)注數(shù)據(jù)進(jìn)行分組,從各分組的歷史標(biāo)注數(shù)據(jù)中分別提取對(duì)應(yīng)的行業(yè)分詞,將各分組的行業(yè)分詞分別存儲(chǔ)至預(yù)先創(chuàng)建的行業(yè)詞庫(kù),從各歷史標(biāo)注數(shù)據(jù)中提取項(xiàng)目標(biāo)簽,將各項(xiàng)目標(biāo)簽、項(xiàng)目標(biāo)簽對(duì)應(yīng)的項(xiàng)目編號(hào)以及與行業(yè)分詞的關(guān)聯(lián)關(guān)系分別存儲(chǔ)至預(yù)先創(chuàng)建的標(biāo)簽庫(kù);接著通過(guò)工作流引擎獲取待標(biāo)注文件,識(shí)別待標(biāo)注文件得到待標(biāo)注數(shù)據(jù),識(shí)別待標(biāo)注數(shù)據(jù)的行業(yè)以及項(xiàng)目編號(hào);接著通過(guò)行業(yè)匹配對(duì)應(yīng)的行業(yè)詞庫(kù),自然語(yǔ)言分詞工具基于行業(yè)詞庫(kù)的行業(yè)分詞對(duì)文本數(shù)據(jù)執(zhí)行分詞操作,得到分詞結(jié)果;通過(guò)項(xiàng)目編號(hào)匹配對(duì)應(yīng)的標(biāo)簽庫(kù),基于標(biāo)簽庫(kù)的項(xiàng)目標(biāo)簽對(duì)分詞結(jié)果進(jìn)行預(yù)標(biāo)注,得到預(yù)標(biāo)注結(jié)果;最后對(duì)預(yù)標(biāo)注結(jié)果進(jìn)行審核和修正后生成標(biāo)注結(jié)果,展示并導(dǎo)出標(biāo)注結(jié)果;即通過(guò)創(chuàng)建的行業(yè)詞庫(kù)與標(biāo)簽庫(kù)自動(dòng)對(duì)待標(biāo)注文件識(shí)別得到的待標(biāo)注數(shù)據(jù)進(jìn)行標(biāo)注,克服人為標(biāo)注的主觀判斷影響、效率低下、標(biāo)注成本居高不下的問(wèn)題,且基于行業(yè)詞庫(kù)的行業(yè)分詞執(zhí)行分詞操作,即基于各行業(yè)進(jìn)行針對(duì)性的分詞,使得分詞更加專業(yè)和準(zhǔn)確,最終極大的提升了數(shù)據(jù)標(biāo)注的質(zhì)量以及效率,極大的降低了標(biāo)注成本。
32、2、通過(guò)最新標(biāo)注數(shù)據(jù)或者標(biāo)注需求對(duì)各行業(yè)詞庫(kù)以及標(biāo)簽庫(kù)進(jìn)行實(shí)時(shí)的更新和維護(hù),使得行業(yè)詞庫(kù)和標(biāo)簽庫(kù)能與時(shí)俱進(jìn),且可根據(jù)用戶的標(biāo)注需求自定義標(biāo)簽庫(kù)中的項(xiàng)目標(biāo)簽,進(jìn)而極大的提升了數(shù)據(jù)標(biāo)注的質(zhì)量以及靈活性。
33、3、通過(guò)為各待標(biāo)注文件分別分配對(duì)應(yīng)的存儲(chǔ)空間以及計(jì)算資源,使得各待標(biāo)注文件可同步進(jìn)行標(biāo)注,極大的提升了數(shù)據(jù)標(biāo)注的效率。
34、4、通過(guò)對(duì)各待標(biāo)注文件進(jìn)行圖像增強(qiáng)的預(yù)處理后,通過(guò)ocr技術(shù)識(shí)別各待標(biāo)注文件得到待標(biāo)注數(shù)據(jù),即基于高質(zhì)量的待標(biāo)注文件進(jìn)行ocr識(shí)別,有效提升待標(biāo)注數(shù)據(jù)識(shí)別的準(zhǔn)確性,進(jìn)而極大的提升了數(shù)據(jù)標(biāo)注的質(zhì)量。
35、5、通過(guò)預(yù)訓(xùn)練的循環(huán)神經(jīng)網(wǎng)絡(luò)自動(dòng)識(shí)別待標(biāo)注數(shù)據(jù)的行業(yè),通過(guò)編號(hào)規(guī)則從待標(biāo)注數(shù)據(jù)中自動(dòng)識(shí)別項(xiàng)目編號(hào),極大的提升了行業(yè)和項(xiàng)目編號(hào)的識(shí)別速度,進(jìn)而極大的提升了數(shù)據(jù)標(biāo)注的效率。
36、6、通過(guò)自然語(yǔ)言分詞工具h(yuǎn)anlp執(zhí)行分詞操作,能準(zhǔn)確識(shí)別待標(biāo)注數(shù)據(jù)中的詞匯邊界,即使在面對(duì)復(fù)雜句子結(jié)構(gòu)和多義詞時(shí)也能做出合理的分詞決策,確保分詞結(jié)果的準(zhǔn)確性,進(jìn)而極大的提升了數(shù)據(jù)標(biāo)注的質(zhì)量。