本申請(qǐng)涉及人工智能,尤其涉及一種數(shù)據(jù)標(biāo)注方法、裝置、設(shè)備、可讀存儲(chǔ)介質(zhì)和程序產(chǎn)品。
背景技術(shù):
1、數(shù)據(jù)標(biāo)注通常涉及將原始數(shù)據(jù)與預(yù)定義的標(biāo)簽或類別進(jìn)行關(guān)聯(lián),以便訓(xùn)練機(jī)器學(xué)習(xí)模型或進(jìn)行其他數(shù)據(jù)分析任務(wù)。
2、現(xiàn)有技術(shù)中,通常通過人工對(duì)數(shù)據(jù)進(jìn)行逐一打標(biāo),得到對(duì)應(yīng)的標(biāo)注后的數(shù)據(jù)以供模型的訓(xùn)練學(xué)習(xí)。
3、但是,現(xiàn)有的這種數(shù)據(jù)標(biāo)注方式,存在標(biāo)注速度慢、標(biāo)注準(zhǔn)確性低等問題,導(dǎo)致最終數(shù)據(jù)標(biāo)注效果差。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)?zhí)峁┮环N數(shù)據(jù)標(biāo)注方法、裝置、設(shè)備、可讀存儲(chǔ)介質(zhì)和程序產(chǎn)品,用于解決現(xiàn)有數(shù)據(jù)標(biāo)注效果差的問題。
2、第一方面,本申請(qǐng)實(shí)施例提供一種數(shù)據(jù)標(biāo)注方法,包括:
3、獲取數(shù)據(jù)集中每個(gè)第一數(shù)據(jù)的偽標(biāo)簽的描述子;
4、根據(jù)所述描述子,對(duì)所述數(shù)據(jù)集中的第一數(shù)據(jù)進(jìn)行聚類,形成至少一個(gè)目標(biāo)類簇;
5、在每個(gè)目標(biāo)類簇所包含的第一數(shù)據(jù)中選擇出第二數(shù)據(jù),獲取所述第二數(shù)據(jù)對(duì)應(yīng)的標(biāo)注結(jié)果;
6、基于所述第二數(shù)據(jù)的標(biāo)注結(jié)果,標(biāo)注所述第二數(shù)據(jù)所處目標(biāo)類簇中除所述第二數(shù)據(jù)之外的其它數(shù)據(jù)。
7、在第一方面的一種可能設(shè)計(jì)中,所述對(duì)所述數(shù)據(jù)集中的第一數(shù)據(jù)進(jìn)行聚類,形成至少一個(gè)目標(biāo)類簇之前,還包括:
8、確定所述數(shù)據(jù)集中已標(biāo)注偽標(biāo)簽的第三數(shù)據(jù);
9、將偽標(biāo)簽滿足第一設(shè)定條件的第三數(shù)據(jù),確定為所述第一數(shù)據(jù)。
10、在第一方面的另一種可能設(shè)計(jì)中,所述第一設(shè)定條件包括所述偽標(biāo)簽的置信度小于或等于置信度閾值、所述偽標(biāo)簽的尺寸不滿足設(shè)定尺寸要求中的一種或多種。
11、在第一方面的再一種可能設(shè)計(jì)中,所述方法還包括:
12、若所述第三數(shù)據(jù)的偽標(biāo)簽的置信度大于所述置信度閾值,則基于所述偽標(biāo)簽,生成所述第三數(shù)據(jù)的標(biāo)注結(jié)果。
13、在第一方面的又一種可能設(shè)計(jì)中,所述偽標(biāo)簽通過監(jiān)督訓(xùn)練模型或半監(jiān)督訓(xùn)練模型對(duì)無標(biāo)數(shù)據(jù)進(jìn)行預(yù)測(cè)生成;所述偽標(biāo)簽的描述子基于所述偽標(biāo)簽在對(duì)應(yīng)的所述第一數(shù)據(jù)中所標(biāo)識(shí)的區(qū)域的特征信息確定。
14、在第一方面的又一種可能設(shè)計(jì)中,所述根據(jù)所述描述子,對(duì)所述數(shù)據(jù)集中的第一數(shù)據(jù)進(jìn)行聚類,形成至少一個(gè)目標(biāo)類簇,包括:
15、根據(jù)每個(gè)第一數(shù)據(jù)的偽標(biāo)簽的描述子,將所述數(shù)據(jù)集中的第一數(shù)據(jù)進(jìn)行至少一次聚類操作至滿足聚類結(jié)束條件,將最后一次聚類操作獲得的各第二類簇確定為所述目標(biāo)類簇;其中,第i+1次聚類操作包括:
16、確定當(dāng)前待聚類的第一類簇;
17、基于第一類簇中各第一數(shù)據(jù)的偽標(biāo)簽的描述子,對(duì)每個(gè)第一類簇中的第一數(shù)據(jù)進(jìn)行聚類,得到至少一個(gè)第二類簇;
18、若所述至少一個(gè)第二類簇不滿足所述聚類結(jié)束條件,則進(jìn)入第i+2次聚類操作;
19、其中,i為不小于0的整數(shù);所述i為0時(shí),所述第一類簇為所述數(shù)據(jù)集中的第一數(shù)據(jù)組成的集合;所述i為大于0的整數(shù)時(shí),所述第一類簇為第i次聚類操作得到的所述第二類簇。
20、在第一方面的又一種可能設(shè)計(jì)中,所述聚類結(jié)束條件包括如下至少一種:
21、得到的至少一個(gè)第二類簇的總數(shù)量小于第一閾值;
22、至少一個(gè)第二類簇中存在至少一個(gè)第三類簇,所述第三類簇包含的第一數(shù)據(jù)的總數(shù)量小于第二閾值;
23、聚類操作的總次數(shù)大于或等于第三閾值。
24、在第一方面的又一種可能設(shè)計(jì)中,所述對(duì)所述數(shù)據(jù)集中的第一數(shù)據(jù)進(jìn)行聚類,形成至少一個(gè)目標(biāo)類簇,包括:
25、將所述數(shù)據(jù)集中的第一數(shù)據(jù)聚類為n個(gè)第一類簇;
26、對(duì)每個(gè)第一類簇中的第一數(shù)據(jù)繼續(xù)進(jìn)行聚類,得到m個(gè)第二類簇,每個(gè)第二類簇中包含的第一數(shù)據(jù)的數(shù)量約等于設(shè)定值;
27、對(duì)每個(gè)第二類簇中的第一數(shù)據(jù)再次進(jìn)行聚類,得到k個(gè)細(xì)分簇,作為所述至少一個(gè)目標(biāo)類簇,所述n,m和k均為設(shè)定值。
28、在第一方面的又一種可能設(shè)計(jì)中,所述對(duì)所述數(shù)據(jù)集中的第一數(shù)據(jù)進(jìn)行聚類,形成至少一個(gè)目標(biāo)類簇,包括:
29、獲取所述數(shù)據(jù)集中第一數(shù)據(jù)的總數(shù)量;
30、若所述數(shù)據(jù)集中第一數(shù)據(jù)的總數(shù)量大于閾值數(shù)量,則將所述數(shù)據(jù)集中的第一數(shù)據(jù)劃分為至少兩個(gè)批次;
31、依次對(duì)所述數(shù)據(jù)集中各個(gè)批次的第一數(shù)據(jù)進(jìn)行聚類,形成所述至少一個(gè)目標(biāo)類簇。
32、在第一方面的又一種可能設(shè)計(jì)中,所述第二數(shù)據(jù)對(duì)應(yīng)的標(biāo)注結(jié)果通過人工標(biāo)注獲得或通過設(shè)定的標(biāo)注模型自動(dòng)標(biāo)注獲得。
33、在第一方面的又一種可能設(shè)計(jì)中,所述基于所述第二數(shù)據(jù)的標(biāo)注結(jié)果,標(biāo)注所述第二數(shù)據(jù)所處目標(biāo)類簇中除所述第二數(shù)據(jù)之外的其它數(shù)據(jù),包括:
34、將所述第二數(shù)據(jù)的標(biāo)注結(jié)果,作為第二數(shù)據(jù)所處目標(biāo)類簇中除所述第二數(shù)據(jù)之外的其它數(shù)據(jù)的標(biāo)注結(jié)果;
35、或;
36、在所述第二數(shù)據(jù)所處目標(biāo)類簇中,選取出與所述目標(biāo)類簇的簇中心的距離滿足設(shè)定距離條件的目標(biāo)數(shù)據(jù);
37、將所述第二數(shù)據(jù)的標(biāo)注結(jié)果作為所述目標(biāo)數(shù)據(jù)的標(biāo)注結(jié)果。
38、在第一方面的又一種可能設(shè)計(jì)中,所述第一數(shù)據(jù)包括圖像、音頻、文本、多媒體信息、點(diǎn)云中的至少一項(xiàng)。
39、第二方面,本申請(qǐng)實(shí)施例提供一種數(shù)據(jù)標(biāo)注裝置,包括:
40、描述子獲取模塊,用于獲取數(shù)據(jù)集中每個(gè)第一數(shù)據(jù)的偽標(biāo)簽的描述子;
41、數(shù)據(jù)聚類模塊,用于根據(jù)所述描述子,對(duì)所述數(shù)據(jù)集中的第一數(shù)據(jù)進(jìn)行聚類,形成至少一個(gè)目標(biāo)類簇;
42、結(jié)果獲取模塊,用于在每個(gè)目標(biāo)類簇所包含的第一數(shù)據(jù)中選擇出第二數(shù)據(jù),獲取所述第二數(shù)據(jù)對(duì)應(yīng)的標(biāo)注結(jié)果;
43、標(biāo)注傳播模塊,用于基于所述第二數(shù)據(jù)的標(biāo)注結(jié)果,標(biāo)注所述第二數(shù)據(jù)所處目標(biāo)類簇中除所述第二數(shù)據(jù)之外的其它數(shù)據(jù)。
44、第三方面,本申請(qǐng)實(shí)施例提供一種電子設(shè)備,包括:處理器,以及與所述處理器通信連接的存儲(chǔ)器;所述存儲(chǔ)器存儲(chǔ)計(jì)算機(jī)執(zhí)行指令;所述處理器執(zhí)行所述存儲(chǔ)器存儲(chǔ)的計(jì)算機(jī)執(zhí)行指令,以實(shí)現(xiàn)如上所述的方法。
45、第四方面,本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)執(zhí)行指令,所述計(jì)算機(jī)執(zhí)行指令被處理器執(zhí)行時(shí)用于實(shí)現(xiàn)如上所述的方法。
46、第五方面,本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的方法。
47、本申請(qǐng)實(shí)施例提供的數(shù)據(jù)標(biāo)注方法、裝置、設(shè)備、可讀存儲(chǔ)介質(zhì)和程序產(chǎn)品,通過對(duì)數(shù)據(jù)集中海量的第一數(shù)據(jù)聚類成簇,然后從每個(gè)簇中選取出第二數(shù)據(jù)作為代表數(shù)據(jù),通過給與該代表數(shù)據(jù)一個(gè)標(biāo)注結(jié)果,然后將這個(gè)標(biāo)注結(jié)果擴(kuò)散傳播到這個(gè)簇中的其它數(shù)據(jù)上,這樣相當(dāng)于標(biāo)注一個(gè)第二數(shù)據(jù),就可以實(shí)現(xiàn)對(duì)整個(gè)簇中其它數(shù)據(jù)的標(biāo)注,提高標(biāo)注效率。
1.一種數(shù)據(jù)標(biāo)注方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述數(shù)據(jù)集中的第一數(shù)據(jù)進(jìn)行聚類,形成至少一個(gè)目標(biāo)類簇之前,還包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述第一設(shè)定條件包括所述偽標(biāo)簽的置信度小于或等于置信度閾值、所述偽標(biāo)簽的尺寸不滿足設(shè)定尺寸要求中的一種或多種。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述方法還包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述偽標(biāo)簽通過監(jiān)督訓(xùn)練模型或半監(jiān)督訓(xùn)練模型對(duì)無標(biāo)數(shù)據(jù)進(jìn)行預(yù)測(cè)生成;所述偽標(biāo)簽的描述子基于所述偽標(biāo)簽在對(duì)應(yīng)的所述第一數(shù)據(jù)中所標(biāo)識(shí)的區(qū)域的特征信息確定。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述描述子,對(duì)所述數(shù)據(jù)集中的第一數(shù)據(jù)進(jìn)行聚類,形成至少一個(gè)目標(biāo)類簇,包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述聚類結(jié)束條件包括如下至少一種:
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述數(shù)據(jù)集中的第一數(shù)據(jù)進(jìn)行聚類,形成至少一個(gè)目標(biāo)類簇,包括:
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述數(shù)據(jù)集中的第一數(shù)據(jù)進(jìn)行聚類,形成至少一個(gè)目標(biāo)類簇,包括:
10.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第二數(shù)據(jù)對(duì)應(yīng)的標(biāo)注結(jié)果通過人工標(biāo)注獲得或通過設(shè)定的標(biāo)注模型自動(dòng)標(biāo)注獲得。
11.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述第二數(shù)據(jù)的標(biāo)注結(jié)果,標(biāo)注所述第二數(shù)據(jù)所處目標(biāo)類簇中除所述第二數(shù)據(jù)之外的其它數(shù)據(jù),包括:
12.根據(jù)權(quán)利要求1-11任一項(xiàng)所述的方法,其特征在于,所述第一數(shù)據(jù)包括圖像、音頻、文本、多媒體信息、點(diǎn)云中的至少一項(xiàng)。
13.一種數(shù)據(jù)標(biāo)注裝置,其特征在于,包括:
14.一種電子設(shè)備,其特征在于,包括:處理器,以及與所述處理器通信連接的存儲(chǔ)器;
15.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)執(zhí)行指令,所述計(jì)算機(jī)執(zhí)行指令被處理器執(zhí)行時(shí)用于實(shí)現(xiàn)如權(quán)利要求1至12任一項(xiàng)所述的方法。
16.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,包括計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-12中任一項(xiàng)所述的方法。