一種基于任務(wù)難度與標(biāo)注者能力的眾包標(biāo)注數(shù)據(jù)整合方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)標(biāo)注技術(shù)領(lǐng)域,具體涉及一種基于任務(wù)難度與標(biāo)注者能力的眾包 標(biāo)注數(shù)據(jù)整合方法。
【背景技術(shù)】
[0002] 高質(zhì)量的標(biāo)注數(shù)據(jù)集是計(jì)算機(jī)研宄和應(yīng)用領(lǐng)域中非常重要的資源。在計(jì)算機(jī)視 覺、人工智能、機(jī)器學(xué)習(xí)等領(lǐng)域的算法大都是基于相應(yīng)的標(biāo)注數(shù)據(jù)集進(jìn)行訓(xùn)練和優(yōu)化的???速有效地獲得高質(zhì)量大規(guī)模的標(biāo)注數(shù)據(jù)集一直以來(lái)都是各研宄者關(guān)注的問(wèn)題。傳統(tǒng)的獲得 標(biāo)注數(shù)據(jù)集的方法是雇傭?qū)<乙允止さ姆绞綄?duì)數(shù)據(jù)集進(jìn)行標(biāo)注。這種方式下獲得的標(biāo)注數(shù) 據(jù)質(zhì)量高,但是標(biāo)注的耗時(shí)長(zhǎng),且雇傭?qū)<宜璧呢?cái)務(wù)開銷也非常大。
[0003] 近年來(lái),隨著眾包技術(shù)的發(fā)展,利用眾包技術(shù)進(jìn)行數(shù)據(jù)標(biāo)注引起了研宄者的關(guān)注。 眾包技術(shù)是一種分布式的問(wèn)題求解方式。該技術(shù)利用眾人的智慧和力量來(lái)解決計(jì)算機(jī)難以 解決的任務(wù),尤其是數(shù)據(jù)標(biāo)注、對(duì)象識(shí)別等這類對(duì)人類來(lái)說(shuō)非常簡(jiǎn)單,但是對(duì)計(jì)算機(jī)來(lái)講非 常困難的任務(wù)。利用眾包技術(shù)進(jìn)行數(shù)據(jù)標(biāo)注的過(guò)程中,需要將標(biāo)注任務(wù)分配給眾多的標(biāo)注 者進(jìn)行標(biāo)注,然后收集這些工作者對(duì)各個(gè)任務(wù)的標(biāo)注數(shù)據(jù)。但是由于參與標(biāo)注的標(biāo)注者的 能力各不相同,所收集到的標(biāo)注結(jié)果中存在很多的噪聲,因此需要對(duì)所收集到的眾包標(biāo)注 數(shù)據(jù)進(jìn)行過(guò)濾和整合,得到每個(gè)任務(wù)最終的標(biāo)注結(jié)果。
[0004] 目前對(duì)眾包標(biāo)注數(shù)據(jù)的整合方法中,最常用的方法是大數(shù)投票,即通過(guò)統(tǒng)計(jì)標(biāo)注 任務(wù)的各個(gè)標(biāo)注結(jié)果的得票數(shù),將得票最多的標(biāo)注結(jié)果作為該任務(wù)的最終標(biāo)注結(jié)果。這種 方式的特點(diǎn)是簡(jiǎn)單,將所有的標(biāo)注者統(tǒng)一對(duì)待,卻忽略了在標(biāo)注的過(guò)程中各個(gè)標(biāo)注者的能 力是不同的,因此不同的標(biāo)注者所給出的標(biāo)注結(jié)果的可信度也是不同的。后來(lái)Qiang Liu 等人構(gòu)建了基于標(biāo)注者的能力的標(biāo)注數(shù)據(jù)整合模型,利用變分推理的方法在該模型上同時(shí) 對(duì)標(biāo)注者的能力和各任務(wù)的最終標(biāo)注結(jié)果進(jìn)行估計(jì)。但是這種方式下將每個(gè)標(biāo)注者的能力 看作一個(gè)常量,忽略了同一個(gè)標(biāo)注者在不同的任務(wù)上的專業(yè)度不同導(dǎo)致的可信度也不同的 事實(shí)。Dengyong Zhou等人通過(guò)構(gòu)建標(biāo)注者與任務(wù)的混淆矩陣來(lái)表達(dá)工作者對(duì)不同任務(wù)的 不同標(biāo)注能力,并利用最小熵原則進(jìn)行推理求解出各個(gè)任務(wù)的最終標(biāo)注結(jié)果。上述方式雖 然在一定程度上提高了對(duì)標(biāo)注數(shù)據(jù)的整合精度,但是在此過(guò)程中,對(duì)標(biāo)注者的能力的定義 僅僅是根據(jù)標(biāo)注者所標(biāo)注的所有數(shù)據(jù)與最終確定的各個(gè)任務(wù)的標(biāo)注結(jié)果一致性來(lái)確定的。 然而通過(guò)整合獲得的任務(wù)的標(biāo)注結(jié)果并不一定的是正確的,這就導(dǎo)致了對(duì)標(biāo)注者的能力的 評(píng)定是存在偏差的,因此在上述基于工作者能力的整合模型中所獲得的最終的標(biāo)注結(jié)果的 準(zhǔn)確度也存在較大偏差。同時(shí)當(dāng)前的標(biāo)注數(shù)據(jù)整合模型中缺乏任務(wù)的難度這一重要的影響 因素的評(píng)定方法,進(jìn)而忽略了任務(wù)難度在整個(gè)標(biāo)注數(shù)據(jù)的整合過(guò)程中的重要作用,導(dǎo)致最 后獲得的標(biāo)注結(jié)果依然具有較大偏差。
【發(fā)明內(nèi)容】
[0005] 針對(duì)現(xiàn)有技術(shù)所存在的上述技術(shù)問(wèn)題,本發(fā)明提供了一種基于任務(wù)難度與標(biāo)注者 能力的眾包標(biāo)注數(shù)據(jù)整合方法,通過(guò)從收集的標(biāo)注數(shù)據(jù)中,自動(dòng)化地對(duì)每一個(gè)標(biāo)注任務(wù)的 難度及每一個(gè)參與標(biāo)注任務(wù)的標(biāo)注者的能力進(jìn)行評(píng)估的同時(shí),對(duì)每一個(gè)標(biāo)注任務(wù)生成一個(gè) 更加準(zhǔn)確的標(biāo)注結(jié)果。
[0006] -種基于任務(wù)難度與標(biāo)注者能力的眾包標(biāo)注數(shù)據(jù)整合方法,包括如下步驟:
[0007] (1)對(duì)于任一個(gè)任務(wù),根據(jù)其返回的所有標(biāo)注結(jié)果計(jì)算出該任務(wù)的難度;
[0008] (2)初始化每個(gè)標(biāo)注者對(duì)該任務(wù)的標(biāo)注能力值;
[0009] (3)根據(jù)標(biāo)注能力值計(jì)算任務(wù)每一類標(biāo)注結(jié)果從所有標(biāo)注者處所獲得的得分,并 取最大得分對(duì)應(yīng)的標(biāo)注結(jié)果作為任務(wù)的暫時(shí)標(biāo)注結(jié)果;
[0010] (4)根據(jù)所述的暫時(shí)標(biāo)注結(jié)果計(jì)算每個(gè)標(biāo)注者的標(biāo)注準(zhǔn)確度;
[0011] (5)對(duì)于任務(wù)計(jì)算每個(gè)標(biāo)注者與其他標(biāo)注者之間的一致度;
[0012] (6)根據(jù)所述的一致度、標(biāo)注準(zhǔn)確度以及任務(wù)難度更新所述的標(biāo)注能力值;
[0013] (7)返回步驟(3)循環(huán)迭代,直至任務(wù)前后兩次的暫時(shí)標(biāo)注結(jié)果一致,并取該暫時(shí) 標(biāo)注結(jié)果作為任務(wù)的最終標(biāo)注結(jié)果。
[0014] 所述的步驟(1)中計(jì)算任務(wù)難度的具體步驟如下:
[0015] 1. 1統(tǒng)計(jì)任務(wù)的標(biāo)注結(jié)果種類以及每類標(biāo)注結(jié)果所占的比率;
[0016] 1. 2計(jì)算各類標(biāo)注結(jié)果所占比率之間平均方差的倒數(shù)作為任務(wù)的平衡度;
[0017] 1. 3根據(jù)所述的平衡度通過(guò)以下公式計(jì)算任務(wù)的難度:
[0018]
【主權(quán)項(xiàng)】
1. 一種基于任務(wù)難度與標(biāo)注者能力的眾包標(biāo)注數(shù)據(jù)整合方法,包括如下步驟: (1) 對(duì)于任一個(gè)任務(wù),根據(jù)其返回的所有標(biāo)注結(jié)果計(jì)算出該任務(wù)的難度; (2) 初始化每個(gè)標(biāo)注者對(duì)該任務(wù)的標(biāo)注能力值; (3) 根據(jù)標(biāo)注能力值計(jì)算任務(wù)每一類標(biāo)注結(jié)果從所有標(biāo)注者處所獲得的得分,并取最 大得分對(duì)應(yīng)的標(biāo)注結(jié)果作為任務(wù)的暫時(shí)標(biāo)注結(jié)果; (4) 根據(jù)所述的暫時(shí)標(biāo)注結(jié)果計(jì)算每個(gè)標(biāo)注者的標(biāo)注準(zhǔn)確度; (5) 對(duì)于任務(wù)計(jì)算每個(gè)標(biāo)注者與其他標(biāo)注者之間的一致度; (6) 根據(jù)所述的一致度、標(biāo)注準(zhǔn)確度以及任務(wù)難度更新所述的標(biāo)注能力值; (7) 返回步驟(3)循環(huán)迭代,直至任務(wù)前后兩次的暫時(shí)標(biāo)注結(jié)果一致,并取該暫時(shí)標(biāo)注 結(jié)果作為任務(wù)的最終標(biāo)注結(jié)果。
2. 根據(jù)權(quán)利要求1所述的眾包標(biāo)注數(shù)據(jù)整合方法,其特征在于:所述的步驟(1)中計(jì) 算任務(wù)難度的具體步驟如下: 1. 1統(tǒng)計(jì)任務(wù)的標(biāo)注結(jié)果種類以及每類標(biāo)注結(jié)果所占的比率; 1. 2計(jì)算各類標(biāo)注結(jié)果所占比率之間平均方差的倒數(shù)作為任務(wù)的平衡度; 1. 3根據(jù)所述的平衡度通過(guò)以下公式計(jì)算任務(wù)的難度:
其中:Di為第i個(gè)任務(wù)的難度,Ki為第i個(gè)任務(wù)的標(biāo)注結(jié)果種類數(shù),0i為第i個(gè)任務(wù) 的平衡度,i為自然數(shù)且1 <i<a,a為任務(wù)總數(shù)。
3. 根據(jù)權(quán)利要求1所述的眾包標(biāo)注數(shù)據(jù)整合方法,其特征在于:所述的步驟(3)中通 過(guò)以下公式計(jì)算任務(wù)每一類標(biāo)注結(jié)果從所有標(biāo)注者處所獲得的得分:
其中:為第i個(gè)任務(wù)的第k類標(biāo)注結(jié)果從所有標(biāo)注者處所獲得的得分,'為第w個(gè) 標(biāo)注者對(duì)第i個(gè)任務(wù)的標(biāo)注能力值,I為第i個(gè)任務(wù)的標(biāo)注結(jié)果種類數(shù),i;7為第w個(gè)標(biāo)注 者對(duì)第i個(gè)任務(wù)的標(biāo)注結(jié)果,為第i個(gè)任務(wù)的第k類標(biāo)注結(jié)果,i為自然數(shù)且1 <i<a, a為任務(wù)總數(shù),w為自然數(shù)且1彡w彡W,W為標(biāo)注者總數(shù),k為自然數(shù)且1彡k彡I。
4. 根據(jù)權(quán)利要求1所述的眾包標(biāo)注數(shù)據(jù)整合方法,其特征在于:所述的步驟(4)中通 過(guò)以下公式計(jì)算每個(gè)標(biāo)注者的標(biāo)注準(zhǔn)確度:
其中:Aw為第w個(gè)標(biāo)注者的標(biāo)注準(zhǔn)確度,fi為第i個(gè)任務(wù)的暫時(shí)標(biāo)注結(jié)果,f為第w 個(gè)標(biāo)注者對(duì)第i個(gè)任務(wù)的標(biāo)注結(jié)果,i為自然數(shù)且1 <i<a,a為任務(wù)總數(shù),w為自然數(shù)且 1彡w彡W,W為標(biāo)注者總數(shù)。
5. 根據(jù)權(quán)利要求1所述的眾包標(biāo)注數(shù)據(jù)整合方法,其特征在于:所述的步驟(5)中通 過(guò)以下公式計(jì)算每個(gè)標(biāo)注者與其他標(biāo)注者之間的一致度;
其中:為對(duì)于第i個(gè)任務(wù)第w個(gè)標(biāo)注者與其他標(biāo)注者之間的一致度,Cf為第p個(gè) 標(biāo)注者對(duì)第i個(gè)任務(wù)的標(biāo)注能力值,盡為第P個(gè)標(biāo)注者對(duì)第i個(gè)任務(wù)的標(biāo)注結(jié)果,#為第 w個(gè)標(biāo)注者對(duì)第i個(gè)任務(wù)的標(biāo)注結(jié)果,i為自然數(shù)且1 <i<a,a為任務(wù)總數(shù),p和w均為 自然數(shù)且1彡w彡W,1彡p彡W,W為標(biāo)注者總數(shù)。
6. 根據(jù)權(quán)利要求1所述的眾包標(biāo)注數(shù)據(jù)整合方法,其特征在于:所述的步驟(6)中通 過(guò)以下公式更新標(biāo)注能力值:
其中:C;#為第W個(gè)標(biāo)注者對(duì)第i個(gè)任務(wù)更新后的標(biāo)注能力值,為對(duì)于第i個(gè)任務(wù) 第W個(gè)標(biāo)注者與其他標(biāo)注者之間的一致度,Aw為第W個(gè)標(biāo)注者的標(biāo)注準(zhǔn)確度,Di為第i個(gè) 任務(wù)的難度,t為預(yù)設(shè)的場(chǎng)景調(diào)節(jié)參數(shù),i為自然數(shù)且l<i<a,a為任務(wù)總數(shù),w為自然 數(shù)且1 <w<W,W為標(biāo)注者總數(shù)。
【專利摘要】本發(fā)明公開了一種基于任務(wù)難度與標(biāo)注者能力的眾包標(biāo)注數(shù)據(jù)整合方法,其根據(jù)以下兩種現(xiàn)象:(1)能力較高的標(biāo)注者對(duì)大多數(shù)任務(wù)的標(biāo)注結(jié)果與其他的標(biāo)注者相同;(2)難度越低的任務(wù),標(biāo)注者們對(duì)它的標(biāo)注結(jié)果的一致度越高;提出了新的任務(wù)難度的評(píng)估方法以及標(biāo)注者能力的評(píng)估方法,并構(gòu)建了基于二者的眾包標(biāo)注數(shù)據(jù)的整合方法,利用迭代的方式進(jìn)行快速求解,使得標(biāo)注者的能力評(píng)估更加客觀準(zhǔn)確,可以非常方便地對(duì)各種眾包標(biāo)注任務(wù)進(jìn)行有效地難度評(píng)定;同時(shí)本發(fā)明對(duì)各種類型的眾包標(biāo)注數(shù)據(jù)均適用,包括但不限于:圖像、文本、視頻等任務(wù)的二值標(biāo)注、多值標(biāo)注等。
【IPC分類】G06F19-00
【公開號(hào)】CN104573359
【申請(qǐng)?zhí)枴緾N201410850691
【發(fā)明人】王東輝, 孫歡, 李亞南, 藺越檀, 熊逵, 黃鵬程, 洪高峰, 徐燦, 梁建增, 莊越挺
【申請(qǐng)人】浙江大學(xué)
【公開日】2015年4月29日
【申請(qǐng)日】2014年12月31日