一種基于任務(wù)難度與標(biāo)注者能力的眾包標(biāo)注數(shù)據(jù)整合方法

文檔序號(hào)：8259230閱讀：1322來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于任務(wù)難度與標(biāo)注者能力的眾包標(biāo)注數(shù)據(jù)整合方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)標(biāo)注技術(shù)領(lǐng)域，具體涉及一種基于任務(wù)難度與標(biāo)注者能力的眾包標(biāo)注數(shù)據(jù)整合方法。
【背景技術(shù)】
[0002] 高質(zhì)量的標(biāo)注數(shù)據(jù)集是計(jì)算機(jī)研宄和應(yīng)用領(lǐng)域中非常重要的資源。在計(jì)算機(jī)視覺、人工智能、機(jī)器學(xué)習(xí)等領(lǐng)域的算法大都是基于相應(yīng)的標(biāo)注數(shù)據(jù)集進(jìn)行訓(xùn)練和優(yōu)化的?？?速有效地獲得高質(zhì)量大規(guī)模的標(biāo)注數(shù)據(jù)集一直以來(lái)都是各研宄者關(guān)注的問(wèn)題。傳統(tǒng)的獲得標(biāo)注數(shù)據(jù)集的方法是雇傭?qū)＜乙允止さ姆绞綄?duì)數(shù)據(jù)集進(jìn)行標(biāo)注。這種方式下獲得的標(biāo)注數(shù) 據(jù)質(zhì)量高，但是標(biāo)注的耗時(shí)長(zhǎng)，且雇傭?qū)＜宜璧呢?cái)務(wù)開銷也非常大。
[0003] 近年來(lái)，隨著眾包技術(shù)的發(fā)展，利用眾包技術(shù)進(jìn)行數(shù)據(jù)標(biāo)注引起了研宄者的關(guān)注。眾包技術(shù)是一種分布式的問(wèn)題求解方式。該技術(shù)利用眾人的智慧和力量來(lái)解決計(jì)算機(jī)難以解決的任務(wù)，尤其是數(shù)據(jù)標(biāo)注、對(duì)象識(shí)別等這類對(duì)人類來(lái)說(shuō)非常簡(jiǎn)單，但是對(duì)計(jì)算機(jī)來(lái)講非常困難的任務(wù)。利用眾包技術(shù)進(jìn)行數(shù)據(jù)標(biāo)注的過(guò)程中，需要將標(biāo)注任務(wù)分配給眾多的標(biāo)注者進(jìn)行標(biāo)注，然后收集這些工作者對(duì)各個(gè)任務(wù)的標(biāo)注數(shù)據(jù)。但是由于參與標(biāo)注的標(biāo)注者的能力各不相同，所收集到的標(biāo)注結(jié)果中存在很多的噪聲，因此需要對(duì)所收集到的眾包標(biāo)注數(shù)據(jù)進(jìn)行過(guò)濾和整合，得到每個(gè)任務(wù)最終的標(biāo)注結(jié)果。
[0004] 目前對(duì)眾包標(biāo)注數(shù)據(jù)的整合方法中，最常用的方法是大數(shù)投票，即通過(guò)統(tǒng)計(jì)標(biāo)注任務(wù)的各個(gè)標(biāo)注結(jié)果的得票數(shù)，將得票最多的標(biāo)注結(jié)果作為該任務(wù)的最終標(biāo)注結(jié)果。這種方式的特點(diǎn)是簡(jiǎn)單，將所有的標(biāo)注者統(tǒng)一對(duì)待，卻忽略了在標(biāo)注的過(guò)程中各個(gè)標(biāo)注者的能力是不同的，因此不同的標(biāo)注者所給出的標(biāo)注結(jié)果的可信度也是不同的。后來(lái)Qiang Liu 等人構(gòu)建了基于標(biāo)注者的能力的標(biāo)注數(shù)據(jù)整合模型，利用變分推理的方法在該模型上同時(shí) 對(duì)標(biāo)注者的能力和各任務(wù)的最終標(biāo)注結(jié)果進(jìn)行估計(jì)。但是這種方式下將每個(gè)標(biāo)注者的能力看作一個(gè)常量，忽略了同一個(gè)標(biāo)注者在不同的任務(wù)上的專業(yè)度不同導(dǎo)致的可信度也不同的事實(shí)。Dengyong Zhou等人通過(guò)構(gòu)建標(biāo)注者與任務(wù)的混淆矩陣來(lái)表達(dá)工作者對(duì)不同任務(wù)的不同標(biāo)注能力，并利用最小熵原則進(jìn)行推理求解出各個(gè)任務(wù)的最終標(biāo)注結(jié)果。上述方式雖然在一定程度上提高了對(duì)標(biāo)注數(shù)據(jù)的整合精度，但是在此過(guò)程中，對(duì)標(biāo)注者的能力的定義僅僅是根據(jù)標(biāo)注者所標(biāo)注的所有數(shù)據(jù)與最終確定的各個(gè)任務(wù)的標(biāo)注結(jié)果一致性來(lái)確定的。然而通過(guò)整合獲得的任務(wù)的標(biāo)注結(jié)果并不一定的是正確的，這就導(dǎo)致了對(duì)標(biāo)注者的能力的評(píng)定是存在偏差的，因此在上述基于工作者能力的整合模型中所獲得的最終的標(biāo)注結(jié)果的準(zhǔn)確度也存在較大偏差。同時(shí)當(dāng)前的標(biāo)注數(shù)據(jù)整合模型中缺乏任務(wù)的難度這一重要的影響因素的評(píng)定方法，進(jìn)而忽略了任務(wù)難度在整個(gè)標(biāo)注數(shù)據(jù)的整合過(guò)程中的重要作用，導(dǎo)致最后獲得的標(biāo)注結(jié)果依然具有較大偏差。

【發(fā)明內(nèi)容】

[0005] 針對(duì)現(xiàn)有技術(shù)所存在的上述技術(shù)問(wèn)題，本發(fā)明提供了一種基于任務(wù)難度與標(biāo)注者能力的眾包標(biāo)注數(shù)據(jù)整合方法，通過(guò)從收集的標(biāo)注數(shù)據(jù)中，自動(dòng)化地對(duì)每一個(gè)標(biāo)注任務(wù)的難度及每一個(gè)參與標(biāo)注任務(wù)的標(biāo)注者的能力進(jìn)行評(píng)估的同時(shí)，對(duì)每一個(gè)標(biāo)注任務(wù)生成一個(gè) 更加準(zhǔn)確的標(biāo)注結(jié)果。
[0006] -種基于任務(wù)難度與標(biāo)注者能力的眾包標(biāo)注數(shù)據(jù)整合方法，包括如下步驟：
[0007] (1)對(duì)于任一個(gè)任務(wù)，根據(jù)其返回的所有標(biāo)注結(jié)果計(jì)算出該任務(wù)的難度；
[0008] (2)初始化每個(gè)標(biāo)注者對(duì)該任務(wù)的標(biāo)注能力值；
[0009] (3)根據(jù)標(biāo)注能力值計(jì)算任務(wù)每一類標(biāo)注結(jié)果從所有標(biāo)注者處所獲得的得分，并取最大得分對(duì)應(yīng)的標(biāo)注結(jié)果作為任務(wù)的暫時(shí)標(biāo)注結(jié)果；
[0010] (4)根據(jù)所述的暫時(shí)標(biāo)注結(jié)果計(jì)算每個(gè)標(biāo)注者的標(biāo)注準(zhǔn)確度；
[0011] (5)對(duì)于任務(wù)計(jì)算每個(gè)標(biāo)注者與其他標(biāo)注者之間的一致度；
[0012] (6)根據(jù)所述的一致度、標(biāo)注準(zhǔn)確度以及任務(wù)難度更新所述的標(biāo)注能力值；
[0013] (7)返回步驟（3)循環(huán)迭代，直至任務(wù)前后兩次的暫時(shí)標(biāo)注結(jié)果一致，并取該暫時(shí) 標(biāo)注結(jié)果作為任務(wù)的最終標(biāo)注結(jié)果。
[0014] 所述的步驟（1)中計(jì)算任務(wù)難度的具體步驟如下：
[0015] 1. 1統(tǒng)計(jì)任務(wù)的標(biāo)注結(jié)果種類以及每類標(biāo)注結(jié)果所占的比率；
[0016] 1. 2計(jì)算各類標(biāo)注結(jié)果所占比率之間平均方差的倒數(shù)作為任務(wù)的平衡度；
[0017] 1. 3根據(jù)所述的平衡度通過(guò)以下公式計(jì)算任務(wù)的難度：
[0018]
【主權(quán)項(xiàng)】
1. 一種基于任務(wù)難度與標(biāo)注者能力的眾包標(biāo)注數(shù)據(jù)整合方法，包括如下步驟： (1) 對(duì)于任一個(gè)任務(wù)，根據(jù)其返回的所有標(biāo)注結(jié)果計(jì)算出該任務(wù)的難度； (2) 初始化每個(gè)標(biāo)注者對(duì)該任務(wù)的標(biāo)注能力值； (3) 根據(jù)標(biāo)注能力值計(jì)算任務(wù)每一類標(biāo)注結(jié)果從所有標(biāo)注者處所獲得的得分，并取最大得分對(duì)應(yīng)的標(biāo)注結(jié)果作為任務(wù)的暫時(shí)標(biāo)注結(jié)果； (4) 根據(jù)所述的暫時(shí)標(biāo)注結(jié)果計(jì)算每個(gè)標(biāo)注者的標(biāo)注準(zhǔn)確度； (5) 對(duì)于任務(wù)計(jì)算每個(gè)標(biāo)注者與其他標(biāo)注者之間的一致度； (6) 根據(jù)所述的一致度、標(biāo)注準(zhǔn)確度以及任務(wù)難度更新所述的標(biāo)注能力值； (7) 返回步驟（3)循環(huán)迭代，直至任務(wù)前后兩次的暫時(shí)標(biāo)注結(jié)果一致，并取該暫時(shí)標(biāo)注結(jié)果作為任務(wù)的最終標(biāo)注結(jié)果。
2. 根據(jù)權(quán)利要求1所述的眾包標(biāo)注數(shù)據(jù)整合方法，其特征在于：所述的步驟（1)中計(jì) 算任務(wù)難度的具體步驟如下： 1. 1統(tǒng)計(jì)任務(wù)的標(biāo)注結(jié)果種類以及每類標(biāo)注結(jié)果所占的比率； 1. 2計(jì)算各類標(biāo)注結(jié)果所占比率之間平均方差的倒數(shù)作為任務(wù)的平衡度； 1. 3根據(jù)所述的平衡度通過(guò)以下公式計(jì)算任務(wù)的難度：
其中：Di為第i個(gè)任務(wù)的難度，Ki為第i個(gè)任務(wù)的標(biāo)注結(jié)果種類數(shù)，0i為第i個(gè)任務(wù) 的平衡度，i為自然數(shù)且1 <i<a，a為任務(wù)總數(shù)。
3. 根據(jù)權(quán)利要求1所述的眾包標(biāo)注數(shù)據(jù)整合方法，其特征在于：所述的步驟（3)中通過(guò)以下公式計(jì)算任務(wù)每一類標(biāo)注結(jié)果從所有標(biāo)注者處所獲得的得分：
其中：為第i個(gè)任務(wù)的第k類標(biāo)注結(jié)果從所有標(biāo)注者處所獲得的得分，'為第w個(gè) 標(biāo)注者對(duì)第i個(gè)任務(wù)的標(biāo)注能力值，I為第i個(gè)任務(wù)的標(biāo)注結(jié)果種類數(shù)，i；7為第w個(gè)標(biāo)注者對(duì)第i個(gè)任務(wù)的標(biāo)注結(jié)果，為第i個(gè)任務(wù)的第k類標(biāo)注結(jié)果，i為自然數(shù)且1 <i<a， a為任務(wù)總數(shù)，w為自然數(shù)且1彡w彡W，W為標(biāo)注者總數(shù)，k為自然數(shù)且1彡k彡I。
4. 根據(jù)權(quán)利要求1所述的眾包標(biāo)注數(shù)據(jù)整合方法，其特征在于：所述的步驟（4)中通過(guò)以下公式計(jì)算每個(gè)標(biāo)注者的標(biāo)注準(zhǔn)確度：
其中：Aw為第w個(gè)標(biāo)注者的標(biāo)注準(zhǔn)確度，fi為第i個(gè)任務(wù)的暫時(shí)標(biāo)注結(jié)果，f為第w 個(gè)標(biāo)注者對(duì)第i個(gè)任務(wù)的標(biāo)注結(jié)果，i為自然數(shù)且1 <i<a，a為任務(wù)總數(shù)，w為自然數(shù)且 1彡w彡W，W為標(biāo)注者總數(shù)。
5. 根據(jù)權(quán)利要求1所述的眾包標(biāo)注數(shù)據(jù)整合方法，其特征在于：所述的步驟（5)中通過(guò)以下公式計(jì)算每個(gè)標(biāo)注者與其他標(biāo)注者之間的一致度；
其中：為對(duì)于第i個(gè)任務(wù)第w個(gè)標(biāo)注者與其他標(biāo)注者之間的一致度，Cf為第p個(gè) 標(biāo)注者對(duì)第i個(gè)任務(wù)的標(biāo)注能力值，盡為第P個(gè)標(biāo)注者對(duì)第i個(gè)任務(wù)的標(biāo)注結(jié)果，#為第 w個(gè)標(biāo)注者對(duì)第i個(gè)任務(wù)的標(biāo)注結(jié)果，i為自然數(shù)且1 <i<a，a為任務(wù)總數(shù)，p和w均為自然數(shù)且1彡w彡W，1彡p彡W，W為標(biāo)注者總數(shù)。
6. 根據(jù)權(quán)利要求1所述的眾包標(biāo)注數(shù)據(jù)整合方法，其特征在于：所述的步驟（6)中通過(guò)以下公式更新標(biāo)注能力值：
其中：C；#為第W個(gè)標(biāo)注者對(duì)第i個(gè)任務(wù)更新后的標(biāo)注能力值，為對(duì)于第i個(gè)任務(wù) 第W個(gè)標(biāo)注者與其他標(biāo)注者之間的一致度，Aw為第W個(gè)標(biāo)注者的標(biāo)注準(zhǔn)確度，Di為第i個(gè) 任務(wù)的難度，t為預(yù)設(shè)的場(chǎng)景調(diào)節(jié)參數(shù)，i為自然數(shù)且l<i<a，a為任務(wù)總數(shù)，w為自然數(shù)且1 <w<W，W為標(biāo)注者總數(shù)。
【專利摘要】本發(fā)明公開了一種基于任務(wù)難度與標(biāo)注者能力的眾包標(biāo)注數(shù)據(jù)整合方法，其根據(jù)以下兩種現(xiàn)象：(1)能力較高的標(biāo)注者對(duì)大多數(shù)任務(wù)的標(biāo)注結(jié)果與其他的標(biāo)注者相同；(2)難度越低的任務(wù)，標(biāo)注者們對(duì)它的標(biāo)注結(jié)果的一致度越高；提出了新的任務(wù)難度的評(píng)估方法以及標(biāo)注者能力的評(píng)估方法，并構(gòu)建了基于二者的眾包標(biāo)注數(shù)據(jù)的整合方法，利用迭代的方式進(jìn)行快速求解，使得標(biāo)注者的能力評(píng)估更加客觀準(zhǔn)確，可以非常方便地對(duì)各種眾包標(biāo)注任務(wù)進(jìn)行有效地難度評(píng)定；同時(shí)本發(fā)明對(duì)各種類型的眾包標(biāo)注數(shù)據(jù)均適用，包括但不限于：圖像、文本、視頻等任務(wù)的二值標(biāo)注、多值標(biāo)注等。
【IPC分類】G06F19-00
【公開號(hào)】CN104573359
【申請(qǐng)?zhí)枴緾N201410850691
【發(fā)明人】王東輝, 孫歡, 李亞南, 藺越檀, 熊逵, 黃鵬程, 洪高峰, 徐燦, 梁建增, 莊越挺
【申請(qǐng)人】浙江大學(xué)
【公開日】2015年4月29日
【申請(qǐng)日】2014年12月31日

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王東輝;孫歡;李亞南;藺越檀;熊逵;黃鵬程;洪高峰;徐燦;梁建增;莊越挺;
技術(shù)所有人：浙江大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于任務(wù)難度與標(biāo)注者能力的眾包標(biāo)注數(shù)據(jù)整合方法