專(zhuān)利名稱(chēng):一種結(jié)合用戶(hù)評(píng)價(jià)與標(biāo)注的交互式圖像檢索方法
技術(shù)領(lǐng)域:
本發(fā)明是一種結(jié)合用戶(hù)評(píng)價(jià)與標(biāo)注的交互式圖像檢索方法,屬于多媒體信息檢索領(lǐng)域。
背景技術(shù):
近年來(lái),隨著信息技術(shù)的發(fā)展,數(shù)字圖像的數(shù)量快速增長(zhǎng),每天都有海量的圖像數(shù)據(jù)產(chǎn)生。如何快速而準(zhǔn)確地查找并有效利用這些圖像成為迫切需要解決的問(wèn)題,這就需要圖像檢索技術(shù)。20世紀(jì)70年代開(kāi)始出現(xiàn)基于文本的圖像檢索技術(shù),主要利用數(shù)據(jù)庫(kù)管理系統(tǒng),對(duì)圖像進(jìn)行人工標(biāo)注,即對(duì)每幅圖像標(biāo)注關(guān)鍵字,利用原有成熟的文本檢索系統(tǒng)對(duì)圖像進(jìn)行管理和檢索。這種方法的主要優(yōu)點(diǎn)是檢索速度快,但是人工標(biāo)注費(fèi)時(shí)費(fèi)力、主觀(guān)性強(qiáng),且對(duì)海量圖像進(jìn)行人工標(biāo)注是很難實(shí)現(xiàn)的。20世紀(jì)90年代,出現(xiàn)了基于內(nèi)容的圖像檢索技術(shù),它自動(dòng)提取圖像的底層物理特征(如顏色、紋理、形狀等特征)來(lái)進(jìn)行圖像相似度比較。檢索時(shí),用戶(hù)選擇一幅圖像作為查詢(xún)圖像,然后通過(guò)圖像底層物理特征的匹配,由系統(tǒng)查找與查詢(xún)圖像相似的圖像,按相似度大小排列并返回給用戶(hù)。在實(shí)際應(yīng)用中,顏色、紋理、形狀等底層物理特征有時(shí)不能真實(shí)反映圖像內(nèi)容,即存在一定的語(yǔ)義鴻溝。近期,人們又提出了基于語(yǔ)義的圖像檢索方法,但如何自動(dòng)獲取圖像的語(yǔ)義信息卻很困難。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種結(jié)合用戶(hù)評(píng)價(jià)與標(biāo)注的交互式圖像檢索方法,該方法通過(guò)用戶(hù)對(duì)查詢(xún)圖像、想查找圖像的文本描述或檢索結(jié)果進(jìn)行滿(mǎn)意度評(píng)價(jià),系統(tǒng)能夠自動(dòng)在線(xiàn)生成圖像庫(kù)的語(yǔ)義信息數(shù)據(jù)庫(kù),在檢索的過(guò)程中,綜合利用離線(xiàn)生成的圖像底層物理特征和在線(xiàn)生成的高層語(yǔ)義信息進(jìn)行檢索,從而極大提高圖像檢索的準(zhǔn)確度。同時(shí),在生成語(yǔ)義信息數(shù)據(jù)庫(kù)的過(guò)程中,充分考慮了不同用戶(hù)給出的文本標(biāo)注的可靠性因素。該方法具有效率高、精確度高、交互方式友好的特點(diǎn)。本發(fā)明的總體思想如下:用戶(hù)提交一幅查詢(xún)圖像或?qū)ο氩檎覉D像進(jìn)行文本描述或是二者相結(jié)合,檢索系統(tǒng)會(huì)提取圖像特征、提取文本描述中的關(guān)鍵字或者二者同時(shí)提取,進(jìn)行檢索時(shí),系統(tǒng)會(huì)分別采用基于特征相似度匹配、基于文本相似度匹配和基于特征和文本相似度相結(jié)合匹配進(jìn)行檢索。然后用戶(hù)可對(duì)檢索結(jié)果進(jìn)行“滿(mǎn)意”或“不滿(mǎn)意”的相關(guān)評(píng)價(jià),通過(guò)用戶(hù)對(duì)檢索結(jié)果的相關(guān)評(píng)價(jià),圖像檢索系統(tǒng)自動(dòng)對(duì)滿(mǎn)意圖像進(jìn)行關(guān)鍵字標(biāo)注。該圖像檢索系統(tǒng)隨著用戶(hù)的不斷使用,自動(dòng)對(duì)圖像庫(kù)中的各圖像生成豐富的語(yǔ)義信息數(shù)據(jù)庫(kù)。本發(fā)明考慮到不同用戶(hù)給出的文本標(biāo)注可靠性不同的特點(diǎn),在生成語(yǔ)義信息數(shù)據(jù)庫(kù)的過(guò)程中,結(jié)合了用戶(hù)的可信度。具體創(chuàng)新點(diǎn):本發(fā)明利用基于物理特征和文本相結(jié)合的綜合檢索方法,從而極大提高圖像的檢索準(zhǔn)確度。同時(shí),在進(jìn)行語(yǔ)義標(biāo)注的過(guò)程中,只需對(duì)查詢(xún)圖像或想查找的圖像進(jìn)行語(yǔ)義標(biāo)注,圖像檢索系統(tǒng)自動(dòng)對(duì)用戶(hù)標(biāo)記為滿(mǎn)意的圖像也進(jìn)行語(yǔ)義標(biāo)注,且產(chǎn)生的語(yǔ)義標(biāo)注信息考慮到了用戶(hù)的可信度因素。本發(fā)明提出的方法能通過(guò)本圖像檢索系統(tǒng)的不斷使用,自動(dòng)豐富圖像庫(kù)中各圖像的語(yǔ)義標(biāo)注信息,避免人工標(biāo)注費(fèi)時(shí)費(fèi)力的問(wèn)題。本發(fā)明提出的檢索方法,具體步驟包括:(1)對(duì)圖像庫(kù)中的所有圖像進(jìn)行特征提取,離線(xiàn)生成圖像特征庫(kù)V; (2)用戶(hù)登錄,如果不登錄即為匿名用戶(hù);(3)用戶(hù)提交查詢(xún)信息,該信息可以是查詢(xún)圖像Qn,也可以是輸入的文本信息,或者是查詢(xún)圖像與文本信息同時(shí)存在;(4)檢索系統(tǒng)對(duì)查詢(xún)圖像Qn進(jìn)行特征提取,并對(duì)輸入的文本信息提取關(guān)鍵字;(5)檢索系統(tǒng)對(duì)查詢(xún)圖像Qn進(jìn)行特征相似度匹配SI ; (6)檢索系統(tǒng)對(duì)提取的關(guān)鍵字進(jìn)行文本的匹配,即語(yǔ)義相關(guān)性S2 ; (7)檢索系統(tǒng)利用SI和S2計(jì)算總相似度S,返回S值最大的圖像集作為初始的檢索結(jié)果集合set (R) ;(8)同時(shí),檢索系統(tǒng)在關(guān)鍵字?jǐn)?shù)據(jù)表KL中查詢(xún)是否存在set (R)中各圖像名對(duì)應(yīng)的記錄,如果存在,則給出這些記錄對(duì)應(yīng)的關(guān)鍵字權(quán)值排序最高的前Ν(Ν>0)個(gè)關(guān)鍵字供用戶(hù)選擇;(9)用戶(hù)選擇系統(tǒng)提供的關(guān)鍵字K,同時(shí)也可以對(duì)圖像文本標(biāo)注T' ; (10)系統(tǒng)根據(jù)用戶(hù)選擇的關(guān)鍵字和標(biāo)注的文本信息,組合新關(guān)鍵字K' ;(11)同時(shí),用戶(hù)對(duì)結(jié)果圖像進(jìn)行“滿(mǎn)意”或“不滿(mǎn)意”評(píng)價(jià),對(duì)標(biāo)記為“滿(mǎn)意”的圖像,用關(guān)鍵字K'進(jìn)行文本標(biāo)注;(12)圖像檢索系統(tǒng)計(jì)算該用戶(hù)的用戶(hù)可信度a,并計(jì)算“滿(mǎn)意”圖像標(biāo)注的關(guān)鍵字權(quán)值W,保存到關(guān)鍵字信息表KL中,同時(shí),將注冊(cè)用戶(hù)的用戶(hù)信息保存到用戶(hù)信息數(shù)據(jù)表UL中,匿名用戶(hù)的用戶(hù)信息不需要保存,只需對(duì)KL進(jìn)行更新;(13)如果用戶(hù)對(duì)檢索結(jié)果不滿(mǎn)意,則可修改文本標(biāo)注T,重復(fù)步驟(3) -(12),直到用戶(hù)對(duì)檢索結(jié)果滿(mǎn)意為止,并給出最終的檢索結(jié)果。更進(jìn)一步,步驟1、2所述的特征提取中的特征包括:顏色特征、紋理特征、形狀特征、空間分布特征及局部不變性特征。更進(jìn)一步,步驟6所述的語(yǔ)義相關(guān)性S2的計(jì)算方法為:對(duì)于圖像庫(kù)中的每幅圖像,在關(guān)鍵字信息數(shù)據(jù)表KL中查詢(xún)包含該圖像名及K中任一關(guān)鍵字對(duì)應(yīng)的記錄,從這些記錄的關(guān)鍵字權(quán)值中選取最大值作為S2,如果KL中沒(méi)有該圖像名與K中各關(guān)鍵字對(duì)應(yīng)的記錄,則S2值為O。更進(jìn)一步,步驟7所述的總相似度S的計(jì)算方法為:S = aSl+0S2,其中α+β =1,a是基于特征相似度匹配在綜合檢索中所占的比重,β是基于文本匹配在綜合檢索中所占的比重;當(dāng)α = 0時(shí),綜合檢索實(shí)際是進(jìn)行基于文本匹配的檢索;當(dāng)β = O時(shí),綜合檢索實(shí)際是進(jìn)行基于特征相似度匹配的檢索;當(dāng)a古O且β古O時(shí),圖像檢索系統(tǒng)進(jìn)行綜合檢索,根據(jù)用戶(hù)的不同需求調(diào)整視覺(jué)相似度SI和語(yǔ)義相關(guān)性S2的比例;如果用戶(hù)希望檢索得到語(yǔ)義上更相關(guān)的圖像,則調(diào)小α,調(diào)大β,反之如果用戶(hù)更需要視覺(jué)上相似的圖像,則相應(yīng)調(diào)小β,調(diào)大Ct。更進(jìn)一步,步驟8、12所述的關(guān)鍵字信息數(shù)據(jù)表KL的字段為:關(guān)鍵字、圖像名、關(guān)鍵字評(píng)價(jià)次數(shù)、關(guān)鍵字權(quán)值其中KL中的一條記錄僅與某一關(guān)鍵字及用該關(guān)鍵字表示的一幅圖像的圖像名一一對(duì)應(yīng),“關(guān)鍵字評(píng)價(jià)次數(shù)”為所有用戶(hù)對(duì)該圖像名用該關(guān)鍵字進(jìn)行標(biāo)注的次數(shù)的統(tǒng)計(jì),“關(guān)鍵字權(quán)值”是每次不同用戶(hù)用該關(guān)鍵字標(biāo)注該圖像時(shí)累加當(dāng)前用戶(hù)的可信度得到的。更進(jìn)一步,步驟12中所述的用戶(hù)信息數(shù)據(jù)表UL的字段為:用戶(hù)名、密碼、用戶(hù)評(píng)價(jià)次數(shù)、用戶(hù)可信度
其中UL用來(lái)保存注冊(cè)用戶(hù)的操作記錄,“用戶(hù)評(píng)價(jià)次數(shù)”是統(tǒng)計(jì)該注冊(cè)用戶(hù)對(duì)各查詢(xún)圖像進(jìn)行標(biāo)注的次數(shù)總和,“用戶(hù)可信度”用于表示該注冊(cè)用戶(hù)當(dāng)前給出的文本標(biāo)注的可信度。更進(jìn)一步,步驟12中所述的KL和UL的更新,具體規(guī)則如下:I) KL的更新:若某次檢索過(guò)程取得的K中的某個(gè)關(guān)鍵字與用戶(hù)標(biāo)注為滿(mǎn)意的某個(gè)圖像名的對(duì)應(yīng)記錄不存在,則將該關(guān)鍵字、該圖像的圖像名、關(guān)鍵字評(píng)價(jià)次數(shù)(I次)和該關(guān)鍵字對(duì)應(yīng)該圖像名的關(guān)鍵字權(quán)值作為一條記錄存入KL中,若記錄存在,則將該條記錄的評(píng)價(jià)次數(shù)加I,并重新計(jì)算該關(guān)鍵字對(duì)應(yīng)記錄的關(guān)鍵字權(quán)值項(xiàng);2)UL的更新:若進(jìn)行檢索的是注冊(cè)用戶(hù),則將該用戶(hù)對(duì)應(yīng)記錄的用戶(hù)評(píng)價(jià)次數(shù)加I,并重新計(jì)算該注冊(cè)用戶(hù)的用戶(hù)可信度。更進(jìn)一步,步驟12所述的用戶(hù)可信度a,其特征在于,對(duì)于匿名用戶(hù),它的可信度值只取決于本次操作;而對(duì)于注冊(cè)用戶(hù),它的用戶(hù)可信度是該用戶(hù)多次評(píng)價(jià)的用戶(hù)可信度的平均值;用戶(hù)某次操作的用戶(hù)可信度a的具體計(jì)算方法為:從KL中找到包含K(用戶(hù)選擇的關(guān)鍵字以及用戶(hù)輸入的文本信息整合后的關(guān)鍵字集合)中任一關(guān)鍵字的所有記錄,從這些記錄中找到關(guān)鍵字權(quán)值最高的記錄,a的大小等于該條記錄對(duì)應(yīng)的關(guān)鍵字評(píng)價(jià)次數(shù)在對(duì)查詢(xún)圖像進(jìn)行標(biāo)注的所有關(guān)鍵字評(píng)價(jià)次數(shù)總和中所占比重對(duì)應(yīng)的量化值;I)對(duì)于注冊(cè)用戶(hù),注冊(cè)用戶(hù)的第η次操作的用戶(hù)可信度的平均值為:
權(quán)利要求
1.一種結(jié)合用戶(hù)評(píng)價(jià)和標(biāo)注的交互式圖像檢索方法,其特征在于具體步驟如下: 1)對(duì)圖像庫(kù)中的所有圖像進(jìn)行特征提取,離線(xiàn)生成圖像特征庫(kù)V; 2)用戶(hù)登錄,如果不登錄即為匿名用戶(hù); 3)用戶(hù)提交查詢(xún)信息,該信息可以是查詢(xún)圖像Qn,也可以是輸入的文本信息,或者是查詢(xún)圖像與文本信息同時(shí)存在; 4)檢索系統(tǒng)對(duì)查詢(xún)圖像Qn進(jìn)行特征提取,并對(duì)輸入的文本信息提取關(guān)鍵字; 5)檢索系統(tǒng)對(duì)查詢(xún)圖像Qn進(jìn)行特征相似度匹配SI; 6)檢索系統(tǒng)對(duì)提取的關(guān)鍵字進(jìn)行文本的匹配,即語(yǔ)義相關(guān)性S2; 7)檢索系統(tǒng)利用SI和S2計(jì)算總相似度S,返回S值最大的圖像集作為初始的檢索結(jié)果集合set (R); 8)同時(shí),檢索系統(tǒng)在關(guān)鍵字?jǐn)?shù)據(jù)表KL中查詢(xún)是否存在set(R)中各圖像名對(duì)應(yīng)的記錄,如果存在,則給出這些記錄對(duì)應(yīng)的關(guān)鍵字權(quán)值排序最高的前N(N > O)個(gè)關(guān)鍵字供用戶(hù)選擇; 9)用戶(hù)選擇系統(tǒng)提供的關(guān)鍵字K,同時(shí)也可以對(duì)圖像文本標(biāo)注T'; 10)系統(tǒng)根據(jù)用戶(hù)選擇的關(guān)鍵字和標(biāo)注的文本信息,組合新關(guān)鍵字K'; 11)同時(shí),用戶(hù)對(duì)結(jié)果圖像進(jìn)行“滿(mǎn)意”或“不滿(mǎn)意”評(píng)價(jià),對(duì)標(biāo)記為“滿(mǎn)意”的圖像,用關(guān)鍵字K,進(jìn)行文本標(biāo)注; 12)圖像檢索系統(tǒng)計(jì)算該用戶(hù)的用戶(hù)可信度a,并計(jì)算“滿(mǎn)意”圖像標(biāo)注的關(guān)鍵字權(quán)值W,保存到關(guān)鍵字信息表KL中,同時(shí),將注冊(cè)用戶(hù)的用戶(hù)信息保存到用戶(hù)信息數(shù)據(jù)表UL中,匿名用戶(hù)的用戶(hù)信息不需要保存,只需對(duì)KL進(jìn)行更新; 13)如果用戶(hù)對(duì)檢索結(jié)果不滿(mǎn)意,則可修改文本標(biāo)注T,重復(fù)步驟(3)-(12),直到用戶(hù)對(duì)檢索結(jié)果滿(mǎn)意為止,并給出最終的檢索結(jié)果。
2.根據(jù)權(quán)利要求1、4所述提取的圖像特征,其特征在于該特征包括:顏色特征、紋理特征、形狀特征、空間分布特征及局部不變性特征。
3.根據(jù)權(quán)利要求4所述的關(guān)鍵字,其特征在于提取的關(guān)鍵字可以是單一的,也可以是多個(gè)關(guān)鍵字。
4.根據(jù)權(quán)利要求1所述的圖像檢索方法,其特征在于:步驟7所述的圖像庫(kù)總相似度S的計(jì)算方法如下: S= aSl+i3S2,其中α+β = 1,α是基于特征相似度匹配在綜合檢索中所占的比重,β是基于文本匹配在綜合檢索中所占的比重。
5.根據(jù)權(quán)利要求1所述的圖像檢索方法,其特征在于:步驟8、12所述的關(guān)鍵字信息數(shù)據(jù)表KL的字段如下: 關(guān)鍵字、圖像名、關(guān)鍵字評(píng)價(jià)次數(shù)、關(guān)鍵字權(quán)值。
6.根據(jù)權(quán)利要求1所述的圖像檢索方法,其特征在于:步驟12中所述的用戶(hù)信息數(shù)據(jù)表UL的字段如下: 用戶(hù)名、密碼、用戶(hù)評(píng)價(jià)次數(shù)、用戶(hù)可信度。
7.根據(jù)權(quán)利要求1所述的圖像檢索方法,其特征在于:步驟12中所述的KL和UL的更新,具體規(guī)則如下: 1)KL的更新:若某次檢索過(guò)程取得的K中的某個(gè)關(guān)鍵字與用戶(hù)標(biāo)注為滿(mǎn)意的某個(gè)圖像名的對(duì)應(yīng)記錄不存在,則將該關(guān)鍵字、該圖像的圖像名、關(guān)鍵字評(píng)價(jià)次數(shù)(I次)和該關(guān)鍵字對(duì)應(yīng)該圖像名的關(guān)鍵字權(quán)值作為一條記錄存入KL中,若記錄存在,則將該條記錄的評(píng)價(jià)次數(shù)加I,并重新計(jì)算該關(guān)鍵字對(duì)應(yīng)記錄的關(guān)鍵字權(quán)值項(xiàng); 2)UL的更新:若進(jìn)行檢索的是注冊(cè)用戶(hù),則將該用戶(hù)對(duì)應(yīng)記錄的用戶(hù)評(píng)價(jià)次數(shù)加1,并重新計(jì)算該注冊(cè)用戶(hù)的用戶(hù)可信度。
8.根據(jù)權(quán)利要求1所述的圖像檢索方法,其特征在于:步驟12所述的用戶(hù)可信度a,對(duì)于匿名用戶(hù),它的可信度值只取決于本次操作;而對(duì)于注冊(cè)用戶(hù),它的用戶(hù)可信度是該用戶(hù)多次評(píng)價(jià)的用戶(hù)可信度的平均值;用戶(hù)某次操作的用戶(hù)可信度a的具體計(jì)算方法為:從KL中找到包含K(用戶(hù)選擇的關(guān)鍵字以及用戶(hù)輸入的文本信息整合后的關(guān)鍵字集合)中任一關(guān)鍵字的所有記錄,從這些記錄中找到關(guān)鍵字權(quán)值最高的記錄,a的大小等于該條記錄對(duì)應(yīng)的關(guān)鍵字評(píng)價(jià)次數(shù)在對(duì)查詢(xún)圖像進(jìn)行標(biāo)注的所有關(guān)鍵字評(píng)價(jià)次數(shù)總和中所占比重對(duì)應(yīng)的量化值; 1)對(duì)于注冊(cè)用戶(hù),注冊(cè)用戶(hù)的第η次操作的用戶(hù)可信度的平均值為:
9.根據(jù)權(quán)利要求8所述的某次用戶(hù)可信度計(jì)算時(shí),關(guān)鍵字的評(píng)價(jià)次數(shù)在對(duì)查詢(xún)圖像進(jìn)行標(biāo)注的所有關(guān)鍵字評(píng)價(jià)次數(shù)總和中所占比重對(duì)應(yīng)的量化值的量化方法可以是均勻量化,也可以是非均勻量化。
10.根據(jù)權(quán)利要求8所述的關(guān)鍵字信息數(shù)據(jù)表KL中的“關(guān)鍵字權(quán)值”字段,某一關(guān)鍵字記錄中的關(guān)鍵字權(quán)值計(jì)算方法如下:
全文摘要
本發(fā)明是一種結(jié)合用戶(hù)評(píng)價(jià)和標(biāo)注的交互式圖像檢索方法,屬于多媒體信息檢索領(lǐng)域。在本發(fā)明中,該方法利用了基于圖像的物理特征和文本相結(jié)合的綜合檢索方法,在檢索過(guò)程中,允許用戶(hù)對(duì)查詢(xún)圖像進(jìn)行文本信息描述,或者選擇系統(tǒng)提供的關(guān)鍵字,通過(guò)對(duì)檢索結(jié)果進(jìn)行“滿(mǎn)意”或“不滿(mǎn)意”的相關(guān)評(píng)價(jià),圖像檢索系統(tǒng)自動(dòng)對(duì)用戶(hù)標(biāo)記的相關(guān)滿(mǎn)意圖像進(jìn)行文本標(biāo)記,形成高層語(yǔ)義信息;隨著用戶(hù)的不斷使用,該系統(tǒng)會(huì)生成豐富的語(yǔ)義信息數(shù)據(jù)庫(kù)??紤]到不同用戶(hù)對(duì)同一圖片,同一用戶(hù)不同時(shí)間對(duì)同一圖片文本標(biāo)注的差異,本發(fā)明在生成語(yǔ)義信息數(shù)據(jù)庫(kù)的過(guò)程中結(jié)合了用戶(hù)的可信度。進(jìn)行檢索時(shí),對(duì)存在語(yǔ)義信息的查詢(xún)圖像采用基于特征和文本相結(jié)合的綜合檢索方式進(jìn)行檢索,提高了檢索結(jié)果的準(zhǔn)確度。本發(fā)明具有效率高、精確度高、交互方式友好的優(yōu)點(diǎn)。
文檔編號(hào)G06F17/30GK103164539SQ20131012803
公開(kāi)日2013年6月19日 申請(qǐng)日期2013年4月15日 優(yōu)先權(quán)日2013年4月15日
發(fā)明者黃祥林, 楊麗芳, 曾南子, 韓卯輝 申請(qǐng)人:中國(guó)傳媒大學(xué)