本發(fā)明涉及圖像處理,具體而言,涉及一種基于itti算法的感興趣區(qū)域檢測(cè)方法、設(shè)備和介質(zhì)。
背景技術(shù):
1、在圖像處理和計(jì)算機(jī)視覺(jué)領(lǐng)域,感興趣區(qū)域(region?ofinterest,roi)檢測(cè)是一項(xiàng)基本而關(guān)鍵的技術(shù),它旨在從復(fù)雜的圖像中自動(dòng)識(shí)別并突出顯示具有特定重要性或感興趣的區(qū)域。這項(xiàng)技術(shù)廣泛應(yīng)用于多種領(lǐng)域,包括醫(yī)療成像、視頻監(jiān)控、自動(dòng)駕駛、內(nèi)容推薦系統(tǒng)以及機(jī)器人視覺(jué)系統(tǒng)等。
2、傳統(tǒng)的感興趣區(qū)域檢測(cè)方法往往依賴于特定的圖像特征提取技術(shù),如邊緣檢測(cè)、顏色分析和紋理識(shí)別等。這些方法通過(guò)預(yù)設(shè)的算法規(guī)則對(duì)特征進(jìn)行簡(jiǎn)單的線性組合或加權(quán)求和,以嘗試突出感興趣區(qū)域。然而,這些傳統(tǒng)方法面臨著多個(gè)限制,主要是它們對(duì)于輸入圖像的適應(yīng)性和靈活性不足,特別是在面對(duì)復(fù)雜場(chǎng)景和動(dòng)態(tài)環(huán)境時(shí),其性能往往不穩(wěn)定。
3、具體地,在傳統(tǒng)的線性融合方法中通常依賴于預(yù)設(shè)的參數(shù)和規(guī)則,這限制了其在面對(duì)復(fù)雜或動(dòng)態(tài)變化的環(huán)境時(shí)的適應(yīng)能力。當(dāng)圖像條件(如光照、背景復(fù)雜度)發(fā)生變化時(shí),固定的融合策略可能無(wú)法有效地突出真正的感興趣區(qū)域。而且線性融合方法在處理含有多個(gè)特征維度的數(shù)據(jù)時(shí),很難捕捉和利用特征之間的復(fù)雜關(guān)系,因?yàn)樗鼈兺ǔ:雎粤颂卣鏖g的交互作用,這在某些情況下可能導(dǎo)致關(guān)鍵信息的丟失。因?yàn)檫@些方法通常是在特定的數(shù)據(jù)集上開(kāi)發(fā)和優(yōu)化的,其參數(shù)和權(quán)重設(shè)置不具備自我調(diào)整的能力,這使得它們?cè)趹?yīng)用于未見(jiàn)過(guò)的新場(chǎng)景或數(shù)據(jù)時(shí)表現(xiàn)得不夠魯棒,容易出現(xiàn)性能下降。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明旨在至少解決現(xiàn)有技術(shù)中存在的技術(shù)問(wèn)題之一。
2、為此,本發(fā)明第一方面提供了一種基于itti算法的感興趣區(qū)域檢測(cè)方法。
3、本發(fā)明第二方面提供了一種計(jì)算機(jī)設(shè)備。
4、本發(fā)明第三方面提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
5、本發(fā)明提供了一種基于itti算法的感興趣區(qū)域檢測(cè)方法,包括:
6、接收輸入圖像,并基于多尺度提取該圖像的顏色特征圖、亮度特征圖和方向特征圖;
7、計(jì)算每個(gè)特征圖的中心-邊緣差異,并使用歸一化算子進(jìn)行處理,以增強(qiáng)圖像中的局部對(duì)比度和特征顯著性;
8、將所有將經(jīng)過(guò)歸一化算子處理的特征圖輸入至卷積神經(jīng)網(wǎng)絡(luò)中,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)選擇最有效的結(jié)合方式對(duì)各特征圖進(jìn)行結(jié)合,進(jìn)而生成顯著圖;其中,所述最有效的結(jié)合方式包括為各特征圖分配最優(yōu)權(quán)重;
9、通過(guò)對(duì)所述顯著圖進(jìn)行閾值處理,確定感興趣區(qū)域。
10、根據(jù)本發(fā)明上述技術(shù)方案的基于itti算法的感興趣區(qū)域檢測(cè)方法,還可以具有以下附加技術(shù)特征:
11、在上述技術(shù)方案中,所述卷積神經(jīng)網(wǎng)絡(luò)包括:
12、多個(gè)輸入層,每種特征圖通過(guò)獨(dú)立的輸入層輸入到網(wǎng)絡(luò)中;
13、多個(gè)卷積層,用于提取和融合來(lái)自不同特征圖的信息;所述卷積層還用于學(xué)習(xí)在特征合并過(guò)程中為每種特征分配權(quán)重;
14、池化層,用于降低特征的空間維度;
15、全連接層,將融合的特征映射到輸出層,通過(guò)輸出層預(yù)測(cè)圖像中感興趣區(qū)域的顯著圖。
16、在上述技術(shù)方案中,所述卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法包括:
17、獲取標(biāo)注過(guò)的圖像數(shù)據(jù)集,其中每張圖像都標(biāo)注了感興趣區(qū)域;
18、對(duì)圖像數(shù)據(jù)集中的每張圖像在多尺度提取其顏色特征圖、亮度特征圖和方向特征圖;
19、將各特征圖輸入到卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練;通過(guò)卷積層、激活函數(shù)、池化層和全連接層,得到感興趣區(qū)域預(yù)測(cè)結(jié)果;
20、根據(jù)損失函數(shù)計(jì)算感興趣區(qū)域預(yù)測(cè)結(jié)果與真實(shí)標(biāo)注之間的損失;
21、使用反向傳播算法計(jì)算損失函數(shù)相對(duì)于每個(gè)權(quán)重的梯度;
22、根據(jù)梯度和學(xué)習(xí)率更新網(wǎng)絡(luò)權(quán)重。
23、在上述技術(shù)方案中,所述損失函數(shù)采用像素級(jí)的交叉熵?fù)p失函數(shù)。
24、在上述技術(shù)方案中,所述根據(jù)梯度和學(xué)習(xí)率更新網(wǎng)絡(luò)權(quán)重包括使用adam優(yōu)化器進(jìn)行訓(xùn)練,調(diào)整網(wǎng)絡(luò)權(quán)重,最小化損失函數(shù)。
25、在上述技術(shù)方案中,所述卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法還包括:
26、在獨(dú)立的驗(yàn)證數(shù)據(jù)集上測(cè)試模型性能,監(jiān)控準(zhǔn)確率;
27、根據(jù)測(cè)試結(jié)果調(diào)整網(wǎng)絡(luò)架構(gòu)或訓(xùn)練參數(shù)。
28、在上述技術(shù)方案中,所述接收輸入圖像,并基于多尺度提取該圖像的顏色特征圖、亮度特征圖和方向特征圖,包括:
29、利用圖像金字塔將輸入圖像處理為多個(gè)空間尺度表示;多個(gè)空間尺度下圖像的分辨率不同;
30、利用線性濾波器提取輸入圖像在每個(gè)空間尺度下的顏色特征、亮度特征和方向特征,以分別生成顏色特征圖、亮度特征圖和方向特征圖。
31、在上述技術(shù)方案中,所述對(duì)所述顯著圖進(jìn)行閾值處理包括:應(yīng)用wta機(jī)制,選擇顯著圖中顯著性最高的區(qū)域作為感興趣區(qū)域,并實(shí)施抑制返回,以抑制在后續(xù)處理中已被識(shí)別為顯著的區(qū)域的再次識(shí)別,從而允許系統(tǒng)重點(diǎn)處理其他未被識(shí)別的顯著區(qū)域。
32、本發(fā)明還提供了一種計(jì)算機(jī)設(shè)備,包括處理器和存儲(chǔ)器,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序被所述處理器加載并執(zhí)行時(shí)實(shí)現(xiàn)如上述技術(shù)方案中任一項(xiàng)所述的基于itti算法的感興趣區(qū)域檢測(cè)方法。
33、本發(fā)明又提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有程序,當(dāng)所述程序被處理器加載時(shí)實(shí)現(xiàn)如上述技術(shù)方案中任一項(xiàng)所述的基于itti算法的感興趣區(qū)域檢測(cè)方法。
34、綜上所述,由于采用了上述技術(shù)特征,本發(fā)明的有益效果是:
35、本發(fā)明提出的基于itti算法的感興趣區(qū)域檢測(cè)方法中基于卷積神經(jīng)網(wǎng)絡(luò)的特征權(quán)重分配方式進(jìn)行特征圖融合,相較于傳統(tǒng)的線性融合方式,在感興趣區(qū)域檢測(cè)的效率和準(zhǔn)確性上帶來(lái)了顯著的優(yōu)勢(shì)。
36、具體地,與傳統(tǒng)的線性融合方式相比,卷積神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)學(xué)習(xí)和調(diào)整各特征圖的融合權(quán)重。這種動(dòng)態(tài)權(quán)重分配機(jī)制根據(jù)訓(xùn)練數(shù)據(jù)自動(dòng)優(yōu)化權(quán)重,使得模型能夠更精確地反映不同特征對(duì)感興趣區(qū)域識(shí)別的貢獻(xiàn)度,從而提升整體的檢測(cè)準(zhǔn)確性。
37、卷積神經(jīng)網(wǎng)絡(luò)通過(guò)學(xué)習(xí)大量樣本,能夠掌握各種環(huán)境下的特征融合策略,使得該方法不僅適用于訓(xùn)練時(shí)見(jiàn)過(guò)的圖像類型,也能良好地適應(yīng)新的、未見(jiàn)過(guò)的環(huán)境或場(chǎng)景,顯著提升模型的泛化能力。
38、該方法可以根據(jù)具體應(yīng)用需求調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)或訓(xùn)練策略(如層數(shù)、濾波器大小、激活函數(shù)等),以適應(yīng)不同的感興趣區(qū)域檢測(cè)任務(wù),顯示出高度的靈活性和可配置性。
39、卷積神經(jīng)網(wǎng)絡(luò)天生支持并行處理,這使得特征融合過(guò)程可以在現(xiàn)代gpu上高效執(zhí)行,大幅度減少計(jì)算時(shí)間,特別是對(duì)于高分辨率圖像或?qū)崟r(shí)視頻流的處理,這一優(yōu)勢(shì)尤為明顯。
40、卷積神經(jīng)網(wǎng)絡(luò)通過(guò)整合多個(gè)特征圖并自動(dòng)調(diào)整權(quán)重,對(duì)輸入圖像的小幅擾動(dòng)或噪聲具有更好的容忍性。這種魯棒性對(duì)于實(shí)際應(yīng)用中常見(jiàn)的圖像質(zhì)量問(wèn)題至關(guān)重要。
41、本發(fā)明的附加方面和優(yōu)點(diǎn)將在下面的描述部分中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。
1.一種基于itti算法的感興趣區(qū)域檢測(cè)方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于itti算法的感興趣區(qū)域檢測(cè)方法,其特征在于,所述卷積神經(jīng)網(wǎng)絡(luò)包括:
3.根據(jù)權(quán)利要求2所述的基于itti算法的感興趣區(qū)域檢測(cè)方法,其特征在于,所述卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法包括:
4.根據(jù)權(quán)利要求3所述的基于itti算法的感興趣區(qū)域檢測(cè)方法,其特征在于,所述損失函數(shù)采用像素級(jí)的交叉熵?fù)p失函數(shù)。
5.根據(jù)權(quán)利要求3所述的基于itti算法的感興趣區(qū)域檢測(cè)方法,其特征在于,所述根據(jù)梯度和學(xué)習(xí)率更新網(wǎng)絡(luò)權(quán)重包括使用adam優(yōu)化器進(jìn)行訓(xùn)練,調(diào)整網(wǎng)絡(luò)權(quán)重,最小化損失函數(shù)。
6.根據(jù)權(quán)利要求3所述的基于itti算法的感興趣區(qū)域檢測(cè)方法,其特征在于,所述卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法還包括:
7.根據(jù)權(quán)利要求1所述的基于itti算法的感興趣區(qū)域檢測(cè)方法,其特征在于,所述接收輸入圖像,并基于多尺度提取該圖像的顏色特征圖、亮度特征圖和方向特征圖,包括:
8.根據(jù)權(quán)利要求1所述的基于itti算法的感興趣區(qū)域檢測(cè)方法,其特征在于,所述對(duì)所述顯著圖進(jìn)行閾值處理包括:應(yīng)用wta機(jī)制,選擇顯著圖中顯著性最高的區(qū)域作為感興趣區(qū)域,并實(shí)施抑制返回,以抑制在后續(xù)處理中已被識(shí)別為顯著的區(qū)域的再次識(shí)別,從而允許系統(tǒng)重點(diǎn)處理其他未被識(shí)別的顯著區(qū)域。
9.一種計(jì)算機(jī)設(shè)備,其特征在于,包括處理器和存儲(chǔ)器,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序被所述處理器加載并執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至8中任一項(xiàng)所述的基于itti算法的感興趣區(qū)域檢測(cè)方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,存儲(chǔ)有程序,當(dāng)所述程序被處理器加載時(shí)實(shí)現(xiàn)如權(quán)利要求1至8中任一項(xiàng)所述的基于itti算法的感興趣區(qū)域檢測(cè)方法。