圖像中的目標(biāo)物的識別方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機(jī)技術(shù)領(lǐng)域,尤其涉及一種圖像中的目標(biāo)物的識別方法及裝置。
【背景技術(shù)】
[0002]數(shù)字圖像理解包含幾個層次,如圖像分割、邊緣檢測、圖像目標(biāo)檢測和識別等。其中圖像目標(biāo)檢測和識別是用來識別圖像中的人或物體,對圖像進(jìn)行類別標(biāo)注(如,將圖像中區(qū)域分別標(biāo)注為“天空”、“海灘”、“太陽”等),其中一類最典型的問題是識別圖像中某一類型的物體,如CaltechlOl數(shù)據(jù)集即為類似的問題。圖像目標(biāo)檢測和識別是計算機(jī)視覺領(lǐng)域的核心問題之一,也是人工智能領(lǐng)域的重要突破口之一。
[0003]目前的目標(biāo)檢測方法多是通過固定某一類物體,通過對其形狀或邊緣(甚至bounding box)進(jìn)行建模,通過掃描圖像中物體的位置并進(jìn)行擬合得到。邊緣檢測可以使用Canny算子等方法獲得;形狀或邊緣建模和跟蹤可以使用Condensat1n、Kalman filter或Meanshift等方法獲得。
[0004]由于目標(biāo)檢測多對于已知一類物體(如人臉、人體、某類特定物體等)進(jìn)行判斷,對未知物體的理解還沒有涉及。如果新來一個目標(biāo)沒有出現(xiàn)在需要跟蹤的對象里面,則很難進(jìn)行判斷。
【發(fā)明內(nèi)容】
[0005]本發(fā)明實(shí)施例提供一種圖像中的目標(biāo)物的識別方法及裝置,可對未知分類的目標(biāo)物進(jìn)行識別。
[0006]本發(fā)明第一方面提供一種圖像中的目標(biāo)物的識別方法,其可包括:
[0007]從圖像中提取特征數(shù)據(jù),并將所述提取的特征數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的表達(dá);
[0008]根據(jù)所述統(tǒng)一表達(dá)后的特征數(shù)據(jù)和歷史聚類結(jié)果,對圖像中的特征進(jìn)行自動聚類;
[0009]對于所述自動聚類結(jié)果中包括的已知的分類,歸類為對應(yīng)的已知分類,以對所述圖像中的已知目標(biāo)物進(jìn)行識別;
[0010]對于所述自動聚類結(jié)果中包括的未知分類,通過機(jī)器學(xué)習(xí)的方式訓(xùn)練分類器,以對所述圖像中的未知目標(biāo)物進(jìn)行識別。
[0011]結(jié)合第一方面,在第一種可行的實(shí)施方式中,所述對于所述自動聚類結(jié)果中包括的未知分類,通過機(jī)器學(xué)習(xí)的方式訓(xùn)練分類器,以對所述圖像中的未知目標(biāo)物進(jìn)行識別,可包括:
[0012]對于所述自動聚類結(jié)果中包括的未知的分類,進(jìn)行類別標(biāo)注;
[0013]通過遷移學(xué)習(xí),對所述帶有類別標(biāo)注的未知的分類訓(xùn)練分類器,以對所述圖像中的未知目標(biāo)物進(jìn)行識別。
[0014]結(jié)合第一方面的第一種可行的實(shí)施方式,在第二種可行的實(shí)施方式中,所述進(jìn)行類別標(biāo)注,包括:
[0015]通過人機(jī)交互的方式,獲取用戶輸入的類別標(biāo)注信息;
[0016]或者,從互聯(lián)網(wǎng)查找與所述未知的分類相似性達(dá)到指定要求的圖像,并通過互聯(lián)網(wǎng)對所述圖像的標(biāo)注信息,對所述未知的分類進(jìn)行類別標(biāo)注。
[0017]結(jié)合第一方面的第一種可行的實(shí)施方式,在第三種可行的實(shí)施方式中,通過遷移學(xué)習(xí),對所述帶有類別標(biāo)注的未知的分類訓(xùn)練分類器,以對所述圖像中的未知目標(biāo)物進(jìn)行識別,包括:
[0018]根據(jù)自動聚類的結(jié)果,對已有的分類器進(jìn)行更新;
[0019]使用遷移學(xué)習(xí)方法和所述更新后的已有的分類器為所述帶有類別標(biāo)注的未知的分類訓(xùn)練分類器,以對所述圖像中的未知目標(biāo)物進(jìn)行識別。
[0020]結(jié)合第一方面至第一方面的第三種可行的實(shí)施方式中任一種,在第四種可行的實(shí)施方式中,所述對圖像中的特征進(jìn)行自動聚類之后,還包括:
[0021 ] 根據(jù)所述自動聚類結(jié)果,更新所述歷史聚類結(jié)果。
[0022]本發(fā)明第二方面提供一種圖像處理裝置,其可包括:
[0023]特征獲取模塊,用于從圖像中提取特征數(shù)據(jù),并將所述提取的特征數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的表達(dá);
[0024]自動聚類模塊,用于根據(jù)所述特征獲取模塊統(tǒng)一表達(dá)后的特征數(shù)據(jù)和歷史聚類結(jié)果,對圖像中的特征進(jìn)行自動聚類;
[0025]第一分類模塊,用于對于所述自動聚類結(jié)果中包括的已知的分類,歸類為對應(yīng)的已知分類,以對所述圖像中的已知目標(biāo)物進(jìn)行識別;
[0026]第二分類模塊,用于對于所述自動聚類結(jié)果中包括的未知分類,通過機(jī)器學(xué)習(xí)的方式訓(xùn)練分類器,以對所述圖像中的未知目標(biāo)物進(jìn)行識別。
[0027]結(jié)合第二方面,在第一種可行的實(shí)施方式中,所述第二分類模塊,包括:
[0028]標(biāo)注模塊,用于對于所述自動聚類結(jié)果中包括的未知的分類,進(jìn)行類別標(biāo)注;
[0029]分類學(xué)習(xí)模塊,用于通過遷移學(xué)習(xí),對所述帶有類別標(biāo)注的未知的分類訓(xùn)練分類器,以對所述圖像中的未知目標(biāo)物進(jìn)行識別。
[0030]結(jié)合第二方面的第一種可行的實(shí)施方式,在第二種可行的實(shí)施方式中,標(biāo)注模塊具體用于通過人機(jī)交互的方式,獲取用戶輸入的類別標(biāo)注信息;或者,從互聯(lián)網(wǎng)查找與所述未知的分類相似性達(dá)到指定要求的圖像,并通過互聯(lián)網(wǎng)對所述圖像的標(biāo)注信息,對所述未知的分類進(jìn)行類別標(biāo)注。
[0031]結(jié)合第二方面的第一種可行的實(shí)施方式,在第三種可行的實(shí)施方式中,所述分類學(xué)習(xí)模塊具體用于根據(jù)自動聚類的結(jié)果,對已有的分類器進(jìn)行更新,并使用遷移學(xué)習(xí)方法和所述更新后的已有的分類器為所述帶有類別標(biāo)注的未知的分類訓(xùn)練分類器,以對所述圖像中的未知目標(biāo)物進(jìn)行識別。
[0032]結(jié)合第二方面至第二方面的第三種可行的實(shí)施方式中任一種,在第四種可行的實(shí)施方式中,所述自動聚類模塊還用于根據(jù)所述自動聚類結(jié)果,更新所述歷史聚類結(jié)果。
[0033]由上可見,在本發(fā)明的一些可行的實(shí)施方式中,從圖像中提取特征數(shù)據(jù),并對所述提取的特征數(shù)據(jù)進(jìn)行表達(dá)處理;根據(jù)所述表達(dá)處理后的特征數(shù)據(jù)和歷史聚類結(jié)果,對圖像中的特征進(jìn)行自動聚類;對于所述自動聚類結(jié)果中包括的已知的分類,歸類為對應(yīng)的已知分類,以對所述圖像中的已知目標(biāo)物進(jìn)行識別;對于所述自動聚類結(jié)果中包括的未知分類,通過機(jī)器學(xué)習(xí)的方式訓(xùn)練分類器,以對所述圖像中的未知目標(biāo)物進(jìn)行識別。由此,本發(fā)明實(shí)施例可在待識別的圖像中包含不屬于已有類別的目標(biāo)物時,對不屬于已有類別的目標(biāo)物進(jìn)行學(xué)習(xí),得到新的分類器,從而實(shí)現(xiàn)對未知分類的目標(biāo)物進(jìn)行識別。
【附圖說明】
[0034]圖1為本發(fā)明的圖像中的目標(biāo)物的識別方法的一實(shí)施例的流程示意圖;
[0035]圖2為圖1中步驟S104的一實(shí)施例的流程示意圖;
[0036]圖3為本發(fā)明的圖像處理裝置的一實(shí)施例的結(jié)構(gòu)組成示意圖;
[0037]圖4為本發(fā)明圖3中的第二分類模塊的一實(shí)施例的結(jié)構(gòu)組成示意圖;
[0038]圖5為本發(fā)明的圖像處理裝置的另一實(shí)施例的結(jié)構(gòu)組成示意圖。
【具體實(shí)施方式】
[0039]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對本發(fā)明作進(jìn)一步的詳細(xì)描述。
[0040]圖1為本發(fā)明的圖像中的目標(biāo)物的識別方法的一實(shí)施例的流程示意圖。如圖1所示,其可包括以下步驟:
[0041]S101,從圖像中提取特征數(shù)據(jù),并將所述提取的特征數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的表達(dá)。
[0042]在一些可行的實(shí)施方式中,本發(fā)明實(shí)施例所述的圖像的特征數(shù)據(jù)包括但不限于:幾何特征、形狀特征、顏色特征、紋理特征等。
[0043]具體實(shí)現(xiàn)中,步驟SlOl中,可采用Canny算子、拉普拉斯算子或拉普拉斯高斯(Laplacian of Gassian, LOG)算子提取圖像的邊緣特征;采用奇異值分解(SingularValue Decomposit1n, SVD)算法提取圖像的紋理特征;采用方向梯度直方圖(Histogramof Oriented Gradient, HOG)描述子或尺度不變特征轉(zhuǎn)換(Scale-1nvariant FeatureTransform, SIFT)算法得到圖像的特征向量;采用主成分分析(Principal ComponentAnalysis,PCA)算法、線性判別分析(Linear Discriminant Analysis,LDA)算法或獨(dú)立成分分析(Independent components analysis, I CA)算法等提取圖像的全局或局部特征等。以達(dá)到去噪、提高識別效果的作用。例如,PCA是通過使用一個低維的特征向量來和投影矩陣來重建樣本,通過最小化重建誤差來對特征向量進(jìn)行建模。同時,它是把方差大的維度留下,方差小的維度去掉。去掉方差小的維度可以幫助樣本空間減小不確定性,留下方差大的維度可以保持樣本和樣本之間的局部距離。
[0044]S102,根據(jù)所述統(tǒng)一表達(dá)后的特征數(shù)據(jù)和歷史聚類結(jié)果,對圖像中的