本發(fā)明涉及一種機(jī)器視覺的餐具檢測和識(shí)別方法,尤其涉及一種基于多視角圖模型的檢測和識(shí)別方法。
背景技術(shù):
隨著服務(wù)機(jī)器人硬件成本的下降和相關(guān)理論技術(shù)的不斷成熟以及人們的需求,餐廳服務(wù)機(jī)器人已經(jīng)開始應(yīng)用于餐廳幫助人們回收餐具。餐廳服務(wù)機(jī)器人需要應(yīng)用計(jì)算機(jī)視覺技術(shù),實(shí)時(shí)檢測并識(shí)別出餐桌中不同的餐具類別。并根據(jù)餐具中的內(nèi)容(如有無食物),進(jìn)行后續(xù)處理(如收拾餐具)任務(wù)。餐具檢測和識(shí)別主要根據(jù)采集圖像中餐具、食物的位置和輪廓,對(duì)餐具、食物進(jìn)行分割,并識(shí)別出其具體類別。目前,基于計(jì)算機(jī)視覺的餐具、食物檢測和識(shí)別方法主要為單視角檢測和識(shí)別,存在檢測不準(zhǔn)確和識(shí)別率低等問題,因此,本發(fā)明提出基于多視角圖模型的餐具檢測和識(shí)別方法,用來提高檢測效果和識(shí)別率。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供了一種基于多視角圖模型的餐具檢測和識(shí)別方法,利用多視角圖模型的學(xué)習(xí)框架將餐具檢測和識(shí)別結(jié)合成統(tǒng)一的框架,首先利用多視角圖模型檢測圖像中的餐具,然后利用多視角特征融合學(xué)習(xí)新特征進(jìn)行餐具的識(shí)別。
采用多視角圖模型進(jìn)行圖像的餐具檢測,利用超像素點(diǎn)在多個(gè)視角下的特征構(gòu)建圖模型,然后再學(xué)習(xí)每個(gè)超像素點(diǎn)是餐具所在位置的置信度,從而更準(zhǔn)確的檢測出餐具。采用多視角融合算法進(jìn)行特征融合,構(gòu)建更強(qiáng)區(qū)分性的特征,有利于提高識(shí)別率。在多視角圖模型構(gòu)建中,利用指數(shù)型權(quán)值參數(shù),避免出現(xiàn)多視角的權(quán)值系數(shù)為零,使得各個(gè)視角特征能夠相互補(bǔ)充。在餐具檢測中,既考慮了餐具種子節(jié)點(diǎn)的作用,同時(shí)考慮了背景種子節(jié)點(diǎn)的作用,以加大背景和餐具的差異性。在餐具分割過程中,沒有直接在彩色圖像中提取餐具,而是先在二值圖像上確定餐具的最小外接矩,然后在對(duì)應(yīng)的彩色圖像上進(jìn)行分割,從而降低算法復(fù)雜度、提高分割效果。
附圖說明
為了更清楚的說明本發(fā)明的實(shí)施例或現(xiàn)有技術(shù)的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖做一簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明基于多視角圖模型的餐具檢測算法流程圖
圖2為本發(fā)明基于多視角特征融合的餐具識(shí)別流程圖
圖3為本發(fā)明餐具分割示意圖
圖4為本發(fā)明餐具檢測效果示意圖
圖5為本發(fā)明算法和單視角排序算法多個(gè)餐具時(shí)檢測效果對(duì)比示意圖
具體實(shí)施方式
為使本發(fā)明的實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚完整的描述:
本發(fā)明縮略語和關(guān)鍵術(shù)語定義:
slic:simplelineariterativeclustering,簡單線性迭代聚類算法
svm:supportvectormachine,支持向量機(jī)
hsv:huesaturationvalue,hsv顏色模型
mds:multipledimensionalscaling,多維縮放
如圖1~5所示:一種基于多視角圖模型的餐具檢測和識(shí)別方法,主要包括以下步驟:
圖像的超像素分割是將圖像中大量的像素點(diǎn)分割成少量的整體性超像素點(diǎn),這種分割也是對(duì)圖像內(nèi)容的一種初步分割過程。
simplelineariterativeclustering(slic)算法是一種簡單有效的線性迭代聚類算法,slic算法采用接近人眼視覺感知特性的lab顏色空間進(jìn)行超像素點(diǎn)的分割,定義圖像中像素點(diǎn)的總個(gè)數(shù)為n,超像素分割的步驟為:
(1)先將整幅圖像平均分割成k個(gè)部分,每部分均為s×s的小區(qū)域,其中,
(2)初始化每個(gè)小區(qū)域的中心為ck=[lk,ak,bk,xk,yk]t,其中(xk,yk)為該小區(qū)域中梯度最小的點(diǎn)即f(x+1,y)+f(x,y+1)-2f(x,y)最小的點(diǎn);
(3)根據(jù)式
(4)當(dāng)新的中心ck與舊的中心ck的位置距離小于一個(gè)很小的閾值時(shí)輸出超像素分割的結(jié)果,否則重復(fù)步驟(2)~(3);
本發(fā)明使用hsv顏色直方圖[4]和顏色矩[4]這兩種特征分別構(gòu)建超像素點(diǎn)間的多視角圖模型。
對(duì)于
以圖像中所有的超像素點(diǎn)為圖模型的節(jié)點(diǎn),通過超像素點(diǎn)間的位置關(guān)系確定節(jié)點(diǎn)間是否存在連接邊。
此外,為了更好的利用圖像的邊緣信息,規(guī)定圖像邊緣部分的超像素點(diǎn)都是互相連接的。
以此策略確定出圖模型的所有連接邊,而邊權(quán)值則可以通過超像素點(diǎn)之間特征向量的高斯核函數(shù)進(jìn)行計(jì)算:
其中,
在第一階段的目標(biāo)檢測過程中,假設(shè)圖像邊緣的超像素點(diǎn)是背景信息,所以在該階段的相似性學(xué)習(xí)過程中,設(shè)定初始的相似性值y=[y1,y2,…,yn]t。
設(shè)定圖像上邊界的超像素節(jié)點(diǎn)對(duì)應(yīng)的初始相似性值為1;其它所有的超像素節(jié)點(diǎn)設(shè)置為0。假設(shè)多視角圖模型學(xué)習(xí)得到的相似性值為f,則多視角排序算法的目標(biāo)優(yōu)化函數(shù)可以表示成:
該式可以進(jìn)一步轉(zhuǎn)化成如下的矩陣形式
其中,α(t)是每個(gè)視角下近鄰矩陣的權(quán)重系數(shù),參數(shù)μ>0是平衡目標(biāo)函數(shù)中平滑約束項(xiàng)和擬合約束項(xiàng),||·||2表示向量的2范數(shù),tr(·)表示矩陣的跡。l(t)=d(t)-w(t)是第t個(gè)視角下近鄰矩陣所對(duì)應(yīng)的的拉普拉斯矩陣,
對(duì)于該多視角圖模型的求解過程可以通過分別迭代求解其中的兩個(gè)參數(shù)f和α,在迭代求解過程中先初始化這兩個(gè)參數(shù),先固定參數(shù)α,求解更新參數(shù)f,再固定參數(shù)f,求解更新參數(shù)α,以此迭代,直到參數(shù)f與上一次迭代的結(jié)果小于給定的閾值。求得f和α的解析解,采用迭代的方法進(jìn)行求解,具體的迭代方法如下:
(1)計(jì)算每個(gè)視角下的近鄰矩陣w(t)(1≤t≤m),初始化α(t)=1/m,f=y(tǒng),
(2)當(dāng)
(3)
(4)利用
更新近鄰矩陣的權(quán)值參數(shù)α;
(5)返回相似性得分向量f。
其中,輸入為通過hsv、顏色矩獲得的近鄰矩陣w(t)和初始相似性特征向量y=[y1,y2,…,yn]t;若yi為上邊界的節(jié)點(diǎn),則初始相似值為1,其它所有的超像素節(jié)點(diǎn)設(shè)置為0。參數(shù)γ用來調(diào)節(jié)各個(gè)視角之間的權(quán)重,參數(shù)μ為調(diào)節(jié)式
利用上述方法迭代得到超像素點(diǎn)之間的相似性值為ft,第i個(gè)超像素點(diǎn)為目標(biāo)的相似值可以表示成:
st(i)=1-ft(i),i=1,2,…,n(4)
同樣的,可以分別將圖像的下邊界、左邊界和右邊界作為背景信息節(jié)點(diǎn),設(shè)定相應(yīng)的初始相似性特征向量,然后再利用多視角圖模型的排序算法進(jìn)行學(xué)習(xí),依次分別確定出其對(duì)應(yīng)的目標(biāo)相似值sb(i)、sl(i)和sr(i),然后將這四個(gè)相似值進(jìn)行整合得到整體的檢測結(jié)果:
s1(i)=st(i)sb(i)sl(i)sr(i),i=1,2,…,n(5)
在第二階段的目標(biāo)檢測過程中,設(shè)定兩個(gè)所述相似性f閾值t1和t2,設(shè)定t1為界定為餐具的相似度閾值,t2為界定為背景的相似度閾值,初始的相似性向量
其中i=1,2,…,n,對(duì)該向量進(jìn)行標(biāo)準(zhǔn)化生成初始的相似性值。
然后再利用式(3)中的方法學(xué)習(xí)超像素之間的相似性
將第二次檢測的結(jié)果進(jìn)行二值化,閾值設(shè)定為所有超像素點(diǎn)相似性值的平均值,大于平均值的超像素點(diǎn)取為1,小于平均值的取為0,得到二值化圖像。將二值化圖像與輸入圖像相乘,得到餐具檢測圖像。比如:根據(jù)f值的大小,餐具對(duì)應(yīng)的種子點(diǎn)t1比較大,如果圖像灰度值范圍是0~1,那么這個(gè)t1大概是0.8左右,根據(jù)這個(gè)閾值設(shè)定,重新排序之后f大的那部分就可以認(rèn)為是餐具。
對(duì)餐具檢測圖像進(jìn)行圖像分割得到最終的待識(shí)別的餐具圖像,餐具分割的步驟為:
(1)在二值圖像上用區(qū)域增長法確定連通域,并確定每個(gè)連通域的最左、最右、最上、最下四個(gè)點(diǎn),并以這四個(gè)點(diǎn)確定連通域的外接矩形(矩形邊平行于坐標(biāo)軸);
(2)記錄每個(gè)連通區(qū)域外接矩的坐標(biāo),并在對(duì)應(yīng)的彩色圖像中提取外接矩內(nèi)的餐具;
圖像中餐具的識(shí)別
圖像中的餐具識(shí)別的作用是能夠確定餐具的具體類別,通過已訓(xùn)練好的svm分類器對(duì)該餐具進(jìn)行測試,輸出該餐具的具體類別標(biāo)簽。
定義n1個(gè)圖像樣本在m1個(gè)不同視角下的視覺特征分別記為
選擇利用hsv顏色直方圖和mds[5]特征進(jìn)行不同視角下的特征提取。
以每個(gè)圖像作為圖模型的節(jié)點(diǎn),圖像特征向量之間的距離作為圖模型的連接邊,建立多視角圖模型,其中圖模型連接邊的權(quán)值可以通過高斯核函數(shù)進(jìn)行計(jì)算:
其中,
假設(shè)融合后的新特征是y,比如一個(gè)檢測目標(biāo)餐具的多個(gè)視角的特征的集合,對(duì)于多視角特征的融合學(xué)習(xí),需要考慮到不同視角在特征描述中的重要性。
因此,為了平衡這些近鄰關(guān)系在特征融合過程中的作用,為每個(gè)視角下的近鄰關(guān)系
式(9)能夠進(jìn)一步轉(zhuǎn)換成如下矩陣的形式:
由于多視角特征融合算法中包含兩個(gè)參數(shù)
對(duì)優(yōu)化函數(shù)
由于拉普拉斯矩陣
其中,矩陣
(ky-fan定理):如果矩陣m∈rn×n是對(duì)稱矩陣,其前k個(gè)最小特征值分別λ1≤λ2≤...≤λk
這些特征值對(duì)應(yīng)的特征向量是u=[u1,u2,…,uk]那么就有
而且,z的最優(yōu)解可以表示成z*=uq,其中q是任意的正交矩陣。
下面用迭代的方法求參數(shù)
(1)計(jì)算每個(gè)視角下的近鄰矩陣
(2)重復(fù)步驟(3)和步驟(4)直到收斂;
(3)計(jì)算
(4)利用
多視角特征融合方法主要是為了得到獨(dú)特性和區(qū)分性更強(qiáng)的圖像特征,然后利用訓(xùn)練集圖像的融合特征訓(xùn)練一個(gè)svm[6]分類模型。
svm是通過尋找最優(yōu)的線性超平面,使得所有樣本到該超平面有盡可能大的幾何間隔,因?yàn)楫?dāng)超平面距離數(shù)據(jù)點(diǎn)的間隔越大時(shí),分類結(jié)果的確信度就越大。為了尋找這樣的超平面函數(shù)wtx+b=0,這種最大間隔分類器的目標(biāo)函數(shù)可以定義為:
式(15)中的
對(duì)上式求解可得
svm的具體訓(xùn)練過程為:
(1)取訓(xùn)練集中的任意兩類物體樣本
(2)求解w和b,其中
(3)再次任意選擇兩類不同的訓(xùn)練樣本,重復(fù)步驟(2)和步驟(3),直到任意兩類訓(xùn)練樣本都訓(xùn)練出一個(gè)函數(shù)f(x);
(4)svm的測試階段:假設(shè)樣本的特征向量為y,帶入每個(gè)函數(shù)f(x)中,確定每個(gè)函數(shù)對(duì)該樣本的分類標(biāo)簽,通過投票的方法選擇標(biāo)簽得票最多的類別作為該樣本的最終類別。
實(shí)施例
為了驗(yàn)證本發(fā)明的可行性和有效性,在matlab2014a軟件平臺(tái)進(jìn)行了若干實(shí)驗(yàn)測試。圖4是本發(fā)明對(duì)單個(gè)餐具的檢測效果,從結(jié)果可以看出本發(fā)明能很好的檢測出餐具的具體位置,同時(shí)能夠準(zhǔn)確的確定餐具的輪廓,并且可以將背景設(shè)置為黑色,排除背景對(duì)識(shí)別過程干擾。
為了進(jìn)一步驗(yàn)證本發(fā)明的餐具檢測效果,選用多個(gè)餐具進(jìn)行實(shí)驗(yàn)測試,圖5為本發(fā)明算法和單視角的餐具檢測效果對(duì)比,其中(a)為攝像機(jī)拍攝的圖片,(b)為單視角排序第二階段的檢測圖,(c)為本文算法第二階段的檢測圖,(d)為單視角最終的餐具檢測圖,(e)為本發(fā)明算法最終的餐具檢測圖。第一組圖中,單視角排序檢測出了3個(gè)餐具,本發(fā)明算法檢測出了4個(gè);第二組圖中,單視角排序檢測出了3個(gè)餐具,本發(fā)明算法檢測出了5個(gè)餐具;第三組圖中,單視角排序檢測出了3個(gè)餐具,本發(fā)明算法檢測出了4個(gè)餐具;第四組圖中,單視角排序和本文算法都檢測出了四個(gè)餐具,但是本發(fā)明算法的檢測效果要優(yōu)于單視角排序;第五組圖中,單視角排序檢測出了3個(gè)餐具,本發(fā)明算法檢測出了4個(gè)餐具。通過對(duì)比,本發(fā)明算法在復(fù)雜環(huán)境下的餐具檢測效果要好于單視角排序算法。
為了驗(yàn)證本發(fā)明的餐具分割算法的有效性,進(jìn)行了大量實(shí)驗(yàn)。,圖3可以看出本發(fā)明算法具有良好的分割效果。
為了驗(yàn)證本發(fā)明中特征融合方法在餐具識(shí)別中的有效性,在真實(shí)數(shù)據(jù)集中進(jìn)行了若干實(shí)驗(yàn),數(shù)據(jù)集總共有20種不同的餐具,每種餐具呈現(xiàn)不同的角度生成100幅圖像。在表1中,選擇每類圖像中都抽取5、10、…、50幅圖像作為訓(xùn)練集,其余作為測試集,進(jìn)行餐具識(shí)別實(shí)驗(yàn)。從表1結(jié)果可見,隨著訓(xùn)練樣本的增多,餐具識(shí)別的準(zhǔn)確率也逐漸提高。當(dāng)該數(shù)據(jù)集中的訓(xùn)練樣本選擇50幅時(shí),單視角中的hsv和mds的識(shí)別準(zhǔn)確率分別能達(dá)到0.974和0.945。而本發(fā)明算法在餐具識(shí)別過程中具有更強(qiáng)的區(qū)分性,識(shí)別率能達(dá)到0.983,高于單視角下的餐具識(shí)別效果。
表1本發(fā)明算法和單視角算法在svm分類器中的識(shí)別結(jié)果
以上所述,僅為本實(shí)施例較佳的具體實(shí)施方式,但本實(shí)施例的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本實(shí)施例揭露的技術(shù)范圍內(nèi),根據(jù)本實(shí)施例的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都應(yīng)涵蓋在本實(shí)施例的保護(hù)范圍之內(nèi)。