一種基于多視角圖模型的餐具檢測和識(shí)別方法與流程

文檔序號(hào)：11216930閱讀：882來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及一種機(jī)器視覺的餐具檢測和識(shí)別方法，尤其涉及一種基于多視角圖模型的檢測和識(shí)別方法。

背景技術(shù)：

隨著服務(wù)機(jī)器人硬件成本的下降和相關(guān)理論技術(shù)的不斷成熟以及人們的需求，餐廳服務(wù)機(jī)器人已經(jīng)開始應(yīng)用于餐廳幫助人們回收餐具。餐廳服務(wù)機(jī)器人需要應(yīng)用計(jì)算機(jī)視覺技術(shù)，實(shí)時(shí)檢測并識(shí)別出餐桌中不同的餐具類別。并根據(jù)餐具中的內(nèi)容(如有無食物)，進(jìn)行后續(xù)處理(如收拾餐具)任務(wù)。餐具檢測和識(shí)別主要根據(jù)采集圖像中餐具、食物的位置和輪廓，對(duì)餐具、食物進(jìn)行分割，并識(shí)別出其具體類別。目前，基于計(jì)算機(jī)視覺的餐具、食物檢測和識(shí)別方法主要為單視角檢測和識(shí)別，存在檢測不準(zhǔn)確和識(shí)別率低等問題，因此，本發(fā)明提出基于多視角圖模型的餐具檢測和識(shí)別方法，用來提高檢測效果和識(shí)別率。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明提供了一種基于多視角圖模型的餐具檢測和識(shí)別方法，利用多視角圖模型的學(xué)習(xí)框架將餐具檢測和識(shí)別結(jié)合成統(tǒng)一的框架，首先利用多視角圖模型檢測圖像中的餐具，然后利用多視角特征融合學(xué)習(xí)新特征進(jìn)行餐具的識(shí)別。

采用多視角圖模型進(jìn)行圖像的餐具檢測，利用超像素點(diǎn)在多個(gè)視角下的特征構(gòu)建圖模型，然后再學(xué)習(xí)每個(gè)超像素點(diǎn)是餐具所在位置的置信度，從而更準(zhǔn)確的檢測出餐具。采用多視角融合算法進(jìn)行特征融合，構(gòu)建更強(qiáng)區(qū)分性的特征，有利于提高識(shí)別率。在多視角圖模型構(gòu)建中，利用指數(shù)型權(quán)值參數(shù)，避免出現(xiàn)多視角的權(quán)值系數(shù)為零，使得各個(gè)視角特征能夠相互補(bǔ)充。在餐具檢測中，既考慮了餐具種子節(jié)點(diǎn)的作用，同時(shí)考慮了背景種子節(jié)點(diǎn)的作用，以加大背景和餐具的差異性。在餐具分割過程中，沒有直接在彩色圖像中提取餐具，而是先在二值圖像上確定餐具的最小外接矩，然后在對(duì)應(yīng)的彩色圖像上進(jìn)行分割，從而降低算法復(fù)雜度、提高分割效果。

附圖說明

為了更清楚的說明本發(fā)明的實(shí)施例或現(xiàn)有技術(shù)的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖做一簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明基于多視角圖模型的餐具檢測算法流程圖

圖2為本發(fā)明基于多視角特征融合的餐具識(shí)別流程圖

圖3為本發(fā)明餐具分割示意圖

圖4為本發(fā)明餐具檢測效果示意圖

圖5為本發(fā)明算法和單視角排序算法多個(gè)餐具時(shí)檢測效果對(duì)比示意圖

具體實(shí)施方式

為使本發(fā)明的實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚完整的描述：

本發(fā)明縮略語和關(guān)鍵術(shù)語定義：

slic：simplelineariterativeclustering，簡單線性迭代聚類算法

svm：supportvectormachine，支持向量機(jī)

hsv：huesaturationvalue，hsv顏色模型

mds：multipledimensionalscaling，多維縮放

如圖1～5所示：一種基于多視角圖模型的餐具檢測和識(shí)別方法，主要包括以下步驟：

圖像的超像素分割是將圖像中大量的像素點(diǎn)分割成少量的整體性超像素點(diǎn)，這種分割也是對(duì)圖像內(nèi)容的一種初步分割過程。

simplelineariterativeclustering(slic)算法是一種簡單有效的線性迭代聚類算法，slic算法采用接近人眼視覺感知特性的lab顏色空間進(jìn)行超像素點(diǎn)的分割，定義圖像中像素點(diǎn)的總個(gè)數(shù)為n，超像素分割的步驟為：

(1)先將整幅圖像平均分割成k個(gè)部分，每部分均為s×s的小區(qū)域，其中，

(2)初始化每個(gè)小區(qū)域的中心為ck＝[lk,ak,bk,xk,yk]^t,其中(xk,yk)為該小區(qū)域中梯度最小的點(diǎn)即f(x+1,y)+f(x,y+1)-2f(x,y)最小的點(diǎn)；

(3)根據(jù)式計(jì)算每個(gè)像素點(diǎn)到步驟(2)中ck的距離，選取距離最小的中心點(diǎn)為該像素的中心，重新劃分超像素區(qū)域，根據(jù)步驟(2)在新劃分的區(qū)域上重新確定新的小區(qū)域中心ck，計(jì)算新的小區(qū)域中心ck和舊的小區(qū)域中心ck間的位置距離，其中，m＝15,ds為位置距離，dc為lab距離；

(4)當(dāng)新的中心ck與舊的中心ck的位置距離小于一個(gè)很小的閾值時(shí)輸出超像素分割的結(jié)果，否則重復(fù)步驟(2)～(3)；

本發(fā)明使用hsv顏色直方圖^[4]和顏色矩^[4]這兩種特征分別構(gòu)建超像素點(diǎn)間的多視角圖模型。

對(duì)于其中包含2個(gè)視角特征x1,x2,…,xn表示圖像中slic算法分割得到的n個(gè)超像素點(diǎn)，x⁽¹⁾表示它們的hsv顏色直方圖特征，x⁽²⁾表示超像素點(diǎn)間的顏色矩信息。

以圖像中所有的超像素點(diǎn)為圖模型的節(jié)點(diǎn)，通過超像素點(diǎn)間的位置關(guān)系確定節(jié)點(diǎn)間是否存在連接邊。

此外，為了更好的利用圖像的邊緣信息，規(guī)定圖像邊緣部分的超像素點(diǎn)都是互相連接的。

以此策略確定出圖模型的所有連接邊，而邊權(quán)值則可以通過超像素點(diǎn)之間特征向量的高斯核函數(shù)進(jìn)行計(jì)算：

其中，表示第i個(gè)超像素節(jié)點(diǎn)和第j個(gè)超像素節(jié)點(diǎn)在第t個(gè)視角下的特征向量和之間的歐氏距離。

在第一階段的目標(biāo)檢測過程中，假設(shè)圖像邊緣的超像素點(diǎn)是背景信息，所以在該階段的相似性學(xué)習(xí)過程中，設(shè)定初始的相似性值y＝[y1,y2,…,yn]^t。

設(shè)定圖像上邊界的超像素節(jié)點(diǎn)對(duì)應(yīng)的初始相似性值為1；其它所有的超像素節(jié)點(diǎn)設(shè)置為0。假設(shè)多視角圖模型學(xué)習(xí)得到的相似性值為f，則多視角排序算法的目標(biāo)優(yōu)化函數(shù)可以表示成：

該式可以進(jìn)一步轉(zhuǎn)化成如下的矩陣形式

其中，α^(t)是每個(gè)視角下近鄰矩陣的權(quán)重系數(shù)，參數(shù)μ>0是平衡目標(biāo)函數(shù)中平滑約束項(xiàng)和擬合約束項(xiàng)，||·||2表示向量的2范數(shù)，tr(·)表示矩陣的跡。l^(t)＝d^(t)-w^(t)是第t個(gè)視角下近鄰矩陣所對(duì)應(yīng)的的拉普拉斯矩陣，表示近鄰矩陣w^(t)的行和，在每個(gè)視角的權(quán)值α^(t)中加入指數(shù)參數(shù)γ，可以通過調(diào)整γ的取值控制每個(gè)視角下近鄰矩陣的權(quán)值。

對(duì)于該多視角圖模型的求解過程可以通過分別迭代求解其中的兩個(gè)參數(shù)f和α，在迭代求解過程中先初始化這兩個(gè)參數(shù)，先固定參數(shù)α，求解更新參數(shù)f，再固定參數(shù)f，求解更新參數(shù)α，以此迭代，直到參數(shù)f與上一次迭代的結(jié)果小于給定的閾值。求得f和α的解析解，采用迭代的方法進(jìn)行求解，具體的迭代方法如下：

(1)計(jì)算每個(gè)視角下的近鄰矩陣w^(t)(1≤t≤m)，初始化α^(t)＝1/m，f＝y(tǒng)，

(2)當(dāng)時(shí)，執(zhí)行步驟(3)～(4)，當(dāng)時(shí)，執(zhí)行步驟(5)；

(3)利用更新相似性得分向量f；

(4)利用

更新近鄰矩陣的權(quán)值參數(shù)α；

(5)返回相似性得分向量f。

其中，輸入為通過hsv、顏色矩獲得的近鄰矩陣w^(t)和初始相似性特征向量y＝[y1,y2,…,yn]^t；若yi為上邊界的節(jié)點(diǎn)，則初始相似值為1，其它所有的超像素節(jié)點(diǎn)設(shè)置為0。參數(shù)γ用來調(diào)節(jié)各個(gè)視角之間的權(quán)重，參數(shù)μ為調(diào)節(jié)式中的第一項(xiàng)和第二項(xiàng)權(quán)重，γ＝3，μ＝0.01。

利用上述方法迭代得到超像素點(diǎn)之間的相似性值為ft，第i個(gè)超像素點(diǎn)為目標(biāo)的相似值可以表示成：

st(i)＝1-ft(i),i＝1,2,…,n(4)

同樣的，可以分別將圖像的下邊界、左邊界和右邊界作為背景信息節(jié)點(diǎn)，設(shè)定相應(yīng)的初始相似性特征向量，然后再利用多視角圖模型的排序算法進(jìn)行學(xué)習(xí)，依次分別確定出其對(duì)應(yīng)的目標(biāo)相似值sb(i)、sl(i)和sr(i)，然后將這四個(gè)相似值進(jìn)行整合得到整體的檢測結(jié)果：

s1(i)＝st(i)sb(i)sl(i)sr(i),i＝1,2,…,n(5)

在第二階段的目標(biāo)檢測過程中，設(shè)定兩個(gè)所述相似性f閾值t1和t2，設(shè)定t1為界定為餐具的相似度閾值，t2為界定為背景的相似度閾值，初始的相似性向量可以設(shè)定為：

其中i＝1,2,…,n，對(duì)該向量進(jìn)行標(biāo)準(zhǔn)化生成初始的相似性值。

然后再利用式(3)中的方法學(xué)習(xí)超像素之間的相似性即為第二次檢測的結(jié)果：

將第二次檢測的結(jié)果進(jìn)行二值化，閾值設(shè)定為所有超像素點(diǎn)相似性值的平均值，大于平均值的超像素點(diǎn)取為1，小于平均值的取為0，得到二值化圖像。將二值化圖像與輸入圖像相乘，得到餐具檢測圖像。比如：根據(jù)f值的大小，餐具對(duì)應(yīng)的種子點(diǎn)t1比較大，如果圖像灰度值范圍是0～1，那么這個(gè)t1大概是0.8左右，根據(jù)這個(gè)閾值設(shè)定，重新排序之后f大的那部分就可以認(rèn)為是餐具。

對(duì)餐具檢測圖像進(jìn)行圖像分割得到最終的待識(shí)別的餐具圖像，餐具分割的步驟為：

(1)在二值圖像上用區(qū)域增長法確定連通域，并確定每個(gè)連通域的最左、最右、最上、最下四個(gè)點(diǎn)，并以這四個(gè)點(diǎn)確定連通域的外接矩形(矩形邊平行于坐標(biāo)軸)；

(2)記錄每個(gè)連通區(qū)域外接矩的坐標(biāo)，并在對(duì)應(yīng)的彩色圖像中提取外接矩內(nèi)的餐具；

圖像中餐具的識(shí)別

圖像中的餐具識(shí)別的作用是能夠確定餐具的具體類別，通過已訓(xùn)練好的svm分類器對(duì)該餐具進(jìn)行測試，輸出該餐具的具體類別標(biāo)簽。

定義n1個(gè)圖像樣本在m1個(gè)不同視角下的視覺特征分別記為其中表示第個(gè)視角下的圖像特征，表示第1個(gè)圖像樣本在第個(gè)視角下的特征向量，對(duì)應(yīng)的特征維數(shù)為dt。

選擇利用hsv顏色直方圖和mds^[5]特征進(jìn)行不同視角下的特征提取。

以每個(gè)圖像作為圖模型的節(jié)點(diǎn)，圖像特征向量之間的距離作為圖模型的連接邊，建立多視角圖模型，其中圖模型連接邊的權(quán)值可以通過高斯核函數(shù)進(jìn)行計(jì)算：

其中，表示第i個(gè)圖像樣本和第j個(gè)圖像樣本在第個(gè)視角下的特征向量和之間的歐氏距離；

假設(shè)融合后的新特征是y，比如一個(gè)檢測目標(biāo)餐具的多個(gè)視角的特征的集合，對(duì)于多視角特征的融合學(xué)習(xí)，需要考慮到不同視角在特征描述中的重要性。

因此，為了平衡這些近鄰關(guān)系在特征融合過程中的作用，為每個(gè)視角下的近鄰關(guān)系加入權(quán)值參數(shù)因此，本文基于多視角融合學(xué)習(xí)的算法可以有如下的優(yōu)化目標(biāo)函數(shù)：

式(9)能夠進(jìn)一步轉(zhuǎn)換成如下矩陣的形式：

是第個(gè)視角下近鄰矩陣所對(duì)應(yīng)的的拉普拉斯矩陣，表示近鄰矩陣的行和。約束條件yy^t＝i是為了唯一確定出融合后的圖像特征向量y，i表示單位矩陣。

由于多視角特征融合算法中包含兩個(gè)參數(shù)和y，用迭代優(yōu)化方法得到方程的解，首先固定參數(shù)y，更新權(quán)值參數(shù)利用拉格朗日乘子法帶入優(yōu)化約束得到如下的表達(dá)式：

對(duì)優(yōu)化函數(shù)求對(duì)參數(shù)的偏導(dǎo)，并令偏導(dǎo)等于0得到權(quán)值參數(shù)的解為：

由于拉普拉斯矩陣是半正定矩陣，顯然參數(shù)固定權(quán)值參數(shù)更新參數(shù)y，此時(shí)目標(biāo)優(yōu)化函數(shù)式(10)可以轉(zhuǎn)化成

其中，矩陣因?yàn)槔绽咕仃?imgfile="bda00012940423100000714.gif"wi="67"he="47"img-content="drawing"img-format="gif"orientation="portrait"inline="no"/>是對(duì)稱的，所以矩陣也是對(duì)稱矩陣。因此，根據(jù)ky-fan定理，優(yōu)化方程的全局最優(yōu)解可以通過矩陣l最小的d個(gè)特征值對(duì)應(yīng)的特征向量來確定，其中y＝u^t＝[u1,u2,…,ud]^t。

(ky-fan定理)：如果矩陣m∈r^n×n是對(duì)稱矩陣，其前k個(gè)最小特征值分別λ1≤λ2≤...≤λk

這些特征值對(duì)應(yīng)的特征向量是u＝[u1,u2,…,uk]那么就有

而且，z的最優(yōu)解可以表示成z^*＝uq，其中q是任意的正交矩陣。

下面用迭代的方法求參數(shù)和y。輸入：n1個(gè)圖像樣本在不同視角下的特征輸出：新的d維圖像特征向量迭代步驟如下：

(1)計(jì)算每個(gè)視角下的近鄰矩陣初始化參數(shù)

(2)重復(fù)步驟(3)和步驟(4)直到收斂；

(3)計(jì)算的特征分解，取最小d個(gè)特征值對(duì)應(yīng)的特征向量組成的矩陣u，令y＝u^t＝[u1,u2,…,ud]^t；

(4)利用更新近鄰矩陣的權(quán)值參數(shù)

多視角特征融合方法主要是為了得到獨(dú)特性和區(qū)分性更強(qiáng)的圖像特征，然后利用訓(xùn)練集圖像的融合特征訓(xùn)練一個(gè)svm^[6]分類模型。

svm是通過尋找最優(yōu)的線性超平面，使得所有樣本到該超平面有盡可能大的幾何間隔，因?yàn)楫?dāng)超平面距離數(shù)據(jù)點(diǎn)的間隔越大時(shí)，分類結(jié)果的確信度就越大。為了尋找這樣的超平面函數(shù)w^tx+b＝0，這種最大間隔分類器的目標(biāo)函數(shù)可以定義為：

式(15)中的為樣本特征，為樣本標(biāo)簽，取值為1或-1。利用拉格朗日乘子法式(15)可以轉(zhuǎn)化為

對(duì)上式求解可得

svm的具體訓(xùn)練過程為：

(1)取訓(xùn)練集中的任意兩類物體樣本是樣本的類別標(biāo)簽，取值為1或-1，令sgn(.)為判別函數(shù)，時(shí)時(shí)

(2)求解w和b，其中

(3)再次任意選擇兩類不同的訓(xùn)練樣本，重復(fù)步驟(2)和步驟(3)，直到任意兩類訓(xùn)練樣本都訓(xùn)練出一個(gè)函數(shù)f(x)；

(4)svm的測試階段：假設(shè)樣本的特征向量為y，帶入每個(gè)函數(shù)f(x)中，確定每個(gè)函數(shù)對(duì)該樣本的分類標(biāo)簽，通過投票的方法選擇標(biāo)簽得票最多的類別作為該樣本的最終類別。

實(shí)施例

為了驗(yàn)證本發(fā)明的可行性和有效性，在matlab2014a軟件平臺(tái)進(jìn)行了若干實(shí)驗(yàn)測試。圖4是本發(fā)明對(duì)單個(gè)餐具的檢測效果，從結(jié)果可以看出本發(fā)明能很好的檢測出餐具的具體位置，同時(shí)能夠準(zhǔn)確的確定餐具的輪廓，并且可以將背景設(shè)置為黑色，排除背景對(duì)識(shí)別過程干擾。

為了進(jìn)一步驗(yàn)證本發(fā)明的餐具檢測效果，選用多個(gè)餐具進(jìn)行實(shí)驗(yàn)測試，圖5為本發(fā)明算法和單視角的餐具檢測效果對(duì)比，其中(a)為攝像機(jī)拍攝的圖片，(b)為單視角排序第二階段的檢測圖，(c)為本文算法第二階段的檢測圖，(d)為單視角最終的餐具檢測圖，(e)為本發(fā)明算法最終的餐具檢測圖。第一組圖中，單視角排序檢測出了3個(gè)餐具，本發(fā)明算法檢測出了4個(gè)；第二組圖中，單視角排序檢測出了3個(gè)餐具，本發(fā)明算法檢測出了5個(gè)餐具；第三組圖中，單視角排序檢測出了3個(gè)餐具，本發(fā)明算法檢測出了4個(gè)餐具；第四組圖中，單視角排序和本文算法都檢測出了四個(gè)餐具，但是本發(fā)明算法的檢測效果要優(yōu)于單視角排序；第五組圖中，單視角排序檢測出了3個(gè)餐具，本發(fā)明算法檢測出了4個(gè)餐具。通過對(duì)比，本發(fā)明算法在復(fù)雜環(huán)境下的餐具檢測效果要好于單視角排序算法。

為了驗(yàn)證本發(fā)明的餐具分割算法的有效性，進(jìn)行了大量實(shí)驗(yàn)。，圖3可以看出本發(fā)明算法具有良好的分割效果。

為了驗(yàn)證本發(fā)明中特征融合方法在餐具識(shí)別中的有效性，在真實(shí)數(shù)據(jù)集中進(jìn)行了若干實(shí)驗(yàn)，數(shù)據(jù)集總共有20種不同的餐具，每種餐具呈現(xiàn)不同的角度生成100幅圖像。在表1中，選擇每類圖像中都抽取5、10、…、50幅圖像作為訓(xùn)練集，其余作為測試集，進(jìn)行餐具識(shí)別實(shí)驗(yàn)。從表1結(jié)果可見，隨著訓(xùn)練樣本的增多，餐具識(shí)別的準(zhǔn)確率也逐漸提高。當(dāng)該數(shù)據(jù)集中的訓(xùn)練樣本選擇50幅時(shí)，單視角中的hsv和mds的識(shí)別準(zhǔn)確率分別能達(dá)到0.974和0.945。而本發(fā)明算法在餐具識(shí)別過程中具有更強(qiáng)的區(qū)分性，識(shí)別率能達(dá)到0.983，高于單視角下的餐具識(shí)別效果。

表1本發(fā)明算法和單視角算法在svm分類器中的識(shí)別結(jié)果

以上所述，僅為本實(shí)施例較佳的具體實(shí)施方式，但本實(shí)施例的保護(hù)范圍并不局限于此，任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本實(shí)施例揭露的技術(shù)范圍內(nèi)，根據(jù)本實(shí)施例的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變，都應(yīng)涵蓋在本實(shí)施例的保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳喆;殷福亮;甄佳林
技術(shù)所有人：大連理工大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

餐具檢測相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于多視角圖模型的餐具檢測和識(shí)別方法與流程