專利名稱:一種應用于電子導盲系統(tǒng)的圖像語義提取方法
技術領域:
本發(fā)明屬于計算機圖像處理技術領域,涉及圖像理解與模式識別,是一種應用于導盲系統(tǒng)的圖像語義提取算法,算法具有較高的識別率,并且可滿足導盲系統(tǒng)的實時性要求。
背景技術:
一直以來,視力的損傷或喪失給患者的生活帶來了重大的不便,其中行路問題是視障者生活中的一個重大難題。在日常生活中,他們需要借助拐杖或?qū)と葌鹘y(tǒng)導盲方法才能獨立地從一個地方走到另一個地方。雖然近年來有不少電子導盲系統(tǒng)的出現(xiàn),但與傳統(tǒng)的導盲方法相同,這些導盲設備大多依靠傳感器,GPS等信息作為導盲依據(jù),而這些信息只能簡單地提醒用戶前方是否有障礙物,對于周圍環(huán)境的相關信息則無法感知,如周圍是否有行人,房屋或是車輛等。將計算機圖像語義提取技術與語音技術相結(jié)合應用到導盲領域,能更詳細地將用戶所處環(huán)境的信息傳遞給使用者,幫助他們了解自己所處的環(huán)境。圖像語義提取算法的準確率主要受圖像視覺特征提取算法和分類判別算法的影響。目前常用的分類判別方法主要包括利用高斯混合模型模擬不同類別圖像特征的分布, 然后根據(jù)貝葉斯理論實現(xiàn)圖像的語義提??;以及利用圖像視覺特征訓練支持向量機,用支持向量機描述的分界面確定圖像的語義信息。其中高斯模型需要預先設定混合模型中的子高斯模型數(shù)目,并且模型的訓練和使用過程都涉及復雜的計算,有較高的時間復雜度,無法滿足導盲軟件的實時性要求。相比而言,支持向量機的訓練過程較為簡單,且用訓練好的支持向量機對圖像進行語義提取十分迅速,完全可以滿足實時性要求。常用的圖像特征提取方法包括1、提取圖像的顏色特征,如顏色直方圖,顏色矩等;2、提取圖像的紋理特征,如馬爾科夫模型或各種頻域變換方法等。但這些特征往往適用于一些特定的圖像對象,若將其應用到實際生活中,則會導致圖像語義提取準確率低下。所以,需要一種高效的特征提取方法將圖像內(nèi)容信息轉(zhuǎn)化為特征向量,再訓練支持向量機對圖像特征分類,將類別與語義標簽對應,實現(xiàn)對圖像的語義提取。
發(fā)明內(nèi)容
本發(fā)明公開的圖像語義提取算法,利用尺度不變特征變換(SIFT)方法提取圖像特征描述子;借助仿射傳播(AP)算法訓練向量字典;然后用空間金字塔匹配模型和稀疏編碼方法將圖像的SIFT特征描述子集映射為一個向量;最后用線性支持向量機(LSVM)實現(xiàn)對圖像內(nèi)容的語義提取。其中,圖像的SIFT特征描述子具有旋轉(zhuǎn)、縮放等不變性,是非常優(yōu)秀的圖像特征提取方法;仿射傳播算法能針對向量特點,自適應地確定向量聚類數(shù)目,并且不受樣本維度限制,計算速度快;而支持向量機能快速地對向量進行分類,能滿足導盲系統(tǒng)的實時性要求。實施例結(jié)果表明,用該算法對現(xiàn)實生活中常見物體進行圖像語義提取時,能得到較高的準確率,且語義提取過程可以滿足導盲系統(tǒng)的實時性要求。
1、一種應用于電子導盲系統(tǒng)的圖像語義提取方法,包括如下步驟a)建立訓練圖像庫 T = ((IijI2,... ,ImJ1,... , (I1,12,. . . , Imk} J (k = 1,2,···; 為訓練圖像類別數(shù),mk= 1,2,...,為第k類圖像的訓練圖像數(shù)),對訓練圖像進行預處理, 使得i.第k類圖像的訓練圖像Ikj主要包含第k類目標。ii.第k類圖像的訓練圖像集能較為全面地描述該類圖像的類別特征;b)從訓練圖像集的每類訓練圖像中選取Lk幅圖像構(gòu)成字典訓練集T。= {Tcl, Tc2, . . .,TcJ ;提取T。中各幅圖像的尺度不變特征變換(SIFT)特征描述子,組成字典訓練特征集F。= {Fcl, Fc2, . . .,F(xiàn)cJ,并利用多級仿射傳播算法(AP)對各個類的特征集Fcd中的特征向量進行自適應聚類,最后用所有類的聚類中心組成向量字典V;C)對于訓練圖像集T的一幅圖像Ii(i = 1,2,...),先提取圖像的SIFT特征描述子Fi,然后利用字典V和空間金字塔匹配模型對Fi中的特征向量進行稀疏編碼,并映射為一個特征向量fi ;同理,將圖像集T中的其它所有圖像變換到特征空間,組成特征向量集Ft ;d)利用特征向量集FT以及其中的類別信息訓練線性支持向量機(LSVM);e)對于待處理圖像It,將圖像分為部分重疊的、等大小的m(m= 1,2,...)個子塊, 對于圖像子塊bi;先提取SIFT特征描述子,然后用字典V和空間金字塔模型將其映射為特征向量fti,并利用LSVM確定fti的語義標簽;同理,提取圖像中剩余子塊的語義信息;根據(jù)圖像子塊的語義信息確定圖像It的語義標簽。2、所述步驟(1)的子步驟a中的建立圖像庫T= {{11; I2, ... , IfflJ1, ... , U1, I2,..., ImkIkI 過程包括a)選擇包含同一類別中不同個體的圖像以及包含同一個物體不同角度的圖像作為初始訓練集;b)對選出的初始訓練集中的各個圖像進行裁減,使得圖像包含一個主目標物體 (約占圖像像素的50%以上)。3、所述步驟(1)的子步驟b,中的圖像SIFT特征描述子提取方法具體步驟如下a)定義一個n*n(n= 1,2,...)的高斯濾波模板G,計算模板x,y方向的梯度矩陣 GX, GY ;b)對于待處理圖像I,分別用GX,GY對圖像進行濾波處理得到濾波后的圖像Ix, Iy ;c)利用以下公式將圖像Ix,Iy中的數(shù)據(jù)變化為極坐標形式Ir =把 + I2yθ = a tan(—)
IXd)在極坐標平面中,以α為步進,將坐標軸進行旋轉(zhuǎn)。在每個坐標系中,將圖像向坐標軸上進行投影Iri = Ir*cos ( θ -α )其中,i = 1,2,...,,表示不同的極坐標系。e)對于投影圖像Iri,定義大小為nb*nb(nb = 1,2,...)像素的正方形窗口 W ;
i.將窗口 W在圖像I的水平與垂直方向上移動,其中水平方向步長為sw,垂直方向上的步長為、,則每次移動,可從原始圖像上截取大小為nb*nb像素的圖像塊U。ii.對于圖像塊IA,等距離選取np*np (np < nb ;np = 1,2,...)個代表點Pri ;并根據(jù)圖像塊Irt中的像素Pi與t間的距離計算圖像塊中所有像素對代表點Ph的加權貢獻值
權利要求
1. 一種應用于電子導盲系統(tǒng)的圖像語義提取方法,其特征在于包括如下步驟a)建立訓練圖像庫T = {{11; I2, ... , ImJ1, ... , U1, I2, ... , ImJkI (k = 1,2, ... ,η ; 為訓練圖像類別數(shù),mk = 1,2,. . .,q為第k類圖像的訓練圖像數(shù)),對訓練圖像進行分割預處理,使得i.第k類圖像的訓練圖像Ikj主要包含第k類目標。 .第k類圖像的訓練圖像集能較為全面地描述該類圖像的類別特征;b)從訓練圖像集的每類訓練圖像中隨機選取Lk幅圖像構(gòu)成字典訓練集T。={Tcl, Tc2,. . .,Tck} (Tci為第i類圖像的訓練圖像子集,i = 1,2,. . .,η);提取Τ。中各幅圖像的尺度不變特征變換(SIFT)特征描述子,組成字典訓練特征集F。= {Fc1,Fc2,.. .,F(xiàn)dJ (Fci為第 i類圖像的特征向量集,i = l,2,..., η),并利用多級仿射傳播算法(AP)對各個類的特征集Fcd中的特征向量進行自適應聚類,最后用所有類的聚類中心構(gòu)建向量字典V;c)對于訓練圖像集T的一幅圖像Ii(i = 1,2,...),先提取圖像的SIFT特征描述子Fi, 然后利用字典V和空間金字塔匹配模型對Fi中的特征向量進行稀疏編碼,并映射為一個特征向量fi ;同理,將圖像集T中的其它所有圖像變換到特征空間,組成特征向量集FT;d)利用特征向量集Ft以及其中的類別信息訓練線性支持向量機(LSVM);e)對于待處理圖像It,將圖像分為部分重疊的、等大小的m(m=1,2,...)個子塊,對于圖像子塊bi;先提取SIFT特征描述子,然后用字典V和空間金字塔模型將其映射為特征向量fti,并利用LSVM確定fti的語義標簽;同理,提取圖像中剩余子塊的語義信息;根據(jù)圖像子塊的語義信息確定圖像It的語義標簽。
2.根據(jù)權利要求1所述的圖像語義提取方法,其中步驟b,c和e中所述的圖像SIFT特征描述子提取方法,其特征在于包含如下步驟a)定義一個n*n(n= 1,2,..)的高斯濾波模板G,計算模板x,y方向的梯度矩陣GX,GY;b)對于待處理圖像I(圖像大小為Iw*Ih),分別用GX,GY對圖像進行濾波處理得到濾波后的圖像Ix,Iy;c)利用以下公式將圖像Ix,Iy中的數(shù)據(jù)變化為極坐標形式
3.根據(jù)權利要求1所述的圖像語義提取方法,其中步驟b所述的字典構(gòu)建方法,其特征在于包含如下具體步驟a)從訓練圖像集的每類圖像中隨機選取tCi(tCi= 1,2,...)幅圖像組成字典訓練圖像集Tc ;b)對于第Ci類的圖像Ip用權利要求2所述的特征提取方法提取圖像中的SIFT特征描述子組成特征向量集VIij;c)利用仿射傳播算法自適應地將VIij中的特征向量聚成、(1^=1,2,...)個蔟,得到一個具有、個特征向量的蔟中心集Vcu ;其中,仿射傳播算法中的相似度矩陣S和偏好度矩陣P定義如下
4.根據(jù)權利要求1所述的圖像語義提取方法,其中步驟c所述的將圖像的SIFT特征描述子集合映射為一個特征向量的方法,其特征在于包含如下步驟a)對于圖像I的SIFT特征描述子fi;計算&在各個字典向量Vk上的投影向量fVi
全文摘要
本發(fā)明公開了一種應用于電子導盲系統(tǒng)的圖像語義提取方法,該方法能快速準確地提取圖像語義,可滿足基于計算機視覺的電子導盲系統(tǒng)對圖像理解的要求。本發(fā)明包括1)訓練階段,建立訓練圖像庫T,提取T中圖像的尺度不變特征變換(SIFT)特征組成集合F;利用多級密切關系傳播算法構(gòu)建字典V;利用字典V和稀疏編碼將F映射到Fv;利用Fv訓練線性支持向量機(LSVM);2)使用階段,對于采集的圖像Iq,等分為10個部分重疊的子塊;利用上述特征提取方法提取各子塊的特征;利用LSVM對各子塊特征進行分類,得到對應的語義信息;根據(jù)子塊語義信息確定圖像Iq的語義標簽,最后將語義標簽轉(zhuǎn)化為語音輸出。
文檔編號G06K9/62GK102364497SQ20111011571
公開日2012年2月29日 申請日期2011年5月6日 優(yōu)先權日2011年5月6日
發(fā)明者楊棟, 胡汝坤, 郭平 申請人:北京師范大學