本發(fā)明涉及智能控制領域,特別是涉及一種多媒體音量調節(jié)方法及系統(tǒng)。
背景技術:
多媒體是多種媒體的綜合,一般包括文本,聲音和圖像等多種媒體形式。目前對多媒體音量的控制常用的有兩種方式:一是通過多媒體設備的音量按鈕手動調節(jié);二是通過遙控設備遠程調節(jié)。相比于手動調節(jié)音量的方式,遠程調節(jié)在一定程度上提高了便捷性。但是不同的多媒體設備需要特定的遙控設備才能進行操作,而且并不是所有的多媒體設備都可以采用遙控設備遠程調節(jié)音量,例如,電腦的音量調節(jié)只能采用手動接觸鼠標或鍵盤的機械交互模式;多媒體課堂中powerpoint展示,可以利用遙控設備進行頁面的遙控操作,但是對于視頻的音量或者其他多媒體的音量,只能通過鼠標進行調節(jié)。因此,現(xiàn)有的多媒體音量調節(jié)方式便捷性低。
技術實現(xiàn)要素:
本發(fā)明的目的是提供一種多媒體音量調節(jié)方法及系統(tǒng),以提高多媒體音量調節(jié)的便捷性。
為實現(xiàn)上述目的,本發(fā)明提供了如下方案:
一種多媒體音量調節(jié)方法,所述方法包括:
獲取用戶手勢的深度圖像,所述深度圖像包括所述用戶手勢中手部關節(jié)的空間坐標;
對所述深度圖像進行手部目標區(qū)域的圖像分割,獲得分割后的目標區(qū)域圖像;
根據(jù)所述目標區(qū)域圖像,利用sobel算子進行手勢邊緣輪廓檢測,提取邊緣參數(shù)特征;
根據(jù)所述邊緣參數(shù)特征利用dag-svms分類器獲得手勢分類結果;
根據(jù)所述手勢分類結果調節(jié)多媒體的音量級別,不同的手勢分類對應不同的音量級別。
可選的,所述獲取用戶手勢的深度圖像,具體包括:
根據(jù)用戶手勢,利用kinect攝像機獲取所述用戶手勢的深度圖像。
可選的,所述對所述深度圖像進行手部目標區(qū)域的圖像分割,具體包括:
根據(jù)所述深度圖像繪制圖像深度直方圖;
根據(jù)所述直方圖中深度值波谷確定多個待定閾值區(qū)間;
利用kinect骨骼追蹤技術確定最終閾值區(qū)間;
根據(jù)所述最終閾值區(qū)間進行手部目標區(qū)域的圖像分割,獲得分割后的目標區(qū)域圖像。
可選的,所述對所述深度圖像進行手部目標區(qū)域的圖像分割之前,還包括:
對所述深度圖像進行二值化處理,獲得處理后的深度圖像。
可選的,所述邊緣參數(shù)特征包括邊緣參數(shù)特征hu矩和輪廓邊緣參數(shù)特征長度矩,其中,
利用hu矩與長度矩的手勢邊緣特征作為數(shù)字手勢圖像的特征,提取邊緣參數(shù)特征hu矩和輪廓邊緣參數(shù)特征長度矩。
一種多媒體音量調節(jié)系統(tǒng),所述系統(tǒng)包括:
深度圖像獲取模塊,用于獲取用戶手勢的深度圖像,所述深度圖像包括所述用戶手勢中手部關節(jié)的空間坐標;
圖像分割模塊,用于對所述深度圖像進行手部目標區(qū)域的圖像分割,獲得分割后的目標區(qū)域圖像;
邊緣參數(shù)特征提取模塊,用于根據(jù)所述目標區(qū)域圖像,利用sobel算子進行手勢邊緣輪廓檢測,提取邊緣參數(shù)特征;
手勢分類結果獲取模塊,用于根據(jù)所述邊緣參數(shù)特征利用dag-svms分類器獲得手勢分類結果;
音量調節(jié)模塊,用于根據(jù)所述手勢分類結果調節(jié)多媒體的音量級別,不同的手勢分類對應不同的音量級別。
可選的,所述深度圖像獲取模塊為kinect攝像機,用于根據(jù)鏡頭前的用戶手勢,獲取所述用戶手勢的深度圖像。
可選的,所述圖像分割模塊,具體包括:
直方圖繪制單元,用于根據(jù)所述深度圖像繪制圖像深度直方圖;
待定閾值區(qū)間確定單元,用于根據(jù)所述直方圖中深度值波谷確定多個待定閾值區(qū)間;
最終閾值區(qū)間確定單元,用于利用kinect骨骼追蹤技術確定最終閾值區(qū)間;
圖形分割單元,用于根據(jù)所述最終閾值區(qū)間進行手部目標區(qū)域的圖像分割,獲得分割后的目標區(qū)域圖像。
可選的,所述系統(tǒng)還包括:
二值化處理模塊,用于對所述深度圖像進行手部目標區(qū)域的圖像分割之前,對所述深度圖像進行二值化處理,獲得處理后的深度圖像。
可選的,所述邊緣參數(shù)特征包括邊緣參數(shù)特征hu矩和輪廓邊緣參數(shù)特征長度矩,所述邊緣參數(shù)特征提取模塊用于利用hu矩與長度矩的手勢邊緣特征作為數(shù)字手勢圖像的特征,提取邊緣參數(shù)特征hu矩和輪廓邊緣參數(shù)特征長度矩。
根據(jù)本發(fā)明提供的具體實施例,本發(fā)明公開了以下技術效果:
整個調節(jié)過程只需要多媒體設備連接一個外設采集深度圖像設備,就能夠通過手勢操作,實現(xiàn)對多媒體自身音量的大小的控制,控制過程采用生活中常見的數(shù)字手勢,所以整個控制過程外部設備簡單,可操作性強,便捷性高。并且改變了以往對于多媒體的音量只能溝通過手動接觸鼠標鍵盤的機械交互模式,實現(xiàn)了人體手勢對多媒體的中遠程非接觸式控制。
具體實施時,手勢識別過程基于kinect帶有的深度骨骼深度信息,避免了基于彩色信息識別過程中光照強度會給彩色信息帶來的干擾,從而即使在亮度很低的情況下設備甚至黑暗條件下也能夠對手勢進行識別,降低手勢識別過程中的外在環(huán)境限制;在數(shù)字手勢算法中,通過改進dag-svms分類器的策略結構,達到識別算法的優(yōu)化,提高了算法的識別精度,提高了整個交互系統(tǒng)的識別穩(wěn)定性。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明多媒體音量調節(jié)方法實施例1的流程圖;
圖2為本發(fā)明多媒體音量調節(jié)方法實施例1中獲取的深度圖像;
圖3為本發(fā)明多媒體音量調節(jié)方法實施例1中繪制的直方圖;
圖4為本發(fā)明多媒體音量調節(jié)方法實施例1中分割后的目標區(qū)域圖像;
圖5a-5b為本發(fā)明多媒體音量調節(jié)方法實施例1中利用sobel算子檢測前后對比圖;其中圖5a為檢測前的圖像,圖5b為檢測后的圖像;
圖6為本發(fā)明多媒體音量調節(jié)方法實施例1中手勢分類結果圖;
圖7a-7e為本發(fā)明多媒體音量調節(jié)方法實施例1中所有手勢的深度圖像;
圖8a-8e為本發(fā)明多媒體音量調節(jié)方法實施例1中所有手勢的深度圖像對應的分割圖;
圖9為本發(fā)明多媒體音量調節(jié)方法實施例1中所有手勢的邊緣參數(shù)特征圖;
圖10a-10e為本發(fā)明多媒體音量調節(jié)方法實施例1中所有手勢對應的分類結果圖;
圖11為本發(fā)明多媒體音量調節(jié)方法實施例1中音量級別與手勢分類對應圖;
圖12為本發(fā)明多媒體音量調節(jié)方法實施例2的流程圖;
圖13為本發(fā)明多媒體音量調節(jié)方法實施例2的分類結果圖;
圖14為本發(fā)明多媒體音量調節(jié)方法實施例2的音量調節(jié)示意圖;
圖15為本發(fā)明多媒體音量調節(jié)系統(tǒng)結構圖。
具體實施方式
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結合附圖和具體實施方式對本發(fā)明作進一步詳細的說明。
實施例1:
圖1為本發(fā)明多媒體音量調節(jié)方法實施例1的流程圖。如圖1所示,所述方法包括:
步驟101:獲取用戶手勢的深度圖像。深度圖像包括所述用戶手勢中手部關節(jié)的空間坐標,如圖2所示,圖2為本發(fā)明多媒體音量調節(jié)方法實施例1中獲取的深度圖像;
例如,可以采用kinect攝像機獲取用戶手勢的深度圖像。kinect是一款3d體感攝影機,是微軟在2009年6月2日的e3大展上,正式公布的xbox360體感周邊外設。它是一種3d體感攝影機(開發(fā)代號“projectnatal”),同時它導入了即時動態(tài)捕捉、影像辨識、麥克風輸入、語音辨識、社群互動等功能。采用kinect攝像機作為深度手勢圖像采集的裝置,對深度數(shù)字手勢圖像進行有效識別,兼顧在光照條件差的情況下,基于深度信息的手勢分割,克服了基于普通rgb(紅、綠、藍)彩色圖像采集設備給手勢識別帶來的環(huán)境限制。在手勢圖像采集過程中,首先設定手部平面始終與傳感器(攝像機)平面保持平行,且位于身體最前部,采集深度圖像有效。
步驟102:對深度圖像進行手部目標區(qū)域的圖像分割。對所述深度圖像進行手部目標區(qū)域的圖像分割,獲得分割后的目標區(qū)域圖像,具體過程為:
根據(jù)所述深度圖像繪制圖像深度直方圖;圖像深度直方圖為依據(jù)圖像深度繪制的直方圖,包括深度圖像中深度像素值的波峰與波谷的分布。如圖3所示,圖3為本發(fā)明多媒體音量調節(jié)方法實施例1中繪制的直方圖;
根據(jù)所述直方圖中深度像素值波谷確定多個待定閾值區(qū)間;
利用kinect骨骼追蹤技術確定最終閾值區(qū)間,最終閾值區(qū)間為逼近目標的理想深度閾值區(qū)間;
根據(jù)所述最終閾值區(qū)間進行手部目標區(qū)域的圖像分割,獲得分割后的目標區(qū)域圖像。如圖4所示,圖4為本發(fā)明多媒體音量調節(jié)方法實施例1中分割后的目標區(qū)域圖像;
在圖像分割之前,還可以對所述深度圖像進行二值化處理,獲得處理后的深度圖像。手部目標區(qū)域像素點進行圖像二值化處理。整個分割過程基于深度信息,有效避免了光照強度帶來的干擾,保證了即使在外部亮度較低時也能夠進行手勢圖像的識別。
步驟103:提取邊緣參數(shù)特征。根據(jù)分割后的目標區(qū)域圖像,利用sobel算子進行手勢邊緣輪廓檢測,提取邊緣參數(shù)特征。sobel算子即索貝爾算子:計算機視覺領域的一種重要處理方法。主要用于獲得數(shù)字圖像的一階梯度,常見的應用于邊緣檢測。采用sobel算子對整個手勢輪廓進行提取,采用了典型的邊緣參數(shù)特征hu矩及輪廓邊緣參數(shù)特征長度矩作為數(shù)字手勢的識別特征,如圖5所示,圖5a-5b為本發(fā)明多媒體音量調節(jié)方法實施例1中利用sobel算子檢測前后對比圖;其中圖5a為檢測前的圖像,圖5b為檢測后的圖像;hu矩即為用一組簡單的數(shù)據(jù)(圖像描述量)來描述整個圖像,是圖像的用于識別的一組參數(shù)特征。
步驟104:獲得手勢分類結果。根據(jù)提取的邊緣參數(shù)特征利用dag-svms(有向無環(huán)圖支持向量機)分類器獲得手勢分類結果,如圖6所示,圖6為本發(fā)明多媒體音量調節(jié)方法實施例1中手勢分類結果圖。dag-svms(databaseavailabilitygroup-supportvectormchine)即有向無環(huán)圖支持向量機,又稱為可調用數(shù)據(jù)庫支持向量機,其為結構策略圖具有決策導向,且無閉環(huán)結構。
要想實現(xiàn)利用dag-svms作為分類器進行分類,首先需要構建包括多種手勢分類的分類器,具體構建過程如下:
獲得所有手勢的深度圖,如圖7所示,圖7a-7e為本發(fā)明多媒體音量調節(jié)方法實施例1中所有手勢的深度圖像;
獲得所有手勢的目標區(qū)域分割圖,如圖8所示,圖8a-8e為本發(fā)明多媒體音量調節(jié)方法實施例1中所有手勢的深度圖像對應的分割圖;其中圖8a為圖7a對應的分割圖,圖8b為圖7b對應的分割圖,圖8c為圖7c對應的分割圖,圖8d為圖7d對應的分割圖。
利用sobel算子獲得所有手勢的邊緣參數(shù)特征,如圖9所示,圖9為本發(fā)明多媒體音量調節(jié)方法實施例1中所有手勢的邊緣參數(shù)特征圖;采用sobel算子對整個手勢輪廓進行提取,作為分類器分類訓練的模板,采用了典型的邊緣參數(shù)特征hu矩及輪廓邊緣的長度矩參數(shù)作為數(shù)字手勢的識別特征,進行分類器dagsvm(層次分類器)的訓練,構建滿足五類要求的分類器。如圖10所示,圖10a-10e為本發(fā)明多媒體音量調節(jié)方法實施例1中所有手勢對應的分類結果圖。
步驟105:調節(jié)多媒體音量級別。根據(jù)所述手勢分類結果調節(jié)多媒體的音量級別,不同的手勢分類對應不同的音量級別。如圖11所示,圖11為本發(fā)明多媒體音量調節(jié)方法實施例1中音量級別與手勢分類對應圖。其中,不同的數(shù)字手勢對應不同的音量級別,每個音量級別對應音量的具體數(shù)值,也可以根據(jù)實際需求,重新設置每一個音量級別對應的音量數(shù)值。
手勢交互是人機交互中一種十分重要的交互方式,它主要是從計算機視頻圖像中檢測手勢并進行跟蹤、識別,從而理解人的意圖。手勢識別是通過計算機對人的手勢進行的精確解釋,但現(xiàn)行的手勢識別系統(tǒng)之所以不夠普及,很大一部分在于識別算法的實時性和抗干擾性得不到保證。這是因為使用基于計算機視覺圖像處理手段的手勢識別系統(tǒng),在實際操作中會受到光照、遮蔽、陰影等因素的制約,每一種因素的變化都會對最終的識別精度造成影響。
隨著體感游戲的流行,目前基于體感外設3d攝像機kinect的手勢識別技術在大眾視野里已不再陌生,而現(xiàn)如今多媒體已經(jīng)成為一種在報告、會議、教學等活動形式下非常重要的展示方法,運用kinect進行多媒體音量控制,包括ppt內添加的視頻內容等音量的大小控制可以最大程度的簡化多媒體演示形式,使整個多媒體控制過程變得更加便捷,提高了展示操作人傳授知識的效率。
通過研究深度數(shù)據(jù)的手勢識別技術來準確判斷不同的手勢,并在識別過程中降低光照強度給識別精度帶來的影響。采用優(yōu)化算法提高手勢識別準確率,保證手勢識別的實時性,實現(xiàn)數(shù)字手勢對多媒體播放器音量進行精確的短程控制。
實施例2:
圖12為本發(fā)明多媒體音量調節(jié)方法實施例2的流程圖;如圖12所示,圖12為按照本發(fā)明多媒體音量調節(jié)方法執(zhí)行的具體流程圖。輸出的分類結果圖趣圖13所示,圖13為本發(fā)明多媒體音量調節(jié)方法實施例2的分類結果圖;圖中顯示,分類結果為第1類手勢,對應根據(jù)手勢分類結果調節(jié)多媒體音量的級別為1級,本實施例中第一級音量級別對應的音量大小為20;如圖14所示,圖14為本發(fā)明多媒體音量調節(jié)方法實施例2的音量調節(jié)示意圖。
圖15為本發(fā)明多媒體音量調節(jié)系統(tǒng)結構圖。如圖15所示,該系統(tǒng)包括:
深度圖像獲取模塊1501,用于獲取用戶手勢的深度圖像,所述深度圖像包括所述用戶手勢中手部關節(jié)的空間坐標;所述深度圖像獲取模塊1505具體可以采用kinect攝像機,根據(jù)鏡頭前的用戶手勢,獲取所述用戶手勢的深度圖像。
圖像分割模塊1502,用于對所述深度圖像進行手部目標區(qū)域的圖像分割,獲得分割后的目標區(qū)域圖像;圖像分割模塊1502具體包括:
直方圖繪制單元,用于根據(jù)所述深度圖像繪制圖像深度直方圖;
待定閾值區(qū)間確定單元,用于根據(jù)所述直方圖中深度值波谷確定多個待定閾值區(qū)間;
最終閾值區(qū)間確定單元,用于利用kinect骨骼追蹤技術確定最終閾值區(qū)間;
圖形分割單元,用于根據(jù)所述最終閾值區(qū)間進行手部目標區(qū)域的圖像分割,獲得分割后的目標區(qū)域圖像。
邊緣參數(shù)特征提取模塊1503,用于根據(jù)所述目標區(qū)域圖像,利用sobel算子進行手勢邊緣輪廓檢測,提取邊緣參數(shù)特征;邊緣參數(shù)特征包括邊緣參數(shù)特征hu矩和輪廓邊緣參數(shù)特征長度矩,邊緣參數(shù)特征提取模塊1503利用hu矩與長度矩的手勢邊緣特征作為數(shù)字手勢圖像的特征,提取邊緣參數(shù)特征hu矩和輪廓邊緣參數(shù)特征長度矩。
手勢分類結果獲取模塊1504,用于根據(jù)所述邊緣參數(shù)特征利用dag-svms分類器獲得手勢分類結果;
音量調節(jié)模塊1505,用于根據(jù)所述手勢分類結果調節(jié)多媒體的音量級別,不同的手勢分類對應不同的音量級別。
所述系統(tǒng)還可以包括:二值化處理模塊,用于對所述深度圖像進行手部目標區(qū)域的圖像分割之前,對所述深度圖像進行二值化處理,獲得處理后的深度圖像。
本說明書中各個實施例采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似部分互相參見即可。對于實施例公開的系統(tǒng)而言,由于其與實施例公開的方法相對應,所以描述的比較簡單,相關之處參見方法部分說明即可。
本文中應用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領域的一般技術人員,依據(jù)本發(fā)明的思想,在具體實施方式及應用范圍上均會有改變之處。綜上所述,本說明書內容不應理解為對本發(fā)明的限制。