專利名稱::一種基于手持設(shè)備運(yùn)動檢測的實(shí)時人機(jī)交互方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及數(shù)字圖像處理和計(jì)算機(jī)視覺
技術(shù)領(lǐng)域:
,特別是涉及一5種基于手持設(shè)備運(yùn)動檢測的實(shí)時人機(jī)交互方法和系統(tǒng)。
背景技術(shù):
:目前,基于視頻的運(yùn)動檢測技術(shù)得到越來越廣泛的應(yīng)用,研究人員提出了很多針對目標(biāo)具體運(yùn)動的檢測方法,但到目前為止還沒有任何一種已有的方法能夠普適的解決不同分辨率和不同拍攝質(zhì)量(特別10是低分辨率和低質(zhì)量采集設(shè)備)的視頻中的運(yùn)動檢測問題。從運(yùn)動檢測的發(fā)展而言,主要包括對視頻中每一幀的部分區(qū)域運(yùn)動的檢測和對于圖像背景的全局運(yùn)動或攝影機(jī)運(yùn)動檢測兩方面。前者廣泛應(yīng)用于視頻壓縮和發(fā)布領(lǐng)域,后者主要應(yīng)用于視頻檢索領(lǐng)域。而MV(MotionVector,運(yùn)動矢量)提取技術(shù)因擁有亞像素級的精確性、靈活的搜索15范圍和快速的算法,特別是芯片級的硬件優(yōu)化支持等方面優(yōu)異的性能,已經(jīng)成為兩者,特別是前者中最具代表性和部分標(biāo)準(zhǔn)化的技術(shù),因此運(yùn)動矢量提取技術(shù)有可能在手持設(shè)備運(yùn)動檢測的方面得到很好的應(yīng)用?,F(xiàn)在,以手機(jī)、PDA(PersonalDigitalAssistant,個人數(shù)字助理)20為代表的手持設(shè)備的巿場規(guī)模在迅速增長。與之相應(yīng)的,手持設(shè)備的配置高端化和應(yīng)用局限性之間的矛盾日益突出。具體來說,隨著大尺寸顯示屏、照相機(jī)和無線網(wǎng)絡(luò)接入裝置的廣泛配置,用戶對諸如圖像瀏覽、互聯(lián)網(wǎng)接入和游戲等應(yīng)用的呼聲提高,而手持設(shè)備受制于輸入數(shù)據(jù)自由度低(通常是各種機(jī)械設(shè)備,諸如鍵盤、指點(diǎn)桿等)、顯示25精度有限(一般屏幕尺寸低于2.5英寸,分辨率不高于320x240像素)、自然性差、友好性欠缺的用戶交互方式,使得上述應(yīng)用的舒適性和智能性難以保證。因此需要一種利用現(xiàn)有手持設(shè)備的硬件,以控制屏幕目標(biāo)為目的的更為自然、直觀、易用的手持設(shè)備交互方法??紤]到用戶控制手持設(shè)備運(yùn)動的自然性和多數(shù)手持設(shè)備具備視頻采集裝置(攝像頭),通過手持設(shè)備實(shí)時采集的視頻判斷手持設(shè)備的運(yùn)動,5進(jìn)而理解用戶搡作的指令來完成特定應(yīng)用的交互(如圖片瀏覽、網(wǎng)頁瀏覽、游戲控制),是一種可行的途徑。現(xiàn)在,基于手持設(shè)備實(shí)時采集的視頻進(jìn)行運(yùn)動檢測的方法有以下幾種一種方法通過分析機(jī)器人攜帶攝像機(jī)的視頻獲得機(jī)器人的運(yùn)動io信息,通過SIFT特征點(diǎn)和擴(kuò)展Kalman濾波提取信息,但因技術(shù)復(fù)雜且需實(shí)時獲得對控制機(jī)器人機(jī)械運(yùn)動至關(guān)重要的深度視覺信息,目前僅能通過手工標(biāo)記初始化進(jìn)行且在特定場景(如均勻背景)下生存率較低。另一種方法通過手持設(shè)備采集視頻,分析場景中的運(yùn)動信息,用15于虛擬現(xiàn)實(shí)的場景融合,目前尚需結(jié)合手持輔助性的柵格模板幫助理解二維運(yùn)動信息。再一種方法則側(cè)重于結(jié)合手持設(shè)備的視頻分析運(yùn)動信息,輔助控制GPS導(dǎo)航圖,這一應(yīng)用在釆用特征點(diǎn)的檢測技術(shù)和實(shí)時性實(shí)驗(yàn)數(shù)據(jù)等方面還沒有令人滿意的結(jié)果。20因此,基于手持設(shè)備實(shí)時采集的視頻進(jìn)行運(yùn)動檢測是一個特殊的運(yùn)動檢測問題,相關(guān)的方法目前尚不能很好的適應(yīng)不同場景,或因需輔助設(shè)備,或未面向用戶的日常應(yīng)用,或缺乏實(shí)用性的支持;另一方面基于運(yùn)動矢量提取的手持設(shè)備運(yùn)動檢測困難也很多,主要表現(xiàn)在(1)手持設(shè)備提供的釆集視頻質(zhì)量較差。目前巿場上手持設(shè)備25配置的攝像頭感光元件品質(zhì)相對較低,受光照條件制約很大,其靜態(tài)感光性能低于200M像素,感光面積低于l/4英寸;釆集的視頻,其圖像分辨率遠(yuǎn)低于普通攝影機(jī),一般為320x240像素或352x288像素;幀率低于普通攝影機(jī),一般為10幀-15幀每秒,圖像邊緣畸變,在快速運(yùn)動下模糊性顯著;很難根據(jù)部分特征點(diǎn)獲取運(yùn)動信息,必須充分利用大部分圖像信息。(2)受限于視頻的低分辨率和圖像的邊緣畸變,搜索范圍局限,5而插值提升圖像質(zhì)量則置信度很低,因此,直接應(yīng)用傳統(tǒng)的基于運(yùn)動矢量的方法很難保證有效性和真實(shí)性。(3)手持設(shè)備的處理能力有限,特別是多任務(wù)的狀態(tài)下工作性能無法保證,限制了算法的復(fù)雜度;必須限制局部運(yùn)動矢量搜索的范圍和統(tǒng)計(jì)方法的復(fù)雜性;另一方面,設(shè)定的手持設(shè)備應(yīng)用一般為實(shí)時io應(yīng)用,特別是在游戲控制的要求下,對實(shí)時性和操作的檢測準(zhǔn)確性都有很高要求,全局運(yùn)動矢量的必須快速、準(zhǔn)確。(4)必須提供將獲取的運(yùn)動信息與應(yīng)用的交互自然匹配的指令集。由于上述四個方面的困難,目前在廣播級的視頻檢索和視頻壓縮15中的基于運(yùn)動矢量的檢測技術(shù)無法直接有效地為手持設(shè)備提供實(shí)時、精確的運(yùn)動信息和交互方式。
發(fā)明內(nèi)容本發(fā)明實(shí)施例要解決的問題是提供一種基于手持設(shè)備運(yùn)動檢測的實(shí)時人機(jī)交互方法和系統(tǒng),以克服現(xiàn)有技術(shù)中手持設(shè)備數(shù)據(jù)輸入方20式受限和用戶交互自然性差的缺陷。為達(dá)到上述目的,本發(fā)明實(shí)施例的技術(shù)方案提供一種基于手持設(shè)備運(yùn)動檢測的實(shí)時人機(jī)交互方法,包括以下步驟A、將來自手持設(shè)備釆集的視頻進(jìn)行預(yù)處理,獲取分塊圖像幀;B、對所述分塊圖像幀的各塊進(jìn)行運(yùn)動矢量搜索并通過有效運(yùn)動25矢量分類器進(jìn)行標(biāo)記,獲取有效的局部運(yùn)動矢量;C、根據(jù)所述局部運(yùn)動矢量,獲取全局運(yùn)動矢量;D、根據(jù)所述全局運(yùn)動矢量和對應(yīng)的交互指令進(jìn)行人機(jī)交互。其中,在步驟B之前,還包括離線訓(xùn)練有效運(yùn)動矢量分類器的步驟,所述步驟包括Bl、從訓(xùn)練視頻中選取多組參考塊,并手工標(biāo)定其參考運(yùn)動矢量和有效性;5B2、對所述多組參考塊進(jìn)行運(yùn)動矢量搜索,并根據(jù)公式<formula>formulaseeoriginaldocumentpage9</formula>確定塊的搜索殘差,其中,RSSD幼為均方誤差,H(z',力為塊內(nèi)位置(A力像素的灰度值;B3、根據(jù)所述均方誤差i^。和候選塊的運(yùn)動矢量的最小均方誤差1Gl,擬合為公式<formula>formulaseeoriginaldocumentpage9</formula>所示的二次曲線,其中,<formula>formulaseeoriginaldocumentpage9</formula><formula>formulaseeoriginaldocumentpage9</formula>和<formula>formulaseeoriginaldocumentpage9</formula>為系數(shù);B4、根據(jù)公式<formula>formulaseeoriginaldocumentpage9</formula>如果五<formula>formulaseeoriginaldocumentpage9</formula>獲取參數(shù)C,其中,<formula>formulaseeoriginaldocumentpage9</formula>,B5、由所述參數(shù)C和^作為門限值生成有效運(yùn)動矢量分類器。其中,所述通過有效運(yùn)動矢量分類器進(jìn)行標(biāo)記的步驟具體包括2Q根據(jù)所述參數(shù)C和<formula>formulaseeoriginaldocumentpage9</formula>判斷所述局部運(yùn)動矢量是否有效,如果<formula>formulaseeoriginaldocumentpage9</formula>々,則所述局部運(yùn)動矢量無效,否則所述局部運(yùn)動矢量有效,其中Tc為C的門限,Tr為Rmin的門限,Rmin和C在由參數(shù)"和〃確定的直線分割的半平面一側(cè);根據(jù)所述判斷結(jié)果,標(biāo)定所述各塊的局部運(yùn)動矢量的有效性。其中,所述將來自手持設(shè)備釆集的視頻進(jìn)行預(yù)處理的步驟具體包括Al、將來自手持設(shè)備采集的視頻分解為相鄰的圖像幀,形成獨(dú)立的靜止圖像集;A2、根據(jù)公式<formula>formulaseeoriginaldocumentpage10</formula>將彩色圖像數(shù)據(jù)轉(zhuǎn)化為灰度圖像數(shù)據(jù),其中,y(i,j)為變換后灰度圖像幀中位置(i,j)對應(yīng)像素的灰度值,及(i,j)為圖像幀中位置(i,j)對應(yīng)像素的紅彩色分量,G(i,j)為圖像幀中位置(i,j)對應(yīng)像素的綠彩色分量,B(i,j)為圖像幀中位置(i,j)對應(yīng)像素的藍(lán)彩色分量;A3、將所述灰度圖像劃分的單位為正方形的圖像塊。其中,在步驟A1中,所述靜止圖像集保存當(dāng)前輸入的圖像幀和前一圖像幀。其中,步驟C具體包括Cl、根據(jù)公式<formula>formulaseeoriginaldocumentpage10</formula>將當(dāng)前幀的局部運(yùn)動矢量分量分別映射為對應(yīng)坐標(biāo)的直方圖,其中,NX和NY分別為局部運(yùn)動矢量搜索范圍的邊界,J(WVi,j)為運(yùn)動矢量分類的有效性標(biāo)志;C2、根據(jù)公式<formula>formulaseeoriginaldocumentpage10</formula>將所述直方圖變換為加權(quán)直方圖,其中,Wx和Wy分別為在X和Y方向上的直方圖加權(quán)系數(shù),以選取有效的非零矢量;C3、根據(jù)公式<formula>formulaseeoriginaldocumentpage11</formula>對所述加權(quán)直方圖進(jìn)行高斯濾波,形成對應(yīng)于全局運(yùn)動矢量的主峰。其中,步驟C3中所述公式產(chǎn)生的高斯濾波器為<formula>formulaseeoriginaldocumentpage11</formula>5本發(fā)明實(shí)施例的技術(shù)方案還提供一種基于手持設(shè)備運(yùn)動檢測的實(shí)時人機(jī)交互系統(tǒng),所述系統(tǒng)包括預(yù)處理裝置,用于將來自手持設(shè)備采集的視頻進(jìn)行預(yù)處理,獲取分塊圖像幀;有效的局部運(yùn)動矢量獲取裝置,用于對所述分塊圖像幀的各塊進(jìn)io行運(yùn)動矢量搜索并通過有效運(yùn)動矢量分類器進(jìn)行標(biāo)記,獲取有效的局部運(yùn)動矢量;全局運(yùn)動矢量獲取裝置,用于根據(jù)所述局部運(yùn)動矢量,獲取全局運(yùn)動矢量;人機(jī)交互裝置,用于根據(jù)所述全局運(yùn)動矢量和對應(yīng)的交互指令進(jìn)15行人機(jī)交互。其中,所述系統(tǒng)還包括有效運(yùn)動矢量分類器訓(xùn)練裝置,用于對傳統(tǒng)運(yùn)動矢量的搜索結(jié)果進(jìn)行分類,選取能夠反映真實(shí)的手持設(shè)備運(yùn)動的有效運(yùn)動矢量。其中,所述預(yù)處理裝置包括20視頻分解單元,用于將來自手持設(shè)備釆集的視頻分解為相鄰的圖像幀,形成獨(dú)立的靜止圖像集;灰度變換單元,用于將彩色圖像數(shù)據(jù)轉(zhuǎn)化為灰度圖像數(shù)據(jù);圖像分割單元、用于將所述灰度圖像劃分的單位為正方形的圖像塊。25與現(xiàn)有技術(shù)相比,本發(fā)明的技術(shù)方案具有如下優(yōu)點(diǎn)本發(fā)明通過用戶控制設(shè)備運(yùn)動,手持設(shè)備通過對所拍攝視頻分析,準(zhǔn)確地分析二維全局運(yùn)動矢量,理解設(shè)備的運(yùn)動,進(jìn)而完成確定操作的人機(jī)交互方法。本發(fā)明對用戶具備自然性、易懂性,可完成實(shí)時、精確的交互式應(yīng)用,適合多種具備視頻釆集功能的手機(jī)、PDA5等手持設(shè)備。圖l是本發(fā)明的一種基于手持設(shè)備運(yùn)動檢測的實(shí)時人機(jī)交互方法的流程圖2是圖1中預(yù)處理過程的流程圖;io圖3是圖1中全局運(yùn)動矢量獲取過程的流程圖。具體實(shí)施例方式下面結(jié)合附圖和實(shí)施例,對本發(fā)明的具體實(shí)施方式作進(jìn)一步詳細(xì)描述。以下實(shí)施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。本發(fā)明的一種基于手持設(shè)備運(yùn)動檢測的實(shí)時人機(jī)交互方法的流15程如圖1所示,包括如下四個部分(1)離線訓(xùn)練有效局部運(yùn)動矢量分類器和全局運(yùn)動矢量濾波器;(2)實(shí)時通過手持設(shè)備視頻釆集裝置獲取視頻;(3)在線視頻分析,搜索局部運(yùn)動矢量,提取全局運(yùn)動矢量進(jìn)而理解手持設(shè)備運(yùn)動信息;(4)基于測量得到的手持設(shè)備的運(yùn)動信息和對應(yīng)的交互指令完成特定應(yīng)用的交互。發(fā)明選擇視頻的運(yùn)動矢20量分析為基礎(chǔ),進(jìn)行局部運(yùn)動矢量的有效性分類器的訓(xùn)練和全局運(yùn)動矢量濾波器的調(diào)整,根據(jù)訓(xùn)練所得分類器對視頻進(jìn)行有效的局部運(yùn)動矢量提取,根據(jù)調(diào)整所得的全局運(yùn)動矢量濾波器過濾提取到的有效局部運(yùn)動矢量獲得準(zhǔn)確的全局運(yùn)動信息,進(jìn)而獲得手持設(shè)備的運(yùn)動,并以此為依據(jù),對照預(yù)先定義好的交互指令集完成交互。發(fā)明選擇以運(yùn)25動矢量為基礎(chǔ),并進(jìn)行分類和濾波的特點(diǎn)在于1)大多數(shù)的手持設(shè)備在三維空間內(nèi)交互操作反映在視頻中是二維的運(yùn)動,而圖片瀏覽、網(wǎng)頁瀏覽和游戲控制等應(yīng)用中的目標(biāo)二維1移動是最為頻發(fā)控制方式,且在交互動作的實(shí)時性和精確性方面的要求很高。因此通過識別手持設(shè)備在視頻中的二維運(yùn)動進(jìn)行交互是一種十分自然的方式。2)視頻的運(yùn)動矢量信息是建立在視頻中的目標(biāo)在相鄰幀之間5滿足二維的光流運(yùn)動這一假設(shè)上的,即目標(biāo)在相鄰幀的短時間隔內(nèi)的亮度和色彩都不發(fā)生改變。運(yùn)動矢量即為通過匹配相鄰幀中亮度或色彩相同的塊而獲得的匹配塊間的相對位移矢量。于是通過確定運(yùn)動矢量可以獲得釆集裝置視野內(nèi)物體在相鄰幀(即該時間間隔內(nèi))的二維運(yùn)動;如果視野內(nèi)的物體是靜止的,進(jìn)而確定釆集裝置的相對二維運(yùn)10動。3)檢測手持設(shè)備的視頻釆集裝置的二維運(yùn)動可以利用視野內(nèi)的全部信息,通過本發(fā)明的分類和濾波,可以提取出有效的局部運(yùn)動矢量和真實(shí)的全局運(yùn)動矢量,可有效的抵御手持設(shè)備的視頻釆集裝置因光照條件、感光元件質(zhì)量和分辨率等不利條件,實(shí)時獲取精確的運(yùn)15動信息,特別適用于在各種環(huán)境條件和各種中低端配置的手持終端應(yīng)用。4)通過二維的全局運(yùn)動矢量易于定義二維的交互指令。圖1中預(yù)處理過程的流程如圖2所示,預(yù)處理部分是將來自手持設(shè)備釆集的視頻進(jìn)行處理,提供局部運(yùn)動矢量搜索的數(shù)據(jù)準(zhǔn)備。20目前主流的手持設(shè)備以手機(jī)和PDA為主,其上配置的視頻頭一般為CMOS部件,提供照片拍攝和視頻釆集的功能,感光元件一般低于200萬像素。限于處理能力,不同的手持設(shè)備提供的拍攝視頻一般為分辨率QVGA(320x240像素)或CIF(352x288像素),幀率則最高為15幀每秒。因此在我們的系統(tǒng)設(shè)定為處理典型的手持設(shè)備視25頻分辨率320x240和10幀每秒的未經(jīng)壓縮處理的原始視頻的裝置。面對未來更為高端的視頻釆集裝置來說,則可以通過降低采樣的方式進(jìn)行處理,則在有效的提供交互功能的同時進(jìn)一步節(jié)省系統(tǒng)資源。視頻為從采集設(shè)備輸入的圖像幀的序列,首先在預(yù)處理部分分解為相鄰的圖像幀,形成獨(dú)立的靜止圖像集。限于手持設(shè)備的處理能力,在本發(fā)明的裝置中僅緩存當(dāng)前輸入的圖像幀和前一圖像幀進(jìn)行運(yùn)動5對輸入為彩色圖像幀首先進(jìn)行灰度變換,依據(jù)式(1)將彩色圖像數(shù)據(jù)轉(zhuǎn)化為灰度圖像數(shù)據(jù)<formula>complexformulaseeoriginaldocumentpage14</formula>式(l)中i(/,y),g(/,力,萬"力分別表示圖像幀中位置(/,力對應(yīng)像素的紅,綠,藍(lán)彩色分量,而ray)則為變換后灰度圖像幀中位置(w)對應(yīng)像素的灰度值。經(jīng)過灰度變換后的圖像為320x240像素,每像素10用8bit灰度值表示。為了進(jìn)行運(yùn)動矢量的搜索,還要對所得灰度圖像進(jìn)行塊劃分,劃分的單位為正方形的圖像塊。這里釆用16xl6像素為劃分標(biāo)準(zhǔn),將每幀灰度圖像劃分為300個塊以便后續(xù)的運(yùn)動矢量搜索的進(jìn)行。圖1中還包括離線有效運(yùn)動矢量分類器的訓(xùn)練過程,該過程包15括基于塊匹配的傳統(tǒng)運(yùn)動矢量搜索是通過最小化當(dāng)前幀與前一圖像幀之間塊的殘差實(shí)現(xiàn)的。但在分辨率較低的手持設(shè)備視頻中,由于每幀包含的塊相對較少,處于靠近邊緣處的塊可搜索的范圍更少,因此使用傳統(tǒng)搜索方法所得的運(yùn)動矢量不能確保反映視野內(nèi)目標(biāo)的真20實(shí)運(yùn)動。特別是在快速運(yùn)動的背景,大面積均勻紋理的區(qū)域和手持設(shè)備抖動的條件下結(jié)果更加惡化。本發(fā)明對傳統(tǒng)運(yùn)動矢量的搜索結(jié)果進(jìn)行分類,從中選取能夠反映真實(shí)的手持設(shè)備運(yùn)動的運(yùn)動矢量,稱為有效運(yùn)動矢量以便后續(xù)處理。本發(fā)明假定包含有效運(yùn)動矢量的塊包含以下兩個特征25對應(yīng)于該塊搜索結(jié)果的運(yùn)動矢量mf("')-(m^,m^)的最小殘差^in應(yīng)最小化;該塊與前一圖像幀內(nèi)其他的候選塊間的殘差應(yīng)遠(yuǎn)大于&in?;谶@兩個特征,本發(fā)明通過下述原理確定訓(xùn)練器的參數(shù)。從大量的訓(xùn)練視頻中隨機(jī)的選取1000組參考塊,并手工標(biāo)定其參考運(yùn)動矢量MV和有效性。5對這1000組參考塊釆用傳統(tǒng)的鉆石搜索算法進(jìn)行運(yùn)動矢量搜索,并釆用均方誤差準(zhǔn)則(如式(2),其中H(/,力表示該塊內(nèi)位置"y')像素的灰度值)確定塊的搜索殘差;每個搜索塊可以得到13處候選的運(yùn)動矢量,分別對應(yīng)13組均方誤差i^m,其中最小值記作^min。1515及咖=SZ"當(dāng)前塊0',力_"候選塊0',力(2),=0乂=0記Aw為候選運(yùn)動矢量r)的函數(shù),則上述各值可擬合為式1G(3)中的二次曲線w鵬=cx《+cryA2十;^,其中Xa=x—M^,yA=r—MFy,〖、上述式(3)中的系數(shù)和最小二乘法進(jìn)行曲線擬合得到,式(3)中兩式分別代表兩種橢圓軸方向,相差45°,兩式計(jì)算所得^D之和^^4較小的一方選做有效運(yùn)動矢量分析,如式(4)。于是L和f〃c。、(G,O中較小的一組將聯(lián)合反映前文有效運(yùn)動矢量具備15的兩個特征。<formula>formulaseeoriginaldocumentpage15</formula>為更為明確地精簡參數(shù),這里定義參數(shù)c為cjV^,如果五"4(5)y^,如果五"A基于上述參數(shù)c和^u的有效運(yùn)動矢量分類器即為兩個參數(shù)的門P艮。更確切的說,本發(fā)明定義的分類器由4個參數(shù);&,《,/構(gòu)成。如果一個運(yùn)動矢量無效,則L過小,小于門限、C過大,超過門限^;或者居于由^U和C的某個線性劃分的平面一側(cè)。反之即為有效,如式(6)所示,其中,rc、7^、《、A均為通過訓(xùn)練器獲得的約東C和l的門限;Tc為C的門限,7^為iC的門限,而依據(jù)線性分類器的意義,l和C應(yīng)在由參數(shù)"和"確定的直線分割的半平面一側(cè)。f無效,如果(c<&)或>。或(T^>"c+釣i有效,其他(6)5通過手工標(biāo)定的IOOO組運(yùn)動矢量的有效性,進(jìn)行聚類獲得上述4個分類器的參數(shù),完成訓(xùn)練。圖1中局部運(yùn)動矢量的搜索和分類過程包括通過預(yù)處理后的分塊圖像幀對各塊進(jìn)行運(yùn)動矢量搜索并通過上述有效運(yùn)動矢量分類器進(jìn)行標(biāo)記,僅保留有效的運(yùn)動矢量。io受限于手持設(shè)備的釆集裝置的光學(xué)特性,同時也為降低搜索的運(yùn)算量,本發(fā)明的搜索塊選取靠近畫面中心的部分,舍棄邊緣塊,并對集中程度做相應(yīng)調(diào)整。圖l中全局運(yùn)動矢量獲取過程的流程如圖3所示,包括以下步驟限于交互應(yīng)用的是手持設(shè)備(即為其上的視頻釆集裝置)的運(yùn)動15特征,因此需要通過一定的統(tǒng)計(jì)手段從幀內(nèi)的塊運(yùn)動矢量得到全局運(yùn)動矢量。本發(fā)明釆用基于局部運(yùn)動矢量直方圖的級聯(lián)多模式全局矢量提取框架,其主峰將對應(yīng)所需的全局運(yùn)動矢量,框圖如圖3所示。具體步驟如下將當(dāng)前幀的局部運(yùn)動矢量分量分別映射為對應(yīng)坐標(biāo)(X坐標(biāo)和Y20坐標(biāo))的直方圖,如式(7):其中A^和iVy分別表示局部運(yùn)動矢量搜索范圍的邊界(像素),J為上述運(yùn)動矢量分類的有效性標(biāo)志。在出現(xiàn)均勻背景時,有效運(yùn)動矢量將出現(xiàn)很多O矢量,從中抽取的全局矢量將被集中為O,從而無法反映真實(shí)運(yùn)動。為提高置信度,以式(8)的方式變換為加權(quán)直方圖的形式。<formula>formulaseeoriginaldocumentpage17</formula>其中『x和『y分別為在X和Y方向上的直方圖加權(quán)系數(shù),以選5取有效的非零矢量。在本發(fā)明的中分別設(shè)定為^=1.5和^=1.2。在用戶操作中攝入的視野含有運(yùn)動的物體時,局部矢量搜索將產(chǎn)生集中于一個較小區(qū)間內(nèi)的直方圖形式,其中任何一個位都不足以在加權(quán)直方圖中取得優(yōu)勢,因此釆用高斯濾波器對加權(quán)直方圖進(jìn)行濾波以形成對應(yīng)于全局運(yùn)動矢量的主峰。2N+1階高斯濾波器的產(chǎn)生如下io式(9)所示<formula>formulaseeoriginaldocumentpage17</formula>在本發(fā)明中,上式(9)所產(chǎn)生的高斯濾波器設(shè)定為嗣二0.0545z2+0.2442z+0.4026+0.2442z—1+0.0545z-2(10)上述提取過程,其優(yōu)勢在于彌補(bǔ)了因幀內(nèi)有效局部運(yùn)動矢量不足帶來的全局統(tǒng)計(jì)樣本缺失和由于釆集方式和條件的多樣性帶來的統(tǒng)計(jì)數(shù)據(jù)置信度降低的缺陷,從而使得本發(fā)明的運(yùn)動檢測更為精確,能15夠適應(yīng)不同環(huán)境下交互的需要。圖1中人機(jī)交互控制的過程包括由上述級聯(lián)的全局運(yùn)動矢量提取的全局運(yùn)動矢量形式為^GM^,GMF》,是一組以像素為單位,包含了大小和方向的二維運(yùn)動特征量。這一特征量可能的應(yīng)用交互包括下面幾種形式20圖像瀏覽。因?yàn)槭殖衷O(shè)備的屏幕分辨率較低,目前中低端手機(jī)的屏幕分辨率在220x176或320x240像素,在瀏覽較大分辨圖片如1600x1200像素,可以通過移動手持設(shè)備的方式獲取的全局運(yùn)動矢量,控制所瀏覽的圖像區(qū)域,觀看細(xì)節(jié)。這對于拍攝圖像的檢查非常重要。配合可選的放縮指令,則可能實(shí)現(xiàn)任意尺度和任意局部的瀏覽5功能。網(wǎng)頁瀏覽。基于與l)相似的原因,可以通過移動手持設(shè)備的方式產(chǎn)生的全局運(yùn)動矢量,在大分辨率的網(wǎng)頁中移動,放縮和自動滾屏。游戲操作。在這一功能中,移動手持設(shè)備產(chǎn)生的全局運(yùn)動矢量可以起到類似微機(jī)的光學(xué)鼠標(biāo)的特性,從而完成二維圖形游戲中目標(biāo)移io動的精確而舒適的操作。經(jīng)過研究發(fā)現(xiàn),在圖像或網(wǎng)頁中,手持設(shè)備的屏幕畫面可映射為相當(dāng)于屏幕分辨率的一個矩形區(qū)域,而通過全局運(yùn)動矢量控制該矩形區(qū)域在圖像和網(wǎng)頁中的二維移動;特別地,根據(jù)人的視覺特性,全局運(yùn)動矢量映射八個自然的方向,如表l所示;其后依據(jù)映射所得之方15向在圖像或網(wǎng)頁中移動上述矩形區(qū)域,而移動的步長則略有不同圖像瀏覽的步長為運(yùn)動矢量之歐氏度量,如式(ll)所示;而網(wǎng)頁瀏覽則采用固定步長。<formula>formulaseeoriginaldocumentpage18</formula>(11)在游戲控制中,目標(biāo)的移動要相對精確,因此直接以各分量控制在屏幕坐標(biāo)上水平和垂直移動的步長。20表1<table>tableseeoriginaldocumentpage18</column></row><table><table>tableseeoriginaldocumentpage19</column></row><table>表2<table>tableseeoriginaldocumentpage19</column></row><table>本發(fā)明釆用配置為130M像素CMOS視頻頭手機(jī)釆集測試視頻,在配置為PentiumM2.4GHz,1G內(nèi)存,搭載MicrosoftWindowsXP的微機(jī)平臺,測試根據(jù)測試視頻提取全局運(yùn)動矢量核心方法。5在局部矢量訓(xùn)練階段,隨機(jī)選取1000幀圖像,手工標(biāo)定運(yùn)動矢量,完成訓(xùn)練。在測試階段,共拍攝20段不同場景的測試視頻,每段視頻包含300幀圖像,涵蓋不同光照條件和不同運(yùn)動方式。表3說明了在測試階段反映了本發(fā)明的性能,(20段視頻,共6000io幀圖像)表3<table>tableseeoriginaldocumentpage19</column></row><table>可見本發(fā)明的表現(xiàn)在準(zhǔn)確性上是優(yōu)秀的。使用IntelVtime官方軟件評估本發(fā)明的視頻處理過程系統(tǒng)負(fù)擔(dān)情況下,在PentiumM2.4GHz,SpeedStep節(jié)能模式條件下測試,平均消耗CPU處理時間3.63%。對比的當(dāng)前配置較高的手機(jī)Nokia、Samsung、SonyErisson等品牌手機(jī)上普遍采用的處理器IntelCPU5PXA270,其主頻為520MHz,同樣釆用SpeedStep進(jìn)行功耗和運(yùn)算的平衡,因此可以近似在運(yùn)算速度上為4.36倍,以此估算核心算法在PXA270平臺上的占用為14.4%,對于單任務(wù)的情況下可以應(yīng)用。此外,用于手持設(shè)備的CPU有針對攝像頭讀取和低分辨率顯示控制的硬件優(yōu)化,因此io在沒有此類優(yōu)化的臺式機(jī)和筆記本相比,消耗系統(tǒng)資源大大降低,比如在PXA270CPU上提供高級相機(jī)接口Intel(r)QuickCapture技術(shù)支持?jǐn)z像頭數(shù)字視頻直接釆集和低功耗實(shí)時預(yù)覽模式;而其增強(qiáng)型LCD控制器提供256KB片上SRAM提供更快的視頻加速,可進(jìn)一步降低系統(tǒng)消耗。15因此在平臺適應(yīng)性的角度,本發(fā)明是可以在當(dāng)前和未來更高級的手持設(shè)備平臺上實(shí)時運(yùn)行的。以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對于本
技術(shù)領(lǐng)域:
的普通技術(shù)人員來說,在不脫離本發(fā)明技術(shù)原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。權(quán)利要求1、一種基于手持設(shè)備運(yùn)動檢測的實(shí)時人機(jī)交互方法,其特征在于,包括以下步驟A、將來自手持設(shè)備采集的視頻進(jìn)行預(yù)處理,獲取分塊圖像幀;B、對所述分塊圖像幀的各塊進(jìn)行運(yùn)動矢量搜索并通過有效運(yùn)動矢量分類器進(jìn)行標(biāo)記,獲取有效的局部運(yùn)動矢量;C、根據(jù)所述局部運(yùn)動矢量,獲取全局運(yùn)動矢量;D、根據(jù)所述全局運(yùn)動矢量和對應(yīng)的交互指令進(jìn)行人機(jī)交互。2、如權(quán)利要求1所述的基于手持設(shè)備運(yùn)動檢測的實(shí)時人機(jī)交互io方法,其特征在于,在步驟B之前,還包括離線訓(xùn)練有效運(yùn)動矢量分類器的步驟,所述步驟包括Bl、從訓(xùn)練視頻中選取多組參考塊,并手工標(biāo)定其參考運(yùn)動矢量和有效性;B2、對所述多組參考塊進(jìn)行運(yùn)動矢量搜索,并根據(jù)公式1515確定塊的搜索殘差,其中,及,為均方誤差,H("')為塊內(nèi)位置(z',力像素的灰度值;B3、根據(jù)所述均方誤差i^。和候選塊的運(yùn)動矢量的最小均方誤差l,擬合為公式20、4x;+《2+i^n所示的二次曲線,其中,jA=x-m^,yA=:r-mj^,zA=(%A+。/V^,A)/i,(C^,Cy)和((^,《)為系數(shù);B4、根據(jù)公式c—^^,如果五"五f25獲取參數(shù)c,其中,q《-ca2-u,候選位置候選位置B5、由所述參數(shù)C和/C作為門限值生成有效運(yùn)動矢量分類器。3、如權(quán)利要求2所述的基于手持設(shè)備運(yùn)動檢測的實(shí)時人機(jī)交互方法,其特征在于,所述通過有效運(yùn)動矢量分類器進(jìn)行標(biāo)記的步驟具體包括根據(jù)所述參數(shù)C和l判斷所述局部運(yùn)動矢量是否有效,如果C〈rc或i^in〉r及或i^in〉aC+Z,則所述局部運(yùn)動矢量無效,否則所述局部運(yùn)動矢量有效,其中^為C的門限,7^為iC的門限,l和C在由參數(shù)"和"確定的直線分割的半平面一側(cè);1G根據(jù)所述判斷結(jié)果,標(biāo)定所述各塊的局部運(yùn)動矢量的有效性。4、如權(quán)利要求1所述的基于手持設(shè)備運(yùn)動檢測的實(shí)時人機(jī)交互方法,其特征在于,所述將來自手持設(shè)備釆集的視頻進(jìn)行預(yù)處理的步驟具體包括Al、將來自手持設(shè)備釆集的視頻分解為相鄰的圖像幀,形成獨(dú)15立的靜止圖像集;A2、根據(jù)公式r0',力=0.299i(/,y)+0.587G(/,力+0.114B(i,j)將彩色圖像數(shù)據(jù)轉(zhuǎn)化為灰度圖像數(shù)據(jù),其中,r"力為變換后灰度圖像幀中位置對應(yīng)像素的灰度值,為圖像幀中位置0',力對應(yīng)2G像素的紅彩色分量,G(/,力為圖像幀中位置(/,力對應(yīng)像素的綠彩色分量,力為圖像幀中位置力對應(yīng)像素的藍(lán)彩色分量;A3、將所述灰度圖像劃分的單位為正方形的圖像塊。5、如權(quán)利要求4所述的基于手持設(shè)備運(yùn)動檢測的實(shí)時人機(jī)交互方法,其特征在于,在步驟A1中,所述靜止圖像集保存當(dāng)前輸入的圖像幀和前一圖像幀。6、如權(quán)利要求1所述的基于手持設(shè)備運(yùn)動檢測的實(shí)時人機(jī)交互方法,其特征在于,步驟C具體包括<formula>formulaseeoriginaldocumentpage4</formula>將當(dāng)前幀的局部運(yùn)動矢量分量分別映射為對應(yīng)坐標(biāo)的直方圖,其中,A、和Wy分別為局部運(yùn)動矢量搜索范圍的邊界,J,z'J])為運(yùn)動矢量分類的有效性標(biāo)志;C2、根據(jù)公式<formula>formulaseeoriginaldocumentpage4</formula>將所述直方圖變換為加權(quán)直方圖,其中,『^和^分別為在X和Y方向上的直方圖加權(quán)系數(shù),以選取有效的非零矢量;C3、根據(jù)公式<formula>formulaseeoriginaldocumentpage4</formula>對所述加權(quán)直方圖進(jìn)行高斯濾波,形成對應(yīng)于全局運(yùn)動矢量的主峰。7、如權(quán)利要求6所述的基于手持設(shè)備運(yùn)動檢測的實(shí)時人機(jī)交互方法,其特征在于,步驟C3中所述公式產(chǎn)生的高斯濾波器為<formula>formulaseeoriginaldocumentpage4</formula>8、一種基于手持設(shè)備運(yùn)動檢測的實(shí)時人機(jī)交互系統(tǒng),其特征在于,所述系統(tǒng)包括預(yù)處理裝置,用于將來自手持設(shè)備釆集的視頻進(jìn)行預(yù)處理,獲取分塊圖像幀;有效的局部運(yùn)動矢量獲取裝置,用于對所述分塊圖像幀的各塊進(jìn)行運(yùn)動矢量搜索并通過有效運(yùn)動矢量分類器進(jìn)行標(biāo)記,獲取有效的局部運(yùn)動矢量;全局運(yùn)動矢量獲取裝置,用于根據(jù)所述局部運(yùn)動矢量,獲取全局運(yùn)動矢量;人機(jī)交互裝置,用于根據(jù)所述全局運(yùn)動矢量和對應(yīng)的交互指令進(jìn)行人機(jī)交互。9、如權(quán)利要求8所述的基于手持設(shè)備運(yùn)動檢測的實(shí)時人機(jī)交互系統(tǒng),其特征在于,所述系統(tǒng)還包括有效運(yùn)動矢量分類器訓(xùn)練裝置,用于對傳統(tǒng)運(yùn)動矢量的搜索結(jié)果進(jìn)行分類,選取能夠反映真實(shí)的手持設(shè)備運(yùn)動的有效運(yùn)動矢量。10、如權(quán)利要求8所述的基于手持設(shè)備運(yùn)動檢測的實(shí)時人機(jī)交互系統(tǒng),其特征在于,所述預(yù)處理裝置包括視頻分解單元,用于將來自手持設(shè)備釆集的視頻分解為相鄰的圖像幀,形成獨(dú)立的靜止圖像集;is灰度變換單元,用于將彩色圖像數(shù)據(jù)轉(zhuǎn)化為灰度圖像數(shù)據(jù);圖像分割單元、用于將所述灰度圖像劃分的單位為正方形的圖像塊。全文摘要本發(fā)明公開了一種基于手持設(shè)備運(yùn)動檢測的實(shí)時人機(jī)交互方法,包括以下步驟將來自手持設(shè)備采集的視頻進(jìn)行預(yù)處理,獲取分塊圖像幀;對所述分塊圖像幀的各塊進(jìn)行運(yùn)動矢量搜索并通過有效運(yùn)動矢量分類器進(jìn)行標(biāo)記,獲取有效的局部運(yùn)動矢量;根據(jù)所述局部運(yùn)動矢量,獲取全局運(yùn)動矢量;根據(jù)所述全局運(yùn)動矢量和對應(yīng)的交互指令進(jìn)行人機(jī)交互。本發(fā)明還公開了一種基于手持設(shè)備運(yùn)動檢測的實(shí)時人機(jī)交互系統(tǒng)。本發(fā)明通過用戶控制設(shè)備運(yùn)動,手持設(shè)備通過對所拍攝視頻分析,準(zhǔn)確地分析二維全局運(yùn)動矢量,理解設(shè)備的運(yùn)動,進(jìn)而完成確定操作的人機(jī)交互方法。本發(fā)明對用戶具備自然性、易懂性,可完成實(shí)時、精確的交互式應(yīng)用。文檔編號G06T7/20GK101339661SQ20081011796公開日2009年1月7日申請日期2008年8月18日優(yōu)先權(quán)日2008年8月18日發(fā)明者姚安邦,林行剛,亮沙,王貴錦申請人:清華大學(xué)