運(yùn)動(dòng)任務(wù)(諸如舉起手臂、直立、抬腿和其他)的執(zhí)行通常在個(gè)體之間變化相當(dāng)大。例如,取決于身體結(jié)構(gòu)、體重和其他因素(諸如個(gè)體的專門知識(shí)和技能、經(jīng)驗(yàn)、力量和身體能力)。現(xiàn)有運(yùn)動(dòng)任務(wù)執(zhí)行的分析方法通常地涉及手動(dòng)觀察,因此是主觀的,并且存在做出分析時(shí)取決于觀察者的技能的變化的可能性。
下文所描述的實(shí)施例不限于解決已知運(yùn)動(dòng)任務(wù)分析系統(tǒng)的缺點(diǎn)中的任何或全部的實(shí)施方式。
技術(shù)實(shí)現(xiàn)要素:
以下呈現(xiàn)本公開(kāi)的簡(jiǎn)要概述以便向讀者提供基本理解。該概述不是本公開(kāi)的廣泛綜述并且不標(biāo)識(shí)關(guān)鍵/主要元件或描繪說(shuō)明書(shū)的范圍。其唯一目的是以簡(jiǎn)要形式將本文所公開(kāi)的概念的選擇呈現(xiàn)為稍后呈現(xiàn)的更詳細(xì)描述的前序。
描述了用于運(yùn)動(dòng)任務(wù)分析的視頻處理。在各種示例中,執(zhí)行運(yùn)動(dòng)任務(wù)(諸如將食指放在鼻子上)的人或動(dòng)物的至少一部分的視頻被輸入到經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng)以將運(yùn)動(dòng)任務(wù)分類為多個(gè)類別中的一個(gè)類別。在示例中,從視頻的成對(duì)幀計(jì)算運(yùn)動(dòng)描述符(諸如光流),并且運(yùn)動(dòng)描述符被輸入到機(jī)器學(xué)習(xí)系統(tǒng)。例如,在訓(xùn)練期間,機(jī)器學(xué)習(xí)系統(tǒng)標(biāo)識(shí)在運(yùn)動(dòng)任務(wù)的類別之間進(jìn)行區(qū)分的時(shí)間相關(guān)和/或位置相關(guān)加速度或速度特征。在示例中,經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng)從運(yùn)動(dòng)描述符計(jì)算其已經(jīng)學(xué)習(xí)為好的鑒別器的位置相關(guān)加速度或速度特征。在各種示例中,使用視頻的子體(sub-volumes)計(jì)算特征。
通過(guò)參考結(jié)合附圖考慮的以下詳細(xì)描述,許多伴隨特征將更容易理解,同樣變得更好理解。
附圖說(shuō)明
從根據(jù)附圖閱讀的下面詳細(xì)描述,將更好地理解本描述,其中:
圖1是執(zhí)行運(yùn)動(dòng)任務(wù)的人的視頻捕獲,并且示出了視頻的處理以分析運(yùn)動(dòng)任務(wù)的示意圖;
圖2是運(yùn)動(dòng)任務(wù)的示例的示意圖;
圖3是可以使用在圖1的場(chǎng)景中的捕獲設(shè)備的示意圖;
圖4是圖1的視頻的幀和預(yù)處理幀的結(jié)果以及預(yù)處理裝置的示意圖;
圖5是用于訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)以分析運(yùn)動(dòng)任務(wù)的視頻的系統(tǒng)的示意圖;
圖6是訓(xùn)練隨機(jī)決策森林以分類運(yùn)動(dòng)任務(wù)的視頻的方法的流程圖;
圖7是隨機(jī)決策森林的示意圖;
圖8是使用經(jīng)訓(xùn)練的隨機(jī)決策森林以分類運(yùn)動(dòng)任務(wù)視頻的方法的流程圖;
圖9圖示了在其中可以實(shí)現(xiàn)視頻處理系統(tǒng)的實(shí)施例的示例性的基于計(jì)算的設(shè)備。
相同附圖標(biāo)記被用于在附圖中指代相同部件。
具體實(shí)施方式
下文結(jié)合附圖提供的詳細(xì)描述旨在作為本示例的描述并且不旨在表示可以構(gòu)建或利用本示例的僅有形式。該描述闡述示例的功能和用于構(gòu)建和操作示例的步驟的順序。然而,可以通過(guò)不同的示例完成相同或等效功能和序列。
圖1是執(zhí)行運(yùn)動(dòng)任務(wù)(諸如在從其中手臂被水平伸出的位置開(kāi)始(如由手臂位置114所指示的)之后將食指放在鼻子上(如由手臂位置112所指示的))的人101的示意圖。這僅是運(yùn)動(dòng)任務(wù)的一個(gè)示例并且下面參考圖2給出更多示例。
先前已經(jīng)手動(dòng)地(例如,通過(guò)視覺(jué)觀察)實(shí)現(xiàn)分析運(yùn)動(dòng)任務(wù),其受變化性(諸如觀察者的偏見(jiàn)、觀察者經(jīng)驗(yàn)水平和觀察者環(huán)境)影響。在下文所描述的各種示例中,運(yùn)動(dòng)任務(wù)的視頻被處理以分析運(yùn)動(dòng)任務(wù)。例如,將運(yùn)動(dòng)任務(wù)分類為兩個(gè)或兩個(gè)以上類別(諸如好的、中等的、弱的)(例如,以指示運(yùn)動(dòng)任務(wù)的性能水平)。通過(guò)使用如本文所描述的自動(dòng)化視頻處理系統(tǒng),以快速并且實(shí)用的方式獲得無(wú)偏置的、準(zhǔn)確的評(píng)級(jí)/分類是可能的。
視頻捕獲設(shè)備100捕獲在環(huán)境中執(zhí)行運(yùn)動(dòng)任務(wù)的人101的視頻,該環(huán)境在圖1的示例中是具有墻上的照片106、沙發(fā)110和掛在墻上的衣服108的房間。然而,這僅是示例并且可以使用其他環(huán)境。視頻捕獲設(shè)備100可以被安裝在面對(duì)用戶的墻上或可以以另一方式(諸如在計(jì)算設(shè)備、桌子或其他結(jié)構(gòu)上)支持。參考圖2更詳細(xì)地描述視頻捕獲設(shè)備100。它捕獲包括以幀速率諸如30幀每秒或更多捕獲的多個(gè)幀的圖像流116。取決于運(yùn)動(dòng)任務(wù)和視頻捕獲設(shè)備的類型,可以使用其他幀速率。在適當(dāng)?shù)耐庀虏东@人的視頻,并且視頻材料優(yōu)選地以安全的私有方式被存儲(chǔ)。
所捕獲的幀可以被輸入到計(jì)算設(shè)備104,其可以是與視頻捕獲設(shè)備100集成的或可以使用無(wú)線通信、有線連接或以其他方式被連接到視頻捕獲設(shè)備。該計(jì)算設(shè)備104可以在云中被提供為云服務(wù)。圖1的示例示出了單個(gè)計(jì)算設(shè)備104。然而,使用一起提供功能性的多個(gè)分布式計(jì)算設(shè)備也是可能的。
圖1的計(jì)算設(shè)備104包括預(yù)處理部件118,其預(yù)處理視頻以產(chǎn)生經(jīng)預(yù)處理的圖像120。其還包括經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng)122(諸如隨機(jī)決策森林、支持向量機(jī)的集合或其他經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng)),其輸出運(yùn)動(dòng)任務(wù)分類數(shù)據(jù)124。
機(jī)器學(xué)習(xí)系統(tǒng)被訓(xùn)練以學(xué)習(xí)位置相關(guān)局部運(yùn)動(dòng)特征,其是運(yùn)動(dòng)任務(wù)類別的好的鑒別器。例如,在訓(xùn)練期間可以評(píng)估隨機(jī)地選擇的局部運(yùn)動(dòng)特征并且選擇執(zhí)行好的區(qū)分的那些局部運(yùn)動(dòng)特征。位置相關(guān)特征是視頻的一個(gè)或多個(gè)子體的特點(diǎn)。形成視頻的幀的順序可以被認(rèn)為是形成體并且子體是更大的體的鄰近區(qū)域。由于子體在視頻的時(shí)間和空間中的特定位置處,因而子體的特點(diǎn)是位置相關(guān)的。局部運(yùn)動(dòng)特征是與子體的幀內(nèi)的圖像元素如何改變圖像幀之間的位置有關(guān)的一個(gè)或多個(gè)子體的特點(diǎn)。例如,局部運(yùn)動(dòng)特征可以與圖像元素的速度或加速度有關(guān)。術(shù)語(yǔ)加速度此處被用于指代或者速度的大小的變化率、或者速度的方向的變化率、或者速度的大小和方向兩者的變化率。已經(jīng)發(fā)現(xiàn),位置相關(guān)局部運(yùn)動(dòng)特征可以提供針對(duì)運(yùn)動(dòng)任務(wù)類別的有效鑒別器,如在本文中更詳細(xì)解釋的。
圖2是可以被分析的運(yùn)動(dòng)任務(wù)的四個(gè)不同類型的示意圖。示出了手指到鼻子任務(wù)200,其中人將一個(gè)手臂舉起到水平位置并且指向食指;然后人移動(dòng)手臂以便將食指放在鼻子上。手指到手指任務(wù)204包含人將雙臂舉起到水平位置,以及食指指向遠(yuǎn)離身體。然后人移動(dòng)雙臂,使得食指在身體的前面相遇。繪制正方形任務(wù)202包含人在空中繪制相等大小的正方形;每個(gè)食指一個(gè)。軀干無(wú)序任務(wù)206(truncal ataxis task)包含人水平地伸出雙臂遠(yuǎn)離身體并且保持位置。圖2中給定的運(yùn)動(dòng)任務(wù)的示例不是可能運(yùn)動(dòng)任務(wù)的示例的詳盡列表,而是被給出以圖示該技術(shù)。
現(xiàn)在參考圖3,其圖示了可以使用在圖1的基于照相機(jī)的系統(tǒng)中的示例視頻捕獲設(shè)備100的示意圖。在圖3的示例中,視頻捕獲設(shè)備100被配置為捕獲深度視頻(使用深度照相機(jī)302)以及彩色視頻(使用RGB照相機(jī)306)。然而,這不是必要的。捕獲僅彩色視頻或僅深度視頻也是可能的。在使用深度照相機(jī)302的情況下,其可以是任何適合的類型(例如,飛行時(shí)間、結(jié)構(gòu)化光、立體)。在一些示例中,深度照相機(jī)可以使用散斑去相關(guān)。在使用彩色視頻照相機(jī)的情況下,可以從彩色視頻編寫(xiě)可以標(biāo)識(shí)人的面部特征或其他視覺(jué)特征。
視頻捕獲設(shè)備100包括至少一個(gè)成像傳感器300。在圖3中所示的示例中,成像傳感器300包括深度照相機(jī)302,其被布置為捕獲場(chǎng)景的深度圖像。所捕獲的深度圖像可以包括所捕獲的場(chǎng)景的二維(2-D)區(qū)域,其中2-D區(qū)域中的每個(gè)圖像元素表示深度值(諸如所捕獲的場(chǎng)景中的對(duì)象距深度照相機(jī)302的長(zhǎng)度或距離)。
捕獲設(shè)備還可以包括發(fā)射器304,其被布置為以深度信息可以由深度照相機(jī)302確定的這樣的方式照射場(chǎng)景。例如,在深度照相機(jī)302是紅外(IR)飛行時(shí)間照相機(jī)的情況下,發(fā)射器304將IR光發(fā)射到場(chǎng)景上,并且深度照相機(jī)302被布置為檢測(cè)從場(chǎng)景中的一個(gè)或多個(gè)目標(biāo)和對(duì)象的表面的反向散射的光。在一些示例中,可以從發(fā)射器304發(fā)射脈沖紅外光,使得出射光脈沖與對(duì)應(yīng)的入射光脈沖之間的時(shí)間可以由深度照相機(jī)檢測(cè)和測(cè)量并且被用于確定從視頻捕獲設(shè)備100到場(chǎng)景中的目標(biāo)或?qū)ο笊系奈恢玫奈锢砭嚯x。附加地,在一些示例中,可以將來(lái)自發(fā)射器304的出射光波的相位與深度照相機(jī)302處的入射光波的相位相比較來(lái)確定相位偏移。然后,相位偏移可以被用于確定從捕獲設(shè)備100到目標(biāo)或?qū)ο笊系奈恢玫奈锢砭嚯x。在另一示例中,飛行時(shí)間分析可以被用于通過(guò)經(jīng)由各種技術(shù)(包括例如關(guān)閉的光脈沖成像)隨時(shí)間分析反射光束的強(qiáng)度間接地確定從捕獲設(shè)備100到目標(biāo)或?qū)ο笊系奈恢玫奈锢砭嚯x。
在另一示例中,捕獲設(shè)備100可以使用結(jié)構(gòu)化光捕獲深度信息。在這樣的技術(shù)中,可以使用發(fā)射器304將圖案化光(例如,顯示為已知圖案(諸如網(wǎng)格圖案或者條紋圖案)的光)投影到場(chǎng)景上。一旦撞擊到場(chǎng)景中的一個(gè)或多個(gè)目標(biāo)或者對(duì)象的表面,則圖案變?yōu)樽冃蔚?。圖案的這樣的變形可以通過(guò)深度照相機(jī)302捕獲并且然后被分析以確定從捕獲設(shè)備100到場(chǎng)景中的目標(biāo)或?qū)ο笊系奈恢玫奈锢砭嚯x。
在另一示例中,深度照相機(jī)302可以以從不同的角度觀看場(chǎng)景的兩個(gè)或兩個(gè)以上物理分離的照相機(jī)的形式,使得獲得可以被解析以生成深度信息的視覺(jué)立體數(shù)據(jù)。在這種情況下,發(fā)射器304可以被用于照射場(chǎng)景或者可以被省略。
在一些示例中,除了深度照相機(jī)302之外或者取代深度照相機(jī)302,捕獲設(shè)備100可以包括RGB照相機(jī)306。RGB照相機(jī)306被布置為在可見(jiàn)光頻率處捕獲場(chǎng)景的圖像的序列,并且因此可以提供可以被用于增強(qiáng)深度圖像的圖像。在一些示例中,在不需要深度照相機(jī)306的情況下,可以從RGB圖像計(jì)算深度。
例如,在不使用深度照相機(jī)的情況下可以捕獲RGB圖像,并且可以從RGB圖像計(jì)算深度以提供可以以與深度圖像類似的方式使用的數(shù)據(jù)。
圖3中所示的捕獲設(shè)備306還包括至少一個(gè)處理器308,其與成像傳感器300(即,圖3的示例中的深度照相機(jī)302和RGB照相機(jī)306)和發(fā)射器304通信。處理器308可以是通用微處理器或?qū)S眯盘?hào)/圖像處理器。處理器308被布置為執(zhí)行指令以控制成像傳感器300和發(fā)射器304的來(lái)捕獲深度視頻和/或RGB視頻。處理器308還可以可選地被布置為對(duì)這些視頻執(zhí)行處理,如在下文中更詳細(xì)地概述的。
圖3中所示的捕獲設(shè)備306還包括存儲(chǔ)器310,其被布置為存儲(chǔ)用于由處理器308執(zhí)行的指令、由深度照相機(jī)302或RGB照相機(jī)306捕獲的視頻或者視頻幀或者任何其他適合的信息、圖像等。在一些示例中,存儲(chǔ)器310可以包括隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、緩存、閃速存儲(chǔ)器、硬盤(pán)或者任何其他適合的存儲(chǔ)部件。存儲(chǔ)器310可以是分離的部件,其與處理器308通信或者被集成到處理器308中。
捕獲設(shè)備100還包括輸出接口312,其與處理器308通信并且被布置為經(jīng)由通信鏈路向計(jì)算設(shè)備104提供數(shù)據(jù)。通信鏈路可以是例如有線連接(諸如USBTM、FirewireTM、EthernetTM或類似)和/或無(wú)線設(shè)備(諸如WiFiTM、BluetoothTM或類似)。在其他示例中,輸出接口312可以與一個(gè)或多個(gè)通信網(wǎng)絡(luò)(諸如因特網(wǎng))接口并且經(jīng)由這些網(wǎng)絡(luò)向計(jì)算設(shè)備104提供數(shù)據(jù)。
圖4是圖1的視頻的幀400和預(yù)處理該幀的結(jié)果410以及預(yù)處理裝置118的示意圖。視頻400的幀描繪了在該示例中稍微離開(kāi)中心并且在距捕獲設(shè)備任意深度處的人。預(yù)處理裝置118可選地執(zhí)行圖像修復(fù)402、執(zhí)行前景提取404、居中406,并且在深度信息可用的情況下,將前景映射到典型深度。以這種方式,可以比預(yù)處理未發(fā)生的情況下更簡(jiǎn)單地做出經(jīng)預(yù)處理的視頻的幀之間的比較。使用其中前景包括具有丟失或錯(cuò)誤的深度值(例如由于噪聲)的圖像元素的圖像修復(fù)402。在使用深度視頻照相機(jī)的情況下,這是特別有用的。圖像修復(fù)可以包括利用根據(jù)丟失的圖像元素的最近鄰居或以其他眾所周知的方式計(jì)算的值填滿丟失的圖像元素值。
可以使用深度數(shù)據(jù)(在深度數(shù)據(jù)可用的情況下),例如,使用跟隨有測(cè)地線細(xì)化階段的深度的高斯模型執(zhí)行前景提取404。深度的高斯模型可以包括擬合在幀中所觀察的深度的直方圖的高斯混合模型。在示例中,第一高斯模式被認(rèn)為是對(duì)應(yīng)于前景。然而,可以使用其他模式或者模式的組合。測(cè)地線細(xì)化階段可以包括將具有落在最頻繁的深度范圍中的深度值的圖像像素用作種子區(qū)域并且計(jì)算每個(gè)其他圖像像素距種子區(qū)域的測(cè)地線距離。然后,測(cè)地線距離可以被用于使用閾值化來(lái)改善前景區(qū)域。
在使用顏色視頻的情況下,可以通過(guò)使用顏色數(shù)據(jù)、通過(guò)標(biāo)識(shí)圖像中的邊緣或者以其他方式實(shí)現(xiàn)前景提取404。
居中過(guò)程406可以包括使用模板匹配檢測(cè)幀中所描繪的人的頭部或其他指定身體部分。一旦被檢測(cè)到,則該身體部分可以集中在經(jīng)預(yù)處理的圖像410中并且縮放或映射408到典型深度(在包含深度幀的情況下)。在其他示例中,居中過(guò)程包括計(jì)算前景區(qū)域的質(zhì)心并且將質(zhì)心與經(jīng)預(yù)處理的圖像的中心對(duì)準(zhǔn)。在使用顏色視頻的情況下,身體部分被縮放到指定大小而不是映射到典型深度。
如上文所提到的,機(jī)器學(xué)習(xí)系統(tǒng)被訓(xùn)練以找到位置相關(guān)局部運(yùn)動(dòng)特征,其是運(yùn)動(dòng)任務(wù)類別的好的鑒別器。使用運(yùn)動(dòng)任務(wù)的標(biāo)記視頻500訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)。該標(biāo)記指示所描繪的運(yùn)動(dòng)任務(wù)落到哪一個(gè)類別中。例如,可以人類裁判分配標(biāo)記。標(biāo)記的視頻可以具有不同的長(zhǎng)度。使用上文所描述的預(yù)處理裝置118對(duì)標(biāo)記的視頻進(jìn)行預(yù)處理以產(chǎn)生訓(xùn)練數(shù)據(jù)502。從訓(xùn)練數(shù)據(jù)視頻計(jì)算504運(yùn)動(dòng)描述符,并且訓(xùn)練器506使用運(yùn)動(dòng)描述符以產(chǎn)生經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng)508。例如,經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng)包括隨機(jī)決策森林、隨機(jī)化支持向量機(jī)的集合、神經(jīng)網(wǎng)絡(luò)或者增強(qiáng)系統(tǒng)。
計(jì)算運(yùn)動(dòng)描述符504的過(guò)程可以包括從視頻中的一個(gè)(從訓(xùn)練數(shù)據(jù)502)選擇成對(duì)視頻幀510并且計(jì)算指示視頻成對(duì)幀之間的圖像元素的運(yùn)動(dòng)(或這些數(shù)量中的改變)的大小和/或方向的運(yùn)動(dòng)描述符(否則被稱為“成對(duì)分析”)。成對(duì)幀可以是兩個(gè)連續(xù)幀。例如,可以針對(duì)訓(xùn)練視頻中的每對(duì)連續(xù)幀計(jì)算運(yùn)動(dòng)描述符并且將運(yùn)運(yùn)描述符輸入到訓(xùn)練器。在示例中,運(yùn)動(dòng)描述符504包括光流值。光流值是描繪視頻成對(duì)幀中的相同場(chǎng)景元素的圖像元素的垂直和水平位移值。已經(jīng)發(fā)現(xiàn)將光流值用作運(yùn)動(dòng)描述符以給定魯棒的準(zhǔn)確的結(jié)果。在另一示例中,運(yùn)動(dòng)描述符504包括視頻成對(duì)幀之間的身體關(guān)節(jié)位置的位移。在另一示例中,運(yùn)動(dòng)描述符504包括視頻成對(duì)幀之間的身體部分重心的位移。在另一示例中,運(yùn)動(dòng)描述符包括一個(gè)幀的前景區(qū)域與另一幀的前景區(qū)域之間的非重疊的區(qū)域。
在圖5的示例中,在對(duì)訓(xùn)練器的輸入開(kāi)始前計(jì)算運(yùn)動(dòng)描述符。這可以在測(cè)試時(shí)間完成。在視頻長(zhǎng)并且圖像尺寸較大的情況下,待計(jì)算的運(yùn)動(dòng)描述符的數(shù)目可能非常大(例如,對(duì)于連續(xù)幀的所有對(duì)而言),并且因此其對(duì)于預(yù)計(jì)算運(yùn)動(dòng)描述符可以是有益的。然而,將運(yùn)動(dòng)描述符計(jì)算為訓(xùn)練和/或測(cè)試階段的一部分也是可能的。測(cè)試階段是何時(shí)經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng)被使用在先前未看到的視頻上(即,尚未呈現(xiàn)給機(jī)器學(xué)習(xí)系統(tǒng)的視頻)。
在一些示例中,機(jī)器學(xué)習(xí)系統(tǒng)包括隨機(jī)決策森林。隨機(jī)決策森林包括各自具有根節(jié)點(diǎn)、多個(gè)分裂節(jié)點(diǎn)和多個(gè)葉節(jié)點(diǎn)的一個(gè)或多個(gè)決策樹(shù)。視頻通過(guò)隨機(jī)決策森林的樹(shù)被從根部推送到過(guò)程中的葉節(jié)點(diǎn),由此在每個(gè)分裂節(jié)點(diǎn)做出決定。分裂。根據(jù)如下文更詳細(xì)地描述的位置相關(guān)局部運(yùn)動(dòng)特征做出決策。在分裂節(jié)點(diǎn)處,視頻根據(jù)決策的結(jié)果沿著所選擇的分支向下轉(zhuǎn)到下一級(jí)樹(shù)()。隨機(jī)決策森林可以使用如下文更詳細(xì)地描述的回歸或分類。在訓(xùn)練期間,參數(shù)值(其指定位置相關(guān)局部運(yùn)動(dòng)特征)被學(xué)習(xí)以在分裂節(jié)點(diǎn)處使用,并且數(shù)據(jù)(標(biāo)記的視頻)被積累在葉節(jié)點(diǎn)處。積累在葉節(jié)點(diǎn)處的視頻的標(biāo)簽可以被存儲(chǔ)為直方圖或以總計(jì)的方式(諸如使用平均值或中值或模式)或通過(guò)將概率分布擬合到直方圖并且存儲(chǔ)描述概率分布的統(tǒng)計(jì)。
在測(cè)試時(shí)間處,先前未看到的視頻被輸入到系統(tǒng)以預(yù)測(cè)一個(gè)或多個(gè)運(yùn)動(dòng)任務(wù)類別。參考圖8描述這一點(diǎn)。
參考圖6,為了訓(xùn)練決策樹(shù),首先接收600上文所描述的訓(xùn)練集。選擇602在隨機(jī)決策森林中待使用的決策樹(shù)的數(shù)目。隨機(jī)決策森林是確定性決策樹(shù)的集合。決策樹(shù)可以被使用在分類或回歸算法中,但是可能存在過(guò)擬合(即,不佳的一般化)的問(wèn)題。然而,許多隨機(jī)訓(xùn)練的決策樹(shù)(隨機(jī)森林)的集合產(chǎn)生經(jīng)改進(jìn)的一般化。在訓(xùn)練過(guò)程期間,樹(shù)的數(shù)量是固定的。
在圖7中圖示示出了示例隨機(jī)決策森林。圖7的說(shuō)明性決策森林包括三個(gè)決策樹(shù):第一樹(shù)700;第二樹(shù)702;和第三樹(shù)704。每個(gè)決策樹(shù)包括根節(jié)點(diǎn)(例如,第一決策樹(shù)700的根節(jié)點(diǎn)706)、多個(gè)內(nèi)部節(jié)點(diǎn)、被稱為分裂節(jié)點(diǎn)(例如,第一決策樹(shù)700的分裂節(jié)點(diǎn)708)和多個(gè)葉節(jié)點(diǎn)(例如,第一決策樹(shù)700的葉節(jié)點(diǎn)710)。
選擇604來(lái)自決策森林的決策樹(shù)(例如,第一決策樹(shù)600),并且選擇606根節(jié)點(diǎn)606。然后,測(cè)試參數(shù)的隨機(jī)集合被生成610以用于由在根節(jié)點(diǎn)處所執(zhí)行的二叉測(cè)試用作候選特征。在本文所描述的示例中,使用位置相關(guān)局部運(yùn)動(dòng)特征。隨機(jī)地選擇視頻內(nèi)、幀內(nèi)的2D中以及和/或幀序列內(nèi)的時(shí)間中的位置。從多個(gè)不同的類型的特征隨機(jī)地生成特征。例如,使用與視頻的子體有關(guān)的以下四個(gè)類型的特征。視頻的子體可以是選擇視頻中的空間時(shí)間窗口的立方體。子體可以由符號(hào)B表示并且可以由第一幀內(nèi)的2D水平和垂直圖像坐標(biāo)和第二幀內(nèi)的2D水平和垂直圖像坐標(biāo)指定,其中指定第一幀與第二幀之間的幀數(shù)。例如,B=(x1,y1,x2,y2,T′1,T′2)。然而,使用立方體形狀的子體不是必要的。還可以使用子體的其他3D形狀體。
第一類型的特征是單個(gè)子體的函數(shù)。第一類型的特征的示例由以下表示
f(d1,B1)可以以文字被表達(dá)為指示在子體B1內(nèi)計(jì)算的局部運(yùn)動(dòng)特征的類型的參數(shù)d1的函數(shù)。以下給定關(guān)于可以使用的示例函數(shù)f的更多細(xì)節(jié)。
第二類型的特征是兩個(gè)子體的函數(shù)。特征的第二類型的示例由以下表示
f(d1,B1)+f(d2,B2),其可以以文字被表達(dá)為以下各項(xiàng)的和:指示在子體B1內(nèi)計(jì)算的局部運(yùn)動(dòng)特征的類型的參數(shù)d1的函數(shù);和指示在子體B1內(nèi)計(jì)算的局部運(yùn)動(dòng)特征的類型的參數(shù)d1的函數(shù)。
第三類型的特征是兩個(gè)子體的函數(shù)。第三類型的特征的示例由以下表示
f(d1,B1)-f(d2,B2),其可以以文字被表達(dá)為以下各項(xiàng)的差:指示在子體B1內(nèi)計(jì)算的局部運(yùn)動(dòng)特征的類型的參數(shù)d1的函數(shù);和指示在子體B1內(nèi)計(jì)算的局部運(yùn)動(dòng)特征的類型的參數(shù)d1的函數(shù)。
第四類型的特征是兩個(gè)子體的函數(shù)。第四類型的特征的示例由以下表示
|f(d1,B1)-f(d2,B2)|,其可以以字被表達(dá)為以下各項(xiàng)的絕對(duì)差:指示在子體B1內(nèi)計(jì)算的局部運(yùn)動(dòng)特征的類型的參數(shù)d1的函數(shù);和指示在子體B1內(nèi)計(jì)算的局部運(yùn)動(dòng)特征的類型的參數(shù)d1的函數(shù)。
可以通過(guò)聚集局部運(yùn)動(dòng)特征(諸如加速度或速度特征)計(jì)算函數(shù)f?,F(xiàn)在給定計(jì)算加速度特征的示例。
其中T(B)是子體的幀數(shù)并且符號(hào)是可以被計(jì)算為下面被解釋用于子體(或者這些位置的子集)中的每個(gè)圖像元素位置的所估計(jì)的加速度特征(局部運(yùn)動(dòng)特征的示例)。以上函數(shù)可以以文字被表達(dá)為給定局部運(yùn)動(dòng)特征類型的函數(shù),并且給定子體被計(jì)算為子體的每個(gè)幀的加速度特征每體的平均值。
所估計(jì)的加速度特征可以通過(guò)計(jì)數(shù)光流向量改變方向的變化率的次數(shù)的數(shù)量來(lái)計(jì)算,但是忽略其中光流向量的大小非常小的方向的改變(通過(guò)使用Heaviside階躍函數(shù)或閾值或以其他方式)。
在另一示例中,可以使用所估計(jì)的速度特征代替上文所估計(jì)的加速度特征。例如,通過(guò)對(duì)光流向量改變方向的次數(shù)進(jìn)行計(jì)數(shù)而不是考慮光流向量的變化率。
在圖6的步驟610中,生成610隨機(jī)測(cè)試參數(shù)組以供在分裂節(jié)點(diǎn)處所執(zhí)行的二叉測(cè)試用作為候選特征。在示例中,這些參數(shù)可以包括子體的參數(shù)(即,指定待使用的子體的位置和持續(xù)時(shí)間)、閾值參數(shù)(用于在二叉測(cè)試中比較特征)、參數(shù)d其指示要計(jì)算的局部運(yùn)動(dòng)特征的類型(例如,x方向上的速度、y方向上的速度、x方向上的加速度、y方向上的加速度)和選擇以上四個(gè)(或者其他數(shù)目的)特征之一的變量k。
然后,測(cè)試參數(shù)的每個(gè)組合可以被應(yīng)用612到已經(jīng)到達(dá)當(dāng)前節(jié)點(diǎn)的每個(gè)視頻。對(duì)于每個(gè)組合而言,計(jì)算614準(zhǔn)則(還被稱為目標(biāo))。在示例中,所計(jì)算的準(zhǔn)則包括信息增益(還被稱為相對(duì)熵)。優(yōu)化準(zhǔn)則(諸如最大化信息增益)的參數(shù)的組合被選擇614并且被存儲(chǔ)在當(dāng)前節(jié)點(diǎn)處以用于將來(lái)使用。作為信息增益的備選方案,可以使用其他準(zhǔn)則(諸如Gini熵或“two-ing”準(zhǔn)則或其他)。
然后,確定616針對(duì)所計(jì)算的準(zhǔn)則的值是否小于(或大于)閾值。如果針對(duì)所計(jì)算的準(zhǔn)則的值小于閾值,那么這指示樹(shù)的進(jìn)一步的擴(kuò)展未提供足夠的益處。這引起當(dāng)沒(méi)有進(jìn)一步的節(jié)點(diǎn)有益時(shí)自然地停止增長(zhǎng)的非對(duì)稱樹(shù)。在這樣的情況下,當(dāng)前節(jié)點(diǎn)被設(shè)定618為葉節(jié)點(diǎn)。類似地,確定樹(shù)的當(dāng)前深度(即,多少節(jié)點(diǎn)的層在根節(jié)點(diǎn)與當(dāng)前節(jié)點(diǎn)之間)。如果這大于預(yù)定義最大值,那么當(dāng)前節(jié)點(diǎn)被設(shè)定618為葉節(jié)點(diǎn)。每個(gè)葉節(jié)點(diǎn)已經(jīng)標(biāo)記在如下面所描述的訓(xùn)練過(guò)程期間在該葉節(jié)點(diǎn)處累積的視頻。
使用與已經(jīng)提到的那些停止準(zhǔn)則組合的另一停止準(zhǔn)則也是可能的。例如,評(píng)估到達(dá)節(jié)點(diǎn)的視頻數(shù)。如果存在太少示例(例如,與閾值相比較),那么過(guò)程可以被布置為停止避免過(guò)擬合。然而,使用該停止準(zhǔn)則不是必要的。
如果針對(duì)所計(jì)算的準(zhǔn)則的值大于或等于閾值,并且樹(shù)深度小于最大值,那么當(dāng)前節(jié)點(diǎn)被設(shè)定620為分裂節(jié)點(diǎn)。當(dāng)當(dāng)前節(jié)點(diǎn)是分裂節(jié)點(diǎn)時(shí),其具有子節(jié)點(diǎn),并且過(guò)程然后移動(dòng)以訓(xùn)練這些子節(jié)點(diǎn)。使用當(dāng)前節(jié)點(diǎn)處的訓(xùn)練視頻的子集對(duì)每個(gè)子節(jié)點(diǎn)進(jìn)行訓(xùn)練。使用優(yōu)化準(zhǔn)則的參數(shù)確定發(fā)送到子節(jié)點(diǎn)的視頻的子集。這些參數(shù)被使用在二叉測(cè)試中,并且對(duì)當(dāng)前節(jié)點(diǎn)處的所有視頻執(zhí)行622二叉測(cè)試。通過(guò)二叉測(cè)試的視頻形成發(fā)送到第一子節(jié)點(diǎn)的第一子集,并且未能進(jìn)行二叉測(cè)試的圖像元素形成發(fā)送到第二子節(jié)點(diǎn)的第二子集。
對(duì)于子節(jié)點(diǎn)中的每個(gè)子節(jié)點(diǎn)而言,針對(duì)引導(dǎo)到相應(yīng)的子節(jié)點(diǎn)的視頻的子集遞歸地執(zhí)行624圖6的如框610到622中所概括的過(guò)程。換句話說(shuō),對(duì)于每個(gè)子節(jié)點(diǎn)而言,新隨機(jī)測(cè)試參數(shù)被生成610、應(yīng)用612到視頻的相應(yīng)的子集、優(yōu)化所選擇614的準(zhǔn)則的參數(shù)和所確定616的節(jié)點(diǎn)(分裂或葉)的類型。如果其是葉節(jié)點(diǎn),那么遞歸的當(dāng)前分支停止。如果其是分裂節(jié)點(diǎn),則二叉測(cè)試被執(zhí)行622以確定視頻的進(jìn)一步的子集和遞歸開(kāi)始的另一分支。因此,該過(guò)程遞歸地移動(dòng)通過(guò)樹(shù),訓(xùn)練每個(gè)節(jié)點(diǎn)直到在每個(gè)分支處到達(dá)葉節(jié)點(diǎn)。當(dāng)?shù)竭_(dá)葉節(jié)點(diǎn)時(shí),過(guò)程等待626直到所有分支中的節(jié)點(diǎn)已經(jīng)被訓(xùn)練。注意,在其他示例中,可以使用替代技術(shù)遞歸以達(dá)到相同功能性。
一旦樹(shù)中的所有節(jié)點(diǎn)已經(jīng)被訓(xùn)練為確定優(yōu)化每個(gè)分裂節(jié)點(diǎn)處的準(zhǔn)則的二叉測(cè)試的參數(shù),并且葉節(jié)點(diǎn)已經(jīng)被選擇為終止每個(gè)分支,那么在樹(shù)的葉節(jié)點(diǎn)處視頻標(biāo)記可以被累積628??梢允褂酶鞣N不同的方法存儲(chǔ)630積累的視頻標(biāo)記的表示。
一旦積累的標(biāo)記已經(jīng)被存儲(chǔ),則確定632更多樹(shù)是否存在于決策森林中。如果是的話,則選擇決策樹(shù)中的下一樹(shù),并且過(guò)程重復(fù)。如果森林中的所有樹(shù)已經(jīng)被訓(xùn)練,并且沒(méi)有其他保持,那么訓(xùn)練過(guò)程是完整的,并且過(guò)程終止634。
因此,作為訓(xùn)練過(guò)程的結(jié)果,使用經(jīng)驗(yàn)主義的訓(xùn)練視頻訓(xùn)練一個(gè)或多個(gè)決策樹(shù)。每個(gè)樹(shù)包括存儲(chǔ)優(yōu)化的測(cè)試參數(shù)的多個(gè)分裂節(jié)點(diǎn)和存儲(chǔ)相關(guān)聯(lián)的標(biāo)記的視頻或聚集的視頻標(biāo)記的表示的葉節(jié)點(diǎn)。由于來(lái)自使用在每個(gè)節(jié)點(diǎn)處的有限子集的參數(shù)的隨機(jī)生成,森林的樹(shù)是彼此不同的(即,不相同的)。
可以在使用經(jīng)訓(xùn)練的預(yù)測(cè)系統(tǒng)標(biāo)識(shí)視頻中的運(yùn)動(dòng)任務(wù)類別之前執(zhí)行訓(xùn)練過(guò)程。決策森林和優(yōu)化的測(cè)試參數(shù)可以被存儲(chǔ)在存儲(chǔ)設(shè)備上以用于稍后的標(biāo)識(shí)運(yùn)動(dòng)任務(wù)類別。
圖8圖示了使用如上面描述的已經(jīng)訓(xùn)練的決策森林在先前未看到的視頻中預(yù)測(cè)運(yùn)動(dòng)任務(wù)類別的過(guò)程的流程圖。首先,接收800未看到的視頻。視頻被稱為“未看到”以將其與使運(yùn)動(dòng)任務(wù)類別指定的訓(xùn)練數(shù)據(jù)區(qū)分。參考圖4,注意,可以未看到的視頻被預(yù)處理到一定程度,如上文所描述的。
計(jì)算802光流或其他運(yùn)動(dòng)描述符。還選擇804來(lái)自決策樹(shù)的經(jīng)訓(xùn)練的決策樹(shù)。通過(guò)所選擇的決策樹(shù)(以與參考圖6和圖7上文所描述的方式類似的方式)推送806所選擇的視頻,使得其對(duì)節(jié)點(diǎn)處的經(jīng)訓(xùn)練的參數(shù)進(jìn)行測(cè)試,并且然后依據(jù)測(cè)試的結(jié)果被傳遞到適當(dāng)?shù)暮⒆?,并且過(guò)程重復(fù)直到視頻到達(dá)葉節(jié)點(diǎn)。一旦視頻到達(dá)葉節(jié)點(diǎn),則累積的與該葉節(jié)點(diǎn)相關(guān)聯(lián)的標(biāo)記被存儲(chǔ)808用于該視頻。
如果確定810在森林中存在更多決策樹(shù),那么選擇804新決策樹(shù),并且通過(guò)樹(shù)推送806視頻并且存儲(chǔ)808累積的標(biāo)記。這樣重復(fù)直到其已經(jīng)針對(duì)森林中的所有決策樹(shù)被執(zhí)行。注意,通過(guò)決策森林中的多個(gè)樹(shù)推送視頻的過(guò)程還可以并行的而不是按圖8中所示順序的執(zhí)行。
通過(guò)平均或以其他方式聚合814來(lái)自索引的葉節(jié)點(diǎn)的數(shù)據(jù)。例如,在類別標(biāo)記的直方圖被存儲(chǔ)在葉節(jié)點(diǎn)處的情況下,來(lái)自索引的葉節(jié)點(diǎn)的直方圖被組合并且被用于標(biāo)識(shí)與視頻相關(guān)聯(lián)的一個(gè)或多個(gè)運(yùn)動(dòng)任務(wù)。過(guò)程輸出816至少一個(gè)運(yùn)動(dòng)任務(wù)類別作為結(jié)果,并且能夠輸出運(yùn)動(dòng)任務(wù)類別的置信加權(quán)。這有助于任何后續(xù)的算法評(píng)估建議是否是好的??梢暂敵龀^(guò)一個(gè)運(yùn)動(dòng)類別;例如,在存在不確定性的情況下。
在另一示例中,機(jī)器學(xué)習(xí)系統(tǒng)包括支持向量機(jī)的集合。支持向量機(jī)是非概率的二叉分類器,其使用特征空間中的超平面實(shí)現(xiàn)分類。
在示例中,支持向量機(jī)與隨機(jī)決策森林(諸如參考圖6至圖8的上文所描述的隨機(jī)決策森林)的分裂節(jié)點(diǎn)相關(guān)聯(lián)(或者替換)。支持向量機(jī)將已經(jīng)到達(dá)相應(yīng)的分裂節(jié)點(diǎn)的訓(xùn)練視頻當(dāng)作輸入。這些輸入訓(xùn)練視頻形成其特征空間并且其計(jì)算一個(gè)或多個(gè)超平面以做出特征空間的二叉分類。以這種方式,支持向量機(jī)被用于做出二叉決策而不是評(píng)估信息增益或者針對(duì)隨機(jī)決策樹(shù)的如上文所描述的其他準(zhǔn)則。以這種方式,用于訓(xùn)練隨機(jī)決策森林的圖6的過(guò)程可以適于通過(guò)使用每個(gè)分裂節(jié)點(diǎn)處的支持向量機(jī)訓(xùn)練支持向量機(jī)的集合。使用分裂節(jié)點(diǎn)(隨機(jī)決策分裂節(jié)點(diǎn)或者支持向量機(jī)分裂節(jié)點(diǎn))的類型的混合也是可能的。可以通過(guò)修改圖8的過(guò)程在測(cè)試時(shí)間使用所得的支持向量機(jī)的集合或者支持向量機(jī)/隨機(jī)決策節(jié)點(diǎn)的混合。以這種方式,以實(shí)際的方式針對(duì)包含極其高并且可變數(shù)量的維度的任務(wù)的支持向量機(jī)技術(shù)是可能的。在實(shí)際的時(shí)間標(biāo)度中實(shí)現(xiàn)訓(xùn)練,因?yàn)槊總€(gè)支持向量機(jī)僅接收通過(guò)二叉叉樹(shù)結(jié)構(gòu)到達(dá)其的訓(xùn)練視頻并且因此其特征空間是有限的。
現(xiàn)在,給定在其中使用隨機(jī)化支持向量機(jī)的集合的另一示例。為了訓(xùn)練隨機(jī)化支持向量機(jī)的集合,從每個(gè)標(biāo)記的訓(xùn)練視頻計(jì)算固定長(zhǎng)度的特征向量。固定長(zhǎng)度的特征向量包括視頻的多個(gè)位置相關(guān)局部運(yùn)動(dòng)特征。例如,可以使用在關(guān)于隨機(jī)決策森林的描述中的上文所描述的四個(gè)特征中的一個(gè)或多個(gè)的任何組合(但是可以使用其他特征)。通過(guò)創(chuàng)建固定大小特征描述符(諸如向量或者列表),所得系統(tǒng)是獨(dú)立于視頻長(zhǎng)度可操作的。這在不損耗視頻中的運(yùn)動(dòng)特點(diǎn)的情況下實(shí)現(xiàn);與時(shí)間歸一化技術(shù)相反。
隨機(jī)地選擇每個(gè)特征描述符中的特征。特征描述符定義其中支持向量機(jī)執(zhí)行學(xué)習(xí)的特征空間。在示例中,集合的單獨(dú)支持向量機(jī)被訓(xùn)練以找到最大化在不同的類別中所標(biāo)記的訓(xùn)練視頻的樣本之間的裕度的超平面。以這種方式,對(duì)支持向量機(jī)中的每個(gè)支持向量機(jī)進(jìn)行訓(xùn)練。可以通過(guò)修改圖8的過(guò)程在測(cè)試時(shí)間使用所得的隨機(jī)化支持向量機(jī)的集合。
在上文所描述的示例中,機(jī)器學(xué)習(xí)系統(tǒng)將運(yùn)動(dòng)任務(wù)的視頻分類為類別或評(píng)級(jí)。然而,對(duì)于機(jī)器學(xué)習(xí)系統(tǒng)而言使用回歸而不是分類使得從與分立的類別標(biāo)記相反的經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng)獲得連續(xù)的值輸出也是可能的。例如,這些連續(xù)的值輸出可以是運(yùn)動(dòng)任務(wù)評(píng)估標(biāo)度上的數(shù)值。
圖9圖示了可以被實(shí)現(xiàn)為計(jì)算和/或電子設(shè)備的任何形式并且在其中可以實(shí)現(xiàn)運(yùn)動(dòng)任務(wù)分類系統(tǒng)的實(shí)施例的示例性的基于計(jì)算的設(shè)備104的各種部件。
基于計(jì)算的設(shè)備104包括一個(gè)或多個(gè)處理器900,其可以是微處理器、控制器、圖形處理單元、并行處理單元或用于處理計(jì)算可執(zhí)行指令以控制設(shè)備的操作類別的任何其他適合的類型的處理器以便預(yù)測(cè)視頻中的運(yùn)動(dòng)任務(wù)類別。在一些示例中,例如在使用片上系統(tǒng)架構(gòu)的情況下,處理器900可以包括以硬件(而不是軟件或固件)實(shí)現(xiàn)運(yùn)動(dòng)任務(wù)分類的方法的一部分的一個(gè)或多個(gè)固定功能塊(還被稱為加速度計(jì))。
基于計(jì)算的設(shè)備104包括一個(gè)或多個(gè)輸入接口902,其被布置為接收并且處理來(lái)自一個(gè)或多個(gè)設(shè)備(諸如用戶輸入設(shè)備(例如,捕獲設(shè)備100、鍵盤(pán)906和/或鼠標(biāo)908)的輸入。該用戶輸入可以被用于控制在計(jì)算設(shè)備104上執(zhí)行的軟件應(yīng)用。
基于計(jì)算的設(shè)備104還包括輸出接口910,其被布置為將顯示信息輸出給可以與計(jì)算設(shè)備104分離或集成的顯示設(shè)備924。例如,利用疊加的運(yùn)動(dòng)任務(wù)分類數(shù)據(jù)顯示視頻。顯示信息可以提供圖形用戶接口。在示例中,如果其是觸敏顯示設(shè)備,則顯示設(shè)備924還可以充當(dāng)用戶輸入設(shè)備。輸出接口還可以將數(shù)據(jù)輸出到除顯示設(shè)備外的設(shè)備(例如,本地連接打印設(shè)備)。
可以使用由基于計(jì)算的設(shè)備104可訪問(wèn)的任何計(jì)算機(jī)可讀介質(zhì)提供計(jì)算機(jī)可執(zhí)行指令。計(jì)算機(jī)可讀介質(zhì)可以包括例如計(jì)算機(jī)存儲(chǔ)介質(zhì)1212(諸如存儲(chǔ)器和通信介質(zhì))。計(jì)算機(jī)存儲(chǔ)介質(zhì)1212(諸如存儲(chǔ)器912)包括在任何方法或技術(shù)中實(shí)現(xiàn)的易失性和非易失性、可移除和不可移除介質(zhì)以用于信息(諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù))的存儲(chǔ)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括,但不限于,RAM、ROM、EPROM、EEPROM、閃速存儲(chǔ)器或其他存儲(chǔ)器技術(shù)、CD-ROM、數(shù)字多用光盤(pán)(DVD)或其他光學(xué)存儲(chǔ)、磁帶盒、磁帶、磁盤(pán)存儲(chǔ)或其他磁性存儲(chǔ)設(shè)備或可以被用于存儲(chǔ)信息以用于由計(jì)算設(shè)備訪問(wèn)的任何其他非傳輸介質(zhì)。相反,通信介質(zhì)可以實(shí)現(xiàn)計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊、調(diào)制數(shù)據(jù)信號(hào)(諸如載波或其他傳輸機(jī)制)中的其他數(shù)據(jù)。如本文所定義的,計(jì)算機(jī)存儲(chǔ)介質(zhì)不包括通信介質(zhì)。因此,計(jì)算機(jī)存儲(chǔ)介質(zhì)不應(yīng)當(dāng)被解釋為是傳播信號(hào)自身。傳播信號(hào)可以存在于計(jì)算機(jī)存儲(chǔ)介質(zhì)中,但是傳播信號(hào)自身不是計(jì)算機(jī)存儲(chǔ)介質(zhì)的示例。雖然計(jì)算機(jī)存儲(chǔ)介質(zhì)(存儲(chǔ)器912)被示出在基于計(jì)算的設(shè)備104內(nèi),但是應(yīng)理解為,可以經(jīng)由網(wǎng)絡(luò)或其他通信鏈路(例如,使用通信接口913)分布或遠(yuǎn)程定位并且訪問(wèn)存儲(chǔ)。
包括操作系統(tǒng)914的平臺(tái)軟件或任何其他適合的平臺(tái)軟件可以被提供在計(jì)算設(shè)備104處以使得應(yīng)用軟件916能夠被執(zhí)行在設(shè)備上。可以在計(jì)算設(shè)備104上執(zhí)行的其他軟件包括:訓(xùn)練邏輯918(參見(jiàn)例如圖6至圖7和以上描述);預(yù)測(cè)邏輯920(參見(jiàn)例如圖8和以上描述)。數(shù)據(jù)存儲(chǔ)922被提供以存儲(chǔ)數(shù)據(jù)(諸如先前所接收到的視頻);中間函數(shù)結(jié)果;樹(shù)訓(xùn)練參數(shù)、概率分布、分類標(biāo)記、回歸目標(biāo)、分類目標(biāo)和其他數(shù)據(jù)。
輸入接口902、輸出接口910、顯示設(shè)備924和用戶輸入設(shè)備906、908中的任一個(gè)可以包括NUI技術(shù),其使得用戶能夠以自然的方式與基于計(jì)算的設(shè)備相互作用、免于由輸入設(shè)備(諸如鼠標(biāo)、鍵盤(pán)、遙控器等)強(qiáng)加的人工約束??梢蕴峁┑腘UI技術(shù)的示例包括但不限于依賴于語(yǔ)音和/或語(yǔ)言識(shí)別、觸摸和/或觸筆識(shí)別(觸敏顯示器)、屏幕上和屏幕附近二者的手勢(shì)識(shí)別、空中手勢(shì)、頭部和眼睛跟蹤、語(yǔ)音和語(yǔ)言、視覺(jué)、觸摸、手勢(shì)和機(jī)器智能的那些NUI技術(shù)??梢允褂玫腘UI技術(shù)的其他示例包括意圖和目標(biāo)理解系統(tǒng)、使用深度照相機(jī)的運(yùn)動(dòng)手勢(shì)檢測(cè)系統(tǒng)(諸如立體照相機(jī)系統(tǒng)、紅外照相機(jī)系統(tǒng)、rgb照相機(jī)系統(tǒng)和這些的組合)、使用加速度計(jì)/陀螺儀的運(yùn)動(dòng)手勢(shì)檢測(cè)、面部識(shí)別、3D顯示、頭部、眼睛和視線跟蹤、用于使用電場(chǎng)感測(cè)電極的沉浸式增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)系統(tǒng)和技術(shù)(EEG和相關(guān)方法)。
在示例中,提供了一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括:
接收描繪執(zhí)行運(yùn)動(dòng)任務(wù)的人或動(dòng)物的至少一部分的視頻;
將視頻輸入到經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng),其已經(jīng)被訓(xùn)練以找到視頻的在運(yùn)動(dòng)任務(wù)的多個(gè)類別之間進(jìn)行區(qū)分的位置相關(guān)局部運(yùn)動(dòng)特征;
從經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng)接收關(guān)于運(yùn)動(dòng)任務(wù)被預(yù)測(cè)為屬于多個(gè)類別中的哪一個(gè)的數(shù)據(jù)。
以這種方式,可以以自動(dòng)化并且因此客觀的準(zhǔn)確的可重復(fù)的方式分析和評(píng)估由人所執(zhí)行的運(yùn)動(dòng)任務(wù)。
在示例中,局部運(yùn)動(dòng)特征包括速度或加速度特征。這些類型的特征可以準(zhǔn)確并且高效地計(jì)算并且可以在機(jī)器學(xué)習(xí)訓(xùn)練和測(cè)試階段之前計(jì)算。這改進(jìn)從機(jī)器學(xué)習(xí)系統(tǒng)獲得的運(yùn)動(dòng)任務(wù)數(shù)據(jù)的質(zhì)量和獲得該數(shù)據(jù)的速度。
在示例中,以上方法包括對(duì)視頻成對(duì)幀、運(yùn)動(dòng)描述符進(jìn)行計(jì)算,并且其中將視頻輸入到經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng)包括輸入運(yùn)動(dòng)描述符。
例如,運(yùn)動(dòng)描述符是光流值。在使用光流值的情況下,所得系統(tǒng)被發(fā)現(xiàn)對(duì)于視頻中的噪聲或誤差是非常魯棒的。
在一些示例中,以上方法包括在機(jī)器學(xué)習(xí)系統(tǒng)中使用多個(gè)運(yùn)動(dòng)描述符計(jì)算局部運(yùn)動(dòng)特征。例如,通過(guò)考慮視頻的至少一個(gè)子體中的運(yùn)動(dòng)描述符。例如,通過(guò)考慮視頻的兩個(gè)子體中的運(yùn)動(dòng)描述符計(jì)算局部運(yùn)動(dòng)特征。例如,通過(guò)考慮視頻的子體中的運(yùn)動(dòng)描述符之間的差計(jì)算局部運(yùn)動(dòng)特征。在這些方式中使用視頻的子體被發(fā)現(xiàn)在運(yùn)動(dòng)任務(wù)類別之間進(jìn)行區(qū)分是特別有效的。
一些示例包括通過(guò)考慮視頻的子體的光流值的變化率的方向的改變的頻率計(jì)算加速度特征。使用定向的加速度特征被發(fā)現(xiàn)在區(qū)分運(yùn)動(dòng)任務(wù)類別中是非常有效的。
一些示例包括忽視光流值的變化率的方向的改變,其中光流的幅度低于閾值。這幫助在歸因于噪聲的運(yùn)動(dòng)與人的實(shí)際運(yùn)動(dòng)之間進(jìn)行區(qū)分。
一些示例包括在將視頻輸入到經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng)之前通過(guò)縮放、集中和執(zhí)行前景提取對(duì)視頻進(jìn)行預(yù)處理。這簡(jiǎn)化在測(cè)試時(shí)間經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng)的使用并且降低測(cè)試時(shí)間處理持續(xù)時(shí)間。
在示例中,視頻具有任何長(zhǎng)度,并且以考慮視頻的長(zhǎng)度的方式計(jì)算局部運(yùn)動(dòng)特征。在運(yùn)動(dòng)任務(wù)展示個(gè)人之間的持續(xù)時(shí)間中的大變化性的情況下,這是非常有用的。
示例包括使用執(zhí)行運(yùn)動(dòng)任務(wù)的人的視頻訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng),其中視頻被標(biāo)記有指示運(yùn)動(dòng)任務(wù)屬于多個(gè)可能類別中的哪一個(gè)的標(biāo)記,并且其中視頻具有不同的長(zhǎng)度。
以上示例可以包括將視頻輸入到經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng),包括以下各項(xiàng)中的任一項(xiàng):隨機(jī)決策森林、有向無(wú)環(huán)圖的叢林和支持向量機(jī)的集合。
一些示例包括將視頻輸入到包括支持向量機(jī)的集合的經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng),每個(gè)支持向量機(jī)是二叉決策樹(shù)的分裂節(jié)點(diǎn)。不管視頻數(shù)據(jù)的高和可變數(shù)量的維度這給定使用支持向量機(jī)的實(shí)際的方式。
一些示例包括將視頻輸入到包括支持向量機(jī)的集合的經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng),所述支持向量機(jī)的個(gè)體支持向量機(jī)已經(jīng)使用包括根據(jù)標(biāo)記的訓(xùn)練視頻計(jì)算的隨機(jī)化位置相關(guān)局部運(yùn)動(dòng)特征的固定長(zhǎng)度特征描述符訓(xùn)練。所得的支持向量機(jī)的集合可以被稱為隨機(jī)化的支持向量機(jī)的集合。
另一示例提供運(yùn)動(dòng)任務(wù)分類器,包括:
存儲(chǔ)器,其存儲(chǔ)描繪執(zhí)行運(yùn)動(dòng)任務(wù)的人或動(dòng)物的至少一部分的視頻;
經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng),其已經(jīng)被訓(xùn)練以找到視頻的在運(yùn)動(dòng)任務(wù)的多個(gè)類別之間進(jìn)行區(qū)分的位置相關(guān)局部運(yùn)動(dòng)特征;以及
處理器,其被布置為根據(jù)視頻計(jì)算運(yùn)動(dòng)描述符,將運(yùn)動(dòng)描述符應(yīng)用到經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng),并且在響應(yīng)中接收關(guān)于運(yùn)動(dòng)任務(wù)被預(yù)測(cè)為屬于多個(gè)類別中的哪一個(gè)類別的數(shù)據(jù)。
術(shù)語(yǔ)“計(jì)算機(jī)”或“基于計(jì)算的設(shè)備”在本文中被用于指代具有處理能力的任何設(shè)備,使得其可以執(zhí)行指令。本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,這樣的處理能力被包含到許多不同的設(shè)備中并且因此術(shù)語(yǔ)“計(jì)算機(jī)”和“基于計(jì)算的設(shè)備”各自包括PC、服務(wù)器、移動(dòng)電話(包括智能電話)、平板計(jì)算機(jī)、機(jī)頂盒、媒體播放器、游戲控制臺(tái)、個(gè)人數(shù)字助理和許多其他設(shè)備。
本文所描述的方法可以由以有形存儲(chǔ)介質(zhì)上的機(jī)器可讀形式(例如,以包括適于當(dāng)程序被運(yùn)行在計(jì)算機(jī)上時(shí)并且在計(jì)算機(jī)程序可以被實(shí)現(xiàn)在計(jì)算機(jī)可讀介質(zhì)上的情況下執(zhí)行本文所描述的方法中的任一個(gè)的所有步驟的計(jì)算機(jī)程序代碼裝置的計(jì)算機(jī)程序的形式)的軟件執(zhí)行。有形存儲(chǔ)介質(zhì)的示例包括包括計(jì)算機(jī)可讀介質(zhì)(諸如磁盤(pán)、拇指驅(qū)動(dòng)器、存儲(chǔ)器等)的計(jì)算機(jī)存儲(chǔ)設(shè)備并且不包括傳播信號(hào)。傳播信號(hào)可以存在于有形存儲(chǔ)介質(zhì)中,但是傳播信號(hào)自身不是有形存儲(chǔ)介質(zhì)的示例。軟件可以適于在并行處理器或串行處理器上執(zhí)行,使得可以以任何適合的順序或同時(shí)地執(zhí)行方法步驟。
這確認(rèn)軟件可以是有價(jià)值的可分離地交易的商品。其旨在涵蓋在“無(wú)聲”或標(biāo)準(zhǔn)硬件上運(yùn)行或控制“無(wú)聲”或標(biāo)準(zhǔn)硬件以執(zhí)行期望功能的軟件。其還旨在涵蓋“描述”或定義硬件的配置的軟件(諸如HDL(硬件描述語(yǔ)言)軟件),如被用于設(shè)計(jì)硅片或用于將通用可編程芯片配置為執(zhí)行期望功能。
本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,存儲(chǔ)程序指令利用的存儲(chǔ)設(shè)備可以跨越網(wǎng)絡(luò)分布。例如,遠(yuǎn)程計(jì)算機(jī)可以存儲(chǔ)被描述為軟件的過(guò)程的示例。局部或終端計(jì)算機(jī)可以訪問(wèn)遠(yuǎn)程計(jì)算機(jī)并且下載軟件的一部分或全部來(lái)運(yùn)行程序。備選地,本地計(jì)算機(jī)可以根據(jù)需要下載軟件的部分,或者在本地終端處執(zhí)行一些軟件指令或在遠(yuǎn)程計(jì)算機(jī)(或計(jì)算機(jī)網(wǎng)絡(luò))處執(zhí)行一些軟件指令。本領(lǐng)域的技術(shù)人員還將認(rèn)識(shí)到,通過(guò)利用本領(lǐng)域的技術(shù)人員已知的常規(guī)技術(shù),可以通過(guò)專用電路(諸如DSP、可編程邏輯陣列等)執(zhí)行軟件指令的全部或一部分。
在不損失尋求效果的情況下,可以延伸或更改本文給定的任何范圍或值,如對(duì)于技術(shù)人員而言將是顯而易見(jiàn)的。
雖然已經(jīng)以特定于結(jié)構(gòu)特征和/或方法動(dòng)作的語(yǔ)言描述了主題,但是應(yīng)理解到,所附權(quán)利要求中定義的主題不必限于上文所描述的特定特征或動(dòng)作。而是,上文所描述的特定特征和動(dòng)作被公開(kāi)為實(shí)現(xiàn)權(quán)利要求的示例形式。
將理解到,上文所描述的益處和優(yōu)點(diǎn)可以涉及一個(gè)實(shí)施例或可以涉及若干實(shí)施例。實(shí)施例不限于解決所描述問(wèn)題中的任何或全部問(wèn)題的那些實(shí)施例或具有所描述益處和優(yōu)點(diǎn)中的任何或全部的那些實(shí)施例。將進(jìn)一步理解到,對(duì)“一個(gè)”項(xiàng)的引用指代那些項(xiàng)中的一個(gè)或多個(gè)。
可以以任何適合的順序或同時(shí)在適當(dāng)?shù)那闆r下執(zhí)行本文所描述的方法的步驟。此外,在不脫離本文所描述的主題的精神和范圍的情況下,可以從方法中的任一個(gè)刪除單個(gè)框。上文所描述的示例中的任一個(gè)示例的方面可以與所描述的其他示例中的任一個(gè)示例的方面組合以在不損失尋求效果的情況下形成進(jìn)一步的示例。
術(shù)語(yǔ)“包括”在本文中被用于意指包括所標(biāo)識(shí)的方法框或元件,但是這樣的框或元件不包括排他性列表并且方法或放置可以包含附加框或元件。
術(shù)語(yǔ)“子集”在本文中被用于指代適當(dāng)?shù)淖蛹?,使得集合的子集不包括集合的所有元?即,集合的元素中的至少一個(gè)將從子集丟失)。
將理解到,僅通過(guò)示例的方式給出以上描述并且可以通過(guò)本領(lǐng)域的技術(shù)人員做出各種修改。以上說(shuō)明書(shū)、示例和數(shù)據(jù)提供示例性實(shí)施例的結(jié)構(gòu)和使用的完整描述。雖然上文已經(jīng)以一定程度上的特殊性或者參考一個(gè)或多個(gè)單獨(dú)實(shí)施例描述各種實(shí)施例,但是在不脫離本說(shuō)明書(shū)的精神或范圍的情況下,本領(lǐng)域的技術(shù)人員可以對(duì)所公開(kāi)的實(shí)施例做出很多變型。