智能電視系統(tǒng)及其方法
【專利摘要】本發(fā)明公開智能電視系統(tǒng)及其方法,該方法包括接收對應(yīng)視頻節(jié)目的輸入視頻序列,并將該輸入視頻序列分成多個視頻截圖,每個視頻截圖包含一個或多個視頻幀。該方法還包括對所述多個視頻截圖的每一截圖中可能的對象事件進行檢測,并運用多模態(tài)線索分析視頻截圖中對象的可能路徑,進一步地,該方法包括整合基于路徑選擇的多個視頻截圖中的對象事件來檢測對象,并生成涵蓋所述多個視頻截圖的對象事件的完整列表。
【專利說明】智能電視系統(tǒng)及其方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及電視與用戶交互技術(shù),尤其涉及智能用戶交互控制系統(tǒng)技術(shù)及其方 法。
【背景技術(shù)】
[0002] 傳統(tǒng)的通用性電視系統(tǒng)經(jīng)常無法滿足用戶的需求,當(dāng)用戶在傳統(tǒng)電視系統(tǒng)上查找 某一節(jié)目時,不僅需要知道節(jié)目的名字,還需要了解節(jié)目的大致情節(jié),或者需要選擇用戶喜 愛的演員或類型。如果沒有合適的信息作為搜索條件輸入,在線數(shù)據(jù)庫也無法給出結(jié)果,或 者是給出的搜索結(jié)果仍然不能夠完全滿足用戶的需求,從而給用戶體驗帶來不良影響。
[0003] 隨著技術(shù)的發(fā)展,智能電視成為一種發(fā)展趨勢,人們越來越需要開發(fā)一個基于對 象檢測的功能強大且直觀的用戶交互控制系統(tǒng)。當(dāng)用戶通過遙控器向電視發(fā)送一對象請求 時,智能電視可從一個或多個在線數(shù)據(jù)庫中查找到相匹配的對象并向用戶發(fā)送所請求的內(nèi) 容(例如視頻、網(wǎng)頁、維基百科、購物信息等等)。進一步地,智能電視可基于對象檢測通過查 找電視頻道和互聯(lián)網(wǎng)準確搜索到用戶所要尋找的內(nèi)容,并通過跟蹤用戶的瀏覽歷史記錄更 新推送通知的內(nèi)容。它為用戶提供了一個瀏覽視頻節(jié)目中對象的交互式視頻體驗
[0004] 視頻一般可分為受約束視頻和不受約束視頻,前者的特征在于存在一定的約束因 素,例如監(jiān)視或交通視頻,其鏡頭被認為是靜止的,相較于前景物體,其背景是相對靜止的。 另一方面,不受約束視頻則沒有受限特征,其通常特征是快速的鏡頭移動,復(fù)雜和動態(tài)背 景,物體遮擋。目前幾乎沒有可用于對無約束的視頻的對象檢測的實用解決方案。
[0005] 所公開的方法和系統(tǒng)旨在解決上述的一個或多個問題以及其他問題。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的一個方面包括用于基于對象檢測的智能用戶交互系統(tǒng)的方法。該方法包 括接收對應(yīng)一視頻節(jié)目的輸入視頻序列,并將所述輸入視頻序列分割成多個視頻截圖,每 個視頻截圖包含一個或多個視頻幀,方法還包括檢測在上述多個視頻截圖中潛在的對象事 件,并使用多模態(tài)線索分析一視頻截圖中對象的可能路徑。進一步地,該方法包括集合跨越 多個視頻截圖的基于路徑選擇的對象事件來檢測對象(跨越多個視頻截圖指同一對象事件 來自所述多個視頻截圖),生成針對跨多個視頻截圖的對象事件的完整列表。
[0007] 本發(fā)明的另一個方面包括一個智能用戶交互系統(tǒng)。該系統(tǒng)包括用于解碼輸入比特 流的視頻解碼器,用于存儲作為輸入視頻序列的一定時間的輸入比特流的數(shù)據(jù)存儲器,該 輸入視頻序列對應(yīng)顯示設(shè)備上顯示給用戶的電視節(jié)目,以及包括一用于將輸入視頻序列分 成多個視頻截圖的預(yù)處理單元,其中,每個視頻截圖包含一個或多個視頻幀。該系統(tǒng)還包括 一用于檢測在每個視頻截圖中可能的對象事件的檢測單元,一使用多模態(tài)線索分析視頻截 圖中對象可能路徑的路徑分析單元,一通過集合跨越多個視頻截圖的基于路徑選擇的對象 事件來檢測對象的集合單元。
[0008] 本領(lǐng)域技術(shù)人員可根據(jù)本公開內(nèi)容的描述,權(quán)利要求書和附圖來理解本發(fā)明公開 的其它方面內(nèi)容。
【專利附圖】
【附圖說明】
[0009] 圖1所示為本發(fā)明具體實施例中的典型環(huán)境示例;
[0010] 圖2所示為與公開的實施例相匹配的示例性計算系統(tǒng);
[0011] 圖3所示為與所公開的實施例一致的示例性智能電視系統(tǒng);
[0012] 圖4所示為與所公開的實施例一致的方法流程圖;
[0013] 圖5A-5B所示為與所公開實施方案相一致的時裝秀中"手提包"和"面孔"之間的 拓撲關(guān)系的不例;
[0014] 圖6A-6B所示為與所公開的實施例一致的對象路徑檢測;
[0015] 圖7所示為與所公開實施例一致的智能電視系統(tǒng)的示例性操作過程。
【具體實施方式】
[0016] 通過本發(fā)明的實施例對本發(fā)明進行詳細說明,這也將在附圖中進行闡述。在任何 可能的情況下,相同的附圖標記在整個附圖中用來指代相同或相似的部件。
[0017] 圖1列舉了與本發(fā)明實施例相結(jié)合的一典型環(huán)境100,如圖1所示,環(huán)境100包括 電視機(TV) 102,遙控器104和用戶108??蛇x的,環(huán)境100還可包括網(wǎng)絡(luò)設(shè)備106。
[0018] 電視機102可包括任意適當(dāng)類型的電視機,例如等離子電視,液晶電視,投影電 視,非智能電視,或者智能電視。電視機102也可包括其他計算系統(tǒng),例如個人計算機(PC), 平板或便攜式電腦,或者服務(wù)器等。
[0019] 遙控器104可包括任意適當(dāng)類型的遙控器,其可通過與電視機102的通信實現(xiàn)對 電視機102的控制,例如定制的電視機遙控器、萬能遙控器、平板電腦、智能手機,或者能夠 執(zhí)行遠程控制功能的任何其他計算設(shè)備。遙控器104也可包括其他類型的設(shè)備,例如基于 遙控控制的運動傳感器或深度相機增強的遙控器,以及簡單的輸入/輸出設(shè)備,如鍵盤、鼠 標、聲控輸入設(shè)備等。
[0020] 為了通過電視機102觀看電視節(jié)目并進行感興趣的活動,例如購物,用戶108可首 先撿起遙控器104,并拿著遙控器104,然后使用遙控器104來控制電視機102執(zhí)行感興趣 的活動,或者,如果應(yīng)用了運動傳感器或深度相機(depth-camera ),用戶可以簡單地使用手 或身體姿勢來控制電視機102,在這個過程中,用戶108可以與電視機102和/或網(wǎng)絡(luò)設(shè)備 106進行交互。
[0021] 此外,可選的網(wǎng)絡(luò)設(shè)備106可以包括任何適當(dāng)類型的計算機或消費電子設(shè)備,以 便促進實現(xiàn)遙控器104和電視機102之間通信、數(shù)據(jù)存儲和數(shù)據(jù)處理。電視機102,遙控器 104以及網(wǎng)絡(luò)設(shè)備106可以通過一個或多個通信網(wǎng)絡(luò)互相通信。
[0022] 電視機102,遙控器104和/或網(wǎng)絡(luò)設(shè)備106可以在任何合適的計算電路平臺上實 現(xiàn)。圖2顯示了一個能夠?qū)崿F(xiàn)電視102、遙控器104和/或網(wǎng)絡(luò)設(shè)備106的示例性計算系統(tǒng) 200的原理框圖。
[0023] 如圖2所示,計算系統(tǒng)200可以包括處理器202、存儲介質(zhì)204、顯示器206、通信模 塊208、數(shù)據(jù)庫210和外圍設(shè)備212。某些設(shè)備可被省略而其他一些設(shè)備也可以包括其中。
[0024] 處理器202可包括任何合適的處理器或處理機,進一步地,處理器202可以包括用 于多線程或并行處理的多個內(nèi)核,存儲介質(zhì)204可以包括內(nèi)存模塊,如ROM,RAM,閃存模塊 和大容量存儲,如CD-ROM和硬盤等。存儲介質(zhì)204可以存儲計算機程序,用于處理器202 執(zhí)行計算機程序?qū)嵤└鞣N處理。
[0025] 進一步地,外圍設(shè)備212可以包括各種傳感器和其它I/O設(shè)備,如鍵盤和鼠標,通 信模塊208可以包括通過通信網(wǎng)絡(luò)建立連接的某些網(wǎng)絡(luò)接口設(shè)備。數(shù)據(jù)庫210可以包括用 于存儲數(shù)據(jù)的一個或多個數(shù)據(jù)庫,并用于對所存儲的數(shù)據(jù)執(zhí)行特定操作,例如數(shù)據(jù)庫搜索。
[0026] 圖3示出一個與所公開的實施例一致的示例性智能電視系統(tǒng)300。如圖3所示,控 制系統(tǒng)300包括視頻解碼器302、數(shù)據(jù)存儲器304和視頻處理單306。該系統(tǒng)300還包括預(yù) 處理單元308、檢測單元310、路徑分析單元312和一個集合單元314。某些組件可被省略而 其他組件可以添加在內(nèi)。系統(tǒng)300 (例如,各種組件)可以通過硬件、軟件,或硬件和軟件的 組合來實現(xiàn)。
[0027] 視頻解碼器302可以包括任何合適的解碼輸入電視機102的輸入比特流的視頻解 碼電路。該比特流被解碼之后,該數(shù)據(jù)被提供給視頻處理單元306,由其對將要顯示的視頻 數(shù)據(jù)進行渲染。進一步地,數(shù)據(jù)存儲器304可以包括任何適當(dāng)?shù)挠糜诖鎯σ曨l數(shù)據(jù)的存儲 介質(zhì)(例如,存儲介質(zhì)204,數(shù)據(jù)庫210)。視頻數(shù)據(jù)在被存儲到數(shù)據(jù)存儲器304之前可進行 加密,存儲的視頻數(shù)據(jù)在提供給視頻處理單元306顯示之前需要進行解碼。
[0028] 視頻解碼器302、數(shù)據(jù)存儲器304和視頻處理單元306的配制可被用于實現(xiàn)電視機 102的時移功能。用戶可以按住直播視頻回放一定時間(例如,幾秒鐘,幾分鐘或幾小時),數(shù) 據(jù)存儲器304在用戶108觀看直播視頻的時候可以在解碼和顯示之間的存儲或緩沖視頻數(shù) 據(jù)。
[0029] 預(yù)處理單元308可用于將輸入視頻分成許多視頻截圖。即當(dāng)用戶嘗試進行電視節(jié) 目倒回時,預(yù)處理單元308可將存儲在數(shù)據(jù)存儲模塊的過去幾分鐘或任意時間段的視頻數(shù) 據(jù)匯總成許多視頻截圖提供給用戶。
[0030] 檢測單元310用于檢測每個視頻截圖中的潛在的對象事件,包括相關(guān)類檢測和目 標類檢測。即,檢測單元310可自動檢測所關(guān)注的當(dāng)前區(qū)域,以便用戶可指定對象,大幅減 少他/她搜索該對象的時間。檢測單元310可根據(jù)特定的應(yīng)用設(shè)置在電視機102的內(nèi)部或 外部。
[0031] 路徑分析單元312可用于實現(xiàn)通過運用多模態(tài)線索分析一個對象依照的可能路 徑。多模態(tài)線索基于檢測方法結(jié)合外觀、時空和拓撲線索,來實現(xiàn)對無約束的視頻序列中的 對象檢測。根據(jù)外觀線索,使用對象的視覺特征檢測視頻幀中可能的對象位置,根據(jù)時空線 索和拓撲線索在目標對象類和相關(guān)對象類之間通過相關(guān)約束跨越幀序列注入信息;多模態(tài) 線索信息可以被結(jié)合來創(chuàng)建跨越當(dāng)前視頻截圖的視頻幀的對象事件之間的關(guān)聯(lián)性;路徑分 析單元312應(yīng)用動態(tài)規(guī)劃來查找最佳的對象路徑。
[0032] 集合單元314用于通過集合跨越多個視頻截圖的基于路徑選擇的對象事件,然后 最終的對象事件發(fā)送至數(shù)據(jù)存儲器304.
[0033] 圖4示出了與所公開的實施例一致的由包含各種單元的電視系統(tǒng)300執(zhí)行的典型 過程的流程圖。如圖4所示,在開始時,輸入視頻被劃分成若干個視頻截圖(S410)。在每個 視頻截圖中檢測潛在的對象事件(S420)。在步驟S410中所使用的特定截圖邊界檢測算法 是獨立于系統(tǒng)之外的,其可以看作是一個系統(tǒng)插件。
[0034] 獲取視頻截圖后,檢測視頻截圖中的對象。例如,步驟S420中使用兩個對象檢測 器執(zhí)行對象檢測。一個對象檢測器用于檢測相關(guān)對象類的對象,另一個用于檢測目標對象 類的對象。這兩種對象檢測器也可以作為系統(tǒng)的插件使用。
[0035] 假設(shè)D為視頻序列{FJ,i=l,. . .,N,其中N表示序列中幀的數(shù)字,匕表示第i個 視頻幀;C是對象類別,即目標對象類,Μ是D中C類對象事件的總數(shù)目。D被分成多個截圖 {SJ, ,Κ〇
[0036] 各對象事件的檢測需要獲取多模態(tài)線索信息(S430),然后融合并創(chuàng)建當(dāng)前截圖中 跨幀的對象事件間的聯(lián)系(S440)。所獲得的信息源于模擬如下所述的多模態(tài)線索的公式。
[0037] D中的某一幀F(xiàn)中一"真實"的對象的外觀作為對象事件,0和(f分別表示一個 對象事件和一真實對象。然后,問題是找到D中出現(xiàn)的所有C類的對象事件{^},其中 j=l,. . .,M。每一對象事件由元組(i,1」,Sj)組成,其中i是0」出現(xiàn)的幀的索引,1」是0』 在Fi中的位置,\_是0」的尺寸,其通過〇」邊框的寬度和高度值來表示。
[0038] 通過運用與C類目標對象相關(guān)的外觀、時空和拓撲線索在每個截圖Si中檢測到的 所有c類的對象事件。
[0039] 更具體地,為獲取某Si中所有的C類對象事件,可分析對象(T遵循的貫穿截圖Si 的最佳路徑,其中路徑中的每個對象事件是D中Μ個C類對象事件中的一個。該方法背后 的原理為,對截圖中對象(f的路徑分析可以消除假陽性的對象事件。假設(shè)自從視頻被分割 為截圖后,用于此次任務(wù)的截圖邊界法將不能將連續(xù)的場景分成許多單獨的截圖。
[0040] 截圖中對象路徑的分析是基于時空和拓撲線索,外觀線索指目標對象類的視覺外 觀,換言之,對象的視覺外觀不會對對象的類別確定產(chǎn)生多少影響,與之相反,時空和拓撲 線索指目標對象類和相關(guān)對象類的相關(guān)性;這里隱含的要求是相關(guān)對象類必須是更易被檢 測,在這個意義上有成熟的技術(shù)可很好地檢測到相關(guān)類的對象。
[0041] 圖5A-5B示出與所公開的實施例一致的在時裝秀中"手提包"與"面孔"之間的拓 撲關(guān)系的一個示例,如圖5A-5B所示,針對檢測時裝秀中手提包的任務(wù),目標對象類是"手 提包",相關(guān)對象類是"面孔"。"手提包"類對象的檢測可通過面孔檢測結(jié)果來增強,因為針 對面孔檢測的技術(shù)相當(dāng)強大。盡管如此,相關(guān)類的錯誤檢測仍會發(fā)生。目標對象類的檢測 通過利用這兩個類之間的時空和拓撲關(guān)系來增強。拓撲關(guān)系就相關(guān)類對象事件的位置來約 束目標類事件可能位置。在所描述的時裝秀例子中,模特拎著手提包,模特的臉和手提包之 間有清晰的位置關(guān)系,邊界框描繪針對目標對象"手提包"和相關(guān)對象類"面孔"的對象事 件?;诖送負潢P(guān)系,該模特的面孔的位置被用來限制手提包的可能位置,此外,視頻中連 續(xù)幀的連續(xù)性產(chǎn)生了目標類對象的連續(xù)位置和相關(guān)類對象的連續(xù)位置之間的時空相關(guān)性。
[0042] 圖6A-6B示出了與所公開的實施例一致的一個對象的路徑,如圖6A所示,根據(jù)相 關(guān)類對象的運動軌跡和目標類對象的運動軌跡之間的相關(guān)性,將有用信息注入整個檢測過 程。通過訓(xùn)練對象檢測器來實現(xiàn)目標類對象的檢測,外觀線索定義為條件概率p(0 I 0。 經(jīng)訓(xùn)練的對象檢測器必須提供P(〇 I C)以及被檢測對象0的位置和尺寸。
[0043] 時空拓撲線索通過相對于檢測到的給定截圖中的相關(guān)類對象1^來限制給定的截 圖中對象(T采取的路徑。根據(jù)時空和拓撲約束,可沿R #的一系列幀{Fk}k=l,...,T,搜索 "最佳"路徑0%圖6B示出了如何運用最佳路徑去除錯誤的對象檢測。錯誤的對象由圖6B 中的白框所示,假設(shè)ο表示連續(xù)幀匕中的一對象事件,{〇/}.表示匕中的對象事件集合,然 后,對象(T在{FJ中遵循的所需路徑具有以下特點:
[0044] 首先,基于外觀線索的高概率可被指定為要求路徑中的對象(f事件有高的條件概 率P(C)1 I C),以及路徑中的連續(xù)對象事件有高的外觀關(guān)聯(lián)性。
[0045] 連續(xù)對象事件的外觀關(guān)聯(lián)性被定義為:
[0046]
【權(quán)利要求】
1. 一種基于對象檢測的智能用戶交互系統(tǒng)的交互方法包括: 接收對應(yīng)視頻節(jié)目的輸入視頻序列; 將該輸入視頻序列分成多個視頻截圖,每個視頻截圖包括一個或多個視頻幀; 檢測所述多個視頻截圖中每一視頻截圖中潛在的對象事件; 根據(jù)多模態(tài)線索分析視頻截圖中對象的可能路徑; 集合跨越多個視頻截圖的基于路徑選擇的對象事件來檢測對象,并生成針對跨越多個 視頻截圖的對象事件的列表。
2. 根據(jù)權(quán)利要求1所述的方法,其中,所述根據(jù)多模態(tài)線索分析視頻截圖中對象的可 能路徑進一步包括: 結(jié)合外觀線索、時空線索及拓撲線索來進行所述多個視頻截圖的對象檢測; 根據(jù)外觀線索,使用對象的視覺特征檢測視頻幀中可能的對象位置;根據(jù)時空線索和 拓撲線索,在目標對象類和相關(guān)對象類之間通過相關(guān)約束跨越幀序列注入信息; 融合多模態(tài)線索信息來創(chuàng)建跨越當(dāng)前視頻截圖的視頻幀的對象事件之間的關(guān)聯(lián)性;并 且應(yīng)用動態(tài)規(guī)劃來查找最佳的對象路徑。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于: 規(guī)定〇 1是視頻序列第1個視頻幀匕中的對象事件和0 m是視頻序列第m個視頻幀F(xiàn)m 中的對象事件,一路徑中的被檢測到的對象事件〇1的條件概率為P (〇Vc), 其中C是目標對象的類,并且路徑中連續(xù)的對象事件01和〇-具有外觀關(guān)聯(lián)性,其被 定義為:
其中,1尹m,τ (.)是一個代表對象事件邊界框的ι-d特征向量;c(.)是測量兩ι-d特 征向量之間關(guān)聯(lián)性的函數(shù),c(.)的圖像是[0,1]。
4. 根據(jù)權(quán)利要求2所述的方法,其特征在于: 規(guī)定〇 1是視頻序列第1個視頻幀匕中的目標類對象事件和〇m是視頻序列第m個 視頻幀F(xiàn)m中的目標類對象事件,目標類對象和檢測到的相關(guān)類對象軌跡的路徑偏差被定義 為:
其中,R1是視頻序列第1個視頻幀匕中的相關(guān)類對象事件,Γ是視頻序列第m個視頻 幀F(xiàn)m*的相關(guān)類對象事件,1尹m,II. ||2是1^2范數(shù),ε是一個大于零的常數(shù)。
5. 根據(jù)權(quán)利要求2所述的方法,其特征在于: 規(guī)定01和R1分別是視頻序列第1個視頻幀匕中的目標類對象事件和相關(guān)類對象事 件,函數(shù)Ψ(.)取決于相關(guān)類對象R1和檢測到的對象01之間的拓撲關(guān)系,其被定義為
其中II. II 2是1^2范數(shù),0 =用于限制檢測到的對象ο1與相關(guān)類對象R1的距離遠近, 其中〇彡θ τ < 1。
6. 根據(jù)權(quán)利要求4所述的方法,其特征在于: Γ (.)進一步包括目標類和相關(guān)類對象的邊界框的尺寸之間的關(guān)系。
7. 根據(jù)權(quán)利要求1所述的方法,進一步包括: 產(chǎn)生針對視頻節(jié)目的多個摘要視頻幀并顯示在顯示器上; 檢測到用戶停止視頻節(jié)目的命令,在停止視頻節(jié)目之后,在顯示器上向用戶呈現(xiàn)所述 多個摘要視頻幀。
8. 根據(jù)權(quán)利要求7所述的方法,還包括: 獲取用戶從多個摘要視頻幀中所選擇的摘要視頻幀; 在顯示器上向用戶呈現(xiàn)基于對象事件檢測到的多個感興趣的對象; 確定用戶從多個感興趣的對象中所選擇的感興趣對象; 搜索所選擇的對象,向用戶呈現(xiàn)基于搜索結(jié)果的內(nèi)容。
9. 一個智能用戶交互系統(tǒng),包括: 用于解碼輸入比特流的視頻解碼器; 用于存儲作為對應(yīng)顯示設(shè)備上顯示給用戶的電視節(jié)目的輸入視頻序列的一定時間的 輸入比特流的數(shù)據(jù)存儲器; 用于將輸入視頻序列分成多個視頻截圖的預(yù)處理單元,其中,每個視頻截圖包含一個 或多個視頻幀; 用于檢測在每個視頻截圖中潛在的對象事件的檢測單元; 根據(jù)多模態(tài)線索分析視頻截圖中對象的可能路徑的路徑分析單元; 通過集合跨越多個視頻截圖的基于路徑選擇的對象事件來檢測對象的集合單元。
10. 根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述路徑分析單元進一步配置為: 結(jié)合外觀線索、時空線索及拓撲線索來進行所述多個視頻截圖的對象檢測; 根據(jù)外觀線索,使用對象的視覺特征來實現(xiàn)檢測視頻幀中可能的對象位置; 根據(jù)時空線索和拓撲線索,在目標對象類和相關(guān)對象類之間通過相關(guān)約束跨越幀序列 注入信息; 融合多模態(tài)線索信息來創(chuàng)建跨越當(dāng)前視頻截圖的視頻幀的對象事件之間的關(guān)聯(lián)性;并 且應(yīng)用動態(tài)規(guī)劃來查找最佳的對象路徑。
11. 根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于: 規(guī)定〇1是視頻序列第1個視頻幀匕中的對象事件和0m是視頻序列第m個視頻幀F(xiàn)m 中對象事件,一路徑中的被檢測到的對象事件的條件概率為P(〇Vc),其中C是目標對象的 類,并且路徑中連續(xù)的對象事件0 1和〇-具有外觀關(guān)聯(lián)性,其被定義為:
其中,1尹m,τ (.)是一個代表對象事件邊界框的ι-d特征向量;c(.)是測量兩ι-d特 征向量之間關(guān)聯(lián)性的函數(shù),c(.)的圖像是[0,1]。
12. 根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于: 規(guī)定〇 1是視頻序列第1個視頻幀匕中的目標類對象事件和〇m是視頻序列第m個 視頻幀F(xiàn)m中的目標類對象事件,目標類對象和檢測到的相關(guān)類對象的內(nèi)徑偏差軌跡被定義 為:
其中,R1是視頻序列第1個視頻幀匕中的相關(guān)類對象事件,Γ是視頻序列第m個視頻 幀F(xiàn)m*的相關(guān)類對象事件,1尹m,II. ||2是1^2范數(shù),ε是一個大于零的常數(shù)。
13. 根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于: 規(guī)定01和R1分別是視頻序列第1個視頻幀匕中的目標類對象事件和相關(guān)類對象事 件,函數(shù)Ψ(.)取決于相關(guān)類對象R1和檢測到的對象01之間的拓撲關(guān)系,其被定義為:
其中II. II 2是1^2范數(shù),0 =用于限制檢測到的對象01與相關(guān)類對象R1的距離遠近, 其中0彡θ τ < 1。
14. 根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于: Γ (.)進一步包括目標類和相關(guān)類對象的邊界框的尺寸之間的關(guān)系。
15. 根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,還包括: 當(dāng)用戶嘗試進行電視節(jié)目倒回時,預(yù)處理單元可將存儲在數(shù)據(jù)存儲模塊的過去幾分鐘 或任意時間段的視頻數(shù)據(jù)匯總成許多視頻截圖提供給用戶。
16. 根據(jù)權(quán)利要求15所述的系統(tǒng),其特征在于,進一步包括: 產(chǎn)生針對視頻節(jié)目的多個摘要視頻幀并顯示在顯示器上; 檢測到用戶停止視頻節(jié)目的命令,在停止視頻節(jié)目之后,在顯示器上向用戶呈現(xiàn)所述 多個摘要視頻幀。
17. 根據(jù)權(quán)利要求16所述的系統(tǒng),進一步包括: 獲取用戶從多個摘要視頻幀中所選擇摘要視頻幀; 在顯示器上向用戶呈現(xiàn)基于對象事件檢測到的多個感興趣的對象; 確定用戶從多個感興趣的對象中所選擇的感興趣對象; 搜索所選擇的對象,向用戶呈現(xiàn)基于搜索結(jié)果的內(nèi)容。
【文檔編號】H04N21/466GK104113784SQ201410156249
【公開日】2014年10月22日 申請日期:2014年4月17日 優(yōu)先權(quán)日:2013年4月18日
【發(fā)明者】法奧斯托C·弗萊意緹斯, 汪灝泓 申請人:Tcl集團股份有限公司