專利名稱:用于對多個幀進(jìn)行摘錄的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種圖像再現(xiàn)方法和設(shè)備,特別涉及一種用于對多個幀進(jìn)行摘錄的方法和設(shè)備,其將多個幀分類,并通過從分類后的幀中選擇代表幀來輸出幀摘要。
背景技術(shù):
通常,為用戶回放存儲在存儲介質(zhì)中的靜止圖像或視頻流、以通過顯示裝置來觀看的圖像再現(xiàn)設(shè)備具有將加密的圖像數(shù)據(jù)解碼并輸出解碼后的圖像數(shù)據(jù)的功能。近來,網(wǎng)絡(luò)、數(shù)字存儲介質(zhì)、以及圖像壓縮/解壓縮技術(shù)已得到了發(fā)展。因此,將數(shù)字圖像存儲在存儲介質(zhì)中并再現(xiàn)該數(shù)字圖像的設(shè)備變得普及。
當(dāng)將很多數(shù)字視頻流或靜止圖像存儲在大容量存儲介質(zhì)中時,在存儲的圖像中容易且快速地選擇用戶期望觀看或感興趣的圖像并再現(xiàn)該圖像、或者容易且快速地僅選擇視頻中感興趣或期望的部分并再現(xiàn)和編輯該部分的功能是非常必要的。允許用戶容易且快速地了解視頻流的內(nèi)容的功能被稱為“視頻摘錄”。
對多個幀進(jìn)行摘錄的一種方法為,從所述多個幀中選擇代表幀、并瀏覽該代表幀,或者查看視頻流中包括代表幀的鏡頭(shot)(“鏡頭”意思是包括相同場景的區(qū)段)。所選擇的代表幀的數(shù)目或者瀏覽代表幀的方法可根據(jù)詳細(xì)應(yīng)用而變化。通常,為選擇代表幀,將所選視頻流分為與場景改變相對應(yīng)的多個鏡頭,并從每個鏡頭中選擇一個或多個關(guān)鍵幀。由于視頻流中存在很多鏡頭,并且從鏡頭中獲得的關(guān)鍵幀的數(shù)目非常大,所以使用關(guān)鍵幀來進(jìn)行視頻摘錄是不適合的。因此,通過根據(jù)幀之間的相似性來將關(guān)鍵幀分類而形成群(cluster),并從每個群中選擇代表幀,并且,最后生成視頻流的幀摘要。這是通常的代表幀選擇方法。為形成群,公開了各種集群方法。在連續(xù)幀之間施加Linde-Buzo-Gray方法的情況中(參照美國專利第5995095號),由于當(dāng)具有低相似性的一對關(guān)鍵幀重復(fù)時,具有低相似性的幀被分類到同一群中,因此將結(jié)果施加到視頻摘錄可能是不適合的。在將最近相鄰方法施加到群生成上的情況中(參照美國專利第6278446號),難以隨意控制最終輸出群的數(shù)目,并且,由于利用特殊閾值來確定幀是否包括在群中,因此必須為每個輸入視頻流設(shè)置適當(dāng)?shù)拈撝?。存在將分級方法施加到群生成上的情況(參照美國專利第5821945和6535639號,以及美國公告第20030058268號)。然而,由于該情況簡單采用通常分級方法或采用根據(jù)Bayesian(貝葉斯)模型設(shè)置的方法,因此,會產(chǎn)生視頻流的長度較長而所需群的數(shù)目較小的情況、未施加設(shè)置模型的視頻流的情況、或?qū)⒕哂懈呦嗨菩缘膸诸惖讲煌旱那闆r。具體地說,如果在所需的代表幀的數(shù)目非常小的情況中產(chǎn)生了后面的問題,那么,由于摘要中可包括多個相似幀,所以用戶不能信賴所提供的視頻摘錄功能。
發(fā)明內(nèi)容
本發(fā)明提供一種用于對多個幀進(jìn)行摘錄的方法和設(shè)備,其根據(jù)幀的相似性來將所述多個幀分類,并通過從分類后的幀中選擇代表幀來輸出幀摘要,以便通過執(zhí)行將多個靜止圖像或視頻流概括為某個數(shù)目的幀的功能,來解決傳統(tǒng)問題并為圖像再現(xiàn)設(shè)備的用戶提供便利。
根據(jù)本發(fā)明的一個方面,提供了對視頻流進(jìn)行摘錄的方法,該方法包括(a)接收視頻流并提取每個鏡頭的關(guān)鍵幀;(b)從與鏡頭相對應(yīng)的關(guān)鍵幀中選擇預(yù)定數(shù)目的代表幀;以及(c)使用代表幀輸出幀摘要。
步驟(a)可包括(a1)將輸入視頻流分為多個鏡頭;以及(a2)提取每個鏡頭的關(guān)鍵幀。
步驟(b)可包括(b1)將與鏡頭相對應(yīng)的多個關(guān)鍵幀分為與代表幀的預(yù)定數(shù)目相同的多個群;以及(b2)從每個群中提取代表幀。步驟(b1)可包括為所述多個關(guān)鍵幀中的每個關(guān)鍵幀組成具有0深度(深度信息)的節(jié)點(diǎn),并計算關(guān)鍵幀的特征值以及關(guān)鍵幀的特征值之間的差;選擇特征值之間具有最小差的兩個最高節(jié)點(diǎn),將所選擇的這兩個節(jié)點(diǎn)連接到具有通過將最高節(jié)點(diǎn)的深度最大值加1而得到的深度的新節(jié)點(diǎn),并計算新節(jié)點(diǎn)的特征值,直到最高節(jié)點(diǎn)的數(shù)目等于代表幀的預(yù)定數(shù)目為止;以及,移除各自包括比預(yù)定值(MIN)少的數(shù)目的關(guān)鍵幀的最高節(jié)點(diǎn)、和該最高節(jié)點(diǎn)的子節(jié)點(diǎn),并移除剩余最高節(jié)點(diǎn)中具有最大深度的最高節(jié)點(diǎn),直到各自包括比預(yù)定值(MIN)多的數(shù)目的關(guān)鍵幀的最高節(jié)點(diǎn)的數(shù)目等于代表幀的預(yù)定數(shù)目為止。步驟(b2)可包括計算每個群中包括的關(guān)鍵幀的特征值的平均值;計算該平均值和關(guān)鍵幀的特征值之間的差;以及選擇具有最小差值的關(guān)鍵幀作為代表幀。步驟(b2)可包括計算每個群中包括的關(guān)鍵幀的特征值的平均值;計算該平均值和關(guān)鍵幀的特征值之間的差;選擇具有最小差值的兩個關(guān)鍵幀;以及從所選擇的這兩個關(guān)鍵幀中選擇滿足預(yù)定條件的關(guān)鍵幀作為代表幀。
步驟(c)可包括使用所選擇的代表幀和所選擇的代表幀的信息來對視頻流進(jìn)行摘錄;以及輸出幀摘要和幀信息,或者包括使用所選擇的代表幀的信息來以時間順序排列所選擇的代表幀;輸出幀摘要和幀信息;并且,如果重新指定了代表幀的數(shù)目,則通過以時間順序排列根據(jù)重新指定的代表幀數(shù)目而選擇的代表幀,來輸出幀摘要和幀信息。步驟(c)可包括增加代表幀的數(shù)目,直到包括所選擇的代表幀的每個鏡頭的持續(xù)時間總和大于預(yù)定時間為止;以及計算包括通過除去每個代表幀而剩余的代表幀的鏡頭之間的時間差的標(biāo)準(zhǔn)偏差,并且,移除當(dāng)除去代表幀時具有最小標(biāo)準(zhǔn)偏差的代表幀,直到包括所選擇的代表幀的每個鏡頭的持續(xù)時間總和小于預(yù)定時間為止。
根據(jù)本發(fā)明的另一方面,提供了對多個靜止圖像進(jìn)行摘錄的方法,該方法包括(d)接收靜止圖像并選擇預(yù)定數(shù)目的代表幀;以及(e)使用所選擇的代表幀來輸出幀摘要。
步驟(d)可包括(d1)將多個靜止圖像分為與代表幀的預(yù)定數(shù)目相同的多個群;以及(d2)提取每個群的每個代表幀。
步驟(d1)可包括為每個靜止圖像組成具有0深度(深度信息)的節(jié)點(diǎn),并計算靜止圖像的特征值和靜止圖像的特征值之間的差;選擇特征值之間具有最小差的兩個最高節(jié)點(diǎn),將所選擇的這兩個節(jié)點(diǎn)連接到具有通過將最高節(jié)點(diǎn)的深度最大值加1而得到的深度的新節(jié)點(diǎn),并計算該新節(jié)點(diǎn)的特征值,直到最高節(jié)點(diǎn)的數(shù)目等于代表幀的預(yù)定數(shù)目為止;以及,移除各自包括比預(yù)定值(MIN)少的數(shù)目的靜止圖像的最高節(jié)點(diǎn)、和該最高節(jié)點(diǎn)的子節(jié)點(diǎn),并移除剩余最高節(jié)點(diǎn)中具有最大深度的最高節(jié)點(diǎn),直到各自包括比預(yù)定值(MIN)多的數(shù)目的靜止圖像的最高節(jié)點(diǎn)的數(shù)目等于代表幀的預(yù)定數(shù)目為止。
步驟(d2)可包括計算每個群中包括的靜止圖像的特征值的平均值;計算該平均值和靜止圖像的特征值之間的差;以及選擇具有最小差值的靜止圖像作為代表幀。
步驟(d2)可包括計算每個群中包括的靜止圖像的特征值的平均值;計算該平均值和靜止圖像的特征值之間的差;選擇具有最小差值的兩個靜止圖像;以及從所選擇的這兩個靜止圖像中選擇滿足預(yù)定條件的靜止圖像作為代表幀。
根據(jù)本發(fā)明的另一方面,提供了一種用于對視頻流進(jìn)行摘錄的設(shè)備,該設(shè)備包括代表幀選擇器,其接收視頻流并選擇代表幀;以及幀摘要生成器,其使用所選擇的代表幀來對視頻流進(jìn)行摘錄,并輸出幀摘要和幀信息。
代表幀選擇器可包括關(guān)鍵幀提取器,其接收視頻流,提取每個鏡頭的關(guān)鍵幀,并輸出與鏡頭相對應(yīng)的關(guān)鍵幀;幀分割單元,其接收與鏡頭相對應(yīng)的關(guān)鍵幀,并將與鏡頭相對應(yīng)的關(guān)鍵幀分為與代表幀的預(yù)定數(shù)目相同的多個群;以及群代表幀提取器,其從每個群中包括的與鏡頭相對應(yīng)的關(guān)鍵幀中選擇一個代表幀,并輸出該代表幀。
幀分割單元可包括基本節(jié)點(diǎn)組成單元,其接收與鏡頭相對應(yīng)的關(guān)鍵幀,并為每個關(guān)鍵幀組成具有0深度的節(jié)點(diǎn);特征值計算器,其計算節(jié)點(diǎn)的關(guān)鍵幀的特征值以及特征值之間的差;以及最高節(jié)點(diǎn)組成單元,其選擇特征值之間具有最小差的兩個最高節(jié)點(diǎn),并將所選擇的這兩個節(jié)點(diǎn)連接到具有通過將最高節(jié)點(diǎn)的深度最大值加1而得到的深度的新節(jié)點(diǎn)。
最高節(jié)點(diǎn)組成單元還可包括次級群移除單元,其移除各自包括比預(yù)定值(MIN)少的數(shù)目的關(guān)鍵幀的最高節(jié)點(diǎn)、和該最高節(jié)點(diǎn)的子節(jié)點(diǎn);以及群分割單元,其移除剩余最高節(jié)點(diǎn)中具有最大深度的最高節(jié)點(diǎn)。
根據(jù)本發(fā)明的另一方面,提供了一種用于對靜止圖像進(jìn)行摘錄的設(shè)備,該設(shè)備包括代表靜止圖像選擇器,其接收靜止圖像并選擇預(yù)定數(shù)目的代表幀;以及靜止圖像摘要生成器,其使用所選擇的代表幀來對靜止圖像進(jìn)行摘錄,并輸出幀摘要和幀信息。
代表靜止圖像選擇器可包括靜止圖像分割單元,其接收靜止圖像,并將該靜止圖像分為與代表幀的預(yù)定數(shù)目相同的多個群;以及群代表靜止圖像提取器,其在每個群中包括的靜止圖像中選擇一個代表幀,并輸出該代表幀。
靜止圖像分割單元可包括靜止圖像基本節(jié)點(diǎn)組成單元,其接收靜止圖像,并為每個靜止圖像組成具有0深度的節(jié)點(diǎn);靜止圖像特征值計算器,其計算節(jié)點(diǎn)的靜止圖像的特征值以及特征值之間的差;以及靜止圖像最高節(jié)點(diǎn)組成單元,其選擇在所計算的特征值之間具有最小差的兩個最高節(jié)點(diǎn),并將所選擇的這兩個節(jié)點(diǎn)連接到具有通過將最高節(jié)點(diǎn)的深度最大值加1而得到的深度的新節(jié)點(diǎn)。
靜止圖像最高節(jié)點(diǎn)組成單元還可包括靜止圖像次級群移除單元,其移除各自包括比預(yù)定值(MIN)少的數(shù)目的靜止圖像的最高節(jié)點(diǎn)、和該最高節(jié)點(diǎn)的子節(jié)點(diǎn);以及靜止圖像群分割單元,其移除剩余最高節(jié)點(diǎn)中具有最大深度的最高節(jié)點(diǎn)。
通過參照附圖來詳細(xì)地描述本發(fā)明的示例實(shí)施例,本發(fā)明的上面和其它特征及優(yōu)點(diǎn)將變得更加清楚,其中圖1為根據(jù)本發(fā)明的實(shí)施例的用于對多個幀進(jìn)行摘錄的設(shè)備的方框圖,該設(shè)備可對視頻流進(jìn)行摘錄;圖2為圖1的代表幀選擇器的詳細(xì)方框圖;圖3為圖2的幀分割單元的詳細(xì)方框圖;圖4為圖示添加到圖3的最高節(jié)點(diǎn)組成單元的組件配置的方框圖;圖5為根據(jù)本發(fā)明的實(shí)施例的用于對多個幀進(jìn)行摘錄的設(shè)備的方框圖,該設(shè)備可對靜止圖像進(jìn)行摘錄;圖6為圖5的代表靜止圖像選擇器的詳細(xì)方框圖;圖7為圖6的靜止圖像分割單元的詳細(xì)方框圖;圖8為圖示添加到圖7的靜止圖像最高節(jié)點(diǎn)組成單元的組件配置的方框圖;圖9為圖示根據(jù)本發(fā)明的實(shí)施例的用于對多個幀進(jìn)行摘錄的設(shè)備的全部操作的流程圖;圖10為圖示接收視頻流和提取每個鏡頭的關(guān)鍵幀的過程的流程圖;圖11為圖示從與鏡頭相對應(yīng)的關(guān)鍵幀中選擇代表幀的過程的流程圖;圖12為圖示將與鏡頭相對應(yīng)的多個關(guān)鍵幀分為與代表幀的預(yù)定數(shù)目相同的多個群的過程的流程圖;圖13為圖示從每個群中提取代表幀的過程的流程圖;圖14為圖示從每個群中提取代表幀的另一過程的流程圖;圖15為圖示使用所選擇的代表幀來輸出幀摘要的過程的流程圖;圖16為幀摘要類型之一——視頻標(biāo)簽的實(shí)施例的示例;圖17為圖示使用所選擇的代表幀來輸出幀摘要的另一過程的流程圖;
圖18為幀摘要類型之一——故事板(story board)的實(shí)施例的示例;圖19為圖示使用所選擇的代表幀來輸出幀摘要的另一過程的流程圖;以及圖20為圖示根據(jù)本發(fā)明的實(shí)施例的用于對多個靜止圖像進(jìn)行摘錄的設(shè)備的全部操作的流程圖。
具體實(shí)施例方式
在下文中,現(xiàn)在將通過參照附圖來更為全面地描述本發(fā)明,其中示出了本發(fā)明的實(shí)施例。
圖1為根據(jù)本發(fā)明的實(shí)施例的用于對多個幀進(jìn)行摘錄的設(shè)備的方框圖,該設(shè)備可對視頻流進(jìn)行摘錄。參照圖1,該設(shè)備包括代表幀選擇器10、幀摘要生成器20、用戶接口單元30、視頻流解碼器40、視頻存儲單元50、以及顯示單元60。
代表幀選擇器10從視頻流解碼器40接收解碼后的視頻流,并選擇與從幀摘要生成器20提供的代表幀的預(yù)定數(shù)目相等數(shù)目的代表幀。幀摘要生成器20將用戶指定的代表幀的預(yù)定數(shù)目提供給代表幀選擇器10,接收代表幀選擇器10選擇的代表幀并將具有用戶期望格式的幀摘要輸出到顯示單元60。
用戶接口單元30將由用戶操作生成的數(shù)據(jù)提供給幀摘要生成器20。視頻流解碼器40將存儲在視頻存儲單元50中的加密的視頻流解碼,并將解碼后的視頻流提供給代表幀選擇器10。視頻存儲單元50存儲加密的視頻流。顯示單元60從幀摘要生成器20接收響應(yīng)于用戶命令而摘錄的幀,并顯示幀摘要,使得用戶可以查看該幀摘要。
圖2為圖1的代表幀選擇器10的詳細(xì)方框圖。參照圖2,代表幀選擇器10包括關(guān)鍵幀提取器100、幀分割單元110、以及群代表幀提取器120。
關(guān)鍵幀提取器100從視頻解碼器40接收視頻流,提取每個鏡頭的關(guān)鍵幀,并將與鏡頭相對應(yīng)的關(guān)鍵幀輸出到幀分割單元110。幀分割單元110從關(guān)鍵幀提取器100接收與鏡頭相對應(yīng)的關(guān)鍵幀,并將與鏡頭相對應(yīng)的關(guān)鍵幀分為與幀摘要生成器20提供的代表幀的預(yù)定數(shù)目相同的多個群。群代表幀提取器120從幀分割單元110接收與鏡頭相對應(yīng)的分割后的關(guān)鍵幀,從每個群中包括的與鏡頭相對應(yīng)的關(guān)鍵幀中選擇一個代表幀,并將該代表幀輸出到幀摘要生成器20。
圖3為圖2的幀分割單元110的詳細(xì)方框圖。參照圖3,幀分割單元110包括基本節(jié)點(diǎn)組成單元130、特征值計算器140、以及最高節(jié)點(diǎn)組成單元150。
基本節(jié)點(diǎn)組成單元130從關(guān)鍵幀提取器100接收與鏡頭相對應(yīng)的關(guān)鍵幀,并為每個關(guān)鍵幀組成具有0深度(深度信息)的基本節(jié)點(diǎn)。特征值計算器140計算最高節(jié)點(diǎn)中包括的基本節(jié)點(diǎn)的關(guān)鍵幀的特征值以及特征值之間的差。最高節(jié)點(diǎn)組成單元150選擇在所計算的特征值之間具有最小差即最高相似性的兩個最高節(jié)點(diǎn),并將所選擇的這兩個節(jié)點(diǎn)連接到具有增加了1的深度的新最高節(jié)點(diǎn)。
圖4為圖示添加到圖3的最高節(jié)點(diǎn)組成單元150上的組件配置的方框圖。參照圖4,最高節(jié)點(diǎn)組成單元150還包括次級群移除單元160和群分割單元170。
次級群移除單元160在從最高節(jié)點(diǎn)組成單元150接收的最高節(jié)點(diǎn)中移除各自包括比預(yù)定值(MIN)少的數(shù)目的關(guān)鍵幀的最高節(jié)點(diǎn)、和該最高節(jié)點(diǎn)的子節(jié)點(diǎn)。群分割單元170移除剩余最高節(jié)點(diǎn)中具有最大深度的最高節(jié)點(diǎn)。
圖5為根據(jù)本發(fā)明的實(shí)施例的用于對多個幀進(jìn)行摘錄的設(shè)備的方框圖,該設(shè)備可對靜止圖像進(jìn)行摘錄。參照圖5,該設(shè)備包括代表靜止圖像選擇器200、靜止圖像摘要生成器210、靜止圖像用戶接口單元220、靜止圖像存儲單元230、以及顯示單元235。
代表靜止圖像選擇器200從靜止圖像存儲單元230接收靜止圖像,并根據(jù)從靜止圖像摘要生成器210提供的代表幀的預(yù)定數(shù)目來選擇代表幀。靜止圖像摘要生成器210將用戶指定的代表幀的預(yù)定數(shù)目提供給代表靜止圖像選擇器200,接收代表靜止圖像選擇器200選擇的代表幀,并將幀摘要輸出到顯示單元235。
靜止圖像用戶接口單元220將由用戶操作生成的數(shù)據(jù)提供給靜止圖像摘要生成器210。靜止圖像存儲單元230存儲靜止圖像。顯示單元235從靜止圖像摘要生成器210接收幀摘要,并顯示該幀摘要,使得用戶可以查看該幀摘要。
圖6為圖5的代表靜止圖像選擇器200的詳細(xì)方框圖。參照圖6,代表靜止圖像選擇器200包括靜止圖像分割單元240、以及群代表靜止圖像提取器250。
靜止圖像分割單元240從靜止圖像存儲單元230接收靜止圖像,并將該靜止圖像分為與靜止圖像摘要生成器210提供的代表幀的預(yù)定數(shù)目相同的多個群。群代表靜止圖像提取器250從靜止圖像分割單元240接收分割后的靜止圖像,從每個群中包括的靜止圖像中選擇一個代表幀,并將該代表幀輸出到靜止圖像摘要生成器210。
圖7為圖6的靜止圖像分割單元240的詳細(xì)方框圖。參照圖7,靜止圖像分割單元240包括靜止圖像基本節(jié)點(diǎn)組成單元255、靜止圖像特征值計算器260、以及靜止圖像最高節(jié)點(diǎn)組成單元265。
靜止圖像基本節(jié)點(diǎn)組成單元255從靜止圖像存儲單元230接收靜止圖像,并為每個靜止圖像組成具有0深度(深度信息)的基本節(jié)點(diǎn)。靜止圖像特征值計算器260計算最高節(jié)點(diǎn)中包括的靜止圖像的特征值以及特征值之間的差。靜止圖像最高節(jié)點(diǎn)組成單元265從所計算的特征值中選擇具有最小差即最高相似性的兩個最高節(jié)點(diǎn),并將所選擇的這兩個節(jié)點(diǎn)連接到具有增加了1的深度的新最高節(jié)點(diǎn)。
圖8為圖示添加到圖7的靜止圖像最高節(jié)點(diǎn)組成單元265上的組件配置的方框圖。參照圖8,靜止圖像最高節(jié)點(diǎn)組成單元265還包括靜止圖像次級群移除單元270和靜止圖像群分割單元275。
靜止圖像次級群移除單元270在從靜止圖像最高節(jié)點(diǎn)組成單元265接收的最高節(jié)點(diǎn)中移除各自包括比預(yù)定值(MIN)少的數(shù)目的靜止圖像的最高節(jié)點(diǎn)、和該最高節(jié)點(diǎn)的子節(jié)點(diǎn)。靜止圖像群分割單元275移除剩余最高節(jié)點(diǎn)中具有最大深度的最高節(jié)點(diǎn)。
現(xiàn)在,將參照圖9到20來描述根據(jù)本發(fā)明的實(shí)施例的用于對多個幀進(jìn)行摘錄的設(shè)備的操作。
圖9為圖示根據(jù)本發(fā)明的實(shí)施例的用于對多個幀進(jìn)行摘錄的設(shè)備的全部操作的流程圖。
參照圖9,首先,在步驟290中,從視頻流解碼器40接收解碼后的視頻流,并提取每個鏡頭(包括相同場景的區(qū)段)的關(guān)鍵幀。在步驟300中,在所提取的鏡頭的關(guān)鍵幀中選擇用戶指定的預(yù)定數(shù)目的代表幀。在步驟310中,使用所選擇的代表幀來輸出幀摘要。
圖10為圖示接收視頻流和提取每個鏡頭的關(guān)鍵幀的過程的流程圖。
參照圖10,首先,在步驟320中,通過檢測所接收的視頻流的場景改變、并得到由場景改變邊界劃分的相同場景區(qū)段的時間信息,來將所接收的視頻流分為鏡頭。在步驟330中提取每個鏡頭的關(guān)鍵幀。提取每個鏡頭的關(guān)鍵幀的方法包括選擇每個鏡頭的固定位置的幀,例如每個鏡頭的第一幀、每個鏡頭的最后一幀、或每個鏡頭的中間幀,的方法,以及選擇具有最小運(yùn)動的幀、清晰幀、或具有清楚的臉部(face)的幀的方法。
圖11為圖示從與鏡頭相對應(yīng)的關(guān)鍵幀中選擇代表幀的過程的流程圖。
參照圖11,首先,在步驟340中,將與鏡頭相對應(yīng)的多個關(guān)鍵幀分為與幀摘要生成器20提供的、由用戶指定的代表幀的預(yù)定數(shù)目相同的多個群。在步驟350中,從每個群中選擇代表幀。
圖12為圖示將與鏡頭相對應(yīng)的多個關(guān)鍵幀分為與代表幀的預(yù)定數(shù)目相同的多個群的過程的流程圖。
參照圖12,首先,在步驟360中,由關(guān)鍵幀提取器100提取的、與鏡頭相對應(yīng)的關(guān)鍵幀成為節(jié)點(diǎn),并且,在步驟370中,將第一節(jié)點(diǎn)的深度(深度信息)設(shè)置為0。在步驟380中,使用標(biāo)量或矢量來表示每個關(guān)鍵幀的特征值,并計算關(guān)鍵幀的特征值之間的差??赏ㄟ^每個關(guān)鍵幀的顏色直方圖(colorhistogram)矢量來定義每個關(guān)鍵幀的特征值。在步驟390中,選擇在特征值之間具有最小差的兩個節(jié)點(diǎn),并且,在步驟400中,添加連接到所選擇的這兩個節(jié)點(diǎn)的新節(jié)點(diǎn)。在步驟410中,將新節(jié)點(diǎn)的深度信息設(shè)置為通過將現(xiàn)有節(jié)點(diǎn)的深度值中的最大深度值加1而得到的值。在步驟420中,計算新添加的節(jié)點(diǎn)的特征值。比較包括所添加的節(jié)點(diǎn)的最高節(jié)點(diǎn)的數(shù)目是否等于用戶指定的代表幀的預(yù)定數(shù)目,并且,如果最高節(jié)點(diǎn)的數(shù)目不等于代表幀的預(yù)定數(shù)目,則重復(fù)步驟390到420。如果最高節(jié)點(diǎn)的數(shù)目等于代表幀的預(yù)定數(shù)目,則在步驟440中,確定每個最高節(jié)點(diǎn)中包括的與鏡頭相對應(yīng)的關(guān)鍵幀的數(shù)目M(N)是否大于幀的預(yù)定最小數(shù)目MIN。通過將0與1之間的預(yù)定值和通過將與鏡頭相對應(yīng)的關(guān)鍵幀的數(shù)目除以最高節(jié)點(diǎn)的數(shù)目而得到的值相乘,來得到幀的最小數(shù)目M1N。如果即使一個最高節(jié)點(diǎn)也不滿足上述條件,則在步驟450中,移除不能滿足條件的最高節(jié)點(diǎn)和該最高節(jié)點(diǎn)的子節(jié)點(diǎn),并且,在步驟460中,移除剩余最高節(jié)點(diǎn)中具有最大深度的最高節(jié)點(diǎn)。在步驟470中,移除剩余最高節(jié)點(diǎn)中具有最大深度的最高節(jié)點(diǎn),直到最高節(jié)點(diǎn)的數(shù)目等于代表幀的預(yù)定數(shù)目為止。重復(fù)步驟440到470,直到每個最高節(jié)點(diǎn)中包括的與鏡頭相對應(yīng)的關(guān)鍵幀的數(shù)目M(N)大于幀的預(yù)定最小數(shù)目MIN為止。
圖13和14為圖示提取每個群的代表幀的過程的流程圖。
參照圖13,首先,在步驟500中,計算每個群中包括的與鏡頭相對應(yīng)的關(guān)鍵幀的特征值的平均值,在步驟510中,計算該平均值和關(guān)鍵幀的特征值之間的差,并且,在步驟520中,選擇具有最小差值的關(guān)鍵幀作為代表幀。
此外,參照圖14,首先,在步驟530中,計算每個群中包括的與鏡頭相對應(yīng)的關(guān)鍵幀的特征值的平均值,在步驟540中,計算該平均值和關(guān)鍵幀的特征值之間的差,在步驟550中,選擇具有最小差值的兩個關(guān)鍵幀,并且,在步驟560中,選擇所選擇的這兩個關(guān)鍵幀中滿足預(yù)定條件的關(guān)鍵幀,例如具有最小運(yùn)動的幀或具有清楚臉部的幀,作為代表幀。
圖15為圖示使用所選擇的代表幀來輸出幀摘要的過程的流程圖。
參照圖15,在步驟600中,幀摘要生成器20將用戶指定的代表幀的預(yù)定數(shù)目提供給代表幀選擇器10,在步驟610中,從代表幀選擇器10接收所選擇的代表幀和幀信息,在步驟620中,對代表幀進(jìn)行摘錄,并且,在步驟630中,將幀摘要和幀信息提供給顯示單元60。
圖16為幀摘要類型之一——視頻標(biāo)簽的實(shí)施例的示例。
圖17為圖示使用所選擇的代表幀來輸出幀摘要的另一過程的流程圖。
參照圖17,在步驟640中,幀摘要生成器20將用戶指定的代表幀的預(yù)定數(shù)目提供給代表幀選擇器10,在步驟650中,從代表幀選擇器10接收所選擇的代表幀和幀信息,在步驟660中,使用幀信息中包括的時間信息、以時間順序來排列所選擇的代表幀,并且,在步驟670中,將幀摘要和幀信息提供給顯示單元60。如果在步驟680中用戶重新指定代表幀的數(shù)目,則重復(fù)步驟640到670。
圖18為幀摘要類型之一——故事板的實(shí)施例的示例。
圖19為圖示使用所選擇的代表幀來輸出幀摘要的另一過程的流程圖。
參照圖19,在步驟690中,幀摘要生成器20將用戶指定的代表幀的預(yù)定數(shù)目提供給代表幀選擇器10,在步驟700中,從代表幀選擇器10接收所選擇的代表幀和幀信息,并且,在步驟710中,計算所選擇的代表幀中包括的每個鏡頭的持續(xù)時間的總和Ts。如果在步驟720中,每個鏡頭的持續(xù)時間的總和Ts等于或小于用戶設(shè)置的預(yù)定時間Td,則在步驟730中,幀摘要生成器20增加代表幀的數(shù)目,并重復(fù)步驟690到710。在步驟740中,幀摘要生成器20計算包括通過除去每個代表幀而剩余的代表幀的鏡頭之間的時間差的標(biāo)準(zhǔn)偏差D,在步驟750中,移除包括當(dāng)除去代表幀時具有最小標(biāo)準(zhǔn)偏差的代表幀的鏡頭,并且,在步驟760中,計算剩余鏡頭的持續(xù)時間的總和Ts。重復(fù)步驟740到760,直到在步驟770中每個鏡頭的持續(xù)時間的總和Ts短于用戶設(shè)置的預(yù)定時間Td為止。
圖20為圖示根據(jù)本發(fā)明的實(shí)施例的用于對多個靜止圖像進(jìn)行摘錄的設(shè)備的全部操作的流程圖。
參照圖20,在步驟800中,代表靜止圖像選擇器200從靜止圖像存儲單元230接收靜止圖像,并根據(jù)從靜止圖像摘要生成器210提供的、用戶指定的代表幀的預(yù)定數(shù)目來選擇代表幀。在步驟810中,靜止圖像摘要生成器210最后使用所選擇的代表幀來將幀摘要輸出到顯示單元235。
由于根據(jù)代表幀的預(yù)定數(shù)目而從靜止圖像提取代表幀的過程是這樣的過程,其中在參照圖11到14而描述的從視頻流提取代表幀的過程中,由靜止圖像來替換與鏡頭相對應(yīng)的關(guān)鍵幀,因此,省略提取代表幀的過程。
如上所述,根據(jù)依照本發(fā)明的實(shí)施例的用于對多個幀進(jìn)行摘錄的方法和設(shè)備,由于視頻摘錄自適應(yīng)地響應(yīng)用戶要求的群的數(shù)目,因此各種視頻摘錄類型都是有可能的,并且用戶可以容易且快速地了解視頻流的內(nèi)容,并進(jìn)行諸如選擇、存儲、編輯和管理的活動。此外,由于從包括與具有高出現(xiàn)頻率的場景相對應(yīng)的幀的群中選擇代表幀,因此,可以從視頻摘錄中除去內(nèi)容不可區(qū)分或出現(xiàn)頻率低的幀,并且,所選擇的幀對應(yīng)不同場景的概率更高。因此,用戶對于幀摘要的可信賴性可以更高,并且,由于獨(dú)立地設(shè)計視頻格式、解碼器特性、鏡頭區(qū)分方法的特性、以及鏡頭相似性功能的特性,因此,可將該方法和設(shè)備施加到各種應(yīng)用環(huán)境。
盡管參照示例實(shí)施例具體示出并描述了本發(fā)明,但本領(lǐng)域普通技術(shù)人員將理解的是,在不脫離如所附權(quán)利要求限定的本發(fā)明的精神和范圍的情況下,可以在其中進(jìn)行各種形式和細(xì)節(jié)上的改變。
權(quán)利要求
1.一種對視頻流進(jìn)行摘錄的方法,該方法包括(a)接收視頻流并提取每個鏡頭的關(guān)鍵幀;(b)從與鏡頭相對應(yīng)的關(guān)鍵幀中選擇預(yù)定數(shù)目的代表幀;以及(c)使用該代表幀來輸出幀摘要。
2.如權(quán)利要求1所述的方法,其中,步驟(b)包括(b1)將與鏡頭相對應(yīng)的關(guān)鍵幀分為與代表幀的預(yù)定數(shù)目相同的多個群;以及(b2)從每個群中提取代表幀。
3.如權(quán)利要求2所述的方法,其中,步驟(b1)包括(bb1)為所述多個關(guān)鍵幀中的每個關(guān)鍵幀組成具有0深度(深度信息)的節(jié)點(diǎn),并計算關(guān)鍵幀的特征值以及關(guān)鍵幀的特征值之間的差;(bb2)選擇在特征值之間具有最小差的兩個最高節(jié)點(diǎn);(bb3)將所選擇的這兩個節(jié)點(diǎn)連接到具有通過將最高節(jié)點(diǎn)的深度最大值加1而得到的深度的新節(jié)點(diǎn),并計算該新節(jié)點(diǎn)的特征值;以及(bb4)重復(fù)步驟(bb2)和(bb3),直到最高節(jié)點(diǎn)的數(shù)目等于代表幀的預(yù)定數(shù)目為止。
4.如權(quán)利要求3所述的方法,還包括(bb5)將每個最高節(jié)點(diǎn)中包括的與鏡頭相對應(yīng)的關(guān)鍵幀的數(shù)目與預(yù)定值(MIN)相比較;(bb6)如果存在各自包括比預(yù)定值(MIN)少的數(shù)目的關(guān)鍵幀的最高節(jié)點(diǎn),則移除該最高節(jié)點(diǎn)和該最高節(jié)點(diǎn)的子節(jié)點(diǎn);(bb7)移除剩余最高節(jié)點(diǎn)中具有最大深度的最高節(jié)點(diǎn);(bb8)重復(fù)步驟(bb7),直到最高節(jié)點(diǎn)的數(shù)目等于代表幀的預(yù)定數(shù)目為止;以及(bb9)重復(fù)步驟(bb6)到(bb8),直到每個最高節(jié)點(diǎn)中包括的與鏡頭相對應(yīng)的關(guān)鍵幀的數(shù)目大于預(yù)定值(MIN)為止。
5.如權(quán)利要求2所述的方法,其中,步驟(b2)包括計算每個群中包括的關(guān)鍵幀的特征值的平均值;計算該平均值和關(guān)鍵幀的特征值之間的差;以及選擇具有最小差值的關(guān)鍵幀作為代表幀。
6.如權(quán)利要求2所述的方法,其中,步驟(b2)包括計算每個群中包括的關(guān)鍵幀的特征值的平均值;計算該平均值和關(guān)鍵幀的特征值之間的差;選擇具有最小差值的兩個關(guān)鍵幀;以及從所選擇的這兩個關(guān)鍵幀中選擇滿足預(yù)定條件的關(guān)鍵幀作為代表幀。
7.如權(quán)利要求1所述的方法,其中,步驟(c)包括使用所選擇的代表幀的信息來以時間順序排列所選擇的代表幀;輸出幀摘要和幀信息;以及如果重新指定了代表幀的數(shù)目,則通過以時間順序排列根據(jù)重新指定的代表幀數(shù)目而選擇的代表幀,來輸出幀摘要和幀信息。
8.如權(quán)利要求1所述的方法,其中,步驟(c)包括(c1)增加代表幀的數(shù)目,直到包括所選擇的代表幀的每個鏡頭的持續(xù)時間總和大于預(yù)定時間為止;(c2)計算包括通過除去每個代表幀而剩余的代表幀的鏡頭之間的時間差的標(biāo)準(zhǔn)偏差;(c3)移除當(dāng)除去代表幀時具有最小標(biāo)準(zhǔn)偏差的代表幀;(c4)重復(fù)步驟(c2)和(c3),直到包括剩余代表幀的每個鏡頭的持續(xù)時間總和短于預(yù)定時間為止。
9.一種對靜止圖像進(jìn)行摘錄的方法,該方法包括(x)將多個靜止圖像分為與代表幀的預(yù)定數(shù)目相同的多個群;(y)提取每個群的代表幀;以及(z)使用所選擇的代表幀來生成幀摘要。
10.如權(quán)利要求9所述的方法,其中,步驟(x)包括(x1)為每個靜止圖像組成具有0深度的節(jié)點(diǎn),并計算靜止圖像的特征值以及靜止圖像的特征值之間的差;(x2)選擇特征值之間具有最小差的兩個最高節(jié)點(diǎn);(x3)將所選擇的這兩個節(jié)點(diǎn)連接到具有通過將最高節(jié)點(diǎn)的深度最大值加1而得到的深度的新節(jié)點(diǎn),并計算該新節(jié)點(diǎn)的特征值;以及(x4)重復(fù)步驟(x2)和(x3),直到最高節(jié)點(diǎn)的數(shù)目等于代表幀的預(yù)定數(shù)目為止。
11.如權(quán)利要求10所述的方法,還包括(x5)將每個最高節(jié)點(diǎn)中包括的靜止圖像的數(shù)目與預(yù)定值(MIN)相比較;(x6)如果存在各自包括比預(yù)定值(MIN)少的數(shù)目的靜止圖像的最高節(jié)點(diǎn),則移除該最高節(jié)點(diǎn)和該最高節(jié)點(diǎn)的子節(jié)點(diǎn);(x7)移除剩余最高節(jié)點(diǎn)中具有最大深度的最高節(jié)點(diǎn);(x8)重復(fù)步驟(x7),直到最高節(jié)點(diǎn)的數(shù)目等于代表幀的預(yù)定數(shù)目為止;以及(x9)重復(fù)步驟(x6)到(x8),直到每個最高節(jié)點(diǎn)中包括的靜止圖像的數(shù)目大于預(yù)定值(MIN)為止。
12.如權(quán)利要求9所述的方法,其中,步驟(y)包括計算每個群中包括的靜止圖像的特征值的平均值;計算該平均值和靜止圖像的特征值之間的差;以及選擇具有最小差值的靜止圖像作為代表幀。
13.如權(quán)利要求9所述的方法,其中,步驟(y)包括計算每個群中包括的靜止圖像的特征值的平均值;計算該平均值和靜止圖像的特征值之間的差;選擇具有最小差值的兩個靜止圖像;以及從所選擇的這兩個靜止圖像中選擇滿足預(yù)定條件的靜止圖像作為代表幀。
14.一種用于對視頻流進(jìn)行摘錄的設(shè)備,該設(shè)備包括代表幀選擇器,接收視頻流并選擇代表幀;以及幀摘要生成器,使用所選擇的代表幀來對視頻流進(jìn)行摘錄,并輸出幀摘要和幀信息。
15.如權(quán)利要求14所述的設(shè)備,其中,代表幀選擇器包括關(guān)鍵幀提取器,接收視頻流,提取每個鏡頭的關(guān)鍵幀,并輸出與鏡頭相對應(yīng)的關(guān)鍵幀;幀分割單元,接收與鏡頭相對應(yīng)的關(guān)鍵幀,并將與鏡頭相對應(yīng)的關(guān)鍵幀分為與代表幀的預(yù)定數(shù)目相同的多個群;以及群代表幀提取器,從每個群中包括的與鏡頭相對應(yīng)的關(guān)鍵幀中選擇一個代表幀,并輸出該代表幀。
16.如權(quán)利要求15所述的設(shè)備,其中,幀分割單元包括基本節(jié)點(diǎn)組成單元,接收與鏡頭相對應(yīng)的關(guān)鍵幀,并為每個關(guān)鍵幀組成具有0深度的節(jié)點(diǎn);特征值計算器,計算節(jié)點(diǎn)的關(guān)鍵幀的特征值以及特征值之間的差;以及最高節(jié)點(diǎn)組成單元,選擇在特征值之間具有最小差的兩個最高節(jié)點(diǎn),并將所選擇的這兩個節(jié)點(diǎn)連接到具有通過將最高節(jié)點(diǎn)的深度最大值加1而得到的深度的新節(jié)點(diǎn)。
17.如權(quán)利要求16所述的設(shè)備,還包括次級群移除單元,移除各自包括比預(yù)定值(MIN)少的數(shù)目的關(guān)鍵幀的最高節(jié)點(diǎn)、和該最高節(jié)點(diǎn)的子節(jié)點(diǎn);以及群分割單元,移除剩余最高節(jié)點(diǎn)中具有最大深度的最高節(jié)點(diǎn)。
18.如權(quán)利要求15所述的設(shè)備,其中,群代表幀提取器計算每個群中包括的關(guān)鍵幀的特征值的平均值、以及該平均值和關(guān)鍵幀的特征值之間的差,并選擇具有最小差值的關(guān)鍵幀作為代表幀。
19.如權(quán)利要求15所述的設(shè)備,其中,群代表幀提取器計算每個群中包括的關(guān)鍵幀的特征值的平均值、以及該平均值和關(guān)鍵幀的特征值之間的差,選擇具有最小差值的兩個關(guān)鍵幀,并從所選擇的這兩個關(guān)鍵幀中選擇滿足預(yù)定條件的關(guān)鍵幀作為代表幀。
20.一種用于對靜止圖像進(jìn)行摘錄的設(shè)備,該設(shè)備包括代表靜止圖像選擇器,接收靜止圖像并選擇預(yù)定數(shù)目的代表幀;以及靜止圖像摘要生成器,使用所選擇的代表幀來對靜止圖像進(jìn)行摘錄,并輸出幀摘要和幀信息。
21.如權(quán)利要求20所述的設(shè)備,其中,代表靜止圖像選擇器包括靜止圖像分割單元,接收靜止圖像,并將該靜止圖像分為與代表幀的預(yù)定數(shù)目相同的多個群;以及群代表靜止圖像提取器,在每個群中包括的靜止圖像中選擇一個代表幀,并輸出該代表幀。
22.如權(quán)利要求21所述的設(shè)備,其中,靜止圖像分割單元包括靜止圖像基本節(jié)點(diǎn)組成單元,接收靜止圖像,并為每個靜止圖像組成具有0深度的節(jié)點(diǎn);靜止圖像特征值計算器,計算節(jié)點(diǎn)的靜止圖像的特征值以及特征值之間的差;以及靜止圖像最高節(jié)點(diǎn)組成單元,選擇在所計算的特征值之間具有最小差的兩個最高節(jié)點(diǎn),并將所選擇的這兩個節(jié)點(diǎn)連接到具有通過將最高節(jié)點(diǎn)的深度最大值加1而得到的深度的新節(jié)點(diǎn)。
23.如權(quán)利要求22所述的設(shè)備,還包括靜止圖像次級群移除單元,移除各自包括比預(yù)定值(MIN)少的數(shù)目的靜止圖像的最高節(jié)點(diǎn)、和該最高節(jié)點(diǎn)的子節(jié)點(diǎn);以及靜止圖像群分割單元,移除剩余最高節(jié)點(diǎn)中具有最大深度的最高節(jié)點(diǎn)。
24.如權(quán)利要求21所述的設(shè)備,其中,群代表靜止圖像提取器計算每個群中包括的靜止圖像的特征值的平均值、以及該平均值和靜止圖像的特征值之間的差,并選擇具有最小差值的靜止圖像作為代表幀。
25.如權(quán)利要求21所述的設(shè)備,其中,群代表靜止圖像提取器計算每個群中包括的靜止圖像的特征值的平均值、以及該平均值和靜止圖像的特征值之間的差,選擇具有最小差值的兩個靜止圖像,并從所選擇的這兩個靜止圖像中選擇滿足預(yù)定條件的靜止圖像作為代表幀。
全文摘要
提供一種圖像再現(xiàn)系統(tǒng)中的用于對多個數(shù)據(jù)進(jìn)行摘錄的方法和設(shè)備,其從多個幀中選擇代表幀并對該代表幀進(jìn)行摘錄。該方法包括接收視頻流并提取每個鏡頭的關(guān)鍵幀;從與鏡頭相對應(yīng)的關(guān)鍵幀中選擇預(yù)定數(shù)目的代表幀;以及使用該代表幀來輸出幀摘要,并且包括接收靜止圖像并選擇預(yù)定數(shù)目的代表幀;以及使用所選擇的代表幀來輸出幀摘要。該設(shè)備包括代表幀選擇器,其接收視頻流并選擇代表幀;和幀摘要生成器,其使用所選擇的代表幀來對視頻流進(jìn)行摘錄,并輸出幀摘要和幀信息,并且包括代表靜止圖像選擇器,其接收靜止圖像并選擇預(yù)定數(shù)目的代表幀;和靜止圖像摘要生成器,其使用所選擇的代表幀來對靜止圖像進(jìn)行摘錄,并輸出幀摘要和幀信息。
文檔編號H04N5/91GK1658663SQ20041008193
公開日2005年8月24日 申請日期2004年12月16日 優(yōu)先權(quán)日2004年2月18日
發(fā)明者許永植, 金智淵, 金相均, 黃斗善 申請人:三星電子株式會社