用于搜索多媒體內(nèi)容的用戶界面方法和設(shè)備的制造方法
【技術(shù)領(lǐng)域】
[0001]本公開涉及用于支持查詢輸入和查詢結(jié)果輸出以檢測多媒體內(nèi)容中的所需幀、場景或鏡頭并向用戶提供檢測到的幀、場景或鏡頭的用戶界面技術(shù)。
【背景技術(shù)】
[0002]隨著計(jì)算技術(shù)的發(fā)展,例如音樂、視頻、圖像等的多媒體內(nèi)容的創(chuàng)建以及多媒體內(nèi)容的傳輸和購買已經(jīng)變得簡單,并且因此內(nèi)容的數(shù)量和質(zhì)量已經(jīng)非常迅速地提高。例如,可以在例如智能電話、便攜式多媒體播放器(PMP)、平板計(jì)算機(jī)、控制臺游戲機(jī)、臺式計(jì)算機(jī)等的電子設(shè)備中存儲(chǔ)人拍攝的許多圖像、記錄的圖像、購買的音樂文件和下載的電影文件等,并且可以在每個(gè)電子設(shè)備中搜索內(nèi)容,或者還可以搜索/共享通過有線/無線通信裝置連接的另一電子設(shè)備的內(nèi)容。此外,可以通過視頻點(diǎn)播(VoD)服務(wù)實(shí)時(shí)地搜索視頻或通過經(jīng)由互聯(lián)網(wǎng)訪問例如Youtube的視頻共享網(wǎng)站來搜索視頻并可以顯示找到的視頻。
[0003]同時(shí),視頻內(nèi)容技術(shù)向具有高壓縮率的編碼/解碼技術(shù)應(yīng)用高分辨率和高音質(zhì)的多媒體內(nèi)容。
[0004]結(jié)果,對于無論何時(shí)何地只要用戶喜歡就搜索電子設(shè)備中的大量內(nèi)容并對用戶想要的場景進(jìn)行劃分和搜索的用戶愿望增加,并且要處理的數(shù)據(jù)量和復(fù)雜度也增加。
【發(fā)明內(nèi)容】
[0005]技術(shù)問題
[0006]因此,運(yùn)動(dòng)圖像專家組(MPEG)_7標(biāo)準(zhǔn)被提出作為能夠分析多媒體內(nèi)容并基于分析的內(nèi)容有效地顯示多媒體內(nèi)容的整體或一部分的代表性描述技術(shù)。
[0007]MPEG-7被正式稱為多媒體內(nèi)容描述接口,并與國際標(biāo)準(zhǔn)化組織(ISO)和國際電工委員會(huì)(IEC)聯(lián)合技術(shù)委員會(huì)下的MPEG中的多媒體數(shù)據(jù)的基于內(nèi)容的搜索的內(nèi)容表達(dá)方案的國際標(biāo)準(zhǔn)相對應(yīng)。
[0008]MPEG-7定義能夠表達(dá)視聽(AV)數(shù)據(jù)的內(nèi)容的描述符的標(biāo)準(zhǔn)、定義用于系統(tǒng)地描述AV數(shù)據(jù)和語義信息的結(jié)構(gòu)的計(jì)劃的描述方案(DS)以及作為用于定義描述符和描述方案的語言的描述定義語言(DDL)。
[0009]MPEG-7處理多媒體數(shù)據(jù)的內(nèi)容的表達(dá)方法,并可以被主要?jiǎng)澐譃獒槍ΠㄕZ音或聲音信息的音頻數(shù)據(jù)的基于內(nèi)容的搜索、針對包括圖片或圖表的靜止圖像數(shù)據(jù)的基于內(nèi)容的搜索、以及針對包括視頻的視頻數(shù)據(jù)的基于內(nèi)容的搜索。
[0010]例如,可以使用作為MPEG(運(yùn)動(dòng)圖像專家組)-7內(nèi)的一類「概述DS」(描述方案)的「序列概述DS」來描述與圖像或音頻數(shù)據(jù)同步的樣本(sample)視頻幀序列。當(dāng)用戶請求樣本視頻時(shí),MPEG-7文檔可以生成,通過可擴(kuò)展樣式表語言(XSL)轉(zhuǎn)換為超文本標(biāo)記語言(HTML),并在網(wǎng)絡(luò)中示出。
[0011]通過例如MPEG-7的技術(shù),定義用于表達(dá)關(guān)于例如視頻、音頻數(shù)據(jù)、圖像等的多媒體內(nèi)容的信息的元數(shù)據(jù)結(jié)構(gòu),因此可以使用根據(jù)標(biāo)準(zhǔn)生成的MPEG-7文檔來提供根據(jù)用戶的各種查詢找到的結(jié)果。
[0012]MPEG-7是通過基于可擴(kuò)展標(biāo)記語言(XML)的文檔做出的并用于描述內(nèi)容中的內(nèi)容的屬性。因此,未提供提取或搜索內(nèi)容中的內(nèi)容的方法,使得正在發(fā)展執(zhí)行查詢并搜索搜索結(jié)果的各種方法。
[0013]當(dāng)應(yīng)用這種技術(shù)時(shí),可以基于相應(yīng)多媒體內(nèi)容的樣本提供電影預(yù)告片服務(wù),或可以提供包括短視頻的索引服務(wù)或搜索所需場景的服務(wù)。MPEG-7與代表性內(nèi)容內(nèi)容描述方法相對應(yīng),但是可以使用其他描述方法。
[0014]視頻是使用壓縮方案編碼的,并具有例如MPEG、WindowS媒體視頻(WMV)、RealMedia可變比特率(RMVB)、M0V、H.263、H.264等的編解碼器類型??梢允褂美绨ㄔ趬嚎s數(shù)據(jù)中的運(yùn)動(dòng)矢量、殘余信號(離散余弦變換(DCT))、整數(shù)系數(shù)和宏塊類型的各種信息來處理用于識別和跟蹤壓縮數(shù)據(jù)中的對象的技術(shù)。這種算法可以包括基于馬爾可夫隨機(jī)場(MRF)的模型、相異性最小化算法、概率數(shù)據(jù)關(guān)聯(lián)濾波(PDAF)算法、概率空時(shí)宏塊濾波(PSMF)算法等。
[0015]圖像的分析元素可以包括輪廓、顏色、對象形狀、質(zhì)地、形式、面積、靜止/運(yùn)動(dòng)圖像、音量、空間關(guān)系、變形、對象的來源和特征、顏色的改變、亮度、模式、字符、記號、上色、符號、手勢、時(shí)間等,并且音頻數(shù)據(jù)的分析元素可以包括頻率形狀、音頻對象、音色、和聲、頻率分布、聲壓、分貝、語音的節(jié)奏內(nèi)容、聲源的距離、空間結(jié)構(gòu)、音色、聲音的長度、音樂信息、聲音效果、混合信息、持續(xù)時(shí)間等。文本包括字符、用戶輸入、語言的類型、時(shí)間信息、內(nèi)容相關(guān)信息(出品人、導(dǎo)演、標(biāo)題、演員名字等)、注釋等。
[0016]可能單獨(dú)找到或考慮各種信息與適合于該情況的信息一起找到這種信息。例如,可以僅基于男演員的名字來搜索視頻中的場景。然而,除此以外,如果搜索“男演員在下雨天拿著雨傘跳舞同時(shí)演唱“雨中唱歌”的歌曲的場景”,則必須考慮復(fù)雜的情況以通過視頻圖像分析和音頻分析找到相應(yīng)場景。在這種情況下,可以將男性圖像、下雨場景、雨傘和動(dòng)作檢測應(yīng)用為要在視頻磁軌中找到的描述符,可以在音頻磁軌中搜索男性語音模式、歌曲和語音的內(nèi)容,并且可以在字幕磁軌的文本中搜索短語“雨中唱歌”。因此,可以分析要在每個(gè)磁軌中找到的查詢內(nèi)容,以根據(jù)一個(gè)或更多個(gè)磁軌中的每一個(gè)來合適地應(yīng)用查詢內(nèi)容。
[0017]通常,視頻分析使用分析通過連續(xù)收集基本關(guān)鍵幀生成的鏡頭和通過多個(gè)收集的鏡頭而具有語義關(guān)系的場景的方法。鏡頭指的是不停地拍攝或記錄直至一個(gè)攝像機(jī)結(jié)束從頭開始的拍攝。鏡頭集合在一起以形成場景,并且一系列場景集合在一起以形成序列。基于圖像解析,可以分析圖像內(nèi)的對象之間的關(guān)系、圖像之間的對象、運(yùn)動(dòng)和圖像改變,并可以提取關(guān)于圖像的信息。在音頻數(shù)據(jù)的情況下,可以使用揚(yáng)聲器識別、語義語音識別、基于聲音的感情識別、空間印象等分析相應(yīng)情況和時(shí)間戳。在字幕的情況下,可以根據(jù)圖像中存在字幕并且單獨(dú)地存在字幕文件的情況通過圖像分析或文本分析來分析并提取信息,并可以在MPEG7或類似場景中對提取出的信息結(jié)構(gòu)化。
[0018]可以在各種方法中找到提取出的信息??梢曰诶鐚?shí)例查詢(QBE)、草圖(sketch)查詢(QBS)或語音識別的方案來輸入文本或可以輸入要搜索的信息,并且搜索所需場景、聲音或字符,以確定與情境相匹配的位置。在QBE中,用戶搜索所需圖像并對所需圖像和類似圖像進(jìn)行比較。在QBS中,用戶繪制所需的整個(gè)圖像,以找到類似圖像。
[0019]作為對圖像進(jìn)行分析、查詢和搜索的方法,已經(jīng)引入了各種技術(shù)。所述方法包括IBM的QB 1C、卡內(nèi)基梅隆大學(xué)的Informedia、MIT的照片簿(photobook)、哥倫比亞大學(xué)的VisualSeek、伯克利大學(xué)的Chabot、索尼的US注冊專利n0.US7284188、LG的韓國注冊專利n0.KR10-0493635、ETRI的韓國注冊專利n0.KR10-0941971、KBS技術(shù)研究機(jī)構(gòu)的自動(dòng)元數(shù)據(jù)發(fā)生器(OMEGA)系統(tǒng)、Blinkx的視頻搜索引擎131;[111?(111^口://www.blinkx.com)、Riya.com的Like.com等,并且還包括除上述以外的其他方法。
[0020]本發(fā)明的各實(shí)施例提供了關(guān)于輸入查詢并搜索查詢結(jié)果以基于例如視頻的多媒體內(nèi)容找到所需場景的方法的用戶界面方法和裝置。
[0021]本發(fā)明的各實(shí)施例提供了用于在視頻的進(jìn)度條上顯示與一個(gè)或更多個(gè)查詢結(jié)果相對應(yīng)的縮略圖或樣本場景視頻(視頻章節(jié)功能),以允許用戶容易地并且直觀地掌握查詢結(jié)果在視頻中的時(shí)間位置和長度,并在一個(gè)屏幕上搜索查詢結(jié)果中的所需場景的方法和裝置。
[0022]本發(fā)明的各實(shí)施例提供了通過以下方法執(zhí)行容易搜索的方法和裝置:提供在查詢結(jié)果的數(shù)量很大并且因此查詢結(jié)果在屏幕上被顯示得非常小或一些查詢結(jié)果被隱藏時(shí)使用的放大鏡功能和針對聚焦到的查詢結(jié)果的導(dǎo)航功能,以及提供例如預(yù)覽和控制搜索屏幕的尺寸的功能。
[0023]本發(fā)明的各實(shí)施例提供了用于評估查詢的匹配程度并根據(jù)匹配程度區(qū)別地提供顯示查詢結(jié)果的位置、尺寸、圖形效果以及聲音效果的方法和裝置。
[0024]本發(fā)明的各實(shí)施例提供了用于通過經(jīng)由各種方案(圖像、音樂、屏幕捕獲、草圖、手勢識別、語音識別、面部識別、運(yùn)動(dòng)識別等)執(zhí)行查詢來向用戶提供方便的用戶界面的方法和裝置。
[0025]本發(fā)明的各實(shí)施例提供了用于存儲(chǔ)查詢結(jié)果并當(dāng)用戶請求相同的查詢結(jié)果時(shí)再次顯示查詢結(jié)果的方法和裝置。
[0026]本發(fā)明的各實(shí)施例提供了用于根據(jù)視頻磁軌、音頻磁軌和文本磁軌中的每一個(gè)分析內(nèi)容中的內(nèi)容的方法和裝置。
[0027]技術(shù)解決方案
[0028]根據(jù)本發(fā)明的各實(shí)施例,一種搜索內(nèi)容的方法包括:通過用戶界面接收用于搜索所述內(nèi)容中的內(nèi)容的查詢的輸入;通過使用與所述內(nèi)容相關(guān)的描述來檢測與所述查詢相對應(yīng)的所述內(nèi)容的至少一部分內(nèi)容,作為所述查詢的結(jié)果;確定顯示查詢結(jié)果的位置;考慮到所述內(nèi)容的所述部分內(nèi)容的長度和所述查詢結(jié)果之間的相對距離中的至少一個(gè),確定與所述查詢結(jié)果相對應(yīng)的場景標(biāo)記的尺寸或顯示所述查詢結(jié)果的區(qū)域的尺寸;以及根據(jù)所確定的所述查詢結(jié)果的位置和相關(guān)尺寸至少部分地顯示一個(gè)或更多個(gè)查詢結(jié)果。
[0029]根據(jù)本發(fā)明的各實(shí)施例,一種輸入針對在內(nèi)容中基于內(nèi)容的查詢的用戶查詢的方法,包括:通過用戶輸入界面設(shè)置要搜索的內(nèi)容;設(shè)置針對搜索要搜索的內(nèi)容中的內(nèi)容的查詢;通過使用關(guān)于要搜索的內(nèi)容的描述信息來搜索與查詢相對應(yīng)的內(nèi)容的部分內(nèi)容,作為查詢結(jié)果;以及基于查詢匹配程度來顯示一個(gè)或更多個(gè)檢測到的查詢結(jié)果。
[0030]根據(jù)本發(fā)明的各實(shí)施例,一種電子設(shè)備包括:一個(gè)或更多個(gè)處理器;存儲(chǔ)器;以及存儲(chǔ)在存儲(chǔ)器中并配置為由所述一個(gè)或更多個(gè)處理器執(zhí)行的一個(gè)或更多個(gè)程序。所述程序包括以下命令:通過使用用戶輸入界面輸入針對搜索所述內(nèi)容中的內(nèi)容的查詢;通過使用與所述內(nèi)容相關(guān)的描述信息來檢測與所述查詢相對應(yīng)的所述內(nèi)容的至少一部分內(nèi)容,作為所述查詢結(jié)果;基于與所述內(nèi)容中的至少一個(gè)內(nèi)容中的每一個(gè)相對應(yīng)的回放時(shí)段來確定顯示所述查詢結(jié)果的位置;考慮所述內(nèi)容的部分內(nèi)容的長度和所述查詢結(jié)果之間的相對距離中的至少一個(gè),確定與查詢結(jié)果相對應(yīng)的場景標(biāo)記的尺寸或顯示所述查詢結(jié)果的窗口的尺寸;以及根據(jù)所確定的所述查詢結(jié)果的位置和所確定的相關(guān)尺寸至少部分地顯示一個(gè)或更多個(gè)查詢結(jié)果。
[0031]根據(jù)本發(fā)明的各實(shí)施例,一種電子設(shè)備包括:一個(gè)或更多個(gè)處理器;存儲(chǔ)器;以及存儲(chǔ)在存儲(chǔ)器中并配置為由所述一個(gè)或更多個(gè)處理器執(zhí)行的一個(gè)或更多個(gè)程序。程序包括以下命令:通過用戶輸入界面設(shè)置要搜索的內(nèi)容;設(shè)置針對搜索要搜索的內(nèi)容中的內(nèi)容的查詢;通過使用關(guān)于要搜索的內(nèi)容的描述信息來檢測與查詢相對應(yīng)的內(nèi)容的部分內(nèi)容;以及基于查詢匹配程度來顯示一個(gè)或更多個(gè)檢測到的查詢結(jié)果。
[0032]有益效果
[0033]根據(jù)本發(fā)明的各實(shí)施例,關(guān)于例如視頻、音樂等的多媒體內(nèi)容,概述了場景或?qū)⒅鲌鼍靶纬蔀橐灶A(yù)覽形式或全視圖提供的縮略圖或樣本場景文件。
【附圖說明】
[0034]圖1示出了根據(jù)本發(fā)明的各實(shí)施例的視頻內(nèi)容搜索查詢的結(jié)果屏幕;
[0035]圖2示出了根據(jù)本發(fā)明的各實(shí)施例的視頻內(nèi)容搜索查詢結(jié)果;
[0036]圖3示出了根據(jù)本發(fā)明的各實(shí)施例在視頻內(nèi)容搜索查詢結(jié)果中搜索特定場景的方法的示例;
[0037]圖4示出了根據(jù)本發(fā)明的各實(shí)施例的在視頻內(nèi)容搜索查詢的結(jié)果屏幕中使用放大鏡功能的搜索方法;
[0038]圖5示出了根據(jù)本發(fā)明的各實(shí)施例當(dāng)搜索視頻內(nèi)容時(shí)根據(jù)每個(gè)磁軌尋找視頻內(nèi)容的方法;
[0039]圖6示出了根據(jù)本發(fā)明的各實(shí)施例的用于搜索視頻內(nèi)容的查詢界面屏幕;
[0040]圖7示出了根據(jù)本發(fā)明的各實(shí)施例的通過圖像識別的查詢方法的界面屏幕;
[0041]圖8示出了根據(jù)本發(fā)明的各實(shí)施例的用于搜索視頻內(nèi)容的各種查詢界面屏幕;
[0042]圖9示出了根據(jù)本公開的各實(shí)施例的用于搜索查詢結(jié)果的屏幕;
[0043]圖10是示出了根據(jù)本發(fā)明的各實(shí)施例的電子設(shè)備顯示查詢結(jié)果的過程的流程圖;
[0044]圖11是示出了根據(jù)本發(fā)明的各實(shí)施例的電子設(shè)備顯示查詢結(jié)果的過程的流程圖;
[0045]圖12是示出了根據(jù)本發(fā)明的各實(shí)施例的電子設(shè)備顯示查詢結(jié)果的過程的流程圖;以及
[0046]圖13是根據(jù)本發(fā)明的各實(shí)施例的電子設(shè)備的框圖。
【具體實(shí)施方式】
[0047]在下文中,將參照附圖詳細(xì)地描述本發(fā)明的各實(shí)施例。此外,在本發(fā)明的以下描述中,當(dāng)在此結(jié)合的公知功能或結(jié)構(gòu)可能使本發(fā)明的主題不清楚時(shí),將省略對這些公知功能和結(jié)構(gòu)的詳細(xì)描述。以下將描述的術(shù)語是考慮本發(fā)明中的功能所定義的術(shù)語,并且可以根據(jù)用戶、用戶的意圖或顧客而異。因此,應(yīng)基于整個(gè)說明書的內(nèi)容,來定義這些術(shù)語。
[0048]本發(fā)明的各實(shí)施例將描述關(guān)于執(zhí)行查詢并搜索查詢結(jié)果以基于例如視頻的多媒體內(nèi)容找到所需場景的方法的用戶界面方法和裝置。
[0049]圖l(a)_l(d)示出了顯示根據(jù)本發(fā)明的各實(shí)施例的視頻內(nèi)容搜索查詢的結(jié)果的屏蒂。
[0050]圖1(a)示出了在執(zhí)行查詢之前的一般視頻用戶界面。在視頻的回放期間,可能出現(xiàn)播放/停止按鈕102、快進(jìn)按鈕104、回退按鈕100和進(jìn)度條(或進(jìn)程條)105或滾動(dòng)條。在圖1
(a)中,當(dāng)在回放期間暫停視頻時(shí),屏幕停止。這時(shí),可以在進(jìn)度條105上與停止的屏幕相對應(yīng)的位置處顯示進(jìn)度狀態(tài)標(biāo)記110。
[0051]這里,盡管以條形式示出了進(jìn)度條105,但是進(jìn)度條105可以具有圓周地旋轉(zhuǎn)的旋轉(zhuǎn)球(spinner)形式。此外,根據(jù)本發(fā)明的各實(shí)施例,進(jìn)度條105不限于條形式或旋轉(zhuǎn)球形式,并且可以具有各種形狀或尺寸的形式。進(jìn)度條105是用于顯示視頻回放的進(jìn)度狀態(tài)的圖形用戶界面(GUI)組件之一。根據(jù)各實(shí)施例,可以與百分比一起顯示進(jìn)度條105。
[0052]當(dāng)在停止?fàn)顟B(tài)中或當(dāng)播放視頻時(shí)通過預(yù)定接口方法(例如文本輸入、語音識別、查詢圖像選擇等)執(zhí)行查詢輸入時(shí),圖1(b)-1(d)中所示的示例之一可以被顯示為查詢結(jié)果的實(shí)施例。稍后將更詳細(xì)描述用于輸入查詢的用戶界面和方法。
[0053]如圖1(b)中所示,可以通過使用一個(gè)或更多個(gè)場景標(biāo)記在進(jìn)度條上顯示與查詢相對應(yīng)的搜索結(jié)果(例如與查詢相對應(yīng)的關(guān)鍵幀、鏡頭或場景的位置)。可以使用與查詢相對應(yīng)的關(guān)鍵幀、鏡頭或場景的開始位置來顯示場景標(biāo)記。根據(jù)另一實(shí)施例,可以根據(jù)與查詢相對應(yīng)的關(guān)鍵幀、鏡頭或場景的長度來各種各樣地顯示場景標(biāo)記。即,可以根據(jù)與查詢相對應(yīng)的關(guān)鍵幀、鏡頭或場景的位置或長度來確定場景標(biāo)記的長度、尺寸和形狀中的多個(gè)之一。例如,如圖l(b)-l(d)中所示,標(biāo)記的長度可以根據(jù)與查詢相對應(yīng)的關(guān)鍵幀、鏡頭或場景的長度而不同。這里,多個(gè)場景標(biāo)記120與同查詢相對應(yīng)的關(guān)鍵幀、鏡頭或場景相對應(yīng),并且可以用預(yù)定的長度或尺寸在進(jìn)度條105上的相應(yīng)位置處顯示與查詢相對應(yīng)的關(guān)鍵幀、鏡頭或場景中的每一個(gè)。例如,可以通過標(biāo)記顯示與查詢相對應(yīng)的鏡頭和場景中的每一個(gè)從開始位置到結(jié)束位置的區(qū)域。在另一示例中,標(biāo)記的長度或尺寸可以不同于與查詢相對應(yīng)的關(guān)鍵幀、鏡頭或場景的長度。當(dāng)與查詢相對應(yīng)的關(guān)鍵幀、鏡頭或場景的長度非常短因此很難在進(jìn)度條105上顯示關(guān)鍵幀、鏡頭或場景時(shí),可以通過具有大于等于1個(gè)像素的預(yù)定尺寸的標(biāo)記來顯示關(guān)鍵幀、鏡頭或場景,以實(shí)現(xiàn)容易的顯示或用戶界面輸入。例如,當(dāng)使用觸控筆時(shí),可以使用與用手指觸摸進(jìn)行輸入的情況相比具有更少數(shù)量像素的標(biāo)記。
[0054]根據(jù)另一實(shí)施例,當(dāng)在進(jìn)度條上布置的與查詢相對應(yīng)的多個(gè)關(guān)鍵幀、鏡頭或場景之間的間隔比預(yù)定長度短時(shí),一個(gè)標(biāo)記可以顯示連續(xù)布置的多個(gè)查詢結(jié)果的位置。
[0055]根據(jù)另一實(shí)施例,當(dāng)與多個(gè)查詢相對應(yīng)的關(guān)鍵幀、鏡頭或場景中與一個(gè)查詢結(jié)果B相對應(yīng)的標(biāo)記的長度或尺寸非常短或小時(shí),可以將標(biāo)記的長度或尺寸放