智能多媒體處理方法和系統(tǒng)的制作方法
【專利摘要】本公開的實施例旨在提供一種多媒體數(shù)據(jù)的處理方法和系統(tǒng)。根據(jù)本公開的一個方面,提供了一種多媒體數(shù)據(jù)的處理方法,包括:生成注釋文本;以及將所述注釋文本與所述多媒體數(shù)據(jù)中的相應(yīng)分區(qū)進行關(guān)聯(lián)。通過使用根據(jù)本公開的實施例的處理方法和系統(tǒng),例如可以有效地提供多媒體數(shù)據(jù)的搜索效率。
【專利說明】
智能多媒體處理方法和系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本公開的實施例涉及數(shù)據(jù)處理,更具體而言,涉及智能多媒體處理系統(tǒng)。
【背景技術(shù)】
[0002] 近年來,隨著信息技術(shù)的技術(shù)進步,產(chǎn)生了越來越多的多媒體數(shù)據(jù),例如,人們越 來越多的使用智能手機、相機、錄音筆或攝像機來記錄日常工作生活中出現(xiàn)的事情,這導(dǎo)致 產(chǎn)生的數(shù)據(jù)量呈幾何級增加。然而,對于所產(chǎn)生的數(shù)據(jù),尤其是多媒體數(shù)據(jù),缺少一種高效 搜索方法來對其進行搜索來快速找到感興趣的內(nèi)容,例如視頻或音頻中某一段的視頻或音 頻。通常的搜索方法是根據(jù)拍攝時間或是文件名稱進行搜索,有時候甚至不得不去遍歷所 有的視頻或音頻內(nèi)容來尋找特定的視頻或音頻片段。這對于時間要求不緊迫的生活事件而 言,尚可以接受。
[0003] 然而,對于一些特定的工作應(yīng)用而言,這常常不能滿足效率要求。例如,當(dāng)客戶的 設(shè)備出現(xiàn)問題時,現(xiàn)場技術(shù)工程師通常會拍攝或記錄現(xiàn)場觀察的情況,這也會產(chǎn)生較大的 數(shù)據(jù)量。后方工程師如果沒有高效的搜索方法則不得不去瀏覽所有的多媒體數(shù)據(jù)資料,這 對于現(xiàn)場需要盡快解決技術(shù)問題的情形通常不可接受。
[0004] 因此,需要一種智能多媒體數(shù)據(jù)處理系統(tǒng),其能夠?qū)Χ嗝襟w數(shù)據(jù)進行快速定位或 高效搜索。
【發(fā)明內(nèi)容】
[0005] 本公開的實施例旨在提供一種多媒體數(shù)據(jù)的處理方法和系統(tǒng)。
[0006] 根據(jù)本公開的一個方面,提供了一種多媒體數(shù)據(jù)的處理方法,包括:生成注釋文 本;以及將所述注釋文本與所述多媒體數(shù)據(jù)中的相應(yīng)分區(qū)進行關(guān)聯(lián)。
[0007] 根據(jù)本公開的另一方面,提供了一種多媒體數(shù)據(jù)處理系統(tǒng),包括:文本生成裝置, 被配置成生成注釋文本;以及關(guān)聯(lián)裝置,被配置成將所述注釋文本與所述多媒體數(shù)據(jù)中的 相應(yīng)分區(qū)進行關(guān)聯(lián)。
[0008] 根據(jù)本公開的又一方面,提供了一種存儲在非瞬態(tài)計算機可讀存儲介質(zhì)上的用于 多媒體數(shù)據(jù)處理的計算機程序產(chǎn)品,包括:第一程序指令,用于生成注釋文本;以及第二程 序指令,用于將所述注釋文本中與所述多媒體數(shù)據(jù)中的相應(yīng)分區(qū)進行關(guān)聯(lián)。
[0009] 通過使用根據(jù)本公開的一些實施例,可以獲得相應(yīng)的有益效果,例如,可以提高多 媒體數(shù)據(jù)的搜索和定位效率。
【附圖說明】
[0010] 參考如下附圖和描述可以更好地理解本公開。圖中的部件并不必須按比例,相反, 重點放在了圖示本公開的原理上。此外,在圖中,相同的參考號指代對應(yīng)的部分。在附圖 中:
[0011] 圖1是根據(jù)本公開的一個實施例的多媒體數(shù)據(jù)的處理方法的流程圖;
[0012] 圖2是根據(jù)本公開的一個實施例的視頻分區(qū)和注釋文本的示意圖;以及
[0013] 圖3是根據(jù)本公開的一個實施例的多媒體數(shù)據(jù)的處理系統(tǒng)的框圖。
【具體實施方式】
[0014] 在下文描述中闡述某些具體細節(jié)以便提供對本公開的主題內(nèi)容的各種方面的透 徹理解。然而在不具有這些具體細節(jié)的情形下仍然可以實現(xiàn)本公開的主題內(nèi)容。在一些實 例中,暫不具體描述形成與智能多媒體處理方法和系統(tǒng)相關(guān)聯(lián)的公知結(jié)構(gòu)和方法,以免模 糊對本公開內(nèi)容的其它方面的描述。
[0015] 除非上下文另有要求,否則在說明書和所附權(quán)利要求書全文中,詞語"包括"將解 釋成開放式包含意義,也就是說,解釋為"包括但不限于"。
[0016] 在本說明書全文中引用"一個實施例"或者"實施例"意味著結(jié)合該實施例描述的 特定特征、結(jié)構(gòu)或者特性包含于至少一個實施例中。因此,在本說明書全文中各處出現(xiàn)表達 "在一個實施例中"或者"在實施例中"未必都是指相同方面。另外,可以在本公開內(nèi)容的一 個或者多個方面中以任何適當(dāng)方式組合特定特征、結(jié)構(gòu)或者特性。
[0017] 現(xiàn)在參見圖1,圖1示出了根據(jù)本公開的多媒體數(shù)據(jù)的處理方法的一個實施例。在 圖1的實施例中,在101處,生成注釋文本,以及在102處,將注釋文本與多媒體數(shù)據(jù)的相應(yīng) 分區(qū)相關(guān)聯(lián)。本領(lǐng)域技術(shù)人員可以理解,多媒體數(shù)據(jù)包括至少一個分區(qū)。
[0018] 圖2示出了根據(jù)本公開的一個實施例的視頻分區(qū)和注釋文本的示意圖?,F(xiàn)在結(jié)合 圖1和圖2來描述根據(jù)本公開的一個示例。
[0019] 在本公開的實施例中,多媒體數(shù)據(jù)可以是視頻數(shù)據(jù)、音頻數(shù)據(jù)、圖像數(shù)據(jù)和文本數(shù) 據(jù)之一。例如,視頻數(shù)據(jù)是可以采用諸如MP4、AVI、MKV、RM、RMVB、WMV、M4V、VIDX、XVID、ASF 等各種編碼格式編碼的視頻數(shù)據(jù)。音頻數(shù)據(jù)可以是諸如AAC、MP3、WMA、AMR、FLAC、APE等之 類的音頻數(shù)據(jù)。圖像數(shù)據(jù)可以是RAW、BMP、PCX、TIFF、GIF、JPEG、PNG等之類的圖像數(shù)據(jù)。 文本數(shù)據(jù)可以是諸如Microsoft Office?系列的文本數(shù)據(jù)、txt文本數(shù)據(jù)等之類的文本數(shù) 據(jù)。
[0020] 注釋文本可以包括各種信息,其中各種信息項可以由人員手動添加或者通過技術(shù) 方式自動添加。
[0021] 例如,當(dāng)多媒體數(shù)據(jù)為視頻或音頻數(shù)據(jù)時,注釋本文可以包括指示視頻或音頻的 起始時間和結(jié)束時間的信息。此外,當(dāng)視頻或音頻數(shù)據(jù)由多個視頻或音頻數(shù)據(jù)分區(qū)組成時, 注釋文本可以包括指示相應(yīng)分區(qū)的起始時間和結(jié)束時間的信息。例如,參見圖2,圖2中的 原始視頻流包含多個分區(qū)20U202和203。該原始視頻流諸如是現(xiàn)場技術(shù)支持工程師拍攝 的視頻。拍攝可以在時間上并不連續(xù)。每次連續(xù)拍攝的視頻可以構(gòu)成一個分區(qū),而多個連 續(xù)拍攝的視頻組合構(gòu)成原始視頻流。在另外的示例中,可以由不同的視頻或音頻組合構(gòu)成 原始多媒體流,例如分區(qū)201可以為視頻流第一分區(qū),分區(qū)202可以為音頻流第二分區(qū),以 及分區(qū)203可以是視頻流第三分區(qū),其中第一分區(qū)201是現(xiàn)場支持工程師拍攝的諸如客戶 服務(wù)器故障設(shè)備的現(xiàn)場視頻,第二分區(qū)202是后端技術(shù)工程師的故障分析音頻,而第三分 區(qū)203是技術(shù)主管的指示如何處理的視頻。本領(lǐng)域技術(shù)人員可以理解,也可以具有其它分 區(qū)組合方式,例如圖像和音頻構(gòu)成單個分區(qū),其中當(dāng)播放圖像時,音頻也被播放。在另一示 例中,文本和音頻數(shù)據(jù)構(gòu)成單個分區(qū),當(dāng)顯示文本數(shù)據(jù)時,音頻也被播放。在另一示例中,音 頻構(gòu)成單個分區(qū),當(dāng)播放音頻數(shù)據(jù)時,可以顯示默認圖像數(shù)據(jù),例如純黑背景圖像。
[0022] 在圖2示出的示例中,第一注釋文本211與第一分區(qū)201相關(guān)聯(lián)。在第一注釋文 本211中,記載了第一分區(qū)201的開始時間00:00和結(jié)束時間01:00。如上所述,第一分區(qū) 201是現(xiàn)場支持工程師拍攝的諸如客戶服務(wù)器故障設(shè)備的現(xiàn)場視頻,該視頻持續(xù)1分鐘。本 領(lǐng)域技術(shù)人員可以理解,視頻持續(xù)時間在此并未限制,可以有其它的持續(xù)時間,并且具有相 應(yīng)的開始時間和結(jié)束時間。本領(lǐng)域技術(shù)人員可以理解,視頻或音頻流的開始時間和結(jié)束時 間可以手動添加或是自動添加。
[0023] 本領(lǐng)域技術(shù)人員可以理解,在僅包括圖像和文本數(shù)據(jù)的非流媒體的多媒體數(shù)據(jù)的 情形中,注釋文本可以不具有開始時間和結(jié)束時間的信息項。
[0024] 此外,注釋文本還可以包括關(guān)于重要性的信息項。例如,在圖2的示例中,該第一 分區(qū)201的視頻重要性為1,第二分區(qū)202的視頻重要性為3,第三分區(qū)203的視頻重要性 為2??梢岳斫?,對于日趨海量的多媒體數(shù)據(jù)而言,有必要對多媒體數(shù)據(jù)進行重要性分級,使 得在瀏覽多媒體時,可以根據(jù)重要性級別對多媒體數(shù)據(jù)進行篩選。例如對于上述的客戶服 務(wù)器故障的情形而言,在沒有現(xiàn)場工程師時,客戶自行拍攝現(xiàn)場視頻可能會拍攝多段視頻 (多個視頻分區(qū)),這其中的大部分對于解決問題而言無足輕重,后端技術(shù)支持工程師可以 對客戶拍攝的視頻進行重要性級別進行分級,使得技術(shù)主管在需要時可以僅瀏覽特定重要 性級別的多媒體數(shù)據(jù)。本領(lǐng)域技術(shù)人員可以理解,按數(shù)字對重要性進行分類僅是示例,可以 有其它分類方法,例如按"不重要"、"重要"、"非常重要"等進行分級。本領(lǐng)域技術(shù)人員可以 理解,關(guān)于重要性的信息項可以手動添加或是自動添加。
[0025] 注釋文本還可以包括關(guān)于安全級別的信息項。例如,在圖2的示例中,該第一分區(qū) 201的視頻安全級別為1,第二分區(qū)202的視頻安全級別為2,第三分區(qū)203的視頻安全級別 為3。對于一些情形(例如產(chǎn)品研發(fā))而言,相應(yīng)的多媒體數(shù)據(jù)(例如關(guān)于產(chǎn)品研發(fā)的具體 細節(jié))通常屬于公司或機構(gòu)的商業(yè)秘密,通常需要限制對其的訪問。不同的技術(shù)部門僅可 以具有相應(yīng)的安全級別和權(quán)限,以防止商業(yè)秘密外泄。在圖2的示例中,現(xiàn)場工程師拍攝的 描述服務(wù)器故障現(xiàn)場的第一視頻分區(qū)201的安全級別為1,這可以意味著在公司內(nèi)部的所 有人員均可以對其進行訪問?,F(xiàn)場技術(shù)人員對客戶服務(wù)器故障進行現(xiàn)場調(diào)試的第二視頻分 區(qū)202的安全級別為2,這可以意味著具有安全權(quán)限為2或以上的人員(例如后端技術(shù)工程 師和技術(shù)主管)可以對其進行訪問。現(xiàn)場工程師的相應(yīng)分析結(jié)論的第三視頻分區(qū)203的安 全級別為3,這可以意味著具有安全權(quán)限為3或以上的人員(例如技術(shù)主管)可以對其進行 訪問。由于后端技術(shù)工程師的安全級別僅為2,這意味著后端技術(shù)工程師不可以訪問第三視 頻分區(qū)203。技術(shù)主管可以基于后端技術(shù)工程師的獨立分析報告和第三視頻分區(qū)203做出 相應(yīng)判斷和決定。本領(lǐng)域技術(shù)人員可以理解,按數(shù)字對安全級別進行分類僅是示例,可以有 其它分類方法,例如按"公開"、"秘密"、"絕密"等進行分級。本領(lǐng)域技術(shù)人員可以理解,關(guān) 于安全級別的信息項可以手動添加或是自動添加??蛇x地,安全級別是首先檢查的信息項, 即首先檢查用戶的安全級別是否符合多媒體數(shù)據(jù)的安全級別要求。例如,在對注釋文本進 行檢索時僅檢索所述注釋文本中符合安全級別的注釋文本,或是在根據(jù)檢索結(jié)果呈現(xiàn)所述 多媒體數(shù)據(jù)的相應(yīng)分區(qū)時僅呈現(xiàn)所述多媒體數(shù)據(jù)中符合安全級別的分區(qū)。
[0026] 此外,注釋文本還可以包括關(guān)于多媒體數(shù)據(jù)分類的信息項。例如,在圖2的示例 中,第一注釋文本211、第二注釋文本212和第三注釋文本213中均包括分類項,該分類項為 "故障"。例如,在如上所述的情形中,可以具有關(guān)于客戶服務(wù)器現(xiàn)場的多種視頻,例如安裝、 調(diào)試、運行、監(jiān)測、故障等視頻。后端工程師和技術(shù)主管可以根據(jù)分類進行篩選。例如,當(dāng)客 戶服務(wù)器故障時,可以調(diào)取故障分類的多媒體數(shù)據(jù),其包括關(guān)于服務(wù)器故障的當(dāng)前多媒體 數(shù)據(jù)和歷史多媒體數(shù)據(jù)。當(dāng)前多媒體數(shù)據(jù)和歷史多媒體數(shù)據(jù)可以組合成新的多媒體數(shù)據(jù)流 以供后端工程師和技術(shù)主管瀏覽。本領(lǐng)域技術(shù)人員可以理解,在其它一些情形中,可以相似 處理,例如,可以將"訪談"分類的多媒體數(shù)據(jù)進行組合,以供咨詢公司的人員全面了解客戶 的需求。本領(lǐng)域技術(shù)人員可以理解,按文字分類僅是示例,可以有其它分類方法,例如按數(shù) 字、時間或字母等進行分類。本領(lǐng)域技術(shù)人員可以理解,關(guān)于分類的信息項可以手動添加或 是自動添加。
[0027] 注釋文本還可以包括關(guān)于多媒體數(shù)據(jù)地理位置的信息項。該多媒體數(shù)據(jù)地理位置 可以例如是多媒體數(shù)據(jù)產(chǎn)生的地理位置,例如多媒體視頻拍攝于北京、上?;蚴菑V州。在另 一示例中,該多媒體數(shù)據(jù)地理位置也可以是多媒體數(shù)據(jù)加工位置,例如雖然視頻素材拍攝 于北京,但是后期處理在上海進行,因此該視頻的地理位置信息記錄為上海。例如,在圖2 的示例中,第一注釋文本211、第二注釋文本212和第三注釋文本213中均包括地理位置信 息項"北京",這因為客戶公司在北京,其服務(wù)器的現(xiàn)場也在北京,因此所拍攝的三個視頻的 相關(guān)聯(lián)的注釋文本中的位置信息也標(biāo)記為北京。本領(lǐng)域技術(shù)人員可以理解,按城市分類僅 是示例,可以有其它分類方法,例如按經(jīng)煒度坐標(biāo)等進行分類。本領(lǐng)域技術(shù)人員可以理解, 關(guān)于分類的信息項可以手動添加或是自動添加,例如通過GPS裝置實時記錄。
[0028] 此外,注釋文本還可以包括關(guān)于關(guān)鍵字的信息項。為了便于搜索特定感興趣的內(nèi) 容,人們通常給相應(yīng)的多媒體添加相應(yīng)的標(biāo)簽,該標(biāo)簽即為一種類型的關(guān)鍵字。例如,對于 視頻網(wǎng)站而言,通常會對多媒體數(shù)據(jù)添加相應(yīng)的關(guān)鍵字標(biāo)簽,以供用戶檢索。例如,《舌尖上 的中國》在視頻網(wǎng)站上通常被添加有記錄片、美食、文化等標(biāo)簽。在圖2的示例中,注釋文本 20U202和203均包括相應(yīng)的關(guān)鍵字項:服務(wù)器、故障。本領(lǐng)域技術(shù)人員可以理解,關(guān)于關(guān) 鍵字的信息項可以手動添加或是自動添加。例如,對于諸如論文之類的文本多媒體而言,可 以通過計算其中高頻出現(xiàn)的詞匯來自動添加關(guān)鍵字。在另一示例中,可以使用光學(xué)字符識 別技術(shù)(OCR)來識別例如視頻的多媒體中每個視頻幀中出現(xiàn)的字符來自動添加關(guān)鍵字。在 又一示例中,可以使用語音識別技術(shù)來識別音頻流中出現(xiàn)的高頻詞來自動添加關(guān)鍵字。本 領(lǐng)域技術(shù)人員可以理解,上述通過對視頻幀或圖像進行光學(xué)字符識別或通過對音頻進行語 音識別的自動添加技術(shù)也可應(yīng)用于注釋文本中其它信息項的自動添加。
[0029] 此外,注釋文本還可以包括關(guān)于內(nèi)容描述的信息項。內(nèi)容描述用于描述多媒體數(shù) 據(jù)的內(nèi)容以及相關(guān)的評論或意見。例如,在圖2的示例中,第一注釋文本201中的內(nèi)容描述 項記錄了"客戶的服務(wù)器故障現(xiàn)場",這與視頻分區(qū)201的內(nèi)容相對應(yīng);第二注釋文本202中 的內(nèi)容描述項記錄了 "客戶的服務(wù)器故障現(xiàn)場調(diào)試",這與視頻分區(qū)202的內(nèi)容相對應(yīng);第 三注釋文本203中的內(nèi)容描述項記錄了"現(xiàn)場工程師的分析結(jié)論",這與視頻分區(qū)203的內(nèi) 容相對應(yīng)。除了上述描述外,注釋文本的內(nèi)容描述還可以記錄其它內(nèi)容,例如現(xiàn)場工程師在 現(xiàn)場的聊天內(nèi)容。換言之,關(guān)于多媒體數(shù)據(jù)分區(qū)的聊天/評論/意見等內(nèi)容也可以作為內(nèi) 容描述項被記錄在注釋文本中。本領(lǐng)域技術(shù)人員可以理解,關(guān)于內(nèi)容描述的信息項可以手 動添加或是自動添加。
[0030] 注釋文本還可以包括關(guān)于角色屬性的信息項。例如,對于諸如電影電視之類的視 頻而言,電影電視中有時會出現(xiàn)不適于兒童觀看的內(nèi)容。通過在注釋文本中添加相應(yīng)的角 色屬性信息(例如,家長、兒童等之類的角色屬性),可以對多媒體數(shù)據(jù)的觀眾進行相應(yīng)的 分類授權(quán)瀏覽。本領(lǐng)域技術(shù)人員可以理解,關(guān)于角色屬性的信息項可以手動添加或是自動 添加。本領(lǐng)域技術(shù)人員還可以理解,按家長兒童進行角色屬性分配僅是示例,還可以具有其 他角色屬性分級,例如美國電影協(xié)會(MPAA)采用的G級、PG級、PG-13級、R級、NC-17級等 觀眾角色屬性的分級。
[0031] 此外,注釋文本還可以包括關(guān)于熱度圖的信息項。對于日漸流行的社交網(wǎng)絡(luò)而言, 網(wǎng)絡(luò)用戶會對海量的多媒體數(shù)據(jù)中的某些內(nèi)容表現(xiàn)出強烈的興趣,這可以通過"熱度"進行 表示。通過對于社交網(wǎng)絡(luò)中熱度較高的多媒體數(shù)據(jù)進行挖掘分析,可以獲得關(guān)于諸如流行 趨勢、用戶行為模式等之類有用的信息,由此可以利用這些有用的信息進行商業(yè)開發(fā)或是 部署應(yīng)對策略。在一個示例中,可以對視頻流中的視頻數(shù)據(jù)進行熱度分析,以獲得該視頻數(shù) 據(jù)的熱度圖。例如,該視頻數(shù)據(jù)包括多個視頻分區(qū),通過根據(jù)視頻分區(qū)的重要性、播放次數(shù)、 評論數(shù)等相關(guān)信息計算相應(yīng)視頻分區(qū)的熱度,并且以不同的顏色表示視頻分區(qū)的熱度,從 而生成針對該多媒體數(shù)據(jù)的熱度圖。例如,當(dāng)電影和電視劇在網(wǎng)絡(luò)上播放時,人們通常快進 跳過電影或電視劇開頭,由此可以將電影或電視劇開頭部分的視頻分區(qū)以白色表示,這意 味著開頭部分的視頻分區(qū)的熱度較低。再例如,當(dāng)電影和電視劇的關(guān)鍵部分被播放時,人們 通常會全程觀看該部分的視頻分區(qū),甚至可能會重播該部分的視頻分區(qū),這導(dǎo)致播放次數(shù) 較高(流行度較高)并且不被跳過,這意味著關(guān)鍵部分的視頻分區(qū)的熱度較高。通過使用 多媒體數(shù)據(jù)的熱度圖,可以獲得多個有益效果,例如可以對熱度較高的多媒體分區(qū)進行優(yōu) 先緩存,從而獲得更好更高效的瀏覽體驗。本領(lǐng)域技術(shù)人員可以理解,關(guān)于熱度圖的信息項 可以手動添加或是自動添加。
[0032] 此外,注釋文本還可以包括指示視頻或圖像的主要顏色的信息項。主要顏色是指 視頻幀或圖像中占比例較大的若干種顏色,例如占比例最大的一種顏色或是三種顏色。顏 色分類可以使用常規(guī)的16色或256色系統(tǒng)進行分類。例如,在一個海洋圖像中,藍色占 90%,白色占6%,黃色占3%,此時,主要顏色包括藍色、白色和黃色(按比例排序)。當(dāng)搜 索關(guān)于海洋的圖像時,可以搜索藍色占比最大的圖像。
[0033] 在另一示例中,注釋文本可以包括指示播放時的顯示位置和顯示格式中至少一項 的信息。上述的關(guān)鍵字、內(nèi)容描述、重要性級別、分類信息、角色屬性、熱度圖、安全級別和地 理位置中的至少一項可以在多媒體數(shù)據(jù)播放時加載到多媒體數(shù)據(jù)中以便同時顯示。例如, 當(dāng)多媒體數(shù)據(jù)是視頻或音頻數(shù)據(jù)時,注釋文本中的多個信息項可以基于需要而選擇性地加 載到視頻或圖像數(shù)據(jù)中,以便于同時顯示。因此,注釋文本中可以包括指示上述信息項在視 頻和圖像中出現(xiàn)的顯示位置和顯示格式中的至少一種的信息,例如可以在注釋文本中規(guī)定 安全級別的信息可以顯示在視頻或圖像的左上角并且以紅色字體顯示安全級別信息。當(dāng)多 媒體數(shù)據(jù)是視頻數(shù)據(jù)時,注釋文本中還可以具有規(guī)定上述信息項顯示的開始時間和結(jié)束時 間的信息。本領(lǐng)域技術(shù)人員可以理解,關(guān)于顯示位置和顯示格式中至少一項的信息項可以 手動添加或是自動添加。
[0034] 在一個示例中,注釋文本還可以包括關(guān)于關(guān)鍵區(qū)域的信息項。例如,當(dāng)多媒體數(shù)據(jù) 是超聲成像圖時,圖像中可能具有反映腫瘤病變的區(qū)域,需要將其突出顯示為關(guān)鍵區(qū)域。使 用與超聲成像圖中顏色不同的顯著顏色(例如紅色或綠色)圈出特定的關(guān)鍵區(qū)域,使得當(dāng) 多媒體圖像數(shù)據(jù)播放時,關(guān)鍵區(qū)域被突出顯示。本領(lǐng)域技術(shù)人員可以理解,關(guān)于顯示位置和 顯示格式中至少一項的信息項可以手動添加或是自動添加。例如,可以使用醫(yī)療領(lǐng)域的超 聲圖像分析算法自動圈出可疑關(guān)鍵區(qū)域,并且將其位置信息自動添加至注釋文本。
[0035] 以上介紹了注釋文本中包含的一些信息項,本領(lǐng)域技術(shù)人員可以理解,上述信息 項僅是示例,而非旨在限制。注釋文本可以包含其它一些信息項,例如多媒體數(shù)據(jù)的生成時 間、多媒體數(shù)據(jù)對象的名稱(例如患者姓名)等。
[0036] 雖然上面參照圖2示出了三個注釋文本,但是本領(lǐng)域技術(shù)人員可以理解,上述三 個注釋文本可以組合為單個注釋文本或者對三個分區(qū)進行進一步的劃分以生成多個子分 區(qū)以及相應(yīng)的一個或多個注釋文本。
[0037] 當(dāng)形成了與多媒體數(shù)據(jù)相關(guān)聯(lián)的注釋文本之后,可以使用注釋文本進行檢索以及 根據(jù)檢索結(jié)果呈現(xiàn)多媒體數(shù)據(jù)的相應(yīng)分區(qū)。
[0038] 用戶可以根據(jù)關(guān)鍵字、內(nèi)容描述、重要性級別、分類信息、主要顏色、角色屬性、熱 度圖、關(guān)鍵區(qū)域、安全級別和地理位置中的至少一項進行檢索。例如,在圖2所示的情形中, 后端的技術(shù)主管可以根據(jù)關(guān)鍵字(故障)、重要性(2或以上)和安全級別(2或以上)進行 檢索,檢索到注釋文本212和213,并且根據(jù)該檢索結(jié)果顯示對應(yīng)的多媒體數(shù)據(jù)分區(qū)202和 203。本領(lǐng)域技術(shù)人員可以理解,在不同的場景下,可以根據(jù)一個或多個不同項進行檢索以 提高效率。例如,如上所述地,檢索主要顏色為藍色的圖像。再例如,使用關(guān)鍵字為"可疑腫 瘤病變"和重要性為2或以上來進行檢索。
[0039] 如上所述地,對于一些商業(yè)應(yīng)用情形而言,安全分級尤為重要。因此,需要將安全 級別設(shè)計為首先的考慮項或是默認考慮項。例如,當(dāng)用戶的安全級別為2時,雖然在輸入時 并沒有設(shè)置安全級別的條件項,但是系統(tǒng)在檢索時,僅檢索注釋文本中符合安全級別的注 釋文本(例如安全級別為1或2),并且呈現(xiàn)相應(yīng)的多媒體數(shù)據(jù)給用戶。在另一情形中,可以 將安全級別設(shè)計為最后的考慮項或是默認考慮項。例如,用戶的安全級別為2時,雖然在輸 入時并沒有設(shè)置安全級別的條件項,但是系統(tǒng)在檢索時,僅檢索注釋文本中符合安全級別 的注釋文本(例如安全級別為1或2),并且呈現(xiàn)相應(yīng)的多媒體數(shù)據(jù)給用戶。
[0040] 下面參見附圖3描述根據(jù)本公開的一個實施例的多媒體數(shù)據(jù)的處理系統(tǒng)的框 圖。如上所述,該多媒體處理系統(tǒng)包括多媒體數(shù)據(jù)庫301、注釋文本生成裝置302、關(guān)聯(lián)裝置 303、檢索裝置304和呈現(xiàn)裝置305。關(guān)聯(lián)裝置303將文本生成裝置302生成的注釋文本與 多媒體庫301中的多媒體或多媒體分區(qū)相關(guān)聯(lián),其中可以在注釋文本中自動(例如使用光 學(xué)字符識別設(shè)備和語音識別設(shè)備)或手動地添加如上所述的各個信息項,例如注釋文本可 以包括指示相應(yīng)分區(qū)的起始時間和結(jié)束時間的信息,還可以包括指示所述多媒體數(shù)據(jù)的關(guān) 鍵字、內(nèi)容描述、重要性級別、分類信息、主要顏色、角色屬性、熱度圖、關(guān)鍵區(qū)域、安全級別 和地理位置中的至少一項的信息。此外,注釋文本也可以包括指示播放時的顯示位置和顯 示格式中至少一項的信息。
[0041] 在添加完成各個信息項之后,可以使用檢索裝置304對注釋文本進行檢索,例如 基于指示所述多媒體數(shù)據(jù)的關(guān)鍵字、內(nèi)容描述、重要性級別、分類信息、主要顏色、角色屬 性、熱度圖、關(guān)鍵區(qū)域、安全級別和地理位置中的至少一項的信息進行檢索。如上所述地,檢 索裝置可以被配置成僅檢索所述注釋文本中符合安全級別的注釋文本。
[0042] 此外,呈現(xiàn)裝置305根據(jù)檢索裝置304的檢索結(jié)果從多媒體數(shù)據(jù)庫301中提取對 應(yīng)的多媒體數(shù)據(jù)分區(qū)并且將其呈現(xiàn)。本領(lǐng)域技術(shù)人員可以理解,呈現(xiàn)裝置305可以對多個 多媒體數(shù)據(jù)分區(qū)進行任意組合,并且可以在多媒體數(shù)據(jù)播放時同時地呈現(xiàn)注釋信息中的某 些信息項。例如,可以使用諸如動態(tài)呈現(xiàn)引擎之類的呈現(xiàn)裝置在線呈現(xiàn)搜索結(jié)果,并且該呈 現(xiàn)引擎可以在線生成組合的多媒體分區(qū)并且加載注釋文本中的一些信息至多媒體數(shù)據(jù)。如 上所述地,呈現(xiàn)裝置305可以被配置成僅呈現(xiàn)所述多媒體數(shù)據(jù)中符合安全級別的分區(qū)。
[0043] 根據(jù)本公開的另一實施例,提供了一種存儲在非瞬態(tài)計算機可讀存儲介質(zhì)上的用 于多媒體數(shù)據(jù)處理的計算機程序產(chǎn)品,包括:第一程序指令,用于生成注釋文本;以及第二 程序指令,用于將所述注釋文本中與所述多媒體數(shù)據(jù)中的相應(yīng)分區(qū)進行關(guān)聯(lián)。本領(lǐng)域技術(shù) 人員可以理解,上述的方法步驟和裝置產(chǎn)品可以通過計算機軟件或程序代碼的形式實施。 在該實施例中,可以將多媒體數(shù)據(jù)分區(qū)以及與其相關(guān)聯(lián)的注釋文本單獨地存儲為XML或 no-sql存儲(例如JS0N格式)。如本領(lǐng)域所熟知地,XML或no-sql存儲均允許全文檢索 以及數(shù)據(jù)篩選。
[0044] 雖然已經(jīng)參考若干【具體實施方式】描述了本公開,但是應(yīng)該理解,本公開并不限于 所公開的【具體實施方式】。本公開旨在涵蓋所附權(quán)利要求的精神和范圍內(nèi)所包括的各種修改 和等同布置。所附權(quán)利要求的范圍符合最寬泛的解釋,從而包含所有這樣的修改及等同結(jié) 構(gòu)和功能。
【主權(quán)項】
1. 一種多媒體數(shù)據(jù)的處理方法,包括: 生成注釋文本;以及 將所述注釋文本與所述多媒體數(shù)據(jù)中的相應(yīng)分區(qū)進行關(guān)聯(lián)。2. 根據(jù)權(quán)利要求1所述的處理方法,其中所述注釋文本包括指示相應(yīng)分區(qū)的起始時間 和結(jié)束時間的信息。3. 根據(jù)權(quán)利要求1所述的處理方法,其中所述注釋文本包括指示所述多媒體數(shù)據(jù)的關(guān) 鍵字、內(nèi)容描述、重要性級別、分類信息、主要顏色、角色屬性、熱度圖、關(guān)鍵區(qū)域、安全級別 和地理位置中的至少一項的信息。4. 根據(jù)權(quán)利要求1所述的處理方法,其中所述多媒體數(shù)據(jù)是視頻數(shù)據(jù)、音頻數(shù)據(jù)、圖像 數(shù)據(jù)和文本數(shù)據(jù)之一。5. 根據(jù)權(quán)利要求4所述的處理方法,其中當(dāng)所述多媒體數(shù)據(jù)是視頻數(shù)據(jù)或圖像數(shù)據(jù) 時,使用光學(xué)字符識別技術(shù)來識別視頻幀或圖像中的字符,以及基于識別出的字符來生成 注釋文本。6. 根據(jù)權(quán)利要求4所述的處理方法,其中當(dāng)所述多媒體數(shù)據(jù)是音頻數(shù)據(jù)時,使用語音 識別技術(shù)來識別音頻中的文字,以及基于識別出的文字來生成注釋文本。7. 根據(jù)權(quán)利要求1所述的處理方法,其中所述注釋文本包括指示播放時的顯示位置和 顯示格式中至少一項的信息。8. 根據(jù)權(quán)利要求1所述的處理方法,還包括: 對所述注釋文本進行檢索;以及 根據(jù)檢索結(jié)果呈現(xiàn)所述多媒體數(shù)據(jù)的相應(yīng)分區(qū)。9. 根據(jù)權(quán)利要求8所述的處理方法,其中對所述注釋文本進行檢索包括: 根據(jù)關(guān)鍵字、內(nèi)容描述、重要性級別、分類信息、主要顏色、角色屬性、熱度圖、關(guān)鍵區(qū) 域、安全級別和地理位置中的至少一項進行檢索。10. 根據(jù)權(quán)利要求8所述的處理方法,其中對所述注釋文本進行檢索是僅檢索所述注 釋文本中符合安全級別的注釋文本。11. 根據(jù)權(quán)利要求8所述的處理方法,其中根據(jù)檢索結(jié)果呈現(xiàn)所述多媒體數(shù)據(jù)的相應(yīng) 分區(qū)是僅呈現(xiàn)所述多媒體數(shù)據(jù)中符合安全級別的分區(qū)。12. -種多媒體數(shù)據(jù)處理系統(tǒng),包括: 文本生成裝置,被配置成生成注釋文本;以及 關(guān)聯(lián)裝置,被配置成將所述注釋文本與所述多媒體數(shù)據(jù)中的相應(yīng)分區(qū)進行關(guān)聯(lián)。13. 根據(jù)權(quán)利要求12所述的多媒體數(shù)據(jù)處理系統(tǒng),其中所述注釋文本包括指示相應(yīng)分 區(qū)的起始時間和結(jié)束時間的信息。14. 根據(jù)權(quán)利要求12所述的多媒體數(shù)據(jù)處理系統(tǒng),其中所述注釋文本包括指示所述多 媒體數(shù)據(jù)的關(guān)鍵字、內(nèi)容描述、重要性級別、分類信息、主要顏色、角色屬性、熱度圖、關(guān)鍵區(qū) 域、安全級別和地理位置中的至少一項的信息。15. 根據(jù)權(quán)利要求12所述的多媒體數(shù)據(jù)處理系統(tǒng),其中所述注釋文本包括指示播放時 的顯示位置和顯示格式中至少一項的信息。16. 根據(jù)權(quán)利要求12所述的多媒體數(shù)據(jù)處理系統(tǒng),還包括: 檢索裝置,被配置成對所述注釋文本進行檢索;以及 呈現(xiàn)裝置,被配置成根據(jù)檢索結(jié)果呈現(xiàn)所述多媒體數(shù)據(jù)的相應(yīng)分區(qū)。17. 根據(jù)權(quán)利要求16所述的多媒體數(shù)據(jù)處理系統(tǒng),其中所述檢索裝置被配置成根據(jù)關(guān) 鍵字、內(nèi)容描述、重要性級別、分類信息、主要顏色、角色屬性、熱度圖、關(guān)鍵區(qū)域、安全級別 和地理位置中的至少一項進行檢索。18. 根據(jù)權(quán)利要求16所述的多媒體數(shù)據(jù)處理系統(tǒng),其中所述檢索裝置被配置成僅檢索 所述注釋文本中符合安全級別的注釋文本。19. 根據(jù)權(quán)利要求16所述的多媒體數(shù)據(jù)處理系統(tǒng),其中所述呈現(xiàn)裝置被配置成僅呈現(xiàn) 所述多媒體數(shù)據(jù)中符合安全級別的分區(qū)。20. -種存儲在非瞬態(tài)計算機可讀存儲介質(zhì)上的用于多媒體數(shù)據(jù)處理的計算機程序產(chǎn) 品,包括: 第一程序指令,用于生成注釋文本;以及 第二程序指令,用于將所述注釋文本中與所述多媒體數(shù)據(jù)中的相應(yīng)分區(qū)進行關(guān)聯(lián)。
【文檔編號】G06F17/30GK105893387SQ201510004939
【公開日】2016年8月24日
【申請日】2015年1月4日
【發(fā)明人】吳佳瑋, 陳超, 陸明剛, 徐碩, 劉晶晶
【申請人】伊姆西公司