国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于語音識別檢測體育視頻精彩部分的制作方法

      文檔序號:10552920閱讀:446來源:國知局
      基于語音識別檢測體育視頻精彩部分的制作方法
      【專利摘要】提供了用于檢測體育視頻中的視頻精彩部分的計算機實現(xiàn)的方法和存儲有用于檢測體育視頻中的精彩部分的可執(zhí)行計算機程序指令的非瞬態(tài)計算機可讀存儲介質(zhì)。體育視頻的視頻精彩部分是體育視頻的一部分并且表示體育視頻中捕獲的語義上重要的事件。評估與體育視頻相關(guān)聯(lián)的音頻流,例如,音頻流各部分的響度以及響度的長度?;趯σ纛l流的評估來選擇體育視頻的視頻片段。每個選擇的視頻片段表示體育視頻的視頻精彩部分候選。經(jīng)訓練的音頻分類模型被用于識別與每個選擇的視頻片段相關(guān)聯(lián)的音頻流中的語音模式?;谧R別的視頻模式與期望的語音模式的集合的比較,選擇一個或多個視頻片段作為體育視頻的視頻精彩部分。
      【專利說明】
      基于語音識別檢測體育視頻精彩部分
      技術(shù)領(lǐng)域
      [0001] 本發(fā)明總體上涉及數(shù)字內(nèi)容處理,具體地涉及使用與體育視頻相關(guān)聯(lián)的音頻數(shù)據(jù) 的語音識別來檢測體育視頻中的精彩部分。
      【背景技術(shù)】
      [0002] 智能手持設(shè)備(諸如智能電話和平板計算機)已經(jīng)日益普遍。增長的網(wǎng)絡(luò)訪問(針 對有線和無線網(wǎng)絡(luò))的可用性和帶寬使得更多計算平臺用于數(shù)字內(nèi)容消費和共享,諸如由 智能電話錄制體育視頻并且在社交聯(lián)網(wǎng)平臺上共享體育視頻的視頻精彩部分。體育視頻的 視頻精彩部分是體育視頻的一部分并且表示體育視頻中捕獲的語義上重要的事件,例如, 捕獲足球比賽視頻片段中進球或射門的短視頻剪輯(clip)??紤]到體育視頻的復雜時空性 質(zhì),從長視頻剪輯中高效定位并選擇視頻精彩部分是耗時的并且在技術(shù)上具有挑戰(zhàn)的。例 如,足球比賽的90分鐘長視頻剪輯可以包含捕獲三個進球事件的三個精彩部分,其中每個 精彩部分可能僅持續(xù)10-20秒。
      [0003] 視頻精彩部分檢測的某些傳統(tǒng)解決方案依靠某些領(lǐng)域知識,其僅適用于特定類型 的體育運動,例如,在精彩部分檢測之前將體育視頻分類成足球或籃球。備選地,某些現(xiàn)有 解決方案使用圖像分析技術(shù)來檢測體育視頻中捕獲的精彩部分,例如,使用體育視頻中基 于顏色的視覺特征來追蹤網(wǎng)球視頻中的選手和網(wǎng)球。然而,考慮到體育視頻的復雜時空性 質(zhì)和由與體育視頻相關(guān)聯(lián)的音頻數(shù)據(jù)承載的豐富語義信息,基于視覺線索而不有效利用音 頻數(shù)據(jù)的精彩部分檢測難于高效和有效。

      【發(fā)明內(nèi)容】

      [0004] 本發(fā)明的各實施例提供了一種用于基于與體育視頻相關(guān)聯(lián)的音頻流中識別的語 音模式來檢測體育視頻的視頻精彩部分的解決方案。體育視頻的視頻精彩部分是體育視頻 的一部分并且表示體育視頻中捕獲的語義上重要的事件。
      [0005] -種用于檢測體育視頻的一個或多個視頻精彩部分的計算機實現(xiàn)的方法包括如 下步驟:評估與體育視頻相關(guān)聯(lián)的音頻流,例如,音頻流各部分的響度和響度長度,以及基 于對音頻流的評估來選擇體育視頻的視頻片段。每個選擇的視頻片段表示視頻精彩部分候 選。所述步驟進一步包括使用經(jīng)訓練的音頻分離模型來識別與每個選擇的視頻片段相關(guān)聯(lián) 的音頻流中的語音模式,并且基于所識別的語音模式與期望的語音模式集的比較來選擇一 個或多個視頻片段作為體育視頻的視頻精彩部分。選擇的視頻精彩部分可以被排名并且通 過用戶友好方式呈現(xiàn)以用于在社交聯(lián)網(wǎng)平臺上共享。
      [0006] 另一方面提供了存儲有可執(zhí)行計算機程序指令的非瞬態(tài)計算機可讀存儲介質(zhì),如 上文所述用于基于與體育視頻相關(guān)聯(lián)的音頻流中識別的語音模式來檢測體育視頻的一個 或多個視頻精彩部分。在本說明書中的特征和優(yōu)點并非是包括一切的,并且特別是鑒于附 圖、說明書和權(quán)利要求,許多附加的特征和優(yōu)點對于本領(lǐng)域技術(shù)人員將是明顯的。此外,應 當注意,在說明書中使用的語言已經(jīng)主要為了可讀性和教導的目的而被選擇,并且可能未 被選擇為描繪或限制所公開的主題。
      【附圖說明】
      [0007] 圖1是根據(jù)一個實施例的用于檢測體育視頻中的視頻精彩部分的計算環(huán)境的框 圖。
      [0008] 圖2是圖示了根據(jù)一個實施例的用于作為客戶端設(shè)備和/或計算機服務(wù)器以提供 基于音頻的視頻精彩部分檢測服務(wù)的計算機示例的框圖。
      [0009] 圖3是根據(jù)一個實施例的視頻精彩部分檢測模塊的框圖。
      [0010] 圖4是根據(jù)一個實施例的檢測模塊的框圖。
      [0011] 圖5是根據(jù)一個實施例的具有兩個視頻片段的體育視頻的示例。
      [0012] 圖6是根據(jù)一個實施例的包含基于音頻數(shù)據(jù)分析選擇的四個視頻片段的桌球(也 被稱為"兵乓球")視頻的示例。
      [0013] 圖7示出了根據(jù)一個實施例的從圖6所示乒乓球視頻的視頻片段中選擇的示例性 視頻精彩部分。
      [0014] 圖8是圖示了根據(jù)一個實施例的用于檢測體育視頻中的視頻精彩部分的過程的示 例性流程圖。
      [0015] 圖9是根據(jù)一個實施例的用于呈現(xiàn)從體育視頻中選擇的視頻精彩部分的示例性圖 形用戶接口。
      [0016] 圖10是根據(jù)一個實施例的用于提供呈現(xiàn)體育視頻的視頻精彩部分的用戶控制的 示例性圖形用戶接口。
      [0017] 圖11是根據(jù)一個實施例的用于在各社交聯(lián)網(wǎng)平臺上共享體育視頻的視頻精彩部 分的示例性用戶接口。
      [0018] 附圖僅為了說明的目的描繪本發(fā)明的各種實施例。本領(lǐng)域技術(shù)人員從以下討論中 將容易認識到,在不背離本文所描述的本發(fā)明的原理的情況下,本文所圖示的結(jié)構(gòu)和方法 的備選實施例可以被采用。
      【具體實施方式】
      [0019] 系統(tǒng)概述
      [0020] 一種解決方案被提供用于使用與體育視頻相關(guān)聯(lián)的音頻數(shù)據(jù)的語音識別來檢測 體育視頻中的視頻精彩部分(highlight)。該解決方案的基于音頻的視頻精彩部分檢測服 務(wù)分析與體育視頻相關(guān)聯(lián)的音頻數(shù)據(jù),基于音頻數(shù)據(jù)的分析來標識體育視頻的視頻片段并 且檢測所標識視頻片段中的視頻精彩部分。經(jīng)檢測的視頻精彩部分通過用戶友好方式被提 供給用戶用于在各社交聯(lián)網(wǎng)平臺(例如,F(xiàn)ACEB00K?、TWITTER?、YOUTUBE?和INSTAGRAM?)上 共享。
      [0021] 圖1是根據(jù)一個實施例的用于檢測體育視頻中視頻精彩部分的計算環(huán)境100的框 圖。圖1中所示的實施例包括多個客戶端設(shè)備110(例如,110A、110B和110C)和基于音頻的視 頻精彩部分檢測服務(wù)130,彼此通過網(wǎng)絡(luò)120連接。計算環(huán)境100的實施例可以具有連接到網(wǎng) 絡(luò)120的許多客戶端設(shè)備110和視頻精彩部分檢測服務(wù)130。同樣,在不同實施例中,由圖1的 各實體執(zhí)行的功能可以不同。
      [0022] 客戶端設(shè)備110是用戶用于執(zhí)行如下功能的電子設(shè)備,諸如錄制體育視頻、消費數(shù) 字內(nèi)容、執(zhí)行軟件應用、瀏覽由web服務(wù)器在網(wǎng)絡(luò)120上主控的網(wǎng)站、下載文件等。例如,客戶 端設(shè)備110可以是智能電話、或平板、筆記本、或者臺式計算機??蛻舳嗽O(shè)備110包括其上用 戶可以觀看視頻和其他內(nèi)容的顯示器設(shè)備和/或與所述顯示器設(shè)備對接。另外,客戶端設(shè)備 110提供了用戶接口(UI),諸如物理和/或屏幕上按鈕,通過該用戶接口用戶可以與客戶端 設(shè)備110交互以執(zhí)行如下功能,諸如觀看、選擇和消費諸如體育視頻的視頻精彩部分的數(shù)字 內(nèi)容。
      [0023] 圖1的實施例中所示的基于音頻的視頻精彩部分檢測服務(wù)130包括用于存儲各體 育類型(例如,美式足球、足球、桌球/乒乓球、網(wǎng)球和籃球)的體育視頻的大型視頻語料庫的 離線數(shù)據(jù)庫132,用于存儲由客戶端設(shè)備110捕獲的視頻的視頻數(shù)據(jù)庫134、音頻分類模塊 136和視頻精彩部分檢測模塊138。基于音頻的視頻精彩部分檢測服務(wù)130的其他實施例可 以具有附加和/或不同模塊。
      [0024] 音頻分類模塊136使用離線數(shù)據(jù)庫132中存儲的體育視頻來訓練音頻分類模塊。經(jīng) 訓練的音頻分類模塊將體育視頻的音頻數(shù)據(jù)(例如,聲軌)分類成精彩部分音頻數(shù)據(jù)或非精 彩部分音頻數(shù)據(jù)。與體育視頻相關(guān)聯(lián)的音頻數(shù)據(jù)承載指示體育視頻中捕獲的整個體育比賽 的情境中特定進程(play)的重要性的有用語義信息。例如,人群大聲歡呼、評論員的興奮大 聲喝彩可能是體育比賽期間令人興奮的事件(例如,足球比賽中的進球)的指示符。
      [0025] 在一個實施例中,離線數(shù)據(jù)庫132中存儲的體育視頻為音頻分類模塊136提供了訓 練集。該訓練集中的每個體育視頻具有預定義聲音模式中的至少一個,諸如針對詞語"Yeah (耶)"、"Whoa(哇)"、"Yes(好)"的聲音和針對大聲鼓掌的聲音。訓練集中的體育視頻被用作 地面實況(ground truth)以了解一個或多個參數(shù)用于供視頻精彩部分檢測模塊138檢測體 育視頻中的視頻精彩部分。
      [0026] 在一個實施例中,音頻分類模塊136從離線數(shù)據(jù)庫132中存儲的體育視頻的聲軌中 提取一個或多個音頻特征。從聲軌中提取的音頻特征示例包括頻域中的音頻特征,諸如聲 軌的振幅譜上計算的譜特征、聲軌的美爾倒譜系數(shù)(MFCC)、聲軌的譜帶寬和譜平坦度測量、 譜波動、極值頻率和聲軌的安靜頻率。
      [0027] 從體育視頻的聲軌中提取的音頻特征還可以包括時域中的音頻特征,諸如聲軌的 紋理窗口上特征向量的協(xié)方差矩陣和平均標準差。音頻分類模塊136的其他實施例可以包 括從體育視頻的聲軌中提取的附加和/或不同音頻特征,諸如一段時間之后聲軌的音量變 化以及如果聲軌被壓縮該聲軌的壓縮格式。
      [0028] 音頻分類模塊136使用體育視頻的聲軌中提取的音頻特征來使用一個或多個機器 學習技術(shù)訓練音頻分類模型。機器學習技術(shù)包括但不限于神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯、支持向量 機和Hive框架中使用的機器學習。在一個實施例中,從提取的音頻特征,音頻分類模塊136 了解到針對每個預定聲音模式的區(qū)別特征,諸如體育比賽的情境中詞語"Yeah"、"Whoa"、 "Yes"的聲音以及大聲鼓掌的聲音。音頻分類模塊136向視頻精彩部分檢測模塊138提供經(jīng) 訓練的模型以將與客戶端設(shè)備110實時捕獲的體育視頻相關(guān)聯(lián)的所述音頻數(shù)據(jù)分類。
      [0029] 視頻精彩部分檢測模塊138使用經(jīng)訓練的音頻分類模型分析體育視頻的聲軌。在 一個實施例中,體育視頻具有與該體育視頻相關(guān)聯(lián)的聲軌和多個視頻幀;視頻片段對應于 體育視頻的一部分。與體育視頻相關(guān)聯(lián)的聲軌包含來自體育比賽本身的聲音,諸如乒乓球 比賽中乒乓球擊在乒乓球臺表面上的聲音、由運動員發(fā)出的聲音、來自評論員的激動表現(xiàn) 和來自觀眾的大聲歡呼。視頻精彩部分檢測模塊138使用經(jīng)訓練的音頻分類模型將體育視 頻的聲軌的聲音分類成精彩部分聲音和非精彩部分聲音。體育視頻的聲軌的精彩部分聲音 應當對應于匹配一個或多個預定義聲音模式的聲音,諸如體育比賽的情境中詞語"Yeah"、 "Whoa"、"Yes"的聲音以及大聲鼓掌的聲音。體育視頻的聲軌的非精彩部分聲音表示不匹配 任意預定義聲音模式的聲音,并且因此對視頻精彩部分檢測具有最小意義,例如,體育視頻 的背景噪聲。
      [0030] 視頻精彩部分檢測模塊138基于與體育視頻相關(guān)聯(lián)的聲軌的分析從體育視頻選擇 一個或多個視頻片段。與所標識的精彩部分聲音相關(guān)聯(lián)的視頻片段表示體育視頻的潛在視 頻精彩部分。例如,選擇的視頻片段具有指示選擇的視頻片段對應于整個體育視頻的情境 中視頻精彩部分的期望的音頻特征中的至少一個。視頻精彩部分檢測模塊138對體育視頻 的多個視頻精彩部分進行排名并且向客戶端110呈現(xiàn)視頻精彩部分以用于在各社交聯(lián)網(wǎng)平 臺上共享。視頻精彩部分檢測模塊138的細節(jié)參考圖3至圖11的描述進一步來提供。
      [0031] 網(wǎng)絡(luò)120支持客戶端設(shè)備110與基于音頻的視頻精彩部分檢測服務(wù)130之間的通 信。在一個實施例中,網(wǎng)絡(luò)120包括因特網(wǎng)并且使用標準通信技術(shù)和/或協(xié)議。在另一實施例 中,實體可以使用定制和/或?qū)S脭?shù)據(jù)通信技術(shù)。
      [0032] 計算系統(tǒng)架構(gòu)
      [0033]使用一個或多個計算機來實現(xiàn)圖1中所示的實體。圖2是根據(jù)一個實施例用于作為 基于音頻的視頻精彩部分檢測服務(wù)130和/或客戶端設(shè)備110的計算機200的高級框圖。圖示 的是耦合至芯片組204的至少一個處理器202。還耦合至芯片組204的是存儲器206、存儲設(shè) 備208、鍵盤210、圖形適配器212、指向設(shè)備214和網(wǎng)絡(luò)適配器216。顯示器218被耦合至圖形 適配器212。在一個實施例中,芯片組204的功能由存儲器控制器集線器220和I/O控制器集 線器222提供。在另一實施例中,存儲器206被直接地耦合至處理器202而非芯片組204。
      [0034] 存儲設(shè)備208是任意非瞬態(tài)計算機可讀存儲介質(zhì),諸如硬盤驅(qū)動器、緊湊磁盤只讀 存儲器(CD-ROM)、DVD或者固態(tài)存儲器設(shè)備。存儲器206持有由處理器202使用的指令和數(shù) 據(jù)。指向設(shè)備214可以是鼠標、軌跡球或其他類型的指向設(shè)備,并且與鍵盤210-起用于將數(shù) 據(jù)輸入到計算機系統(tǒng)200中。圖形適配器212在顯示器218上顯示圖像和其他信息。網(wǎng)絡(luò)適配 器216將計算機系統(tǒng)200耦合至網(wǎng)絡(luò)150。
      [0035] 如現(xiàn)有技術(shù)中公知的,計算機200可以具有與圖2中所示的那些部件不同的和/或 其他的部件。此外,計算機200可以缺少某些圖示的部件。例如,充當推薦服務(wù)140的計算機 可以由鏈接在一起成為一個或多個分布式系統(tǒng)的多個刀片服務(wù)器組成,并且缺少諸如鍵盤 和顯示器等的部件。此外,存儲設(shè)備208可以是計算機200本地的和/或遠離計算機200(諸如 體現(xiàn)在存儲區(qū)域網(wǎng)絡(luò)(SAN)內(nèi))。
      [0036] 如現(xiàn)有技術(shù)中公知的,計算機200被適配為執(zhí)行用于提供在此描述的功能的計算 機程序模塊。如在此使用的,術(shù)語"模塊"指代用于提供指定的功能的計算機程序邏輯。因 此,模塊可以被實現(xiàn)在硬件、固件和/或軟件中。在一個實施例中,程序模塊被存儲在存儲設(shè) 備208上、被加載到存儲器206中以及由處理器202執(zhí)行。
      [0037] 基于音頻的視頻精彩部分檢測
      [0038]視頻精彩部分檢測模塊138使用經(jīng)訓練的音頻分類模型來分析體育視頻的聲軌并 且基于體育視頻的聲軌的分析從體育視頻選擇一個或多個視頻精彩部分。圖3是根據(jù)一個 實施例的視頻精彩部分檢測模塊138的框圖。在圖3所示的實施例中,視頻精彩部分檢測模 塊138具有聲軌模塊310、檢測模塊320、排名模塊330和呈現(xiàn)模塊340。視頻精彩部分檢測模 塊138的其他實施例可以包括附加和/或其他實體。同樣,由圖3的各實體執(zhí)行的功能可以在 不同實施例中不同。
      [0039] 聲軌模塊310分析體育視頻的聲軌并且選擇其音頻數(shù)據(jù)具有期望的音頻特征(例 如,響度和響度長度)的一個或多個視頻片段。在一個實施例中,聲軌模塊310根據(jù)聲軌的平 均功率和聲軌的有效連續(xù)功率長度測量體育視頻的聲軌的響度。注意,人類聽覺系統(tǒng)在 600-1000ms間隔上對聲壓級的影響平均化,其中聲壓級指示聲音的功率。例如,隨著持續(xù)時 間20、50、100和200ms的采樣被聽到,恒定聲壓級的聲音被感知為在響度上增加,直到大約1 秒的持續(xù)時間在某點對響度的感知穩(wěn)定化。
      [0040] 在一個實施例中,聲軌模塊310從體育視頻提取音頻流,其中音頻流對應于體育視 頻的聲軌。聲軌模塊310對聲軌的音頻信號下采樣,并且向音頻信號的每個處理單位(例如, 1秒)應用快速傅里葉變換(FFT)以每1秒生成包含F(xiàn)FT系數(shù)的量級的頻譜矢量。生成的頻譜 可以由聲軌模塊310使用基于美爾標度分發(fā)的濾波器組進行濾波。以下等式定義了音頻信 號在時域中的快速傅里葉變換:
      [0042] 其中k = 0,…,N_l;x(j)是處理單位內(nèi)(例如,1秒)時間索引j處的米樣并且i是虛 數(shù)#laX(k)是在與從信號的分解產(chǎn)生的正弦波的振幅對應的頻率索引k的N值的向量。處 理單位內(nèi)信號的功率頻譜(其被用作響度的測量)被定義為:
      [0044] 聲軌模塊310計算針對聲軌的音頻信號的每個處理單位(例如,1秒)的聲軌的平均 功率。聲軌模塊310將聲軌的平均功率與預定義聲音功率閾值N進行比較。響應于對應聲軌 的平均功率大于閾值N,聲軌模塊310監(jiān)測聲軌的持續(xù)時間。響應于對應聲軌的平均功率的 持續(xù)時間持續(xù)得比長度閾值Ti?更長,聲軌模塊310選擇對應于所標識的聲軌的視頻幀。選 擇的視頻幀形成視頻片段,其表示體育視頻的潛在視頻精彩部分。
      [0045] 現(xiàn)在轉(zhuǎn)向圖5,圖5是根據(jù)一個實施例基于體育視頻的聲軌的分析具有兩個視頻片 段的體育視頻的示例。圖5中圖示的體育視頻具有總數(shù)n個幀,即,f(ti)至f(t n);每個視頻幀 具有對應的聲軌(圖5中未示出)和時間戳ti,i = 1,2,3,…n。聲軌模塊310提取與視頻幀相 關(guān)聯(lián)的音頻流并且將音頻流分成多個處理單位,例如,1秒。針對音頻流的音頻信號的每秒, 聲軌模塊310執(zhí)行快速傅里葉變換(FFT)并且計算功率作為響度測量。響應于音頻信號的響 度大于閾值N并且其持續(xù)時間長于長度閾值!^?,聲軌模塊310選擇對應視頻幀以形成表示 潛在視頻精彩部分的視頻片段。在圖5中圖示的示例中,聲軌模塊310選擇兩個視頻片段502 和504作為視頻精彩部分候選。視頻片段502包括幀f(t2)的一部分以及整個幀f(t3);視頻片 段502包括部分幀f(tn-〇以及整個幀f(tn)。
      [0046] 基于對應音頻數(shù)據(jù)而分析選擇的視頻片段表示體育視頻的潛在視頻精彩部分。假 設(shè)與體育視頻相關(guān)聯(lián)的聲軌包含來自體育比賽本身的聲音,諸如乒乓球比賽中乒乓球擊在 乒乓球臺表面上的聲音和由體育員發(fā)出的聲音,視頻精彩部分檢測模塊138進一步分析選 擇的視頻片段以檢測選擇的視頻片段中的視頻精彩部分。每個檢測的視頻精彩部分具有由 經(jīng)訓練的音頻分類模型識別為針對視頻精彩部分的聲音的語音模式中的至少一個,諸如針 對體育比賽的情境中詞語"Yeah"、"Whoa"、"Yes"的聲音以及大聲鼓掌的聲音。
      [0047] 返回參考圖3,視頻精彩部分檢測模塊138的檢測模塊320接收由聲軌模塊310選擇 的視頻片段,向與選擇的視頻片段相關(guān)聯(lián)的音頻數(shù)據(jù)應用經(jīng)訓練的音頻分類模型,并且基 于音頻數(shù)據(jù)的分析來檢測視頻精彩部分。在一個實施例中,檢測模塊320向每個選擇的視頻 片段的音頻數(shù)據(jù)應用經(jīng)訓練的音頻分類模型以識別一個或多個語音模式并且將音頻數(shù)據(jù) 與一系列預定義語音模式進行比較。基于與每個預定義語音模式的比較,檢測模塊320生成 針對每個視頻片段的三個精彩部分參數(shù):相似度得分、有效聲音長度和最大聲功率。檢測模 塊320分析所生成的參數(shù)并且基于參數(shù)的分析選擇一個或多個視頻片段作為視頻精彩部 分。
      [0048] 圖4是根據(jù)一個實施例的檢測模塊320的框圖。在圖4中圖示的實施例中,檢測模塊 320具有相似度模塊410、定時模塊420、聲功率模塊430和選擇模塊440。相似度模塊410計算 預定義語音模式集中每個語音模式和與視頻片段相關(guān)聯(lián)的音頻數(shù)據(jù)之間的相似度得分。在 一個實施例中,預定義語音模式集包括針對體育比賽的情境中詞語"Yeah"、"Whoa"、"Yes" 的聲音以及大聲鼓掌的聲音的語音模式,并且每個語音模式具有描述聲音的一個或多個音 頻特征。相似度得分由感興趣的音頻特征與(由音頻分類模塊136) 了解到的每個預定義語 音模式的區(qū)別特征之間的距離來測量。距離越大指示相似度得分越大。因此,與視頻片段相 關(guān)聯(lián)的音頻數(shù)據(jù)與預定義語音模式之間的相似度得分表示體育視頻的音頻數(shù)據(jù)的音頻特 征與預定義語音模式的音頻特征之間相似度的測量。
      [0049] 檢測模塊320的定時模塊420確定與視頻片段相關(guān)聯(lián)的音頻數(shù)據(jù)中識別的每個預 定義語音模式的有效長度。在一個實施例中,定時模塊420使用定時窗口來測量與視頻片段 相關(guān)聯(lián)的音頻數(shù)據(jù)中識別的預定義語音模式的長度,并且定時窗口的大小由數(shù)字時鐘的秒 數(shù)表示,例如,10秒。定時模塊420的其他實施例可以使用其他備選方式測量音頻數(shù)據(jù)的長 度。注意,在體育比賽期間觀察的短的大聲可能沒有長的大聲可靠用于指示視頻片段作為 體育視頻的視頻精彩部分的可能性。與視頻片段相關(guān)聯(lián)的音頻數(shù)據(jù)中識別的預定義語音模 式的有效長度可以由視頻精彩部分檢測模塊138用于對體育視頻的視頻精彩部分進行排 名。
      [0050]視頻片段可以持續(xù)某段時間(例如,多個定時窗口),并且與視頻片段相關(guān)聯(lián)的音 頻數(shù)據(jù)中識別的每個預定義語音模式的響度可以在不同定時窗口中變化。聲功率模塊430 選擇向視頻片段的音頻數(shù)據(jù)應用的任意定時窗口內(nèi)識別的語音模式的最大響度。在一個實 施例中,聲功率模塊430計算向視頻片段的音頻數(shù)據(jù)應用的每個定時窗口內(nèi)每個識別的語 音模式的平均功率,并且選擇向視頻片段的音頻數(shù)據(jù)應用的多個定時窗口中具有最大平均 功率的所識別的語音模式。與視頻片段相關(guān)聯(lián)的所識別語音模式的最大響度可以由視頻精 彩部分檢測模塊138用于對體育視頻的視頻精彩部分進行排名。
      [0051]選擇模塊440分析與每個視頻片段相關(guān)聯(lián)的精彩部分參數(shù)(例如,與視頻片段相關(guān) 聯(lián)的相似度得分、有效聲音長度和聲功率的最大值),并且響應于精彩部分參數(shù)滿足一個或 多個預定義的條件而選擇視頻片段作為視頻精彩部分。在一個實施例中,針對每個視頻片 段,選擇模塊440將針對語音模式的相似度得分與相似度閾值進行比較。相似度閾值表示與 針對有資格作為視頻精彩部分的視頻片段的所識別語音模式相關(guān)聯(lián)的最小相似度程度。響 應于針對每個所識別語音模式的相似度得分均沒有超過相似度閾值,視頻片段不被選擇為 體育視頻的視頻精彩部分。例如,如果與視頻片段相關(guān)聯(lián)的音頻數(shù)據(jù)與詞語"Yeah"、 "Whoa"、"Yes"的聲音以及大聲鼓掌的聲音中的任何聲音不相似,則視頻片段不被選擇為體 育視頻的視頻精彩部分。在另一方面,響應于針對語音模式的至少一個相似度得分超過相 似度閾值,視頻片段被選擇為體育視頻的視頻精彩部分。
      [0052]為了進一步圖示檢測模塊320的各模塊的操作,預定義語音模式的集合由參數(shù)集 表示,其中#[0州,并且~表示預定義語音模式的總數(shù)。針對每個視頻片段¥1,相似度 模塊410針對每個預定義語音模式j(luò)計算相似度得分自f。定時模塊420測量每個視頻片段Vi 的每個識別語音模式的有效長度,并且選擇具有最長持續(xù)時間的所識別語音模式的有效長 度用于由參數(shù)^表示視頻片段的有效聲音長度。在向視頻片段%的音頻數(shù)據(jù)應用的每個定 時窗口內(nèi),聲功率模塊430計算平均聲功率P(Vi),并且在與視頻片段Vi的音頻數(shù)據(jù)中識別的 預定義語音模式相關(guān)聯(lián)的平均聲功率P(V0中選擇最大聲功率ma^P^))以用于表示視頻 片段的聲功率。選擇模塊440將每個相似度得分髮與相似度閾值0S進行比較,該相似度閾值 1表示視頻片段有資格作為視頻精彩部分所需的最小相似度。響應于每個相似度得分沒有 超過相似度閾值,即,視頻片段沒有被選擇為體育視頻的視頻精彩部分。由選 擇模塊440選擇作為視頻精彩部分的視頻片段被分組成新的集合0 {1}。
      [0053]圖6是根據(jù)一個實施例包含基于音頻數(shù)據(jù)分析選擇的四個視頻片段的乒乓球視頻 的示例。出于圖示的目的,圖6中圖示的乒乓球視頻的視頻幀被呈現(xiàn)在三個行(610V、620V和 630V)中,其中每行具有多個視頻幀。乒乓球視頻的每個視頻幀具有對應的音頻數(shù)據(jù)。例如, 針對行610V中的視頻幀,在行610A中根據(jù)音頻頻率示出了相關(guān)聯(lián)的音頻數(shù)據(jù)。類似地,行 620A中示出了與行620V中的視頻幀相關(guān)聯(lián)的對應的音頻數(shù)據(jù);行630A中示出了與行630V中 的視頻幀相關(guān)聯(lián)的對應的音頻數(shù)據(jù)。
      [0054]聲軌模塊310分析與視頻幀(610V、620V和630V中所示)相關(guān)聯(lián)的音頻數(shù)據(jù),并且基 于音頻數(shù)據(jù)分析選擇四個視頻片段602、604、606和608。每個選擇的視頻片段具有一個或多 個視頻幀,并且每個選擇的視頻片段的音頻數(shù)據(jù)的評估功率大于預定義聲功率閾值N并且 選擇的視頻片段的音頻數(shù)據(jù)的長度大于閾值T len。四個選擇的視頻片段602、604、606和608 中的每個視頻片段表示乒乓球比賽視頻的潛在視頻精彩部分。
      [0055]檢測模塊320進一步分析由聲軌模塊310選擇的視頻片段并且確定哪個視頻片段 有視頻精彩部分的資格。在一個實施例中,檢測模塊320生成預定義語音模式和與視頻片段 相關(guān)聯(lián)的音頻數(shù)據(jù)之間的相似度得分。例如,預定義語音模式集包括詞語"Yeah"、"Whoa"、 "Yes"的聲音以及大聲鼓掌的聲音。檢測模塊320生成針對視頻片段的四個相似度得分,每 個相似度得分與預定義語音模式集中的預定義語音模式相關(guān)聯(lián)。響應于針對視頻片段的相 似度得分中的至少一個超過相似度閾值,檢測模塊320選擇該視頻片段作為視頻精彩部分。 檢測模塊320還計算音頻數(shù)據(jù)的長度以及針對有資格作為用于進一步處理的視頻精彩部分 的視頻片段的音頻數(shù)據(jù)的最大聲功率。
      [0056] 圖7示出了根據(jù)一個實施例的從圖6所示乒乓球視頻的視頻片段中選擇的示例性 視頻精彩部分。在由聲軌模塊310選擇的四個視頻片段中,檢測模塊320基于與每個選擇的 視頻片段相關(guān)聯(lián)的相似度得分來選擇視頻片段702、視頻片段704和視頻片段708作為乒乓 球視頻的視頻精彩部分。每個選擇的視頻精彩部分具有一個或多個視頻幀和對應的視頻數(shù) 據(jù)。以視頻精彩部分702為例,視頻精彩部分702具有一個或多個視頻幀702V和對應的視頻 數(shù)據(jù)702A。視頻片段706不被選擇,因為與視頻片段706相關(guān)聯(lián)的音頻數(shù)據(jù)不具有與體育比 賽的情境中的特定事件相關(guān)聯(lián)的預定義語音模式中的至少一個相似的聲音,例如,使用詞 語"Yeah"、"Whoa"、"Yes"或大聲鼓掌的大聲歡呼。
      [0057] 體育視頻可以包含不止一個視頻精彩部分。為了以用戶友好的方式呈現(xiàn)視頻精彩 部分,視頻精彩部分檢測模塊138可以對體育視頻的多個視頻精彩部分進行排名并且以根 據(jù)視頻精彩部分的排名的順序呈現(xiàn)視頻精彩部分。返回參考圖3,視頻精彩部分檢測模塊 138具有排名模塊330,其用于對與體育視頻相關(guān)聯(lián)的多個視頻精彩部分進行排名。在一個 實施例中,排名模塊330通過正規(guī)化(normalize)與視頻精彩部分相關(guān)聯(lián)的精彩部分參數(shù)并 且基于與每個視頻精彩部分相關(guān)聯(lián)的正規(guī)化的精彩部分參數(shù)的總和將視頻精彩部分排序 來對視頻精彩部分進行排名。
      [0058]在一個實施例中,排名模塊330正規(guī)化與體育視頻的視頻精彩部分相關(guān)聯(lián)的相似 度得分。假設(shè)體育視頻的視頻精彩部分由^^丨表示并且針對預定義語音模式的集合以^的 體育視頻的視頻精彩部分相似度得分由#/、表示,排名模塊330針對集合以^中的所有 預定義語音模式正規(guī)化相似度得分考以生成正規(guī)化的相似度得分深微釋ft。在針對視 頻精彩部分的正規(guī)化的相似度得分中,排名模塊330選擇最大值作為最終相似度得分 分其中#沉):=排名模塊330如下文等式(1)中向最終相似度得分 辦€1應用預定義加權(quán)因子&以生成針對體育視頻的視頻精彩部分0(1}的剩余部分的正規(guī) 化的相似度得分:
      (1)
      [0060]排名模塊330正規(guī)化與體育視頻的視頻精彩部分相關(guān)聯(lián)的有效聲音長度。假設(shè)視 頻精彩部分Vi的有效聲音長度由參數(shù)《|表示,排名模塊330如下文等式(2)中向與視頻精彩 部分1相關(guān)聯(lián)的有效聲音長度^應用預定義的加權(quán)因子y2以生成針對體育視頻的視頻精彩 部分^^丨的剩余部分的正規(guī)化的有效聲音長度:
      (2)
      [0062]排名模塊330進一步正規(guī)化與體育視頻的視頻精彩部分相關(guān)聯(lián)的聲功率。假設(shè)視 頻精彩部分Vi的聲功率由參數(shù)P( Vi)表示,排名模塊330如下文等式(3)中向與視頻精彩部分 vdS關(guān)聯(lián)的聲功率PWd應用預定義的加權(quán)因子y3以生成針對體育視頻的視頻精彩部分0 {^丨的剩余部分的正規(guī)化的聲功率:
      (3)
      [0064]排名模塊330如下文等式(4)中計算與體育視頻的每個視頻精彩部分相關(guān)聯(lián)的正 規(guī)化的精彩部分參數(shù)的總和:
      (4)
      [0066] 其中l(wèi)eeivd .。排名模塊330基于與每個視頻精彩部分相關(guān)聯(lián)的正規(guī)化的精彩部 分參數(shù)的總和將視頻精彩部分排序。
      [0067] 返回參考圖7中圖示的示例,聲軌模塊310基于與四個視頻片段相關(guān)聯(lián)的音頻數(shù)據(jù) 的平均聲功率和聲音長度選擇四個視頻片段¥1(702)、72(704)、¥3(706)和¥4(708)。檢測模 塊320將視頻片段V1、V2和V4選擇作為乒乓球視頻的視頻精彩部分。排名模塊330根據(jù)基于 上文所述的正規(guī)化的精彩部分參數(shù)的排序?qū)σ曨l精彩部分進行排名,例如,根據(jù)該排名順 序而為V2、V4和VI。
      [0068] 視頻精彩部分檢測模塊138的呈現(xiàn)模塊340以用戶友好的方式向基于音頻的視頻 精彩部分檢測服務(wù)130的用戶呈現(xiàn)體育視頻的視頻精彩部分。在一個示例中,呈現(xiàn)模塊340 在用戶的客戶端110的顯示器上的圖形用戶接口中呈現(xiàn)體育視頻的視頻精彩部分。圖形用 戶接口具有顯示器區(qū)域以用于示出選擇的視頻精彩部分、手動選擇工具用于選擇視頻精彩 部分、顯示器區(qū)域用于顯示體育視頻的多個部分的縮略圖像。用戶能夠預覽視頻精彩部分, 選擇針對視頻精彩部分的主題(theme)和標志(logo)并且在各社交聯(lián)網(wǎng)平臺上與其他用戶 共享所述視頻精彩部分。
      [0069] 圖9是根據(jù)一個實施例用于呈現(xiàn)從體育視頻中選擇的視頻精彩部分的示例性圖形 用戶接口 900。體育視頻920被呈現(xiàn)有表示體育視頻920的各部分的多個縮略圖像920a-920h。體育視頻920的定時信息由定時線930示出。用戶可以通過點擊縮略圖像(例如,920a) 來手動選擇用于回放的體育視頻的一部分。在圖9中圖示的示例中,體育視頻920具有三個 視頻精彩部分902、904和906,其中每個視頻精彩部分持續(xù)10秒。用戶可以在選擇一個視頻 精彩部分以用于顯示之前預覽該視頻精彩部分。視頻精彩部分902當前被選擇并且顯示在 顯示器區(qū)域910中。
      [0070]除了友好地呈現(xiàn)體育視頻的視頻精彩部分之外,呈現(xiàn)模塊340還為用戶提供工具 用于定制視頻精彩部分的外觀感覺(look-and-feel)。圖10是根據(jù)一個實施例的用于提供 呈現(xiàn)體育視頻的視頻精彩部分的用戶控制的示例性圖形用戶接口。例如,視頻精彩部分 1010可以以慢動作模式1012呈現(xiàn)。用戶可以通過從可用主題1004列表選擇主題來控制視頻 精彩部分的外觀感覺。針對不同類型的體育運動(例如,籃球、足球、滑雪等),用戶可以從體 育運動符號的列表1006中選擇符號(例如,符號1008)以用于呈現(xiàn)足球比賽。針對將要在用 戶客戶端(例如,智能電話)的顯示器上呈現(xiàn)的視頻精彩部分,用戶可以從呈現(xiàn)模塊340提供 的對應工具1002調(diào)整文本格式、音量、視覺焦點和感興趣的運動員。
      [0071]視頻精彩部分檢測模塊138的呈現(xiàn)模塊340還為用戶呈現(xiàn)去往各社交聯(lián)網(wǎng)平臺的 鏈接以用于共享體育視頻的視頻精彩部分。圖11是根據(jù)一個實施例的用于在各社交聯(lián)網(wǎng)平 臺上共享體育視頻的視頻精彩部分的示例性用戶接口。將要共享的視頻精彩部分1102當前 被顯示在顯示器區(qū)域。用戶可以選擇添加某些語音評論1104以及選擇與視頻精彩部分1102 相關(guān)聯(lián)的哪些細節(jié)進行共享,例如,隊1106或事件1108。呈現(xiàn)模塊340提供去往由基于音頻 的視頻精彩部分檢測服務(wù)130支持的每個社交聯(lián)網(wǎng)平臺(例如,F(xiàn)ACEBOOK?、INSTAGRAM?、 TWITTER?和YOUTUBE?)的連接。一旦用戶準備好在選擇的社交平臺上共享視頻精彩部分 1102,用戶就點擊"張貼(post)"按鈕1114以張貼視頻精彩部分1102及其相關(guān)聯(lián)的信息;用 戶還具有用于返回到先前配置階段的選項(例如,按鈕1112),例如圖10和圖11中圖示的示 例用于調(diào)整呈現(xiàn)細節(jié)。
      [0072] 圖8是圖示了根據(jù)一個實施例的用于檢測體育視頻中的視頻精彩部分的過程的示 例性流程圖。最初,如圖1中圖示的基于音頻的視頻精彩部分檢測服務(wù)130的視頻精彩部分 檢測模塊138提取體育視頻的聲軌并且基于具有期望的聲功率的聲軌的長度和聲軌的平均 聲功率來評估810聲軌?;诼曑壴u估,視頻精彩部分檢測模塊138選擇820-個或多個視頻 片段作為體育視頻的潛在視頻精彩部分。
      [0073] 針對每個選擇的視頻片段,視頻精彩部分檢測模塊138向與視頻片段相關(guān)聯(lián)的音 頻數(shù)據(jù)應用830經(jīng)訓練的音頻分類模型。經(jīng)訓練的音頻分類模型的應用使得視頻精彩部分 檢測模塊138能夠識別840-個或多個預定義語音模式,諸如體育視頻中針對詞語"Yeah"、 "Whoa"、"Yes"的聲音和針對大聲鼓掌的聲音。針對每個視頻片段,視頻精彩部分檢測模塊 138針對每個識別的語音模式生成850多個視頻精彩部分參數(shù),例如,相似度得分、有效聲音 長度和聲功率。
      [0074] 視頻精彩部分檢測模塊138基于對與視頻片段相關(guān)聯(lián)的視頻精彩部分參數(shù)的分析 來選擇860-個或多個視頻片段作為體育視頻的視頻精彩部分。例如,響應于針對至少一個 識別的語音模式的視頻片段的相似度得分超過預定義相似度閾值,視頻精彩部分檢測模塊 138選擇該視頻片段作為體育視頻的視頻精彩部分。視頻精彩部分檢測模塊138進一步通過 例如正規(guī)化針對所有識別語音模式的相似度得分、有效聲音長度和聲功率對體育視頻的視 頻精彩部分進行排名870。視頻精彩部分檢測模塊138以(諸如圖9至圖11所示的)用戶友好 的方式呈現(xiàn)880視頻精彩部分。
      [0075] _
      [0076] 為了說明的目的,已經(jīng)呈現(xiàn)了本發(fā)明的實施例的前述描述,其不旨在于是窮盡的 或者將本發(fā)明限制于所公開的精確形式。相關(guān)領(lǐng)域的技術(shù)人員能夠理解,鑒于以上公開許 多修改和變化是可能的。
      [0077]該描述的一些部分根據(jù)對信息操作的算法和符號表示來描述本發(fā)明的實施例。這 些算法描述和表示由數(shù)據(jù)處理領(lǐng)域的技術(shù)人員普遍用來向該領(lǐng)域其他技術(shù)人員有效地傳 達其工作的實質(zhì)。當這些操作被功能性地、計算性地或者邏輯性地描述時,被理解為由計算 機程序或者等效的電路、微代碼等實現(xiàn)。此外,也已經(jīng)證明在不失一般性的情況下有時將這 些操作的布置稱為模塊是方便的。描述的操作及其相關(guān)聯(lián)的模塊可以被體現(xiàn)在軟件、固件、 硬件或它們的組合中。
      [0078]在此描述的任何步驟、操作或過程可以利用一個或多個硬件或軟件模塊單獨或聯(lián) 合其他設(shè)備來被執(zhí)行或被實現(xiàn)。在一個實施例中,軟件模塊利用包括含有計算機程序代碼 的計算機可讀介質(zhì)的計算機程序產(chǎn)品而被實現(xiàn),該計算機程序代碼可以由計算機處理器執(zhí) 行,以用于執(zhí)行描述的任意或全部的步驟、操作或過程。
      [0079] 本發(fā)明的實施例還可以與用于執(zhí)行在此的操作的設(shè)備有關(guān)。該設(shè)備可以為了要求 的目的而具體地構(gòu)造,和/或其可以包括由存儲在計算機中的計算機程序選擇性地激活或 重新配置的通用計算設(shè)備。這樣的計算機程序可以被存儲在非瞬態(tài)有形計算機可讀存儲介 質(zhì)、或者適合于存儲電子指令的任意類型的介質(zhì)中,其可以被耦合至計算機系統(tǒng)總線。此 外,在本說明書中提及的任何計算系統(tǒng)可以包括單個處理器或者可以是采用用于增加的計 算能力的多處理器設(shè)計的架構(gòu)。
      [0080] 本發(fā)明的實施例還可以涉及由在此描述的計算過程生產(chǎn)的產(chǎn)品。這樣的產(chǎn)品可以 包括從計算過程產(chǎn)生的信息,其中該信息被存儲在非瞬態(tài)有形計算機可讀存儲介質(zhì)上并且 可以包括本文描述的計算機程序產(chǎn)品的任何實施例或者其他數(shù)據(jù)組合。
      [0081] 最后,在本說明書中使用的語言已經(jīng)主要為了可讀性和教導的目的而選擇,并且 其可能未被選擇為描繪或限制所公開的主題。因此,其意圖為本發(fā)明的范圍不由該詳細的 描述來限定,而由針對基于在此的應用的任何權(quán)利要求來限定。因此,本發(fā)明的實施例的公 開內(nèi)容旨在于是說明性的而非對本發(fā)明的范圍的限制,本發(fā)明的范圍在所附的權(quán)利要求中 被闡述。
      【主權(quán)項】
      1. 一種用于檢測體育視頻中的精彩部分的計算機實現(xiàn)的方法,包括: 評估與所述體育視頻相關(guān)聯(lián)的首頻流; 基于所述音頻流評估來選擇所述體育視頻的一個或多個視頻片段; 識別每個選擇的視頻片段中的多個語音模式;以及 基于選擇的所述視頻片段的所述語音模式識別來檢測所述體育視頻中的一個或多個 精彩部分。2. 根據(jù)權(quán)利要求1所述的方法,其中評估與所述體育視頻相關(guān)聯(lián)的所述音頻流包括: 確定在預定時間段上的所述音頻流的響度;以及 確定所述音頻流的所述響度的有效聲功率長度。3. 根據(jù)權(quán)利要求2所述的方法,其中確定所述音頻流的所述響度包括: 計算在所述預定時間段上的所述音頻流的平均功率。4. 根據(jù)權(quán)利要求2所述的方法,進一步包括: 將所述音頻流的所述響度與預定義響度閾值進行比較;以及 將所述響度的所述有效聲功率長度與預定義長度閾值進行比較。5. 根據(jù)權(quán)利要求1所述的方法,其中視頻片段對應于所述體育視頻的一部分,并且其中 基于所述音頻流評估來選擇一個或多個視頻片段包括: 響應于與所述視頻片段相關(guān)聯(lián)的所述音頻流的所述部分具有期望的音頻特征而選擇 所述視頻片段; 其中具有所述期望的音頻特征的所述音頻流的一部分具有比預定于響度閾值更大的 平均聲功率并且所述平均聲功率的長度持續(xù)得比預定義長度閾值更長。6. 根據(jù)權(quán)利要求5所述的方法,其中選擇的視頻片段表示針對所述體育視頻的精彩部 分候選。7. 根據(jù)權(quán)利要求1所述的方法,其中識別每個選擇的視頻片段中的多個語音模式包括: 向與所述視頻片段相關(guān)聯(lián)的所述音頻流的所述部分應用經(jīng)訓練的聲音分類模型; 基于所述經(jīng)訓練的聲音分類模型的所述應用生成針對預定義語音模式的集合的多個 精彩部分參數(shù),所述預定義語音模式中的每個預定義語音模式表示與所述體育視頻的精彩 部分相關(guān)聯(lián)的期望的音頻特征;以及 分析所生成的精彩部分參數(shù)。8. 根據(jù)權(quán)利要求7所述的方法,其中所述預定義語音模式集包括以下各項中的至少一 項: 針對詞語"Yeah"的聲音的語音模式; 針對詞語"Whoa"的聲音的語音模式; 針對詞語"Yes"的聲音的語音模式;以及 針對體育視頻的情境中的大聲鼓掌的語音模式。9. 根據(jù)權(quán)利要求7所述的方法,其中生成所述多個精彩部分參數(shù)包括: 生成與所述視頻片段的音頻特征相關(guān)聯(lián)的所述音頻流的所述部分的音頻特征與所述 預定義語音模式的集合中的每個語音模式之間的相似度得分; 生成所述視頻片段的有效聲音長度;以及 生成所述視頻片段的最大聲功率。10. 根據(jù)權(quán)利要求9所述的方法,進一步包括: 響應于與所述視頻片段相關(guān)聯(lián)的相似度得分超過相似度得分閾值而選擇所述視頻片 段,所述相似度得分閾值表示針對有資格作為所述體育視頻的精彩部分的所述視頻片段的 最小相似度程度。11. 根據(jù)權(quán)利要求1所述的方法,其中基于選擇的所述視頻片段的所述語音模式識別來 檢測所述體育視頻中的一個或多個精彩部分包括: 選擇具有與期望的語音模式中的至少一個期望的語音模式相似的音頻特征的視頻片 段,其中所述視頻片段的所述音頻特征與所述期望的語音模式的所述音頻特征之間的所述 相似度由所述視頻片段的所述音頻特征與所述期望的語音模式中的每個期望的語音模式 之間的相似度得分被呈現(xiàn)。12. 根據(jù)權(quán)利要求1所述的方法,進一步包括: 對所檢測到的所述體育視頻的精彩部分進行排名;以及 在圖形用戶接口中呈現(xiàn)所檢測到的所述體育視頻的精彩部分以用于在社交聯(lián)網(wǎng)平臺 中共享所檢測到的所述體育視頻的精彩部分。13. 根據(jù)權(quán)利要求12所述的方法,其中對所檢測到的所述體育視頻的精彩部分進行排 名包括: 正規(guī)化與所檢測到的精彩部分相關(guān)聯(lián)的精彩部分參數(shù),所述精彩部分參數(shù)基于在所檢 測到的精彩部分中識別的所述語音模式被生成;以及 基于與所檢測到的所述體育視頻的精彩部分相關(guān)聯(lián)的正規(guī)化的所述精彩部分參數(shù)對 所檢測到的精彩部分排序。14. 一種存儲有用于檢測體育視頻中的精彩部分的可執(zhí)行計算機程序指令的非瞬態(tài)計 算機可讀存儲介質(zhì),所述指令在由計算機處理器執(zhí)行時使得所述計算機處理器: 評估與所述體育視頻相關(guān)聯(lián)的首頻流; 基于所述音頻流評估來選擇所述體育視頻的一個或多個視頻片段; 識別每個選擇的視頻片段中的多個語音模式;以及 基于所述選擇的所述視頻片段的所述語音模式來識別檢測所述體育視頻中的一個或 多個精彩部分。15. 根據(jù)權(quán)利要求14所述的計算機可讀存儲介質(zhì),其中用于評估與所述體育視頻相關(guān) 聯(lián)的所述音頻流的指令包括在由所述計算機處理器執(zhí)行時使得所述計算機處理器進行如 下操作的指令: 確定在預定時間段上的所述音頻流的響度;以及 確定所述音頻流的所述響度的有效聲功率長度。16. 根據(jù)權(quán)利要求15所述的計算機可讀存儲介質(zhì),其中用于確定所述音頻流的所述響 度的指令包括在由所述計算機處理器執(zhí)行時使得所述計算機處理器進行如下操作的指令: 計算在所述預定時間段上的所述音頻流的平均功率。17. 根據(jù)權(quán)利要求15所述的計算機可讀存儲介質(zhì),進一步包括在由所述計算機處理器 執(zhí)行時使得所述計算機處理器進行如下操作的指令: 將所述音頻流的所述響度與預定義響度閾值進行比較;以及 將所述響度的所述有效聲功率長度與預定義長度閾值進行比較。18. 根據(jù)權(quán)利要求14所述的計算機可讀存儲介質(zhì),其中視頻片段對應于所述體育視頻 的一部分,并且其中用于基于所述音頻流評估來選擇一個或多個視頻片段的指令包括在由 所述計算機處理器執(zhí)行時使得所述計算機處理器進行如下操作的指令: 響應于與所述視頻片段相關(guān)聯(lián)的所述音頻流的所述部分具有期望的音頻特征而選擇 所述視頻片段; 其中具有所述期望的音頻特征的所述音頻流的一部分具有比預定義響度閾值更大的 平均聲功率并且所述平均聲功率的長度持續(xù)得比預定義長度閾值更長。19. 根據(jù)權(quán)利要求18所述的計算機可讀存儲介質(zhì),其中選擇的視頻片段表示針對所述 體育視頻的精彩部分候選。20. 根據(jù)權(quán)利要求14所述的計算機可讀存儲介質(zhì),其中用于識別每個選擇的視頻片段 中的多個語音模式的指令包括在由所述計算機處理器執(zhí)行時使得所述計算機處理器進行 如下操作的指令: 向與所述視頻片段相關(guān)聯(lián)的所述音頻流的所述部分應用經(jīng)訓練的聲音分類模型; 基于所述經(jīng)訓練的聲音分類模型的所述應用生成針對預定義語音模式的集合的多個 精彩部分參數(shù),所述預定義語音模式中的每個預定義語音模式表示與所述體育視頻的精彩 部分相關(guān)聯(lián)的期望的音頻特征;以及 分析所生成的精彩部分參數(shù)。21. 根據(jù)權(quán)利要求20所述的計算機可讀存儲介質(zhì),其中所述預定義語音模式集包括以 下各項中的至少一項: 針對詞語"Yeah"的聲音的語音模式; 針對詞語"Whoa"的聲音的語音模式; 針對詞語"Yes"的聲音的語音模式;以及 針對體育視頻的情境中的大聲鼓掌的語音模式。22. 根據(jù)權(quán)利要求20所述的計算機可讀存儲介質(zhì),其中用于生成所述多個精彩部分參 數(shù)的指令包括在由所述計算機處理器執(zhí)行時使得所述計算機處理器進行如下操作的指令: 生成與所述視頻片段的音頻特征相關(guān)聯(lián)的所述音頻流的所述部分的音頻特征與所述 預定義語音模式的集合中的每個語音模式之間的相似度得分; 生成所述視頻片段的有效聲音長度;以及 生成所述視頻片段的最大聲功率。23. 根據(jù)權(quán)利要求22所述的計算機可讀存儲介質(zhì),進一步包括在由所述計算機處理器 執(zhí)行時使得所述計算機處理器進行如下操作的指令: 響應于與所述視頻片段相關(guān)聯(lián)的相似度得分超過相似度得分閾值而選擇所述視頻片 段,所述相似度得分閾值表示針對有資格作為所述體育視頻的精彩部分的所述視頻片段的 最小相似度程度。24. 根據(jù)權(quán)利要求14所述的計算機可讀存儲介質(zhì),其中用于基于選擇的所述視頻片段 的所述語音模式識別來檢測所述體育視頻中的一個或多個精彩部分的指令包括在由所述 計算機處理器執(zhí)行時使得所述計算機處理器進行如下操作的指令: 選擇具有與期望的語音模式中的至少一個期望的語音模式相似的音頻特征的視頻片 段,其中所述視頻片段的所述音頻特征與所述期望的語音模式的所述音頻特征之間的所述 相似度由所述視頻片段的所述音頻特征與所期望的語音模式中的每個期望的語音模式之 間的相似度得分被呈現(xiàn)。25. 根據(jù)權(quán)利要求14所述的計算機可讀存儲介質(zhì),進一步包括在由所述計算機處理器 執(zhí)行時使得所述計算機處理器進行如下操作的指令: 對所檢測到的所述體育視頻的精彩部分進行排名;以及 在圖形用戶接口中呈現(xiàn)所檢測到的所述體育視頻的精彩部分以用于在社交聯(lián)網(wǎng)平臺 中共享所檢測到的所述體育視頻的精彩部分。26. 根據(jù)權(quán)利要求25所述的計算機可讀存儲介質(zhì),其中用于對所檢測到的所述體育視 頻的精彩部分進行排名的指令包括在由所述計算機處理器執(zhí)行時使得所述計算機處理器 進行如下操作的指令: 正規(guī)化與所檢測到的精彩部分相關(guān)聯(lián)的精彩部分參數(shù),所述精彩部分參數(shù)基于在所檢 測到的精彩部分中識別的所述語音模式被生成;以及 基于與所檢測到的所述體育視頻的精彩部分相關(guān)聯(lián)的正規(guī)化的所述精彩部分參數(shù)對 所檢測到的精彩部分排序。
      【文檔編號】G06F17/30GK105912560SQ201610100199
      【公開日】2016年8月31日
      【申請日】2016年2月23日
      【發(fā)明人】韓錚, 戴曉偉, 劉江宇
      【申請人】澤普實驗室公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1