国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于視頻標(biāo)題和內(nèi)容的視頻過濾方法和系統(tǒng)的制作方法

      文檔序號:6521565閱讀:268來源:國知局
      一種基于視頻標(biāo)題和內(nèi)容的視頻過濾方法和系統(tǒng)的制作方法
      【專利摘要】本發(fā)明公開了一種基于視頻標(biāo)題和內(nèi)容的視頻過濾方法和系統(tǒng),通過對視頻的標(biāo)題進(jìn)行拆詞,計(jì)算標(biāo)題的相似度和比較視頻流的相似度。并將標(biāo)題的相似度和視頻流的相似度作為組合條件進(jìn)行視頻過濾,達(dá)到視頻去重的效果。從而可以對相似度高的視頻新聞進(jìn)行有效過濾,最大限度的去掉一些類似的視頻新聞,讓用戶在有限時(shí)間內(nèi)觀看到的新聞都是當(dāng)日的頭條新聞,為用戶帶來更好的體驗(yàn)。
      【專利說明】一種基于視頻標(biāo)題和內(nèi)容的視頻過濾方法和系統(tǒng)
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及視頻比對【技術(shù)領(lǐng)域】,特別涉及一種基于視頻標(biāo)題和內(nèi)容的視頻過濾方法和系統(tǒng)。
      【背景技術(shù)】
      [0002]為了使用戶更快、更多、更準(zhǔn)確地獲取最新的新聞視頻內(nèi)容,如何抓取各大視頻網(wǎng)站最新的新聞并及時(shí)的推薦給用戶成為當(dāng)前的研究方向之一。
      [0003]但是這種從各大視頻網(wǎng)站聚合的新聞,內(nèi)容相似的非常多。比如:同樣是禽流感的新聞,可能存在多個(gè)新聞都是介紹禽流感的,用戶觀看起來就很乏味,因此,需要對抓取的視頻新聞進(jìn)行分析,對相似內(nèi)容進(jìn)行有效過濾。
      [0004]有鑒于此,現(xiàn)有技術(shù)還有待改進(jìn)和提高。

      【發(fā)明內(nèi)容】

      [0005]鑒于上述現(xiàn)有技術(shù)的不足之處,本發(fā)明的目的在于提供一種基于視頻標(biāo)題和內(nèi)容的視頻過濾方法和系統(tǒng),以解決現(xiàn)有各大視頻網(wǎng)站聚合的新聞視頻內(nèi)容重復(fù)率高,不利于向用戶推送的問題。
      [0006]為了達(dá)到上述目的,本發(fā)明采取了以下技術(shù)方案:
      一種基于視頻標(biāo)題和內(nèi)容的視頻過濾方法,其中,包括:
      獲取兩則視頻;
      比較兩則視頻的視頻標(biāo)題是否一樣,若是則過濾掉其中一則視頻,否則對兩則視頻的視頻標(biāo)題進(jìn)行拆詞處理;
      判斷拆詞后的視頻標(biāo)題的匹配度是否超過預(yù)先設(shè)定的匹配度閾值,若是則過濾掉其中一則視頻,否則比較兩則視頻的視頻內(nèi)容是否一致,若一致則過濾掉其中一則視頻。
      [0007]所述的基于視頻標(biāo)題和內(nèi)容的視頻過濾方法,其中,所述過濾掉其中一則視頻步驟中,包括:
      進(jìn)一步比較兩則視頻的屬性值,根據(jù)所述屬性值確定過濾掉哪一則視頻;
      其中,所述視頻的屬性值包括:視頻的連接速度和視頻的清晰度。
      [0008]所述的基于視頻標(biāo)題和內(nèi)容的視頻過濾方法,其中,比較兩則視頻的視頻內(nèi)容是否一致具體包括:
      A、根據(jù)兩則視頻的播放地址,分別獲取與所述播放地址對應(yīng)的視頻信息文件,例如m3u文件,并從所述視頻信息文件里面獲取兩則視頻的視頻地址;
      B、根據(jù)兩則視頻的視頻地址,下載并獲取二進(jìn)制的數(shù)據(jù)流內(nèi)容,并對數(shù)據(jù)流內(nèi)容進(jìn)行比較;
      C、若兩個(gè)二進(jìn)制的數(shù)據(jù)流內(nèi)容一致,則確定兩則視頻的視頻內(nèi)容一致,否則為不同的視頻內(nèi)容。
      [0009]所述的基于視頻標(biāo)題和內(nèi)容的視頻過濾方法,其中,所述步驟B中對數(shù)據(jù)流內(nèi)容進(jìn)行比較具體為使用開發(fā)語言提供的處理數(shù)據(jù)流的類庫的方法對數(shù)據(jù)流內(nèi)容進(jìn)行讀取并比較。
      [0010]所述的基于視頻標(biāo)題和內(nèi)容的視頻過濾方法,其中,預(yù)先設(shè)定的匹配度閾值為60%。
      [0011]一種基于視頻標(biāo)題和內(nèi)容的視頻過濾系統(tǒng),其中,包括:
      提取單元,用于獲取兩則視頻;
      第一過濾單元,用于比較兩則視頻的視頻標(biāo)題是否一樣,若是則過濾掉其中一則視頻,否則對兩則視頻的視頻標(biāo)題進(jìn)行拆詞處理;
      第二過濾單元,用于判斷拆詞后的視頻標(biāo)題的匹配度是否超過預(yù)先設(shè)定的匹配度閾值,若是則過濾掉其中一則視頻,否則比較兩則視頻的視頻內(nèi)容是否一致,若一致則過濾掉其中一則視頻。
      [0012]所述的基于視頻標(biāo)題和內(nèi)容的視頻過濾系統(tǒng),其中,所述第一過濾單元中過濾掉其中一則視頻具體包括:
      比較模塊,用于進(jìn)一步比較兩則視頻的屬性值,根據(jù)所述屬性值確定過濾掉哪一則視
      頻;
      其中,所述視頻的屬性值包括:視頻的連接速度和視頻的清晰度。
      [0013]所述的基于視頻標(biāo)題和內(nèi)容的視頻過濾系統(tǒng),其中,所述第二過濾單元中比較兩則視頻的視頻內(nèi)容是否一致具體包括:
      視頻地址獲取模塊,用于根據(jù)兩則視頻的播放地址,分別獲取與所述播放地址對應(yīng)的視頻信息文件,例如m3u文件,并從所述視頻信息文件里面獲取兩則視頻的視頻地址;
      數(shù)據(jù)流獲取模塊,用于根據(jù)兩則視頻的視頻地址,下載并獲取二進(jìn)制的數(shù)據(jù)流內(nèi)容,并對數(shù)據(jù)流內(nèi)容進(jìn)行比較;
      判斷模塊,用于當(dāng)兩個(gè)二進(jìn)制的數(shù)據(jù)流內(nèi)容一致,則確定兩則視頻的視頻內(nèi)容一致,否則為不同的視頻內(nèi)容。
      [0014]所述的基于視頻標(biāo)題和內(nèi)容的視頻過濾系統(tǒng),其中,所述判斷模塊中當(dāng)兩則視頻的視頻標(biāo)題一樣,進(jìn)一步比較具有相同視頻標(biāo)題的視頻的屬性值,根據(jù)所述屬性值確定過濾掉哪一則視頻;其中,所述視頻的屬性值包括:視頻的連接速度和視頻的清晰度。
      [0015]所述的基于視頻標(biāo)題和內(nèi)容的視頻過濾系統(tǒng),其中,預(yù)先設(shè)定的匹配度閾值為60%。
      [0016]相較于現(xiàn)有技術(shù),本發(fā)明提供的基于視頻標(biāo)題和內(nèi)容的視頻過濾方法和系統(tǒng),通過對視頻的標(biāo)題進(jìn)行拆詞,計(jì)算標(biāo)題的相似度和比較視頻流的相似度。并將標(biāo)題的相似度和視頻流的相似度作為組合條件進(jìn)行視頻過濾,達(dá)到視頻去重的效果。從而可以對相似度高的視頻新聞進(jìn)行有效過濾,最大限度的去掉一些類似的視頻新聞,讓用戶在有限時(shí)間內(nèi)觀看到的新聞都是當(dāng)日的頭條新聞,為用戶帶來更好的體驗(yàn)。
      【專利附圖】

      【附圖說明】
      [0017]圖1為本發(fā)明提供的基于視頻標(biāo)題和內(nèi)容的視頻過濾方法的流程圖。
      [0018]圖2為本發(fā)明提供的基于視頻標(biāo)題和內(nèi)容的視頻過濾系統(tǒng)的結(jié)構(gòu)框圖?!揪唧w實(shí)施方式】
      [0019]本發(fā)明提供一種基于視頻標(biāo)題和內(nèi)容的視頻過濾方法和系統(tǒng),為使本發(fā)明的目的、技術(shù)方案及效果更加清楚、明確,以下參照附圖并舉實(shí)施例對本發(fā)明進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
      [0020]請參閱圖1,其為本發(fā)明提供的基于視頻標(biāo)題和內(nèi)容的視頻過濾方法的流程圖。如圖所示,所述基于視頻標(biāo)題和內(nèi)容的視頻過濾方法包括:
      S100、獲取兩則視頻;
      S200、比較兩則視頻的視頻標(biāo)題是否一樣,若是則過濾掉其中一則視頻,否則對兩則視頻的視頻標(biāo)題進(jìn)行拆詞處理;
      S300、判斷拆詞后的視頻標(biāo)題的匹配度是否超過預(yù)先設(shè)定的匹配度閾值,若是則過濾掉其中一則視頻,否則比較兩則視頻的視頻內(nèi)容是否一致,若一致則過濾掉其中一則視頻。
      [0021]在步驟SlOO至S300只是其中兩則視頻進(jìn)行比較的一個(gè)過程,當(dāng)具有多個(gè)相同視頻內(nèi)容的多個(gè)視頻源時(shí)候,分別進(jìn)行兩兩比較,直到保留最后一則或者數(shù)則視頻即可。
      [0022]下面分別針對上述步驟進(jìn)行描述:
      步驟SlOO為獲取兩則視頻。在本實(shí)施例中,以視頻新聞為例,選取兩則視頻新聞。視頻新聞的信息包括視頻新聞的視頻標(biāo)題和視頻內(nèi)容。為了最大限度的去掉類似的視頻新聞,我們從視頻新聞的視頻標(biāo)題和視頻內(nèi)容入手進(jìn)行過濾。
      [0023]步驟S200為比較兩則視頻的視頻標(biāo)題是否一樣,若是則過濾掉其中一則視頻,否則對兩則視頻的視頻標(biāo)題進(jìn)行拆詞處理。具體來說,我們直接通過標(biāo)題比較去重:若兩則視頻新聞的標(biāo)題完全一樣,則過濾掉其中一幀。否則我們即對視頻標(biāo)題進(jìn)行拆詞處理。在本實(shí)施例中,所述拆詞方法為使可用開源項(xiàng)目Iucene的詞庫(在JAVA程序代碼引入程序包lucene-core-2.4.1.jar,使用智能中文分詞模塊SmartChineseAnalyzer即可)進(jìn)行拆詞,比如:杰出人物(如:李東生)、明星(如:劉德華)等檢索量大的詞,按照正向拆分法對新聞標(biāo)題進(jìn)行切分。(正向拆分法:從前往后匹配。如:〃湖南大學(xué)堂屋頂〃,正向拆分為〃湖南大學(xué)堂屋頂"。)
      下面通過一個(gè)具體的例子來說明:有三個(gè)標(biāo)題如下:
      第一標(biāo)題:北京至南寧高鐵貫通全程僅需10小時(shí)”
      進(jìn)行拆詞后變成:[北京,南寧,高鐵,全程,10,小時(shí)];
      第二標(biāo)題:北京至南寧全程貫通高鐵啦!只要10小時(shí)[鳳凰新聞網(wǎng)]
      進(jìn)行拆詞后變成:[北京,南寧,全程,貫通,高鐵,10,小時(shí),鳳凰,新聞,網(wǎng)];第三標(biāo)題:衡柳高鐵和柳南客運(yùn)專線貫通南寧到北京全程高鐵10小時(shí)進(jìn)行拆詞后變成:[衡柳,高鐵,和,柳南,客運(yùn),專線,貫通,南寧,北京,全程,高鐵,10,小時(shí)];
      通過拆詞匹配,我們可以看出:第一標(biāo)題和第二、第三標(biāo)題的匹配程度達(dá)到100%;第二標(biāo)題和第三標(biāo)題匹配程度(例如可以采用各個(gè)詞匹配計(jì)數(shù)的方式衡量文字匹配相同的程度)達(dá)到85%。
      [0024]進(jìn)一步地,當(dāng)兩則視頻的視頻標(biāo)題是一致時(shí),需要過濾掉其中一則視頻,保留其中
      一則視頻。
      [0025]為了保證保留的視頻是最佳的(尤其是當(dāng)視頻個(gè)數(shù)較多時(shí))視頻。本發(fā)明的基于視頻標(biāo)題和內(nèi)容的視頻過濾方法進(jìn)一步比較具有相同視頻標(biāo)題的視頻的屬性值,其中,所述視頻的屬性值包括:視頻的連接速度、視頻的清晰度等。每一屬性具有不同的權(quán)重(所述權(quán)重的大小可以根據(jù)客戶需要來設(shè)定),通過比較所述具有相同視頻標(biāo)題的視頻的屬性值,來確保保留下的視頻是最佳的。舉例來說,當(dāng)兩則視頻的視頻標(biāo)題是一致的,那么我們先來判斷兩則視頻的連接速度,當(dāng)發(fā)現(xiàn)一則視頻無法鏈接播放時(shí),則過濾掉。若兩則視頻的連接速度相同,我們進(jìn)一步比較兩則視頻的清晰度,過濾掉清晰度比較差的一則視頻。當(dāng)所有屬性相同時(shí),可隨機(jī)濾掉一則視頻。
      [0026]步驟S300為判斷拆詞后的視頻標(biāo)題的匹配度是否超過預(yù)先設(shè)定的匹配度閾值(在本實(shí)施例中,所述匹配度的閾值為60%),若是則過濾掉其中一則視頻,否則比較兩則視頻的視頻內(nèi)容是否一致,若一致則過濾掉其中一則視頻。具體來說,預(yù)先設(shè)定一匹配度閾值,將拆詞后的視頻標(biāo)題的匹配度與預(yù)先設(shè)定的匹配度閾值進(jìn)行比較:若拆詞后的視頻標(biāo)題的匹配度超過預(yù)先設(shè)定的匹配度閾值,則判斷兩則視頻的視頻標(biāo)題基本一致,過濾掉其中一條視頻,否則再對視頻內(nèi)容進(jìn)行判斷:比較兩則視頻的視頻內(nèi)容是否一致,若一致則過濾掉其中一則視頻。
      [0027]在本實(shí)施例中,比較兩則視頻的視頻內(nèi)容是否一致具體包括:
      S110、根據(jù)兩則視頻的播放地址,分別獲取與所述播放地址對應(yīng)的視頻信息文件,例如m3u文件,并從所述視頻信息文件里面獲取兩則視頻的視頻地址;
      其中,所述視頻的播放地址為提供視頻內(nèi)容的地址,然后,根據(jù)所述播放地址對應(yīng)的視頻文件內(nèi)容里面獲取視頻地址信息。一般來說,做視頻推薦類的應(yīng)用時(shí)候,使用的視頻可以從優(yōu)酷及土豆上獲取的,其實(shí)它 們也提供了開放的API,可以獲取視頻地址以及視頻的多個(gè)標(biāo)簽,視頻的同類視頻推薦,視頻同類目下的視頻等,使用者可以直接去申請。
      [0028]在本實(shí)施例中,所述播放地址優(yōu)選為m3u8地址,其也是一種M3U地址,只是它的編碼格式是UTF-8格式。m3u8地址是用來流播放,直播流或者點(diǎn)播形式,目的是實(shí)現(xiàn)時(shí)實(shí)性及保密性它會(huì)不讓你獲取它的視頻所在地址。M3U本質(zhì)上說不是音頻文件,它是音頻文件的列表文件,是純文本文件。根據(jù)兩則視頻的m3u8地址,分別獲取與所述m3u8地址對應(yīng)的m3u8文件內(nèi)容,并從所述文件內(nèi)容里面獲取兩則視頻的視頻地址。
      [0029]S120、根據(jù)兩則視頻的視頻地址,下載并獲取二進(jìn)制的數(shù)據(jù)流(也稱視頻流)內(nèi)容,并對數(shù)據(jù)流內(nèi)容進(jìn)行比較;以JAVA部分代碼為例說明如下:
      private boolean contentEquals(String addressl, String address2) {
      InputStream isl = null;
      InputStream is2 = null;
      URLConnection connl = null;
      URLConnection conn2 = null;
      try {
      URL urll = new URL(addressl);
      connl = urll.0penConnection();
      connl.setConnectTimeout (5000);
      isl = connl.getlnputStreamO ;
      URL url2 = new URL(address2);
      【權(quán)利要求】
      1.一種基于視頻標(biāo)題和內(nèi)容的視頻過濾方法,其特征在于,包括: 獲取兩則視頻; 比較兩則視頻的視頻標(biāo)題是否一樣,若是則過濾掉其中一則視頻,否則對兩則視頻的視頻標(biāo)題進(jìn)行拆詞處理; 判斷拆詞后的視頻標(biāo)題的匹配度是否超過預(yù)先設(shè)定的匹配度閾值,若是則過濾掉其中一則視頻,否則比較兩則視頻的視頻內(nèi)容是否一致,若一致則過濾掉其中一則視頻。
      2.根據(jù)權(quán)利要求1所述的基于視頻標(biāo)題和內(nèi)容的視頻過濾方法,其特征在于,所述過濾掉其中一則視頻步驟中,包括: 進(jìn)一步比較兩則視頻的屬性值,根據(jù)所述屬性值確定過濾掉哪一則視頻; 其中,所述視頻的屬性值包括:視頻的連接速度和視頻的清晰度。
      3.根據(jù)權(quán)利要求1所述的基于視頻標(biāo)題和內(nèi)容的視頻過濾方法,其特征在于,比較兩則視頻的視頻內(nèi)容是否一致具體包括: A、根據(jù)兩則視頻的播放地址,分別獲取與所述播放地址對應(yīng)的視頻信息文件,并從所述視頻信息文件里面獲取兩則視頻的視頻地址; B、根據(jù)兩則視頻的視頻地址,下載并獲取二進(jìn)制的數(shù)據(jù)流內(nèi)容,并對數(shù)據(jù)流內(nèi)容進(jìn)行比較; C、若兩個(gè)二進(jìn)制的數(shù)據(jù)流內(nèi)容一致,則確定兩則視頻的視頻內(nèi)容一致,否則為不同的視頻內(nèi)容。
      4.根據(jù)權(quán)利要求3所述的基于視頻標(biāo)題和內(nèi)容的視頻過濾方法,其特征在于,所述步驟B中對數(shù)據(jù)流內(nèi)容進(jìn)行比較具體為使用開發(fā)語言提供的處理數(shù)據(jù)流的類庫的方法對數(shù)據(jù)流內(nèi)容進(jìn)行讀取并比較。
      5.根據(jù)權(quán)利要求1所述的基于視頻標(biāo)題和內(nèi)容的視頻過濾方法,其特征在于,預(yù)先設(shè)定的匹配度閾值為60%。
      6.一種基于視頻標(biāo)題和內(nèi)容的視頻過濾系統(tǒng),其特征在于,包括: 提取單元,用于獲取兩則視頻; 第一過濾單元,用于比較兩則視頻的視頻標(biāo)題是否一樣,若是則過濾掉其中一則視頻,否則對兩則視頻的視頻標(biāo)題進(jìn)行拆詞處理; 第二過濾單元,用于判斷拆詞后的視頻標(biāo)題的匹配度是否超過預(yù)先設(shè)定的匹配度閾值,若是則過濾掉其中一則視頻,否則比較兩則視頻的視頻內(nèi)容是否一致,若一致則過濾掉其中一則視頻。
      7.根據(jù)權(quán)利要求6所述的基于視頻標(biāo)題和內(nèi)容的視頻過濾系統(tǒng),其特征在于,所述第一過濾單元中過濾掉其中一則視頻具體包括: 比較模塊,用于進(jìn)一步比較兩則視頻的屬性值,根據(jù)所述屬性值確定過濾掉哪一則視頻; 其中,所述視頻的屬性值包括:視頻的連接速度和視頻的清晰度。
      8.根據(jù)權(quán)利要求6所述的基于視頻標(biāo)題和內(nèi)容的視頻過濾系統(tǒng),其特征在于,所述第二過濾單元中比較兩則視頻的視頻內(nèi)容是否一致具體包括: 視頻地址獲取模塊,用于根據(jù)兩則視頻的播放地址,分別獲取與所述播放地址對應(yīng)的視頻信息文件,并從所述視頻信息文件里面獲取兩則視頻的視頻地址;數(shù)據(jù)流獲取模塊,用于根據(jù)兩則視頻的視頻地址,下載并獲取二進(jìn)制的數(shù)據(jù)流內(nèi)容,并對數(shù)據(jù)流內(nèi)容進(jìn)行比較; 判斷模塊,用于當(dāng)兩個(gè)二進(jìn)制的數(shù)據(jù)流內(nèi)容一致,則確定兩則視頻的視頻內(nèi)容一致,否則為不同的視頻內(nèi)容。
      9.根據(jù)權(quán)利要求8所述的基于視頻標(biāo)題和內(nèi)容的視頻過濾系統(tǒng),其特征在于,所述數(shù)據(jù)流獲取模塊中對數(shù)據(jù)流內(nèi)容進(jìn)行比較具體為使用開發(fā)語言提供的處理數(shù)據(jù)流的類庫的方法對數(shù)據(jù)流內(nèi)容進(jìn)行讀取并比較。
      10.根據(jù)權(quán)利要求6所述的基于視頻標(biāo)題和內(nèi)容的視頻過濾系統(tǒng),其特征在于,預(yù)先設(shè)定的匹配度閾值為60%。`
      【文檔編號】G06F17/30GK103678527SQ201310631404
      【公開日】2014年3月26日 申請日期:2013年12月2日 優(yōu)先權(quán)日:2013年12月2日
      【發(fā)明者】劉世才, 毛海濤, 宋軻 申請人:Tcl集團(tuán)股份有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
      1