一種基于圖片的重復(fù)視頻文件確定方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別涉及一種基于圖片的重復(fù)視頻文件確定方法及
目.0
【背景技術(shù)】
[0002]在視頻網(wǎng)站中,不同用戶可能會(huì)上傳具有相同內(nèi)容的視頻文件,即使是同一用戶,也可能多次上傳具有相同內(nèi)容的視頻文件,所以視頻網(wǎng)站中的視頻文件存在較為嚴(yán)重的重復(fù)問題。實(shí)際應(yīng)用中,視頻網(wǎng)站多以圖片形式向用戶展示視頻文件,以方便用戶快速了解視頻文件的內(nèi)容,上述圖片可稱之為視頻文件的代表圖片。一般情況下,視頻文件的相鄰幀圖片的相似程度較高,視頻文件的代表圖片為該視頻文件中某一幀圖片。對(duì)于具有相同內(nèi)容的視頻文件,如果視頻網(wǎng)站分別以視頻文件中相鄰幾幀作為其代表圖片,會(huì)使得具有相同內(nèi)容的視頻文件的代表圖片相同或相似,這樣當(dāng)用戶在視頻網(wǎng)站中搜索目標(biāo)視頻文件時(shí),可能會(huì)在搜索結(jié)果中看到很多代表圖片相同或相似的視頻文件,用戶體驗(yàn)較差。
[0003]基于此,視頻網(wǎng)站需要對(duì)重復(fù)視頻進(jìn)行確認(rèn),以便在向用戶展示搜索結(jié)果時(shí),能夠?qū)哂邢嗤瑑?nèi)容的視頻文件進(jìn)行去重處理?,F(xiàn)有的一種基于圖片的重復(fù)視頻文件確定方法是:使用MD5 (Message Digest Algorithm,消息摘要算法第五版)算法得到各個(gè)視頻文件的代表圖片的字符串序列,對(duì)比不同代表圖片的字符串序列,將具有相同字符串序列的圖片代表的視頻文件確認(rèn)為重復(fù)視頻文件。
[0004]雖然通常情況下應(yīng)用上述方法能夠確定出重復(fù)視頻文件,但是這種方法存在一定的缺點(diǎn),因?yàn)镸D5算法對(duì)于圖片數(shù)據(jù)的敏感度較高,只要不同圖片的數(shù)據(jù)有細(xì)微差別,使用MD5算法得到的字符串序列就會(huì)不同,所以在具有相同內(nèi)容的視頻文件分別以視頻文件中相鄰幀圖片作為代表圖片的情況下,雖然這些代表圖片相似,但這些代表圖片的MD5字符串序列是不同的,也就是說,在視頻文件去重處理中,不會(huì)將這些具有相同內(nèi)容的視頻文件作為重復(fù)視頻文件予以考慮。這樣,搜索結(jié)果所展示的視頻文件的代表圖片可能仍有較多相似圖片,使得視頻文件去重效果不明顯,用戶體驗(yàn)較差。
【發(fā)明內(nèi)容】
[0005]為解決上述問題,本發(fā)明實(shí)施例公開了一種基于圖片的重復(fù)視頻文件確定方法及裝置。技術(shù)方案如下:
[0006]一種基于圖片的重復(fù)視頻文件確定方法,包括:
[0007]獲得第一視頻文件的代表圖片的圖片指紋和第二視頻文件的代表圖片的圖片指紋,其中,圖片指紋為:根據(jù)圖片的灰度平均值信息和顏色平均值信息計(jì)算得到的圖片特征信息;
[0008]將所述第一視頻文件的代表圖片的圖片指紋與所述第二視頻文件的代表圖片的圖片指紋進(jìn)行對(duì)比,獲得所述第一視頻文件的代表圖片和所述第二視頻文件的代表圖片的相似程度;
[0009]如果所述相似程度滿足預(yù)設(shè)條件,則將所述第一視頻文件和所述第二視頻文件確定為重復(fù)視頻文件。
[0010]在本發(fā)明的一種【具體實(shí)施方式】中,通過以下步驟計(jì)算任一個(gè)視頻文件的代表圖片的圖片指紋:
[0011]獲得目標(biāo)圖片,所述目標(biāo)圖片為目標(biāo)視頻文件的代表圖片;
[0012]獲得所述目標(biāo)圖片對(duì)應(yīng)的灰度圖片;
[0013]計(jì)算所述灰度圖片的灰度平均值;
[0014]根據(jù)所述灰度圖片中每個(gè)像素點(diǎn)的灰度值和所述灰度平均值的大小關(guān)系,獲得所述目標(biāo)圖片的灰度特征信息;
[0015]計(jì)算所述目標(biāo)圖片的顏色平均值;
[0016]根據(jù)所述目標(biāo)圖片的顏色平均值,獲得所述目標(biāo)圖片的顏色特征信息;
[0017]根據(jù)所述灰度特征信息和所述顏色特征信息,生成所述目標(biāo)圖片的圖片指紋。
[0018]在本發(fā)明的一種【具體實(shí)施方式】中,所述根據(jù)所述灰度圖片中每個(gè)像素點(diǎn)的灰度值和所述灰度平均值的大小關(guān)系,獲得所述目標(biāo)圖片的灰度特征信息,包括:
[0019]按照以下方式,更新所述灰度圖片中的每個(gè)像素點(diǎn)的灰度值:
[0020]如果所述灰度圖片中像素點(diǎn)的灰度值小于或等于所述灰度平均值,則將該像素點(diǎn)的灰度值更新為預(yù)設(shè)第一值,否則將該像素點(diǎn)的灰度值更新為預(yù)設(shè)第二值;
[0021]將更新后的所有像素點(diǎn)的灰度值按照預(yù)設(shè)順序進(jìn)行排序,獲得灰度值序列信息,將所述灰度值序列信息作為所述目標(biāo)圖片的灰度特征信息。
[0022]在本發(fā)明的一種【具體實(shí)施方式】中,所述獲得所述目標(biāo)圖片對(duì)應(yīng)的灰度圖片,包括:
[0023]根據(jù)預(yù)設(shè)的第一比例關(guān)系,對(duì)所述目標(biāo)圖片進(jìn)行縮小處理,根據(jù)縮小處理后的圖片,獲得所述目標(biāo)圖片對(duì)應(yīng)的灰度圖片;或
[0024]獲得與所述目標(biāo)圖片大小一致的灰度圖片,按照預(yù)設(shè)的第二比例關(guān)系,對(duì)所獲得的灰度圖片進(jìn)行縮小處理,得到所述目標(biāo)圖片對(duì)應(yīng)的灰度圖片。
[0025]在本發(fā)明的一種【具體實(shí)施方式】中,在所述將所述第一視頻文件和所述第二視頻文件確認(rèn)為重復(fù)視頻文件之后,還包括:
[0026]將所述第一視頻文件和所述第二視頻文件以相同標(biāo)記符進(jìn)行標(biāo)記,以在需要向用戶展示視頻文件的情況下,根據(jù)預(yù)設(shè)的選擇要求,選擇具有相同標(biāo)記符的視頻文件中的一個(gè)視頻文件進(jìn)行展示。
[0027]一種基于圖片的重復(fù)視頻文件確定裝置,包括:
[0028]圖片指紋獲得模塊,用于獲得第一視頻文件的代表圖片的圖片指紋和第二視頻文件的代表圖片的圖片指紋,其中,圖片指紋為:根據(jù)圖片的灰度平均值信息和顏色平均值信息計(jì)算得到的圖片特征信息;
[0029]相似程度獲得模塊,用于將所述第一視頻文件的代表圖片的圖片指紋與所述第二視頻文件的代表圖片的圖片指紋進(jìn)行對(duì)比,獲得所述第一視頻文件的代表圖片和所述第二視頻文件的代表圖片的相似程度;
[0030]重復(fù)視頻文件確定模塊,用于在所述相似程度滿足預(yù)設(shè)條件的情況下,將所述第一視頻文件和所述第二視頻文件確定為重復(fù)視頻文件。
[0031]在本發(fā)明的一種【具體實(shí)施方式】中,還包括:
[0032]圖片指紋計(jì)算模塊,用于計(jì)算任一個(gè)視頻文件的代表圖片的圖片指紋:
[0033]所述圖片指紋計(jì)算模塊包括:
[0034]目標(biāo)圖片獲得子模塊,用于獲得目標(biāo)圖片,所述目標(biāo)圖片為目標(biāo)視頻文件的代表圖片;
[0035]灰度圖片獲得子模塊,用于獲得所述目標(biāo)圖片對(duì)應(yīng)的灰度圖片;
[0036]灰度平均值計(jì)算子模塊,用于計(jì)算所述灰度圖片的灰度平均值;
[0037]灰度特征信息獲得子模塊,用于根據(jù)所述灰度圖片中每個(gè)像素點(diǎn)的灰度值和所述灰度平均值的大小關(guān)系,獲得所述目標(biāo)圖片的灰度特征信息;
[0038]顏色平均值計(jì)算子模塊,用于計(jì)算所述目標(biāo)圖片的顏色平均值;
[0039]顏色特征信息獲得子模塊,用于根據(jù)所述目標(biāo)圖片的顏色平均值,獲得所述目標(biāo)圖片的顏色特征信息;
[0040]圖片指紋生成子模塊,用于根據(jù)所述灰度特征信息和所述顏色特征信息,生成所述目標(biāo)圖片的圖片指紋。
[0041]在本發(fā)明的一種【具體實(shí)施方式】中,所述灰度特征信息獲得子模塊,包括:
[0042]灰度值更新單元,用于按照以下方式,更新所述灰度圖片中的每個(gè)像素點(diǎn)的灰度值:如果所述灰度圖片中像素點(diǎn)的灰度值小于或等于所述灰度平均值,則將該像素點(diǎn)的灰度值更新為預(yù)設(shè)第一值,否則將該像素點(diǎn)的灰度值更新為預(yù)設(shè)第二值;
[0043]灰度特征信息獲得單元,用于將更新后的所有像素點(diǎn)的灰度值按照預(yù)設(shè)順序進(jìn)行排序,獲得灰度序列值信息,將所述灰度序列值信息作為所述目標(biāo)圖片的灰度特征信息。
[0044]在本發(fā)明的一種【具體實(shí)施方式】中,所述灰度圖片獲得子模塊,包括:
[0045]灰度圖片第一獲得單元,用于根據(jù)預(yù)設(shè)的第一比例關(guān)系,對(duì)所述目標(biāo)圖片進(jìn)行縮小處理,根據(jù)縮小處理后的圖片,獲得所述目標(biāo)圖片對(duì)應(yīng)的灰度圖片;或
[0046]灰度圖片第二獲得單元,用于獲得與所述目標(biāo)圖片大小一致的灰度圖片,按照預(yù)設(shè)的第二比例關(guān)系,對(duì)所獲得的灰度圖片進(jìn)行縮小處理,得到所述目標(biāo)圖片對(duì)應(yīng)的灰度圖片。
[0047]在本發(fā)明的一種【具體實(shí)施方式】中,還包括:
[0048]標(biāo)記模塊,用于在所述將所述第一視頻文件和所述第二視頻文件確認(rèn)為重復(fù)視頻文件之后,將所述第一視頻文件和所述第二視頻文件以相同標(biāo)記符進(jìn)行標(biāo)記,以在需要向用戶展示視頻文件的情況下,根據(jù)預(yù)設(shè)的選擇要求,選擇具有相同標(biāo)記符的視頻文件中的一個(gè)視頻文件進(jìn)行展示。
[0049]應(yīng)用本發(fā)明實(shí)施例所提供的技術(shù)方案,通過圖片指紋確定兩個(gè)視頻文件是否為重復(fù)視頻文件,因?yàn)閳D片指紋是根據(jù)圖片的灰度平均值信息和顏色平均值信息計(jì)算得到的,而相同或相似程度較高的圖片的灰度平均值信息和顏色平均值信息相同或相似,所以相同或相似程度較高的圖片的圖片指紋也是相同的或相似的,進(jìn)而可以根據(jù)圖片指紋將代表圖片相同或相似的視頻文件確定為重復(fù)視頻文件,據(jù)此進(jìn)行視頻文件去重處理,可以得到較為明顯的去重效果,提升用戶體驗(yàn)。
【附圖說明】
[0050]為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地