Ugc指紋簽名確定方法、裝置及ugc去重方法、裝置的制造方法
【技術(shù)領域】
[0001]本申請涉及網(wǎng)頁處理技術(shù)領域,更具體地說,涉及一種UGC(User GeneratedContent,用戶原創(chuàng)內(nèi)容)指紋簽名確定方法、裝置及UGC去重方法、裝置。
【背景技術(shù)】
[0002]隨著計算機科學技術(shù)與網(wǎng)絡技術(shù)的飛速發(fā)展,網(wǎng)絡已經(jīng)成為人們獲取重要信息的重要途徑。許多平臺都提供了網(wǎng)上購物功能,產(chǎn)品供應商可以制作產(chǎn)品對應的UGC,將該UGC提交給平臺,由平臺將UGC制作成網(wǎng)頁,并放在購物平臺上進行推廣。
[0003]產(chǎn)品供應商為了更好的宣傳自己的產(chǎn)品,有可能會提交重復或稍作改動的UGC到購物平臺,而這些重復的UGC占用了平臺大量的有效資源,同時也給用戶帶來額外困擾。如何確定UGC身份,進而能夠利用UGC身份實現(xiàn)UGC去重成為亟待解決的問題。
【發(fā)明內(nèi)容】
[0004]有鑒于此,本申請?zhí)峁┝艘环NUGC指紋簽名確定方法、裝置及UGC去重方法、裝置,以確定UGC的身份,并基于此實現(xiàn)UGC去重。
[0005]為了實現(xiàn)上述目的,現(xiàn)提出的方案如下:
[0006]一種UGC指紋簽名確定方法,包括:
[0007]獲取用戶原創(chuàng)內(nèi)容UGC;
[0008]過濾所述UGC中的排版信息,得到文字信息;
[0009]對所述文字信息進行分詞以及詞頻統(tǒng)計,得到若干詞以及各詞的詞頻數(shù);
[0010]計算各個詞的hash值;
[0011 ]利用各詞的詞頻數(shù)對相應詞的hash值進行加權(quán),得到加權(quán)后hash值;
[0012]將各詞的加權(quán)后hash值進行累加,得到序列串信息;
[0013]將所述序列串信息轉(zhuǎn)換為二進制格式,得到所述UGC的指紋簽名。
[0014]優(yōu)選地,所述過濾所述UGC中的排版信息,包括:
[0015]過濾所述UGC中的html標簽類符號、標點符號和特殊字符。
[0016]優(yōu)選地,所述計算各個詞的hash值,包括:
[0017]利用md5算法對各詞進行計算,得到16進制的32位數(shù)字信息;
[0018]將所述16進制的32位數(shù)字信息轉(zhuǎn)換為2進制的128位數(shù)字信息,作為詞的hash值。
[0019]優(yōu)選地,所述利用各詞的詞頻數(shù)對相應詞的hash值進行加權(quán),包括:
[0020]確定詞的hash值中各序位數(shù)字為O還是I;
[0021 ]對于序位數(shù)字為I的序位,將該序位數(shù)字替換為詞頻數(shù),詞頻數(shù)與詞對應;
[0022]對于序位數(shù)字為O的序位,將該序位數(shù)字替換為負的詞頻數(shù),詞頻數(shù)與詞對應。[0023 ]優(yōu)選地,所述將各詞的加權(quán)后hash值進行累加,包括:
[0024]將各詞的加權(quán)后hash值中,相同序位的數(shù)字進行相加,得到128位的序列串信息。
[0025]優(yōu)選地,所述將所述序列串信息轉(zhuǎn)換為二進制格式,包括:
[0026]判斷128位的序列串信息中各序位的數(shù)字是否大于O;
[0027]對于大于O的序位,將該序位數(shù)字替換為I;
[0028]對于不大于O的序位,將該序位數(shù)字替換為O。
[0029]一種UGC去重方法,包括:
[0030]獲取待處理的用戶原創(chuàng)內(nèi)容UGC,按照上述所述的UGC指紋簽名確定方法確定所述UGC的指紋簽名;
[0031]調(diào)取預置的UGC指紋簽名庫,所述UGC指紋簽名庫中存儲有若干UGC的指紋簽名,且存儲的各指紋簽名均是按照上述所述的UGC指紋簽名確定方法所得到的;
[0032]對比所述UGC的指紋簽名與所述UGC指紋簽名庫中各指紋簽名的相似度;
[0033]若UGC指紋簽名庫中存在相似度滿足相似度設定條件的指紋簽名,則拒絕處理所述 UGC 0
[0034]優(yōu)選地,所述對比所述UGC的指紋簽名與所述UGC指紋簽名庫中各指紋簽名的相似度,包括:
[0035]采用漢明距離計算方法,計算所述UGC的指紋簽名與所述UGC指紋簽名庫中各指紋簽名的距離;
[0036]若UGC指紋簽名庫中某個指紋簽名與所述UGC的指紋簽名的距離超過設定距離閾值,則確定二者相似度滿足相似度設定條件。
[0037]一種UGC指紋簽名確定裝置,包括:
[0038]UGC獲取單元,用于獲取UGC;
[0039]排版信息過濾單元,用于過濾所述UGC中的排版信息,得到文字信息;
[0040]分詞及詞頻統(tǒng)計單元,用于對所述文字信息進行分詞以及詞頻統(tǒng)計,得到若干詞以及各詞的詞頻數(shù);
[0041 ] hash計算單元,用于計算各個詞的hash值;
[0042]加權(quán)處理單元,用于利用各詞的詞頻數(shù)對相應詞的hash值進行加權(quán),得到加權(quán)后hash 值;
[0043]累加單元,用于將各詞的加權(quán)后hash值進行累加,得到序列串信息;
[0044]二進制轉(zhuǎn)換單元,用于將所述序列串信息轉(zhuǎn)換為二進制格式,得到UGC的指紋簽名。
[0045]一種UGC去重裝置,包括:
[0046]待處理UGC獲取單元,用于獲取待處理UGC,并按照上述所述的UGC指紋簽名確定方法確定所述UGC的指紋簽名;
[0047]UGC指紋簽名庫調(diào)取單元,用于調(diào)取預置的UGC指紋簽名庫,所述UGC指紋簽名庫中存儲有若干UGC的指紋簽名,且存儲的各指紋簽名均是按照上述權(quán)利要求1所述的UGC指紋簽名確定方法所得到的;
[0048]相似度對比單元,用于對比所述UGC的指紋簽名與所述UGC指紋簽名庫中各指紋簽名的相似度;
[0049]UGC處理單元,用于在確定UGC指紋簽名庫中存在相似度滿足相似度設定條件的指紋簽名時,拒絕處理所述UGC。
[0050]從上述的技術(shù)方案可以看出,本申請實施例提供的UGC指紋簽名確定方法,獲取UGC;過濾所述UGC中的排版信息,得到文字信息;對所述文字信息進行分詞以及詞頻統(tǒng)計,得到若干詞以及各詞的詞頻數(shù);計算各個詞的hash值;利用各詞的詞頻數(shù)對相應詞的hash值進行加權(quán),得到加權(quán)后hash值;將各詞的加權(quán)后hash值進行累加,得到序列串信息;將所述序列串信息轉(zhuǎn)換為二進制格式,得到UGC的指紋簽名。本申請參考了UGC中各分詞及分詞詞頻數(shù)確定最終的指紋簽名,其指紋簽名能夠很好的標識UGC的身份。
【附圖說明】
[0051]為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的實施例,對于本領域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
[0052]圖1為本申請實施例公開的一種UGC指紋簽名確定方法流程圖;
[0053]圖2為本申請實施例公開的另一種UGC指紋簽名確定方法流程圖;
[0054]圖3為本申請實施例公開的又一種UGC指紋簽名確定方法流程圖;
[0055]圖4為本申請實施例公開的一種UGC去重方法流程圖;
[0056]圖5為本申請實施例公開的一種UGC指紋簽名確定裝置結(jié)構(gòu)示意圖;
[0057]圖6為本申請實施例公開的一種UGC去重裝置結(jié)構(gòu)示意圖。
【具體實施方式】
[0058]下面將結(jié)合本申請實施例中的附圖,對本申請實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├?,本領域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。
[0059]參見圖1,圖1為本申請實施例公開的一種UGC指紋簽名確定方法流程圖。
[0060]如圖1所示,該方法包括:
[0061 ]步驟 S100、獲取 UGC;
[0062]步驟S110、過濾所述UGC中的排版信息,得到文字信息;
[0063]其中,排版信息可以包括UGC中的html標簽類符號、標點符號和特殊字符等信息。過濾掉UGC中的這些排版信息之后,只剩下文字信息。
[0064]步驟S120、對所述文字信息進行分詞以及詞頻統(tǒng)計,得到若干詞以及各詞的詞頻數(shù);
[0065]具體地,可以采用現(xiàn)有的分詞工具對文字信息進行分詞。分詞后統(tǒng)計各詞的詞頻數(shù)。
[ΟΟ??] 步驟S130、計算各個詞的hash值;
[0067 ]步驟SI 40、利用各詞的詞頻數(shù)對相應詞的hash值進行加權(quán),得到加權(quán)后hash值;
[0068]具體地,對于每個詞的hash值,利用該詞的詞頻數(shù)對hash值進行加權(quán),得到加權(quán)后hash 值。
[0069]步驟S150、將各詞的加權(quán)后hash值進行累加,得到序列串信息;
[0070]具體地,每個詞都對應一個加權(quán)后hash值。在進行hash值累加時,對多個hash值中相同序位的數(shù)值進行累加,累加后得到序列串信息。
[0071]步驟S160、將所述序列串信息轉(zhuǎn)換為二進制格式,得到UGC的指紋簽名。
[0072]具體地,上述序列串信息并不是標準的二進制格式,本步驟中將序列串信息轉(zhuǎn)換為二進制格式,得到UGC的指紋簽名。
[0073]本申請實施例提供的UGC指紋簽名確定方法,獲取UGC;過濾所述UGC中的排版信息,得到文字信息;對所述文字信息進行分詞以及詞頻統(tǒng)計,得