国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      Ugc指紋簽名確定方法、裝置及ugc去重方法、裝置的制造方法

      文檔序號:9914261閱讀:681來源:國知局
      Ugc指紋簽名確定方法、裝置及ugc去重方法、裝置的制造方法
      【技術(shù)領域】
      [0001]本申請涉及網(wǎng)頁處理技術(shù)領域,更具體地說,涉及一種UGC(User GeneratedContent,用戶原創(chuàng)內(nèi)容)指紋簽名確定方法、裝置及UGC去重方法、裝置。
      【背景技術(shù)】
      [0002]隨著計算機科學技術(shù)與網(wǎng)絡技術(shù)的飛速發(fā)展,網(wǎng)絡已經(jīng)成為人們獲取重要信息的重要途徑。許多平臺都提供了網(wǎng)上購物功能,產(chǎn)品供應商可以制作產(chǎn)品對應的UGC,將該UGC提交給平臺,由平臺將UGC制作成網(wǎng)頁,并放在購物平臺上進行推廣。
      [0003]產(chǎn)品供應商為了更好的宣傳自己的產(chǎn)品,有可能會提交重復或稍作改動的UGC到購物平臺,而這些重復的UGC占用了平臺大量的有效資源,同時也給用戶帶來額外困擾。如何確定UGC身份,進而能夠利用UGC身份實現(xiàn)UGC去重成為亟待解決的問題。

      【發(fā)明內(nèi)容】

      [0004]有鑒于此,本申請?zhí)峁┝艘环NUGC指紋簽名確定方法、裝置及UGC去重方法、裝置,以確定UGC的身份,并基于此實現(xiàn)UGC去重。
      [0005]為了實現(xiàn)上述目的,現(xiàn)提出的方案如下:
      [0006]一種UGC指紋簽名確定方法,包括:
      [0007]獲取用戶原創(chuàng)內(nèi)容UGC;
      [0008]過濾所述UGC中的排版信息,得到文字信息;
      [0009]對所述文字信息進行分詞以及詞頻統(tǒng)計,得到若干詞以及各詞的詞頻數(shù);
      [0010]計算各個詞的hash值;
      [0011 ]利用各詞的詞頻數(shù)對相應詞的hash值進行加權(quán),得到加權(quán)后hash值;
      [0012]將各詞的加權(quán)后hash值進行累加,得到序列串信息;
      [0013]將所述序列串信息轉(zhuǎn)換為二進制格式,得到所述UGC的指紋簽名。
      [0014]優(yōu)選地,所述過濾所述UGC中的排版信息,包括:
      [0015]過濾所述UGC中的html標簽類符號、標點符號和特殊字符。
      [0016]優(yōu)選地,所述計算各個詞的hash值,包括:
      [0017]利用md5算法對各詞進行計算,得到16進制的32位數(shù)字信息;
      [0018]將所述16進制的32位數(shù)字信息轉(zhuǎn)換為2進制的128位數(shù)字信息,作為詞的hash值。
      [0019]優(yōu)選地,所述利用各詞的詞頻數(shù)對相應詞的hash值進行加權(quán),包括:
      [0020]確定詞的hash值中各序位數(shù)字為O還是I;
      [0021 ]對于序位數(shù)字為I的序位,將該序位數(shù)字替換為詞頻數(shù),詞頻數(shù)與詞對應;
      [0022]對于序位數(shù)字為O的序位,將該序位數(shù)字替換為負的詞頻數(shù),詞頻數(shù)與詞對應。[0023 ]優(yōu)選地,所述將各詞的加權(quán)后hash值進行累加,包括:
      [0024]將各詞的加權(quán)后hash值中,相同序位的數(shù)字進行相加,得到128位的序列串信息。
      [0025]優(yōu)選地,所述將所述序列串信息轉(zhuǎn)換為二進制格式,包括:
      [0026]判斷128位的序列串信息中各序位的數(shù)字是否大于O;
      [0027]對于大于O的序位,將該序位數(shù)字替換為I;
      [0028]對于不大于O的序位,將該序位數(shù)字替換為O。
      [0029]一種UGC去重方法,包括:
      [0030]獲取待處理的用戶原創(chuàng)內(nèi)容UGC,按照上述所述的UGC指紋簽名確定方法確定所述UGC的指紋簽名;
      [0031]調(diào)取預置的UGC指紋簽名庫,所述UGC指紋簽名庫中存儲有若干UGC的指紋簽名,且存儲的各指紋簽名均是按照上述所述的UGC指紋簽名確定方法所得到的;
      [0032]對比所述UGC的指紋簽名與所述UGC指紋簽名庫中各指紋簽名的相似度;
      [0033]若UGC指紋簽名庫中存在相似度滿足相似度設定條件的指紋簽名,則拒絕處理所述 UGC 0
      [0034]優(yōu)選地,所述對比所述UGC的指紋簽名與所述UGC指紋簽名庫中各指紋簽名的相似度,包括:
      [0035]采用漢明距離計算方法,計算所述UGC的指紋簽名與所述UGC指紋簽名庫中各指紋簽名的距離;
      [0036]若UGC指紋簽名庫中某個指紋簽名與所述UGC的指紋簽名的距離超過設定距離閾值,則確定二者相似度滿足相似度設定條件。
      [0037]一種UGC指紋簽名確定裝置,包括:
      [0038]UGC獲取單元,用于獲取UGC;
      [0039]排版信息過濾單元,用于過濾所述UGC中的排版信息,得到文字信息;
      [0040]分詞及詞頻統(tǒng)計單元,用于對所述文字信息進行分詞以及詞頻統(tǒng)計,得到若干詞以及各詞的詞頻數(shù);
      [0041 ] hash計算單元,用于計算各個詞的hash值;
      [0042]加權(quán)處理單元,用于利用各詞的詞頻數(shù)對相應詞的hash值進行加權(quán),得到加權(quán)后hash 值;
      [0043]累加單元,用于將各詞的加權(quán)后hash值進行累加,得到序列串信息;
      [0044]二進制轉(zhuǎn)換單元,用于將所述序列串信息轉(zhuǎn)換為二進制格式,得到UGC的指紋簽名。
      [0045]一種UGC去重裝置,包括:
      [0046]待處理UGC獲取單元,用于獲取待處理UGC,并按照上述所述的UGC指紋簽名確定方法確定所述UGC的指紋簽名;
      [0047]UGC指紋簽名庫調(diào)取單元,用于調(diào)取預置的UGC指紋簽名庫,所述UGC指紋簽名庫中存儲有若干UGC的指紋簽名,且存儲的各指紋簽名均是按照上述權(quán)利要求1所述的UGC指紋簽名確定方法所得到的;
      [0048]相似度對比單元,用于對比所述UGC的指紋簽名與所述UGC指紋簽名庫中各指紋簽名的相似度;
      [0049]UGC處理單元,用于在確定UGC指紋簽名庫中存在相似度滿足相似度設定條件的指紋簽名時,拒絕處理所述UGC。
      [0050]從上述的技術(shù)方案可以看出,本申請實施例提供的UGC指紋簽名確定方法,獲取UGC;過濾所述UGC中的排版信息,得到文字信息;對所述文字信息進行分詞以及詞頻統(tǒng)計,得到若干詞以及各詞的詞頻數(shù);計算各個詞的hash值;利用各詞的詞頻數(shù)對相應詞的hash值進行加權(quán),得到加權(quán)后hash值;將各詞的加權(quán)后hash值進行累加,得到序列串信息;將所述序列串信息轉(zhuǎn)換為二進制格式,得到UGC的指紋簽名。本申請參考了UGC中各分詞及分詞詞頻數(shù)確定最終的指紋簽名,其指紋簽名能夠很好的標識UGC的身份。
      【附圖說明】
      [0051]為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的實施例,對于本領域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
      [0052]圖1為本申請實施例公開的一種UGC指紋簽名確定方法流程圖;
      [0053]圖2為本申請實施例公開的另一種UGC指紋簽名確定方法流程圖;
      [0054]圖3為本申請實施例公開的又一種UGC指紋簽名確定方法流程圖;
      [0055]圖4為本申請實施例公開的一種UGC去重方法流程圖;
      [0056]圖5為本申請實施例公開的一種UGC指紋簽名確定裝置結(jié)構(gòu)示意圖;
      [0057]圖6為本申請實施例公開的一種UGC去重裝置結(jié)構(gòu)示意圖。
      【具體實施方式】
      [0058]下面將結(jié)合本申請實施例中的附圖,對本申請實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├?,本領域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。
      [0059]參見圖1,圖1為本申請實施例公開的一種UGC指紋簽名確定方法流程圖。
      [0060]如圖1所示,該方法包括:
      [0061 ]步驟 S100、獲取 UGC;
      [0062]步驟S110、過濾所述UGC中的排版信息,得到文字信息;
      [0063]其中,排版信息可以包括UGC中的html標簽類符號、標點符號和特殊字符等信息。過濾掉UGC中的這些排版信息之后,只剩下文字信息。
      [0064]步驟S120、對所述文字信息進行分詞以及詞頻統(tǒng)計,得到若干詞以及各詞的詞頻數(shù);
      [0065]具體地,可以采用現(xiàn)有的分詞工具對文字信息進行分詞。分詞后統(tǒng)計各詞的詞頻數(shù)。
      [ΟΟ??] 步驟S130、計算各個詞的hash值;
      [0067 ]步驟SI 40、利用各詞的詞頻數(shù)對相應詞的hash值進行加權(quán),得到加權(quán)后hash值;
      [0068]具體地,對于每個詞的hash值,利用該詞的詞頻數(shù)對hash值進行加權(quán),得到加權(quán)后hash 值。
      [0069]步驟S150、將各詞的加權(quán)后hash值進行累加,得到序列串信息;
      [0070]具體地,每個詞都對應一個加權(quán)后hash值。在進行hash值累加時,對多個hash值中相同序位的數(shù)值進行累加,累加后得到序列串信息。
      [0071]步驟S160、將所述序列串信息轉(zhuǎn)換為二進制格式,得到UGC的指紋簽名。
      [0072]具體地,上述序列串信息并不是標準的二進制格式,本步驟中將序列串信息轉(zhuǎn)換為二進制格式,得到UGC的指紋簽名。
      [0073]本申請實施例提供的UGC指紋簽名確定方法,獲取UGC;過濾所述UGC中的排版信息,得到文字信息;對所述文字信息進行分詞以及詞頻統(tǒng)計,得
      當前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1