国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種網(wǎng)絡(luò)數(shù)據(jù)的過濾方法、裝置和系統(tǒng)的制作方法

      文檔序號(hào):8395957閱讀:438來源:國知局
      一種網(wǎng)絡(luò)數(shù)據(jù)的過濾方法、裝置和系統(tǒng)的制作方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及通信技術(shù)領(lǐng)域,具體涉及一種網(wǎng)絡(luò)數(shù)據(jù)的過濾方法、裝置和系統(tǒng)。
      【背景技術(shù)】
      [0002] 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)信息也越來越為豐富繁多,這些信息在給我們帶來 便利的同時(shí),也帶來一些負(fù)面的影響,比如,充斥在其中的一些關(guān)于色情或暴力的圖文消 息,就會(huì)給青少年的成長以及社會(huì)的穩(wěn)定帶來不利的影響。因此,如何在這龐大的信息中, 將一些負(fù)面信息過濾掉,是一個(gè)極為重要的問題。
      [0003] 在現(xiàn)有技術(shù)中,一般會(huì)通過人工標(biāo)識(shí)一些敏感詞,然后通過文本挖掘和分析來從 各種網(wǎng)絡(luò)數(shù)據(jù)中過濾掉相應(yīng)的詞匯,以達(dá)到識(shí)別某類信息的目的。而對(duì)于圖片類型的數(shù)據(jù), 則需要通過人工標(biāo)注的方式來進(jìn)行識(shí)別。
      [0004] 在對(duì)現(xiàn)有技術(shù)的研宄和實(shí)踐過程中,本發(fā)明的發(fā)明人發(fā)現(xiàn),由于作弊者用詞千變 萬化,同一類敏感詞常常會(huì)出現(xiàn)非常多的變種,因此,單純依靠文本挖掘和分析難以長久保 證較高的準(zhǔn)確率和效果,而僅靠人工標(biāo)注來識(shí)別色情圖片等圖片數(shù)據(jù),計(jì)算量也很大,導(dǎo)致 處理效率較低,效果也不佳。

      【發(fā)明內(nèi)容】

      [0005] 本發(fā)明實(shí)施例提供一種網(wǎng)絡(luò)數(shù)據(jù)的過濾方法、裝置和系統(tǒng),不僅可以提高識(shí)別的 準(zhǔn)確率和過濾效果,而且可以提高處理效率。
      [0006] 本發(fā)明實(shí)施例提供一種網(wǎng)絡(luò)數(shù)據(jù)的過濾方法,包括:
      [0007] 獲取目標(biāo)信息類型的種子庫,以及用戶行為數(shù)據(jù);
      [0008] 根據(jù)所述用戶行為數(shù)據(jù)和預(yù)置過濾規(guī)則對(duì)所述種子庫進(jìn)行初步過濾,得到候選 集;
      [0009] 基于所述候選集構(gòu)造轉(zhuǎn)移矩陣,并初始化用戶打分向量和頁面打分向量;
      [0010] 根據(jù)所述轉(zhuǎn)移矩陣、用戶打分向量和頁面打分向量對(duì)所述候選集中的信息進(jìn)行過 濾,得到目標(biāo)信息;
      [0011] 將目標(biāo)信息加入所述種子庫。
      [0012] 相應(yīng)的,本發(fā)明實(shí)施例提供一種網(wǎng)絡(luò)數(shù)據(jù)的過濾裝置,包括:
      [0013] 獲取單元,用于獲取目標(biāo)信息類型的種子庫,以及用戶行為數(shù)據(jù);
      [0014] 第一過濾單元,用于根據(jù)所述用戶行為數(shù)據(jù)和預(yù)置過濾規(guī)則對(duì)所述種子庫進(jìn)行初 步過濾,得到候選集;
      [0015] 構(gòu)造單元,用于基于所述候選集構(gòu)造轉(zhuǎn)移矩陣,并初始化用戶打分向量和頁面打 分向量;
      [0016] 第二過濾單元,用于根據(jù)所述轉(zhuǎn)移矩陣、用戶打分向量和頁面打分向量對(duì)所述候 選集中的信息進(jìn)行過濾,得到目標(biāo)信息;
      [0017] 添加單元,用于將目標(biāo)信息加入所述種子庫。
      [0018] -種通信系統(tǒng),包括本發(fā)明實(shí)施例提供的任一種網(wǎng)絡(luò)數(shù)據(jù)的過濾裝置。
      [0019] 本發(fā)明實(shí)施例采用獲取目標(biāo)信息類型的種子庫,以及用戶行為數(shù)據(jù),根據(jù)該用戶 行為數(shù)據(jù)和預(yù)置過濾規(guī)則對(duì)該種子庫進(jìn)行初步過濾,得到候選集,然后基于該候選集構(gòu)造 轉(zhuǎn)移矩陣,并初始化用戶打分向量和頁面打分向量,并根據(jù)轉(zhuǎn)移矩陣、用戶打分向量和頁面 打分向量對(duì)該候選集中的信息進(jìn)行過濾,得到目標(biāo)信息,將目標(biāo)信息加入該種子庫,從而實(shí) 現(xiàn)在識(shí)別出目標(biāo)信息的同時(shí),對(duì)該種子庫自行進(jìn)行學(xué)習(xí)和實(shí)時(shí)更新的目的;相對(duì)于現(xiàn)有技 術(shù)中單純依靠文本挖掘分析的方案而言,可以避免由于敏感詞匯變種所導(dǎo)致的識(shí)別不出的 情況的發(fā)生,大大提高了識(shí)別的準(zhǔn)確率和過濾效果,而且,由于該方案可以自動(dòng)進(jìn)行識(shí)別, 而無需進(jìn)行人工標(biāo)注,因此,也可以大大提高處理效率。
      【附圖說明】
      [0020] 為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使 用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于 本領(lǐng)域技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附 圖。
      [0021] 圖1是本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)數(shù)據(jù)的過濾方法的流程圖;
      [0022] 圖2是本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)數(shù)據(jù)的過濾方法的另一流程圖;
      [0023] 圖3是本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)數(shù)據(jù)的過濾裝置的結(jié)構(gòu)示意圖。
      【具體實(shí)施方式】
      [0024] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于 本發(fā)明中的實(shí)施例,本領(lǐng)域技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施 例,都屬于本發(fā)明保護(hù)的范圍。
      [0025] 本發(fā)明實(shí)施例提供一種網(wǎng)絡(luò)數(shù)據(jù)的過濾方法、裝置和系統(tǒng)。以下分別進(jìn)行詳細(xì)說 明。
      [0026] 實(shí)施例一、
      [0027] 本實(shí)施例將從網(wǎng)絡(luò)數(shù)據(jù)的過濾裝置的角度進(jìn)行描述,該網(wǎng)絡(luò)數(shù)據(jù)的過濾裝置具體 可以集成在服務(wù)器等網(wǎng)絡(luò)設(shè)備中。
      [0028] 一種網(wǎng)絡(luò)數(shù)據(jù)的過濾方法,包括:獲取目標(biāo)信息類型的種子庫,以及用戶行為數(shù) 據(jù),根據(jù)該用戶行為數(shù)據(jù)和預(yù)置過濾規(guī)則對(duì)該種子庫進(jìn)行初步過濾,得到候選集,基于該候 選集構(gòu)造轉(zhuǎn)移矩陣,并初始化用戶打分向量和頁面打分向量,根據(jù)該轉(zhuǎn)移矩陣、用戶打分向 量和頁面打分向量對(duì)該候選集中的信息進(jìn)行過濾,得到目標(biāo)信息;將目標(biāo)信息加入所述種 子庫。
      [0029] 如圖1所示,該網(wǎng)絡(luò)數(shù)據(jù)的過濾方法的具體流程可以如下:
      [0030] 101、獲取目標(biāo)信息類型的種子庫,以及用戶行為數(shù)據(jù)。
      [0031]其中,目標(biāo)信息類型可以根據(jù)實(shí)際應(yīng)用的需求進(jìn)行設(shè)置,比如,如果需要對(duì)色情圖 文進(jìn)行識(shí)別,則可以將該目標(biāo)信息類型設(shè)置為色情圖文,而如果需要對(duì)一些政治敏感圖文 進(jìn)行識(shí)別,則可以將該目標(biāo)信息類型設(shè)置為政治敏感圖文,等等。
      [0032] 初始時(shí),該種子庫可以由人工預(yù)先進(jìn)行構(gòu)造,例如,以目標(biāo)信息類型為色情圖文為 例,則可以預(yù)先收集一些色情消息、網(wǎng)址、以及人工標(biāo)注一些色情圖片,然后添加到種子庫 中,等等。
      [0033] 102、根據(jù)該用戶行為數(shù)據(jù)和預(yù)置過濾規(guī)則對(duì)該種子庫進(jìn)行初步過濾,得到候選 集。
      [0034] 其中,過濾規(guī)則可以根據(jù)實(shí)際應(yīng)用的需求進(jìn)行設(shè)置。例如,步驟"根據(jù)該用戶行為 數(shù)據(jù)和預(yù)置過濾規(guī)則對(duì)該種子庫進(jìn)行初步過濾,得到候選集"(即步驟102)具體可以如下:
      [0035] (1)根據(jù)該用戶行為數(shù)據(jù),拉取對(duì)該種子庫中的圖文消息有用戶行為的用戶,得到 第一用戶集合。
      [0036] 例如,以該種子庫為色情圖文消息集合為例,如果用戶對(duì)該色情圖文消息集合中 的色情圖文消息有興趣,則表明該用戶有可能是色情用戶,因此,將其添加至第一用戶集 合。
      [0037] (2)確定該第一用戶集合中各個(gè)用戶對(duì)該種子庫的關(guān)注度。
      [0038] 其中,關(guān)注度可以通過多種方式來衡量,比如,可以通過用戶對(duì)該種子庫中圖文消 息的瀏覽時(shí)間長度、和/或?yàn)g覽的圖文消息的數(shù)量等來進(jìn)行統(tǒng)計(jì),瀏覽時(shí)間越長、和/或數(shù) 量越多則表明關(guān)注度越高,否則,則關(guān)注度越低。
      [0039] 例如,以該目標(biāo)信息類型為色情圖文為例,若一個(gè)用戶瀏覽了很多色情圖文消息, 或者瀏覽的色情圖文消息的時(shí)間很長,則表明該用戶對(duì)色情圖文消息的關(guān)注度較高,等等。
      [0040] (3)將關(guān)注度大于預(yù)置第一閾值的用戶添加至第二用戶集合中。
      [0041] 例如,以色情圖文為例,若一個(gè)用戶對(duì)色情圖文消息的關(guān)注度很高(即超過第一 閾值),則表明該用戶為色情用戶,因此,將該用戶添加至第二用戶集合,比如潛在色情用戶 集合中。
      [0042] 其中,該第一閾值可以根據(jù)實(shí)際應(yīng)用的需求進(jìn)行設(shè)置。
      [0043] (4)查詢?cè)摰诙脩艏现杏脩舻男袨閿?shù)據(jù),以拉取用戶有行為的圖文消息,得到 第一圖文消息集合。
      [0044]例如,還是以該目標(biāo)信息類型為色情圖文為例,若一個(gè)圖文消息被很多色情用戶 所關(guān)注,那么,該圖文消息就可能是色情圖文消息,因此,可以通過查詢?cè)摰诙脩艏?,?如潛在色情用戶集合中用戶的行為數(shù)據(jù),以拉取用戶有行為的圖文消息,作為潛在的色情 圖文消息集合。
      [0045] (5)確定該第一圖文消息集合中各圖文消息的覆蓋度。
      [0046] 其中,該覆蓋度指示圖文消息被該第二用戶集合中用戶所關(guān)注的程度。具體可以 通過瀏覽次數(shù)等來衡量,被越多的第二用戶集合中用戶所瀏覽,則覆蓋度越高,否則,則覆 蓋度越低。
      [0047] (6)將覆蓋度大于第二
      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1