国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      對(duì)URL進(jìn)行分類(lèi)的方法和裝置與流程

      文檔序號(hào):11155132閱讀:1364來(lái)源:國(guó)知局
      對(duì)URL進(jìn)行分類(lèi)的方法和裝置與制造工藝

      本發(fā)明涉及大數(shù)據(jù)和互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其是一種對(duì)URL(Uniform Resource Locator,統(tǒng)一資源定位符)進(jìn)行分類(lèi)的方法和裝置。



      背景技術(shù):

      目前,基于DPI(Deep Packet Inspection,深度包檢測(cè))數(shù)據(jù)分析用戶(hù)的上網(wǎng)行為主要是通過(guò)URL地址庫(kù)匹配用戶(hù)訪問(wèn)的網(wǎng)址,然后對(duì)用戶(hù)打標(biāo)簽來(lái)實(shí)現(xiàn)。

      URL地址庫(kù)一般采用網(wǎng)頁(yè)內(nèi)容提取和識(shí)別技術(shù)來(lái)對(duì)URL進(jìn)行分類(lèi)來(lái)構(gòu)建,但是,本發(fā)明的發(fā)明人發(fā)現(xiàn),采用網(wǎng)頁(yè)內(nèi)容提取和識(shí)別技術(shù)對(duì)URL進(jìn)行分類(lèi)的方式具有如下缺點(diǎn):

      一是由于需要針對(duì)不同的網(wǎng)站設(shè)計(jì)個(gè)性化算法,因此,對(duì)URL進(jìn)行分類(lèi)時(shí)的工作量大,效率低;

      二是在不同的網(wǎng)站改版后,需要通過(guò)人工辨別或重新識(shí)別來(lái)重新對(duì)URL進(jìn)行分類(lèi),URL地址庫(kù)無(wú)法自動(dòng)更新。



      技術(shù)實(shí)現(xiàn)要素:

      本發(fā)明實(shí)施例所要解決的其中一個(gè)技術(shù)問(wèn)題是:解決URL分類(lèi)效率低的問(wèn)題。

      根據(jù)本發(fā)明的一方面,提供一種對(duì)URL進(jìn)行分類(lèi)的方法,包括:獲取訪問(wèn)URL的各用戶(hù)的用戶(hù)特征信息和各用戶(hù)訪問(wèn)該URL的訪問(wèn)次數(shù),所述用戶(hù)特征信息包括基于用戶(hù)歷史上網(wǎng)行為確定的用戶(hù)標(biāo)簽和各用戶(hù)標(biāo)簽的權(quán)重;根據(jù)獲取到的各用戶(hù)的用戶(hù)特征信息和各用戶(hù)訪問(wèn)URL的訪問(wèn)次數(shù)確定URL特征信息,所述URL特征信息包括URL的 網(wǎng)頁(yè)類(lèi)型和各網(wǎng)頁(yè)類(lèi)型的權(quán)重;根據(jù)所述URL特征信息對(duì)所述URL進(jìn)行分類(lèi)。

      在一個(gè)實(shí)施例中,所述根據(jù)獲取到的各用戶(hù)的用戶(hù)特征信息和各用戶(hù)訪問(wèn)URL的訪問(wèn)次數(shù)確定URL特征信息包括:根據(jù)uj=(xj1×kj1,xj2×kj2,…xjn×kjn)×pj/P計(jì)算訪問(wèn)該URL的每個(gè)用戶(hù)j的標(biāo)簽向量uj,其中j為正整數(shù),1≤j≤S,S為訪問(wèn)該URL的用戶(hù)總數(shù),xjn為用戶(hù)j的用戶(hù)標(biāo)簽,kjn為用戶(hù)標(biāo)簽xjn的權(quán)重,jn為正整數(shù),pj為用戶(hù)j訪問(wèn)該URL的訪問(wèn)次數(shù),P為所有用戶(hù)訪問(wèn)該URL的總訪問(wèn)次數(shù);將各用戶(hù)j的標(biāo)簽向量uj中相同用戶(hù)標(biāo)簽的權(quán)重累加,并按累加后的用戶(hù)標(biāo)簽的系數(shù)的大小對(duì)用戶(hù)標(biāo)簽進(jìn)行排序,得到該URL的標(biāo)簽向量y=(x1×c1,x2×c2,…,xt×ct),其中xt為用戶(hù)標(biāo)簽,用戶(hù)標(biāo)簽xt的系數(shù)ct為S個(gè)用戶(hù)的標(biāo)簽向量uj中與xt相同的用戶(hù)標(biāo)簽的權(quán)重之和;從URL的標(biāo)簽向量y中選擇用戶(hù)標(biāo)簽的系數(shù)最大的前m個(gè)用戶(hù)標(biāo)簽x1,x2,…xm作為該URL的網(wǎng)頁(yè)類(lèi)型,并將作為網(wǎng)頁(yè)類(lèi)型xi的權(quán)重。

      在一個(gè)實(shí)施例中,所述根據(jù)所述URL特征信息對(duì)所述URL進(jìn)行分類(lèi)包括:選擇各網(wǎng)頁(yè)類(lèi)型的權(quán)重中最大的一個(gè)或多個(gè)網(wǎng)頁(yè)類(lèi)型作為所述URL的網(wǎng)頁(yè)類(lèi)型,以對(duì)所述URL進(jìn)行分類(lèi)。

      在一個(gè)實(shí)施例中,所述方法還包括:從采集的DPI數(shù)據(jù)中篩選出總訪問(wèn)次數(shù)大于預(yù)設(shè)閾值的URL作為所述URL。

      在一個(gè)實(shí)施例中,所述方法還包括:采集所述URL的網(wǎng)頁(yè)內(nèi)容,并根據(jù)所述URL的網(wǎng)頁(yè)內(nèi)容和特定算法識(shí)別所述URL的網(wǎng)頁(yè)類(lèi)型,以對(duì)所述URL進(jìn)行分類(lèi);將分類(lèi)結(jié)果與根據(jù)所述URL特征信息對(duì)所述URL進(jìn)行分類(lèi)的分類(lèi)結(jié)果進(jìn)行比較;根據(jù)比較結(jié)果調(diào)整所述預(yù)設(shè)閾值的大小。

      根據(jù)本發(fā)明的另一方面,提供一種對(duì)URL進(jìn)行分類(lèi)的裝置,包括:用戶(hù)特征信息獲取模塊,用于獲取訪問(wèn)URL的各用戶(hù)的用戶(hù)特征信息和各用戶(hù)訪問(wèn)該URL的訪問(wèn)次數(shù),所述用戶(hù)特征信息包括基于用戶(hù)歷史上網(wǎng)行為確定的用戶(hù)標(biāo)簽和各用戶(hù)標(biāo)簽的權(quán)重;URL特征信息確定 模塊,用于根據(jù)獲取到的各用戶(hù)的用戶(hù)特征信息和各用戶(hù)訪問(wèn)URL的訪問(wèn)次數(shù)確定URL特征信息,所述URL特征信息包括網(wǎng)頁(yè)類(lèi)型和各網(wǎng)頁(yè)類(lèi)型的權(quán)重;URL分類(lèi)模塊,用于根據(jù)所述URL特征信息對(duì)所述URL進(jìn)行分類(lèi)。

      在一個(gè)實(shí)施例中,所述URL特征信息確定模塊包括:用戶(hù)標(biāo)簽計(jì)算單元,用于根據(jù)uj=(xj1×kj1,xj2×kj2,…xjn×kjn)×pj/P計(jì)算訪問(wèn)該URL的每個(gè)用戶(hù)j的標(biāo)簽向量uj,其中j為正整數(shù),1≤j≤S,S為訪問(wèn)該URL的用戶(hù)總數(shù),xjn為用戶(hù)j的用戶(hù)標(biāo)簽,kjn為用戶(hù)標(biāo)簽xjn的權(quán)重,jn為正整數(shù),pj為用戶(hù)j訪問(wèn)該URL的訪問(wèn)次數(shù),P為所有用戶(hù)訪問(wèn)該URL的總訪問(wèn)次數(shù);URL標(biāo)簽計(jì)算單元,用于將各用戶(hù)j的標(biāo)簽向量uj中相同用戶(hù)標(biāo)簽的權(quán)重累加,并按累加后的用戶(hù)標(biāo)簽的系數(shù)的大小對(duì)用戶(hù)標(biāo)簽進(jìn)行排序,得到該URL的標(biāo)簽向量y=(x1×c1,x2×c2,…,xt×ct),其中xt為用戶(hù)標(biāo)簽,用戶(hù)標(biāo)簽xt的系數(shù)ct為S個(gè)用戶(hù)的標(biāo)簽向量uj中與xt相同的用戶(hù)標(biāo)簽的權(quán)重之和;URL特征信息確定單元,用于從URL的標(biāo)簽向量y中選擇用戶(hù)標(biāo)簽的系數(shù)最大的前m個(gè)用戶(hù)標(biāo)簽x1,x2,…xm作為該URL的網(wǎng)頁(yè)類(lèi)型,并將作為網(wǎng)頁(yè)類(lèi)型xi的權(quán)重。

      在一個(gè)實(shí)施例中,所述URL分類(lèi)模塊,具體用于選擇各網(wǎng)頁(yè)類(lèi)型的權(quán)重中最大的一個(gè)或多個(gè)網(wǎng)頁(yè)類(lèi)型作為所述URL的網(wǎng)頁(yè)類(lèi)型,以對(duì)所述URL進(jìn)行分類(lèi)。

      在一個(gè)實(shí)施例中,所述裝置還包括:DPI數(shù)據(jù)分析模塊,用于從采集的DPI數(shù)據(jù)中篩選出總訪問(wèn)次數(shù)大于預(yù)設(shè)閾值的URL作為所述URL。

      在一個(gè)實(shí)施例中,所述裝置還包括:網(wǎng)頁(yè)內(nèi)容采集模塊,用于采集所述URL的網(wǎng)頁(yè)內(nèi)容,并根據(jù)所述URL的網(wǎng)頁(yè)內(nèi)容和特定算法識(shí)別URL的網(wǎng)頁(yè)類(lèi)型,以對(duì)所述URL進(jìn)行分類(lèi);比較模塊,用于將分類(lèi)結(jié)果與根據(jù)所述URL特征信息對(duì)所述URL進(jìn)行分類(lèi)的分類(lèi)結(jié)果進(jìn)行比較;調(diào)整模塊,用于根據(jù)比較結(jié)果調(diào)整所述預(yù)設(shè)閾值的大小。

      本發(fā)明通過(guò)獲取訪問(wèn)URL的各用戶(hù)的用戶(hù)特征信息可以確定URL的特征信息,從而可以確定URL的網(wǎng)頁(yè)類(lèi)型,以對(duì)URL進(jìn)行分類(lèi)。這 種分類(lèi)方式一方面,無(wú)需針對(duì)不同的URL網(wǎng)站設(shè)計(jì)個(gè)性化算法,分類(lèi)效率高;另一方面,在不同的URL網(wǎng)站改版后,即網(wǎng)頁(yè)類(lèi)型發(fā)生變化時(shí),由于可以根據(jù)訪問(wèn)該URL的用戶(hù)特征信息得到URL的特征信息,從而可以及時(shí)對(duì)URL重新進(jìn)行分類(lèi),自動(dòng)更新URL地址庫(kù)。

      下面通過(guò)附圖和實(shí)施例,對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。

      附圖說(shuō)明

      為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

      圖1是本發(fā)明對(duì)URL進(jìn)行分類(lèi)的方法一個(gè)實(shí)施例的流程示意圖;

      圖2是本發(fā)明對(duì)URL進(jìn)行分類(lèi)的方法一個(gè)例子的示意圖;

      圖3是本發(fā)明對(duì)URL進(jìn)行分類(lèi)的裝置一個(gè)實(shí)施例的結(jié)構(gòu)示意圖;

      圖4是本發(fā)明對(duì)URL進(jìn)行分類(lèi)的裝置另一個(gè)實(shí)施例的結(jié)構(gòu)示意圖;

      圖5是本發(fā)明對(duì)URL進(jìn)行分類(lèi)的裝置又一個(gè)實(shí)施例的結(jié)構(gòu)示意圖;

      圖6是本發(fā)明對(duì)URL進(jìn)行分類(lèi)的裝置再一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。

      具體實(shí)施方式

      下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

      除非另外具體說(shuō)明,否則在這些實(shí)施例中闡述的部件和步驟的相對(duì)布置、數(shù)字表達(dá)式和數(shù)值不限制本發(fā)明的范圍。

      同時(shí),應(yīng)當(dāng)明白,為了便于描述,附圖中所示出的各個(gè)部分的尺寸并不是按照實(shí)際的比例關(guān)系繪制的。

      對(duì)于相關(guān)領(lǐng)域普通技術(shù)人員已知的技術(shù)、方法和設(shè)備可能不作詳細(xì)討論,但在適當(dāng)情況下,所述技術(shù)、方法和設(shè)備應(yīng)當(dāng)被視為授權(quán)說(shuō)明書(shū)的一部分。

      在這里示出和討論的所有示例中,任何具體值應(yīng)被解釋為僅僅是示例性的,而不是作為限制。因此,示例性實(shí)施例的其它示例可以具有不同的值。

      應(yīng)注意到:相似的標(biāo)號(hào)和字母在下面的附圖中表示類(lèi)似項(xiàng),因此,一旦某一項(xiàng)在一個(gè)附圖中被定義,則在隨后的附圖中不需要對(duì)其進(jìn)行進(jìn)一步討論。

      本發(fā)明的發(fā)明人發(fā)現(xiàn),在大數(shù)據(jù)統(tǒng)計(jì)的基礎(chǔ)上,當(dāng)訪問(wèn)一個(gè)URL網(wǎng)址的用戶(hù)量較大時(shí),URL網(wǎng)頁(yè)的內(nèi)容體現(xiàn)了訪問(wèn)用戶(hù)的共同需求,而不是單個(gè)用戶(hù)的特殊需求。因此,提出根據(jù)訪問(wèn)URL的各用戶(hù)的用戶(hù)特征信息反向標(biāo)記URL的特征信息。本發(fā)明可用于電信DPI用戶(hù)的行為分析,能夠快速對(duì)訪問(wèn)量大的URL進(jìn)行分類(lèi),識(shí)別新增URL的類(lèi)別,在現(xiàn)有人工審核、基于網(wǎng)頁(yè)分析的URL特征識(shí)別基礎(chǔ)上,能夠進(jìn)一步提高URL分類(lèi)的質(zhì)量和數(shù)量。

      圖1是本發(fā)明對(duì)URL進(jìn)行分類(lèi)的方法一個(gè)實(shí)施例的流程示意圖。如圖1所示,該方法包括:

      步驟102,獲取訪問(wèn)URL的各用戶(hù)的用戶(hù)特征信息和各用戶(hù)訪問(wèn)該URL的訪問(wèn)次數(shù),其中,用戶(hù)特征信息包括基于用戶(hù)歷史上網(wǎng)行為確定的用戶(hù)標(biāo)簽和各用戶(hù)標(biāo)簽的權(quán)重。

      這里,根據(jù)用戶(hù)的歷史上網(wǎng)行為可以得到各用戶(hù)的用戶(hù)特征信息,例如,用戶(hù)經(jīng)常訪問(wèn)財(cái)經(jīng)網(wǎng)站和體育網(wǎng)站,則可以給該用戶(hù)打上兩個(gè)用戶(hù)標(biāo)簽,一個(gè)是財(cái)經(jīng)網(wǎng)站,一個(gè)是體育網(wǎng)站。根據(jù)用戶(hù)訪問(wèn)這兩個(gè)網(wǎng)站的次數(shù)可以得到這兩個(gè)用戶(hù)標(biāo)簽的權(quán)重,從而得到用戶(hù)特征信息。例如,用戶(hù)特征信息可以包括如下內(nèi)容:用戶(hù)標(biāo)簽為財(cái)經(jīng)網(wǎng)站和體育網(wǎng)站,財(cái)經(jīng)網(wǎng)站的權(quán)重為20%,體育網(wǎng)站的權(quán)重為80%。

      另外,可以對(duì)用戶(hù)特征信息中的用戶(hù)標(biāo)簽的數(shù)量進(jìn)行調(diào)整,例如減少用戶(hù)標(biāo)簽的數(shù)量,從而調(diào)整最終URL特征信息中的網(wǎng)頁(yè)類(lèi)型的數(shù)量。

      步驟104,根據(jù)獲取到的各用戶(hù)的用戶(hù)特征信息和各用戶(hù)訪問(wèn)URL的訪問(wèn)次數(shù)確定URL特征信息,該URL特征信息包括URL的網(wǎng)頁(yè)類(lèi)型和各網(wǎng)頁(yè)類(lèi)型的權(quán)重。

      各用戶(hù)的用戶(hù)特征信息可以反應(yīng)URL特征信息,后文將給出示例性的詳細(xì)說(shuō)明。

      步驟106,根據(jù)URL特征信息對(duì)該URL進(jìn)行分類(lèi)。

      在得到URL的特征信息后,即得到了URL的網(wǎng)頁(yè)類(lèi)型和每個(gè)網(wǎng)頁(yè)類(lèi)型的權(quán)重,在一個(gè)實(shí)施例中,可以選擇各網(wǎng)頁(yè)類(lèi)型的權(quán)重中最大的一個(gè)或多個(gè)網(wǎng)頁(yè)類(lèi)型作為URL的網(wǎng)頁(yè)類(lèi)型,以對(duì)URL進(jìn)行分類(lèi)。

      本實(shí)施例通過(guò)獲取訪問(wèn)URL的各用戶(hù)的用戶(hù)特征信息可以確定URL的特征信息,從而可以確定URL的網(wǎng)頁(yè)類(lèi)型,以對(duì)URL進(jìn)行分類(lèi)。這種分類(lèi)方式一方面,無(wú)需針對(duì)不同的URL網(wǎng)站設(shè)計(jì)個(gè)性化算法,分類(lèi)效率高;另一方面,在不同的URL網(wǎng)站改版后,即網(wǎng)頁(yè)類(lèi)型發(fā)生變化時(shí),由于可以根據(jù)訪問(wèn)該URL的用戶(hù)特征信息得到URL的特征信息,從而可以及時(shí)對(duì)URL重新進(jìn)行分類(lèi),自動(dòng)更新URL地址庫(kù)。

      作為一個(gè)具體實(shí)施例,圖1所示步驟104可以通過(guò)如下方式來(lái)實(shí)現(xiàn):

      首先,根據(jù)uj=(xj1×kj1,xj2×kj2,…xjn×kjn)×pj/P計(jì)算訪問(wèn)該URL的每個(gè)用戶(hù)j的標(biāo)簽向量uj,其中j為正整數(shù),1≤j≤S,S為訪問(wèn)該URL的用戶(hù)總數(shù),xjn為用戶(hù)j的用戶(hù)標(biāo)簽,kjn為用戶(hù)標(biāo)簽xjn的權(quán)重,jn為正整數(shù),pj為用戶(hù)j訪問(wèn)該URL的訪問(wèn)次數(shù),P為所有用戶(hù)訪問(wèn)該URL的總訪問(wèn)次數(shù)。

      然后,將各用戶(hù)j的標(biāo)簽向量uj中相同用戶(hù)標(biāo)簽的權(quán)重累加,并按累加后的用戶(hù)標(biāo)簽的系數(shù)的大小對(duì)用戶(hù)標(biāo)簽進(jìn)行排序,例如升序或降序排列,從而得到該URL的標(biāo)簽向量y=(x1×c1,x2×c2,…,xt×ct),其中如果各用戶(hù)的用戶(hù)標(biāo)簽均不相同,則xt為用戶(hù)標(biāo)簽,用戶(hù)標(biāo)簽xt的系數(shù)ct為S個(gè)用戶(hù)的標(biāo)簽向量uj中與xt相同的用戶(hù)標(biāo)簽的權(quán)重之和。具體地,當(dāng)xt=xjh時(shí),ct可以表示為以下公式:其中kjh∈(kj1,kj2,…kjn),xjh∈(xj1,xj2,…xjn)。

      之后,從URL的標(biāo)簽向量y中選擇用戶(hù)標(biāo)簽的系數(shù)最大的前m個(gè)用戶(hù)標(biāo)簽x1,x2,…xm作為該URL的網(wǎng)頁(yè)類(lèi)型,并將作為網(wǎng)頁(yè)類(lèi)型xi的權(quán)重。即,分別為網(wǎng)頁(yè)類(lèi)型x1,x2,…xm的權(quán)重。

      本實(shí)施例中,通過(guò)用戶(hù)特征信息和各用戶(hù)訪問(wèn)該URL的訪問(wèn)次數(shù)可以得到各用戶(hù)的標(biāo)簽向量,根據(jù)各用戶(hù)的標(biāo)簽向量可以得到URL的標(biāo)簽向量,從而得到URL的特征信息。

      應(yīng)理解,雖然上述實(shí)施例通過(guò)標(biāo)簽向量的方式實(shí)現(xiàn)了圖1所示步驟104,然而這并非是限制性的,本領(lǐng)域技術(shù)人員可以采用其他方式根據(jù)各用戶(hù)的用戶(hù)特征信息和各用戶(hù)訪問(wèn)URL的訪問(wèn)次數(shù)確定URL特征信息。

      下面結(jié)合圖2列舉一個(gè)例子對(duì)本發(fā)明對(duì)URL進(jìn)行分類(lèi)的方法進(jìn)行詳細(xì)說(shuō)明:

      如圖2所示,訪問(wèn)URL:http://x.x.com的總訪問(wèn)次數(shù)為P=10次。其中,用戶(hù)A訪問(wèn)URL的訪問(wèn)次數(shù)為p1=2次,用戶(hù)B訪問(wèn)URL的訪問(wèn)次數(shù)為p2=8次。

      用戶(hù)A的用戶(hù)特征信息為:新聞,權(quán)重為0.6;購(gòu)物,權(quán)重為0.2;體育,權(quán)重為0.1。

      用戶(hù)A的標(biāo)簽向量為u1=(x1×k11,x2×k12,…x1n×k1n)×p1/P=(新聞×0.6,購(gòu)物×0.2,體育×0.1)×2/10=(新聞×0.12,購(gòu)物×0.04,體育×0.02)。

      用戶(hù)B的用戶(hù)特征信息為:購(gòu)物,權(quán)重為0.5;嬰幼,權(quán)重為0.3;視頻,權(quán)重為0.1。

      用戶(hù)B的標(biāo)簽向量為u2=(x1×k21,x2×k22,…x2n×k2n)×p2/P=(購(gòu)物×0.5,嬰幼×0.3,視頻×0.1)×8/10=(購(gòu)物×0.4,嬰幼×0.24,視頻×0.08)。

      將用戶(hù)A的標(biāo)簽向量為u1和用戶(hù)B的標(biāo)簽向量為u2中相同網(wǎng)頁(yè)類(lèi)型的權(quán)重相加(即購(gòu)物的權(quán)重0.04+0.4相加)得到URL:http://x.x.com的標(biāo)簽向量為:y=(x1×m1,x2×m2,…,xt×mt) =(新聞×0.12,購(gòu)物×0.44,體育×0.02,嬰幼×0.24,視頻×0.08)。

      選擇網(wǎng)頁(yè)類(lèi)型最大的2個(gè),即購(gòu)物和嬰幼作為URL的網(wǎng)頁(yè)類(lèi)型,或者僅選擇最大的一個(gè),即購(gòu)物作為URL的網(wǎng)頁(yè)類(lèi)型,以對(duì)該URL進(jìn)行分類(lèi)。

      應(yīng)理解,圖2示意性地示出了兩個(gè)用戶(hù)訪問(wèn)URL的例子,在實(shí)際應(yīng)用中,本發(fā)明提供的對(duì)URL進(jìn)行分類(lèi)的方法尤其適用于訪問(wèn)次數(shù)多的URL,在一個(gè)實(shí)施例中,可以從采集的DPI數(shù)據(jù)中篩選出總訪問(wèn)次數(shù)大于預(yù)設(shè)閾值的URL作為要進(jìn)行分類(lèi)的URL,從而增加分類(lèi)的準(zhǔn)確性。例如,計(jì)算某一段時(shí)間內(nèi)DPI數(shù)據(jù)中各URL的訪問(wèn)次數(shù),排序篩選出總訪問(wèn)次數(shù)大于預(yù)設(shè)閾值的URL作為要進(jìn)行分類(lèi)的URL。

      另外,為了驗(yàn)證分類(lèi)結(jié)果的正確性,在一個(gè)實(shí)施例中,對(duì)URL進(jìn)行分類(lèi)的方法還可以包括如下步驟:

      步驟S1,采集URL的網(wǎng)頁(yè)內(nèi)容,并根據(jù)該URL的網(wǎng)頁(yè)內(nèi)容和特定算法對(duì)URL進(jìn)行分類(lèi)。

      例如,通過(guò)人工審核或網(wǎng)頁(yè)爬取的方式采集URL的網(wǎng)頁(yè)內(nèi)容,根據(jù)該URL的網(wǎng)頁(yè)內(nèi)容,通過(guò)文本挖掘算法識(shí)別該URL的網(wǎng)頁(yè)類(lèi)型,從而對(duì)URL進(jìn)行分類(lèi)。這里,對(duì)不同的URL需要對(duì)文本挖掘算法進(jìn)行相應(yīng)的調(diào)整。

      步驟S2,將步驟S1得到的分類(lèi)結(jié)果與根據(jù)URL特征信息對(duì)該URL進(jìn)行分類(lèi)的分類(lèi)結(jié)果進(jìn)行比較。

      步驟S3,根據(jù)比較結(jié)果調(diào)整預(yù)設(shè)閾值的大小。

      如果兩個(gè)結(jié)果不一致,則可以將預(yù)設(shè)閾值的調(diào)整為更大的值,從而使得根據(jù)URL特征信息對(duì)URL進(jìn)行分類(lèi)的分類(lèi)結(jié)果更加準(zhǔn)確。如果兩個(gè)結(jié)果一致,則無(wú)需調(diào)整預(yù)設(shè)閾值。

      本實(shí)施例通過(guò)對(duì)兩種分類(lèi)結(jié)果的比較,可以驗(yàn)證本發(fā)明對(duì)URL分類(lèi)的方法的正確性,根據(jù)驗(yàn)證結(jié)果可以適時(shí)地調(diào)整預(yù)設(shè)閾值的大小,從而進(jìn)一步提高分類(lèi)結(jié)果的可靠性。

      本發(fā)明提供的對(duì)URL進(jìn)行分類(lèi)的方法同樣適用于對(duì)APP地址分類(lèi)。

      本說(shuō)明書(shū)中各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō) 明的都是與其它實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同或相似的部分相互參見(jiàn)即可。對(duì)于裝置實(shí)施例而言,由于其與方法實(shí)施例基本對(duì)應(yīng),所以描述的比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。

      圖3是本發(fā)明對(duì)URL進(jìn)行分類(lèi)的裝置一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。如圖3所示,該裝置包括:

      用戶(hù)特征信息獲取模塊301,用于獲取訪問(wèn)URL的各用戶(hù)的用戶(hù)特征信息和各用戶(hù)訪問(wèn)該URL的訪問(wèn)次數(shù),其中,用戶(hù)特征信息包括基于用戶(hù)歷史上網(wǎng)行為確定的用戶(hù)標(biāo)簽和各用戶(hù)標(biāo)簽的權(quán)重;

      URL特征信息確定模塊302,用于根據(jù)獲取到的各用戶(hù)的用戶(hù)特征信息和各用戶(hù)訪問(wèn)URL的訪問(wèn)次數(shù)確定URL特征信息,URL特征信息包括網(wǎng)頁(yè)類(lèi)型和各網(wǎng)頁(yè)類(lèi)型的權(quán)重;

      URL分類(lèi)模塊303,用于根據(jù)URL特征信息對(duì)URL進(jìn)行分類(lèi)。

      示例性地,URL分類(lèi)模塊303具體用于選擇各網(wǎng)頁(yè)類(lèi)型的權(quán)重中最大的一個(gè)或多個(gè)網(wǎng)頁(yè)類(lèi)型作為URL的網(wǎng)頁(yè)類(lèi)型,以對(duì)URL進(jìn)行分類(lèi)。

      本實(shí)施例通過(guò)獲取訪問(wèn)URL的各用戶(hù)的用戶(hù)特征信息可以確定URL的特征信息,從而可以確定URL的網(wǎng)頁(yè)類(lèi)型,以對(duì)URL進(jìn)行分類(lèi)。這種分類(lèi)方式一方面,無(wú)需針對(duì)不同的URL網(wǎng)站設(shè)計(jì)個(gè)性化算法,分類(lèi)效率高;另一方面,在不同的URL網(wǎng)站改版后,即網(wǎng)頁(yè)類(lèi)型發(fā)生變化時(shí),由于可以根據(jù)訪問(wèn)該URL的用戶(hù)特征信息得到URL的特征信息,從而可以及時(shí)對(duì)URL重新進(jìn)行分類(lèi),自動(dòng)更新URL地址庫(kù)。

      圖4是本發(fā)明對(duì)URL進(jìn)行分類(lèi)的裝置另一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。如圖4所示,本實(shí)施例中的URL特征信息確定模塊302可以包括:

      用戶(hù)標(biāo)簽計(jì)算單元311,用于根據(jù)uj=(xj1×kj1,xj2×kj2,…xjn×kjn)×pj/P計(jì)算訪問(wèn)該URL的每個(gè)用戶(hù)j的標(biāo)簽向量uj,其中j為正整數(shù),1≤j≤S,S為訪問(wèn)該URL的用戶(hù)總數(shù),xjn為用戶(hù)j的用戶(hù)標(biāo)簽,kjn為用戶(hù)標(biāo)簽xjn的權(quán)重,jn為正整數(shù),pj為用戶(hù)j訪問(wèn)該URL的訪問(wèn)次數(shù),P為所有用戶(hù)訪問(wèn)該URL的總訪問(wèn)次數(shù);

      URL標(biāo)簽計(jì)算單元321,用于將各用戶(hù)j的標(biāo)簽向量uj中相同用戶(hù)標(biāo)簽的權(quán)重累加,并按累加后的用戶(hù)標(biāo)簽的系數(shù)的大小對(duì)用戶(hù)標(biāo)簽進(jìn)行 排序,得到該URL的標(biāo)簽向量y=(x1×c1,x2×c2,…,xt×ct),其中xt為用戶(hù)標(biāo)簽,用戶(hù)標(biāo)簽xt的系數(shù)ct為S個(gè)用戶(hù)的標(biāo)簽向量uj中與xt相同的用戶(hù)標(biāo)簽的權(quán)重之和;

      URL特征信息確定單元331,用于從URL的標(biāo)簽向量y中選擇用戶(hù)標(biāo)簽的系數(shù)最大的前m個(gè)用戶(hù)標(biāo)簽x1,x2,…xm作為該URL的網(wǎng)頁(yè)類(lèi)型,并將作為網(wǎng)頁(yè)類(lèi)型xi的權(quán)重。

      本實(shí)施例中,通過(guò)用戶(hù)特征信息和各用戶(hù)訪問(wèn)該URL的訪問(wèn)次數(shù)可以得到各用戶(hù)的標(biāo)簽向量,根據(jù)各用戶(hù)的標(biāo)簽向量可以得到URL的標(biāo)簽向量,從而得到URL的特征信息。

      圖5是本發(fā)明對(duì)URL進(jìn)行分類(lèi)的裝置又一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。如圖5所示,為了提高分類(lèi)的準(zhǔn)確,該裝置還可以包括:

      DPI數(shù)據(jù)分析模塊501,用于從采集的DPI數(shù)據(jù)中篩選出總訪問(wèn)次數(shù)大于預(yù)設(shè)閾值的URL作為所述URL。

      圖6是本發(fā)明對(duì)URL進(jìn)行分類(lèi)的裝置再一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。如圖6所示,該裝置還可以包括:

      網(wǎng)頁(yè)內(nèi)容采集模塊601,用于采集URL的網(wǎng)頁(yè)內(nèi)容,并根據(jù)URL的網(wǎng)頁(yè)內(nèi)容和特定算法識(shí)別URL的網(wǎng)頁(yè)類(lèi)型,以對(duì)URL進(jìn)行分類(lèi);

      比較模塊602,用于將分類(lèi)結(jié)果與根據(jù)URL特征信息對(duì)URL進(jìn)行分類(lèi)的分類(lèi)結(jié)果進(jìn)行比較;

      調(diào)整模塊603,用于根據(jù)比較結(jié)果調(diào)整預(yù)設(shè)閾值的大小。

      本實(shí)施例通過(guò)對(duì)兩種分類(lèi)結(jié)果的比較,可以驗(yàn)證本發(fā)明對(duì)URL分類(lèi)的方法的正確性,根據(jù)驗(yàn)證結(jié)果可以適時(shí)地調(diào)整預(yù)設(shè)閾值的大小,從而進(jìn)一步提高分類(lèi)結(jié)果的可靠性。

      本領(lǐng)域普通技術(shù)人員可以理解:實(shí)現(xiàn)上述方法實(shí)施例的全部或部分步驟可以通過(guò)程序指令相關(guān)的硬件來(lái)完成,前述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),執(zhí)行包括上述方法實(shí)施例的步驟;而前述的存儲(chǔ)介質(zhì)包括:ROM、RAM、磁碟或者光盤(pán)等各種可以存儲(chǔ)程序代碼的介質(zhì)。

      本發(fā)明的描述是為了示例和描述起見(jiàn)而給出的,而并不是無(wú)遺漏的 或者將本發(fā)明限于所公開(kāi)的形式。很多修改和變化對(duì)于本領(lǐng)域的普通技術(shù)人員而言是顯然的。選擇和描述實(shí)施例是為了更好說(shuō)明本發(fā)明的原理和實(shí)際應(yīng)用,并且使本領(lǐng)域的普通技術(shù)人員能夠理解本發(fā)明從而設(shè)計(jì)適于特定用途的帶有各種修改的各種實(shí)施例。

      當(dāng)前第1頁(yè)1 2 3 
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1