一種用戶上網(wǎng)信息處理方法及裝置的制造方法
【專利摘要】本發(fā)明實施例提供一種用戶上網(wǎng)信息處理方法及裝置,涉及通信領域,能夠對用戶訪問的網(wǎng)頁的正文內容進行分析,獲取用戶的上網(wǎng)行為。包括:服務器接收網(wǎng)關發(fā)送的數(shù)據(jù)包,數(shù)據(jù)包包括URL,URL為用戶訪問的網(wǎng)頁的地址;根據(jù)URL獲取URL對應的網(wǎng)頁的HTML源碼;解析URL對應的網(wǎng)頁的HTML源碼,得到URL對應的網(wǎng)頁的關鍵詞和正文文本;根據(jù)URL對應的網(wǎng)頁的關鍵詞確定URL對應的網(wǎng)頁的主題。用于分析用戶訪問的網(wǎng)頁的正文內容。
【專利說明】
一種用戶上網(wǎng)信息處理方法及裝置
技術領域
[0001]本發(fā)明涉及通信領域,尤其涉及一種用戶上網(wǎng)信息處理方法及裝置。
【背景技術】
[0002]隨著互聯(lián)網(wǎng)技術的發(fā)展,越來越多的用戶可以使用終端設備訪問互聯(lián)網(wǎng),進行資料查詢或觀看視頻等業(yè)務。在用戶數(shù)出現(xiàn)迅猛的增長的同時,用戶對互聯(lián)網(wǎng)的要求也越來越高。隨著業(yè)務的多元化,分析用戶的群體構成及其習慣愛好等用戶上網(wǎng)行為,向用戶提供更具個性化的服務,已經(jīng)成為一個重要的研究方向,也是網(wǎng)絡的規(guī)劃、設計和管理的重要依據(jù)。
[0003]現(xiàn)有技術中,從服務器存儲的日志中采集用戶上網(wǎng)信息,通過分析用戶上網(wǎng)信息獲取用戶上網(wǎng)軌跡,但日志所提供的數(shù)據(jù)有限,只能提供用戶標識、用戶IP和用戶訪問的網(wǎng)頁時的統(tǒng)一資源定位符(英文全稱:Uniform Resource Locator,英文簡稱:URL)等,并不能獲取到用戶訪問的網(wǎng)頁的具體內容,也就是web正文。
[0004]進一步的,根據(jù)采集到的URL將網(wǎng)頁進行分類。例如,采用樸素貝葉斯分類方法,使用類別概率和特征項的聯(lián)合分布概率自動推理出用戶所瀏覽的網(wǎng)頁的類別,在網(wǎng)頁分類的基礎上對用戶的上網(wǎng)習慣進行分析,得出用戶行為分析結果。但是,這樣也僅僅對網(wǎng)頁進行了分類,并沒有對用戶訪問的網(wǎng)頁的內容進行更深層次的分析和挖掘。
【發(fā)明內容】
[0005]本發(fā)明實施例提供一種用戶上網(wǎng)信息處理方法及裝置,能夠對用戶訪問的網(wǎng)頁的正文內容進行分析,獲取用戶的上網(wǎng)行為。
[0006]為達到上述目的,本發(fā)明實施例采用的技術方案是:
[0007]第一方面,提供一種用戶上網(wǎng)信息處理方法,包括:
[0008]服務器接收網(wǎng)關發(fā)送的數(shù)據(jù)包,所述數(shù)據(jù)包包括統(tǒng)一資源定位符URL,所述URL為用戶訪問的網(wǎng)頁的地址;
[0009]所述服務器根據(jù)所述URL獲取所述URL對應的網(wǎng)頁的超級文本標記語言HTML源碼;
[0010]解析所述URL對應的網(wǎng)頁的HTML源碼,得所述服務器到所述URL對應的網(wǎng)頁的關鍵詞和正文文本;
[0011]所述服務器根據(jù)所述URL對應的網(wǎng)頁的關鍵詞確定所述URL對應的網(wǎng)頁的主題。
[0012]上述第一方面提供的用戶上網(wǎng)信息分析方法,首先,根據(jù)從網(wǎng)關發(fā)送來的數(shù)據(jù)包包括的URL,來獲取該URL對應的網(wǎng)頁的HTML源碼,然后,解析HTML源碼,根據(jù)解析的HTML源碼URL對應的網(wǎng)頁的關鍵詞和正文文本,根據(jù)所述URL對應的網(wǎng)頁的關鍵詞確定所述URL對應的網(wǎng)頁的主題。從而通過提取用戶訪問的網(wǎng)頁的正文內容的關鍵詞對用戶訪問的網(wǎng)頁進行分析,確定用戶訪問的網(wǎng)頁的主題,獲取用戶的上網(wǎng)行為。
[0013]第二方面,提供一種用戶上網(wǎng)信息處理方法,包括:
[0014]網(wǎng)關獲取統(tǒng)一資源定位符URL,所述URL為用戶訪問的網(wǎng)頁的地址;
[0015]所述網(wǎng)關向服務器發(fā)送數(shù)據(jù)包,所述數(shù)據(jù)包包括解析標識、用戶標識、用戶IP地址、數(shù)據(jù)包的包長和所述URL。
[0016]上述第二方面提供的用戶上網(wǎng)信息處理方法,網(wǎng)關獲取URL后,向服務器發(fā)送包括該URL的數(shù)據(jù)包,使得服務器根據(jù)從網(wǎng)關發(fā)送來的數(shù)據(jù)包包括的URL,來獲取該URL對應的網(wǎng)頁的HTML源碼,然后,解析HTML源碼,根據(jù)解析的HTML源碼URL對應的網(wǎng)頁的關鍵詞和正文文本,根據(jù)所述URL對應的網(wǎng)頁的關鍵詞確定所述URL對應的網(wǎng)頁的主題。從而通過提取用戶訪問的網(wǎng)頁的正文內容的關鍵詞對用戶訪問的網(wǎng)頁進行分析,確定用戶訪問的網(wǎng)頁的主題,獲取用戶的上網(wǎng)行為。
[0017]第三方面,提供一種服務器,包括:
[0018]接收單元,用于接收網(wǎng)關發(fā)送的數(shù)據(jù)包,所述數(shù)據(jù)包包括統(tǒng)一資源定位符URL,所述URL為用戶訪問的網(wǎng)頁的地址;
[0019]所述接收單元,還用于接收所述URL對應的網(wǎng)頁的超級文本標記語言HTML源碼;
[0020]處理單元,用于解析所述URL對應的網(wǎng)頁的HTML源碼,得到所述URL對應的網(wǎng)頁的關鍵詞和正文文本;
[0021]所述處理單元,用于根據(jù)所述URL對應的網(wǎng)頁的關鍵詞確定所述URL對應的網(wǎng)頁的主題。
[0022]上述第三方面提供的服務器,首先,根據(jù)從網(wǎng)關發(fā)送來的數(shù)據(jù)包包括的URL,來獲取該URL對應的網(wǎng)頁的HTML源碼,然后,解析HTML源碼,根據(jù)解析的HTML源碼URL對應的網(wǎng)頁的關鍵詞和正文文本,根據(jù)所述URL對應的網(wǎng)頁的關鍵詞確定所述URL對應的網(wǎng)頁的主題。從而通過提取用戶訪問的網(wǎng)頁的正文內容的關鍵詞對用戶訪問的網(wǎng)頁進行分析,確定用戶訪問的網(wǎng)頁的主題,獲取用戶的上網(wǎng)行為。
[0023]第四方面,提供一種網(wǎng)關,包括:
[0024]處理單元,用于獲取統(tǒng)一資源定位符URL,所述URL為用戶訪問的網(wǎng)頁的地址;
[0025]發(fā)送單元,用于向服務器發(fā)送數(shù)據(jù)包,所述數(shù)據(jù)包包括解析標識、用戶標識、用戶IP地址、數(shù)據(jù)包的包長和所述URL。
[0026]上述第四方面提供的網(wǎng)關,獲取URL后,向服務器發(fā)送包括該URL的數(shù)據(jù)包,使得服務器根據(jù)從網(wǎng)關發(fā)送來的數(shù)據(jù)包包括的URL,來獲取該URL對應的網(wǎng)頁的HTML源碼,然后,解析HTML源碼,根據(jù)解析的HTML源碼URL對應的網(wǎng)頁的關鍵詞和正文文本,根據(jù)所述URL對應的網(wǎng)頁的關鍵詞確定所述URL對應的網(wǎng)頁的主題。從而通過提取用戶訪問的網(wǎng)頁的正文內容的關鍵詞對用戶訪問的網(wǎng)頁進行分析,確定用戶訪問的網(wǎng)頁的主題,獲取用戶的上網(wǎng)行為。
[0027]需要說明的是,上述第三方面和第四方面所述功能模塊可以通過硬件實現(xiàn),也可以通過硬件執(zhí)行相應的軟件實現(xiàn)。所述硬件或軟件包括一個或多個與上述功能相對應的模塊。例如,通信接口,用于完成接收單元和發(fā)送單元的功能,處理器,用于完成處理單元的功能,存儲器,用于存儲音量閾值。處理器、通信接口和存儲器通過總線連接并完成相互間的通信。具體的,可以參考第一方面提供的用戶上網(wǎng)信息處理方法中服務器的行為的功能,以及第二方面提供的用戶上網(wǎng)信息處理方法中網(wǎng)關的行為的功能。
[0028]本發(fā)明中,服務器和網(wǎng)關的名字對設備本身不構成限定,在實際實現(xiàn)中,這些設備可以以其他名稱出現(xiàn)。只要各個設備的功能和本發(fā)明類似,屬于本發(fā)明權利要求及其等同技術的范圍之內。
[0029]本發(fā)明的這些方面或其他方面在以下實施例的描述中會更加簡明易懂。
【附圖說明】
[0030]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0031 ]圖1為本發(fā)明實施例提供的一種用戶上網(wǎng)信息處理方法流程圖;
[0032]圖2為本發(fā)明實施例提供的另一種用戶上網(wǎng)信息處理方法流程圖;
[0033]圖3為本發(fā)明實施例提供的又一種用戶上網(wǎng)信息處理方法流程圖;
[0034]圖4為本發(fā)明實施例提供的一種服務器結構示意圖;
[0035]圖5為本發(fā)明實施例提供的一種網(wǎng)關結構示意圖;
[0036]圖6為本發(fā)明實施例提供的一種計算機設備的結構示意圖。
【具體實施方式】
[0037]下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0038]本發(fā)明的基本原理在于:根據(jù)從網(wǎng)關發(fā)送來的數(shù)據(jù)包包括的URL,來獲取該URL對應的網(wǎng)頁的HTML源碼,然后,解析HTML源碼,根據(jù)解析的HTML源碼URL對應的網(wǎng)頁的關鍵詞和正文文本,根據(jù)所述URL對應的網(wǎng)頁的關鍵詞確定所述URL對應的網(wǎng)頁的主題。
[0039]實施例1
[0040]本發(fā)明實施例提供一種用戶上網(wǎng)信息處理方法,如圖1所示,包括:
[0041 ] 步驟101、網(wǎng)關獲取URL。
[0042]URL為用戶訪問的網(wǎng)頁的地址。URL對可以從互聯(lián)網(wǎng)上得到的資源的位置和訪問方法的一種簡潔的表示,是互聯(lián)網(wǎng)上標準資源的地址?;綰RL包含協(xié)議(或模式)、服務器名稱(或IP地址)、路徑和文件名,例如,協(xié)議://授權/路徑?查詢。模式或協(xié)議規(guī)定瀏覽器如何處理將要打開的文件。最常用的模式是超級文本標記語言(英文全稱:Hyper Text MarkupLanguage,英文簡稱:HTML),這個協(xié)議可以用來訪問網(wǎng)絡。本發(fā)明即使用HTML協(xié)議。
[0043]用戶通過終端設備進行上網(wǎng)瀏覽網(wǎng)頁,終端設備通常連接網(wǎng)關,用戶訪問的網(wǎng)頁的網(wǎng)址(URL)通過網(wǎng)關向服務器發(fā)出請求,服務器響應所述請求后,然后,用戶的終端設備接收用戶訪問的網(wǎng)頁的頁面下載響應。網(wǎng)關即可以是家庭網(wǎng)關,家庭網(wǎng)關可以作為所有外部接入網(wǎng)連接到家庭內部,同時將家庭內部網(wǎng)絡連接到外部的一種物理接口。
[0044]通常,網(wǎng)關有路由器和交換機的功能,在加載有Openwrt系統(tǒng)的路由器功能的網(wǎng)關上配置Privoxy代理功能和相應文件,pr ivoxy會重定向所有要進行超文本傳輸協(xié)議(英文全稱:HyperText Transfer Protocol,英文簡稱:HTTP)服務請求到Privoxy代理,使終端設備向遠程服務器發(fā)出的每一個請求都經(jīng)過代理功能,從而保證從遠程服務器返回的HTML源碼是經(jīng)過Privoxy處理后再發(fā)給終端設備的。從遠程服務器返回的每個HTML文件經(jīng)過Pr ivoxy代理處理后都嵌入特定JavaScr ipt腳本。用戶瀏覽器執(zhí)行JavaScr ipt腳本,將用戶實時訪問的URL傳送到網(wǎng)關。
[0045]步驟102、網(wǎng)關向服務器發(fā)送數(shù)據(jù)包。
[0046]所述數(shù)據(jù)包包括解析標識、用戶標識、用戶IP地址和所述URL。需要說明的是,解析標識可以用O或I表示,當解析標識為O時,用于指示服務器不解析數(shù)據(jù)包,解析標識為I時,用于指示服務器解析數(shù)據(jù)包。
[0047]步驟103、服務器接收網(wǎng)關發(fā)送的數(shù)據(jù)包。
[0048]所述數(shù)據(jù)包包括解析標識、用戶標識、用戶IP地址和所述URL。
[0049]步驟104、服務器根據(jù)URL獲取所述URL對應的網(wǎng)頁的HTML源碼。
[0050]服務器從數(shù)據(jù)包中獲取URL,根據(jù)URL來找到Web文本,讀取Web文本的內容。具體的,通過HTTP協(xié)議的GET方法向提供Web文本的網(wǎng)絡服務器請求URL對應的網(wǎng)頁的HTML源碼。GET是HTTP協(xié)議中一種向服務器發(fā)送客戶端請求的方法,發(fā)出請求前按規(guī)定填好請求的主機名、協(xié)議版本等內容,服務器便返回請求的內容。
[0051 ] 步驟105、服務器解析URL對應的網(wǎng)頁的HTML源碼,得到URL對應的網(wǎng)頁的關鍵詞和正文文本。
[0052 ] 步驟106、服務器根據(jù)URL對應的網(wǎng)頁的關鍵詞確定URL對應的網(wǎng)頁的主題。
[0053]這樣一來,首先,根據(jù)從網(wǎng)關發(fā)送來的數(shù)據(jù)包包括的URL,來獲取該URL對應的網(wǎng)頁的HTML源碼,然后,解析HTML源碼,根據(jù)解析的HTML源碼URL對應的網(wǎng)頁的關鍵詞和正文文本,根據(jù)所述URL對應的網(wǎng)頁的關鍵詞確定所述URL對應的網(wǎng)頁的主題。從而通過提取用戶訪問的網(wǎng)頁的正文內容的關鍵詞對用戶訪問的網(wǎng)頁進行分析,確定用戶訪問的網(wǎng)頁的主題,獲取用戶的上網(wǎng)行為。
[0054]具體的,如圖2所示,步驟105中服務器解析URL對應的網(wǎng)頁的HTML源碼,得到URL對應的網(wǎng)頁的關鍵詞和正文文本的詳細步驟如下所述:
[0055]步驟1051、服務器解析URL對應的網(wǎng)頁的HTML源碼,獲取所述URL對應的網(wǎng)頁的HTML源碼的正文文本。
[0056]Web文本包含了大量的HTML標記、文本、圖像、客戶腳本,在提取URL對應的網(wǎng)頁的HTML源碼的同時應對Web文本進行預處理,除掉的HTML標記、圖像、客戶腳本,最后只留下純凈的文本文字。具體的,可以對HTML源碼進行解析,得到處理后的utf-8字符集,對處理后的utf-8字符集采用基于文本密度分布函數(shù)的多特征算法提取正文文本。
[0057]步驟1052、服務器根據(jù)詞頻位置權重公式和TF-1DF算法,從所述URL對應的網(wǎng)頁的HTML源碼的正文文本中獲取所述URL對應的網(wǎng)頁的HTML源碼的關鍵詞。
[0058]所述詞頻位置權重公式為:
[0059]f (w) =a*fr(w)+b*fk(w)+c*ft(w)+d*fc(w)
[0060]其中,a表示URL,b表示URL對應的網(wǎng)頁的關鍵詞節(jié)點,c表示URL對應的網(wǎng)頁的標題,d表示正文,且a>b>c>d,fr(w)、fk(w)、ft(w)和fc(w)分別表示文字w在a、b、c和d中出現(xiàn)的頻率。
[0061]然后,采用TF-1DF算法計算出每個詞的權重,篩選出排序靠前的詞作為關鍵詞。需要說明的是,關鍵詞沒有個數(shù)要求,根據(jù)需要選擇個數(shù),可以是3個或5個。
[0062]TF-1DF(term frequency-1nverse document frequency)算法是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權技術,是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。
[0063]示例的,一篇文件的總詞語數(shù)是100個,而詞語“母?!背霈F(xiàn)了3次,那么“母?!币辉~在該文件中的詞頻就是3/100 = 0.03。一個計算文件頻率(IDF)的方法是測定有多少份文件出現(xiàn)過“母牛”一詞,然后除以文件集里包含的文件總數(shù)。所以,如果“母?!币辉~在I,000份文件出現(xiàn)過,而文件總數(shù)是10,000,000份的話,其逆向文件頻率就是1呢(10,000,000/1,000) =4。最后的 TF-1DF 的分數(shù)為 0.03*4 = 0.12。
[0064]步驟106中服務器根據(jù)所述URL對應的網(wǎng)頁的關鍵詞確定所述URL對應的網(wǎng)頁的主題的詳細步驟如下所述:
[0065]步驟1061、服務器通過VSM,計算所述URL對應的網(wǎng)頁的關鍵詞向量與主題樣本中類向量間的歐式距離。
[0066]VSM是一個應用于信息過濾,信息擷取,索引以及評估相關性的代數(shù)模型。關鍵詞向量可以是關鍵詞的權重。主題樣本中類向量可以是主題樣本中的關鍵詞向量。服務器之前已經(jīng)訓練出了各個主題的類向量并保存在數(shù)據(jù)庫中,所謂類向量就是每個主題大類下的各個特征詞及對應的權重值。如經(jīng)濟主題的類向量:財經(jīng)(0.043)、股票(0.036)、金融(0.021)、股市(0.016)。
[0067]進一步的,服務器還可以統(tǒng)計關鍵詞的詞性。例如,服務器將關鍵詞歸類為名詞、形容詞以及動詞,進行情感詞典查閱后統(tǒng)計各詞情感極性。例如,可以采用詞性加權公式Dw=dw*fw計算各詞情感極性值,其中,dw表示單詞w的情感極性值,fw表示由詞頻位置權重公式計算得到的位置加權詞頻。根據(jù)情感極性值與預設閾值比較,得出情感傾向判斷,偏離事先設定的閾值越大說明該web情感極端。情感詞典可以是中國臺灣大學NTUSD情感極性詞典,分為正面和負面情感詞集,評價詞集和程度級別詞集。服務器預先存儲在服務器數(shù)據(jù)庫中。例如,今天天氣非常好?!胺浅!睂儆诘谝患墑e程度,“好”出現(xiàn)在正面評價集合中。
[0068]步驟1062、服務器將與所述URL對應的網(wǎng)頁的關鍵詞向量的歐式距離最短的主題向量的主題,確定為所述URL對應的網(wǎng)頁的主題。
[0069]進一步的,如圖3所示,在網(wǎng)關向服務器發(fā)送數(shù)據(jù)包,例如,步驟102之前,所述方法還包括:
[0070 ] 步驟107、網(wǎng)關判斷該網(wǎng)關是否存儲該URL。
[0071 ]當所述網(wǎng)關判斷未存儲所述URL,執(zhí)行步驟108。
[0072]當所述網(wǎng)關判斷已存儲所述URL,執(zhí)行步驟102。
[0073]步驟108、網(wǎng)關獲取URL的數(shù)據(jù)包。執(zhí)行步驟102。
[0074]網(wǎng)關可以采用snort抓包程序獲取所述URL的數(shù)據(jù)包,可以獲取到數(shù)據(jù)包的包長,網(wǎng)關向服務器發(fā)送數(shù)據(jù)包的包括包長。
[0075]服務器根據(jù)所述URL獲取所述URL對應的網(wǎng)頁的超級文本標記語言HTML源碼,例如步驟104之前,所述方法還包括:
[0076]步驟109、服務器根據(jù)解析標識判斷是否解析數(shù)據(jù)包。
[0077]若解析標識為I,服務器判斷解析數(shù)據(jù)包,執(zhí)行步驟104和步驟110,即服務器確定URL對應的網(wǎng)頁的主題和類型,S卩服務器獲取到的數(shù)據(jù)包是沒有經(jīng)過解析的數(shù)據(jù)包,此時可以采用一個線程確定URL對應的網(wǎng)頁的主題,采用另一個線程確定URL對應的網(wǎng)頁的類型。
[0078]若解析標識為0,服務器判斷不解析數(shù)據(jù)包,說明服務器已經(jīng)解析過數(shù)據(jù)包,保存了URL對應的網(wǎng)頁的主題,此時只需要采用一個線程確定URL對應的網(wǎng)頁的類型,直接執(zhí)行步驟110。
[0079]步驟110、服務器根據(jù)用戶標識和用戶IP地址獲取用戶標識對應的上行數(shù)據(jù)包和下行數(shù)據(jù)包。
[0080]所述上行數(shù)據(jù)包為所述網(wǎng)關發(fā)送至所述服務器的數(shù)據(jù)包,所述下行數(shù)據(jù)包為所述服務器發(fā)送至所述網(wǎng)關的數(shù)據(jù)包。
[0081]步驟111、服務器根據(jù)上行數(shù)據(jù)包和下行數(shù)據(jù)包,判斷流量比小于或等于流量閾值時,確定數(shù)據(jù)包的內容為文字類型。
[0082]步驟112、服務器根據(jù)上行數(shù)據(jù)包和下行數(shù)據(jù)包,判斷流量比大于流量閾值時,確定數(shù)據(jù)包的內容為視頻類型。
[0083]流量比為單位時間內下行數(shù)據(jù)包的包長與上行數(shù)據(jù)包的包長之比。服務器可以啟動流量統(tǒng)計定時器,統(tǒng)計單位時間內下行數(shù)據(jù)包的包長與上行數(shù)據(jù)包的包長。
[0084]需要說明的是,在確定數(shù)據(jù)包的內容為文字類型時,需要執(zhí)行步驟104。在確定數(shù)據(jù)包的內容為視頻類型時,無需執(zhí)行步驟104。
[0085]步驟113、服務器保存URL對應的網(wǎng)頁的主題和類型。
[0086]需要說明的是,服務器可以以結構化保存URL對應的網(wǎng)頁的主題和類型。
[0087]所謂結構化就是將提取到的所有信息按照一定的格式保存到數(shù)據(jù)庫。
[0088]示例的,可以按下面格式保存:
[0089]用戶標識:005056C0
[0090]瀏覽網(wǎng)址:http://www.sdjfkjs.com
[0091]網(wǎng)站關鍵詞:籃球、后衛(wèi)、冠軍
[0092]網(wǎng)站正文:xxxxxxx
[0093]網(wǎng)站主題:體育類
[0094]網(wǎng)站情感:積極正面
[0095]步驟114、服務器向網(wǎng)關發(fā)送URL對應的網(wǎng)頁的主題和類型。
[0096]步驟115、網(wǎng)關接收服務器發(fā)送的URL對應的網(wǎng)頁的主題和類型。
[0097]網(wǎng)關更新所述URL對應的網(wǎng)頁的主題和類型。
[0098]實施例2
[0099]本發(fā)明實施例提供的一種服務器20,如圖4所示,包括:
[0100]接收單元201,用于接收網(wǎng)關發(fā)送的數(shù)據(jù)包,所述數(shù)據(jù)包包括統(tǒng)一資源定位符URL,所述URL為用戶訪問的網(wǎng)頁的地址;
[0101]所述接收單元201,還用于接收所述URL對應的網(wǎng)頁的超級文本標記語言HTML源碼;
[0102]處理單元202,用于解析所述URL對應的網(wǎng)頁的HTML源碼,得到所述URL對應的網(wǎng)頁的關鍵詞和正文文本;
[0103]所述處理單元202,用于根據(jù)所述URL對應的網(wǎng)頁的關鍵詞確定所述URL對應的網(wǎng)頁的主題。
[0104]這樣一來,首先,根據(jù)從網(wǎng)關發(fā)送來的數(shù)據(jù)包包括的URL,來獲取該URL對應的網(wǎng)頁的HTML源碼,然后,解析HTML源碼,根據(jù)解析的HTML源碼URL對應的網(wǎng)頁的關鍵詞和正文文本,根據(jù)所述URL對應的網(wǎng)頁的關鍵詞確定所述URL對應的網(wǎng)頁的主題。從而通過提取用戶訪問的網(wǎng)頁的正文內容的關鍵詞對用戶訪問的網(wǎng)頁進行分析,確定用戶訪問的網(wǎng)頁的主題,獲取用戶的上網(wǎng)行為。
[0105]實施例3
[0106]本發(fā)明實施例提供的一種網(wǎng)關30,如圖5所示,包括:
[0107]處理單元301,用于獲取統(tǒng)一資源定位符URL,所述URL為用戶訪問的網(wǎng)頁的地址;
[0108]發(fā)送單元302,用于向服務器發(fā)送數(shù)據(jù)包,所述數(shù)據(jù)包包括解析標識、用戶標識、用戶IP地址、數(shù)據(jù)包的包長和所述URL。
[0109]這樣一來,網(wǎng)關獲取URL后,向服務器發(fā)送包括該URL的數(shù)據(jù)包,使得服務器根據(jù)從網(wǎng)關發(fā)送來的數(shù)據(jù)包包括的URL,來獲取該URL對應的網(wǎng)頁的HTML源碼,然后,解析HTML源碼,根據(jù)解析的HTML源碼URL對應的網(wǎng)頁的關鍵詞和正文文本,根據(jù)所述URL對應的網(wǎng)頁的關鍵詞確定所述URL對應的網(wǎng)頁的主題。從而通過提取用戶訪問的網(wǎng)頁的正文內容的關鍵詞對用戶訪問的網(wǎng)頁進行分析,確定用戶訪問的網(wǎng)頁的主題,獲取用戶的上網(wǎng)行為。
[0110]本發(fā)明實施例提供的一種通信系統(tǒng),包括:如實施例2所述的服務器和實施例3所述的網(wǎng)關。
[0111]需要說明的是,圖6所示為本發(fā)明實施例提供的計算機設備40的結構示意圖。計算機設備40包括至少一個處理器401,通信總線402,存儲器403以及至少一個通信接口 404。具體的,計算機設備40的結構可以是實施例2所述的服務器的結構或實施例3所述的網(wǎng)關的結構。
[0112]處理器401可以是一個處理器,也可以是多個處理元件的統(tǒng)稱,用于完成處理單元所執(zhí)行的方案。例如,處理器401可以是一個通用中央處理器(英文全稱:CentralProcessing Unit,英文簡稱:CPU),也可以是特定應用集成電路(英文全稱:applicat1n-specific integrated circuit,英文簡稱:ASIC),或一個或多個用于控制本發(fā)明方案程序執(zhí)行的集成電路,例如:一個或多個微處理器(英文全稱:digital signal processor,英文簡稱:DSP),或,一個或者多個現(xiàn)場可編程門陣列(英文全稱:Field Programmable GateArray,英文簡稱:FPGA)。
[0113]在具體實現(xiàn)中,作為一種實施例,處理器401可以包括一個或多個CPU,例如圖6中的CPUO和CPUl。
[0114]在具體實現(xiàn)中,作為一種實施例,服務器40可以包括多個處理器,例如圖6中的處理器401和處理器405。這些處理器中的每一個可以是一個單核(single-CPU)處理器,也可以是一個多核(mult1-CPU)處理器。這里的處理器可以指一個或多個設備、電路、和/或用于處理數(shù)據(jù)(例如計算機程序指令)的處理核。
[0115]通信總線402可以是工業(yè)標準體系結構(英文全稱:Industry StandardArchitecture,英文簡稱:ISA)總線、外部設備互連(英文全稱:Peripheral Component,英文簡稱:PCI)總線或擴展工業(yè)標準體系結構(英文全稱:Extended Industry StandardArchitecture,英文簡稱:EISA)總線等。該總線可以分為地址總線、數(shù)據(jù)總線、控制總線等。為便于表示,圖4中僅用一條粗線表示,但并不表示僅有一根總線或一種類型的總線。
[0116]存儲器403可以是只讀存儲器(英文全稱:read-only memory,英文簡稱:ROM)或可存儲靜態(tài)信息和指令的其他類型的靜態(tài)存儲設備,隨機存取存儲器(英文全稱:randomaccess memory,英文簡稱:RAM)或者可存儲信息和指令的其他類型的動態(tài)存儲設備,也可以是電可擦可編程只讀存儲器(英文全稱:Electrically Erasable Programmable Read-Only Memory,英文簡稱:EEPROM)、磁盤存儲介質或者其他磁存儲設備、或者能夠用于攜帶或存儲具有指令或數(shù)據(jù)結構形式的期望的程序代碼并能夠由計算機存取的任何其他介質,但不限于此。存儲器可以是獨立存在,通過總線與處理器相連接。存儲器也可以和處理器集成在一起。
[0117]其中,所述存儲器403用于存儲執(zhí)行本發(fā)明方案的應用程序代碼,并由處理器401來控制執(zhí)行。所述處理器401用于執(zhí)行所述存儲器403中存儲的應用程序代碼。
[0118]所述通信接口404,使用任何收發(fā)器一類的裝置,用于與其他設備或通信網(wǎng)絡通信,如以太網(wǎng),無線接入網(wǎng)(RAN),無線局域網(wǎng)(英文全稱:Wireless Local Area Networks,英文簡稱:WLAN)等。通信接口 404可以包括接收單元實現(xiàn)接收功能,以及發(fā)送單元實現(xiàn)發(fā)送功能。
[0119]所屬領域的技術人員可以清楚地了解到,為描述的方便和簡潔,上述描述的裝置和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。
[0120]本領域普通技術人員可以理解:實現(xiàn)上述方法實施例的全部或部分步驟可以通過程序指令相關的硬件來完成,前述的程序可以存儲于一計算機可讀取存儲介質中,該程序在執(zhí)行時,執(zhí)行包括上述方法實施例的步驟;而前述的存儲介質包括:ROM、RAM、磁碟或者光盤等各種可以存儲程序代碼的介質。
[0121]以上所述,僅為本發(fā)明的【具體實施方式】,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內,可輕易想到變化或替換,都應涵蓋在本發(fā)明的保護范圍之內。因此,本發(fā)明的保護范圍應以所述權利要求的保護范圍為準。
【主權項】
1.一種用戶上網(wǎng)信息處理方法,其特征在于,包括: 服務器接收網(wǎng)關發(fā)送的數(shù)據(jù)包,所述數(shù)據(jù)包包括統(tǒng)一資源定位符URL; 所述服務器接收所述URL對應的網(wǎng)頁的超級文本標記語言HTML源碼; 所述服務器解析所述URL對應的網(wǎng)頁的HTML源碼,得到所述URL對應的網(wǎng)頁的關鍵詞和正文文本; 所述服務器根據(jù)所述URL對應的網(wǎng)頁的關鍵詞確定所述URL對應的網(wǎng)頁的主題。2.根據(jù)權利要求1所述的方法,其特征在于,所述服務器解析所述URL對應的網(wǎng)頁的HTML源碼,得到所述URL對應的網(wǎng)頁的關鍵詞和正文文本包括: 所述服務器解析所述URL對應的網(wǎng)頁的HTML源碼,獲取所述URL對應的網(wǎng)頁的HTML源碼的正文文本; 所述服務器根據(jù)詞頻位置權重公式和TF-1DF算法,從所述URL對應的網(wǎng)頁的HTML源碼的正文文本中獲取所述URL對應的網(wǎng)頁的HTML源碼的關鍵詞; 所述詞頻位置權重公式為:f (w) =a*fr(w)+b*fk(w)+C*ft(w)+d*fc(w) 其中,a表示URL,b表示URL對應的網(wǎng)頁的關鍵詞節(jié)點,c表示URL對應的網(wǎng)頁的標題,d表示正文,且8>13>0>(1,;1^(?)、€1^)、;1^(?)和;1^(?)分別表示文字¥在3、13、(3和(1中出現(xiàn)的頻率。3.根據(jù)權利要求2所述的方法,其特征在于,所述服務器根據(jù)所述URL對應的網(wǎng)頁的關鍵詞確定所述URL對應的網(wǎng)頁的主題包括: 所述服務器通過空間向量模型VSM,計算所述URL對應的網(wǎng)頁的關鍵詞向量與主題樣本中類向量間的歐式距離; 所述服務器將與所述URL對應的網(wǎng)頁的關鍵詞向量的歐式距離最短的類向量的主題,確定為所述URL對應的網(wǎng)頁的主題。4.根據(jù)權利要求3所述的方法,其特征在于,所述數(shù)據(jù)包還包括用戶標識、用戶IP地址和數(shù)據(jù)包的包長,在所述服務器根據(jù)所述URL獲取所述URL對應的網(wǎng)頁的超級文本標記語言HTML源碼之前,所述方法還包括: 所述服務器根據(jù)所述用戶標識和所述用戶IP地址獲取所述用戶標識對應的上行數(shù)據(jù)包和下行數(shù)據(jù)包,所述上行數(shù)據(jù)包為所述網(wǎng)關發(fā)送至所述服務器的數(shù)據(jù)包,所述下行數(shù)據(jù)包為所述服務器發(fā)送至所述網(wǎng)關的數(shù)據(jù)包; 所述服務器根據(jù)所述上行數(shù)據(jù)包和所述下行數(shù)據(jù)包,判斷流量比小于或等于流量閾值時,確定所述數(shù)據(jù)包的內容為文字類型,所述流量比為單位時間內下行數(shù)據(jù)包的包長與上行數(shù)據(jù)包的包長之比。5.根據(jù)權利要求4所述的方法,其特征在于,所述數(shù)據(jù)包還包括解析標識,在所述服務器根據(jù)所述用戶標識和所述用戶IP地址獲取所述用戶標識對應的上行數(shù)據(jù)包和下行數(shù)據(jù)包之前,所述方法還包括: 所述服務器根據(jù)所述解析標識判斷解析所述數(shù)據(jù)包,確定所述URL對應的網(wǎng)頁的主題和類型。6.一種用戶上網(wǎng)信息處理方法,其特征在于,包括: 網(wǎng)關獲取統(tǒng)一資源定位符URL; 所述網(wǎng)關向服務器發(fā)送數(shù)據(jù)包,所述數(shù)據(jù)包包括解析標識、用戶標識、用戶IP地址、數(shù)據(jù)包的包長和所述URL。7.根據(jù)權利要求6所述的方法,其特征在于,包括: 當所述網(wǎng)關判斷已存儲所述URL,所述解析標識用于指示所述服務器不解析所述數(shù)據(jù)包; 當所述網(wǎng)關判斷未存儲所述URL,所述解析標識用于指示所述服務器解析所述數(shù)據(jù)包。8.一種服務器,其特征在于,包括: 接收單元,用于接收網(wǎng)關發(fā)送的數(shù)據(jù)包,所述數(shù)據(jù)包包括統(tǒng)一資源定位符URL,所述URL為用戶訪問的網(wǎng)頁的地址; 所述接收單元,還用于接收所述URL對應的網(wǎng)頁的超級文本標記語言HTML源碼; 處理單元,用于解析所述URL對應的網(wǎng)頁的HTML源碼,得到所述URL對應的網(wǎng)頁的關鍵詞和正文文本; 所述處理單元,用于根據(jù)所述URL對應的網(wǎng)頁的關鍵詞確定所述URL對應的網(wǎng)頁的主題。9.根據(jù)權利要求8所述的服務器,其特征在于,所述處理單元,具體用于: 解析所述URL對應的網(wǎng)頁的HTML源碼,獲取所述URL對應的網(wǎng)頁的HTML源碼的正文文本; 根據(jù)詞頻位置權重公式和TF-1DF算法,從所述URL對應的網(wǎng)頁的HTML源碼的正文文本中獲取所述URL對應的網(wǎng)頁的HTML源碼的關鍵詞; 所述詞頻位置權重公式為:f (w) =a*fr(w)+b*fk(w)+C*ft(w)+d*fc(w) 其中,a表示URL,b表示URL對應的網(wǎng)頁的關鍵詞節(jié)點,c表示URL對應的網(wǎng)頁的標題,d表示正文,且8>13>0>(1,;1^(?)、€1^)、;1^(?)和;1^(?)分別表示文字¥在3、13、(3和(1中出現(xiàn)的頻率。10.根據(jù)權利要求9所述的服務器,其特征在于,所述處理單元,具體用于: 通過空間向量模型VSM,計算所述URL對應的網(wǎng)頁的關鍵詞向量與主題樣本中類向量間的歐式距離; 將與所述URL對應的網(wǎng)頁的關鍵詞向量的歐式距離最短的類向量的主題,確定為所述URL對應的網(wǎng)頁的主題。11.根據(jù)權利要求10所述的服務器,其特征在于,所述數(shù)據(jù)包還包括用戶標識、用戶IP地址和數(shù)據(jù)包的包長, 所述接收單元,根據(jù)所述用戶標識和所述用戶IP地址接收所述用戶標識對應的上行數(shù)據(jù)包,所述上行數(shù)據(jù)包為所述網(wǎng)關發(fā)送至所述服務器的數(shù)據(jù)包; 所述處理單元,還用于:根據(jù)所述用戶標識和所述用戶IP地址獲取所述用戶標識對應的下行數(shù)據(jù)包,所述下行數(shù)據(jù)包為所述服務器發(fā)送至所述網(wǎng)關的數(shù)據(jù)包; 所述處理單元,還用于根據(jù)所述上行數(shù)據(jù)包和所述下行數(shù)據(jù)包,判斷流量比小于或等于流量閾值時,確定所述數(shù)據(jù)包的內容為文字類型,所述流量比為單位時間內下行數(shù)據(jù)包的包長與上行數(shù)據(jù)包的包長之比。12.—種網(wǎng)關,其特征在于,包括: 處理單元,用于獲取統(tǒng)一資源定位符URL,所述URL為用戶訪問的網(wǎng)頁的地址; 發(fā)送單元,用于向服務器發(fā)送數(shù)據(jù)包,所述數(shù)據(jù)包包括解析標識、用戶標識、用戶IP地 址、數(shù)據(jù)包的包長和所述URL。
【文檔編號】G06F17/30GK105824884SQ201610136426
【公開日】2016年8月3日
【申請日】2016年3月10日
【發(fā)明人】彭壽鈞, 鄭麗娜, 王鵬達, 唐恒頌
【申請人】海信集團有限公司