一種基于url分析模型的移動用戶上網行為分析方法及裝置的制造方法
【專利摘要】本發(fā)明提供了一種基于URL分析模型的移動用戶上網行為分析方法及裝置,該裝置包括下載模塊、網頁分析模塊、URL與主題相關性判定模塊、排序模塊和匹配模塊。與現(xiàn)有技術比較本發(fā)明的有益效果在于:本發(fā)明提供的一種基于URL分析模型的移動用戶上網行為分析方法及裝置,實現(xiàn)了基于URL分析的用戶上網行為分析,通過使用主題爬蟲形成一個映射表,再用用戶上網行為產生的URL與映射表進行匹配并歸為相應的類別,這樣能夠將爬蟲的工作提前到開發(fā)之前,減少系統(tǒng)后期的工作量。另外,針對一般主題爬蟲單單利用PageRank算法會出現(xiàn)主題漂移的不足,在進行URL排序之前,通過進行主題相關性判定,從而在不顯著增加算法復雜度的基礎上能夠減少主題的偏移程度。
【專利說明】
-種基于URL分析模型的移動用戶上網行為分析方法及裝置
技術領域
[0001] 本發(fā)明設及主題爬蟲技術領域,尤其設及一種基于U化分析模型的移動用戶上網 行為分析方法及裝置。
【背景技術】
[0002] 隨著互聯(lián)網2.0的到來,移動終端成了我們生活的一部分,運為運營商積累了龐大 的用戶上網行為。有效地利用運些上網行為,為用戶推送他們感興趣的業(yè)務,可W在改善用 戶體驗的同時,提高運營商的競爭力。在對移動互聯(lián)網用戶上網行為的處理方法中,可W對 用戶的上網行為產生的URL進行增量式爬蟲,對爬取的網頁進行分析后再與運營商的業(yè)務 進行匹配,但是運種方法對爬蟲的性能要求很高,實現(xiàn)繁瑣,系統(tǒng)后期的工作量大。
[0003] 鑒于上述缺陷,本發(fā)明創(chuàng)作者經過長時間的研究和試驗,最終獲得了本發(fā)明。
【發(fā)明內容】
[0004] 本發(fā)明的目的在于提供一種基于U化分析模型的移動用戶上網行為分析方法及裝 置用W克服上述技術缺陷。
[0005] 為實現(xiàn)上述目的,本發(fā)明采用的技術方案在于:
[0006] -方面提供了一種基于U化分析模型的移動用戶上網行為分析方法,該方法包括 W下步驟:
[0007] 步驟SI,對網頁進行下載;
[0008] 步驟S2,對下載的網頁進行預處理和信息抽?。?br>[0009] 步驟S3,對抽取出來的所有有效鏈接進行主題相關性判定;
[0010]步驟S4,對與主題相關的URL根據(jù)劇HPageRank值的大小進行排序,同時建立相應 的U化與主題的映射表;
[0011] 步驟S5,將用戶上網行為產生的U化與所述映射表進行匹配,匹配成功則返回相應 的關鍵字作為用戶標簽,并將所述用戶標簽輸出。
[0012] 較佳的,所述步驟S2中,所述對下載的網頁進行預處理具體包括:
[0013] 編碼轉換:對網頁內容進行編碼轉換工作,將其他種類的編碼類型轉換成GBK形式 的類型,同時將繁體字轉換成簡體字;
[0014] CSS處理:從網上抽取網頁中相關的CSS,JSW及Title, Me化等信息;
[001引 DOM解析:根據(jù)網頁HTML標簽W及JS等信息構造 DOM分析樹并為后續(xù)網頁分析提供 分析依據(jù)。
[0016] 較佳的,所述步驟S2中,所述信息抽取具體包括:標題、正文、鏈接等信息的抽取, 生成摘要,W及對網頁的分類。
[0017] 較佳的,所述步驟S3具體包括:對抽取出來的鏈接進行內容判定,如果鏈接含錯文 本則直接將錯文本作為該鏈接的內容,否則W鏈接所在的位置為基準,取鏈接附近上下文 作為鏈接內容,將鏈接內容與關鍵字集進行匹配,匹配成功就將其歸為與主題相關,否則就 歸為與主題不相關。
[0018] 又一方面提供了一種基于U化分析模型的移動用戶上網行為分析裝置,該裝置包 括:
[0019] 下載模塊,用于對網頁進行下載;
[0020] 網頁分析模塊,用于對下載的網頁進行預處理和信息抽?。?br>[0021] U化與主題相關性判定模塊,用于對抽取出來的所有有效鏈接進行主題相關性判 定;
[0022] 排序模塊,用于對與主題相關的U化根據(jù)它們化geRank值的大小進行排序,同時建 立相應的ML與主題的映射表;
[0023] 匹配模塊,用于將用戶上網行為產生的U化與映射表進行匹配,匹配成功則返回相 應的關鍵字作為用戶標簽,并將用戶標簽輸出。
[0024] 較佳的,所述下載模塊包括:
[0025] DNS解析單元,用于給DNS解析提供更大的緩存和更多的查詢線程;
[0026] 化St控制單元,用于防止抓取端在短時間內大量訪問同一主機下的頁面,造成封 掉IP;
[0027] 下載單元,用于通過HTTP協(xié)議與Web服務器進行通信,采用socket方式對網頁進行 下載。
[0028] 較佳的,所述網頁分析模塊包括:
[0029] 預處理單元,用于對下載的網頁進行預處理;
[0030] 信息抽取單元,用于對下載的網頁進行信息抽取。
[0031 ]較佳的,所述ML與主題相關性判定模塊包括:
[0032] 鏈接內容確定單元,用于對抽取出來的鏈接進行內容判定,如果鏈接含錯文本則 直接將錯文本作為該鏈接的內容,否則W鏈接所在的位置為基準,取鏈接附近上下文作為 鏈接內容;
[0033] 相關性判定單元,用于將鏈接內容與關鍵字集進行匹配,匹配成功就將其歸為與 主題相關,否則就歸為與主題不相關。
[0034] 較佳的,所述排序模塊包括:
[0035] 化geRa址值計算單元,用于對與主題相關的URL進行化geRa址值計算;
[0036] 排序單元,用于根據(jù)抓L的化geRank值進行排序,值越大,越快被抓取,同時建立相 應的U化與主題的映射表。
[0037] 較佳的,所述匹配模塊包括:
[0038] 查詢匹配單元,用于對用戶上網行為產生的U化與映射表進行匹配,匹配成功則返 回相應的用戶標簽,否則認為該ML為業(yè)務不相干URL
[0039] 輸出單元,用于將所述用戶標簽輸出。
[0040] 與現(xiàn)有技術比較本發(fā)明的有益效果在于:本發(fā)明提供的一種基于抓L分析模型的 移動用戶上網行為分析方法及裝置,實現(xiàn)了基于U化分析的用戶上網行為分析,通過使用主 題爬蟲形成一個映射表,再用用戶上網行為產生的TOL與映射表進行匹配并歸為相應的類 另IJ,運樣能夠將爬蟲的工作提前到開發(fā)之前,減少系統(tǒng)后期的工作量。
[0041] 另外,針對一般主題爬蟲單單利用化geRank算法會出現(xiàn)主題漂移的不足,在進行 U化排序之前,通過進行主題相關性判定,從而在不顯著增加算法復雜度的基礎上能夠減少 主題的偏移程度。
【附圖說明】
[0042] 圖1為本發(fā)明提供的一種基于U化分析模型的移動用戶上網行為分析方法的流程 圖;
[0043] 圖2為本發(fā)明提供的一種基于U化分析模型的移動用戶上網行為分析裝置的功能 框圖;
[0044] 圖3為下載模塊的功能框圖;
[0045] 圖4為網頁分析模塊的功能框圖;
[0046] 圖5為ML與主題相關性判定模塊的功能框圖;
[0047] 圖6為排序模塊的功能框圖;
[004引圖7為匹配模塊的功能框圖。
【具體實施方式】
[0049] 為便于進一步理解本發(fā)明的技術內容,下面結合附圖對本發(fā)明作進一步說明。
[0050] 實施例一
[0051] 如圖1所示,為本發(fā)明提供的一種基于U化分析模型的移動用戶上網行為分析方法 的流程圖,該方法包括:
[0052] 步驟SI,對網頁進行下載。
[0053] 具體的,通過HTTP協(xié)議與Web服務器進行通信,在防止抓取端在短時間內大量訪問 同一主機下頁面的情況下采用socket方式對網頁進行下載。
[0054] 步驟S2,對下載的網頁進行預處理和信息抽取。
[0055] 具體的,對下載的網頁進行預處理,具體包括:編碼轉換:對網頁內容進行編碼轉 換工作,將其他種類的編碼類型轉換成G服形式的類型,同時將繁體字轉換成簡體字;CSS處 理:從網上抽取網頁中相關的CSS,JSW及Title ,Meta等信息;DOM解析:根據(jù)網頁HTML標簽 W及JS等信息構造 DOM分析樹并為后續(xù)網頁分析提供分析依據(jù)。對網頁進行信息抽取。包括 標題、正文、鏈接等信息的抽取,生成摘要,W及對網頁的分類。
[0056] 步驟S3,對抽取出來的所有有效鏈接進行主題相關性判定。
[0057] 具體的,對抽取出來的鏈接進行內容判定,如果鏈接含錯文本則直接將錯文本作 為該鏈接的內容,否則W鏈接所在的位置為基準,取鏈接附近上下文作為鏈接內容,將鏈接 內容與關鍵字集進行匹配,匹配成功就將其歸為與主題相關,否則就歸為與主題不相關。 [005引步驟S4,對與主題相關的U化根據(jù)它們化geRank值的大小進行排序,同時建立相應 的U化與主題的映射表。
[0059] 具體的,對與主題相關的URL進行化geRank值計算。根據(jù)U化的化geRank值進行排 序,值越大,越快被抓取,同時建立相應的U化與主題的映射表。
[0060] 步驟S5,將用戶上網行為產生的U化與映射表進行匹配,匹配成功則返回相應的關 鍵字作為用戶標簽,并將用戶標簽輸出。
[0061] 具體的,對用戶上網行為產生的ML與映射表進行匹配,匹配成功則返回相應的用 戶標簽,否則認為該ML為業(yè)務不相干URL,將用戶標簽輸出。
[0062] 實施例二
[0063] 如圖2所示,為本發(fā)明提供的一種基于U化分析模型的移動用戶上網行為分析裝置 的功能框圖。一種基于U化分析模型的移動用戶上網行為分析裝置,該裝置包括:下載模塊 10、網頁分析模塊20、u化與主題相關性判定模塊30、排序模塊40和匹配模塊50。其中,下載 模塊10用于對網頁進行下載。網頁分析模塊20,用于對下載的網頁進行預處理和信息抽取。 U化與主題相關性判定模塊30用于對抽取出來的所有有效鏈接進行主題相關性判定。排序 模塊40用于對與主題相關的U化根據(jù)它們化geRank值的大小進行排序,同時建立相應的URL 與主題的映射表。匹配模塊50用于將用戶上網行為產生的ML與映射表進行匹配,匹配成功 則返回相應的關鍵字作為用戶標簽,并將用戶標簽輸出。
[0064] 如圖3所示,為下載模塊的功能框圖。下載模塊10包括:DNS解析單元101、化St控制 單元102和下載單元103"DNS解析單元101,用于給DNS解析提供更大的緩存和更多的查詢線 程。化St控制單元102,用于防止抓取端在短時間內大量訪問同一主機下的頁面,造成類似 于拒絕服務攻擊的效果而封掉IP。其基本策略是某一時刻保證只有一個抓取線程訪問某一 特定主機,并且在一定時間內不會再次訪問。下載單元103,用于通過HTTP協(xié)議與Web服務器 進行通信,采用socket方式對網頁進行下載。具體的,采用socket方式下載的網絡編程模型 主要有同步10、非阻塞10、異步10。同步IO采用每一線程對應每一連接,編程簡單,且性能隨 著CPU個數(shù)的增加而呈線性增加,但單個CPU的擴展性差,隨著連接的增多線程的切換將是 一個很大的開銷。非阻塞IO性能較之同步IO有一定提高,適合中等規(guī)模的網絡應用。異步IO 是操作系統(tǒng)??跒橹畠?yōu)化的一種模式,具有擴展性強、性能優(yōu)越的特點??蒞根據(jù)需要,選 擇相應的網絡編程模型。
[0065] 如圖4所示,為網頁分析模塊的功能框圖。網頁分析模塊20包括:預處理單元201和 信息抽取單元202。預處理單元201,用于對下載的網頁進行預處理,具體包括:編碼轉換:對 網頁內容進行編碼轉換工作,將其他種類的編碼類型轉換成GBK形式的類型,同時將繁體字 轉換成簡體字;CSS處理:從網上抽取網頁中相關的CSS,JSW及Title, Meta等信息;DOM解 析:根據(jù)網頁HTML標簽W及JS等信息構造 DOM分析樹并為后續(xù)網頁分析提供分析依據(jù)。信息 抽取單元202,用于對下載的網頁進行信息抽取。包括標題、正文、鏈接等信息的抽取,生成 摘要,W及對網頁的分類。
[0066] 如圖5所示,為U化與主題相關性判定模塊的功能框圖。U化與主題相關性判定模塊 30包括:鏈接內容確定單元301和相關性判定單元302。鏈接內容確定單元301,用于對抽取 出來的鏈接進行內容判定,如果鏈接含錯文本則直接將錯文本作為該鏈接的內容,否則W 鏈接所在的位置為基準,取鏈接附近上下文作為鏈接內容。相關性判定單元302,用于將鏈 接內容與關鍵字集進行匹配,匹配成功就將其歸為與主題相關,否則就歸為與主題不相關。
[0067] 如圖6所示,為排序模塊的功能框圖。排序模塊40包括:PageRank值計算單元401和 排序單元402?;痝eRank值計算單元401,用于對與主題相關的URL進行化geRank值計算。具 體的,一個網頁的化geRank值取決于它的入鏈數(shù)及網頁的質量,例如,指向網頁D的有網頁 A、B、C,設PR(i)為網頁i的化geRank值,L(i)為網頁i的鏈接數(shù),q為阻尼系數(shù),一般取值為 0.85,則
化geRank值的計算公式為
其中網頁A、B、…、財旨向網頁X,q為阻尼系數(shù)。排序單元 402,用于根據(jù)U化的化geRank值進行排序,值越大,越快被抓取,同時建立相應的ML與主題 的映射表。
[0068] 如圖7所示,為匹配模塊的功能框圖。匹配模塊50包括:查詢匹配單元501和輸出單 元502。查詢匹配單元501,用于對用戶上網行為產生的U化與映射表進行匹配,匹配成功則 返回相應的用戶標簽,否則認為該U化為業(yè)務不相干URL。輸出單元502,用于將用戶標簽輸 出。
[0069] 本發(fā)明提供的一種基于U化分析模型的移動用戶上網行為分析方法及裝置,實現(xiàn) 了基于ML分析的用戶上網行為分析,通過使用主題爬蟲形成一個映射表,再用用戶上網行 為產生的U化與映射表進行匹配并歸為相應的類別,運樣能夠將爬蟲的工作提前到開發(fā)之 前,減少系統(tǒng)后期的工作量。另外,針對一般主題爬蟲單單利用化geRank算法會出現(xiàn)主題漂 移的不足,在進行U化排序之前,通過進行主題相關性判定,從而在不顯著增加算法復雜度 的基礎上能夠減少主題的偏移程度。
[0070] W上所述僅為本發(fā)明的較佳實施例,對本發(fā)明而言僅僅是說明性的,而非限制性 的。本專業(yè)技術人員理解,在本發(fā)明權利要求所限定的精神和范圍內可對其進行許多改變, 修改,甚至等效,但都將落入本發(fā)明的保護范圍內。
【主權項】
1. 一種基于URL分析模型的移動用戶上網行為分析方法,其特征在于,該方法包括以下 步驟: 步驟Sl,對網頁進行下載; 步驟S2,對下載的網頁進行預處理和信息抽?。? 步驟S3,對抽取出來的所有有效鏈接進行主題相關性判定; 步驟S4,對與主題相關的URL根據(jù)它們PageRank值的大小進行排序,同時建立相應的 URL與主題的映射表; 步驟S5,將用戶上網行為產生的URL與所述映射表進行匹配,匹配成功則返回相應的關 鍵字作為用戶標簽,并將所述用戶標簽輸出。2. 根據(jù)權利要求1所述的一種基于URL分析模型的移動用戶上網行為分析方法,其特征 在于, 所述步驟S2中,所述對下載的網頁進行預處理具體包括: 編碼轉換:對網頁內容進行編碼轉換工作,將其他種類的編碼類型轉換成GBK形式的類 型,同時將繁體字轉換成簡體字; CSS處理:從網上抽取網頁中相關的055,邛以及1^16,1的&等信息; DOM解析:根據(jù)網頁HTML標簽以及JS等信息構造 DOM分析樹并為后續(xù)網頁分析提供分析 依據(jù)。3. 根據(jù)權利要求1所述的一種基于URL分析模型的移動用戶上網行為分析方法,其特征 在于, 所述步驟S2中,所述信息抽取具體包括:標題、正文、鏈接等信息的抽取,生成摘要,以 及對網頁的分類。4. 根據(jù)權利要求1所述的一種基于URL分析模型的移動用戶上網行為分析方法,其特征 在于, 所述步驟S3具體包括:對抽取出來的鏈接進行內容判定,如果鏈接含錨文本則直接將 錨文本作為該鏈接的內容,否則以鏈接所在的位置為基準,取鏈接附近上下文作為鏈接內 容,將鏈接內容與關鍵字集進行匹配,匹配成功就將其歸為與主題相關,否則就歸為與主題 不相關。5. -種基于URL分析模型的移動用戶上網行為分析裝置,其特征在于,該裝置包括: 下載模塊,用于對網頁進行下載; 網頁分析模塊,用于對下載的網頁進行預處理和信息抽?。? URL與主題相關性判定模塊,用于對抽取出來的所有有效鏈接進行主題相關性判定; 排序模塊,用于對與主題相關的URL根據(jù)它們PageRank值的大小進行排序,同時建立相 應的URL與主題的映射表; 匹配模塊,用于將用戶上網行為產生的URL與映射表進行匹配,匹配成功則返回相應的 關鍵字作為用戶標簽,并將用戶標簽輸出。6. 根據(jù)權利要求5所述的一種基于URL分析模型的移動用戶上網行為分析裝置,其特征 在于,所述下載模塊包括: DNS解析單元,用于給DNS解析提供更大的緩存和更多的查詢線程; Host控制單元,用于防止抓取端在短時間內大量訪問同一主機下的頁面,造成封掉IP; 下載單元,用于通過HTTP協(xié)議與Web服務器進行通信,采用socket方式對網頁進行下 載。7. 根據(jù)權利要求5所述的一種基于URL分析模型的移動用戶上網行為分析裝置,其特征 在于,所述網頁分析模塊包括: 預處理單元,用于對下載的網頁進行預處理; 信息抽取單元,用于對下載的網頁進行信息抽取。8. 根據(jù)權利要求5所述的一種基于URL分析模型的移動用戶上網行為分析裝置,其特征 在于,所述URL與主題相關性判定模塊包括: 鏈接內容確定單元,用于對抽取出來的鏈接進行內容判定,如果鏈接含錨文本則直接 將錨文本作為該鏈接的內容,否則以鏈接所在的位置為基準,取鏈接附近上下文作為鏈接 內容; 相關性判定單元,用于將鏈接內容與關鍵字集進行匹配,匹配成功就將其歸為與主題 相關,否則就歸為與主題不相關。9. 根據(jù)權利要求5所述的一種基于URL分析模型的移動用戶上網行為分析裝置,其特征 在于,所述排序模塊包括: PageRank值計算單元,用于對與主題相關的URL進行PageRank值計算; 排序單元,用于根據(jù)URL的PageRank值進行排序,值越大,越快被抓取,同時建立相應的 URL與主題的映射表。10. 根據(jù)權利要求5所述的一種基于URL分析模型的移動用戶上網行為分析裝置,其特 征在于,所述匹配模塊包括: 查詢匹配單元,用于對用戶上網行為產生的URL與映射表進行匹配,匹配成功則返回相 應的用戶標簽,否則認為該URL為業(yè)務不相干URL; 輸出單元,用于將所述用戶標簽輸出。
【文檔編號】G06F17/30GK105956004SQ201610248722
【公開日】2016年9月21日
【申請日】2016年4月20日
【發(fā)明人】竇鈺景, 簡宋全, 李青海, 鄒立斌
【申請人】廣州精點計算機科技有限公司