一種基于url分析模型的移動用戶上網行為分析方法及裝置的制造方法

文檔序號：10594105閱讀：259來源：國知局

一種基于url分析模型的移動用戶上網行為分析方法及裝置的制造方法
【專利摘要】本發(fā)明提供了一種基于URL分析模型的移動用戶上網行為分析方法及裝置，該裝置包括下載模塊、網頁分析模塊、URL與主題相關性判定模塊、排序模塊和匹配模塊。與現(xiàn)有技術比較本發(fā)明的有益效果在于：本發(fā)明提供的一種基于URL分析模型的移動用戶上網行為分析方法及裝置，實現(xiàn)了基于URL分析的用戶上網行為分析，通過使用主題爬蟲形成一個映射表，再用用戶上網行為產生的URL與映射表進行匹配并歸為相應的類別，這樣能夠將爬蟲的工作提前到開發(fā)之前，減少系統(tǒng)后期的工作量。另外，針對一般主題爬蟲單單利用PageRank算法會出現(xiàn)主題漂移的不足，在進行URL排序之前，通過進行主題相關性判定，從而在不顯著增加算法復雜度的基礎上能夠減少主題的偏移程度。
【專利說明】
-種基于URL分析模型的移動用戶上網行為分析方法及裝置
技術領域
[0001] 本發(fā)明設及主題爬蟲技術領域，尤其設及一種基于U化分析模型的移動用戶上網行為分析方法及裝置。
【背景技術】
[0002] 隨著互聯(lián)網2.0的到來，移動終端成了我們生活的一部分，運為運營商積累了龐大的用戶上網行為。有效地利用運些上網行為，為用戶推送他們感興趣的業(yè)務，可W在改善用戶體驗的同時，提高運營商的競爭力。在對移動互聯(lián)網用戶上網行為的處理方法中，可W對用戶的上網行為產生的URL進行增量式爬蟲，對爬取的網頁進行分析后再與運營商的業(yè)務進行匹配，但是運種方法對爬蟲的性能要求很高，實現(xiàn)繁瑣，系統(tǒng)后期的工作量大。
[0003] 鑒于上述缺陷，本發(fā)明創(chuàng)作者經過長時間的研究和試驗，最終獲得了本發(fā)明。

【發(fā)明內容】

[0004] 本發(fā)明的目的在于提供一種基于U化分析模型的移動用戶上網行為分析方法及裝置用W克服上述技術缺陷。
[0005] 為實現(xiàn)上述目的，本發(fā)明采用的技術方案在于：
[0006] -方面提供了一種基于U化分析模型的移動用戶上網行為分析方法，該方法包括 W下步驟：
[0007] 步驟SI,對網頁進行下載；
[0008] 步驟S2,對下載的網頁進行預處理和信息抽?。?br>[0009] 步驟S3,對抽取出來的所有有效鏈接進行主題相關性判定；
[0010]步驟S4,對與主題相關的URL根據(jù)劇HPageRank值的大小進行排序，同時建立相應的U化與主題的映射表；
[0011] 步驟S5,將用戶上網行為產生的U化與所述映射表進行匹配，匹配成功則返回相應的關鍵字作為用戶標簽，并將所述用戶標簽輸出。
[0012] 較佳的，所述步驟S2中，所述對下載的網頁進行預處理具體包括：
[0013] 編碼轉換:對網頁內容進行編碼轉換工作，將其他種類的編碼類型轉換成GBK形式的類型，同時將繁體字轉換成簡體字；
[0014] CSS處理:從網上抽取網頁中相關的CSS，JSW及Title, Me化等信息；
[001引 DOM解析:根據(jù)網頁HTML標簽W及JS等信息構造 DOM分析樹并為后續(xù)網頁分析提供分析依據(jù)。
[0016] 較佳的，所述步驟S2中，所述信息抽取具體包括:標題、正文、鏈接等信息的抽取，生成摘要，W及對網頁的分類。
[0017] 較佳的，所述步驟S3具體包括:對抽取出來的鏈接進行內容判定，如果鏈接含錯文本則直接將錯文本作為該鏈接的內容，否則W鏈接所在的位置為基準，取鏈接附近上下文作為鏈接內容，將鏈接內容與關鍵字集進行匹配，匹配成功就將其歸為與主題相關，否則就歸為與主題不相關。
[0018] 又一方面提供了一種基于U化分析模型的移動用戶上網行為分析裝置，該裝置包括：
[0019] 下載模塊，用于對網頁進行下載；
[0020] 網頁分析模塊，用于對下載的網頁進行預處理和信息抽?。?br>[0021] U化與主題相關性判定模塊，用于對抽取出來的所有有效鏈接進行主題相關性判定；
[0022] 排序模塊，用于對與主題相關的U化根據(jù)它們化geRank值的大小進行排序，同時建立相應的ML與主題的映射表；
[0023] 匹配模塊，用于將用戶上網行為產生的U化與映射表進行匹配，匹配成功則返回相應的關鍵字作為用戶標簽，并將用戶標簽輸出。
[0024] 較佳的，所述下載模塊包括：
[0025] DNS解析單元，用于給DNS解析提供更大的緩存和更多的查詢線程；
[0026] 化St控制單元，用于防止抓取端在短時間內大量訪問同一主機下的頁面，造成封掉IP;
[0027] 下載單元，用于通過HTTP協(xié)議與Web服務器進行通信，采用socket方式對網頁進行下載。
[0028] 較佳的，所述網頁分析模塊包括：
[0029] 預處理單元，用于對下載的網頁進行預處理；
[0030] 信息抽取單元，用于對下載的網頁進行信息抽取。
[0031 ]較佳的，所述ML與主題相關性判定模塊包括：
[0032] 鏈接內容確定單元，用于對抽取出來的鏈接進行內容判定，如果鏈接含錯文本則直接將錯文本作為該鏈接的內容，否則W鏈接所在的位置為基準，取鏈接附近上下文作為鏈接內容；
[0033] 相關性判定單元，用于將鏈接內容與關鍵字集進行匹配，匹配成功就將其歸為與主題相關，否則就歸為與主題不相關。
[0034] 較佳的，所述排序模塊包括：
[0035] 化geRa址值計算單元，用于對與主題相關的URL進行化geRa址值計算；
[0036] 排序單元，用于根據(jù)抓L的化geRank值進行排序，值越大，越快被抓取，同時建立相應的U化與主題的映射表。
[0037] 較佳的，所述匹配模塊包括：
[0038] 查詢匹配單元，用于對用戶上網行為產生的U化與映射表進行匹配，匹配成功則返回相應的用戶標簽，否則認為該ML為業(yè)務不相干URL
[0039] 輸出單元，用于將所述用戶標簽輸出。
[0040] 與現(xiàn)有技術比較本發(fā)明的有益效果在于:本發(fā)明提供的一種基于抓L分析模型的移動用戶上網行為分析方法及裝置，實現(xiàn)了基于U化分析的用戶上網行為分析，通過使用主題爬蟲形成一個映射表，再用用戶上網行為產生的TOL與映射表進行匹配并歸為相應的類另IJ，運樣能夠將爬蟲的工作提前到開發(fā)之前，減少系統(tǒng)后期的工作量。
[0041] 另外，針對一般主題爬蟲單單利用化geRank算法會出現(xiàn)主題漂移的不足，在進行 U化排序之前，通過進行主題相關性判定，從而在不顯著增加算法復雜度的基礎上能夠減少主題的偏移程度。
【附圖說明】
[0042] 圖1為本發(fā)明提供的一種基于U化分析模型的移動用戶上網行為分析方法的流程圖；
[0043] 圖2為本發(fā)明提供的一種基于U化分析模型的移動用戶上網行為分析裝置的功能框圖；
[0044] 圖3為下載模塊的功能框圖；
[0045] 圖4為網頁分析模塊的功能框圖；
[0046] 圖5為ML與主題相關性判定模塊的功能框圖；
[0047] 圖6為排序模塊的功能框圖；
[004引圖7為匹配模塊的功能框圖。
【具體實施方式】
[0049] 為便于進一步理解本發(fā)明的技術內容，下面結合附圖對本發(fā)明作進一步說明。
[0050] 實施例一
[0051] 如圖1所示，為本發(fā)明提供的一種基于U化分析模型的移動用戶上網行為分析方法的流程圖，該方法包括：
[0052] 步驟SI,對網頁進行下載。
[0053] 具體的，通過HTTP協(xié)議與Web服務器進行通信，在防止抓取端在短時間內大量訪問同一主機下頁面的情況下采用socket方式對網頁進行下載。
[0054] 步驟S2,對下載的網頁進行預處理和信息抽取。
[0055] 具體的，對下載的網頁進行預處理，具體包括:編碼轉換:對網頁內容進行編碼轉換工作，將其他種類的編碼類型轉換成G服形式的類型，同時將繁體字轉換成簡體字;CSS處理:從網上抽取網頁中相關的CSS，JSW及Title ,Meta等信息;DOM解析:根據(jù)網頁HTML標簽 W及JS等信息構造 DOM分析樹并為后續(xù)網頁分析提供分析依據(jù)。對網頁進行信息抽取。包括標題、正文、鏈接等信息的抽取，生成摘要，W及對網頁的分類。
[0056] 步驟S3,對抽取出來的所有有效鏈接進行主題相關性判定。
[0057] 具體的，對抽取出來的鏈接進行內容判定，如果鏈接含錯文本則直接將錯文本作為該鏈接的內容，否則W鏈接所在的位置為基準，取鏈接附近上下文作為鏈接內容，將鏈接內容與關鍵字集進行匹配，匹配成功就將其歸為與主題相關，否則就歸為與主題不相關。 [005引步驟S4,對與主題相關的U化根據(jù)它們化geRank值的大小進行排序，同時建立相應的U化與主題的映射表。
[0059] 具體的，對與主題相關的URL進行化geRank值計算。根據(jù)U化的化geRank值進行排序，值越大，越快被抓取，同時建立相應的U化與主題的映射表。
[0060] 步驟S5,將用戶上網行為產生的U化與映射表進行匹配，匹配成功則返回相應的關鍵字作為用戶標簽，并將用戶標簽輸出。
[0061] 具體的，對用戶上網行為產生的ML與映射表進行匹配，匹配成功則返回相應的用戶標簽，否則認為該ML為業(yè)務不相干URL,將用戶標簽輸出。
[0062] 實施例二
[0063] 如圖2所示，為本發(fā)明提供的一種基于U化分析模型的移動用戶上網行為分析裝置的功能框圖。一種基于U化分析模型的移動用戶上網行為分析裝置，該裝置包括:下載模塊 10、網頁分析模塊20、u化與主題相關性判定模塊30、排序模塊40和匹配模塊50。其中，下載模塊10用于對網頁進行下載。網頁分析模塊20,用于對下載的網頁進行預處理和信息抽取。 U化與主題相關性判定模塊30用于對抽取出來的所有有效鏈接進行主題相關性判定。排序模塊40用于對與主題相關的U化根據(jù)它們化geRank值的大小進行排序，同時建立相應的URL 與主題的映射表。匹配模塊50用于將用戶上網行為產生的ML與映射表進行匹配，匹配成功則返回相應的關鍵字作為用戶標簽，并將用戶標簽輸出。
[0064] 如圖3所示，為下載模塊的功能框圖。下載模塊10包括:DNS解析單元101、化St控制單元102和下載單元103"DNS解析單元101，用于給DNS解析提供更大的緩存和更多的查詢線程。化St控制單元102,用于防止抓取端在短時間內大量訪問同一主機下的頁面，造成類似于拒絕服務攻擊的效果而封掉IP。其基本策略是某一時刻保證只有一個抓取線程訪問某一特定主機，并且在一定時間內不會再次訪問。下載單元103，用于通過HTTP協(xié)議與Web服務器進行通信，采用socket方式對網頁進行下載。具體的，采用socket方式下載的網絡編程模型主要有同步10、非阻塞10、異步10。同步IO采用每一線程對應每一連接，編程簡單，且性能隨著CPU個數(shù)的增加而呈線性增加，但單個CPU的擴展性差，隨著連接的增多線程的切換將是一個很大的開銷。非阻塞IO性能較之同步IO有一定提高，適合中等規(guī)模的網絡應用。異步IO 是操作系統(tǒng)?？跒橹畠?yōu)化的一種模式，具有擴展性強、性能優(yōu)越的特點?？蒞根據(jù)需要，選擇相應的網絡編程模型。
[0065] 如圖4所示，為網頁分析模塊的功能框圖。網頁分析模塊20包括:預處理單元201和信息抽取單元202。預處理單元201，用于對下載的網頁進行預處理，具體包括:編碼轉換:對網頁內容進行編碼轉換工作，將其他種類的編碼類型轉換成GBK形式的類型，同時將繁體字轉換成簡體字；CSS處理：從網上抽取網頁中相關的CSS，JSW及Title, Meta等信息；DOM解析:根據(jù)網頁HTML標簽W及JS等信息構造 DOM分析樹并為后續(xù)網頁分析提供分析依據(jù)。信息抽取單元202,用于對下載的網頁進行信息抽取。包括標題、正文、鏈接等信息的抽取，生成摘要，W及對網頁的分類。
[0066] 如圖5所示，為U化與主題相關性判定模塊的功能框圖。U化與主題相關性判定模塊 30包括:鏈接內容確定單元301和相關性判定單元302。鏈接內容確定單元301，用于對抽取出來的鏈接進行內容判定，如果鏈接含錯文本則直接將錯文本作為該鏈接的內容，否則W 鏈接所在的位置為基準，取鏈接附近上下文作為鏈接內容。相關性判定單元302,用于將鏈接內容與關鍵字集進行匹配，匹配成功就將其歸為與主題相關，否則就歸為與主題不相關。
[0067] 如圖6所示，為排序模塊的功能框圖。排序模塊40包括:PageRank值計算單元401和排序單元402?；痝eRank值計算單元401，用于對與主題相關的URL進行化geRank值計算。具體的，一個網頁的化geRank值取決于它的入鏈數(shù)及網頁的質量，例如，指向網頁D的有網頁 A、B、C，設PR(i)為網頁i的化geRank值，L(i)為網頁i的鏈接數(shù)，q為阻尼系數(shù)，一般取值為 0.85,則
化geRank值的計算公式為
其中網頁A、B、…、財旨向網頁X，q為阻尼系數(shù)。排序單元 402，用于根據(jù)U化的化geRank值進行排序，值越大，越快被抓取，同時建立相應的ML與主題的映射表。
[0068] 如圖7所示，為匹配模塊的功能框圖。匹配模塊50包括:查詢匹配單元501和輸出單元502。查詢匹配單元501，用于對用戶上網行為產生的U化與映射表進行匹配，匹配成功則返回相應的用戶標簽，否則認為該U化為業(yè)務不相干URL。輸出單元502,用于將用戶標簽輸出。
[0069] 本發(fā)明提供的一種基于U化分析模型的移動用戶上網行為分析方法及裝置，實現(xiàn) 了基于ML分析的用戶上網行為分析，通過使用主題爬蟲形成一個映射表，再用用戶上網行為產生的U化與映射表進行匹配并歸為相應的類別，運樣能夠將爬蟲的工作提前到開發(fā)之前，減少系統(tǒng)后期的工作量。另外，針對一般主題爬蟲單單利用化geRank算法會出現(xiàn)主題漂移的不足，在進行U化排序之前，通過進行主題相關性判定，從而在不顯著增加算法復雜度的基礎上能夠減少主題的偏移程度。
[0070] W上所述僅為本發(fā)明的較佳實施例，對本發(fā)明而言僅僅是說明性的，而非限制性的。本專業(yè)技術人員理解，在本發(fā)明權利要求所限定的精神和范圍內可對其進行許多改變，修改，甚至等效，但都將落入本發(fā)明的保護范圍內。
【主權項】
1. 一種基于URL分析模型的移動用戶上網行為分析方法，其特征在于，該方法包括以下步驟：步驟Sl，對網頁進行下載；步驟S2，對下載的網頁進行預處理和信息抽?。? 步驟S3，對抽取出來的所有有效鏈接進行主題相關性判定；步驟S4,對與主題相關的URL根據(jù)它們PageRank值的大小進行排序，同時建立相應的 URL與主題的映射表；步驟S5,將用戶上網行為產生的URL與所述映射表進行匹配，匹配成功則返回相應的關鍵字作為用戶標簽，并將所述用戶標簽輸出。2. 根據(jù)權利要求1所述的一種基于URL分析模型的移動用戶上網行為分析方法，其特征在于，所述步驟S2中，所述對下載的網頁進行預處理具體包括：編碼轉換:對網頁內容進行編碼轉換工作，將其他種類的編碼類型轉換成GBK形式的類型，同時將繁體字轉換成簡體字； CSS處理:從網上抽取網頁中相關的055，邛以及1^16，1的&等信息； DOM解析:根據(jù)網頁HTML標簽以及JS等信息構造 DOM分析樹并為后續(xù)網頁分析提供分析依據(jù)。3. 根據(jù)權利要求1所述的一種基于URL分析模型的移動用戶上網行為分析方法，其特征在于，所述步驟S2中，所述信息抽取具體包括:標題、正文、鏈接等信息的抽取，生成摘要，以及對網頁的分類。4. 根據(jù)權利要求1所述的一種基于URL分析模型的移動用戶上網行為分析方法，其特征在于，所述步驟S3具體包括:對抽取出來的鏈接進行內容判定，如果鏈接含錨文本則直接將錨文本作為該鏈接的內容，否則以鏈接所在的位置為基準，取鏈接附近上下文作為鏈接內容，將鏈接內容與關鍵字集進行匹配，匹配成功就將其歸為與主題相關，否則就歸為與主題不相關。5. -種基于URL分析模型的移動用戶上網行為分析裝置，其特征在于，該裝置包括：下載模塊，用于對網頁進行下載；網頁分析模塊，用于對下載的網頁進行預處理和信息抽?。? URL與主題相關性判定模塊，用于對抽取出來的所有有效鏈接進行主題相關性判定；排序模塊，用于對與主題相關的URL根據(jù)它們PageRank值的大小進行排序，同時建立相應的URL與主題的映射表；匹配模塊，用于將用戶上網行為產生的URL與映射表進行匹配，匹配成功則返回相應的關鍵字作為用戶標簽，并將用戶標簽輸出。6. 根據(jù)權利要求5所述的一種基于URL分析模型的移動用戶上網行為分析裝置，其特征在于，所述下載模塊包括： DNS解析單元，用于給DNS解析提供更大的緩存和更多的查詢線程； Host控制單元，用于防止抓取端在短時間內大量訪問同一主機下的頁面，造成封掉IP; 下載單元，用于通過HTTP協(xié)議與Web服務器進行通信，采用socket方式對網頁進行下載。7. 根據(jù)權利要求5所述的一種基于URL分析模型的移動用戶上網行為分析裝置，其特征在于，所述網頁分析模塊包括：預處理單元，用于對下載的網頁進行預處理；信息抽取單元，用于對下載的網頁進行信息抽取。8. 根據(jù)權利要求5所述的一種基于URL分析模型的移動用戶上網行為分析裝置，其特征在于，所述URL與主題相關性判定模塊包括：鏈接內容確定單元，用于對抽取出來的鏈接進行內容判定，如果鏈接含錨文本則直接將錨文本作為該鏈接的內容，否則以鏈接所在的位置為基準，取鏈接附近上下文作為鏈接內容；相關性判定單元，用于將鏈接內容與關鍵字集進行匹配，匹配成功就將其歸為與主題相關，否則就歸為與主題不相關。9. 根據(jù)權利要求5所述的一種基于URL分析模型的移動用戶上網行為分析裝置，其特征在于，所述排序模塊包括： PageRank值計算單元，用于對與主題相關的URL進行PageRank值計算；排序單元，用于根據(jù)URL的PageRank值進行排序，值越大，越快被抓取，同時建立相應的 URL與主題的映射表。10. 根據(jù)權利要求5所述的一種基于URL分析模型的移動用戶上網行為分析裝置，其特征在于，所述匹配模塊包括：查詢匹配單元，用于對用戶上網行為產生的URL與映射表進行匹配，匹配成功則返回相應的用戶標簽，否則認為該URL為業(yè)務不相干URL; 輸出單元，用于將所述用戶標簽輸出。
【文檔編號】G06F17/30GK105956004SQ201610248722
【公開日】2016年9月21日
【申請日】2016年4月20日
【發(fā)明人】竇鈺景, 簡宋全, 李青海, 鄒立斌
【申請人】廣州精點計算機科技有限公司

完整全部詳細技術資料下載