国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種信息處理方法及裝置的制造方法_2

      文檔序號:9471526閱讀:來源:國知局
      口限,或若信息量未超過第五口限,則判定域名為資源類域名。 陽化5] 上述方案中,優(yōu)選地,所述日志分析模塊,包括:
      [0056] 域名分析子模塊,用于基于域名分類信息對來自第一用戶的上網行為審計設備的 網頁訪問日志的域名進行分析,將網頁訪問日志劃分為對內容類域名的訪問和對資源類域 名的訪問;
      [0057] 主題分析子模塊,用于對訪問內容類域名的日志進行主題信息分析,查找出屬于 第一用戶的訪問行為的日志;
      [0058] 時序分析子模塊,用于對訪問內容類域名的日志進行時序分析,查找出屬于第一 用戶的訪問行為的日志;
      [0059] 周期分析子模塊,用于對于屬于第一用戶的訪問行為的日志,基于U化進行周期 性分析,判斷是否具有周期性特征,如果具有,則作為噪聲清洗;
      [0060] 頻率分析子模塊,用于對于經過周期性分析后仍被判定為第一用戶的訪問行為的 日志,基于域名進行訪問頻率分析,判斷訪問頻率是否超過第六口限,如果超過,則作為噪 聲清洗;
      [0061] 確定子模塊,用于將經過頻率分析后仍被判定為第一用戶的訪問行為的日志,確 定為第一用戶的真實訪問行為。
      [0062] 上述方案中,優(yōu)選地,所述主題分析子模塊,還用于:
      [0063] 對訪問內容類域名的日志, W64] 計算主題的加權長度;
      [00化]計算主題的信息量;
      [0066] 將加權長度和信息量均大于相應的口限值的日志判定為屬于第一用戶的訪問行 為的日志。
      [0067] 上述方案中,優(yōu)選地,所述時序分析子模塊,還用于:
      [0068] 按照網站名稱對所述訪問內容類域名的日志進行分類;
      [0069] 對每一類中的所有日志,按照時間進行排序,并對排序后的日志按照預設規(guī)則劃 分集合;
      [0070] 根據(jù)集合中的域名類型、U化信息、主題信息、化及日志數(shù)量,在符合時序模型的集 合中選定日志,作為第一用戶的真實訪問行為的網頁訪問日志。
      [0071] 上述方案中,優(yōu)選地,所述時序分析子模塊,還用于:
      [0072] 對于集合內的日志,根據(jù)U化進行去重處理;
      [0073] 判斷是否存在已被判定為第一用戶的訪問行為的日志;
      [0074]如果存在,將集合中其他日志作為噪音清洗;
      [0075] 如果不存在,獲取集合中日志的數(shù)量;如果日志的數(shù)量未超出第一闊值,將集合中 日志作為噪音清洗;如果超出第一闊值,將集合中起始的日志判定為表征第一用戶的真實 訪問行為的網頁訪問日志。
      [0076] 本發(fā)明所提供的信息處理方法及裝置,從多個采樣點的上網行為審計設備收集網 頁訪問日志;按照第一預定周期對所述網頁訪問日志的域名進行歸類和分析,生成域名分 類信息;獲取來自第一用戶的上網行為審計設備的網頁訪問日志;按照第二預定周期,并 基于域名分類信息對所述來自第一用戶的上網行為審計設備的網頁訪問日志進行分析,W 識別用于表征第一用戶的真實訪問行為的網頁訪問日志。如此,能夠有效的從網頁訪問日 志中清洗噪音,準確識別用戶的真實訪問行為,即識別用戶的實際訪問行為。
      【附圖說明】
      [0077] 圖1為本發(fā)明提供的信息處理方法的實現(xiàn)流程示意圖;
      [0078] 圖2為本發(fā)明提供的對所收集的網頁訪問日志的域名進行歸類和分析的實現(xiàn)流 程示意圖;
      [0079] 圖3為本發(fā)明提供的基于域名分類信息對來自第一用戶的上網行為審計設備的 網頁訪問日志進行分析的實現(xiàn)流程示意圖;
      [0080] 圖4為本發(fā)明提供的對訪問內容類域名的日志進行主題信息分析的實現(xiàn)流程示 意圖;
      [0081] 圖5為本發(fā)明提供的對訪問內容類域名的日志進行時序分析的實現(xiàn)流程示意圖;
      [0082] 圖6為本發(fā)明提供的信息處理裝置的組成結構示意圖。
      【具體實施方式】
      [0083] 為了能夠更加詳盡地了解本發(fā)明的特點與技術內容,下面結合附圖對本發(fā)明的實 現(xiàn)進行詳細闡述,所附附圖僅供參考說明之用,并非用來限定本發(fā)明。 陽084] 實施例一
      [00化]圖1為本發(fā)明提供的信息處理方法的實現(xiàn)流程示意圖,如圖1所示,該信息處理方 法主要包括W下步驟:
      [0086] 步驟101 :從N個采樣點的上網行為審計設備收集網頁訪問日志;其中,N為正整 數(shù)。
      [0087] 本實施例中,步驟101和步驟103中的上網行為審計設備均能夠通過對用戶上網 流量的審計得到用戶的網頁訪問日志。
      [0088] 步驟102 :按照第一預定周期對所述網頁訪問日志的域名進行歸類和分析,生成 域名分類信息。
      [0089] 優(yōu)選地,所述按照第一預定周期對所述網頁訪問日志的域名進行歸類和分析,生 成域名分類信息,可W包括:
      [0090] 對訪問同一域名的所有日志,
      [0091] 檢查日志的數(shù)量是否超過第一口限,若沒有超過第一 口限,則退出分析;
      [0092] 若超過第一口限,則檢查所述所有日志中發(fā)起訪問的用戶數(shù)是否超過第二口限, 若沒有超過第二口限,則退出分析;
      [0093] 若超過第二口限,則檢查各日志的主題字段中是否包含異常字段,并將主題字段 中包含有異常字段的日志排除;
      [0094] 計算包含有效主題的日志的比例,若包含有效主題的日志的比例超過第S口限, 計算所有包含有效主題的日志中主題長度權重的分布,若主題長度權重的加權平均數(shù)超過 第四口限,計算所述所有包含有效主題的日志中主題的信息量,若信息量超過第五口限,貝U 判定域名為內容類域名;
      [00巧]否則,若包含有效主題的日志的比例未超過第=口限,或若主題長度權重的加權 平均數(shù)未超過第四口限,或若信息量未超過第五口限,則判定域名為資源類域名。
      [0096] 具體的,內容類域名主要用于存放指向新聞頁面,視頻頁面等向用戶提供瀏覽內 容的U化濃源類域名主要用于存放指向廣告,圖片等資源的U化。
      [0097] 具體的,所述異常字段通常代表返回的頁面是錯誤頁面或不具有有效內容;例如 代碼為"304"、或"404"、或"error"等錯誤信息。
      [0098] 運里,所述包含有效主題的日志可W理解為:除不包含主題或包含異常主題的日 志之外的日志。
      [0099] 上述第一口限、第二口限、第S口限、第四口限、第五口限的值可W根據(jù)實際情況 進行設定。 陽100] 步驟103:獲取來自第一用戶的上網行為審計設備的網頁訪問日志。 陽101] 運里,所述第一用戶是指特定用戶,即系統(tǒng)預析的用戶。
      [0102]步驟104:按照第二預定周期,并基于域名分類信息對所述來自第一用戶的上網 行為審計設備的網頁訪問日志進行分析,W識別用于表征第一用戶的真實訪問行為的網頁 訪問日志。 陽103] 需要說明的是,第一預定周期與第二預定周期可W相同,也可W不同。
      [0104] 優(yōu)選地,所述按照第二預定周期,并基于域名分類信息對所述來自第一用戶的上 網行為審計設備的網頁訪問日志進行分析,可W包括: 陽105] 基于域名分類信息對來自第一用戶的上網行為審計設備的網頁訪問日志的域名 進行分析,將網頁訪問日志劃分為對內容類域名的訪問和對資源類域名的訪問; 陽106] 對訪問內容類域名的日志進行主題信息分析,查找出屬于第一用戶的訪問行為的 日志;
      [0107] 對訪問內容類域名的日志進行時序分析,查找出屬于第一用戶的訪問行為的日 志;
      [0108] 對于屬于第一用戶的訪問行為的日志,基于U化進行周期性分析,判斷是否具有 周期性特征,如果具有,則作為噪聲清洗;
      [0109] 對于經過周期性分析后仍被判定為第一用戶的訪問行為的日志,基于域名進行訪 問頻率分析,判斷訪問頻率是否超過第六口限,如果超過,則作為噪聲清洗;
      [0110] 將經過頻率分析后仍被判定為第一用戶的訪問行為的日志,確定為第一用戶的真 實訪問行為。 陽111] 運里,需要說明的是,如果來自第一用戶的上網行為審計設備的網頁訪問日志的 域名不在步驟102中所得出的域名分類信息范圍之內時,將日志標記為對內容類域名的訪 問。
      [0112] 優(yōu)選地,所述對訪問內容類域名的日志進行時序分析,查找出屬于第一用戶的訪 問行為的日志,可W包括: 陽113] 對訪問內容類域名的日志,
      [0114] 計算主題的加權長度; 陽115] 計算主題的信息量;
      [0116] 將加權長度和信息量均大于相應的口限值的日志判定為屬于第一用戶的訪問行 為的日志。
      [0117] 優(yōu)選地,所述對訪問內容類域名的日志進行時序分析,可W包括:
      [0118] 按照網站名稱對所述訪問內容類域名的日志進行分類;
      [0119] 對每一類中的所有日志,按照時間進行排序,并對排序后的日志按照預設規(guī)則劃 分集合;
      [0120] 根據(jù)集合中的域名類型、U化信息、主題信息、化及日志數(shù)量,在符合時序模型的集 合中選定
      當前第2頁1 2 3 4 5 
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1