国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于用戶訪問的關聯(lián)頁面挖掘方法及系統(tǒng)與流程

      文檔序號:11950487閱讀:來源:國知局

      技術特征:

      1.一種基于用戶訪問的關聯(lián)頁面挖掘方法,其特征是,包括:

      用戶目標頁面確定的步驟:Web日志中記錄有所有頁面訪問記錄,將干擾頁面清洗掉或進行刪除,最終從所有頁面訪問記錄中識別出用戶目標頁面并形成會話序列集合;

      根據(jù)用戶目標頁面進行隱式關聯(lián)頁面的挖掘步驟:計算會話序列集合中頁面的支持度,支持度大于設定閾值的頁面構成集合,對該集合進一步的組合并刪除組合后的集合中的不是用戶目標頁面的元素,通過遞歸計算直至支持度大于設定閾值的頁面構成集合的第k個集合Lk為空集,用戶訪問的關聯(lián)頁面即為所有集合Lk的并集,k>2。

      2.如權利要求1所述的一種基于用戶訪問的關聯(lián)頁面挖掘方法,其特征是,在用戶目標頁面確定的步驟中,將一部分干擾頁面在數(shù)據(jù)提取、轉換和加載過程中清洗掉,將另一部分干擾頁面通過相應的算法刪除。

      3.如權利要求2所述的一種基于用戶訪問的關聯(lián)頁面挖掘方法,其特征是,在數(shù)據(jù)提取、轉換和加載過程中清洗掉的頁面為該頁面所屬系統(tǒng)產(chǎn)生的干擾頁面。

      4.如權利要求2所述的一種基于用戶訪問的關聯(lián)頁面挖掘方法,其特征是,將另一部分干擾頁面通過相應的算法刪除時,將對頁面的平均閱讀時間大于設定閾值的頁面標記用戶目標頁面。

      5.如權利要求1所述的一種基于用戶訪問的關聯(lián)頁面挖掘方法,其特征是,會話序列集合為S,S={S1,S2,…,Sn},其中,Si={x1,x2,…,xj},xj為會話Si中第j個訪問頁面,在Si中,訪問序列是有順序性的,除了x1外,每個訪問頁面都有且只有一個前驅頁面;除了xj外,每個訪問頁面都有且只有一個后繼頁面;對于xi來說其前驅頁面是xi-1,后繼頁面是xi+1

      6.如權利要求1所述的一種基于用戶訪問的關聯(lián)頁面挖掘方法,其特征是,通過模式匹配算法在日志記錄中找出用戶目標頁面對應的序列出現(xiàn)的次數(shù)。

      7.如權利要求1所述的一種基于用戶訪問的關聯(lián)頁面挖掘方法,其特征是,根據(jù)用戶目標頁面進行隱式關聯(lián)頁面的挖掘步驟具體包括:

      1)計算會話序列集合中所有頁面的支持度,將所有大于第一設定閾值的頁面形成L1;

      2)在L1的基礎上,將L1的所有頁面兩兩組合,形成C2′,掃描會話,刪除C2′中不存在于會話中的元素,形成C2,計算C2元素的支持度和置信度,支持度大于第一設定閾值且置信度大于第二設定閾值的元素形成L2;

      3)從L2開始,對于所有的在Lk-1中的元素,設任意兩個頁組序列Pi(x1,x2,…,xk-1),Pj(y1,y2,…,yk-1),如果(x2=y(tǒng)1and x3=y(tǒng)2…and xk-1=y(tǒng)k-2),那么就形成新的頁面{x1,…,xk-1,yk-1},并加入到Ck′,掃描會話,刪除Ck′中不存在于會話中的元素,形成Ck,計算Ck元素的支持度和置信度,支持度大于第一設定閾值且置信度大于第二設定閾值的元素形成Lk,如此遞歸的計算,直到Lk為空集為止。

      8.一種基于用戶訪問的關聯(lián)頁面挖掘系統(tǒng),其特征是,包括:

      用戶目標頁面確定單元:Web日志中記錄有所有頁面訪問記錄,將干擾頁面清洗掉或進行刪除,最終從所有頁面訪問記錄中設別出用戶目標頁面并形成會話序列集合;

      隱式關聯(lián)頁面的挖掘單元:計算會話序列集合中頁面的支持度,支持度大于設定閾值的頁面構成集合,對該集合進一步的組合并刪除組后的集合中的不是用戶目標頁面的元素,通過遞歸計算直至支持度大于設定閾值的頁面構成集合的第k個集合Lk為空集,用戶訪問的關聯(lián)頁面即為所有集合Lk的并集,k>2。

      9.如權利要求8所述的一種基于用戶訪問的關聯(lián)頁面挖掘系統(tǒng),其特征是,在用戶目標頁面確定單元中,將一部分干擾頁面在數(shù)據(jù)提取、轉換和加載過程中清洗掉,將另一部分干擾頁面通過相應的算法刪除;

      在用戶目標頁面確定單元中,在數(shù)據(jù)提取、轉換和加載過程中清洗掉的頁面為該頁面所屬系統(tǒng)產(chǎn)生的干擾頁面。

      10.如權利要求9所述的一種基于用戶訪問的關聯(lián)頁面挖掘系統(tǒng),其特征是,在用戶目標頁面確定單元中,將另一部分干擾頁面通過相應的算法刪除時,將對頁面的平均閱讀時間大于設定閾值的頁面標記用戶目標頁面;

      會話序列集合表示單元:會話序列集合為S,S={S1,S2,…,Sn},其中,Si={x1,x2,…,xj},xj為會話Si中第j個訪問頁面,在Si中,訪問序列是有順序性的,除了x1外,每個訪問頁面都有且只有一個前驅頁面;除了xj外,每個訪問頁面都有且只有一個后繼頁面;對于xi來說其前驅頁面是xi-1,后繼頁面是xi+1。

      當前第2頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1