国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用戶行為記錄的生成方法及裝置制造方法

      文檔序號:6526278閱讀:273來源:國知局
      用戶行為記錄的生成方法及裝置制造方法
      【專利摘要】本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,具體而言,涉及用戶行為記錄的生成方法及裝置。該方法,包括:接收用戶的網(wǎng)絡(luò)訪問數(shù)據(jù);根據(jù)預(yù)先建立的網(wǎng)址庫從所述用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中確定用戶訪問的網(wǎng)址類別;從所述用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中提取用戶訪問的關(guān)鍵詞;將所述用戶訪問的關(guān)鍵詞分解為至少一個(gè)分解詞;將所有所述分解詞與預(yù)先建立的關(guān)鍵字庫中的參考關(guān)鍵詞進(jìn)行匹配;根據(jù)匹配成功的分解詞及所述網(wǎng)址類別,生成用戶行為記錄。本發(fā)明提供的用戶行為記錄的生成方法及裝置,實(shí)現(xiàn)了根據(jù)生成的用戶行為記錄準(zhǔn)確分析出用戶的偏好。
      【專利說明】用戶行為記錄的生成方法及裝置
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,具體而言,涉及用戶行為記錄的生成方法及裝置。
      【背景技術(shù)】
      [0002]在互聯(lián)網(wǎng)中,很多的應(yīng)用都需要根據(jù)用戶的偏好進(jìn)行,例如根據(jù)用戶的偏好推送個(gè)性化的廣告、優(yōu)惠卷、資訊等。為獲取用戶的偏好,首先需要生成用戶行為記錄,再根據(jù)用戶行為記錄就可以分析出用戶的偏好。
      [0003]目前的用戶行為記錄生成方法大多是先使用深度包解析(DPI)技術(shù)采集用戶的網(wǎng)絡(luò)訪問數(shù)據(jù),然后使用ETUExtraction-Transformation-Loading,數(shù)據(jù)提取、轉(zhuǎn)換和加載)技術(shù)從采集到的用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中提取出相關(guān)的用戶行為數(shù)據(jù),并對用戶訪問的URL、HTTP標(biāo)題、HTTP關(guān)鍵字等,和預(yù)先建立的配置庫做實(shí)時(shí)的數(shù)據(jù)關(guān)聯(lián)和匹配,形成結(jié)構(gòu)化的用戶行為記錄。
      [0004]根據(jù)用戶行為記錄,可以知道用戶在什么時(shí)間,什么地點(diǎn),什么終端,訪問了什么類型的網(wǎng)站。
      [0005]現(xiàn)有的用戶行為記錄生成方法會對用戶搜索的關(guān)鍵字進(jìn)行解析和匹配,如果配置庫內(nèi),沒有能與用戶搜索的關(guān)鍵字相匹配的參考關(guān)鍵字,則無法生成相應(yīng)的用戶行為記錄項(xiàng)目,匹配成功率低,造成后續(xù)無法根據(jù)生成的用戶行為記錄準(zhǔn)確分析出用戶的偏好。

      【發(fā)明內(nèi)容】

      [0006]本發(fā)明的目的在于提供一種用戶行為記錄的生成方法及裝置,以解決上述的問題。
      [0007]在本發(fā)明的實(shí)施例中提供了一種用戶行為記錄的生成方法,該方法包括:接收用戶的網(wǎng)絡(luò)訪問數(shù)據(jù);根據(jù)預(yù)先建立的網(wǎng)址庫從用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中確定用戶訪問的網(wǎng)址類別;從用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中提取用戶訪問的關(guān)鍵詞;將用戶訪問的關(guān)鍵詞分解為至少一個(gè)分解詞;將所有分解詞與預(yù)先建立的關(guān)鍵字庫中的參考關(guān)鍵詞進(jìn)行匹配;根據(jù)匹配成功的分解詞及網(wǎng)址類別,生成用戶行為記錄。
      [0008]優(yōu)選地,從用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中提取URLJf URL與預(yù)先建立的網(wǎng)址庫中保存的網(wǎng)址進(jìn)行模糊匹配,根據(jù)模糊匹配的結(jié)果確定用戶訪問的網(wǎng)址類別。
      [0009]優(yōu)選地,從用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中提取用戶訪問的關(guān)鍵詞,包括:預(yù)先建立關(guān)鍵字特征標(biāo)識庫;關(guān)鍵字特征標(biāo)識庫中包含參考關(guān)鍵字特征標(biāo)識,以及與參考關(guān)鍵字特征標(biāo)識一一對應(yīng)的字段提取規(guī)則;若用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中包含與參考關(guān)鍵字特征標(biāo)識相同的標(biāo)識字符串,則按照與標(biāo)識字符串相同的參考關(guān)鍵字特征標(biāo)識對應(yīng)的字段提取規(guī)則提取出待轉(zhuǎn)換的字符串;將待轉(zhuǎn)換的字符串還原為關(guān)鍵詞。
      [0010]優(yōu)選地,將用戶訪問的關(guān)鍵詞分解為至少一個(gè)分解詞包括:預(yù)先建立分解詞表,分解詞表中包含預(yù)設(shè)的分解參考詞,以分解參考詞為最小劃分單位,將關(guān)鍵詞劃分為至少一個(gè)分解參考詞。[0011]優(yōu)選地,接收用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)之前,還包括:從全部網(wǎng)絡(luò)訪問數(shù)據(jù)中抽取一部分作為待處理的用戶的網(wǎng)絡(luò)訪問數(shù)據(jù);接收用戶的網(wǎng)絡(luò)訪問數(shù)據(jù),包括:接收待處理的用戶的網(wǎng)絡(luò)訪問數(shù)據(jù);接收用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)之后,確定用戶訪問的網(wǎng)址類別之前還包括:根據(jù)網(wǎng)絡(luò)訪問數(shù)據(jù)中提取的URL數(shù)量創(chuàng)建多個(gè)對應(yīng)的,確定用戶訪問的網(wǎng)址類別的執(zhí)行任務(wù),同時(shí)執(zhí)行多個(gè)確定用戶訪問的網(wǎng)址類別的執(zhí)行任務(wù)。
      [0012]優(yōu)選地,接收用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)之后,確定用戶訪問的網(wǎng)址類別之前,還包括:丟棄用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中的非法字符串;非法字符創(chuàng)是預(yù)先設(shè)定的。
      [0013]在本發(fā)明的另一實(shí)施例中提供了一種用戶行為記錄的生成裝置,該裝置包括:接收模塊、確定模塊、提取模塊、分解模塊、匹配模塊和生成模塊,其中,接收模塊,用于接收用戶的網(wǎng)絡(luò)訪問數(shù)據(jù);確定模塊,用于根據(jù)預(yù)先建立的網(wǎng)址庫從用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中確定用戶訪問的網(wǎng)址類別;提取模塊,用于從用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中提取用戶訪問的關(guān)鍵詞;分解模塊,將用戶訪問的關(guān)鍵詞分解為至少一個(gè)分解詞;匹配模塊,用于將所有分解詞與預(yù)先建立的關(guān)鍵字庫中的參考關(guān)鍵詞進(jìn)行匹配;生成模塊,用于根據(jù)匹配成功的分解詞及網(wǎng)址類別,生成用戶行為記錄。
      [0014]優(yōu)選地,確定模塊具體用于從用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中提取URLJf URL與預(yù)先建立的網(wǎng)址庫中保存的網(wǎng)址進(jìn)行模糊匹配,根據(jù)模糊匹配的結(jié)果確定用戶訪問的網(wǎng)址類別。
      [0015]優(yōu)選地,提取模塊具體包括:建立單元,用于預(yù)先建立關(guān)鍵字特征標(biāo)識庫;關(guān)鍵字特征標(biāo)識庫中包含參考關(guān)鍵字特征標(biāo)識,以及與參考關(guān)鍵字特征標(biāo)識一一對應(yīng)的字段提取規(guī)則;提取單元,用于若用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中包含與參考關(guān)鍵字特征標(biāo)識相同的標(biāo)識字符串,則按照與標(biāo)識字符串相同的參考關(guān)鍵字特征標(biāo)識對應(yīng)的字段提取規(guī)則提取出待轉(zhuǎn)換的字符串;還原單元,用于將待轉(zhuǎn)換的字符串還原為關(guān)鍵詞;分解模塊具體用于預(yù)先建立分解詞表,分解詞表中包含預(yù)設(shè)的分解參考詞,以分解參考詞為最小劃分單位,將關(guān)鍵詞劃分為至少一個(gè)分解參考詞。
      [0016]優(yōu)選地,還包括抽取模塊、創(chuàng)建模塊和丟棄模塊,抽取模塊用于從全部網(wǎng)絡(luò)訪問數(shù)據(jù)中抽取一部分作為待處理的用戶的網(wǎng)絡(luò)訪問數(shù)據(jù);接收模塊具體用于接收待處理的用戶的網(wǎng)絡(luò)訪問數(shù)據(jù);創(chuàng)建模塊用于根據(jù)網(wǎng)絡(luò)訪問數(shù)據(jù)中提取的URL數(shù)量創(chuàng)建多個(gè)對應(yīng)的,確定用戶訪問的網(wǎng)址類別的執(zhí)行任務(wù),同時(shí)執(zhí)行多個(gè)確定用戶訪問的網(wǎng)址類別的執(zhí)行任務(wù);丟棄模塊,用于丟棄用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中的非法字符串;非法字符串是預(yù)先設(shè)定的。
      [0017]本發(fā)明上述實(shí)施例的用戶行為記錄的生成方法及裝置,通過將用戶訪問的關(guān)鍵詞分解成至少一個(gè)分解詞,將分解詞與預(yù)先建立的關(guān)鍵字庫中的參考關(guān)鍵詞進(jìn)行匹配,解決了現(xiàn)有技術(shù)中配置庫內(nèi),沒有能與用戶搜索的關(guān)鍵字相匹配的參考關(guān)鍵字的問題,另外根據(jù)預(yù)先建立的網(wǎng)址庫從用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中確定用戶訪問的網(wǎng)址類別,從而根據(jù)匹配成功的分解詞及網(wǎng)址類別,生成用戶行為記錄,實(shí)現(xiàn)了根據(jù)生成的用戶行為記錄準(zhǔn)確分析出用戶的偏好。
      【專利附圖】

      【附圖說明】
      [0018]圖1示出了本發(fā)明實(shí)施例提供的一種用戶行為記錄的生成方法的流程圖;
      [0019]圖2示出了本發(fā)明另一實(shí)施例提供的用戶行為記錄的生成方法中提取用戶訪問的關(guān)鍵詞的流程圖;[0020]圖3示出了本發(fā)明又一實(shí)施例提供的用戶行為記錄的生成方法的流程圖;
      [0021]圖4示出了本發(fā)明實(shí)施例提供的用戶行為記錄的生成裝置的結(jié)構(gòu)示意圖;
      [0022]圖5示出了本發(fā)明另一實(shí)施例提供的用戶行為記錄的生成裝置的結(jié)構(gòu)示意圖;
      [0023]圖6示出了本發(fā)明又一實(shí)施例提供的用戶行為記錄的生成裝置的結(jié)構(gòu)示意圖。
      【具體實(shí)施方式】
      [0024]下面通過具體的實(shí)施例并結(jié)合附圖對本發(fā)明做進(jìn)一步的詳細(xì)描述。
      [0025]如圖1所示,本發(fā)明實(shí)施例提供了一種用戶行為記錄的生成方法,本實(shí)施例的執(zhí)行主體為一個(gè)ETL服務(wù)器,該方法包括:
      [0026]步驟S110:接收用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)。
      [0027]可選地,在步驟SllO之前,還包括:從全部網(wǎng)絡(luò)訪問數(shù)據(jù)中抽取一部分作為待處理的用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)。
      [0028]具體地,對于全部網(wǎng)絡(luò)訪問數(shù)據(jù)包可以由多個(gè)ETL服務(wù)器來執(zhí)行,因此對于一個(gè)ETL服務(wù)器來說,需要從全部網(wǎng)絡(luò)訪問數(shù)據(jù)中抽取一部分作為待處理的用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)。使用多個(gè)ETL服務(wù)器處理用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)可以加快網(wǎng)絡(luò)訪問數(shù)據(jù)的處理速度。且可以隨時(shí)增加ETL服務(wù)器,增強(qiáng)計(jì)算能力。
      [0029]接收用戶的網(wǎng)絡(luò)訪問數(shù)據(jù),包括:接收待處理的用戶的網(wǎng)絡(luò)訪問數(shù)據(jù);
      [0030]可選地,在步驟SllO之后,步驟S120之前,還包括:丟棄用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中的非法字符串;非法字符串是預(yù)先設(shè)定的。
      [0031]在具體實(shí)現(xiàn)過程中,非法字符串為不滿足預(yù)先建立的模型條件的字符串,預(yù)先建立的模型條件一般是針對數(shù)據(jù)的一致性建立的,將不滿足模型條件的網(wǎng)絡(luò)訪問數(shù)據(jù)丟棄。在用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中,包括多個(gè)字符串,例如用戶行為記錄對應(yīng)的是對某汽車網(wǎng)站的訪問情況,那么非法字符串則為哪些不是對該汽車網(wǎng)站的訪問字符串,則將這些不是對該汽車網(wǎng)站的訪問字符串丟棄。
      [0032]可選地,在在步驟SllO之后,步驟S120之前,還可以包括:根據(jù)網(wǎng)絡(luò)訪問數(shù)據(jù)中提取的URL數(shù)量創(chuàng)建多個(gè)對應(yīng)的,確定用戶訪問的網(wǎng)址類別的執(zhí)行任務(wù),同時(shí)執(zhí)行多個(gè)確定用戶訪問的網(wǎng)址類別的執(zhí)行任務(wù)。
      [0033]若在網(wǎng)絡(luò)訪問數(shù)據(jù)中提取的URL數(shù)量多,則可以多創(chuàng)建幾個(gè)執(zhí)行任務(wù),反之可以少創(chuàng)建幾個(gè),同時(shí)執(zhí)行多個(gè)確定用戶訪問的網(wǎng)址類別的執(zhí)行任務(wù),可以加快對用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)的處理速度。
      [0034]步驟S120:根據(jù)預(yù)先建立的網(wǎng)址庫從用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中確定用戶訪問的網(wǎng)址類別。
      [0035]在步驟S120中,從用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中提取URL,將URL與預(yù)先建立的網(wǎng)址庫中保存的網(wǎng)址進(jìn)行模糊匹配,根據(jù)模糊匹配的結(jié)果確定用戶訪問的網(wǎng)址類別。
      [0036]具體地,預(yù)先建立的網(wǎng)址庫中包括www.abc.com,且該網(wǎng)址的類別為音樂。若網(wǎng)絡(luò)訪問數(shù)據(jù)為WWW.abcxxx.com,則可以根據(jù)模糊匹配確定該網(wǎng)絡(luò)訪問數(shù)據(jù)屬于的網(wǎng)址為www.abc.com,且用戶訪問的網(wǎng)址類別為音樂。模糊匹配為現(xiàn)有技術(shù)。采用模糊匹配可以快速對用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)進(jìn)行歸類,便于用戶行為的分析。
      [0037]步驟S130:從用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中提取用戶訪問的關(guān)鍵詞。[0038]步驟S140:將用戶訪問的關(guān)鍵詞分解為至少一個(gè)分解詞。
      [0039]在步驟S140中,將用戶訪問的關(guān)鍵詞分解為至少一個(gè)分解詞可以包括預(yù)先建立分解詞表,分解詞表中包含預(yù)設(shè)的分解參考詞,以分解參考詞為最小劃分單位,將關(guān)鍵詞劃分為至少一個(gè)分解參考詞。
      [0040]具體地,若得到用戶訪問的關(guān)鍵詞為“附近的飯店”,預(yù)先建立的分解詞表中包括“附近”和“飯店”,因此將用戶訪問的關(guān)鍵詞分解為“附近”和“飯店”。預(yù)先建立的關(guān)鍵字庫中包括“飯店”,但是沒有“附近”或“附近的飯店”。由此提高了與預(yù)先建立的關(guān)鍵字庫匹配成功的概率。另外,例如關(guān)鍵詞為馬自達(dá)性能參數(shù),預(yù)先建立的分解詞表中包括“馬自達(dá)”和“性能參數(shù)”,由于建立的關(guān)鍵字庫中包括“馬自達(dá)”,則可以認(rèn)定該關(guān)鍵詞與預(yù)先建立的關(guān)鍵字庫匹配成功。
      [0041]步驟S150:將所有分解詞與預(yù)先建立的關(guān)鍵字庫中的參考關(guān)鍵詞進(jìn)行匹配。
      [0042]步驟S160:根據(jù)匹配成功的分解詞及網(wǎng)址類別,生成用戶行為記錄。
      [0043]需要說明的是,在本發(fā)明中,ETL服務(wù)器可以將步驟S120、步驟S130、步驟S140和步驟S150均可以采用建立多個(gè)并行處理任務(wù),將最后的處理結(jié)果集中返回,從而提高處理速度。
      [0044]本發(fā)明上述實(shí)施例的用戶行為記錄的生成方法,通過將用戶訪問的關(guān)鍵詞分解成至少一個(gè)分解詞,將分解詞與預(yù)先建立的關(guān)鍵字庫中的參考關(guān)鍵詞進(jìn)行匹配,解決了現(xiàn)有技術(shù)中配 置庫內(nèi),沒有能與用戶搜索的關(guān)鍵字相匹配的參考關(guān)鍵字的問題,另外根據(jù)預(yù)先建立的網(wǎng)址庫從用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中確定用戶訪問的網(wǎng)址類別,從而根據(jù)匹配成功的分解詞及網(wǎng)址類別,生成用戶行為記錄,實(shí)現(xiàn)了根據(jù)生成的用戶行為記錄準(zhǔn)確分析出用戶的偏好。
      [0045]如圖2所示,在上述實(shí)施例的基礎(chǔ)上,可以通過以下方法從用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中提取用戶訪問的關(guān)鍵詞,方法如下:
      [0046]步驟S210:預(yù)先建立關(guān)鍵字特征標(biāo)識庫,關(guān)鍵字特征標(biāo)識庫中包含參考關(guān)鍵字特征標(biāo)識,以及與參考關(guān)鍵字特征標(biāo)識一一對應(yīng)的字段提取規(guī)則。
      [0047]在步驟S210中,關(guān)鍵字特征標(biāo)識庫包括:參考關(guān)鍵字特征標(biāo)識bs。該參考關(guān)鍵字特征標(biāo)識簡單,易于識別,可減少比較時(shí)間,提供獲取搜索網(wǎng)站中的參考關(guān)鍵字特征標(biāo)識的識別時(shí)間。關(guān)鍵字特征標(biāo)識庫包括:參考關(guān)鍵字特征標(biāo)識&q。在實(shí)際應(yīng)用中,在對某網(wǎng)站進(jìn)行站內(nèi)搜索時(shí),形成的互聯(lián)網(wǎng)網(wǎng)絡(luò)日志中的網(wǎng)址必定存在&q,利用了用戶的訪問數(shù)據(jù)中的特有字符作為參考關(guān)鍵字特征標(biāo)識,不必重新定義,簡單方便。關(guān)鍵字特征標(biāo)識庫包括:參考關(guān)鍵字特征標(biāo)識search ? keyword。具體地,通過采用search ? keyword作為參考關(guān)鍵字特征標(biāo)識,便于準(zhǔn)確判斷用戶的檢索關(guān)鍵字,簡單易于實(shí)現(xiàn)。
      [0048]步驟S220:若用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中包含與參考關(guān)鍵字特征標(biāo)識相同的標(biāo)識字符串,則按照與標(biāo)識字符串相同的參考關(guān)鍵字特征標(biāo)識對應(yīng)的字段提取規(guī)則提取出待轉(zhuǎn)換的字符串。
      [0049]在步驟S220中,字段提取規(guī)則包括:提取參考關(guān)鍵字特征標(biāo)識后的第一個(gè)“=”和第一個(gè)“&”之間的字符串作為待轉(zhuǎn)換的字符串來提取待轉(zhuǎn)換的字符。
      [0050]在具體實(shí)現(xiàn)過程中,參考關(guān)鍵字特征標(biāo)識,與字段提取的規(guī)則是一一對應(yīng)的,可以是不同的參考關(guān)鍵字特征標(biāo)識對應(yīng)不同的字段提取的規(guī)則,還可以是不同的參考關(guān)鍵字特征標(biāo)識對應(yīng)相同的字段提取的規(guī)則。優(yōu)選地,可以根據(jù)用戶的訪問數(shù)據(jù)的特點(diǎn)進(jìn)行設(shè)定,當(dāng)確認(rèn)用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中的參考關(guān)鍵字特征標(biāo)識后,將參考關(guān)鍵字特征標(biāo)識后的第一個(gè)“=”和第一個(gè)“&”之間的字符串作為待轉(zhuǎn)換的字符串,待轉(zhuǎn)換的字符串的查找范圍較小,提高處理速度。
      [0051]步驟S230:將待轉(zhuǎn)換的字符串還原為關(guān)鍵詞。
      [0052]具體地,可以通過UTF轉(zhuǎn)碼,將待轉(zhuǎn)換的字符串還原為中文字符表示的關(guān)鍵字。
      [0053]在實(shí)際應(yīng)用中,關(guān)鍵字特征標(biāo)識庫可以包括一類搜索網(wǎng)站的參考關(guān)鍵字特征標(biāo)識,還可以包括多類搜索網(wǎng)站的不同的參考關(guān)鍵字特征標(biāo)識,采用上述方法提取用戶訪問的關(guān)鍵詞可以完成對所有的網(wǎng)絡(luò)訪問數(shù)據(jù)進(jìn)行提取關(guān)鍵詞,有利于提取關(guān)鍵詞的普適性。
      [0054]如圖3所示,本發(fā)明另一實(shí)施例提供的用戶行為記錄的生成方法包括;
      [0055]步驟S310:從全部網(wǎng)絡(luò)訪問數(shù)據(jù)中抽取一部分作為待處理的用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)。
      [0056]步驟S320:接收待處理的用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)。
      [0057]步驟S330:丟棄用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中的非法字符串;非法字符串是預(yù)先設(shè)定的。
      [0058]步驟S340:從用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中提取URL,將URL與預(yù)先建立的網(wǎng)址庫中保存的網(wǎng)址進(jìn)行模糊匹配,根據(jù)模糊匹配的結(jié)果確定用戶訪問的網(wǎng)址類別。
      [0059]步驟S350:從用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中提取用戶訪問的關(guān)鍵詞。
      [0060]步驟S360:預(yù)先建立分解詞表,分解詞表中包含預(yù)設(shè)的分解參考詞,以分解參考詞為最小劃分單位,將關(guān)鍵詞劃分為至少一個(gè)分解參考詞。
      [0061]步驟S370:將所有分解詞與預(yù)先建立的關(guān)鍵字庫中的參考關(guān)鍵詞進(jìn)行匹配。
      [0062]步驟S380:根據(jù)匹配成功的分解詞及網(wǎng)址類別,生成用戶行為記錄。
      [0063]本實(shí)施例提供的用戶行為記錄的生成方法,通過對用戶的網(wǎng)絡(luò)數(shù)據(jù)處理,丟棄了一些非法字符串,大大提高了處理速度,另外將關(guān)鍵字進(jìn)行分解,增加了與預(yù)先建立的關(guān)鍵字庫中的關(guān)鍵詞的匹配成功率,從而根據(jù)匹配成功的分解詞及網(wǎng)址類別,生成的用戶行為記錄更準(zhǔn)確,便于用戶需求的分析。
      [0064]如圖4所示,本發(fā)明提供了一種用戶行為記錄的生成裝置,該裝置包括:接收模塊
      11、確定模塊12、提取模塊13、分解模塊14、匹配模塊15和生成模塊16,其中,
      [0065]接收模塊11,用于接收用戶的網(wǎng)絡(luò)訪問數(shù)據(jù);確定模塊12,用于根據(jù)預(yù)先建立的網(wǎng)址庫從用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中確定用戶訪問的網(wǎng)址類別;提取模塊13,用于從用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中提取用戶訪問的關(guān)鍵詞;分解模塊14,將用戶訪問的關(guān)鍵詞分解為至少一個(gè)分解詞;匹配模塊15,用于將所有分解詞與預(yù)先建立的關(guān)鍵字庫中的參考關(guān)鍵詞進(jìn)行匹配;生成模塊16,用于根據(jù)匹配成功的分解詞及網(wǎng)址類別,生成用戶行為記錄。
      [0066]本實(shí)施例所提供的用戶行為記錄的生成裝置可以執(zhí)行本發(fā)明實(shí)施例提供的用戶行為記錄的生成方法,具備相應(yīng)的功能和有益效果,此處不再贅述。
      [0067]優(yōu)選地,確定模塊12具體用于從用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中提取URL,將URL與預(yù)先建立的網(wǎng)址庫中保存的網(wǎng)址進(jìn)行模糊匹配,根據(jù)模糊匹配的結(jié)果確定用戶訪問的網(wǎng)址類別。
      [0068]如圖5所示,在上述實(shí)施例的基礎(chǔ)上,提取模塊13具體包括:建立單元131,用于預(yù)先建立關(guān)鍵字特征標(biāo)識庫;關(guān)鍵字特征標(biāo)識庫中包含參考關(guān)鍵字特征標(biāo)識,以及與參考關(guān)鍵字特征標(biāo)識一一對應(yīng)的字段提取規(guī)則;提取單元132,用于若用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中包含與參考關(guān)鍵字特征標(biāo)識相同的標(biāo)識字符串,則按照與標(biāo)識字符串相同的參考關(guān)鍵字特征標(biāo)識對應(yīng)的字段提取規(guī)則提取出待轉(zhuǎn)換的字符串;還原單元133,用于將待轉(zhuǎn)換的字符串還原為關(guān)鍵詞;分解模塊具體用于預(yù)先建立分解詞表,分解詞表中包含預(yù)設(shè)的分解參考詞,以分解參考詞為最小劃分單位,將關(guān)鍵詞劃分為至少一個(gè)分解參考詞。
      [0069]本發(fā)明提供的用戶行為記錄的生成裝置可以執(zhí)行圖2的方法實(shí)施例的技術(shù)方案,其實(shí)現(xiàn)原理和技術(shù)效果類似,此處不再贅述。
      [0070]如圖6所示,在上述實(shí)施例的基礎(chǔ)上,還包括抽取模塊17、丟棄模塊18和創(chuàng)建模塊19,其中,
      [0071]抽取模塊17用于從全部網(wǎng)絡(luò)訪問數(shù)據(jù)中抽取一部分作為待處理的用戶的網(wǎng)絡(luò)訪問數(shù)據(jù);接收模塊11具體用于接收待處理的用戶的網(wǎng)絡(luò)訪問數(shù)據(jù);創(chuàng)建模塊19用于根據(jù)網(wǎng)絡(luò)訪問數(shù)據(jù)中提取的URL數(shù)量創(chuàng)建多個(gè)對應(yīng)的,確定用戶訪問的網(wǎng)址類別的執(zhí)行任務(wù),同時(shí)執(zhí)行多個(gè)確定用戶訪問的網(wǎng)址類別的執(zhí)行任務(wù);丟棄模塊18,用于丟棄用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中的非法字符串;非法字符串是預(yù)先設(shè)定的。
      [0072]本發(fā)明提供的用戶行為記錄的生成裝置可以執(zhí)行圖3的方法實(shí)施例的技術(shù)方案,其實(shí)現(xiàn)原理和技術(shù)效果類似,此處不再贅述。
      [0073]顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì)算裝置來實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來實(shí)現(xiàn),從而,可以將它們存儲在存儲裝置中由計(jì)算裝置來執(zhí)行,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
      [0074]以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
      【權(quán)利要求】
      1.一種用戶行為記錄的生成方法,其特征在于,包括: 接收用戶的網(wǎng)絡(luò)訪問數(shù)據(jù); 根據(jù)預(yù)先建立的網(wǎng)址庫從所述用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中確定用戶訪問的網(wǎng)址類別; 從所述用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中提取用戶訪問的關(guān)鍵詞; 將所述用戶訪問的關(guān)鍵詞分解為至少一個(gè)分解詞; 將所有所述分解詞與預(yù)先建立的關(guān)鍵字庫中的參考關(guān)鍵詞進(jìn)行匹配; 根據(jù)匹配成功的分解詞及所述網(wǎng)址類別,生成用戶行為記錄。
      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)預(yù)先建立的網(wǎng)址庫從所述用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中確定用戶訪問的網(wǎng)址類別,包括: 從用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中提取URL,將所述URL與所述預(yù)先建立的網(wǎng)址庫中保存的網(wǎng)址進(jìn)行模糊匹配,根據(jù)所述模糊匹配的結(jié)果確定用戶訪問的網(wǎng)址類別。
      3.根據(jù)權(quán)利要求1所述的方法,其特征在于,從所述用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中提取用戶訪問的關(guān)鍵詞,包括: 預(yù)先建立關(guān)鍵字特征標(biāo)識庫; 所述關(guān)鍵字特征標(biāo)識庫中包含參考關(guān)鍵字特征標(biāo)識,以及與所述參考關(guān)鍵字特征標(biāo)識 對應(yīng)的字段提取規(guī)則; 若用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中包含與所述參考關(guān)鍵字特征標(biāo)識相同的標(biāo)識字符串,則按照與所述標(biāo)識字符串相同的參考關(guān)鍵字特征標(biāo)識對應(yīng)的字段提取規(guī)則提取出待轉(zhuǎn)換的字符串; 將所述待轉(zhuǎn)換的字符串還原為關(guān)鍵詞。
      4.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述用戶訪問的關(guān)鍵詞分解為至少一個(gè)分解詞包括:預(yù)先建立分解詞表,所述分解詞表中包含預(yù)設(shè)的分解參考詞,以所述分解參考詞為最小劃分單位,將所述關(guān)鍵詞劃分為至少一個(gè)分解參考詞。
      5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述接收用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)之前,還包括: 從全部網(wǎng)絡(luò)訪問數(shù)據(jù)中抽取一部分作為待處理的用戶的網(wǎng)絡(luò)訪問數(shù)據(jù); 所述接收用戶的網(wǎng)絡(luò)訪問數(shù)據(jù),包括:接收所述待處理的用戶的網(wǎng)絡(luò)訪問數(shù)據(jù); 接收用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)之后,確定用戶訪問的網(wǎng)址類別之前還包括:根據(jù)所述網(wǎng)絡(luò)訪問數(shù)據(jù)中提取的URL數(shù)量創(chuàng)建多個(gè)對應(yīng)的,確定用戶訪問的網(wǎng)址類別的執(zhí)行任務(wù),同時(shí)執(zhí)行多個(gè)所述確定用戶訪問的網(wǎng)址類別的執(zhí)行任務(wù)。
      6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述接收用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)之后,確定用戶訪問的網(wǎng)址類別之前,還包括: 丟棄所述用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中的非法字符串; 所述非法字符串是預(yù)先設(shè)定的。
      7.一種用戶行為記錄的生成裝置,其特征在于,包括: 接收模塊,用于接收用戶的網(wǎng)絡(luò)訪問數(shù)據(jù); 確定模塊,用于根據(jù)預(yù)先建立的網(wǎng)址庫從所述用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中確定用戶訪問的網(wǎng)址類別; 提取模塊,用于從所述用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中提取用戶訪問的關(guān)鍵詞;分解模塊,將所述用戶訪問的關(guān)鍵詞分解為至少一個(gè)分解詞; 匹配模塊,用于將所有所述分解詞與預(yù)先建立的關(guān)鍵字庫中的參考關(guān)鍵詞進(jìn)行匹配; 生成模塊,用于根據(jù)匹配成功的分解詞及所述網(wǎng)址類別,生成用戶行為記錄。
      8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述確定模塊具體用于:從用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中提取URL,將所述URL與所述預(yù)先建立的網(wǎng)址庫中保存的網(wǎng)址進(jìn)行模糊匹配,根據(jù)所述模糊匹配的結(jié)果確定用戶訪問的網(wǎng)址類別。
      9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述提取模塊具體包括: 建立單元,用于預(yù)先建立關(guān)鍵字特征標(biāo)識庫; 所述關(guān)鍵字特征標(biāo)識庫中包含參考關(guān)鍵字特征標(biāo)識,以及與所述參考關(guān)鍵字特征標(biāo)識 對應(yīng)的字段提取規(guī)則; 提取單元,用于若用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中包含與所述參考關(guān)鍵字特征標(biāo)識相同的標(biāo)識字符串,則按照與所述標(biāo)識字符串相同的參考關(guān)鍵字特征標(biāo)識對應(yīng)的字段提取規(guī)則提取出待轉(zhuǎn)換的字符串; 還原單元,用于將所述待轉(zhuǎn)換的字符串還原為關(guān)鍵詞; 所述分解模塊具體用于預(yù)先建立分解詞表,所述分解詞表中包含預(yù)設(shè)的分解參考詞,以所述分解參考詞為最小劃分單位,將所述關(guān)鍵詞劃分為至少一個(gè)分解參考詞。
      10.根據(jù)權(quán)利要求8所述的裝置,其特征在于,還包括抽取模塊、創(chuàng)建模塊和丟棄模塊, 所述抽取模塊用于從全部網(wǎng)絡(luò)訪問數(shù)據(jù)中抽取一部分作為待處理的用戶的網(wǎng)絡(luò)訪問數(shù)據(jù); 所述接收模塊具體用于接收所述待處理的用戶的網(wǎng)絡(luò)訪問數(shù)據(jù); 所述創(chuàng)建模塊用于根據(jù)所述網(wǎng)絡(luò)訪問數(shù)據(jù)中提取的URL數(shù)量創(chuàng)建多個(gè)對應(yīng)的,確定用戶訪問的網(wǎng)址類別的執(zhí)行任務(wù),同時(shí)執(zhí)行多個(gè)所述確定用戶訪問的網(wǎng)址類別的執(zhí)行任務(wù);所述丟棄模塊,用于丟棄所述用戶的網(wǎng)絡(luò)訪問數(shù)據(jù)中的非法字符串;所述非法字符串是預(yù)先設(shè)定的。
      【文檔編號】G06F17/30GK103646119SQ201310740224
      【公開日】2014年3月19日 申請日期:2013年12月26日 優(yōu)先權(quán)日:2013年12月26日
      【發(fā)明者】祝守宇, 趙林, 黃長波 申請人:北京西塔網(wǎng)絡(luò)科技股份有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1