国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于網絡數據分析的潛在用戶挖掘方法

      文檔序號:9524227閱讀:534來源:國知局
      基于網絡數據分析的潛在用戶挖掘方法
      【技術領域】
      [0001] 本發(fā)明涉及互聯網數據處理領域,尤其是一種潛在用戶挖掘方法。
      【背景技術】
      [0002] 隨著網絡的不斷發(fā)展和營銷手段的不斷更新,郵件營銷、短信營銷已經成為新興 的熱口營銷模式,在國內外都得到了廣泛的應用。送類營銷手段是將電子郵件、短信作為專 業(yè)的營銷工具,將企業(yè)的產品信息、促銷信息等發(fā)送給目標用戶,從而實現與顧客的快速高 效溝通。
      [0003] 但是,由于發(fā)現目標用戶本身不易,許多企業(yè)采用了基于郵件地址列表、手機號碼 段的盲目群發(fā)方式來進行產品營銷,營銷效果難言理想。許多用戶收到很多對其毫無價值 的商業(yè)電子郵件、短信,產生了垃圾郵件、騷擾短信的反感印象,點擊率低、被舉報,用戶怨 聲載道時常發(fā)生。
      [0004] 郵件服務商、移動運營商、防火墻軟件商為了迎合用戶需要,解決垃圾郵件、短信 泛濫問題,建立起了反垃圾郵件、短信機制,使得大部分群發(fā)的郵件、短信被送至垃圾箱甚 至被徹底阻隔,造成了群發(fā)郵件、短信的投遞效果大幅度下降,既產生了運營成本,又未能 將信息及時送到用戶處。
      [0005] 于是,如何發(fā)現潛在用戶,如何對潛在用戶進行區(qū)分并了解其感興趣的內容,是目 前很多企業(yè)在開展針對性營銷時非常關必的問題。
      [0006] 而解決送一問題的核必就在于發(fā)現潛在用戶的同時,發(fā)現用戶特點,挖掘蘊藏在 E-MAIL、手機號碼背后的用戶興趣點,獲取用戶的真實需求。并據此實現個性化、小規(guī)模、低 頻率、高效率的精準郵件、短信營銷。
      [0007] 面向互聯網的潛在用戶挖掘方法旨在通過行之有效的互聯網數據分析手段建設 可W掲示用戶特征的潛在用戶數據庫。
      [0008] 相關技術如專利號為"201210248221. 1"的專利公開的技術為"本發(fā)明提供一種移 動互聯網內容的用戶偏好推送方法與裝置,用于根據用戶的訪問獲取用戶的互聯網內容偏 好信息,同時根據該偏好信息向用戶進行有針對性的內容推送"該移動互聯網內容的用戶 偏好推送方法包括:基于用戶的訪問行為獲取所述用戶訪問的第一信息;對所述第一信息 所涉及的網絡內容進行分類處理,得到第二信息;針對所述第二信息對所述用戶的偏好進 行評分,得出所述用戶的偏好信息,根據所述偏好信息向相應的用戶推送與所述偏好信息 相對應的網絡內容"。該方法實施過程中從移動互聯網的服務器中得到所述用戶訪問的基 礎數據,包括用戶訪問的業(yè)務內容,此應用領域面向電信服務商自有服務運營層面。
      [0009] 相關技術如專利號為"201210121176. 3"的專利公開的技術為"掲示了一種郵件群 發(fā)方法及系統,該方法包括如下步驟;獲取當前郵件所需發(fā)送的所有郵箱地址;將屬于同 一郵件域的郵箱地址進行匯總;將不同郵件域的郵箱地址均勻插分W生成發(fā)送隊列;設定 發(fā)送間隔時間,W使在所述發(fā)送隊列中的同一郵件域的郵件發(fā)送間隔時間大于該郵件域服 務商垃圾郵件的報警閉值;根據所述發(fā)送間隔時間和所述發(fā)送隊列逐一發(fā)送郵件"。該方 法解決的是優(yōu)化郵件的發(fā)送時間間隔問題,確保發(fā)送時間間隔大于垃圾郵件報警閉值,從 而提高群發(fā)郵件的達到率。不涉及用戶及用戶需求挖掘的問題。

      【發(fā)明內容】

      [0010] 本發(fā)明的目的是針對上述問題,提供一種基于網絡數據分析的潛在用戶挖掘方 法。所述技術方案如下: 一種基于網絡數據分析的潛在用戶挖掘方法,其步驟包括如下: 采集互聯網網頁; 網頁初始化,獲取網頁中的正文信息; 抽取網頁正文信息中可能存在的郵件地址、手機號碼; 針對存在郵件地址或者手機號碼的網頁正文信息,識別可能存在的人物描述信息; 針對存在郵件地址或者手機號碼的網頁正文信息,進行分詞,獲取關鍵詞組,并對每一 關鍵詞進行權重計算; 對關鍵詞進行權重排序,生成特征關鍵詞向量,用于描述偏好信息; 將郵件地址、手機號碼、識別的可能存在的人物描述信息W及所生成的關鍵詞特征向 量保存至潛在用戶數據庫。
      [0011] 可選地,所述步驟采集互聯網網頁進一步包括;根據輸入的預定網址,采集該網址 下的所有網頁。
      [0012] 可選地,所述人物描述信息包括;姓名、性別、出生年月、職務、職稱。
      [0013] 可選地,在所述步驟對每一關鍵詞進行權重計算之前,方法還包括:根據預先設 置的停用詞表對關鍵詞組中的垃圾關鍵詞進行過濾。
      [0014] 可選地,所述步驟對每一關鍵詞進行權重計算進一部包括;計算關鍵詞在正文中 的詞頻(TF),同時計算該關鍵詞的文件頻率(IDF),關鍵詞權重為TF與IDF的乘積。
      [0015] 可選地,所述步驟對關鍵詞進行權重排序之前,方法還包括;根據預先設定的權重 闊值,對權重低于闊值的關鍵詞從關鍵詞組中刪除。
      [0016] 本發(fā)明提供的技術方案的有益效果是: 通過對網絡數據的分析,發(fā)現潛在用戶,同時挖掘出蘊藏在用戶聯系方式背后的用戶 特點與偏好,進而生成潛在用戶數據庫?;谒鸵粩祿?,可W實現個性化、針對性、小規(guī) 模、低重復的郵件、短信精準營銷,避免盲目投遞,消除負面影響。
      【附圖說明】
      [0017] 本發(fā)明將通過例子并參照附圖的方式說明,其中: 圖1是本發(fā)明潛在用戶挖掘方法的流程圖; 圖2是本發(fā)明抽取郵件地址、手機號碼的流程圖; 圖3是本發(fā)明識別人物描述信息的流程圖。
      【具體實施方式】
      [0018] 為了解決現有技術中郵件營銷、短信營銷的盲目性問題,本發(fā)明提供了一種基于 網絡數據分析的潛在用戶挖掘方法,為了使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面 結合附圖對本發(fā)明實施方式作進一步地詳細描述: 本實施例提供了一種基于網絡數據分析的潛在用戶挖掘方法,如圖1所示,該方法包 括: 步驟10采集互聯網網頁; 每隔一定時間對網絡進行一次采集。本實施例中,采集間隔時間可W任意設置,依據所 采集網站的特點而靈活設定。對于互動類的網站,如論壇,間隔時間設的較短;對于信息公 開類的網站,如高校師生信息公開欄目,間隔時間設的很長。
      [0019] 優(yōu)選地,為了有效降低采集規(guī)模、提升采集效率,考慮到采集目標內容的特點,本 實施例根據輸入的預定網址,只對U化中含有預定網址的網頁進行采集,對于U化中不包含 預定網址的網頁刪去不做處理。預定網址由維護人員依據經驗輸入。預定網址主要集中在 論壇、博客、評論、電子公告板、電子商務網站、百科網站、信息公開類網站。
      [0020] 步驟20網頁初始化,獲取網頁中的正文信息; 巧引優(yōu)選地,所述正文信息包括:標題、正文內容、發(fā)布時間、網站名稱。由于當所述網 頁來自互動類網站時,如論壇、電子公告板、博克,能夠反映網頁主題的很可能為其所在板 塊名稱,所W針對論壇、電子公告板、博克時,網頁正文信息還包括板塊名稱。
      [0021] 步驟30抽取網頁正文信息中可能存在的郵件地址、手機號碼; 郵件地址和手機號的抽取流程如圖2所示,通過正則表達式匹配的方法來實現,具體 流程包括: 步驟301在網頁正文信息中匹配郵件地址正則表達式。
      [0022] 郵件地址正則表達式為:
      如果匹配成功,執(zhí)行步驟302,如果匹配失敗,直接執(zhí)行步驟303。
      [0023] 步驟302抽取上述匹配到的郵件地址,所抽取的郵件地址可能存在一個或者多 個,抽取所有并輸出。
      [0024] 步驟303在網頁正文信息中匹配手機號碼正則表達式。
      [00巧]手機號碼正則表達式為:
      如果匹配成功,執(zhí)行步驟304,如果30U303均匹配失敗,則返回失敗。
      [0026] 步驟304抽取手機號碼,所抽取的手機號碼可能存在一個或者多個,抽取所有并 輸出。
      [0027] 步驟40針對正文信息中存在郵件地址或者手機號碼的網頁正文信息,識別可能 存在的人物描述信息; 可能存在的人物描述信息包括:姓名、性別、出生年月、職務、職稱。其中,姓名為必選 項,否則認為網頁中不存在人物描述信息。性別、出生年月、職務、職稱為可選項,不要求都 識別得到結果。姓名、性別、出生年月、職務、職稱都根據預先定義的規(guī)則來識別。本實施例 中,可能存在的人物描述信息用一個XML結構來描述并記錄。
      [0028] 識別可能存在的人物描述信息的識別流程如圖3所示。識別只針對正文中存在郵 件地址或者手機號碼的網頁。
      [0029] 步驟401判斷網頁正文信息中是否存在人物描述信息特征詞; 特征詞包括;簡介、介紹、履歷、簡歷、個人陳述、工作經歷。特征詞由維護人員依據經驗 分析預先維護好。
      [0030] 如網頁正文信息中存在
      當前第1頁1 2 
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1