基于網絡數據分析的潛在用戶挖掘方法

文檔序號：9524227閱讀：534來源：國知局

基于網絡數據分析的潛在用戶挖掘方法
【技術領域】
[0001] 本發(fā)明涉及互聯網數據處理領域，尤其是一種潛在用戶挖掘方法。
【背景技術】
[0002] 隨著網絡的不斷發(fā)展和營銷手段的不斷更新，郵件營銷、短信營銷已經成為新興的熱口營銷模式，在國內外都得到了廣泛的應用。送類營銷手段是將電子郵件、短信作為專業(yè)的營銷工具，將企業(yè)的產品信息、促銷信息等發(fā)送給目標用戶，從而實現與顧客的快速高效溝通。
[0003] 但是，由于發(fā)現目標用戶本身不易，許多企業(yè)采用了基于郵件地址列表、手機號碼段的盲目群發(fā)方式來進行產品營銷，營銷效果難言理想。許多用戶收到很多對其毫無價值的商業(yè)電子郵件、短信，產生了垃圾郵件、騷擾短信的反感印象，點擊率低、被舉報，用戶怨聲載道時常發(fā)生。
[0004] 郵件服務商、移動運營商、防火墻軟件商為了迎合用戶需要，解決垃圾郵件、短信泛濫問題，建立起了反垃圾郵件、短信機制，使得大部分群發(fā)的郵件、短信被送至垃圾箱甚至被徹底阻隔，造成了群發(fā)郵件、短信的投遞效果大幅度下降，既產生了運營成本，又未能將信息及時送到用戶處。
[0005] 于是，如何發(fā)現潛在用戶，如何對潛在用戶進行區(qū)分并了解其感興趣的內容，是目前很多企業(yè)在開展針對性營銷時非常關必的問題。
[0006] 而解決送一問題的核必就在于發(fā)現潛在用戶的同時，發(fā)現用戶特點，挖掘蘊藏在 E-MAIL、手機號碼背后的用戶興趣點，獲取用戶的真實需求。并據此實現個性化、小規(guī)模、低頻率、高效率的精準郵件、短信營銷。
[0007] 面向互聯網的潛在用戶挖掘方法旨在通過行之有效的互聯網數據分析手段建設可W掲示用戶特征的潛在用戶數據庫。
[0008] 相關技術如專利號為"201210248221. 1"的專利公開的技術為"本發(fā)明提供一種移動互聯網內容的用戶偏好推送方法與裝置，用于根據用戶的訪問獲取用戶的互聯網內容偏好信息，同時根據該偏好信息向用戶進行有針對性的內容推送"該移動互聯網內容的用戶偏好推送方法包括：基于用戶的訪問行為獲取所述用戶訪問的第一信息；對所述第一信息所涉及的網絡內容進行分類處理，得到第二信息；針對所述第二信息對所述用戶的偏好進行評分，得出所述用戶的偏好信息，根據所述偏好信息向相應的用戶推送與所述偏好信息相對應的網絡內容"。該方法實施過程中從移動互聯網的服務器中得到所述用戶訪問的基礎數據，包括用戶訪問的業(yè)務內容，此應用領域面向電信服務商自有服務運營層面。
[0009] 相關技術如專利號為"201210121176. 3"的專利公開的技術為"掲示了一種郵件群發(fā)方法及系統，該方法包括如下步驟；獲取當前郵件所需發(fā)送的所有郵箱地址；將屬于同一郵件域的郵箱地址進行匯總；將不同郵件域的郵箱地址均勻插分W生成發(fā)送隊列；設定發(fā)送間隔時間，W使在所述發(fā)送隊列中的同一郵件域的郵件發(fā)送間隔時間大于該郵件域服務商垃圾郵件的報警閉值；根據所述發(fā)送間隔時間和所述發(fā)送隊列逐一發(fā)送郵件"。該方法解決的是優(yōu)化郵件的發(fā)送時間間隔問題，確保發(fā)送時間間隔大于垃圾郵件報警閉值，從而提高群發(fā)郵件的達到率。不涉及用戶及用戶需求挖掘的問題。

【發(fā)明內容】

[0010] 本發(fā)明的目的是針對上述問題，提供一種基于網絡數據分析的潛在用戶挖掘方法。所述技術方案如下：一種基于網絡數據分析的潛在用戶挖掘方法，其步驟包括如下：采集互聯網網頁；網頁初始化，獲取網頁中的正文信息；抽取網頁正文信息中可能存在的郵件地址、手機號碼；針對存在郵件地址或者手機號碼的網頁正文信息，識別可能存在的人物描述信息；針對存在郵件地址或者手機號碼的網頁正文信息，進行分詞，獲取關鍵詞組，并對每一關鍵詞進行權重計算；對關鍵詞進行權重排序，生成特征關鍵詞向量，用于描述偏好信息；將郵件地址、手機號碼、識別的可能存在的人物描述信息W及所生成的關鍵詞特征向量保存至潛在用戶數據庫。
[0011] 可選地，所述步驟采集互聯網網頁進一步包括；根據輸入的預定網址，采集該網址下的所有網頁。
[0012] 可選地，所述人物描述信息包括；姓名、性別、出生年月、職務、職稱。
[0013] 可選地，在所述步驟對每一關鍵詞進行權重計算之前，方法還包括：根據預先設置的停用詞表對關鍵詞組中的垃圾關鍵詞進行過濾。
[0014] 可選地，所述步驟對每一關鍵詞進行權重計算進一部包括；計算關鍵詞在正文中的詞頻（TF)，同時計算該關鍵詞的文件頻率（IDF)，關鍵詞權重為TF與IDF的乘積。
[0015] 可選地，所述步驟對關鍵詞進行權重排序之前，方法還包括；根據預先設定的權重闊值，對權重低于闊值的關鍵詞從關鍵詞組中刪除。
[0016] 本發(fā)明提供的技術方案的有益效果是：通過對網絡數據的分析，發(fā)現潛在用戶，同時挖掘出蘊藏在用戶聯系方式背后的用戶特點與偏好，進而生成潛在用戶數據庫?；谒鸵粩祿?，可W實現個性化、針對性、小規(guī) 模、低重復的郵件、短信精準營銷，避免盲目投遞，消除負面影響。
【附圖說明】
[0017] 本發(fā)明將通過例子并參照附圖的方式說明，其中：圖1是本發(fā)明潛在用戶挖掘方法的流程圖；圖2是本發(fā)明抽取郵件地址、手機號碼的流程圖；圖3是本發(fā)明識別人物描述信息的流程圖。
【具體實施方式】
[0018] 為了解決現有技術中郵件營銷、短信營銷的盲目性問題，本發(fā)明提供了一種基于網絡數據分析的潛在用戶挖掘方法，為了使本發(fā)明的目的、技術方案和優(yōu)點更加清楚，下面結合附圖對本發(fā)明實施方式作進一步地詳細描述：本實施例提供了一種基于網絡數據分析的潛在用戶挖掘方法，如圖1所示，該方法包括：步驟10采集互聯網網頁；每隔一定時間對網絡進行一次采集。本實施例中，采集間隔時間可W任意設置，依據所采集網站的特點而靈活設定。對于互動類的網站，如論壇，間隔時間設的較短；對于信息公開類的網站，如高校師生信息公開欄目，間隔時間設的很長。
[0019] 優(yōu)選地，為了有效降低采集規(guī)模、提升采集效率，考慮到采集目標內容的特點，本實施例根據輸入的預定網址，只對U化中含有預定網址的網頁進行采集，對于U化中不包含預定網址的網頁刪去不做處理。預定網址由維護人員依據經驗輸入。預定網址主要集中在論壇、博客、評論、電子公告板、電子商務網站、百科網站、信息公開類網站。
[0020] 步驟20網頁初始化，獲取網頁中的正文信息；巧引優(yōu)選地，所述正文信息包括：標題、正文內容、發(fā)布時間、網站名稱。由于當所述網頁來自互動類網站時，如論壇、電子公告板、博克，能夠反映網頁主題的很可能為其所在板塊名稱，所W針對論壇、電子公告板、博克時，網頁正文信息還包括板塊名稱。
[0021] 步驟30抽取網頁正文信息中可能存在的郵件地址、手機號碼；郵件地址和手機號的抽取流程如圖2所示，通過正則表達式匹配的方法來實現，具體流程包括：步驟301在網頁正文信息中匹配郵件地址正則表達式。
[0022] 郵件地址正則表達式為：
如果匹配成功，執(zhí)行步驟302,如果匹配失敗，直接執(zhí)行步驟303。
[0023] 步驟302抽取上述匹配到的郵件地址，所抽取的郵件地址可能存在一個或者多個，抽取所有并輸出。
[0024] 步驟303在網頁正文信息中匹配手機號碼正則表達式。
[00巧]手機號碼正則表達式為：
如果匹配成功，執(zhí)行步驟304,如果30U303均匹配失敗，則返回失敗。
[0026] 步驟304抽取手機號碼，所抽取的手機號碼可能存在一個或者多個，抽取所有并輸出。
[0027] 步驟40針對正文信息中存在郵件地址或者手機號碼的網頁正文信息，識別可能存在的人物描述信息；可能存在的人物描述信息包括：姓名、性別、出生年月、職務、職稱。其中，姓名為必選項，否則認為網頁中不存在人物描述信息。性別、出生年月、職務、職稱為可選項，不要求都識別得到結果。姓名、性別、出生年月、職務、職稱都根據預先定義的規(guī)則來識別。本實施例中，可能存在的人物描述信息用一個XML結構來描述并記錄。
[0028] 識別可能存在的人物描述信息的識別流程如圖3所示。識別只針對正文中存在郵件地址或者手機號碼的網頁。
[0029] 步驟401判斷網頁正文信息中是否存在人物描述信息特征詞；特征詞包括；簡介、介紹、履歷、簡歷、個人陳述、工作經歷。特征詞由維護人員依據經驗分析預先維護好。
[0030] 如網頁正文信息中存在

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯系技術所有人。
技術研發(fā)人員：吳晨;
技術所有人：吳晨;
我是此專利的發(fā)明人

上一篇：一種面包屑導航方法及裝置的制造方法
上一篇：信息處理方法、裝置及電子設備的制造方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

數據挖掘與數據分析相關技術

數據分析和數據挖掘相關技術

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于網絡數據分析的潛在用戶挖掘方法