本發(fā)明涉及通信領域中的網(wǎng)絡管理技術,尤其涉及一種通信操作分析方法及裝置。
背景技術:
近幾年,隨著信息技術的飛躍發(fā)展,用戶使用數(shù)據(jù)通信網(wǎng)絡會出現(xiàn)用戶數(shù)據(jù)信息泄露事件、異常的登陸信息和訪問網(wǎng)站信息,直接影響用戶的信譽度和財產安全。另外,用戶使用數(shù)據(jù)通信網(wǎng)絡時,“未上網(wǎng)卻產生流量費用”和“實際流量與預期流量不符”這兩項帶來的困擾嚴重影響了客戶滿意度。
目前,電信運營商雖然為用戶提供了各種類型的數(shù)據(jù)流量提醒機制,但上述常用的提醒機制無法區(qū)分正常和異常的數(shù)據(jù)流量,且無法單獨為異常數(shù)據(jù)流量進行預警。
技術實現(xiàn)要素:
有鑒于此,本發(fā)明的目的在于提供一種通信操作分析方法及裝置,能至少解決現(xiàn)有技術中存在的上述問題。
為達到上述目的,本發(fā)明的技術方案是這樣實現(xiàn)的:
本發(fā)明實施例提供了一種通信操作分析方法,所述方法包括:
獲取到用戶的至少一條歷史上網(wǎng)話單,其中,所述歷史上網(wǎng)話單至少包括有預設時長內與移動通信數(shù)據(jù)網(wǎng)絡進行數(shù)據(jù)交互的操作記錄;
基于所述歷史上網(wǎng)話單進行上網(wǎng)特征提取,得到歷史上網(wǎng)話單對應的至少一個基本特征因子;
基于歷史上網(wǎng)話單對應的至少一個基本特征因子確定上網(wǎng)模型;
基于所述上網(wǎng)模型,對采用移動終端與移動通信數(shù)據(jù)網(wǎng)絡進行數(shù)據(jù)交互的 第一話單進行分析,并基于分析結果進行處理。
本發(fā)明實施例提供了一種通信操作分析裝置,所述裝置包括:
信息獲取單元,用于獲取到用戶的至少一條歷史上網(wǎng)話單,其中,所述歷史上網(wǎng)話單至少包括有預設時長內與移動通信數(shù)據(jù)網(wǎng)絡進行數(shù)據(jù)交互的操作記錄;
模型建立單元,用于基于所述歷史上網(wǎng)話單進行上網(wǎng)特征提取,得到歷史上網(wǎng)話單對應的至少一個基本特征因子;基于歷史上網(wǎng)話單對應的至少一個基本特征因子確定上網(wǎng)模型;
分析單元,用于基于所述上網(wǎng)模型,對采用移動終端與移動通信數(shù)據(jù)網(wǎng)絡進行數(shù)據(jù)交互的第一話單進行分析,并基于分析結果進行處理。
本發(fā)明實施例提供了通信操作分析方法及裝置,基于用戶的歷史上網(wǎng)話單確定至少一個基本特征因子,進而基于歷史上網(wǎng)話單的至少一個基本特征因子確定上網(wǎng)模型,并利用上網(wǎng)模型對用戶產生的第一話單進行分析,最終能夠基于分析結果進行處理。首先采用上網(wǎng)話單特征因子進行處理的方式能夠降低資源占用率,提高計算效率;并且通過上網(wǎng)模型的建立確定出針對話單的分析結果,進而能夠基于分析結果進行處理,如此減少了用戶不知情產生流量的情況。
附圖說明
圖1為本發(fā)明實施例通信操作分析方法流程示意圖;
圖2為本發(fā)明實施例對上網(wǎng)話單進行特征提取的提示圖;
圖3為本發(fā)明實施例通信操作分析方法中的建立上網(wǎng)模型流程示意圖;
圖4為本發(fā)明實施例通信操作分析方法中的基于上網(wǎng)模型進行分析流程示意圖;
圖5為本發(fā)明實施例通信操作分析裝置組成結構示意圖。
具體實施方式
下面結合附圖及具體實施例對本發(fā)明再作進一步詳細的說明。
實施例一、
本發(fā)明實施例提供了一種通信操作分析方法,如圖1所示,包括:
步驟101:獲取到用戶的至少一條歷史上網(wǎng)話單,其中,所述歷史上網(wǎng)話單至少包括有預設時長內與移動通信數(shù)據(jù)網(wǎng)絡進行數(shù)據(jù)交互的操作記錄;
步驟102:基于所述歷史上網(wǎng)話單進行上網(wǎng)特征提取,得到歷史上網(wǎng)話單對應的至少一個基本特征因子;
步驟103:基于歷史上網(wǎng)話單對應的至少一個基本特征因子確定上網(wǎng)模型;
步驟104:基于所述上網(wǎng)模型,對采用移動終端與移動通信數(shù)據(jù)網(wǎng)絡進行數(shù)據(jù)交互的第一話單進行分析,并基于分析結果進行處理。
本實施例可以應用于網(wǎng)絡設備,比如網(wǎng)絡側的服務器中,也可以有移動終端來對本終端的操作進行分析,也就是說,本實施例即能夠使用于網(wǎng)絡設備、也能夠使用于移動終端,本實施例中不對其進行限定。
下面本實施例著重針對如何建立上網(wǎng)模型進行具體說明:
所述基于歷史上網(wǎng)話單對應的至少一個基本特征因子確定上網(wǎng)模型,包括:
基于歷史上網(wǎng)話單對應的至少一個基本特征因子之間的距離值,確定至少一個類別、以及每一個類別對應的頻數(shù);其中,每一個類別中分別對應有n條歷史上網(wǎng)話單,n為大于等于1的整數(shù);
基于所述類別對應的頻數(shù)確定所述類別對應的權值;
基于每一個類別對應的權重、以及每一個類別對應的中心值,建立上網(wǎng)模型。
其中,所述基于歷史上網(wǎng)話單對應的至少一個基本特征因子之間的距離值,確定至少一個類別、以及每一個類別對應的頻數(shù),包括:
判斷當前輸入的歷史上網(wǎng)話單是否為第一條操作記錄;
若是第一條操作記錄,則設置當前的所述歷史上網(wǎng)話單對應的基本特征 因子作為新建立的類別的中心特征,并將所述類別的頻數(shù)加一;
若不是第一條操作記錄,則計算當前歷史上網(wǎng)話單對應的基本特征因子與當前已有的至少一個類別對應的中心特征之間的距離值,基于所述歷史上網(wǎng)話單與至少一個類別的中心特征之間的距離值選取對應的類別,基于所述歷史上網(wǎng)話單更新所述對應的類別的中心特征以及所述類別對應的頻數(shù)。
本實施例中所述歷史上網(wǎng)話單,可以體現(xiàn)為保存在網(wǎng)絡側的用戶的上網(wǎng)話單,所述上網(wǎng)特征提取可以采用用戶的上網(wǎng)時間段、上網(wǎng)頻率和上網(wǎng)流量特征作為用戶上網(wǎng)的基本特征因子。如圖2所示,其中,分別基于三個上網(wǎng)特征來進行分類,分出來以下a、b、c三種類別:
a.上網(wǎng)時間段:指用戶每天上網(wǎng)的時間段;
b.上網(wǎng)頻率:指用戶單位時間內上網(wǎng)的次數(shù)(次/分);
c.上網(wǎng)流量:指用戶每次上網(wǎng)的流量(kb)。
這樣,對于每一條歷史上網(wǎng)話單即上網(wǎng)話單在某一時間區(qū)間內的多個特征因子,可以看成是多模的,我們可以通過基于聚類的原理將用戶的話單特征提煉為幾個類來代表的樣本集,上網(wǎng)話單可以聚類成3類。
具體的上網(wǎng)模型的學習過程可以參見圖3,具體如下:
一、初始化并建立參數(shù)集。對于每一條話單,令km為最大類別數(shù),td為類間距閾值,當前類別數(shù)為0,每一類的頻數(shù)設為0。
二、輸入話單。
三、如果輸入話單為第一條話單,則令每一話單當前的特征量xt(t為第幾條話單)作為第一類的中心,并將該類的頻數(shù)加1,然后回到步驟二;如果輸入不是第一條話單,則轉到步驟四。
四、對每一話單,計算當前話單特征量xt與該話單已有類別的聚類中心ci,t-1的距離,i是聚類中心個數(shù),令最小距離為dmin:
dmin=min(|ci,t-1-xt|)(1-1)
其中,使得距離最小的類別為第k類:
k=mini(|ci,t-1-xt|)(1-2)
如果dmin<td,則將該特征量歸至最小距離的類中,將該類的頻數(shù)加1,并更新該類的聚類中心為:
ck,t=(1-α)ck,t-1+αxt(1-3)
其中α為學習速率,其大小可以根據(jù)具體的情況而定。然后轉至步驟五。
如果dmin>td,如果已有的類別數(shù)小于定義的最大類別數(shù)km,則增加一個新類,將特征量xt作為新類的聚類中心,并將該類的頻數(shù)加1,然后轉至五。如果已有類別數(shù)大于km,則找出頻數(shù)最少的類,將其移除,并將特征量xt作為新一類的聚類中心,新類的頻數(shù)設為1,然后轉至步驟五。
五、如果學習過程完成,即所有的n個樣本話單已完成聚類,則結束,否則回到二。
其中類間距閾值td可以通過式1-4進行計算
td=tσ(1-4)
通常td根據(jù)場景的不同取一至兩倍的σ,即t為1或2,σ是類間方差。km通常選取為10至20類,場景越復雜,所需的類別數(shù)越多。每一類由其聚類中心與出現(xiàn)頻數(shù)表示。顯然,出現(xiàn)頻率高的類別應對話單模型有較多的貢獻,而出現(xiàn)頻率低的類別對話單模型影響小,通過更新機制會被逐漸抑制和取代。
通過以上的聚類過程,原本的n個樣本x1,x2,...,xn可以由m個新樣本c1,c2,...,cm來表示,ci表示第i類的聚類中心,從而得到能夠表示全樣本關鍵特征的小樣本集。新樣本集中的每個樣本對概率函數(shù)的貢獻不同,其貢獻度由每類出現(xiàn)的頻數(shù)ni,i=1,2…m表示,則由式(1-4)計算每類的權值:
則對應話單的概率函數(shù)通過下式進行計算:
其中,d為特征因子個數(shù),t代表轉置。
可見,通過采用上述方案,能夠基于用戶的歷史上網(wǎng)話單確定至少一個基本特征因子,進而基于歷史上網(wǎng)話單的至少一個基本特征因子確定上網(wǎng)模型,并利用上網(wǎng)模型對用戶產生的第一話單進行分析,最終能夠基于分析結果進行處理。首先采用上網(wǎng)話單特征因子進行處理的方式能夠降低資源占用率,提高計算效率;并且通過上網(wǎng)模型的建立確定出針對話單的分析結果,進而能夠基于分析結果進行處理,如此減少了用戶不知情產生流量的情況。
實施例二、
本發(fā)明實施例提供了一種通信操作分析方法,如圖1所示,包括:
步驟101:獲取到用戶的至少一條歷史上網(wǎng)話單,其中,所述歷史上網(wǎng)話單至少包括有預設時長內與移動通信數(shù)據(jù)網(wǎng)絡進行數(shù)據(jù)交互的操作記錄;
步驟102:基于所述歷史上網(wǎng)話單進行上網(wǎng)特征提取,得到歷史上網(wǎng)話單對應的至少一個基本特征因子;
步驟103:基于歷史上網(wǎng)話單對應的至少一個基本特征因子確定上網(wǎng)模型;
步驟104:基于所述上網(wǎng)模型,對采用移動終端與移動通信數(shù)據(jù)網(wǎng)絡進行數(shù)據(jù)交互的第一話單進行分析,并基于分析結果進行處理。
本實施例可以應用于網(wǎng)絡設備,比如網(wǎng)絡側的服務器中,也可以有移動終端來對本終端的操作進行分析,也就是說,本實施例即能夠使用于網(wǎng)絡設備、也能夠使用于移動終端,本實施例中不對其進行限定。
下面本實施例著重針對如何采用上網(wǎng)模型進行分析來具體說明:
所述基于所述上網(wǎng)模型,對采用移動終端與移動通信數(shù)據(jù)網(wǎng)絡進行數(shù)據(jù)交互的第一話單進行分析,包括:
獲取到用戶采用移動終端與移動通信數(shù)據(jù)網(wǎng)絡進行數(shù)據(jù)交互的第一話單的記錄;
從所述第一話單的記錄中提取得到特征量;
基于所述第一話單的記錄對應的特征量、以及所述上網(wǎng)模型,計算得到所述第一話單記錄對應的概率值,將所述概率值作為針對所述第一話單的分析結果。
相應的,所述基于分析結果進行處理,包括:
判斷分析結果中包含的概率值是否大于預設門限值;
若大于,則確定所述第一話單為正常操作;
若不大于,則確定所述第一話單為異常操作,針對所述第一話單生成提示信息。
結合圖4,對話單分析并進行處理的具體步驟進行說明:
步驟401:設置閾值等參數(shù);
步驟402:輸入樣本話單;
步驟403:若是第一條話單,則直接將該條話單的特征值設置為聚類中心,若不是第一條話單,則判斷當條話單與聚類中心的距離;
步驟404:根據(jù)距離值判斷更新聚類中心;
步驟405:判斷是否完成聚類中心的建立,即所有的n個樣本話單是否已完成聚類,若是,走到步驟406,否則回到步驟402;
步驟406:輸入用戶產生話單;
步驟407:對每一話單,根據(jù)已有類別聚類中心ci,t-1,計算當前話單特征量xt對于第i類中心出現(xiàn)的概率:
則xt出現(xiàn)的總概率為
如果pr(xt)>th,則該話單暫時被判為正常話單,令b(xt)=1,如果pr(xt)<th,則該話單暫時被判為異常話單,令b(xt)=0,其中th是設定的判別閾值,具體可根據(jù)用戶特征話單集波動情況來定義,即波動情況越大,該值越大;
步驟408:對于每一個話單,如果其b(xt)=1,則需要對該話單的概率模型進行更新,我們使用短時更新來對樣本集進行更新。首先需要找出與新進的話單特征值xt最相近的類別k:
k=maxi(pri(xt))(1-9)
如果新進的話單特征值xt與最接近的聚類中心的距離大于核帶寬的兩倍,即
步驟409:如果b(xt)=0,則判斷為異常,則給用戶發(fā)短信告警。
步驟410:如果所有話單都處理完成,則結束,沒有的話則轉到步驟406。
通過上述流程對話單的計算和判別,采集用戶手機終端所產生的每條上網(wǎng)話單,抽取話單中各個維度,與話單特征庫里的特征指標進行匹配;若發(fā)現(xiàn)上網(wǎng)話單中流量是異常流量,則形成危險提醒短信,向用戶終端發(fā)送,提醒用戶采取措施避免繼續(xù)產生異常上網(wǎng)話單。
采用建立用戶話單概率模型,有效地判斷用戶異常上網(wǎng)話單,降低用戶不知情產生流量的情況,提高公司收入。從本方案實施后,“未上網(wǎng)卻產生流量費用”和“使用量小費用很高”兩大類用戶投訴,給用戶退費率下降15%,重復投訴率也下降了10%,凈化了手機上網(wǎng)環(huán)境,提升了客戶滿意度,維護了中國移動的良好企業(yè)形象,創(chuàng)造了巨大的社會效益。
首先提取用戶上網(wǎng)特征進行建模,用戶上網(wǎng)特征的主要原理是結合用戶日常上網(wǎng)習慣,建立用戶上網(wǎng)特征庫,抽取每次上網(wǎng)特征數(shù)據(jù),與特征庫里規(guī)則進行匹配,根據(jù)規(guī)則匹配的結果判斷用戶每次上網(wǎng)行為是否存在安全隱患。本文采集用戶終端上網(wǎng)話單進行特征分析,并進行概率模型建模。因為上網(wǎng)話單在應用領域中適用的范圍比較廣闊,其特征數(shù)據(jù)豐富、特征明顯、結果可靠、處理及時性強。
(1)采集用戶終端產生話單中的用戶號碼、上網(wǎng)時間、上網(wǎng)流量、上網(wǎng)頻率、用戶imei等各個維度信息,并對樣本集信息進行聚類分析,降低存儲量,這樣在樣本集極少的情況下,能夠得到與原樣本集相似的概率函數(shù),快速有效地建立用戶上網(wǎng)話單特征模型。匹配用戶上網(wǎng)話單,如果用戶上網(wǎng)話單特征與用戶平時上網(wǎng)習慣嚴重不符,那么這些話單將被定位成疑似異常上網(wǎng)話單。
(2)用戶話單匹配用戶上網(wǎng)話單特征模型,進行概率計算。當概率低于一定值時,則判斷用戶上網(wǎng)話單不符合用戶上網(wǎng)習慣,那么將這些話單判定為疑似異常上網(wǎng)話單,并對用戶進行短信告知。
用戶自主產生的上網(wǎng)流量話單一般具有一定的規(guī)律和特征,本實施例利用該特性來判斷用戶話單是否正常,符合以往用戶上網(wǎng)特征的判別為正常話單,差異較大則判別為異常話單,及時通知用戶,避免損失。本實施例實現(xiàn)方案中首先采集用戶終端上網(wǎng)話單進行特征分析,并將其重要特征進行聚類預處理,進而進行概率模型建模,形成上網(wǎng)話單模型,然后匹配用戶的上網(wǎng)話單與話單模型,進行概率計算,通過其值來判斷用戶的話單是否正常。
聚類預處理用戶話單可以解決概率計算復雜度大、對硬件存儲要求較高的問題,同時聚類學習過程還具有以下優(yōu)勢:(1)高度的可伸縮性,即在聚類話單數(shù)據(jù)集合非常大時,仍能夠得到較滿意的聚類分類效果;(2)抗噪聲數(shù)據(jù)的性能強,實際的樣本數(shù)據(jù)庫中的數(shù)據(jù)可能包含孤立的點甚至是錯誤的數(shù)據(jù),聚類算法對這些類似噪聲的數(shù)據(jù)不敏感,不會影響聚類的效果。因此,將用戶話單的各個特征進行聚類分析,有助于提高計算效率。
話單概率模型建立是采用非參數(shù)核密度估計算法,該算法可以直接從觀測數(shù)據(jù)中估計未知密度函數(shù),所以不需要假定模型的參數(shù)或者對參數(shù)進行優(yōu)化的工作,因此該方法已經(jīng)被廣泛應用于魯棒的復雜數(shù)據(jù)建模。在非參數(shù)核密度估計算法中,取話單序列中連續(xù)的n條話單作為樣本,則沿著時間軸,每個話單特征都有n個樣本值,于是可以為每個話單特征建立一個概率模型。當話單樣本足夠多時,核密度估計能夠逐漸的收斂于真實話單模型。
可見,通過采用上述方案,能夠基于用戶的歷史上網(wǎng)話單確定至少一個基本特征因子,進而基于歷史上網(wǎng)話單的至少一個姐基本特征因子確定上網(wǎng)模型,并利用上網(wǎng)模型對用戶產生的第一話單進行分析,最終能夠基于分析結果進行處理。首先采用上網(wǎng)話單特征因子進行處理的方式能夠降低資源占用率,提高計算效率;并且通過上網(wǎng)模型的建立確定出針對話單的分析結果,進而能夠基于分析結果進行處理,如此減少了用戶不知情產生流量的情況。
實施例三、
本發(fā)明實施例提供了一種通信操作分析裝置,如圖5所示,所述裝置包括:
信息獲取單元51,用于獲取到用戶的至少一條歷史上網(wǎng)話單,其中,所述歷史上網(wǎng)話單至少包括有預設時長內與移動通信數(shù)據(jù)網(wǎng)絡進行數(shù)據(jù)交互的操作記錄;
模型建立單元52,用于基于所述歷史上網(wǎng)話單進行上網(wǎng)特征提取,得到歷史上網(wǎng)話單對應的至少一個基本特征因子;基于歷史上網(wǎng)話單對應的至少一個基本特征因子確定上網(wǎng)模型;
分析單元53,用于基于所述上網(wǎng)模型,對采用移動終端與移動通信數(shù)據(jù)網(wǎng)絡進行數(shù)據(jù)交互的第一話單進行分析,并基于分析結果進行處理。
本實施例所述通信操作分析裝置可以為網(wǎng)絡設備,比如網(wǎng)絡側的服務器,或者還可以為服務器集群,也就是說上述三個模塊可以設置于一個服務器中,也可以分別設置在不同的服務器中;另外,上述通信操作分析裝置也可以為移動終端。
下面本實施例著重針對如何建立上網(wǎng)模型進行具體說明:
所述模型建立單元52,用于基于歷史上網(wǎng)話單對應的至少一個基本特征因子之間的距離值,確定至少一個類別、以及每一個類別對應的頻數(shù);其中,每一個類別中分別對應有n條歷史上網(wǎng)話單,n為大于等于1的整數(shù);基于所述類別對應的頻數(shù)確定所述類別對應的權值;基于每一個類別對應的權重、以及每一個類別對應的中心值,建立上網(wǎng)模型。
其中,所述模型建立單元52,用于判斷當前輸入的歷史上網(wǎng)話單是否為第一條操作記錄;若是第一條操作記錄,則設置當前的所述歷史上網(wǎng)話單對應的基本特征因子作為新建立的類別的中心特征,并將所述類別的頻數(shù)加一;若不是第一條操作記錄,則計算當前歷史上網(wǎng)話單對應的基本特征因子與當前已有的至少一個類別對應的中心特征之間的距離值,基于所述歷史上網(wǎng)話單與至少一個類別的中心特征之間的距離值選取對應的類別,基于所述歷史上網(wǎng)話單更新所述對應的類別的中心特征以及所述類別對應的頻數(shù)。
本實施例中所述歷史上網(wǎng)話單,可以體現(xiàn)為保存在網(wǎng)絡側的用戶的上網(wǎng)話單,所述上網(wǎng)特征提取可以采用用戶的上網(wǎng)時間段、上網(wǎng)頻率和上網(wǎng)流量特征作為用戶上網(wǎng)的基本特征因子。
具體的上網(wǎng)模型的學習過程可以參見圖3,具體如下:
一、初始化并建立參數(shù)集。對于每一條話單,令km為最大類別數(shù),td為類間距閾值,當前類別數(shù)為0,每一類的頻數(shù)設為0。
二、輸入話單。
三、如果輸入話單為第一條話單,則令每一話單當前的特征量xt(t為第幾條話單)作為第一類的中心,并將該類的頻數(shù)加1,然后回到步驟二;如果輸入不是第一條話單,則轉到步驟四。
四、對每一話單,計算當前話單特征量xt與該話單已有類別的聚類中心ci,t-1的距離,i是聚類中心個數(shù),令最小距離為dmin:
dmin=min(|ci,t-1-xt|)(1-1)
其中,使得距離最小的類別為第k類:
k=mini(|ci,t-1-xt|)(1-2)
如果dmin<td,則將該特征量歸至最小距離的類中,將該類的頻數(shù)加1,并更新該類的聚類中心為:
ck,t=(1-α)ck,t-1+αxt(1-3)
其中α為學習速率,其大小可以根據(jù)具體的情況而定。然后轉至步驟五。
如果dmin>td,如果已有的類別數(shù)小于定義的最大類別數(shù)km,則增加一個新類,將特征量xt作為新類的聚類中心,并將該類的頻數(shù)加1,然后轉至五。如果已有類別數(shù)大于km,則找出頻數(shù)最少的類,將其移除,并將特征量xt作為新一類的聚類中心,新類的頻數(shù)設為1,然后轉至步驟五。
五、如果學習過程完成,即所有的n個樣本話單已完成聚類,則結束,否則回到二。
其中類間距閾值td可以通過式1-4進行計算
td=tσ(1-4)
通常td根據(jù)場景的不同取一至兩倍的σ,即t為1或2,σ是類間方差。km通常選取為10至20類,場景越復雜,所需的類別數(shù)越多。每一類由其聚類中心與出現(xiàn)頻數(shù)表示。顯然,出現(xiàn)頻率高的類別應對話單模型有較多的貢獻,而出現(xiàn)頻率低的類別對話單模型影響小,通過更新機制會被逐漸抑制和取代。
通過以上的聚類過程,原本的n個樣本x1,x2,...,xn可以由m個新樣本c1,c2,...,cm來表示,ci表示第i類的聚類中心,從而得到能夠表示全樣本關鍵特征的小樣本集。新樣本集中的每個樣本對概率函數(shù)的貢獻不同,其貢獻度由每類出現(xiàn)的頻數(shù)ni,i=1,2…m表示,則由式(1-4)計算每類的權值:
則對應話單的概率函數(shù)通過下式進行計算:
可見,通過采用上述方案,能夠基于用戶的歷史上網(wǎng)話單確定至少一個基本特征因子,進而基于歷史上網(wǎng)話單的至少一個基本特征因子確定上網(wǎng)模型,并利用上網(wǎng)模型對用戶產生的第一話單進行分析,最終能夠基于分析結果進行處理。首先采用上網(wǎng)話單特征因子進行處理的方式能夠降低資源占用率,提高計算效率;并且通過上網(wǎng)模型的建立確定出針對話單的分析結果,進而能夠基于分析結果進行處理,如此減少了用戶不知情產生流量的情況。
實施例四、
本發(fā)明實施例提供了一種通信操作分析裝置,如圖5所示,所述裝置包括:
信息獲取單元51,用于獲取到用戶的至少一條歷史上網(wǎng)話單,其中,所述歷史上網(wǎng)話單至少包括有預設時長內與移動通信數(shù)據(jù)網(wǎng)絡進行數(shù)據(jù)交互的操作記錄;
模型建立單元52,用于基于所述歷史上網(wǎng)話單進行上網(wǎng)特征提取,得到歷史上網(wǎng)話單對應的至少一個基本特征因子;基于歷史上網(wǎng)話單對應的至少一個基本特征因子確定上網(wǎng)模型;
分析單元53,用于基于所述上網(wǎng)模型,對采用移動終端與移動通信數(shù)據(jù)網(wǎng)絡進行數(shù)據(jù)交互的第一話單進行分析,并基于分析結果進行處理。
本實施例所述通信操作分析裝置可以為網(wǎng)絡設備,比如網(wǎng)絡側的服務器,或者還可以為服務器集群,也就是說上述三個模塊可以設置于一個服務器中,也可以分別設置在不同的服務器中;另外,上述通信操作分析裝置也可以為移動終端。
下面本實施例著重針對如何采用上網(wǎng)模型進行分析來具體說明:
所述分析單元53,用于獲取到用戶采用移動終端與移動通信數(shù)據(jù)網(wǎng)絡進行數(shù)據(jù)交互的第一話單的記錄;從所述第一話單的記錄中提取得到特征量;基于所述第一話單的記錄對應的特征量、以及所述上網(wǎng)模型,計算得到所述第一話單記錄對應的概率值,將所述概率值作為針對所述第一話單的分析結果。
相應的,所述分析單元53,用于判斷分析結果中包含的概率值是否大于預設門限值;若大于,則確定所述第一話單為正常操作;若不大于,則確定所述第一話單為異常操作,針對所述第一話單生成提示信息。
采用建立用戶話單概率模型,有效地判斷用戶異常上網(wǎng)話單,降低用戶不知情產生流量的情況,提高公司收入。從本方案實施后,“未上網(wǎng)卻產生流量費用”和“使用量小費用很高”兩大類用戶投訴,給用戶退費率下降15%,重復投訴率也下降了10%,凈化了手機上網(wǎng)環(huán)境,提升了客戶滿意度,維護了中國移動的良好企業(yè)形象,創(chuàng)造了巨大的社會效益。
首先提取用戶上網(wǎng)特征進行建模,用戶上網(wǎng)特征的主要原理是結合用戶日常上網(wǎng)習慣,建立用戶上網(wǎng)特征庫,抽取每次上網(wǎng)特征數(shù)據(jù),與特征庫里規(guī)則進行匹配,根據(jù)規(guī)則匹配的結果判斷用戶每次上網(wǎng)行為是否存在安全隱患。本文采集用戶終端上網(wǎng)話單進行特征分析,并進行概率模型建模。因為上網(wǎng)話單在應用領域中適用的范圍比較廣闊,其特征數(shù)據(jù)豐富、特征明顯、結果可靠、處理及時性強。
(1)采集用戶終端產生話單中的用戶號碼、上網(wǎng)時間、上網(wǎng)流量、上網(wǎng)頻率、用戶imei等各個維度信息,并對樣本集信息進行聚類分析,降低存儲量,這樣在樣本集極少的情況下,能夠得到與原樣本集相似的概率函數(shù),快速有效地建立用戶上網(wǎng)話單特征模型。匹配用戶上網(wǎng)話單,如果用戶上網(wǎng)話單特征與用戶平時上網(wǎng)習慣嚴重不符,那么這些話單將被定位成疑似異常上網(wǎng)話單。
(2)用戶話單匹配用戶上網(wǎng)話單特征模型,進行概率計算。當概率低于一定值時,則判斷用戶上網(wǎng)話單不符合用戶上網(wǎng)習慣,那么將這些話單判定為疑似異常上網(wǎng)話單,并對用戶進行短信告知。
用戶自主產生的上網(wǎng)流量話單一般具有一定的規(guī)律和特征,本實施例利用該特性來判斷用戶話單是否正常,符合以往用戶上網(wǎng)特征的判別為正常話單,差異較大則判別為異常話單,及時通知用戶,避免損失。本實施例實現(xiàn)方案中首先采集用戶終端上網(wǎng)話單進行特征分析,并將其重要特征進行聚類預處理,進而進行概率模型建模,形成上網(wǎng)話單模型,然后匹配用戶的上網(wǎng)話單與話單模型,進行概率計算,通過其值來判斷用戶的話單是否正常。
聚類預處理用戶話單可以解決概率計算復雜度大、對硬件存儲要求較高的問題,同時聚類學習過程還具有以下優(yōu)勢:(1)高度的可伸縮性,即在聚類話單數(shù)據(jù)集合非常大時,仍能夠得到較滿意的聚類分類效果;(2)抗噪聲數(shù)據(jù)的性能強,實際的樣本數(shù)據(jù)庫中的數(shù)據(jù)可能包含孤立的點甚至是錯誤的數(shù)據(jù),聚類算法對這些類似噪聲的數(shù)據(jù)不敏感,不會影響聚類的效果。因此,將用戶話單的各個特征進行聚類分析,有助于提高計算效率。
話單概率模型建立是采用非參數(shù)核密度估計算法,該算法可以直接從觀測數(shù)據(jù)中估計未知密度函數(shù),所以不需要假定模型的參數(shù)或者對參數(shù)進行優(yōu)化的工作,因此該方法已經(jīng)被廣泛應用于魯棒的復雜數(shù)據(jù)建模。在非參數(shù)核密度估計算法中,取話單序列中連續(xù)的n條話單作為樣本,則沿著時間軸,每個話單特征都有n個樣本值,于是可以為每個話單特征建立一個概率模型。當話單樣本足夠多時,核密度估計能夠逐漸的收斂于真實話單模型。
可見,通過采用上述方案,能夠基于用戶的歷史上網(wǎng)話單確定至少一個基本特征因子,進而基于歷史上網(wǎng)話單的至少一個基本特征因子確定上網(wǎng)模型,并利用上網(wǎng)模型對用戶產生的第一話單進行分析,最終能夠基于分析結果進行處理。首先采用上網(wǎng)話單特征因子進行處理的方式能夠降低資源占用率,提高計算效率;并且通過上網(wǎng)模型的建立確定出針對話單的分析結果,進而能夠基于分析結果進行處理,如此減少了用戶不知情產生流量的情況。
本發(fā)明實施例所述集成的模塊如果以軟件功能模塊的形式實現(xiàn)并作為獨立的產品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質中?;? 于這樣的理解,本發(fā)明實施例的技術方案本質上或者說對現(xiàn)有技術做出貢獻的部分可以以軟件產品的形式體現(xiàn)出來,該計算機軟件產品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可以是個人計算機、網(wǎng)絡設備、或者網(wǎng)絡設備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分。而前述的存儲介質包括:u盤、移動硬盤、只讀存儲器(rom,read-onlymemory)、隨機存取存儲器(ram,randomaccessmemory)、磁碟或者光盤等各種可以存儲程序代碼的介質。這樣,本發(fā)明實施例不限制于任何特定的硬件和軟件結合。
以上所述,僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。