一種流量數據篩選方法和裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及通信領域中數據統(tǒng)計技術領域,具體地,涉及流量數據篩選的方法和 裝直。
【背景技術】
[0002] 如圖1所示,現網用戶GPRS話單生成機制為:用戶上網過程中,由SGSN、GGSN設備 生成S-CDR和G-CDR原始話單,內容包含用戶手機號、頂SI、MEI、SGSN、GGSN信息、網絡標 識、運營商標識、上網開始結束時間、時長、流量、位置(初始小區(qū))等內容。原始話單經CG進 行格式轉換及部分話單合并后,送至BOSS(BusinessOperationSupportSystem,業(yè)務運 營支撐系統(tǒng))進行計費。話單生成門限一般設置為流量達到2M或上網時長達到15分鐘。
[0003]目前GPRS話單內容中,缺少用戶訪問的網址Url、分級鏈接、網頁流媒體信息,無 法區(qū)分顯示P2P、即時通信類業(yè)務類型,無法基于話單進行精準的用戶行為分析。
[0004]目前GPRS話單中位置信息不準確,所記錄的小區(qū)信息為用戶發(fā)起業(yè)務時所處的 小區(qū),無法展現切換后的小區(qū)信息。
[0005] 各專業(yè)系統(tǒng)相互獨立,分散管理,支撐、網管、客服等系統(tǒng)各自獨立建設,無底層統(tǒng) 一數據源,造成端到端業(yè)務質量、用戶行為、業(yè)務類型等現有數據沒有有效整合,影響流量 運營支撐。
[0006] 流量數據篩選系統(tǒng)具有領先清晰的架構:流量數據篩選系統(tǒng)分為適配和xDR預處 理子系統(tǒng)、分布式計算子系統(tǒng)、實時處理子系統(tǒng)、詳單存儲與查詢子系統(tǒng)、數據模型分析子 系統(tǒng)、服務精細化平臺、扇區(qū)與流量區(qū)域熱點地圖、應用識別/分類特征庫、網址識別/分類 特征庫、心跳機制負反饋粗細跟蹤深度包檢測、應用軟件心跳機制流量分析數據質量檢驗 字典庫、Web應用子系統(tǒng)和系統(tǒng)管理子系統(tǒng)。
【發(fā)明內容】
[0007] 本發(fā)明是為了克服現有技術中對各應用軟件心跳機制流量數據缺乏有效篩選的 缺陷,根據本發(fā)明的一個方面,提出一種流量數據篩選方法。
[0008] 根據本發(fā)明實施例的流量數據篩選方法,包括:
[0009]依靠探針通過分析端口獲取各應用軟件心跳機制流量數據,獲取流量數據的標簽 數據;
[0010] 根據標簽數據對流量數據進行半監(jiān)督聚類處理后送入數據倉庫;
[0011] 將數據倉庫內的各種數據實體映射成虛擬數據層中的表,進行數據加工整合。
[0012] 本發(fā)明是為了克服現有技術中對各應用軟件心跳機制流量數據缺乏有效篩選的 缺陷,根據本發(fā)明的一個方面,提出一種流量數據篩選裝置。
[0013] 根據本發(fā)明實施例的流量數據篩選方法,包括:
[0014] 數據獲取模塊,用于依靠探針通過分析端口獲取各應用軟件心跳機制流量數據, 獲取流量數據的標簽數據;
[0015] 數據處理模塊,用于根據標簽數據對所述流量數據進行半監(jiān)督聚類處理后送入數 據倉庫;
[0016] 映射整合模塊,用于將數據倉庫內的各種數據實體映射成虛擬數據層中的表,進 行數據加工整合。
[0017] 本發(fā)明的流量數據篩選方法和裝置,對基于心跳機制的各應用進行數據選取、數 據集成、數據整理和數據規(guī)約,提高了各應用軟件心跳機制流量數據篩選的有效性,為后續(xù) 的流量數據分析提供了可靠保障。
[0018] 本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變 得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明 書、權利要求書、以及附圖中所特別指出的結構來實現和獲得。
[0019] 下面通過附圖和實施例,對本發(fā)明的技術方案做進一步的詳細描述。
【附圖說明】
[0020] 附圖用來提供對本發(fā)明的進一步理解,并且構成說明書的一部分,與本發(fā)明的實 施例一起用于解釋本發(fā)明,并不構成對本發(fā)明的限制。在附圖中:
[0021] 圖1為現有技術中現網用戶GPRS上網話單生成機制示意圖;
[0022] 圖2為本發(fā)明流量數據篩選系統(tǒng)示意圖;
[0023] 圖3為本發(fā)明靜態(tài)基線與動態(tài)基線的比較示意圖;
[0024] 圖4為本發(fā)明本發(fā)明為基于DFI和DPI的的應用軟件心跳機制流量分析裝置的結 構示意圖;
[0025] 圖5為本發(fā)明流量識別順序的結構示意圖;
[0026] 圖6為本發(fā)明心跳機制流量識別模塊的具體功能分解圖;
[0027] 圖7為本發(fā)明流量數據篩選裝置的結構示意圖。
【具體實施方式】
[0028] 下面結合附圖,對本發(fā)明的【具體實施方式】進行詳細描述,但應當理解本發(fā)明的保 護范圍并不受【具體實施方式】的限制。
[0029] 本發(fā)明研究基于日志的底層流量詳單標準庫,為其他系統(tǒng)提供標準化接口,實現 各類應用。詳單中除現有GPRS話單內容外,能夠詳細展示用戶訪問的一級、二級網址信息、 用戶訪問的業(yè)務類型、流量、時長、位置等信息,按業(yè)務過程、小區(qū)切換截取話單,形成基于 用戶上網日志的標準詳單庫,支撐運營分析、行為分析、客戶服務、用戶投訴、運行維護。
[0030] 本發(fā)明以探針數據源為主,保證數據的實時性和"每業(yè)務每用戶"的分析粒度;通 過流量詳單系統(tǒng)實現端到端、跨領域和精細化的管理運營,滿足全IP網絡運營需求,并實 現從管理網絡性能轉向管理業(yè)務質量、經營能力的提升。
[0031] 本發(fā)明的整個系統(tǒng)內部安全性是按照電信級產品要求設計,從原始信令接入探針 開始,所有的傳輸采取雙平面?zhèn)鬏?,保證在網絡故障時,能夠及時的切換到備用平面進行數 據傳輸,確保整個系統(tǒng)的數據傳輸準確,不丟失。下面分別介紹探針和SEQ的保障措施:
[0032] 探針的保障措施:探針和SEQ在進行單據傳輸時,物理鏈路上采用雙平面方式,主 用通信平面發(fā)生故障時,切換到備用通信平面上進行單據傳輸,確保單據不丟失。在探針和 SEQ之間,采取TCP可靠連接的方式進行單據傳輸,TCP連接本身可以保障在傳輸過程丟包 的重傳,通過該方式保障當鏈路不可靠時,傳輸上不丟包。
[0033] 在探針上,當上報鏈路全部發(fā)生故障時,在探針內存中臨時緩存單據,保障未上報 的單據可以繼續(xù)保留在探針上。
[0034] 在上述描述中,SEQ的含義為是順序、序號、次序,等于該主機選擇本次連接的初始 序號加上報文段中第一個字節(jié)在整個數據流中的序號,在連接建立的時候,會隨機選擇一 個初始序號,例如:發(fā)送的數據包中的字節(jié)是整個數據流中的第256字節(jié)到512字節(jié)。
[0035]SEQ的保障措施:SEQ內部通信采取雙平面方式,當主用通信平面發(fā)生故障時,快 速切換到備用通信平面,保證內部通信的通暢。SEQ接入分發(fā)模塊通過TCP接收到單據后, 實時向后續(xù)模塊進行分發(fā)。當后續(xù)模塊處于擁塞或內部網絡出現故障時,分發(fā)模塊會先緩 存單據到內存中。當內存中寫滿單據時,分發(fā)模塊會把單據存儲到本地硬盤上,系統(tǒng)擁塞解 除后,繼續(xù)分發(fā)緩存的單據到后續(xù)模塊,確保數據不丟失。
[0036]SEQ其他內部模塊之間通信采用和接入模塊類似的機制,當本模塊處理完成后,后 續(xù)模塊未把單據取走之前(可以保留2小時),保存這部分單據在本地硬盤上,確保單據在內 部傳輸過程中不丟失,直到最終單據進入數據庫,本地保留的單據才會被刪除。
[0037] 數據計算的準確性:數據計算基于探針上報的CDR/TDR,系統(tǒng)中各業(yè)務計算結果 準確。SEQAnalyst數據源適配可對多種外部數據源接入的數據格式進行規(guī)整,轉換成統(tǒng)一 格式,用于進行后續(xù)的關聯分析以及數據統(tǒng)計。當前能接入的數據源包括探針xDR數據、PM 系統(tǒng)性能數據,支持流式接入以及文件接入。接入格式支持ASCII以及CSV,并能按需要快 速定制接入其他數據格式。數據質量管理支持WEBService的API開放接口,也支持基于 xDR的開放需求系統(tǒng)數據處理。信令采集網關采用分布式部署和計算,并提供匯聚網關,能 夠把采集網關的數據匯聚后上傳到共享層處理。
[0038] 圖2中的英文名稱列舉如下:
[0039]WES:Web服務器(WebServer)
[0040]DBS:數據庫服務器(DataBaseServer)
[0041]GP-Master服務器是SEQAnalyst解決方案的業(yè)務服務器,用于對xDR預處理子系 統(tǒng)上傳的xDR數據分發(fā)到GP-Segment進行分布式計算和存儲。
[0042] GP-Segment服務器是SEQAnalyst解決方案的業(yè)務服務器,用于對xDR數據的分 布式計算和存儲,計算結果提供給SybaseIQ集群做KQI計算。
[0043]DSS:數據共享服務器(Da