本發(fā)明涉及手機終端信令監(jiān)測技術(shù),尤其涉及一種快速補全終端信息庫的方法及裝置。
背景技術(shù):
:現(xiàn)有技術(shù)中,獲取終端信息時,通常是從手機終端生產(chǎn)廠家獲取國際移動設(shè)備標識(internationalmobileequipmentidentity,imei),以及與手機終端型號對應(yīng)的終端信息,或者通過全球移動通信協(xié)會(globalsystemformobilecommunicationsalliance,gsma)及其授權(quán)機構(gòu)為某個手機終端分配的imei庫進行查詢,這類過程一般為人工干預(yù)?,F(xiàn)有技術(shù)也可以從超文本傳輸協(xié)議(hypertexttransferprotocol,http)的用戶代理(user-agent)獲取終端信息,但能獲取到的終端信息有限,同一款終端使用不同的業(yè)務(wù)時能獲取到不同的user-agent,終端識別的準確性無法保證。技術(shù)實現(xiàn)要素:有鑒于此,本發(fā)明實施例期望提供一種快速補全終端信息庫的方法及裝置,以實現(xiàn)快速獲取新入網(wǎng)終端的imei和終端類型信息,并自動補全終端信息庫。本發(fā)明實施例的技術(shù)方案是這樣實現(xiàn)的:一種快速補全終端信息庫的方法,所述方法包括:獲取數(shù)據(jù)業(yè)務(wù)的關(guān)鍵信息記錄;從所述關(guān)鍵信息記錄中解析出所有使用超文本傳輸協(xié)議http業(yè)務(wù)的統(tǒng)一資源定位符url信息;從所述url信息中獲取包含終端信息的關(guān)鍵url信息并保存;從保存的所述關(guān)鍵url信息中提取imei識別信息;對所述imei識別信息與終端型號進行統(tǒng)一性分析,并根據(jù)分析結(jié)果補全所述終端信息庫。如上所述的方法,其中,所述從所述url信息中獲取包含終端信息的關(guān)鍵url信息并保存,包括:從所述url信息中獲取包含預(yù)設(shè)關(guān)鍵詞的url信息;利用關(guān)鍵字匹配從所述包含預(yù)設(shè)關(guān)鍵詞的url信息中獲取所述關(guān)鍵url信息;所述關(guān)鍵url信息包含終端的imei識別信息、終端品牌信息、終端型號信息及系統(tǒng)版本信息。如上所述的方法,其中,所述從保存的所述關(guān)鍵url信息中提取imei識別信息,包括:從所述關(guān)鍵詞的url信息中識別出imei識別信息,并利用第一公式驗證所述imei識別信息的有效性;所述第一公式為:其中,u(x)函數(shù)用于通過判斷http消息中的host域判斷出用戶訪問的服務(wù)的性質(zhì),驗證所述imei識別信息的有效性;r(y)函數(shù)用于通過判斷http消息中的url域識別用戶行為特性,驗證所述imei識別信息的有效性;將有效性驗證通過的imei識別信息作為最終提取的所述imei識別信息。如上所述的方法,其中,所述對所述imei識別信息與終端型號進行統(tǒng)一性分析,并根據(jù)分析結(jié)果補全所述終端信息庫,包括:提取所述imei識別信息的型號核準號碼tac,并計算tac映射率;所述tac映射率為所述tac對應(yīng)次數(shù)最多的終端型號的次數(shù)累加與所述tac對應(yīng)的所有終端型號的次數(shù)累加的比值;在tac映射率達到預(yù)設(shè)閾值時,確定所述tac與所述對應(yīng)次數(shù)最多的終端型號對應(yīng);將確定的終端型號和所述imei識別信息與現(xiàn)有的終端信息庫中的信息進行匹配,若匹配失敗,則增加與所述imei識別信息對應(yīng)的終端信息,若匹配成功,則將現(xiàn)有的終端信息庫中的終端信息與所述imei識別信息進行一致性驗證。如上所述的方法,其中,所述將現(xiàn)有的終端信息庫中的終端信息與所述imei識別信息進行一致性驗證,包括:對所述imei識別信息進行格式化修正,提取格式化修正后的imei識別信息中的tac,在所述現(xiàn)有的終端信息庫中查詢所述tac,進行一致性驗證。一種快速補全終端信息庫的裝置,所述裝置包括:獲取模塊,用于獲取數(shù)據(jù)業(yè)務(wù)的關(guān)鍵信息記錄;解析模塊,用于從所述關(guān)鍵信息記錄中解析出所有使用超文本傳輸協(xié)議http業(yè)務(wù)的統(tǒng)一資源定位符url信息;所述獲取模塊用于從所述url信息中獲取包含終端信息的關(guān)鍵url信息并保存;從保存的所述關(guān)鍵url信息中提取imei識別信息;補全模塊,用于對所述imei識別信息與終端型號進行統(tǒng)一性分析,并根據(jù)分析結(jié)果補全所述終端信息庫。如上所述的裝置,其中,所述獲取模塊具體用于:從所述url信息中獲取包含預(yù)設(shè)關(guān)鍵詞的url信息;利用關(guān)鍵字匹配從所述包含預(yù)設(shè)關(guān)鍵詞的url信息中獲取所述關(guān)鍵url信息;所述關(guān)鍵url信息包含終端的imei識別信息、終端品牌信息、終端型號信息及系統(tǒng)版本信息。如上所述的裝置,其中,所述獲取模塊具體用于:從所述關(guān)鍵詞的url信息中識別出imei識別信息,并利用第一公式驗證所述imei識別信息的有效性;所述第一公式為:其中,u(x)函數(shù)用于通過判斷http消息中的host域判斷出用戶訪問的服務(wù)的性質(zhì),驗證所述imei識別信息的有效性;r(y)函數(shù)用于通過判斷http消息中的url域識別用戶行為特性,驗證所述imei識別信息的有效性;將有效性驗證通過的imei識別信息作為最終提取的所述imei識別信息。如上所述的裝置,其中,所述補全模塊具體用于:提取所述imei識別信息的型號核準號碼tac,并計算tac映射率;所述tac映射率為所述tac對應(yīng)次數(shù)最多的終端型號的次數(shù)累加與所述tac對應(yīng)的所有終端型號的次數(shù)累加的比值;在tac映射率達到預(yù)設(shè)閾值時,確定所述tac與所述對應(yīng)次數(shù)最多的終端型號對應(yīng);將確定的終端型號和所述imei識別信息與現(xiàn)有的終端信息庫中的信息進行匹配,若匹配失敗,則增加與所述imei識別信息對應(yīng)的終端信息,若匹配成功,則將現(xiàn)有的終端信息庫中的終端信息與所述imei識別信息進行一致性驗證。如上所述的裝置,其中,所述補全模塊具體用于:對所述imei識別信息進行格式化修正,提取格式化修正后的imei識別信息中的tac,在所述現(xiàn)有的終端信息庫中查詢所述tac,進行一致性驗證。本發(fā)明實施例提供的快速補全終端信息庫的方法及裝置,通過獲取數(shù)據(jù)業(yè)務(wù)的關(guān)鍵信息記錄;從所述關(guān)鍵信息記錄中解析出所有使用http業(yè)務(wù)的統(tǒng)一資源定位符(uniformresourelocator,url)信息;從所述url信息中獲取包含終端信息的關(guān)鍵url信息并保存;從保存的所述關(guān)鍵url信息中提取imei識別信息;對所述imei識別信息與終端型號進行統(tǒng)一性分析,并根據(jù)分析結(jié)果補全所述終端信息庫。如此,能夠快速的獲取新入網(wǎng)手機終端的終端信息,并自動補全終端信息庫。附圖說明圖1為本發(fā)明實施例提供的快速補全終端信息庫的方法的流程圖;圖2為本發(fā)明實施例提供的快速補全終端信息庫的裝置的結(jié)構(gòu)示意圖。具體實施方式在本發(fā)明的各實施例中,通過獲取手機終端的數(shù)據(jù)業(yè)務(wù)的關(guān)鍵信息記錄,能夠快速的獲取新入網(wǎng)終端的imei、終端類型信息,通過對信令中url的分析找出imei與終端型號的對應(yīng)關(guān)系,通過多次過濾與驗證提升自動化匹配的成功率。圖1為本發(fā)明實施例提供的快速補全終端信息庫的方法的流程圖。如圖1所示,本實施例提供的方法可以由快速補全終端信息庫的裝置執(zhí)行,本實施例提供的方法具體可以包括:步驟101、獲取數(shù)據(jù)業(yè)務(wù)的關(guān)鍵信息記錄。本步驟中,可以通過采集并解碼原始碼流,提取包含用戶使用數(shù)據(jù)業(yè)務(wù)的關(guān)鍵信息記錄,采集數(shù)據(jù)時具體可以從gb接口、iups接口、gn接口或s1-u接口采集。步驟102、從所述關(guān)鍵信息記錄中解析出所有使用http業(yè)務(wù)的統(tǒng)一資源定位符url信息。在采集的數(shù)據(jù)中,用戶上網(wǎng)時,某些瀏覽器、業(yè)務(wù)的app軟件會自動把用戶的關(guān)鍵信息上報,如手機號碼、imsi、imei、終端類型、系統(tǒng)類型及對應(yīng)版本信息等;此類信息都可能在http記錄的url中出現(xiàn),url的記錄內(nèi)容可能如下:/config/start?appversion=3.9.5&channel=102&city_id=1&datatype=101&imsi=460021038003510imagetype=2&imei=358584057426497&maptype=soso&model=iphone6&os=8.4&sig=ba9070aef4fad4af91a611a6492d6878bef2adb4&token=g5zkvwbochrxoj上例中的url包含了imsi、imei、終端品牌、終端型號、系統(tǒng)版本等關(guān)鍵信息,可以利用這些信息判斷終端信息。步驟103、從所述url信息中獲取包含終端信息的關(guān)鍵url信息并保存。在本步驟中,首先需要對url信息進行初步過濾,即,從所述url信息中獲取包含預(yù)設(shè)關(guān)鍵詞的url信息,例如,對所有的url信息按照“imei”,”imei”,”imei”等關(guān)鍵詞進行搜索,只要url信息中包含此類關(guān)鍵詞就將該記錄篩選出來進行下一步過濾。其次,對初步過濾出來的信息進行二次分析,即,利用關(guān)鍵字匹配從所述包含預(yù)設(shè)關(guān)鍵詞的url信息中獲取所述關(guān)鍵url信息;所述關(guān)鍵url信息包含終端的imei識別信息、終端品牌信息、終端型號信息及系統(tǒng)版本信息。步驟104、從保存的所述關(guān)鍵url信息中提取imei識別信息。具體的,通過關(guān)鍵字匹配識別出imei識別信息、終端品牌、終端型號、系統(tǒng)版本等信息;由于不同的數(shù)據(jù)業(yè)務(wù)的關(guān)鍵字不同,在提供盡可能多的關(guān)鍵字篩選的同時,為了避免出現(xiàn)誤識別情況,使用業(yè)務(wù)識別判斷當前業(yè)務(wù)是否可能存在imei、終端等關(guān)鍵信息;比如記錄為用戶注冊或者微博訪問的http,在url中存在imei等信息比較可信;而瀏覽新聞類業(yè)務(wù)的http,即使里面存在imei等信息也不提取。本實施例中,從所述關(guān)鍵詞的url信息中識別出imei識別信息時,利用第一公式驗證所述imei識別信息的有效性;所述第一公式為:其中,u(x)函數(shù)用于通過判斷http消息中的host域判斷出用戶訪問的服務(wù)的性質(zhì),驗證所述imei識別信息的有效性;r(y)函數(shù)用于通過判斷http消息中的url域識別用戶行為特性,驗證所述imei識別信息的有效性;將有效性驗證通過的imei識別信息作為最終提取的所述imei識別信息。具體的,如果f(x,y)=0,則imei屬于無效imei,如果f(x,y)=1,則imei屬于有效imei。u(x)函數(shù)用來通過判斷http消息中的host域來判斷用戶訪問服務(wù)的性質(zhì),例如是否是微博訪問、導(dǎo)航、打車等業(yè)務(wù)特性來識別該imei的有效性,x代表 host;當x屬于可信host集合{“api.udache.com”,“m.simba.taobao.com”,“vectors.map.qq.com,api.m.taobao.com”,“andmlbf.tj.ijinshan.com”,“api.diditaxi.com.cn”,“wx.houyi.baofeng.net”,“notice.diditaxi.com.cn”,“api.app.i.sogou.com”,“common.diditaxi.com.cn”,......}時,u(x)=1。r(y)函數(shù)用來通過判斷http消息中的url域來識別用戶行為特性,例如注冊、登錄、隱私上報等,從而判斷該imei的有效性,y代表url。當y包含關(guān)鍵詞集合{“mobile”,“l(fā)ogin”,“register”,“register”,“sign=”,“config”,“report”,“start_time=”,......}中的一項或幾項時,r(y)=1。u(x)、r(y)取值只能為0或1,僅當u(x)=0且r(y)=0時,imei屬于無效imei;其他情況都是有效imei。實際應(yīng)用中,還可使用別名匹配的方式提高imei、終端品牌、終端型號、系統(tǒng)版本的匹配度,別名是指終端型號的一種數(shù)據(jù)化描述方式,如iphone5s對應(yīng)的一種別名為a1530。具體的實現(xiàn)方式是:篩選出有imei識別信息、別名信息而無法區(qū)分終端型號的記錄,imei識別信息為35878705****375,別名為a1530,但區(qū)分不出終端型號,如表一所示。表一imei識別信息終端品牌信息終端型號信息別名網(wǎng)絡(luò)類型信息35878705****375a1530在記錄中匹配與該tac相同的記錄,記錄中應(yīng)該包含imei識別信息、終端品牌信息、終端型號信息、別名、網(wǎng)絡(luò)類型信息,例如imei識別信息為35878605****497,別名為a1530,記錄中的終端品牌信息為蘋果,終端型號信息為iphone5s,網(wǎng)絡(luò)類型信息為tdd-lte,如表二所示。表二imei識別信息終端品牌信息終端型號信息別名網(wǎng)絡(luò)類型信息35878605****497蘋果iphone5sa1530tdd-lte根據(jù)查找到的tac、終端品牌信息、終端型號信息、別名、網(wǎng)絡(luò)類型信息補全上述記錄,則imei識別信息為35878705****375,別名為a1530的終端對應(yīng)的終端品牌信息為蘋果,終端型號信息為iphone5s,網(wǎng)絡(luò)類型信息為tdd-lte,如表三所示。表三imei識別信息終端品牌信息終端型號信息別名網(wǎng)絡(luò)類型信息35878705****375蘋果iphone5sa1530tdd-lte步驟105、對所述imei識別信息與終端型號進行統(tǒng)一性分析,并根據(jù)分析結(jié)果補全所述終端信息庫。在實際應(yīng)用中,有些終端可以修改終端名稱,即終端型號,大部分的安卓終端都支持自由修改終端名稱,如果不對其處理就可能將一款終端識別為其他品牌終端或者該品牌的其他型號。提取imei識別信息的前8位,即tac,并利用tac與終端型號的映射關(guān)系進行統(tǒng)計,當某一型號的tac映射率達到閾值時,可認為該tac與終端型號一一對應(yīng),再按照終端型號與品牌、網(wǎng)絡(luò)類型等參數(shù)關(guān)系補全其他參數(shù)信息,按照該方法實現(xiàn)所有tac的分析。具體的,提取所述imei識別信息的tac,并計算tac映射率;所述tac映射率為所述tac對應(yīng)次數(shù)最多的終端型號的次數(shù)累加與所述tac對應(yīng)的所有終端型號的次數(shù)累加的比值;在tac映射率達到預(yù)設(shè)閾值時,確定所述tac與所述對應(yīng)次數(shù)最多的終端型號對應(yīng);將確定的終端型號和所述imei識別信息與現(xiàn)有的終端信息庫中的信息進行匹配,若匹配失敗,則增加與所述imei識別信息對應(yīng)的終端信息,若匹配成功,則將現(xiàn)有的終端信息庫中的終端信息與所述imei識別信息進行一致性驗證。在所述將現(xiàn)有的終端信息庫中的終端信息與所述imei識別信息進行一致性驗證時,對所述imei識別信息進行格式化修正,提取格式化修正后的imei識別信息中的tac,在所述現(xiàn)有的終端信息庫中查詢所述tac,進行一致性驗 證。需要說明的是,只有當imei識別信息、終端品牌信息、終端型號信息、支持網(wǎng)絡(luò)制式參數(shù)全部相同,才可以認為一致性驗證通過;否則需要對其進行標識,后續(xù)對其人工校驗。本實施例提供的技術(shù)方案,可以快速的獲取新入網(wǎng)手機終端的終端信息,并自動補全終端信息庫。圖2為本發(fā)明實施例提供的快速補全終端信息庫的裝置的結(jié)構(gòu)示意圖。如圖2所示,本實施例提供的裝置具體可以包括:獲取模塊11,解析模塊12,和補全模塊13。其中,獲取模塊11,用于獲取數(shù)據(jù)業(yè)務(wù)的關(guān)鍵信息記錄;解析模塊12,用于從所述關(guān)鍵信息記錄中解析出所有使用http業(yè)務(wù)的url信息;所述獲取模塊11用于從所述url信息中獲取包含終端信息的關(guān)鍵url信息并保存;從保存的所述關(guān)鍵url信息中提取imei識別信息;補全模塊13,用于對所述imei識別信息與終端型號進行統(tǒng)一性分析,并根據(jù)分析結(jié)果補全所述終端信息庫。所述獲取模塊11具體用于:從所述url信息中獲取包含預(yù)設(shè)關(guān)鍵詞的url信息;利用關(guān)鍵字匹配從所述包含預(yù)設(shè)關(guān)鍵詞的url信息中獲取所述關(guān)鍵url信息;所述關(guān)鍵url信息包含終端的imei識別信息、終端品牌信息、終端型號信息及系統(tǒng)版本信息。進一步地,所述獲取模塊11具體用于:從所述關(guān)鍵詞的url信息中識別出imei識別信息,并利用第一公式驗證所述imei識別信息的有效性;所述第一公式為:其中,u(x)函數(shù)用于通過判斷http消息中的host域判斷出用戶訪問的服務(wù)的性質(zhì),驗證所述imei識別信息的有效性;r(y)函數(shù)用于通過判斷http 消息中的url域識別用戶行為特性,驗證所述imei識別信息的有效性;將有效性驗證通過的imei識別信息作為最終提取的所述imei識別信息。進一步的,所述補全模塊13具體用于:提取所述imei識別信息的tac,并計算tac映射率;所述tac映射率為所述tac對應(yīng)次數(shù)最多的終端型號的次數(shù)累加與所述tac對應(yīng)的所有終端型號的次數(shù)累加的比值;在tac映射率達到預(yù)設(shè)閾值時,確定所述tac與所述對應(yīng)次數(shù)最多的終端型號對應(yīng);將確定的終端型號和所述imei識別信息與現(xiàn)有的終端信息庫中的信息進行匹配,若匹配失敗,則增加與所述imei識別信息對應(yīng)的終端信息,若匹配成功,則將現(xiàn)有的終端信息庫中的終端信息與所述imei識別信息進行一致性驗證。進一步的,在對現(xiàn)有的所述補全模塊13具體用于:對所述imei識別信息進行格式化修正,提取格式化修正后的imei識別信息中的tac,在所述現(xiàn)有的終端信息庫中查詢所述tac,進行一致性驗證。本實施例提供的快速補全終端信息庫的裝置,可用于執(zhí)行上述方法實施例的技術(shù)方案,其實現(xiàn)原理和技術(shù)效果類似,此處不再贅述。在實際應(yīng)用中,該獲取模塊11,解析模塊12,和補全模塊13可由位于快速補全終端信息庫的裝置上的中央處理器(cpu)、微處理器(mpu)、數(shù)字信號處理器(dsp)或現(xiàn)場可編程門陣列(fpga)等器件實現(xiàn)。本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本發(fā)明可采用硬件實施例、軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器和光學存儲器等)上實施的計算機程序產(chǎn)品的形式。本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可 編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。這些計算機程序指令也可存儲在能引導(dǎo)計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。以上所述,僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。當前第1頁12