本發(fā)明屬于信息
技術(shù)領(lǐng)域:
。具體涉及一種根據(jù)手機(jī)上網(wǎng)日志預(yù)測手機(jī)信號強(qiáng)度的方法。
背景技術(shù):
:隨著移動互聯(lián)網(wǎng)的發(fā)展,越來越多的人選擇使用手機(jī)上網(wǎng),對于移動運(yùn)營商來說,通過對大量上網(wǎng)日志的統(tǒng)計和分析,掌握用戶的上網(wǎng)情況,可以推測用戶的訪問行為喜好,進(jìn)而進(jìn)行精準(zhǔn)的廣告投放與營銷。也可以結(jié)合用戶行為和基站情況,進(jìn)行網(wǎng)絡(luò)優(yōu)化,提高用戶體驗。在網(wǎng)絡(luò)優(yōu)化過程中,用戶手機(jī)的信號強(qiáng)度是極為重要的數(shù)據(jù),但其只存儲在mr數(shù)據(jù)中。mr數(shù)據(jù)是指信息在業(yè)務(wù)信道上每480ms(信令信道上470ms)發(fā)送一次數(shù)據(jù),也就是說任何處于開機(jī)狀態(tài)的手機(jī)每480ms向基站發(fā)送一次數(shù)據(jù),因此每天會產(chǎn)生大量mr數(shù)據(jù),其存儲代價很大,運(yùn)營商很難把mr數(shù)據(jù)全部存儲下來進(jìn)行統(tǒng)計和分析。現(xiàn)有技術(shù)只能通過mr數(shù)據(jù)獲得信號強(qiáng)度,沒有其他技術(shù)來測定手機(jī)信號強(qiáng)度,因此通過手機(jī)上網(wǎng)日志數(shù)據(jù)來預(yù)測手機(jī)信號強(qiáng)度顯得尤為重要,既可以節(jié)約存儲成本,又可以將mr數(shù)據(jù)與上網(wǎng)日志數(shù)據(jù)相結(jié)合進(jìn)行網(wǎng)絡(luò)優(yōu)化。技術(shù)實現(xiàn)要素:本發(fā)明的目的是提供一種基于手機(jī)上網(wǎng)日志數(shù)據(jù)的手機(jī)信號強(qiáng)度預(yù)測方法,通過該方法預(yù)測當(dāng)前用戶手機(jī)的信號強(qiáng)度。本發(fā)明提供的根據(jù)手機(jī)上網(wǎng)日志預(yù)測手機(jī)信號強(qiáng)度的方法,詳細(xì)步驟包括:第1、獲取當(dāng)前周期所有手機(jī)的httplog數(shù)據(jù),提取imsi和時間字段;定義1:httplog數(shù)據(jù);httplog數(shù)據(jù)是指用戶使用移動網(wǎng)絡(luò)時,基站所保存的日志數(shù)據(jù)。該數(shù)據(jù)所包含的信息有:(1)用戶信息:主要包括用戶手機(jī)的基本信息,如手機(jī)號碼、手機(jī)串號、所使用的瀏覽器、下載及上傳的數(shù)據(jù)流量大小等。(2)基站信息:主要包括用戶所連接基站的基本信息,如基站經(jīng)緯度、基站所在的行政區(qū)域、基站id等。(3)行為信息:指用戶的具體上網(wǎng)行為,如訪問的網(wǎng)址、使用的應(yīng)用類型、http傳輸字段類型等。(4)時間信息:指用戶發(fā)生上網(wǎng)行為時,與時間有關(guān)的信息,如:上網(wǎng)行為的開始時間和結(jié)束時間、tcp建鏈響應(yīng)時間、業(yè)務(wù)時延等。定義2:imsi字段;imsi字段是指國際移動用戶識別碼(internationalmobilesubscriberidentificationnumber),是區(qū)別移動用戶的標(biāo)志,儲存在sim卡中,是用于區(qū)別移動用戶的有效信息。imsi字段總長度不超過15位,同樣使用0~9的數(shù)字。對httplog數(shù)據(jù)的imsi和時間字段進(jìn)行抽取,因為這兩個字段屬于httplog數(shù)據(jù)的基本字段,若有任意字段為空,則認(rèn)為該條數(shù)據(jù)不完整,舍棄該條數(shù)據(jù)。第2、找到httplog數(shù)據(jù)對應(yīng)的用戶三元組;第2.1、獲取手機(jī)mme數(shù)據(jù),提取imsi、時間和用戶三元組字段;定義3:mme數(shù)據(jù);mme(mobilitymanagemententity)數(shù)據(jù)是3gpp協(xié)議lte接入網(wǎng)絡(luò)的關(guān)鍵控制節(jié)點,它負(fù)責(zé)空閑模式的ue(userequipment)的定位,傳呼過程,包括中繼,簡單的說mme是負(fù)責(zé)信令處理部分。mme數(shù)據(jù)中有imsi、時間以及用戶三元組字段,可以建立三者的對應(yīng)關(guān)系。定義4:用戶三元組;用戶三元組包括mmeues1apid、mmegroupid和mmecode,該三元組是根據(jù)imsi分配的三元組,作為用戶唯一標(biāo)識符,同一個imsi在一段時間內(nèi),分配的用戶三元組是不變的,所以可以根據(jù)imsi和時間字段找到對應(yīng)的用戶三元組。第2.2、獲取imsi-時間元組與用戶三元組的對應(yīng)關(guān)系。將imsi和時間字段作為一個元組,稱為imsi-時間元組,使用該元組作為key值,用戶三元組字段作為value值,即可建立imsi-時間元組(imsi、時間)與用戶三元組的對應(yīng)關(guān)系字典。此時如果存在imsi、時間或用戶三元組任意字段為空的情況,則需要舍棄該對應(yīng)關(guān)系。第2.3、通過httplog數(shù)據(jù)的imsi和時間字段,在第2.2步所建立的對應(yīng)關(guān)系字典中查詢,獲取對應(yīng)的用戶三元組。具體步驟為將httplog數(shù)據(jù)的imsi和時間字段組成(imsi、時間)元組,以該元組為key值,在第2.2步建立的對應(yīng)關(guān)系字典中查詢其value值,查詢成功即獲取對應(yīng)的用戶三元組。第3、獲取httplog數(shù)據(jù)所對應(yīng)的信號強(qiáng)度數(shù)據(jù);第3.1、獲取手機(jī)mr數(shù)據(jù),提取信號強(qiáng)度和用戶三元組字段;定義5:mr數(shù)據(jù);mr(measurementreport,測量報告)數(shù)據(jù)是指信息在業(yè)務(wù)信道上每480ms(信令信道上470ms)發(fā)送一次數(shù)據(jù),這些數(shù)據(jù)可用于網(wǎng)絡(luò)評估和優(yōu)化。該數(shù)據(jù)最重要的字段是信號強(qiáng)度,可以表示當(dāng)前用戶手機(jī)在當(dāng)前時刻的信號強(qiáng)度的大小。mr數(shù)據(jù)是以xml格式進(jìn)行存儲的,需要對其進(jìn)行解析,解析之后可以提取信號強(qiáng)度和用戶三元組字段。第3.2、根據(jù)httplog數(shù)據(jù)的用戶三元組字段,在mr數(shù)據(jù)中提取對應(yīng)的信號強(qiáng)度數(shù)據(jù)。通過在第2.3步所查詢到的用戶三元組字段,能夠在mr數(shù)據(jù)提取對應(yīng)的信號強(qiáng)度數(shù)據(jù)。第4、將信號強(qiáng)度數(shù)據(jù)與httplog數(shù)據(jù)相結(jié)合,形成訓(xùn)練數(shù)據(jù);訓(xùn)練數(shù)據(jù)的label為信號強(qiáng)度數(shù)據(jù),特征為httplog數(shù)據(jù)其他字段所提取出的特征。第5、使用訓(xùn)練數(shù)據(jù)訓(xùn)練模型;訓(xùn)練模型時要經(jīng)過數(shù)據(jù)統(tǒng)計、特征抽取、模型構(gòu)建和模型訓(xùn)練等步驟。數(shù)據(jù)統(tǒng)計,包括字段類型統(tǒng)計、數(shù)據(jù)稀疏程度統(tǒng)計和缺失值統(tǒng)計,同時也會進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換等步驟。特征抽取步驟,是指多維度多層次地進(jìn)行特征抽取,通過數(shù)據(jù)統(tǒng)計發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律,挖掘有價值的特征,除了容易抽取的基本特征外,重點從時空特征以及內(nèi)容特征方面著手。模型構(gòu)建步驟,需要根據(jù)輸入特征選擇合適的模型進(jìn)行訓(xùn)練,由于數(shù)據(jù)比較稀疏,因此采用gbdt(gradientboostingdecisiontree)模型。該模型運(yùn)用集成學(xué)習(xí)的思想,以決策樹作為基本分類器,能夠很好地學(xué)習(xí)非線性函數(shù)關(guān)系。模型訓(xùn)練,指使用訓(xùn)練數(shù)據(jù)對模型進(jìn)行訓(xùn)練,同時進(jìn)行參數(shù)調(diào)優(yōu)。第6、利用訓(xùn)練好的模型進(jìn)行預(yù)測;獲取測試用httplog數(shù)據(jù)后,經(jīng)過與第5步相同的數(shù)據(jù)統(tǒng)計、特征抽取步驟,形成測試數(shù)據(jù)作為模型的輸入,模型的輸出結(jié)果即為預(yù)測結(jié)果。預(yù)測時其數(shù)據(jù)統(tǒng)計和特征抽取方法與訓(xùn)練時類似,但隨著時間變化,其模型需要不斷更新,需要不斷訓(xùn)練新模型進(jìn)行預(yù)測。本發(fā)明的優(yōu)點和有益效果:本發(fā)明提出了一種根據(jù)手機(jī)上網(wǎng)日志預(yù)測手機(jī)信號強(qiáng)度的方法,該方法可以利用存儲代價小的httplog數(shù)據(jù)預(yù)測存儲代價巨大的信號強(qiáng)度數(shù)據(jù),節(jié)約存儲成本,同時便于運(yùn)營商進(jìn)行網(wǎng)絡(luò)優(yōu)化。目前運(yùn)營商只能存儲小部分信號強(qiáng)度數(shù)據(jù),因此很少利用該數(shù)據(jù)進(jìn)行研究。應(yīng)用該發(fā)明后運(yùn)營商可以根據(jù)上網(wǎng)日志預(yù)測出大量信號強(qiáng)度數(shù)據(jù),可在用戶行為分析、廣告投放等方面進(jìn)行更深層的研究。附圖說明圖1是根據(jù)手機(jī)上網(wǎng)日志數(shù)據(jù)預(yù)測手機(jī)信號強(qiáng)度方法的流程圖。具體實施方式以下結(jié)合實施實例來具體說明本發(fā)明。第1步、獲取當(dāng)前周期所有手機(jī)的httplog數(shù)據(jù),提取其imsi和時間字段httplog數(shù)據(jù)是指用戶使用移動網(wǎng)絡(luò)時,基站所保存的日志數(shù)據(jù)。該數(shù)據(jù)所包含的信息有用戶信息、基站信息、行為信息、時間信息。其中用戶信息中有imsi字段,是區(qū)別移動用戶的標(biāo)志,儲存在sim卡中,是用于區(qū)別移動用戶的有效信息。對httplog數(shù)據(jù)的imsi和時間字段進(jìn)行抽取,因為這兩個字段屬于httplog數(shù)據(jù)的基本字段,若有任意一字段為空,則認(rèn)為該條數(shù)據(jù)不完整,舍棄該條數(shù)據(jù)。表1列舉出了httplog中部分?jǐn)?shù)據(jù)字段。表1httplog數(shù)據(jù)字段字段說明imsi手機(jī)卡imei手機(jī)串號msisdn手機(jī)號碼user_agent瀏覽器類型app_type應(yīng)用大類app_sub_type應(yīng)用小類host訪問域名title網(wǎng)站名稱keyword網(wǎng)站關(guān)鍵字cell_id基站dl_data下行流量ul_data上行流量procedure_starttime開始時間procedure_endtime結(jié)束時間portal_app_set門戶應(yīng)用集合第2步、找到httplog數(shù)據(jù)對應(yīng)的用戶三元組用戶三元組包括mmeues1apid、mmegroupid和mmecode,該三元組是根據(jù)imsi分配的三元組,作為用戶唯一標(biāo)識符,同一個imsi在一段時間內(nèi),分配的用戶三元組是不變的,所以可以根據(jù)imsi和時間字段找到對應(yīng)的用戶三元組。從mme數(shù)據(jù)中可以獲取imsi-時間元組與用戶三元組的對應(yīng)關(guān)系。將imsi和時間字段作為一個元組,使用該元組作為key值,用戶三元組字段作為value值,即可建立imsi-時間元組與用戶三元組的對應(yīng)關(guān)系字典。此時如果存在imsi、時間或用戶三元組任意字段為空的情況,則需要舍棄該對應(yīng)關(guān)系。通過httplog數(shù)據(jù)的imsi、時間字段,在之前所建立的對應(yīng)關(guān)系字典中查詢,獲取對應(yīng)的用戶三元組。表2列舉出了部分mme數(shù)據(jù)字段。表2mme數(shù)據(jù)字段第3步、獲取httplog數(shù)據(jù)所對應(yīng)的信號強(qiáng)度數(shù)據(jù)首先獲取手機(jī)mr數(shù)據(jù),提取信號強(qiáng)度、用戶三元組字段,mr(measurementreport,測量報告)數(shù)據(jù)是指信息在業(yè)務(wù)信道上每480ms(信令信道上470ms)發(fā)送一次數(shù)據(jù),這些數(shù)據(jù)可用于網(wǎng)絡(luò)評估和優(yōu)化。該數(shù)據(jù)最重要的字段是信號強(qiáng)度,可以表示當(dāng)前用戶手機(jī)在當(dāng)前時刻的信號強(qiáng)度的大小。mr數(shù)據(jù)是以xml格式進(jìn)行存儲的,需要對其進(jìn)行解析,解析之后可以提取信號強(qiáng)度和用戶三元組字段。表3是部分mr數(shù)據(jù)字段說明。根據(jù)httplog數(shù)據(jù)的用戶三元組字段,在mr數(shù)據(jù)中可以提取對應(yīng)的信號強(qiáng)度數(shù)據(jù)。表3mr數(shù)據(jù)字段第4步、將信號強(qiáng)度數(shù)據(jù)與httplog數(shù)據(jù)相結(jié)合,形成訓(xùn)練數(shù)據(jù)訓(xùn)練數(shù)據(jù)的label為信號強(qiáng)度數(shù)據(jù),特征為httplog數(shù)據(jù)其他字段所提取出的特征。第5步、使用訓(xùn)練數(shù)據(jù)訓(xùn)練模型訓(xùn)練模型時要經(jīng)過數(shù)據(jù)統(tǒng)計、特征抽取、模型構(gòu)建和模型訓(xùn)練等步驟。數(shù)據(jù)統(tǒng)計包括字段類型統(tǒng)計、數(shù)據(jù)稀疏程度統(tǒng)計、缺失值統(tǒng)計,同時也會進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換等步驟。特征抽取步驟是指多維度多層次地進(jìn)行特征抽取,通過數(shù)據(jù)統(tǒng)計發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律,挖掘有價值的特征,除了容易抽取的基本特征外,重點從時空特征以及內(nèi)容特征方面著手。模型構(gòu)建步驟需要根據(jù)輸入特征選擇合適的模型進(jìn)行訓(xùn)練,由于數(shù)據(jù)比較稀疏,因此采用gbdt(gradientboostingdecisiontree)模型。該模型運(yùn)用集成學(xué)習(xí)的思想,以決策樹作為基本分類器,能夠很好地學(xué)習(xí)非線性函數(shù)關(guān)系。模型訓(xùn)練指使用訓(xùn)練數(shù)據(jù)對模型進(jìn)行訓(xùn)練,同時進(jìn)行參數(shù)調(diào)優(yōu)。表4列舉了部分特征。表4部分特征特征描述download_flux下行流量數(shù)total_flux總流量數(shù)app_type用戶使用的應(yīng)用大類cell_area基站覆蓋場景time_stamp時間特征buss_behavior_flag當(dāng)前業(yè)務(wù)行為buss_finish_flag業(yè)務(wù)完成標(biāo)識buss_browser業(yè)務(wù)訪問工具h(yuǎn)ttp_contenthttp傳輸內(nèi)容第6步、利用訓(xùn)練好的模型進(jìn)行預(yù)測獲取測試用httplog數(shù)據(jù)后,經(jīng)過與第5步相同的數(shù)據(jù)統(tǒng)計、特征抽取步驟,形成測試數(shù)據(jù)作為模型的輸入,模型的輸出結(jié)果即為預(yù)測結(jié)果。其中,特征抽取的部分樣例如表4所示。使用的模型為gbdt模型,其參數(shù)如表5所示,其他參數(shù)采用模型默認(rèn)參數(shù)。使用測試數(shù)據(jù)作為模型輸入,同時配置表5的參數(shù),可獲得模型的輸出結(jié)果,即為最終預(yù)測結(jié)果。預(yù)測結(jié)果樣例以及與訓(xùn)練樣例的對比如表6所示。其相差值不大,因此在無法獲取信號強(qiáng)度全部真實值的情況下,使用預(yù)測值替代真實值進(jìn)行其他研究的方案是可行的。預(yù)測時其數(shù)據(jù)統(tǒng)計和特征抽取方法與訓(xùn)練時類似,但隨著時間變化,其模型需要不斷更新,需要不斷訓(xùn)練新模型進(jìn)行預(yù)測。表5gbdt配置參數(shù)參數(shù)設(shè)置值描述max_depth15最大深度min_child_weight0.5子節(jié)點的最小權(quán)重eta0.1迭代步長lambda1l2正則化項權(quán)重objectivereg:logistic任務(wù)類型eval_metricrmse評價標(biāo)準(zhǔn)表6預(yù)測結(jié)果樣例當(dāng)前第1頁12