本發(fā)明涉及計算機信息處理技術(shù)領(lǐng)域,具體涉及數(shù)據(jù)挖掘和機器學(xué)習(xí)相關(guān)領(lǐng)域。
背景技術(shù):
以數(shù)據(jù)為原料的數(shù)據(jù)挖掘和機器學(xué)習(xí)技術(shù)在生活中發(fā)揮著越加重要的作用,通過挖掘數(shù)據(jù)中的“知識”,達到利用數(shù)據(jù)的目的。機場時時刻刻生產(chǎn)著數(shù)據(jù),在機場候機樓,無線wifi覆蓋了整個區(qū)域,而wifi接入接入點ap(accesspoint)記錄著每時刻的乘客連接人數(shù),通過wifiap記錄,能夠大致的估測當(dāng)前時刻的旅客時空分布。旅客的時空分布與飛機的起降也非常相關(guān),當(dāng)飛機到達后的一段時間,或者飛機起飛前的一段時間,部分位置旅客密度會有所增多,這也是估計旅客時空分布的關(guān)鍵依據(jù)。如何有效利用此類數(shù)據(jù),合理應(yīng)用于預(yù)測未來的旅客時空分布,是一個如何提高機場服務(wù)效率的關(guān)鍵問題。
同時,本發(fā)明不僅僅限于機場對人流量的預(yù)測,也可以適用于其他大型購物場所等人流量大的場所,通過wifi接入ap的數(shù)量,對人流量進行預(yù)測判斷,方便發(fā)生緊急情況時進行疏散等?,F(xiàn)有技術(shù)采用的方法只能觀察當(dāng)前時刻的的客流時空分布,不能實現(xiàn)對未來某段時間客流分布進行預(yù)測。
技術(shù)實現(xiàn)要素:
本發(fā)明針對現(xiàn)有技術(shù)中存在的上述技術(shù)問題,提供一種基于機場wifiap記錄及航班排班記錄的機場客流分布預(yù)測系統(tǒng),旨在解決機場客流量分布預(yù)測問題。可以根據(jù)預(yù)測的旅客時空分布,進行預(yù)先的計劃和安排,達到更有效的利用機場資源,更好的機場服務(wù)。
本發(fā)明解決上述技術(shù)問題的技術(shù)方案是,提供一種基于wifiap(無線設(shè)備接入數(shù)量)記錄的機場客流分布預(yù)測方法,包括:從控制中心獲取wifiap記錄進行預(yù)處理操作,通過wifiap接入設(shè)備數(shù)量分類wifiap,為各類wifiap分別構(gòu)建訓(xùn)練樣本集,使用訓(xùn)練樣本集構(gòu)建回歸模型;構(gòu)建測試樣本集并預(yù)測機場客流分布。
進行預(yù)處理操作具體包括,對獲取的wifiap記錄進行缺失值處理,對于某一wifiap的缺失數(shù)據(jù),使用與缺失數(shù)據(jù)最近預(yù)定天數(shù)d內(nèi)記錄對應(yīng)時刻該wifiap的設(shè)備連接數(shù)量的均值進行填充;使用arma模型(自回歸滑動平均模型)對經(jīng)過填充后的數(shù)據(jù)進行平滑處理,然后進行臟數(shù)據(jù)處理,對進行臟數(shù)據(jù)處理后的wifiap數(shù)據(jù),根據(jù)公式:
所述分類wifiap具體包括,對于各個wifiap,計算其設(shè)備連接數(shù)的方差,并根據(jù)其方差由大到小進行排序,然后使用二八法則將wifiap劃分為兩類,方差較小的wifiap為第一類wifiap,方差較大的wifiap為第二類wifiap。
對于第一類wifiap,取最近預(yù)定天數(shù)d的數(shù)據(jù),建立第一類wifiap訓(xùn)練集。
對于第二類wifiap,取最近預(yù)定天數(shù)d的數(shù)據(jù),通過標(biāo)簽提取與特征提取構(gòu)建第二類訓(xùn)練集。標(biāo)簽與特征是組成樣本的兩個部分,特征是樣本各個屬性的表現(xiàn),標(biāo)簽是對樣本具有標(biāo)記行為的屬性。通過特征與標(biāo)簽,構(gòu)成了一個樣本。
構(gòu)建第二類訓(xùn)練集的方法為:取編號為i的wifiap在j時刻的設(shè)備連接數(shù)量y,構(gòu)成樣本x(i,j,f,y),其中,f為該樣本的特征,包含3部分子特征:(1)歷史特征:對于該wifiap的同一時刻,分別計算該wifiap在以天為單位的同一時刻的均值、最小值、最大值和方差信息。(2)航班特征:根據(jù)航班排班記錄的登機口位置信息,統(tǒng)計該登機口位置預(yù)定時段內(nèi)(10分鐘、30分鐘、60分鐘及120分鐘內(nèi))飛機起飛數(shù)量,并與wifiap的位置信息關(guān)聯(lián)后進行數(shù)據(jù)合并。(3)獲取位置特征:包含wifiap所在的區(qū)域、所在樓層、所在組編號和wifiap坐標(biāo)信息。
對于第一類wifiap,使用第一類wifiap訓(xùn)練集,根據(jù)公式
對于第二類wifiap,其特點為設(shè)備連接數(shù)的方差較高。對于這類wifiap,根據(jù)預(yù)測日前最近預(yù)定天數(shù)d的數(shù)據(jù)進行標(biāo)簽提取,進行特征提取獲取第二類訓(xùn)練樣本集,公式y(tǒng)ij=h(xij)計算編號i的wifiap的j時刻的預(yù)測值yij,構(gòu)建第二類回歸模型
根據(jù)公式y(tǒng)=y(tǒng)1∪y2對第一類模型和第二類模型進行集成。對第一類模型的預(yù)測結(jié)果和第二類模型的預(yù)測結(jié)果集成,作為最終預(yù)測結(jié)果。預(yù)測結(jié)果為各個wifiap在預(yù)測時間內(nèi)的各時刻的設(shè)備接入個數(shù),通過各個wifiap的設(shè)備接入個數(shù),獲取各個wifiap所在區(qū)域的人流數(shù),人流密度等信息。
此方法通過各個wifiap的設(shè)備連接數(shù)量的方差排序后所具有的長尾效應(yīng)的特點,使用二八原則把wifiap點分為兩類,并對這兩類wifiap分別建模,相對于建立在單模型預(yù)測的方法上,此方法預(yù)測結(jié)果更加準(zhǔn)確。
附圖說明
為了更清楚地說明本申請實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹。
圖1為本發(fā)明提供的一種基于機場wifiap記錄的機場客流分布預(yù)測方法流程圖。
具體實施方式
下面將結(jié)合本申請實施例中的附圖,對本申請的技術(shù)方案進行清楚、完整的描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例,不能據(jù)此限定本發(fā)明的技術(shù)方案,和權(quán)利保護范圍。本領(lǐng)域普通技術(shù)人員在沒有經(jīng)過創(chuàng)造性勞動可能獲得的所有其他實施例,都屬于本申請保護的范圍。
圖1為本發(fā)明提供的一種基于機場wifiap記錄及航班排班記錄的機場客流分布預(yù)測方法的流程圖,具體包括:
從控制中心獲取wifiap記錄及航班排班記錄,一般wifiap記錄包含三列,第一列為wifiap的標(biāo)簽,排班記錄包含四列,分別為:航班號等。選取最近預(yù)定天數(shù)d(如30天)的記錄。其中,wifiap記錄包含三列,第一列為wifiap的標(biāo)簽,包含wifiap的固有信息,主要為wifiap所在的區(qū)域、所在樓層、所在組編號和wifiap坐標(biāo)信息,第二列為wifiap的設(shè)備連接數(shù)量,第三列為時間戳。航班排班記錄包含四列,分別為:航班號,預(yù)定起降時間,實際起降時間及登機口信息。
對獲取的wifiap記錄及航班排班記錄進行缺失值處理。對于某一wifiap的缺失數(shù)據(jù),使用與缺失數(shù)據(jù)最近預(yù)定天數(shù)該wifiap記錄的對應(yīng)時刻設(shè)備連接數(shù)量的均值對應(yīng)的相關(guān)數(shù)值進行填充。
對經(jīng)過缺失值處理后的wifiap記錄進行臟數(shù)據(jù)處理。使用arma模型對數(shù)據(jù)進行平滑處理。對于各個wifiap,通過輸入其連續(xù)時間的wifiap的設(shè)備接入數(shù)量,輸出經(jīng)過arma模型處理后的連續(xù)時間的wifiap的設(shè)備接入數(shù)量,輸出數(shù)據(jù)較輸入數(shù)據(jù)的特點為,各wifiap點的設(shè)備接入數(shù)量隨時間的變化更加的平滑。對進過臟數(shù)據(jù)處理后的wifiap數(shù)據(jù)進行數(shù)據(jù)規(guī)約。以預(yù)定時間段t(如10分鐘)為單位對wifiap連接數(shù)以平均值進行規(guī)約,即每時間段t生成一條數(shù)據(jù)。根據(jù)公式
對于各個wifiap,計算其設(shè)備連接數(shù)的方差,并根據(jù)其方差由大到小進行排序,然后使用二八法則劃分wifiap為兩類。方差較小的wifiap為第一類wifiap,方差較大的wifiap為第二類wifiap。方差的計算方法為:取某一wifiap在各個時間的設(shè)備接入數(shù)量所構(gòu)成的序列,計算該序列的方差,作為該wifiap的方差。二八法則劃分方法為:取前20%的方差較大的wifiap作為第二類wifiap,取后80%的方差較小的wifiap為第一類wifiap。
對于第一類wifiap,取最近預(yù)定天數(shù)d的數(shù)據(jù),建立第一類wifiap訓(xùn)練集,訓(xùn)練集由若干樣本x(i,j,y)構(gòu)成,其中,i為wifiap的編號,j為某一時刻,y為編號i的wifiap在j時刻的設(shè)備連接數(shù)量。
對于第二類wifiap,使用預(yù)測日前最近預(yù)定天數(shù)d的數(shù)據(jù)進行標(biāo)簽提取,標(biāo)簽為某一時刻該wifiap的設(shè)備連接數(shù),對第二類wifiap進行特征提取。根據(jù)上述所獲取數(shù)據(jù)進行特征提取,其中獲取的數(shù)據(jù)包含wifiap記錄和航班記錄。
其特征包含3部分:
(1)歷史特征:對于該wifiap的同一時刻,分別計算該wifiap在以天為單位的同一時刻的均值、最小值、最大值和方差信息。
(2)航班特征:航班是影響連接數(shù)波動的主要因素之一,根據(jù)航班的登機口位置信息,統(tǒng)計該登機口位置在每間隔預(yù)定時間段內(nèi)航班起飛降落數(shù)量,并與wifiap的位置信息關(guān)聯(lián)后進行數(shù)據(jù)合并,獲得航班特征。
(3)位置特征:包含wifiap所在的區(qū)域、所在樓層、所在組編號和wifiap坐標(biāo)信息。
對于第一類wifiap,根據(jù)第一類wifiap訓(xùn)練集,根據(jù)公式
對于第二類wifiap,其特點為設(shè)備連接數(shù)的方差較高。對于這類wifiap,根據(jù)公式y(tǒng)ij=h(xij)計算編號i的wifiap的j時刻的預(yù)測值yij,構(gòu)建第二類回歸模型
訓(xùn)練集為第二類訓(xùn)練集,即第二類wifiap所構(gòu)成的訓(xùn)練樣本集合,訓(xùn)練方法為輸入訓(xùn)練集,經(jīng)過gbdt算法構(gòu)建預(yù)測模型,后輸入預(yù)測集,通過已構(gòu)建的gbdt模型進行預(yù)測,一個樣本(記錄)由特征和標(biāo)簽組成,一組特征對應(yīng)一個標(biāo)簽,標(biāo)簽為該wifiap的設(shè)備連接數(shù)量。
根據(jù)公式y(tǒng)=y(tǒng)1∪y2對第一類模型和第二類模型進行集成。
根據(jù)公式p=p1∪p2對第一類模型的預(yù)測結(jié)果和第二類模型的預(yù)測結(jié)果集成,作為最終預(yù)測結(jié)果。預(yù)測結(jié)果為各個wifiap在各個時刻的設(shè)備接入個數(shù)。