本發(fā)明涉及大數(shù)據(jù)分析領(lǐng)域,尤其涉及一種基于微信數(shù)據(jù)和興趣點數(shù)據(jù)識別城市功能區(qū)的方法。
背景技術(shù):
:隨著經(jīng)濟(jì)的飛速發(fā)展,一系列城市問題接踵而至,特別對于一些省會城市或者大都市來說,城市問題尤為嚴(yán)重?!俺鞘胁 弊鳛榘l(fā)展中國家城市化的發(fā)展結(jié)果,表現(xiàn)為交通擁堵、住房緊張、供水不足、能源緊缺、環(huán)境惡化、就業(yè)困難等,這就給城市造成了負(fù)擔(dān),甚至制約了城市的發(fā)展,還容易引發(fā)市民的身心疾病等。近年來,一些專家學(xué)者利用各種異構(gòu)大數(shù)據(jù)進(jìn)行“城市計算”,以此來解決城市化帶來的問題。城市計算是一個交叉學(xué)科,是計算機(jī)科學(xué)中以城市為背景,與城市規(guī)劃、交通、能源、環(huán)境、社會學(xué)和經(jīng)濟(jì)等學(xué)科融合的新興領(lǐng)域。更具體地說,城市計算通過不斷獲取、整合和分析城市中多種異構(gòu)大數(shù)據(jù)來解決城市所面臨的挑戰(zhàn)(如環(huán)境惡化、交通擁堵、能耗增加、規(guī)劃落后等)。其中,城市規(guī)劃是城市計算主要涉及的應(yīng)用之一。進(jìn)行城市規(guī)劃的前提條件是了解城市,并了解城市各功能區(qū)域的分布情況。城市功能區(qū)指的是土地使用功能、使用強(qiáng)度、土地利用方向、基準(zhǔn)地價大體一致的區(qū)域,它們的集約利用程度和使用潛力也基本相同,比如文教區(qū),商業(yè)區(qū)和住宅區(qū)等。目前,國內(nèi)外學(xué)者對于城市功能區(qū)的研究主要利用手機(jī)數(shù)據(jù)、浮動車數(shù)據(jù)以及poi數(shù)據(jù)等。其中,poi數(shù)據(jù)被廣泛的用于城市功能區(qū)的發(fā)現(xiàn)中。poi數(shù)據(jù),全稱為pointofinterest,即興趣點數(shù)據(jù)。在gis系統(tǒng)中,一條poi數(shù)據(jù)可以是一個小區(qū),一個店鋪,一個公交車站等。一條poi數(shù)據(jù)包括名稱、經(jīng)緯度、詳細(xì)地址、poi類別及聯(lián)系電話等參數(shù)。近幾年涉及到poi數(shù)據(jù)發(fā)現(xiàn)城市功能區(qū)的研究主要有:袁晶等在研究中提出了一個利用出租車gps軌跡數(shù)據(jù)和區(qū)域poi數(shù)據(jù)構(gòu)成的dpof框架(即discoversregionsofdifferentfunctions);杜潤強(qiáng)等在解決無規(guī)律切換的手機(jī)停駐點時使用了poi數(shù)目最多的主題類作為小區(qū)的主題對相鄰小區(qū)進(jìn)行合并;于翔在研究中使用了公交ic卡刷卡數(shù)據(jù)以及poi數(shù)據(jù)構(gòu)建了城市功能區(qū)識別模型(discoveringzonesofdifferentfunctions,dzof)。而手機(jī)基站的位置信息往往與voronoi泰森多邊形結(jié)合被用于分割城市基本單元。涉及到手機(jī)基站分割研究區(qū)域的研究主要有:jamesonl.toole等在利用手機(jī)用戶產(chǎn)生的動態(tài)數(shù)據(jù)識別土地使用和動態(tài)人口關(guān)系的時候利用了基站的位置信息對地圖進(jìn)行區(qū)域劃分;víctosoto與enriuefrías-martínez提出使用手機(jī)基站網(wǎng)絡(luò)產(chǎn)生的信息來自動識別劃分土地使用情況的技術(shù)時也使用基站的位置信息對地圖進(jìn)行區(qū)域劃分。另外,poi數(shù)據(jù)包括的類型全面,涉及各個層面,且抓取十分方便,而其他一些數(shù)據(jù)往往比較難獲取。當(dāng)前,三大運(yùn)營商的手機(jī)基站已經(jīng)基本覆蓋了整個中國。而且,為更好的服務(wù)群眾,運(yùn)營商的基站是根據(jù)人口的密集度和城市規(guī)劃設(shè)立的。也就是說,在人口密集、高樓聳立的區(qū)域,基站的設(shè)置也會相對稠密,而在比較空曠的區(qū)域,基站的數(shù)量就會相應(yīng)的減少??梢?,以往識別城市區(qū)域功能的研究使用的數(shù)據(jù)源主要包括浮動車數(shù)據(jù)、手機(jī)明細(xì)數(shù)據(jù)和興趣點數(shù)據(jù)。浮動車數(shù)據(jù)包括城市出租車、公交車和地鐵等交通工具的使用數(shù)據(jù),這些數(shù)據(jù)依賴于城市的路網(wǎng)信息,只能將人類的活動定位到上車和下車的點,無法定位到人在上車前從哪里走來,下車后又走向哪里。手機(jī)的智能化程度,網(wǎng)絡(luò)的廣泛覆蓋程度,微信的使用便利程度,形成了幾乎人人都使用微信這一通訊手段進(jìn)行聯(lián)系的現(xiàn)況,短信和電話的使用量也因此正在逐漸減少。技術(shù)實現(xiàn)要素:本發(fā)明所要解決的技術(shù)問題是提供一種基于微信數(shù)據(jù)和興趣點數(shù)據(jù)識別城市功能區(qū)的方法,能使用基于微信數(shù)據(jù)和興趣點數(shù)據(jù)對城市各個區(qū)域的功能進(jìn)行識別。為此,本發(fā)明提供以下技術(shù)方案:一種基于微信數(shù)據(jù)和興趣點數(shù)據(jù)識別城市功能區(qū)的方法,其特征在于包括以下步驟:步驟1、地圖分割:將地圖柵格化,并對所有柵格進(jìn)行編號;根據(jù)手機(jī)基站位置分割地圖,計算每個柵格中心與基站的距離,并規(guī)定柵格屬于離它最近的基站,得到距離各基站距離最近的柵格號列表,以及各基站所占柵格數(shù)矩陣g;步驟2、處理微信數(shù)據(jù):從微信數(shù)據(jù)中提取基站人流量數(shù)據(jù),得到單個基站按工作日日平均和周末日平均的單位時間人流量矩陣a、單位時間離開人流量矩陣out和單位時間進(jìn)入人流量矩陣in,并將矩陣a、out、in分別結(jié)合所占柵格數(shù)矩陣g采用歸一化的方法進(jìn)行處理,分別得到矩陣y1、y2和y3,矩陣y1、y2和y3每行所表示數(shù)據(jù)的基站號一一對應(yīng);步驟3、處理興趣點數(shù)據(jù):分別找到距離每個興趣點最近的基站,并判定此興趣點屬于該基站,得到屬于各個基站的所有興趣點列表;根據(jù)各個基站興趣點列表的數(shù)據(jù)中“興趣點類別”這一參數(shù)對各基站的興趣點進(jìn)行分類統(tǒng)計,得到每個基站的興趣點類別分布矩陣p;并將興趣點類別分布矩陣p結(jié)合所占柵格數(shù)矩陣g采用歸一化的方法對其進(jìn)行處理,得到最終用于分析的矩陣,該矩陣命名為y4,矩陣y4與矩陣y1、y2和y3每行所表示數(shù)據(jù)的基站號也一一對應(yīng);步驟4、刪除離群點:令矩陣y*=[y1,y2,y3,y4],找出y*中的離群點,并刪除離群點所對應(yīng)的基站,以刪除離群點后的基站號重新進(jìn)行步驟1至步驟3的操作,形成新的矩陣y。步驟5、聚類:對矩陣y進(jìn)行模糊聚類分析,得到聚類結(jié)果;步驟6、識別城市功能區(qū):計算帶有類別特征的興趣點和步驟5得到的聚類結(jié)果在地圖上的分布重疊率,對聚類后各基站的功能進(jìn)行識別。在采用上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可采用以下進(jìn)一步的技術(shù)方案:所述步驟1和步驟2中,歸一化處理方法如下:使用式(1)分別對單位時間人流量矩陣a、單位時間離開人流量矩陣out、單位時間進(jìn)入人流量矩陣in、興趣點類別分布矩陣p和各基站所占柵格數(shù)矩陣g進(jìn)行歸一化處理,將矩陣歸一化到[0,1]的區(qū)間內(nèi),并通過式(2)、式(3)、式(4)、式(5)分別將單位時間人流量矩陣a的歸一化結(jié)果、單位時間離開人流量矩陣out的歸一化結(jié)果、單位時間進(jìn)入人流量矩陣in的歸一化結(jié)果、興趣點類別分布矩陣p的歸一化結(jié)果與各基站所占柵格數(shù)矩陣g的歸一化結(jié)果進(jìn)行結(jié)合,y1=da·e-x(2)y2=dout·e-x(3)y3=din·e-x(4)y4=dp·e-x(5)式(1)中,{xi}為樣本集,xi為樣本集所有樣本分量,xmax為樣本集所有樣本各分量的最大值,xmin為樣本集所有樣本各分量的最小值;式(2)、式(3)、式(4)、式(5)中,x為所占柵格數(shù)矩陣g根據(jù)式(1)歸一化后的矩陣,維數(shù)為1×n;式(2)中,y1為最終用于分析的矩陣,維數(shù)為n×m1;da為基站單位時間人流量分布矩陣a根據(jù)式(1)歸一化后的矩陣,維數(shù)為n×m1;n為基站數(shù),m1為矩陣a的列數(shù);式(3)中,y2為最終用于分析的矩陣,維數(shù)為n×m2;dout為基站單位時間出流人流量分布矩陣out根據(jù)式(1)歸一化后的矩陣,維數(shù)為n×m2,n為基站數(shù),m2為矩陣out的列數(shù);式(4)中,y3為最終用于分析的矩陣,維數(shù)為n×m3;din為基站單位時間入流人流量分布矩陣in根據(jù)式(1)歸一化后的矩陣,維數(shù)為n×m3;n為基站數(shù),m3為矩陣in的列數(shù);式(5)中,y4為最終用于分析的矩陣,維數(shù)為n×m4;dp為興趣點類別分布矩陣p根據(jù)式(1)歸一化后的矩陣,維數(shù)為n×m4;n為基站數(shù),m4為興趣點類別數(shù);矩陣y1、y2、y3和y4每行所表示數(shù)據(jù)的基站號一一對應(yīng)。步驟5中,所述模糊聚類分析采用c均值聚類算法將所有向量分成c個簇,并求得每個簇的聚類中心,使得簇內(nèi)方差的和達(dá)到最??;再通過c均值模糊聚類算法聚類,得出的結(jié)果為基站i屬于不同簇的可能性列表,然后,提取基站i在各類可能性中的最大值所屬的類,定義該類為基站i所屬的類別,得到各基站所屬類別的列表,該列表即聚類結(jié)果。步驟6中,計算興趣點類別為“s”的興趣點與聚類類別為“n”的基站在地圖上的分布的重疊率,通過輸入根據(jù)興趣點類別為“s”的興趣點所在的柵格列表和聚類類別為“n”的基站所覆蓋的柵格號列表,計算兩者在地圖上的分布的重疊柵格數(shù)占兩者所覆蓋所有柵格數(shù)之比。步驟6中,計算興趣點類別為“s”的興趣點與聚類類別為“n”的基站在地圖上的分布的重疊率的具體方法如下:6-1:根據(jù)興趣點類別為“s”的各個興趣點經(jīng)緯度,找出它們所在柵格號;6-2:以步驟6-1得到的柵格號為中心向東南西北四個方向?qū)⒚娣e放大到一個正方形區(qū)域,得到此放大面積中的所有柵格號;6-3:統(tǒng)計步驟6-2得到的所有不重復(fù)的柵格號,此集合記為s;6-4:根據(jù)聚類類別為“n”的基站號和各基站所覆蓋的柵格號列表,找到聚類類別為“n”所覆蓋的柵格號,此集合記為n;6-5:根據(jù)式(6)計算柵格重疊率(overlapratio),所述柵格重疊率即興趣點類別為“s”的柵格號集合s與聚類類別為“n”所覆蓋的柵格號集合n的重疊率:步驟1中,采用尋找離柵格中心最近的基站的方法利用手機(jī)基站位置分割地圖,其方法如下所述:1-1.將地圖柵格化:選取經(jīng)緯度0.0001°×0.0001°(在緯度120°左右約為9.6m×11.1m)作為一個單位柵格對地圖進(jìn)行分割,并對所有柵格進(jìn)行編號,得到柵格經(jīng)緯度列表,表元素包括柵格號、柵格經(jīng)度、柵格緯度;1-2.遍歷計算每個柵格中心與每個基站的歐式距離,找到距離每個柵格最近的基站,并規(guī)定柵格屬于該基站;1-3.得到各基站所覆蓋的柵格號列表,表元素包括柵格號、柵格經(jīng)度、柵格緯度、柵格所屬基站號。步驟4中,離群點的查找步驟為:4-1.分別計算每個基站的特征與其余各基站特征的距離,即矩陣y中某一行與其余各行的歐式距離;4-2.計算每個基站與其余各基站的距離和的平均數(shù),即該基站與其他基站的平均距離d,并得到其中的最大值dmax;4-3.設(shè)定合適的δd,尋找每相差一個δd,大于(dmax-nδd)的點的個數(shù),并列表;4-4.根據(jù)步驟4-3得出的離群點個數(shù)分布規(guī)律,找出離群點;4-5.根據(jù)離群點所在行對應(yīng)到相應(yīng)基站號,得出離群基站的基站號列表。本發(fā)明提出利用微信數(shù)據(jù)結(jié)合興趣點數(shù)據(jù)對城市不同區(qū)域的功能進(jìn)行識別的方法,經(jīng)研究發(fā)現(xiàn),本發(fā)明提供的方法可以準(zhǔn)確的識別出城市各區(qū)域的功能,無論是旅游區(qū)、工作區(qū)居民區(qū),均能對這些城市區(qū)域功能識別,且結(jié)果與實際基本相吻合,能較好實現(xiàn)城市區(qū)域的功能劃分與特征分析,為城市結(jié)構(gòu)布局和土地開發(fā)利用提供技術(shù)支撐,為城市空間的合理利用提供現(xiàn)實依據(jù)。附圖說明圖1為本發(fā)明實施例所采用的杭州市研究區(qū)域地圖。圖2為圖1的基站劃分結(jié)果示意圖。圖3為本發(fā)明所提供的聚類參數(shù)c=4的聚類結(jié)果示意圖。圖4為杭州市2001-2020年的城市總體規(guī)劃圖。圖5為“景區(qū)”的聚類結(jié)果在地圖上的投影圖。圖6為人流量密集的“工作居住”聚類結(jié)果在百度地圖上的投影圖。圖7為識別為“工作區(qū)”的聚類結(jié)果在百度地圖上的投影圖。具體實施方式如圖所示,一種基于微信數(shù)據(jù)和興趣點數(shù)據(jù)識別城市功能區(qū)的方法,包括以下步驟:步驟一、地圖分割:將地圖柵格化,并對所有柵格進(jìn)行編號;根據(jù)手機(jī)基站位置分割地圖,計算每個柵格中心與基站的距離,并規(guī)定柵格屬于離它最近的基站,得到距離各基站距離最近的柵格號列表,以及各基站所占柵格數(shù)矩陣g;其方法如下所述:step1.將地圖柵格化:選取經(jīng)緯度0.0001°×0.0001°(在緯度120°左右約為9.6m×11.1m)作為一個單位柵格對地圖進(jìn)行分割,并對所有柵格進(jìn)行編號,得到柵格經(jīng)緯度列表(表元素包括柵格號、柵格經(jīng)度、柵格緯度)。step2.遍歷計算每個柵格中心與每個基站的歐式距離。找到距離每個柵格最近的基站,并規(guī)定柵格屬于該基站。step3.得到各基站所覆蓋的柵格號列表(表元素包括柵格號、柵格經(jīng)度、柵格緯度、柵格所屬基站號)。步驟二、處理微信數(shù)據(jù):從微信數(shù)據(jù)中提取基站人流量數(shù)據(jù),得到單個基站按工作日日平均和周末日平均的小時人流量矩陣a、小時離開人流量矩陣out和小時進(jìn)入人流量矩陣in。并將矩陣a、out、in分別結(jié)合所占柵格數(shù)矩陣g采用歸一化的方法進(jìn)行處理,分別得到矩陣y1、y2和y3,矩陣y1、y2和y3每行所表示數(shù)據(jù)的基站號一一對應(yīng)。歸一化處理方法如下所述:使用式(1)分別對基站單位時間人流量矩陣a、單位時間離開人流量矩陣out、單位時間進(jìn)入人流量矩陣in和各基站所占柵格數(shù)矩陣g進(jìn)行歸一化處理,將矩陣歸一化到[0,1]的區(qū)間內(nèi),并通過式(2)、式(3)、式(4)分別將單位時間人流量矩陣a的歸一化結(jié)果、單位時間離開人流量矩陣out的歸一化結(jié)果、單位時間進(jìn)入人流量矩陣in的歸一化結(jié)果與各基站所占柵格數(shù)矩陣g的歸一化結(jié)果進(jìn)行結(jié)合。y1=da·e-x(2)y2=dout·e-x(3)y3=din·e-x(4)式(1)中,{xi}為樣本集,xi為樣本集所有樣本分量,xmax為樣本集所有樣本各分量的最大值,xmin為樣本集所有樣本各分量的最小值;式(2)、式(3)、式(4)中,x為所占柵格數(shù)矩陣g根據(jù)式(1)歸一化后的矩陣,維數(shù)為1×n。式(2)中,y1為最終用于分析的矩陣,維數(shù)為n×m1;da為基站單位時間人流量分布矩陣a根據(jù)式(1)歸一化后的矩陣,維數(shù)為n×m1;n為基站數(shù),m1為矩陣a的列數(shù)。式(3)中,y2為最終用于分析的矩陣,維數(shù)為n×m2;dout為基站單位時間出流人流量分布矩陣out根據(jù)式(1)歸一化后的矩陣,維數(shù)為n×m2;n為基站數(shù),m2為矩陣out的列數(shù)。式(4)中,y3為最終用于分析的矩陣,維數(shù)為n×m3;din為基站單位時間入流人流量分布矩陣in根據(jù)式(1)歸一化后的矩陣,維數(shù)為n×m3;n為基站數(shù),m3為矩陣in的列數(shù)。步驟三、處理興趣點數(shù)據(jù):分別找到距離每個興趣點最近的基站,并判定此興趣點屬于該基站,得到屬于各個基站的所有興趣點列表;根據(jù)各個基站興趣點列表的數(shù)據(jù)中“興趣點類別”這一參數(shù)對各基站的興趣點進(jìn)行分類統(tǒng)計,得到每個基站的興趣點類別分布矩陣p;并將興趣點類別分布矩陣p結(jié)合所占柵格數(shù)矩陣g采用歸一化的方法對其進(jìn)行處理,得到最終用于分析的矩陣,該矩陣命名為y4,矩陣y4與矩陣y1、y2和y3每行所表示數(shù)據(jù)的基站號也一一對應(yīng)。歸一化處理方法如下所述:使用式(1)分別對興趣點類別分布矩陣p和各基站所占柵格數(shù)矩陣g進(jìn)行歸一化處理,將矩陣歸一化到[0,1]的區(qū)間內(nèi),并通過式(5)將興趣點類別分布矩陣p的歸一化結(jié)果與各基站所占柵格數(shù)矩陣g的歸一化結(jié)果進(jìn)行結(jié)合。y4=dp·e-x(5)式(5)中,y4為最終用于分析的矩陣,維數(shù)為n×m4;dp為興趣點類別分布矩陣p根據(jù)式(1)歸一化后的矩陣,維數(shù)為n×m4;x為所占柵格數(shù)矩陣g根據(jù)式(1)歸一化后的矩陣,維數(shù)為1×n;n為基站數(shù),m4為興趣點類別數(shù)。矩陣y4與矩陣y1、y2、y3每行所表示數(shù)據(jù)的基站號一一對應(yīng)。步驟四、刪除離群點:令矩陣y*=[y1,y2,y3,y4],找出y*中的離群點,并刪除離群點所對應(yīng)的基站,以刪除離群點后的基站號重新進(jìn)行步驟一至步驟三的操作,形成新的矩陣y。查找離群點的方法如下:step1.分別計算每個基站的特征與其余各基站特征的距離,即矩陣y中某一行與其余各行的歐式距離。step2.計算每個基站與其余各基站的距離和的平均數(shù),即該基站與其他基站的平均距離d,并得到其中的最大值dmax;step3.設(shè)定合適的δd,尋找每相差一個δd,大于(dmax-nδd)的點的個數(shù),并列表;step4.根據(jù)step3得出的離群點個數(shù)分布規(guī)律,找出離群點。step5.根據(jù)離群點所在行對應(yīng)到相應(yīng)基站號,得出離群基站的基站號列表。步驟五、聚類:對矩陣y進(jìn)行模糊聚類分析,得到聚類結(jié)果;所述模糊聚類分析采用c均值聚類算法將所有向量分成c個簇,并求得每個簇的聚類中心,使得簇內(nèi)方差的和達(dá)到最小;再通過c均值模糊聚類算法聚類,得出的結(jié)果為基站i屬于不同簇的可能性列表,然后,提取基站i在各類可能性中的最大值所屬的類,定義該類為基站i所屬的類別,得到各基站所屬類別的列表,該列表即聚類結(jié)果。步驟六、識別城市功能區(qū):計算帶有類別特征的興趣點和步驟五得到的聚類結(jié)果在地圖上的分布重疊率,對聚類后各基站進(jìn)行功能識別。計算興趣點類別為“s”的興趣點與聚類類別為“n”的基站在地圖上的分布的重疊率,通過輸入根據(jù)興趣點類別為“s”的興趣點所在的柵格列表和聚類類別為“n”的基站所覆蓋的柵格號列表,計算兩者在地圖上的分布的重疊柵格數(shù)占兩者所覆蓋所有柵格數(shù)之比,得到重疊率。計算興趣點類別為“s”的興趣點與聚類類別為“n”的基站在地圖上的分布的重疊率的具體方法如下:step1:根據(jù)興趣點類別為“s”的各個興趣點經(jīng)緯度,找出它們所在柵格號;step2:根據(jù)“s”的特征放大面積,即以step1得到的柵格號為中心向東南西北四個方向?qū)⒚娣e放大到一個正方形區(qū)域,得到此放大面積中的所有柵格號;step3:統(tǒng)計step2得到的所有不重復(fù)的柵格號,此集合記為s;step4:根據(jù)聚類類別為“n”的基站號和各基站所覆蓋的柵格號列表,找到聚類類別為“n”所覆蓋的柵格號,此集合記為n;step5:根據(jù)式(3)計算柵格重疊率(overlapratio),所述柵格重疊率即興趣點類別為“s”的柵格號集合s與聚類類別為“n”所覆蓋的柵格號集合n的重疊率。以下,以單個手機(jī)基站范圍為單位區(qū)域,使用杭州市一定區(qū)域的興趣點數(shù)據(jù)對本發(fā)明提出的功能區(qū)識別方法進(jìn)行驗證。步驟一:地圖分隔選取浙江省杭州市如圖1所示經(jīng)度120.040°~120.410°,緯度30.090°~30.400°范圍內(nèi)的矩形區(qū)域作為研究對象,將此區(qū)域劃分為0.0001°×0.0001°(約為9.6m×11.1m)的柵格,并根據(jù)杭州市某運(yùn)營商的手機(jī)基站經(jīng)緯度數(shù)據(jù),使用柵格歸屬計算方法劃分城市單位區(qū)域,劃分結(jié)果如圖2所示。步驟二:處理微信數(shù)據(jù)從微信數(shù)據(jù)中提取三種基站人流量數(shù)據(jù):基站每小時人流量、基站每小時入流人流量和基站每小時出流人流量。根據(jù)式(2)、式(3)、式(4)得到矩陣y1、y2、y3。其中,單位時間取一小時。y1為根據(jù)式(2)將歸一化后的按工作日日平均和按周末日平均進(jìn)行統(tǒng)計的基站人流量矩陣與歸一化后的基站面積矩陣相結(jié)合的矩陣。y1為n×48的矩陣,其中,n為基站數(shù),48表示工作日人流量平均的24小時與周末人流量平均的24小時。y2為根據(jù)式(3)將歸一化后的按工作日周末進(jìn)行統(tǒng)計的基站每小時出流人流量矩陣與歸一化后的基站面積矩陣相結(jié)合的矩陣。y2為n×48的矩陣,其中,n為基站數(shù),48表示工作日出流人流量平均的24小時與周末出流人流量平均的24小時。y3為根據(jù)式(4)將歸一化后的按工作日周末進(jìn)行統(tǒng)計的基站入流人流量矩陣與歸一化后的基站面積矩陣相結(jié)合的矩陣。y3為n×48的矩陣,其中,n為基站數(shù),48表示工作日入流人流量平均的24小時與周末入流人流量平均的24小時。步驟三:處理興趣點數(shù)據(jù)百度興趣點數(shù)據(jù)在國內(nèi)被普遍使用,且其在城市空間的分布和實際情況基本吻合,保證了數(shù)據(jù)的準(zhǔn)確性與可靠性,故提取百度在研究范圍內(nèi)的興趣點數(shù)據(jù)進(jìn)行研究。該數(shù)據(jù)包括研究范圍內(nèi)大于11萬條的興趣點信息,包含興趣點的名稱、經(jīng)緯度、詳細(xì)地址、興趣點類別及聯(lián)系電話等參數(shù)。研究中根據(jù)“興趣點類別”參數(shù)對興趣點數(shù)據(jù)進(jìn)行處理,將興趣點數(shù)據(jù)分為購物、工作、居住、旅游、高校文教、小學(xué)幼兒園、中學(xué)、醫(yī)療、文化娛樂、生活服務(wù)、金融服務(wù)、汽車服務(wù)、車站、停車場、美食以及酒店16大類。分別計算每個興趣點和各基站的距離,定義興趣點屬于離它最近的基站,并根據(jù)興趣點類別統(tǒng)計各基站范圍內(nèi)不同類別興趣點的個數(shù),以此形成研究區(qū)域范圍內(nèi)基站所屬興趣點類別分布矩陣p;最后,根據(jù)式(5)對興趣點類別分布矩陣p進(jìn)行歸一化處理,得到矩陣y4。y4為根據(jù)式(3.5)將歸一化后的興趣點類別分布矩陣與歸一化后的基站面積矩陣相結(jié)合的矩陣。y4為n×16的矩陣,其中,n為基站數(shù),16表興趣點類別數(shù)。步驟四:刪除離群點因為y1、y2、y3和y4每行所表示數(shù)據(jù)的基站號一一對應(yīng),故令矩陣y*=[y1,y2,y3,y4],y為n×160的矩陣,其中,n為基站數(shù),且y每行所表示數(shù)據(jù)的基站號與y1、y2、y3和y4每行所表示數(shù)據(jù)的基站號也相對應(yīng),160列中包括48列按工作日周末進(jìn)行統(tǒng)計的基站人流量矩陣,48列按工作日周末進(jìn)行統(tǒng)計的基站出流人流量矩陣,48列按工作日周末進(jìn)行統(tǒng)計的基站入流人流量矩陣,以及16列興趣點類別矩陣。根據(jù)本發(fā)明所述方法查找矩陣y*中的離群點,查找離群點,并刪除離群點所對應(yīng)的基站,以刪除離群點后的基站號重新進(jìn)行步驟一至步驟三的操作,形成新的矩陣y。步驟五:聚類根據(jù)本發(fā)明提出的聚類方法對結(jié)果矩陣y進(jìn)行基站聚類分析。取參數(shù)c=4,即將研究區(qū)域分為4類不同的功能區(qū)域,最后將分析結(jié)果可視化,結(jié)果如圖3所示。步驟六:識別城市功能區(qū)選取興趣點類別參數(shù)中的“居住”、“工作”和“旅游”三大特征值進(jìn)行基站功能識別。根據(jù)本發(fā)明的重疊率計算方法,對聚類結(jié)果進(jìn)行重疊率計算,計算結(jié)果如表1為步驟六重疊率計算結(jié)果。在放大興趣點面積的時候,結(jié)合實際情況,對類別為“居住”和“工作”的興趣點放大的面積為30m×30m,即以每個興趣點所屬柵格為中心,3×3的正方形區(qū)域;而對類別為“旅游”的興趣點放大的面積為90m×90m,即以每個興趣點所屬柵格為中心,9×9的正方形區(qū)域。表1:重疊率(%)顏色4顏色3顏色2顏色1工作1.3339750.9316201.7515971.189055居住0.6505880.6616940.9888540.741734景點0.1968630.4916170.2882170.260539根據(jù)表1的重疊率計算結(jié)果,可以首先看出圖3中的顏色3在興趣點類別為“景點”中的重疊率特別高而與“工作”和“居住”的重疊率分別為最低和第二低,這符合景區(qū)的自身特點,所以可以判定圖3中的顏色3區(qū)域主要功能為景區(qū)。圖3中的顏色2區(qū)域與“工作”和“居住”興趣點的重疊率都為最高,由此可知,顏色2區(qū)域為工作和居住比較密集的功能區(qū)域。顏色1區(qū)域與“工作”重疊率排位為第三,但與排第二的顏色4區(qū)域只相差0.14%,與顏色3區(qū)域的重疊率則相差0.26%;與“居住”重疊率排位第二。由此可知顏色1區(qū)域的功能為比顏色2區(qū)域稍不密集的居住工作區(qū)域。顏色4區(qū)域與“工作”重疊率排位為第二;與“居住”重疊率排位最末;與“景點”重疊率排位也是最末。在圖3中可以明顯的看到顏色4區(qū)域比較少,分布比較分散,故可將顏色4區(qū)域定義為工作區(qū)。事實上,“工作”和“居住”在當(dāng)今的城市中是密不可分的,所以在對基站進(jìn)行聚類和功能識別時,這兩者很難獨(dú)立開來。而研究中“工作”和“居住”基本可以覆蓋整個研究區(qū)域。運(yùn)用本發(fā)明方法,實施例中各功能區(qū)域的吻合度如下:(1)“景區(qū)”吻合度圖4杭州市2001-2020年的城市總體規(guī)劃圖,圖5為相同經(jīng)緯度條件下根據(jù)本發(fā)明方法識別的“景區(qū)”的聚類結(jié)果在地圖上的投影,圖5中陰影部分即根據(jù)本發(fā)明方法識別為“景區(qū)”的區(qū)域在地圖上的分布,圖中,區(qū)域a為杭州半山國家森林公園,區(qū)域b為杭州西溪濕地,區(qū)域c為杭州西湖風(fēng)景區(qū),區(qū)域d為杭州樂園與湘湖風(fēng)景區(qū),區(qū)域e為錢清鎮(zhèn)附近風(fēng)景區(qū),區(qū)域f為靈山幻境等風(fēng)景區(qū),區(qū)域g為杭州東方文化園,區(qū)域h覆蓋的是一些村莊以及喬司農(nóng)場區(qū)域。這些區(qū)域包含了杭州的一些著名的景點,而本發(fā)明對景區(qū)的識別區(qū)域結(jié)果與這些區(qū)域基本相符。其余零散的區(qū)域,覆蓋的基本為杭州市區(qū)的公園等地。(2)人流量密集的“工作居住區(qū)”吻合度根據(jù)圖6所示,本發(fā)明對人流量密集的“工作居住”聚類結(jié)果在百度地圖上的投影。圖中,區(qū)域a為杭州主城區(qū),區(qū)域b為喬司鎮(zhèn),區(qū)域c為三墩鎮(zhèn),區(qū)域d為蕭山區(qū),區(qū)域e為轉(zhuǎn)塘鎮(zhèn),這些區(qū)域在杭州都屬于人口比較密集的區(qū)域,也是“工作”和“居住”比較密集的區(qū)域。實驗結(jié)果顯示,圖3在以上這些區(qū)域覆蓋范圍內(nèi),顏色2分布的都比較密集,因此,本發(fā)明提出的研究方法在識別密集的“工作居住”區(qū)域時是較為準(zhǔn)確的。(3)“工作區(qū)”吻合度圖7為本發(fā)明對識別為“工作區(qū)”的聚類結(jié)果與實際情況的對比圖。圖中圈出區(qū)域在地圖上放大后,可以看到區(qū)域包含很多的公司和企業(yè)園區(qū)。中心的實驗結(jié)果圖顯示,圈出區(qū)域恰巧覆蓋了這些公司和企業(yè)園區(qū),因此,本文提出的研究方法在識別工作區(qū)域時也是準(zhǔn)確的。綜合(1)、(2)、(3)的吻合度分析可知,本發(fā)明提出的根據(jù)微信數(shù)據(jù)和興趣點數(shù)據(jù)識別城市功能區(qū)的方法對城市區(qū)域功能的識別結(jié)果與實際基本相吻合。如上所述,本領(lǐng)域的普通技術(shù)人員閱讀本發(fā)明文件后,根據(jù)本發(fā)明的技術(shù)方案和技術(shù)構(gòu)思無需創(chuàng)造性腦力勞動而作出其他各種相應(yīng)的變換方案,均屬于本發(fā)明所保護(hù)的范圍。當(dāng)前第1頁12