一種基于空間網(wǎng)格劃分的政務(wù)大數(shù)據(jù)挖掘方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于網(wǎng)絡(luò)地理信息系統(tǒng)應(yīng)用技術(shù)領(lǐng)域,涉及一種大數(shù)據(jù)挖掘方法,具體地說(shuō)是一種能夠有效組織和關(guān)聯(lián)多維數(shù)據(jù)、挖掘多種類型政務(wù)數(shù)據(jù)集之間的信息的大數(shù)據(jù)挖掘方法。
【背景技術(shù)】
[0002]隨著大數(shù)據(jù)時(shí)代的到來(lái),如何從海量數(shù)據(jù)中挖掘到有用信息成為人們的迫切需求?,F(xiàn)有大數(shù)據(jù)挖掘技術(shù)大多針對(duì)單一類型數(shù)據(jù)集,挖掘視角狹隘,沒有充分利用多種類型數(shù)據(jù)集之間的關(guān)聯(lián)關(guān)系,因而某一領(lǐng)域內(nèi)挖掘到的信息很難與其他領(lǐng)域相關(guān)聯(lián),難以進(jìn)行深度信息挖掘,比如進(jìn)行政務(wù)公開數(shù)據(jù)挖掘時(shí),由于政府部門眾多,數(shù)據(jù)涉及的領(lǐng)域視角各不相同,各種數(shù)據(jù)集之間的組織形式和存儲(chǔ)結(jié)構(gòu)差別很大,因此很難進(jìn)行跨政府部門數(shù)據(jù)之間的信息挖掘。
【發(fā)明內(nèi)容】
[0003]因而為解決上述問題,本發(fā)明提供了一種基于空間網(wǎng)格劃分的政務(wù)大數(shù)據(jù)挖掘方法,將多種類型的政務(wù)數(shù)據(jù)集組織在統(tǒng)一的時(shí)空維度下進(jìn)行探索分析,有效地解決了政務(wù)數(shù)據(jù)集的數(shù)據(jù)挖掘困難。
[0004]本發(fā)明所采用的技術(shù)方案是:一種基于空間網(wǎng)格劃分的政務(wù)大數(shù)據(jù)挖掘方法,其特征在于,包括以下步驟:
[0005]步驟1:以數(shù)據(jù)的空間分布特征為基礎(chǔ)對(duì)數(shù)據(jù)集進(jìn)行空間網(wǎng)格劃分;
[0006]首先將數(shù)據(jù)集的數(shù)據(jù)按照空間粒度大小排序,取數(shù)據(jù)集所在空間區(qū)域的外接矩形框,對(duì)矩形框以四叉樹方法進(jìn)行網(wǎng)格劃分,若具有最大空間粒度的數(shù)據(jù)在每個(gè)單元網(wǎng)格中均不為零,則繼續(xù)采用四叉樹方法進(jìn)行遞歸劃分;若存在某個(gè)或者多個(gè)單元網(wǎng)格中其數(shù)據(jù)為零,則停止繼續(xù)劃分,記錄下其四叉樹劃分的層數(shù);
[0007]步驟2:對(duì)數(shù)據(jù)集中下一級(jí)空間粒度的數(shù)據(jù)繼續(xù)進(jìn)行遞歸四叉樹劃分,直到存在某單元網(wǎng)格中該數(shù)據(jù)屬性值為零,記錄下其四叉樹層數(shù);
[0008]步驟3:重復(fù)步驟2直到全部數(shù)據(jù)均劃分完畢;
[0009]步驟4:將數(shù)據(jù)集中的數(shù)據(jù)作為空間網(wǎng)格的屬性賦值到對(duì)應(yīng)的空間網(wǎng)格單元上,網(wǎng)格上的屬性值等于該層網(wǎng)格上對(duì)應(yīng)粒度的數(shù)據(jù)值與其覆蓋的網(wǎng)格數(shù)目的比值;
[0010]步驟5:以網(wǎng)格作為基本單元,進(jìn)行網(wǎng)格數(shù)據(jù)存儲(chǔ),將網(wǎng)格單元屬性值保存在具有模式自由特點(diǎn)的數(shù)據(jù)庫(kù),得到基于空間網(wǎng)格劃分的數(shù)據(jù)庫(kù);
[0011]步驟6:利用基于空間網(wǎng)格劃分的數(shù)據(jù)庫(kù)進(jìn)行政務(wù)數(shù)據(jù)挖掘,發(fā)現(xiàn)潛在關(guān)聯(lián)信息。
[0012]步驟3中對(duì)全部數(shù)據(jù)劃分時(shí),若數(shù)據(jù)在空間上的分布不均勻,有的區(qū)域分布較為密集而有的區(qū)域較為稀疏時(shí),則一次四叉樹劃分就能出現(xiàn)有的網(wǎng)格上屬性值為零,而有的網(wǎng)格上屬性值非常大的情況,所以采用熱點(diǎn)分析方法獲取其密集分布的區(qū)域,對(duì)密集分布的區(qū)域進(jìn)行四叉樹遞歸劃分直到滿足步驟1中的條件,記錄下其四叉樹劃分層數(shù),并對(duì)稀疏區(qū)域進(jìn)行與該四叉樹層數(shù)相同的劃分。
[0013]步驟6的具體實(shí)現(xiàn)過(guò)程為首先選取兩類需要進(jìn)行信息挖掘的政務(wù)數(shù)據(jù),如果兩種類型數(shù)據(jù)的空間粒度相同,則直接從數(shù)據(jù)庫(kù)中取兩類數(shù)據(jù)的格網(wǎng)屬性值進(jìn)行相關(guān)性分析;如果兩種類型數(shù)據(jù)的空間粒度不同,即數(shù)據(jù)所在的格網(wǎng)大小不同,則需要統(tǒng)一兩類數(shù)據(jù)的空間粒度,將大粒度數(shù)據(jù)的網(wǎng)格進(jìn)行細(xì)分至與小粒度數(shù)據(jù)的網(wǎng)格大小相同,利用兩種粒度數(shù)據(jù)之間的四叉樹層數(shù)差計(jì)算出大粒度數(shù)據(jù)映射至小粒度網(wǎng)格上的屬性值,此時(shí)兩不同粒度的數(shù)據(jù)便都擁有了相同的空間粒度,然后使用映射后的數(shù)據(jù)值進(jìn)行相關(guān)性分析。
[0014]本發(fā)明步驟1到4綜合均勻網(wǎng)格和層次網(wǎng)格的劃分結(jié)構(gòu)對(duì)數(shù)據(jù)集中每種類型的數(shù)據(jù)按照其空間粒度進(jìn)行統(tǒng)一空間維度上的屬性映射,并將其屬性值賦值給每一網(wǎng)格單元,從而將不同種類數(shù)據(jù)集組織在統(tǒng)一的時(shí)空維度下。
[0015]本發(fā)明步驟5和6利用了數(shù)據(jù)庫(kù)的模式自由特征,將不同種類數(shù)據(jù)集存儲(chǔ)到統(tǒng)一數(shù)據(jù)集下而不考慮其數(shù)據(jù)類型,統(tǒng)一數(shù)據(jù)集下的政務(wù)數(shù)據(jù)挖掘既可以進(jìn)行相同類型數(shù)據(jù)之間的時(shí)空信息挖掘,也可以進(jìn)行跨部門跨領(lǐng)域的不同類型數(shù)據(jù)之間的時(shí)空信息挖掘,大大增加了信息挖掘深度。
[0016]本發(fā)明與現(xiàn)有大數(shù)據(jù)挖掘技術(shù)相比,采用了基于空間網(wǎng)格劃分的方法融合多種類型數(shù)據(jù),可用來(lái)挖掘各種類型政務(wù)數(shù)據(jù)之間的信息,增加了信息挖掘深度。
【具體實(shí)施方式】
[0017]為了便于本領(lǐng)域普通技術(shù)人員理解和實(shí)施本發(fā)明,下面結(jié)合實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)描述,應(yīng)當(dāng)理解,此處所描述的實(shí)施示例僅用于說(shuō)明和解釋本發(fā)明,并不用于限定本發(fā)明。
[0018]本發(fā)明提供的一種基于空間網(wǎng)格劃分的政務(wù)大數(shù)據(jù)挖掘方法,其特征在于,包括以下步驟:
[0019]步驟1:以數(shù)據(jù)的空間分布特征為基礎(chǔ)對(duì)數(shù)據(jù)集進(jìn)行空間網(wǎng)格劃分;
[0020]首先將數(shù)據(jù)集的數(shù)據(jù)按照空間粒度大小排序,取數(shù)據(jù)集所在空間區(qū)域的外接矩形框,對(duì)矩形框以四叉樹方法進(jìn)行網(wǎng)格劃分,若具有最大空間粒度的數(shù)據(jù)在每個(gè)單元網(wǎng)格中均不為零,則繼續(xù)采用四叉樹方法進(jìn)行遞歸劃分;若存在某個(gè)或者多個(gè)單元網(wǎng)格中其數(shù)據(jù)為零,則停止繼續(xù)劃分,記錄下其四叉樹劃分的層數(shù);
[0021]本步驟中綜合考慮數(shù)據(jù)集中每種類型數(shù)據(jù)的空間粒度大小,結(jié)合了均勻網(wǎng)格和層次網(wǎng)格兩種結(jié)構(gòu)對(duì)空間網(wǎng)格進(jìn)行劃分,針對(duì)不同空間粒度的數(shù)據(jù)采取不同粒度的網(wǎng)格劃分方式。均勻網(wǎng)格劃分結(jié)構(gòu)即將二維數(shù)據(jù)空間按照等距離劃分的直線交叉劃分,每個(gè)單元網(wǎng)格的面積均相等,粒度相同的數(shù)據(jù)擁有的大小相同的網(wǎng)格空間;層次網(wǎng)格劃分結(jié)構(gòu)則以一定的規(guī)則繼續(xù)對(duì)單元網(wǎng)格進(jìn)行遞歸四叉樹劃分,直到滿足步驟1中所述條件為止,層次網(wǎng)格劃分使得擁有不同空間粒度的數(shù)據(jù)能夠組織融合在統(tǒng)一的時(shí)空領(lǐng)域內(nèi)。
[0022]步驟2:對(duì)數(shù)據(jù)集中下一級(jí)空間粒度的數(shù)據(jù)繼續(xù)進(jìn)行遞歸四叉樹劃分,直到存在某單元網(wǎng)格中該數(shù)據(jù)屬性值為零,記錄下其四叉樹層數(shù);
[0023]步驟3:重復(fù)步驟2直到全部數(shù)據(jù)均劃分完畢;在對(duì)全部數(shù)據(jù)劃分時(shí),若數(shù)據(jù)在空間上的分布不均勻,有的區(qū)域分布較為密集而有的區(qū)域較為稀疏時(shí),則一次四叉樹劃分就能出現(xiàn)有的網(wǎng)格上屬性值為零,而有的網(wǎng)格上屬性值非常大的情況,所以采用熱點(diǎn)分析方法獲取其密集分布的區(qū)域,對(duì)密集分布的區(qū)域進(jìn)行四叉樹遞歸劃分直到滿足步驟1中的條件,記錄下其四叉樹劃分層數(shù),并對(duì)稀疏區(qū)域進(jìn)行與該四叉樹層數(shù)相同的劃分。
[0024]步驟4:將數(shù)據(jù)集中的數(shù)據(jù)作為空間網(wǎng)格的屬性賦值到對(duì)應(yīng)的空間網(wǎng)格單元上,網(wǎng)格上的屬性值等于該層網(wǎng)格上對(duì)應(yīng)粒度的數(shù)據(jù)值與其覆蓋的網(wǎng)格數(shù)目的比值;
[0025]步驟5:以網(wǎng)格作為基本單元,進(jìn)行網(wǎng)格數(shù)據(jù)存儲(chǔ),將網(wǎng)格單元屬性值保存在具有模式自由特點(diǎn)的數(shù)據(jù)庫(kù),得到基于空間網(wǎng)格劃分的數(shù)據(jù)庫(kù);
[0026]本步驟中使用具有模式自由特點(diǎn)的數(shù)據(jù)庫(kù)存儲(chǔ)具有多層結(jié)構(gòu)的網(wǎng)格數(shù)據(jù)。數(shù)據(jù)庫(kù)表格中每條記錄對(duì)應(yīng)于一個(gè)網(wǎng)格,每個(gè)網(wǎng)格存儲(chǔ)其對(duì)應(yīng)空間粒度下的數(shù)據(jù)值和四叉樹層數(shù),此外,每個(gè)網(wǎng)格還存儲(chǔ)低于其空間粒度的下一層網(wǎng)格數(shù)據(jù),即每條記錄的屬性值可以是某一種數(shù)據(jù)類型,也可以是一張表格。模式自由的數(shù)據(jù)庫(kù)特別適合用于存儲(chǔ)基于多層網(wǎng)格劃分的政務(wù)數(shù)據(jù)。
[0027]步驟6:利用基于空間網(wǎng)格劃分的數(shù)據(jù)庫(kù)進(jìn)行政務(wù)數(shù)據(jù)挖掘,發(fā)現(xiàn)潛在關(guān)聯(lián)信息;具體實(shí)現(xiàn)過(guò)程為首先選取兩類需要進(jìn)行信息挖掘的政務(wù)數(shù)據(jù),如果兩種類型數(shù)據(jù)的空間粒度相同,則直接從數(shù)據(jù)庫(kù)中取兩類數(shù)據(jù)的格網(wǎng)屬性值進(jìn)行相關(guān)性分析;如果兩種類型數(shù)據(jù)的空間粒度不同,即數(shù)據(jù)所在的格網(wǎng)大小不同,則需要統(tǒng)一兩類數(shù)據(jù)的空間粒度,將大粒度數(shù)據(jù)的網(wǎng)格進(jìn)行細(xì)分至與小粒度數(shù)據(jù)的網(wǎng)格大小相同,利用兩種粒度數(shù)據(jù)之間的四叉樹層數(shù)差計(jì)算出大粒度數(shù)據(jù)映射至小粒度網(wǎng)格上的屬性值,此時(shí)兩不同粒度的數(shù)據(jù)便都擁有了相同的空間粒度,然后使用映射后的數(shù)據(jù)值進(jìn)行相關(guān)性分析,進(jìn)行相關(guān)性分析。
[0028]本步驟中取兩種不同類型的政務(wù)數(shù)據(jù)進(jìn)行相關(guān)性分析,當(dāng)數(shù)據(jù)具有不同的空間粒度時(shí),使用基于網(wǎng)格的四叉樹劃分思想將大空間粒度的數(shù)據(jù)細(xì)分至小空間粒度上的屬性值,進(jìn)而實(shí)現(xiàn)在相同的時(shí)空維度下統(tǒng)一兩種數(shù)據(jù)的空間粒度來(lái)進(jìn)行相關(guān)性分析。
[0029]應(yīng)當(dāng)理解的是,本說(shuō)明書未詳細(xì)闡述的部分均屬于現(xiàn)有技術(shù)。
[0030]應(yīng)當(dāng)理解的是,上述針對(duì)較佳實(shí)施例的描述較為詳細(xì),并不能因此而認(rèn)為是對(duì)本發(fā)明專利保護(hù)范圍的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的啟示下,在不脫離本發(fā)明權(quán)利要求所保護(hù)的范圍情況下,還可以做出替換或變形,均落入本發(fā)明的保護(hù)范圍之內(nèi),本發(fā)明的請(qǐng)求保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。
【主權(quán)項(xiàng)】
1.一種基于空間網(wǎng)格劃分的政務(wù)大數(shù)據(jù)挖掘方法,其特征在于,包括以下步驟: 步驟1:以數(shù)據(jù)的空間分布特征為基礎(chǔ)對(duì)數(shù)據(jù)集進(jìn)行空間網(wǎng)格劃分; 首先將數(shù)據(jù)集的數(shù)據(jù)按照空間粒度大小排序,取數(shù)據(jù)集所在空間區(qū)域的外接矩形框,對(duì)矩形框以四叉樹方法進(jìn)行網(wǎng)格劃分,若具有最大空間粒度的數(shù)據(jù)在每個(gè)單元網(wǎng)格中均不為零,則繼續(xù)采用四叉樹方法進(jìn)行遞歸劃分;若存在某個(gè)或者多個(gè)單元網(wǎng)格中其數(shù)據(jù)為零,則停止繼續(xù)劃分,記錄下其四叉樹劃分的層數(shù); 步驟2:對(duì)數(shù)據(jù)集中下一級(jí)空間粒度的數(shù)據(jù)繼續(xù)進(jìn)行遞歸四叉樹劃分,直到存在某單元網(wǎng)格中該數(shù)據(jù)屬性值為零,記錄下其四叉樹層數(shù); 步驟3:重復(fù)步驟2直到全部數(shù)據(jù)均劃分完畢; 步驟4:將數(shù)據(jù)集中的數(shù)據(jù)作為空間網(wǎng)格的屬性賦值到對(duì)應(yīng)的空間網(wǎng)格單元上,網(wǎng)格上的屬性值等于該層網(wǎng)格上對(duì)應(yīng)粒度的數(shù)據(jù)值與其覆蓋的網(wǎng)格數(shù)目的比值; 步驟5:以網(wǎng)格作為基本單元,進(jìn)行網(wǎng)格數(shù)據(jù)存儲(chǔ),將網(wǎng)格單元屬性值保存在具有模式自由特點(diǎn)的數(shù)據(jù)庫(kù),得到基于空間網(wǎng)格劃分的數(shù)據(jù)庫(kù); 步驟6:利用基于空間網(wǎng)格劃分的數(shù)據(jù)庫(kù)進(jìn)行政務(wù)數(shù)據(jù)挖掘,發(fā)現(xiàn)潛在關(guān)聯(lián)信息。
【專利摘要】本發(fā)明公開了一種基于空間網(wǎng)格劃分的政務(wù)大數(shù)據(jù)挖掘方法,根據(jù)政務(wù)數(shù)據(jù)集中數(shù)據(jù)的空間粒度確定空間網(wǎng)格的大小,對(duì)空間網(wǎng)格進(jìn)行劃分并將各數(shù)據(jù)集中的數(shù)據(jù)賦值給網(wǎng)格作為屬性值,以單元網(wǎng)格為單位進(jìn)行網(wǎng)格數(shù)據(jù)存儲(chǔ)和多維數(shù)據(jù)挖掘。本發(fā)明將不同種類數(shù)據(jù)集組織在統(tǒng)一的時(shí)空維度下,有效地實(shí)現(xiàn)了多種類型的政務(wù)信息挖掘,大幅度增加了信息挖掘的深度。
【IPC分類】G06K9/62, G06F17/30
【公開號(hào)】CN105279260
【申請(qǐng)?zhí)枴緾N201510694430
【發(fā)明人】樂鵬, 張晨曉
【申請(qǐng)人】武漢大學(xué)
【公開日】2016年1月27日
【申請(qǐng)日】2015年10月21日