一種融合粗糙集與粒計(jì)算的分布異構(gòu)海量城市安全數(shù)據(jù)流的在線數(shù)據(jù)挖掘方法
【專利摘要】一種融合粗糙集與粒計(jì)算的分布異構(gòu)海量城市安全數(shù)據(jù)流的在線數(shù)據(jù)挖掘方法,引入粗糙集理論、數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)城市安全數(shù)據(jù)流的分析與挖掘,首先建立分布異步海量數(shù)據(jù)流概念形式化描述模型;其次對(duì)概念模型進(jìn)行偶合分析;再次提出基于屬性約簡(jiǎn)的粗糙集海量數(shù)據(jù)分割方法并采用基于概念格的節(jié)點(diǎn)對(duì)的關(guān)聯(lián)規(guī)則挖掘找出節(jié)點(diǎn)間的關(guān)聯(lián)性,最后通過可伸縮粒計(jì)算獲取影響城市安全的關(guān)鍵事件信息,實(shí)現(xiàn)城市的數(shù)字化管理。本發(fā)明提供了一種挖掘的準(zhǔn)確性高、及時(shí)性較好、數(shù)據(jù)有效性良好的融合粗糙集與粒計(jì)算的分布異構(gòu)海量城市安全數(shù)據(jù)流的在線數(shù)據(jù)挖掘方法。
【專利說明】一種融合粗糙集與粒計(jì)算的分布異構(gòu)海量城市安全數(shù)據(jù)流的在線數(shù)據(jù)挖掘方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】知識(shí),尤其是一種分布異構(gòu)海量城市安全數(shù)據(jù)流的在線數(shù)據(jù)挖掘方法。
【背景技術(shù)】
[0002]城市公共安全狀況,是一個(gè)國(guó)家競(jìng)爭(zhēng)力和國(guó)家形象的重要標(biāo)志。隨著城市聚集人口和積累財(cái)富的不斷增長(zhǎng),城市的重要性日趨明顯,然而也使其面臨越來越多的安全挑戰(zhàn)。自然災(zāi)害頻度和強(qiáng)度的增大、各類社會(huì)事故的增長(zhǎng)以及恐怖主義的威脅,對(duì)城市預(yù)防災(zāi)害及應(yīng)付突發(fā)事件的能力提出了更為嚴(yán)峻的要求。統(tǒng)計(jì)表明,我國(guó)每年因城市公共安全問題造成的經(jīng)濟(jì)損失達(dá)6500億元,約占⑶P總量的6%。國(guó)務(wù)院新聞辦公室2009年5月11日發(fā)表的《中國(guó)的減災(zāi)行動(dòng)》白皮書指出,我國(guó)70%以上的城市、50%以上的人口分布在氣象、地震、地質(zhì)、海洋等自然災(zāi)害嚴(yán)重的地區(qū)??v觀社會(huì)發(fā)展,俄羅斯切爾諾貝利核泄露、亞洲金融風(fēng)暴、日本東京地鐵毒氣案、2001年美國(guó)“9.11”事件、2003年SARS災(zāi)害、2009年“H1N1”甲型流感病毒疫情、2010年上海“11.15”特別重大火災(zāi)事故等歷史教訓(xùn)時(shí)刻提醒著人們,深入開展有關(guān)城市公共安全的研究已是迫在眉睫。
[0003]城市公共安全管理過程中,存在著許多潛在的、不為人知的又有用的信息,挖掘出這些信息,對(duì)提高城市安全管理有著極其重大的作用。然而由于與城市安全相關(guān)的數(shù)據(jù)通常具有數(shù)據(jù)量大、變化快、隨機(jī)存取代價(jià)高、詳細(xì)數(shù)據(jù)難以存儲(chǔ)等特點(diǎn),因此如何準(zhǔn)確、及時(shí)的對(duì)其進(jìn)行挖掘,發(fā)現(xiàn)具有較高價(jià)值的信息是目前研究的難點(diǎn)與熱點(diǎn)。
【發(fā)明內(nèi)容】
[0004]為了克服已有城市公共安全數(shù)據(jù)的無(wú)法進(jìn)行準(zhǔn)確、及時(shí)挖掘、數(shù)據(jù)的有效性較差的不足,本發(fā)明提供了一種挖掘的準(zhǔn)確性高、及時(shí)性較好、數(shù)據(jù)有效性良好的融合粗糙集與粒計(jì)算的分布異構(gòu)海量城市安全數(shù)據(jù)流的在線數(shù)據(jù)挖掘方法。
[0005]本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
[0006]一種融合粗糙集與粒計(jì)算的分布異構(gòu)海量城市安全數(shù)據(jù)流的在線數(shù)據(jù)挖掘方法,所述在線數(shù)據(jù)挖掘方法包括以下步驟:
[0007]I)分布異步海量數(shù)據(jù)流概念形式化描述:通過數(shù)據(jù)流的粒化,對(duì)概念進(jìn)行粒的表示、特征化、描述和解釋;基于粒計(jì)算的概念分析過程包括以下步驟:①概念分層,采用粒計(jì)算模型中的概念格、粒度劃分;②建立概念之間關(guān)系;③描述概念的外延和內(nèi)涵,對(duì)屬性和對(duì)象進(jìn)行描述,表明概念之間的泛化關(guān)系;④通過對(duì)概念的外延偶合度、內(nèi)涵偶合度和概念偶合度的分析,挖掘數(shù)據(jù)流隱藏的特征;
[0008]2)概念的偶合分析:概念包括內(nèi)涵和外延,用二元組<0a;Da>表示,其中,Oa是DS的外延,03是05的內(nèi)涵;假設(shè)一個(gè)時(shí)間段〈Tb; τε>中的概念為<0a;Da>,時(shí)間來到<xb; \>,概念變化為<0a;Da>;〈Tb;時(shí)間段內(nèi)概念集合所構(gòu)成的概念格設(shè)為CL1,其后續(xù)時(shí)間段〈τ b; τ e>內(nèi)的概念集合構(gòu)成的概念格設(shè)為CL2 ;
[0009]3)建立基于屬性約簡(jiǎn)的粗糙集海量數(shù)據(jù)分割方法:在考察當(dāng)前的條件屬性組合A時(shí),分兩部分來考慮:①所有的相容條件分類X(X e Posa(D))且X e U/ind(A),相容條件分類X中的所有樣本在A上都含有相同的屬性值以及相同的決策值,在屬性組合A下這些樣本是完全相同的,因此這些樣本可以隨意被分割到不同的子數(shù)據(jù)集中,也不會(huì)造成正域的變化所有的沖突條件分類Y (Y e negA(D))且Y e U/ind(A) ;Y中的樣本在A上都含有相同的屬性值以及不同的決策值,在分割父數(shù)據(jù)集的過程中把同一個(gè)沖突條件分類Y的樣本分到同一個(gè)子數(shù)據(jù)集中;
[0010]4)基于概念格的節(jié)點(diǎn)對(duì)的關(guān)聯(lián)規(guī)則挖掘:采用基于先輩晚輩節(jié)點(diǎn)對(duì)的關(guān)聯(lián)
規(guī)則提取方法來提取概念格上的關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則基于頻繁項(xiàng)集挖掘,它的兩個(gè)重
要的興趣度度量指標(biāo)是支持度和置信度,支持度表明規(guī)則的可用性,而置信度則表明
規(guī)則的確定性,對(duì)于概念格中的先輩晚輩節(jié)點(diǎn)對(duì)(C1,C2),假定.
【權(quán)利要求】
1.一種融合粗糙集與粒計(jì)算的分布異構(gòu)海量城市安全數(shù)據(jù)流的在線數(shù)據(jù)挖掘方法,其特征在于:所述在線數(shù)據(jù)挖掘方法包括以下步驟: 1)分布異步海量數(shù)據(jù)流概念形式化描述:通過數(shù)據(jù)流的?;瑢?duì)概念進(jìn)行粒的表示、特征化、描述和解釋;基于粒計(jì)算的概念分析過程包括以下步驟:①概念分層,采用粒計(jì)算模型中的概念格、粒度劃分;②建立概念之間關(guān)系;③描述概念的外延和內(nèi)涵,對(duì)屬性和對(duì)象進(jìn)行描述,表明概念之間的泛化關(guān)系;④通過對(duì)概念的外延偶合度、內(nèi)涵偶合度和概念偶合度的分析,挖掘數(shù)據(jù)流隱藏的特征; 2)概念的偶合分析:概念包括內(nèi)涵和外延,用二元組<Oa;Da>表示,其中,(\是05的外延,03是05的內(nèi)涵;假設(shè)一個(gè)時(shí)間段〈Tb; τε>中的概念為<Oa;Da>,時(shí)間來到〈Tb; τ e>,概念變化為<Oa;Da>;〈 Tb; τε>時(shí)間段內(nèi)概念集合所構(gòu)成的概念格設(shè)為CL1,其后續(xù)時(shí)間段<Tb; τ e>內(nèi)的概念集合構(gòu)成的概念格設(shè)為CL2 ;
3)建立基于屬性約簡(jiǎn)的粗糙集海量數(shù)據(jù)分割方法:在考察當(dāng)前的條件屬性組合A時(shí),分兩部分來考慮:①所有的相容條件分類X(X e Posa(D))且X e U/ind(A),相容條件分類X中的所有樣本在A上都含有相同的屬性值以及相同的決策值,在屬性組合A下這些樣本是完全相同的,因此這些樣本可以隨意被分割到不同的子數(shù)據(jù)集中,也不會(huì)造成正域的變化;②所有的沖突條件分類Y (Y e negA(D))且Y e U/ind(A) ;Y中的樣本在A上都含有相同的屬性值以及不同的決策值,在分割父數(shù)據(jù)集的過程中把同一個(gè)沖突條件分類Y的樣本分到同一個(gè)子數(shù)據(jù)集中; 4)基于概念格的節(jié)點(diǎn)對(duì)的關(guān)聯(lián)規(guī)則挖掘:采用基于先輩晚輩節(jié)點(diǎn)對(duì)的關(guān)聯(lián)規(guī)則提取方法來提取概念格上的關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則基于頻繁項(xiàng)集挖掘,它的兩個(gè)重要的興趣度度量指標(biāo)是支持度和置信度,支持度表明規(guī)則的可用性,而置信度則表明規(guī)則的確定性,對(duì)于概念格中的先輩晚輩節(jié)點(diǎn)對(duì)(ClCZ)JgSC1 = (O1 U O, A), C2 =(O, A U B),則在具有A屬性的IO1 U O個(gè)對(duì)象中有|0|個(gè)也具有B屬性,即可得到關(guān)聯(lián)規(guī)則
2.如權(quán)利要求1所述的融合粗糙集與粒計(jì)算的分布異構(gòu)海量城市安全數(shù)據(jù)流的在線數(shù)據(jù)挖掘方法,其特征在于:所述步驟5)中,結(jié)合數(shù)據(jù)庫(kù)技術(shù)為分層?;P椭械牧W由闪7植兼湵?,引 入樣本覆蓋因子。
【文檔編號(hào)】G06F17/30GK103699622SQ201310703765
【公開日】2014年4月2日 申請(qǐng)日期:2013年12月19日 優(yōu)先權(quán)日:2013年12月19日
【發(fā)明者】陳庭貴, 周廣瀾, 許翀寰 申請(qǐng)人:浙江工商大學(xué)