国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于嵌套時間窗口的流式數(shù)據(jù)頻繁項(xiàng)集挖掘算法的制作方法

      文檔序號:11177426閱讀:449來源:國知局
      一種基于嵌套時間窗口的流式數(shù)據(jù)頻繁項(xiàng)集挖掘算法的制造方法與工藝
      本發(fā)明屬于數(shù)據(jù)流挖掘領(lǐng)域,涉及一種基于嵌套時間窗口的流式數(shù)據(jù)頻繁項(xiàng)集挖掘算法。
      背景技術(shù)
      :隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,紛繁復(fù)雜的數(shù)據(jù)呈現(xiàn)爆炸式增長,數(shù)據(jù)流作為一種特殊形態(tài)的數(shù)據(jù)廣泛存在于各個行業(yè)和職能領(lǐng)域中,例如電子商務(wù)數(shù)據(jù),衛(wèi)星遙感數(shù)據(jù),web點(diǎn)擊流數(shù)據(jù),金融服務(wù)數(shù)據(jù),傳感器數(shù)據(jù)等。挖掘數(shù)據(jù)流上的頻繁項(xiàng)集是一項(xiàng)意義重大且具有挑戰(zhàn)的工作。流式數(shù)據(jù)不同于傳統(tǒng)的靜態(tài)數(shù)據(jù),它是連續(xù)的,高速的和無限的,且無法將其全部保存在內(nèi)存中,因此,多次掃描數(shù)據(jù)庫技術(shù)已經(jīng)不再適用于流式數(shù)據(jù)頻繁項(xiàng)集挖掘算法。此外,數(shù)據(jù)流具有很強(qiáng)的實(shí)時性,因此要求數(shù)據(jù)的分析處理是即時的或在線的,數(shù)據(jù)流算法需要在有限的內(nèi)存空間和限定的時間內(nèi)快速形成模式的歸納。流數(shù)據(jù)讓傳統(tǒng)的以挖掘靜態(tài)數(shù)據(jù)為主的頻繁項(xiàng)集挖掘技術(shù)面臨著巨大的挑戰(zhàn)。近年來,大量的數(shù)據(jù)流挖掘算法被提出。manku等提出了lossycounting算法,運(yùn)用界標(biāo)窗口對整個數(shù)據(jù)流進(jìn)行分析得到全局性的頻繁模式,但該算法存在一定的局限性,如對時間概念不敏感,當(dāng)數(shù)據(jù)過多時,挖掘出的頻繁項(xiàng)集所占空間過大。giannella等人提出了fp-stream算法,它以fp-stream為基本結(jié)構(gòu),從數(shù)據(jù)流中挖掘頻繁模式。fp-stream結(jié)構(gòu)包括:在內(nèi)存中捕獲數(shù)據(jù)流的最頻繁項(xiàng)集和次頻繁項(xiàng)集信息的fp-tree結(jié)構(gòu)和為每個頻繁模式建立的傾斜時間窗口表。該算法動態(tài)調(diào)整存儲結(jié)構(gòu),能在有限的存儲空間內(nèi)挖掘數(shù)據(jù)流中各個時間段的頻繁模式,然而,這需要額外的時間和空間來維護(hù)各個數(shù)據(jù)分段的頻繁模式樹。因此,滑動窗口模型成為廣泛使用的數(shù)據(jù)處理模型,它在滑動窗口上發(fā)現(xiàn)和維持近期的頻繁項(xiàng)集。當(dāng)數(shù)據(jù)流入時,只有滑動窗口中的一部分?jǐn)?shù)據(jù)流被存儲和處理。chiy,wang等提出了moment算法,該算法引入了一個緊湊的數(shù)據(jù)結(jié)構(gòu),即閉合枚舉樹(cet),監(jiān)視滑動窗口中的事務(wù)數(shù)據(jù),以便隨時輸出當(dāng)前時間段的閉合頻繁項(xiàng)目集,需要較少的內(nèi)存。李國徽等提出了啟發(fā)式的msw算法,該算法使用滑動窗口樹sw-tree結(jié)構(gòu),單遍掃描數(shù)據(jù)流并可及時捕獲數(shù)據(jù)流上最新的模式信息。此外,該算法還結(jié)合時間衰減模型,逐步降低歷史事務(wù)模式的權(quán)重,該算法能有效的區(qū)分最近產(chǎn)生事務(wù)與歷史事務(wù)??芟阆嫉忍岢隽薴iutstream算法,該算法以位表為概要數(shù)據(jù)結(jié)構(gòu),隨著窗口滑動動態(tài)更新該存儲結(jié)構(gòu),根據(jù)fiut基本結(jié)構(gòu)建立相應(yīng)的k-fiu-tree,并進(jìn)行頻繁項(xiàng)集挖掘,該算法不但節(jié)省內(nèi)存開銷,而且比其他傳統(tǒng)頻繁項(xiàng)集挖掘算法效率更高。但是這些算法都是使用固定大小的滑動窗口模型,只有具備了數(shù)據(jù)流概念變化的先驗(yàn)知識才能夠確定合適的滑動窗口大小。然而,由于數(shù)據(jù)流的不穩(wěn)定性,我們無法提前確定數(shù)據(jù)流的變化特點(diǎn)并給出一個能夠適應(yīng)數(shù)據(jù)流所有變化的滑動窗口。因此,mahmooddeypir等提出了vsw可變滑動窗口算法,用來反映近期數(shù)據(jù)流中頻繁項(xiàng)集的變化。該算法通過檢測概念變化值來動態(tài)確定窗口的大小,當(dāng)檢測的概念變化值大于給定的最小閾值時,改變窗口的大小。vsm算法會先進(jìn)行頻繁項(xiàng)集挖掘再通過檢測概念變化來動態(tài)修改滑動窗口的大小,所以當(dāng)新的數(shù)據(jù)流到來時,近期的主要頻繁項(xiàng)集可能已經(jīng)發(fā)生改變。在上述算法中,所有的窗口模型都是以事務(wù)為基本單位的,并且算法不能確定合適的窗口大小以包含近期的主要頻繁項(xiàng)集。技術(shù)實(shí)現(xiàn)要素:有鑒于此,本發(fā)明的目的在于提出了一種新型的用于數(shù)據(jù)流頻繁項(xiàng)集挖掘的嵌套時間窗口算法(frequentitemsetsminingalgorithmforstreamingdatabasedonnestedtimewindowmodel,nwfi-stream)。首先使用外嵌時間窗口篩選出近期的數(shù)據(jù),并將窗口中的所有事務(wù)數(shù)據(jù)映射到時間軸上,然后根據(jù)每個數(shù)據(jù)項(xiàng)的留存因子和期望窗口值來自適應(yīng)的調(diào)整內(nèi)嵌時間窗口大小,最后利用經(jīng)典的eclat算法進(jìn)行數(shù)據(jù)挖掘。為達(dá)到上述目的,本發(fā)明提供如下技術(shù)方案:一種基于嵌套時間窗口的流式數(shù)據(jù)頻繁項(xiàng)集挖掘算法,其特征在于:該算法包括以下步驟:s1:建立數(shù)據(jù)-時間軸的映射;s2:建立價值評估模型;s3:計(jì)算內(nèi)嵌窗口以及挖掘頻繁項(xiàng)集;進(jìn)一步,所述s1具體為:將事務(wù)中的所有數(shù)據(jù)項(xiàng)映射到時間軸上,橫軸表示數(shù)據(jù)項(xiàng)出現(xiàn)在某個時間點(diǎn)上的時間段,豎軸表示每一個時間點(diǎn)對應(yīng)的事務(wù),通過價值評估模型評估數(shù)據(jù)的留存因子,再通過公式計(jì)算窗口大小值,得到主要頻繁項(xiàng)集的期望窗口的大小。進(jìn)一步,所述s2具體為:在數(shù)據(jù)流的挖掘過程中,算法對流中每個剛到達(dá)的數(shù)據(jù)項(xiàng)賦予權(quán)值為1,隨著時間的流逝而逐漸降低權(quán)重值,而權(quán)值的降低程度通過一個與時間相關(guān)的濾波函數(shù)來近似描述;使用sigmod函數(shù)來降低歷史行為對當(dāng)前結(jié)果的影響,具體公式為:其中,λ>0為一衰減常量,t0為建立函數(shù)中心點(diǎn)對應(yīng)的時間,t為當(dāng)前時間;假設(shè)給定的外嵌時間窗口的大小為n,令一個時間點(diǎn)對應(yīng)一個ti,那么外嵌時間窗口對應(yīng)的時間向量為:tsw=(t1,t2...ti...tn)根據(jù)sigmod函數(shù),每一個時間點(diǎn)ti對應(yīng)一個相應(yīng)的權(quán)重值s(ti-t0),那么窗口對應(yīng)的權(quán)重向量為:qsw=(s(t1-t0),s(t2-t0)...s(ti-t0)...s(tn-t0))對于給定大小的外嵌時間窗口sw,將事務(wù)中所包含的所有數(shù)據(jù)項(xiàng)ii(i=1,2,…,n)全部映射到時間軸t上,每個時間點(diǎn)對應(yīng)的即為當(dāng)前時間點(diǎn)接收到的事務(wù),并建立對應(yīng)項(xiàng)的向量v_swi,如果ii在時間點(diǎn)j中出現(xiàn),則對應(yīng)的位置為1,否則為0;因此每一個數(shù)據(jù)項(xiàng)的留存因子即為在固定窗口內(nèi)的數(shù)據(jù)項(xiàng)向量和權(quán)重向量做點(diǎn)乘,表明數(shù)據(jù)項(xiàng)的重要性;ωi=v_swi·qswωi作為衡量數(shù)據(jù)存留的因子,留存因子越大,此數(shù)據(jù)所占的時間長度對實(shí)際窗口大小的影響越大。進(jìn)一步,所述s3具體為:對于每一個數(shù)據(jù)項(xiàng),都希望最后的挖掘窗口大小剛好包含到數(shù)據(jù)項(xiàng)出現(xiàn)的位置,而每一個數(shù)據(jù)項(xiàng)都有一個窗口期望值,因此應(yīng)當(dāng)盡可能的使挖掘窗口的大小等于數(shù)據(jù)出現(xiàn)的初始位置,即使|l-li|最小;綜合所有數(shù)據(jù)項(xiàng)的期望值,得出近期主要頻繁項(xiàng)集的窗口期望值,又因?yàn)槊恳粋€數(shù)據(jù)項(xiàng)的留存因子不一樣,對實(shí)際挖掘窗口大小的影響程度不一,因此通過以下公式計(jì)算滿足所有數(shù)據(jù)項(xiàng)的實(shí)際挖掘窗口大小,公式如下:其中,n表示有n個數(shù)據(jù)項(xiàng);i和j表示對應(yīng)的第i個和第j個數(shù)據(jù)項(xiàng);ωi表示衡量數(shù)據(jù)存留的因子,留存因子越大,此數(shù)據(jù)所占的時間長度對實(shí)際窗口大小的影響越大;li表示第i個數(shù)據(jù)項(xiàng)在當(dāng)前窗口中的起始位置距離現(xiàn)在位置的時間距離;l表示實(shí)際的窗口值大小;得到實(shí)際挖掘窗口之后,對數(shù)據(jù)進(jìn)行挖掘。在本發(fā)明中,使用經(jīng)典的eclat算法。eclat是一種深度優(yōu)先的方法,用于挖掘在數(shù)據(jù)庫的垂直布局上運(yùn)行的靜態(tài)數(shù)據(jù)庫中的所有頻繁項(xiàng)集。它加入了倒排的思想,其算法思想是由頻繁k項(xiàng)集求交集,生成候選k+1項(xiàng)集。對候選k+1項(xiàng)集做裁剪,生成頻繁k+1項(xiàng)集,再求交集生成候選k+2項(xiàng)集。如此迭代,直到項(xiàng)集歸一。eclat算法初始階段必須掃描數(shù)據(jù)庫以獲得每一個數(shù)據(jù)項(xiàng)的時間序列表,然后通過計(jì)算其交集得到其支持度。本發(fā)明的有益效果在于:(1)nwfi-stream算法能快速有效地提取數(shù)據(jù)流中近期的主要頻繁項(xiàng)集,并且在時間空間復(fù)雜度上有一定的提升;(2)nwfi-stream算法具有很強(qiáng)的可擴(kuò)展性和適應(yīng)性;(3)算法不再把事務(wù)作為基本單位,而是將事務(wù)中包含的所有數(shù)據(jù)項(xiàng)映射到時間軸上,以確定包含近期主要頻繁項(xiàng)集的范圍,從而自適應(yīng)調(diào)整挖掘窗口大小;且相較于經(jīng)典的eclat算法,文本算法具有更好的效率。附圖說明為了使本發(fā)明的目的、技術(shù)方案和有益效果更加清楚,本發(fā)明提供如下附圖進(jìn)行說明:圖1為傳統(tǒng)的滑動窗口模型頻繁項(xiàng)集挖掘分布圖;圖2為本發(fā)明數(shù)據(jù)項(xiàng)-時間軸映射圖;圖3為窗口數(shù)據(jù)樣本;圖4為外嵌時間窗口的坐標(biāo)軸;圖5為本發(fā)明流程圖。具體實(shí)施方式下面將結(jié)合附圖,對本發(fā)明的優(yōu)選實(shí)施例進(jìn)行詳細(xì)的描述。本發(fā)明的基本思想是:給定固定大小的外嵌時間窗口,用于篩選出近期數(shù)據(jù),然后使用價值評估模型,先對數(shù)據(jù)項(xiàng)進(jìn)行評估,然后確定包含近期主要的頻繁項(xiàng)集的范圍來自適應(yīng)地調(diào)整窗口長度。該算法可以篩選出更加有意義的頻繁項(xiàng)集。本發(fā)明的技術(shù)方案包括以下步驟:步驟一:數(shù)據(jù)項(xiàng)-時間軸映射在傳統(tǒng)的滑動窗口模型頻繁項(xiàng)集挖掘算法中,都是給定一個固定大小的滑動窗口,然后進(jìn)行頻繁項(xiàng)集挖掘,觀察挖掘結(jié)果,我們可以發(fā)現(xiàn),得到的頻繁項(xiàng)集呈現(xiàn)一定的分布,如圖1所示。在這個固定大小的窗口中,需要挖掘出包含的所有頻繁項(xiàng)集,但是流式數(shù)據(jù)具有時變性,因此近期的主要頻繁項(xiàng)集更令人感興趣,我們只需要確定包含了近期主要頻繁項(xiàng)集的窗口大小即可。然而,得到的頻繁項(xiàng)集有很多,也可能呈現(xiàn)相同的分布,因此我們無法準(zhǔn)確的確定近期的主要頻繁項(xiàng)集,由此,本發(fā)明提出一種數(shù)據(jù)-時間軸映射方法,將事務(wù)中的所有數(shù)據(jù)項(xiàng)映射到時間軸上,如圖2所示,橫軸表示在這個時間段,數(shù)據(jù)項(xiàng)出現(xiàn)在某個時間點(diǎn)上,豎軸表示每一個時間點(diǎn)對應(yīng)的事務(wù)。通過價值評估模型評估數(shù)據(jù)的留存因子,再通過公式計(jì)算窗口大小值,即可得到主要頻繁項(xiàng)集的期望窗口大小。步驟二:價值評估模型數(shù)據(jù)流中的數(shù)據(jù)是連續(xù)、無限的,過去的數(shù)據(jù)與當(dāng)前流入窗口的數(shù)據(jù)在整個窗口數(shù)據(jù)流中的地位是不一樣的,越接近當(dāng)前時間,越是需要關(guān)注的近期數(shù)據(jù)。因而,可以通過改變數(shù)據(jù)項(xiàng)的權(quán)重,來強(qiáng)化近期數(shù)據(jù)的作用。在數(shù)據(jù)流的挖掘過程中,算法對流中每個剛到達(dá)的數(shù)據(jù)項(xiàng)賦予權(quán)值為1,隨著時間的流逝而逐漸降低權(quán)重值,而權(quán)值的降低程度可通過一個與時間相關(guān)的濾波函數(shù)來近似描述。又因?yàn)閿?shù)據(jù)流是隨時間動態(tài)演化的,我們主要關(guān)注的是近期的主要頻繁項(xiàng)集,因此我們需要減少歷史頻繁項(xiàng)集對當(dāng)前頻繁項(xiàng)集的影響。因此,我們使用sigmod函數(shù)來降低歷史行為對當(dāng)前結(jié)果的影響,具體公式如下:其中,λ>0為一衰減常量,t0為建立函數(shù)中心點(diǎn)對應(yīng)的時間,t為當(dāng)前時間。假設(shè)給定的外嵌時間窗口的大小為n,令一個時間點(diǎn)對應(yīng)一個ti,那么外嵌時間窗口對應(yīng)的時間向量為:tsw=(t1,t2...ti...tn)又因?yàn)殡S著時間的流逝數(shù)據(jù)的權(quán)重會受到影響,根據(jù)sigmod函數(shù),每一個時間點(diǎn)ti對應(yīng)一個相應(yīng)的權(quán)重值s(ti-t0),因此,窗口對應(yīng)的權(quán)重向量為qsw=(s(t1-t0),s(t2-t0)...s(ti-t0)...s(tn-t0))(2)對于給定大小的外嵌時間窗口sw,將事務(wù)中所包含的所有數(shù)據(jù)項(xiàng)ii(i=1,2,…,n)全部映射到時間軸t上,每個時間點(diǎn)對應(yīng)的即為當(dāng)前時間點(diǎn)接收到的事務(wù),并建立對應(yīng)項(xiàng)的向量v_swi,如果ii在時間點(diǎn)j中出現(xiàn),則對應(yīng)的位置為1,否則為0。因此每一個數(shù)據(jù)項(xiàng)的留存因子即為在固定窗口內(nèi)的數(shù)據(jù)項(xiàng)向量和權(quán)重向量做點(diǎn)乘,表明數(shù)據(jù)項(xiàng)的重要性。ωi=v_swi·qsw(3)ωi作為衡量數(shù)據(jù)存留的因子,留存因子越大,那么此數(shù)據(jù)所占的時間長度對實(shí)際窗口大小的影響就越大。步驟三:內(nèi)嵌窗口計(jì)算以及頻繁項(xiàng)集挖掘?qū)τ诿恳粋€數(shù)據(jù)項(xiàng),都希望最后的挖掘窗口大小剛好包含到數(shù)據(jù)項(xiàng)出現(xiàn)的位置,而每一個數(shù)據(jù)項(xiàng)都有一個窗口期望值,因此應(yīng)當(dāng)盡可能的使挖掘窗口的大小等于數(shù)據(jù)出現(xiàn)的初始位置,即使|l-li|最小。綜合所有數(shù)據(jù)項(xiàng)的期望值,得出近期主要頻繁項(xiàng)集的窗口期望值,又因?yàn)槊恳粋€數(shù)據(jù)項(xiàng)的留存因子不一樣,對實(shí)際挖掘窗口大小的影響程度不一,因此可通過以下公式計(jì)算滿足所有數(shù)據(jù)項(xiàng)的實(shí)際挖掘窗口大小。公式如下:其中,n表示有n個數(shù)據(jù)項(xiàng);i和j表示對應(yīng)的第i個和第j個數(shù)據(jù)項(xiàng);ωi表示衡量數(shù)據(jù)存留的因子,留存因子越大,那么此數(shù)據(jù)所占的時間長度對實(shí)際窗口大小的影響就越大;li表示第i個數(shù)據(jù)項(xiàng)在當(dāng)前窗口中的起始位置距離現(xiàn)在位置的時間距離;l表示實(shí)際的窗口值大小。得到實(shí)際挖掘窗口之后,即可對數(shù)據(jù)進(jìn)行挖掘。在發(fā)明中,我們使用經(jīng)典的eclat算法。eclat是一種深度優(yōu)先的方法,用于挖掘在數(shù)據(jù)庫的垂直布局上運(yùn)行的靜態(tài)數(shù)據(jù)庫中的所有頻繁項(xiàng)集。它加入了倒排的思想,其算法思想是由頻繁k項(xiàng)集求交集,生成候選k+1項(xiàng)集。對候選k+1項(xiàng)集做裁剪,生成頻繁k+1項(xiàng)集,再求交集生成候選k+2項(xiàng)集。如此迭代,直到項(xiàng)集歸一。eclat算法初始階段必須掃描數(shù)據(jù)庫以獲得每一個數(shù)據(jù)項(xiàng)的時間序列表,然后通過計(jì)算其交集得到其支持度。在本發(fā)明中,在數(shù)據(jù)-時間軸映射階段已經(jīng)得到了所有數(shù)據(jù)項(xiàng)的向量表示,不必再次掃描。本發(fā)明的實(shí)施包含三個階段:數(shù)據(jù)-時間軸映射,價值評估模型,內(nèi)嵌窗口計(jì)算和頻繁項(xiàng)集挖掘。下面通過圖3的窗口數(shù)據(jù)樣本為例來對本發(fā)明進(jìn)行具體實(shí)施說明:根據(jù)圖5所示流程進(jìn)行說明。步驟一:數(shù)據(jù)-時間軸映射在本發(fā)明中,不再把事務(wù)作為基本單位,而是將事務(wù)中包含的所有數(shù)據(jù)項(xiàng)映射到時間軸上,確定包含近期主要頻繁項(xiàng)集的范圍,得出最后的挖掘窗口的大??;因此,首先應(yīng)當(dāng)將窗口中的數(shù)據(jù)全部映射到時間軸上,并使用向量表示數(shù)據(jù)項(xiàng)在時間點(diǎn)的出現(xiàn)與否,如果ii在時間點(diǎn)j中出現(xiàn),則對應(yīng)的位置為1,否則為0。根據(jù)實(shí)例數(shù)據(jù)得出各個數(shù)據(jù)項(xiàng)的向量表示如表1所示:表1數(shù)據(jù)項(xiàng)向量表示步驟二:價值評估模型得到每一個數(shù)據(jù)項(xiàng)的向量表示之后,需要結(jié)合權(quán)重向量,即公式(2),計(jì)算出每一個數(shù)據(jù)項(xiàng)的留存因子。在流式數(shù)據(jù)中,過去的歷史數(shù)據(jù)與當(dāng)前時間流入窗口的數(shù)據(jù)在整個窗口數(shù)據(jù)流中的地位是不一樣的,越接近當(dāng)前時間,越是需要關(guān)注的近期數(shù)據(jù)。因此,我們通過公式(1)給時間窗口賦予不同的權(quán)重值。首先,建立外嵌時間窗口的坐標(biāo)軸,如圖4所示。將不同的時間t代入衰減函數(shù),得到時間對應(yīng)的權(quán)重值,即可獲得當(dāng)前時間窗口對應(yīng)的權(quán)重向量q:q(0.007,0.018,0.047,0.119,0.269,0.5,0.73,0.88,0.953,0.982,0.993,0.997)通過公式(3),根據(jù)數(shù)據(jù)項(xiàng)的向量表示和當(dāng)前窗口對應(yīng)的權(quán)重向量計(jì)算出各個數(shù)據(jù)項(xiàng)的存留因子,計(jì)算結(jié)果如表2所示,數(shù)據(jù)項(xiàng)的留存因子越大,其所對應(yīng)的數(shù)據(jù)項(xiàng)所占的時間長度對實(shí)際窗口大小的影響就越大。表2數(shù)據(jù)項(xiàng)留存因子留存因子ωaωbωcωdωeωfωg值6.4230.1910.1915.4732.9724.5051.181步驟三:內(nèi)嵌窗口計(jì)算以及頻繁項(xiàng)集挖掘綜合考慮所有的數(shù)據(jù)項(xiàng),即可得到近期主要頻繁項(xiàng)集的最佳窗口值大小。通過下面的公式計(jì)算出內(nèi)嵌窗口的大?。和ㄟ^上述計(jì)算l的最終值為10,得到實(shí)際的挖掘窗口之后,使用eclat算法挖掘頻繁模式集合,并將結(jié)果保存在名為fpset的集合中。該集合用于在數(shù)據(jù)流挖掘期間維護(hù)頻繁的模式。在該算法中,我們不再需要掃描一次數(shù)據(jù)庫來得到每一個數(shù)據(jù)項(xiàng)的時間序列表,因?yàn)槲覀円呀?jīng)使用向量來表示每一個數(shù)據(jù)項(xiàng),通過計(jì)算項(xiàng)的向量的交集就可以得到項(xiàng)集的支持,不需要再對數(shù)據(jù)進(jìn)行一次處理。在sw中,假定從流中收到事務(wù),通過插入新事務(wù)并從窗口中刪除最舊的事務(wù),窗口向前滑動。在獲取新到來的事務(wù)時,由于效率問題,插入和刪除的單位是批處理或窗格。批處理或窗格包含固定時間段的事務(wù)。當(dāng)新的事務(wù)到來時,將新的事務(wù)放入p窗口中,當(dāng)p滿時,則更新sw窗口,把sw中最先接收到的窗口丟棄,將新p中的事務(wù)放入sw的末尾,重復(fù)挖掘過程。具體的算法描述如下所示:算法nwfi-stream(psize,outersize,ms)輸入:數(shù)據(jù)流ds,窗格大小psize,外嵌時間窗口大小outersize,最小支持度ms輸出:近期頻繁項(xiàng)集前綴樹fpsetw=windowinit(outersize);//外嵌窗口初始化p=panelinit(psize);//窗格初始化forever//處理過程無限循環(huán)itemvector=inititemvector(data)//將外嵌窗口中的數(shù)據(jù)項(xiàng)映射到時間軸上,并用向量表示wfactor=initweightfactor()//初始化權(quán)重因子rfactor=initretentionfactor(itemvector,wfactor)//計(jì)算每個數(shù)據(jù)項(xiàng)的留存因子l=initl()//得到所有數(shù)據(jù)項(xiàng)的實(shí)際lreall=initreall(l,rfactor)//通過l和留存因子計(jì)算出實(shí)際的挖掘窗口大小realdata=sub(data,reall)//截取真正長度的數(shù)據(jù)fpset=eclat(realdata,ms)//調(diào)用算法處理數(shù)據(jù)并使用前綴樹來存儲n=1;whilen<=psizep.adddata(t)//讀取新的數(shù)據(jù)n=n+1endwhileupdate(w,p)//更新挖掘數(shù)據(jù)endfor最后說明的是,以上優(yōu)選實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非限制,盡管通過上述優(yōu)選實(shí)施例已經(jīng)對本發(fā)明進(jìn)行了詳細(xì)的描述,但本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,可以在形式上和細(xì)節(jié)上對其作出各種各樣的改變,而不偏離本發(fā)明權(quán)利要求書所限定的范圍。當(dāng)前第1頁12
      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1