国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種挖掘時(shí)序相關(guān)事件之間的距離的方法

      文檔序號(hào):9524215閱讀:345來(lái)源:國(guó)知局
      一種挖掘時(shí)序相關(guān)事件之間的距離的方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及一種數(shù)據(jù)挖掘領(lǐng)域中挖掘時(shí)序相關(guān)事件之間的距離的算法,特別是針 對(duì)距離大小不確定的情況下可采用的挖掘方法。
      【背景技術(shù)】
      [0002] 時(shí)序數(shù)據(jù)普遍出現(xiàn)在商業(yè)、系統(tǒng)管理、醫(yī)療保健和許多科學(xué)領(lǐng)域。時(shí)間數(shù)據(jù)挖掘中 的一個(gè)根本的問(wèn)題是在順序數(shù)據(jù)中發(fā)現(xiàn)隱藏的時(shí)序相關(guān)事件。在時(shí)間數(shù)據(jù)挖掘中,輸入的 數(shù)據(jù)通常是一個(gè)序列的帶有時(shí)間戳的離散對(duì)象。時(shí)序相關(guān)事件通常被用于預(yù)測(cè),相關(guān)的時(shí) 間間隔表明了時(shí)序依賴的原因。
      [0003] 現(xiàn)有技術(shù)方法,并未考慮交叉相關(guān)性。傳統(tǒng)的時(shí)序挖掘方法使用一個(gè)預(yù)定義的時(shí) 間窗口分析對(duì)象序列,或采用統(tǒng)計(jì)技術(shù)從對(duì)象中簡(jiǎn)單地推導(dǎo)出時(shí)序相關(guān)事件。送種模式不 能有效地處理有著特殊屬性的不同數(shù)據(jù)。
      [0004] 因此,如何在兩個(gè)相關(guān)類型的對(duì)象中找到合理的時(shí)間間隔非常重要,相關(guān)算法的 研究和性能分析具有重要意義。

      【發(fā)明內(nèi)容】

      [0005] 本發(fā)明的目的在于針對(duì)現(xiàn)有方法的不足,提供一種挖掘時(shí)序相關(guān)事件之間的距離 的方法,該算法能夠高效地發(fā)現(xiàn)時(shí)序相關(guān)事件之間的距離,提供一個(gè)解決問(wèn)題的廣義框架。
      [0006] 本發(fā)明的技術(shù)方案是;一種挖掘時(shí)序相關(guān)事件之間的距離的方法,其特征在于步 驟如下: 1) 構(gòu)造一個(gè)排序表作為基礎(chǔ),此排序表是包含一系列有序整數(shù)數(shù)組的有序鏈表; 2) 把一個(gè)時(shí)間間隔 (61?? 一轉(zhuǎn)知:!存儲(chǔ)到排序表的一個(gè)結(jié)點(diǎn)中,其中輪二涕,聲;二潛,i和J是1到N之 間的一個(gè)整數(shù); 3) 在結(jié)點(diǎn)-成切上連接兩個(gè)數(shù)組,兩個(gè)數(shù)組分別是是i和J的集合,即A和B的指數(shù); 4) 記羈;為鏈表的第i個(gè)結(jié)點(diǎn),在羈;中存儲(chǔ)時(shí)間間隔記為#賴註; 5) 在鏈表上選取子段表示時(shí)序相關(guān)事件之間的距離,任何合理的距離都可W表示為一 個(gè)鏈表的子段。
      [0007] 進(jìn)一步地,步驟5中所述的子段,記為時(shí)間間隔
      ,時(shí)間間隔的長(zhǎng)度是

      是不依賴于N的,其中W是數(shù)據(jù)序列中對(duì)象的個(gè)數(shù)。
      [000引進(jìn)一步地,通過(guò)合并A的所有時(shí)間間隔來(lái)進(jìn)行創(chuàng)建一個(gè)排序表的鏈表,其中和 彎代表著第i個(gè)A和第J個(gè)B,i談奮;:主混,",聲鏈的第J個(gè)結(jié)點(diǎn)存儲(chǔ)著寬|璋| -史||||。
      [0009] 本發(fā)明的有益效果在于: 本發(fā)明提出的兩種算法顏藻燃施和魏簽色攝澈可W在兩個(gè)相關(guān)類型的對(duì)象中找到合理 的時(shí)間間隔,可W有效地處理有著特殊屬性的不同數(shù)據(jù),且具有有效性和高效率。
      【附圖說(shuō)明】
      [0010] 圖1是本發(fā)明所使用的分類表。
      [0011] 圖2是本發(fā)明的胃帛緝游薦:法的偽代碼。
      [0012] 圖3是增量排序表。
      [0013] 圖4是嵌入的時(shí)序相關(guān)事件列表。
      [0014] 圖5是構(gòu)造數(shù)據(jù)上的運(yùn)行時(shí)間。
      [0015] 圖6是發(fā)現(xiàn)的帶有時(shí)間間隔的時(shí)序相關(guān)事件。
      [0016] 圖7是數(shù)據(jù)集Account2上的實(shí)驗(yàn)結(jié)果圖。
      [0017] 圖8是數(shù)據(jù)集Account2上算法的時(shí)間復(fù)雜度。
      【具體實(shí)施方式】
      [0018] 下面將結(jié)合實(shí)施例對(duì)本發(fā)明作進(jìn)一步地描述。 實(shí)施例
      [001引使用如圖1分類表的時(shí)間間隔發(fā)現(xiàn)算法一ST說(shuō)算法,ffffp算法的偽代碼 如圖2所示,記虹w算法的偽代碼描述了如何尋找所有合格的時(shí)間間隔。醇gig表示的是 有序表ST中鏈表的結(jié)點(diǎn)數(shù)量。算法順序掃描所有字段義;.礙但只掃 描長(zhǎng)度畫(huà)換,閨線轉(zhuǎn)的子段。
      [0020] 錢(qián);Ip自常法的時(shí)間復(fù)雜度為稱;11:?,其中yV是數(shù)據(jù)序列中對(duì)象的個(gè)數(shù)。對(duì)于 每個(gè)鏈表上的對(duì)象。,使用哈希表把編與緩^+;和并到獻(xiàn),和攘,慚時(shí)間成本分別是 |Mw|和I.巧巧I。記為從穩(wěn)開(kāi)始掃描的子段的最大長(zhǎng)度記:為!S,?;: 一I: 觸錄魯: 的最大長(zhǎng)值,總的時(shí)間成本為:

      是所有整數(shù)數(shù)組中正整數(shù)的個(gè)數(shù)。對(duì)于 一個(gè)給定的有Ν個(gè)對(duì)象的序列S,其分類表的空間復(fù)雜度是,則
      記累括;義媽巧:: 為一個(gè)合理的時(shí)間間隔的子段,> 0j=掃,...,Κ時(shí)間間隔的長(zhǎng)度是
      并且^^^是不依賴于N的。 假設(shè)^店
      的平均值,我們得到一個(gè) 的嚴(yán)格約束,也就是,
      因此,總的時(shí)間復(fù)雜度是
      [0021] 一個(gè)完整的分類表的空間開(kāi)銷是0(如^)。算法象東顯凌捷從:?到變順序 掃描子段,所W它不需要每次都訪問(wèn)每一個(gè)項(xiàng)目。基于送一觀察,在類驟賴I旅算法的基礎(chǔ) 上,為了降低其空間復(fù)雜度,利用增量分類表和序列壓縮進(jìn)一步提出了一種改進(jìn)的算法 STScGjf 如圖3所示,一個(gè)排序表的鏈表可W通過(guò)合并A的所有時(shí)間間隔來(lái)進(jìn)行創(chuàng)建,其中誘i和霉代表著第i個(gè)A和第j個(gè)B,蛛詳謡識(shí)辦的第j個(gè)結(jié)點(diǎn)存儲(chǔ)著讀嚇一;嚷|| 。因?yàn)槲覀冎恍枰纜|||和||^|,所WA的所有時(shí)間間隔列表并不需要被創(chuàng)建在內(nèi)存 中。送可W通過(guò)分別使用A和B的指數(shù)陣列來(lái)完成。利用多路歸并算法,鏈表的每一個(gè)結(jié) 點(diǎn)都可W被順序創(chuàng)建。在合并過(guò)程中,A和B的指數(shù)同樣會(huì)被記錄在結(jié)點(diǎn)中。一個(gè)合格的 時(shí)間間隔的長(zhǎng)度多為,因此,我們只需注意接近^群轅的結(jié)點(diǎn)。錯(cuò)點(diǎn)的存儲(chǔ)空間 復(fù)雜度多為琢媒胃:減綠錢(qián)強(qiáng)。合并過(guò)程中使用的堆的空間復(fù)雜度為礙I贊。增量排 序表的總空間復(fù)雜度為爲(wèi)。把録^胃3個(gè)元素合并到孩PI個(gè)鏈表的總時(shí)間復(fù)雜度仍為 採(cǎi)if凌礙蘇::幾I:。
      [0022] 在許多實(shí)際應(yīng)用中,有些對(duì)象可能共享相同的時(shí)間戳,因?yàn)樗麄兪窃谕粋€(gè)采樣 周期內(nèi)采樣的。為了降低時(shí)間復(fù)雜度,我們將序列S壓縮成的一個(gè)緊湊的序列的S'。對(duì)于 序列S中的每一個(gè)時(shí)間戳t,如果有k個(gè)I型對(duì)象,就在序列S'中添加一個(gè)S元組級(jí);&聚), 其中k是Η元組的基數(shù)。為了處理S',本發(fā)明的算法只需要分別針對(duì)|爲(wèi);^:和F%.把和 |:至%1設(shè)為Η元組的基數(shù)。易知,s'比S更緊湊。s'有遂個(gè)Η元組,其中η是序列S中 不同時(shí)間戳的數(shù)量,揉濾藏。創(chuàng)造的S'的時(shí)間復(fù)雜度為録ΡΙ,通過(guò)使用的S',潑送綺線Κ 的時(shí)間復(fù)雜度為餐I濃爭(zhēng)嫉城賓?。簗,增量排序表的空間復(fù)雜度為鶴誘>
      [0023] 合成數(shù)據(jù)包含7個(gè)數(shù)據(jù)序列,每個(gè)數(shù)據(jù)序列是先是一個(gè)包含8種對(duì)象類型的隨機(jī) 生成的項(xiàng)目序列,簡(jiǎn)記為/.1,、、., ./g,對(duì)象的平均樣本期為100。如圖4所示,Η個(gè)預(yù)定義的時(shí) 序相關(guān)事件被隨機(jī)嵌入到每個(gè)隨機(jī)序列中。對(duì)于每一個(gè)時(shí)序相關(guān)事件暫,我們首 先隨機(jī)選擇一個(gè)對(duì)象滾^和一個(gè)整數(shù)|;復(fù)i輸違I],然后讓菜&二:義,記為在笨藻去:悉上的 對(duì)象。我們重復(fù)送一過(guò)程直到和支持度大于指定的闊值,其中,送些時(shí)間間隔大于對(duì) 象的平均采樣周期,所W送Η個(gè)時(shí)序相關(guān)事件很可能有交叉相關(guān)性。
      [0024] 1.有效性 通過(guò)對(duì)比發(fā)現(xiàn)結(jié)果和嵌入式時(shí)間間隔的結(jié)果,驗(yàn)證了該算法的有效性。不需要要求精 度,因?yàn)橹灰惴ㄕ_,每個(gè)算法都可W達(dá)到100%的精度。取秦f桌速猿竊柔,送代表著99. 9 %的置信水平,繊嫌城P知獲柔。瑟鱗鷄說(shuō)算法和玄驟撫張算法都能找到所有嵌入的時(shí)間 間隔。因此,本發(fā)明算法的發(fā)現(xiàn)率為1.0。
      [00巧]2.效率 如圖5所示,使用CPU運(yùn)行時(shí)間評(píng)估效率,在如圖6所示的兩個(gè)數(shù)據(jù)集上進(jìn)行試驗(yàn),圖 7為實(shí)驗(yàn)結(jié)果的直觀表示圖。作為對(duì)比的銳籍耗鑽舞織I算法是一種線性算法,所W它比其 他算法快得多;記-./'or。?算法的運(yùn)行時(shí)間增大得非???,它只能處理很小的數(shù)據(jù)集; 通過(guò)加入關(guān)于駭繼I;剪枝策略,擬病敏算法比燃1播範(fàn).f蜘蜘.算法快一點(diǎn),但它仍 然只能處理小數(shù)據(jù)集。凝纖!綜紙算法在發(fā)現(xiàn)時(shí)間間隔前壓縮序列,因此,凝纖!綜紙算法比 塞1?蟲(chóng)款算法效率更高一點(diǎn)。
      [0026] 57'5'郎;巧算法未能在更大的數(shù)據(jù)集上成功測(cè)試,因?yàn)樗鼘?dǎo)致了內(nèi)存溢出。圖8 列出了在化va堆內(nèi)存分配對(duì)象的近似的峰值(不包括數(shù)據(jù)序列)。送證實(shí)了分類表需要 好(興2 )的空間復(fù)雜度。它也表明,襲聚霸挺紙、孩織総-齊綠接.、換識(shí)龍?zhí)赘`線挨*的空間復(fù)雜 度都為轅β:。假設(shè)每個(gè)·?3ν3對(duì)象只占一個(gè)整數(shù)(8字節(jié)),然潔自每鼓將為:S戳滅逢獲3個(gè)對(duì)象 花費(fèi)超過(guò)10G字節(jié)內(nèi)存。因此,它在數(shù)據(jù)增多時(shí)造成了內(nèi)存溢出。然而,通過(guò)使用增量分類 表,對(duì)相同的數(shù)據(jù)集,鐵難每漱僅需要10Μ的空間。
      【主權(quán)項(xiàng)】
      1. 一種挖掘時(shí)序相關(guān)事件之間的距離的方法,其特征在于步驟如下: 1) 構(gòu)造一個(gè)排序表作為基礎(chǔ),此排序表是包含一系列有序整數(shù)數(shù)組的有序鏈表; 2) 把一個(gè)時(shí)間間隔::存儲(chǔ)到排序表的一個(gè)結(jié)點(diǎn)中,其中i和J是1到N之 間的一個(gè)整數(shù); 3) 在結(jié)點(diǎn)上連接兩個(gè)數(shù)組,兩個(gè)數(shù)組分別是是i和J的集合,即A和B 的指數(shù); 4) 記_為鏈表的第i個(gè)結(jié)點(diǎn),在_中存儲(chǔ)時(shí)間間隔記為; 5) 在鏈表上選取子段表示時(shí)序相關(guān)事件之間的距離,任何合理的距離都可以表示為一 個(gè)鏈表的子段。2. 根據(jù)權(quán)利要求1所述的一種挖掘時(shí)序相關(guān)事件之間的距離的方法,其特征在于:步 驟5中所述的子段,記為,時(shí)間間隔,時(shí)間間隔的長(zhǎng)度 是:是不依賴于Ν的, 其中#是數(shù)據(jù)序列中對(duì)象的個(gè)數(shù)。3. 根據(jù)權(quán)利要求1所述的一種挖掘時(shí)序相關(guān)事件之間的距離的方法,其特征在于:通 過(guò)合并Α的所有時(shí)間間隔來(lái)進(jìn)行創(chuàng)建一個(gè)排序表的鏈表,其中_丨和參|代表著第i個(gè)Α和第鏈的第J個(gè)結(jié)點(diǎn)存儲(chǔ)著
      【專利摘要】本發(fā)明公開(kāi)了一種挖掘時(shí)序相關(guān)事件之間的距離的方法,其包括步驟如下:1)構(gòu)造一個(gè)排序表作為基礎(chǔ),此排序表是包含一系列有序整數(shù)數(shù)組的有序鏈表;2)把一個(gè)時(shí)間間隔存儲(chǔ)到排序表的一個(gè)結(jié)點(diǎn)中,其中,,<i>i</i>和<i>j</i>是1到N之間的一個(gè)整數(shù);3)在結(jié)點(diǎn)上連接兩個(gè)數(shù)組,兩個(gè)數(shù)組分別是是<i>i</i>和<i>j</i>的集合,即A和B的指數(shù);4)記為鏈表的第<i>i</i>個(gè)結(jié)點(diǎn),在中存儲(chǔ)時(shí)間間隔記為;5)在鏈表上選取子段表示時(shí)序相關(guān)事件之間的距離,任何合理的距離都可以表示為一個(gè)鏈表的子段。本發(fā)明提出的兩種算法和可以在兩個(gè)相關(guān)類型的對(duì)象中找到合理的時(shí)間間隔,可以有效地處理有著特殊屬性的不同數(shù)據(jù),且具有有效性和高效率。
      【IPC分類】G06F17/30
      【公開(kāi)號(hào)】CN105279179
      【申請(qǐng)?zhí)枴緾N201410317992
      【發(fā)明人】李濤, 李千目, 朱凌峰, 徐建, 侯君, 倪震, 劉曉遷
      【申請(qǐng)人】南京理工大學(xué)常熟研究院有限公司
      【公開(kāi)日】2016年1月27日
      【申請(qǐng)日】2014年7月7日
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1