国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘所用的采樣方法

      文檔序號:6426715閱讀:482來源:國知局
      專利名稱:關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘所用的采樣方法
      技術(shù)領(lǐng)域
      一般說來,本發(fā)明涉及一種方法、系統(tǒng)和程序產(chǎn)品,用于揭示大數(shù)據(jù)庫中項(xiàng)目之間的關(guān)系即關(guān)聯(lián)規(guī)則。
      背景技術(shù)
      數(shù)據(jù)挖掘是一個(gè)新興的技術(shù)領(lǐng)域,其目的是從大數(shù)據(jù)庫中提取重要的模式即引起關(guān)注的規(guī)則;一般說來,數(shù)據(jù)挖掘的領(lǐng)域包括可應(yīng)用于從大量的現(xiàn)有數(shù)據(jù)中提取“知識”的所有方法。整個(gè)過程稱為數(shù)據(jù)庫中的知識探索。在研究數(shù)據(jù)挖掘方法所要完成的任務(wù)中,尋找關(guān)聯(lián)規(guī)則只是其中之一。
      關(guān)聯(lián)規(guī)則挖掘已經(jīng)由Agrawal等人引入(參見例如R.Agrawal andR.Srikant,F(xiàn)ast algorithms for mining association rules,in Proc.20thVLDB Conf.,Sept.1994.),并且受到購貨籃分析的促進(jìn)。為了發(fā)現(xiàn)商店中哪些物品或者說貨物是一起購買,產(chǎn)生了若干規(guī)則。更為一般地說,關(guān)聯(lián)規(guī)則能夠用于在數(shù)據(jù)庫中若干記錄的屬性值之間發(fā)現(xiàn)依賴性。即使更具體的購貨籃數(shù)據(jù),對每個(gè)顧客通常也包括交易數(shù)據(jù)以及該顧客購買之貨物的一個(gè)記錄。在這樣一個(gè)數(shù)據(jù)庫中關(guān)聯(lián)規(guī)則的一個(gè)實(shí)例,是買面包和牛奶的顧客中可能有80%也買雞蛋。尋找關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘任務(wù)可以分解為兩個(gè)步驟。第一個(gè)步驟包括尋找項(xiàng)目的所有集合,稱之為項(xiàng)集,它們在數(shù)據(jù)庫中以用戶指定的一定頻度出現(xiàn),該頻度稱為最小支持。此類項(xiàng)集稱為大項(xiàng)集。包含k個(gè)項(xiàng)目的項(xiàng)集稱為k項(xiàng)集。第二個(gè)步驟包括在第一個(gè)步驟中找到的大項(xiàng)集之間形成隱含規(guī)則。
      為了高效地產(chǎn)生關(guān)聯(lián)規(guī)則,已經(jīng)研究了幾種算法。例如在上述文檔中,Agrawal等人已經(jīng)公開了眾所周知的和非常成功的APRIORI(演繹)算法。衡量關(guān)聯(lián)規(guī)則最重要的數(shù)值是支持值,它是在一種規(guī)則中,一個(gè)項(xiàng)目或者幾個(gè)項(xiàng)目一起出現(xiàn)的相對頻度。
      目前在數(shù)據(jù)庫非常大(條目數(shù)目為幾百萬記錄及以上)的情況下,產(chǎn)生關(guān)聯(lián)規(guī)則可能是極為耗時(shí)的。對于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘提出的許多算法,一遍又一遍地搜索數(shù)據(jù)庫以便確定共同出現(xiàn)的項(xiàng)集(即項(xiàng)目的集合)。對于大數(shù)據(jù)庫,掃描數(shù)據(jù)庫時(shí)的I/O開銷可能極高。這種處理時(shí)間不僅僅是執(zhí)行挖掘算法本身所需要。在預(yù)處理步驟期間也會耗用大量的時(shí)間。這包括數(shù)據(jù)輸入所用的處理時(shí)間,也包括為了應(yīng)用該算法而進(jìn)行數(shù)據(jù)變換所用的處理時(shí)間。即使在大的MVS系統(tǒng)的情況下,這種準(zhǔn)備也可能要花費(fèi)幾小時(shí)的寶貴CPU時(shí)間。
      為了改善這種性能因素,已經(jīng)建議不是對整個(gè)數(shù)據(jù)庫來產(chǎn)生關(guān)聯(lián)規(guī)則,而是抽取一個(gè)樣本并以它為基礎(chǔ)來產(chǎn)生關(guān)聯(lián)規(guī)則。H.Toivonen,Sampling Large Database for Association Rules,Proceedings of the 22ndVLDB Conference Mumbai(Bombay),India以及Zaki,M.J.,Parthasarathy,S.,Li,W.,Ogihara,M.,Evaluation of Sampling for DataMining of Association Rules,Computer Science Department,TechnicalReport 617,University of Rochester(1996)兩篇文章中,已經(jīng)引入了這種思路。
      Toivonen等人論述了一種算法,用于探索“嚴(yán)格的”(不基于某個(gè)樣本的)關(guān)聯(lián)規(guī)則。按照這種思路,采樣僅僅是用于規(guī)則支持值的預(yù)計(jì)算,它作為算法的一個(gè)步驟;對于根據(jù)某個(gè)樣本獲得“估計(jì)的”(近似的)關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘思路,Toivonen等人保持完全沉默。Toivonen等人也公開了樣本規(guī)模的必要界限。使用一種單變量方法,已經(jīng)估計(jì)出任意關(guān)聯(lián)規(guī)則的支持值。通過使用二項(xiàng)式分布和應(yīng)用Chernoff約束,Toivonen等人計(jì)算了真支持值和估計(jì)的支持值之間的誤差超過一個(gè)給定閾值的概率。利用這項(xiàng)成果他們導(dǎo)出了一個(gè)公式,用于計(jì)算充分樣本的規(guī)模。
      Zaki等人發(fā)展了這種思路,發(fā)表了在采樣條件下產(chǎn)生近似關(guān)聯(lián)規(guī)則的這些約束。使用Toivonen建議的單變量方法,包括Chernoff約束,也計(jì)算了這些約束。這些研究表明這些約束的效率不很高,因?yàn)樗璧臉颖疽?guī)??赡芊浅>薮蟆H鏩aki等人所示,所需的樣本規(guī)模可能變得甚至比原始數(shù)據(jù)庫還大(!)。因此當(dāng)前的技術(shù)思路完全不能令人滿意,實(shí)際上不能應(yīng)用于真實(shí)世界的問題。
      所以從原理上來說,基于樣本的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的方法,既可以在預(yù)處理步驟中節(jié)省處理時(shí)間,也可以在分析階段節(jié)省時(shí)間。但是出現(xiàn)的基本問題是產(chǎn)生的關(guān)聯(lián)規(guī)則的準(zhǔn)確性。如果適當(dāng)?shù)剡x擇了樣本,就有可能估計(jì)這種方法帶來的誤差。通過計(jì)算足夠大的樣本規(guī)模,能夠控制這種誤差。但是目前完全不清楚如何確定合理的樣本規(guī)模。

      發(fā)明內(nèi)容
      本發(fā)明基于改善關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘所用技術(shù)性能的目的。
      本發(fā)明的目的由獨(dú)立的權(quán)利要求書實(shí)現(xiàn)。本發(fā)明更優(yōu)越的安排和實(shí)施例在各自的從屬權(quán)利要求中闡述。
      本發(fā)明涉及一種數(shù)據(jù)挖掘技術(shù),用于在眾多的N種事務(wù)——每種事務(wù)包括多至p種不同的項(xiàng)目——之內(nèi)確定關(guān)聯(lián)規(guī)則。
      依據(jù)本發(fā)明,在眾多的N種事務(wù)中,根據(jù)精度需求確定一個(gè)樣本規(guī)模n。選擇樣本規(guī)模n時(shí),使它至少處于一種估計(jì)樣本規(guī)模n*的量級上。
      最后,在眾多的N種事務(wù)中,根據(jù)樣本規(guī)模為n的一個(gè)樣本,按照關(guān)聯(lián)規(guī)則挖掘所用的任何整套方法,使用關(guān)聯(lián)規(guī)則作為眾多的N種事務(wù)的估計(jì)關(guān)聯(lián)規(guī)則,計(jì)算關(guān)聯(lián)規(guī)則。
      在本發(fā)明的所有實(shí)施例中,潛在的重要概念是以下觀測結(jié)果如果在樣本規(guī)模確定中引入了體現(xiàn)眾多事務(wù)特征的更多參數(shù),就能夠確定小得多的樣本規(guī)模,同時(shí)滿足所需的精度需求。這與現(xiàn)有技術(shù)知識(例如參考上述的Chernoff約束)恰恰相反,在現(xiàn)有技術(shù)中不使用眾多事務(wù)的性質(zhì)。作為這些特征性質(zhì),本發(fā)明建議使用事務(wù)數(shù)目的規(guī)模N或者事務(wù)之內(nèi)出現(xiàn)之不同項(xiàng)目的數(shù)目p。當(dāng)然,一旦確定了包括這些特征性質(zhì)的樣本規(guī)模計(jì)算公式,還可以應(yīng)用附加的近似技術(shù)來再次去除這些特征性質(zhì)。即使是基于這些附加近似的樣本規(guī)模,比起所有的現(xiàn)有技術(shù)的估計(jì)也有顯著的改善。
      正如若干實(shí)例所示,依據(jù)本發(fā)明確定的樣本規(guī)模比原始的事務(wù)數(shù)目要小得多,比已知的現(xiàn)有技術(shù)方法要小得多。所以,對于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘,本發(fā)明會非常顯著地改善性能。
      附圖簡要說明

      圖1顯示了p=2時(shí)置信橢圓的一個(gè)實(shí)例;圖2顯示了p=3時(shí)置信橢球的一個(gè)實(shí)例;圖3顯示了一幅處理流程圖,用于多變量情況下關(guān)聯(lián)規(guī)則的采樣。這個(gè)處理流程也可以同樣應(yīng)用于單變量模型而不會有任何另外的問題;圖4顯示了一個(gè)分布式處理模型,用于關(guān)聯(lián)規(guī)則的挖掘。
      具體實(shí)施例方式
      在附圖和說明中闡述了本發(fā)明的一個(gè)優(yōu)選實(shí)施例,雖然使用了特定的術(shù)語,但是在此給出的說明僅僅是以通用的和說明性的意義下使用術(shù)語,而不是為了限制的目的。不過顯而易見,可以作出多種修改和改變,而不脫離本發(fā)明的廣義實(shí)質(zhì)和范圍,如同在附帶的權(quán)利要求書中的闡述。
      在硬件、軟件或者硬件和軟件的結(jié)合中都能夠?qū)崿F(xiàn)本發(fā)明。任何種類的計(jì)算機(jī)系統(tǒng)——或者適于實(shí)現(xiàn)本文介紹之方法的其它裝置——都適用。硬件和軟件的一種典型結(jié)合可以是帶有一個(gè)計(jì)算機(jī)程序的一種通用計(jì)算機(jī)系統(tǒng),該程序在加載和執(zhí)行時(shí),控制該計(jì)算機(jī)系統(tǒng)使之實(shí)現(xiàn)本文介紹的方法。本發(fā)明也能夠嵌入到一種計(jì)算機(jī)程序產(chǎn)品中,它包括使本文介紹的方法能夠?qū)嵤┑乃刑匦?,而且?dāng)它加載到一個(gè)計(jì)算機(jī)系統(tǒng)中時(shí),能夠?qū)崿F(xiàn)這些方法。
      計(jì)算機(jī)程序意味著或者說計(jì)算機(jī)程序在目前的上下文中意味著以任何語言、代碼或記號寫成的任何表達(dá)式,形成一組指令,意圖使具有信息處理能力的一個(gè)系統(tǒng)執(zhí)行一種具體的功能,或者是直接執(zhí)行,或者是執(zhí)行之前經(jīng)過以下兩個(gè)步驟或其中之一a)轉(zhuǎn)換為另一種語言、代碼或記號;b)以一種不同的材料形式再現(xiàn)。
      在目前的說明書之內(nèi),一個(gè)事務(wù)記錄,或者簡言之事務(wù),僅僅指項(xiàng)目的一個(gè)元組;當(dāng)然不需要這樣一個(gè)記錄已經(jīng)成為任何計(jì)算機(jī)事務(wù)的一部分。使用事務(wù)記錄這個(gè)詞僅僅是由于歷史的原因。除此以外,一個(gè)項(xiàng)目也可以表示任何類型的屬性,而不必與真實(shí)世界中的一個(gè)物品相關(guān)。
      一、引言在數(shù)據(jù)挖掘領(lǐng)域中,所謂的關(guān)聯(lián)規(guī)則是一整套方法,為了從通常很大的數(shù)據(jù)集內(nèi)確定未知的關(guān)系或者說規(guī)則。這套方法包括以下的過程。指定所謂項(xiàng)目的一個(gè)集合。這些項(xiàng)目可以從超級市場購貨籃數(shù)據(jù)中購買。項(xiàng)目這個(gè)集合的子集是所謂的事務(wù),例如啤酒和薯片作為一種事務(wù),而另一種事務(wù)可能包括面包和黃油。項(xiàng)目的集合往往也成為項(xiàng)集。所以每一種事務(wù)包含一個(gè)項(xiàng)集。
      更正式地說,在購貨籃數(shù)據(jù)——它有眾多的N種事務(wù)——中,挖掘關(guān)聯(lián)規(guī)則的問題可以闡述如下。
      令I(lǐng)=(i1,i2,...,ip)為具有p個(gè)截然不同的屬性值也稱為項(xiàng)目的一個(gè)集合。事務(wù)數(shù)據(jù)庫D(它有眾多的N種事務(wù))中的每種事務(wù)T,都具有惟一的標(biāo)識符TID,并且包含著一個(gè)項(xiàng)目集合,比如TI。一種關(guān)聯(lián)規(guī)則是一個(gè)表達(dá)式A=>B,其中項(xiàng)集A∶BI,而且A∩B=φ。對于每個(gè)項(xiàng)集,如果D中s%的事務(wù)包含該項(xiàng)集,就說它具有s支持(因此,支持衡量表示相對頻度)。如果包含A的事務(wù)中有c%也包含B,就說該關(guān)聯(lián)規(guī)則具有置信度c,換言之,c=支持(A∪B)/支持(A),即在若干事務(wù)包含項(xiàng)集A的情況下,又包含項(xiàng)集B的條件概率。例如,在購買面包和牛奶的顧客中,可能有80%也購買雞蛋。數(shù)字80%就是該規(guī)則的置信度,該規(guī)則的支持為支持(A∪B)。從此類數(shù)據(jù)庫中進(jìn)行關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘,包括發(fā)現(xiàn)所有此類規(guī)則的集合,條件是它們滿足用戶指定的最小置信度和支持值。
      探索關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘任務(wù)可以分解為以下兩個(gè)步驟1.對于k=1;2;...;發(fā)現(xiàn)所有大的k項(xiàng)集。
      2.根據(jù)這些大的項(xiàng)集產(chǎn)生規(guī)則。假設(shè)X是一個(gè)大的項(xiàng)集,對于每一個(gè)非空子集AX,產(chǎn)生一種形式為A=>B的規(guī)則,其中B=X-A,而且這種規(guī)則具有所需的置信度。
      注意,基于所關(guān)注之所有事務(wù)的集合,確定上述的所有衡量值。
      為了改善性能,此時(shí)我們可以考慮從所有事務(wù)的集合中,恰當(dāng)?shù)剡x擇一個(gè)樣本,并且估計(jì)這些所需的衡量值。在采樣理論的語言中,所有事務(wù)的集合會對應(yīng)于總體,其性質(zhì)(即相對頻度和其它衡量值)應(yīng)當(dāng)由恰當(dāng)選擇的樣本進(jìn)行估計(jì)。限于這個(gè)樣本,我們可以計(jì)算所需事件的相對頻度,作為總體上這些事件相對頻度的估計(jì)量。
      因此我們必須解決以下問題1.應(yīng)當(dāng)如何選擇樣本,才能盡可能地消除在數(shù)據(jù)庫中可能的次序造成的可能的系統(tǒng)性偏差?2.最重要的是應(yīng)當(dāng)如何選擇樣本的規(guī)模,才能確保估計(jì)量(在我們的情況下是相對頻度)的所需精度?3.應(yīng)當(dāng)如何理解估計(jì)量的精度?第一個(gè)問題旨在消除可能的系統(tǒng)誤差。例如,從數(shù)據(jù)庫中每n個(gè)記錄選擇一個(gè)作為樣本,就可能會選中這種嚴(yán)重的系統(tǒng)性誤差。
      第二個(gè)問題涉及應(yīng)當(dāng)從整個(gè)總體中提取多少事務(wù),即樣本規(guī)模。從直覺上十分清楚,這個(gè)問題涉及從該樣本能夠達(dá)到的精度。這意味著100個(gè)事務(wù)的樣本能夠確保的估計(jì)量精度,比10000個(gè)事務(wù)的樣本要低得多。
      第三個(gè)問題涉及以下內(nèi)容假設(shè)所有事務(wù)的集合包含1,000,000個(gè)事務(wù)。如果我們偶然提取了100個(gè)事務(wù)的樣本,我們就能夠計(jì)算一個(gè)項(xiàng)目(比如說)A的相對頻度,作為整個(gè)總體上項(xiàng)目A之相對頻度的一個(gè)估計(jì)量。如果我們又偶然提取了100個(gè)事務(wù)的第二個(gè)樣本,我們也能夠根據(jù)這第二個(gè)樣本計(jì)算項(xiàng)目A的相對頻度,并作為一個(gè)估計(jì)量,但是兩次計(jì)算的頻度將會不同。如果我們重復(fù)這個(gè)過程幾百次,那么如此計(jì)算的相對頻度將會或多或少地散布在整個(gè)總體上項(xiàng)目A的相對頻度周圍。
      二、采樣方法最著名的采樣方案之一是所謂的柏努利采樣。這樣做假設(shè)是以例如一個(gè)順序文件或數(shù)據(jù)庫形式給出數(shù)據(jù),其中的記錄可以從1到N編號,并且可以沿著這種次序穿過數(shù)據(jù)庫。給定了一個(gè)概率π,每個(gè)元素都能夠以它被選中,這種采樣方案如下對于第i個(gè)元素,進(jìn)行一個(gè)隨機(jī)實(shí)驗(yàn)以概率π選中這個(gè)元素。通過在區(qū)間(0,1)上產(chǎn)生一個(gè)隨機(jī)數(shù),如果所考慮的隨機(jī)數(shù)小于π就選取第i個(gè)元素,否則就拒絕這個(gè)元素,就能夠做到這一點(diǎn)。
      注釋如果使用所謂的線性同余隨機(jī)數(shù)發(fā)生器,十分重要的一點(diǎn)是這樣一個(gè)發(fā)生器的周期足夠大。這意味著在周期為例如5的情況下,從區(qū)間(0,1)上產(chǎn)生出5個(gè)隨機(jī)數(shù)之后,數(shù)字就會重復(fù),這當(dāng)然不是很明智的。作為某種經(jīng)驗(yàn)法則,我們需要周期L和總體的數(shù)目N應(yīng)當(dāng)滿足N&le;L]]>因?yàn)槭褂眠@種采樣方案,樣本規(guī)模不是一個(gè)固定的數(shù)目,而是在概率理論意義下的一個(gè)隨機(jī)變量,其統(tǒng)計(jì)參數(shù)數(shù)學(xué)期望E和方差Var如下EBE(n)=Nπ以及VarBE(n)=Nπ(1-π)另外,對于指定的置信度水平(1-α),可以由下式計(jì)算出一個(gè)置信區(qū)間,其中α為對于樣本規(guī)模n,指定的誤差概率N&pi;&PlusMinus;u1-&alpha;2N&pi;(1-&pi;)]]>這里 為標(biāo)準(zhǔn)正態(tài)分布N(0,1)-對于一個(gè)給定概率α之分布的百分位。給定了一個(gè)概率α,那么百分位 就是單位正態(tài)分布的隨機(jī)變量(簡寫為N(0,1))超過概率 的數(shù)值。因此P(X>u1-&alpha;2)=&alpha;2]]>其中X(作為N(0,1)分布的隨機(jī)變量)的密度d為
      d(t)=12&pi;exp(-12t2)]]>那么第i次觀察要放入樣本中的包括概率πi由下式給出πi=π這意味著對于每一個(gè)元素,這個(gè)概率不變并且等于指定的概率π。
      在這種情況下,第i個(gè)以及第j個(gè)元素同時(shí)放入樣本中的包括概率πij等于π2。
      這種采樣方案的主要優(yōu)點(diǎn)在于在計(jì)算機(jī)上很容易實(shí)施。缺點(diǎn)在于樣本規(guī)模不再是一個(gè)固定量而是一個(gè)隨機(jī)變量。
      如果我們事先關(guān)注樣本規(guī)模的固定量,那么我們就不得不使用所謂的簡單隨機(jī)采樣。這是一種另外的采樣方案,其中每一種觀察放入規(guī)模為n之樣本的包括概率不變&pi;i=nN]]>其中n為樣本規(guī)模,N為總體規(guī)模。
      對于第i個(gè)以及第j個(gè)元素同時(shí)放入樣本中的包括概率πij,我們得到&pi;ij=n(n-1)N(N-1)]]>這樣一種采樣方案可以實(shí)施如下。假設(shè)ε1、ε2、...為區(qū)間
      上均勻分布的獨(dú)立隨機(jī)變量。
      1.如果&epsiv;1&lt;nN]]>那么選取元素k=1,否則不選。
      2.對于隨后的元素k=2、3、...假設(shè)nk為整個(gè)總體中最初k-1個(gè)元素中已經(jīng)選取之元素的數(shù)目。如果在第k個(gè)隨機(jī)變量εk的情況下,我們有&epsiv;k&lt;n-nkN-k+1]]>那么選取第k個(gè)元素,否則不選。
      3.如果我們有nk=n,本過程終止。
      這樣一種采樣方案的缺點(diǎn)在于,必須保存已經(jīng)選取之元素的數(shù)目。另一方面我們也有如下優(yōu)點(diǎn)達(dá)到所需的元素?cái)?shù)目之后,現(xiàn)在就能終止采樣過程。
      三、關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘所用的采樣方法本發(fā)明介紹了一整套方法,基于一個(gè)樣本而不是整個(gè)總體來計(jì)算關(guān)聯(lián)規(guī)則。我們建議把這些關(guān)聯(lián)規(guī)則用作整個(gè)事務(wù)總體的估計(jì)關(guān)聯(lián)規(guī)則。那么,由于關(guān)聯(lián)規(guī)則挖掘所用的這套實(shí)際方法能夠限于僅僅這個(gè)樣本,所以能夠?qū)崿F(xiàn)顯著的性能改善。
      所提議發(fā)明的重要特性是在達(dá)到指定的精度需求的同時(shí),確定樣本規(guī)模所用的技術(shù)。如同上面已經(jīng)針對當(dāng)前的現(xiàn)有技術(shù)進(jìn)行的介紹,本發(fā)明的實(shí)質(zhì)概念是,如果在樣本規(guī)模確定時(shí)引入了更多的參數(shù)來描述眾多事務(wù)的特征,就能夠確定小得多的樣本規(guī)模,同時(shí)使觀察滿足所需的精度需求。在本發(fā)明的一個(gè)實(shí)施例中,我們建議使用眾多事務(wù)的規(guī)模N作為這種特征性質(zhì)。在本發(fā)明的另一個(gè)實(shí)施例中,在事務(wù)中出現(xiàn)之不同項(xiàng)目的數(shù)目p用作特征性質(zhì)。當(dāng)然,一旦確定了包括這些特征性質(zhì)的樣本規(guī)模計(jì)算公式,還可以應(yīng)用附加的近似技術(shù)來再次去除這些特征性質(zhì)。即使是基于這些附加近似的樣本規(guī)模,也比所有現(xiàn)有技術(shù)估計(jì)有顯著的改善。或者換言之即使后來附加的近似再次去除了這些參數(shù),也不會喪失通過考慮眾多事務(wù)的更多參數(shù)特征,實(shí)現(xiàn)更小樣本規(guī)模的顯著優(yōu)點(diǎn)。
      按照當(dāng)前的現(xiàn)有技術(shù)計(jì)算的估計(jì)結(jié)果(例如支持值的估計(jì)結(jié)果),僅僅是基于單變量分析而獲得。單變量分析意味著僅僅估計(jì)單一的數(shù)值。
      與之相反,本發(fā)明的一個(gè)實(shí)施例通過一種多變量估計(jì)分析,建議了一種全新的方法。多變量分析意味著在估計(jì)分析中使用一個(gè)向量,該向量的每個(gè)分量都是一個(gè)估計(jì)量,而且所有分量同時(shí)估計(jì)。例如對于支持值,這種方法的思路是有一個(gè)樣本規(guī)模,同時(shí)估計(jì)所有單一項(xiàng)目對指定正確結(jié)果的支持值。所提議的多變量方法是根據(jù)置信橢圓來確定必要的樣本規(guī)模,具有幾種優(yōu)點(diǎn)。這種方法背后的基本思路是每個(gè)項(xiàng)目不僅僅估計(jì)一個(gè)支持值,而是同時(shí)估計(jì)所有支持值。如果支持值的這個(gè)向量離支持值的真正的現(xiàn)有向量足夠近,那么在樣本內(nèi)數(shù)據(jù)中的結(jié)構(gòu)也是有效的,所以這些規(guī)則將具有較好的精度;或者換言之,此時(shí)樣本包含著與總體相同的結(jié)構(gòu),因而有相同的規(guī)則。
      即使在Zaki等人或Toivonen等人的的文獻(xiàn)中,也沒有指出這樣一個(gè)基于多變量分析的實(shí)施例。
      另外,還介紹了如何做到盡可能隨機(jī)地選擇數(shù)據(jù)庫中的記錄。
      三(1)、單變量模型基本概念是任何規(guī)則R的支持值都能夠視為一個(gè)相對頻度。這個(gè)數(shù)值能夠通過一個(gè)估計(jì)量近似衡量如下。
      假設(shè)整個(gè)數(shù)據(jù)庫包括N個(gè)順序地排序的元素(其中每個(gè)元素由一個(gè)記錄表示)。對于每個(gè)元素我們都能夠構(gòu)建一個(gè)二進(jìn)制屬性,如果該元素支持該規(guī)則,即記錄中出現(xiàn)規(guī)則的項(xiàng)目時(shí),屬性為1,如果該元素不支持該規(guī)則,屬性就為0。這個(gè)二進(jìn)制屬性的平均值就是支持值(由p表示)。在一個(gè)樣本不更換的情況下,提取這個(gè)支持值的一個(gè)無偏估計(jì)量(如果一個(gè)估計(jì)量的數(shù)學(xué)期望值等于應(yīng)當(dāng)估計(jì)的參數(shù),該估計(jì)量就是無偏的),就是該樣本中對所有元素測得的二進(jìn)制屬性的均值(這個(gè)均值由 表示)。不僅如此,還可以為支持值構(gòu)建一個(gè)置信區(qū)間。以下是一個(gè)置信區(qū)間背后的思路。從樣本提取的估計(jì)量將近似于真值,這意味著估計(jì)量將不會每次都取得相同的數(shù)值。但是如果我們提取大量的樣本并計(jì)算估計(jì)量,即可見到這些數(shù)值圍繞真值散布。我們現(xiàn)在試圖尋找一個(gè)圍繞著計(jì)算出之估計(jì)量的區(qū)間,使得我們知道真值以一個(gè)給定的概率1-α處于這個(gè)區(qū)間中。按照我們的采樣方法和估計(jì)量的種類,我們可以使用以下公式,推導(dǎo)出構(gòu)建的置信區(qū)間 式中 為估計(jì)量, 為標(biāo)準(zhǔn)正態(tài)分布的百分位,N為整個(gè)總體的規(guī)模,n為樣本規(guī)模。
      給定了一個(gè)概率α,那么百分位 就是單位正態(tài)分布的隨機(jī)變量(簡寫為N(0,1))超過概率 的數(shù)值。因此
      P(X>u1-&alpha;2)=&alpha;2]]>其中X(作為N(0,1)分布的隨機(jī)變量)的密度d為d(t)=12&pi;exp(-12t2)]]>這意味著如果我們對一種規(guī)則計(jì)算這樣一個(gè)區(qū)間,我們就能夠確信這個(gè)區(qū)間覆蓋真值的概率為1-α。該公式表明,樣本規(guī)模能夠控制這個(gè)區(qū)間的長度。樣本規(guī)模越大,置信區(qū)間將越??;當(dāng)給定了置信區(qū)間的最大長度時(shí),它就能夠用于計(jì)算樣本規(guī)模。
      問題在于我們不能直接使用以上公式,因?yàn)樵谔崛颖局?的數(shù)值未知。所以我們需要考慮以下公式,其中替換了求和的第二項(xiàng)。(差異在于在第一個(gè)公式中考慮 方差的估計(jì)量,而在第二個(gè)公式中是 的真實(shí)方差) 有兩個(gè)概率來定義置信區(qū)間的長度。一個(gè)給出與真值的相對誤差,另一個(gè)給出絕對誤差。兩個(gè)概率下面都要介紹。
      一個(gè)用戶將說明,最大近似誤差應(yīng)當(dāng)偏離真值一個(gè)因子δ,因此是一個(gè)相對誤差。由此我們可以使用下面的已知公式計(jì)算樣本規(guī)模n=u1-&alpha;22Np(1-p)(N-1)&delta;2p2+u1-&alpha;22p(1-p)---(1)]]>這個(gè)公式的問題在于我們需要知曉真值??吹搅诉@個(gè)數(shù)值超過了一個(gè)給定的閾值Minsup以及該函數(shù)隨p下降,我們就能夠使用以下公式,確定最小樣本規(guī)模的界限n=u1-&alpha;22NMinsup(1-Minsup)(N-1)&delta;2Minsup2+u1-&alpha;22Minsup(1-Minsup)---(2)]]>以下的實(shí)例將會表明該公式的用途給定一個(gè)4000000個(gè)記錄的數(shù)據(jù)庫。指定的Minsup值為0.01,一種規(guī)則R的估計(jì)量以概率90%偏離真值不超過1%。那么需要提取規(guī)模為1415204個(gè)元素的一個(gè)樣本。
      Zaki建議使用以下公式來估計(jì),從規(guī)模為n的樣本得到的估計(jì)值 小于{大于}真值p的(1-δ){(1+δ)},這意味著偏離p的相對誤差小于δ 從上式他通過把右方與一個(gè)給定的誤差概率α相比,就得到了必要的樣本規(guī)模。
      通過這樣做,他獲得了n=-2ln(α)/pδ2為低限n=-3ln(α)/pδ2為高限。
      通過這樣做,Zaki并沒有考慮一個(gè)封閉的置信區(qū)間,如同我們以上所做。他僅僅論述了我們后面將要涉及之開區(qū)間的概率。至此我們可以說,我們的方法通過提取一個(gè)更小的樣本,會得出更高的準(zhǔn)確度。為了說明我們的方法優(yōu)于Zaki的方法,再次考慮樣本規(guī)模的計(jì)算。我們可以給出樣本規(guī)模的近似公式(表示(1)式的近似值)n=u1-&alpha;22(1-p)&delta;2p]]>此式將與Zaki的低限公式進(jìn)行比較(按照Zaki的說法,它給出了最小的樣本規(guī)模)。
      兩個(gè)公式的分母相同,因此只須證明-2ln(&alpha;)&GreaterEqual;u1-&alpha;22(1-p).]]>在實(shí)踐中通常選擇0.1、0.05和0.01作為α。下表顯示了對于上述α值的-2ln(α)和 因此對于所述數(shù)值,-2ln(α)總是大于 由此我們可以得出結(jié)論,對于這些數(shù)值以上給出的不等式成立。
      計(jì)算樣本規(guī)模的另一種概率涉及指定估計(jì)量和真值之間的絕對誤差d。根據(jù)絕對誤差度量d,可以推導(dǎo)出以下公式n=u1-&alpha;22p(1-p)d21+1N(u1-&alpha;22p(1-p)d2-1)---(3)]]>這個(gè)公式再次需要知曉真實(shí)參數(shù)p。但是一項(xiàng)分析表明,當(dāng)p=0.5時(shí),上述公式具有最高的數(shù)值。因此要計(jì)算樣本規(guī)模的一種可能方法是代入p=0.5,得出樣本規(guī)模n=u1-&alpha;224d21+1N(u1-&alpha;224d2-1)---(4)]]>以下實(shí)例將說明計(jì)算過程。給定一個(gè)7000000的總體規(guī)模、一個(gè)99%的置信區(qū)間和一個(gè)0.01的絕對誤差,我們獲得了一個(gè)16551的樣本規(guī)模,它比現(xiàn)有技術(shù)有顯著的改善。
      Toivonen等人建議給定絕對誤差d和誤差概率α之后,采用以下的樣本規(guī)模n=12d2ln2&alpha;]]>如同上面,我們可以表明我們的方法會產(chǎn)生一個(gè)更小的樣本規(guī)模。我們再次使用一個(gè)近似公式n=u1-&alpha;22p(1-p)d2]]>只須證明12ln2&alpha;&GreaterEqual;u1-&alpha;22p(1-p).]]>注意到對于0≤p≤1,有p(1-p)≤0.25,只須證明2ln2&alpha;&GreaterEqual;u1-&alpha;22]]>如同上面,我們表明這個(gè)不等式至少對于普通的α值成立。
      這表明與Toivonen等人的方法相比,我們的方法產(chǎn)生了更小的樣本規(guī)模。
      我們現(xiàn)在說明另一個(gè)結(jié)果,它可以應(yīng)用于計(jì)算必要的樣本規(guī)模。如果我們考慮以上的置信區(qū)間,能夠發(fā)生兩種誤差。一種是真實(shí)支持值大于計(jì)算出的上限,另一種真實(shí)支持值小于下限。在實(shí)際情況下,有時(shí)僅僅需要真實(shí)值的置信區(qū)間在一側(cè)進(jìn)行限制(與Zaki等人比較)。
      如果我們僅僅關(guān)注如何獲得真值將以概率α超過的一個(gè)界限,我們就可以使用置信區(qū)間 這意味著我們可以確信,一種規(guī)則的真實(shí)支持值將不會大于該上限。對于支持值大于Minsup閾值的一種規(guī)則,如果我們要控制在樣本中沒有這種性質(zhì)的誤差,這一點(diǎn)可能很重要。例如假設(shè)Minsup值給定,在樣本中一種規(guī)則的支持值產(chǎn)生了上述的置信區(qū)間,其上限小于Minsup。那么,這種規(guī)則在總體上已經(jīng)獲得了一個(gè)支持值,它大于Minsup的概率小于α。
      我們可能關(guān)注的另一種情況是使用以下的只有一個(gè)低限的置信區(qū)間 如果我們僅僅關(guān)注真實(shí)支持值小于該下限的誤差小于誤差概率α,就可以使用這個(gè)置信區(qū)間。如果一種規(guī)則的支持值大于Minsup閾值,而真實(shí)值小于這個(gè)閾值,在要控制這種誤差時(shí),可能就是這種情況。例如,假若在樣本中一種規(guī)則將具有一個(gè)支持值,使得對應(yīng)置信區(qū)間的下限大于Minsup閾值,那么真實(shí)值小于這個(gè)界限的誤差概率最多也僅僅是α。
      從這兩個(gè)公式,以我們在上面所做的相同方式,我們都能得到樣本規(guī)模。在公式中僅有的改變是由 替換了 因此,對于一個(gè)單界的置信區(qū)間,當(dāng)真實(shí)值的相對誤差δ給定時(shí),其樣本規(guī)模為n=u1-&alpha;2Np(1-p)(N-1)&delta;2p2+u1-&alpha;2p(1-p)---(5)]]>如上所述以Minsup替換p,有n=u1-&alpha;2NMinsup(1-Minsup)(N-1)&delta;2Minsup2+u1-&alpha;2Minsup(1-Minsup)---(6)]]>給定了一個(gè)絕對誤差時(shí),我們可以使用以下公式計(jì)算樣本規(guī)模n=u1-&alpha;2p(1-p)d21+1N(u1-&alpha;2p(1-p)d2-1)---(7)]]>式中p可以選為0.5,使得n取最大值,有n=u1-&alpha;24d21+1N(u1-&alpha;24d2-1)---(8)]]>由這些公式獲得的樣本規(guī)模小于對應(yīng)的封閉置信區(qū)間計(jì)算出的樣本規(guī)模。由于已經(jīng)證明后面的樣本規(guī)模小于Zaki等人和Toivonen等人建議的樣本規(guī)模,這里得到的樣本規(guī)模也如此。
      三(2)、多變量模型在前一節(jié)中,我們說明了如何使用置信區(qū)間來估計(jì)一個(gè)項(xiàng)目或者一個(gè)項(xiàng)目集的支持值,它指明一種規(guī)則的支持值。如上所述,具有(1-α)置信水平的一個(gè)置信區(qū)間,其意義在于,在所有樣本的百分之(1-α)×100中,整個(gè)總體上項(xiàng)目A的相對頻度被對應(yīng)的置信區(qū)間所覆蓋。
      這個(gè)思路(在同時(shí)考慮p個(gè)項(xiàng)目的意義下)的一種擴(kuò)展,包括構(gòu)建一個(gè)所謂的在置信水平(1-α)的置信橢球。p維中的一個(gè)置信橢球在p維中定義了一個(gè)區(qū)域,使得真值以一定的概率(1-α)處于這個(gè)區(qū)域中。
      在p=2個(gè)項(xiàng)目的情況下,這個(gè)橢球就是一個(gè)橢圓。圖1顯示了對于p=2之置信橢球的一個(gè)實(shí)例。在p=3個(gè)項(xiàng)目的情況下,置信橢球的一個(gè)實(shí)例顯示在圖2中。
      另一方面,寬度(分別為面積或體積)是精度的一種度量。所以,如果我們需要一定的精度,我們就可以如此選擇樣本規(guī)模,使得寬度(分別為面積或體積)(對于所需的置信水平)不超過規(guī)定的界限。
      為了同時(shí)估計(jì)若干單個(gè)項(xiàng)目的支持值,需要把每一個(gè)事務(wù)變換為一個(gè)二進(jìn)制向量。那么,這樣一種向量的每一個(gè)分量對應(yīng)于一個(gè)項(xiàng)目,其中數(shù)值1意味著所考慮的項(xiàng)目在所考慮的事務(wù)中存在,而數(shù)值0則是該項(xiàng)目不存在。注意,二進(jìn)制向量的維數(shù)由所有可能的單個(gè)項(xiàng)目的數(shù)目p隱含著。
      現(xiàn)在假設(shè)對于i=1,...,N,我們從總體中提取了一個(gè)樣本,以若干p維向量表示Yi=Yi(1)&CenterDot;&CenterDot;&CenterDot;Yi(p)]]>對于i=1,...,N,我們進(jìn)一步定義Y&OverBar;&CenterDot;(k)=1N&Sigma;i=1NYi(k)]]>Y&OverBar;&CenterDot;=1N&Sigma;i=1NYi=Y&OverBar;&CenterDot;(1)&CenterDot;&CenterDot;&CenterDot;Y&OverBar;&CenterDot;(p)]]>SY(k),Y(k)=SY(k)2=1N-1&Sigma;i=1N(Yi(k)-Y&OverBar;&CenterDot;(k))2]]>對于k=1,......p;SY(k),Y(l)=1N-1&Sigma;i=1N(Yi(k)-Y&OverBar;&CenterDot;(k))(Yi(l)-Y&OverBar;&CenterDot;(l))]]>對于k≠l=1,......,p&Sigma;Y=(SY(k),Y(l))k,l=1,...p]]>樣本中的這些向量將由yi表示,使得我們以y替換Y,以n替換N,就得到樣本上對應(yīng)的量,僅有樣本的協(xié)方差矩陣?yán)?,它由下式表示s=(sy(k),y(l))k,l=1,...p]]>式中sy(k),y(l)為根據(jù)該樣本之協(xié)方差的對應(yīng)估計(jì)量。
      利用這種記法,對于一個(gè)簡單的隨機(jī)樣本,我們能夠證明以下定理定理1y.是Y.的一個(gè)無偏估計(jì)量。
      Cov(y&OverBar;&CenterDot;)=1n(1-nN)&Sigma;Y]]>是y.的協(xié)方差矩陣。
      是Cov(y.)的一個(gè)無偏估計(jì)量。
      另外我們還能夠說明對于估計(jì)量y.的一個(gè)中心極限定理定理2在一種簡單隨機(jī)采樣的情況下,假設(shè)nv→∞并且如果nv→∞,(Nv-nv)→∞令I(lǐng)v={1,...,Nv}對于i∈Iv,Yvi=Yvi(1)&CenterDot;&CenterDot;&CenterDot;Yvi(p)]]>對于i=1,...,nv,yvi=yvi(1)&CenterDot;&CenterDot;&CenterDot;yvi(p)]]>對于所有τ>0和k=1,...,p,Iv&tau;(k)={i&Element;Iv:|Yvi-Y&OverBar;v(k)|>&tau;Var(&Sigma;i=1nvyvi(k))}]]>對于所有k=1,...,p,&rho;v(k)2maxaj|&rho;Yv(k),&Sigma;j&NotEqual;kajYv(j)|,limv&RightArrow;&infin;sup&rho;v(k)2&lt;1]]>第k個(gè)和其余p-1個(gè)變量之間的多重相關(guān)系數(shù)y&OverBar;v&CenterDot;=1nv&Sigma;i=1nvyvi]]>Cov(y.)是y.的協(xié)方差矩陣那么我們有量Cov(y&OverBar;&CenterDot;)-12(y&OverBar;&CenterDot;-E(y&OverBar;&CenterDot;))]]>的分布對一個(gè)N(0,Idp)分布中的收斂,等價(jià)于條件limv&RightArrow;&infin;&Sigma;i&Element;Iv&tau;(Yvi(k)-Y&OverBar;v.(k))2&Sigma;i&Element;Iv(Yvi(k)-Y&OverBar;v.(k))2=0]]>
      式中的p維N(0,Idp)分布隨機(jī)變量Y具有密度函數(shù)ff(y)=(2&pi;)-p2exp(-12yty)]]>(注意y也是p維的)這個(gè)定理開拓了對于向量Y.,建立至少是近似置信橢球的可能性。
      因?yàn)槲覀冴P(guān)注多變量的情況(與現(xiàn)有技術(shù)和前節(jié)中給出的改善相反),我們現(xiàn)在要考慮置信橢球及其結(jié)構(gòu)。
      讓我們首先考慮以下情況,觀測結(jié)果是獨(dú)立的和同等地多變量正態(tài)分布的p維向量,具有數(shù)學(xué)期望向量μ0和協(xié)方差矩陣∑,其逆存在。
      現(xiàn)在讓我們假設(shè),我們要根據(jù)規(guī)模為n的一個(gè)樣本,對于未知的數(shù)學(xué)期望向量μ0,構(gòu)建所需的置信橢球。這樣一個(gè)橢球由下式給出K&Sigma;={&mu;0|n(x&OverBar;-&mu;0)t&Sigma;-1(x&OverBar;-&mu;0)&le;&chi;1-&alpha;:p2}]]>式中x由下式給出x&OverBar;=1n&Sigma;i=1nxi]]>而且χ1-α:p2是這樣一個(gè)數(shù)值,給定一個(gè)概率α,那么P(Y&GreaterEqual;&chi;1-&alpha;:P2)=&alpha;]]>式中Y具有p個(gè)自由度的一種χ2分布,即密度函數(shù) 式中Γ表示伽碼函數(shù)&Gamma;(y)=&Integral;0&infin;ty-1exp(-t)dt]]>因此χ1-α:p2是具有p個(gè)自由度之χ2分布的百分位。
      這是由于以下事實(shí),如果數(shù)據(jù)是多變量正態(tài)分布,量n(x-μ0)t∑-1(x-μ0)就是具有p個(gè)自由度的χ2分布。
      在協(xié)方差矩陣∑未知的情況下,就必須從數(shù)據(jù)中估計(jì)這個(gè)矩陣?!频囊粋€(gè)可能的估計(jì)量由下式給出S=1n-1&Sigma;i=1n(xi-x&OverBar;)(xi-x&OverBar;)t]]>那么對應(yīng)的置信橢球由下式給出
      KS={&mu;0|n(x&OverBar;-&mu;0)tS-1(x&OverBar;-&mu;0)&le;(n-1)pn-pF1-&alpha;:p,n-p}]]>現(xiàn)在式中F1-α:p,n-p是使給定的一個(gè)概率α,下式成立的值P(Y≥F1-α:p,n-p)=α式中Y是具有m1(=p)個(gè)和m2(=n-p)個(gè)自由度的F分布,即密度函數(shù)為 式中Γ表示伽碼函數(shù)。
      在數(shù)據(jù)是多變量正態(tài)分布的條件不滿足的情況下,如果不使用數(shù)學(xué)期望向量之估計(jì)量的中心極限定理成立,那么以上給出的置信橢球僅僅是近似有效。根據(jù)這樣一種近似,可以引入以下替換向量Y.替換數(shù)學(xué)期望向量μ0;估計(jì)量y.替換數(shù)學(xué)期望向量μ0的估計(jì)量x;協(xié)方差矩陣∑Y及其估計(jì)量s替換協(xié)方差矩陣∑及其估計(jì)量S。
      如果我們假設(shè)中心極限定理成立,那么給定的置信橢球保持原樣。所以我們得到了橢球K∑yK&Sigma;y={Y&OverBar;&CenterDot;|n(y&OverBar;&CenterDot;-Y&OverBar;&CenterDot;)t&Sigma;y-1(y&OverBar;&CenterDot;-Y&OverBar;&CenterDot;)&le;&chi;1-&alpha;:p2}]]>以及KsKs={Y&OverBar;&CenterDot;|n(y&OverBar;&CenterDot;-Y&OverBar;&CenterDot;)ts-1(y&OverBar;&CenterDot;-Y&OverBar;&CenterDot;)&le;(n-1)n-pF1-&alpha;:p,n-p}]]>注意,當(dāng)n→∞時(shí),F(xiàn)1-&alpha;:p,n-p&RightArrow;1p&chi;1-&alpha;:p2]]>當(dāng)p≥1時(shí),n-1n-p&GreaterEqual;1]]>這就給出了以下的近似置信橢球Ks={Y&OverBar;&CenterDot;|n(y&OverBar;&CenterDot;-Y&OverBar;&CenterDot;)ts-1(y&OverBar;&CenterDot;-Y&OverBar;&CenterDot;)&le;&chi;1-&alpha;:p2}]]>為了確定必要的樣本規(guī)模,我們固定所需的置信水平和所需的置信橢球最大體積。注意,p維橢球的體積由下式給出
      V=const(p)&Pi;k=1phk]]>式中hk(k=1,...,p)表示橢球的半軸,const(p)是一個(gè)取決于維數(shù)p的常數(shù)。
      如果我們定義了一個(gè)最大可容許的置信體積V*,那么就有V*=const(p)n-p2(&chi;(1-&alpha;):p2)p2dets]]>從這個(gè)方程我們就獲得了必要的n作為樣本規(guī)模nV*=const(p)p2&chi;(1-&alpha;):p2(dets)1p(V*)2p]]>涉及這個(gè)方程求解必要的樣本規(guī)模是以下兩個(gè)問題a.常數(shù)const(p)取決于維數(shù)p;b.我們需要協(xié)方差矩陣的一個(gè)先驗(yàn)估計(jì)。
      為了解決這些問題,可以提議以下步驟以邊長為2dk(k=1,...,p)的長方體圍繞半軸為dk(k=1,...,p)的置信橢球。結(jié)果對于體積來說,該長方體圍繞的最大橢球具有以下體積Vmax*=const(p)&Pi;k=1pdk]]>從這個(gè)公式就有可能推導(dǎo)出以下的必要樣本規(guī)模nn*=&chi;(1-&alpha;):p2(&Pi;k=1psy:k2dk2)1p---(9)]]>式中sy:k2為協(xié)方差矩陣s的第k個(gè)對角線元素。
      如果我們由以下關(guān)系來定義量εk2dk=&epsiv;ksy:k&DoubleLeftRightArrow;dk=12&epsiv;ksy:k---(10)]]>那么必要的樣本規(guī)模將會按照相對精度 給出,這意味著半軸的長度是標(biāo)準(zhǔn)差sy:k的一個(gè)分?jǐn)?shù)。
      所以,必要的樣本規(guī)模能夠按照εk來表示n*=&chi;(1-&alpha;):p2(&Pi;k=1p4&epsiv;k2)1p=&chi;(1-&alpha;):p24(&Pi;k=1p1&epsiv;k2)1p---(11)]]>利用這樣一個(gè)必要樣本規(guī)模n*,對應(yīng)的置信橢球?qū)贿呴L為2dk=εksy:k的長方體所圍繞。
      選擇所有εk等于一個(gè)所需的相對精度ε,那么我們就得到了必要的樣本規(guī)模n*=&chi;(1-&alpha;):p241&epsiv;2---(12)]]>它可以用作專業(yè)人員的一個(gè)公式,尤其是在p相當(dāng)大的情況下。
      最后我們將探討以下問題由于我們從整個(gè)總體提取了一個(gè)樣本這一事實(shí),我們就只能把一個(gè)支持值的估計(jì)結(jié)果與用戶選定的所需之最小支持值進(jìn)行比較。所以我們遇到了這樣一個(gè)問題,由于隨機(jī)的變化,我們可能獲得了一個(gè)估計(jì)量,它僅僅是偶然低于給定的最小支持值。這表明我們應(yīng)當(dāng)關(guān)注一種統(tǒng)計(jì)測量,這種情況對于一個(gè)所考慮的項(xiàng)目或變量具有怎樣的重要性。從統(tǒng)計(jì)的觀點(diǎn),這會導(dǎo)致我們下面將討論的聯(lián)合置信區(qū)間的理論。
      從構(gòu)建的置信橢球,可以獲得這些區(qū)間如下。
      對于任意 和假設(shè)為正定的pxp矩陣A,我們有 根據(jù)這個(gè)表達(dá)式,我們得到橢球K 所以我們能夠把K直接嵌入在p維的長方體中,如果v是第k個(gè)單位向量(k=1,...,p),該長方形是以下面若干區(qū)間的積給出 這些區(qū)間中的每一個(gè)都表示為一個(gè)聯(lián)合置信區(qū)間。以分量形式我們得到了Y.(k)的一個(gè)區(qū)間y&OverBar;&CenterDot;(k)&PlusMinus;1n&chi;(1-&alpha;):p2sy:k2---(13)]]>
      三(2)、關(guān)聯(lián)規(guī)則采樣的處理流程圖3顯示了一幅處理流程圖,用于前面章節(jié)中概述的多變量情況下關(guān)聯(lián)規(guī)則的采樣。這個(gè)處理流程也可以同樣應(yīng)用于單變量模型而不會有任何另外的問題。
      在步驟301中作出一個(gè)決定,進(jìn)行關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘是根據(jù)完全的眾多事務(wù)記錄(選擇路徑302),還是根據(jù)一個(gè)樣本(選擇路徑303)。在選定路徑302的情況下,就在步驟304之內(nèi)應(yīng)用關(guān)聯(lián)挖掘的一整套方法,隨后由步驟305顯示計(jì)算出的關(guān)聯(lián)規(guī)則。
      如果是存取路徑303,根據(jù)一個(gè)樣本來計(jì)算關(guān)聯(lián)規(guī)則,首先就必須在步驟306之內(nèi)確定樣本規(guī)模。一種方法將包括直接指定樣本規(guī)模。另一種方法將包括在一個(gè)步驟中計(jì)算樣本規(guī)模。在多變量方法中,樣本規(guī)模將根據(jù)以下因素計(jì)算a.在眾多事務(wù)之內(nèi)發(fā)生的不同項(xiàng)目的數(shù)目p,作為更完全地描述眾多事務(wù)特征的參數(shù),b.對于近似質(zhì)量的進(jìn)一步精度需求,例如包括b1.根據(jù)一個(gè)樣本之估計(jì)的置信度(1-α)b2.按照(10)式對于各個(gè)項(xiàng)目的相對精度需求εk或者對于所有項(xiàng)目的公共精度需求ε。如果某些項(xiàng)目需要以比其它項(xiàng)目更高的精度來估計(jì),那么就必須選擇對于各個(gè)項(xiàng)目指定相對精度需求的方法。
      根據(jù)這些指標(biāo),按照近似公式(11)或(12),在步驟307之內(nèi)將計(jì)算一個(gè)估計(jì)的樣本規(guī)模。這個(gè)估計(jì)的樣本規(guī)??梢灾苯佑米鳂颖疽?guī)模,也可以僅僅用作一種定向。在后一種情況下,將必須在至少是估計(jì)樣本規(guī)模的量級上,選定最終的樣本規(guī)模。
      根據(jù)記錄的數(shù)量和計(jì)算出的樣本規(guī)模,將在步驟308中通過隨機(jī)采樣,提取最終的樣本。
      使用這個(gè)樣本作為輸入,就可以在步驟304之內(nèi)應(yīng)用關(guān)聯(lián)挖掘的現(xiàn)有技術(shù)諸方法,確定關(guān)聯(lián)規(guī)則的估計(jì)結(jié)果,隨后由步驟305顯示出關(guān)聯(lián)規(guī)則的估計(jì)結(jié)果。
      如果步驟306也將包括指定一個(gè)所需的最小支持值,那么在步驟305中甚至也可能作出一個(gè)決定,是否關(guān)注一個(gè)所考慮的關(guān)聯(lián)規(guī)則。為了達(dá)到這個(gè)目的,可以利用(13)式之內(nèi)計(jì)算出的聯(lián)合置信區(qū)間。將會應(yīng)用以下的判斷過程1.如果按照(13)式的置信區(qū)間完全處于這個(gè)最小支持值的左側(cè)(即這個(gè)區(qū)間的上限小于最小支持值),那么就不關(guān)注所考慮的項(xiàng)目,因?yàn)槠渲С种档墓烙?jì)量低于最小支持值。
      2.如果對于所考慮的項(xiàng)目,按照(13)式的置信區(qū)間包括最小支持值或者完全在其右側(cè),那么就要關(guān)注該項(xiàng)目,因?yàn)槠渲С种档墓烙?jì)量高于最小支持值(記住,我們定義一個(gè)項(xiàng)目受關(guān)注是因?yàn)槠渲С种荡笥诨虻扔陬A(yù)定的最小支持值)。
      由于構(gòu)建了這些置信區(qū)間,我們就能夠確信,我們以公共置信度(1-α),獲得了所有受關(guān)注的規(guī)則。
      四、應(yīng)用依據(jù)現(xiàn)有技術(shù),由于組成了眾多事務(wù)記錄之?dāng)?shù)據(jù)的巨大規(guī)模以及計(jì)算關(guān)聯(lián)規(guī)則的處理時(shí)間極長,計(jì)算關(guān)聯(lián)規(guī)則的計(jì)算機(jī)系統(tǒng)必須就是存放眾多事務(wù)記錄的同一計(jì)算機(jī)系統(tǒng)。由于本發(fā)明能夠縮小數(shù)據(jù)量,實(shí)際的挖掘技術(shù)僅僅應(yīng)用于事務(wù)記錄的一個(gè)非常小的樣本(與完全的眾多事務(wù)記錄相比極小),所以建議了一種新的分布式處理模型,包括一臺客戶計(jì)算機(jī)和一臺服務(wù)器計(jì)算機(jī),由某種通信網(wǎng)絡(luò)如因特網(wǎng)進(jìn)行連接。
      圖4顯示了一個(gè)分布式處理模型,用于關(guān)聯(lián)規(guī)則的挖掘。
      在圖4之內(nèi)展示了一臺客戶計(jì)算機(jī)401,用于控制關(guān)聯(lián)規(guī)則的確定??蛻粲?jì)算機(jī)存放子眾多的N個(gè)事務(wù)記錄402。在步驟403之內(nèi),客戶計(jì)算機(jī)以一個(gè)樣本規(guī)模n,從眾多的N個(gè)事務(wù)中提取一個(gè)樣本404。樣本規(guī)??梢杂汕懊婀_的方法中的任何一種來確定。
      使用通信網(wǎng)絡(luò)405把樣本傳送到服務(wù)器計(jì)算機(jī)406,它為關(guān)聯(lián)規(guī)則的挖掘提供一種特定的服務(wù)。在步驟407之內(nèi),根據(jù)提供的樣本計(jì)算關(guān)聯(lián)規(guī)則,并且通過通信網(wǎng)絡(luò)返回到客戶計(jì)算機(jī)。由于現(xiàn)在分析所用的時(shí)間短(僅僅根據(jù)一個(gè)小樣本),就有可能很快地送回近似規(guī)則的計(jì)算結(jié)果。
      那么最后,在步驟408之內(nèi),這些規(guī)則可以在客戶系統(tǒng)中分析,進(jìn)行進(jìn)一步的操作。
      根據(jù)服務(wù)器系統(tǒng)中提供的關(guān)聯(lián)規(guī)則挖掘服務(wù)的程度,可能有兩種不同的實(shí)施例或者客戶計(jì)算機(jī)本身確定樣本規(guī)模,或者服務(wù)器計(jì)算機(jī)負(fù)責(zé)確定樣本規(guī)模。在任何一種情況下都是利用本說明書之內(nèi)公開的確定樣本規(guī)模的技術(shù)。
      權(quán)利要求
      1.一種計(jì)算機(jī)化的數(shù)據(jù)挖掘方法,用于在眾多的N種事務(wù)之內(nèi)確定關(guān)聯(lián)規(guī)則,每種事務(wù)包括多至p個(gè)不同的項(xiàng)目,所述方法包括一個(gè)第一步驟,確定所述眾多的N種事務(wù)的一個(gè)樣本規(guī)模n其中所述樣本規(guī)模n是根據(jù)精度需求而確定,以及其中所述樣本規(guī)模n是根據(jù)達(dá)到所述精度需求之多變量估計(jì)分析而確定,以及所述方法包括一個(gè)第二步驟,按照挖掘關(guān)聯(lián)規(guī)則所用的任何整套方法,根據(jù)所述眾多的N種事務(wù)中樣本規(guī)模為n的一個(gè)樣本,計(jì)算關(guān)聯(lián)規(guī)則,使用所述關(guān)聯(lián)規(guī)則作為所述眾多的N種事務(wù)的估計(jì)關(guān)聯(lián)規(guī)則。
      2.根據(jù)權(quán)利要求1的確定關(guān)聯(lián)規(guī)則所用之計(jì)算機(jī)化的數(shù)據(jù)挖掘方法,其特征在于所述精度需求包括一個(gè)置信度(1-α),用于根據(jù)一個(gè)樣本的一個(gè)估計(jì),以及一個(gè)相對精度εk,用于一個(gè)樣本的一個(gè)項(xiàng)目k,所述相對精度εk定義了與在所述眾多的N種事務(wù)之內(nèi)相比,在一個(gè)樣本之內(nèi)項(xiàng)目k之支持值的一個(gè)可接受的偏差,所述相對精度εk是相對于項(xiàng)目k之支持值的標(biāo)準(zhǔn)差而測量的,其中所述樣本規(guī)模n至少是在一個(gè)估計(jì)樣本規(guī)模n*的量級上,n*=&chi;(1-&alpha;):p24(&Pi;k=1p1&epsiv;k2)1p]]>式中x1-α∶p2為具有p個(gè)自由度之x2分布的百分位,p為描述所述眾多的N種事務(wù)特征的所述不同項(xiàng)目的數(shù)目。
      3.根據(jù)權(quán)利要求2的確定關(guān)聯(lián)規(guī)則所用的計(jì)算機(jī)化的數(shù)據(jù)挖掘方法,其特征在于所述相對精度εk=ε對于所有項(xiàng)目k是同一的,以及其中所述樣本規(guī)模n至少是在一個(gè)估計(jì)樣本規(guī)模n*的量級上。n*=&chi;(1-&alpha;):p241&epsiv;2]]>
      4.一種計(jì)算機(jī)化的數(shù)據(jù)挖掘方法,用于在眾多的N種事務(wù)之內(nèi)確定關(guān)聯(lián)規(guī)則,每種事務(wù)包括多至p個(gè)不同的項(xiàng)目,所述方法包括一個(gè)第一步驟,確定所述眾多的N種事務(wù)的一個(gè)樣本規(guī)模n其中所述樣本規(guī)模n是根據(jù)關(guān)聯(lián)規(guī)則所用的精度需求而確定,其中所述精度需求包括一個(gè)置信度(1-α),用于根據(jù)一個(gè)樣本進(jìn)行的估計(jì),以及其中所述精度需求包括一個(gè)相對精度δ,定義了與在所述眾多的N種事務(wù)之內(nèi)相比,在一個(gè)樣本之內(nèi),一個(gè)某種規(guī)則的支持值的一個(gè)可接受的偏差,所述相對精度δ是相對于所述某種規(guī)則的支持值而測量的,以及其中所述精度需求包括一個(gè)期望支持值的一個(gè)下界p,以及其中所述樣本規(guī)模n至少是在一個(gè)估計(jì)樣本規(guī)模n*的量級上,n*=u1-&alpha;22Np(1-p)(N-1)&delta;2p2+u1-&alpha;22p(1-p)]]>式中 為標(biāo)準(zhǔn)正態(tài)分布的百分位,以及所述方法包括一個(gè)第二步驟,按照關(guān)聯(lián)規(guī)則挖掘所用的任何整套方法,根據(jù)所述眾多的N種事務(wù)中樣本規(guī)模為n的一個(gè)樣本,使用所述關(guān)聯(lián)規(guī)則作為所述眾多的N種事務(wù)的估計(jì)關(guān)聯(lián)規(guī)則,計(jì)算關(guān)聯(lián)規(guī)則。
      5.一種計(jì)算機(jī)化的數(shù)據(jù)挖掘方法,用于在眾多的N種事務(wù)之內(nèi)確定關(guān)聯(lián)規(guī)則,每種事務(wù)包括多至p個(gè)不同的項(xiàng)目,所述方法包括一個(gè)第一步驟,確定所述眾多的N種事務(wù)的一個(gè)樣本規(guī)模n其中所述樣本規(guī)模n是根據(jù)關(guān)聯(lián)規(guī)則所用的精度需求而確定,其中所述精度需求包括一個(gè)置信度(1-α),用于根據(jù)一個(gè)樣本進(jìn)行的估計(jì),以及其中所述精度需求包括一個(gè)相對精度δ,定義了與在所述眾多的N種事務(wù)之內(nèi)相比,在一個(gè)樣本之內(nèi),一個(gè)某種規(guī)則的支持值的一個(gè)可接受的或正或負(fù)的偏差,所述相對精度δ是相對于所述某種規(guī)則的支持值而測量的,以及其中所述精度需求包括一個(gè)期望支持值的一個(gè)下界p,以及其中所述樣本規(guī)模n至少是在一個(gè)估計(jì)樣本規(guī)模n*的量級上,n*=u1-&alpha;2Np(1-p)(N-1)&delta;2p2+u1-&alpha;2p(1-p)]]>式中u1-α為標(biāo)準(zhǔn)正態(tài)分布的百分位,以及所述方法包括一個(gè)第二步驟,按照關(guān)聯(lián)規(guī)則挖掘所用的任何整套方法,根據(jù)所述眾多的N種事務(wù)中樣本規(guī)模為n的一個(gè)樣本,使用所述關(guān)聯(lián)規(guī)則作為所述眾多的N種事務(wù)的估計(jì)關(guān)聯(lián)規(guī)則,計(jì)算關(guān)聯(lián)規(guī)則。
      6.根據(jù)權(quán)利要求4或5的確定關(guān)聯(lián)規(guī)則所用的計(jì)算機(jī)化的數(shù)據(jù)挖掘方法,其特征在于一個(gè)期望支持值的所述下界p,是關(guān)聯(lián)規(guī)則挖掘的所述整套方法所用的一個(gè)最小支持值p=Minsup。
      7.一種計(jì)算機(jī)化的數(shù)據(jù)挖掘方法,用于在眾多的N種事務(wù)之內(nèi)確定關(guān)聯(lián)規(guī)則,每種事務(wù)包括多至p個(gè)不同的項(xiàng)目,所述方法包括一個(gè)第一步驟,確定所述眾多的N種事務(wù)的一個(gè)樣本規(guī)模n其中所述樣本規(guī)模n是根據(jù)關(guān)聯(lián)規(guī)則所用的精度需求而確定,其中所述精度需求包括一個(gè)置信度(1-α),用于根據(jù)一個(gè)樣本進(jìn)行的估計(jì),以及其中所述精度需求包括一個(gè)絕對精度d,定義了與在所述眾多的N種事務(wù)之內(nèi)相比,在一個(gè)樣本之內(nèi),一個(gè)某種規(guī)則的支持值的一個(gè)可接受的偏差,以及其中所述精度需求包括一個(gè)期望支持值的一個(gè)上界p,以及其中所述樣本規(guī)模n至少是在一個(gè)估計(jì)樣本規(guī)模n*的量級上,n*=u1-&alpha;22p(1-p)d21+1N(u1-&alpha;22p(1-p)d2-1)]]>式中 為標(biāo)準(zhǔn)正態(tài)分布的百分位,以及所述方法包括一個(gè)第二步驟,按照關(guān)聯(lián)規(guī)則挖掘所用的任何整套方法,根據(jù)所述眾多的N種事務(wù)中規(guī)模為n的一個(gè)樣本,使用所述關(guān)聯(lián)規(guī)則作為所述眾多的N種事務(wù)的估計(jì)關(guān)聯(lián)規(guī)則,計(jì)算關(guān)聯(lián)規(guī)則。
      8.一種計(jì)算機(jī)化的數(shù)據(jù)挖掘方法,用于在眾多的N種事務(wù)之內(nèi)確定關(guān)聯(lián)規(guī)則,每種事務(wù)包括多至p個(gè)不同的項(xiàng)目,所述方法包括一個(gè)第一步驟,確定所述眾多的N種事務(wù)的一個(gè)樣本規(guī)模n其中所述樣本規(guī)模n是根據(jù)關(guān)聯(lián)規(guī)則所用的精度需求而確定,其中所述精度需求包括一個(gè)置信度(1-α),用于根據(jù)一個(gè)樣本進(jìn)行的估計(jì),以及其中所述精度需求包括一個(gè)絕對精度d,定義了與在所述眾多的N種事務(wù)之內(nèi)相比,在一個(gè)樣本之內(nèi),一個(gè)某種規(guī)則的支持值的一個(gè)可接受的或正或負(fù)的偏差,以及其中所述精度需求包括一個(gè)期望支持值的一個(gè)上界p,以及其中所述樣本規(guī)模n至少是在一個(gè)估計(jì)樣本規(guī)模n*的量級上,n*=u1-&alpha;2p(1-p)d21+1N(u1-&alpha;2p(1-p)d2-1)]]>式中u1-α為標(biāo)準(zhǔn)正態(tài)分布的百分位,以及所述方法包括一個(gè)第二步驟,按照關(guān)聯(lián)規(guī)則挖掘所用的任何整套方法,根據(jù)所述眾多的N種事務(wù)中規(guī)模為n的一個(gè)樣本,使用所述關(guān)聯(lián)規(guī)則作為所述眾多的N種事務(wù)的估計(jì)關(guān)聯(lián)規(guī)則,計(jì)算關(guān)聯(lián)規(guī)則。
      9.根據(jù)權(quán)利要求7或8的確定關(guān)聯(lián)規(guī)則所用之計(jì)算機(jī)化的數(shù)據(jù)挖掘方法,其特征在于一個(gè)期望支持值的所述上界p,是p=0.5。
      10.根據(jù)權(quán)利要求1、4、5、7或8中任何一條的確定關(guān)聯(lián)規(guī)則所用的計(jì)算機(jī)化的數(shù)據(jù)挖掘方法,其特征在于挖掘關(guān)聯(lián)規(guī)則所用的所述整套方法,是APRIORI方法。
      11.根據(jù)權(quán)利要求1、4、5、7或8中任何一條的確定關(guān)聯(lián)規(guī)則所用之計(jì)算機(jī)化的數(shù)據(jù)挖掘方法,其特征在于所述樣本通過隨機(jī)采樣而提取。
      12.一種客戶計(jì)算機(jī),用于控制在眾多的N種事務(wù)之內(nèi)確定關(guān)聯(lián)規(guī)則,每種事務(wù)包括多至p個(gè)不同的項(xiàng)目,所述客戶計(jì)算機(jī)從所述眾多的N種事務(wù)中提取一個(gè)樣本規(guī)模為n的樣本,它至少是在一個(gè)估計(jì)樣本規(guī)模n*的量級上,根據(jù)權(quán)利要求1至11中的任何一條的方法確定所述估計(jì)樣本規(guī)模,所述客戶計(jì)算機(jī)把所述樣本發(fā)送到一臺服務(wù)器計(jì)算機(jī),以便確定關(guān)聯(lián)規(guī)則,以及所述客戶計(jì)算機(jī)從所述服務(wù)器計(jì)算機(jī)接收所述確定的關(guān)聯(lián)規(guī)則,使用所述關(guān)聯(lián)規(guī)則作為所述眾多的N種事務(wù)的估計(jì)關(guān)聯(lián)規(guī)則。
      13.根據(jù)權(quán)利要求12的控制確定關(guān)聯(lián)規(guī)則的客戶計(jì)算機(jī),其特征在于,所述客戶計(jì)算機(jī)確定估計(jì)樣本規(guī)模n*,或者所述服務(wù)器計(jì)算機(jī)代表所述客戶計(jì)算機(jī)來確定估計(jì)樣本規(guī)模n*。
      14.一種數(shù)據(jù)處理程序,用于在一個(gè)數(shù)據(jù)處理系統(tǒng)中執(zhí)行,它包括若干軟件代碼部分,當(dāng)所述程序在所述計(jì)算機(jī)上運(yùn)行時(shí),執(zhí)行根據(jù)前面的權(quán)利要求1至11中任何一條的方法。
      15.一種存放在一種計(jì)算機(jī)可用介質(zhì)上的計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)可讀程序裝置,用于當(dāng)所述程序在所述計(jì)算機(jī)上運(yùn)行時(shí),使一臺計(jì)算機(jī)執(zhí)行根據(jù)前面的權(quán)利要求1至11中任何一條的方法。
      全文摘要
      本發(fā)明涉及一種數(shù)據(jù)挖掘技術(shù),用于在眾多的N種事務(wù)之內(nèi)確定關(guān)聯(lián)規(guī)則,每種事務(wù)包括多至p個(gè)不同的項(xiàng)目。依據(jù)本發(fā)明,在眾多的N種事務(wù)中,根據(jù)精度需求確定一個(gè)樣本規(guī)模n。選擇樣本規(guī)模n時(shí),使它至少處于一個(gè)估計(jì)樣本規(guī)模n*的量級上。最后,在眾多的N種事務(wù)中,根據(jù)樣本規(guī)模為n的一個(gè)樣本,按照關(guān)聯(lián)規(guī)則挖掘所用的任何整套方法,使用關(guān)聯(lián)規(guī)則作為眾多的N種事務(wù)的估計(jì)關(guān)聯(lián)規(guī)則,計(jì)算關(guān)聯(lián)規(guī)則。
      文檔編號G06F17/30GK1578955SQ02817246
      公開日2005年2月9日 申請日期2002年7月26日 優(yōu)先權(quán)日2001年9月4日
      發(fā)明者弗蘭克·比克曼, 羅蘭·格倫德, 安德里亞斯·魯?shù)婪?申請人:國際商業(yè)機(jī)器公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1