專利名稱:數(shù)據(jù)劃分設(shè)備和數(shù)據(jù)劃分方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于在n維空間中的點(diǎn)集上進(jìn)行數(shù)據(jù)劃分(分簇)的數(shù)據(jù)劃分設(shè)備和數(shù)據(jù)劃分方法。
背景技術(shù):
近年來,構(gòu)建了一種裝置(plant)系統(tǒng)以便在某些情況下,通過監(jiān)測(cè)附著于裝置系統(tǒng)中所包含的單個(gè)設(shè)備(測(cè)量對(duì)象)上的傳感器的正常范圍來查找裝置中的異常。傳感器的值應(yīng)當(dāng)具有的正常范圍是預(yù)先設(shè)定的,并且當(dāng)傳感器的值超出了正常范圍時(shí)發(fā)出異常警告。隨著傳感器的數(shù)量的增加,需要自動(dòng)設(shè)置正常范圍。為了為特定傳感器(以下稱為目標(biāo)傳感器)設(shè)置正常范圍,可以使用至少一個(gè)其它的傳感器(以下稱為說明傳感器)。已構(gòu)造了用于基于說明傳感器來預(yù)測(cè)目標(biāo)傳感器的模型。如果預(yù)測(cè)值與實(shí)際值差別較大,則目標(biāo)傳感器指示異常值的可能性較高。
可以通過使用過去收集的目標(biāo)傳感器和說明傳感器的時(shí)間序列數(shù)據(jù)(多維數(shù)據(jù))來創(chuàng)建預(yù)測(cè)模型。但是,通常,構(gòu)造這種預(yù)測(cè)模型并不容易。這是因?yàn)槟繕?biāo)傳感器的取值不是唯一地由說明傳感器的值確定,而是還依賴于裝置的運(yùn)行狀態(tài)?,F(xiàn)在將通過使用發(fā)電裝置中的傳感器的例子來描述這種情況。
現(xiàn)在假設(shè)存在繪圖數(shù)據(jù)(運(yùn)行歷史數(shù)據(jù)),其縱坐標(biāo)表示從目標(biāo)傳感器輸出的泵的壓力,并且其橫坐標(biāo)表示從說明傳感器輸出的生成的功率輸出。所述泵具有運(yùn)行狀態(tài)和非運(yùn)行狀態(tài)。假設(shè)在泵的運(yùn)行狀態(tài)中,泵的壓力與生成的功率輸出成比例,并且在泵的非運(yùn)行狀態(tài),泵的壓力具有較低的常數(shù)值。如果通過在不區(qū)分上述兩種運(yùn)行狀態(tài)的情況下使用例如回歸分析而生成基于說明傳感器來預(yù)測(cè)目標(biāo)傳感器的值的模型,則模型的誤差會(huì)很大。最好根據(jù)泵的運(yùn)行狀態(tài)分別生成模型。為了這樣做,需要將運(yùn)行歷史數(shù)據(jù)中的點(diǎn)集劃分為多個(gè)組并分別為每個(gè)組生成模型。
用于將平面或空間中的點(diǎn)進(jìn)行分組的技術(shù)有k-means方法和凝聚(agglomerative)方法。在Michael JA Berry和Gordon Linoff的“DataMining Techniques”(Wiley Computer Publishing,pp.187-215)中描述了這些技術(shù)。
在k-means方法中,預(yù)先選擇k個(gè)初始點(diǎn),并且認(rèn)為剩余點(diǎn)中的每個(gè)點(diǎn)都與這k個(gè)點(diǎn)中距這個(gè)點(diǎn)最近的點(diǎn)屬于同一個(gè)組。計(jì)算每個(gè)組的重心,并將重心作為k個(gè)初始點(diǎn)再次重復(fù)編組。另一方面,在凝聚方法中,將所有的點(diǎn)的組合中具有最短距離的組合看作一個(gè)分組。將已編組的點(diǎn)的重心看作一個(gè)點(diǎn),并重復(fù)類似的處理,直到所有的點(diǎn)都屬于一個(gè)組。另外,至于度量距離的其他方式,存在使用組中最近的點(diǎn)之間的距離的方法和使用最遠(yuǎn)的點(diǎn)之間的距離的方法。
在這些技術(shù)中,基本上將臨近的點(diǎn)分組,并且僅考慮點(diǎn)之間的距離。因此,在這些技術(shù)中,不能進(jìn)行能夠正確反映測(cè)量對(duì)象的上述狀態(tài)的分組,即,反映多維數(shù)據(jù)中固有的趨勢(shì)而不是點(diǎn)之間的距離的分組,例如,接近人類本能的分組。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個(gè)方面,提供了一種數(shù)據(jù)劃分設(shè)備,用于劃分包含多個(gè)數(shù)據(jù)片的多維數(shù)據(jù),其包括數(shù)據(jù)輸入單元,用于輸入多維數(shù)據(jù);候選劃分平面創(chuàng)建器,用于創(chuàng)建多個(gè)候選劃分平面,以用于劃分多維數(shù)據(jù);數(shù)據(jù)臨時(shí)劃分單元,用于通過使用候選劃分平面來臨時(shí)劃分多維數(shù)據(jù),以根據(jù)每個(gè)候選劃分平面生成簇(cluster),每個(gè)簇包含一個(gè)或多個(gè)數(shù)據(jù)片;模型生成器,用于為每個(gè)候選劃分平面生成代表簇的模型;評(píng)價(jià)值計(jì)算器,用于根據(jù)所生成的與候選劃分平面相關(guān)的模型以及多維數(shù)據(jù)來計(jì)算用于評(píng)價(jià)候選劃分平面的評(píng)價(jià)值;候選劃分選擇器,用于比較分別相應(yīng)于候選劃分平面的評(píng)價(jià)值并選擇具有最高評(píng)價(jià)值的候選劃分平面;以及數(shù)據(jù)劃分單元,用于通過使用所選擇的候選劃分平面來劃分多維數(shù)據(jù)。
根據(jù)本發(fā)明的一個(gè)方面,提供了一種數(shù)據(jù)劃分設(shè)備,用于劃分包含多個(gè)數(shù)據(jù)片的多維數(shù)據(jù),其包括數(shù)據(jù)輸入單元,用于輸入多維數(shù)據(jù);候選劃分平面創(chuàng)建器,用于創(chuàng)建多個(gè)候選劃分平面,以用于劃分多維數(shù)據(jù);數(shù)據(jù)臨時(shí)劃分單元,用于通過使用候選劃分平面來臨時(shí)地劃分多維數(shù)據(jù),以根據(jù)每個(gè)候選劃分平面生成簇,每個(gè)簇包含一個(gè)或多個(gè)數(shù)據(jù)片;模型生成器,用于對(duì)每個(gè)候選劃分平面生成代表簇的模型;編組單元,用于根據(jù)多維數(shù)據(jù)中的每個(gè)數(shù)據(jù)片接近哪個(gè)生成的模型將多維數(shù)據(jù)中的數(shù)據(jù)片編組,從而為每個(gè)候選劃分平面生成新的簇;評(píng)價(jià)值計(jì)算器,用于根據(jù)所生成的與候選劃分平面相關(guān)的模型以及所生成的與候選劃分平面相關(guān)的新簇,計(jì)算用于評(píng)價(jià)與候選劃分平面相關(guān)的分組的評(píng)價(jià)值;候選劃分選擇器,用于比較分別相應(yīng)于候選劃分平面的評(píng)價(jià)值并選擇具有最高評(píng)價(jià)值的候選劃分平面。
根據(jù)本發(fā)明的另一個(gè)方面,提供了一種數(shù)據(jù)劃分方法,用于劃分包含多個(gè)數(shù)據(jù)片的多維數(shù)據(jù),所述方法包括輸入多維數(shù)據(jù);創(chuàng)建多個(gè)候選劃分平面以用于劃分多維數(shù)據(jù);通過使用候選劃分平面來臨時(shí)地劃分多維數(shù)據(jù),以根據(jù)每個(gè)候選劃分平面生成簇,每個(gè)簇包含一個(gè)或多個(gè)數(shù)據(jù)片;對(duì)每個(gè)候選劃分平面生成代表簇的模型;根據(jù)所生成的與候選劃分平面相關(guān)的模型以及多維數(shù)據(jù)計(jì)算用于評(píng)價(jià)候選劃分平面的評(píng)價(jià)值;比較分別相應(yīng)于候選劃分平面的評(píng)價(jià)值并選擇具有最高評(píng)價(jià)值的候選劃分平面;通過使用所選擇的候選劃分平面劃分多維數(shù)據(jù);以及對(duì)已劃分的多維數(shù)據(jù)執(zhí)行創(chuàng)建、劃分、生成、計(jì)算、比較和劃分。
圖1顯示了根據(jù)本發(fā)明的一個(gè)實(shí)施例的數(shù)據(jù)劃分系統(tǒng)的結(jié)構(gòu);圖2是數(shù)據(jù)劃分設(shè)備的功能框圖;圖3是顯示由數(shù)據(jù)劃分設(shè)備執(zhí)行的處理的流程的流程圖;圖4是顯示本發(fā)明的一個(gè)實(shí)施例的概要的框圖;圖5顯示了二維輸入數(shù)據(jù)的例子;圖6顯示了離散化之前的數(shù)據(jù)和離散化之后的數(shù)據(jù);
圖7顯示了劃分線的候選;圖8顯示了通過根據(jù)劃分線的劃分生成的簇;圖9顯示了分別為各個(gè)簇而生成的模型;圖10顯示了用于從多個(gè)數(shù)據(jù)劃分中選擇最好的數(shù)據(jù)劃分的技術(shù)的例子;圖11顯示了四個(gè)簇以及根據(jù)相應(yīng)的簇而生成的模型;圖12顯示了如何合并簇;圖13顯示了兩個(gè)簇以及根據(jù)相應(yīng)的簇而生成的模型;圖14是顯示根據(jù)距模型的距離來重新生成簇的框圖;圖15顯示了新的候選劃分線;圖16顯示了四維輸入數(shù)據(jù)的例子;圖17顯示了從圖16所示的數(shù)據(jù)中提取的三維數(shù)據(jù)的例子;圖18顯示了被分配了分類號(hào)的簇的例子;圖19顯示了被分配了分類號(hào)的數(shù)據(jù)的例子;圖20顯示了決策樹的例子;圖21是根據(jù)本發(fā)明的第三實(shí)施例的數(shù)據(jù)劃分設(shè)備的功能框圖;圖22是根據(jù)本發(fā)明的第四實(shí)施例的數(shù)據(jù)劃分設(shè)備的功能框圖;圖23是顯示本發(fā)明的第七實(shí)施例中的評(píng)價(jià)值計(jì)算器的詳細(xì)結(jié)構(gòu)的框圖;圖24是根據(jù)本發(fā)明的第八實(shí)施例的數(shù)據(jù)劃分設(shè)備的功能框圖。
具體實(shí)施例方式
首先,將簡(jiǎn)要描述本發(fā)明的一個(gè)實(shí)施例的概要。
圖4是顯示本發(fā)明的一個(gè)實(shí)施例的概要的框圖;測(cè)量對(duì)象21、22、23和24被布置在裝置的設(shè)備中。將傳感器x、y、z和w分別安裝在測(cè)量對(duì)象21、22、23和24中。將分別從傳感器x、y、z和w按時(shí)間順序獲取的數(shù)據(jù)11、12、13和14存儲(chǔ)為序列長(zhǎng)度為n的四維數(shù)據(jù)(多維數(shù)據(jù))(見圖5,但是圖5顯示了序列長(zhǎng)度為n的二維數(shù)據(jù))。將傳感器x、y、z和w中的一個(gè)指定為目標(biāo)傳感器,并將其余的傳感器指定為說明傳感器。假設(shè)傳感器y被指定為目標(biāo)傳感器,傳感器x、z和w被指定為說明傳感器。
本實(shí)施例提供了能夠反映目標(biāo)傳感器的測(cè)量對(duì)象的狀態(tài)以及在多維數(shù)據(jù)上進(jìn)行數(shù)據(jù)劃分(分簇)的技術(shù),即,正確反映多維數(shù)據(jù)中固有的趨勢(shì)而不是點(diǎn)之間的距離的數(shù)據(jù)劃分。通過這種數(shù)據(jù)劃分,將多維數(shù)據(jù)正確劃分到多個(gè)簇之中。在本實(shí)施例中,還生成分別對(duì)應(yīng)于簇的模型。圖4顯示了一個(gè)例子,其中根據(jù)多維數(shù)據(jù)生成兩個(gè)簇15a和16a,并且分別根據(jù)所述簇生成模型15b和16b。這里,僅x和z被用作說明傳感器。
將這樣生成的模型15b和16b用于例如實(shí)時(shí)地確定目標(biāo)傳感器y的值是否在正確的范圍之內(nèi)。例如,根據(jù)之前生成的分類規(guī)則確定在特定時(shí)間點(diǎn)獲取的目標(biāo)傳感器的數(shù)據(jù)17屬于簇15a和16a中的哪一個(gè)。假設(shè)數(shù)據(jù)17屬于簇15a。在這種情況下,將數(shù)據(jù)17輸入到模型15b并得到模型輸出。計(jì)算模型輸出和數(shù)據(jù)17之間的差18。如果差18在預(yù)定的范圍之內(nèi),則判定測(cè)量對(duì)象處于正常狀態(tài)。否則,判定測(cè)量對(duì)象處于異常狀態(tài)。
下面,將詳細(xì)描述本發(fā)明的實(shí)施例。
(第一實(shí)施例)圖1是顯示根據(jù)本實(shí)施例的數(shù)據(jù)劃分系統(tǒng)的結(jié)構(gòu)的框圖。
該數(shù)據(jù)劃分系統(tǒng)包括CPU 31、存儲(chǔ)器32、硬盤33以及顯示設(shè)備34。在硬盤33上存儲(chǔ)了用于實(shí)現(xiàn)本實(shí)施例的程序。將從多個(gè)傳感器按時(shí)間序列獲取的數(shù)據(jù)存儲(chǔ)在硬盤33上作為多維數(shù)據(jù)。CPU 31將存儲(chǔ)在硬盤33上的程序加載到存儲(chǔ)器32中并執(zhí)行該程序。顯示設(shè)備34將CPU 31的執(zhí)行結(jié)果顯示給用戶。
圖2是CPU 31(數(shù)據(jù)劃分設(shè)備)的功能模塊。圖3是顯示CPU 31執(zhí)行的處理的流程的流程圖。
圖2所示的數(shù)據(jù)劃分設(shè)備包括數(shù)據(jù)輸入單元41、數(shù)據(jù)離散化單元42、候選劃分平面創(chuàng)建器43、數(shù)據(jù)臨時(shí)劃分單元44、模型生成器45、評(píng)價(jià)值計(jì)算器46、候選劃分選擇器47、以及劃分/決策單元48。
數(shù)據(jù)輸入單元41將多維數(shù)據(jù)輸入到數(shù)據(jù)離散化單元42。多維數(shù)據(jù)包括多個(gè)數(shù)據(jù)片。多維數(shù)據(jù)的例子如圖5所示。這里,顯示了序列長(zhǎng)度為n的二維數(shù)據(jù)。維數(shù)可以大于二。
數(shù)據(jù)離散化單元42將輸入的多維數(shù)據(jù)離散化(步驟1)。下面,將描述其細(xì)節(jié)。
通過使用最小值和最大值將x和y維中每一個(gè)中的元素離散化為0到1-m范圍之內(nèi)的整數(shù)。這里,m是用戶給定的任意整數(shù)。例如,假設(shè)x維具有最小值xmin和最大值xmax并且第i個(gè)數(shù)據(jù)(即第i個(gè)數(shù)據(jù)片)在x維中具有值xi。x維中的第i個(gè)數(shù)據(jù)被離散化之后的值xdi依賴于xi處于將xmin和xmax之間的范圍用m等分所得到的部分中從頭開始的哪個(gè)部分。也對(duì)y維進(jìn)行前面所描述的處理。通過前面所描述的處理,將數(shù)據(jù)i在各個(gè)維的元素xi和yi分別離散化為xdi和ydi(其中0≤xdi≤m-1,0≤ydi≤m-1,并且xdi和ydi是整數(shù))。
圖6顯示了如何離散化輸入數(shù)據(jù)(多維數(shù)據(jù))。左半部分顯示了離散化之前的數(shù)據(jù),而右半部分顯示了離散化之后的數(shù)據(jù)(矩陣)。在這個(gè)例子中,顯示了多維數(shù)據(jù)是二維數(shù)據(jù)并且m=8的情況。每個(gè)離散化之前的二維點(diǎn)在離散化之后都被映射在8乘8矩陣中的一個(gè)方格中。例如,如果離散化之前的第i個(gè)數(shù)據(jù)在離散化之后變?yōu)閤di=2和ydi=4,則向圖6的右半部分所示的矩陣中的x維為2并且y維為4的方格加1。在圖6的右半部分中,每個(gè)空白表示0。將處于相同方格中的數(shù)據(jù)(點(diǎn))當(dāng)作具有(例如)同一個(gè)方格的中心坐標(biāo)的數(shù)據(jù)。
在下面描述的處理以及其它實(shí)施例的處理中,離散化之前的數(shù)據(jù)和離散化之后的數(shù)據(jù)都可以用作多維數(shù)據(jù),除非另外說明。在前一種情況中,處理較快,但是精度較低。相反地,在后一種情況中,處理時(shí)間較長(zhǎng),但是精度較高。也就是說,離散化處理被執(zhí)行以減少步驟2以及后續(xù)步驟的處理中的計(jì)算量,對(duì)本發(fā)明來講不是必需的。
候選劃分平面創(chuàng)建器43找到一組與每個(gè)軸垂直的平面(在二維數(shù)據(jù)的情況下是一組直線),作為用于切分多維數(shù)據(jù)(點(diǎn)集)的劃分平面的候選(步驟2)。
這里,將數(shù)據(jù)離散化單元42所生成的矩陣中的兩個(gè)相鄰部分之間的分界線用作劃分平面。這里,相鄰劃分平面之間的間隔是常數(shù)。但是,間隔不必總是常數(shù)。每一維有m-1個(gè)劃分平面。圖7顯示了用于劃分x維的直線的候選直線lx1到lx7,以及用于劃分y維的直線的候選ly1到ly7。
數(shù)據(jù)臨時(shí)劃分單元44通過使用利用候選劃分平面創(chuàng)建器43獲得的劃分平面來切分多維數(shù)據(jù)并生成兩個(gè)簇(步驟3)。圖8顯示了使用垂直于y維的直線ly4而生成的兩個(gè)簇A和B的例子。
模型生成器45分別根據(jù)通過數(shù)據(jù)臨時(shí)劃分單元44獲得的兩個(gè)簇A和B生成模型A和B(步驟4)。也就是說,模型生成器45使用屬于簇A的輸入數(shù)據(jù)生成模型A,并使用屬于簇B的輸入數(shù)據(jù)生成模型B。分別根據(jù)簇A和B而生成的模型A和B如圖9所示。在生成模型時(shí),例如,可以使用回歸分析。也就是說,可以通過尋找使用x在y上進(jìn)行回歸的直線生成模型。對(duì)于模型的生成,除了回歸分析以外還可以使用各種技術(shù)。例如,也可以使用主成分分析。
評(píng)價(jià)值計(jì)算器46根據(jù)由模型生成器45生成的模型以及輸入數(shù)據(jù)為上述劃分計(jì)算評(píng)價(jià)值(步驟5)。下面將描述該計(jì)算的細(xì)節(jié)。
將使用所述模型根據(jù)x而估計(jì)的y與實(shí)際的y之間的差的絕對(duì)值當(dāng)作誤差。對(duì)于簇A中的點(diǎn),將基于模型A的誤差相加以計(jì)算出模型A的誤差。對(duì)于簇B中的點(diǎn),將基于模型B的誤差相加以計(jì)算出模型B的誤差。將模型A的誤差和模型B的誤差相加。將相加所得的結(jié)果除以包含在簇A和B中的所有點(diǎn)的數(shù)量(數(shù)據(jù)的數(shù)量)。將得到的值用作評(píng)價(jià)值。
可以如下所述計(jì)算評(píng)價(jià)值。也就是說,將所有點(diǎn)的y的估計(jì)值和真實(shí)的y值之間的差的平方相加。將得到的和除以所有點(diǎn)的數(shù)量,將除法的結(jié)果的平方根用作評(píng)價(jià)值。
在將主成分分析用于生成上述模型的情況下,如果假設(shè)是k維輸入數(shù)據(jù),將由第一到第(k-1)個(gè)主成分所張成(span)的平面用作模型,并將所述模型和點(diǎn)之間的距離當(dāng)作誤差。其后,以與使用回歸分析的情況中同樣的方式計(jì)算評(píng)價(jià)值。
在每個(gè)候選劃分平面上執(zhí)行前述步驟3到5。從而計(jì)算出關(guān)于每個(gè)候選劃分平面的評(píng)價(jià)值。
候選劃分選擇器47從與候選劃分平面的數(shù)量相同(這里,數(shù)量為14)的多個(gè)生成的評(píng)價(jià)值中選擇具有最高評(píng)價(jià)值(例如,最小評(píng)價(jià)值)的候選劃分平面(步驟6)。然而,如果滿足結(jié)束條件(不滿足繼續(xù)條件),則候選劃分選擇器47輸出表示處理結(jié)束的結(jié)束信號(hào),而不選擇候選劃分平面。結(jié)束條件是例如,最小評(píng)價(jià)值不比預(yù)設(shè)的閾值低。
劃分/決策單元48通過由候選劃分選擇器47所選擇的劃分平面來劃分輸入數(shù)據(jù)(點(diǎn)集),并生成兩個(gè)新的數(shù)據(jù)集(步驟7)。為了相對(duì)于每個(gè)新生成的數(shù)據(jù)集重復(fù)由功能單元43到47執(zhí)行的處理(步驟2到7),劃分/決策單元48將每個(gè)數(shù)據(jù)集輸出到候選劃分平面創(chuàng)建器43(步驟8)。劃分/決策單元48以例如下列方式來確定該重復(fù)處理的結(jié)束。
也就是說,當(dāng)將數(shù)據(jù)集發(fā)送到候選劃分平面創(chuàng)建器34時(shí),劃分/決策單元48為每個(gè)數(shù)據(jù)集設(shè)置標(biāo)記。如果相對(duì)于特定的數(shù)據(jù)集輸入了結(jié)束信號(hào)或者進(jìn)行了劃分,則將該數(shù)據(jù)集的標(biāo)記擦除。如果擦除了所有標(biāo)記,則確定處理結(jié)束。如果在圖3所示的流程的第一輪循環(huán)中輸入了結(jié)束信號(hào),則在該時(shí)間點(diǎn)確定處理結(jié)束。
由于前述處理,遞歸地切分了輸入數(shù)據(jù)并生成簇。
根據(jù)本實(shí)施例,如前所述,遞歸地重復(fù)以下處理,即,根據(jù)模型選擇誤差最小的劃分平面并通過使用所選擇的劃分平面進(jìn)行數(shù)據(jù)劃分(分簇)。因此,可以將多維數(shù)據(jù)劃分到多個(gè)簇,同時(shí)正確地反映趨勢(shì)而不是點(diǎn)之間的距離。因此,例如,當(dāng)使用其他傳感器的值創(chuàng)建用于估計(jì)裝置中的每個(gè)傳感器的正常變化范圍的模型時(shí),能夠?qū)⑦\(yùn)行歷史數(shù)據(jù)分成運(yùn)行狀態(tài)不同的數(shù)據(jù)。
(第二實(shí)施例)在本實(shí)施例中,將更詳細(xì)地描述由評(píng)價(jià)值計(jì)算器46執(zhí)行的評(píng)價(jià)值計(jì)算。
如第一實(shí)施例所述,通過由候選劃分平面創(chuàng)建器43創(chuàng)建的特定候選劃分平面(表示為φi)將數(shù)據(jù)劃分為DAi和DBi(生成簇Ai和Bi),分別為DAi和DBi計(jì)算模型Ai和Bi以及誤差error_Ai和error_Bi。這里,誤差error_Ai是屬于DAi的數(shù)據(jù)的誤差的總和,誤差error_Bi是屬于DBi的數(shù)據(jù)的誤差的總和。屬于DAi的數(shù)據(jù)的數(shù)量和屬于DBi的數(shù)據(jù)的數(shù)量分別表示為num_Ai和num_Bi。
用下列等式分別為DAi和DBi計(jì)算模型評(píng)價(jià)值error_adjust_Ai和error_adjust_Bi。
error_adjust_Ai=error_Ai-α×num_Ai+βerror_adjust_Bi=error_Bi-α×num_Bi+β對(duì)于α,例如,可以使用值(劃分前的誤差/劃分前的數(shù)據(jù)的數(shù)量)。這里,β是用于確定劃分終止的參數(shù)。
對(duì)于評(píng)價(jià)值error_adjust_i,可以使用通過使error_adjust_Ai和error_adjust_Bi與各自的權(quán)重相乘,并將得到的乘積相加所得到的值,或者使用具有較小值的error_adjust_Ai或error_adjust_Bi。如果error_adjust_i大于等于閾值(例如,零),則不采用候選劃分平面φi作為劃分的候選。
圖10是顯示了當(dāng)error_adjust_i=min(error_adjust_Ai,error_adjust_Bi)并且α=(劃分前的誤差/劃分前的數(shù)據(jù)的數(shù)量)時(shí)選擇劃分平面的候選中的哪個(gè)候選的示圖。
圖10所示的點(diǎn)對(duì)應(yīng)于模型Ai或Bi,模型Ai或Bi分別與使用候選劃分平面φI進(jìn)行劃分而生成的簇Ai或者Bi相關(guān)。也就是說,一個(gè)點(diǎn)對(duì)應(yīng)于一個(gè)模型。因此,每個(gè)候選劃分平面生成兩個(gè)點(diǎn)??v坐標(biāo)表示模型誤差(error_Ai,error_Bi),橫坐標(biāo)表示數(shù)據(jù)的數(shù)量(number_Ai,number_Bi)。
這里,希望具有較小的模型誤差。如果該值大致相同,則希望在簇中包含較大數(shù)量的數(shù)據(jù)。根據(jù)這個(gè)標(biāo)準(zhǔn),希望圖中的點(diǎn)盡可能位于右下角。為了闡明選擇最佳點(diǎn)的基準(zhǔn),確定圖10所示的、通過原點(diǎn)并具有傾角α的基準(zhǔn)線。將基準(zhǔn)線向與該線垂直的右下方向(即,縱坐標(biāo)的負(fù)方向)移動(dòng),并采用對(duì)應(yīng)于最終重疊的點(diǎn)(模型)的評(píng)價(jià)值。將這時(shí)的直線稱為最大評(píng)價(jià)線,并且將具有所采用的評(píng)價(jià)值的點(diǎn)稱為最大評(píng)價(jià)點(diǎn)。
這里,通過將具有傾角α的基準(zhǔn)線向縱坐標(biāo)的負(fù)方向移動(dòng)β所得到的直線被稱為閾值線。如果最大評(píng)價(jià)線處于閾值線之上或在其以下,則通過使用具有最大評(píng)價(jià)點(diǎn)的候選劃分平面來進(jìn)行數(shù)據(jù)劃分。另一方面,如果最大評(píng)價(jià)線在閾值線以上,則停止數(shù)據(jù)劃分。也就是說,候選劃分選擇器47輸出結(jié)束信號(hào)。
根據(jù)本實(shí)施例,如上所述,通過使用劃分之前的誤差和用于確定劃分的終止的參數(shù)來計(jì)算評(píng)價(jià)值。因此,可以正確地選擇候選劃分平面。
(第三實(shí)施例)在本實(shí)施例中,增加了用于合并根據(jù)第一實(shí)施例生成的簇的處理。下面,將詳細(xì)描述本實(shí)施例。
圖21是示意性地顯示根據(jù)本實(shí)施例的數(shù)據(jù)劃分設(shè)備的結(jié)構(gòu)的功能框圖。
元件41到48與圖2所示的相同。元件43到48所執(zhí)行的處理階段稱為劃分階段。在本實(shí)施例中,數(shù)據(jù)劃分設(shè)備還包括合并候選生成器51,合并候選選擇器52,模型生成器53,合并評(píng)價(jià)值計(jì)算器54,以及合并/決策單元55。在劃分階段之后,由這些元件51到55執(zhí)行合并階段。
圖11顯示了在劃分階段使用組成部分43到48,基于特定的輸入數(shù)據(jù)而生成的簇。假設(shè)按照(1)、(2)和(3)的順序選擇劃分線,并且生成簇A、B、C和D以及模型A、B、C和D。然后,由元件51到55執(zhí)行合并階段。下面,將描述合并階段的執(zhí)行。
合并候選生成器51通過使用基于簇A、B、C和D的所有組合生成簇對(duì)。從而生成簇對(duì)(A,B)、(A,C)、(A,D)、(B,C)、(B,D)以及(C,D)(合并候選)。
合并候選選擇器52相繼地選擇所生成的簇對(duì)并將它們輸出到模型生成器53。
模型生成器53在每個(gè)輸入對(duì)中的點(diǎn)集上執(zhí)行模型生成。
合并評(píng)價(jià)值計(jì)算器54為每個(gè)生成的模型計(jì)算合并評(píng)價(jià)值。根據(jù)使用例如模型誤差、數(shù)據(jù)的數(shù)量以及模型的數(shù)量的函數(shù)計(jì)算合并評(píng)價(jià)值。在簇對(duì)(A,B)的情況下,如下所述執(zhí)行計(jì)算。假設(shè)模型A和B的誤差分別是error_A和error_B,并且數(shù)據(jù)的數(shù)量分別是num_A和num_B。此外,假設(shè)當(dāng)將簇A和B合并時(shí)所得到的模型AB的誤差是error_AB,并且數(shù)據(jù)的數(shù)量為num_AB。可以按照與第一實(shí)施例相同的方式計(jì)算error_A和error_B以及error_AB。獲得(num_A/num_AB)*error_A+(num_B/num_AB)*error_B+1*γ與error_AB+2*γ之間的差,作為合并評(píng)價(jià)值。這里,γ是用戶給定的常數(shù),并且“1”和“2”中的每一個(gè)都代表模型的數(shù)量。
如果合并評(píng)價(jià)值滿足預(yù)定的標(biāo)準(zhǔn)(reference)(合并標(biāo)準(zhǔn)),例如,如果合并評(píng)價(jià)值小于或等于預(yù)定值,則由合并/決策單元55合并簇對(duì)中的簇。如果特定簇屬于多個(gè)滿足預(yù)定標(biāo)準(zhǔn)的簇對(duì),則具有較低合并評(píng)價(jià)值的簇對(duì)優(yōu)先。
在本例中,如上所述,有六種方式的簇對(duì)(A,B)、(A,C)、(A,D)、(B,C)、(B,D)以及(C,D)。(A,C)和(B,D)的合并評(píng)價(jià)值滿足上述預(yù)定標(biāo)準(zhǔn)。因此,合并/決策單元55合并簇A和C以生成簇E,并合并簇B和D以生成簇F。該狀態(tài)如圖12所示。
合并/決策單元55將所生成的簇(這里為E和F)以及還未被合并的簇(在本例中沒有)輸出到合并候選生成器51。對(duì)于這些簇重復(fù)上述處理。因?yàn)楦鶕?jù)簇對(duì)(E,F(xiàn))計(jì)算出的合并評(píng)價(jià)值不滿足預(yù)定標(biāo)準(zhǔn),所以合并/決策單元55終止處理而不合并簇E和F。也就是說,最終剩下簇E和F。
另外,在合并候選生成器51中,簇對(duì)可以僅包含相鄰的簇。在這種情況下,可以減少簇對(duì)的數(shù)量。
根據(jù)本實(shí)施例,如上所述合并簇。因此,能夠防止簇的數(shù)量不必要地增加。
(第四實(shí)施例)圖22是示意性地顯示根據(jù)本實(shí)施例的數(shù)據(jù)劃分設(shè)備的結(jié)構(gòu)的框圖。
首先,按照與第一實(shí)施例相同的方式由數(shù)據(jù)輸入單元61和數(shù)據(jù)離散化單元62執(zhí)行處理。在后續(xù)處理中,既可以用離散化之前的數(shù)據(jù)也可以用離散化之后的數(shù)據(jù)作為多維數(shù)據(jù)。在前一種情況下,處理較快,但精度較低。相反地,在后一種情況下,處理時(shí)間較長(zhǎng),但精度較高。
隨后,由候選劃分平面創(chuàng)建器63執(zhí)行處理。然后,數(shù)據(jù)臨時(shí)劃分單元64用特定的候選劃分線1將輸入數(shù)據(jù)劃分為兩個(gè)簇A和B。隨后,模型生成器65分別根據(jù)簇A和B生成模型A和B。該狀態(tài)如圖13所示。
這里,編組單元66根據(jù)距模型的距離將點(diǎn)(輸入數(shù)據(jù))重新編組。假設(shè)接近模型A的點(diǎn)屬于簇A并且接近模型B的點(diǎn)屬于簇B。該狀態(tài)如圖14所示。
評(píng)價(jià)值計(jì)算器67按照與第一或第二實(shí)施例同樣的方式,基于重編組之后的簇A和B以及模型A和B,計(jì)算評(píng)價(jià)值,并將所計(jì)算的評(píng)價(jià)值輸出到候選劃分選擇器68。
當(dāng)接收到所有候選劃分線的評(píng)價(jià)值時(shí),候選劃分選擇器68將對(duì)應(yīng)于具有最佳評(píng)價(jià)值的候選劃分線的分組結(jié)果以及最佳評(píng)價(jià)值輸出到?jīng)Q策單元69。如果最佳評(píng)價(jià)值滿足由用戶確定的基準(zhǔn)值,則決策單元69終止處理。如果最佳評(píng)價(jià)值不滿足基準(zhǔn)值,則決策單元69將每個(gè)組傳送給候選劃分平面創(chuàng)建器63。在前面的描述中,還可以重復(fù)由模型生成器65、編組單元66以及評(píng)價(jià)值計(jì)算器67執(zhí)行的處理。也就是說,模型生成器65和編組單元66再次執(zhí)行模型生成和分組,并且評(píng)價(jià)值計(jì)算器67計(jì)算其評(píng)價(jià)值。該處理會(huì)重復(fù)進(jìn)行直到評(píng)價(jià)值不再改進(jìn),即,直到評(píng)價(jià)的變化小于等于特定值,或者可以將所述處理重復(fù)特定的次數(shù)。
(第五實(shí)施例)在第五實(shí)施例中,將圖2所示的候選劃分選擇器47所選擇的劃分線(劃分平面)偏移,并搜索具有最高評(píng)價(jià)的劃分線。下面,將詳細(xì)描述本實(shí)施例。
假設(shè)由候選劃分選擇器47為特定的輸入數(shù)據(jù)選擇劃分線1。假設(shè)劃分線1-和1+與劃分線1相鄰。候選劃分選擇器47在直線1-和1+之間創(chuàng)建新的候選劃分線。對(duì)于創(chuàng)建新的候選劃分線的方式,可以將1-和1+之間的間隔簡(jiǎn)單地分為相等的部分,或者可以將包括在1-和1+之間的點(diǎn)分開。以劃分包含在1-和1+之間的六個(gè)點(diǎn)的方式進(jìn)行畫線的例子如圖15所示。另外,如果在該處理或后續(xù)處理中使用離散化之后的數(shù)據(jù),則需要將1-和1+之間的數(shù)據(jù)再次離散化。然后,通過使用這些新的劃分線作為候選劃分線再次執(zhí)行使用數(shù)據(jù)臨時(shí)劃分單元44、模型生成器45和評(píng)價(jià)值計(jì)算器46的處理。也就是說,候選劃分選擇器47將新的候選劃分線輸出到數(shù)據(jù)臨時(shí)劃分單元44,并從評(píng)價(jià)值計(jì)算器46獲取對(duì)應(yīng)于新的候選劃分線的評(píng)價(jià)值。候選劃分選擇器47從新的劃分線的候選以及劃分線1中選擇具有最高評(píng)價(jià)的一個(gè)作為劃分線。
根據(jù)本實(shí)施例,如上所述,將劃分線1在相鄰劃分線的范圍內(nèi)偏移。因此,能夠與劃分線的間隔無(wú)關(guān)地執(zhí)行數(shù)據(jù)劃分。
(第六實(shí)施例)在本實(shí)施例中,在改變將要使用的維的組合的同時(shí)執(zhí)行數(shù)據(jù)劃分(分簇)。下面,將詳細(xì)描述本實(shí)施例。
四維輸入數(shù)據(jù)的例子如圖16所示。這里,一個(gè)特定的維被稱為目標(biāo)維并預(yù)先給定。假設(shè)圖16中y維是目標(biāo)維。其余的維稱為說明維。在處理前規(guī)定將要使用的維數(shù)。假設(shè)維數(shù)為3。
首先,從說明維中選擇兩維,并假定包含所選擇的兩個(gè)維和目標(biāo)維的三維序列。通常,如果將要使用的維數(shù)是k,則從說明維中選擇k-1維。如果選擇了由x和z維以及y維形成的序列,則獲得圖17所示的序列。在圖2所示的設(shè)備中,對(duì)所述數(shù)據(jù)應(yīng)用一次圖3中所示的從步驟1到5的處理。當(dāng)在步驟4生成模型時(shí),將生成以目標(biāo)維作為目標(biāo)變量的模型。同樣在x、y和w維的組合以及y、z和w維的組合上執(zhí)行類似的處理。從而,候選劃分平面創(chuàng)建器43分別為(x,y,z)、(x,y,w)以及(y,z,w)生成多個(gè)候選劃分平面,并且候選劃分選擇器47為(x,y,z)、(x,y,w)以及(y,z,w)中的每一個(gè)選擇一個(gè)候選。其后,候選劃分選擇器47在它們中指定具有最高評(píng)價(jià)的維組合,并采用對(duì)應(yīng)于所指定的組合的候選劃分平面。劃分/決策單元48通過使用該劃分平面執(zhí)行數(shù)據(jù)劃分。遞歸地重復(fù)該處理。
另外,可以將說明維分成兩種維,即,一個(gè)固定的說明維和一個(gè)附加的說明維。固定的說明維是必須使用的維,附加的說明維是在處理過程中選擇的維。例如,假設(shè)y維是目標(biāo)維,x維是固定說明維,以及z和w維是附加說明維,對(duì)x、y和z維的組合以及x、y和w維的組合執(zhí)行上述處理。
根據(jù)本實(shí)施例,如前所述,在將用于數(shù)據(jù)劃分的說明維的數(shù)量限制為較小的數(shù)量的情況下,可以執(zhí)行能夠生成高精度模型的數(shù)據(jù)劃分。
(第七實(shí)施例)在本實(shí)施例中,在第一實(shí)施例的基礎(chǔ)上改進(jìn)了由評(píng)價(jià)值計(jì)算器46執(zhí)行的評(píng)價(jià)值計(jì)算。本實(shí)施例中的評(píng)價(jià)值計(jì)算器71的詳細(xì)結(jié)構(gòu)如圖23所示。評(píng)價(jià)值計(jì)算器71包括數(shù)據(jù)輸入單元72、分類號(hào)提供單元(分類號(hào)分配單元)73、決策樹生成器74以及擴(kuò)展評(píng)價(jià)值計(jì)算器75。除評(píng)價(jià)值計(jì)算器之外的結(jié)構(gòu)與圖2所示的類似。下面,將詳細(xì)描述本實(shí)施例。
在本實(shí)施例中,數(shù)據(jù)劃分和劃分平面評(píng)價(jià)中使用的維可以是輸入數(shù)據(jù)維的全部或者一部分。此外,數(shù)據(jù)劃分中使用的維可以與劃分平面評(píng)價(jià)中使用的維相同或者不同。
假設(shè)輸入數(shù)據(jù)是四維的,將三維x、y和z用于數(shù)據(jù)劃分,并且將四維x、y、z和w用于劃分平面評(píng)價(jià)。這里,一個(gè)特定維被稱為目標(biāo)維并預(yù)先給定。假設(shè)y維是目標(biāo)維。其余維稱為說明維。
首先,根據(jù)第一實(shí)施例在數(shù)據(jù)離散化單元42、候選劃分平面創(chuàng)建器43、數(shù)據(jù)臨時(shí)劃分單元44以及模型生成器45中處理x、y和z維的數(shù)據(jù)。
評(píng)價(jià)值計(jì)算器71中的分類號(hào)提供單元73為每個(gè)簇分配一個(gè)號(hào)碼。該號(hào)碼被稱為分類號(hào)。所生成的簇的例子如圖18所示。此外,分類號(hào)提供單元73為輸入數(shù)據(jù)1到n中的每一個(gè)分配一個(gè)分類號(hào)。具有所分配的分類號(hào)的數(shù)據(jù)如圖19所示。在每個(gè)數(shù)據(jù)的最右邊添加的0或者1是分類號(hào)。為每個(gè)候選劃分平面執(zhí)行前述處理。
評(píng)價(jià)值計(jì)算器71中的決策樹生成器(分類規(guī)則生成器)74生成決策樹(分類規(guī)則),該決策樹使輸入數(shù)據(jù)的維中的非目標(biāo)維y的維(即,說明維)作為它的屬性并且使分類號(hào)作為它的類。根據(jù)圖19所示的數(shù)據(jù)生成的決策樹的例子如圖20所示。生成該決策樹時(shí),可以使用除用于數(shù)據(jù)劃分以外的那些數(shù)據(jù)。在這種情況下,從數(shù)據(jù)輸入單元72向決策樹生成器74提供有關(guān)的數(shù)據(jù)。決策樹生成器74生成對(duì)應(yīng)于每個(gè)候選劃分平面的決策樹。
評(píng)價(jià)值計(jì)算器71中的擴(kuò)展評(píng)價(jià)值計(jì)算器75按照與第一實(shí)施例同樣的方式為每個(gè)候選劃分平面計(jì)算評(píng)價(jià)值e,并計(jì)算以下值,例如對(duì)應(yīng)于每個(gè)候選劃分平面的決策樹的精度p以及決策樹的深度d(在圖20的情況下深度為1)。并且擴(kuò)展的評(píng)價(jià)值計(jì)算器75通過使用值p和d修改評(píng)價(jià)值e,并計(jì)算擴(kuò)展評(píng)價(jià)值。例如,擴(kuò)展評(píng)價(jià)值計(jì)算器75通過使用表達(dá)式e+r×p+s×d來計(jì)算擴(kuò)展評(píng)價(jià)值。這里,r和s是權(quán)重系數(shù)。
接著評(píng)價(jià)值計(jì)算器71,候選劃分選擇器47(見圖2)通過使用該擴(kuò)展評(píng)價(jià)值來選擇候選劃分平面。例如,候選劃分選擇器47選擇具有最小評(píng)價(jià)值的候選劃分平面。
根據(jù)本實(shí)施例,計(jì)算評(píng)價(jià)值時(shí)如前所述考慮諸如分類規(guī)則的精度和深度這樣的要素。因此,可以正確的選擇候選劃分平面。
(第八實(shí)施例)在本實(shí)施例中,在維的多種組合方式上執(zhí)行上述任何實(shí)施例中的處理,并且相應(yīng)地根據(jù)維的組合生成模型。評(píng)價(jià)對(duì)應(yīng)于維的組合的模型,并采用對(duì)應(yīng)于具有最高評(píng)價(jià)的模型的數(shù)據(jù)劃分。下面,將詳細(xì)描述本實(shí)施例。
圖24是示意性地顯示根據(jù)本實(shí)施例的數(shù)據(jù)劃分設(shè)備的結(jié)構(gòu)的框圖。
組成部分81表示多個(gè)數(shù)據(jù)劃分設(shè)備A、B、C…。數(shù)據(jù)劃分設(shè)備A、B、C…是根據(jù)第一到第七實(shí)施例中任何一個(gè)的數(shù)據(jù)劃分設(shè)備。例如,數(shù)據(jù)劃分設(shè)備A、B、C…是根據(jù)第一實(shí)施例的數(shù)據(jù)劃分設(shè)備,或者數(shù)據(jù)劃分設(shè)備A、B、C…是根據(jù)第二實(shí)施例的數(shù)據(jù)劃分設(shè)備。但是,數(shù)據(jù)劃分設(shè)備A、B、C…中的每一個(gè)都不包括數(shù)據(jù)輸入單元。在本實(shí)施例中,設(shè)置了數(shù)據(jù)劃分設(shè)備A、B、C…公用的數(shù)據(jù)輸入單元82。
假設(shè)從數(shù)據(jù)輸入單元82提供到數(shù)據(jù)劃分設(shè)備A、B、C…的輸入數(shù)據(jù)是相同的,并且在數(shù)據(jù)劃分設(shè)備A、B、C…中目標(biāo)維是相同的。但是,數(shù)據(jù)劃分中使用的維對(duì)于每個(gè)數(shù)據(jù)劃分設(shè)備可以不同。例如,假設(shè)目標(biāo)維是y,數(shù)據(jù)劃分設(shè)備A、B、C…分別使用(x,y,z)、(x,y,w)、(z,y,w)用于數(shù)據(jù)劃分。此外,維數(shù)可以不同。在這種情況下,使用(x,y)、(y,z)、(y,w)。通過處理,數(shù)據(jù)劃分設(shè)備A、B、C…分別輸出模型A、B、C…和候選數(shù)據(jù)劃分A、B、C…。候選數(shù)據(jù)劃分A包括多個(gè)通過數(shù)據(jù)劃分而獲得的簇,并且模型A是對(duì)應(yīng)于相應(yīng)的簇的一組模型。以同樣的方式,候選數(shù)據(jù)劃分B包括多個(gè)通過數(shù)據(jù)劃分而獲得的簇,并且模型B是對(duì)應(yīng)于相應(yīng)的簇的一組模型。候選數(shù)據(jù)劃分C包括多個(gè)通過數(shù)據(jù)劃分而獲得的簇,并且模型C是對(duì)應(yīng)于相應(yīng)的簇的一組模型。
分類號(hào)提供單元(分類號(hào)分配單元)83為包含在候選數(shù)據(jù)劃分A、B、C…中的每個(gè)簇提供一個(gè)分類號(hào)。分類號(hào)提供單元83為包含在輸入數(shù)據(jù)中的每個(gè)數(shù)據(jù)提供一個(gè)分類號(hào)。
決策樹生成器84為候選數(shù)據(jù)劃分A、B、C…中的每一個(gè)生成決策樹A、B、C…,所述決策樹A、B、C…將非目標(biāo)維的維(即,說明維)作為屬性,并將分類號(hào)作為類。用于生成決策樹的數(shù)據(jù)可以與用于數(shù)據(jù)劃分的數(shù)據(jù)相同,或者與用于數(shù)據(jù)劃分的數(shù)據(jù)不同。在后一種情況下,從數(shù)據(jù)輸入單元87向決策樹生成器84提供數(shù)據(jù)。
擴(kuò)展評(píng)價(jià)值計(jì)算器85通過使用決策樹A、B、C…根據(jù)第七實(shí)施例中指明的值e、p和d為模型A、B、C…中的每一個(gè)計(jì)算擴(kuò)展評(píng)價(jià)值。
最佳數(shù)據(jù)劃分選擇器86選擇擴(kuò)展評(píng)價(jià)值中具有最高評(píng)價(jià)的候選數(shù)據(jù)劃分。
根據(jù)本實(shí)施例,可以確定能夠生成最高精度模型的候選數(shù)據(jù)劃分。
權(quán)利要求
1.一種數(shù)據(jù)劃分設(shè)備,用于劃分包含多個(gè)數(shù)據(jù)片的多維數(shù)據(jù),所述數(shù)據(jù)劃分設(shè)備包括數(shù)據(jù)輸入單元,用于輸入所述多維數(shù)據(jù);候選劃分平面創(chuàng)建器,用于創(chuàng)建多個(gè)用于劃分所述多維數(shù)據(jù)的候選劃分平面;數(shù)據(jù)臨時(shí)劃分單元,用于通過使用所述候選劃分平面來臨時(shí)劃分所述多維數(shù)據(jù),以根據(jù)所述候選劃分平面中的每一個(gè)生成簇,所述簇中的每一個(gè)包括一個(gè)或多個(gè)數(shù)據(jù)片;模型生成器,用于為每個(gè)所述候選劃分平面生成表示所述簇的模型;評(píng)價(jià)值計(jì)算器,用于根據(jù)所述生成的與所述候選劃分平面相關(guān)的所述模型以及所述多維數(shù)據(jù)來計(jì)算用于評(píng)價(jià)所述候選劃分平面的評(píng)價(jià)值;候選劃分選擇器,用于比較分別對(duì)應(yīng)于所述候選劃分平面的評(píng)價(jià)值并選擇具有最高評(píng)價(jià)值的候選劃分平面;以及數(shù)據(jù)劃分單元,用于通過使用所述選擇的候選劃分平面來劃分所述多維數(shù)據(jù)。
2.如權(quán)利要求1所述的數(shù)據(jù)劃分設(shè)備,其中所述數(shù)據(jù)劃分單元將通過劃分所述多維數(shù)據(jù)而獲得的已劃分的多維數(shù)據(jù)輸出到所述候選劃分平面創(chuàng)建器,并且如果具有最高評(píng)價(jià)值的候選劃分平面不滿足繼續(xù)條件,則所述候選劃分選擇器輸出表示處理終止的信號(hào)。
3.如權(quán)利要求1所述的數(shù)據(jù)劃分設(shè)備,還包括數(shù)據(jù)離散化單元,該數(shù)據(jù)離散化單元用于離散化由所述數(shù)據(jù)輸入單元輸入的所述多維數(shù)據(jù),其中,所述候選劃分平面創(chuàng)建器、所述數(shù)據(jù)臨時(shí)劃分單元、所述模型生成器、所述評(píng)價(jià)值計(jì)算器、以及所述數(shù)據(jù)劃分單元中的至少任意一個(gè)使用離散化的多維數(shù)據(jù)作為所述多維數(shù)據(jù)。
4.如權(quán)利要求1所述的數(shù)據(jù)劃分設(shè)備,其中所述評(píng)價(jià)值計(jì)算器基于所述生成的模型、分別對(duì)應(yīng)于所述生成的模型的簇、以及包含在所述多維數(shù)據(jù)中的數(shù)據(jù)片的數(shù)量來計(jì)算所述評(píng)價(jià)值。
5.如權(quán)利要求1所述的數(shù)據(jù)劃分設(shè)備,其中所述評(píng)價(jià)值計(jì)算器根據(jù)所述生成的模型和分別對(duì)應(yīng)于所述生成的模型的簇計(jì)算所述生成的模型的誤差,將對(duì)應(yīng)于所述多維數(shù)據(jù)的模型的誤差除以包含在所述多維數(shù)據(jù)中的數(shù)據(jù)片的數(shù)量,根據(jù)所述模型的所述計(jì)算的誤差、所述除法的結(jié)果值、以及分別包含在所述簇中的數(shù)據(jù)片的數(shù)量來分別計(jì)算所述模型的模型評(píng)價(jià)值,以及根據(jù)所述模型的所述模型評(píng)價(jià)值來計(jì)算所述評(píng)價(jià)值。
6.如權(quán)利要求5所述的數(shù)據(jù)劃分設(shè)備,其中所述評(píng)價(jià)值計(jì)算器通過從所述模型中的每一個(gè)的所述計(jì)算的誤差中減去所述除法的結(jié)果值與包含在所述簇中的每一個(gè)中的數(shù)據(jù)片的數(shù)量的乘積以及參數(shù)值來計(jì)算所述模型中的每一個(gè)的模型評(píng)價(jià)值。
7.如權(quán)利要求5所述的數(shù)據(jù)劃分設(shè)備,其中所述評(píng)價(jià)值計(jì)算器采用所述模型的所述模型評(píng)價(jià)值中的最小值作為所述評(píng)價(jià)值。
8.如權(quán)利要求1所述的數(shù)據(jù)劃分設(shè)備,還包括合并候選生成器,用于根據(jù)通過所述數(shù)據(jù)劃分單元執(zhí)行的劃分而最終生成的簇來生成多個(gè)簇組合作為合并候選;合并候選選擇器,用于從所述多個(gè)合并候選中選擇合并候選;另外的模型生成器,用于根據(jù)所述合并候選生成模型;合并評(píng)價(jià)值計(jì)算器,用于計(jì)算由所述另外的模型生成器生成的模型的誤差,并計(jì)算基于對(duì)應(yīng)于包含在所述合并候選中的簇的模型的誤差的計(jì)算值與基于由所述另外的模型生成器生成的模型的誤差的計(jì)算值之間的差,作為合并評(píng)價(jià)值;以及合并單元,用于如果所述合并評(píng)價(jià)值滿足合并標(biāo)準(zhǔn),則合并包含在所述合并候選中的簇并生成新的簇。
9.如權(quán)利要求1所述的數(shù)據(jù)劃分設(shè)備,其中所述候選劃分選擇器生成在所述選擇的候選劃分平面和臨近于所述選擇的候選劃分平面的候選劃分平面之間的新的候選劃分平面,并將所述生成的新的候選劃分平面輸出到所述數(shù)據(jù)臨時(shí)劃分單元,以及將對(duì)應(yīng)于所述選擇的候選劃分平面的評(píng)價(jià)值與對(duì)應(yīng)于所述新的候選劃分平面的評(píng)價(jià)值進(jìn)行比較,并且選擇具有最高評(píng)價(jià)值的候選劃分平面。
10.如權(quán)利要求9所述的數(shù)據(jù)劃分設(shè)備,其中所述候選劃分選擇器生成所述新的候選劃分平面,以便分割包含在所述選擇的候選劃分平面和所述相鄰的候選劃分平面之間的數(shù)據(jù)片。
11.如權(quán)利要求1所述的數(shù)據(jù)劃分設(shè)備,其中所述候選劃分平面創(chuàng)建器為包含公共目標(biāo)維的多個(gè)維組合中的每一個(gè)創(chuàng)建多個(gè)候選劃分平面,所述目標(biāo)維是在模型生成時(shí)作為目標(biāo)變量的維,以及所述候選劃分選擇器采用分別根據(jù)所述維組合而選擇的候選劃分平面中具有最高評(píng)價(jià)值的候選劃分平面。
12.如權(quán)利要求11所述的數(shù)據(jù)劃分設(shè)備,其中所述維組合包括至少一個(gè)除所述目標(biāo)維之外的相同的維。
13.如權(quán)利要求1所述的數(shù)據(jù)劃分設(shè)備,其中所述評(píng)價(jià)值計(jì)算器包括分類號(hào)分配單元,用于在臨時(shí)劃分之后為簇分配分類號(hào);分類規(guī)則生成器,用于生成分類規(guī)則,以根據(jù)所述多維數(shù)據(jù)中的說明維來預(yù)測(cè)分類號(hào);以及擴(kuò)展評(píng)價(jià)值計(jì)算器,用于根據(jù)所述分類規(guī)則的精度和規(guī)模中的至少任意一個(gè)以及所述評(píng)價(jià)值來計(jì)算擴(kuò)展評(píng)價(jià)值,其中所述候選劃分選擇器使用所述擴(kuò)展評(píng)價(jià)值代替所述評(píng)價(jià)值以選擇候選劃分平面。
14.如權(quán)利要求13所述的數(shù)據(jù)劃分設(shè)備,其中所述擴(kuò)展評(píng)價(jià)值計(jì)算器將通過所述分類規(guī)則的所述精度與第一權(quán)重系數(shù)相乘而獲得的值以及通過所述分類規(guī)則的所述規(guī)模與第二權(quán)重系數(shù)相乘而獲得的值加到所述評(píng)價(jià)值上來計(jì)算所述擴(kuò)展評(píng)價(jià)值。
15.如權(quán)利要求13所述的數(shù)據(jù)劃分設(shè)備,其中所述分類規(guī)則生成器生成決策樹作為所述分類規(guī)則。
16.如權(quán)利要求1所述的數(shù)據(jù)劃分設(shè)備,其中所述候選劃分平面創(chuàng)建器為包括公共目標(biāo)維的多個(gè)維組合中的每一個(gè)創(chuàng)建多個(gè)候選劃分平面,以及所述數(shù)據(jù)劃分單元最終輸出對(duì)應(yīng)于所述多個(gè)維組合的多個(gè)數(shù)據(jù)劃分結(jié)果,以及所述數(shù)據(jù)劃分設(shè)備還包括分類號(hào)分配單元,用于為包含在所述數(shù)據(jù)劃分結(jié)果中的簇分配分類號(hào);分類規(guī)則生成器,用于生成分類規(guī)則以根據(jù)所述多維數(shù)據(jù)中的說明維來預(yù)測(cè)分類號(hào);擴(kuò)展評(píng)價(jià)值計(jì)算器,用于根據(jù)對(duì)應(yīng)于所述數(shù)據(jù)劃分結(jié)果中的所述簇的模型、所述多維數(shù)據(jù)、以及所述分類規(guī)則的所述精度和規(guī)模中的至少任意一個(gè)來計(jì)算擴(kuò)展評(píng)價(jià)值;以及數(shù)據(jù)劃分選擇器,用于選擇具有最高擴(kuò)展評(píng)價(jià)值的數(shù)據(jù)劃分結(jié)果。
17.一種數(shù)據(jù)劃分設(shè)備,用于劃分包含多個(gè)數(shù)據(jù)片的多維數(shù)據(jù),所述數(shù)據(jù)劃分設(shè)備包括數(shù)據(jù)輸入單元,用于輸入所述多維數(shù)據(jù);候選劃分平面創(chuàng)建器,用于創(chuàng)建多個(gè)用于劃分所述多維數(shù)據(jù)的候選劃分平面;數(shù)據(jù)臨時(shí)劃分單元,用于通過使用所述候選劃分平面臨時(shí)地劃分所述多維數(shù)據(jù),以根據(jù)所述候選劃分平面中的每一個(gè)生成簇,所述簇中的每一個(gè)包括一個(gè)或多個(gè)數(shù)據(jù)片;模型生成器,用于為每個(gè)所述候選劃分平面生成表示所述簇的模型;編組單元,用于通過基于所述多維數(shù)據(jù)中的每個(gè)數(shù)據(jù)片臨近于哪個(gè)所述生成的模型將所述多維數(shù)據(jù)中的數(shù)據(jù)片編組,從而為每個(gè)所述候選劃分平面生成新的簇;評(píng)價(jià)值計(jì)算器,用于根據(jù)所述生成的與所述候選劃分平面相關(guān)的模型以及所述生成的與所述候選劃分平面相關(guān)的新的簇來計(jì)算用于評(píng)價(jià)與所述候選劃分平面相關(guān)的編組的評(píng)價(jià)值;候選劃分選擇器,用于比較分別對(duì)應(yīng)于所述候選劃分平面的評(píng)價(jià)值并選擇對(duì)應(yīng)于具有最高評(píng)價(jià)值的候選劃分平面的編組結(jié)果。
18.如權(quán)利要求17所述的數(shù)據(jù)劃分設(shè)備,其中所述評(píng)價(jià)值計(jì)算器將所述生成的新的簇輸出到所述模型生成器,并將新計(jì)算的評(píng)價(jià)值傳遞給所述候選劃分選擇器。
19.一種數(shù)據(jù)劃分方法,用于劃分包含多個(gè)數(shù)據(jù)片的多維數(shù)據(jù),所述數(shù)據(jù)劃分方法包括輸入所述多維數(shù)據(jù);創(chuàng)建多個(gè)用于劃分所述多維數(shù)據(jù)的候選劃分平面;通過使用所述候選劃分平面臨時(shí)劃分所述多維數(shù)據(jù)以根據(jù)每個(gè)所述候選劃分平面生成簇,每個(gè)所述簇包括一個(gè)或多個(gè)數(shù)據(jù)片;為每個(gè)所述候選劃分平面生成表示所述簇的模型;根據(jù)所述生成的與所述候選劃分平面相關(guān)的模型和所述多維數(shù)據(jù)計(jì)算用于評(píng)價(jià)所述候選劃分平面的評(píng)價(jià)值;比較分別對(duì)應(yīng)于所述候選劃分平面的評(píng)價(jià)值并選擇具有最高評(píng)價(jià)值的候選劃分平面;通過使用所述選擇的候選劃分平面來劃分所述多維數(shù)據(jù);對(duì)已劃分的多維數(shù)據(jù)執(zhí)行所述創(chuàng)建、所述劃分、所述生成、所述計(jì)算、所述比較以及所述劃分。
全文摘要
根據(jù)本發(fā)明的一個(gè)方面,提供了一種數(shù)據(jù)劃分設(shè)備用于劃分多維數(shù)據(jù),該數(shù)據(jù)劃分設(shè)備包括數(shù)據(jù)輸入單元,用于輸入多維數(shù)據(jù);候選劃分平面創(chuàng)建器,用于創(chuàng)建多個(gè)用于劃分多維數(shù)據(jù)的候選劃分平面;數(shù)據(jù)臨時(shí)劃分單元,用于通過使用候選劃分平面臨時(shí)劃分多維數(shù)據(jù)以生成簇;模型生成器,用于根據(jù)簇生成模型;評(píng)價(jià)值計(jì)算器,用于根據(jù)所生成的模型和多維數(shù)據(jù)計(jì)算評(píng)價(jià)值;候選劃分選擇器,用于比較分別對(duì)應(yīng)于候選劃分平面的評(píng)價(jià)值并選擇具有最高評(píng)價(jià)值的候選劃分平面;以及數(shù)據(jù)劃分單元,用于通過使用所述選擇的候選劃分平面劃分多維數(shù)據(jù)。
文檔編號(hào)G06F17/00GK1869971SQ20061008453
公開日2006年11月29日 申請(qǐng)日期2006年5月25日 優(yōu)先權(quán)日2005年5月25日
發(fā)明者久保田和人, 森田千繪, 波田野壽昭, 仲瀨明彥 申請(qǐng)人:株式會(huì)社東芝