国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種大規(guī)模數(shù)據(jù)處理裝置的制作方法

      文檔序號(hào):11830504閱讀:173來源:國(guó)知局

      本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體涉及一種大規(guī)模數(shù)據(jù)處理裝置。



      背景技術(shù):

      大規(guī)模數(shù)據(jù)是指無法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合,大規(guī)模數(shù)據(jù)的研究和應(yīng)用已經(jīng)成為現(xiàn)代信息一個(gè)不可或缺的研究領(lǐng)域。

      在現(xiàn)在使用的數(shù)據(jù)信息中,有很大一部分的數(shù)據(jù)是由管理者來進(jìn)行發(fā)布,并且根據(jù)用戶的建議或者管理者自身的需求由管理者來進(jìn)行修改的,對(duì)于這部分的海量信息,如何能夠更好地進(jìn)行質(zhì)量管理和挖掘,快速有效地從中找到有用的信息,是一個(gè)亟需解決的問題。



      技術(shù)實(shí)現(xiàn)要素:

      針對(duì)上述問題,本發(fā)明提供一種大規(guī)模數(shù)據(jù)處理裝置。

      本發(fā)明的目的采用以下技術(shù)方案來實(shí)現(xiàn):

      一種大規(guī)模數(shù)據(jù)處理裝置,其特征是,包括數(shù)據(jù)質(zhì)量管理模塊和有用數(shù)據(jù)挖掘模塊,其中質(zhì)量管理模塊包括初步處理子模塊、數(shù)據(jù)描述子模塊、數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊和數(shù)據(jù)質(zhì)量分級(jí)管理子模塊,有用數(shù)據(jù)挖掘模塊包括數(shù)據(jù)預(yù)處理子模塊、有用數(shù)據(jù)構(gòu)建子模塊、有用數(shù)據(jù)修正子模塊和有用數(shù)據(jù)分層挖掘子模塊;

      初步處理子模塊,包括中央控制單元、計(jì)算集群?jiǎn)卧?、存?chǔ)單元、高速網(wǎng)絡(luò);中央控制單元中節(jié)點(diǎn)采用CPU與GPU混合異構(gòu)架構(gòu);計(jì)算集群?jiǎn)卧泄?jié)點(diǎn)采用CPU與GPU混合異構(gòu)架構(gòu)或采用CPU架構(gòu);存儲(chǔ)單元分共享存儲(chǔ)和本地存儲(chǔ),共享存儲(chǔ)中節(jié)點(diǎn)采用CPU架構(gòu),本地存儲(chǔ)設(shè)置在中央控制單元的節(jié)點(diǎn)以及計(jì)算集群?jiǎn)卧拿總€(gè)節(jié)點(diǎn)中,共享存儲(chǔ)分為主存儲(chǔ)和備份存儲(chǔ),主存儲(chǔ)和備份存儲(chǔ)作為冗余存儲(chǔ)、存儲(chǔ)相同的計(jì)算數(shù)據(jù),本地存儲(chǔ)用于存儲(chǔ)所在的中央控制單元的節(jié)點(diǎn)或者是計(jì)算集群?jiǎn)卧墓?jié)點(diǎn)的數(shù)據(jù);高速網(wǎng)絡(luò)用于將中央控制單元中節(jié)點(diǎn)、計(jì)算集群?jiǎn)卧泄?jié)點(diǎn)、共享存儲(chǔ)中節(jié)點(diǎn)互相連接。

      優(yōu)選地,其特征是,中央控制單元中節(jié)點(diǎn)控制計(jì)算集群?jiǎn)卧泄?jié)點(diǎn)、存儲(chǔ)單元中節(jié)點(diǎn)。

      優(yōu)選地,其特征在于,中央控制單元中節(jié)點(diǎn)設(shè)置有1個(gè),共享存儲(chǔ)中節(jié)點(diǎn)設(shè)置有至少1個(gè),計(jì)算集群?jiǎn)卧泄?jié)點(diǎn)設(shè)置有至少2個(gè)。

      優(yōu)選地,

      (1)數(shù)據(jù)描述子模塊

      通過引入數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性來描述數(shù)據(jù),數(shù)據(jù)本身的屬性用數(shù)據(jù)大小、創(chuàng)建日期、包含圖片數(shù)、相關(guān)數(shù)據(jù)量表示,其中,相關(guān)數(shù)據(jù)量為當(dāng)前數(shù)據(jù)指向的其它數(shù)據(jù)和指向當(dāng)前數(shù)據(jù)的其它數(shù)據(jù)的總和;數(shù)據(jù)影響者的屬性用影響者網(wǎng)絡(luò)聚類系數(shù)來表示,由以下方法得到:

      構(gòu)建數(shù)據(jù)影響者描述網(wǎng)絡(luò),對(duì)于每一個(gè)數(shù)據(jù)而言,影響者包括多個(gè)用戶和一個(gè)管理者,其每個(gè)影響者都代表一個(gè)節(jié)點(diǎn),用戶可以瀏覽數(shù)據(jù),也可以對(duì)數(shù)據(jù)提出修改的建議,而管理者既可以自行對(duì)數(shù)據(jù)進(jìn)行修改,也可以根據(jù)用戶建議進(jìn)行修改,

      則影響者網(wǎng)絡(luò)聚類系數(shù)定義為:

      <mrow> <mover> <mi>K</mi> <mo>&OverBar;</mo> </mover> <mo>=</mo> <mfrac> <mrow> <msub> <mi>m&sigma;</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>l&sigma;</mi> <mn>2</mn> </msub> <mo>+</mo> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>&delta;</mi> <mn>1</mn> </msub> <mo>&times;</mo> <msub> <mi>&sigma;</mi> <mn>3</mn> </msub> <mo>+</mo> <msub> <mi>&delta;</mi> <mn>2</mn> </msub> <mo>&times;</mo> <msub> <mi>&sigma;</mi> <mn>4</mn> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mo>+</mo> <mi>l</mi> <mo>+</mo> <mi>n</mi> </mrow> </mfrac> <mo>&times;</mo> <msqrt> <mrow> <mn>1</mn> <mo>-</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>m</mi> <mo>-</mo> <mi>l</mi> </mrow> <mi>m</mi> </mfrac> <mo>)</mo> </mrow> <mn>3</mn> </msup> </mrow> </msqrt> </mrow>

      式中,σ1表示用戶每瀏覽一次數(shù)據(jù)施加的影響因子,m表示用戶瀏覽總次數(shù);σ2表示用戶每提出一次修改意見施加的影響因子,l表示用戶提出建議總次數(shù);σ3表示管理者每自行修改一次數(shù)據(jù)施加的影響因子,σ4表示管理者每根據(jù)用戶建議修改一次數(shù)據(jù)施加的影響因子,δ1和δ2分別為σ3和σ4權(quán)值,n表示管理者修改總次數(shù);為用戶修改頻率系數(shù),用于表示用戶對(duì)數(shù)據(jù)的滿意程度,該系數(shù)越大表明用戶對(duì)數(shù)據(jù)的修改越頻繁;

      (2)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊

      采用“三級(jí)評(píng)價(jià)模型”對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),首先根據(jù)數(shù)據(jù)大小將數(shù)據(jù)分為三類,然后綜合數(shù)據(jù)的除數(shù)據(jù)大小外的其它全部屬性對(duì)其數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),具體方法如下:

      將樣本數(shù)據(jù)劃分為高質(zhì)量數(shù)據(jù)、中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閾值T1,則該數(shù)據(jù)屬于高質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閥值T2但是小于閥值T1,則該數(shù)據(jù)屬于中質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小小于閥值T2,則該數(shù)據(jù)屬于低質(zhì)量數(shù)據(jù),T1>T2且T1、T2的取值范圍是[1KB,1MB];進(jìn)一步將高質(zhì)量數(shù)據(jù)和低質(zhì)量劃分為不同等級(jí),選取數(shù)據(jù)的其它全部屬性組成向量,并根據(jù)樣本數(shù)據(jù)計(jì)算每個(gè)等級(jí)的各個(gè)數(shù)據(jù)屬性的均值,為每個(gè)等級(jí)建立相應(yīng)的均值向量,新數(shù)據(jù)向量用X=(x1,…,xN)表示,某個(gè)等級(jí)的均值向量用Y=(y1,…,yN)表示,N表示除數(shù)據(jù)大小外數(shù)據(jù)的其它全部屬性個(gè)數(shù),兩個(gè)向量的相似度用相似度函數(shù)R(X,Y)表示:

      <mrow> <mi>R</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <msqrt> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msup> <mrow> <mo>|</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> </mfrac> <mo>|</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>+</mo> <msqrt> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msup> <mrow> <mo>|</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> </mfrac> <mo>|</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow>

      R(X,Y)值越小,則表明相似度越大,反之,則相似度越小,每個(gè)數(shù)據(jù)分別計(jì)算與不同等級(jí)的均值向量的相似度,從而確認(rèn)其質(zhì)量等級(jí);

      (3)數(shù)據(jù)質(zhì)量分級(jí)管理子模塊

      數(shù)據(jù)通過數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊后被劃分為不同質(zhì)量等級(jí),根據(jù)數(shù)據(jù)等級(jí)不同對(duì)數(shù)據(jù)進(jìn)行分級(jí)管理;

      優(yōu)選地,

      (1)數(shù)據(jù)預(yù)處理子模塊

      將數(shù)據(jù)劃分為不同領(lǐng)域,根據(jù)用戶需求確定客戶所需數(shù)據(jù)領(lǐng)域,使用上述的三級(jí)評(píng)價(jià)模型對(duì)領(lǐng)域中的高質(zhì)量高等級(jí)數(shù)據(jù)進(jìn)行篩選,組成一個(gè)新的數(shù)據(jù)表K;

      (2)有用數(shù)據(jù)構(gòu)建子模塊

      經(jīng)過預(yù)處理的數(shù)據(jù),每個(gè)數(shù)據(jù)領(lǐng)域包含了不同的分類,引入相關(guān)系數(shù)P篩選有用數(shù)據(jù)分類:

      <mrow> <mi>P</mi> <mo>=</mo> <mfrac> <mrow> <mfrac> <msub> <mi>Z</mi> <mi>s</mi> </msub> <mi>Z</mi> </mfrac> <mo>-</mo> <mi>&rho;</mi> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <mi>&rho;</mi> </mrow> </mfrac> </mrow>

      式中,Zs表示新數(shù)據(jù)表K一個(gè)分類中數(shù)據(jù)雙向指向的數(shù)量,即對(duì)于數(shù)據(jù)A和B,既能從A指向B,也能從B指向A,Z表示數(shù)據(jù)表K一個(gè)分類中的相關(guān)數(shù)據(jù)量,其中N表示一個(gè)分類中數(shù)據(jù)的總數(shù);

      (3)有用數(shù)據(jù)修正子模塊

      有用數(shù)據(jù)在使用過程中,會(huì)受到人為破壞和用戶投票兩個(gè)方面的影響,根據(jù)這兩方面修正后的相關(guān)系數(shù)為P′;同時(shí)設(shè)定閾值T,T∈(0,0.1],若P′>T,則表明這個(gè)分類是有用數(shù)據(jù);當(dāng)從高質(zhì)量數(shù)據(jù)無法得到符合條件的有用數(shù)據(jù)時(shí),依次在中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù)中進(jìn)行查找符合條件的有用數(shù)據(jù),并且當(dāng)所有數(shù)據(jù)查找完畢后,如果最終得到的P′最大值小于T,或者雖然P′的最大值大于T但是其與閥值T的差值的絕對(duì)值小于設(shè)定值C,表明無法找到有用數(shù)據(jù)或者雖然可以找到有用數(shù)據(jù)但是得到的有用數(shù)據(jù)相關(guān)度已經(jīng)低于預(yù)期,則此時(shí)自動(dòng)對(duì)管理者發(fā)出提示,修改或者增加相關(guān)數(shù)據(jù);取C=T/5;

      (4)有用數(shù)據(jù)分層挖掘模塊

      首先掃描數(shù)據(jù)表K,假設(shè)P′的最大值和最小值分別為P′max和P′min,將數(shù)據(jù)表K分割成個(gè)非重疊區(qū)域,并行挖掘出局部頻繁項(xiàng)集,其中int為取整函數(shù);然后利用先驗(yàn)性質(zhì),連接局部頻繁項(xiàng)集得全局候選項(xiàng)集;再次掃描K統(tǒng)計(jì)出每個(gè)候選項(xiàng)集的實(shí)際支持度以確定全局頻繁項(xiàng)集。

      有用數(shù)據(jù)修正子模塊中根據(jù)人為破壞和用戶投票進(jìn)行修正的具體修正公式為:

      P′=P×(1-Y)×(1+H)

      式中,Y表示數(shù)據(jù)受到人為破壞的概率,H表示投票用戶占總?cè)藬?shù)的比例。

      有益效果為:引入網(wǎng)絡(luò)聚類系數(shù)對(duì)數(shù)據(jù)進(jìn)行描述,綜合考慮了數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性,提高了分類的準(zhǔn)確率,同時(shí)通過用戶修改頻率系數(shù)的引入來減小人工干預(yù),實(shí)現(xiàn)了高效檢測(cè)數(shù)據(jù)質(zhì)量的目標(biāo);采用三級(jí)評(píng)價(jià)模型,節(jié)約了存儲(chǔ)空間,提高了計(jì)算效率;采用全新的相似度函數(shù),放大了較大相對(duì)誤差的作用,使得質(zhì)量等級(jí)更為科學(xué)精確;引入數(shù)據(jù)修正子模塊對(duì)相關(guān)系數(shù)進(jìn)行修正,能夠充分克服人為破壞和用戶投票對(duì)數(shù)據(jù)的影響;將基于區(qū)域劃分的關(guān)聯(lián)規(guī)則挖掘應(yīng)用與有用數(shù)據(jù)的分類相結(jié)合,只需要在三級(jí)分類后的一個(gè)數(shù)據(jù)表中進(jìn)行分層挖掘,只有在當(dāng)前數(shù)據(jù)表沒有符合要求的數(shù)據(jù)時(shí),才會(huì)在下一個(gè)數(shù)據(jù)表中進(jìn)行挖掘,計(jì)算量大幅下降,且該數(shù)據(jù)的挖掘能關(guān)聯(lián)有用數(shù)據(jù)分類,挖掘目的性更強(qiáng)。

      附圖說明

      利用附圖對(duì)本發(fā)明作進(jìn)一步說明,但附圖中的實(shí)施例不構(gòu)成對(duì)本發(fā)明的任何限制,對(duì)于本領(lǐng)域的普通技術(shù)人員,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)以下附圖獲得其它的附圖。

      圖1是一種大規(guī)模數(shù)據(jù)處理裝置的結(jié)構(gòu)框圖。

      附圖標(biāo)記:質(zhì)量管理模塊-1;有用數(shù)據(jù)挖掘模塊-2;初步處理子模塊-11;數(shù)據(jù)描述子模塊-12;數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊-13;數(shù)據(jù)質(zhì)量分級(jí)管理子模塊-14;數(shù)據(jù)預(yù)處理子模塊-21;有用數(shù)據(jù)構(gòu)建子模塊-22;有用數(shù)據(jù)修正子模塊-23;有用數(shù)據(jù)分層挖掘子模塊-24。

      具體實(shí)施方式

      結(jié)合以下實(shí)施例對(duì)本發(fā)明作進(jìn)一步描述。

      實(shí)施例1:

      如圖1所示的一種大規(guī)模數(shù)據(jù)處理裝置,包括數(shù)據(jù)質(zhì)量管理模塊1和有用數(shù)據(jù)挖掘模塊2,其中質(zhì)量管理模塊1包括初步處理子模塊11、數(shù)據(jù)描述子模塊12、數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊13和數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14,有用數(shù)據(jù)挖掘模塊2包括數(shù)據(jù)預(yù)處理子模塊21、有用數(shù)據(jù)構(gòu)建子模塊22、有用數(shù)據(jù)修正子模塊23和有用數(shù)據(jù)分層挖掘子模塊24。

      初步處理子模塊11,包括中央控制單元、計(jì)算集群?jiǎn)卧?、存?chǔ)單元、高速網(wǎng)絡(luò);中央控制單元中節(jié)點(diǎn)采用CPU與GPU混合異構(gòu)架構(gòu);計(jì)算集群?jiǎn)卧泄?jié)點(diǎn)采用CPU與GPU混合異構(gòu)架構(gòu)或采用CPU架構(gòu);存儲(chǔ)單元分共享存儲(chǔ)和本地存儲(chǔ),共享存儲(chǔ)中節(jié)點(diǎn)采用CPU架構(gòu),本地存儲(chǔ)設(shè)置在中央控制單元的節(jié)點(diǎn)以及計(jì)算集群?jiǎn)卧拿總€(gè)節(jié)點(diǎn)中,共享存儲(chǔ)分為主存儲(chǔ)和備份存儲(chǔ),主存儲(chǔ)和備份存儲(chǔ)作為冗余存儲(chǔ)、存儲(chǔ)相同的計(jì)算數(shù)據(jù),本地存儲(chǔ)用于存儲(chǔ)所在的中央控制單元的節(jié)點(diǎn)或者是計(jì)算集群?jiǎn)卧墓?jié)點(diǎn)的數(shù)據(jù);高速網(wǎng)絡(luò)用于將中央控制單元中節(jié)點(diǎn)、計(jì)算集群?jiǎn)卧泄?jié)點(diǎn)、共享存儲(chǔ)中節(jié)點(diǎn)互相連接。

      優(yōu)選地,其特征是,中央控制單元中節(jié)點(diǎn)控制計(jì)算集群?jiǎn)卧泄?jié)點(diǎn)、存儲(chǔ)單元中節(jié)點(diǎn)。

      優(yōu)選地,其特征在于,中央控制單元中節(jié)點(diǎn)設(shè)置有1個(gè),共享存儲(chǔ)中節(jié)點(diǎn)設(shè)置有至少1個(gè),計(jì)算集群?jiǎn)卧泄?jié)點(diǎn)設(shè)置有至少2個(gè)。

      優(yōu)選地,

      (1)數(shù)據(jù)描述子模塊12:

      通過引入數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性來描述數(shù)據(jù),數(shù)據(jù)本身的屬性用數(shù)據(jù)大小、創(chuàng)建日期、包含圖片數(shù)、相關(guān)數(shù)據(jù)量表示,其中,相關(guān)數(shù)據(jù)量為當(dāng)前數(shù)據(jù)指向的其它數(shù)據(jù)和指向當(dāng)前數(shù)據(jù)的其它數(shù)據(jù)的總和;數(shù)據(jù)影響者的屬性用影響者網(wǎng)絡(luò)聚類系數(shù)來表示,由以下方法得到:

      構(gòu)建數(shù)據(jù)影響者描述網(wǎng)絡(luò),對(duì)于每一個(gè)數(shù)據(jù)而言,影響者包括多個(gè)用戶和一個(gè)管理者,其每個(gè)影響者都代表一個(gè)節(jié)點(diǎn),用戶可以瀏覽數(shù)據(jù),也可以對(duì)數(shù)據(jù)提出修改的建議,而管理者既可以自行對(duì)數(shù)據(jù)進(jìn)行修改,也可以根據(jù)用戶建議進(jìn)行修改,

      則影響者網(wǎng)絡(luò)聚類系數(shù)定義為:

      <mrow> <mover> <mi>K</mi> <mo>&OverBar;</mo> </mover> <mo>=</mo> <mfrac> <mrow> <msub> <mi>m&sigma;</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>l&sigma;</mi> <mn>2</mn> </msub> <mo>+</mo> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>&delta;</mi> <mn>1</mn> </msub> <mo>&times;</mo> <msub> <mi>&sigma;</mi> <mn>3</mn> </msub> <mo>+</mo> <msub> <mi>&delta;</mi> <mn>2</mn> </msub> <mo>&times;</mo> <msub> <mi>&sigma;</mi> <mn>4</mn> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mo>+</mo> <mi>l</mi> <mo>+</mo> <mi>n</mi> </mrow> </mfrac> <mo>&times;</mo> <msqrt> <mrow> <mn>1</mn> <mo>-</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>m</mi> <mo>-</mo> <mi>l</mi> </mrow> <mi>m</mi> </mfrac> <mo>)</mo> </mrow> <mn>3</mn> </msup> </mrow> </msqrt> </mrow>

      式中,σ1表示用戶每瀏覽一次數(shù)據(jù)施加的影響因子,m表示用戶瀏覽總次數(shù);σ2表示用戶每提出一次修改意見施加的影響因子,l表示用戶提出建議總次數(shù);σ3表示管理者每自行修改一次數(shù)據(jù)施加的影響因子,σ4表示管理者每根據(jù)用戶建議修改一次數(shù)據(jù)施加的影響因子,δ1和δ2分別為σ3和σ4權(quán)值,n表示管理者修改總次數(shù);為用戶修改頻率系數(shù),用于表示用戶對(duì)數(shù)據(jù)的滿意程度,該系數(shù)越大表明用戶對(duì)數(shù)據(jù)的修改越頻繁。

      (2)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊13:

      采用“三級(jí)評(píng)價(jià)模型”對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),首先根據(jù)數(shù)據(jù)大小將數(shù)據(jù)分為三類,然后綜合數(shù)據(jù)的除數(shù)據(jù)大小外的其它全部屬性對(duì)其數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),具體方法如下:

      將樣本數(shù)據(jù)劃分為高質(zhì)量數(shù)據(jù)、中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閾值T1,則該數(shù)據(jù)屬于高質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閥值T2但是小于閥值T1,則該數(shù)據(jù)屬于中質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小小于閥值T2,則該數(shù)據(jù)屬于低質(zhì)量數(shù)據(jù),T1>T2且T1、T2的取值范圍是[1KB,1MB];進(jìn)一步將高質(zhì)量數(shù)據(jù)和低質(zhì)量劃分為不同等級(jí),選取數(shù)據(jù)的其它全部屬性組成向量,并根據(jù)樣本數(shù)據(jù)計(jì)算每個(gè)等級(jí)的各個(gè)數(shù)據(jù)屬性的均值,為每個(gè)等級(jí)建立相應(yīng)的均值向量,新數(shù)據(jù)向量用X=(x1,…,xN)表示,某個(gè)等級(jí)的均值向量用Y=(y1,…,yN)表示,N表示除數(shù)據(jù)大小外數(shù)據(jù)的其它全部屬性個(gè)數(shù),兩個(gè)向量的相似度用相似度函數(shù)R(X,Y)表示:

      <mrow> <mi>R</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <msqrt> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msup> <mrow> <mo>|</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> </mfrac> <mo>|</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>+</mo> <msqrt> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msup> <mrow> <mo>|</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> </mfrac> <mo>|</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow>

      R(X,Y)值越小,則表明相似度越大,反之,則相似度越小,每個(gè)數(shù)據(jù)分別計(jì)算與不同等級(jí)的均值向量的相似度,從而確認(rèn)其質(zhì)量等級(jí)。

      (3)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14:

      數(shù)據(jù)通過數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊后被劃分為不同質(zhì)量等級(jí),根據(jù)數(shù)據(jù)等級(jí)不同對(duì)數(shù)據(jù)進(jìn)行分級(jí)管理。

      優(yōu)選地,

      (1)數(shù)據(jù)預(yù)處理子模塊

      將數(shù)據(jù)劃分為不同領(lǐng)域,根據(jù)用戶需求確定客戶所需數(shù)據(jù)領(lǐng)域,使用上述的三級(jí)評(píng)價(jià)模型對(duì)領(lǐng)域中的高質(zhì)量高等級(jí)數(shù)據(jù)進(jìn)行篩選,組成一個(gè)新的數(shù)據(jù)表K;

      (2)有用數(shù)據(jù)構(gòu)建子模塊

      經(jīng)過預(yù)處理的數(shù)據(jù),每個(gè)數(shù)據(jù)領(lǐng)域包含了不同的分類,引入相關(guān)系數(shù)P篩選有用數(shù)據(jù)分類:

      <mrow> <mi>P</mi> <mo>=</mo> <mfrac> <mrow> <mfrac> <msub> <mi>Z</mi> <mi>s</mi> </msub> <mi>Z</mi> </mfrac> <mo>-</mo> <mi>&rho;</mi> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <mi>&rho;</mi> </mrow> </mfrac> </mrow>

      式中,Zs表示新數(shù)據(jù)表K一個(gè)分類中數(shù)據(jù)雙向指向的數(shù)量,即對(duì)于數(shù)據(jù)A和B,既能從A指向B,也能從B指向A,Z表示數(shù)據(jù)表K一個(gè)分類中的相關(guān)數(shù)據(jù)量,其中N表示一個(gè)分類中數(shù)據(jù)的總數(shù);

      (3)有用數(shù)據(jù)修正子模塊

      有用數(shù)據(jù)在使用過程中,會(huì)受到人為破壞和用戶投票兩個(gè)方面的影響,根據(jù)這兩方面修正后的相關(guān)系數(shù)為P′;同時(shí)設(shè)定閾值T,T∈(0,0.1],若P′>T,則表明這個(gè)分類是有用數(shù)據(jù);當(dāng)從高質(zhì)量數(shù)據(jù)無法得到符合條件的有用數(shù)據(jù)時(shí),依次在中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù)中進(jìn)行查找符合條件的有用數(shù)據(jù),并且當(dāng)所有數(shù)據(jù)查找完畢后,如果最終得到的P′最大值小于T,或者雖然P′的最大值大于T但是其與閥值T的差值的絕對(duì)值小于設(shè)定值C,表明無法找到有用數(shù)據(jù)或者雖然可以找到有用數(shù)據(jù)但是得到的有用數(shù)據(jù)相關(guān)度已經(jīng)低于預(yù)期,則此時(shí)自動(dòng)對(duì)管理者發(fā)出提示,修改或者增加相關(guān)數(shù)據(jù);取C=T/5;

      (4)有用數(shù)據(jù)分層挖掘模塊

      首先掃描數(shù)據(jù)表K,假設(shè)P′的最大值和最小值分別為P′max和P′min,將數(shù)據(jù)表K分割成個(gè)非重疊區(qū)域,并行挖掘出局部頻繁項(xiàng)集,其中int為取整函數(shù);然后利用先驗(yàn)性質(zhì),連接局部頻繁項(xiàng)集得全局候選項(xiàng)集;再次掃描K統(tǒng)計(jì)出每個(gè)候選項(xiàng)集的實(shí)際支持度以確定全局頻繁項(xiàng)集。

      有用數(shù)據(jù)修正子模塊中根據(jù)人為破壞和用戶投票進(jìn)行修正的具體修正公式為:

      P′=P×(1-Y)×(1+H)

      式中,Y表示數(shù)據(jù)受到人為破壞的概率,H表示投票用戶占總?cè)藬?shù)的比例。

      本實(shí)施例中,引入網(wǎng)絡(luò)聚類系數(shù)對(duì)數(shù)據(jù)進(jìn)行描述,綜合考慮了數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性,提高了分類的準(zhǔn)確率,同時(shí)通過用戶修改頻率系數(shù)的引入來減小人工干預(yù),實(shí)現(xiàn)了高效檢測(cè)數(shù)據(jù)質(zhì)量的目標(biāo);采用三級(jí)評(píng)價(jià)模型,節(jié)約了存儲(chǔ)空間,提高了計(jì)算效率;采用全新的相似度函數(shù),放大了較大相對(duì)誤差的作用,使得質(zhì)量等級(jí)更為科學(xué)精確;引入數(shù)據(jù)修正子模塊對(duì)相關(guān)系數(shù)進(jìn)行修正,能夠充分克服人為破壞和用戶投票對(duì)數(shù)據(jù)的影響,取C=T/5,提示數(shù)據(jù)范圍增加5%,但是計(jì)算量增加了3.7%;將基于區(qū)域劃分的關(guān)聯(lián)規(guī)則挖掘應(yīng)用與有用數(shù)據(jù)的分類相結(jié)合,只需要在三級(jí)分類后的一個(gè)數(shù)據(jù)表中進(jìn)行分層挖掘,只有在當(dāng)前數(shù)據(jù)表沒有符合要求的數(shù)據(jù)時(shí),才會(huì)在下一個(gè)數(shù)據(jù)表中進(jìn)行挖掘,計(jì)算量大幅下降,且該數(shù)據(jù)的挖掘能關(guān)聯(lián)有用數(shù)據(jù)分類,挖掘目的性更強(qiáng)。

      實(shí)施例2:

      如圖1所示的一種大規(guī)模數(shù)據(jù)處理裝置,包括數(shù)據(jù)質(zhì)量管理模塊1和有用數(shù)據(jù)挖掘模塊2,其中質(zhì)量管理模塊1包括初步處理子模塊11、數(shù)據(jù)描述子模塊12、數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊13和數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14,有用數(shù)據(jù)挖掘模塊2包括數(shù)據(jù)預(yù)處理子模塊21、有用數(shù)據(jù)構(gòu)建子模塊22、有用數(shù)據(jù)修正子模塊23和有用數(shù)據(jù)分層挖掘子模塊24。

      初步處理子模塊11,包括中央控制單元、計(jì)算集群?jiǎn)卧?、存?chǔ)單元、高速網(wǎng)絡(luò);中央控制單元中節(jié)點(diǎn)采用CPU與GPU混合異構(gòu)架構(gòu);計(jì)算集群?jiǎn)卧泄?jié)點(diǎn)采用CPU與GPU混合異構(gòu)架構(gòu)或采用CPU架構(gòu);存儲(chǔ)單元分共享存儲(chǔ)和本地存儲(chǔ),共享存儲(chǔ)中節(jié)點(diǎn)采用CPU架構(gòu),本地存儲(chǔ)設(shè)置在中央控制單元的節(jié)點(diǎn)以及計(jì)算集群?jiǎn)卧拿總€(gè)節(jié)點(diǎn)中,共享存儲(chǔ)分為主存儲(chǔ)和備份存儲(chǔ),主存儲(chǔ)和備份存儲(chǔ)作為冗余存儲(chǔ)、存儲(chǔ)相同的計(jì)算數(shù)據(jù),本地存儲(chǔ)用于存儲(chǔ)所在的中央控制單元的節(jié)點(diǎn)或者是計(jì)算集群?jiǎn)卧墓?jié)點(diǎn)的數(shù)據(jù);高速網(wǎng)絡(luò)用于將中央控制單元中節(jié)點(diǎn)、計(jì)算集群?jiǎn)卧泄?jié)點(diǎn)、共享存儲(chǔ)中節(jié)點(diǎn)互相連接。

      優(yōu)選地,其特征是,中央控制單元中節(jié)點(diǎn)控制計(jì)算集群?jiǎn)卧泄?jié)點(diǎn)、存儲(chǔ)單元中節(jié)點(diǎn)。

      優(yōu)選地,其特征在于,中央控制單元中節(jié)點(diǎn)設(shè)置有1個(gè),共享存儲(chǔ)中節(jié)點(diǎn)設(shè)置有至少1個(gè),計(jì)算集群?jiǎn)卧泄?jié)點(diǎn)設(shè)置有至少2個(gè)。

      優(yōu)選地,

      (1)數(shù)據(jù)描述子模塊12:

      通過引入數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性來描述數(shù)據(jù),數(shù)據(jù)本身的屬性用數(shù)據(jù)大小、創(chuàng)建日期、包含圖片數(shù)、相關(guān)數(shù)據(jù)量表示,其中,相關(guān)數(shù)據(jù)量為當(dāng)前數(shù)據(jù)指向的其它數(shù)據(jù)和指向當(dāng)前數(shù)據(jù)的其它數(shù)據(jù)的總和;數(shù)據(jù)影響者的屬性用影響者網(wǎng)絡(luò)聚類系數(shù)來表示,由以下方法得到:

      構(gòu)建數(shù)據(jù)影響者描述網(wǎng)絡(luò),對(duì)于每一個(gè)數(shù)據(jù)而言,影響者包括多個(gè)用戶和一個(gè)管理者,其每個(gè)影響者都代表一個(gè)節(jié)點(diǎn),用戶可以瀏覽數(shù)據(jù),也可以對(duì)數(shù)據(jù)提出修改的建議,而管理者既可以自行對(duì)數(shù)據(jù)進(jìn)行修改,也可以根據(jù)用戶建議進(jìn)行修改,

      則影響者網(wǎng)絡(luò)聚類系數(shù)定義為:

      <mrow> <mover> <mi>K</mi> <mo>&OverBar;</mo> </mover> <mo>=</mo> <mfrac> <mrow> <msub> <mi>m&sigma;</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>l&sigma;</mi> <mn>2</mn> </msub> <mo>+</mo> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>&delta;</mi> <mn>1</mn> </msub> <mo>&times;</mo> <msub> <mi>&sigma;</mi> <mn>3</mn> </msub> <mo>+</mo> <msub> <mi>&delta;</mi> <mn>2</mn> </msub> <mo>&times;</mo> <msub> <mi>&sigma;</mi> <mn>4</mn> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mo>+</mo> <mi>l</mi> <mo>+</mo> <mi>n</mi> </mrow> </mfrac> <mo>&times;</mo> <msqrt> <mrow> <mn>1</mn> <mo>-</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>m</mi> <mo>-</mo> <mi>l</mi> </mrow> <mi>m</mi> </mfrac> <mo>)</mo> </mrow> <mn>3</mn> </msup> </mrow> </msqrt> </mrow>

      式中,σ1表示用戶每瀏覽一次數(shù)據(jù)施加的影響因子,m表示用戶瀏覽總次數(shù);σ2表示用戶每提出一次修改意見施加的影響因子,l表示用戶提出建議總次數(shù);σ3表示管理者每自行修改一次數(shù)據(jù)施加的影響因子,σ4表示管理者每根據(jù)用戶建議修改一次數(shù)據(jù)施加的影響因子,δ1和δ2分別為σ3和σ4權(quán)值,n表示管理者修改總次數(shù);為用戶修改頻率系數(shù),用于表示用戶對(duì)數(shù)據(jù)的滿意程度,該系數(shù)越大表明用戶對(duì)數(shù)據(jù)的修改越頻繁。

      (2)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊13:

      采用“三級(jí)評(píng)價(jià)模型”對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),首先根據(jù)數(shù)據(jù)大小將數(shù)據(jù)分為三類,然后綜合數(shù)據(jù)的除數(shù)據(jù)大小外的其它全部屬性對(duì)其數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),具體方法如下:

      將樣本數(shù)據(jù)劃分為高質(zhì)量數(shù)據(jù)、中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閾值T1,則該數(shù)據(jù)屬于高質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閥值T2但是小于閥值T1,則該數(shù)據(jù)屬于中質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小小于閥值T2,則該數(shù)據(jù)屬于低質(zhì)量數(shù)據(jù),T1>T2且T1、T2的取值范圍是[1KB,1MB];進(jìn)一步將高質(zhì)量數(shù)據(jù)和低質(zhì)量劃分為不同等級(jí),選取數(shù)據(jù)的其它全部屬性組成向量,并根據(jù)樣本數(shù)據(jù)計(jì)算每個(gè)等級(jí)的各個(gè)數(shù)據(jù)屬性的均值,為每個(gè)等級(jí)建立相應(yīng)的均值向量,新數(shù)據(jù)向量用X=(x1,…,xN)表示,某個(gè)等級(jí)的均值向量用Y=(y1,…,yN)表示,N表示除數(shù)據(jù)大小外數(shù)據(jù)的其它全部屬性個(gè)數(shù),兩個(gè)向量的相似度用相似度函數(shù)R(X,Y)表示:

      <mrow> <mi>R</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <msqrt> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msup> <mrow> <mo>|</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> </mfrac> <mo>|</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>+</mo> <msqrt> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msup> <mrow> <mo>|</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> </mfrac> <mo>|</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow>

      R(X,Y)值越小,則表明相似度越大,反之,則相似度越小,每個(gè)數(shù)據(jù)分別計(jì)算與不同等級(jí)的均值向量的相似度,從而確認(rèn)其質(zhì)量等級(jí)。

      (3)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14:

      數(shù)據(jù)通過數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊后被劃分為不同質(zhì)量等級(jí),根據(jù)數(shù)據(jù)等級(jí)不同對(duì)數(shù)據(jù)進(jìn)行分級(jí)管理。

      優(yōu)選地,

      (1)數(shù)據(jù)預(yù)處理子模塊

      將數(shù)據(jù)劃分為不同領(lǐng)域,根據(jù)用戶需求確定客戶所需數(shù)據(jù)領(lǐng)域,使用上述的三級(jí)評(píng)價(jià)模型對(duì)領(lǐng)域中的高質(zhì)量高等級(jí)數(shù)據(jù)進(jìn)行篩選,組成一個(gè)新的數(shù)據(jù)表K;

      (2)有用數(shù)據(jù)構(gòu)建子模塊

      經(jīng)過預(yù)處理的數(shù)據(jù),每個(gè)數(shù)據(jù)領(lǐng)域包含了不同的分類,引入相關(guān)系數(shù)P篩選有用數(shù)據(jù)分類:

      <mrow> <mi>P</mi> <mo>=</mo> <mfrac> <mrow> <mfrac> <msub> <mi>Z</mi> <mi>s</mi> </msub> <mi>Z</mi> </mfrac> <mo>-</mo> <mi>&rho;</mi> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <mi>&rho;</mi> </mrow> </mfrac> </mrow>

      式中,Zs表示新數(shù)據(jù)表K一個(gè)分類中數(shù)據(jù)雙向指向的數(shù)量,即對(duì)于數(shù)據(jù)A和B,既能從A指向B,也能從B指向A,Z表示數(shù)據(jù)表K一個(gè)分類中的相關(guān)數(shù)據(jù)量,其中N表示一個(gè)分類中數(shù)據(jù)的總數(shù);

      (3)有用數(shù)據(jù)修正子模塊

      有用數(shù)據(jù)在使用過程中,會(huì)受到人為破壞和用戶投票兩個(gè)方面的影響,根據(jù)這兩方面修正后的相關(guān)系數(shù)為P′;同時(shí)設(shè)定閾值T,T∈(0,0.1],若P′>T,則表明這個(gè)分類是有用數(shù)據(jù);當(dāng)從高質(zhì)量數(shù)據(jù)無法得到符合條件的有用數(shù)據(jù)時(shí),依次在中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù)中進(jìn)行查找符合條件的有用數(shù)據(jù),并且當(dāng)所有數(shù)據(jù)查找完畢后,如果最終得到的P′最大值小于T,或者雖然P′的最大值大于T但是其與閥值T的差值的絕對(duì)值小于設(shè)定值C,表明無法找到有用數(shù)據(jù)或者雖然可以找到有用數(shù)據(jù)但是得到的有用數(shù)據(jù)相關(guān)度已經(jīng)低于預(yù)期,則此時(shí)自動(dòng)對(duì)管理者發(fā)出提示,修改或者增加相關(guān)數(shù)據(jù);取C=T/5;

      (4)有用數(shù)據(jù)分層挖掘模塊

      首先掃描數(shù)據(jù)表K,假設(shè)P′的最大值和最小值分別為P′max和P′min,將數(shù)據(jù)表K分割成個(gè)非重疊區(qū)域,并行挖掘出局部頻繁項(xiàng)集,其中int為取整函數(shù);然后利用先驗(yàn)性質(zhì),連接局部頻繁項(xiàng)集得全局候選項(xiàng)集;再次掃描K統(tǒng)計(jì)出每個(gè)候選項(xiàng)集的實(shí)際支持度以確定全局頻繁項(xiàng)集。

      有用數(shù)據(jù)修正子模塊中根據(jù)人為破壞和用戶投票進(jìn)行修正的具體修正公式為:

      P′=P×(1-Y)×(1+H)

      式中,Y表示數(shù)據(jù)受到人為破壞的概率,H表示投票用戶占總?cè)藬?shù)的比例。

      本實(shí)施例中,引入網(wǎng)絡(luò)聚類系數(shù)對(duì)數(shù)據(jù)進(jìn)行描述,綜合考慮了數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性,提高了分類的準(zhǔn)確率,同時(shí)通過用戶修改頻率系數(shù)的引入來減小人工干預(yù),實(shí)現(xiàn)了高效檢測(cè)數(shù)據(jù)質(zhì)量的目標(biāo);采用三級(jí)評(píng)價(jià)模型,節(jié)約了存儲(chǔ)空間,提高了計(jì)算效率;采用全新的相似度函數(shù),放大了較大相對(duì)誤差的作用,使得質(zhì)量等級(jí)更為科學(xué)精確;引入數(shù)據(jù)修正子模塊對(duì)相關(guān)系數(shù)進(jìn)行修正,能夠充分克服人為破壞和用戶投票對(duì)數(shù)據(jù)的影響,取C=T/6,提示數(shù)據(jù)范圍增加4%,但是計(jì)算量增加了3.3%;將基于區(qū)域劃分的關(guān)聯(lián)規(guī)則挖掘應(yīng)用與有用數(shù)據(jù)的分類相結(jié)合,只需要在三級(jí)分類后的一個(gè)數(shù)據(jù)表中進(jìn)行分層挖掘,只有在當(dāng)前數(shù)據(jù)表沒有符合要求的數(shù)據(jù)時(shí),才會(huì)在下一個(gè)數(shù)據(jù)表中進(jìn)行挖掘,計(jì)算量大幅下降,且該數(shù)據(jù)的挖掘能關(guān)聯(lián)有用數(shù)據(jù)分類,挖掘目的性更強(qiáng)。

      實(shí)施例3:

      如圖1所示的一種大規(guī)模數(shù)據(jù)處理裝置,包括數(shù)據(jù)質(zhì)量管理模塊1和有用數(shù)據(jù)挖掘模塊2,其中質(zhì)量管理模塊1包括初步處理子模塊11、數(shù)據(jù)描述子模塊12、數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊13和數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14,有用數(shù)據(jù)挖掘模塊2包括數(shù)據(jù)預(yù)處理子模塊21、有用數(shù)據(jù)構(gòu)建子模塊22、有用數(shù)據(jù)修正子模塊23和有用數(shù)據(jù)分層挖掘子模塊24。

      初步處理子模塊11,包括中央控制單元、計(jì)算集群?jiǎn)卧?、存?chǔ)單元、高速網(wǎng)絡(luò);中央控制單元中節(jié)點(diǎn)采用CPU與GPU混合異構(gòu)架構(gòu);計(jì)算集群?jiǎn)卧泄?jié)點(diǎn)采用CPU與GPU混合異構(gòu)架構(gòu)或采用CPU架構(gòu);存儲(chǔ)單元分共享存儲(chǔ)和本地存儲(chǔ),共享存儲(chǔ)中節(jié)點(diǎn)采用CPU架構(gòu),本地存儲(chǔ)設(shè)置在中央控制單元的節(jié)點(diǎn)以及計(jì)算集群?jiǎn)卧拿總€(gè)節(jié)點(diǎn)中,共享存儲(chǔ)分為主存儲(chǔ)和備份存儲(chǔ),主存儲(chǔ)和備份存儲(chǔ)作為冗余存儲(chǔ)、存儲(chǔ)相同的計(jì)算數(shù)據(jù),本地存儲(chǔ)用于存儲(chǔ)所在的中央控制單元的節(jié)點(diǎn)或者是計(jì)算集群?jiǎn)卧墓?jié)點(diǎn)的數(shù)據(jù);高速網(wǎng)絡(luò)用于將中央控制單元中節(jié)點(diǎn)、計(jì)算集群?jiǎn)卧泄?jié)點(diǎn)、共享存儲(chǔ)中節(jié)點(diǎn)互相連接。

      優(yōu)選地,其特征是,中央控制單元中節(jié)點(diǎn)控制計(jì)算集群?jiǎn)卧泄?jié)點(diǎn)、存儲(chǔ)單元中節(jié)點(diǎn)。

      優(yōu)選地,其特征在于,中央控制單元中節(jié)點(diǎn)設(shè)置有1個(gè),共享存儲(chǔ)中節(jié)點(diǎn)設(shè)置有至少1個(gè),計(jì)算集群?jiǎn)卧泄?jié)點(diǎn)設(shè)置有至少2個(gè)。

      優(yōu)選地,

      (1)數(shù)據(jù)描述子模塊12:

      通過引入數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性來描述數(shù)據(jù),數(shù)據(jù)本身的屬性用數(shù)據(jù)大小、創(chuàng)建日期、包含圖片數(shù)、相關(guān)數(shù)據(jù)量表示,其中,相關(guān)數(shù)據(jù)量為當(dāng)前數(shù)據(jù)指向的其它數(shù)據(jù)和指向當(dāng)前數(shù)據(jù)的其它數(shù)據(jù)的總和;數(shù)據(jù)影響者的屬性用影響者網(wǎng)絡(luò)聚類系數(shù)來表示,由以下方法得到:

      構(gòu)建數(shù)據(jù)影響者描述網(wǎng)絡(luò),對(duì)于每一個(gè)數(shù)據(jù)而言,影響者包括多個(gè)用戶和一個(gè)管理者,其每個(gè)影響者都代表一個(gè)節(jié)點(diǎn),用戶可以瀏覽數(shù)據(jù),也可以對(duì)數(shù)據(jù)提出修改的建議,而管理者既可以自行對(duì)數(shù)據(jù)進(jìn)行修改,也可以根據(jù)用戶建議進(jìn)行修改,

      則影響者網(wǎng)絡(luò)聚類系數(shù)定義為:

      <mrow> <mover> <mi>K</mi> <mo>&OverBar;</mo> </mover> <mo>=</mo> <mfrac> <mrow> <msub> <mi>m&sigma;</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>l&sigma;</mi> <mn>2</mn> </msub> <mo>+</mo> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>&delta;</mi> <mn>1</mn> </msub> <mo>&times;</mo> <msub> <mi>&sigma;</mi> <mn>3</mn> </msub> <mo>+</mo> <msub> <mi>&delta;</mi> <mn>2</mn> </msub> <mo>&times;</mo> <msub> <mi>&sigma;</mi> <mn>4</mn> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mo>+</mo> <mi>l</mi> <mo>+</mo> <mi>n</mi> </mrow> </mfrac> <mo>&times;</mo> <msqrt> <mrow> <mn>1</mn> <mo>-</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>m</mi> <mo>-</mo> <mi>l</mi> </mrow> <mi>m</mi> </mfrac> <mo>)</mo> </mrow> <mn>3</mn> </msup> </mrow> </msqrt> </mrow>

      式中,σ1表示用戶每瀏覽一次數(shù)據(jù)施加的影響因子,m表示用戶瀏覽總次數(shù);σ2表示用戶每提出一次修改意見施加的影響因子,l表示用戶提出建議總次數(shù);σ3表示管理者每自行修改一次數(shù)據(jù)施加的影響因子,σ4表示管理者每根據(jù)用戶建議修改一次數(shù)據(jù)施加的影響因子,δ1和δ2分別為σ3和σ4權(quán)值,n表示管理者修改總次數(shù);為用戶修改頻率系數(shù),用于表示用戶對(duì)數(shù)據(jù)的滿意程度,該系數(shù)越大表明用戶對(duì)數(shù)據(jù)的修改越頻繁。

      (2)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊13:

      采用“三級(jí)評(píng)價(jià)模型”對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),首先根據(jù)數(shù)據(jù)大小將數(shù)據(jù)分為三類,然后綜合數(shù)據(jù)的除數(shù)據(jù)大小外的其它全部屬性對(duì)其數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),具體方法如下:

      將樣本數(shù)據(jù)劃分為高質(zhì)量數(shù)據(jù)、中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閾值T1,則該數(shù)據(jù)屬于高質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閥值T2但是小于閥值T1,則該數(shù)據(jù)屬于中質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小小于閥值T2,則該數(shù)據(jù)屬于低質(zhì)量數(shù)據(jù),T1>T2且T1、T2的取值范圍是[1KB,1MB];進(jìn)一步將高質(zhì)量數(shù)據(jù)和低質(zhì)量劃分為不同等級(jí),選取數(shù)據(jù)的其它全部屬性組成向量,并根據(jù)樣本數(shù)據(jù)計(jì)算每個(gè)等級(jí)的各個(gè)數(shù)據(jù)屬性的均值,為每個(gè)等級(jí)建立相應(yīng)的均值向量,新數(shù)據(jù)向量用X=(x1,…,xN)表示,某個(gè)等級(jí)的均值向量用Y=(y1,…,yN)表示,N表示除數(shù)據(jù)大小外數(shù)據(jù)的其它全部屬性個(gè)數(shù),兩個(gè)向量的相似度用相似度函數(shù)R(X,Y)表示:

      <mrow> <mi>R</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <msqrt> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msup> <mrow> <mo>|</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> </mfrac> <mo>|</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>+</mo> <msqrt> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msup> <mrow> <mo>|</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> </mfrac> <mo>|</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow>

      R(X,Y)值越小,則表明相似度越大,反之,則相似度越小,每個(gè)數(shù)據(jù)分別計(jì)算與不同等級(jí)的均值向量的相似度,從而確認(rèn)其質(zhì)量等級(jí)。

      (3)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14:

      數(shù)據(jù)通過數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊后被劃分為不同質(zhì)量等級(jí),根據(jù)數(shù)據(jù)等級(jí)不同對(duì)數(shù)據(jù)進(jìn)行分級(jí)管理。

      優(yōu)選地,

      (1)數(shù)據(jù)預(yù)處理子模塊

      將數(shù)據(jù)劃分為不同領(lǐng)域,根據(jù)用戶需求確定客戶所需數(shù)據(jù)領(lǐng)域,使用上述的三級(jí)評(píng)價(jià)模型對(duì)領(lǐng)域中的高質(zhì)量高等級(jí)數(shù)據(jù)進(jìn)行篩選,組成一個(gè)新的數(shù)據(jù)表K;

      (2)有用數(shù)據(jù)構(gòu)建子模塊

      經(jīng)過預(yù)處理的數(shù)據(jù),每個(gè)數(shù)據(jù)領(lǐng)域包含了不同的分類,引入相關(guān)系數(shù)P篩選有用數(shù)據(jù)分類:

      <mrow> <mi>P</mi> <mo>=</mo> <mfrac> <mrow> <mfrac> <msub> <mi>Z</mi> <mi>s</mi> </msub> <mi>Z</mi> </mfrac> <mo>-</mo> <mi>&rho;</mi> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <mi>&rho;</mi> </mrow> </mfrac> </mrow>

      式中,Zs表示新數(shù)據(jù)表K一個(gè)分類中數(shù)據(jù)雙向指向的數(shù)量,即對(duì)于數(shù)據(jù)A和B,既能從A指向B,也能從B指向A,Z表示數(shù)據(jù)表K一個(gè)分類中的相關(guān)數(shù)據(jù)量,其中N表示一個(gè)分類中數(shù)據(jù)的總數(shù);

      (3)有用數(shù)據(jù)修正子模塊

      有用數(shù)據(jù)在使用過程中,會(huì)受到人為破壞和用戶投票兩個(gè)方面的影響,根據(jù)這兩方面修正后的相關(guān)系數(shù)為P′;同時(shí)設(shè)定閾值T,T∈(0,0.1],若P′>T,則表明這個(gè)分類是有用數(shù)據(jù);當(dāng)從高質(zhì)量數(shù)據(jù)無法得到符合條件的有用數(shù)據(jù)時(shí),依次在中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù)中進(jìn)行查找符合條件的有用數(shù)據(jù),并且當(dāng)所有數(shù)據(jù)查找完畢后,如果最終得到的P′最大值小于T,或者雖然P′的最大值大于T但是其與閥值T的差值的絕對(duì)值小于設(shè)定值C,表明無法找到有用數(shù)據(jù)或者雖然可以找到有用數(shù)據(jù)但是得到的有用數(shù)據(jù)相關(guān)度已經(jīng)低于預(yù)期,則此時(shí)自動(dòng)對(duì)管理者發(fā)出提示,修改或者增加相關(guān)數(shù)據(jù);取C=T/5;

      (4)有用數(shù)據(jù)分層挖掘模塊

      首先掃描數(shù)據(jù)表K,假設(shè)P′的最大值和最小值分別為P′max和P′min,將數(shù)據(jù)表K分割成個(gè)非重疊區(qū)域,并行挖掘出局部頻繁項(xiàng)集,其中int為取整函數(shù);然后利用先驗(yàn)性質(zhì),連接局部頻繁項(xiàng)集得全局候選項(xiàng)集;再次掃描K統(tǒng)計(jì)出每個(gè)候選項(xiàng)集的實(shí)際支持度以確定全局頻繁項(xiàng)集。

      有用數(shù)據(jù)修正子模塊中根據(jù)人為破壞和用戶投票進(jìn)行修正的具體修正公式為:

      P′=P×(1-Y)×(1+H)

      式中,Y表示數(shù)據(jù)受到人為破壞的概率,H表示投票用戶占總?cè)藬?shù)的比例。

      本實(shí)施例中,引入網(wǎng)絡(luò)聚類系數(shù)對(duì)數(shù)據(jù)進(jìn)行描述,綜合考慮了數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性,提高了分類的準(zhǔn)確率,同時(shí)通過用戶修改頻率系數(shù)的引入來減小人工干預(yù),實(shí)現(xiàn)了高效檢測(cè)數(shù)據(jù)質(zhì)量的目標(biāo);采用三級(jí)評(píng)價(jià)模型,節(jié)約了存儲(chǔ)空間,提高了計(jì)算效率;采用全新的相似度函數(shù),放大了較大相對(duì)誤差的作用,使得質(zhì)量等級(jí)更為科學(xué)精確;引入數(shù)據(jù)修正子模塊對(duì)相關(guān)系數(shù)進(jìn)行修正,能夠充分克服人為破壞和用戶投票對(duì)數(shù)據(jù)的影響,取C=T/7,提示數(shù)據(jù)范圍增加3.5%,但是計(jì)算量增加了3%;將基于區(qū)域劃分的關(guān)聯(lián)規(guī)則挖掘應(yīng)用與有用數(shù)據(jù)的分類相結(jié)合,只需要在三級(jí)分類后的一個(gè)數(shù)據(jù)表中進(jìn)行分層挖掘,只有在當(dāng)前數(shù)據(jù)表沒有符合要求的數(shù)據(jù)時(shí),才會(huì)在下一個(gè)數(shù)據(jù)表中進(jìn)行挖掘,計(jì)算量大幅下降,且該數(shù)據(jù)的挖掘能關(guān)聯(lián)有用數(shù)據(jù)分類,挖掘目的性更強(qiáng)。

      實(shí)施例4:

      如圖1所示的一種大規(guī)模數(shù)據(jù)處理裝置,包括數(shù)據(jù)質(zhì)量管理模塊1和有用數(shù)據(jù)挖掘模塊2,其中質(zhì)量管理模塊1包括初步處理子模塊11、數(shù)據(jù)描述子模塊12、數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊13和數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14,有用數(shù)據(jù)挖掘模塊2包括數(shù)據(jù)預(yù)處理子模塊21、有用數(shù)據(jù)構(gòu)建子模塊22、有用數(shù)據(jù)修正子模塊23和有用數(shù)據(jù)分層挖掘子模塊24。

      初步處理子模塊11,包括中央控制單元、計(jì)算集群?jiǎn)卧?、存?chǔ)單元、高速網(wǎng)絡(luò);中央控制單元中節(jié)點(diǎn)采用CPU與GPU混合異構(gòu)架構(gòu);計(jì)算集群?jiǎn)卧泄?jié)點(diǎn)采用CPU與GPU混合異構(gòu)架構(gòu)或采用CPU架構(gòu);存儲(chǔ)單元分共享存儲(chǔ)和本地存儲(chǔ),共享存儲(chǔ)中節(jié)點(diǎn)采用CPU架構(gòu),本地存儲(chǔ)設(shè)置在中央控制單元的節(jié)點(diǎn)以及計(jì)算集群?jiǎn)卧拿總€(gè)節(jié)點(diǎn)中,共享存儲(chǔ)分為主存儲(chǔ)和備份存儲(chǔ),主存儲(chǔ)和備份存儲(chǔ)作為冗余存儲(chǔ)、存儲(chǔ)相同的計(jì)算數(shù)據(jù),本地存儲(chǔ)用于存儲(chǔ)所在的中央控制單元的節(jié)點(diǎn)或者是計(jì)算集群?jiǎn)卧墓?jié)點(diǎn)的數(shù)據(jù);高速網(wǎng)絡(luò)用于將中央控制單元中節(jié)點(diǎn)、計(jì)算集群?jiǎn)卧泄?jié)點(diǎn)、共享存儲(chǔ)中節(jié)點(diǎn)互相連接。

      優(yōu)選地,其特征是,中央控制單元中節(jié)點(diǎn)控制計(jì)算集群?jiǎn)卧泄?jié)點(diǎn)、存儲(chǔ)單元中節(jié)點(diǎn)。

      優(yōu)選地,其特征在于,中央控制單元中節(jié)點(diǎn)設(shè)置有1個(gè),共享存儲(chǔ)中節(jié)點(diǎn)設(shè)置有至少1個(gè),計(jì)算集群?jiǎn)卧泄?jié)點(diǎn)設(shè)置有至少2個(gè)。

      優(yōu)選地,

      (1)數(shù)據(jù)描述子模塊12:

      通過引入數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性來描述數(shù)據(jù),數(shù)據(jù)本身的屬性用數(shù)據(jù)大小、創(chuàng)建日期、包含圖片數(shù)、相關(guān)數(shù)據(jù)量表示,其中,相關(guān)數(shù)據(jù)量為當(dāng)前數(shù)據(jù)指向的其它數(shù)據(jù)和指向當(dāng)前數(shù)據(jù)的其它數(shù)據(jù)的總和;數(shù)據(jù)影響者的屬性用影響者網(wǎng)絡(luò)聚類系數(shù)來表示,由以下方法得到:

      構(gòu)建數(shù)據(jù)影響者描述網(wǎng)絡(luò),對(duì)于每一個(gè)數(shù)據(jù)而言,影響者包括多個(gè)用戶和一個(gè)管理者,其每個(gè)影響者都代表一個(gè)節(jié)點(diǎn),用戶可以瀏覽數(shù)據(jù),也可以對(duì)數(shù)據(jù)提出修改的建議,而管理者既可以自行對(duì)數(shù)據(jù)進(jìn)行修改,也可以根據(jù)用戶建議進(jìn)行修改,

      則影響者網(wǎng)絡(luò)聚類系數(shù)定義為:

      <mrow> <mover> <mi>K</mi> <mo>&OverBar;</mo> </mover> <mo>=</mo> <mfrac> <mrow> <msub> <mi>m&sigma;</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>l&sigma;</mi> <mn>2</mn> </msub> <mo>+</mo> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>&delta;</mi> <mn>1</mn> </msub> <mo>&times;</mo> <msub> <mi>&sigma;</mi> <mn>3</mn> </msub> <mo>+</mo> <msub> <mi>&delta;</mi> <mn>2</mn> </msub> <mo>&times;</mo> <msub> <mi>&sigma;</mi> <mn>4</mn> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mo>+</mo> <mi>l</mi> <mo>+</mo> <mi>n</mi> </mrow> </mfrac> <mo>&times;</mo> <msqrt> <mrow> <mn>1</mn> <mo>-</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>m</mi> <mo>-</mo> <mi>l</mi> </mrow> <mi>m</mi> </mfrac> <mo>)</mo> </mrow> <mn>3</mn> </msup> </mrow> </msqrt> </mrow>

      式中,σ1表示用戶每瀏覽一次數(shù)據(jù)施加的影響因子,m表示用戶瀏覽總次數(shù);σ2表示用戶每提出一次修改意見施加的影響因子,l表示用戶提出建議總次數(shù);σ3表示管理者每自行修改一次數(shù)據(jù)施加的影響因子,σ4表示管理者每根據(jù)用戶建議修改一次數(shù)據(jù)施加的影響因子,δ1和δ2分別為σ3和σ4權(quán)值,n表示管理者修改總次數(shù);為用戶修改頻率系數(shù),用于表示用戶對(duì)數(shù)據(jù)的滿意程度,該系數(shù)越大表明用戶對(duì)數(shù)據(jù)的修改越頻繁。

      (2)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊13:

      采用“三級(jí)評(píng)價(jià)模型”對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),首先根據(jù)數(shù)據(jù)大小將數(shù)據(jù)分為三類,然后綜合數(shù)據(jù)的除數(shù)據(jù)大小外的其它全部屬性對(duì)其數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),具體方法如下:

      將樣本數(shù)據(jù)劃分為高質(zhì)量數(shù)據(jù)、中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閾值T1,則該數(shù)據(jù)屬于高質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閥值T2但是小于閥值T1,則該數(shù)據(jù)屬于中質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小小于閥值T2,則該數(shù)據(jù)屬于低質(zhì)量數(shù)據(jù),T1>T2且T1、T2的取值范圍是[1KB,1MB];進(jìn)一步將高質(zhì)量數(shù)據(jù)和低質(zhì)量劃分為不同等級(jí),選取數(shù)據(jù)的其它全部屬性組成向量,并根據(jù)樣本數(shù)據(jù)計(jì)算每個(gè)等級(jí)的各個(gè)數(shù)據(jù)屬性的均值,為每個(gè)等級(jí)建立相應(yīng)的均值向量,新數(shù)據(jù)向量用X=(x1,…,xN)表示,某個(gè)等級(jí)的均值向量用Y=(y1,…,yN)表示,N表示除數(shù)據(jù)大小外數(shù)據(jù)的其它全部屬性個(gè)數(shù),兩個(gè)向量的相似度用相似度函數(shù)R(X,Y)表示:

      <mrow> <mi>R</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <msqrt> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msup> <mrow> <mo>|</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> </mfrac> <mo>|</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>+</mo> <msqrt> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msup> <mrow> <mo>|</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> </mfrac> <mo>|</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow>

      R(X,Y)值越小,則表明相似度越大,反之,則相似度越小,每個(gè)數(shù)據(jù)分別計(jì)算與不同等級(jí)的均值向量的相似度,從而確認(rèn)其質(zhì)量等級(jí)。

      (3)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14:

      數(shù)據(jù)通過數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊后被劃分為不同質(zhì)量等級(jí),根據(jù)數(shù)據(jù)等級(jí)不同對(duì)數(shù)據(jù)進(jìn)行分級(jí)管理。

      優(yōu)選地,

      (1)數(shù)據(jù)預(yù)處理子模塊

      將數(shù)據(jù)劃分為不同領(lǐng)域,根據(jù)用戶需求確定客戶所需數(shù)據(jù)領(lǐng)域,使用上述的三級(jí)評(píng)價(jià)模型對(duì)領(lǐng)域中的高質(zhì)量高等級(jí)數(shù)據(jù)進(jìn)行篩選,組成一個(gè)新的數(shù)據(jù)表K;

      (2)有用數(shù)據(jù)構(gòu)建子模塊

      經(jīng)過預(yù)處理的數(shù)據(jù),每個(gè)數(shù)據(jù)領(lǐng)域包含了不同的分類,引入相關(guān)系數(shù)P篩選有用數(shù)據(jù)分類:

      <mrow> <mi>P</mi> <mo>=</mo> <mfrac> <mrow> <mfrac> <msub> <mi>Z</mi> <mi>s</mi> </msub> <mi>Z</mi> </mfrac> <mo>-</mo> <mi>&rho;</mi> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <mi>&rho;</mi> </mrow> </mfrac> </mrow>

      式中,Zs表示新數(shù)據(jù)表K一個(gè)分類中數(shù)據(jù)雙向指向的數(shù)量,即對(duì)于數(shù)據(jù)A和B,既能從A指向B,也能從B指向A,Z表示數(shù)據(jù)表K一個(gè)分類中的相關(guān)數(shù)據(jù)量,其中N表示一個(gè)分類中數(shù)據(jù)的總數(shù);

      (3)有用數(shù)據(jù)修正子模塊

      有用數(shù)據(jù)在使用過程中,會(huì)受到人為破壞和用戶投票兩個(gè)方面的影響,根據(jù)這兩方面修正后的相關(guān)系數(shù)為P′;同時(shí)設(shè)定閾值T,T∈(0,0.1],若P′>T,則表明這個(gè)分類是有用數(shù)據(jù);當(dāng)從高質(zhì)量數(shù)據(jù)無法得到符合條件的有用數(shù)據(jù)時(shí),依次在中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù)中進(jìn)行查找符合條件的有用數(shù)據(jù),并且當(dāng)所有數(shù)據(jù)查找完畢后,如果最終得到的P′最大值小于T,或者雖然P′的最大值大于T但是其與閥值T的差值的絕對(duì)值小于設(shè)定值C,表明無法找到有用數(shù)據(jù)或者雖然可以找到有用數(shù)據(jù)但是得到的有用數(shù)據(jù)相關(guān)度已經(jīng)低于預(yù)期,則此時(shí)自動(dòng)對(duì)管理者發(fā)出提示,修改或者增加相關(guān)數(shù)據(jù);取C=T/5;

      (4)有用數(shù)據(jù)分層挖掘模塊

      首先掃描數(shù)據(jù)表K,假設(shè)P′的最大值和最小值分別為P′max和P′min,將數(shù)據(jù)表K分割成個(gè)非重疊區(qū)域,并行挖掘出局部頻繁項(xiàng)集,其中int為取整函數(shù);然后利用先驗(yàn)性質(zhì),連接局部頻繁項(xiàng)集得全局候選項(xiàng)集;再次掃描K統(tǒng)計(jì)出每個(gè)候選項(xiàng)集的實(shí)際支持度以確定全局頻繁項(xiàng)集。

      有用數(shù)據(jù)修正子模塊中根據(jù)人為破壞和用戶投票進(jìn)行修正的具體修正公式為:

      P′=P×(1-Y)×(1+H)

      式中,Y表示數(shù)據(jù)受到人為破壞的概率,H表示投票用戶占總?cè)藬?shù)的比例。

      本實(shí)施例中,引入網(wǎng)絡(luò)聚類系數(shù)對(duì)數(shù)據(jù)進(jìn)行描述,綜合考慮了數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性,提高了分類的準(zhǔn)確率,同時(shí)通過用戶修改頻率系數(shù)的引入來減小人工干預(yù),實(shí)現(xiàn)了高效檢測(cè)數(shù)據(jù)質(zhì)量的目標(biāo);采用三級(jí)評(píng)價(jià)模型,節(jié)約了存儲(chǔ)空間,提高了計(jì)算效率;采用全新的相似度函數(shù),放大了較大相對(duì)誤差的作用,使得質(zhì)量等級(jí)更為科學(xué)精確;引入數(shù)據(jù)修正子模塊對(duì)相關(guān)系數(shù)進(jìn)行修正,能夠充分克服人為破壞和用戶投票對(duì)數(shù)據(jù)的影響,取C=T/8,提示數(shù)據(jù)范圍增加3%,但是計(jì)算量增加了2.7%;將基于區(qū)域劃分的關(guān)聯(lián)規(guī)則挖掘應(yīng)用與有用數(shù)據(jù)的分類相結(jié)合,只需要在三級(jí)分類后的一個(gè)數(shù)據(jù)表中進(jìn)行分層挖掘,只有在當(dāng)前數(shù)據(jù)表沒有符合要求的數(shù)據(jù)時(shí),才會(huì)在下一個(gè)數(shù)據(jù)表中進(jìn)行挖掘,計(jì)算量大幅下降,且該數(shù)據(jù)的挖掘能關(guān)聯(lián)有用數(shù)據(jù)分類,挖掘目的性更強(qiáng)。

      實(shí)施例5:

      如圖1所示的一種大規(guī)模數(shù)據(jù)處理裝置,包括數(shù)據(jù)質(zhì)量管理模塊1和有用數(shù)據(jù)挖掘模塊2,其中質(zhì)量管理模塊1包括初步處理子模塊11、數(shù)據(jù)描述子模塊12、數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊13和數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14,有用數(shù)據(jù)挖掘模塊2包括數(shù)據(jù)預(yù)處理子模塊21、有用數(shù)據(jù)構(gòu)建子模塊22、有用數(shù)據(jù)修正子模塊23和有用數(shù)據(jù)分層挖掘子模塊24。

      初步處理子模塊11,包括中央控制單元、計(jì)算集群?jiǎn)卧?、存?chǔ)單元、高速網(wǎng)絡(luò);中央控制單元中節(jié)點(diǎn)采用CPU與GPU混合異構(gòu)架構(gòu);計(jì)算集群?jiǎn)卧泄?jié)點(diǎn)采用CPU與GPU混合異構(gòu)架構(gòu)或采用CPU架構(gòu);存儲(chǔ)單元分共享存儲(chǔ)和本地存儲(chǔ),共享存儲(chǔ)中節(jié)點(diǎn)采用CPU架構(gòu),本地存儲(chǔ)設(shè)置在中央控制單元的節(jié)點(diǎn)以及計(jì)算集群?jiǎn)卧拿總€(gè)節(jié)點(diǎn)中,共享存儲(chǔ)分為主存儲(chǔ)和備份存儲(chǔ),主存儲(chǔ)和備份存儲(chǔ)作為冗余存儲(chǔ)、存儲(chǔ)相同的計(jì)算數(shù)據(jù),本地存儲(chǔ)用于存儲(chǔ)所在的中央控制單元的節(jié)點(diǎn)或者是計(jì)算集群?jiǎn)卧墓?jié)點(diǎn)的數(shù)據(jù);高速網(wǎng)絡(luò)用于將中央控制單元中節(jié)點(diǎn)、計(jì)算集群?jiǎn)卧泄?jié)點(diǎn)、共享存儲(chǔ)中節(jié)點(diǎn)互相連接。

      優(yōu)選地,其特征是,中央控制單元中節(jié)點(diǎn)控制計(jì)算集群?jiǎn)卧泄?jié)點(diǎn)、存儲(chǔ)單元中節(jié)點(diǎn)。

      優(yōu)選地,其特征在于,中央控制單元中節(jié)點(diǎn)設(shè)置有1個(gè),共享存儲(chǔ)中節(jié)點(diǎn)設(shè)置有至少1個(gè),計(jì)算集群?jiǎn)卧泄?jié)點(diǎn)設(shè)置有至少2個(gè)。

      優(yōu)選地,

      (1)數(shù)據(jù)描述子模塊12:

      通過引入數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性來描述數(shù)據(jù),數(shù)據(jù)本身的屬性用數(shù)據(jù)大小、創(chuàng)建日期、包含圖片數(shù)、相關(guān)數(shù)據(jù)量表示,其中,相關(guān)數(shù)據(jù)量為當(dāng)前數(shù)據(jù)指向的其它數(shù)據(jù)和指向當(dāng)前數(shù)據(jù)的其它數(shù)據(jù)的總和;數(shù)據(jù)影響者的屬性用影響者網(wǎng)絡(luò)聚類系數(shù)來表示,由以下方法得到:

      構(gòu)建數(shù)據(jù)影響者描述網(wǎng)絡(luò),對(duì)于每一個(gè)數(shù)據(jù)而言,影響者包括多個(gè)用戶和一個(gè)管理者,其每個(gè)影響者都代表一個(gè)節(jié)點(diǎn),用戶可以瀏覽數(shù)據(jù),也可以對(duì)數(shù)據(jù)提出修改的建議,而管理者既可以自行對(duì)數(shù)據(jù)進(jìn)行修改,也可以根據(jù)用戶建議進(jìn)行修改,

      則影響者網(wǎng)絡(luò)聚類系數(shù)定義為:

      <mrow> <mover> <mi>K</mi> <mo>&OverBar;</mo> </mover> <mo>=</mo> <mfrac> <mrow> <msub> <mi>m&sigma;</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>l&sigma;</mi> <mn>2</mn> </msub> <mo>+</mo> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>&delta;</mi> <mn>1</mn> </msub> <mo>&times;</mo> <msub> <mi>&sigma;</mi> <mn>3</mn> </msub> <mo>+</mo> <msub> <mi>&delta;</mi> <mn>2</mn> </msub> <mo>&times;</mo> <msub> <mi>&sigma;</mi> <mn>4</mn> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mo>+</mo> <mi>l</mi> <mo>+</mo> <mi>n</mi> </mrow> </mfrac> <mo>&times;</mo> <msqrt> <mrow> <mn>1</mn> <mo>-</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>m</mi> <mo>-</mo> <mi>l</mi> </mrow> <mi>m</mi> </mfrac> <mo>)</mo> </mrow> <mn>3</mn> </msup> </mrow> </msqrt> </mrow>

      式中,σ1表示用戶每瀏覽一次數(shù)據(jù)施加的影響因子,m表示用戶瀏覽總次數(shù);σ2表示用戶每提出一次修改意見施加的影響因子,l表示用戶提出建議總次數(shù);σ3表示管理者每自行修改一次數(shù)據(jù)施加的影響因子,σ4表示管理者每根據(jù)用戶建議修改一次數(shù)據(jù)施加的影響因子,δ1和δ2分別為σ3和σ4權(quán)值,n表示管理者修改總次數(shù);為用戶修改頻率系數(shù),用于表示用戶對(duì)數(shù)據(jù)的滿意程度,該系數(shù)越大表明用戶對(duì)數(shù)據(jù)的修改越頻繁。

      (2)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊13:

      采用“三級(jí)評(píng)價(jià)模型”對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),首先根據(jù)數(shù)據(jù)大小將數(shù)據(jù)分為三類,然后綜合數(shù)據(jù)的除數(shù)據(jù)大小外的其它全部屬性對(duì)其數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),具體方法如下:

      將樣本數(shù)據(jù)劃分為高質(zhì)量數(shù)據(jù)、中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閾值T1,則該數(shù)據(jù)屬于高質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閥值T2但是小于閥值T1,則該數(shù)據(jù)屬于中質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小小于閥值T2,則該數(shù)據(jù)屬于低質(zhì)量數(shù)據(jù),T1>T2且T1、T2的取值范圍是[1KB,1MB];進(jìn)一步將高質(zhì)量數(shù)據(jù)和低質(zhì)量劃分為不同等級(jí),選取數(shù)據(jù)的其它全部屬性組成向量,并根據(jù)樣本數(shù)據(jù)計(jì)算每個(gè)等級(jí)的各個(gè)數(shù)據(jù)屬性的均值,為每個(gè)等級(jí)建立相應(yīng)的均值向量,新數(shù)據(jù)向量用X=(x1,…,xN)表示,某個(gè)等級(jí)的均值向量用Y=(y1,…,yN)表示,N表示除數(shù)據(jù)大小外數(shù)據(jù)的其它全部屬性個(gè)數(shù),兩個(gè)向量的相似度用相似度函數(shù)R(X,Y)表示:

      <mrow> <mi>R</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <msqrt> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msup> <mrow> <mo>|</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> </mfrac> <mo>|</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>+</mo> <msqrt> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msup> <mrow> <mo>|</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> </mfrac> <mo>|</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow>

      R(X,Y)值越小,則表明相似度越大,反之,則相似度越小,每個(gè)數(shù)據(jù)分別計(jì)算與不同等級(jí)的均值向量的相似度,從而確認(rèn)其質(zhì)量等級(jí)。

      (3)數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊14:

      數(shù)據(jù)通過數(shù)據(jù)質(zhì)量評(píng)價(jià)子模塊后被劃分為不同質(zhì)量等級(jí),根據(jù)數(shù)據(jù)等級(jí)不同對(duì)數(shù)據(jù)進(jìn)行分級(jí)管理。

      優(yōu)選地,

      (1)數(shù)據(jù)預(yù)處理子模塊

      將數(shù)據(jù)劃分為不同領(lǐng)域,根據(jù)用戶需求確定客戶所需數(shù)據(jù)領(lǐng)域,使用上述的三級(jí)評(píng)價(jià)模型對(duì)領(lǐng)域中的高質(zhì)量高等級(jí)數(shù)據(jù)進(jìn)行篩選,組成一個(gè)新的數(shù)據(jù)表K;

      (2)有用數(shù)據(jù)構(gòu)建子模塊

      經(jīng)過預(yù)處理的數(shù)據(jù),每個(gè)數(shù)據(jù)領(lǐng)域包含了不同的分類,引入相關(guān)系數(shù)P篩選有用數(shù)據(jù)分類:

      <mrow> <mi>P</mi> <mo>=</mo> <mfrac> <mrow> <mfrac> <msub> <mi>Z</mi> <mi>s</mi> </msub> <mi>Z</mi> </mfrac> <mo>-</mo> <mi>&rho;</mi> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <mi>&rho;</mi> </mrow> </mfrac> </mrow>

      式中,Zs表示新數(shù)據(jù)表K一個(gè)分類中數(shù)據(jù)雙向指向的數(shù)量,即對(duì)于數(shù)據(jù)A和B,既能從A指向B,也能從B指向A,Z表示數(shù)據(jù)表K一個(gè)分類中的相關(guān)數(shù)據(jù)量,其中N表示一個(gè)分類中數(shù)據(jù)的總數(shù);

      (3)有用數(shù)據(jù)修正子模塊

      有用數(shù)據(jù)在使用過程中,會(huì)受到人為破壞和用戶投票兩個(gè)方面的影響,根據(jù)這兩方面修正后的相關(guān)系數(shù)為P′;同時(shí)設(shè)定閾值T,T∈(0,0.1],若P′>T,則表明這個(gè)分類是有用數(shù)據(jù);當(dāng)從高質(zhì)量數(shù)據(jù)無法得到符合條件的有用數(shù)據(jù)時(shí),依次在中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù)中進(jìn)行查找符合條件的有用數(shù)據(jù),并且當(dāng)所有數(shù)據(jù)查找完畢后,如果最終得到的P′最大值小于T,或者雖然P′的最大值大于T但是其與閥值T的差值的絕對(duì)值小于設(shè)定值C,表明無法找到有用數(shù)據(jù)或者雖然可以找到有用數(shù)據(jù)但是得到的有用數(shù)據(jù)相關(guān)度已經(jīng)低于預(yù)期,則此時(shí)自動(dòng)對(duì)管理者發(fā)出提示,修改或者增加相關(guān)數(shù)據(jù);取C=T/5;

      (4)有用數(shù)據(jù)分層挖掘模塊

      首先掃描數(shù)據(jù)表K,假設(shè)P′的最大值和最小值分別為P′max和P′min,將數(shù)據(jù)表K分割成個(gè)非重疊區(qū)域,并行挖掘出局部頻繁項(xiàng)集,其中int為取整函數(shù);然后利用先驗(yàn)性質(zhì),連接局部頻繁項(xiàng)集得全局候選項(xiàng)集;再次掃描K統(tǒng)計(jì)出每個(gè)候選項(xiàng)集的實(shí)際支持度以確定全局頻繁項(xiàng)集。

      有用數(shù)據(jù)修正子模塊中根據(jù)人為破壞和用戶投票進(jìn)行修正的具體修正公式為:

      P′=P×(1-Y)×(1+H)

      式中,Y表示數(shù)據(jù)受到人為破壞的概率,H表示投票用戶占總?cè)藬?shù)的比例。

      本實(shí)施例中,引入網(wǎng)絡(luò)聚類系數(shù)對(duì)數(shù)據(jù)進(jìn)行描述,綜合考慮了數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性,提高了分類的準(zhǔn)確率,同時(shí)通過用戶修改頻率系數(shù)的引入來減小人工干預(yù),實(shí)現(xiàn)了高效檢測(cè)數(shù)據(jù)質(zhì)量的目標(biāo);采用三級(jí)評(píng)價(jià)模型,節(jié)約了存儲(chǔ)空間,提高了計(jì)算效率;采用全新的相似度函數(shù),放大了較大相對(duì)誤差的作用,使得質(zhì)量等級(jí)更為科學(xué)精確;引入數(shù)據(jù)修正子模塊對(duì)相關(guān)系數(shù)進(jìn)行修正,能夠充分克服人為破壞和用戶投票對(duì)數(shù)據(jù)的影響,取C=T/9,提示數(shù)據(jù)范圍增加2.7%,但是計(jì)算量增加了2.5%;將基于區(qū)域劃分的關(guān)聯(lián)規(guī)則挖掘應(yīng)用與有用數(shù)據(jù)的分類相結(jié)合,只需要在三級(jí)分類后的一個(gè)數(shù)據(jù)表中進(jìn)行分層挖掘,只有在當(dāng)前數(shù)據(jù)表沒有符合要求的數(shù)據(jù)時(shí),才會(huì)在下一個(gè)數(shù)據(jù)表中進(jìn)行挖掘,計(jì)算量大幅下降,且該數(shù)據(jù)的挖掘能關(guān)聯(lián)有用數(shù)據(jù)分類,挖掘目的性更強(qiáng)。

      最后應(yīng)當(dāng)說明的是,以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明保護(hù)范圍的限制,盡管參照較佳實(shí)施例對(duì)本發(fā)明作了詳細(xì)地說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,可以對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明技術(shù)方案的實(shí)質(zhì)和范圍。

      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1