產(chǎn)生最大項(xiàng)目集的方法、基于Apriori分析成績的方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及統(tǒng)計(jì)計(jì)算分析技術(shù)領(lǐng)域的,具體地涉及產(chǎn)生最大項(xiàng)目集的方法和分析學(xué)生成績的方法、系統(tǒng)。
【背景技術(shù)】
[0002]目前學(xué)生成績分析算法中采用最多的是Apr1ri算法,Apr1ri算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法,其核心思想是通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項(xiàng)集,而且算法已經(jīng)被廣泛的應(yīng)用到商業(yè)、網(wǎng)絡(luò)安全等各個領(lǐng)域,根據(jù)Apr1ri算法,可綜合分析班級各分?jǐn)?shù)段、最高分、最低分、平均分、標(biāo)準(zhǔn)分、T值、優(yōu)良率等信息,但是數(shù)據(jù)挖掘技術(shù)在教育管理領(lǐng)域內(nèi)的研究相對較少,而學(xué)校對這些成績的處理一般還停留初級的查詢、簡單匯總統(tǒng)計(jì)階段,對于學(xué)生取得這些成績的原因、某門課程的授課效果如何等問題往往無法了解;而且在大數(shù)據(jù)分析情況下,采用一般的Apr1ri算法分析成績時,首先在每一步產(chǎn)生候選項(xiàng)目集時循環(huán)產(chǎn)生的組合過多,沒有排除不應(yīng)該參與組合的元素,然后每次計(jì)算相集的支持度時,如果數(shù)據(jù)庫很大,在掃描數(shù)據(jù)庫時會大大增加計(jì)算機(jī)系統(tǒng)的I/O開銷。
【發(fā)明內(nèi)容】
[0003]本發(fā)明為了解決現(xiàn)有技術(shù)中學(xué)生成績無法真實(shí)地被反映、Apr1ri算法在大數(shù)據(jù)分析中事務(wù)數(shù)據(jù)庫掃描次數(shù)過多、計(jì)算機(jī)系統(tǒng)的I/O開銷過大的問題,提供了一種產(chǎn)生最大項(xiàng)目集的方法、分析學(xué)生成績的方法以及分析學(xué)生成績的系統(tǒng),該方法及系統(tǒng)可有效地反映學(xué)生成績的真實(shí)情況而且可有效地減少計(jì)算機(jī)系統(tǒng)的I/O開銷。
[0004]為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種產(chǎn)生最大項(xiàng)目集的方法包括:
[0005]步驟I,統(tǒng)計(jì)原項(xiàng)目中所有元素一一對應(yīng)的頻率;
[0006]步驟2,將原項(xiàng)目中的所有元素進(jìn)行組合得到頻繁項(xiàng)目集;
[0007]步驟3,在所述頻繁項(xiàng)目集中存在小于所述預(yù)設(shè)支持度的項(xiàng)目的情況下,去除所述頻繁項(xiàng)目集中小于所述預(yù)設(shè)支持度的項(xiàng)目,否則保留原頻繁項(xiàng)目集;
[0008]步驟4,一一判斷經(jīng)過步驟3之后的所述頻繁項(xiàng)目集中的元素的個數(shù)和循環(huán)次數(shù)減I的大小,初始循環(huán)次數(shù)為2 ;
[0009]I)當(dāng)所述頻繁項(xiàng)目集中的存在元素的個數(shù)小于和等于所述循環(huán)次數(shù)減I時,則去除個數(shù)小于所述循環(huán)次數(shù)減I的元素所在的項(xiàng)目,組合形成新的頻繁項(xiàng)目集替換所述頻繁項(xiàng)目集,返回步驟3,循環(huán)次數(shù)加I ;
[0010]2)當(dāng)所述頻繁項(xiàng)目集中的所有元素的個數(shù)都等于循環(huán)次數(shù)減I時,則組合所述頻繁項(xiàng)目集中的所有元素得到最大項(xiàng)目集。
[0011]優(yōu)選地,在步驟2中,通過逐層迭代將原項(xiàng)目中的所有元素進(jìn)行組合得到頻繁項(xiàng)目集。
[0012]優(yōu)選的,在步驟I之前還包括:通過先驗(yàn)步驟判斷原項(xiàng)目是否已經(jīng)處理。
[0013]本發(fā)明還提供一種基于Apr1ri分析成績的方法,該方法包括:
[0014]算法分析步驟:根據(jù)上述的產(chǎn)生最大項(xiàng)目集的方法得到最大項(xiàng)目集;將基于Apr1ri算法產(chǎn)生的最大項(xiàng)目集通過正態(tài)分布原理算法得出學(xué)生成績的位置排名。
[0015]優(yōu)選的,在算法分析步驟之前,該方法還包括:步驟分析建模步驟:將基礎(chǔ)成績數(shù)據(jù)進(jìn)行分析并建模。
[0016]本發(fā)明還提供一種基于Apr1ri分析成績的系統(tǒng),該系統(tǒng)包括:
[0017]算法分析裝置:根據(jù)上述的產(chǎn)生最大項(xiàng)目集的方法得到最大項(xiàng)目集的裝置;將基于Apr1ri算法產(chǎn)生的最大項(xiàng)目集通過正態(tài)分布原理算法得出學(xué)生成績的位置排名的裝置。
[0018]優(yōu)選的,該系統(tǒng)還包括:步驟分析建模裝置:將基礎(chǔ)成績數(shù)據(jù)進(jìn)行分析并建模的
目.ο
[0019]本發(fā)明通過設(shè)置一種產(chǎn)生最大項(xiàng)目集的方法、分析學(xué)生成績的方法以及分析學(xué)生成績的系統(tǒng),可以有效地反映學(xué)生成績的真實(shí)情況而且可有效地減少計(jì)算機(jī)系統(tǒng)的I/O開銷,通過在循環(huán)處理的過程中實(shí)現(xiàn)對出現(xiàn)元素的個數(shù)的計(jì)數(shù),并通過循環(huán)過程中的實(shí)現(xiàn)刪除某個元素,從而排出由于該元素導(dǎo)致的大規(guī)模的所有組合。
[0020]本發(fā)明的其他特征和優(yōu)點(diǎn)將在隨后的【具體實(shí)施方式】部分予以詳細(xì)說明。
【具體實(shí)施方式】
[0021]以下對本發(fā)明的【具體實(shí)施方式】進(jìn)行詳細(xì)說明。應(yīng)當(dāng)理解的是,此處所描述的【具體實(shí)施方式】僅用于說明和解釋本發(fā)明,并不用于限制本發(fā)明。
[0022]本發(fā)明提供了一種產(chǎn)生最大項(xiàng)目集的方法包括:
[0023]步驟I,統(tǒng)計(jì)原項(xiàng)目中所有元素一一對應(yīng)的頻率;
[0024]步驟2,將原項(xiàng)目中的所有元素進(jìn)行組合得到頻繁項(xiàng)目集;
[0025]步驟3,在所述頻繁項(xiàng)目集中存在小于所述預(yù)設(shè)支持度的項(xiàng)目的情況下,去除所述頻繁項(xiàng)目集中小于所述預(yù)設(shè)支持度的項(xiàng)目,否則保留原頻繁項(xiàng)目集;
[0026]步驟4,一一判斷經(jīng)過步驟3之后的所述頻繁項(xiàng)目集中的元素的個數(shù)和循環(huán)次數(shù)減I的大小,初始循環(huán)次數(shù)為2 ;
[0027]I)當(dāng)所述頻繁項(xiàng)目集中的存在元素的個數(shù)小于和等于所述循環(huán)次數(shù)減I時,則去除個數(shù)小于所述循環(huán)次數(shù)減I的元素所在的項(xiàng)目,組合形成新的頻繁項(xiàng)目集替換所述頻繁項(xiàng)目集,返回步驟3,循環(huán)次數(shù)加I ;
[0028]2)當(dāng)所述頻繁項(xiàng)目集中的所有元素的個數(shù)都等于循環(huán)次數(shù)減I時,則組合所述頻繁項(xiàng)目集中的所有元素得到最大項(xiàng)目集。
[0029]通過上述的實(shí)施方式,本發(fā)明的一種基于Apr1ri算法的產(chǎn)生最大項(xiàng)目集的方法通過步驟I和步驟2先統(tǒng)計(jì)原項(xiàng)目的所有元素一一對應(yīng)的頻率,然后將所有的元素組合得到頻繁項(xiàng)目集,通過步驟3先簡單地將所述頻繁項(xiàng)目集中小于所述預(yù)設(shè)支持度的項(xiàng)目去除掉,保留大于或等于所述預(yù)設(shè)支持度的原頻繁項(xiàng)目集,步驟4是再統(tǒng)計(jì)將經(jīng)過步驟3處理后的所述頻繁項(xiàng)目集中每個元素的個數(shù),將統(tǒng)計(jì)的個數(shù)和循環(huán)數(shù)減I的大小進(jìn)行比較(初始循環(huán)次數(shù)為2),排除小于或等于循環(huán)數(shù)減I的元素所在的項(xiàng)目,然后重新組合循環(huán)步驟3直至所述頻繁項(xiàng)目集中的所有元素的個數(shù)等于循環(huán)次數(shù)減1,得到組合所述頻繁項(xiàng)目集中的所有元素得到最大項(xiàng)目集。本發(fā)明提供的這種基于Apr1ri算法的產(chǎn)生最大項(xiàng)目集的方法,在步驟4中排除了不應(yīng)該參與組合的元素,減少了不需要的組合,這樣就有效地減少了事務(wù)數(shù)據(jù)庫掃描的次數(shù),大大地減少了計(jì)算機(jī)系統(tǒng)的I/O開銷,從而提高了基于Apr1ri算法的產(chǎn)生最大項(xiàng)目集的方法的效率。
[0030]通過上述的改進(jìn)的算法在考慮組合之前,對將參與組合的元素進(jìn)行計(jì)數(shù)的處理,根據(jù)計(jì)數(shù)的結(jié)果決定排除一些不符合組合條件的元素,這樣就降低了組合的可能性,這么久降低循環(huán)判斷的次數(shù)。改進(jìn)的算法對數(shù)據(jù)庫進(jìn)行了掃描后的重新生成,雖然會在記錄中重寫浪費(fèi)時間和I/o開銷,但是隨著循環(huán)次數(shù)的增加,本算法以后在新生成的數(shù)據(jù)庫中的掃描次數(shù)的減少很快會顯示出來。
[0031 ] 在該種實(shí)施方式中,在步驟2中,通過逐層迭代將原項(xiàng)目中的所有元素進(jìn)行組合得到頻繁項(xiàng)目集。
[0032]在該實(shí)施方式中,在步驟I之前還包括:通過先驗(yàn)步驟判斷原項(xiàng)目是否已經(jīng)處理,如果原項(xiàng)目是沒處理的,然后再進(jìn)行步驟I。