本技術(shù)涉及數(shù)據(jù)挖掘,具體涉及一種具有效率約束的序列模式挖掘方法、裝置及設(shè)備。
背景技術(shù):
1、大規(guī)模開放在線課程(massive?open?online?courses,mooc)平臺作為在線學(xué)習(xí)的重要工具,能夠捕捉豐富的學(xué)習(xí)行為數(shù)據(jù),為數(shù)據(jù)挖掘研究提供了豐富而互動的多媒體平臺;而探索mooc數(shù)據(jù)中的學(xué)習(xí)行為特征對于優(yōu)化學(xué)習(xí)體驗至關(guān)重要,因此數(shù)據(jù)挖掘技術(shù)被廣泛應(yīng)用于mooc數(shù)據(jù)集中,以提取有價值的見解,尤其關(guān)注學(xué)生行為分析;其中,學(xué)生行為數(shù)據(jù)的分析對學(xué)業(yè)成績預(yù)測、課程推薦及課程質(zhì)量滿意度研究等領(lǐng)域均產(chǎn)生了重要影響。由此可見,借助數(shù)據(jù)挖掘技術(shù),研究人員能更深入地理解學(xué)生行為及其潛在影響。
2、相關(guān)技術(shù)中,序列模式挖掘(sequence?pattern?mining,spm)是分析學(xué)生行為記錄的關(guān)鍵手段,旨在發(fā)現(xiàn)支持度達到或超過預(yù)設(shè)最小閾值的子序列,目前已有包括廣度優(yōu)先、深度優(yōu)先和模式增長等多種傳統(tǒng)spm算法被應(yīng)用于此領(lǐng)域,這些算法可有效地從數(shù)據(jù)集中識別和提取模式,以生成大量序列模式(sequence?pattern,sp)。然而,由于mooc數(shù)據(jù)因其龐大的規(guī)模和復(fù)雜性,比如包含用戶交互、課程材料和帶時間戳的操作等多種信息,使得傳統(tǒng)的spm算法難以處理,并可能產(chǎn)生不相關(guān)的模式。因此,如何有效地挖掘和發(fā)現(xiàn)有意義的序列模式至關(guān)重要。
技術(shù)實現(xiàn)思路
1、本技術(shù)提供一種具有效率約束的序列模式挖掘方法、裝置及設(shè)備,可提高序列模式發(fā)現(xiàn)的有效性和準(zhǔn)確性,并降低序列模式的發(fā)現(xiàn)數(shù)量。
2、第一方面,本技術(shù)實施例提供一種具有效率約束的序列模式挖掘方法,包括以下步驟:
3、基于模式中項目的開始時間、結(jié)束時間、進度時間和總持續(xù)時間以及序列長度分別確定出出勤性約束、離散型約束和輟學(xué)性約束;
4、根據(jù)所述出勤性約束、所述離散型約束和所述輟學(xué)性約束構(gòu)建具有效率性約束的支持度;
5、通過所述具有效率性約束的支持度以及預(yù)設(shè)的序列模式挖掘算法對大規(guī)模開放在線課程數(shù)據(jù)集中的序列模式進行遍歷挖掘,以輸出效率約束序列模式;所述序列模式挖掘算法包括逐級效率約束序列模式挖掘算法、基于投影的效率約束序列模式挖掘算法和集成成本的效率約束序列模式挖掘算法中的任意一種,所述成本基于進度時間確定。
6、結(jié)合第一方面,在一種實施方式中,所述基于模式中項目的開始時間、結(jié)束時間、進度時間和總持續(xù)時間以及序列長度分別確定出出勤性約束、離散型約束和輟學(xué)性約束,包括:
7、基于開始時間、結(jié)束時間、進度時間和總持續(xù)時間確定出出勤性約束;
8、基于開始時間確定出離散型約束;
9、基于序列長度、進度時間和總持續(xù)時間確定出輟學(xué)性約束。
10、結(jié)合第一方面,在一種實施方式中,所述出勤性約束的計算公式為:
11、
12、式中,表示序列 s中模式對應(yīng)的出勤性約束,、、和分別表示序列 s中第 i個項目對應(yīng)的開始時間、結(jié)束時間、進度時間和總持續(xù)時間,序列包含 n個按時間順序排列的項目。
13、結(jié)合第一方面,在一種實施方式中,所述離散型約束的計算公式為:
14、
15、
16、式中,表示序列 s中模式對應(yīng)的離散型約束,表示序列 s中第 i個項目對應(yīng)的開始時間,序列包含 n個按時間順序排列的項目。
17、結(jié)合第一方面,在一種實施方式中,所述輟學(xué)性約束的計算公式為:
18、
19、式中,表示序列 s中模式對應(yīng)的輟學(xué)性約束,表示序列中模式的輟學(xué)主導(dǎo)學(xué)習(xí)行為次數(shù),輟學(xué)主導(dǎo)學(xué)習(xí)行為基于進度時間占總持續(xù)時間的比例確定,表示序列 s所在的序列集內(nèi)所有序列中的最大長度。
20、結(jié)合第一方面,在一種實施方式中,所述根據(jù)所述出勤性約束、所述離散型約束和所述輟學(xué)性約束構(gòu)建具有效率性約束的支持度,包括:
21、基于出勤性約束、離散型約束、輟學(xué)性約束以及與模式對應(yīng)的支持集分別確定出與出勤性約束對應(yīng)的支持度、與輟學(xué)性約束對應(yīng)的支持度以及與輟學(xué)性約束對應(yīng)的支持度;
22、根據(jù)支持度、支持度以及支持度構(gòu)建具有效率性約束的支持度。
23、結(jié)合第一方面,在一種實施方式中,所述具有效率性約束的支持度的計算公式為:
24、
25、式中,、和分別表示出勤因子、離散因子和輟學(xué)因子,三者的取值范圍均為[0,1]且。
26、結(jié)合第一方面,在一種實施方式中,所述成本基于進度時間確定,包括:
27、根據(jù)項目的進度時間確定出模式在每個序列中對應(yīng)的成本;
28、基于模式在每個序列中對應(yīng)的成本以及具有效率性約束的支持度確定出模式的平均成本;
29、通過具有效率性約束的支持度和模式的最小成本確定出模式的平均支持度成本。
30、第二方面,本技術(shù)實施例提供了一種具有效率約束的序列模式挖掘裝置,包括:
31、確定模塊,其用于基于序列模式中項目的開始時間、結(jié)束時間、進度時間和總持續(xù)時間以及序列長度分別確定出出勤性約束、離散型約束和輟學(xué)性約束;
32、構(gòu)建模塊,其用于根據(jù)所述出勤性約束、所述離散型約束和所述輟學(xué)性約束構(gòu)建具有效率性約束的支持度;
33、挖掘模塊,其用于通過所述具有效率性約束的支持度以及預(yù)設(shè)的序列模式挖掘算法對大規(guī)模開放在線課程數(shù)據(jù)集中的序列模式進行遍歷挖掘,以輸出效率約束序列模式;所述序列模式挖掘算法包括逐級效率約束序列模式挖掘算法、基于投影的效率約束序列模式挖掘算法和集成成本的效率約束序列模式挖掘算法中的任意一種,所述成本基于進度時間確定。
34、結(jié)合第二方面,在一種實施方式中,所述確定模塊具體用于:
35、基于開始時間、結(jié)束時間、進度時間和總持續(xù)時間確定出出勤性約束;
36、基于開始時間確定出離散型約束;
37、基于序列長度、進度時間和總持續(xù)時間確定出輟學(xué)性約束。
38、結(jié)合第二方面,在一種實施方式中,所述出勤性約束的計算公式為:
39、
40、式中,表示序列 s中模式對應(yīng)的出勤性約束,、、和分別表示序列 s中第 i個項目對應(yīng)的開始時間、結(jié)束時間、進度時間和總持續(xù)時間,序列包含 n個按時間順序排列的項目。
41、結(jié)合第二方面,在一種實施方式中,所述離散型約束的計算公式為:
42、
43、
44、式中,表示序列 s中模式對應(yīng)的離散型約束,表示序列 s中第 i個項目對應(yīng)的開始時間,序列包含 n個按時間順序排列的項目。
45、結(jié)合第二方面,在一種實施方式中,所述輟學(xué)性約束的計算公式為:
46、
47、式中,表示序列 s中模式對應(yīng)的輟學(xué)性約束,表示序列中模式的輟學(xué)主導(dǎo)學(xué)習(xí)行為次數(shù),輟學(xué)主導(dǎo)學(xué)習(xí)行為基于進度時間占總持續(xù)時間的比例確定,表示序列 s所在的序列集內(nèi)所有序列中的最大長度。
48、結(jié)合第二方面,在一種實施方式中,所述構(gòu)建模塊具體用于:
49、基于出勤性約束、離散型約束、輟學(xué)性約束以及與模式對應(yīng)的支持集分別確定出與出勤性約束對應(yīng)的支持度、與輟學(xué)性約束對應(yīng)的支持度以及與輟學(xué)性約束對應(yīng)的支持度;
50、根據(jù)支持度、支持度以及支持度構(gòu)建具有效率性約束的支持度。
51、結(jié)合第二方面,在一種實施方式中,所述具有效率性約束的支持度的計算公式為:
52、
53、式中,、和分別表示出勤因子、離散因子和輟學(xué)因子,三者的取值范圍均為[0,1]且。
54、結(jié)合第二方面,在一種實施方式中,所述成本基于進度時間確定,包括:
55、根據(jù)項目的進度時間確定出模式在每個序列中對應(yīng)的成本;
56、基于模式在每個序列中對應(yīng)的成本以及具有效率性約束的支持度確定出模式的平均成本;
57、通過具有效率性約束的支持度和模式的最小成本確定出模式的平均支持度成本。
58、第三方面,本技術(shù)實施例提供了一種具有效率約束的序列模式挖掘設(shè)備,所述具有效率約束的序列模式挖掘設(shè)備包括處理器、存儲器以及存儲在所述存儲器上并可被所述處理器執(zhí)行的具有效率約束的序列模式挖掘程序,其中所述具有效率約束的序列模式挖掘程序被所述處理器執(zhí)行時,實現(xiàn)如前述的具有效率約束的序列模式挖掘方法的步驟。
59、本技術(shù)實施例提供的技術(shù)方案帶來的有益效果包括:
60、通過引入出勤性、離散性和輟學(xué)性三大關(guān)鍵約束來精準(zhǔn)捕捉學(xué)習(xí)行為中的不同特征對序列模式挖掘的影響,且由于這些約束具有向下封閉性質(zhì),可確保其在模式挖掘過程中的有效性;同時通過結(jié)合逐級搜索空間遍歷或遞歸投影技術(shù)的挖掘算法,并將成本概念融入序列模式挖掘中,以能夠在考慮效率限制的同時有效探索搜索空間,進而提高序列模式發(fā)現(xiàn)的有效性和準(zhǔn)確性,且與傳統(tǒng)spm算法相比,顯著減少序列模式的發(fā)現(xiàn)數(shù)量。