本發(fā)明涉及計算機算法應(yīng)用,具體地涉及一種考生作答信息的異常檢測方法、系統(tǒng)及存儲介質(zhì)。
背景技術(shù):
1、近年來,隨著信息技術(shù)的飛速發(fā)展,無紙化考試已成為現(xiàn)代教育考試體系的重要組成部分。相對于傳統(tǒng)紙質(zhì)考試,無紙化考試為考試組織方提供了更多的靈活性和便捷性,也降低了考試的成本,無紙化考試作為一種重要趨勢在國內(nèi)外重大考試中有著越來越多的應(yīng)用。
2、然而,這種考試形式的普及也帶來了一個新的問題,如作弊等異常行為。為了維護考試的公平性和公正性,防止作弊行為的發(fā)生,開發(fā)高效的作弊檢測算法顯得尤為重要。
技術(shù)實現(xiàn)思路
1、本發(fā)明實施例的目的是提供一種考生作答信息的異常檢測方法、系統(tǒng)及存儲介質(zhì),用于對上機考試的考生作答數(shù)據(jù)進行深入分析,從而識別出潛在的考生異常行為,更好的保障無紙化考試的完成。
2、為了實現(xiàn)上述目的,本發(fā)明實施例提供一種考生作答信息的異常檢測方法,包括:
3、獲取無紙化考試過程中,考生的作答過程和作答信息,并提取所述作答過程和作答信息中的關(guān)鍵特征生成對應(yīng)的矩陣數(shù)據(jù);
4、針對矩陣數(shù)據(jù)進行相似計算,確定不同考生之間作答行為的相似度;
5、若矩陣數(shù)據(jù)為無標注數(shù)據(jù),則使用聚類算法對矩陣數(shù)據(jù)進行無監(jiān)督學(xué)習(xí),并結(jié)合不同考生之間作答行為的相似度將考生區(qū)分為正常考生和異??忌?,并針對所述異常考生進行異常檢測,確定異常考生的行為特征;
6、若矩陣數(shù)據(jù)為標注數(shù)據(jù),則采用監(jiān)督學(xué)習(xí)方式針對標記出的異??忌鷺颖具M行異常檢測,確定異??忌男袨樘卣鳌?/p>
7、可選的,考生的作答過程和作答信息包括但不限于考點信息、考場信息、考試區(qū)域信息、考試批次信息、考生信息、考試科目信息、考試試卷編號信息、考試試卷題號信息、考試科目題目順序信息、考試題目結(jié)構(gòu)信息、考生作答題目時間信息、考生瀏覽題目時間信息、考生修改題目時間信息以及考生題目作答內(nèi)容信息。
8、可選的,提取所述作答過程和作答信息中的關(guān)鍵特征生成對應(yīng)的矩陣數(shù)據(jù),包括:
9、以作答時間為關(guān)鍵因素,提取每個考生對于每道題目的作答時間,并分別以考生號和題目號為橫坐標縱坐標,構(gòu)建橫縱坐標對應(yīng)元素為時間的矩陣;
10、以作答內(nèi)容為關(guān)鍵因素,提取每個考生對于每道題目的作答內(nèi)容,并分別以考生號和題目號為橫坐標縱坐標,構(gòu)建橫縱坐標對應(yīng)元素為作答內(nèi)容的矩陣;
11、以瀏覽時間和修改次數(shù)為關(guān)鍵因素,提取每個考生對于每道題目的作答時間,并分別以考生號和題目號為橫坐標縱坐標加一列修改次數(shù),構(gòu)建橫縱坐標對應(yīng)元素為瀏覽時間以及修改次數(shù)的矩陣。
12、可選的,針對矩陣數(shù)據(jù)進行相似計算,確定不同考生之間作答行為的相似度,包括:
13、針對作答內(nèi)容矩陣的相似計算,采用如下公式:
14、;
15、式中,為異或運算,,為不同樣本集合,i為樣本集合中的標號。
16、可選的,針對矩陣數(shù)據(jù)進行相似計算,確定不同考生之間作答行為的相似度,包括:
17、針對時間軌跡矩陣的相似計算,采用如下公式:
18、;
19、式中,表示兩個連續(xù)變量?(x,y)?的皮爾遜相關(guān)性系數(shù),表示兩個連續(xù)變量?(x,y)?之間的協(xié)方差,表示兩個連續(xù)變量?(x,y)各自標準差的乘積,表示兩個變量,與其各自期望值的差的乘積的期望值。
20、可選的,若矩陣數(shù)據(jù)為無標注數(shù)據(jù),則使用聚類算法對矩陣數(shù)據(jù)進行無監(jiān)督學(xué)習(xí),并結(jié)合不同考生之間作答行為的相似度將考生區(qū)分為正常考生和異??忌⑨槍λ霎惓?忌M行異常檢測,確定異??忌男袨樘卣鳎ǎ?/p>
21、針對大范圍跨考區(qū)跨考點數(shù)據(jù),采用k-means聚類算法將大范圍考生作答信息數(shù)據(jù)中遠離主要簇的數(shù)據(jù)點作為異常點,進而確定異??忌?/p>
22、針對小范圍考點數(shù)據(jù),采用單類支持向量機將小范圍考點數(shù)據(jù)到中心點的距離小于等于臨界距離的數(shù)據(jù)點作為異常點,進而確定異??忌?。
23、可選的,若矩陣數(shù)據(jù)為標注數(shù)據(jù),則采用監(jiān)督學(xué)習(xí)方式針對標記出的異??忌鷺颖具M行異常檢測,確定異??忌男袨樘卣?,包括:
24、若矩陣數(shù)據(jù)為標注數(shù)據(jù),則采用xgboost集成學(xué)習(xí)方法對標記出的異常考生樣本進行異常檢測,確定異常考生的行為特征;
25、其中,xgboost集成學(xué)習(xí)方法的目標函數(shù)如下:
26、
27、式中,作為損失函數(shù)衡量預(yù)測結(jié)果與真實結(jié)果差異,損失函數(shù)選用均方誤差,為第個樣本真實值,為第個樣本預(yù)測值,為弱評估器即加入的決策樹,t為預(yù)測輪數(shù),為懲罰項,懲罰項中葉子節(jié)點個數(shù)和系數(shù)相乘與權(quán)重l2模的平方的和,為常數(shù)項。
28、可選的,所述考生作答信息的異常檢測方法還包括:
29、將考生的作答信息視為離散分布的時間序列數(shù)據(jù),并構(gòu)建時間序列模型;
30、將獲取的考生歷史作答行為數(shù)據(jù)輸入時間序列模型,預(yù)測考生未來的作答行為。
31、另一方面,本發(fā)明還提供一種考生作答信息的異常檢測系統(tǒng),包括:
32、獲取單元,用于獲取無紙化考試過程中,考生的作答過程和作答信息,并提取所述作答過程和作答信息中的關(guān)鍵特征生成對應(yīng)的矩陣數(shù)據(jù);
33、計算單元,用于針對矩陣數(shù)據(jù)進行相似計算,確定不同考生之間作答行為的相似度;
34、第一異常檢測單元,用于若矩陣數(shù)據(jù)為無標注數(shù)據(jù),則使用聚類算法對矩陣數(shù)據(jù)進行無監(jiān)督學(xué)習(xí),并結(jié)合不同考生之間作答行為的相似度將考生區(qū)分為正??忌彤惓?忌?,并針對所述異??忌M行異常檢測,確定異??忌男袨樘卣鳎?/p>
35、第二異常檢測單元,用于若矩陣數(shù)據(jù)為標注數(shù)據(jù),則采用監(jiān)督學(xué)習(xí)方式針對標記出的異??忌鷺颖具M行異常檢測,確定異??忌男袨樘卣鳌?/p>
36、另一方面,本發(fā)明還提供一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述任一項所述的考生作答信息的異常檢測方法的步驟。
37、通過上述技術(shù)方案,利用考中作答的數(shù)據(jù)進行考生異常及雷同篩查,對考生之間的行為、作答內(nèi)容等進行準確量化計算相似度數(shù)值,疑似集體作弊考生識別,對考生行為相似且具有相同性的批量考生進行識別,以對考生作答過程中的疑似異常情況進行預(yù)警通知監(jiān)考員或考試組織方。
38、本發(fā)明實施例的其它特征和優(yōu)點將在隨后的具體實施方式部分予以詳細說明。
1.一種考生作答信息的異常檢測方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的考生作答信息的異常檢測方法,其特征在于,考生的作答過程和作答信息包括但不限于考點信息、考場信息、考試區(qū)域信息、考試批次信息、考生信息、考試科目信息、考試試卷編號信息、考試試卷題號信息、考試科目題目順序信息、考試題目結(jié)構(gòu)信息、考生作答題目時間信息、考生瀏覽題目時間信息、考生修改題目時間信息以及考生題目作答內(nèi)容信息。
3.根據(jù)權(quán)利要求2所述的考生作答信息的異常檢測方法,其特征在于,提取所述作答過程和作答信息中的關(guān)鍵特征生成對應(yīng)的矩陣數(shù)據(jù),包括:
4.根據(jù)權(quán)利要求2所述的考生作答信息的異常檢測方法,其特征在于,針對矩陣數(shù)據(jù)進行相似計算,確定不同考生之間作答行為的相似度,包括:
5.根據(jù)權(quán)利要求2所述的考生作答信息的異常檢測方法,其特征在于,針對矩陣數(shù)據(jù)進行相似計算,確定不同考生之間作答行為的相似度,包括:
6.根據(jù)權(quán)利要求1所述的考生作答信息的異常檢測方法,其特征在于,若矩陣數(shù)據(jù)為無標注數(shù)據(jù),則使用聚類算法對矩陣數(shù)據(jù)進行無監(jiān)督學(xué)習(xí),并結(jié)合不同考生之間作答行為的相似度將考生區(qū)分為正常考生和異??忌?,并針對所述異??忌M行異常檢測,確定異??忌男袨樘卣?,包括:
7.根據(jù)權(quán)利要求1所述的考生作答信息的異常檢測方法,其特征在于,若矩陣數(shù)據(jù)為標注數(shù)據(jù),則采用監(jiān)督學(xué)習(xí)方式針對標記出的異常考生樣本進行異常檢測,確定異??忌男袨樘卣?,包括:
8.根據(jù)權(quán)利要求1所述的考生作答信息的異常檢測方法,其特征在于,所述考生作答信息的異常檢測方法還包括:
9.一種考生作答信息的異常檢測系統(tǒng),其特征在于,包括:
10.一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-8任一項所述的考生作答信息的異常檢測方法的步驟。