本發(fā)明屬于圖像與語音處理技術領域,更進一步涉及模式識別技術,具體是一種基于多傳感器的學生課堂掌握程度評估系統(tǒng)和方法。用于教學、心理、人機交互等領域。
背景技術:
現(xiàn)有的教學評估系統(tǒng)多以人的主觀判斷為準,評估結果因人而異,造成影響,因此對學生在聽課時的面部表情和語音進行情感分析,使評估結果盡可能公平準確已成為教育的追求。教學管理者也可以及時掌握教師教學效果和學生學習情況,調(diào)整教學管理與決策的目標、方法和策略。
河海大學提出的專利申請“一種基于模糊支持向量機的漢語語音情感識別方法”(專利申請?zhí)朇N201210494888.X,公開號CN103258532A)公開了一種漢語語音情感識別方法。公開了一種基于模糊支持向量機的漢語語音情感識別方法,用于漢語語音的情感識別。識別過程包括粗分類和細分類兩個階段:第一階段,粗分階段提取待識別樣本的全局統(tǒng)計情感特征,根據(jù)基音范圍、平均基音值,基音變化和聲音強度,使用模糊支持向量機,使用粗分類模糊支持向量機將情感分為三大粗分類;第二階段,細分階段增加類內(nèi)情感的區(qū)分度,使用細分類模糊支持向量機對粗分類內(nèi)部進行更細劃分,從而識別每種情感。其中,情感特征與說話人和文本內(nèi)容無關,支持向量機訓練受模糊因子指導,細分特征經(jīng)PCA降維增加區(qū)分度。采用全局統(tǒng)計音質(zhì)特征實現(xiàn)與說話人和文本內(nèi)容無關的漢語語音情感表示;采用模糊支持向量機,在混雜語音情感條件下,獲得更好的識別精度,但是,該方法仍然存在的不足是:SVM的最終決策函數(shù)只由少數(shù)的支持向量所確定,由于SVM是借助二次規(guī)劃來求解支持向量,而求解二次規(guī)劃將涉及矩陣的計算,當數(shù)目很大時該矩陣的存儲和計算將耗費大量的機器內(nèi)存和運算時間;支持向量機算法只給出了二類分類的算法,而在實際應用中,一般要解決多類的分類問題,不利于實時處理。
蕪湖樂銳思信息咨詢有限公司提出的專利申請“一種教學評估系統(tǒng)”(專利申請?zhí)?01510932067.3)公開了一種教學評估系統(tǒng),包括:教學評估統(tǒng)計單元、教學評估分析單元、用戶端、數(shù)據(jù)存儲單元和顯示單元;教學評估統(tǒng)計單元包括教學課程質(zhì)量統(tǒng)計單元、教學老師講課詳細度統(tǒng)計單元、教學課后輔導統(tǒng)計單元;教學評估分析單元包括:教學質(zhì)量評估分析單元、教學成績分析單元和教學升學率評估分析單元;教學評估統(tǒng)計單元、數(shù)據(jù)存儲單元和顯示單元分別與教學評估分析單元相連接,用戶端和教學質(zhì)量評估分析單元相連接;教學評估統(tǒng)計單元和數(shù)據(jù)存儲單元相連接;用于統(tǒng)計分析教學質(zhì)量以及整個學校的教學質(zhì)量評估。
但是該教學評估系統(tǒng)存在的不足是:未考慮學生在教學過程中扮演的角色,使教學質(zhì)量評估數(shù)據(jù)來源顯得單一,且處理單一化。
目前針對課堂教學尚未有機器化的評估方法?,F(xiàn)有技術中,語音情感處理中仍然存在人工特征選擇的環(huán)節(jié),而人工特征選擇存在偏差,該偏差將直接影響最終分類結果;在多源數(shù)據(jù)融合處理中,為了簡便多采用乘積規(guī)則、均值規(guī)則等,存在多模態(tài)信息融合不準確的問題。
技術實現(xiàn)要素:
本發(fā)明公開了一種自動提取語音特征和評估更加客觀的基于多傳感器的學生課堂掌握程度評估系統(tǒng)和方法。
本發(fā)明是一種基于多傳感器的學生課堂掌握程度評估系統(tǒng),其特征在于,信息來源模塊有3個,分別是視頻采集模塊、音頻采集模塊、成績錄入模塊,其中視頻采集模塊和面部表情分類器模塊連接輸出面部表情分類結果,音頻采集模塊和語音分類器模塊連接輸出語音分類結果,成績錄入模塊和成績分類器模塊連接輸出成績分類結果,上述3個分類結果均輸入到?jīng)Q策融合模塊中,決策融合模塊的輸出連接到課堂教學學生反映評估及建議模塊中,課堂教學學生反映評估及建議模塊給出學生課堂反映評估結果及建議,其中各模塊分述如下:
視頻采集模塊,用于對課堂上學生的正面人臉圖像采集,發(fā)送到面部表情分類器模塊;
面部表情分類器模塊,用于對采集到的學生人臉圖像進行情感分類,首先對所有的人臉頭像使用基于Gabor特征的增強分類器方法對人臉特征點自動定位,然后提取10個特征向量,最后使用面部表情分類器對同一人的不同人臉表情進行分類,給出面部表情分類結果,結果表述為煩躁、喜悅和平靜,作為樣本輸入到?jīng)Q策融合模塊;
音頻采集模塊,采用麥克風實時錄制課堂上學生的語音信息,并發(fā)送到語音分類器模塊;
語音分類器模塊,對語音信號進行情感分類,給出語音分類結果,結果表述為煩躁、喜悅和平靜,作為樣本輸入到?jīng)Q策融合模塊;
成績錄入模塊,用于暫存采集到的學生考試成績,并發(fā)送到成績分類器模塊,在每次學生視頻和音頻同步錄制中,進行一次課堂考試作為采集的學生考試成績;
成績分類器模塊,用于對學生的成績進行分類,使用成績分類器給出成績分類結果,作為樣本輸入到?jīng)Q策融合模塊;
決策融合模塊,將面部表情分類結果、語音分類結果、成績分類結果進行自適應權值融合,是針對各分類結果依據(jù)樣本空間分布得到分類器的分類置信度的自適應權值融合,融合結果表述為煩躁、喜悅和平靜,此結果輸入到課堂教學學生反映評估及建議模塊;
課堂教學學生反映評估及建議模塊,用于對融合結果進行分析,并給出學生在課堂掌握情況的反映和建議。
本發(fā)明還是一種基于多傳感器的學生課堂掌握程度評估方法,需要錄制學生課堂正面人臉視頻和音頻信息,其特征在于,包括有以下步驟:
(1)學生數(shù)據(jù)采集,其中學生面部表情通過攝像頭視頻采集、學生語音通過麥克風音頻采集、學生考試成績手工錄入,視頻數(shù)據(jù)和音頻數(shù)據(jù)同步采集;
(2)對采集到的學生視頻和音頻數(shù)據(jù)分別作初步處理,其中對學生視頻數(shù)據(jù)初步處理是以均等時間間隔為單位提取圖像序列,如均等時間間隔表示為t0,t1,...tn;學生音頻數(shù)據(jù)初步處理是從音頻中提取語音序列,該語音序列包含已采集圖像序列對應時間間隔點的語音,其中第一個語音序列包含t0點的語音,第二個語音序列包含t1點的語音......,第n+1個語音序列包含tn點的語音;
(3)針對學生面部圖像序列和語音序列分別進行預處理,其中,對學生面部圖像序列的預處理是:
(3a)對學生圖像序列灰度化;
(3b)對灰度圖像序列進行直方圖均衡化操作;
(3c)對均衡化后的圖像序列使用迭代弱分類器(adaboost)方法獲取學生人臉頭像序列;
對學生語音序列的預處理是:
(3d)對語音序列進行采樣并量化,得到時間離散且幅度離散的語音序列;
(3e)對離散語音序列分幀并加漢明窗,完成語音預處理;
(4)分別對學生面部表情特征向量和語音特征提取,其中對學生面部表情特征向量提取是:
(4a)使用基于Gabor特征的增強分類器對學生人臉頭像序列中的每一幀圖像找出人臉器官中的13個特征點,并一一標識;
(4b)從圖像標識出的特征點中獲取10個人臉表情特征向量;
對學生語音特征提取是:
(4c)對語音序列作離散傅里葉變換(DFT),獲取語音序列各幀的頻譜,對頻譜取模平方得到語音信號的能量譜;
(4d)語音信號能量譜通過一組Mel尺度的三角形濾波器組;
(4e)針對濾波器組輸出結果,計算對數(shù)能量并歸一化,再進行反離散余弦得到Mel頻率倒譜系數(shù)(MFCC),獲取語音特征;
(5)分別對學生面部表情、學生語音、學生考試成績分類處理
(5a)將人臉表情特征向量輸入到支持向量機(SVM)判段表情的類別,輸出面部表情分類結果;
(5b)將Mel頻率倒譜系數(shù)(MFCC)即語音特征,輸入到卷積神經(jīng)網(wǎng)絡(CNN)判斷語音的類別,輸出學生語音分類結果;
(5c)對學生考試成績分類,總成績按百分制計算,分成三個區(qū)間,分別對應三種情況:[80~100]代表喜悅;[60~80]代表平靜;[0~60]代表煩躁,記輸出矩陣為(SDis,SHap,SQui),表示成績識別中輸出煩躁、喜悅和平靜3種分類的概率;
(6)將學生面部表情分類結果、學生語音分類結果、學生考試成績分類結果使用高斯混合模型(GMM)融合,輸出融合結果表述為煩躁、喜悅和平靜;
(7)融合結果分析,給出課堂學生反映情況及教學建議。
本發(fā)明首先采集學生課堂視頻、音頻和考試成績,然后使用支持向量機(SVM)和卷積神經(jīng)網(wǎng)絡(CNN)分別處理學生面部表情和學生語音,最后使用高斯混合模型(GMM)融合面部表情分類結果、學生語音分類結果、學生成績分類結果,來分析學生的心理狀況,進而了解學生對所授課程的掌握情況,可應用于教學評估。
本發(fā)明與現(xiàn)有的技術相比具有以下優(yōu)點:
1.本發(fā)明在語音情感識別中為避免復雜的人工特征向量提取操作,采用了深度學習中的卷積神經(jīng)網(wǎng)絡(CNN),選擇的Mel頻率譜系數(shù)(MFCC),將人耳的聽覺感知特性和語音信號的產(chǎn)生機制有機結合,使用卷積神經(jīng)網(wǎng)絡來進行情感分類。
2.本發(fā)明在最終各分類器融合時采用了高斯混合模型(GMM),由于各分類器分類置信度恒定是不符合事實的,當存在噪聲干擾時,語音分類器的性能會發(fā)生下降;當視頻傳感器受到抖動、碰撞時,臉部表情分類器的性能會發(fā)生下降,所以本發(fā)明采用了高斯混合模型(GMM)方法使各分類器分類置信度隨樣本分布而定。
3.本發(fā)明主要應用于課堂教學學生反映評估,它的實際意義是更客觀、更準確的評估課堂學生掌握狀況。本發(fā)明本著學生面部表情、學生語音、學生考試成績相結合的思路,設計出一種基于多傳感器的學生課堂掌握程度評估系統(tǒng)和方法。能對課堂上學生的掌握狀況作出判斷并給出教學評估結果及相應建議。
附圖說明
圖1本發(fā)明基于多傳感器的學生課堂掌握程度評估系統(tǒng)構成框圖;
圖2本發(fā)明基于多傳感器的學生課堂掌握程度評估方法流程框圖;
圖3本發(fā)明語音分類處理卷積神經(jīng)網(wǎng)絡(CNN)圖;
圖4本發(fā)明多分類器融合高斯混合模型(GMM);
圖5本發(fā)明融合結果分析流程框圖。
具體實施方式
下面結合附圖對本發(fā)明詳細描述。
現(xiàn)有技術中,語音情感處理中仍然存在人工特征選擇的環(huán)節(jié),該環(huán)節(jié)將直接影響最終分類結果;另外在多源數(shù)據(jù)融合處理中,存在多模態(tài)信息融合不準確的問題。為此,本發(fā)明展開了研究與探討,提出了基于卷積神經(jīng)網(wǎng)絡的語音分類處理,以及基于GMM模型的分類器決策融合方法。
實施例1:
本發(fā)明是一種基于多傳感器的學生課堂掌握程度評估系統(tǒng),參見圖1,包括視頻采集模塊、面部表情分類器模塊、音頻采集模塊、語音分類器模塊、成績錄入模塊、成績分類器模塊、決策融合模塊、課堂教學學生反映評估及建議模塊;
信息來源模塊有3個,分別是視頻采集模塊、音頻采集模塊、成績錄入模塊,其中視頻采集模塊和面部表情分類器模塊連接輸出面部表情分類結果,音頻采集模塊和語音分類器模塊連接輸出語音分類結果,成績錄入模塊和成績分類器模塊連接輸出成績分類結果,上述3個分類結果均輸入到?jīng)Q策融合模塊中,決策融合模塊的輸出連接到課堂教學學生反映評估及建議模塊中,課堂教學學生反映評估及建議模塊給出學生課堂反映評估結果及建議,其中各模塊分述如下:
視頻采集模塊,用于對課堂上學生的正面人臉圖像采集,將采集到的數(shù)據(jù)發(fā)送到面部表情分類器模塊,視頻采集模塊包括有CCD攝像頭和視頻解碼芯片TVP5146進行模/數(shù)轉(zhuǎn)換,變成符合ITU-BT.656標準的數(shù)字視頻信號。
面部表情分類器模塊,用于對采集到的學生人臉圖像進行情感分類,首先對所有的人臉頭像使用基于Gabor特征的增強分類器方法對人臉特征點自動定位,然后提取人臉圖像的10個特征向量,最后使用面部表情分類器對同一個人的不同人臉表情進行分類,采用方法為支持向量機(SVM),給出面部表情分類結果,結果表述為煩躁、喜悅和平靜,作為樣本輸入到?jīng)Q策融合模塊。
音頻采集模塊,采用麥克風實時錄制課堂上學生的語音信息,每一個學生旁均有一個麥克風,將由麥克風采集的語音信號并發(fā)送到語音分類器模塊,音頻采集模塊包括麥克風和音頻編解碼芯片TLV320AIC3101模擬音頻信號量化成數(shù)字量。
語音分類器模塊,對采集到的語音信號進行情感分類,給出語音分類結果,結果表述為煩躁、喜悅和平靜,作為樣本輸入到?jīng)Q策融合模塊。
成績錄入模塊,用于暫存采集到的學生考試成績,并發(fā)送到成績分類器模塊,在每次學生視頻和音頻同步錄制中,進行一次課堂考試作為采集的學生考試成績。
成績分類器模塊,用于對學生的成績進行分類,使用成績分類器給出成績分類結果,作為樣本輸入到?jīng)Q策融合模塊。
決策融合模塊,將面部表情分類結果、語音分類結果、成績分類結果進行自適應權值融合,是針對各分類結果依據(jù)樣本空間分布得到分類器的分類置信度的自適應權值融合,使用高斯混合模型(GMM)對各分類器結果進行融合,融合結果表述為煩躁、喜悅和平靜,此結果輸入到課堂教學學生反映評估及建議模塊。
課堂教學學生反映評估及建議模塊,用于對決策融合模塊的融合結果進行分析,并給出學生在課堂掌握情況的反映和建議。
本發(fā)明在信息來源上,從學生面部表情、學生語音、學生學習成績3個方面入手,比較全面的了解學生課堂上的情況,其中分類器模塊(面部表情分類器模塊、語音分類器模塊、成績分類器模塊)分別用來對學生面部表情、學生語音、學生學習成績分類,并行處理,節(jié)約時間,處理效率高。本發(fā)明的3個分類器的輸出在決策融合模塊融合,自適應融合獲取結果,對融合結果分析給出學生在課堂掌握情況的反映和建議。
實施例2:
基于多傳感器的學生課堂掌握程度評估系統(tǒng)的總體構成同實施例1,決策融合模塊中所述的基于樣本空間分布情況得到分類器的分類置信度,具體是當分類器中各情感類別的高斯混合模型(GMM)似然度基本相等時,認為該樣本處于概率分布模型的重疊區(qū)域,該分類器的判決置信度較低;當分類器給出的各情感類別似然度值分散時,則認為樣本處于概率分布模型的非重疊區(qū)域,該分類器的判決置信度較高。
GMM中的參數(shù)是利用訓練樣本{x1,x2,...xm},通過計算p(x,z)最大似然估計的方法得到,m為高斯混合密度的混合數(shù),z為隱含隨機變量。這種最大似然估計可以利用期望值最大化算法EM,通過迭代得到。p(x,z)最大似然估計為
每一個訓練模型都用一個唯一的λ來表示,即li={ai,μi,Σi}i=1,2,...M,ai表示混合權值,ui表示均值矢量,Σi表示協(xié)方差矩陣。寬窄、走向和函數(shù)形狀的中心等這些密度函數(shù)的特性都由這些參數(shù)確定。GMM似然度分別記為p(X|λ),EM算法的基本思想是把初始模型與新模型,按照下式重復迭代
p(x|λ*)≥p(x|λ) (2)
直到它們滿足
δ={p(x|λ*)-p(x|λ)}≤η (3)
時為止,這時的λ*為最優(yōu)值,其中η為期望誤差。
這就是EM迭代算法估計GMM參數(shù)的過程,通常情況下要得到一個穩(wěn)定的GMM需要經(jīng)過五到十次的迭代。
當各情感分類類別的高斯混合模型(GMM)似然度基本相等時,該分類器的判決置信度較低;當分類器給出的各情感分類類別似然度值分散時,該分類器的判決置信度較高。本發(fā)明中情感分類簡稱分類。
實施例3:
基于多傳感器的學生課堂掌握程度評估系統(tǒng)的總體構成同實施例1-2,其中的語音分類器模塊是首先獲取語音信號的能量譜,語音信號的能量譜通過梅爾尺(Mel-scale)的三角形濾波器組,計算其對數(shù)能量并歸一化,輸入到卷積神經(jīng)網(wǎng)絡進行語音特征映射分類,使用方法為卷積神經(jīng)網(wǎng)絡(CNN),給出語音分類結果,結果表述為煩躁、喜悅和平靜,作為樣本輸入到?jīng)Q策融合模塊。
本發(fā)明在語音情感分類識別中為避免復雜的人工特征向量提取操作,選擇Mel頻率譜系數(shù)(MFCC),將人耳的聽覺感知特性和語音信號的產(chǎn)生機制有機結合,使用卷積神經(jīng)網(wǎng)絡來進行情感分類。首先從音頻中提取學生的語音序列,對語音預處理后獲取能量譜,使其通過一組Mel尺度的三角形濾波器組,使原始頻域保留了更多信息,對濾波器輸出結果進行反離散余弦得到Mel頻率倒譜系數(shù)(MFCC),將MFCC輸入到卷積神經(jīng)網(wǎng)絡,網(wǎng)絡中的卷積和池化操作更有利于處理語音的多變性,更新參數(shù),最終輸出語音情感分類結果。
實施例4:
本發(fā)明還是一種基于多傳感器的學生課堂掌握程度評估方法,需要錄制學生課堂正面人臉視頻和音頻信息,本方法可以依賴基于多傳感器的學生課堂掌握程度評估系統(tǒng)實現(xiàn),也可以不依賴,本例是在基于多傳感器的學生課堂掌握程度評估系統(tǒng)上實現(xiàn),基于多傳感器的學生課堂掌握程度評估系統(tǒng)同實施例1-3。
參見圖2,包括有以下步驟:
(1)學生數(shù)據(jù)采集:利用視頻采集模塊,對課堂上學生的正面人臉圖像采集,其中學生面部表情通過攝像頭視頻采集;利用音頻采集模塊,實時錄制課堂上學生的語音信息,其中采集設備為麥克風;利用成績錄入模塊,暫存采集到的學生考試成績,學生考試成績手工錄入,要求視頻數(shù)據(jù)和音頻數(shù)據(jù)同步采集,在每次學生視頻和音頻同步錄制中,進行一次課堂考試作為采集的學生考試成績。
(2)數(shù)據(jù)采集后接著就對采集到的學生視頻和音頻數(shù)據(jù)分別作初步處理,其中對學生視頻數(shù)據(jù)初步處理是以均等時間間隔為單位提取圖像序列,如均等時間間隔表示為t0,t1,...tn;學生音頻數(shù)據(jù)初步處理是從音頻中提取語音序列,該語音序列包含已采集圖像序列對應時間間隔點的語音,其中第一個語音序列包含t0點的語音,第二個語音序列包含t1點的語音......第n+1個語音序列包含tn點的語音。
(3)針對學生面部圖像序列和語音序列分別進行預處理介紹如下,面部表情分類器模塊和語音分類器模塊首先需要學生面部圖像序列和語音序列預處理。其中,對學生面部圖像序列的預處理是:
(3a)對學生圖像序列灰度化。
(3b)對灰度圖像序列進行直方圖均衡化操作,就是把原始圖像的灰度直方圖進行非線性拉伸,使原來在某一個灰度區(qū)間分布的圖像變成在整個灰度區(qū)間上都有分布的圖像。
(3c)對均衡化后的圖像序列使用迭代弱分類器(adaboost)方法獲取學生人臉頭像序列,首先提取樣本圖像中的Haar特征,然后通過在訓練過程中選取出最優(yōu)的Haar特征,再將訓練得出的Haar特征轉(zhuǎn)換成弱分類器,最后將得到的所有弱分類器進行優(yōu)化組合用于人臉檢測。
對學生語音序列的預處理是:
(3d)對語音序列進行采樣并量化,得到時間離散且幅度離散的語音信號序列。原始的語音信號是一個連續(xù)的模擬信號,因此必須對原始信號進行采樣,使其轉(zhuǎn)化成為時間軸上離散的數(shù)據(jù),語音信號經(jīng)過采樣后得到了時間離散但是幅度連續(xù)的信號,因此必需對這個語音信號再進行量化處理。
(3e)對離散的語音信號序列分幀并加漢明窗,完成語音預處理,分幀之后的信號通過加窗處理來降低泄露,本發(fā)明使用漢明窗。
以上過程是面部表情分類器模塊和語音分類器模塊的預處理過程。
對學生面部圖像序列和語音序列的預處理不分先后順序,可以先行預處理學生面部圖像序列,也可以先行預處理學生語音序列。
(4)面部表情分類器模塊和語音分類器模塊預處理結束后,要分別進行學生面部表情特征向量和語音特征提取。
其中對學生面部表情特征向量提取是對所有的人臉圖像使用基于Gabor特征的增強分類器方法對人臉特征點自動定位,然后提取10個特征向量。
對學生語音特征的提取是先獲取語音信號的能量譜,然后使其通過梅爾尺度(Mel-scale)的三角形濾波器組,計算對數(shù)能量并歸一化,獲取Mel頻率倒譜系數(shù)(MFCC)。
學生面部表情特征向量是:
(4a)使用基于Gabor特征的增強分類器對學生人臉頭像序列中的每一幀圖像找出人臉器官中的13個特征點,并一一標識,這13個特征點分別是:左眼和右眼的內(nèi)眼角位置(x1,y1),(x2,y2),左眼和右眼的外眼角位置(x3,y3),(x4,y4),左眼和右眼的最高點位置(x5,y5),(x6,y6),左眼和右眼的最低點位置(x7,y7),(x8,y8),鼻尖位置(x9,y9),嘴角的最左端和最右端位置(x10,y10),(x11,y11),唇部中心線與嘴唇輪廓相交的最上端和最下端(x12,y12),(x13,y13)。
(4b)從圖像標識出的特征點種獲取10個人臉表情特征向量,代表尺寸特征的特征向量為:
兩眼寬度的平均值,用f1表示,f1=(|x1-x3|+|x2-x4|)/2;
兩眼高度的平均值,用f2表示,f2=(|y5-y7|+|y6-y8|)/2;
嘴張開的寬度,用f3表示,f3=(|x10-x11|)/2;
嘴張開的高度,用f4表示,f4=(|y12-y13|);
鼻尖與左右嘴角的垂直距離,用f5表示,f5=(|y9-y10|+|y9-y11|)/2;
外眼角與左右嘴角的垂直距離,用f6表示,f6=(|y3-y10|+|y4-y11|)/2;
代表相對位置特征的向量為:
右外眼角與鼻尖組成的向量b1,
右內(nèi)眼角與鼻尖組成的向量b2,
右外眼角與右嘴角組成的向量b3,
鼻尖與右嘴角組成的向量b4,
使所有特征向量分別和左外眼角與右外眼角之間的水平距離m作比值,避免因距離變化而產(chǎn)生不同的分類結果,得到10個人臉表情特征向量。
對學生語音特征提取是:
(4c)對語音序列作離散傅里葉變換,獲取語音序列各幀的頻譜,對頻譜取模平方得到信號的能量譜,其中時域信號經(jīng)過離散傅里葉變換(DFT)后得到線性頻譜Xa(k):
(4d)使能量譜通過一組Mel尺度的三角形濾波器組,濾波器共有40個,其中心頻率為f(m),m=1,2,...M,M為濾波器的個數(shù),每個帶通濾波器的傳遞函數(shù)為Hm(k)。
(4e)根據(jù)濾波器組的輸出計算對數(shù)能量并歸一化,并進行反離散余弦得到Mel頻率倒譜系數(shù)(MFCC),其中對數(shù)能量為
Hm(k)表示濾波器的傳遞函數(shù),Xa(k)表示語音信號的DFT。
對學生面部圖像特征向量和語音的特征提取不分先后順序。
(5)面部表情分類器模塊和語音分類器模塊在學生面部表情特征向量和語音特征提取結束后,分別對學生面部表情和學生語音分類處理,其中學生面部表情分類處理方法為支持向量機(SVM);學生語音分類處理方法為卷積神經(jīng)網(wǎng)絡(CNN);使用成績分類器模塊對學生考試成績進行分類。
對學生面部表情、學生語音、學生考試成績分類處理如下:
(5a)將人臉表情特征向量輸入到支持向量機(SVM)判斷表情的類別,輸出面部表情分類結果,這里參數(shù)確定包括兩步,一步是模型訓練,需要求解支持向量和分類偏置來表示最優(yōu)判別函數(shù),另一步是模型測試。
(5b)將Mel頻率倒譜系數(shù)(MFCC)即語音特征,輸入到卷積神經(jīng)網(wǎng)絡(CNN)判斷語音的類別,輸出學生語音分類結果。
(5c)對學生考試成績分類,總成績按百分制計算,分成三個區(qū)間,分別對應三種情況:[80~100]代表喜悅;[60~80]代表平靜;[0~60]代表煩躁,記輸出矩陣為(SDis,SHap,SQui),表示成績識別中輸出煩躁、喜悅和平靜3種分類的概率。
對學生面部表情、學生語音、學生考試成績分類處理不分先后順序。
(6)在決策融合模塊中,將學生面部表情分類結果、學生語音分類結果、學生考試成績分類結果使用高斯混合模型(GMM)融合,輸出融合結果表述為煩躁、喜悅和平靜。
(7)課堂教學學生反映評估及建議模塊給出融合結果分析,給出課堂學生反映情況及教學建議。
(7a)當融合結果為煩躁時,對應學生沒掌握所教內(nèi)容,其建議是:教師掌握教學技巧使學生對學習產(chǎn)生興趣,從效果律入手,學生培養(yǎng)自己的學習習慣,從準備律和練習律入手。
(7b)當融合結果為喜悅時,對應學生對課堂內(nèi)容掌握得很好,建議:教師總結課堂的亮點,學生爭取保持一個良好的學習習慣。
(7c)當融合結果為平靜時,對應學生對課堂內(nèi)容掌握一般,似懂非懂,建議:教師反思自己所采用的教學方從效果律入手,學生從準備律和練習律入手,配合教師的課堂互動。
本發(fā)明應用于課堂教學學生反映評估,它具有更廣泛的實際意義,更客觀、更準確、更高效地評估課堂學生掌握狀況。本發(fā)明本著學生面部表情、學生語音、學生考試成績相結合的思路,設計出一種基于多傳感器的學生課堂掌握程度評估系統(tǒng)和方法。能對課堂上學生的掌握狀況作出判斷并給出教學評估結果及相應建議。
實施例5:
基于多傳感器的學生課堂掌握程度評估方法同實施例4,步驟(5a)中判斷學生面部表情所屬類別使用SVM分類,包括有以下步驟:
(5a1)SVM核函數(shù)選擇,本發(fā)明使用徑向基核函數(shù)(RBF)
其中xj表示徑向基函數(shù)中心,||xi-xj||2為向量xi-xj的歐幾里德范數(shù)。
(5a2)使用網(wǎng)格搜索法確定核函數(shù)的參數(shù)σ2及錯誤代價系數(shù)C的最佳取值。網(wǎng)格搜索法(grid—search)是一種試湊方法,適合從不同的增長方向并行搜索最優(yōu)解。使用網(wǎng)格搜索法尋找最優(yōu)核參數(shù)的方法如下:
對C和σ2的指數(shù)增長序列C=2-2,2-1,...2-12,σ2=2-5,2-4,...28,29進行遍歷,對每一對參數(shù)組合(C,σ2)用5折交叉驗證法計算識別率。最終選擇最優(yōu)的參數(shù)組合。
(5a3)訓練SVM模型,使用函數(shù)的參數(shù)σ2及錯誤代價系數(shù)C的最佳取值,利用分層抽樣法從視頻中抽取學生人臉圖像,并利用圖像序列中提取的面部表情特征向量,訓練SVM模型,得出面部表情分類投票結果。
(5a4)測試SVM模型,得到識別率,如果識別率低于預期的識別率,則轉(zhuǎn)向(5a3)繼續(xù)訓練,否則,如果識別率高于或等于預期的識別率,繼續(xù)執(zhí)行進行下一步,模型最終的識別率為
其中RA表示訓練模型的識別率,ta表示測試數(shù)據(jù)分類正確的個數(shù),tb表示測試數(shù)據(jù)集樣本個數(shù)。
(5a5)識別分類,對投票結果歸一化,記SVM算法的面部表情分類輸出矩陣為(VDis,VHap,VQui),表示學生面部表情識別中輸出煩躁、喜悅和平靜3種分類的概率,得出面部表情表情分類結果。
實施例6:
基于多傳感器的學生課堂掌握程度評估方法同實施例4-5,步驟(5b)中判斷學生語音分類結果所屬類別使用卷積神經(jīng)網(wǎng)絡(CNN)的分類方法,如圖3所示,包括有以下步驟:
(5b1)卷積神經(jīng)網(wǎng)絡(CNN)的輸入層:40*40,對學生音頻按幀數(shù)進行裁剪,裁剪的音頻幀數(shù)為40,每一幀得到40組梅爾濾波器組特征。
(5b2)第1卷積層c1共有20個濾波器,濾波器大小為3*3,得到20個大小為36*36的特征映射,卷積層的操作可被描述為包含一個非線性函數(shù)(即激活函數(shù))的映射操作。
(5b3)第1池化層s1特征映射中2*2的窗口中采樣1個點,也就是4個數(shù)中最大的,最終的特征映射數(shù)目為18*18。
(5b4)第2卷積層c2共有40個濾波器,濾波器大小為3*3,特征映射的數(shù)目為16*16。
(5b5)第2池化層s2采用2*2的池化操作,特征映射數(shù)目為8*8。
(5b6)第3卷積層c3采用的濾波器大小為3*3,采用60組濾波器,最終特征映射的數(shù)目為6*6。
(5b7)第3池化層s3得到特征映射數(shù)目為3*3。
(5b8)第4卷積層采c4用濾波器大小為2*2,采用80組濾波,特征映射數(shù)目為2*2。
(5b9)全聯(lián)接層可看成是卷積核大小為1*1的卷積層。
(5b10)通過softmax回歸算法將特征映射到目標的c個分類,即煩躁、高興、平靜,記使用CNN算法的語音分類輸出矩陣為(ADis,AHap,AQui),表示語音分類識別中輸出煩躁、喜悅和平靜的概率。
實施例7:
基于多傳感器的學生課堂掌握程度評估方法同實施例4-6,步驟(6)中利用高斯混合模型(GMM)的方法對各分類器分類結果進行融合,包括有以下步驟:
本發(fā)明中的面部表情分類器、語音分類器、成績分類器模塊3種分類器,均采用高斯混合模型(GMM)來進行每種情感類別的概率模型訓練。完整的高斯混合密度由所有成員密度的均值矢量、協(xié)方差矩陣和混合權值參數(shù)化而成。
(6a)獲取GMM模型參數(shù),將各分類器的分類輸出作為訓練樣本,通過最大似然估計和EM算法針對訓練樣本得到GMM模型參數(shù),GMM模型參數(shù)表示如下:λi={ai,μi,Σi}i=1,2,...M其中,ai表示混合權值,μi表示均值矢量,Σi表示協(xié)方差矩陣。
(6b)利用得到的GMM模型參數(shù)來獲取各分類器的融合權值wj
式中,GMM似然度分別記為p(X|λk),其中k、m、n取值1,2,3時分別對應了三種分類類別,其中1表示煩躁,2表示喜悅,3表示平靜;j為分類器編號,j=1,2,3,其中1表示面部表情分類器,2表示語音分類器,3表示考試成績分類器。
(6c)對每個分類器分類結果加權融合,得到總的融合輸出為
最終的三種分類輸出為
式中oDis是分類中煩躁的概率;oHap分類中喜悅的概率;oQui是分類中平靜的概率,取其中最大的值為最終的分類輸出結果。
當輸出結果為煩躁時,對應學生沒掌握所教內(nèi)容;當輸出結果為喜悅時,對應學生對課堂內(nèi)容掌握得很好;當輸出結果為平靜時,對應學生對課堂內(nèi)容掌握一般,似懂非懂。
本發(fā)明在各分類器融合時采用了高斯混合模型(GMM),由于各分類器分類置信度恒定是不符合事實的,當存在噪聲干擾時,語音分類器的性能會發(fā)生下降;當視頻傳感器受到抖動、碰撞時,面部表情表情分類器的性能會發(fā)生下降;當語音分類器和臉部表情分類器分類結果一致時,就需要人工錄入的考試成績來更客觀地評價學生的狀況,所以本發(fā)明采用了高斯混合模型(GMM)方法使各分類器分類置信度隨樣本分布而定。
下面再給出一個更加詳盡的例子對本發(fā)明進一步說明,本例不依賴基于多傳感器的學生課堂掌握程度評估系統(tǒng)。
實施例8:
基于多傳感器的學生課堂掌握程度評估系統(tǒng)和方法同實施例1-7,本發(fā)明本著學生面部表情、學生語音、學生考試成績相結合的思路,設計出一種基于多傳感器的學生課堂掌握程度評估方法。能對課堂上學生的掌握狀況作出判斷并給出教學評估結果及相應建議。
參見圖2,步驟包括有:
1.學生數(shù)據(jù)采集,其中學生面部表情通過攝像頭視頻采集、學生語音通過麥克風音頻采集、學生考試成績手工錄入,視頻數(shù)據(jù)和音頻數(shù)據(jù)同步采集。
(1.1)自建數(shù)據(jù)集容量為(m+n)×s×3×3,m表示被測試人員中的男學生,n表示被測試人員中的女學生,s表示每個學生在每一種情感狀態(tài)下回答的問題個數(shù),情感狀態(tài)包括煩躁、高興、平靜3種,m和n取值在20~40之間,s取值在40~60之間。數(shù)據(jù)集中包含三種內(nèi)容,分別是學生面部表情、學生語音信號以及學習成績。一學期中任意抽取3個時間段進行學生課堂情況的錄制,并在每次錄制過程中進行課堂考試,共記錄學生成績3次。取同一時間段所有學生對應的臉部表情、同步的語音數(shù)據(jù)及學生考試成績作為訓練集和作為測試集,以下為同一時間段所有學生的處理過程,多個時間段的處理過程按一個時間段的處理方法多次重復。
(1.2)從每一個學生的正面視頻以均等的時間間隔提取圖像,構成一個正面視角圖像序列,如均等時間間隔表示為t0,t1,...tn,其余m+n+1個學生以同樣的方法處理。
(1.3)從每一個學生的音頻中提取語音序列,該語音序列包含已采集圖像序列對應時間間隔點的語音,其中第一個語音序列包含t0點的語音,第二個語音序列包含t1點的語音......第n+1個語音序列包含tn點的語音,其余m+n+1個學生以同樣的方法處理。
2.針對學生面部圖像序列和語音序列分別進行預處理
(2.1)學生面部圖像序列的預處理
(2.1.1)對學生圖像序列灰度。
(2.1.2)對灰度圖像序列進行直方圖均衡化操作
直方圖均衡化就是把原始圖像的灰度直方圖進行非線性拉伸,使原來在某一個灰度區(qū)間分布的圖像變成在整個灰度區(qū)間上都有分布的圖像。
(2.1.3)對均衡化后的圖像序列使用迭代弱分類器(adaboost)方法獲取學生人臉頭像序列。
(2.2)學生語音序列的預處理
(2.2.1)對學生語音序列進行采樣并量化,得到時間離散且幅度離散的語音序列。語音序列信號經(jīng)過采樣后得到了時間離散但是幅度連續(xù)的信號,因此必需對這個語音序列信號再進行量化處理,得到時間離散且幅度離散的語音序列。
(2.2.2)對離散的語音序列分幀并加漢明窗。在一個很短的時間段里面,語音信號可以看作是一個穩(wěn)定的狀態(tài)。通常,會把語音信號進行分幀。分幀之后的語音信號變成了有限信號,導致在調(diào)用傅立葉變換函數(shù)的時候會致使高頻部分泄露,因此,分幀之后的信號通過加窗處理來降低泄露。信號加窗使用的窗函數(shù)一般有矩形窗以及漢明窗。本發(fā)明使用漢明窗。
3.分別對學生面部表情特征向量和語音特征提取
(3.1)學生面部表情特征向量
使用基于Gabor特征的增強分類器對學生人臉頭像序列中的每一幀圖像找出人臉器官中的13個特征點,并一一標識,這13個特征點分別是:左眼和右眼的內(nèi)眼角位置(x1,y1),(x2,y2),左眼和右眼的外眼角位置(x3,y3),(x4,y4),左眼和右眼的最高點位置(x5,y5),(x6,y6),左眼和右眼的最低點位置(x7,y7),(x8,y8),鼻尖位置(x9,y9),嘴角的最左端和最右端位置(x10,y10),(x11,y11),唇部中心線與嘴唇輪廓相交的最上端和最下端(x12,y12),(x13,y13)。
(3.1.1)代表尺寸特征的特征向量
兩眼寬度的平均值,用f1表示,f1=(|x1-x3|+|x2-x4|)/2;
兩眼高度的平均值,用f2表示,f2=(|y5-y7|+|y6-y8|)/2;
嘴張開的寬度,用f3表示,f3=(|x10-x11|)/2;
嘴張開的高度,用f4表示,f4=(|y12-y13|);
鼻尖與左右嘴角的垂直距離,用f5表示,f5=(|y9-y10|+|y9-y11|)/2;
外眼角與左右嘴角的垂直距離,用f6表示,f6=(|y3-y10|+|y4-y11|)/2;
(3.1.2)代表相對位置特征的向量
右外眼角與鼻尖組成的向量b1,
右內(nèi)眼角與鼻尖組成的向量b2,
右外眼角與右嘴角組成的向量b3,
鼻尖與右嘴角組成的向量b4,
由于以上特征值所對應的線段可以代表特征點組成的特征三角形的形狀,所以原特征向量之間的夾角也可以由這些特征值確定,不需再計算特征向量之間的角度特征。
(3.1.3)輸入的向量
在同一個人的不同尺寸的人臉圖片中,分類器會因距離變化而產(chǎn)生不同的分類結果。利用五官的尺寸和相對距離會產(chǎn)生較大變化,但是這些特征向量模值之間的比例是保持不變的特性,作出以下調(diào)整作為輸入特征向量:
取左外眼角和右外眼角之間的水平距離作為標準,記為m,m=|x3-x4|使代表尺寸特征的特征向量和代表相對位置特征的向量分別和m作比值,具體如下:
兩眼寬度的平均值與兩眼外眼角的比值記為d1,d1=f1/m;
兩眼高度的平均值與兩眼內(nèi)眼角的比值記為d2,d2=f2/m;
嘴張開的寬度與兩眼內(nèi)眼角的比值記為d3,d3=f3/m;
嘴張開的高度與兩眼內(nèi)眼角的比值記為d4,d4=f4/m;
鼻尖與左右嘴角的垂直距離與兩眼內(nèi)眼角的比值記為d5,d5=f5/m;
外眼角與左右嘴角的垂直距離與兩眼內(nèi)眼角的比值記為d6,d6=f6/m;
右外眼角與鼻尖組成的向量與兩眼內(nèi)眼角的比值記為d7,d7=f7/m;
右內(nèi)眼角與鼻尖組成的向量與兩眼內(nèi)眼角的比值記為d8,d8=f8/m;
右外眼角與右嘴角組成的向量與兩眼內(nèi)眼角的比值記為d9,d9=f9/m;
鼻尖與右嘴角組成的向量與兩眼內(nèi)眼角的比值記為d10,d10=f10/m;
(3.2)學生語音的特征提取
(3.2.1)對加窗語音序列作離散傅里葉變換(DFT)
時域信號經(jīng)過離散傅里葉變換(DFT)后得到線性頻譜Xa(k)。
(3.2.2)獲取能量譜
通過一組Mel尺度的三角形濾波器組。在頻域?qū)δ芰孔V進行帶通濾波,其中Mel頻率濾波器組在語音的頻譜范圍內(nèi)設置若干個帶通濾波器Hm(k),每個濾波器具有三角形濾波特性。
(3.2.3)計算濾波器組輸出的對數(shù)能量。
(3.2.4)獲取Mel頻率譜系數(shù)(MFCC)
4.對學生面部表情情感、學生語音情感、學生學習成績分類處理,本發(fā)明中情感分類也稱為分類。
(4.1)學生面部表情分類處理
面部表情分類處理采用支持向量機的方法。支持向量機主要用于分類,是一種監(jiān)督學習的應用程序,即通過樣本訓練建立輸入輸出映射規(guī)則。由于實際輸入輸出的映射關系常常是非線性的,因此常常需要先利用核函數(shù)將樣本映射到高維空間再訓練。綜上,支持向量機可以用如下的優(yōu)化問題表示:
其中w是超平面的參數(shù)向量,ζi是松弛變量,C>0是對松弛變量的懲罰因子,是特征量的映射函數(shù),b是門檻值。
面部表情情感分類處理具體流程如下:
(4.1.1)支持向量機核函數(shù)選擇。本發(fā)明使用徑向基核函數(shù)(RBF),具體公式參見公式(5)。
作為一種對應于非線性映射的核函數(shù),RBF能夠處理非線性可分的情況且只有一個可調(diào)參數(shù),為以后的參數(shù)選擇提供了方便。
(4.1.2)確定核函數(shù)的參數(shù)σ2及懲罰因子C的最佳取值?;谝粚σ环诸惙椒ㄟM一步對懲罰因子C及RBF核函數(shù)的參數(shù)σ2進行參數(shù)搜索和交叉驗證法獲得性能較為優(yōu)秀的支持向量機參數(shù)組合。這個問題本身是一個優(yōu)化問題,變量是C和σ2,目標函數(shù)是SVM對應的測試集的識別率,這里使用網(wǎng)格搜索法來選擇合適的參數(shù)。
網(wǎng)格搜索法(grid—search)就是這樣一種試湊方法,適合從不同的增長方向并行搜索最優(yōu)解?;诰W(wǎng)格搜索法的參數(shù)選擇方法需要事先給定參數(shù)的選擇范圍,即解區(qū)間,在此區(qū)間內(nèi)以一定的步長逐個試驗,找到適應度最高的參數(shù)作為算法輸出(這里的適應度值一般取K折交叉驗證的均方差)。使用網(wǎng)格搜索法尋找最優(yōu)核參數(shù)的方法如下:
對C和σ2的指數(shù)增長序列C=2-2,2-1,...2-12,σ2=2-5,2-4,...28,29進行遍歷,對每一對參數(shù)組合(C,σ2)用5折交叉驗證法計算識別率。最終選擇最優(yōu)的參數(shù)組合。
(4.1.3)訓練SVM模型,使用函數(shù)的參數(shù)σ2及錯誤代價系數(shù)C的最佳取值,利用分層抽樣法從視頻中抽取學生人臉圖像,訓練SVM模型,得出人臉表情分類投票結果。
(4.1.4)測試SVM模型,得到識別率,如果識別率低于預期的識別率,則轉(zhuǎn)向(4.1.3)繼續(xù)訓練,否則,進行下一步。識別率可參見公式(6)。
(4.1.5)識別分類,對投票結果歸一化,記SVM算法的面部表情分類輸出矩陣為(VDis,VHap,VQui),表示學生面部表情情感識別中輸出煩躁、喜悅和平靜3種情感的概率,得出面部表情分類結果。
(4.2)學生語音情感分類處理
利用濾波器組處理每一幀得到梅爾濾波器組特征,歸一化操作后,對音頻進行裁剪,語音情感分類具體過程詳見實施例6。
(4.3)學生考試成績分類處理
學生考試成績按百分制記錄,分成三個區(qū)間,分別對應三種情況:[80~100]代表喜悅;[60~80]代表平靜;[0~60]代表煩躁。記輸出矩陣為(SDis,SHap,SQui),表示成績識別中輸出煩躁、喜悅和平靜的概率,例如,小王的總成績?yōu)?5,則輸出矩陣為(0,1,0)。
5.決策層融合
基于多傳感器的學生課堂掌握程度評估方法的目標是更客觀的評價教學質(zhì)量,本發(fā)明將學生的面部表情、學生語音和學生考試成績各分類處理的輸出結果融合,判斷學生的情感。
當存在噪聲干擾時,語音分類器的性能會發(fā)生下降;當視頻傳感器受到抖動、碰撞時,臉部表情分類器的性能會發(fā)生下降;當語音分類器和臉部表情分類器的判決結果一致時,就需要人工錄入的考試成績來更客觀地評價學生的狀況。這就需要在選擇判決層融合算法時,考慮評價各個分類器在某一時刻的置信度,并根據(jù)分類器的輸出置信度來進行融合判決。這里采用一種樣本自適應的方法來衡量分類器對當前樣本的判決是否可靠,對置信度高的分類器給予較高的融合權值,對于置信度低的分類器賦予較低的融合權值。
本發(fā)明中待識別的情感類別包括煩躁、喜悅和平靜3個類別。對于3種分類器,均采用高斯混合模型(GMM)來進行每種情感類別的概率模型訓練。
每個成員密度均為一維變量的關于均值矢量Ui和協(xié)方差矩陣Σi的高斯函數(shù),GMM模型的參數(shù)估計采用EM算法迭代計算獲得。
分類器(語音分類器、臉部表情分類器、成績分類器)給出的3種情感類別GMM似然度分別記為,p(X|λk)其中k=1,2,3時分別對應了這3種情感類別,其中1表示煩躁,2表示喜悅,3表示平靜。當屬于各個類別的GMM似然度基本相等時,認為該樣本處于概率分布模型的重疊區(qū)域,該分類器的判決置信度較低;當分類器給出的似然度值較為分散時,則認為樣本處于概率分布模型的非重疊區(qū)域,該分類器的判決置信度較高。因此,每個分類器的融合權值可參見公式(7)。
定義了分類器的融合權值后,對每個分類器的判決進行加權融合,則最終的分類器融合判決輸出為參見式(8)。
最終的三種情感輸出為
oDis=w1VDis+w2ADis+w3SDis
oHap=w1VHap+w2AHap+w3SHap
oQui=w1VQui+w2AQui+w3SQui
式中oDis是分類中煩躁的概率;oHap分類中喜悅的概率;oQui是分類中平靜的概率,取其中最大的值作為學生的情感輸出結果。
當輸出結果為煩躁時,對應學生沒掌握所教內(nèi)容;當輸出結果為喜悅時,對應學生對課堂內(nèi)容掌握得很好;當輸出結果為平靜時,對應學生對課堂內(nèi)容掌握一般,似懂非懂。
(6)教學評估
教學過程是師生雙邊活動過程,就是教與學的過程。教師的教和學生的學構成了教學過程的兩個方面,一個方面是傳授知識,一個方面是接受知識。近年來,中外許多教育心理學專家十分關心師生之間的關系對教學效果的影響,并進行了許多研究工作。
在實驗的基礎上,心理學家桑代克提出了三條學習定律:
(1)準備律。準備律是反應者的一種內(nèi)部心理狀態(tài)。一切反應是由個人的內(nèi)部狀況和外部情境所共同決定的。因此學習不是消極地接受知識,而是一種活動。學習者必須要有某種需要,體現(xiàn)為興趣和欲望。此外良好的心理準備還應包括對該情境起反應所必不可少的素養(yǎng)和能力準備。
(2)練習律。練習律的實質(zhì)就是強化刺激與反應的感應結。反應在情境中用得越多,它與這個情境發(fā)生的聯(lián)結越牢固。反之,長期不用這個反應,這種聯(lián)結就趨于減弱。后來,桑代克修改了這條定律,指出單純的重復練習,不如對這個反應的結果給以獎賞取得的效果更大些。
(3)效果律。效果律強調(diào)個體對反應結果的感受將決定個體學習的效果。即如果個體對某種情境所起的反應形成可變聯(lián)結之后伴隨著一種滿足的狀況,這種聯(lián)結就會增強;反之,如果伴隨的是一種使人感到厭煩的狀況,這種聯(lián)結就會減弱。桑代克在20世紀30年代進一步考察了這條定律,發(fā)現(xiàn),感到滿足比感到厭煩能產(chǎn)生更強的學習動機,因此他修正了效果律,更強調(diào)獎賞,而不大強調(diào)懲罰。
該定律強調(diào)刺激與反應形成的一切聯(lián)結都以應用和滿足而增強,以失用和煩惱而減弱。因此教育必須遵循這兩條主要的學習定律。
結合以上桑代克的實驗結果,分析本發(fā)明的融合結果并給出教學建議,參見圖5:
(1)學生聽懂時:從教師和學生的角度講,說明二者在教學過程中配合得很好。學生喜歡民主、平等型的課堂,期待得到老師的贊揚和鼓勵。營造民主、平等,放得開、收得攏的課堂才能成為學生吸取知識張揚個性的場所,課堂才會涌動出師生生命的活力。學生應從準備律和練習律入手,爭取保持一個良好的學習習慣;教師應從準備律、練習律和效果律入手,為引導學生做好準備。
(2)學生沒聽懂時:從教師角度來說,教師應當了解有效的學習必須建立在學生對學習有強烈的興趣和喜悅上。有鑒于此,教師應當先將作業(yè)中的樂趣講給學生聽,或以自己的熱情激起學生的準備;要仔細地規(guī)定和嚴格地控制反應的順序,通過不斷的練習,最終形成所需的習慣;要注意學生在練習過程中是否疲勞和厭倦;要注意學習內(nèi)容的難易程度,不可使學生感到十分困難,因而導致氣餒。從學生角度來說,要培養(yǎng)自己的學習習慣,如課前預習,課上積極與老師互動,課后及時復習等,這些微不足道的學習習慣其實在學習中發(fā)揮著很重要的作用;學習興趣興趣是最好的老師,在學習過程中,培養(yǎng)對學習內(nèi)容的興趣,就不會覺得學習是件苦差事才會學得真實,學得牢固,掌握靈活的方法。
(3)學生似懂非懂時:無論教師還是學生,應借鑒學生沒聽懂時的建議。對教師而言,要反思自己所采用的教學方法是否有利于培養(yǎng)學生的創(chuàng)新能力,教學設計是還切合實際,行之有效。目的在于不斷更新教學觀念,改善教學行為,提升教學水平,同時養(yǎng)成教師對自己教學現(xiàn)象、教學問題的獨立思考和創(chuàng)新性見解,真正成為教學和教研的主人。對學生來說,做好課前準備工作,課上與老師積極互動,課后有問題及時解決。培養(yǎng)良好的學習習慣及學習興趣,對自身很重要。
實施例9:
基于多傳感器的學生課堂掌握程度評估系統(tǒng)和方法同實施例1-8,如圖4所示GMM的參數(shù)初始化和參數(shù)訓練,包括有以下步驟:
(1)GMM的參數(shù)初始化
在使用GMM模型之前,需要對模型的參數(shù)λ=[a,μ,Σ]進行初始化設置。算法的輸入:聚類個數(shù)K,以及分類器輸出結果。其中K為3(3種情感分類狀態(tài)),輸出:滿足方差最小標準的K個聚類。
處理流程:
(la)從分類器輸出結果中任意選擇K個對象作為初始聚類中心;
(1b)循環(huán)(1c)、(1d)步直到每個聚類不再發(fā)生變化為止;
(1c)根據(jù)每個聚類對象的均值(質(zhì)心),計算每個對象與這些中心對象的距離,并根據(jù)最小距離重新對相應對象進行劃分;
(1d)重新計算每個(有變化)的聚類的均值,至此,得到了GMM模型的初始參數(shù)
λ=[a,μ,Σ]。
(2)GMM模型的參數(shù)訓練
GMM模型的訓練就是給定一組訓練數(shù)據(jù),依據(jù)某種準則確定模型的參數(shù)。常用的參數(shù)訓練方法是最大似然(ML)估計。最大似然估計是把待估計的量看成固定但未知的量,然后求出能夠使學習樣本出現(xiàn)概率最大的參數(shù)值,并把它作為參數(shù)的估值。
對于一組長度為D的訓練矢量序列X={x1,x2,...xD},GMM的似然度可以表示為:
由于上式是參數(shù)λ的非線性函數(shù),直接求出上式的最大值。因此,常常采用期望最大化EM算法估計參數(shù)λ。
EM過程包括以下兩步:
(2a)E-step:計算訓練數(shù)據(jù)落在狀態(tài)i的概率p(it=i|xt,λ);
(2b)M-step:以局部最大準則估計參數(shù)λ。
EM算法假設任一樣本出自模型的哪個高斯成員這一信息是可知的,來簡化極大似然的優(yōu)化目標函數(shù),分別經(jīng)過E-step求出期望值和M-step調(diào)整模型參數(shù)最大化目標函數(shù)來逐步收斂。
EM算法的計算是從參數(shù)λ=[a,μ,Σ]的初始值開始,采用EM算法估計出一個新的參數(shù)λ',使得新的模型參數(shù)下的似然度p(x|λ')>p(x|λ)。新的模型參數(shù)λ'再作為當前參數(shù)進行訓練,這樣迭代運算直到模型收斂。
本發(fā)明提供了一種基于多傳感器的學生課堂掌握程度評估系統(tǒng)與方法,其實現(xiàn)包括,學生數(shù)據(jù)采集;學生面部圖像序列和語音序列分別進行預處理;學生面部表情特征向量和語音特征提?。粚W生面部表情、學生語音、學生考試成績分類處理;使用高斯混合模型(GMM)融合分類結果;融合結果分析。本發(fā)明在語音,采用了深度學習中的卷積神經(jīng)網(wǎng)絡(CNN),避免復雜的人工特征向量提取操作;采用了高斯混合模型(GMM)方法使各分類器分類置信度隨樣本分布而定,實現(xiàn)了自適應融合。本發(fā)明本著學生面部表情、學生語音、學生考試成績相結合的思路,設計出一種基于多傳感器的學生課堂掌握程度評估系統(tǒng)和方法。更客觀、更準確的評估課堂學生掌握狀況。能對課堂上學生的掌握狀況作出判斷并給出教學評估結果及相應建議。