本發(fā)明涉及表情識別領域,尤其是涉及了一種基于面部動作編碼系統(tǒng)進行微表情檢測的方法。
背景技術:
表情識別常用于人機交互、社交游戲、心理研究,輔助駕駛等領域,自動識別面部表情并推斷情緒狀態(tài)。具體地,如偵測被攝者笑臉啟動自動拍攝,游戲玩家的自動表情更換,多媒體廣告的用戶觀看效果分析等高級應用,檢測患者的痛苦及不幸,駕駛員嗜睡檢測。面部表情在人際交往和行為方面發(fā)揮重要作用,雖然現(xiàn)有方法在觀察對象特征和分析已滿足一定的準確性,但是目前方法多數(shù)只考慮局部信息,而忽略空間一致性,從而導引起估計誤差,導致對特定場景中的部分目標無法進行準確的識別和檢測。
本發(fā)明提出了一種基于面部動作編碼系統(tǒng)進行微表情檢測的方法,使用cnn可視化情感檢測的特征圖。首先建立健全的情緒分類框架,分析所提出網(wǎng)絡學習的模型,將所提出的網(wǎng)絡訓練的濾波器在不同的情感分類任務上可視化,然后,在提供高精度分數(shù)的跨數(shù)據(jù)和跨任務方面驗證了基于面部動作編碼系統(tǒng)(facs)的功能的泛化能力,將模型應用于微表情檢測。本發(fā)明提高了現(xiàn)有方法在微表情檢測上的識別率,展示了由無監(jiān)督學習過程產(chǎn)生的特征與用于面部表情分析方法中動作單元之間的強相關性,在提供高精度分數(shù)的跨數(shù)據(jù)和跨任務方面驗證了基于facs的功能的泛化能力,并且提高了微表情檢測的識別率,更準確地識別面部表情并推斷情緒狀態(tài),提高其在各個領域應用的有效性和準確率,推動人工智能的發(fā)展。
技術實現(xiàn)要素:
針對現(xiàn)有方法識別率不足的問題,本發(fā)明提高了現(xiàn)有方法在微表情檢測上的識別率,展示了由無監(jiān)督學習過程產(chǎn)生的特征與用于面部表情分析方法中動作單元之間的強相關性,在提供高精度分數(shù)的跨數(shù)據(jù)和跨任務方面驗證了基于facs的功能的泛化能力,并且提高了微表情檢測的識別率,更準確地識別面部表情并推斷情緒狀態(tài),提高其在各個領域應用的有效性和準確率,推動人工智能的發(fā)展。
為解決上述問題,本發(fā)明提供一種基于面部動作編碼系統(tǒng)進行微表情檢測的方法,其主要內(nèi)容包括:
(一)可視化cnn濾波器;
(二)網(wǎng)絡架構與訓練;
(三)遷移學習;
(四)微表情檢測。
其中,所述的可視化cnn濾波器,建立健全的情緒分類框架后,分析所提出網(wǎng)絡學習的模型,將所提出的網(wǎng)絡訓練的濾波器在不同的情感分類任務上可視化,下層提供低級別的類gabor濾波器,而靠近輸出的中間層和較高層提供高級別的人體可讀取特征,通過使用上述方法,可以看出所訓練網(wǎng)絡的特征,特征可視化通過輸入顯示出最大化所需濾波器與負責所述響應的像素的激活,從分析所訓練的模型可以看出,網(wǎng)絡的特征圖和特定的面部區(qū)域和運動之間有很大的相似性,并且這些區(qū)域和運動與定義面部動作編碼系統(tǒng)(facs)運動單元的部分有顯著的相關性。
進一步地,所述的facs,是面部動作編碼系統(tǒng),首先確定了7個主要的普遍情緒,滿足在不同的文化環(huán)境下所表達意義不變的特性,用相應的情感狀態(tài)標記他們,即幸福,悲傷,驚喜,恐懼,厭惡,憤怒和蔑視,被廣泛應用于認知計算,而facs是一種基于解剖學的系統(tǒng),用于描述每種情緒的所有可觀察到的面部動作,使用facs作為方法論測量系統(tǒng),可以描述動作單元(au)激活的任何表情及其活躍強度,每個動作單元描述一組面部肌肉,一起共同組成一個特定的運動。
進一步地,所述的cnn濾波器,使用以下方法將濾波器的疑似au表示與實際的數(shù)據(jù)集中au標簽相匹配:
(1)給定卷積層l和濾波器j,激活輸出被標記為fl,j;
(2)提取最大的n個輸入圖像i=argimaxfl,j(i);
(3)對于每個輸入i,手動注釋的au標簽是
(4)濾波器j與動作單元u的存在的相關性為pj,u并由
大量最高層的神經(jīng)元被發(fā)現(xiàn)是其本身沒有為任何輸入產(chǎn)生有效的輸出,最后卷積層中活躍神經(jīng)元的數(shù)量約為特征圖大小的30%(256個中有60個),有效神經(jīng)元的數(shù)量和facs的動作單元的詞匯量大小近似,可以識別出對應的面部表情。
其中,所述的gabor濾波器,其特征在于,gabor濾波器是一個用于邊緣檢測的線性濾波器,gabor濾波器的頻率和方向表示接近人類視覺系統(tǒng)對于頻率和方向的表示,并且它們常備用于紋理表示和描述,在空域,一個2維的gabor濾波器是一個正弦平面波和高斯核函數(shù)的乘積,具有在空間域和頻率域同時取得最優(yōu)局部化的特性,與人類生物視覺特性很相似,因此能夠很好地描述對應于空間頻率(尺度)、空間位置及方向選擇性的局部結構信息,gabor濾波器是自相似的,也就是說,所有gabor濾波器都可以從一個母小波經(jīng)過膨脹和旋轉(zhuǎn)產(chǎn)生,實際應用中,gabor濾波器可以在頻域的不同尺度,不同方向上提取相關特征。
其中,所述的網(wǎng)絡架構與訓練,實現(xiàn)了一個簡單的經(jīng)典前饋卷積神經(jīng)網(wǎng)絡,每個網(wǎng)絡的結構如下:輸入層,接收灰度圖或rgb圖像,輸入通過3個卷積層塊,每個塊包括濾波器層,非線性(或激活)和最大池化層組成,其中3個卷積塊,每個塊具有修正線性單元(relu)激活函數(shù)和2x2的池化層,卷積層具有濾波器圖,濾波器(神經(jīng)元)數(shù)越多,層越深,分別得到64,128和256個濾波器圖尺寸,每個過濾器均支持5x5像素,卷積塊之后是一個具有512個隱藏神經(jīng)元的完全連接層,隱藏層的輸出被傳輸?shù)捷敵鰧?,輸出尺寸大小受到任務的影響?個用于情感分類,多達50個用于au標簽,輸出層可以在激活中變化,為了減少過擬合,采用丟棄層,在最后一個卷積層以及完全連接的層之間應用丟棄層,其概率分別為0.25和0.5,丟棄層概率為p,意味著每個神經(jīng)元的輸出都有概率p會被設置為0。
進一步地,所述的網(wǎng)絡訓練,利用adam優(yōu)化器訓練網(wǎng)絡,學習率為10-3,衰減率為10-5,為了最大限度地使模型通用化,使用隨機翻轉(zhuǎn)和仿射變換的組合,例如旋轉(zhuǎn),變化,縮放,進行數(shù)據(jù)擴充,在圖像上生成合成數(shù)據(jù)并放大訓練集。
其中,所述的遷移學習,遷移學習旨在使用針對新任務在不同數(shù)據(jù)上進行預培訓的模型,神經(jīng)網(wǎng)絡模型通常需要較大的訓練集,然而,在某些情況下,訓練集的大小不足以達到正確的訓練,遷移學習允許使用卷積層作為預訓練的特征提取器,只有輸出層根據(jù)當前的任務被替換或修改,即第一層被視為預定義的特征,而定義任務的最后層通過基于可用訓練集的學習進行調(diào)整。
其中,所述的微表情檢測,微表情是一種更自發(fā)和微妙的面部運動,由相同的面部運動組成,這些運動定義了facs動作單元并且強度各不相同,微表情往往僅持續(xù)0.5秒,所以為檢測出其中的含義,將每個微表情分解為3個步驟:起始,頂點和偏移,分別描述運動的開始,窺視和動作的結束,將facs類特征提取器應用于自動檢測微表情的任務,為此,使用數(shù)據(jù)集包括以200fps拍攝的256個自發(fā)微表情,所有視頻都標記為起始,頂點和偏移,以及所傳達的表情,為頂點幀添加au編碼,通過顯示觸發(fā)所需響應的主題視頻段來捕獲表情。
進一步地,所述的微表情檢測網(wǎng)絡,首先從訓練數(shù)據(jù)序列中對所選幀進行網(wǎng)絡訓練,對于每個視頻,僅采取起始,頂點和偏移幀,以及序列的第一和最后一幀,以解釋中性姿勢,首先訓練cnn來檢測情緒,然后,將來自訓練網(wǎng)絡的卷積層與長短期記憶網(wǎng)絡(lstm)組合,其輸入連接到特征提取器cnn的第一個完全連接層,所使用的lstm只包含一個lstm層和一個輸出層,在lstm層之后使用循環(huán)丟棄層。
附圖說明
圖1是本發(fā)明一種基于面部動作編碼系統(tǒng)進行微表情檢測的方法的系統(tǒng)流程圖。
圖2是本發(fā)明一種基于面部動作編碼系統(tǒng)進行微表情檢測的方法的濾波器可視化過程。
圖3是本發(fā)明一種基于面部動作編碼系統(tǒng)進行微表情檢測的方法的主要表情。
圖4是本發(fā)明一種基于面部動作編碼系統(tǒng)進行微表情檢測的方法的動作單元編碼。
圖5是本發(fā)明一種基于面部動作編碼系統(tǒng)進行微表情檢測的方法的數(shù)據(jù)集圖例。
具體實施方式
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互結合,下面結合附圖和具體實施例對本發(fā)明作進一步詳細說明。
圖1是本發(fā)明一種基于面部動作編碼系統(tǒng)進行微表情檢測的方法的系統(tǒng)流程圖。主要包括可視化cnn濾波器、網(wǎng)絡架構與訓練、遷移學習、微表情檢測。
其中,所述的可視化cnn濾波器,建立健全的情緒分類框架后,分析所提出網(wǎng)絡學習的模型,將所提出的網(wǎng)絡訓練的濾波器在不同的情感分類任務上可視化,下層提供低級別的類gabor濾波器,而靠近輸出的中間層和較高層提供高級別的人體可讀取特征,通過使用上述方法,可以看出所訓練網(wǎng)絡的特征,特征可視化通過輸入顯示出最大化所需濾波器與負責所述響應的像素的激活,從分析所訓練的模型可以看出,網(wǎng)絡的特征圖和特定的面部區(qū)域和運動之間有很大的相似性,并且這些區(qū)域和運動與定義面部動作編碼系統(tǒng)(facs)運動單元的部分有顯著的相關性。
進一步地,所述的facs,是面部動作編碼系統(tǒng),首先確定了7個主要的普遍情緒,滿足在不同的文化環(huán)境下所表達意義不變的特性,用相應的情感狀態(tài)標記他們,即幸福,悲傷,驚喜,恐懼,厭惡,憤怒和蔑視,被廣泛應用于認知計算,而facs是一種基于解剖學的系統(tǒng),用于描述每種情緒的所有可觀察到的面部動作,使用facs作為方法論測量系統(tǒng),可以描述動作單元(au)激活的任何表情及其活躍強度,每個動作單元描述一組面部肌肉,一起共同組成一個特定的運動。
進一步地,所述的cnn濾波器,使用以下方法將濾波器的疑似au表示與實際的數(shù)據(jù)集中au標簽相匹配:
(1)給定卷積層l和濾波器j,激活輸出被標記為fl,j;
(2)提取最大的n個輸入圖像i=argimaxfl,j(i);
(3)對于每個輸入i,手動注釋的au標簽
(4)濾波器j與動作單元u的存在的相關性為pj,u并由
大量最高層的神經(jīng)元被發(fā)現(xiàn)是其本身沒有為任何輸入產(chǎn)生有效的輸出,最后卷積層中活躍神經(jīng)元的數(shù)量約為特征圖大小的30%(256個中有60個),有效神經(jīng)元的數(shù)量和facs的動作單元的詞匯量大小近似,可以識別出對應的面部表情。
其中,所述的gabor濾波器,其特征在于,gabor濾波器是一個用于邊緣檢測的線性濾波器,gabor濾波器的頻率和方向表示接近人類視覺系統(tǒng)對于頻率和方向的表示,并且它們常備用于紋理表示和描述,在空域,一個2維的gabor濾波器是一個正弦平面波和高斯核函數(shù)的乘積,具有在空間域和頻率域同時取得最優(yōu)局部化的特性,與人類生物視覺特性很相似,因此能夠很好地描述對應于空間頻率(尺度)、空間位置及方向選擇性的局部結構信息,gabor濾波器是自相似的,也就是說,所有gabor濾波器都可以從一個母小波經(jīng)過膨脹和旋轉(zhuǎn)產(chǎn)生,實際應用中,gabor濾波器可以在頻域的不同尺度,不同方向上提取相關特征。
其中,所述的網(wǎng)絡架構與訓練,實現(xiàn)了一個簡單的經(jīng)典前饋卷積神經(jīng)網(wǎng)絡,每個網(wǎng)絡的結構如下:輸入層,接收灰度圖或rgb圖像,輸入通過3個卷積層塊,每個塊包括濾波器層,非線性(或激活)和最大池化層組成,其中3個卷積塊,每個塊具有修正線性單元(relu)激活函數(shù)和2x2的池化層,卷積層具有濾波器圖,濾波器(神經(jīng)元)數(shù)越多,層越深,分別得到64,128和256個濾波器圖尺寸,每個過濾器均支持5x5像素,卷積塊之后是一個具有512個隱藏神經(jīng)元的完全連接層,隱藏層的輸出被傳輸?shù)捷敵鰧?,輸出尺寸大小受到任務的影響?個用于情感分類,多達50個用于au標簽,輸出層可以在激活中變化,為了減少過擬合,采用丟棄層,在最后一個卷積層以及完全連接的層之間應用丟棄層,其概率分別為0.25和0.5,丟棄層概率為p,意味著每個神經(jīng)元的輸出都有概率p會被設置為0。
進一步地,所述的網(wǎng)絡訓練,利用adam優(yōu)化器訓練網(wǎng)絡,學習率為10-3,衰減率為10-5,為了最大限度地使模型通用化,使用隨機翻轉(zhuǎn)和仿射變換的組合,例如旋轉(zhuǎn),變化,縮放,進行數(shù)據(jù)擴充,在圖像上生成合成數(shù)據(jù)并放大訓練集。
其中,所述的遷移學習,遷移學習旨在使用針對新任務在不同數(shù)據(jù)上進行預培訓的模型,神經(jīng)網(wǎng)絡模型通常需要較大的訓練集,然而,在某些情況下,訓練集的大小不足以達到正確的訓練,遷移學習允許使用卷積層作為預訓練的特征提取器,只有輸出層根據(jù)當前的任務被替換或修改,即第一層被視為預定義的特征,而定義任務的最后層通過基于可用訓練集的學習進行調(diào)整。
其中,所述的微表情檢測,微表情是一種更自發(fā)和微妙的面部運動,由相同的面部運動組成,這些運動定義了facs動作單元并且強度各不相同,微表情往往僅持續(xù)0.5秒,所以為檢測出其中的含義,將每個微表情分解為3個步驟:起始,頂點和偏移,分別描述運動的開始,窺視和動作的結束,將facs類特征提取器應用于自動檢測微表情的任務,為此,使用數(shù)據(jù)集包括以200fps拍攝的256個自發(fā)微表情,所有視頻都標記為起始,頂點和偏移,以及所傳達的表情,為頂點幀添加au編碼,通過顯示觸發(fā)所需響應的主題視頻段來捕獲表情。
進一步地,所述的微表情檢測網(wǎng)絡,首先從訓練數(shù)據(jù)序列中對所選幀進行網(wǎng)絡訓練,對于每個視頻,僅采取起始,頂點和偏移幀,以及序列的第一和最后一幀,以解釋中性姿勢,首先訓練cnn來檢測情緒,然后,將來自訓練網(wǎng)絡的卷積層與長短期記憶網(wǎng)絡(lstm)組合,其輸入連接到特征提取器cnn的第一個完全連接層,所使用的lstm只包含一個lstm層和一個輸出層,在lstm層之后使用循環(huán)丟棄層。
圖2是本發(fā)明一種基于面部動作編碼系統(tǒng)進行微表情檢測的方法的濾波器可視化過程。建立健全的情緒分類框架后,分析所提出網(wǎng)絡學習的模型,將所提出網(wǎng)絡訓練的濾波器在不同的情感分類任務上進行可視化。下層提供低級別的gabor-like濾波器,而靠近輸出的中間層和較高層提供高級別的人體可讀取特征。特征可視化中,通過輸入沿負責所述響應的像素最大化所需濾波器的激活。
圖3是本發(fā)明一種基于面部動作編碼系統(tǒng)進行微表情檢測的方法的主要表情。從左到右分別為厭惡,恐懼,欣喜,驚訝,悲傷和憤怒,是關于面部表情的主要表達,其普遍性不會因不同文化而改變表情的含義,滿足簡單性和對普遍性的要求。
圖4是本發(fā)明一種基于面部動作編碼系統(tǒng)進行微表情檢測的方法的動作單元編碼。面部動作編碼系統(tǒng)(facs)是一種基于解剖學的系統(tǒng),用于描述每種情緒的所有可觀察到的面部動作。使用facs作為方法論測量系統(tǒng),可以描述動作單元激活的任何表情及其活躍強度。每個動作單元描述一組面部肌肉,一起共同組成一個特定的運動。包括44個面部動作單元,描述諸如“張口”,“瞇眼”等動作,現(xiàn)還添加了20個其他的動作單元,算上頭部和眼睛的運動。
圖5是本發(fā)明一種基于面部動作編碼系統(tǒng)進行微表情檢測的方法的數(shù)據(jù)集圖例。使用基于cnn的方法在各種數(shù)據(jù)集上獲得一個共同的模型結構,并研究這些模型與facs的關系。為了檢查學習模型的泛化能力,使用遷移學習方法來了解這些模型如何在其他數(shù)據(jù)集上執(zhí)行。為了了解基于cnn最先進的模型在fer中的共同屬性,將這些方法應用于眾多數(shù)據(jù)集中,圖為選擇的部分圖例。
對于本領域技術人員,本發(fā)明不限制于上述實施例的細節(jié),在不背離本發(fā)明的精神和范圍的情況下,能夠以其他具體形式實現(xiàn)本發(fā)明。此外,本領域的技術人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍,這些改進和變型也應視為本發(fā)明的保護范圍。因此,所附權利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。