引 言
人類表情往往攜帶著比語言更為豐富的信息,因此,人臉表情識別是計算機視覺領域的一個重要研究課題。其研究成果可應用于人機交互、心理疾病患者治療、情感計算與遠程教育等領域,廣泛的應用領域推動著人臉表情識別技術不斷發(fā)展。易積政 [1] 等提出了基于特征點矢量與紋理形變能量參數(shù)融合的人臉表情識別方法,該方法較傳統(tǒng)方法在識別率上有所提高。Taihao Li[2] 等結合主動外觀模型與神經(jīng)網(wǎng)絡進行人臉表情識別。Ross P Holder,Jules R Tapamo[3] 通過使用更精確的Scharr 梯度算子、主成分分析降維等方法提出了改進的梯度局部三值模式(GLTP)。
1 表情識別綜述
1971 年,心理學家 Ekman 與Friesen 研究提出了人類的六種基本情感,即驚訝(Surprise)、悲傷(Sadness)、憤怒(Anger)、恐懼(Fear)、厭惡(Disgust)與高興(Happiness),與此對應,人類可產(chǎn)生相應的面部表情。為了更好地描述人臉面部表情, 隨之誕生了不同的面部表情編碼方式。Ekman 與Keltner[4] 提出了面部運動編碼系統(tǒng)(FACS),可根據(jù)面部肌肉和肌肉群的運動對不同的面部表情加以區(qū)分。臉部動畫參數(shù)(FAPS)也是一種表情編碼方式,其根據(jù)臉部特征部位的運動描述面部表情。另外,美國麻省理工學院,日本東京理科大學與哈爾濱工業(yè)大學等國內(nèi)外高校與研究機構都對表情識別開展了相關研究工作。表情編碼識別系統(tǒng)如圖 1 所示。
在研究表情識別的過程中,建立了供測試使用的人臉表情數(shù)據(jù)庫。較為經(jīng)典的面部表情數(shù)據(jù)庫有JAFFE Database、The Extended Cohn-Kanade Dataset(CK+),GEMEP-FERA 等。 其中,JAFFE Database 是由十位日本女性分別做出 7 種表情 所構成的 213 張圖像的集合,CK+ 則是一個具備表情強度從 低到高逐漸變化 [5] 的數(shù)據(jù)庫,如圖 2 所示。
(a)FACS(b)FAPS
圖1 表情識別編碼系統(tǒng)
圖 2 JAFFE 與CK+ 數(shù)據(jù)庫中的面部表情
人臉表情識別主要由三部分組成,即人臉檢測與預處理, 特征提取,表情分類。人臉檢測預處理旨在將目標人臉從背景中分離出來,其中涉及人臉定位、圖像旋轉與歸一化等操作; 特征提取旨在提取出能夠表達人類情緒的面部特征,有多種特征提取方法,如局部二值模式(LBP)、彈性圖匹配法、等距映射等,本文只按照一種分類方式說明其中的部分特征提取方法;表情分類則依據(jù)提取出的面部特征將其歸類為具體的表情,其中有 K 最近鄰算法、稀疏表示分類法等。人臉表情識別流程如圖 3 所示。
圖 3 人臉表情識別流程
2 特征提取算法綜述
人的面部表情具有大量特征。一張包含人臉的圖像擁有極大的信息量,且在視頻流中,同一人在不同幀下的表情模式也不盡相同,因此需要對人臉圖像進行圖像降維處理并提取出五官特征、紋理特征等有效信息。這些有效信息的提取極為重要,能否準確有效地提取出特征不僅影響著識別流程的速率,也極大地影響著識別準確率。
2.1 基于幾何特征的提取方法
幾何特征的提取即針對二維圖像的人臉表情的顯著特征對面部五官進行定位,可以得到五官的大小、位置及五官之間的相互比例等空間幾何信息,可通過這些信息進行人臉表情識別?;谠摲椒ǖ哪P陀兄鲃有螤钅P停ˋSM),活動外觀模型(AAM)與尺度不變特征轉換。ASM最早由Cootes提出, 之后其針對ASM進行改進,于1998年提出了AAM。該類提取方法存在五官遮擋問題,且當光照、角度、人臉尺寸等重要識別分類信息丟失時,識別精度不高。
2.2 基于整體統(tǒng)計特征的提取方法
該類方法的主要思想是遍歷整幅圖像,盡可能多地提取 整幅圖像的特征信息。該類方法可以使用主成分分析(PCA) 去除人臉圖像中的混亂信息、噪聲和冗余;使用方差衡量去除 小方差的冗余信息,使用正交位數(shù)空間描述數(shù)據(jù)改變的方向。 但該方法只對符合高斯樣本即噪聲或不感興趣、信號比較微 弱的數(shù)據(jù)有效,導致數(shù)據(jù)具有較差的可分性。在 PCA 的基礎 上提出了獨立成分分析法,即 ICA(Independent Component Analysis,ICA)。ICA 將數(shù)據(jù)看作多個獨立分量的線性組合, 進而獲取數(shù)據(jù)的獨立成分,因此具有較好的可分性。由于外界 背景環(huán)境的干擾,該方法在復雜背景環(huán)境下識別率會下降。
2.3 基于頻率特征率的提取方法
主要采用 Gabor 小波變換方法,該方法可以在頻域的不 同尺度,不同方向上提取相關特征。Gabor 方法先添加時間局 部化窗函數(shù),得到窗口傅里葉變換,因為該方法無法聚焦,因 此研究人員加入了小波理論,結合成 Gabor 小波變換。該方 法在對人臉表情特征提取時,能夠有效提取不同細節(jié)程度的 圖像特征。但由于是低層次的特征,因此不易于直接用于特 征匹配。
2.4 基于運動特征的提取方法
光流法。光流為圖像亮度模式的表觀運動,能夠反映出 圖像的運動,因此可以提取出圖像的運動信息。光流算法先 假設體素和圖像像素守恒,評估兩次表情之間的細微形變, 可以得到圖像約束方程,求出圖像約束方程的解后計算變化 參數(shù)。該方法反應了表情變化的本質,因此光照因素干擾較小, 但計算量龐大。
3 表情分類算法綜述
3.1 基于傳統(tǒng)機器學習的表情分類算法
3.1.1 Bayes 分類算法
Bayes 分類是以貝葉斯定理為基礎的一類分類算法,貝葉斯定理屬于概率論的一種,在邊緣概率分布與隨機變量的條 件下,使用產(chǎn)生的新數(shù)據(jù)對已有數(shù)據(jù)做修改。樸素 Bayes 分類 算法是 Bayes 分類算法中較為簡單的一種。樸素 Bayes 分類算 法能夠根據(jù)待分類項符合的各個條件判別其所屬類別。由于 樸素 Bayes 模型假設特征屬性之間相互獨立,因此該分類方 法誤差率小,然而當將其應用于實際時效果不佳。
3.1.2 支持向量機算法
1995 年,Cortes 與 Vapnik 提出了支持向量機(Support Vector Machine,SVM),即自動分類算法。SVM 能夠區(qū)分數(shù)據(jù)類別的高維到一維投影,其任務是找到最佳決策邊界。在尋找最佳決策邊界的過程中,相繼引入了核函數(shù)、拉格朗日對偶與SMO 算法,SVM 算法不使用真正的向量而使用數(shù)量積進行分類,因而減小了系統(tǒng)開銷,使得 SVM 算法更加優(yōu)化。相較于更先進的神經(jīng)網(wǎng)絡算法,支持向量機擁有更快的運算速度,計算時使用更少的訓練樣本。支持向量機示意圖如圖 4 所示。
3.1.3 HMM 模型
隱馬爾科夫模型(Hidden Markov Model,HMM)是一 種關于時序的概率生成模型。該算法描述了馬爾科夫過程, 但該過程包含隱含的未知參數(shù)。HMM 模型將人臉圖像看作 顯性序列,從已知的數(shù)據(jù)中確定隱含數(shù)據(jù),再利用隱含數(shù)據(jù) 進行數(shù)據(jù)分析,因此適合進行動態(tài)視頻流分析。黃小娟 [6] 等 通過優(yōu)化隱馬爾科夫模型參數(shù)提出了改進的隱馬爾科夫表情 識別模型,使得該模型可更有效地應用于表情識別中。HMM 模型示意圖如圖 5 所示。
3.2 基于深度學習的表情分類算法
3.2.1 基于 CNN 的分類算法
卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN) 是針對人工神經(jīng)網(wǎng)絡(ANN)的一種改進,其靈感來源于貓的初級視覺皮層,其權值共享網(wǎng)絡結構使之更接近生物神經(jīng) 網(wǎng)絡。卷積神經(jīng)網(wǎng)絡由多個卷積層和頂端的全聯(lián)通層構成,相 較于其他神經(jīng)網(wǎng)絡,卷積神經(jīng)網(wǎng)絡還包括關聯(lián)權重與池化層。 CNN 利用損失函數(shù)判斷類別預測值與真實值間的差異,利用 激活函數(shù)解決非線性問題,采用正則化操作削減過擬合現(xiàn)象, 采用池化層操作降低網(wǎng)絡復雜度。上述使得 CNN 的訓練速度 更快,計算量減少且能夠實現(xiàn)圖像降維,使之能更好地處理 二維圖像,使用神經(jīng)網(wǎng)絡時需要采取的圖像預處理工作較少。 卷積神經(jīng)網(wǎng)絡示意圖如圖 6 所示。
3.2.2 基于 DBN 的分類算法
2006 年,Geoffrey Hinton 提出了深度信念網(wǎng)絡。深度信 念網(wǎng)絡(Deep Belief Network,DBN)其結構類似于人腦的認 知過程,由多層受限玻爾茲曼機(RBM)構成。RBM 由可見 層與隱層組成,可見層接受輸入,隱層提取特征,兩層雙向連接, 層內(nèi)各神經(jīng)元間無連接,可見層輸出作為隱層輸入。采取對比 散度的學習算法訓練 RBM,得到使得訓練樣本概率最大的權 值。多層 RBM 訓練層經(jīng)調優(yōu)構成 DBN。DBN 將低層輸出作 為高層輸入,再將高層輸出作為更高層輸入,是一個自下而上 的無監(jiān)督學習過程。采用 DBN 時需要為樣本集設定標簽,學 習過程慢。施徐敢 [7] 等融合深度信念網(wǎng)絡與多層感知器進行 人臉表情識別,該識別方法可達到的最好人臉表情正確識別 率為 90.95%。由于環(huán)境中光照等復雜因素的存在,Chen Li[8] 等將 DBN 與增強局部紋理特征相結合,克服了光照變化帶來 的影響。深度信念網(wǎng)絡示意圖如圖 7 所示。
4 結 語
目前人臉表情識別是圖像處理領域的研究熱點,人臉表 情庫越來越豐富。其特征提取算法包括基于幾何特征提取、 PCA 與 ICA 算法、Gabor 小波變換、光流法等。這些算法與 其他算法相結合,在解決圖像噪聲,人臉遮擋、角度,環(huán)境 光照等許多影響因素上有較好的處理效果,但同時也增大了系 統(tǒng)開銷。傳統(tǒng)的表情分類方法有 Bayes 分類算法、隱馬爾可 夫模型、支持向量機 SVM 模型。傳統(tǒng)算法模型計算速度快, 但精度不高,因此在科研機構中主要為深度學習方法,CNN 與 DBN 這類算法訓練出的模型識別精度高,速率快,但訓練 需要使用 GPU 等硬件加速,訓練時更需要大量的表情庫,訓 練周期長,難以在高??蒲袡C構以外的場所進行研發(fā)和使用。
綜上所述,人臉表情識別這一課題已經(jīng)擁有了較成熟的 研究成果,但缺點依然存在,需要不同算法取長補短,如將 深度學習與傳統(tǒng)算法結合等,算法的改進仍然是一個漫長的 探索實踐過程。