當前位置:首頁 > 物聯(lián)網(wǎng) > 《物聯(lián)網(wǎng)技術》雜志
[導讀]摘 要:人臉表情識別因其廣泛的應用領域與良好的發(fā)展前景,成為計算機視覺領域的一個研究熱點。文中綜合論述了表情識別的研究狀況與各類算法,并對其中的特征提取算法與表情分類算法進行了簡單描述。常規(guī)的特征提取算法有基于幾何特征的提取方法、基于整體統(tǒng)計特征的提取方法、基于頻率特征率的提取方法和基于運動特征的提取方法。常規(guī)的表情分類算法則從基于傳統(tǒng)機器學習與深度學習兩個角度進行介紹。

引 言

人類表情往往攜帶著比語言更為豐富的信息,因此,人臉表情識別是計算機視覺領域的一個重要研究課題。其研究成果可應用于人機交互、心理疾病患者治療、情感計算與遠程教育等領域,廣泛的應用領域推動著人臉表情識別技術不斷發(fā)展。易積政 [1] 等提出了基于特征點矢量與紋理形變能量參數(shù)融合的人臉表情識別方法,該方法較傳統(tǒng)方法在識別率上有所提高。Taihao Li[2] 等結合主動外觀模型與神經(jīng)網(wǎng)絡進行人臉表情識別。Ross P Holder,Jules R Tapamo[3] 通過使用更精確的Scharr 梯度算子、主成分分析降維等方法提出了改進的梯度局部三值模式(GLTP)。

1 表情識別綜述

1971 年,心理學家 Ekman 與Friesen 研究提出了人類的六種基本情感,即驚訝(Surprise)、悲傷(Sadness)、憤怒(Anger)、恐懼(Fear)、厭惡(Disgust)與高興(Happiness),與此對應,人類可產(chǎn)生相應的面部表情。為了更好地描述人臉面部表情, 隨之誕生了不同的面部表情編碼方式。Ekman 與Keltner[4] 提出了面部運動編碼系統(tǒng)(FACS),可根據(jù)面部肌肉和肌肉群的運動對不同的面部表情加以區(qū)分。臉部動畫參數(shù)(FAPS)也是一種表情編碼方式,其根據(jù)臉部特征部位的運動描述面部表情。另外,美國麻省理工學院,日本東京理科大學與哈爾濱工業(yè)大學等國內(nèi)外高校與研究機構都對表情識別開展了相關研究工作。表情編碼識別系統(tǒng)如圖 1 所示。

在研究表情識別的過程中,建立了供測試使用的人臉表情數(shù)據(jù)庫。較為經(jīng)典的面部表情數(shù)據(jù)庫有JAFFE Database、The Extended Cohn-Kanade Dataset(CK+),GEMEP-FERA 等。 其中,JAFFE Database 是由十位日本女性分別做出 7 種表情 所構成的 213 張圖像的集合,CK+ 則是一個具備表情強度從 低到高逐漸變化 [5] 的數(shù)據(jù)庫,如圖 2 所示。

人臉表情識別算法綜述

(a)FACS(b)FAPS

圖1 表情識別編碼系統(tǒng)

人臉表情識別算法綜述

圖 2 JAFFE 與CK+ 數(shù)據(jù)庫中的面部表情

人臉表情識別主要由三部分組成,即人臉檢測與預處理, 特征提取,表情分類。人臉檢測預處理旨在將目標人臉從背景中分離出來,其中涉及人臉定位、圖像旋轉與歸一化等操作; 特征提取旨在提取出能夠表達人類情緒的面部特征,有多種特征提取方法,如局部二值模式(LBP)、彈性圖匹配法、等距映射等,本文只按照一種分類方式說明其中的部分特征提取方法;表情分類則依據(jù)提取出的面部特征將其歸類為具體的表情,其中有 K 最近鄰算法、稀疏表示分類法等。人臉表情識別流程如圖 3 所示。

人臉表情識別算法綜述

圖 3 人臉表情識別流程

2 特征提取算法綜述

人的面部表情具有大量特征。一張包含人臉的圖像擁有極大的信息量,且在視頻流中,同一人在不同幀下的表情模式也不盡相同,因此需要對人臉圖像進行圖像降維處理并提取出五官特征、紋理特征等有效信息。這些有效信息的提取極為重要,能否準確有效地提取出特征不僅影響著識別流程的速率,也極大地影響著識別準確率。

2.1 基于幾何特征的提取方法

幾何特征的提取即針對二維圖像的人臉表情的顯著特征對面部五官進行定位,可以得到五官的大小、位置及五官之間的相互比例等空間幾何信息,可通過這些信息進行人臉表情識別?;谠摲椒ǖ哪P陀兄鲃有螤钅P停ˋSM),活動外觀模型(AAM)與尺度不變特征轉換。ASM最早由Cootes提出, 之后其針對ASM進行改進,于1998年提出了AAM。該類提取方法存在五官遮擋問題,且當光照、角度、人臉尺寸等重要識別分類信息丟失時,識別精度不高。

2.2 基于整體統(tǒng)計特征的提取方法

該類方法的主要思想是遍歷整幅圖像,盡可能多地提取 整幅圖像的特征信息。該類方法可以使用主成分分析(PCA) 去除人臉圖像中的混亂信息、噪聲和冗余;使用方差衡量去除 小方差的冗余信息,使用正交位數(shù)空間描述數(shù)據(jù)改變的方向。 但該方法只對符合高斯樣本即噪聲或不感興趣、信號比較微 弱的數(shù)據(jù)有效,導致數(shù)據(jù)具有較差的可分性。在 PCA 的基礎 上提出了獨立成分分析法,即 ICA(Independent Component Analysis,ICA)。ICA 將數(shù)據(jù)看作多個獨立分量的線性組合, 進而獲取數(shù)據(jù)的獨立成分,因此具有較好的可分性。由于外界 背景環(huán)境的干擾,該方法在復雜背景環(huán)境下識別率會下降。

2.3 基于頻率特征率的提取方法

主要采用 Gabor 小波變換方法,該方法可以在頻域的不 同尺度,不同方向上提取相關特征。Gabor 方法先添加時間局 部化窗函數(shù),得到窗口傅里葉變換,因為該方法無法聚焦,因 此研究人員加入了小波理論,結合成 Gabor 小波變換。該方 法在對人臉表情特征提取時,能夠有效提取不同細節(jié)程度的 圖像特征。但由于是低層次的特征,因此不易于直接用于特 征匹配。

2.4 基于運動特征的提取方法

光流法。光流為圖像亮度模式的表觀運動,能夠反映出 圖像的運動,因此可以提取出圖像的運動信息。光流算法先 假設體素和圖像像素守恒,評估兩次表情之間的細微形變, 可以得到圖像約束方程,求出圖像約束方程的解后計算變化 參數(shù)。該方法反應了表情變化的本質,因此光照因素干擾較小, 但計算量龐大。

3 表情分類算法綜述

3.1 基于傳統(tǒng)機器學習的表情分類算法

3.1.1 Bayes 分類算法

Bayes 分類是以貝葉斯定理為基礎的一類分類算法,貝葉斯定理屬于概率論的一種,在邊緣概率分布與隨機變量的條 件下,使用產(chǎn)生的新數(shù)據(jù)對已有數(shù)據(jù)做修改。樸素 Bayes 分類 算法是 Bayes 分類算法中較為簡單的一種。樸素 Bayes 分類算 法能夠根據(jù)待分類項符合的各個條件判別其所屬類別。由于 樸素 Bayes 模型假設特征屬性之間相互獨立,因此該分類方 法誤差率小,然而當將其應用于實際時效果不佳。

人臉表情識別算法綜述

3.1.2 支持向量機算法

1995 年,Cortes 與 Vapnik 提出了支持向量機(Support Vector Machine,SVM),即自動分類算法。SVM 能夠區(qū)分數(shù)據(jù)類別的高維到一維投影,其任務是找到最佳決策邊界。在尋找最佳決策邊界的過程中,相繼引入了核函數(shù)、拉格朗日對偶與SMO 算法,SVM 算法不使用真正的向量而使用數(shù)量積進行分類,因而減小了系統(tǒng)開銷,使得 SVM 算法更加優(yōu)化。相較于更先進的神經(jīng)網(wǎng)絡算法,支持向量機擁有更快的運算速度,計算時使用更少的訓練樣本。支持向量機示意圖如圖 4 所示。

人臉表情識別算法綜述

3.1.3 HMM 模型

隱馬爾科夫模型(Hidden Markov Model,HMM)是一 種關于時序的概率生成模型。該算法描述了馬爾科夫過程, 但該過程包含隱含的未知參數(shù)。HMM 模型將人臉圖像看作 顯性序列,從已知的數(shù)據(jù)中確定隱含數(shù)據(jù),再利用隱含數(shù)據(jù) 進行數(shù)據(jù)分析,因此適合進行動態(tài)視頻流分析。黃小娟 [6] 等 通過優(yōu)化隱馬爾科夫模型參數(shù)提出了改進的隱馬爾科夫表情 識別模型,使得該模型可更有效地應用于表情識別中。HMM 模型示意圖如圖 5 所示。

人臉表情識別算法綜述

3.2 基于深度學習的表情分類算法

3.2.1 基于 CNN 的分類算法

卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN) 是針對人工神經(jīng)網(wǎng)絡(ANN)的一種改進,其靈感來源于貓的初級視覺皮層,其權值共享網(wǎng)絡結構使之更接近生物神經(jīng) 網(wǎng)絡。卷積神經(jīng)網(wǎng)絡由多個卷積層和頂端的全聯(lián)通層構成,相 較于其他神經(jīng)網(wǎng)絡,卷積神經(jīng)網(wǎng)絡還包括關聯(lián)權重與池化層。 CNN 利用損失函數(shù)判斷類別預測值與真實值間的差異,利用 激活函數(shù)解決非線性問題,采用正則化操作削減過擬合現(xiàn)象, 采用池化層操作降低網(wǎng)絡復雜度。上述使得 CNN 的訓練速度 更快,計算量減少且能夠實現(xiàn)圖像降維,使之能更好地處理 二維圖像,使用神經(jīng)網(wǎng)絡時需要采取的圖像預處理工作較少。 卷積神經(jīng)網(wǎng)絡示意圖如圖 6 所示。

人臉表情識別算法綜述

3.2.2 基于 DBN 的分類算法

2006 年,Geoffrey Hinton 提出了深度信念網(wǎng)絡。深度信 念網(wǎng)絡(Deep Belief Network,DBN)其結構類似于人腦的認 知過程,由多層受限玻爾茲曼機(RBM)構成。RBM 由可見 層與隱層組成,可見層接受輸入,隱層提取特征,兩層雙向連接, 層內(nèi)各神經(jīng)元間無連接,可見層輸出作為隱層輸入。采取對比 散度的學習算法訓練 RBM,得到使得訓練樣本概率最大的權 值。多層 RBM 訓練層經(jīng)調優(yōu)構成 DBN。DBN 將低層輸出作 為高層輸入,再將高層輸出作為更高層輸入,是一個自下而上 的無監(jiān)督學習過程。采用 DBN 時需要為樣本集設定標簽,學 習過程慢。施徐敢 [7] 等融合深度信念網(wǎng)絡與多層感知器進行 人臉表情識別,該識別方法可達到的最好人臉表情正確識別 率為 90.95%。由于環(huán)境中光照等復雜因素的存在,Chen Li[8] 等將 DBN 與增強局部紋理特征相結合,克服了光照變化帶來 的影響。深度信念網(wǎng)絡示意圖如圖 7 所示。

人臉表情識別算法綜述

4 結 語

目前人臉表情識別是圖像處理領域的研究熱點,人臉表 情庫越來越豐富。其特征提取算法包括基于幾何特征提取、 PCA 與 ICA 算法、Gabor 小波變換、光流法等。這些算法與 其他算法相結合,在解決圖像噪聲,人臉遮擋、角度,環(huán)境 光照等許多影響因素上有較好的處理效果,但同時也增大了系 統(tǒng)開銷。傳統(tǒng)的表情分類方法有 Bayes 分類算法、隱馬爾可 夫模型、支持向量機 SVM 模型。傳統(tǒng)算法模型計算速度快, 但精度不高,因此在科研機構中主要為深度學習方法,CNN 與 DBN 這類算法訓練出的模型識別精度高,速率快,但訓練 需要使用 GPU 等硬件加速,訓練時更需要大量的表情庫,訓 練周期長,難以在高??蒲袡C構以外的場所進行研發(fā)和使用。

綜上所述,人臉表情識別這一課題已經(jīng)擁有了較成熟的 研究成果,但缺點依然存在,需要不同算法取長補短,如將 深度學習與傳統(tǒng)算法結合等,算法的改進仍然是一個漫長的 探索實踐過程。




本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或將催生出更大的獨角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉