人工智能與安防 情感計算是在安防領(lǐng)域具有廣泛的應(yīng)用前景
人工智能期望計算機系統(tǒng)能夠履行人類智慧能夠完成的任務(wù),這里的人類智慧包括智力和情感。智力計算已經(jīng)在多個領(lǐng)域獲得了規(guī)模應(yīng)用,而情感計算卻在很長一段時間內(nèi)獨立于AI領(lǐng)域之外。早在1997年Rosalind Picard就提出了“情感計算”的理論,2014年被應(yīng)用于俄羅斯冬奧會之后,情感識別技術(shù)更是受到了國際組織的高度重視,被視為繼指紋、聲紋、人臉之后的公共安全高級應(yīng)用。
情感計算的原理與模型
情感計算研究的重點在于通過各種傳感器采集由人的情感所引起的生理及行為特征信號,建立“情感模型”,從而獲得感知、識別和理解人類情感的能力,并進(jìn)而做出針對性的智能、靈敏、友好的反應(yīng)。情感計算可分為四個過程:情感信息采集、情感識別分析、情感理解認(rèn)知、情感信息表達(dá)。
情感雖是一種內(nèi)部的主觀體驗,但總伴隨著某些表現(xiàn)形式,包括面部表情(面部肌肉變化形成的模式)、語音表情(言語的聲調(diào)、節(jié)奏和速度等方面的變化)、姿態(tài)表情(身體其他部分的表情動作)、生理情感和文本情感等。
面部表情
面部表情是鑒別人類情感的主要標(biāo)志。通過研究人員面部的微小表情變化,AI系統(tǒng)可以識別其面容背后的情感活動。例如區(qū)分真笑和假笑:人在真笑時面頰上升,眼周圍的肌肉堆起;而人在假笑時僅有嘴唇的肌肉活動,下顎下垂。通過臉部不同運動單元的組合,可以在臉部形成復(fù)雜的表情變化,譬如幸福、憤怒、悲傷等。
語音表情
語音是人際交往最直接的交流途徑。語音表情是通過語音的高低、強弱、抑揚頓挫來表達(dá)說話人的情感。一句“你真行!”,既可以表示贊賞,也可能表示諷刺。語音中的情感特征往往通過語音韻律的變化表現(xiàn)出來,例如當(dāng)人發(fā)怒時,講話的速率可能變快、音量變大、音調(diào)變高等,也可以同時通過一些音素特征,例如共振峰、聲道截面等表現(xiàn)出來。
姿態(tài)表情
姿態(tài)表情一般伴隨著交互過程而發(fā)生變化,表達(dá)了潛在的情感信息。例如,一個手勢的加強通常反映了一種強調(diào)的心態(tài),而其身體某一部位不停地擺動則通常反映其情緒的緊張。人類姿態(tài)的變化使情感表述更加生動。相對于面部表情和語調(diào)表情,姿態(tài)表情會使情感表述更加生動,是當(dāng)前情感計算的研究熱點。
生理情感
生理表情是通過人類生理細(xì)微變化,觀察多種情緒的特定波動變化的模式(如心電圖、電皮膚活動等),識別人們思想情緒的變化。例如當(dāng)人們感受到壓力而緊張或有不良企圖以致情緒亢奮時,身體交感神經(jīng)就會啟動相關(guān)必要的機能,例如心跳加速、血壓上升、呼吸變快、體溫增高,乃至于肌肉皮膚顫動等生理變化。
文本情感
文本情感分析是通過挖掘與分析文本中的觀點、看法、情緒及好惡等主觀信息,對文本中詞、句和篇章的情感色彩做出判斷。比如一個人說“桌子上有一層灰”,這沒有任何情感詞,但實際上已經(jīng)表達(dá)了他的不滿。再比如,“從下單到收貨不到24小時”表明他稱贊快遞速度很快。
情感狀態(tài)的識別和理解,是賦予系統(tǒng)理解人類的情感,并做出合適預(yù)警的關(guān)鍵步驟。為了使計算機更好地完成情感識別任務(wù),科學(xué)家已經(jīng)對人類的情感狀態(tài)進(jìn)行了合理而清晰的分類。目前,在情感識別和理解的方法上運用了模式識別、人工智能、語音和圖像技術(shù)的大量研究成果。例如,在情感語音的聲學(xué)分析基礎(chǔ)上,運用線性統(tǒng)計方法和神經(jīng)網(wǎng)絡(luò)模型,實現(xiàn)了基于語音的情感識別原型;通過對面部運動區(qū)域進(jìn)行編碼,采用HMM等模型,建立了面部情感特征的識別方法;通過對人姿態(tài)和運動的分析,探索肢體運動的情感類別等等。
情感計算的研究現(xiàn)狀與成果
情感計算是一個高度綜合化的技術(shù)領(lǐng)域。截至目前,有關(guān)研究已經(jīng)在人臉表情、語音理解、姿態(tài)分析和多模態(tài)的情感識別方面獲得了一定的進(jìn)展。
臉部表情
國際著名心理學(xué)家Paul Ekman和研究伙伴W.V.Friesen對人臉面部表情作了深入的研究,通過觀察和生物反饋,于1976年描繪出了不同的臉部肌肉動作和不同表情的對應(yīng)關(guān)系,即面部表情編碼系統(tǒng)FACS。FACS根據(jù)人臉的解剖學(xué)特點,將人臉劃分成若干既相互獨立又相互聯(lián)系的運動單元,分析了這些運動單元的運動特征及其所控制的主要區(qū)域以及與之相關(guān)的表情,并給出了大量的照片說明。FACS是如今面部表情的肌肉運動的權(quán)威參照標(biāo)準(zhǔn),也被心理學(xué)家和動畫片繪畫者使用。
為滿足視頻信息傳輸?shù)男枰?,人們進(jìn)一步將人臉識別和合成的工作融入到視頻圖像編解碼之中。典型如MPEG4 V2視覺標(biāo)準(zhǔn),其中定義了3個重要的參數(shù)集:人臉定義參數(shù)、人臉內(nèi)插變換和人臉動畫參數(shù)。
當(dāng)前人臉表情處理技術(shù)研究的熱點多側(cè)重于對三維圖像的更加細(xì)致的描述和建模。通常采用復(fù)雜的紋理和較細(xì)致的圖形變換算法,達(dá)到生動的情感表達(dá)效果。在此基礎(chǔ)上,不同的算法形成了不同水平的應(yīng)用系統(tǒng)。
語音理解
目前,國際上對情感語音的研究主要側(cè)重于情感的聲學(xué)特征的分析。中國科學(xué)院自動化研究所模式識別國家重點實驗室的專家們針對語言中的焦點現(xiàn)象,首先提出了情感焦點生成模型。這為語音合成中情感狀態(tài)的自動預(yù)測提供了依據(jù),結(jié)合高質(zhì)量的聲學(xué)模型,使得情感語音合成和識別達(dá)到了實用水平。
姿態(tài)變化
針對肢體運動,科學(xué)家專門設(shè)計了一系列運動和身體信息捕獲設(shè)備,例如運動捕獲儀、數(shù)據(jù)手套、智能座椅等。國外一些著名的大學(xué)和跨國公司,例如麻省理工學(xué)院、IBM等則在這些設(shè)備的基礎(chǔ)上構(gòu)筑了智能空間。也有人將智能座椅應(yīng)用于汽車的駕座上,用于動態(tài)監(jiān)測駕駛?cè)藛T的情緒狀態(tài),并提出適時警告。意大利的一些科學(xué)家還通過一系列的姿態(tài)分析,對辦公室的工作人員進(jìn)行情感自動分析,設(shè)計出更舒適的辦公環(huán)境。
生理識別
不同的生理信號的特征模式也是情感識別的重要依據(jù)之一。 人的生理信號比起面部表情和語音,識別難度更大,所以目前生理模式的情感識別研究還處于初級階段。哪些信號可以轉(zhuǎn)化為情感參數(shù)、信號各個方面的權(quán)重、比例應(yīng)該是多少,這些都還需要進(jìn)行進(jìn)一步的研究和探索。
文本情感計算
文本情感計算是自然語言處理的一個研究分支,其工作展開的關(guān)鍵在于情感特征提取和情感分類方法的不斷進(jìn)步優(yōu)化。盡管經(jīng)過了大量研究,文本情感計算取得了很大的進(jìn)展,但整體仍處于探索階段,存在一些亟待解決和研究的問題:缺乏規(guī)范統(tǒng)一的實驗語料和詞典。目前針對語言規(guī)律和句子語義成分的分析問題,還沒有成熟的解決方案。
多模態(tài)的情感計算
雖然人臉、語音、姿態(tài)、生理、文本均能獨立地表示一定的情感,但只有實現(xiàn)多通道的情感信息采集,才能實現(xiàn)完整的情感識別。這通常要求系統(tǒng)集自然語言、語音、手語、人臉、唇讀、頭勢、體勢等多種交流通道于一體,進(jìn)行綜合的采集、分析和識別。
目前,多模態(tài)技術(shù)正在成為情感計算的研究熱點,實現(xiàn)情感的多特征融合,能夠有力地提高情感計算的研究深度。美國麻省理工學(xué)院、日本東京科技大學(xué)、美國卡內(nèi)基·梅隆大學(xué)均在情感機器人和情感虛擬人的研究領(lǐng)域做出了較好的演示系統(tǒng)。中科院自動化所模式識別國家重點實驗室也已將情感處理融入到了多模態(tài)交互平臺中,結(jié)合情感語音合成、人臉建模等技術(shù),構(gòu)筑了栩栩如生的情感虛擬頭像。
情感計算的安防應(yīng)用前景
情感計算在安防領(lǐng)域具有廣泛的應(yīng)用前景。計算機通過對人類面部表情、語音表情、姿態(tài)表情、生理表情和文本情感的獲取、分類和識別,可以及時獲取目標(biāo)對象的情感變化,并對異常危險行為提出預(yù)警,實施相應(yīng)的應(yīng)對措施。