交大教授訓(xùn)練機(jī)器通過(guò)面部識(shí)別罪犯 準(zhǔn)確率達(dá)到86%以上
上海交通大學(xué)的武筱林教授和他的博士生張熙近期完成了一項(xiàng)研究,他們發(fā)現(xiàn),通過(guò)學(xué)習(xí),機(jī)器可以通過(guò)照片分辨出誰(shuí)是罪犯,誰(shuí)是守法公民,識(shí)別準(zhǔn)確率在86%以上。
這篇論文題為《基于面部圖像的自動(dòng)犯罪概率推斷》(Automated Inference on Criminality using Face Images),目前上傳在預(yù)印本網(wǎng)站arXiv上。他們運(yùn)用計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)技術(shù)檢測(cè)1856張中國(guó)成年男子面部照片,其中將近一半是已經(jīng)定罪的罪犯。實(shí)驗(yàn)結(jié)果顯示,通過(guò)機(jī)器學(xué)習(xí),分類(lèi)器可以以較高概率區(qū)分罪犯與非罪犯這兩個(gè)群體的照片。特別是在內(nèi)眼角間距、上唇曲率和鼻唇角角度這三個(gè)測(cè)度上,罪犯和非罪犯存在較為顯著的差距。平均來(lái)講,罪犯的內(nèi)眼角間距要比普通人短5.6%,上唇曲率大23.4%,鼻唇角角度小19.6%。同時(shí),他們發(fā)現(xiàn)罪犯間的面部特征差異要比非罪犯大。
從古至今,從西方到東方,我們都能看到類(lèi)似于“相由心生”的說(shuō)法。但不論是相士或是從事相應(yīng)研究的心理學(xué)家,都始終擺脫不了“迷信”或“歧視”的帽子。武筱林和張熙出于好奇,試圖利用數(shù)據(jù)分析推翻這門(mén)古老的“偽科學(xué)”,但研究出來(lái)的結(jié)果令他們大吃一驚。更令他們始料未及的是,文章一經(jīng)公開(kāi),就招來(lái)了漫天爭(zhēng)議。
武筱林11月30日告訴澎湃新聞,他收到了很多郵件,雖然絕大部分是國(guó)際上的研究者來(lái)信索取數(shù)據(jù)和實(shí)驗(yàn)細(xì)節(jié),進(jìn)行學(xué)術(shù)層面的交流,但也有不少不友好的評(píng)論,甚至指責(zé)他的研究是對(duì)社會(huì)“不負(fù)責(zé)任”。
武筱林
“我們的運(yùn)氣也不好,文章剛出來(lái)的時(shí)候正好是特朗普當(dāng)選前后。有來(lái)自美國(guó)的郵件說(shuō),‘美國(guó)現(xiàn)在已經(jīng)一團(tuán)糟了,你們就別添亂了’。 ”也有人直接建議武筱林撤稿。對(duì)于被貼上“歧視”的標(biāo)簽,武筱林有些惱火,他強(qiáng)調(diào),他個(gè)人的價(jià)值觀絕對(duì)是反歧視的,而他做這個(gè)研究的原本目的是證偽。
此外,他也收到了一些令人哭笑不得的評(píng)論,比如有的網(wǎng)友想讓他把這個(gè)東西交給紀(jì)檢委使用。
武筱林告訴澎湃新聞,他目前還是打算專(zhuān)心把這個(gè)工作進(jìn)一步做得更嚴(yán)謹(jǐn)、更充分,這項(xiàng)研究的成熟程度離應(yīng)用還很遙遠(yuǎn),他們目前也沒(méi)有任何走向應(yīng)用的打算。
“從另一個(gè)角度講,我們的研究也可能為反歧視提供依據(jù)”。但他也坦言, 人工智能研究應(yīng)如何劃定價(jià)值倫理的禁區(qū),是個(gè)很?chē)?yán)肅的問(wèn)題,光憑他個(gè)人難以回答。
“現(xiàn)在世界范圍里都存在這樣的爭(zhēng)論,人工智能已經(jīng)發(fā)展到這一步了。”
那么,武筱林和張熙的這項(xiàng)研究,到底是怎么進(jìn)行的呢? 通過(guò)學(xué)習(xí),機(jī)器辨認(rèn)出罪犯照片的準(zhǔn)確率在86%以上實(shí)驗(yàn)選取了1856張中國(guó)18到55歲男性的照片,面部無(wú)毛發(fā)遮擋、無(wú)傷疤或其他標(biāo)記,并將它們歸為罪犯組和非罪犯組。非罪犯組包含1126張用“網(wǎng)頁(yè)蜘蛛”從互聯(lián)網(wǎng)上抓取的照片,人群來(lái)自社會(huì)各行各業(yè):服務(wù)員、建筑工人、司機(jī)、醫(yī)生、律師、教授等。罪犯組共730張照片,其中330張來(lái)自公安部或省級(jí)公安廳的通緝令,400張由一所與實(shí)驗(yàn)組達(dá)成保密協(xié)議的公安局提供。在這730名罪犯中,235名涉及暴力犯罪,包括謀殺、強(qiáng)奸、人身侵犯、綁架和搶劫,其余則犯下了偷竊、欺詐、貪污等非暴力罪行。所有照片都被調(diào)整為80cmX80cm大小,并對(duì)亮度和灰比都進(jìn)行了控制,盡量避免對(duì)結(jié)果造成影響。
研究使用的照片樣本。a組為罪犯,b組為非罪犯。
實(shí)驗(yàn)用4種分類(lèi)器(邏輯回歸,KNN,SVM,CNN)對(duì)樣本進(jìn)行檢測(cè),發(fā)現(xiàn)它們都能較成功地對(duì)罪犯和非罪犯組進(jìn)行分類(lèi),準(zhǔn)確率在86%以上。
4種分類(lèi)器的準(zhǔn)確率。
武筱林和張熙進(jìn)一步發(fā)現(xiàn),罪犯和非罪犯在面部特征方面最顯著的差別在內(nèi)眼角間距、上唇曲率和鼻唇角角度這三個(gè)測(cè)度上。平均來(lái)講,罪犯的內(nèi)眼角間距要比普通人短5.6%,上唇曲率大23.4%,鼻唇角角度小19.6%。
圖b標(biāo)注了存在差異性的3個(gè)特征點(diǎn)。表4為罪犯組和非罪犯組在3個(gè)特征點(diǎn)上的平均值和偏離值。
最后,他們發(fā)現(xiàn)計(jì)算機(jī)模擬出來(lái)的罪犯和非罪犯的“平均臉”比較相似,但罪犯間的面部特征差異要比非罪犯大。也就是,非罪犯群體間彼此長(zhǎng)得更為相似,變化幅度更小。
圖c為模擬出來(lái)的罪犯“平均臉”。圖d為非罪犯“平均臉”。
“顱相學(xué)”、“天生犯罪人”:沉睡2個(gè)世紀(jì)的研究許多研究者一看到武筱林的研究成果,就立馬聯(lián)想到了西方18、19世紀(jì)一度盛行的“顱相學(xué)”和“天生犯罪人”理論。
1870年,意大利監(jiān)獄醫(yī)生龍勃羅梭打開(kāi)了意大利著名土匪頭子維萊拉尸體的頭顱,發(fā)現(xiàn)其頭顱枕骨部位有一個(gè)明顯的凹陷處,它的位置如同低等動(dòng)物一樣。這一發(fā)現(xiàn)觸發(fā)了他的靈感,他由此提出“天生犯罪人”理論,認(rèn)為犯罪人在體格方面異于非犯罪人,并認(rèn)為犯罪人是一種返祖現(xiàn)象,具有許多低級(jí)原始人的特性。同時(shí),他認(rèn)為犯罪具有遺傳性。
龍勃羅梭的理論帶有很大的歧視性色彩,一經(jīng)發(fā)表就遭到各方抨擊。此外,由于龍勃羅梭的研究缺乏數(shù)據(jù)支持,也一直被當(dāng)作偽科學(xué)對(duì)待。
龍勃羅梭《犯罪人論》。
此后,反歧視的價(jià)值倫理在西方社會(huì)得到了進(jìn)一步發(fā)展,關(guān)于外表和犯罪性的研究也逐漸沉寂。直到2011年,美國(guó)康奈爾大學(xué)的一個(gè)心理學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)人們僅通過(guò)觀察一個(gè)人的照片判斷他是不是罪犯的成功率相當(dāng)高。
“我也認(rèn)真讀過(guò)2011年他們的研究”,武筱林說(shuō)道,“但他們采取的是傳統(tǒng)心理學(xué)的試驗(yàn)方法。MIT Technology Review說(shuō),我們是在這個(gè)研究方向走出了新的一步,用數(shù)據(jù)說(shuō)話。”
原本打算證偽,第一反應(yīng)很吃驚關(guān)于“顱相學(xué)”和“天生犯罪人”理論,武筱林坦言,“不管是從主流科學(xué)界的觀點(diǎn),還是從我個(gè)人的價(jià)值觀、個(gè)人的直覺(jué),我一開(kāi)始都覺(jué)得這是不靠譜的。”而他認(rèn)為,像康奈爾大學(xué)的心理學(xué)家們那樣采用傳統(tǒng)實(shí)驗(yàn)方法,以人為試驗(yàn)者,不可避免帶有主觀偏見(jiàn),也會(huì)出現(xiàn)生理上的疲勞,因此他想到運(yùn)用計(jì)算機(jī)進(jìn)行數(shù)據(jù)分析,在定量層面上進(jìn)行證偽。
但出來(lái)這樣的結(jié)果,武筱林感到很吃驚。他們?cè)缭谝荒昵熬腿〉昧私Y(jié)果,但遲遲不肯發(fā)表,而是反復(fù)交叉驗(yàn)證,但始終沒(méi)有推翻原始的結(jié)論。
比如,在他們11月21日上傳的第二版論文里,他們就作了一些修改。由于有人提出,罪犯的照片是由警察提供的,而警察使用的照相機(jī)可能在信號(hào)上與其它相機(jī)不同,他們故意在照片的光學(xué)信號(hào)上加了很多噪音,以淹沒(méi)不同相機(jī)信號(hào)上的差異。但之前的結(jié)論依然成立,分類(lèi)器仍有75%以上的準(zhǔn)確率。此外,他們特地重新核實(shí)了犯罪者照片的拍攝情況,證實(shí)都是普通證件照片,而非被捕后拍攝的。
“所有算法出來(lái)的結(jié)果都相當(dāng)一致,從技術(shù)層面來(lái)講可靠性很高。”
“我是來(lái)敦促你撤稿的”外表與犯罪性的關(guān)聯(lián)研究似乎是個(gè)潘多拉魔盒,在沉睡了200多年后打開(kāi),一樣會(huì)遭受紛至沓來(lái)的批評(píng)。
此前,武筱林也曾向媒體展示了幾封他收到的措辭強(qiáng)硬的郵件。
一名留學(xué)在外的上海交大校友寫(xiě)到,“我建議你撤銷(xiāo)這篇論文,并且上傳一封公告,為不恰當(dāng)?shù)难芯糠椒ㄖ虑浮?rdquo;理由是“這篇論文充滿了極度的歧視和強(qiáng)烈的誤導(dǎo)。我們?nèi)斯ぶ悄茴I(lǐng)域的研究者不應(yīng)當(dāng)濫用技術(shù),去做一些違反倫理的事情”。
這名來(lái)信者還特別強(qiáng)調(diào):“這篇論文給上海交大的聲譽(yù)帶來(lái)了很糟糕的影響。這對(duì)那些申請(qǐng)美國(guó)高校的上海交大學(xué)子來(lái)說(shuō),將會(huì)是一場(chǎng)災(zāi)難。”
另一封信則來(lái)自美國(guó)康奈爾大學(xué)的科研同行:“我是來(lái)敦促你撤稿的,因?yàn)檫@是一項(xiàng)可恥的工作。我們無(wú)法選擇自己的唇部弧度、眼間距和所謂的鼻唇角角度。但犯罪者的問(wèn)題在于行為,而不是長(zhǎng)相。”
外網(wǎng)上也有一些不友好的聲音。Hacker News的一位用戶說(shuō)道,“我看摘要的時(shí)候還以為這是在開(kāi)玩笑,讀下去竟然是篇認(rèn)真的論文。不過(guò)這種研究需要犯罪學(xué)、心理學(xué)和機(jī)器學(xué)習(xí)方面的專(zhuān)家,而不是隨便兩個(gè)懂Keras的人。”
有些數(shù)據(jù)隱私方面的專(zhuān)家也指出,“從這么小的數(shù)據(jù)樣本里得到這么普遍性的結(jié)論,會(huì)給廣大無(wú)辜群眾帶來(lái)大麻煩的。”
國(guó)際隱私保護(hù)組織的Richard Tynan博士認(rèn)為,“作為一個(gè)個(gè)體,你不可能知道機(jī)器是怎么給你下定論的。在小數(shù)據(jù)集上,算法、人工智能和機(jī)器學(xué)習(xí)可能會(huì)建立起專(zhuān)斷荒唐的相關(guān)性。這不是機(jī)器的錯(cuò),把復(fù)雜系統(tǒng)運(yùn)用在不合適的地方是很危險(xiǎn)的。”
“我們的研究也可以是反相貌歧視的依據(jù)”對(duì)于被貼上各種不友好的標(biāo)簽,武筱林感到有些惱火。他講道,“我個(gè)人價(jià)值觀其實(shí)是反歧視的。比如有些招工廣告公開(kāi)要求容貌姣好,我是非常反對(duì)的。”
同時(shí),他強(qiáng)調(diào)在科學(xué)上相關(guān)和因果是兩回事。“罪犯趨向有這些臉部特征,也只能說(shuō)兩者之間有相關(guān)性,并沒(méi)有說(shuō)明里面存在因果關(guān)系。不是說(shuō)長(zhǎng)得一樣就是犯罪,不是說(shuō)天生一張犯罪臉。”
“我們只是發(fā)現(xiàn)了統(tǒng)計(jì)上容貌和有些社會(huì)行為之間存在相關(guān)性。我們不關(guān)心也不可能去討論里面的因果邏輯——也許有,也許沒(méi)有——但我們不是這方面的專(zhuān)家,沒(méi)有這方面的知識(shí)、訓(xùn)練、經(jīng)驗(yàn)去做這個(gè)事情。”
從因果上來(lái)講,也可能有這樣一種解釋?zhuān)阂驗(yàn)橛行┤碎L(zhǎng)得異樣,可能受到歧視和排擠,更容易走上犯罪道路。“所以我們的研究也可以是反相貌歧視的依據(jù)”。
“核物理學(xué)家該為原子彈造成的傷害負(fù)責(zé)嗎?”但當(dāng)澎湃新聞問(wèn)及該如何看待社會(huì)倫理價(jià)值和科研之間的關(guān)系時(shí),武筱林坦言這個(gè)問(wèn)題很?chē)?yán)肅也很復(fù)雜,他個(gè)人也難以回答。
“為了人類(lèi)社會(huì)更高的利益,是不是科學(xué)家要自律一點(diǎn),而不是說(shuō)求知求真者無(wú)罪,這個(gè)爭(zhēng)議在世界范圍內(nèi)已經(jīng)開(kāi)始了,人工智能已經(jīng)到這一步了。是不是就會(huì)有一些禁區(qū),研究者不能去碰它,坦白講我不知道。”
“核物理學(xué)家該為原子彈造成的傷害負(fù)責(zé)嗎?”這是武筱林拋回給澎湃新聞的疑問(wèn)。
目前,武筱林不想受到一些非理性的討論的干擾。他還在緊張地完善這個(gè)實(shí)驗(yàn),因?yàn)榕u(píng)者主要指出他們的樣本量不夠。“我們用的是深度學(xué)習(xí),深度學(xué)習(xí)現(xiàn)在也很時(shí)髦,比如谷歌(微博)的阿爾法GO,它需要大量的樣本數(shù)據(jù)。由于隱私問(wèn)題,我們的數(shù)據(jù)還是不夠大,盡管在已經(jīng)發(fā)表的文章里已經(jīng)算很大了,但對(duì)深度學(xué)習(xí)來(lái)講還是不夠的。”
在經(jīng)過(guò)完善后,他們計(jì)劃將文章投到計(jì)算機(jī)視覺(jué)領(lǐng)域的頂級(jí)國(guó)際會(huì)議上去,并投向《自然》、《科學(xué)》這樣的頂級(jí)學(xué)術(shù)期刊。但現(xiàn)在武筱林也在擔(dān)心,公眾輿論是否會(huì)影響到學(xué)術(shù)界對(duì)他們研究成果的接受程度。
他期待能有更多在學(xué)術(shù)上理性交流的聲音,哪怕是用數(shù)據(jù)推翻他們的結(jié)論。武筱林透露,這個(gè)領(lǐng)域有很大的拓展空間,目前有一些國(guó)際上的同行在做類(lèi)似的題目,這也是他們提前將文章放上arXiv的原因,以保護(hù)優(yōu)先權(quán)。
“大眾積極的關(guān)注對(duì)我們的方向是好事,但不能誤判誤讀。我們的研究沒(méi)有得到任何私人或者司法部門(mén)的支持,也沒(méi)有任何的商業(yè)目的。”