人臉識(shí)別技術(shù)的真相是什么
人臉識(shí)別是機(jī)器學(xué)習(xí)的直接應(yīng)用,這項(xiàng)技術(shù)已經(jīng)被消費(fèi)者、行業(yè)和執(zhí)法機(jī)關(guān)廣泛采用,它可能為我們的日常生活帶來(lái)了便利,但也有嚴(yán)重的隱私問(wèn)題。人臉識(shí)別已經(jīng)超過(guò)了人類的工作效率,但是,在某些應(yīng)用中實(shí)際實(shí)現(xiàn)時(shí)還存在問(wèn)題。
立足于九十年代MIT的Eigenfaces方法,人臉識(shí)別第一次成功的大規(guī)模實(shí)現(xiàn)是2014年Facebook的DeepFace項(xiàng)目,準(zhǔn)確性在實(shí)驗(yàn)室條件下達(dá)到了人類水平。從2014年開始,更大的訓(xùn)練數(shù)據(jù)集、GPU以及神經(jīng)網(wǎng)絡(luò)架構(gòu)的快速發(fā)展進(jìn)一步提高了人臉識(shí)別在通向現(xiàn)實(shí)世界可靠應(yīng)用的更為豐富的上下文中的效率。
人臉識(shí)別的應(yīng)用可以分類兩類:身份驗(yàn)證和識(shí)別。這兩種場(chǎng)景起初都會(huì)把一組已知的主體注冊(cè)到系統(tǒng)中(圖庫(kù)),在測(cè)試期間,提供一個(gè)新的主體(測(cè)試圖像)。人臉驗(yàn)證會(huì)計(jì)算圖庫(kù)和測(cè)試圖像之間一對(duì)一的相似性,從而確定兩副圖像是否是相同的主體。例如,iPhone X基于人臉的登錄功能或者機(jī)場(chǎng)的邊境檢查就是使用了這樣的生物特征身份認(rèn)證解決方案。目前,HSBC和Ticketmaster都考慮在他們的移動(dòng)應(yīng)用程序中使用人臉驗(yàn)證。另一方面,人臉識(shí)別計(jì)算一對(duì)多的相似性,從而在預(yù)先做好識(shí)別的人物圖庫(kù)中正確地識(shí)別出測(cè)試圖像。它的主要應(yīng)用是把未標(biāo)記的照片和已知的資料進(jìn)行匹配。其中,執(zhí)法機(jī)關(guān)會(huì)使用這項(xiàng)技術(shù)從人群中識(shí)別出他們感興趣的人。
人臉識(shí)別技術(shù)還可以用于推斷人的特征和行為,如情緒、年齡或健康狀況。斯坦福大學(xué)最近一項(xiàng)頗具爭(zhēng)議的研究表明,基于一個(gè)從TInder抽取的數(shù)據(jù)集,使用人臉?lè)治龇椒A(yù)測(cè)一個(gè)人的性取向時(shí)準(zhǔn)確率可達(dá)81%。
全球人臉識(shí)別市場(chǎng)主要在消費(fèi)品、工業(yè)應(yīng)用和執(zhí)法三個(gè)領(lǐng)域,據(jù)Allied Market Research和Report Buyer介紹,到2022年,這個(gè)市場(chǎng)有望達(dá)到90億美元。生物識(shí)別解決方案市場(chǎng)的主要參與者包括Safran(FR)、NEC CorporaTIon(JA)、Cognitec(DE)和Face++(CH)。
但是,人臉識(shí)別是一種不同于其他技術(shù)的生物識(shí)別工具。喬治敦隱私&技術(shù)法律中心執(zhí)行董事、人臉識(shí)別專家Alvaro Bedoya在近日接受USA Today采訪時(shí)說(shuō),“你可以刪除cookies。你可以修改瀏覽器設(shè)置。你可以把手機(jī)忘家里,但你不能刪除你的臉,你不能把它忘家里”。人臉識(shí)別是一種不需要同意的生物認(rèn)證工具。
越來(lái)越多的公民自由和隱私協(xié)會(huì)指出人臉識(shí)別的使用存在違反公民自由和隱私的危險(xiǎn),包括ACLU、人權(quán)觀察、電子前線基金會(huì)以及英國(guó)的老大哥觀察。有40家協(xié)會(huì)在一封給Amazon的、有關(guān)人臉識(shí)別系統(tǒng)RekogniTIon的郵件上簽名,要求Amazon不再允許政府使用AWS RekogniTIon。2016年,作為Amazon Web Services云業(yè)務(wù)的一部分,Amazon推出了Rekognition。Facebook在加利福尼亞州也面臨著一場(chǎng)根據(jù)生物信息隱私法案提起的針對(duì)其使用人臉識(shí)別的集體訴訟。在谷歌上搜索“Facebook Face Recognition”,第一頁(yè)的前10個(gè)結(jié)果中,有6個(gè)是關(guān)于關(guān)閉人臉識(shí)別特性,這可以說(shuō)明人們對(duì)這項(xiàng)技術(shù)的廣泛質(zhì)疑。
這項(xiàng)技術(shù)已經(jīng)發(fā)展了好多年,在標(biāo)準(zhǔn)訓(xùn)練集上得分很高。不過(guò),現(xiàn)實(shí)環(huán)境會(huì)帶來(lái)一些特殊的挑戰(zhàn)。例如,由于姿勢(shì)的原因,一個(gè)人臉部的差別可能比不同人臉部的差別還要大。光照、表情、年齡和眼鏡、帽子等遮擋物的差異也會(huì)妨礙識(shí)別。我們并不是總能獲得主體的正面照,使用其他角度的照片會(huì)讓處理過(guò)程增加額外的校準(zhǔn)步驟。英國(guó)大都會(huì)警察局最近在節(jié)日期間使用人臉識(shí)別的情況就可以說(shuō)明在現(xiàn)場(chǎng)人群中推廣實(shí)驗(yàn)室實(shí)驗(yàn)還存在困難,超過(guò)95%的匹配都是誤報(bào)。
可靠起見(jiàn),人臉識(shí)別需要大型的訓(xùn)練數(shù)據(jù)集和強(qiáng)大的匹配模型。谷歌和Facebook利用人們上傳到其平臺(tái)的照片構(gòu)造了大型的專有數(shù)據(jù)集。也有開源的大型數(shù)據(jù)集可供使用。Wild中的Labeled Faces(LFW)于2007年發(fā)布,其中包含6000人的13000張正面圖像。MS-Celeb-1M是當(dāng)前最大的名人人臉識(shí)別公共數(shù)據(jù)集,其中包含10K名頂級(jí)知名人士的10M圖像,而MegaFace的訓(xùn)練集中包含670K不同個(gè)體的4.7M照片和1M的干擾項(xiàng)。
一般來(lái)說(shuō),人臉識(shí)別分為三個(gè)步驟:定位、標(biāo)準(zhǔn)化和識(shí)別。系統(tǒng)首先會(huì)定位圖像中的人臉并探明輪廓。標(biāo)準(zhǔn)化是調(diào)整原始照片,使它接近于正面版本。然后,人臉識(shí)別模塊會(huì)作用于這些經(jīng)過(guò)重定位的人臉。標(biāo)準(zhǔn)化步驟有一種變體,為了模擬不同的姿勢(shì),它會(huì)通過(guò)生成正面照的多種表示來(lái)擴(kuò)大目標(biāo)空間。從2D圖像重構(gòu)出3D模型,生成姿勢(shì)的各種變化,然后重新投射到各種2D的變化,就是這種增強(qiáng)技術(shù)的一個(gè)例子。
從90年代開始,人臉識(shí)別就已經(jīng)不再以手工創(chuàng)建的局部特征為基礎(chǔ),而是轉(zhuǎn)而使用深度學(xué)習(xí)模型。Facebook的Deepface模型是在LFW數(shù)據(jù)集上訓(xùn)練的,這是第一個(gè)達(dá)到人類效率的模型。經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)(CNN)和架構(gòu),如AlexNet、VGGNet、GoogleNet和ResNet,被廣泛地用作人臉識(shí)別的基線模型。后來(lái),這些模型被用于專門為促進(jìn)識(shí)別和泛化而設(shè)計(jì)有激活函數(shù)和損失函數(shù)的人臉識(shí)別。Face++、MegaFace、FaceNet是其他一些專門設(shè)計(jì)用來(lái)人臉識(shí)別的神經(jīng)網(wǎng)絡(luò)模型。
當(dāng)前,人臉識(shí)別面臨的挑戰(zhàn)包括實(shí)現(xiàn)不同姿勢(shì)、不同年齡人臉變體識(shí)別的健壯性、使用“照片簡(jiǎn)圖(photo-sketches)”代替真正的照片、處理低分辨率照片、識(shí)別遮擋、彩妝及欺騙技術(shù)。