自動(dòng)化在人臉識(shí)別研究中取得進(jìn)展
些年得益于網(wǎng)絡(luò)架構(gòu)、訓(xùn)練策略以及人臉數(shù)據(jù)的發(fā)展,人臉識(shí)別技術(shù)取得了巨大的提升,越來(lái)越多地被推廣到安防領(lǐng)域,延伸出考勤機(jī)、門(mén)禁機(jī)等多種產(chǎn)品,產(chǎn)品系列達(dá)20多種類(lèi)型,可以全面覆蓋煤礦、樓宇、銀行、軍隊(duì)、社會(huì)福利保障、電子商務(wù)及安全防務(wù)等領(lǐng)域,人臉識(shí)別的全面應(yīng)用時(shí)代已經(jīng)到來(lái)。
然而,現(xiàn)有方法主要關(guān)注自然環(huán)境下的人臉識(shí)別,其訓(xùn)練數(shù)據(jù)大都從網(wǎng)絡(luò)上收集而來(lái),一般只包含中等量級(jí)的人數(shù)(約10萬(wàn)人),但每類(lèi)平均樣本數(shù)很多(多于20個(gè))。然而,實(shí)際應(yīng)用中的人臉識(shí)別系統(tǒng)通常只能獲取2張圖像,一張證件照,一張現(xiàn)場(chǎng)照。同時(shí),系統(tǒng)需要面對(duì)的人臉個(gè)體數(shù)量可達(dá)到上百萬(wàn)甚至是千萬(wàn)級(jí)。因此,實(shí)際中人臉數(shù)據(jù)庫(kù)通常具有海量類(lèi)別,但每類(lèi)只有2個(gè)樣本,一般被稱(chēng)之為大規(guī)模雙樣本問(wèn)題。
現(xiàn)有方法在訓(xùn)練這種數(shù)據(jù)時(shí)會(huì)遇到巨大的挑戰(zhàn),例如類(lèi)內(nèi)變化不足使得訓(xùn)練難以收斂以及海量樣本數(shù)對(duì)計(jì)算設(shè)備的極端要求。為此,中國(guó)科學(xué)院自動(dòng)化研究所針對(duì)真實(shí)場(chǎng)景下的人證核驗(yàn)問(wèn)題,提出了基于深度學(xué)習(xí)的大規(guī)模雙樣本學(xué)習(xí)方法,解決了雙樣本數(shù)據(jù)帶來(lái)的類(lèi)內(nèi)變化不足問(wèn)題和海量樣本數(shù)計(jì)算壓力大的問(wèn)題。
目前,深度學(xué)習(xí)在人臉識(shí)別界具有統(tǒng)治地位,基于分類(lèi)的訓(xùn)練方法是主流,其將每個(gè)人當(dāng)作獨(dú)立的類(lèi)別,并使用softmax進(jìn)行分類(lèi)訓(xùn)練。近兩年SphereFace,CosFace以及InsightFace進(jìn)一步引入了邊界裕量(margin)來(lái)提高識(shí)別網(wǎng)絡(luò)的可擴(kuò)展性,在公開(kāi)測(cè)試集上取得了領(lǐng)先性能。然而,softmax的計(jì)算消耗與類(lèi)別數(shù)直接相關(guān)。在實(shí)際應(yīng)用中,百萬(wàn)類(lèi)甚至千萬(wàn)類(lèi)的分類(lèi)會(huì)對(duì)訓(xùn)練平臺(tái)產(chǎn)生極大壓力,普通訓(xùn)練平臺(tái)(如8卡TITANX)甚至無(wú)法訓(xùn)練,給主流方法的應(yīng)用帶來(lái)了困難。
自動(dòng)化所朱翔昱、雷震等研究人員提出的大規(guī)模雙樣本學(xué)習(xí)方法包括兩個(gè)方面,一是提出了一種分類(lèi)-驗(yàn)證-分類(lèi)(CVC)的訓(xùn)練策略來(lái)逐步提高實(shí)際場(chǎng)景中的性能,二是針對(duì)大規(guī)模分類(lèi)問(wèn)題提出了DP-softmax使得深度學(xué)習(xí)在超大規(guī)模類(lèi)別的分類(lèi)上具有可擴(kuò)展性。
在分類(lèi)-驗(yàn)證-分類(lèi)(CVC)訓(xùn)練策略中,研究人員將整個(gè)訓(xùn)練過(guò)程分為三個(gè)階段。第一個(gè)階段為Pre-learning(ClassificaTIon),首先在網(wǎng)圖人臉數(shù)據(jù)庫(kù)上訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò)模型,以得到一個(gè)較好的初始人臉識(shí)別性能。第二階段為T(mén)ransfer Learning (VerificaTIon),使用基于度量學(xué)習(xí)的人臉驗(yàn)證方法如triplet loss在大規(guī)模雙樣本數(shù)據(jù)上進(jìn)行微調(diào),將人臉知識(shí)從自然環(huán)境遷移到人證場(chǎng)景下。第三階段為Fine-grained Learning (ClassificaTIon),構(gòu)建了一個(gè)特殊的分類(lèi)層DP-softmax對(duì)百萬(wàn)級(jí)類(lèi)別進(jìn)行分類(lèi),最終達(dá)到人證場(chǎng)景下的最優(yōu)性能。
DP-softmax極大降低了大規(guī)模分類(lèi)的計(jì)算需求,首先通過(guò)CVC策略中第二階段的模型對(duì)訓(xùn)練數(shù)據(jù)抽取特征并構(gòu)建每個(gè)類(lèi)別的類(lèi)別模板(prototype),生成所有類(lèi)別的類(lèi)別模板庫(kù)。在訓(xùn)練過(guò)程中,針對(duì)當(dāng)前mini-batch中的樣本選擇與他們最相似的少量類(lèi)別模板構(gòu)建臨時(shí)分類(lèi)層來(lái)完成本次分類(lèi)訓(xùn)練。整個(gè)過(guò)程可以在不影響訓(xùn)練效果的前提下,極大降低大規(guī)模分類(lèi)的計(jì)算需求。研究人員對(duì)提出的方法進(jìn)行了充分的實(shí)驗(yàn),表明在IvS場(chǎng)景下,該方法相比現(xiàn)有方法有了明顯提升。