深度學習只是機器學習中的一個標準范式,更精確地說,是其中一個算法。深度學習在最大限度上依靠于人腦的概念以及神經(jīng)之間的相互溝通。在谷歌上搜索“什么是深度學習”,會發(fā)現(xiàn)當時的相關熱詞已經(jīng)與現(xiàn)在有很大不同。產(chǎn)生這種現(xiàn)象的原因是什么呢?實際上,“深度學習”這一術語最早出現(xiàn)在19世紀80年代,但直到2012年,人們才具備足夠的能力去運用這項科技,并逐漸開始注意到它。
知名科學家們在科學期刊上發(fā)表一系列文章后,這項技術開始風靡。如今,它有著各種各樣的應用,其中人臉識別占據(jù)了重要的位置。首先,深度學習助力構建識別生物特征軟件,該軟件能夠獨立識別或驗證個體。所有這些都是因為深度學習方法能夠利用非常龐大的人臉數(shù)據(jù)集,認識多種多樣的袖珍圖片,使現(xiàn)代模型能夠先運行,隨后甚至超越人類的人臉識別能力。
深度學習系統(tǒng)根據(jù)人腦新皮質(zhì)的神經(jīng)網(wǎng)絡建模,在那里出現(xiàn)了更高層次的認知。在大腦中,神經(jīng)元是一個傳遞電子或化學信息的細胞。神經(jīng)元與其他神經(jīng)元連接時會形成神經(jīng)網(wǎng)絡。在機器中,神經(jīng)元是虛擬的——基本上是運行統(tǒng)計回歸的代碼位。把足夠多的虛擬神經(jīng)元串在一起就得到了一個虛擬的神經(jīng)網(wǎng)絡。
雖然計算機有不同型號,但是它們經(jīng)歷的過程是一樣的。層次結構中的每個算法對其輸入應用非線性轉換,并使用所學內(nèi)容創(chuàng)建一個統(tǒng)計模型作為輸出。迭代直至輸出達到可接受的精度水平才停止。數(shù)據(jù)必須通過的處理層的數(shù)量激發(fā)了標簽的深度。
讓我們首先關注人類是如何識別人臉的。由于面部表情的識別需要人腦廣泛而多樣部位的參與,面部感知十分復雜。腦成像研究通常顯示顳葉的梭形回區(qū)域有大量的活動,梭形回區(qū)域在受損時(尤其是兩側受損時)也會引起面容失認癥。人們從出生起就學會辨認面孔,四個月大的時候就能清楚地分辨出一個人和另一個人。
人們最關注的是眼睛、顴骨、鼻子、嘴、眉毛,以及皮膚的質(zhì)地和顏色。同時,我們的大腦將面部作為一個整體來處理,甚至可以通過半張臉來識別一個人。大腦將所得圖像與內(nèi)部平均模式進行比較,發(fā)現(xiàn)特征差異。
首先,人臉識別系統(tǒng)需要在圖像中找到人臉并突出顯示該區(qū)域。為此,軟件可以使用多種算法:例如,確定比例和膚色的相似性,選擇圖像中的輪廓及其與人臉輪廓的比較,使用神經(jīng)網(wǎng)絡選擇對稱性。最有效的方法是可以實時使用Viola-Jones方法。有了此方法,即使人臉旋轉30度,系統(tǒng)也能識別臉孔。
該方法基于Haar符號。Haar符號是一組形狀各異的黑白矩形遮罩。遮罩疊加在圖像的不同部分,算法將遮罩的黑白部分下面的圖像的所有像素的亮度相加,然后計算這些值之間的差異。接下來,系統(tǒng)將結果與累積的數(shù)據(jù)進行比較,并在確定圖像中的人臉后,繼續(xù)跟蹤它以選擇最佳角度和圖像質(zhì)量。因此需使用運動矢量預測算法或相關算法。
系統(tǒng)在選擇了最成功的圖片后,繼續(xù)進行人臉識別,并與現(xiàn)有的基礎進行比較。它的工作原理與畫家畫肖像的原理相同,都是在人臉上找到構成個人特征的參考點。通常,程序分配大約100個這樣的點。
面部識別程序最重要的測量是眼間距、鼻孔的寬度、鼻子的長度、顴骨的高度和形狀、下巴的寬度、前額的高度和其他參數(shù)。然后,程序?qū)@得的數(shù)據(jù)與數(shù)據(jù)庫中的可用數(shù)據(jù)進行比較,如果參數(shù)一致,就可以識別與該人臉相一致的人了。人腦能即刻自動完成這些步驟。事實上,人能很好識別人臉并從日常事物中區(qū)分人臉。至少目前看來,計算機不能進行如此高程度的泛化,所以只能教授它們每一步該做的事情。
因此有必要構建一個管道,在此能分別在人臉識別過程的每個步驟找到解決方案,并將當前步驟的結果傳輸?shù)较乱粋€步驟。也就是說,需要將多個機器學習算法組合到一條鏈中。事實上,對人類而言顯而易見的特征,如眼睛顏色,對計算機分析圖像中的單個像素沒有意義。研究人員發(fā)現(xiàn),最合適的方法是使計算機能夠確定需要收集的特征。與此相反,深度學習可以更好更快地識別。
而最近,這個可能性出現(xiàn)了,或者說是被發(fā)現(xiàn)了。最開始每個人都不相信神經(jīng)網(wǎng)絡的表現(xiàn)可以接近人類水平。但在2014年,一切都發(fā)生了變化??茖W家們決定利用目前最好的兩個網(wǎng)絡——AlexNet、以及Matthew D.Zeiler和Rob Fergus開發(fā)的網(wǎng)絡??茖W家們將它們與猴子大腦不同區(qū)域的反應進行了比較。猴子大腦經(jīng)過訓練可以識別對象。并且選取的物品都來自動物世界,這樣猴子就不會混淆。
顯然我們不可能從猴子身上獲得反應,因此我們植入了電極,并直接測量每個神經(jīng)元的反應。結果發(fā)現(xiàn),在正常情況下,腦細胞的反應和當時最先進的模型Matthew Zeiler網(wǎng)絡表現(xiàn)一致。但是,隨著展示物體的速度加快,圖像中的噪聲和物體數(shù)量增加,人類和靈長類動物大腦的識別率和質(zhì)量顯著下降。而在這種情況下,即使最簡單的卷積神經(jīng)網(wǎng)絡也能更好地識別物體。也就是說,官方的神經(jīng)網(wǎng)絡比人類大腦工作得更好。