深度學(xué)習(xí)的成長史和背后算法細(xì)節(jié)
掃描二維碼
隨時(shí)隨地手機(jī)看文章
深度學(xué)習(xí)(Deep Learning),又名深度神經(jīng)網(wǎng)絡(luò),前身是一只感知機(jī)。生于達(dá)特茅斯會(huì)議次年的ta,注定與人工智能有著不解之緣。人工智能中的各種機(jī)器學(xué)習(xí)方法,從初期的符號(hào)學(xué)習(xí)到后來統(tǒng)計(jì)學(xué)習(xí)再到現(xiàn)在的深度學(xué)習(xí),往往代表了學(xué)派之爭。初來咋到的感知機(jī)何以敢跟當(dāng)時(shí)的霸主——‘符號(hào)主義’(symbolicism)分爭天下?因?yàn)閠a有個(gè)爹叫‘聯(lián)結(jié)主義’(connecTIonism)。兩門派針鋒相對的歷史在這暫且不表,先來看看這位初生牛犢,感知機(jī),如何一步步成長為今日叱咤風(fēng)云的深度學(xué)習(xí)的。
‘感知機(jī)’(perceptron),一個(gè)神秘的名字,到底是什么?雖然借用了人類大腦神經(jīng)元連接的隱喻,但其終究不過是一個(gè)有著輸入和輸出兩層神經(jīng)元的線性分類器。然而世事并不總是線性的,一個(gè)連XOR都解決不了的線性分類器如何委以重任?人工智能的爸爸之一,明斯基(Marvin Minsky),甚至專門出了本書《感知機(jī)》將其批判了一番,殊不知正是這本書,差點(diǎn)將深度學(xué)習(xí)扼殺于襁褓之中。大佬一發(fā)話,各路人馬紛紛飲恨而歸,相忘于江湖,神經(jīng)網(wǎng)絡(luò)就此進(jìn)入寒冬期。
圖1.達(dá)特茅斯會(huì)議五十年重聚首,中間那位是明斯基,于2016年1月24日辭世
多數(shù)人放棄了,但有人堅(jiān)持了下來。為了解決非線性可分的問題,人類(Rumelhart、Williams、Hinton、LeCun等)為感知機(jī)加了些隱藏層(hidden layer),于是‘多層感知機(jī)’便誕生了,這種每層神經(jīng)元只與下層連接、神經(jīng)元之間不同層連接的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)就是一個(gè)最基本的神經(jīng)網(wǎng)絡(luò),‘前饋神經(jīng)網(wǎng)絡(luò)’(feedforward networks)。如何訓(xùn)練這個(gè)龐然大物,在當(dāng)時(shí)依然不甚明了。直到八十年代中,BP算法的橫空出世,重新燃起了聯(lián)結(jié)主義的希望。BP算法為訓(xùn)練多層網(wǎng)絡(luò)提供了簡潔優(yōu)雅的微積分解決方案,使得神經(jīng)網(wǎng)絡(luò)成為現(xiàn)實(shí)可用的模型。到此為止,就是神經(jīng)網(wǎng)絡(luò)的第二次潮起。不難想見的是,雖然隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的增加,模型能擬合越來越復(fù)雜的函數(shù),但如何避免局部最優(yōu)解,如何避免梯度消失,仍無行之有效的方法。統(tǒng)計(jì)學(xué)習(xí)理論也在此期間登堂入室,大有取而代之之勢。神經(jīng)網(wǎng)絡(luò)再次被打入冷宮。
直到新千年的到來。隨著計(jì)算能力的大幅提升和大數(shù)據(jù)的涌現(xiàn),及ReLU、pre-training等訓(xùn)練方法的出現(xiàn),神經(jīng)網(wǎng)絡(luò)重新以‘深度學(xué)習(xí)’的名字再現(xiàn)江湖,并在2012年橫掃了各大模式識(shí)別競賽,至此再無敗績。互聯(lián)網(wǎng)巨頭們見形勢利好,也紛紛披甲上陣,投入巨資,深度學(xué)習(xí)開始一路狂奔向人生巔峰。有趣的是,神經(jīng)網(wǎng)絡(luò)的興衰史恰好也是其更名換姓史——從‘感知機(jī)’到‘神經(jīng)網(wǎng)絡(luò)’再到今天炙手可熱的‘深度學(xué)習(xí)’,每換一次名字,就涅槃一次,可見一個(gè)好名字的重要性。若用五個(gè)字概括這次深度學(xué)習(xí)的復(fù)興,我想大概是——新瓶裝舊酒,不對,應(yīng)該是,時(shí)勢造英雄。人工智能的車輪滾滾向前,三十年河?xùn)|,三十年河西。這次聯(lián)結(jié)主義占盡了風(fēng)頭,下一次,又會(huì)是誰?
圖2. 著名模式識(shí)別競賽ImageNet:Large Scale Visual RecogniTIon Challenge