最近網(wǎng)絡上「撩妹語錄」掀起風潮,藉由猜想各歷史偉人會對女孩說的情話,搭配偉人嚴肅的肖像照,出現(xiàn)了許多版本的撩妹語錄,趣味橫生。 因此,我也做了深度學習版本的「撩妹語錄」。 在此除了讓各位讀者欣賞深度學習版撩妹語錄外,也順便做些解說,好讓沒有接觸過深度學習的人也能夠了解每個神經(jīng)網(wǎng)絡的基本概念,同時解析深度學習撩妹語錄里面各個神經(jīng)網(wǎng)絡為何會這么說。
LSTM算法
圖1就是大名鼎鼎的長短記憶模型(Long Short-Term Memory, LSTM),也是遞歸神經(jīng)網(wǎng)絡(Recurrent Neural Networks, RNN)中最受歡迎的一種形式。 它最早是由Sepp Hochreiter于1991發(fā)表原型,然后Jürgen Schmidhuber于1997將該理論基礎大功告成。 沒錯! LSTM是個快要30歲的老算法了,它也是被Hinton發(fā)展出的深度學習優(yōu)化方法救活的一票算法之一。
圖1 LSTM算法
LSTM最大的好處在于它解決了遞歸神經(jīng)網(wǎng)絡容易發(fā)生的梯度爆炸以及梯度彌散問題,它使用了稱之為「門控(Gate)」的機制,可以學習開啟或是關閉的時機,來控制上下文向量(Context Vector)的流動。 LSTM總共有3個門控,分別是輸入門、遺忘門以及輸出門。 輸入門負責管理新數(shù)據(jù)是否該納入,而遺忘門負責管理哪些舊數(shù)據(jù)該遺忘,輸出門則管理哪些上下文該納入輸出。 所以,對女孩子說他的遺忘門總是關著,正是表達永不遺忘的最高禮遇。
Faster RCNN算法
Faster RCNN(圖2)是由被粉絲們昵稱為RGB的Ross B. Girshick所發(fā)表。 自2013年起發(fā)表的RCNN三部曲包含RCNN、Fast RCNN以及Faster RCNN。 最終版本Faster RCNN于2015發(fā)表,是精確率最高的物體檢測算法之一;但可惜它是先定位,再分類的兩階段模型,所以速度不高。
圖2 Faster RCNN算法
物體檢測就是不但要知道照片里有什么(物體識別),還需要把它框出來(物體檢測)。 Faster RCNN使用了Region Proposal Network,解決了過去算法中以人工方式產生大量候選位置區(qū)域(Proposal)的問題;并改用預埋的不同尺寸Anchor,來解決物體不確定尺寸大小與比例的問題。 所以,不管天涯海角,F(xiàn)aster RCNN都能把妹的位置給檢測出來。
Auto-Encoder算法
Auto-Encoder(圖3)是最古老的深度學習結構之一。 它是一個漏斗型的結構,讓高維度數(shù)據(jù)逐步被降維,到了最窄處,再逐步升維,并且要求輸入必須等于輸出。 這意味著最窄處被極致降維的結果必須包含重建原始高維數(shù)據(jù)的一切必要訊息。 我們稱這樣的高度壓縮向量為表征(Representation)或者是嵌入(Embedded),這也是深度學習壓縮算法的核心網(wǎng)絡結構,由于它沒有依賴任何外部卷標,因此被歸屬為標準的非監(jiān)督式學習。 所以只要看過妹的一顰一笑,它就能夠取得表征,然后完整重現(xiàn)。
圖3 Auto-Encoder算法
WaveNet算法
WaveNet(圖4)是來自于Deepmind的得意之作,它也是目前聲音生成模型的SOTA(State-of-The-Art)。 WaveNet可以模仿人類或者是各種樂器的聲音,他的模仿能力甚至連人類講話時特有的換氣呼吸聲都可以模仿。
圖4 Faster RCNN算法
WaveNet的本質是一個一維空洞卷積,一般我們用二維卷積處理二維的影像數(shù)據(jù),那么一維的聲音數(shù)據(jù)當然要用一維卷積。 至于空洞卷積(Dilation)則是一種特殊卷積型態(tài),它可以有效地在不增加訓練參數(shù)的狀況下,擴大每個卷積的感知域,這樣就可以從細節(jié)到大趨勢的捕捉聲音特性。 所以當然忘不了妹的聲音。
Deep Belief Network算法
學深度學習的人千萬不能不知道什么是深度信念網(wǎng)絡(Deep Belief Network),它是深度學習三大神之首Hinton發(fā)展深度學習理論時的第一個深度學習網(wǎng)絡(圖5)。 所以,我也借用它作為我在大陸創(chuàng)業(yè)的公司名字Deepbelief.ai。
圖5 Deep Belief Network算法
深度信念網(wǎng)絡每一層都是受限波茲曼機(Restricted Boltzmann Machine, RBM),Hinton拿它來做語音識別以及人臉識別,在那時都獲得巨大的成功。 這是神級的深度信念,妹怎能不感動。
DenseNet算法
DenseNet(圖6)可以說是這類使用了跳轉連接(Skip Connection)的卷積神經(jīng)網(wǎng)絡中的超級進化版,每一個稠密單元(Dense Block)中,每一層卷積神經(jīng)層除了來自上一層傳送的特征外,在之前的「 每」一層都會透過跳轉連接將特征直送,這樣保證重要特征絕不丟失,所以超級珍惜與妹在一起的所有回憶。
圖6 DenseNet算法
Attention算法
深度學習三大神之一的Yoshua Bengio首次將注意力機制(Attention)運用在機器翻譯中,它模仿人類閱讀文字的習慣,先逐字讀取后,會將注意力放在特定的詞匯以產生正確翻譯結果,注意力機制可以衡量特別詞匯的重要性( 圖7)。 若是注意力一直在她身上,多么深情的執(zhí)著。
圖7 Attention算法
152-Layers ResNet算法
由微軟亞洲研究院的兩大男神孫劍與何愷明連手發(fā)表的ResNet,在2015年利用了一百五十二層前所未有的超深卷積神經(jīng)網(wǎng)絡獲得了該年ImageNet的冠軍,而且以僅有3.57%的物體識別錯誤率,終于在視覺領域上擊敗人類。 一百五十二層殘差神經(jīng)網(wǎng)絡,沒有最深,只有更深(圖8)。
圖8 152-Layers ResNet算法
ResNet算法
殘差神經(jīng)網(wǎng)絡(ResNet)利用了跳轉鏈接傳遞梯度,逐層優(yōu)化輸出值與實際值之間的差異(殘差),可以有效地傳遞梯度避免梯度彌散,也成為現(xiàn)在最主流的卷積神經(jīng)網(wǎng)絡骨干架構(圖9)。
圖9 ResNet算法