一、激活函數(shù)(AcTIvaTIon FuncTIon)
為了讓神經(jīng)網(wǎng)絡(luò)能夠?qū)W習復雜的決策邊界(decision boundary),我們在其一些層應(yīng)用一個非線性激活函數(shù)。常用的函數(shù)有sigmoid、tanh、ReLU(RecTIfied Linear Unit 線性修正單元)和以及這些函數(shù)的變體。
二、Adadelta
Adadelta 是基于梯度下降的學習算法,可以隨時間調(diào)整每個參數(shù)的學習率,它比超參數(shù)(hyperparameter)更敏感而且可能會降低學習率。Adadelta 類似于 rmsprop,而且可被用來替代 vanilla SGD。
論文:Adadelta:一種自適應(yīng)學習率方法
三、Adagrad
Adagrad 是一種自適應(yīng)學習率算法,能夠隨時間跟蹤平方梯度并自動適應(yīng)每個參數(shù)的學習率。它可被用來替代vanillaSGD (#sgd),稀疏數(shù)據(jù)上更是特別有用,可以將更高的學習率分配給更新不頻繁的參數(shù)。
論文:用于在線學習和隨機優(yōu)化的自適應(yīng)次梯度方法
四、Adam
Adam 是類似于 rmsprop 的自適應(yīng)學習率算法,它通過使用梯度的第一和第二時刻的運行平均值(running average)直接估計,并具有偏差校正功能。
論文:Adam:一種隨機優(yōu)化方法
五、仿射層(Affine Layer)
這是神經(jīng)網(wǎng)絡(luò)中的一個全連接層。仿射(Affine)的意思是前面一層中的每一個神經(jīng)元都連接到當前層中的每一個神經(jīng)元。在許多方面,這是神經(jīng)網(wǎng)絡(luò)的「標準」層。仿射層通常被加在卷積神經(jīng)網(wǎng)絡(luò)或循環(huán)神經(jīng)網(wǎng)絡(luò)做出最終預測前頂層。仿射層的一般形式為 y = f(Wx + b),其中 x 是層輸入,w 是參數(shù),b 是一個偏差矢量,f 是一個非線性激活函數(shù)。
六、注意機制(Attention Mechanism)
注意機制由人類視覺注意所啟發(fā),是一種關(guān)注圖像中特定部分的能力。注意機制可被整合到語言處理和圖像識別的架構(gòu)中,以幫助網(wǎng)絡(luò)學習在做出預測時應(yīng)該「關(guān)注」什么。
七、Alexnet
Alexnet 是一種卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)的名字,這種架構(gòu)曾在 2012 年 ILSVRC 挑戰(zhàn)賽中以巨大優(yōu)勢獲勝,它使導致人們重新關(guān)注對用于圖像識別的卷積神經(jīng)網(wǎng)絡(luò)(CNN)。它由 5 個卷積層組成。其中一些后面跟隨著最大池化(max-pooling)層和帶有最終 1000 條路徑的 softmax (1000-way softmax)的 3個全連接層。Alexnet 被引入到了使用深度卷積神經(jīng)網(wǎng)絡(luò)的 ImageNet 分類中。
八、自編碼器(Autoencoder)
自編碼器是一種神經(jīng)網(wǎng)絡(luò)模型,它的目標是預測輸入自身,這通常通過網(wǎng)絡(luò)中某個地方的「瓶頸(bottleneck)」實現(xiàn)。通過引入瓶頸,使得網(wǎng)絡(luò)學習輸入更低維度的表征,從而將輸入壓縮成一個好的表征。自編碼器和 PCA 等降維技術(shù)相關(guān),但因為它們的非線性本質(zhì),它們可以學習更為復雜的映射。目前已有一些范圍涵蓋較廣的自編碼器存在,包括降噪自編碼器(Denoising Autoencoders)、變自編碼器(VariationalAutoencoders)和序列自編碼器(Sequence Autoencoders)。
降噪自編碼器論文:
Stacked Denoising Autoencoders: Learning Useful Representationsin a Deep Network with a Local Denoising Criterion
變自編碼器論文:
Auto-Encoding Variational Bayes
序列自編碼器論文:
Semi-supervised Sequence Learning
九、平均池化(Average-Pooling)
平均池化是一種在卷積神經(jīng)網(wǎng)絡(luò)中用于圖像識別的池化(Pooling)技術(shù)。它的原理是,在特征的局部區(qū)域上滑動窗口(如像素),然后再取窗口中所有值的平均值。它將輸入表征壓縮成一種更低維度的表征。
十、反向傳播(Backpropagation)
反向傳播是一種在神經(jīng)網(wǎng)絡(luò)中用來有效地計算梯度的算法,或稱為前饋計算圖(feedforwardcomputational graph)。它可以歸結(jié)成從網(wǎng)絡(luò)輸出開始應(yīng)用分化的鏈式法則,然后向后傳播梯度。
論文:
Learning representations by back-propagating errors
十一、通過時間的反向傳播BPTT:BackpropagationThrough Time