voip常見問(wèn)題匯總
一、激活函數(shù)(AcTIvaTIon FuncTIon)
為了讓神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)復(fù)雜的決策邊界(decision boundary),我們?cè)谄湟恍討?yīng)用一個(gè)非線性激活函數(shù)。常用的函數(shù)有sigmoid、tanh、ReLU(RecTIfied Linear Unit 線性修正單元)和以及這些函數(shù)的變體。
二、Adadelta
Adadelta 是基于梯度下降的學(xué)習(xí)算法,可以隨時(shí)間調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率,它比超參數(shù)(hyperparameter)更敏感而且可能會(huì)降低學(xué)習(xí)率。Adadelta 類似于 rmsprop,而且可被用來(lái)替代 vanilla SGD。
論文:Adadelta:一種自適應(yīng)學(xué)習(xí)率方法
三、Adagrad
Adagrad 是一種自適應(yīng)學(xué)習(xí)率算法,能夠隨時(shí)間跟蹤平方梯度并自動(dòng)適應(yīng)每個(gè)參數(shù)的學(xué)習(xí)率。它可被用來(lái)替代vanillaSGD (#sgd),稀疏數(shù)據(jù)上更是特別有用,可以將更高的學(xué)習(xí)率分配給更新不頻繁的參數(shù)。
論文:用于在線學(xué)習(xí)和隨機(jī)優(yōu)化的自適應(yīng)次梯度方法
四、Adam
Adam 是類似于 rmsprop 的自適應(yīng)學(xué)習(xí)率算法,它通過(guò)使用梯度的第一和第二時(shí)刻的運(yùn)行平均值(running average)直接估計(jì),并具有偏差校正功能。
論文:Adam:一種隨機(jī)優(yōu)化方法
五、仿射層(Affine Layer)
這是神經(jīng)網(wǎng)絡(luò)中的一個(gè)全連接層。仿射(Affine)的意思是前面一層中的每一個(gè)神經(jīng)元都連接到當(dāng)前層中的每一個(gè)神經(jīng)元。在許多方面,這是神經(jīng)網(wǎng)絡(luò)的「標(biāo)準(zhǔn)」層。仿射層通常被加在卷積神經(jīng)網(wǎng)絡(luò)或循環(huán)神經(jīng)網(wǎng)絡(luò)做出最終預(yù)測(cè)前頂層。仿射層的一般形式為 y = f(Wx + b),其中 x 是層輸入,w 是參數(shù),b 是一個(gè)偏差矢量,f 是一個(gè)非線性激活函數(shù)。
六、注意機(jī)制(Attention Mechanism)
注意機(jī)制由人類視覺注意所啟發(fā),是一種關(guān)注圖像中特定部分的能力。注意機(jī)制可被整合到語(yǔ)言處理和圖像識(shí)別的架構(gòu)中,以幫助網(wǎng)絡(luò)學(xué)習(xí)在做出預(yù)測(cè)時(shí)應(yīng)該「關(guān)注」什么。
七、Alexnet
Alexnet 是一種卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)的名字,這種架構(gòu)曾在 2012 年 ILSVRC 挑戰(zhàn)賽中以巨大優(yōu)勢(shì)獲勝,它使導(dǎo)致人們重新關(guān)注對(duì)用于圖像識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)(CNN)。它由 5 個(gè)卷積層組成。其中一些后面跟隨著最大池化(max-pooling)層和帶有最終 1000 條路徑的 softmax (1000-way softmax)的 3個(gè)全連接層。Alexnet 被引入到了使用深度卷積神經(jīng)網(wǎng)絡(luò)的 ImageNet 分類中。
八、自編碼器(Autoencoder)
自編碼器是一種神經(jīng)網(wǎng)絡(luò)模型,它的目標(biāo)是預(yù)測(cè)輸入自身,這通常通過(guò)網(wǎng)絡(luò)中某個(gè)地方的「瓶頸(bottleneck)」實(shí)現(xiàn)。通過(guò)引入瓶頸,使得網(wǎng)絡(luò)學(xué)習(xí)輸入更低維度的表征,從而將輸入壓縮成一個(gè)好的表征。自編碼器和 PCA 等降維技術(shù)相關(guān),但因?yàn)樗鼈兊姆蔷€性本質(zhì),它們可以學(xué)習(xí)更為復(fù)雜的映射。目前已有一些范圍涵蓋較廣的自編碼器存在,包括降噪自編碼器(Denoising Autoencoders)、變自編碼器(VariationalAutoencoders)和序列自編碼器(Sequence Autoencoders)。
降噪自編碼器論文:
Stacked Denoising Autoencoders: Learning Useful Representationsin a Deep Network with a Local Denoising Criterion
變自編碼器論文:
Auto-Encoding Variational Bayes
序列自編碼器論文:
Semi-supervised Sequence Learning
九、平均池化(Average-Pooling)
平均池化是一種在卷積神經(jīng)網(wǎng)絡(luò)中用于圖像識(shí)別的池化(Pooling)技術(shù)。它的原理是,在特征的局部區(qū)域上滑動(dòng)窗口(如像素),然后再取窗口中所有值的平均值。它將輸入表征壓縮成一種更低維度的表征。
十、反向傳播(Backpropagation)
反向傳播是一種在神經(jīng)網(wǎng)絡(luò)中用來(lái)有效地計(jì)算梯度的算法,或稱為前饋計(jì)算圖(feedforwardcomputational graph)。它可以歸結(jié)成從網(wǎng)絡(luò)輸出開始應(yīng)用分化的鏈?zhǔn)椒▌t,然后向后傳播梯度。
論文:
Learning representations by back-propagating errors
十一、通過(guò)時(shí)間的反向傳播BPTT:BackpropagationThrough Time