神經(jīng)網(wǎng)絡(luò)算法java實(shí)現(xiàn)

時(shí)間：2020-08-03 13:33:02

關(guān)鍵字：神經(jīng)網(wǎng)絡(luò)算法

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 神經(jīng)網(wǎng)絡(luò)的計(jì)算過程神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示，最左邊的是輸入層，最右邊的是輸出層，中間是多個(gè)隱含層，隱含層和輸出層的每個(gè)神經(jīng)節(jié)點(diǎn)，都是由上一層節(jié)點(diǎn)乘以其權(quán)重累加得到，標(biāo)上&ld

神經(jīng)網(wǎng)絡(luò)的計(jì)算過程

神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示，最左邊的是輸入層，最右邊的是輸出層，中間是多個(gè)隱含層，隱含層和輸出層的每個(gè)神經(jīng)節(jié)點(diǎn)，都是由上一層節(jié)點(diǎn)乘以其權(quán)重累加得到，標(biāo)上“+1”的圓圈為截距項(xiàng)b，對(duì)輸入層外每個(gè)節(jié)點(diǎn)：Y=w0*x0+w1*x1+…+wn*xn+b，由此我們可以知道神經(jīng)網(wǎng)絡(luò)相當(dāng)于一個(gè)多層邏輯回歸的結(jié)構(gòu)。

算法計(jì)算過程：輸入層開始，從左往右計(jì)算，逐層往前直到輸出層產(chǎn)生結(jié)果。如果結(jié)果值和目標(biāo)值有差距，再從右往左算，逐層向后計(jì)算每個(gè)節(jié)點(diǎn)的誤差，并且調(diào)整每個(gè)節(jié)點(diǎn)的所有權(quán)重，反向到達(dá)輸入層后，又重新向前計(jì)算，重復(fù)迭代以上步驟，直到所有權(quán)重參數(shù)收斂到一個(gè)合理值。由于計(jì)算機(jī)程序求解方程參數(shù)和數(shù)學(xué)求法不一樣，一般是先隨機(jī)選取參數(shù)，然后不斷調(diào)整參數(shù)減少誤差直到逼近正確值，所以大部分的機(jī)器學(xué)習(xí)都是在不斷迭代訓(xùn)練，下面我們從程序上詳細(xì)看看該過程實(shí)現(xiàn)就清楚了。

神經(jīng)網(wǎng)絡(luò)的算法程序代碼實(shí)現(xiàn)

神經(jīng)網(wǎng)絡(luò)的算法程序?qū)崿F(xiàn)分為初始化、向前計(jì)算結(jié)果，反向修改權(quán)重三個(gè)過程。

1. 初始化過程

由于是n層神經(jīng)網(wǎng)絡(luò)，我們用二維數(shù)組layer記錄節(jié)點(diǎn)值，第一維為層數(shù)，第二維為該層節(jié)點(diǎn)位置，數(shù)組的值為節(jié)點(diǎn)值；同樣，節(jié)點(diǎn)誤差值layerErr也是相似方式記錄。用三維數(shù)組layer_weight記錄各節(jié)點(diǎn)權(quán)重，第一維為層數(shù)，第二維為該層節(jié)點(diǎn)位置，第三維為下層節(jié)點(diǎn)位置，數(shù)組的值為某節(jié)點(diǎn)到達(dá)下層某節(jié)點(diǎn)的權(quán)重值，初始值為0-1之間的隨機(jī)數(shù)。為了優(yōu)化收斂速度，這里采用動(dòng)量法權(quán)值調(diào)整，需要記錄上一次權(quán)值調(diào)整量，用三維數(shù)組layer_weight_delta來記錄，截距項(xiàng)處理：程序里將截距的值設(shè)置為1，這樣只需要計(jì)算它的權(quán)重就可以了，

2. 向前計(jì)算結(jié)果

采用S函數(shù)1/（1+Math.exp（-z））將每個(gè)節(jié)點(diǎn)的值統(tǒng)一到0-1之間，再逐層向前計(jì)算直到輸出層，對(duì)于輸出層，實(shí)際上是不需要再用S函數(shù)的，我們這里將輸出結(jié)果視為0到1之間的概率值，所以也采用了S函數(shù)，這樣也有利于程序?qū)崿F(xiàn)的統(tǒng)一性。

3. 反向修改權(quán)重

神經(jīng)網(wǎng)絡(luò)如何計(jì)算誤差，一般采用平方型誤差函數(shù)E，如下：

也就是將多個(gè)輸出項(xiàng)和對(duì)應(yīng)目標(biāo)值的誤差的平方累加起來，再除以2。實(shí)際上邏輯回歸的誤差函數(shù)也是這個(gè)，至于為什么要用這個(gè)函數(shù)來計(jì)算誤差，它從數(shù)學(xué)上的合理性是什么，怎么得來的，這個(gè)我建議程序員們不想當(dāng)數(shù)學(xué)家的話，先不去深究了，現(xiàn)在我們要做的是如何把這個(gè)函數(shù)E誤差取它的最小值，需要對(duì)其進(jìn)行求導(dǎo)，如果有些求導(dǎo)數(shù)學(xué)基礎(chǔ)的話，倒可以嘗試去推導(dǎo)下如何從函數(shù)E對(duì)權(quán)重求導(dǎo)得到下面這個(gè)公式的：

不會(huì)推導(dǎo)也沒有關(guān)系，我們只需要運(yùn)用結(jié)果公式就可以了，在我們的程序里用layerErr記錄了E對(duì)權(quán)重求導(dǎo)后的最小化誤差，再根據(jù)最小化誤差去調(diào)整權(quán)重。

注意這里采用動(dòng)量法調(diào)整，將上一次調(diào)整的經(jīng)驗(yàn)考慮進(jìn)來，避免陷入局部最小值，下面的k代表迭代次數(shù)，mobp為動(dòng)量項(xiàng)，rate為學(xué)習(xí)步長：

也有很多使用下面的公式，效果上的差別不是太大：

為了提升性能，注意程序?qū)崿F(xiàn)是在一個(gè)while里面同時(shí)計(jì)算誤差和調(diào)整權(quán)重，先將位置定位到倒數(shù)第二層（也就是最后一層隱含層）上，然后逐層反向調(diào)整，根據(jù)L+1層算好的誤差來調(diào)整L層的權(quán)重，同時(shí)計(jì)算好L層的誤差，用于下一次循環(huán)到L-1層時(shí)計(jì)算權(quán)重，以此循環(huán)下去直到倒數(shù)第一層（輸入層）結(jié)束。

小結(jié)

在整個(gè)計(jì)算過程中，節(jié)點(diǎn)的值是每次計(jì)算都在變化的，不需要保存，而權(quán)重參數(shù)和誤差參數(shù)是需要保存的，需要為下一次迭代提供支持，因此，如果我們構(gòu)思一個(gè)分布式的多機(jī)并行計(jì)算方案，就能理解其他框架中為什么會(huì)有一個(gè)Parameter Server的概念。

多層神經(jīng)網(wǎng)絡(luò)完整程序?qū)崿F(xiàn)

下面的實(shí)現(xiàn)程序BpDeep.java可以直接拿去使用，也很容易修改為C、C#、Python等其他任何語言實(shí)現(xiàn)，因?yàn)槎际鞘褂玫幕菊Z句，沒有用到其他Java庫（除了Random函數(shù)）。以下為原創(chuàng)程序，轉(zhuǎn)載引用時(shí)請(qǐng)注明作者和出處。

import java.uTIl.Random;

public class BpDeep{

public double［］［］ layer;//神經(jīng)網(wǎng)絡(luò)各層節(jié)點(diǎn)

public double［］［］ layerErr;//神經(jīng)網(wǎng)絡(luò)各節(jié)點(diǎn)誤差

public double［］［］［］ layer_weight;//各層節(jié)點(diǎn)權(quán)重

public double［］［］［］ layer_weight_delta;//各層節(jié)點(diǎn)權(quán)重動(dòng)量

public double mobp;//動(dòng)量系數(shù)

public double rate;//學(xué)習(xí)系數(shù)

public BpDeep（int［］ layernum， double rate， double mobp）{

this.mobp = mobp;

this.rate = rate;

layer = new double［layernum.length］［］;

layerErr = new double［layernum.length］［］;

layer_weight = new double［layernum.length］［］［］;

layer_weight_delta = new double［layernum.length］［］［］;

Random random = new Random（）;

for（int l=0;l《layernum.length;l++）{

layer［l］=new double［layernum［l］］;

layerErr［l］=new double［layernum［l］］;

if（l+1《layernum.length）{

layer_weight［l］=new double［layernum［l］+1］［layernum［l+1］］;

layer_weight_delta［l］=new double［layernum［l］+1］［layernum［l+1］］;

for（int j=0;j《layernum［l］+1;j++）

for（int i=0;i《layernum［l+1］;i++）

layer_weight［l］［j］［i］=random.nextDouble（）;//隨機(jī)初始化權(quán)重

}

//逐層向前計(jì)算輸出

public double［］ computeOut（double［］ in）{

for（int l=1;l《layer.length;l++）{

for（int j=0;j《layer［l］.length;j++）{

double z=layer_weight［l-1］［layer［l-1］.length］［j］;

for（int i=0;i《layer［l-1］.length;i++）{

layer［l-1］［i］=l==1？in［i］：layer［l-1］［i］;

z+=layer_weight［l-1］［i］［j］*layer［l-1］［i］;

}

layer［l］［j］=1/（1+Math.exp（-z））;

}

return layer［layer.length-1］;

}

//逐層反向計(jì)算誤差并修改權(quán)重

public void updateWeight（double［］ tar）{

int l=layer.length-1;

for（int j=0;j《layerErr［l］.length;j++）

layerErr［l］［j］=layer［l］［j］*（1-layer［l］［j］）*（tar［j］-layer［l］［j］）;

while（l--》0）{

for（int j=0;j《layerErr［l］.length;j++）{

double z = 0.0;

for（int i=0;i《layerErr［l+1］.length;i++）{

z=z+l》0？layerErr［l+1］［i］*layer_weight［l］［j］［i］：0;

layer_weight_delta［l］［j］［i］= mobp*layer_weight_delta［l］［j］［i］+rate*layerErr［l+1］［i］*layer［l］［j］;//隱含層動(dòng)量調(diào)整

layer_weight［l］［j］［i］+=layer_weight_delta［l］［j］［i］;//隱含層權(quán)重調(diào)整

if（j==layerErr［l］.length-1）{

layer_weight_delta［l］［j+1］［i］= mobp*layer_weight_delta［l］［j+1］［i］+rate*layerErr［l+1］［i］;//截距動(dòng)量調(diào)整

layer_weight［l］［j+1］［i］+=layer_weight_delta［l］［j+1］［i］;//截距權(quán)重調(diào)整

}

layerErr［l］［j］=z*layer［l］［j］*（1-layer［l］［j］）;//記錄誤差

}

public void train（double［］ in， double［］ tar）{

double［］ out = computeOut（in）;

updateWeight（tar）;

}

一個(gè)運(yùn)用神經(jīng)網(wǎng)絡(luò)的例子

最后我們找個(gè)簡單例子來看看神經(jīng)網(wǎng)絡(luò)神奇的效果。為了方便觀察數(shù)據(jù)分布，我們選用一個(gè)二維坐標(biāo)的數(shù)據(jù)，下面共有4個(gè)數(shù)據(jù)，方塊代表數(shù)據(jù)的類型為1，三角代表數(shù)據(jù)的類型為0，可以看到屬于方塊類型的數(shù)據(jù)有（1，2）和（2，1），屬于三角類型的數(shù)據(jù)有（1，1），（2，2），現(xiàn)在問題是需要在平面上將4個(gè)數(shù)據(jù)分成1和0兩類，并以此來預(yù)測(cè)新的數(shù)據(jù)的類型。

我們可以運(yùn)用邏輯回歸算法來解決上面的分類問題，但是邏輯回歸得到一個(gè)線性的直線做為分界線，可以看到上面的紅線無論怎么擺放，總是有一個(gè)樣本被錯(cuò)誤地劃分到不同類型中，所以對(duì)于上面的數(shù)據(jù)，僅僅一條直線不能很正確地劃分他們的分類，如果我們運(yùn)用神經(jīng)網(wǎng)絡(luò)算法，可以得到下圖的分類效果，相當(dāng)于多條直線求并集來劃分空間，這樣準(zhǔn)確性更高。

下面是這個(gè)測(cè)試程序BpDeepTest.java的源碼：

import java.uTIl.Arrays;

public class BpDeepTest{

public staTIc void main（String［］ args）{

//初始化神經(jīng)網(wǎng)絡(luò)的基本配置

//第一個(gè)參數(shù)是一個(gè)整型數(shù)組，表示神經(jīng)網(wǎng)絡(luò)的層數(shù)和每層節(jié)點(diǎn)數(shù)，比如{3，10，10，10，10，2}表示輸入層是3個(gè)節(jié)點(diǎn)，輸出層是2個(gè)節(jié)點(diǎn)，中間有4層隱含層，每層10個(gè)節(jié)點(diǎn)

//第二個(gè)參數(shù)是學(xué)習(xí)步長，第三個(gè)參數(shù)是動(dòng)量系數(shù)

BpDeep bp = new BpDeep（new int［］{2，10，2}， 0.15， 0.8）;

//設(shè)置樣本數(shù)據(jù)，對(duì)應(yīng)上面的4個(gè)二維坐標(biāo)數(shù)據(jù)

double［］［］ data = new double［］［］{{1，2}，{2，2}，{1，1}，{2，1}};

//設(shè)置目標(biāo)數(shù)據(jù)，對(duì)應(yīng)4個(gè)坐標(biāo)數(shù)據(jù)的分類

double［］［］ target = new double［］［］{{1，0}，{0，1}，{0，1}，{1，0}};

//迭代訓(xùn)練5000次

for（int n=0;n《5000;n++）

for（int i=0;i《data.length;i++）

bp.train（data［i］， target［i］）;

//根據(jù)訓(xùn)練結(jié)果來檢驗(yàn)樣本數(shù)據(jù)

for（int j=0;j《data.length;j++）{

double［］ result = bp.computeOut（data［j］）;

System.out.println（Arrays.toString（data［j］）+“：”+Arrays.toString（result））;

}

//根據(jù)訓(xùn)練結(jié)果來預(yù)測(cè)一條新數(shù)據(jù)的分類

double［］ x = new double［］{3，1};

double［］ result = bp.computeOut（x）;

System.out.println（Arrays.toString（x）+“：”+Arrays.toString（result））;

}

小結(jié)

以上測(cè)試程序顯示神經(jīng)網(wǎng)絡(luò)有很神奇的分類效果，實(shí)際上神經(jīng)網(wǎng)絡(luò)有一定優(yōu)勢(shì)，但也不是接近人腦的萬能算法，很多時(shí)候它可能會(huì)讓我們失望，還需要結(jié)合各種場(chǎng)景的數(shù)據(jù)大量運(yùn)用去觀察其效果。我們可以把1層隱含層改成n層，并調(diào)整每層節(jié)點(diǎn)數(shù)、迭代次數(shù)、學(xué)習(xí)步長和動(dòng)量系數(shù)，以獲得一個(gè)最優(yōu)化的結(jié)果。但是很多時(shí)候n層隱含層的效果并不比1層有明顯提升，反而計(jì)算更復(fù)雜耗時(shí)，我們對(duì)神經(jīng)網(wǎng)絡(luò)的認(rèn)識(shí)還需要多實(shí)踐多體會(huì)。