當(dāng)前位置:首頁 > 智能硬件 > 人工智能AI
[導(dǎo)讀]  神經(jīng)網(wǎng)絡(luò)的計(jì)算過程 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示,最左邊的是輸入層,最右邊的是輸出層,中間是多個(gè)隱含層,隱含層和輸出層的每個(gè)神經(jīng)節(jié)點(diǎn),都是由上一層節(jié)點(diǎn)乘以其權(quán)重累加得到,標(biāo)上&ld

 神經(jīng)網(wǎng)絡(luò)的計(jì)算過程

神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示,最左邊的是輸入層,最右邊的是輸出層,中間是多個(gè)隱含層,隱含層和輸出層的每個(gè)神經(jīng)節(jié)點(diǎn),都是由上一層節(jié)點(diǎn)乘以其權(quán)重累加得到,標(biāo)上“+1”的圓圈為截距項(xiàng)b,對(duì)輸入層外每個(gè)節(jié)點(diǎn):Y=w0*x0+w1*x1+…+wn*xn+b,由此我們可以知道神經(jīng)網(wǎng)絡(luò)相當(dāng)于一個(gè)多層邏輯回歸的結(jié)構(gòu)。

 

算法計(jì)算過程:輸入層開始,從左往右計(jì)算,逐層往前直到輸出層產(chǎn)生結(jié)果。如果結(jié)果值和目標(biāo)值有差距,再從右往左算,逐層向后計(jì)算每個(gè)節(jié)點(diǎn)的誤差,并且調(diào)整每個(gè)節(jié)點(diǎn)的所有權(quán)重,反向到達(dá)輸入層后,又重新向前計(jì)算,重復(fù)迭代以上步驟,直到所有權(quán)重參數(shù)收斂到一個(gè)合理值。由于計(jì)算機(jī)程序求解方程參數(shù)和數(shù)學(xué)求法不一樣,一般是先隨機(jī)選取參數(shù),然后不斷調(diào)整參數(shù)減少誤差直到逼近正確值,所以大部分的機(jī)器學(xué)習(xí)都是在不斷迭代訓(xùn)練,下面我們從程序上詳細(xì)看看該過程實(shí)現(xiàn)就清楚了。

神經(jīng)網(wǎng)絡(luò)的算法程序代碼實(shí)現(xiàn)

神經(jīng)網(wǎng)絡(luò)的算法程序?qū)崿F(xiàn)分為初始化、向前計(jì)算結(jié)果,反向修改權(quán)重三個(gè)過程。

1. 初始化過程

由于是n層神經(jīng)網(wǎng)絡(luò),我們用二維數(shù)組layer記錄節(jié)點(diǎn)值,第一維為層數(shù),第二維為該層節(jié)點(diǎn)位置,數(shù)組的值為節(jié)點(diǎn)值;同樣,節(jié)點(diǎn)誤差值layerErr也是相似方式記錄。用三維數(shù)組layer_weight記錄各節(jié)點(diǎn)權(quán)重,第一維為層數(shù),第二維為該層節(jié)點(diǎn)位置,第三維為下層節(jié)點(diǎn)位置,數(shù)組的值為某節(jié)點(diǎn)到達(dá)下層某節(jié)點(diǎn)的權(quán)重值,初始值為0-1之間的隨機(jī)數(shù)。為了優(yōu)化收斂速度,這里采用動(dòng)量法權(quán)值調(diào)整,需要記錄上一次權(quán)值調(diào)整量,用三維數(shù)組layer_weight_delta來記錄,截距項(xiàng)處理:程序里將截距的值設(shè)置為1,這樣只需要計(jì)算它的權(quán)重就可以了,

2. 向前計(jì)算結(jié)果

采用S函數(shù)1/(1+Math.exp(-z))將每個(gè)節(jié)點(diǎn)的值統(tǒng)一到0-1之間,再逐層向前計(jì)算直到輸出層,對(duì)于輸出層,實(shí)際上是不需要再用S函數(shù)的,我們這里將輸出結(jié)果視為0到1之間的概率值,所以也采用了S函數(shù),這樣也有利于程序?qū)崿F(xiàn)的統(tǒng)一性。

3. 反向修改權(quán)重

神經(jīng)網(wǎng)絡(luò)如何計(jì)算誤差,一般采用平方型誤差函數(shù)E,如下:

也就是將多個(gè)輸出項(xiàng)和對(duì)應(yīng)目標(biāo)值的誤差的平方累加起來,再除以2。實(shí)際上邏輯回歸的誤差函數(shù)也是這個(gè),至于為什么要用這個(gè)函數(shù)來計(jì)算誤差,它從數(shù)學(xué)上的合理性是什么,怎么得來的,這個(gè)我建議程序員們不想當(dāng)數(shù)學(xué)家的話,先不去深究了,現(xiàn)在我們要做的是如何把這個(gè)函數(shù)E誤差取它的最小值,需要對(duì)其進(jìn)行求導(dǎo),如果有些求導(dǎo)數(shù)學(xué)基礎(chǔ)的話,倒可以嘗試去推導(dǎo)下如何從函數(shù)E對(duì)權(quán)重求導(dǎo)得到下面這個(gè)公式的:

 

不會(huì)推導(dǎo)也沒有關(guān)系,我們只需要運(yùn)用結(jié)果公式就可以了,在我們的程序里用layerErr記錄了E對(duì)權(quán)重求導(dǎo)后的最小化誤差,再根據(jù)最小化誤差去調(diào)整權(quán)重。

注意這里采用動(dòng)量法調(diào)整,將上一次調(diào)整的經(jīng)驗(yàn)考慮進(jìn)來,避免陷入局部最小值,下面的k代表迭代次數(shù),mobp為動(dòng)量項(xiàng),rate為學(xué)習(xí)步長:

 

也有很多使用下面的公式,效果上的差別不是太大:

 

為了提升性能,注意程序?qū)崿F(xiàn)是在一個(gè)while里面同時(shí)計(jì)算誤差和調(diào)整權(quán)重,先將位置定位到倒數(shù)第二層(也就是最后一層隱含層)上,然后逐層反向調(diào)整,根據(jù)L+1層算好的誤差來調(diào)整L層的權(quán)重,同時(shí)計(jì)算好L層的誤差,用于下一次循環(huán)到L-1層時(shí)計(jì)算權(quán)重,以此循環(huán)下去直到倒數(shù)第一層(輸入層)結(jié)束。

小結(jié)

在整個(gè)計(jì)算過程中,節(jié)點(diǎn)的值是每次計(jì)算都在變化的,不需要保存,而權(quán)重參數(shù)和誤差參數(shù)是需要保存的,需要為下一次迭代提供支持,因此,如果我們構(gòu)思一個(gè)分布式的多機(jī)并行計(jì)算方案,就能理解其他框架中為什么會(huì)有一個(gè)Parameter Server的概念。

多層神經(jīng)網(wǎng)絡(luò)完整程序?qū)崿F(xiàn)

下面的實(shí)現(xiàn)程序BpDeep.java可以直接拿去使用,也很容易修改為C、C#、Python等其他任何語言實(shí)現(xiàn),因?yàn)槎际鞘褂玫幕菊Z句,沒有用到其他Java庫(除了Random函數(shù))。以下為原創(chuàng)程序,轉(zhuǎn)載引用時(shí)請(qǐng)注明作者和出處。

import java.uTIl.Random;

public class BpDeep{

public double[][] layer;//神經(jīng)網(wǎng)絡(luò)各層節(jié)點(diǎn)

public double[][] layerErr;//神經(jīng)網(wǎng)絡(luò)各節(jié)點(diǎn)誤差

public double[][][] layer_weight;//各層節(jié)點(diǎn)權(quán)重

public double[][][] layer_weight_delta;//各層節(jié)點(diǎn)權(quán)重動(dòng)量

public double mobp;//動(dòng)量系數(shù)

public double rate;//學(xué)習(xí)系數(shù)

public BpDeep(int[] layernum, double rate, double mobp){

this.mobp = mobp;

this.rate = rate;

layer = new double[layernum.length][];

layerErr = new double[layernum.length][];

layer_weight = new double[layernum.length][][];

layer_weight_delta = new double[layernum.length][][];

Random random = new Random();

for(int l=0;l《layernum.length;l++){

layer[l]=new double[layernum[l]];

layerErr[l]=new double[layernum[l]];

if(l+1《layernum.length){

layer_weight[l]=new double[layernum[l]+1][layernum[l+1]];

layer_weight_delta[l]=new double[layernum[l]+1][layernum[l+1]];

for(int j=0;j《layernum[l]+1;j++)

for(int i=0;i《layernum[l+1];i++)

layer_weight[l][j][i]=random.nextDouble();//隨機(jī)初始化權(quán)重

}

}

}

//逐層向前計(jì)算輸出

public double[] computeOut(double[] in){

for(int l=1;l《layer.length;l++){

for(int j=0;j《layer[l].length;j++){

double z=layer_weight[l-1][layer[l-1].length][j];

for(int i=0;i《layer[l-1].length;i++){

layer[l-1][i]=l==1?in[i]:layer[l-1][i];

z+=layer_weight[l-1][i][j]*layer[l-1][i];

}

layer[l][j]=1/(1+Math.exp(-z));

}

}

return layer[layer.length-1];

}

//逐層反向計(jì)算誤差并修改權(quán)重

public void updateWeight(double[] tar){

int l=layer.length-1;

for(int j=0;j《layerErr[l].length;j++)

layerErr[l][j]=layer[l][j]*(1-layer[l][j])*(tar[j]-layer[l][j]);

while(l--》0){

for(int j=0;j《layerErr[l].length;j++){

double z = 0.0;

for(int i=0;i《layerErr[l+1].length;i++){

z=z+l》0?layerErr[l+1][i]*layer_weight[l][j][i]:0;

layer_weight_delta[l][j][i]= mobp*layer_weight_delta[l][j][i]+rate*layerErr[l+1][i]*layer[l][j];//隱含層動(dòng)量調(diào)整

layer_weight[l][j][i]+=layer_weight_delta[l][j][i];//隱含層權(quán)重調(diào)整

if(j==layerErr[l].length-1){

layer_weight_delta[l][j+1][i]= mobp*layer_weight_delta[l][j+1][i]+rate*layerErr[l+1][i];//截距動(dòng)量調(diào)整

layer_weight[l][j+1][i]+=layer_weight_delta[l][j+1][i];//截距權(quán)重調(diào)整

}

}

layerErr[l][j]=z*layer[l][j]*(1-layer[l][j]);//記錄誤差

}

}

}

public void train(double[] in, double[] tar){

double[] out = computeOut(in);

updateWeight(tar);

}

}

一個(gè)運(yùn)用神經(jīng)網(wǎng)絡(luò)的例子

最后我們找個(gè)簡單例子來看看神經(jīng)網(wǎng)絡(luò)神奇的效果。為了方便觀察數(shù)據(jù)分布,我們選用一個(gè)二維坐標(biāo)的數(shù)據(jù),下面共有4個(gè)數(shù)據(jù),方塊代表數(shù)據(jù)的類型為1,三角代表數(shù)據(jù)的類型為0,可以看到屬于方塊類型的數(shù)據(jù)有(1,2)和(2,1),屬于三角類型的數(shù)據(jù)有(1,1),(2,2),現(xiàn)在問題是需要在平面上將4個(gè)數(shù)據(jù)分成1和0兩類,并以此來預(yù)測(cè)新的數(shù)據(jù)的類型。

 

我們可以運(yùn)用邏輯回歸算法來解決上面的分類問題,但是邏輯回歸得到一個(gè)線性的直線做為分界線,可以看到上面的紅線無論怎么擺放,總是有一個(gè)樣本被錯(cuò)誤地劃分到不同類型中,所以對(duì)于上面的數(shù)據(jù),僅僅一條直線不能很正確地劃分他們的分類,如果我們運(yùn)用神經(jīng)網(wǎng)絡(luò)算法,可以得到下圖的分類效果,相當(dāng)于多條直線求并集來劃分空間,這樣準(zhǔn)確性更高。

 

下面是這個(gè)測(cè)試程序BpDeepTest.java的源碼:

import java.uTIl.Arrays;

public class BpDeepTest{

public staTIc void main(String[] args){

//初始化神經(jīng)網(wǎng)絡(luò)的基本配置

//第一個(gè)參數(shù)是一個(gè)整型數(shù)組,表示神經(jīng)網(wǎng)絡(luò)的層數(shù)和每層節(jié)點(diǎn)數(shù),比如{3,10,10,10,10,2}表示輸入層是3個(gè)節(jié)點(diǎn),輸出層是2個(gè)節(jié)點(diǎn),中間有4層隱含層,每層10個(gè)節(jié)點(diǎn)

//第二個(gè)參數(shù)是學(xué)習(xí)步長,第三個(gè)參數(shù)是動(dòng)量系數(shù)

BpDeep bp = new BpDeep(new int[]{2,10,2}, 0.15, 0.8);

//設(shè)置樣本數(shù)據(jù),對(duì)應(yīng)上面的4個(gè)二維坐標(biāo)數(shù)據(jù)

double[][] data = new double[][]{{1,2},{2,2},{1,1},{2,1}};

//設(shè)置目標(biāo)數(shù)據(jù),對(duì)應(yīng)4個(gè)坐標(biāo)數(shù)據(jù)的分類

double[][] target = new double[][]{{1,0},{0,1},{0,1},{1,0}};

//迭代訓(xùn)練5000次

for(int n=0;n《5000;n++)

for(int i=0;i《data.length;i++)

bp.train(data[i], target[i]);

//根據(jù)訓(xùn)練結(jié)果來檢驗(yàn)樣本數(shù)據(jù)

for(int j=0;j《data.length;j++){

double[] result = bp.computeOut(data[j]);

System.out.println(Arrays.toString(data[j])+“:”+Arrays.toString(result));

}

//根據(jù)訓(xùn)練結(jié)果來預(yù)測(cè)一條新數(shù)據(jù)的分類

double[] x = new double[]{3,1};

double[] result = bp.computeOut(x);

System.out.println(Arrays.toString(x)+“:”+Arrays.toString(result));

}

}

小結(jié)

以上測(cè)試程序顯示神經(jīng)網(wǎng)絡(luò)有很神奇的分類效果,實(shí)際上神經(jīng)網(wǎng)絡(luò)有一定優(yōu)勢(shì),但也不是接近人腦的萬能算法,很多時(shí)候它可能會(huì)讓我們失望,還需要結(jié)合各種場(chǎng)景的數(shù)據(jù)大量運(yùn)用去觀察其效果。我們可以把1層隱含層改成n層,并調(diào)整每層節(jié)點(diǎn)數(shù)、迭代次數(shù)、學(xué)習(xí)步長和動(dòng)量系數(shù),以獲得一個(gè)最優(yōu)化的結(jié)果。但是很多時(shí)候n層隱含層的效果并不比1層有明顯提升,反而計(jì)算更復(fù)雜耗時(shí),我們對(duì)神經(jīng)網(wǎng)絡(luò)的認(rèn)識(shí)還需要多實(shí)踐多體會(huì)。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動(dòng)力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉