當(dāng)前位置:首頁 > 智能硬件 > 人工智能AI
[導(dǎo)讀]     神經(jīng)網(wǎng)絡(luò)通常由一個線性層和非線性函數(shù)(比如 tanh 和修正線性單元 ReLU)堆棧而成。如果沒有非線性,理論上一連串的線性層和單一的線性層在數(shù)學(xué)上是等價的。因此浮點(diǎn)運(yùn)算是非線性的,并足

    神經(jīng)網(wǎng)絡(luò)通常由一個線性層和非線性函數(shù)(比如 tanh 和修正線性單元 ReLU)堆棧而成。如果沒有非線性,理論上一連串的線性層和單一的線性層在數(shù)學(xué)上是等價的。因此浮點(diǎn)運(yùn)算是非線性的,并足以訓(xùn)練深度網(wǎng)絡(luò)。這很令人驚訝。

  背景

  計算機(jī)使用的數(shù)字并不是完美的數(shù)學(xué)對象,而是使用有限個比特的近似表示。浮點(diǎn)數(shù)通常被計算機(jī)用于表示數(shù)學(xué)對象。每一個浮點(diǎn)數(shù)由小數(shù)和指數(shù)的組合構(gòu)成。在 IEEE 的 float32 標(biāo)準(zhǔn)中,小數(shù)分配了 23 個比特,指數(shù)分配了 8 個比特,還有一個比特是表示正負(fù)的符號位 sign。

  

  按照這種慣例和二進(jìn)制格式,以二進(jìn)制表示的最小非零正常數(shù)是 1.0..0 x 2^-126,以下用 min 來指代。而下一個可表示的數(shù)是 1.0..01 x 2^-126,可以寫作 min+0.0..01 x 2^-126。很顯然,第一和第二個數(shù)之間的 gap 比 0 和 min 之間的 gap 小了 2^20 倍。在 float32 標(biāo)準(zhǔn)中,當(dāng)一個數(shù)比最小的可表示數(shù)還小的時候,則該數(shù)字將被映射為零。因此,近鄰零的所有包含浮點(diǎn)數(shù)的計算都將是非線性的。(而反常數(shù)是例外,它們在一些計算硬件上可能不可用。在我們的案例中通過設(shè)置歸零(flush to zero,F(xiàn)TZ)解決這個問題,即將所有的反常數(shù)當(dāng)成零。)

  因此,雖然通常情況下,所有的數(shù)字和其浮點(diǎn)數(shù)表示之間的區(qū)別很小,但是在零附近會出現(xiàn)很大的 gap,而這個近似誤差可能帶來很大影響。

  

  這會導(dǎo)致一些奇怪的影響,一些常用的數(shù)學(xué)規(guī)則無法發(fā)揮作用。比如,(a + b) x c 不等于 a x c + b x c。

  比如,如果你設(shè)置 a = 0.4 x min,b = 0.5 x min,c = 1 / min。

  則:(a+b) x c = (0.4 x min + 0.5 x min) x 1 / min = (0 + 0) x 1 / min = 0。

  然而:(a x c) + (b x c) = 0.4 x min / min + 0.5 x min x 1 / min = 0.9。

  再比如,我們可以設(shè)置 a = 2.5 x min,b = -1.6 x min,c = 1 x min。

  則:(a+b) + c = (0) + 1 x min = min

  然而:(b+c) + a = (0 x min) + 2.5 x min = 2.5 x min。

  在這種小尺度的情況下,基礎(chǔ)的加法運(yùn)算變成非線性的了!

  使用進(jìn)化策略利用非線性

  我們想知道這種內(nèi)在非線性是否可以作為計算非線性的方法,如果可以,則深度線性網(wǎng)絡(luò)能夠執(zhí)行非線性運(yùn)算。挑戰(zhàn)在于現(xiàn)代微分庫在非線性尺度較小時會忽略它們。因此,使用反向傳播利用非線性訓(xùn)練神經(jīng)網(wǎng)絡(luò)很困難或不可能。

  我們可以使用進(jìn)化策略(ES),無需依賴符號微分(symbolic differenTIaTIon)法就可以評估梯度。使用進(jìn)化策略,我們可以將 float32 的零點(diǎn)鄰域(near-zero)行為作為計算非線性的方法。深度線性網(wǎng)絡(luò)通過反向傳播在 MNIST 數(shù)據(jù)集上訓(xùn)練時,可獲取 94% 的訓(xùn)練準(zhǔn)確率和 92% 的測試準(zhǔn)確率(機(jī)器之心使用三層全連接網(wǎng)絡(luò)可獲得 98.51% 的測試準(zhǔn)確率)。相對而言,相同的線性網(wǎng)絡(luò)使用進(jìn)化策略訓(xùn)練可獲取大于 99% 的訓(xùn)練準(zhǔn)確率、96.7% 的測試準(zhǔn)確率,確保激活值足夠小而分布在 float32 的非線性區(qū)間內(nèi)。訓(xùn)練性能的提升原因在于在 float32 表征中使用非線性的進(jìn)化策略。這些強(qiáng)大的非線性允許任意層生成新的特征,這些特征是低級別特征的非線性組合。以下是網(wǎng)絡(luò)結(jié)構(gòu):

  在上面的代碼中,我們可以看出該網(wǎng)絡(luò)一共 4 層,第一層為 784(28*28)個輸入神經(jīng)元,這個數(shù)量必須和 MNIST 數(shù)據(jù)集中單張圖片所包含像素點(diǎn)數(shù)相同。第二層與第三層都為隱藏層且每層有 512 個神經(jīng)元,最后一層為輸出的 10 個分類類別。其中每兩層之間的全連接權(quán)重為服從正態(tài)分布的隨機(jī)初始化值。nr_params 為加和所有參數(shù)的累乘。下面定義一個 get_logist() 函數(shù),該函數(shù)的輸入變量 par 應(yīng)該可以是上面定義的 nr_params,因為定義添加偏置項的索引為 1、3、5,這個正好和前面定義的 nr_params 相符,但 OpenAI并沒有給出該函數(shù)的調(diào)用過程。該函數(shù)第一個表達(dá)式計算第一層和第二層之間的前向傳播結(jié)果,即計算輸入 x 與 w1 之間的乘積再加上縮放后的偏置項(前面 b1、b2、b3 都定義為零向量)。后面兩步的計算也基本相似,最后返回的 o 應(yīng)該是圖片識別的類別。不過 OpenAI 只給出了網(wǎng)絡(luò)架構(gòu),而并沒有給出優(yōu)化方法和損失函數(shù)等內(nèi)容。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉