當(dāng)前位置:首頁(yè) > 公眾號(hào)精選 > 小林coding
[導(dǎo)讀]要有目標(biāo)。你需要有目標(biāo)。短的也好,長(zhǎng)的也好。認(rèn)真定下的也好,別人那里撿的也好。就跟隨機(jī)梯度下降需要有個(gè)目標(biāo)函數(shù)一樣。目標(biāo)要大。不管是人生目標(biāo)還是目標(biāo)函數(shù),你最好不要知道最后可以走到哪里。如果你知道,那么你的目標(biāo)就太簡(jiǎn)單了,可能是個(gè)凸函數(shù)。你可以在一開始的時(shí)候給自己一些小目標(biāo),例如...

要有目標(biāo)。你需要有目標(biāo)。短的也好,長(zhǎng)的也好。認(rèn)真定下的也好,別人那里撿的也好。就跟隨機(jī)梯度下降需要有個(gè)目標(biāo)函數(shù)一樣。

目標(biāo)要大。不管是人生目標(biāo)還是目標(biāo)函數(shù),你最好不要知道最后可以走到哪里。如果你知道,那么你的目標(biāo)就太簡(jiǎn)單了,可能是個(gè)凸函數(shù)。你可以在一開始的時(shí)候給自己一些小目標(biāo),例如期末考個(gè)80分,訓(xùn)練一個(gè)線性模型。但接下來(lái)得有更大的目標(biāo),財(cái)富自由也好,100億參數(shù)的變形金剛也好,得足夠一顆賽艇。
堅(jiān)持走。不管你的目標(biāo)多復(fù)雜,隨機(jī)梯度下降都是最簡(jiǎn)單的。每一次你找一個(gè)大概還行的方向(梯度),然后邁一步(下降)。兩個(gè)核心要素是方向和步子的長(zhǎng)短。但最重要的是你得一直走下去,能多走幾步就多走幾步。
痛苦的卷。每一步里你都在試圖改變你自己或者你的模型參數(shù)。改變帶來(lái)痛苦。但沒有改變就沒有進(jìn)步。你過(guò)得很痛苦不代表在朝著目標(biāo)走,因?yàn)槟憧赡茏叻戳恕5^(guò)得很舒服那一定在原地踏步。需要時(shí)刻跟自己作對(duì)。
可以躺平。你用你內(nèi)心的激情來(lái)邁步子。步子太小走不動(dòng),步子太長(zhǎng)容易過(guò)早消耗掉了激情。周期性的調(diào)大調(diào)小步長(zhǎng)效果挺好。所以你可以時(shí)不時(shí)休息休息。
四處看看。每一步走的方向是你對(duì)世界的認(rèn)識(shí)。如果你探索的世界不怎么變化,那么要么你的目標(biāo)太簡(jiǎn)單,要么你困在你的舒適區(qū)了。隨機(jī)梯度下降的第一個(gè)詞是隨機(jī),就是你需要四處走走,看過(guò)很多地方,做些錯(cuò)誤的決定,這樣你可以在前期邁過(guò)一些不是很好的舒適區(qū)。
快也是慢。你沒有必要特意去追求找到最好的方向和最合適的步子。你身邊當(dāng)然會(huì)有幸運(yùn)之子,他們每一步都在別人前面。但經(jīng)驗(yàn)告訴我們,隨機(jī)梯度下降前期進(jìn)度太快,后期可能乏力。就是說(shuō)你過(guò)早的找到一個(gè)舒適區(qū),忘了世界有多大。所以你不要急,前面徘徊一段時(shí)間不是壞事。成名無(wú)需太早。
贏在起點(diǎn)。起點(diǎn)當(dāng)然重要。如果你在終點(diǎn)附近起步,可以少走很多路。而且終點(diǎn)附近的路都比較平,走著舒服。當(dāng)你發(fā)現(xiàn)別人不如你的時(shí)候,看看自己站在哪里??赡苣憔褪沁\(yùn)氣很好,贏在了起跑線。如果你跟別人在同一起跑線,不見得你能做更好。
很遠(yuǎn)也能到達(dá)。如果你是在隨機(jī)起點(diǎn),那么做好準(zhǔn)備前面的路會(huì)非常不平坦。越遠(yuǎn)離終點(diǎn),越人跡罕見。四處都是懸崖。但隨機(jī)梯度下降告訴我們,不管起點(diǎn)在哪里,最后得到的解都差不多。當(dāng)然這個(gè)前提是你得一直按照梯度的方向走下去。如果中間梯度炸掉了,那么你隨機(jī)一個(gè)起點(diǎn),調(diào)整步子節(jié)奏,重新來(lái)。
獨(dú)一無(wú)二。也許大家有著差不多的目標(biāo),在差不多的時(shí)間畢業(yè)買房結(jié)婚生娃。但每一步里,每個(gè)人內(nèi)心中看到的世界都不一樣,導(dǎo)致走的路不一樣。你如果跑多次隨機(jī)梯度下降,在各個(gè)時(shí)間點(diǎn)的目標(biāo)函數(shù)值可能都差不多,但每次的參數(shù)千差萬(wàn)別。不會(huì)有人關(guān)心你每次訓(xùn)練出來(lái)的模型里面參數(shù)具體是什么值,除了你自己。簡(jiǎn)單最好?。當(dāng)然有比隨機(jī)梯度下降更復(fù)雜的算法。他們想每一步看想更遠(yuǎn)更準(zhǔn),想步子邁最大。但如果你的目標(biāo)很復(fù)雜,簡(jiǎn)單的隨機(jī)梯度下降反而效果最好。深度學(xué)習(xí)里大家都用它。關(guān)注當(dāng)前,每次抬頭瞄一眼世界,快速做個(gè)決定,然后邁一小步。小步快跑。只要你有目標(biāo),不要停,就能到達(dá)。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
關(guān)閉
關(guān)閉