區(qū)塊鏈技術(shù)為什么對(duì)機(jī)器學(xué)習(xí)模型至關(guān)重要

時(shí)間：2020-05-07 17:39:01

關(guān)鍵字：區(qū)塊鏈機(jī)器學(xué)習(xí) 模型區(qū)塊鏈技術(shù)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 當(dāng)與區(qū)塊鏈數(shù)據(jù)集一起使用時(shí)，機(jī)器學(xué)習(xí)模型往往會(huì)過(guò)擬合。什么是過(guò)度擬合以及如何解決？乍一看，使用機(jī)器學(xué)習(xí)來(lái)分析區(qū)塊鏈數(shù)據(jù)集的想法聽起來(lái)非常吸引人，但這是充滿挑戰(zhàn)的道路。在這些挑戰(zhàn)中，當(dāng)將

當(dāng)與區(qū)塊鏈數(shù)據(jù)集一起使用時(shí)，機(jī)器學(xué)習(xí)模型往往會(huì)過(guò)擬合。什么是過(guò)度擬合以及如何解決？

乍一看，使用機(jī)器學(xué)習(xí)來(lái)分析區(qū)塊鏈數(shù)據(jù)集的想法聽起來(lái)非常吸引人，但這是充滿挑戰(zhàn)的道路。在這些挑戰(zhàn)中，當(dāng)將機(jī)器學(xué)習(xí)方法應(yīng)用于區(qū)塊鏈數(shù)據(jù)集時(shí)，缺少標(biāo)記數(shù)據(jù)集仍然是要克服的最大難題。這些局限性導(dǎo)致許多機(jī)器學(xué)習(xí)模型使用非常小的數(shù)據(jù)樣本進(jìn)行操作，以訓(xùn)練和過(guò)度優(yōu)化那些引起過(guò)擬合現(xiàn)象的模型。今天，我想深入探討區(qū)塊鏈分析中的過(guò)度擬合挑戰(zhàn)，并提出一些解決方案。

過(guò)度擬合被認(rèn)為是現(xiàn)代深度學(xué)習(xí)應(yīng)用程序中的最大挑戰(zhàn)之一。從概念上講，當(dāng)模型生成的假設(shè)過(guò)于適合特定數(shù)據(jù)集的假設(shè)而無(wú)法適應(yīng)新數(shù)據(jù)集時(shí)，就會(huì)發(fā)生過(guò)度擬合。理解過(guò)度擬合的一個(gè)有用類比是將其視為模型中的幻覺。本質(zhì)上，模型從數(shù)據(jù)集中推斷出錯(cuò)誤的假設(shè)時(shí)會(huì)產(chǎn)生幻覺/過(guò)度擬合。自從機(jī)器學(xué)習(xí)的早期以來(lái)，已經(jīng)有很多關(guān)于過(guò)擬合的文章，所以我不認(rèn)為有任何聰明的方法來(lái)解釋它。對(duì)于區(qū)塊鏈數(shù)據(jù)集，過(guò)度擬合是缺少標(biāo)記數(shù)據(jù)的直接結(jié)果。

區(qū)塊鏈?zhǔn)谴笮偷陌肽涿麛?shù)據(jù)結(jié)構(gòu)，其中的所有事物都使用一組通用的構(gòu)造表示，例如交易，地址和區(qū)塊。從這個(gè)角度來(lái)看，有最少的信息可以證明區(qū)塊鏈記錄。這是轉(zhuǎn)賬還是付款交易？這是個(gè)人投資者錢包或交易所冷錢包的地址？這些限定符對(duì)于機(jī)器學(xué)習(xí)模型至關(guān)重要。

想象一下，我們正在創(chuàng)建一個(gè)模型來(lái)檢測(cè)一組區(qū)塊鏈中的交換地址。這個(gè)過(guò)程需要我們使用現(xiàn)有的區(qū)塊鏈地址數(shù)據(jù)集訓(xùn)練模型，我們都知道這不是很常見。如果我們使用來(lái)自EtherScan或其他來(lái)源的小型數(shù)據(jù)集，則該模型可能會(huì)過(guò)度擬合并做出錯(cuò)誤的分類。

使過(guò)擬合變得如此具有挑戰(zhàn)性的方面之一是很難在不同的深度學(xué)習(xí)技術(shù)中進(jìn)行概括。卷積神經(jīng)網(wǎng)絡(luò)傾向于形成過(guò)擬合模式，該模式與觀察到的與生成模型不同的遞歸神經(jīng)網(wǎng)絡(luò)不同，該模式可以外推到任何類型的深度學(xué)習(xí)模型。具有諷刺意味的是，過(guò)度擬合的傾向隨著深度學(xué)習(xí)模型的計(jì)算能力線性增加。由于深度學(xué)習(xí)主體幾乎可以免費(fèi)產(chǎn)生復(fù)雜的假設(shè)，因此過(guò)擬合的可能性增加了。

在機(jī)器學(xué)習(xí)模型中，過(guò)度擬合是一個(gè)持續(xù)的挑戰(zhàn)，但是在使用區(qū)塊鏈數(shù)據(jù)集時(shí)，這幾乎是必然的。解決過(guò)度擬合的明顯答案是使用更大的訓(xùn)練數(shù)據(jù)集，但這并不總是一種選擇。在IntoTheBlock，我們經(jīng)常遇到過(guò)度擬合的挑戰(zhàn)，我們依靠一系列基本方法來(lái)解決問題。

對(duì)抗區(qū)塊鏈數(shù)據(jù)集過(guò)擬合的三種簡(jiǎn)單策略

對(duì)抗過(guò)度擬合的第一個(gè)規(guī)則是認(rèn)識(shí)到這一點(diǎn)。雖然沒有防止過(guò)度擬合的靈丹妙藥，但實(shí)踐經(jīng)驗(yàn)表明，一些簡(jiǎn)單的，幾乎是常識(shí)的規(guī)則可以幫助防止在深度學(xué)習(xí)應(yīng)用中出現(xiàn)這種現(xiàn)象。為了防止過(guò)度擬合，已經(jīng)發(fā)布了數(shù)十種最佳實(shí)踐，其中包含三個(gè)基本概念。

數(shù)據(jù)/假設(shè)比率

當(dāng)模型產(chǎn)生太多假設(shè)而沒有相應(yīng)的數(shù)據(jù)來(lái)驗(yàn)證它們時(shí)，通常會(huì)發(fā)生過(guò)度擬合。因此，深度學(xué)習(xí)應(yīng)用程序應(yīng)嘗試在測(cè)試數(shù)據(jù)集和應(yīng)評(píng)估的假設(shè)之間保持適當(dāng)?shù)谋嚷?。但是，這并不總是一種選擇。

有許多深度學(xué)習(xí)算法（例如歸納學(xué)習(xí)）依賴于不斷生成新的，有時(shí)是更復(fù)雜的假設(shè)。在這些情況下，有一些統(tǒng)計(jì)技術(shù)可以幫助估計(jì)正確的假設(shè)數(shù)量，以優(yōu)化找到接近正確的假設(shè)的機(jī)會(huì)。盡管此方法無(wú)法提供確切的答案，但可以幫助在假設(shè)數(shù)量和數(shù)據(jù)集組成之間保持統(tǒng)計(jì)平衡的比率。哈佛大學(xué)教授萊斯利·瓦利安特（Leslie Valiant）在他的《大概是正確的》一書中出色地解釋了這一概念。

進(jìn)行區(qū)塊鏈分析時(shí)，數(shù)據(jù)/假設(shè)比率非常明顯。假設(shè)我們正在基于一年的區(qū)塊鏈交易構(gòu)建預(yù)測(cè)算法。因?yàn)槲覀儾淮_定要測(cè)試哪種機(jī)器學(xué)習(xí)模型，所以我們使用了一種神經(jīng)架構(gòu)搜索（NAS）方法，該方法針對(duì)區(qū)塊鏈數(shù)據(jù)集測(cè)試了數(shù)百種模型。假設(shè)數(shù)據(jù)集僅包含一年的交易，則NAS方法可能會(huì)產(chǎn)生一個(gè)完全適合訓(xùn)練數(shù)據(jù)集的模型。

支持簡(jiǎn)單假設(shè)

防止深度學(xué)習(xí)模型過(guò)度擬合的概念上瑣碎但技術(shù)上困難的想法是不斷生成更簡(jiǎn)單的假設(shè)。當(dāng)然！簡(jiǎn)單總是更好，不是嗎？但是在深度學(xué)習(xí)算法的背景下，一個(gè)更簡(jiǎn)單的假設(shè)是什么？如果我們需要將其減少到一個(gè)定量因素，我會(huì)說(shuō)深度學(xué)習(xí)假設(shè)中的屬性數(shù)量與它的復(fù)雜度成正比。

簡(jiǎn)單的假設(shè)往往比其他具有大量計(jì)算和認(rèn)知屬性的假設(shè)更易于評(píng)估。因此，與復(fù)雜模型相比，較簡(jiǎn)單的模型通常不易過(guò)擬合?，F(xiàn)在，下一個(gè)明顯的難題是弄清楚如何在深度學(xué)習(xí)模型中生成更簡(jiǎn)單的假設(shè)。一種不太明顯的技術(shù)是基于估計(jì)的復(fù)雜度將某種形式的懲罰附加到算法上。該機(jī)制傾向于傾向于更簡(jiǎn)單，近似準(zhǔn)確的假設(shè)，而不是在出現(xiàn)新數(shù)據(jù)集時(shí)可能會(huì)崩潰的更復(fù)雜（有時(shí)甚至更準(zhǔn)確）的假設(shè)。

為了在區(qū)塊鏈分析的背景下解釋這個(gè)想法，讓我們想象一下我們正在建立一個(gè)模型，用于對(duì)區(qū)塊鏈中的支付交易進(jìn)行分類。該模型使用一個(gè)復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)，該網(wǎng)絡(luò)會(huì)生成1000個(gè)特征以執(zhí)行分類。如果將其應(yīng)用于較小的區(qū)塊鏈（例如Dash或Litecoin），則該模型很可能會(huì)過(guò)擬合。

偏差/方差余額

偏差和方差是深度學(xué)習(xí)模型中的兩個(gè)關(guān)鍵估計(jì)量。從概念上講，偏差是模型的平均預(yù)測(cè)與我們?cè)噲D預(yù)測(cè)的正確值之間的差。具有高偏差的模型很少關(guān)注訓(xùn)練數(shù)據(jù)，從而簡(jiǎn)化了模型?？偸菚?huì)導(dǎo)致培訓(xùn)和測(cè)試數(shù)據(jù)的錯(cuò)誤率很高?；蛘撸讲钍侵附o定數(shù)據(jù)點(diǎn)的模型預(yù)測(cè)的可變性或一個(gè)告訴我們數(shù)據(jù)分布的值。具有高方差的模型將大量注意力放在訓(xùn)練數(shù)據(jù)上，并且沒有對(duì)以前從未見過(guò)的數(shù)據(jù)進(jìn)行概括。結(jié)果，這樣的模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)很好，但是在測(cè)試數(shù)據(jù)上有很高的錯(cuò)誤率。

偏差和方差與過(guò)度擬合如何相關(guān)？用超簡(jiǎn)單的術(shù)語(yǔ)來(lái)說(shuō)，可以通過(guò)減少模型的偏差而不增加其方差來(lái)概括泛化的技巧。深度學(xué)習(xí)的一種良好做法是對(duì)它進(jìn)行建模，以定期將產(chǎn)生的假設(shè)與測(cè)試數(shù)據(jù)集進(jìn)行比較并評(píng)估結(jié)果。如果假設(shè)繼續(xù)輸出相同的錯(cuò)誤，則說(shuō)明我們存在很大的偏差問題，需要調(diào)整或替換算法。相反，如果沒有明確的錯(cuò)誤模式，則問題在于差異，我們需要更多數(shù)據(jù)。

綜上所述

? 任何低復(fù)雜度模型-由于高偏差和低方差，容易出現(xiàn)擬合不足。

? 任何高復(fù)雜度模型（深度神經(jīng)網(wǎng)絡(luò)）-由于低偏差和高方差，容易出現(xiàn)過(guò)度擬合。

在區(qū)塊鏈分析的背景下，偏差方差摩擦無(wú)處不在。讓我們回到我們的算法，該算法嘗試使用許多區(qū)塊鏈因素來(lái)預(yù)測(cè)價(jià)格。如果我們使用簡(jiǎn)單的線性回歸方法，則該模型可能不合適。但是，如果我們使用具有少量數(shù)據(jù)集的超復(fù)雜神經(jīng)網(wǎng)絡(luò)，則該模型可能會(huì)過(guò)擬合。

使用機(jī)器學(xué)習(xí)來(lái)分析區(qū)塊鏈數(shù)據(jù)是一個(gè)新生的空間。結(jié)果，大多數(shù)模型在機(jī)器學(xué)習(xí)應(yīng)用程序中都遇到了傳統(tǒng)挑戰(zhàn)。根本上，由于缺乏標(biāo)記數(shù)據(jù)和訓(xùn)練有素的模型，過(guò)度擬合是區(qū)塊鏈分析中無(wú)所不在的挑戰(zhàn)之一。