當(dāng)前位置:首頁 > 物聯(lián)網(wǎng) > 區(qū)塊鏈
[導(dǎo)讀] 當(dāng)與區(qū)塊鏈數(shù)據(jù)集一起使用時,機器學(xué)習(xí)模型往往會過度擬合。什么是過度擬合,如何解決? 使用機器學(xué)習(xí)來分析區(qū)塊鏈數(shù)據(jù)集的想法乍一看非常吸引人,但它充滿了挑戰(zhàn)。在這些挑戰(zhàn)中,缺少標(biāo)記的數(shù)據(jù)集仍

當(dāng)與區(qū)塊鏈數(shù)據(jù)集一起使用時,機器學(xué)習(xí)模型往往會過度擬合。什么是過度擬合,如何解決?

使用機器學(xué)習(xí)來分析區(qū)塊鏈數(shù)據(jù)集的想法乍一看非常吸引人,但它充滿了挑戰(zhàn)。在這些挑戰(zhàn)中,缺少標(biāo)記的數(shù)據(jù)集仍然是應(yīng)用機器學(xué)習(xí)方法到區(qū)塊鏈數(shù)據(jù)集時需要克服的最大困難。

這些限制導(dǎo)致許多機器學(xué)習(xí)模型使用非常小的數(shù)據(jù)樣本進行訓(xùn)練和過度優(yōu)化,從而導(dǎo)致一種稱為過度擬合的現(xiàn)象。今天,我想深入探討一下區(qū)塊鏈分析中的過度擬合問題,并提出一些解決方法。

過度擬合被認(rèn)為是現(xiàn)代深度學(xué)習(xí)應(yīng)用中最大的挑戰(zhàn)之一。從概念上講,當(dāng)模型生成的假設(shè)過于針對特定數(shù)據(jù)集而導(dǎo)致無法適應(yīng)新數(shù)據(jù)集時,就會發(fā)生過度擬合。

理解過度擬合的一個有用的類比是將其視為模型中的幻覺。本質(zhì)上,當(dāng)一個模型從數(shù)據(jù)集中推斷出不正確的假設(shè)時,它就會產(chǎn)生幻覺/過度擬合。

自從早期的機器學(xué)習(xí)以來,已經(jīng)有很多關(guān)于過度擬合的文章,所以我不認(rèn)為有任何聰明的方法來解釋它。在區(qū)塊鏈數(shù)據(jù)集的情況下,過度擬合是缺乏標(biāo)記數(shù)據(jù)的直接結(jié)果。區(qū)塊鏈?zhǔn)谴笮偷?、半匿名的?shù)據(jù)結(jié)構(gòu),在這種結(jié)構(gòu)中,所有東西都用一組公共結(jié)構(gòu)表示,比如交易、地址和區(qū)塊。

從這個角度來看,區(qū)塊鏈記錄的限定信息是最少的。是交易、轉(zhuǎn)賬還是付款?是個人投資者的錢包還是交易所的冷錢包?這些限定詞對于機器學(xué)習(xí)模型是必不可少的。

假設(shè)我們正在創(chuàng)建一個模型來檢測一組區(qū)塊鏈中的交換地址。這個過程需要我們使用現(xiàn)有的區(qū)塊鏈地址數(shù)據(jù)集來訓(xùn)練模型,我們都知道這些數(shù)據(jù)集并不常見。如果我們使用EtherScan或其他來源的小數(shù)據(jù)集,模型可能會過度擬合并做出錯誤的分類。

使過度擬合如此具有挑戰(zhàn)性的一個方面是,很難在不同的深度學(xué)習(xí)技術(shù)中推廣。卷積神經(jīng)網(wǎng)絡(luò)傾向于形成與遞歸神經(jīng)網(wǎng)絡(luò)不同的過擬合模式,而遞歸神經(jīng)網(wǎng)絡(luò)又不同于生成模式,這種模式可以外推到任何類型的深度學(xué)習(xí)模型。

具有諷刺意味的是,過度擬合的傾向與深度學(xué)習(xí)模型的計算能力成線性關(guān)系。由于深度學(xué)習(xí)代理可以生成復(fù)雜的假設(shè),而且?guī)缀醪恍枰魏纬杀?,因此過度擬合的傾向就會增加。在機器學(xué)習(xí)模型中,過度擬合是一個持續(xù)的挑戰(zhàn),但在處理區(qū)塊鏈數(shù)據(jù)集時,它幾乎是一個給定的問題。解決過度擬合的明顯方法是使用更大的訓(xùn)練數(shù)據(jù)集,但這并不總是可行的。在IntoTheBlock,我們經(jīng)常遇到過度擬合的挑戰(zhàn)。

在區(qū)塊鏈數(shù)據(jù)集中對抗過度擬合的三個簡單策略

與過度擬合作斗爭的首要原則是認(rèn)識到它。雖然沒有防止過度擬合的靈丹妙藥,但實踐經(jīng)驗表明,一些簡單的、幾乎是常識的規(guī)則有助于在深度學(xué)習(xí)應(yīng)用中防止這種現(xiàn)象。

在已經(jīng)發(fā)布的防止過度擬合的幾十個最佳實踐中,有三個基本的思想包含了其中的大多數(shù)。

數(shù)據(jù)/假設(shè)比率

過度擬合通常發(fā)生在一個模型產(chǎn)生了太多的假設(shè)而沒有相應(yīng)的數(shù)據(jù)來驗證它們的時候。因此,深度學(xué)習(xí)應(yīng)用程序應(yīng)該嘗試在測試數(shù)據(jù)集和應(yīng)該評估的假設(shè)之間保持適當(dāng)?shù)谋壤H欢?,這并不總是一個選擇。

有許多深度學(xué)習(xí)算法,如歸納學(xué)習(xí),依賴于不斷產(chǎn)生新的,有時更復(fù)雜的假設(shè)。在這些場景中,有一些統(tǒng)計技術(shù)可以幫助估計正確的假設(shè)數(shù)量,從而優(yōu)化找到接近正確的假設(shè)的機會。

雖然這種方法不能提供準(zhǔn)確的答案,但它有助于保持假設(shè)數(shù)量和數(shù)據(jù)集組成之間的統(tǒng)計平衡。哈佛大學(xué)教授萊斯利·瓦蘭特在他的書中精采地解釋了這一概念。

當(dāng)進行區(qū)塊鏈分析時,數(shù)據(jù)/假設(shè)的比例非常明顯。假設(shè)我們正在構(gòu)建一個基于一年區(qū)塊鏈交易的預(yù)測算法。

因為我們不確定要測試哪個機器學(xué)習(xí)模型,所以我們使用神經(jīng)架構(gòu)搜索(NAS)方法,該方法針對區(qū)塊鏈數(shù)據(jù)集測試數(shù)百個模型。

考慮到數(shù)據(jù)集只包含一年的交易,NAS方法可能會生成一個完全適合訓(xùn)練數(shù)據(jù)集的模型。

支持簡單的假設(shè)

在深度學(xué)習(xí)模型中,防止過度擬合的一個概念上瑣碎但技術(shù)上困難的想法是不斷生成更簡單的假設(shè)。當(dāng)然!簡單總是更好的,不是嗎?

但在深度學(xué)習(xí)算法的背景下,有什么更簡單的假設(shè)呢?如果我們需要將其歸結(jié)為一個量化的因素,我會說深度學(xué)習(xí)假設(shè)中屬性的數(shù)量與復(fù)雜度成正比。

簡單的假設(shè)往往比其他有大量屬性的假設(shè)更容易評估,無論是在計算上還是在認(rèn)知上。

因此,與復(fù)雜的模型相比,簡單的模型通常不太容易過度擬合。下一個明顯的難題是如何在深度學(xué)習(xí)模型中生成更簡單的假設(shè)。

一種不太明顯的技術(shù)是根據(jù)算法的估計復(fù)雜度對其附加某種形式的懲罰。這種機制傾向于更簡單、更準(zhǔn)確的假設(shè),而不是更復(fù)雜、有時更準(zhǔn)確的假設(shè)。

為了在區(qū)塊鏈分析中解釋這個概念,讓我們假設(shè)我們正在構(gòu)建一個在區(qū)塊鏈中對支付交易進行分類的模型。

該模型使用一個復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)生成1000個特征來進行分類。如果應(yīng)用于較小的區(qū)塊鏈,如Dash或Litecoin,該模型很可能會過度擬合。

偏差/方差平衡

偏差和方差是深度學(xué)習(xí)模型的兩個關(guān)鍵估計量。從概念上講,偏差是我們模型的平均預(yù)測值與我們試圖預(yù)測的正確值之間的差異。高偏差模型對訓(xùn)練數(shù)據(jù)的重視程度低,模型過于簡化。它往往會導(dǎo)致訓(xùn)練和測試數(shù)據(jù)的高誤差。

或者,方差指的是模型對給定數(shù)據(jù)點或值的預(yù)測的可變性,它告訴我們數(shù)據(jù)的分布。高方差模型對訓(xùn)練數(shù)據(jù)非常重視,對未見過的數(shù)據(jù)不進行泛化。因此,這樣的模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)得很好,但在測試數(shù)據(jù)上有很高的錯誤率。

偏差和方差如何與過度擬合相關(guān)?在超簡單的術(shù)語中,概括的藝術(shù)可以通過減少模型的偏差而不增加其方差來概括。

在深度學(xué)習(xí)模型中,定期將生成的假設(shè)與測試數(shù)據(jù)集進行比較并評估結(jié)果是一個很好的實踐。如果假設(shè)繼續(xù)輸出相同的錯誤,那么我們就有一個很大的偏差問題,我們需要調(diào)整或替換算法。如果錯誤沒有清晰的模式,那么問題就是不一致,我們需要更多的數(shù)據(jù)。總而言之:

· 任何低復(fù)雜度的模型都會因為高偏差和低方差而傾向于擬合不足。

· 任何高復(fù)雜度的模型(深度神經(jīng)網(wǎng)絡(luò))都會因為低偏差和高方差而傾向于過度擬合。

在區(qū)塊鏈分析中,偏差-方差摩擦無處不在。讓我們回到我們的算法,試圖預(yù)測價格與許多區(qū)塊鏈因素。如果我們使用簡單的線性回歸方法,模型很可能不適合。然而,如果我們使用一個具有小數(shù)據(jù)集的超級復(fù)雜的神經(jīng)網(wǎng)絡(luò),模型可能會過度擬合。

使用機器學(xué)習(xí)來分析區(qū)塊鏈數(shù)據(jù)是一個非常新興的領(lǐng)域。因此,大多數(shù)模型都遇到了機器學(xué)習(xí)應(yīng)用程序的傳統(tǒng)挑戰(zhàn)。

過度擬合是區(qū)塊鏈分析中無處不在的挑戰(zhàn)之一,其根本原因是缺乏標(biāo)記數(shù)據(jù)和訓(xùn)練過的模型。沒有什么神奇的解決方案可以解決過度擬合的問題,但是本文中列出的一些原則已經(jīng)被證明對IntoTheBlock是有效的。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉