去匿名化這個(gè)問(wèn)題怎樣用機(jī)器學(xué)習(xí)來(lái)解決
掃描二維碼
隨時(shí)隨地手機(jī)看文章
標(biāo)注或者去匿名化區(qū)塊鏈的思路可以讓區(qū)塊鏈分析更好地生態(tài)中已知參與者的行為模式和特征。直覺(jué)上我們可以考慮創(chuàng)建一些規(guī)則來(lái)分析區(qū)塊鏈生態(tài)系統(tǒng)中的不同成員,例如:
“如果一個(gè)地址持有大量比特幣地址并且一次執(zhí)行100個(gè)交易,那么這是一個(gè)交易所地址……”
雖然很有吸引力,但是基于規(guī)則的方法將很快失效,無(wú)法再提供有用的信息。下面列出了部分原因:
1. 預(yù)置知識(shí)的完整性:基于規(guī)則的分類(lèi)會(huì)假定我們對(duì)于如何識(shí)別區(qū)塊鏈生態(tài)中的 不同參與者有足夠的知識(shí)。這顯然是不正確的假設(shè)。
2. 持續(xù)的變化:區(qū)塊鏈解決方案的架構(gòu)一直都在演變,這對(duì)任何嵌入的規(guī)則而言都是挑戰(zhàn)。
3. 特征屬性的數(shù)量:創(chuàng)建一條有兩三個(gè)參數(shù)的規(guī)則很簡(jiǎn)單,但是試圖創(chuàng)建一條有幾十個(gè)甚至上百個(gè)參數(shù)的規(guī)則就沒(méi)那么簡(jiǎn)單了。要識(shí)別出像交易所或OTC柜臺(tái)這樣的 地址需要大量的特征。
因此我們不能使用預(yù)置的規(guī)則,我們需要一種可以從區(qū)塊鏈數(shù)據(jù)集中學(xué)習(xí)模式的機(jī)制來(lái)自動(dòng)推斷出有意義的規(guī)則讓我們可以標(biāo)注相關(guān)的參與方。從概念上來(lái)說(shuō),這是一個(gè)經(jīng)典的機(jī)器學(xué)習(xí)問(wèn)題。
從機(jī)器學(xué)習(xí)的觀(guān)點(diǎn),我們應(yīng)該從兩個(gè)主要途徑來(lái)考慮應(yīng)對(duì)去匿名化的挑戰(zhàn):
· 無(wú)監(jiān)督學(xué)習(xí):無(wú)監(jiān)督學(xué)習(xí)聚焦于學(xué)習(xí)指定數(shù)據(jù)集中存在的模式并識(shí)別相關(guān)分組。在區(qū)塊鏈數(shù)據(jù)集的上下文中,可以使用無(wú)監(jiān)督學(xué)習(xí)模型基于地址的特征將其匹配到不同的分組中并對(duì)這些分組進(jìn)行標(biāo)注。
· 監(jiān)督學(xué)習(xí):監(jiān)督學(xué)習(xí)方法可以利用已有的知識(shí)來(lái)學(xué)習(xí)指定數(shù)據(jù)集中的新的特性。在區(qū)塊鏈上下文中,可以使用監(jiān)督學(xué)習(xí)方法基于已有的交易所地址數(shù)據(jù)集訓(xùn)練一個(gè)模型來(lái)識(shí)別出新的交易所地址。
去匿名化或者給區(qū)塊鏈數(shù)據(jù)集打標(biāo)簽很少是只用監(jiān)督學(xué)習(xí)或者只用非監(jiān)督學(xué)習(xí),更多的情況下需要兩種方法的結(jié)合。機(jī)器學(xué)習(xí)模型可以有效地學(xué)習(xí)區(qū)塊鏈生態(tài)系統(tǒng)中特定參與者的特征,并利用這些特征來(lái)理解其行為。
在使用區(qū)塊鏈ETL工具將區(qū)塊鏈原始數(shù)據(jù)加載到數(shù)據(jù)庫(kù)或大數(shù)據(jù)分析平臺(tái)后,將標(biāo)注層引入?yún)^(qū)塊鏈數(shù)據(jù)集是進(jìn)行更有價(jià)值的區(qū)塊鏈數(shù)據(jù)分析的一個(gè)關(guān)鍵挑戰(zhàn)。
這些標(biāo)簽提供了更好的上下文環(huán)境,也讓區(qū)塊鏈分析模型具有更好的可解讀性。不過(guò)盡管我們有機(jī)器學(xué)習(xí)這樣強(qiáng)大的工具,去匿名性依然是分析理解區(qū)塊鏈生態(tài)系統(tǒng)的道路上一個(gè)不可忽視的重大路障。