去匿名化這個問題怎樣用機(jī)器學(xué)習(xí)來解決
掃描二維碼
隨時隨地手機(jī)看文章
標(biāo)注或者去匿名化區(qū)塊鏈的思路可以讓區(qū)塊鏈分析更好地生態(tài)中已知參與者的行為模式和特征。直覺上我們可以考慮創(chuàng)建一些規(guī)則來分析區(qū)塊鏈生態(tài)系統(tǒng)中的不同成員,例如:
“如果一個地址持有大量比特幣地址并且一次執(zhí)行100個交易,那么這是一個交易所地址……”
雖然很有吸引力,但是基于規(guī)則的方法將很快失效,無法再提供有用的信息。下面列出了部分原因:
1. 預(yù)置知識的完整性:基于規(guī)則的分類會假定我們對于如何識別區(qū)塊鏈生態(tài)中的 不同參與者有足夠的知識。這顯然是不正確的假設(shè)。
2. 持續(xù)的變化:區(qū)塊鏈解決方案的架構(gòu)一直都在演變,這對任何嵌入的規(guī)則而言都是挑戰(zhàn)。
3. 特征屬性的數(shù)量:創(chuàng)建一條有兩三個參數(shù)的規(guī)則很簡單,但是試圖創(chuàng)建一條有幾十個甚至上百個參數(shù)的規(guī)則就沒那么簡單了。要識別出像交易所或OTC柜臺這樣的 地址需要大量的特征。
因此我們不能使用預(yù)置的規(guī)則,我們需要一種可以從區(qū)塊鏈數(shù)據(jù)集中學(xué)習(xí)模式的機(jī)制來自動推斷出有意義的規(guī)則讓我們可以標(biāo)注相關(guān)的參與方。從概念上來說,這是一個經(jīng)典的機(jī)器學(xué)習(xí)問題。
從機(jī)器學(xué)習(xí)的觀點,我們應(yīng)該從兩個主要途徑來考慮應(yīng)對去匿名化的挑戰(zhàn):
· 無監(jiān)督學(xué)習(xí):無監(jiān)督學(xué)習(xí)聚焦于學(xué)習(xí)指定數(shù)據(jù)集中存在的模式并識別相關(guān)分組。在區(qū)塊鏈數(shù)據(jù)集的上下文中,可以使用無監(jiān)督學(xué)習(xí)模型基于地址的特征將其匹配到不同的分組中并對這些分組進(jìn)行標(biāo)注。
· 監(jiān)督學(xué)習(xí):監(jiān)督學(xué)習(xí)方法可以利用已有的知識來學(xué)習(xí)指定數(shù)據(jù)集中的新的特性。在區(qū)塊鏈上下文中,可以使用監(jiān)督學(xué)習(xí)方法基于已有的交易所地址數(shù)據(jù)集訓(xùn)練一個模型來識別出新的交易所地址。
去匿名化或者給區(qū)塊鏈數(shù)據(jù)集打標(biāo)簽很少是只用監(jiān)督學(xué)習(xí)或者只用非監(jiān)督學(xué)習(xí),更多的情況下需要兩種方法的結(jié)合。機(jī)器學(xué)習(xí)模型可以有效地學(xué)習(xí)區(qū)塊鏈生態(tài)系統(tǒng)中特定參與者的特征,并利用這些特征來理解其行為。
在使用區(qū)塊鏈ETL工具將區(qū)塊鏈原始數(shù)據(jù)加載到數(shù)據(jù)庫或大數(shù)據(jù)分析平臺后,將標(biāo)注層引入?yún)^(qū)塊鏈數(shù)據(jù)集是進(jìn)行更有價值的區(qū)塊鏈數(shù)據(jù)分析的一個關(guān)鍵挑戰(zhàn)。
這些標(biāo)簽提供了更好的上下文環(huán)境,也讓區(qū)塊鏈分析模型具有更好的可解讀性。不過盡管我們有機(jī)器學(xué)習(xí)這樣強(qiáng)大的工具,去匿名性依然是分析理解區(qū)塊鏈生態(tài)系統(tǒng)的道路上一個不可忽視的重大路障。