去匿名化這個問題怎樣用機(jī)器學(xué)習(xí)來解決

時間：2020-05-14 09:54:01

關(guān)鍵字：區(qū)塊鏈機(jī)器學(xué)習(xí) 模型生態(tài)系統(tǒng)

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀] 標(biāo)注或者去匿名化區(qū)塊鏈的思路可以讓區(qū)塊鏈分析更好地生態(tài)中已知參與者的行為模式和特征。直覺上我們可以考慮創(chuàng)建一些規(guī)則來分析區(qū)塊鏈生態(tài)系統(tǒng)中的不同成員，例如： “如果一個地址持有大量比特幣地

標(biāo)注或者去匿名化區(qū)塊鏈的思路可以讓區(qū)塊鏈分析更好地生態(tài)中已知參與者的行為模式和特征。直覺上我們可以考慮創(chuàng)建一些規(guī)則來分析區(qū)塊鏈生態(tài)系統(tǒng)中的不同成員，例如：

“如果一個地址持有大量比特幣地址并且一次執(zhí)行100個交易，那么這是一個交易所地址……”

雖然很有吸引力，但是基于規(guī)則的方法將很快失效，無法再提供有用的信息。下面列出了部分原因：

1. 預(yù)置知識的完整性：基于規(guī)則的分類會假定我們對于如何識別區(qū)塊鏈生態(tài)中的不同參與者有足夠的知識。這顯然是不正確的假設(shè)。

2. 持續(xù)的變化：區(qū)塊鏈解決方案的架構(gòu)一直都在演變，這對任何嵌入的規(guī)則而言都是挑戰(zhàn)。

3. 特征屬性的數(shù)量：創(chuàng)建一條有兩三個參數(shù)的規(guī)則很簡單，但是試圖創(chuàng)建一條有幾十個甚至上百個參數(shù)的規(guī)則就沒那么簡單了。要識別出像交易所或OTC柜臺這樣的地址需要大量的特征。

因此我們不能使用預(yù)置的規(guī)則，我們需要一種可以從區(qū)塊鏈數(shù)據(jù)集中學(xué)習(xí)模式的機(jī)制來自動推斷出有意義的規(guī)則讓我們可以標(biāo)注相關(guān)的參與方。從概念上來說，這是一個經(jīng)典的機(jī)器學(xué)習(xí)問題。

從機(jī)器學(xué)習(xí)的觀點，我們應(yīng)該從兩個主要途徑來考慮應(yīng)對去匿名化的挑戰(zhàn)：

· 無監(jiān)督學(xué)習(xí)：無監(jiān)督學(xué)習(xí)聚焦于學(xué)習(xí)指定數(shù)據(jù)集中存在的模式并識別相關(guān)分組。在區(qū)塊鏈數(shù)據(jù)集的上下文中，可以使用無監(jiān)督學(xué)習(xí)模型基于地址的特征將其匹配到不同的分組中并對這些分組進(jìn)行標(biāo)注。

· 監(jiān)督學(xué)習(xí)：監(jiān)督學(xué)習(xí)方法可以利用已有的知識來學(xué)習(xí)指定數(shù)據(jù)集中的新的特性。在區(qū)塊鏈上下文中，可以使用監(jiān)督學(xué)習(xí)方法基于已有的交易所地址數(shù)據(jù)集訓(xùn)練一個模型來識別出新的交易所地址。

去匿名化或者給區(qū)塊鏈數(shù)據(jù)集打標(biāo)簽很少是只用監(jiān)督學(xué)習(xí)或者只用非監(jiān)督學(xué)習(xí)，更多的情況下需要兩種方法的結(jié)合。機(jī)器學(xué)習(xí)模型可以有效地學(xué)習(xí)區(qū)塊鏈生態(tài)系統(tǒng)中特定參與者的特征，并利用這些特征來理解其行為。

在使用區(qū)塊鏈ETL工具將區(qū)塊鏈原始數(shù)據(jù)加載到數(shù)據(jù)庫或大數(shù)據(jù)分析平臺后，將標(biāo)注層引入?yún)^(qū)塊鏈數(shù)據(jù)集是進(jìn)行更有價值的區(qū)塊鏈數(shù)據(jù)分析的一個關(guān)鍵挑戰(zhàn)。

這些標(biāo)簽提供了更好的上下文環(huán)境，也讓區(qū)塊鏈分析模型具有更好的可解讀性。不過盡管我們有機(jī)器學(xué)習(xí)這樣強(qiáng)大的工具，去匿名性依然是分析理解區(qū)塊鏈生態(tài)系統(tǒng)的道路上一個不可忽視的重大路障。