區(qū)塊鏈技術是一系列技術的結合,建立一種新的技術架構,hash算法是其中尤為重要的一塊,這里簡單對hash算法做一個說明。如果有理解不當的地方請及時指正。
講hash算法之前先明確一個基礎的計算機知識,計算機在底層機器碼是采用二進制的模式,所謂二進制簡單來說就是底層以0/1來標識,所有數據傳輸記錄都以010101的模式來存儲記錄,兩種狀態(tài)也可認為就是一個日常生活中的開關,1標識開,0標識關。那么計算機中最小的數據單位也就是這里說的0或者1,這里我們稱為bit(比特或者位),8個bit組成一個字節(jié)。當然計算機中也有八進制、十六進制的表示,這里暫時不展開討論。只明確底層一個二進制的概念。
Hash算法將任意長度的二進制值映射為較短的固定長度的二進制值,這個小的二進制值稱為哈希值。哈希值是一段數據唯一且極其緊湊的數值表示形式。如果散列一段明文而且哪怕只更改該段落的一個字母,隨后的哈希都將產生不同的值。要找到散列為同一個值的兩個不同的輸入,在計算上是不可能的,所以數據的哈希值可以檢驗數據的完整性。一般用于快速查找和加密算法。
再引入一個hash表概念,計算機數據結構中,給定一個表M,關鍵字key,存在函數H(key),對任意給定的關鍵字值key,代入函數后若能得到包含該關鍵字的記錄在表中的地址,則稱表M為hash表。
簡單理解hash算法就是這一種單向的加密,一個明文加密稱為密文,不可逆推,只有加密過程,沒有解密過程。說明了hash函數和hash表的概念,那么目前常用的hash算法有MD5(已被破解),SHA系列算法(比特幣中使用sha-256算法)。SHA這里稍微提下(secure hash algorithm)這不是一個算法,這是一個hash函數集,現在有sha-224、sha-256、sha-384、sha-512等算法。在09年中本聰設計比特幣的時候,當時sha-256被認為最安全的算法之一,故選擇了sha-256,到目前為止還沒有被破解。
解釋到這里,可能會聯想到,hash算法中key在計算后如果出現了同一位置,沖突的產生,這里簡單說下幾種沖突處理,如有興趣可以查看hash算法論文。
1.拉鏈法:這種方法可以完全避免沖突,將所有關鍵字為同義詞的結點鏈接在同一個單鏈表中。若選定的散列表長度為m,則可將散列表定義為一個由m個頭指針組成的指針數組t[0..m-1]。凡是散列地址為i的結點,均插入到以t為頭指針的單鏈表中。t中各分量的初值均應為空指針。在拉鏈法中,裝填因子α可以大于1,但一般均取α≤1。
2.多哈希法:設計兩種以上的hash函數,避免沖突,這個感覺比較不靠譜,但是從概率上來說多種hash函數還是降低了沖突的出現。
3.開放地址法:開放地址法有一個公式:Hi=(H(key)+di) MOD m i=1,2,。..,k(k《=m-1),其中,m為哈希表的表長。di 是產生沖突的時候的增量序列。如果di值可能為1,2,3,。..m-1,稱線性探測再散列。如果di取1,則每次沖突之后,向后移動1個位置。如果di取值可能為1,-1,4,-4,9,-9,16,-16,。..k*k,-k*k(k《=m/2),稱二次探測再散列。如果di取值可能為偽隨機數列。稱偽隨機探測再散列。
Hash算法函數根據分類:加法hash、位運算hash、乘法hash、除法hash、查表hash等。
參考百度百科說的比較抽象,有興趣可以深入了解下。
結合區(qū)塊鏈,在區(qū)塊鏈中很多地方都用到了hash函數:
1.區(qū)塊鏈中節(jié)點的地址、公鑰、私鑰的計算。以地址為例:公鑰經過一次SHA256計算,再進行一次RIPEMD160計算,得到一個公鑰哈希(20字節(jié)160比特),添加版本信息,再來兩次SHA256運算、取前4比特字節(jié),放到哈希公鑰加版本信息后,再經過base58編碼,最終得到地址。
2.merkle tree:是數據結構中的一種樹結構,可以是二叉樹,也可以是多叉樹,他和數據結構中樹的特點幾乎一致,和普通樹不同的是:merkle tree上的葉節(jié)點存放hash計算后的hash值,非葉節(jié)點是其對應的子節(jié)點串聯的字符串的hash值。用于區(qū)塊頭和SPV認證中。
3.比特幣中的挖礦,工作量證明(pow),計算的其實就是一個nonce,當這個隨機數和其他散列過的數據合并時,產生一個比規(guī)定目標小(target)值。挖礦也可以理解一種快速不可逆的計算。SHA256(SHA256(version + prev_hash + merkle_root + ntime + nbits + x )) 《 TARGET。
4.比特幣中的bloom filter布隆過濾器,布隆過濾器基于hash函數的快速查找。解決了客戶端檢索的問題,原理是Bloom filter可以快速判斷出某檢索值一定不存在于某個指定的集合,從而可以過濾掉大量無關數據,減少客戶端不必要的下載量。
簡單介紹了HASH算法,和區(qū)塊鏈中用到的HASH算法,區(qū)塊鏈是多個技術的結合,結合各自特點出現的一種新的技術架構,HASH算法和加密技術為區(qū)塊鏈的自證信任化及安全控制提供了基礎,算法的碰撞和現在量子計算的發(fā)展,之前在區(qū)塊鏈的安全性的文章中筆者有過說明,技術不斷發(fā)展,肯定會有更適合的技術保障應用的實現。