第15讲 | 深入区块链技术（七）：哈希与加密算法

陈浩



该思维导图由 AI 生成，仅供参考

区块链最核心的两个技术点是共识机制和密码学，由于共识机制是公链的基础，所以这部分内容我已经在前面的内容中优先讲解了。
接下来，我来讲一讲区块链的密码学基础，有关区块链密码学你只需要了解它的基本原理和优劣即可。
另外，区块链的密码学中文资料也十分丰富，如果你感兴趣的话，可以在学有余力的基础上酌情深入。
区块链中主要应用了两类密码学算法，第一类是哈希算法，第二类是非对称加密算法。
我们先来看看哈希算法。
1. 哈希算法哈希算法是一类数学函数算法，又称散列算法，它是一种数据映射关系。
为了方便举例，我们假设 h = HASH( X | z )，你输入一个任意长的数据 z，经过哈希运算后，返回给你固定长度的数据 h，z 叫做原像，h 是哈希结果，又称作“数据指纹”，z 可选的数据集合构成了 X。
哈希算法具有下面的 4 种特性。
原像不可逆。原像不可逆是指对于任意给定的 h，都无法依据 h 自身的信息推导出 z。
难题友好性。难题友好性通俗的理解就是如果要得到难题答案，你只能暴力枚举，没有比这更好的方法。在 h = HASH( X | z ) 中，从 h 无法推导出 z，只能不断地计算尝试，那么 z 所在的数值集合构成了 X，X 的大小是哈希算法的安全因子之一。
发散性。发散性是指对于任意的 z，即使我们只改动非常少的信息量，例如改动 1 个比特位生成 z'，那么 HASH(z) 与 HASH(z') 就是两个大相径庭的结果，完全不相似。
抗碰撞性。抗碰撞性是指对于任意两个不相同的 z，那么他们对应的 h 值也不同。如果对于任意的 y 不等于 z，则  HASH(y) 不等于 HASH(z)；满足上述定义哈希特性的算法，我们也称作具有严格抗碰撞性。如果我们任意给定一个 z，你都无法找到另外一个 z'，使得其值也等于 h，满足这样的哈希特性的算法就有弱抗碰撞性。
目前流行的 Hash 算法包括了 MD5、SHA-1 和 SHA-2，其中 MD5 被证明不具有强抗碰撞性。SHA （Secure Hash Algorithm）是一个 Hash 函数族，分为 SHA-1、SHA-2、SHA-3，代表了三代哈希标准，目前使用比较多的是 SHA-2 系列。
第一代的 SHA-1 基于 MD4 设计，并且模仿了该算法，SHA-1 已被证明了不具备“强抗碰撞性”，所以安全性不够高。
为了提高安全性，第二代 SHA-2 一共包含了 SHA-224、SHA-256、SHA-384，和 SHA-512 算法（统称为 SHA-2），它们跟 SHA-1 算法原理类似。SHA-3 相关算法也已被提出，它的出现并不是要取代 SHA-2，因为 SHA-2 目前并没有出现明显的弱点。
由于对 MD5、和 SHA-1 出现成功的破解，我们需要一个不同与之前算法，可替换的加密散列算法，也就是现在的 SHA-3。
1.1 区块链上的哈希算法哈希算法被广泛地使用在构造和验证区块、交易的完整性上，由于哈希算法的四个特性，使得我们可以把任意的交易数据做成数据摘要，然后再一个一个链接起来，形成数据块的链式结构。
这样我们可以通过验证每个区块间接地验证交易，然后每个交易原数据也可以做成哈希数据摘要，用于验证交易数据的完整性。
我们借用比特币开发者文档中的图，这个图表达了区块链的基本数据结构，
在图中可以看出，当前区块里面包含上一个区块的哈希，形成一个哈希指针链表，由于哈希的发散性，所以这个链表也有极大的发散性。
我们可以用代码模拟一遍，我们先列表构造 5 个简化的区块，其中第一个块是创世区块，我们规定它指向的前向区块的哈希全为零；
后面第 2 个块，第 3 个块中 content 分别记录了两笔交易，这里为了方便理解，我使用了文字表述交易的内容，实际上，区块链上的交易是二进制格式化的数据，而不是文本数据。代码中并没有填充哈希，是在运行时填充的。
#!/usr/bin/env python
import hashlib
def main():
# example:
block_headers = [
        {"prev_block_hash":"0000000000000000000000000000000000000000000000000000000000000000", "content":"genesis block:A pay C 12.3 BTC"},
        {"prev_block_hash":"to_be_hashed", "content":"2nd block:C pay B 2.0 BTC"},
        {"prev_block_hash":"to_be_hashed", "content":"3th block:transactions..."},
        {"prev_block_hash":"to_be_hashed", "content":"4th block:transactions...j"},
        {"prev_block_hash":"to_be_hashed", "content":"5th block:transactions..."}
        ]
# hash prev block header
index = 0
for header in block_headers:
    # genesis block, ignore
    if index == 0:
        print header
        index = index + 1
        continue
    # generate hash chain
    prev_block_header = block_headers[index - 1]
    target_buffer = prev_block_header["content"] + prev_block_header["prev_block_hash"]
    header["prev_block_hash"] = hashlib.sha256(target_buffer).hexdigest()
    print header
    index = index + 1
if __name__ == '__main__':
main()
我们可以直接得到结果，这是一个典型的哈希指针链表，每一个区块的 prev_block_hash 域指向上一个区块哈希。
{'content': 'genesis block:A pay C 12.3 BTC', 'prev_block_hash': '0000000000000000000000000000000000000000000000000000000000000000'}
{'content': '2nd block:C pay B 2.1 BTC', 'prev_block_hash': '01279c1208a8eca3d4a47a123119b04f1dcc592c818aace2715b2c418b38822a'}
{'content': '3th block:transactions...', 'prev_block_hash': '6d96c220b22371dc1d2b3549da42bd3ea2191f07f18112bf195bc6675bbc6b97'}
{'content': '4th block:transactions...j', 'prev_block_hash': '9e41c61fa151320145a56a38e85c01b8c025729614f4c10596d99068ea0b3395'}
{'content': '5th block:transactions...', 'prev_block_hash': '34f002b445a38fa7402e590629e76943060ffc4de96b1b9bc6b0f564e5a7bc72'}
如果我们将第二块中的 content 从 "C pay B 2.1 BTC" 修改为 "C pay B 2.0 BTC"，那么我们将得到如下结果，我们可以发现从第三个块往后所有的块指向的前一个区块的哈希都不再与上面的一致。
{'content': 'genesis block:A pay C 12.3 BTC', 'prev_block_hash': '0000000000000000000000000000000000000000000000000000000000000000'}
{'content': '2nd block:C pay B 2.0 BTC', 'prev_block_hash': '01279c1208a8eca3d4a47a123119b04f1dcc592c818aace2715b2c418b38822a'}
{'content': '3th block:transactions...', 'prev_block_hash': 'f91faad6b874fb97a20ad9cbc57ef1302a431a2cce4ac5efe28a64b353526849'}
{'content': '4th block:transactions...j', 'prev_block_hash': '99d17dfe9a9fab68cffd6a82bc3786fe3c2d3165f1fba30b3f2ffc418c97fc8b'}
{'content': '5th block:transactions...', 'prev_block_hash': 'd2f42291ef0811e5babc1d38ca8019ee457f84b323a3d549a04b6a4535357d7f'}
以上我们构造了一个极简的区块链的基本结构，区块头描述了一个区块的基本信息，在实际应用中，里面通常包含了下面的几个内容。
图中有当前区块高度、本区块的哈希、前一区块哈希、nonce 值等等。
所以前一区块哈希是一个区块头必备的数据域，这种链式结构具备发散传导性，越往历史以前的篡改，越容易导致大面积的影响，这也叫做历史逆向修改困难。
在 PoW 共识机制的情况下，这种逆向修改的难度会随着当前全网算力线性增长。
1.2 默克尔树（Merkle tree）哈希算法的一个重要应用是默克尔树（Merkle tree），默克尔树是一种数据结构，通常是一个二叉树，也有可能是多叉树，它以特定的方式逐层向上计算，直到顶部，最顶层叫做默克尔根，默克尔树最为常见和最简单的是二叉默克尔树。
默克尔树的基本结构如下图。
（图片来自维基百科）
比特币和以太坊都使用了默克尔树这种数据结构，只不过里面存放的数据都是哈希。我们在比特币的核心版本源码中可以发现注释中有介绍。
（图片来自比特币 Core 源码）
以太坊中针对比特币的设计做了改进，叫做默克尔帕特里夏树 (Merkle Patricia tree），相对于比特币在块头中只有一棵树，以太坊有三棵树。
区块链的挖矿算法也应用了哈希算法，挖矿算法利用的是其难题友好性，我们在 PoW 共识机制中讲解过，这里不再赘述。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

本文深入探讨了区块链技术中的哈希算法及其在区块链中的应用，以及非对称加密算法的重要性。哈希算法作为一种数据映射关系，具有原像不可逆、难题友好性、发散性和抗碰撞性等特性，在区块链中被广泛应用于构造和验证区块、交易的完整性，实现了数据的不可篡改性和历史逆向修改困难。文章介绍了流行的哈希算法包括MD5、SHA-1和SHA-2，并通过代码模拟了区块链的构造过程，展示了区块链的基本数据结构和区块头的内容。此外，非对称加密算法的重要性也得到了强调，特别是在数字货币项目中，非对称加密算法在账户层面的应用成为了必然选择。文章还对量子计算威胁进行了讨论，指出了量子计算对整个密码学体系的潜在威胁，但也提出了对于量子计算威胁的理性看法。总的来说，本文通过深入浅出的方式介绍了哈希算法在区块链中的重要作用，为读者提供了对区块链密码学基础的基本原理和应用场景的了解。文章内容涵盖了区块链技术中的密码学基础，对于想要快速了解区块链技术的读者来说，具有很高的参考价值。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《深入浅出区块链》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(15)

最新
精选

我才是二亮
比特币有三种地址类型： 1、以数字1开头的P2PKH类型 2、以数字3开头的P2SH类型 3、以bc1开头的Bech32类型其中： 1、P2PKH是支付对PubkeyHash 2、P2SH是支付对脚本散列(Pay-to-script-hash) 3、Bech32是由BIP 0173指定的segwit 地址格式。
作者回复: 赞，打call
2018-04-28

22
朱显杰
文中没有提到，哈希算法和非对称加密相结合可以作为数字签名，这在区块链交易中应用的非常广泛
作者回复: 谢谢补充
2018-05-01

15
寄意兰舟
比特币核心版本源码在哪里可以看到啊？能给个链接？
作者回复: github上搜bitcoin
2018-05-13

6
四正
其实，哈希函数本质上就是把无限的信息映射到有限的空间中。无论摘要用多少个比特存储，终究是有限的。那么就必然存在碰撞的情况。当然，实际应用中这个概率可以忽略不计
作者回复: 是的
2018-04-28

5
iusugar
“如果对于任意的 y 不等于 z，则 HASH(y) 不等于 HASH(z)；如果我们任意给定一个 z，你都无法找到另外一个 z'，使得其值也等于 h”，老师这两句话难道不是一个意思吗？
作者回复: 前者是充分条件后者是必要条件破解是一个逆向过程，逆向过程满足必要条件即可，而我们在定义时规定的是充分条件。
2019-11-07

2
良辰美景
第二节你有个链接文章说的。每个用户都有个保密印章和印章扫描器。保密印章就是私钥么，印章扫描器又是怎么实现的
作者回复: 为了方便解释，举的例子。扫描器即是交易验证，又是交易解锁逻辑的实现。
2018-04-28


A君
区块链上的节点会对它上一个节点的内容+对上上节点内容的哈希再做一次（或多次）哈希并作为上一个节点的哈希，因此链上一个节点的内容更新后，它的后续所有节点的区块头都会改变，这个改动成本非常大，因此这也是区块链不可被更改的由来。
2021-02-19

2
朱月俊
请教一个问题：公钥和地址是客户互相转换的？
2019-03-27

2
teletime
公钥转为地址不可逆，那节点如何得到公钥？来进行交易验证
2018-05-08
1
2
sun留白
感觉区块的追溯有点像链表，如果中间打断加入一个，改前一个和后一个补救篡改了吗？除非后一块的哈市输入值还包括前一块的hash结果。有同学可以讨论一下吗？
2020-02-17
1


收起评论