分布式数据库从入门到实战
彭旭
惟客数据总架构师
1241 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已更新 18 讲/共 28 讲
分布式数据库从入门到实战
15
15
1.0x
00:00/00:00
登录|注册

17|ClickHouse为什么会给人极致速度的印象?

你好,我是彭旭。
从这一讲开始,我们就进入到 ClickHouse 相关内容。在 ClickHouse 篇,我们会先深入探讨 ClickHouse 的架构设计和表模型,随后,再结合 CDP(客户数据平台)的实际需求,分析 ClickHouse 的性能表现,并探讨优化策略。
这节课我们先来看看 ClickHouse 的起源,核心特征,以及为什么它的查询速度很快。

ClickHouse 起源

有意思的是,StarRocks 起源于百度,用于凤巢广告系统的报表分析,而 ClickHouse 也是起源于一家俄罗斯的搜索引擎公司 Yandex,最初被用在一个叫做 Metrica 的广告在线流量分析系统。它们的诞生是不是很像?
Metrica 广告在线流量分析系统会在前端埋点收集用户行为数据,然后立即进行一系列实时数据分析。这里的“埋点”指的是记录用户在页面上的 Click 点击行为,每次 Click 都会生成一个事件 Event。这些点击事件流会被发送到数据仓库,用于进行在线分析处理(OLAP)。因此,ClickHouse 的全称就是 Click Stream Data Warehouse,简称 ClickHouse。
据说 ClickHouse 在内部存储过万亿行数据的情况下,大部分查询请求都能够做到秒级返回,在 Yandex 内部被广泛用于实时自助分析场景。而且数据量越大,优势相对其他数据库越明显。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. ClickHouse起源于俄罗斯的搜索引擎公司Yandex,最初被用在一个叫做Metrica的广告在线流量分析系统,在内部存储过万亿行数据的情况下,大部分查询请求都能够做到秒级返回,被广泛用于实时自助分析场景。 2. ClickHouse的设计目标是高效的列存储和数据分析,擅长处理大宽表的查询分析,存储模型吸收了LSM的优点,在MergeTree存储引擎中,数据先写入内存中的小块文件,然后定期将这些小块文件合并成更大的文件,最终形成一个有序的数据文件。 3. 列式存储和向量化执行是ClickHouse能够实现极致速度的关键,列式存储有利于数据压缩和减少I/O消耗,向量化执行通过将相同的操作同时应用于一组数据元素,提高计算效率。 4. ClickHouse支持丰富灵活的表引擎,包括合并树(MergeTree)家族、日志引擎系列、集成表引擎、其他特殊表引擎4大类,每一个表引擎都有自己的特点,适合不同的业务场景。 5. ClickHouse的表引擎设计融合了大象和猎豹的特点,以便在不同情况下灵活应用,比如MergeTree表引擎系列支持大规模复杂数据的持久化存储,而Memory存储引擎则适合于临时的实时计算和快速查询。 6. ClickHouse的列式存储和向量化执行技术使得其在OLAP场景下能够实现极致的查询速度,适合于批量导入与分析场景。 7. ClickHouse的索引支持和分布式架构进一步提升了性能,包括稀疏索引、跳数索引、多线程执行和分布式存储等特点。 8. ClickHouse的核心特征,列式存储、极致压缩、向量化执行、分布式架构与并发执行等构成了它极致性能的基石。 9. ClickHouse持续集成、持续改进,不断尝试将硬件的功效、算法的性能等最大化,造就了今天极致性能的ClickHouse。 10. ClickHouse属于MPP架构,同时使用多线程模型,这与传统的多线程模型有所不同,体现了其在数据处理性能上的优势。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《分布式数据库从入门到实战》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部