分布式数据库30讲
王磊
光大银行首席数据架构师
新⼈⾸单¥19.9
2312 人已学习
课程目录
已更新 19 讲 / 共 33 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词|为什么要学习分布式数据库?
免费
基础篇 (8讲)
01|什么是分布式数据库?
02|强一致性:那么多数据一致性模型,究竟有啥不一样?
03|强一致性:别再用BASE做借口,来看看什么是真正的事务一致性
04 | 架构风格:NewSQL和PGXC到底有啥不一样?
05 | 全局时钟:物理时钟和逻辑时钟你Pick谁?
06 | 分片机制:为什么说Range是更好的分片策略?
07 | 数据复制:为什么有时候Paxos不是最佳选择?
08 | 基础篇大串讲:重难点回顾+思考题答疑+知识全景图
开发篇 (10讲)
09|原子性:2PC还是原子性协议的王者吗?
10 | 原子性:如何打破事务高延迟的魔咒?
11|隔离性:读写冲突时,快照是最好的办法吗?
12 | 隔离性:看不见的读写冲突,要怎么处理?
13 | 隔离性:为什么使用乐观协议的分布式数据库越来越少?
14 | 隔离性:实现悲观协议,除了锁还有别的办法吗?
15 | 分布式事务串讲:重难点回顾+思考题答疑+知识全景图
16 | 为什么不建议你使用存储过程?
17 | 为什么不建议你使用自增主键?
18 | HTAP是不是赢者通吃的游戏?
分布式数据库30讲
15
15
1.0x
00:00/00:00
登录|注册

18 | HTAP是不是赢者通吃的游戏?

王磊 2020-09-18
你好,我是王磊,你也可以叫我 Ivan。
这一讲的关键词是 HTAP,在解释这个概念前,我们先要搞清楚它到底能解决什么问题。
有关 OLTP 和 OLAP 的概念,我们在第 1 讲就已经介绍过了。OLTP 是面向交易的处理过程,单笔交易的数据量很小,但是要在很短的时间内给出结果;而 OLAP 场景通常是基于大数据集的运算。
OLAP 和 OLTP 通过 ETL 进行衔接。为了提升 OLAP 的性能,需要在 ETL 过程中进行大量的预计算,包括数据结构的调整和业务逻辑处理。这样的好处是可以控制 OLAP 的访问延迟,提升用户体验。但是,因为要避免抽取数据对 OLTP 系统造成影响,所以必须在日终的交易低谷期才能启动 ETL 过程。这样一来, OLAP 与 OLTP 的数据延迟通常就在一天左右,习惯上大家把这种时效性表述为 T+1。其中,T 日就是指 OLTP 系统产生数据的日期,T+1 日是 OLAP 中数据可用的日期,两者间隔为 1 天。
你可能已经发现了,这个体系的主要问题就是 OLAP 系统的数据时效性,T+1 太慢了。是的,进入大数据时代后,商业决策更加注重数据的支撑,而且数据分析也不断向一线操作渗透,这都要求 OLAP 系统更快速地反映业务的变化。

两种解决思路

说到这,你应该猜到了,HTAP 要解决的就是 OLAP 的时效性问题,不过它也不是唯一的选择,这个问题有两种解决思路:
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《分布式数据库30讲》,如需阅读全部文章,
请订阅文章所属专栏新⼈⾸单¥19.9
立即订阅
登录 后留言

精选留言(4)

  • tt
    没有接触过OLAP。

    是不是可以不用每次都去请求“最新”的日志增量,而是按需请求数据:本地保存一个数据新旧的时间戳,如果早于读请求的时间戳,就不用去请求了;

    或者设置一个质量因子,可以做到分配请求数据,采用类似滑动平均的算法,动态计算目标指标,达到质量要求后就停止请求数据。
    2020-09-18
    1
  • 游弋云端
    可以后台启动一个轮询日志增量的线程,当差异大于一定量的时候触发实际的数据同步。或者在心跳包中增加一个版本用于比对,当差异大的时候,触发主动同步。这样不用等到请求到达时触发,省掉这个等待时延。但是由于是Raft的非成员节点,怎么做都会有一定的数据差异,单对于大多OLAP分析场景应该是足够使用了。
    2020-09-18
  • myrfy
    当客户请求的时间戳可以确信小于服务端的时间戳时。难点应该就是如何保证客户端和服务端在时间上的同步。
    2020-09-18
  • Fan()
    受益匪浅
    2020-09-18
收起评论
4
返回
顶部