大数据应用实战
曹犟
曹犟|神策数据联合创始人 & CTO
41 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已更新 2 讲/共 30 讲
第一章 大数据系统架构设计 (1讲)
大数据应用实战
15
15
1.0x
00:00/00:00
登录|注册

01|架构设计:一个典型的大数据系统的架构设计是怎么样的?

你好,我是曹犟。
欢迎来到这门课程的第一部分,在这一部分中,我将帮你了解如何设计一个典型的大数据系统。我们会先用一节课程来了解一个大数据系统的整体架构设计。然后,我们会顺着整个数据流的方向,依次探讨系统的各个环节应该如何设计。在这个过程中,我会尽量以开源组件等公开技术为准,方便你在构建自己的系统时进行参考。
与任何技术系统的设计一样,只有先明确了目标,我们才能根据目标的约束,对方案进行取舍与权衡,最终确定技术设计。
因此,在讨论具体的系统架构如何设计之前,我们有必要先来看看,一个大数据系统设计时,应该有哪些设计目标,它们会对本课程讨论的系统设计哲学有哪些影响。

设计目标与设计哲学

作为一个大数据系统,在设计的时候,需要确定如下的设计目标。
首先是数据类型,也就是系统需要能够采集和处理哪些类型的数据。典型的数据包括结构化数据和非结构化数据。日志、数据库等,是结构化数据,而视频、图片、用户评论等,这些则是典型的非结构化数据。
过往大部分数据系统,都是侧重于结构化数据的处理,而大模型技术带来的多模态处理能力进步,让非结构化数据的处理变成了可能。因此我们的设计目标也是以结构化数据的处理为主,但是会在第 22 节课中专门讨论如何利用大模型的能力处理非结构化数据。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 大数据系统设计目标包括数据类型、数据量、时效性、成本、安全与隐私、可维护性。 2. 在大数据系统设计中需要进行取舍与权衡,包括一致性、可用性、分区容错性的选择、批处理与流处理的选择、OLTP 和 OLAP 的取舍、数据质量和处理速度的权衡、成本与性能的选择。 3. 大数据系统设计需要根据业务需求决定产品设计,产品设计决定技术选型,技术选型所带来的技术限制也会影响产品的具体实现。 4. 典型大数据系统的逻辑分层包括数据源、数据采集、接入层、数据传输层、数据存储层、计算层和系统应用接口。 5. 真实案例展示了从日志统计到用户数据仓库的演进过程,以及在实践中不断迭代演进的大数据系统架构。 6. 在实践中,大数据系统需要不断迭代,解决问题如数据Schema控制、数据血缘管理、计算任务合并、支持adhoc类型的交互式分析等。 7. 大数据系统的设计需要根据具体业务需求进行裁剪和修改,适配自身业务需求。 8. 对于数据分析师和产品经理来说,了解大数据系统的技术设计有助于提出合理的数据和产品需求,以及与开发同事高效沟通。 9. 思考题包括对其他复杂系统设计取舍的依据以及过往工作中大数据系统的逻辑分层划分情况。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《大数据应用实战》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部
文章页面操作
MAC
windows
作用
esc
esc
退出沉浸式阅读
shift + f
f11
进入/退出沉浸式
command + ⬆️
home
滚动到页面顶部
command + ⬇️
end
滚动到页面底部
⬅️ (仅针对订阅)
⬅️ (仅针对订阅)
上一篇
➡️ (仅针对订阅)
➡️ (仅针对订阅)
下一篇
command + j
page up
向下滚动一屏
command + k
page down
向上滚动一屏
p
p
音频播放/暂停
j
j
向下滚动一点
k
k
向上滚动一点
空格
空格
向下滚动一屏
播放器操作
MAC
windows
作用
esc
esc
退出全屏
⬅️
⬅️
快退
➡️
➡️
快进
空格
空格
视频播放/暂停(视频全屏时生效)