大数据应用实战
15
15
1.0x
00:00/00:00
登录|注册

04|接入与传输:成本、可靠性、时效性与安全合规应如何平衡?

你好,我是曹犟。
在上一节课中,我们讨论了怎么样针对不同的数据源,设计不同的数据采集方案。而数据在采集了之后,就需要通过网络,传输到大数据系统中。负责接收这些通过网络传输过来数据的,就是数据接入层。而数据在接入之后,需要在系统的各个组件之间进行可靠高效的传输,这就是数据传输层需要解决的问题。
在这节课中,我们首先会结合实际应用中的挑战,来讨论数据接入层和传输层的设计与实现。为了方便大家应用在自己的项目之中,我们依然会以开源免费方案作为核心技术选型,同时,在架构设计上尽量保证对不同类型应用的通用性。
同时,在过往的实践中,我发现在成本有限的情况下,同时兼顾可靠性、时效性和安全性会是一个主要的技术挑战,在这节课中,也会对此进行讨论。

数据接入层的选型与实现

数据接入层可以看作一个大数据系统的“门户”。我们通过各种方式采集的数据,都需要通过公网或者内网以网络传输的方式发送给接入层。
数据接入层的选型和数据采集方案是紧密相关甚至是应该一体化的。
简单回顾下,我们在上一节的数据采集课程中,对于流式数据源,主要使用神策的客户端 SDK 采集公网的客户端数据,使用 Fluentd Agent 来采集服务端日志,使用 Seatunnel 来采集数据库的增量数据。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 数据接入层的选型与实现是大数据系统中的关键环节,需要考虑统一使用 Fluentd 来承接所有的流式数据流,并在数据接入层方面采用直连的方式将批量数据写入存储中。 2. 数据传输层的选型与实现需要考虑高吞吐量、低延迟、高可用性、数据一致性和可扩展性,其中 Apache Kafka 是最理想的技术选型,而在特定场景下也可以考虑 Apache Pulsar。 3. 在大数据系统设计中,成本控制是决定架构方案可行性的关键因素,需要在成本、可靠性、时效性三方面根据业务需要做折衷,选择开源免费方案、具备弹性伸缩的方案,并支持容器化部署,以实现资源的高效利用。 4. 安全合规是一个刚性目标,不应该被牺牲,需要采用合理的数据加密策略、访问控制与身份认证,并建立全链路的审计体系,以满足安全合规要求。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《大数据应用实战》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(1)

  • 最新
  • 精选
  • 亚林
    一般小公司或预算有限的项目,Kafka集群都用不起
    2025-10-31归属地:中国香港
收起评论
显示
设置
留言
1
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部
文章页面操作
MAC
windows
作用
esc
esc
退出沉浸式阅读
shift + f
f11
进入/退出沉浸式
command + ⬆️
home
滚动到页面顶部
command + ⬇️
end
滚动到页面底部
⬅️ (仅针对订阅)
⬅️ (仅针对订阅)
上一篇
➡️ (仅针对订阅)
➡️ (仅针对订阅)
下一篇
command + j
page up
向下滚动一屏
command + k
page down
向上滚动一屏
p
p
音频播放/暂停
j
j
向下滚动一点
k
k
向上滚动一点
空格
空格
向下滚动一屏
播放器操作
MAC
windows
作用
esc
esc
退出全屏
⬅️
⬅️
快退
➡️
➡️
快进
空格
空格
视频播放/暂停(视频全屏时生效)