04|接入与传输:成本、可靠性、时效性与安全合规应如何平衡?
曹犟

你好,我是曹犟。
在上一节课中,我们讨论了怎么样针对不同的数据源,设计不同的数据采集方案。而数据在采集了之后,就需要通过网络,传输到大数据系统中。负责接收这些通过网络传输过来数据的,就是数据接入层。而数据在接入之后,需要在系统的各个组件之间进行可靠高效的传输,这就是数据传输层需要解决的问题。
在这节课中,我们首先会结合实际应用中的挑战,来讨论数据接入层和传输层的设计与实现。为了方便大家应用在自己的项目之中,我们依然会以开源免费方案作为核心技术选型,同时,在架构设计上尽量保证对不同类型应用的通用性。
同时,在过往的实践中,我发现在成本有限的情况下,同时兼顾可靠性、时效性和安全性会是一个主要的技术挑战,在这节课中,也会对此进行讨论。
数据接入层的选型与实现
数据接入层可以看作一个大数据系统的“门户”。我们通过各种方式采集的数据,都需要通过公网或者内网以网络传输的方式发送给接入层。
数据接入层的选型和数据采集方案是紧密相关甚至是应该一体化的。
简单回顾下,我们在上一节的数据采集课程中,对于流式数据源,主要使用神策的客户端 SDK 采集公网的客户端数据,使用 Fluentd Agent 来采集服务端日志,使用 Seatunnel 来采集数据库的增量数据。
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

1. 数据接入层的选型与实现是大数据系统中的关键环节,需要考虑统一使用 Fluentd 来承接所有的流式数据流,并在数据接入层方面采用直连的方式将批量数据写入存储中。 2. 数据传输层的选型与实现需要考虑高吞吐量、低延迟、高可用性、数据一致性和可扩展性,其中 Apache Kafka 是最理想的技术选型,而在特定场景下也可以考虑 Apache Pulsar。 3. 在大数据系统设计中,成本控制是决定架构方案可行性的关键因素,需要在成本、可靠性、时效性三方面根据业务需要做折衷,选择开源免费方案、具备弹性伸缩的方案,并支持容器化部署,以实现资源的高效利用。 4. 安全合规是一个刚性目标,不应该被牺牲,需要采用合理的数据加密策略、访问控制与身份认证,并建立全链路的审计体系,以满足安全合规要求。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《大数据应用实战》,新⼈⾸单¥59
《大数据应用实战》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(1)
- 最新
- 精选
亚林一般小公司或预算有限的项目,Kafka集群都用不起2025-10-31归属地:中国香港
收起评论