04｜接入与传输：成本、可靠性、时效性与安全合规应如何平衡？

曹犟

你好，我是曹犟。
在上一节课中，我们讨论了怎么样针对不同的数据源，设计不同的数据采集方案。而数据在采集了之后，就需要通过网络，传输到大数据系统中。负责接收这些通过网络传输过来数据的，就是数据接入层。而数据在接入之后，需要在系统的各个组件之间进行可靠高效的传输，这就是数据传输层需要解决的问题。
在这节课中，我们首先会结合实际应用中的挑战，来讨论数据接入层和传输层的设计与实现。为了方便大家应用在自己的项目之中，我们依然会以开源免费方案作为核心技术选型，同时，在架构设计上尽量保证对不同类型应用的通用性。
同时，在过往的实践中，我发现在成本有限的情况下，同时兼顾可靠性、时效性和安全性会是一个主要的技术挑战，在这节课中，也会对此进行讨论。
数据接入层的选型与实现数据接入层可以看作一个大数据系统的“门户”。我们通过各种方式采集的数据，都需要通过公网或者内网以网络传输的方式发送给接入层。
数据接入层的选型和数据采集方案是紧密相关甚至是应该一体化的。
简单回顾下，我们在上一节的数据采集课程中，对于流式数据源，主要使用神策的客户端 SDK 采集公网的客户端数据，使用 Fluentd Agent 来采集服务端日志，使用 Seatunnel 来采集数据库的增量数据。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. 数据接入层的选型与实现是大数据系统中的关键环节，需要考虑统一使用 Fluentd 来承接所有的流式数据流，并在数据接入层方面采用直连的方式将批量数据写入存储中。 2. 数据传输层的选型与实现需要考虑高吞吐量、低延迟、高可用性、数据一致性和可扩展性，其中 Apache Kafka 是最理想的技术选型，而在特定场景下也可以考虑 Apache Pulsar。 3. 在大数据系统设计中，成本控制是决定架构方案可行性的关键因素，需要在成本、可靠性、时效性三方面根据业务需要做折衷，选择开源免费方案、具备弹性伸缩的方案，并支持容器化部署，以实现资源的高效利用。 4. 安全合规是一个刚性目标，不应该被牺牲，需要采用合理的数据加密策略、访问控制与身份认证，并建立全链路的审计体系，以满足安全合规要求。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《大数据应用实战》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(1)

最新
精选

亚林
一般小公司或预算有限的项目，Kafka集群都用不起
2025-10-31归属地：中国香港



收起评论